WO2013128611A1 - データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 - Google Patents

データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 Download PDF

Info

Publication number
WO2013128611A1
WO2013128611A1 PCT/JP2012/055198 JP2012055198W WO2013128611A1 WO 2013128611 A1 WO2013128611 A1 WO 2013128611A1 JP 2012055198 W JP2012055198 W JP 2012055198W WO 2013128611 A1 WO2013128611 A1 WO 2013128611A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
data management
matching
schema
information
Prior art date
Application number
PCT/JP2012/055198
Other languages
English (en)
French (fr)
Inventor
春名 高明
児玉 昇司
浦野 明裕
陽介 石井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2012/055198 priority Critical patent/WO2013128611A1/ja
Publication of WO2013128611A1 publication Critical patent/WO2013128611A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Definitions

  • the present invention relates to a data management system that manages a database that stores data for each item according to a plurality of schemas, and more particularly to a data management system that matches schemas of a plurality of databases.
  • Schema matching is a process of identifying locations that express the same information between schemas of different databases and integrating the identified locations, and is automated using a computer.
  • Schema matching associates locations represented by these names, thereby integrating these locations and enabling data processing to be executed collectively for these locations.
  • Patent Document 1 As a system that automatically executes schema matching, a system that associates column names with each other by using data actually stored corresponding to the column names of a database is known (see, for example, Patent Document 1). In Patent Document 1, even if the column names are different, if the stored data is common, the schema matching is advanced on the assumption that the column names are likely to be common. Further, Patent Document 1 realizes schema matching that can cope with differences in data representation, data errors, data loss, and the like.
  • Patent Document 1 Even in Patent Document 1 in which schema matching is executed based on actually stored data, information for association is insufficient, and supplementary work may be required manually. For this reason, there is a demand for schema matching using data other than data stored in correspondence with column names and column names.
  • the database for schema matching is designed when the database is constructed.
  • the design of the schema reflects the designer's belief about what meaning is given to each item expressed by the database column name.
  • Patent Document 1 which implements schema matching based only on the database column name, etc. It can be said that the accuracy of this is reduced.
  • an object of the present invention is to provide a data management system that improves the accuracy of schema matching and reduces manual work.
  • a typical example of the invention disclosed in the present application is as follows. That is, in a plurality of databases storing data for each item according to a plurality of schemas, and a data management system for managing attribute definition information for defining attributes related to items of the schema for each schema, the plurality of databases and the attribute definitions A storage area that stores information; and a processor that refers to the storage area.
  • the attribute definition information includes an attribute name that is a name of the attribute and related information related to the attribute.
  • the processor refers to the attribute definition information of the matching schema, specifies the attribute name and related information of the matching schema, and specifies the specified attribute name And matching attributes included in the multiple schemas based on related information And wherein the Rukoto.
  • program may be described as the subject, but the program executes processing defined by being executed by the processor using the memory and the communication port (communication control interface). The description may be based on the processor. Further, the processing disclosed with the program as the subject may be processing executed by a computer such as a management server and an information processing apparatus. Further, part or all of the program may be realized by dedicated hardware.
  • various programs included in the program may be installed in each computer by a program distribution server and a storage medium that can be read by the computer.
  • FIG. 1 is an explanatory diagram of the configuration of the information processing system according to the first embodiment of this invention.
  • the information processing system includes an administrator terminal 1000 and a data management system 1010.
  • the administrator terminal 1000 is a terminal operated by the administrator, and includes an input / output device (1001 shown in FIG. 6), a storage area, and a processor. In an environment where an administrator can directly operate the data management system 1010, the information processing system may not include the administrator terminal 1000.
  • the data management system 1010 is a system that is connected to the administrator terminal 1000 and executes a schema matching process described later, and includes a CPU (processor) 1020, a memory 1030, and storage devices 1040A and 1040B.
  • the CPU 1020, the memory 1030, and the storage devices 1040A and 1040B are connected to each other by a bus or the like.
  • CPU 1020 executes various programs 1050 to 1070 stored in memory 1030.
  • the memory 1030 stores an OS (Operating System) 1050, a similarity calculation program 1060, and a schema matching program 1070.
  • OS Operating System
  • the OS 1050 is a program that manages the entire data management system 1010.
  • the similarity calculation program 1060 refers to the design document file A1041 and the design document file B1042 stored in the storage device 1040A, and includes attributes included in the design contents (schema) of the database of the accumulation file 1046 stored in the storage device 1040A.
  • a similarity calculation process for calculating the similarity between each other is executed. Details of the similarity calculation processing will be described with reference to FIG.
  • the schema matching program 1070 is included in different schemas based on the similarity between the schema described in the design document file A1041 calculated by the similarity calculation program 1060 and the attributes included in the schema described in the design document file B1042. Schema matching processing is performed for associating attributes to be attributed as attributes having the same meaning. Details of the schema matching process will be described with reference to FIG.
  • the similarity calculation program 1060 and the schema matching program 1070 are not necessarily executed by the same computer, and may be executed by different computers.
  • the computer that executes the similarity calculation program 1060 and the computer that executes the schema matching program 1070 are collectively referred to as a data management system 1010.
  • the storage device 1040A stores a design document file A1041, a design document file B1042, and an accumulation file 1046.
  • the accumulation file 1046 is a set of various data files including a database, and the database has a data structure for storing data for each item in accordance with design information (schema) described in the design document file A 1041 or the design document file B 1042.
  • Design information (schema) for storing data in the data file is registered in the design document file A 1041 and the design document file B 1042. Details of the design document file A 1041 and the design document file B 1042 will be described in detail with reference to FIGS. 2A and 2B.
  • the storage device 1040B stores a character string classification table 1043, a weighting table 1044, and a correspondence table 1045.
  • the character string classification table 1043 is referred to in order to specify the type of the character string extracted from the design document file A 1041 and the design document file B 1042. Details of the character string classification table 1043 will be described with reference to FIG. 3A.
  • the weighting table 1044 a value added to the similarity is registered for each type of character string. Details of the weighting table 1044 will be described with reference to FIG. 3B.
  • the correspondence table 1045 the correspondence relationship of attributes associated by the schema matching process is registered. Details of the correspondence table 1045 will be described with reference to FIG. 3C.
  • design document file A1041, the design document file B1042, the accumulation file 1046, the character string classification table 1043, the weighting table 1044, and the correspondence table 1045 have been stored in different storage devices, May be stored in the same storage device. Further, the storage device need not be provided in the same casing as the data management system 1010, and may be provided in another casing.
  • FIG. 2A is an explanatory diagram of the design document file A1041 according to the first embodiment of the present invention
  • FIG. 2B is an explanatory diagram of the design document file B1042 according to the first embodiment of the present invention.
  • the design document file A 1041 and the design document file B 1042 describe the design contents of the database.
  • the design document file A 1041 and the design document file B 1042 are prepared in advance by the administrator and include attribute explanation tables 2010 and 2110.
  • Attribute description tables 2010 and 2110 are tables for explaining the attributes of each item stored in the database.
  • an attribute name 2011 indicating the name of the attribute of each item stored in the data file and related information 2012 and 2112 related to the attribute are registered in a table format.
  • the related information 2012 and 2112 includes a description regarding the attribute, a data type of the attribute, a range of the value of the attribute, and the like.
  • the columns indicating the attribute names 2011 and 2111 in the attribute description tables 2010 and 2110 are designated by the administrator who prepared the design document file A 1041 and the design document file B 1042. Specifically, the administrator or the like inputs information indicating which columns are attribute names 2011 and 2111 to the similarity calculation program 1060 via the administrator terminal 1000.
  • the schema attributes are matched using the attribute explanation tables 2010 and 2110.
  • the data management system 1010 calculates the similarity between the attributes included in the matching schema using each cell of the attribute description tables 2010 and 2110, and if the similarity satisfies a predetermined condition, the data management system 1010 calculates the attributes. Match.
  • the similarity is a value representing the degree of similarity of attribute meaning and attribute usage between different attribute names, and is calculated from the following two viewpoints.
  • a predetermined value is added to the similarity between the attributes included in these schemas. For example, in the design document file A 1041 and the design document file B 1042, since the attribute name 2011 “blood type” and the attribute name 2111 “blood type” are common, the similarity between the attributes included in the schema is set to a predetermined value. The value is added.
  • the similarity between the attributes of the matching schemas is calculated based on the number of common related information among the related information 2012 and 2112 of the attribute description tables 2010 and 2110 of the matching schemas. If the same word W exists in the related information 2012 corresponding to a certain attribute name Pa in the attribute description table 2010 (belonging to the same row) and the related information 2112 corresponding to a certain attribute name Pb in the attribute description table 2110, the attribute name The value of the function G (W) is added to the similarity between Pa and the attribute name Pb.
  • the function G (W) is a function for changing the weight of the value added to the similarity according to the type of the word W. For example, when the word W indicates a data type such as “String” and “Integrer”, it indicates that the two attributes are the same data type, and thus it is considered that the two attributes are related. For this reason, a positive value is preset for the function G (W) in this case.
  • the two attributes when the word W is a keyword such as “patient” and “name” are considered to be more relevant than when the data types are the same, so the function G (W) in this case Is set in advance to a value greater than the data type function G (W).
  • FIG. 3A is an explanatory diagram of the character string classification table 1043 according to the first embodiment of this invention.
  • the character string classification table 1043 includes a character string 3011 and a type 3012.
  • a character string to be classified is registered in the character string 3011.
  • the type 3012 the type of the character string registered in the character string 3011 is registered.
  • character strings “String”, “Integrer”, and “Char” whose type is classified as “type” are registered in other than the last line of the character string 3011. “Other” is registered in the last line of the character string 3011, and “general” is registered in the type 3012 of the last line. Therefore, a character string that does not match any character string registered in the character string 3011 is classified as “other” in the character string 3011 and classified as “general” in the type 3012.
  • FIG. 3B is an explanatory diagram of the weighting table 1044 according to the first embodiment of this invention.
  • the weighting table 1044 includes a type 3021 and a weight 3022.
  • the type 3021 the type of character string is registered.
  • a value (hereinafter referred to as an addition value) to be added to the attribute similarity is registered corresponding to the character string type registered in the type 3021.
  • the type of character string is “attribute name” indicating that the character string is an attribute name, “data type” indicating that the character string is a data type, and that the character string is not an attribute name or data type. Including “general”.
  • the character string type is “data type” or “general” is classified based on the character string classification table 1043. Whether the type of the character string is “attribute name” is classified when it is determined that a common attribute name is included in the attribute description tables 2010 and 2110 of the matching schema.
  • the addition value with the character string type “attribute name” is set to the minimum “10”, and the addition value with the character string type “type” is “20”. And the added value of the character string type “general” (for example, “patient name” and “name”) is set to the maximum “50”.
  • FIG. 3C is an explanatory diagram of the correspondence table 1045 according to the first embodiment of this invention.
  • the correspondence 3031 between attributes associated by the schema matching process is registered.
  • the correspondence 3031 includes a first schema 3032, a first attribute name 3033, a second schema 3034, and a second attribute name 3034.
  • schema identification information including one attribute associated by the schema matching process is registered.
  • This schema identification information may be identification information of a design document file in which the schema is described.
  • an attribute name indicating the name of one attribute associated by the schema matching process is registered.
  • schema identification information including the other attribute associated by the schema matching process is registered.
  • second attribute name 3034 an attribute name indicating the name of the other attribute associated by the schema matching process is registered.
  • the correspondence table 1045 further includes an ID 3035, and the identification information of the correspondence 3031 is registered in the ID 3035.
  • the correspondence relationship table 1045 holds not only the attribute name associated by the schema matching process but also the identification information of the schema including the attribute associated by the schema matching process.
  • the attribute name “DC” is used in the meaning of “data center” in a certain schema and is used in the meaning of “DC” in another schema.
  • the attribute name “DC” of the schema used in the meaning of “data center” can be associated with each other. In other words, it is possible to prevent all attribute names used with different meanings for each schema from being associated with a certain attribute name.
  • FIG. 4 is a flowchart of similarity calculation processing according to the first embodiment of the present invention.
  • the similarity calculation process is executed by the CPU 1020 executing the similarity calculation program 1060.
  • the CPU 1020 acquires an attribute name from the attribute description table 2010 of the design document file A 1041 and the attribute description table 2110 of the design document file B 1042 based on the designation of the attribute name by the administrator or the like (4001).
  • the CPU 1020 determines whether or not a common attribute name exists between the attribute name of the design document file A 1041 and the attribute name of the design document file B 1042 acquired in the process of step 4001 (4002).
  • the common attribute name may be an attribute name having the same character string, or may be an attribute name determined to be a synonym by a synonym dictionary held by the data management system 1010.
  • step 4002 If it is determined in step 4002 that there is a common attribute name, the CPU 1020 refers to the weighting table 1044 and adds the added value “10” registered in the weight 3022 of the entry in which “attribute name” is registered in the type 3021. Is added to the total similarity of the attributes of all combinations of the attribute name of the design document file A1041 and the attribute name of the design document file B1042 acquired in the process of step 4001 (4003). ), The process proceeds to the process of step 4004.
  • the added value of “attribute name” may be added as many as the number of common attribute names.
  • step 4002 determines that there is no common attribute name
  • the CPU 1020 shifts the processing to step 4004 without executing step 4003.
  • the CPU 1020 repeatedly executes the processing of steps 4004 to 4019 until the processing of steps 4005 to 4019 is executed for all the rows of the attribute explanation table 2010 of the design document file A1041 (4004).
  • the CPU 1020 selects, from the attribute description table 2010 of the design document file A1041, a line for which processing in steps 4005 to 4019 has not been executed as a processing target line (4005).
  • the CPU 1020 executes the processing of steps 4006 to 4018 until the processing of steps 4007 to 4018 is executed on all the columns of the related information 2012 included in the row of the attribute explanation table 2010 selected in the processing of step 4005. Is repeatedly executed (4006).
  • the CPU 1020 selects a column for which the processing of steps 4007 to 4018 has not been executed as a processing target column from the column of the related information 2012 of the row selected in the processing of step 4005 (4007).
  • the CPU 1020 repeatedly executes the processing of steps 4008 to 4017 until the processing of steps 4009 to 4017 is executed for all the rows of the attribute explanation table 2110 of the design document file B1042 (4008).
  • the CPU 1020 selects, from the attribute description table 2110 of the design document file B1042, a line for which the processing of steps 4009 to 4017 has not been executed as a processing target line (4009).
  • the CPU 1020 repeatedly executes the processing of steps 4011 to 4016 for all the columns of the related information 2112 included in the row of the attribute explanation table 2110 selected in the processing of step 4009 (4010).
  • the CPU 1020 selects a column for which the processing of steps 4011 to 4016 has not been executed as a processing target column from the column of the related information 2112 of the row selected in the processing of step 4009 (4011).
  • the CPU 1020 decomposes the character string registered in the column of the related information 2012 selected in the process of step 4007 and the character string registered in the column of the related information 2112 selected in the process of step 4011 into words. (4012).
  • the CPU 1020 uses common words between the processing target column selected in step 4007 and the processing target column selected in step 4011 from the words decomposed in step 4012. Whether or not exists is determined (4013).
  • the common word may be a word having the same character string or a word determined to be a synonym by a synonym dictionary held by the data management system 1010.
  • the CPU 1020 refers to the character string classification table 1043 and identifies the type of common word (4014).
  • the CPU 1020 refers to the weighting table 1044, obtains an addition value corresponding to the type specified in the process of step 4014, and selects the attribute name of the row selected in the process of step 4005 and the process of step 4009.
  • the added value acquired is added to the total similarity of the attributes of the combination with the attribute name of the row that has been added (4015), and the process proceeds to step 4016.
  • step 4013 if it is determined in step 4013 that there is no common word, the CPU 1020 shifts the processing to step 4016.
  • step 4010 when the processing of steps 4011 to 4016 is not executed for all columns of the related information 2112 included in the row of the attribute explanation table 2110 selected in the processing of step 4009, the CPU 1020 performs the processing of step 4010.
  • step 4010 if the processing of steps 4011 to 4016 is executed for all the columns of the related information 2112 included in the row of the attribute explanation table 2110 selected in the processing of step 4009, the processing shifts to the processing of step 4017. (4016).
  • step 4007 when the processing of steps 4007 to 4018 is not executed for all the columns of the related information 2012 included in the row of the attribute explanation table 2010 selected in the processing of step 4005, the CPU 1020 performs the processing of step 4007.
  • step 4 when the processing of steps 4007 to 4018 is executed for all the columns of the related information 2112 included in the row of the attribute explanation table 2110 selected in the processing of step 4005, the processing is shifted to the processing of step 4019. (4018).
  • the CPU 1020 calculates the similarity based on the attribute name 2011 of the attribute description table 2010 of the design document file A1041 and the attribute name 2111 of the attribute description table 2110 of the design document file B1042.
  • the added value is calculated based on the attribute names 2011 and 2111 arranged in the vertical direction of the attribute explanation tables 2010 and 2110.
  • the similarity is calculated based on the related information 2012 in the attribute description table 2010 of the design document file A 1041 and the related information 2112 in the attribute description table 2110 of the design document file B 1042.
  • the CPU 1020 calculates the addition value based on the related information 2012 and 2112 arranged in the horizontal direction of the attribute explanation tables 2010 and 2110. As shown in FIG. 3B, the addition value based on the attribute names 2011 and 2111 is set smaller than the addition value based on the related information 2012 and 2112.
  • the calculation of the similarity in the direction in which the attribute names 2011 and 2111 are arranged differs from the calculation of the similarity in the direction in which the related information 2012 and 2112 are arranged.
  • a different similarity calculation method is used.
  • the added value may be changed according to the number of attribute names existing between common attribute names. For example, it may be determined that the attribute description table 2010 and the attribute description table 2110 are more similar as the number of attribute names existing between common attribute names is smaller, and the added value is set larger.
  • the CPU 1020 acquires “patient name”, “patient number”, “birth date”, and “blood type” as attribute names 2011 from the attribute description table 2010, and attributes from the attribute description table 2110.
  • the names 2111 “PatientName”, “PID”, “Birthday”, and “Blood Type” are acquired.
  • step 4002 the CPU 1020 determines that “blood type” is common.
  • the added value “10” corresponding to the type “attribute name” is added to the total similarity of the attributes of all combinations of the attribute name 2011 of the attribute description table 2010 and the attribute name 2111 of the attribute description table 2110. Is added.
  • FIG. 5 is a flowchart of the schema matching process according to the first embodiment of the present invention.
  • the schema matching process is executed by the CPU 1020 executing the schema matching program 1070.
  • the CPU 1020 repeatedly executes the processing of steps 5001 to 5009 until the processing of steps 5002 to 5008 is executed for all attribute sets for which the total similarity is calculated (5001).
  • the CPU 1020 selects an attribute set for which the processing of steps 5002 to 5008 has not been executed from the attribute set for which the total similarity is calculated (5002).
  • the CPU 1020 determines whether or not the total similarity of the attribute set selected in step 5002 is larger than a predetermined threshold (5003).
  • step 5003 the CPU 1020 determines one of the attribute sets selected in step 5002. It is determined whether the attribute is a candidate for matching with an attribute other than the attribute of the set (5004).
  • step 5004 If it is determined in the process of step 5004 that one attribute of the attribute group selected in the process of step 5002 is not a matching candidate with an attribute other than the attribute of the set, the CPU 1020 performs the process of step 5002.
  • the selected attribute set is set as a matching candidate (5005), and the process proceeds to step 5008.
  • the CPU 1020 determines that the attribute to be matched is determined in the process of step 5004. 6 is displayed on the input / output device 1001 shown in FIG. 6 of the administrator terminal 1000 (5006). Details of the selection screen 6000 will be described with reference to FIG.
  • the administrator inputs a matching attribute set via the input / output device 1001 based on the selection screen 6000 displayed on the input / output device 1001 of the administrator terminal 1000.
  • the administrator terminal 1000 receives an input of a matching attribute set, the administrator terminal 1000 transmits the input matching attribute set as selection information to the data management system 1010.
  • the CPU 1020 updates the matching attribute set indicated by the received selection information as a matching candidate (5007), and shifts the processing to step 5008.
  • step 5008 when the processing of steps 5002 to 5008 has not been executed for all attribute sets for which the overall similarity has been calculated, the CPU 1020 returns to the processing of step 5002 and returns all the attributes for which the overall similarity has been calculated.
  • step 5009 the processing shifts to the processing of step 5009 (5008).
  • the CPU 1020 registers matching candidates in the correspondence table 1045 (5009), and ends the process.
  • the CPU 1020 determines that it is determined in step 5004. Displays the selection screen 6000 on the administrator terminal 1000, but without displaying the selection screen 6000 on the administrator terminal 1000, a combination of attributes having a high overall similarity is selected from a plurality of attribute pairs that can be matching candidates. It is good also as a matching candidate.
  • FIG. 6 is an explanatory diagram of the selection screen 6000 according to the first embodiment of this invention.
  • the selection screen 6000 includes a message display area 6010, a candidate attribute display area 6020, a design document file name display area 6030, a selection instruction display area 6040, a check box 6050, an OK button 6060, and a cancel button 6070.
  • the message display area 6010 is an area for displaying that there are a plurality of matching candidates for one attribute name.
  • the message display area 6010 includes a display area for one attribute name in which a plurality of matching candidates exist, and a display area for a design document file name including the attribute name.
  • attribute names of a plurality of matching candidates are displayed.
  • the design document file name display area 6030 the design document file name including the attribute name of the matching candidate is displayed.
  • the selection instruction display area 6040 a message prompting the administrator to select an attribute name to be matched from a plurality of matching candidates is displayed.
  • Check box 6050 is a display area for accepting selection of a matching attribute name.
  • the administrator operates the mouse cursor 6080, selects the check box 6050 corresponding to the attribute name to be matched, and operates the OK button 6060, so that the administrator terminal 1000 selects the attribute name to be matched by the administrator. Accept. Note that when the administrator desires to cancel the selection of the check box 6050, the selection of the check box 6050 is canceled by operating the mouse cursor 6080 and operating the cancel button 6070.
  • the attribute name to be matched is selected by the administrator, so that it is possible to prevent the attribute name and the attribute name not intended by the administrator from being matched.
  • the selection screen 6000 may be displayed on an input / output device (not shown) provided in the data management system 1010.
  • the schemas are matched based on the design information of the design document file, so that the matching accuracy can be improved.
  • the design document file is specified or input by the administrator, but in this embodiment, the design document file is automatically specified.
  • FIG. 7 is an explanatory diagram of the configuration of the information processing system according to the second embodiment of this invention.
  • the same components as those of the information processing system shown in FIG. 7 are identical components as those of the information processing system shown in FIG. 7
  • the memory 1030 further stores a design document file specifying program 1080 in addition to the OS 1050, the similarity calculation program 1060, and the schema matching program 1070.
  • the design document file specifying program 1080 executes a design document file specifying process for specifying a design document file from the accumulated file 1046. Details of the design document file will be described with reference to FIG.
  • the storage device 1040B stores an attribute name list 1047 in addition to the character string classification table 1043, the weighting table 1044, and the correspondence table 1045.
  • the attribute name list 1047 is a list of attribute names included in the schema targeted for the schema matching process, and the attribute name is input for each schema targeted for the schema matching process by the administrator.
  • the attribute name list 1047 includes a list A 1048 and a list B 1049. Note that the attribute name list 1047 may be stored in the storage device 1040A. Details of the attribute name list 1047 will be described with reference to FIGS. 8A and 8B.
  • FIG. 8A is an explanatory diagram of a list A 1048 according to the second embodiment of this invention
  • FIG. 8B is an explanatory diagram of a list B 1049 according to the second embodiment of this invention.
  • the list A 1048 and the list B 1049 include an ID 8011 and an attribute name 8012.
  • ID 8011 identification information of the attribute name registered in the attribute name 8012 is registered.
  • attribute name 8012 an attribute name included in the schema to be subjected to the schema matching process is registered.
  • attribute name 8012 of the list A 1048 all attribute names included in the schema of the design document file A 1041 are registered. Also, all attribute names included in the schema of the design document file B1042 are registered in the attribute name 8012 of the list B1049.
  • FIG. 9 is a flowchart of the design document file specifying process according to the second embodiment of the present invention.
  • the design document file specifying process is executed by the CPU 1020 executing the design document file specifying program 1080.
  • the CPU 1020 acquires all data in the storage file 1046 of the storage device 1040A (9001).
  • the CPU 1020 acquires data including any character string whose type is registered as “type” in the character string classification table 1043 from the data acquired in the process of step 9001 (9002).
  • the CPU 1020 determines whether there is data including all the attribute names registered in the attribute name 8012 of the list A 1048 among the data acquired in the process of step 9002 (9003).
  • the CPU 1020 determines that the attribute name of the list A 1048 is determined in the process of step 9003.
  • Data including all attribute names registered in the field 8012 is specified as the design document file A 1041 (9004), and the process proceeds to the process of step 9005.
  • step 9003 when it is determined in the process of step 9003 that there is no data including all the attribute names registered in the attribute name 8012 of the list A 1048 among the data acquired in the process of step 9002, the CPU 1020 determines in step 9005. The process is transferred to the process.
  • the CPU 1020 determines whether there is data including all the attribute names registered in the attribute name 8012 of the list B 1049 among the data acquired in the process of step 9002 (9005).
  • the CPU 1020 determines that the attribute name of the list B 1049 is determined in the process of step 9005.
  • Data including all the attribute names registered in 8012 is specified as the design document file B 1042 (9006), and the process ends.
  • the CPU 1020 ends the process when it is determined in the process of step 9005. .
  • data including all the attribute names registered in the attribute name 8012 of the list A 1048 or the list B 1049 is specified as the design document file A 1041 or the design document file B 1042, but the list A 1048 or the list B 1049 is used.
  • Data including a predetermined number or more of attribute names registered in the attribute name 8012 may be specified as the design document file A1041 or the design document file B1042.
  • data including the attribute name registered in the attribute name 8012 of the list A 1048 or the list B 1049 is stored in accordance with the schema of the design document file A 1041 or the design document file B 1042.
  • the design document file can be specified only by the administrator inputting the attribute name included in the schema.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、スキーママッチングの精度を向上させ、人手による作業を低減させるデータ管理システムを提供することを目的とする。 複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及びスキーマの項目に関する属性をスキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、属性定義情報には、属性の名称である属性名と、属性に関連した関連情報とが、スキーマごとに登録され、属性名及び関連情報に基づいて、複数のスキーマに含まれる属性同士をマッチングすることを特徴とする。

Description

データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体
 本発明は、複数のスキーマに従って項目ごとにデータを格納したデータベースを管理するデータ管理システムに関し、特に、複数のデータベースのスキーマをマッチングするデータ管理システムに関する。
 企業活動等で蓄積された大量の非構造データを分析及び利活用するニーズが高まる中、大量のデータに対して一括して処理を実行するために必須となるスキーママッチング技術が重要となっている。スキーママッチングは、異なるデータベースのスキーマ間で同じ情報を表現する箇所を特定し、特定した箇所を統合する処理であり、計算機を用いて自動化されている。
 具体的には、顧客又は患者等に関するデータベースの「生まれた日付」という属性については、データベースごとに、「生年月日」、「出生日」、「誕生日」、及び「DoB (Date of Birth)」というように、異なった名称で表現される場合がある。スキーママッチングは、これらの名称で表現された箇所を対応付けることによって、これら箇所を統合し、これらの箇所に対して一括してデータ処理を実行可能とする。
 スキーママッチングを自動的に実行するシステムとして、データベースのカラム名に対応して実際に格納されたデータを利用して、カラム名同士を対応付けるシステムが知られている(例えば、特許文献1参照)。特許文献1では、カラム名が異なっていても、格納されるデータが共通である場合、当該カラム名同士は共通する可能性が高いという前提でスキーママッチングを進める。また、特許文献1では、データの表現の違い、データの誤り、及びデータ欠損等にも対応できるようなスキーママッチングを実現する。
特開2009-59371号公報
 実際に格納されたデータに基づいてスキーママッチングを実行する特許文献1であっても、対応付けのための情報が不十分であり、人手によって補足的な作業が必要となる場合もある。このため、カラム名及びカラム名に対応して格納されたデータ以外のデータを利用したスキーママッチングが求められている。
 そもそも、スキーママッチングの対象となるデータベースは、データベースの構築時にスキーマが設計される。スキーマの設計は、データベースのカラム名で表現される項目ごとにどのような意味を持たせるかという設計者の思惑が反映されたものである。
 設計者の思惑は設計書という形で文書化され保存管理されている可能性が高く、設計書に基づかず、データベースのカラム名等のみに基づいてスキーママッチングを実現する特許文献1では、スキーママッチングの精度が低下してしまうのは当然といえる。
 人手による補足的な作業は、設計者の思惑を当該設計者と異なる作業者が慮って、設計者の思惑を補完する作業である。もし、作業者の手許に設計書があれば、設計書の内容に基づいてスキーママッチングをするので、スキーママッチングは容易となる。しかしながら、設計書の内容及び記述形式は一般に計算機が読み取り処理することを想定しておらず、計算機が設計書の情報に基づいてスキーママッチングを自動で実行するのは困難である。
 本発明は、上記課題に鑑み、スキーママッチングの精度を向上させ、人手による作業を低減させるデータ管理システムを提供することを目的とする。
 本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、前記プロセッサは、前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とする。
 本発明の一態様によれば、スキーママッチングの精度を向上させ、人手による作業を低減させることができる。
本発明の第1実施形態の情報処理システムの構成の説明図である。 本発明の第1実施形態の設計書ファイルAの説明図である。 本発明の第1実施形態の設計書ファイルBの説明図である。 本発明の第1実施形態の文字列分類テーブルの説明図である。 本発明の第1実施形態の重み付けテーブルの説明図である。 本発明の第1実施形態の対応関係テーブルの説明図である。 本発明の第1実施形態の類似度計算処理のフローチャートである。 本発明の第1実施形態のスキーママッチング処理のフローチャートである。 本発明の第1実施形態の選択画面の説明図である。 本発明の第2実施形態の情報処理システムの構成の説明図である。 本発明の第2実施形態のリストAの説明図である。 本発明の第2実施形態のリストBの説明図である。 本発明の第2実施形態の設計書ファイル特定処理のフローチャートである。
 以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。
 なお、以降の説明では、「プログラム」を主語として説明する場合があるが、プログラムはプロセッサによって実行されることによって定められた処理をメモリ及び通信ポート(通信制御インタフェース)を用いながら実行するため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は、管理サーバ等の計算機及び情報処理装置によって実行される処理としてもよい。また、プログラムの一部又はすべては専用ハードウェアによって実現されてもよい。
 さらに、プログラムに含まれる各種プログラムは、プログラム配布サーバ、及び計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。
 (第1実施形態)
 以下において、本発明の第1実施形態を図1~図6を参照して説明する。
 図1は、本発明の第1実施形態の情報処理システムの構成の説明図である。
 情報処理システムは、管理者端末1000及びデータ管理システム1010を備える。
 管理者端末1000は管理者が操作する端末であり、入出力デバイス(図6に示す1001)、記憶領域、及びプロセッサを有する。管理者が直接データ管理システム1010を操作可能な環境では、情報処理システムは管理者端末1000を備えなくてもよい。
 データ管理システム1010は、管理者端末1000に接続され、後述するスキーママッチング処理を実行するシステムであり、CPU(プロセッサ)1020、メモリ1030、並びにストレージデバイス1040A及び1040Bを備える。CPU1020、メモリ1030、並びにストレージデバイス1040A及び1040Bはバス等によって互いに接続される。
 CPU1020は、メモリ1030に記憶された各種プログラム1050~1070を実行する。メモリ1030には、OS(Operating System)1050、類似度計算プログラム1060、スキーママッチングプログラム1070が記憶される。
 OS1050は、データ管理システム1010全体を管理するプログラムである。類似度計算プログラム1060は、ストレージデバイス1040Aに格納された設計書ファイルA1041及び設計書ファイルB1042を参照して、ストレージデバイス1040Aに格納された蓄積ファイル1046のデータベースの設計内容(スキーマ)に含まれる属性同士の類似度を計算する類似度計算処理を実行する。類似度計算処理の詳細は図4で説明する。
 スキーママッチングプログラム1070は、類似度計算プログラム1060によって計算された設計書ファイルA1041に記述されたスキーマ及び設計書ファイルB1042に記述されたスキーマに含まれる属性同士の類似度に基づいて、異なるスキーマに含まれる属性同士を同じ意味を有する属性として対応付けるスキーママッチング処理を実行する。スキーママッチング処理の詳細は図5で説明する。
 なお、類似度計算プログラム1060及びスキーママッチングプログラム1070は、必ずしも同一の計算機で実行されなくてもよく、別々の計算機で実行されてもよい。この場合、類似度計算プログラム1060を実行する計算機、及びスキーママッチングプログラム1070を実行する計算機をまとめてデータ管理システム1010という。
 ストレージデバイス1040Aには、設計書ファイルA1041、設計書ファイルB1042、及び蓄積ファイル1046が格納される。蓄積ファイル1046はデータベースを含む様々なデータファイルの集合であり、データベースは設計書ファイルA1041又は設計書ファイルB1042に記述された設計情報(スキーマ)に従って項目ごとにデータを格納するデータ構造を有する。設計書ファイルA1041及び設計書ファイルB1042には、データファイルにデータを格納するための設計情報(スキーマ)が登録される。設計書ファイルA1041及び設計書ファイルB1042の詳細は図2A及び図2Bで詳細を説明する。
 ストレージデバイス1040Bには、文字列分類テーブル1043、重み付けテーブル1044、及び対応関係テーブル1045が格納される。
 文字列分類テーブル1043は、設計書ファイルA1041及び設計書ファイルB1042から抽出された文字列の種別を特定するために参照される。文字列分類テーブル1043の詳細は図3Aで説明する。重み付けテーブル1044には、文字列の種別ごとに類似度に加算される値が登録される。重み付けテーブル1044の詳細は図3Bで説明する。対応関係テーブル1045には、スキーママッチング処理によって対応付けられた属性の対応関係が登録される。対応関係テーブル1045の詳細は図3Cで説明する。
 なお、設計書ファイルA1041、設計書ファイルB1042、及び蓄積ファイル1046と、文字列分類テーブル1043、重み付けテーブル1044、及び対応関係テーブル1045とが別々のストレージデバイスに格納された場合について説明したが、これらは同一のストレージデバイスに格納されてもよい。また、ストレージデバイスはデータ管理システム1010と同一筐体に備わる必要はなく、他の筐体に備わってもよい。
 次に、図2A及び図2Bを参照して、設計書ファイルA1041及び設計書ファイルB1042について説明する。図2Aは、本発明の第1実施形態の設計書ファイルA1041の説明図であり、図2Bは、本発明の第1実施形態の設計書ファイルB1042の説明図である。
 設計書ファイルA1041及び設計書ファイルB1042は、データベースの設計内容を記述したものであり、本実施形態では管理者によって予め用意され、属性説明表2010及び2110を含む。
 属性説明表2010及び2110は、データベースに格納される各項目の属性を説明する表である。属性説明表2010及び2110には、データファイルに格納される各項目の属性の名称を示す属性名2011と、属性に関連した関連情報2012及び2112と、が表形式で登録されている。関連情報2012及び2112は、属性に関する説明、属性のデータ型、及び属性の値の範囲等を含む。データベースには、属性説明表2010又は2110の属性名2011に登録された属性名の項目が存在し、当該項目には関連情報2012又は2112に登録された関連情報に従ってデータが格納される。
 属性説明表2010及び2110の属性名2011及び2111を示す列は、設計書ファイルA1041及び設計書ファイルB1042を用意した管理者等によって指定されるものとする。具体的には、管理者等は、管理者端末1000を介してどの列を属性名2011及び2111とするかの情報を類似度計算プログラム1060に入力する。
 本発明では、異なるスキーマの属性同士をマッチングする場合、属性説明表2010及び2110を用いてスキーマの属性同士をマッチングする。具体的には、データ管理システム1010は、マッチングするスキーマに含まれる属性同士の類似度を属性説明表2010及び2110の各セルを用いて計算し、類似度が所定の条件を満たせば属性同士をマッチングする。類似度とは、異なる属性名の間において、属性の意味及び属性の使用方法の類似度合いを表す値であり、以下の二つの観点で計算される。
 一つ目の観点では、マッチングするスキーマの属性説明表2010及び2110に共通する属性名が含まれる場合、これらのスキーマに含まれる各属性同士の類似度に所定の値が加算される。例えば、設計書ファイルA1041及び設計書ファイルB1042では、属性名2011の「血液型」と属性名2111の「血液型」とが共通であるので、スキーマに含まれる各属性同士の類似度に所定の値が加算される。
 二つ目の観点では、マッチングするスキーマの属性説明表2010及び2110の関連情報2012及び2112のうち共通する関連情報の数に基づいて、マッチングするスキーマの属性同士の類似度が算出される。属性説明表2010のある属性名Paに対応する(同じ行に属する)関連情報2012と、属性説明表2110のある属性名Pbに対応する関連情報2112とに同じ単語Wが存在する場合、属性名Paと属性名Pbの類似度に関数G(W)の値が加算される。
 関数G(W)は、単語Wの種別によって類似度に加算する値の重み付けを変更するための関数である。例えば、単語Wが「String」及び「Integer」等のデータ型を示す場合、二つの属性が同じデータ型であることを示すので、二つの属性に関連性があると考えられる。このため、この場合の関数G(W)には正の値が予め設定されている。
 一方、単語Wが「患者」及び「名前」等のキーワードである場合の二つの属性は、データ型が同じである場合よりも関連性が高いと考えられるので、この場合の関数G(W)は、データ型の関数G(W)より大きい値が予め設定されている。
 図3Aは、本発明の第1実施形態の文字列分類テーブル1043の説明図である。
 文字列分類テーブル1043は、文字列3011及び種別3012を含む。文字列3011には、分類の対象となる文字列が登録される。種別3012には、文字列3011に登録された文字列の種別が登録される。
 図3Aでは、種別が「型」に分類される文字列「String」、「Integer」、及び「Char」が文字列3011の最終行以外に登録されている。文字列3011の最終行には「その他」が登録され、当該最終行の種別3012には「一般」が登録される。このため、文字列3011に登録されたいずれの文字列にも一致しない文字列は、文字列3011の「その他」とされ、種別3012の「一般」に分類される。
 図3Bは、本発明の第1実施形態の重み付けテーブル1044の説明図である。
 重み付けテーブル1044は、種別3021及び重み3022を含む。種別3021には、文字列の種別が登録される。重み3022には、種別3021に登録された文字列の種別に対応して、属性の類似度に加算する値(以下、加算値という)が登録される。文字列の種別は、文字列が属性名であることを示す「属性名」、文字列がデータ型であることを示す「データ型」、及び、文字列が属性名及びデータ型でもないことを示す「一般」を含む。
 なお、文字列の種別が「データ型」であるか「一般」であるかは、文字列分類テーブル1043に基づいて分類される。文字列の種別が「属性名」であるかは、マッチングするスキーマの属性説明表2010及び2110に共通する属性名が含まれると判定された場合に分類される。
 本実施形態では、図3Bに示すように、文字列の種別が「属性名」である加算値が最小の「10」に設定され、文字列の種別が「型」の加算値が「20」に設定され、文字列の種別が「一般」(例えば「患者名」及び「氏名」等)の加算値が最大の「50」に設定されている。
 図3Cは、本発明の第1実施形態の対応関係テーブル1045の説明図である。
 対応関係テーブル1045には、スキーママッチング処理によって対応付けられた属性同士の対応関係3031が登録される。
 対応関係3031は、第1スキーマ3032、第1属性名3033、第2スキーマ3034、及び第2属性名3034を含む。
 第1スキーマ3032には、スキーママッチング処理によって対応付けられた一方の属性を含むスキーマの識別情報が登録される。このスキーマの識別情報は、当該スキーマが記述された設計書ファイルの識別情報であってもよい。第1属性名3033には、スキーママッチング処理によって対応付けられた一方の属性の名称を示す属性名が登録される。
 第2スキーマ3034には、スキーママッチング処理によって対応付けられた他方の属性を含むスキーマの識別情報が登録される。第2属性名3034には、スキーママッチング処理によって対応付けられた他方の属性の名称を示す属性名が登録される。
 また、対応関係テーブル1045はID3035をさらに含み、ID3035には、対応関係3031の識別情報が登録される。
 対応関係テーブル1045では、スキーママッチング処理によって対応付けられた属性名だけでなく、スキーママッチング処理によって対応付けられた属性を含むスキーマの識別情報も保持する。これによって、例えば、属性名「DC」が、あるスキーマでは「データセンタ」の意味で使用され、他のスキーマでは「直流」の意味で使用されている場合であっても、属性名「データセンタ」と、「データセンタ」の意味で使用されているスキーマの属性名「DC」とを対応付けることができる。換言すれば、スキーマごとに異なる意味で使用されるすべての属性名が、ある属性名に対応付けられることが防止できる。
 図4は、本発明の第1実施形態の類似度計算処理のフローチャートである。類似度計算処理は、CPU1020が類似度計算プログラム1060を実行することによって実行される。
 まず、CPU1020は、管理者等による属性名の指定に基づいて、設計書ファイルA1041の属性説明表2010及び設計書ファイルB1042の属性説明表2110から属性名を取得する(4001)。
 次に、CPU1020は、ステップ4001の処理で取得した設計書ファイルA1041の属性名と設計書ファイルB1042の属性名との間で、共通する属性名が存在するか否かを判定する(4002)。ここで、共通する属性名とは、文字列が同一である属性名であってもよいし、データ管理システム1010が保持する類義語辞書によって類義語であると判定された属性名であってもよい。
 ステップ4002の処理で共通する属性名が存在すると判定された場合、CPU1020は、重み付けテーブル1044を参照し、種別3021に「属性名」が登録されたエントリの重み3022に登録された加算値「10」を取得し、取得した加算値を、ステップ4001の処理で取得した設計書ファイルA1041の属性名と設計書ファイルB1042の属性名とのすべての組み合わせの属性同士の合計類似度に加算し(4003)、ステップ4004の処理に処理を移行する。
 なお、ステップ4003の処理では、共通する属性名の数だけ、「属性名」の加算値を加算してもよい。
 一方、ステップ4002の処理で共通する属性名が存在しないと判定された場合、CPU1020は、ステップ4003の処理を実行せずに、ステップ4004の処理に処理を移行する。
 次に、CPU1020は、設計書ファイルA1041の属性説明表2010のすべての行にステップ4005~4019の処理が実行されるまで、ステップ4004~4019の処理を繰り返し実行する(4004)。
 次に、CPU1020は、設計書ファイルA1041の属性説明表2010からステップ4005~4019の処理が実行されていない行を処理対象の行として選択する(4005)。
 次に、CPU1020は、ステップ4005の処理で選択された属性説明表2010の行に含まれるすべての関連情報2012のカラムに、ステップ4007~4018の処理が実行されるまで、ステップ4006~4018の処理を繰り返し実行する(4006)。
 次に、CPU1020は、ステップ4005の処理で選択された行の関連情報2012のカラムからステップ4007~4018の処理が実行されていないカラムを処理対象のカラムとして選択する(4007)。
 次に、CPU1020は、設計書ファイルB1042の属性説明表2110のすべての行にステップ4009~4017の処理が実行されるまで、ステップ4008~4017の処理を繰り返し実行する(4008)。
 次に、CPU1020は、設計書ファイルB1042の属性説明表2110からステップ4009~4017の処理が実行されていない行を処理対象の行として選択する(4009)。
 次に、CPU1020は、ステップ4009の処理で選択された属性説明表2110の行に含まれるすべての関連情報2112のカラムに対してステップ4011~4016の処理を繰り返し実行する(4010)。
 次に、CPU1020は、ステップ4009の処理で選択された行の関連情報2112のカラムからステップ4011~4016の処理が実行されていないカラムを処理対象のカラムとして選択する(4011)。
 次に、CPU1020は、ステップ4007の処理で選択された関連情報2012のカラムに登録された文字列、及びステップ4011の処理で選択された関連情報2112のカラムに登録された文字列を単語に分解する(4012)。
 次に、CPU1020は、ステップ4012の処理で分解された単語から、ステップ4007の処理で選択された処理対象のカラムとステップ4011の処理で選択された処理対象のカラムとの間で、共通する単語が存在するか否かを判定する(4013)。ここで、共通する単語とは、文字列が同一である単語であってもよいし、データ管理システム1010が保持する類義語辞書によって類義語であると判定された単語であってもよい。
 ステップ4013の処理で共通する単語が存在すると判定された場合、CPU1020は、文字列分類テーブル1043を参照し、共通する単語の種別を特定する(4014)。
 次に、CPU1020は、重み付けテーブル1044を参照し、ステップ4014の処理で特定された種別に対応する加算値を取得し、ステップ4005の処理で選択された行の属性名とステップ4009の処理で選択された行の属性名との組み合わせの属性同士の合計類似度に取得した加算値を加算し(4015)、ステップ4016の処理に処理を移行する。
 一方、ステップ4013の処理で共通する単語が存在しないと判定された場合、CPU1020は、ステップ4016の処理に処理を移行する。
 次に、CPU1020は、ステップ4009の処理で選択された属性説明表2110の行に含まれるすべての関連情報2112のカラムに対してステップ4011~4016の処理が実行されていない場合、ステップ4010の処理に戻り、ステップ4009の処理で選択された属性説明表2110の行に含まれるすべての関連情報2112のカラムに対してステップ4011~4016の処理が実行された場合、ステップ4017の処理に処理を移行する(4016)。
 次に、CPU1020は、設計書ファイルB1042の属性説明表2110のすべての行にステップ4009~4017の処理が実行されていない場合、ステップ4008の処理に戻り、設計書ファイルB1042の属性説明表2110のすべての行にステップ4009~4017の処理が実行された場合、ステップ4018の処理に処理を移行する(4017)。
 次に、CPU1020は、ステップ4005の処理で選択された属性説明表2010の行に含まれるすべての関連情報2012のカラムに対してステップ4007~4018の処理が実行されていない場合、ステップ4007の処理に戻り、ステップ4005の処理で選択された属性説明表2110の行に含まれるすべての関連情報2112のカラムに対してステップ4007~4018の処理が実行された場合、ステップ4019の処理に処理を移行する(4018)。
 次に、CPU1020は、設計書ファイルA1041の属性説明表2010のすべての行にステップ4005~4019の処理が実行されていない場合、ステップ4005の処理に戻り、設計書ファイルA1041の属性説明表2010のすべての行にステップ4005~4019の処理が実行された場合、処理を終了する(4019)。
 ステップ4001~4003の処理では、CPU1020は、設計書ファイルA1041の属性説明表2010の属性名2011及び設計書ファイルB1042の属性説明表2110の属性名2111に基づいて類似度を算出する。換言すれば、ステップ4001~4003の処理では、属性説明表2010及び2110の縦方向に並んだ属性名2011及び2111に基づいて加算値を算出する。また、設計書ファイルA1041の属性説明表2010の関連情報2012及び設計書ファイルB1042の属性説明表2110の関連情報2112に基づいて類似度を算出する。換言すれば、CPU1020は、属性説明表2010及び2110の横方向に並んだ関連情報2012及び2112に基づいて加算値を算出する。また、図3Bに示すように、属性名2011及び2111に基づく加算値は、関連情報2012及び2112に基づく加算値よりも小さく設定されている。
 つまり、本実施形態では、属性説明表2010及び属性説明表2110において、属性名2011及び2111の並ぶ方向における類似度の算出と、関連情報2012及び2112の並ぶ方向における類似度の算出とでは、異なる加算値を用いることによって、異なる類似度の算出方法を用いる。
 また、ステップ4002の処理では、共通する属性名の間に存在する属性名の数に応じて加算値を変更してもよい。例えば、共通する属性名の間に存在する属性名の数が少ないほど、属性説明表2010と属性説明表2110とが類似すると判断し、加算値を大きく設定することが考えられる。
 次に、図2Aに示す属性説明表2010及び図2Bに示す属性説明表2110を参照しながら、類似度計算処理を具体的に説明する。
 ステップ4001の処理では、CPU1020は、属性説明表2010から属性名2011である「患者名」、「患者番号」、「生年月日」、及び「血液型」を取得し、属性説明表2110から属性名2111である「PatientName」、「PID」、「誕生日」、及び「血液型」を取得する。
 ステップ4002の処理では、CPU1020は、「血液型」が共通すると判定する。
 ステップ4003の処理では、属性説明表2010の属性名2011と属性説明表2110の属性名2111とのすべての組み合わせの属性同士の総合類似度に、種別「属性名」に対応する加算値「10」を加算する。
 ステップ4004~4019の処理では、属性説明表2010の処理対象の行として「生年月日」の行が選択され、属性説明表2110の処理対象の行として「誕生日」の行が選択された場合について簡単に説明する。
 属性説明表2010の「生年月日」の関連情報2012の「Integer」及び「患者の生年月日」、並びに、属性説明表2110の「誕生日」の関連情報2112の「Integer」及び「生年月日」のうち、「Integer」及び「生年月日」が共通する。
 「Integer」の種別は「型」であるので、加算値「20」であり、「生年月日」の種別は「一般」であるので、加算値「50」である。
 したがって、属性「生年月日」と属性「誕生日」との総合類似度は、10+20+50=80となる。
 また、属性説明表2010の処理対象の行として「生年月日」の行が選択され、属性説明表2110の処理対象の行として「PID」の行が選択された場合について簡単に説明する。
 属性説明表2010の「生年月日」の関連情報2012の「Integer」及び「患者の生年月日」、並びに、属性説明表2110の「PID」の関連情報2112の「Integer」及び「番号」のうち、「Integer」が共通する。
 「Integer」の種別は「型」であるので、加算値「20」である。したがって、属性「生年月日」と属性「PID」との総合類似度は、10+20=30となる。
 属性説明表2010の「生年月日」に対して、属性説明表2110から処理対象として「PatintName」の行及び「PID」の行が選択された場合、これらの関連情報2012及び2112には共通する単語がないので、これらの総合類似度は10となる。
 よって、属性説明表2010の属性「生年月日」と属性説明表2110の属性「誕生日」との総合類似度が最大となる。
 図5は、本発明の第1実施形態のスキーママッチング処理のフローチャートである。スキーママッチング処理は、CPU1020がスキーママッチングプログラム1070を実行することによって実行される。
 まず、CPU1020は、総合類似度を計算したすべての属性の組に対して、ステップ5002~5008の処理が実行されるまで、ステップ5001~5009の処理を繰り返し実行する(5001)。
 次に、CPU1020は、総合類似度を計算した属性の組から、ステップ5002~5008の処理が実行されていない属性の組を選択する(5002)。
 次に、CPU1020は、ステップ5002の処理で選択された属性の組の総合類似度が所定の閾値より大きいか否かを判定する(5003)。
 ステップ5002の処理で選択された属性の組の総合類似度が所定の閾値より大きいと、ステップ5003の処理で判定された場合、CPU1020は、ステップ5002の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっているか否かを判定する(5004)。
 ステップ5002の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていないと、ステップ5004の処理で判定された場合、CPU1020は、ステップ5002の処理で選択された属性の組をマッチング候補とし(5005)、ステップ5008の処理に処理を移行する。
 一方、ステップ5002の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていると、ステップ5004の処理で判定された場合、CPU1020は、マッチングする属性の組を管理者等に選択させる図6に示す選択画面6000を、管理者端末1000の図6に示す入出力デバイス1001に表示させる(5006)。選択画面6000の詳細は図6で説明する。
 管理者は、管理者端末1000の入出力デバイス1001に表示された選択画面6000に基づいて、入出力デバイス1001を介してマッチングする属性の組を入力する。管理者端末1000は、マッチングする属性の組の入力を受け付けた場合、入力を受け付けたマッチングする属性の組を選択情報として、データ管理システム1010に送信する。
 データ管理システム1010が選択情報を受信した場合、CPU1020は、受信した選択情報が示すマッチングする属性の組をマッチング候補として更新し(5007)、ステップ5008の処理に処理を移行する。
 次に、CPU1020は、総合類似度を計算したすべての属性の組に対して、ステップ5002~5008の処理が実行されていない場合、ステップ5002の処理に戻り、総合類似度を計算したすべての属性の組に対して、ステップ5002~5008の処理が実行された場合、ステップ5009の処理に処理を移行する(5008)。
 次に、CPU1020は、マッチング候補を対応関係テーブル1045に登録し(5009)、処理を終了する。
 なお、スキーママッチング処理では、ステップ5002の処理で選択された属性の組の一方の属性が当該組の属性以外の属性とマッチング候補になっていると、ステップ5004の処理で判定された場合、CPU1020は、選択画面6000を管理者端末1000に表示させたが、選択画面6000を管理者端末1000に表示させずに、マッチング候補となり得る複数の属性の組のうち総合類似度が高い属性の組をマッチング候補としてもよい。
 図6は、本発明の第1実施形態の選択画面6000の説明図である。
 選択画面6000は、メッセージ表示領域6010、候補属性表示領域6020、設計書ファイル名表示領域6030、選択指示表示領域6040、チェックボックス6050、OKボタン6060、及びキャンセルボタン6070を含む。
 メッセージ表示領域6010は、一つの属性名の複数のマッチング候補が存在することを表示する領域である。メッセージ表示領域6010は、複数のマッチング候補が存在する一つの属性名の表示領域、及び当該属性名を含む設計書ファイル名の表示領域を含む。
 候補属性表示領域6020には、複数のマッチング候補の属性名が表示される。設計書ファイル名表示領域6030には、マッチング候補の属性名を含む設計書ファイル名が表示される。選択指示表示領域6040には、複数のマッチング候補からマッチングする属性名の選択を管理者に促すメッセージが表示される。
 チェックボックス6050は、マッチングする属性名の選択を受け付けるための表示領域である。管理者は、マウスカーソル6080を操作し、マッチングする属性名に対応するチェックボックス6050を選択し、OKボタン6060を操作することによって、管理者端末1000は、管理者によるマッチングする属性名の選択を受け付ける。なお、管理者は、チェックボックス6050の選択の取り消しを所望する場合、マウスカーソル6080を操作し、キャンセルボタン6070を操作することによって、当該チェックボックス6050の選択は取り消される。
 このように、一つの属性名に複数のマッチング候補が存在する場合にマッチングする属性名を管理者に選択させるので、管理者の意図しない属性名と属性名とがマッチングされてしまうことを防止できる。
 なお、管理者がデータ管理システム1010を直接操作可能である環境では、選択画面6000は、データ管理システム1010に備わる図示しない入出力デバイスに表示されてもよい。
 以上によって、本実施形態では、複数のスキーマをマッチングする場合に、設計書ファイルの設計情報に基づいて、スキーマをマッチングするので、マッチング精度を向上させることができる。
 (第2実施形態)
 本発明の第2実施形態について、図7~図9を用いて説明する。
 第1実施形態では、設計書ファイルは管理者によって指定又は入力されたが、本実施形態では、設計書ファイルが自動的に特定される。
 図7は、本発明の第2実施形態の情報処理システムの構成の説明図である。なお、図7では、本実施形態の情報処理システムの構成のうち、第1実施形態の図1に示す情報処理システムと同じ構成は同じ符号を付与し、説明を省略する。
 メモリ1030には、OS1050、類似度計算プログラム1060、及び、スキーママッチングプログラム1070の他に、設計書ファイル特定プログラム1080がさらに格納される。
 設計書ファイル特定プログラム1080は、蓄積ファイル1046の中から設計書ファイルを特定する設計書ファイル特定処理を実行する。設計書ファイルの詳細は図9で説明する。
 ストレージデバイス1040Bには、文字列分類テーブル1043、重み付けテーブル1044、及び対応関係テーブル1045の他に、属性名リスト1047が格納される。
 属性名リスト1047は、スキーママッチング処理の対象となるスキーマに含まれる属性名のリストであり、管理者によって属性名がスキーママッチング処理の対象となるスキーマごとに入力される。図7では、属性名リスト1047は、リストA1048及びリストB1049を含む。なお、属性名リスト1047は、ストレージデバイス1040Aに格納されてもよい。また、属性名リスト1047の詳細は図8A及び図8Bで説明する。
 図8Aは、本発明の第2実施形態のリストA1048の説明図であり、図8Bは、本発明の第2実施形態のリストB1049の説明図である。
 リストA1048及びリストB1049は、ID8011及び属性名8012を含む。
 ID8011には、属性名8012に登録された属性名の識別情報が登録される。属性名8012には、スキーママッチング処理の対象となるスキーマに含まれる属性名が登録される。リストA1048の属性名8012には、設計書ファイルA1041のスキーマに含まれるすべての属性名が登録される。また、リストB1049の属性名8012には、設計書ファイルB1042のスキーマに含まれるすべての属性名が登録される。
 図9は、本発明の第2実施形態の設計書ファイル特定処理のフローチャートである。設計書ファイル特定処理は、CPU1020が設計書ファイル特定プログラム1080を実行することによって実行される。
 まず、CPU1020は、ストレージデバイス1040Aの蓄積ファイル1046のすべてのデータを取得する(9001)。
 次に、CPU1020は、ステップ9001の処理で取得したデータから、文字列分類テーブル1043に種別が「型」として登録されたいずれかの文字列を含むデータを取得する(9002)。
 次に、CPU1020は、ステップ9002の処理で取得したデータのうち、リストA1048の属性名8012に登録されたすべての属性名を含むデータが存在するか否かを判定する(9003)。
 ステップ9002の処理で取得したデータのうち、リストA1048の属性名8012に登録されたすべての属性名を含むデータが存在すると、ステップ9003の処理で判定された場合、CPU1020は、リストA1048の属性名8012に登録されたすべての属性名を含むデータを設計書ファイルA1041として特定し(9004)、ステップ9005の処理に処理を移行する。
 一方、ステップ9002の処理で取得したデータのうち、リストA1048の属性名8012に登録されたすべての属性名を含むデータが存在しないと、ステップ9003の処理で判定された場合、CPU1020は、ステップ9005の処理に処理を移行する。
 次に、CPU1020は、ステップ9002の処理で取得したデータのうち、リストB1049の属性名8012に登録されたすべての属性名を含むデータが存在するか否かを判定する(9005)。
 ステップ9002の処理で取得したデータのうち、リストB1049の属性名8012に登録されたすべての属性名を含むデータが存在すると、ステップ9005の処理で判定された場合、CPU1020は、リストB1049の属性名8012に登録されたすべての属性名を含むデータを設計書ファイルB1042として特定し(9006)、処理を終了する。
 ステップ9002の処理で取得したデータのうち、リストB1049の属性名8012に登録されたすべての属性名を含むデータが存在しないと、ステップ9005の処理で判定された場合、CPU1020は、処理を終了する。
 なお、ステップ9003~9006の処理では、リストA1048又はリストB1049の属性名8012に登録されたすべての属性名を含むデータを設計書ファイルA1041又は設計書ファイルB1042として特定したが、リストA1048又はリストB1049の属性名8012に登録された属性名を所定数以上含むデータを設計書ファイルA1041又は設計書ファイルB1042として特定してもよい。
 また、リストA1048又はリストB1049の属性名8012に登録された属性名を含むデータとしては、設計書ファイルA1041又は設計書ファイルB1042の他に、設計書ファイルA1041又は設計書ファイルB1042のスキーマに従ってデータ格納されたデータファイルがある。このデータファイルは、通常「型」を示す文字列を含まないので、設計書ファイルとして特定されないようにステップ9002の処理が実行される。
 設計書ファイル特定処理を実行して設計書ファイルが特定された後、類似度計算処理及びスキーママッチング処理が実行される。
 以上によって、スキーマの詳細な設計情報が管理者の手許にない場合であっても、管理者がスキーマに含まれる属性名を入力するだけで、設計書ファイルが特定される。
 以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。
 複数のデータベースのスキーマをマッチングするデータ管理システムに適用できる。

Claims (17)

  1.  複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムにおいて、
     前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
     前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
     前記プロセッサは、
     前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、
     前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とするデータ管理システム。
  2.  請求項1に記載のデータ管理システムであって、
     前記プロセッサは、
     前記特定された属性名及び関連情報に基づいて、前記マッチングするスキーマに含まれる属性同士の類似度を算出し、
     前記算出した類似度が所定の条件を満たす場合、当該属性同士をマッチングすることを特徴とするデータ管理システム。
  3.  請求項2に記載のデータ管理システムであって、
     前記プロセッサは、共通する属性名が前記マッチングするスキーマの属性定義情報に存在する場合、前記マッチングするスキーマの属性同士の類似度に所定の第1の値を加算することを特徴とするデータ管理システム。
  4.  請求項3に記載のデータ管理システムであって、
     前記プロセッサは、前記特定された関連情報同士が共通する場合、前記共通する関連情報に対応する属性同士の類似度に所定の第2の値を加算することを特徴とするデータ管理システム。
  5.  請求項4に記載のデータ管理システムであって、
     前記第1の値は前記第2の値より小さい値であることを特徴とするデータ管理システム。
  6.  請求項2に記載のデータ管理システムであって、
     前記属性定義情報には前記属性名及び前記関連情報が表形式で登録され、
     前記プロセッサは、前記属性名が並ぶ方向における類似度の算出と前記関連情報が並ぶ方向における類似度の算出とで異なる方法で前記マッチングするスキーマの属性同士の類似度を算出することを特徴とするデータ管理システム。
  7.  請求項1に記載のデータ管理システムであって、
     前記プロセッサは、
     一つの属性にマッチングする属性が複数ある場合、当該複数の属性のうちマッチングする属性を選択させるための選択画面を表示し、
     前記選択画面で選択された属性を前記一つの属性にマッチングすることを特徴とするデータ管理システム。
  8.  請求項1に記載のデータ管理システムであって、
     前記記憶領域は、前記属性定義情報に含まれる属性名が登録された属性名情報をさらに記憶し、
     前記プロセッサは、前記記憶領域に記憶された情報から、前記属性名情報に登録された属性名を所定数以上含む情報を前記属性定義情報として特定することを特徴とするデータ管理システム。
  9.  複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムで実行され、前記複数のスキーマをマッチングするデータ管理方法において、
     前記データ管理システムは、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
     前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
     前記方法は、
     前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定するステップと、
     前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングするステップと、を含むことを特徴とするデータ管理方法。
  10.  請求項9に記載のデータ管理方法であって、
     前記複数のスキーマに含まれる属性同士をマッチングするステップは、
     前記特定された属性名及び関連情報に基づいて、前記マッチングするスキーマに含まれる属性同士の類似度を算出するステップと、
     前記算出した類似度が所定の条件を満たす場合、当該属性同士をマッチングするステップと、を含むことを特徴とするデータ管理方法。
  11.  請求項10に記載のデータ管理方法であって、
     前記類似度を算出するステップは、共通する属性名が前記マッチングするスキーマの属性定義情報に存在する場合、前記マッチングするスキーマの属性同士の類似度に所定の第1の値を加算するステップを含むことを特徴とするデータ管理方法。
  12.  請求項11に記載のデータ管理方法であって、
     前記類似度を算出するステップは、前記特定された関連情報同士が共通する場合、前記共通する関連情報に対応する属性同士の類似度の類似度に所定の第2の値を加算するステップを含むことを特徴とするデータ管理方法。
  13.  請求項12に記載のデータ管理方法であって、
     前記第1の値は前記第2の値より小さい値であることを特徴とするデータ管理方法。
  14.  請求項10に記載のデータ管理方法であって、
     前記属性定義情報には前記属性名及び前記関連情報が表形式で登録され、
     前記類似度を算出するステップでは、前記属性名が並ぶ方向における類似度の算出と前記関連情報が並ぶ方向における類似度の算出とで異なる方法で前記マッチングするスキーマの属性同士の類似度を算出することを特徴とするデータ管理方法。
  15.  請求項9に記載のデータ管理方法であって、
     前記方法は、
     一つの属性に対してマッチングする属性が複数存在する場合、当該複数の属性のうちマッチングする属性を選択させるための選択画面を表示するステップと、
     前記選択画面で選択された属性を前記一つの属性にマッチングするステップと、を含むことを特徴とするデータ管理方法。
  16.  請求項9に記載のデータ管理方法であって、
     前記記憶領域は、前記属性定義情報に含まれる属性名が登録された属性名情報をさらに記憶し、
     前記方法は、前記記憶領域に記憶された情報から、前記属性名情報に登録された属性名を所定数以上含む情報を前記属性定義情報として特定するステップを含むことを特徴とするデータ管理方法。
  17.  複数のスキーマに従って項目ごとにデータを格納した複数のデータベース、及び前記スキーマの項目に関する属性を前記スキーマごとに定義する属性定義情報を管理するデータ管理システムで実行され、前記複数のスキーマをマッチングする処理を、前記プロセッサに実行させるプログラムを記憶する計算機読み取り可能な記憶媒体であって、
     前記データ管理システムは、前記複数のデータベース及び前記属性定義情報を記憶する記憶領域と、前記記憶領域を参照するプロセッサと、を有し、
     前記属性定義情報には、前記属性の名称である属性名と、前記属性に関連した関連情報とが、前記スキーマごとに登録され、
     前記処理は、
     前記複数のスキーマをマッチングする場合、前記マッチングするスキーマの属性定義情報を参照し、前記マッチングするスキーマの属性名及び関連情報を特定し、
     前記特定された属性名及び関連情報に基づいて、前記複数のスキーマに含まれる属性同士をマッチングすることを特徴とする計算機読み取り可能な記憶媒体。
PCT/JP2012/055198 2012-03-01 2012-03-01 データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体 WO2013128611A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/055198 WO2013128611A1 (ja) 2012-03-01 2012-03-01 データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/055198 WO2013128611A1 (ja) 2012-03-01 2012-03-01 データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
WO2013128611A1 true WO2013128611A1 (ja) 2013-09-06

Family

ID=49081856

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/055198 WO2013128611A1 (ja) 2012-03-01 2012-03-01 データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体

Country Status (1)

Country Link
WO (1) WO2013128611A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179146A (ja) * 2005-12-27 2007-07-12 Hitachi Ltd データスキーマのマッピングプログラム及び計算機システム
US20090138461A1 (en) * 2007-11-28 2009-05-28 International Business Machines Corporation Method for discovering design documents
JP2011232879A (ja) * 2010-04-26 2011-11-17 Mitsubishi Electric Corp 同義カラム検出装置及び同義カラム検出方法
JP2012038066A (ja) * 2010-08-06 2012-02-23 Mitsubishi Electric Corp データ処理装置及びデータ処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179146A (ja) * 2005-12-27 2007-07-12 Hitachi Ltd データスキーマのマッピングプログラム及び計算機システム
US20090138461A1 (en) * 2007-11-28 2009-05-28 International Business Machines Corporation Method for discovering design documents
JP2011232879A (ja) * 2010-04-26 2011-11-17 Mitsubishi Electric Corp 同義カラム検出装置及び同義カラム検出方法
JP2012038066A (ja) * 2010-08-06 2012-02-23 Mitsubishi Electric Corp データ処理装置及びデータ処理方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNPEI OGAWA: "Automatic Prgramming of XML Transformer between Schemas based on Correspondence of Structures", IEICE TECHNICAL REPORT, vol. 106, no. 522, 25 January 2007 (2007-01-25), pages 1 - 6 *
TAKESHI KOJIMA: "Colored DataGuide: Extraction and Visualization of Structural and Content Differences of Semi-structured Data", DATABASE TO WEB JOHO SYSTEM NI KANSURU SYMPOSIUM RONBUNSHU, vol. 2002, no. 19, 3 December 2002 (2002-12-03), pages 407 - 414 *

Similar Documents

Publication Publication Date Title
Du et al. ‘LungGENS’: a web-based tool for mapping single-cell gene expression in the developing lung
EP2608074B1 (en) Systems and methods for merging source records in accordance with survivorship rules
US10733370B2 (en) Method, apparatus, and computer program product for generating a preview of an electronic document
US20150222731A1 (en) Computer, guide information providing method and recording medium
JP2014048673A (ja) ワークフロー生成サーバ、及び方法
US8898149B2 (en) Biological data structure having multi-lateral, multi-scalar, and multi-dimensional relationships between molecular features and other data
Belmadani et al. VariCarta: a comprehensive database of harmonized genomic variants found in autism spectrum disorder sequencing studies
US20140379723A1 (en) Automatic method for profile database aggregation, deduplication, and analysis
CN107665227A (zh) 一种数据版本控制方法及数据版本控制器
CN107251013A (zh) 数据查询的方法、装置和数据库系统
US20180067986A1 (en) Database model with improved storage and search string generation techniques
US20210342341A1 (en) Data analysis assistance device, data analysis assistance method, and data analysis assistance program
CN109522332A (zh) 客户信息数据合并方法、装置、设备及可读存储介质
EP3042354B1 (en) Metadata automated system
US20120166466A1 (en) Methods and apparatus for adaptive searching for healthcare information
CN107451280B (zh) 数据打通方法、装置及电子设备
US20180329873A1 (en) Automated data extraction system based on historical or related data
US20150347506A1 (en) Methods and apparatus for specifying query execution plans in database management systems
WO2019080412A1 (zh) 数据服务方法、电子装置及存储介质
US20210357372A1 (en) Data analysis assistance device, data analysis assistance method, and data analysis assistance program
JP2018190366A (ja) 検索装置、検索方法及び検索プログラム
US20210158902A1 (en) System and method for allele interpretation using a graph-based reference genome
WO2013128611A1 (ja) データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体
CN101405727A (zh) 数据库系统中的统计视图的管理
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12869725

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12869725

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP