WO2014167647A1 - データ管理装置、データ管理方法及び非一時的な記録媒体 - Google Patents

データ管理装置、データ管理方法及び非一時的な記録媒体 Download PDF

Info

Publication number
WO2014167647A1
WO2014167647A1 PCT/JP2013/060712 JP2013060712W WO2014167647A1 WO 2014167647 A1 WO2014167647 A1 WO 2014167647A1 JP 2013060712 W JP2013060712 W JP 2013060712W WO 2014167647 A1 WO2014167647 A1 WO 2014167647A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
file
virtual
attribute
information
Prior art date
Application number
PCT/JP2013/060712
Other languages
English (en)
French (fr)
Inventor
康志 宮田
児玉 昇司
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2013/060712 priority Critical patent/WO2014167647A1/ja
Priority to JP2015510993A priority patent/JP6042974B2/ja
Priority to US14/782,237 priority patent/US20160041992A1/en
Publication of WO2014167647A1 publication Critical patent/WO2014167647A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Definitions

  • the present invention relates to a data management device, a data management method, and a non-temporary recording medium, and is preferably applied to a data management device, a data management method, and a non-temporary recording medium for managing unstructured data.
  • a wide variety of data is electronically managed in an information system, and a user collects, processes, and displays data through the information system in order to obtain knowledge from the data.
  • Such electronic data includes structural data having structural information and non-structural data not having structural information.
  • the structure data is, for example, data in which various characteristics of data are managed using structure information such as attributes and attribute values.
  • unstructured data does not have a structure such as an attribute and an attribute value, and is generally managed as a file in the information system.
  • the information system can collect, process, and display the data by using the structure information as a clue.
  • a user who uses data also uses the structural information of the structural data to compare attribute values of specific attributes between the data. This facilitates acquisition of knowledge such as differences and identity between data.
  • the structure data expresses a structure that represents the data, information that does not match the structure may not be included as data.
  • unstructured data does not specify the structure that represents data
  • information that cannot be represented by structured data is also included as data. Therefore, there is a possibility that more information and knowledge can be obtained than structural data.
  • structural information since there is no structural information, it is difficult to collect data using the structural information as a clue and discover knowledge by the user. Therefore, a technique for structuring data in response to an information acquisition request from a user is disclosed.
  • Patent Document 1 discloses a technique for extracting information from a plurality of HTML documents and structuring data.
  • the technology has means for storing attribute information that is structure information, the location of an HTML document that includes information that is attribute values of the attribute, and information extraction rules from the HTML document.
  • attribute information that is structure information
  • the location of an HTML document that includes information that is attribute values of the attribute
  • information extraction rules from the HTML document.
  • Patent Document 2 as a method for presenting unstructured data to a user, there is a method for presenting a structured representation of unstructured data by writing information extracted from a set of unstructured data as attribute values of attributes. It is disclosed. As a result, various information systems and users can manage unstructured data using the structure information as a clue.
  • Patent Document 1 As described above, in Patent Document 1, as a means for structuring data, information extraction processing is executed when a search query is received. For this reason, the latest information at the time when the information extraction process is executed can be acquired, but the time until the search result structured for the information extraction process is acquired increases. Further, the information extraction target is an HTML document that holds a clue of structural information as tag information, and non-structural data is not the target. Patent Document 2 discloses a method of structuring unstructured data by a process of extracting information by a combination of attributes and attribute values. However, when a search query is received, it is necessary to execute an information extraction process. A certain point is the same as that of Patent Document 1.
  • the present invention has been made in consideration of the above points.
  • the recording medium is to be proposed.
  • a first database that holds structured data in which a plurality of features of data are structured by attributes and attribute values, and unstructured non-structured data in units of files
  • a storage unit that stores a second database held in the database, and the structure data and the non-structure data are combined and managed as virtual structure data accessed when executing a search query for the second database;
  • the attribute value of the virtual attribute of the structure data is a value extracted from the second database file by a predetermined information extraction rule, and the second database file having the unstructured data is updated
  • the virtual structure Provided with a data management device comprising a control unit for updating an attribute value of a virtual attribute of data That.
  • the structural data and the non-structural data are combined into virtual structural data that is accessed when a search query is performed on the second database, and an attribute value of a virtual attribute of the virtual structural data is set to the first A value extracted from the database file 2 by a predetermined information extraction rule. Then, when the file of the second database having the non-structure data is updated, the attribute value of the virtual attribute of the virtual structure data is updated.
  • the desired extraction can be performed only by accessing the structure data reflecting the state of the latest non-structured data without performing the re-extraction process on the non-structured data of the extraction source every time the search process is executed. Data can be acquired.
  • unstructured data can be efficiently managed by combining unstructured data with existing structure data.
  • the data management device 101 includes a memory 111, a CPU 112, a communication device 113, a storage device 114, an input device 115, a display device 116, and the like.
  • the CPU 112 functions as an arithmetic processing device and a control device, and controls the overall operation of the data management device 101 according to various programs stored in the memory 111.
  • the memory 111 is a ROM (Read Only Memory), a RAM (Random Access Memory), or the like.
  • the ROM 202 stores a program used by the CPU 112, an operation parameter, and the like, and the RAM 203 stores a program used in the execution of the CPU 112. Parameters that change as appropriate during the execution are temporarily stored. These are connected to each other by a host bus including a CPU bus.
  • the CPU 112 includes an information extraction rule registration unit 131, an information extraction rule holding unit 132, a virtual attribute update unit 133, an information extraction unit 134, a related file information holding unit 135, and an update detection unit 136.
  • Each unit of the CPU 112 registers an information extraction rule to be described later, executes an information extraction process, registers related file information, and manages updating of virtual structure data according to the registered information extraction rule. The processing executed by each unit will be described in detail later.
  • the communication device 113 is a communication interface configured by a communication device or the like for connecting to a network.
  • the communication device 113 may be a wireless LAN (Local Area Network) compatible communication device, a wireless USB compatible communication device, or a wire communication device that performs wired communication.
  • the storage device 114 is composed of, for example, an HDD (Hard Disk Drive), and stores programs executed by the CPU 112 and various data. Further, a first database 151 and a second database 152 to be described later may be stored in the storage device 114, or may be stored in a storage device separate from the data management device 101.
  • HDD Hard Disk Drive
  • the storage device 114 stores various programs 121, data 122, information extraction rules 123, and related file information 124 for the data management device 101 to execute processing. Each information stored in the storage device 114 will be described in detail later.
  • the input device 115 is a device for inputting an instruction to a computer such as a keyboard and a mouse, and inputs an instruction such as starting a program.
  • the display device 116 is a display or the like, and displays the execution status and execution result of the processing by the data management device 101.
  • (1-2) Function of Data Management Device First, structured data and unstructured data managed by the data management device 101 will be described.
  • the structure data will be described using a relational database as an example of data having an attribute and attribute value structure.
  • data is expressed as records, and attributes are expressed as column names.
  • the attribute value is written to the cell corresponding to the specific attribute in the record.
  • unstructured data a file including document information, image information, video information, audio information, or the like will be described as an example.
  • the information extraction rule registration unit 131 receives the information extraction rule 123 via the communication device or the input device, and adds the virtual attribute name and the table information to which the virtual attribute is included in the information extraction rule 123 from the virtual attribute addition destination.
  • the information is extracted and stored in the information extraction rule holding unit 132.
  • the information extraction rule 123 will be described with reference to FIG.
  • the information extraction rule 123 a rule for extracting predetermined information is set, and the information extraction rule registration unit 131 stores the rule in the storage device. As shown in FIG. 2, information such as a virtual attribute name, a virtual attribute addition destination, an extraction target specifying condition, an output destination specifying condition, an extraction process content, and a use dictionary is set in the information extraction rule 123.
  • the virtual attribute name is information for specifying the writing position in the structure data, and the result extracted from the file included in the non-structure data is written to the structure data.
  • the virtual attribute addition destination is information for specifying a database and a table to which a virtual attribute name is added.
  • the extraction target specifying condition is a condition for narrowing down the extraction target and database information including unstructured data to be extracted.
  • the output destination specifying condition is a condition for specifying a position in a table to which a result extracted from unstructured data is written.
  • the content of the extraction process includes the name of the attribute value output as the extraction result and the extraction condition for the attribute value.
  • the use dictionary is information for setting a dictionary to be referred to when extracting information.
  • the virtual attribute name is concurrent, and the table of the first database 151 to which the virtual attribute is added is the table 1 of the database A. Further, it can be seen that the file of the second database 152 to be extracted is the nursing record file of the database B. It can also be seen that the extraction result is written in the position specified by the patient ID in Table 1.
  • the name of the attribute value output as the extraction result is the disease name
  • the disease name indicates that the disease name defined in the medical dictionary A is extracted.
  • the onset information is information that determines whether the disease includes information indicating the same meaning as the onset, such as "onset", "takes", or "sees symptoms” Indicates. If there is a description that the disease name described in the medical dictionary A has developed in accordance with the condition 1 of the extraction processing content, the disease name is extracted.
  • the information extraction rule 123 shown in FIG. 2 is an example, and if a plurality of information extraction results exist, a list of a plurality of output results may be written as virtual attribute values.
  • statistical processing was performed on the information extraction rule 123, a rule that writes the number of results of full-text search for the second database to a virtual attribute value, a rule that writes location information of a related file, and information in the related file A rule for writing the result may be set.
  • the information extraction rule registration unit 131 uses the information set as the virtual attribute addition destination of the information extraction rule 123 to create a database (first database 151) to which the virtual attribute is added and a table 1510 included in the database. Identify. Then, the information extraction rule registration unit 131 generates a virtual structure data 153 by adding a column with the virtual attribute name as the column name to the identified database table. In this case, even if the column is not actually added to the table, a table composed of a unique ID for uniquely identifying a record included in the table and a virtual attribute is newly created, and the virtual structure data 153 is created. May be generated. As described above, after a virtual attribute is added to the specified table, information for determining an initial value set as the virtual attribute is extracted, and related file information 124 described later is registered in the related file information holding unit 135.
  • the information extraction unit 134 refers to the extraction target specifying condition indicated in the information extraction rule 123 and refers to the file 1520a, 1520b, or 1520c (hereinafter referred to as file 1520) of the database (second database 152) that is the target of information extraction. In some cases, the file is specified.) Then, the file is specified using the information set in the output destination specifying condition, and the position of the virtual attribute value that is the writing destination of the information extracted from the file is specified. For example, in the information extraction rule 123 of FIG. 2, since the patient ID is specified as the output destination specifying condition, the nursing record file for each patient is specified, and the position where the information extracted from the file is written is the virtual structure data. It is specified from the virtual attribute value column in the table 1530 of 153.
  • the information extraction unit 134 registers the specified file as the related file in the related file information 124 in association with the virtual attribute value specifying information for specifying the position of the virtual attribute value. For example, in the information extraction rule 123 of FIG. 2, since the patient ID is specified as the output destination specifying condition, the related file information 124 is used as a related file for associating the nursing record file for each patient with the virtual attribute value of each patient. Register with.
  • the information extraction unit 134 performs information extraction processing on the related files associated with the related file information 124 for each specified virtual attribute value, and uses the virtual attribute value that specifies the extraction result as a virtual attribute value. Write to the structure data 153.
  • the information extraction unit 134 registers the related file information registered in the related file information 124 of the related file information holding unit 135 in association with the information extraction rule. Thereby, the related file information 124 shown in FIG. 4 is held in the related file information holding unit 135.
  • the related file information 124 includes a virtual attribute value specifying information column 1240, a related file column 1241, and an information extraction rule column 1242.
  • the virtual attribute value specifying information column 1240 stores information for specifying the position of the virtual attribute value of the virtual structure data 153 to which the information extracted from the file is written.
  • information for identifying a file to be extracted is stored as a related file.
  • Information indicating the information extraction rule 123 is stored in the information extraction rule column 1242.
  • the destination of writing the virtual attribute value extracted from the related file file1 (nursing record file for each patient) according to the information extraction rule file.
  • rule is patient name A in the nursing record table 1530 of the virtual structure data 145 It can be seen that the position is specified by the column of the concurrent column in the row.
  • the information indicating the related file to be extracted and the information extraction rule can be set in association with the related file information 124 of the related file information holding unit 135. Further, according to the information extraction rule of the related file information 124, the virtual attribute value is extracted from the specified related file, and the virtual attribute value is set at the position indicated by the virtual attribute value specifying information, thereby generating the virtual structure data 153. Is done.
  • the update detection unit 136 checks whether the updated file matches the related file set in the related file information 124. To do.
  • whether or not the file has been updated is determined based on, for example, whether or not the file update date has been changed.
  • file update includes file deletion.
  • the update detection unit 136 executes information extraction processing according to the information extraction rule 123 associated with the related file. Then, the virtual attribute updating unit 133 updates the extracted result as a virtual attribute value at a position specified by the output destination specifying condition and the virtual attribute name.
  • the data extracted from the non-structure data is managed as the virtual structure data 153 in combination with the existing structure data, and when the non-structure data is updated, the virtual structure data 153 is also updated to update the latest data. It is said.
  • the virtual structure data 153 reflecting the state of the latest non-structured data can be obtained without performing the re-extraction process on the non-structured data of the extraction source every time the search process is executed on the virtual structure data 153. It is possible to obtain desired extraction data simply by accessing.
  • the data management apparatus 101 executes information extraction rule registration processing for registering a virtual attribute name, a virtual attribute addition destination, and the like based on the input information extraction rule 123. Then, the data management apparatus 101 extracts data from the information extraction target file according to the information extraction rule 123, and uses the extraction result as a virtual attribute value at the specified position in the table 1530 to which the virtual structure data 153 is written. Execute virtual attribute value initial value determination processing to be written. Further, when a file included in the second database 152 is updated, a virtual attribute update process for updating a virtual attribute corresponding to the updated file is executed. Hereinafter, each process will be described in detail.
  • the information extraction rule registration unit 131 includes the information set in the virtual attribute name and the virtual attribute addition destination included in the information extraction rule 123. And the virtual attribute name and the table information to which the virtual attribute is added are stored in the related file information holding unit 135 (S102).
  • the information extraction rule registration unit 131 identifies a database to which a virtual attribute is added and a table included in the database (S103). Specifically, the information extraction rule registration unit 131 specifies the database A as the database to which the virtual attribute is added when the database A and the table 1 are set as the virtual attribute addition destination of the information extraction rule 123, and Further, the table 1 included in the database A is specified.
  • the information extraction rule registration unit 131 adds a column whose column name is the virtual attribute name of the information extraction rule 123 to the table specified in step S103 (S104). Specifically, the information extraction rule registration unit 131 adds a column with a column name to the table 1 identified in step S103 when the virtual attribute name of the information extraction rule 123 is set to be concurrent.
  • the information extraction unit 134 specifies a file that is a target of information extraction in accordance with the extraction target specifying condition set in the information extraction rule 123 (S201).
  • the information extraction unit 134 specifies a file using the information of the output destination specifying condition of the information extraction rule 123, and specifies the position of the virtual attribute value that is the writing destination of the information extracted from the file (S202). Specifically, when the output destination specifying condition is a patient ID, the information extracting unit 134 specifies a nursing record file for each patient. Then, the position to write the virtual attribute value in the table 1530 of the virtual structure data 153 is specified as the destination to write the information extracted from the nursing record file.
  • the information extraction unit 134 registers the file specified in step S202 as the related file in association with the virtual attribute value specifying information for specifying the position of the virtual attribute value in the related file information 124 (S203). Specifically, since the patient ID is specified as the output destination specifying condition in the information extraction rule 123, the information extraction unit 134 is associated as a related file for associating a nursing record file for each patient with a virtual attribute value of each patient. Register in the file information 124.
  • the information extraction unit 134 executes information extraction processing for the related files associated with the related file information 124 for each identified virtual attribute value (S204). Subsequently, the information extraction unit 134 writes the result of the extraction process executed in step S204 as a virtual attribute value in the specified writing position of the corresponding table 1530 of the virtual structure data 153 (S205).
  • the information indicating the related file to be extracted and the information extraction rule can be set in association with the related file information 124 of the related file information holding unit 135. Further, according to the information extraction rule of the related file information 124, the virtual attribute value is extracted from the specified related file, and the virtual attribute value is set at the position indicated by the virtual attribute value specifying information, thereby generating the virtual structure data 153. Is done.
  • the update detection unit 136 determines whether a file included in the second database 152 that is a target of information extraction has been updated (S301).
  • step S301 If it is determined in step S301 that the file has been updated, the update detection unit 136 acquires the related file information 124 stored in the related file information storage unit 135 and matches the updated file. It is confirmed whether there is (S302).
  • the update detection unit 136 determines whether there is a matching related file in the confirmation in step S302 (S303). If it is determined in step S303 that no matching file exists, the update detection unit 136 repeats the processing from step S301 onward. On the other hand, if it is determined in step S303 that there is a matching file, the update detection unit 136 executes the process of step S304.
  • the update detection unit 136 executes information extraction processing on the matching related files according to the information extraction rule 123 corresponding to the related file information 124 (S304). Then, the virtual attribute update unit 133 updates the result extracted by the information extraction process executed in step S304 as the virtual attribute value at the position specified by the output destination specifying condition and the virtual attribute name (S305).
  • the data extracted from the non-structure data is managed as the virtual structure data 153 in combination with the existing structure data.
  • the virtual structure data 153 is also updated to update the latest data. It is said.
  • the virtual structure data 153 reflecting the state of the latest non-structured data can be obtained without performing the re-extraction process on the non-structured data of the extraction source every time the search process is executed on the virtual structure data 153. It is possible to obtain desired extraction data simply by accessing.
  • the virtual structure data management screen 500 is a screen that a user uses for managing virtual structure data.
  • FIG. 8 shows an example of managing a virtual structure database that has an IP address 192.168.1.1 as an access point and is given the name medical information.
  • the virtual DB name 501 displays medical information indicating the database name and 192.168.1.1 indicating the IP address.
  • table name 502 a list of table names managed as virtual structure data is displayed.
  • table information of the existing structure database selected by the user to be managed as virtual structure data is displayed side by side.
  • hyphens indicating influenza or not applicable are displayed in the concurrent column of sample 506 as the extraction result.
  • related file information that is a file from which the word / phrase is extracted is displayed. At this time, in addition to the file name, it may be displayed from which part in the file the word is extracted. Moreover, you may display the information extraction rule utilized in order to extract the phrase.
  • an arbitrary attribute is added as a virtual attribute to data included in the structured first database 151, and the virtual attribute Information extraction rule with the attribute value of the second database 152 as a result of the search query for the second database 152 is registered, and the file of the second database 152 involved in the derivation of the result of the search query is stored in association with the information extraction rule To do. Then, when the related file is updated, the search query is executed again, and the execution result is set as a new attribute value of the virtual attribute.
  • the virtual structure data 153 reflecting the state of the latest non-structured data can be obtained without performing the re-extraction process on the non-structured data of the extraction source every time the search process is executed on the virtual structure data 153. It is possible to obtain desired extraction data simply by accessing.
  • the update / addition detection unit 137 has a function of detecting the addition of a file to the second database 152 that manages unstructured data.
  • the additional file checking unit 138 has a function of adding the information of the file added to the related file information holding unit 135 and a function of writing the information extracted from the added file to the corresponding virtual attribute value of the structure data. .
  • the additional file inspection unit 138 receives the location information of the file added to the second database 152 from the additional detection unit 137 (S401). ). Then, the additional file checking unit 138 acquires the information extraction rule 123 from the information extraction rule holding unit 132 (S402).
  • the additional file inspection unit 138 acquires the extraction target specifying condition for specifying the file as the information extraction target from the information extraction rule 123 (S403).
  • step S403 for example, when the information extraction rule 123 shown in FIG. 2 is used, the database B and the nursing record are extracted as the extraction target specifying condition.
  • the additional file inspection unit 138 checks whether the additional file matches the extraction target specifying condition (S404). In this embodiment, it is checked whether the additional file is data added to the database B or a file belonging to the nursing record.
  • the additional file inspection unit 138 determines whether the file matches the extraction target specifying condition as a result of the inspection in step S404 (S405). If it is determined in step S405 that the file does not match, the additional file checking unit 138 ends the process. On the other hand, if it is determined in step S405 that the files match, the additional file inspection unit 138 executes the process of step S406.
  • step S406 the additional file checking unit 138 specifies the position of the virtual attribute value to which information extracted from the additional file is written using the output destination specifying condition of the acquired information extraction rule 123. Subsequently, the additional file inspection unit 138 associates the additional file with the identified virtual attribute value position as a related file (S407).
  • the information extraction unit 134 executes information extraction processing for the related files associated with the related file information 124 for each identified virtual attribute value (S408). Subsequently, the information extraction unit 134 writes the result of the extraction process executed in step S204 as a virtual attribute value in the specified writing position of the corresponding table 1530 of the virtual structure data 153 (S409).
  • the update / addition detection unit 137 can detect the update of the added file. . If there is a change in the result of information extraction according to the information extraction rule 123 corresponding to the related file, the process of updating the virtual attribute value in the table 1530 of the virtual structure data 153 is repeated.
  • step S405 Even when it is determined in step S405 that the additional file does not match the extraction target specification condition, there is a possibility that the subsequent update will meet the extraction target specification condition. In that case, the added file may be stored as an unrelated file, and when the unrelated file is updated, the process shown in FIG. 10 may be executed again.
  • a search query is executed on unstructured data, information extraction processing is executed from the resulting file, and the extraction is performed.
  • the result is written in a virtual attribute value indicating one characteristic of data included in the structure data that can be specified by the information extraction rule.
  • the virtual structure data management device that specifies the position of the virtual attribute value to which the information extraction result is written by using the attribute value of the attribute other than the virtual attribute among the data included in the structure data. An example will be described.
  • the data management device 101 according to the present embodiment has the same hardware configuration as that of the first embodiment, detailed description thereof is omitted. Further, the data management apparatus 101 according to the present embodiment is different from the first embodiment in that an information extraction rule expansion unit 139 and a structure data acquisition unit 140 are provided as shown in FIG.
  • the structure data acquisition unit 140 has a function of acquiring structure data related to the received information extraction rule 123.
  • the information extraction rule extension unit 139 has a function of extending the information extraction rule 123 using the structure data acquired by the structure data acquisition unit 140.
  • the information extraction rule registration unit 131 determines whether the information extraction rule 123 has been received via the communication device 113 or the input device 115 (S501).
  • the information extraction rule registration unit 131 includes information set in the virtual attribute name and the virtual attribute addition destination included in the information extraction rule 123. And the virtual attribute name and the table information to which the virtual attribute is added are stored in the information extraction rule holding unit 132 (S502). Assume that the patient information table 1510 included in the first database 1510 shown in FIG.
  • the structure data acquisition unit 140 acquires the attribute value of the attribute that identifies each row of the table 1510 acquired in step S502 (S503).
  • the value for identifying each row in the table 1510 is an attribute value that is different between each row included in the table 1510, and is a value that can uniquely identify each row. For example, when the patient names are all different, only the patient name may be used, or when each row is uniquely identified by combining the patient name and the hospitalization date, the combination of the patient name and the hospitalization date may be used. Further, it may be a patient ID set to identify each row of the table 1510.
  • the information extraction rule extension unit 139 adds an identification attribute value for identifying each row acquired in step S503 to the output destination specifying condition of the information extraction rule 123 (S504). As illustrated in FIG. 13, the information extraction rule expansion unit 139 adds the patient name and hospitalization date that identify each row of the table 1510 to the output destination specifying condition of the information extraction rule 123.
  • the related file is set according to the expanded output destination specifying condition. Identify. Then, the information specifying the position of the virtual attribute value of the record including the attribute value used for extending the output destination specifying condition is associated with the related file.
  • the patient names A, B, and C are attribute values for extending the output destination specifying conditions.
  • the virtual attribute name is “coincident”
  • the file related to the virtual attribute value exists in the database B, and the related file in which the description about Mr. A exists specifies the position of the virtual attribute of the record with the patient name A Associated with the information
  • the output destination specifying conditions extended in this way are displayed as extended rules related to related files in the virtual structure data management screen 500 presented to the user in FIG.
  • a patient name & hospitalization date @ patient table may be displayed as an extended rule. This means that a file including both the patient name and hospitalization date of the patient table managed as virtual structure data as information is used as the related file.
  • the search for unstructured data included nursing records and disease names.
  • the nursing record and the disease name are included, the patient name is Mr. C, and the hospitalization date is December 1st.
  • the files to be extracted can be further narrowed down.
  • data is extracted from unstructured data using attribute values of attributes other than virtual attributes of data included in the structured data.
  • the position of the virtual attribute value to which the information extraction result is written can be specified. As a result, even when a large amount of data is included in the structure data, it is possible to simplify the description of the rule for specifying the writing destination of the information extraction result.
  • a file included in non-structural data related to determination of the virtual attribute value is stored in the related file information 124 as a related file. is doing. Then, information is extracted from the related file, and the information extraction result is written as a virtual attribute value.
  • the user wants to know the details of the information extraction source information, the user can acquire the related file itself and refer to the contents. At this time, if there are a large number of related files, it becomes difficult for the user to see all the contents.
  • the attribute value of the attribute included in the structure data other than the virtual attribute is used to manage the strength of the association with the data for a plurality of related files. Therefore, when there are many related files, the user can refer to a file having a strong connection with the extracted data.
  • the structure data acquisition unit 140 has a function of acquiring structure data related to the received information extraction rule 123.
  • the relation strength calculation unit 141 has a function of calculating the relation strength between the relation file and the virtual attribute value using the structure data acquired by the structure data acquisition unit 140.
  • the information extraction rule registration unit 131 associates a related file with a virtual attribute value using an extraction target specifying condition described in the information extraction rule 123 and an output destination specifying condition (S601). ).
  • the structure data acquisition unit 140 acquires an attribute value other than the virtual attribute value of the record associated with the related file in step S601 (S602).
  • the relation strength calculation unit 141 calculates the relation strength between the attribute value acquired in step S602 and the relation file (S603).
  • the relation strength may count the number of times the attribute value acquired in step S602 appears in the related file. If the attribute value is a character string, the number of occurrences of the synonym or synonym may be counted. Good. Further, each attribute value may be weighted according to the presence or absence of duplication between records, and a value obtained by multiplying the number of appearances by a weighting coefficient may be calculated. Further, when there are a plurality of attribute values acquired in step S603, configuration information in the related file such as the proximity of appearance positions of the plurality of attribute values in the related file may be used.
  • the relation strength calculation unit 141 stores the relation strength calculated by these methods in the relation file information 124 for each relation file (S604). Specifically, the related strength calculation unit 141 stores the calculated related strength (score) in the related strength (score) column 1243 of the related file information 124 illustrated in FIG. 16 for each related file.
  • the related strength (score) set in steps S603 and S604 is used in response to the user's file request. For example, when the user refers to the related file from which the extraction is performed in order to investigate the details of the virtual attribute value of “Mr. A, co-occurring”, file12. doc, file11. doc, file1. doc.
  • an object included in a file is extracted, and the extraction result is registered as a virtual attribute value of data included in the structure data.
  • the file to be extracted is a document
  • words included in the document and related words such as synonyms and synonyms of the words.
  • the file to be extracted is a moving image
  • the image and name of the moving image can be extracted.
  • the files to be extracted include not only the objects explicitly expressed in the file, but also the category and class of the file, the prediction of information that will appear in the future, whether positive information or negative information, etc.
  • Various information obtained by analyzing the information in the file is included. Therefore, in the present embodiment, in order to extract such information, statistical processing of information included in the file is acquired, and analysis processing or data mining for making a determination on the result is performed.
  • the statistical calculation unit 142 has a function of performing a statistical calculation defined for information associated with a related file.
  • the statistical calculation unit 142 acquires statistical information for information in one or more related files and makes a determination on the result. Add analytical processing or data mining. Then, by writing the result of analysis processing or data mining by the statistical calculation unit 142 to the structure data as a virtual attribute value, it is also possible to structure object information that is not explicitly expressed in the related file.
  • the statistical calculation unit 142 performs the following processing when the virtual attribute value that is the information extraction destination from the unstructured data is specified after the information extraction rule 123 is registered or the file of the unstructured data is updated or added. To start.
  • the statistical calculation unit 142 acquires a file related to the identified virtual attribute value from the related file information holding unit 135 (S701).
  • the statistical calculation unit 142 performs statistical calculation according to a predetermined statistical calculation rule for one or more related files (S702).
  • the statistical calculation rule used in step S702 can be exemplified by the statistical calculation rule shown in FIG.
  • rule 1 is a rule for calculating the number of words that match words appearing in the dictionary.
  • rule 2 shows a positive meaning such as “can”, “recovery”, “becomes better” and a negative meaning such as “can't”, “deteriorates”, “becomes worse”. It is a rule that tabulates the frequency of appearance of words.
  • rule 3 is a rule for counting the number of words belonging to a specific category or class, such as a word related to treatment, a word related to rehabilitation, and a word related to meal.
  • the statistical calculation unit 142 After carrying out the aggregation results according to the statistical calculation rules described above, the statistical calculation unit 142 notifies the information extraction unit 134 of the aggregation results (S703).
  • the information extraction unit 134 applies the information extraction rule to the statistical calculation result notified in step S703, writes the result as the information extraction result, and writes it as the identified virtual attribute value (S704).
  • an information extraction rule applied in step S704 for example, one is a rule for registering a disease name word having the highest appearance frequency.
  • One is a rule in which the number of positive information and negative information is compared, and if there is a lot of positive information, it is positive.
  • One is a rule for writing a category name if the number of words in a specific category is large.
  • One is a rule for registering words derived from a plurality of category names that appear.
  • statistical calculation may be performed using metadata attached to the file.
  • file creator information For example, file creator information, updater information, and personal information such as a person included in the file may be used.
  • file creator information only files created or updated by a specific creator may be subject to statistical calculation. Thereby, statistical calculation can be performed using only files created or updated by a reliable person, and the accuracy of information can be improved.
  • Metadata accompanying other than personal information may be used.
  • file creation time or update time, time information included in the file, or the like may be used.
  • the tendency of numerical change may be extracted from the time information attached to the file and the numerical information in the file, and the future numerical value may be extracted as the predicted value.
  • various metadata such as position information, language information, color information, right information, access right information, or version information may be used.
  • the data that is the target of information extraction is unstructured data, but the data that is the target of information extraction may be arbitrary data including structural data.
  • an arbitrary target data group is divided into appropriate partial data. Then, the divided partial data is handled in the same manner as the related file described above, and the update of the partial data is detected.
  • the partial data is updated, the result obtained by applying the information extraction rule to the partial data is updated as the virtual attribute value of the virtual structure data.
  • the present invention is not limited to the above-described embodiment, and includes various modifications.
  • the above-described embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. Further, a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. . Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files that realize each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • the control lines and information lines are those that are considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】非構造データを既存の構造データと組み合わせて効率よく非構造データを管理する。 【解決手段】データ管理装置は、データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第1のデータベースと、構造化されていない非構造データをファイル単位で保持する第2のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて、前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部とを備える。

Description

データ管理装置、データ管理方法及び非一時的な記録媒体
 本発明は、データ管理装置、データ管理方法及び非一時的な記録媒体に関し、非構造データを管理するデータ管理装置、データ管理方法及び非一時的な記録媒体に適用して好適なるものである。
 従来から、情報システムにて多種多様なデータが電子的に管理され、ユーザはデータから知見を得るために、情報システムを介してデータの収集、処理、表示などを行っている。このような電子的なデータには、構造情報を持つ構造データと、構造情報を持たない非構造データが存在する。構造データは、例えば、データが持つ様々な特徴を属性と属性値という構造情報を用いて管理されるデータである。また、非構造データは、属性と属性値のような構造を持たず、情報システム内では一般にファイルとして管理されている。
 上記したように、構造データは、構造情報によって整理されているため、情報システムは構造情報を手掛かりにデータを収集したり、処理したり、表示したりすることができる。また、データを利用するユーザも、構造データが持つ構造情報を活用して、データ間で特定属性の属性値を比較したりする。これにより、データ間の違いや同一性といった知見の獲得が容易になる。一方で、構造データは、データを表現する構造が規定されているため、その構造に合致しない情報はデータとして含まれない可能性がある。
 また、非構造データは、データを表現する構造が規定されていないため、構造データでは表現できない情報もデータとして含まれる。そのため、構造データより多くの情報や知見を得られる可能性がある。しかし、構造情報が存在しないため、構造情報を手掛かりとしたデータ収集やユーザによる知見の発見が困難となる。そこで、ユーザからの情報取得要求に応じてデータを構造化する技術が開示されている。
 例えば、特許文献1では、複数のHTML文書から情報抽出し、データを構造化する技術が開示されている。当該技術では、構造情報である属性情報と、その属性の属性値となる情報を含むHTML文書の所在と、当該HTML文書からの情報抽出ルールを記憶する手段を持つ。これにより、構造情報を手掛かりとする検索クエリを受信した場合に、HTML文書の所在情報から該当するHTMLを収集し、各HTML文書に対して属性に対する属性値を抽出する処理を実行し、データを構造化する。以上の処理により、HTML文書に含まれる構造化されていないデータを構造データとして検索することが可能となる。
 また、特許文献2では、ユーザに非構造データを提示する方法として、非構造データの集合から抽出した情報を、属性の属性値として書き込むことで非構造データを構造化した表現を提示する方法が開示されている。これにより、各種情報システムやユーザが構造情報を手掛かりに非構造データを管理することができる。
特許第3160265号公報 特表2012-515407号公報
 ところで、複数の情報システムが存在する場合には、各情報システムが管理するデータに構造データと非構造データが混在し、データの内容も異なっている。複数の情報システムを横断した情報検索を実施する場合には、構造データと非構造データを組み合わせる必要がある。また、構造情報を手掛かりとするためには、非構造データを構造化し、構造情報が既知である構造データと組み合わせる必要がある。
 上記したように、特許文献1では、データを構造化する手段として、検索クエリを受信した時に情報抽出処理を実行している。このため、情報抽出処理を実行した時点での最新情報を取得することができるが、情報抽出処理のために構造化された検索結果を取得するまでの時間が増大する。また、情報抽出対象を、構造情報の手掛かりをタグ情報として保持するHTML文書としており、非構造データは対象としていない。また、特許文献2では、属性と属性値の組み合わせで情報を抽出する処理により非構造データを構造化する方式が開示されているが、検索クエリを受信した場合に情報抽出処理を実行する必要がある点は特許文献1と同様である。
 本発明は以上の点を考慮してなされたもので、非構造データを既存の構造データと組み合わせて効率よく非構造データを管理することが可能なデータ管理装置、データ管理方法及び非一時的な記録媒体を提案しようとするものである。
 かかる課題を解決するために本発明においては、データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第1のデータベースと、構造化されていない非構造データをファイル単位で保持する第2のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて、前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部とを備えることを特徴とする、データ管理装置が提供される。
 かかる構成によれば、前記構造データと前記非構造データとを組み合わせて、前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとし、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とする。そして、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する。これにより、検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した構造データにアクセスするだけで、所望の抽出データを取得することが可能となる。
 本発明によれば、非構造データを既存の構造データと組み合わせて効率よく非構造データを管理することができる。
本発明の第1の実施形態に係るデータ管理装置の構成を示すブロック図である。 同実施形態にかかる情報抽出ルールの内容を示す概念図である。 同実施形態にかかる仮想構造データの内容を説明する概念図である。 同実施形態にかかる関連ファイル情報の一例を示す図表である。 同実施形態にかかる情報抽出ルール登録処理を示すフローチャートである。 同実施形態にかかる仮想属性値初期値決定処理を示すフローチャートである。 同実施形態にかかる仮想属性更新処理を示すフローチャートである。 同実施形態にかかる仮想構造データ管理画面の一例を示す概念図である。 本発明の第2の実施形態に係るデータ管理装置の構成を示すブロック図である。 同実施形態にかかる追加ファイル検査処理を示すフローチャートである。 本発明の第3の実施形態に係るデータ管理装置の構成を示すブロック図である。 同実施形態にかかる情報抽出ルールを拡張する処理を示すフローチャートである。 同実施形態にかかる情報抽出ルールの拡張を説明する概念図である。 本発明の第4の実施形態に係るデータ管理装置の構成を示すブロック図である。 同実施形態にかかる関連強さを計算する処理を示すフローチャートである。 同実施形態にかかる関連ファイル情報の一例を示す図表である。 本発明の第5の実施形態に係るデータ管理装置の構成を示すブロック図である。 同実施形態にかかる統計情報を利用する情報抽出処理を示すフローチャートである。 同実施形態にかかる統計計算ルール例を説明する概念図である。
 以下図面について、本発明の一実施の形態を詳述する。
(1)第1の実施の形態
(1-1)データ管理装置の構成
 まず、図1を参照して、データ管理装置101のハードウェア構成について説明する。図1に示すように、データ管理装置101は、メモリ111、CPU112、通信装置113、記憶装置114、入力装置115及び表示装置116などを備える。
 CPU112は、演算処理装置および制御装置として機能し、メモリ111に格納されている各種プログラムにしたがってデータ管理装置101の動作全般を制御する。メモリ111は、ROM(Read Only Memory)やRAM(Random Access Memory)などであり、ROM202には、CPU112が使用するプログラムや演算パラメータ等が記憶され、RAM203には、CPU112の実行において使用するプログラムや、その実行において適宜変化するパラメータ等が一次記憶される。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。
 CPU112は、情報抽出ルール登録部131、情報抽出ルール保持部132、仮想属性更新部133、情報抽出部134、関連ファイル情報保持部135及び更新検知部136から構成される。CPU112の各部により、後述する情報抽出ルールを登録したり、情報抽出処理を実行したり、関連ファイル情報を登録したり、登録した情報抽出ルールにしたがって仮想構造データの更新を管理したりする。各部により実行される処理については、後で詳細に説明する。
 通信装置113は、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置113は、無線LAN(Local Area Network)対応通信装置であっても、ワイヤレスUSB対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
 記憶装置114は、例えば、HDD(Hard Disk Drive)で構成され、CPU112が実行するプログラムや各種データを格納する。また、後述する第1のデータベース151や第2のデータベース152は、記憶装置114に格納されていてもよいし、データ管理装置101とは別体の記憶装置に格納されていてもよい。
 記憶装置114は、データ管理装置101が処理を実行するための各種プログラム121、データ122、情報抽出ルール123、関連ファイル情報124を保存する。記憶装置114に保存される各情報については、後で詳細に説明する。
 入力装置115は、キーボードやマウスなどのコンピュータに指示を入力するための装置であり、プログラム起動などの指示を入力する。
 表示装置116は、ディスプレイなどであり、データ管理装置101による処理の実行状況や実行結果などを表示する。
(1-2)データ管理装置の機能
 まず、データ管理装置101において管理する構造データ及び非構造データについて説明する。構造データとしては、データを属性と属性値の構造を持つ例として、関係データベースを用いて説明する。関係データベースでは、データはレコードとして表現され、属性はカラム名で表現される。属性値は、レコード中の特定の属性に対応するセルに書き込まれる。非構造データとしては、文書情報、画像情報、映像情報または音声情報などを含むファイルを例として説明する。
 また、後述する第1のデータベース151には、構造データが格納されており、第2のデータベースにはファイル等の非構造データが格納されているものとして以下説明する。
 情報抽出ルール登録部131は、通信装置や入力装置を介して情報抽出ルール123を受信し、情報抽出ルール123に含まれる仮想属性名と仮想属性の追加先となるテーブル情報を仮想属性追加先から抽出し、情報抽出ルール保持部132に保存する。ここで、図2を参照して、情報抽出ルール123について説明する。
 情報抽出ルール123には、所定の情報を抽出するためのルールが設定されており、情報抽出ルール登録部131により記憶装置に保存される。図2に示すように、情報抽出ルール123には、仮想属性名、仮想属性追加先、抽出対象特定条件、出力先特定条件、抽出処理内容及び使用辞書などの情報が設定されている。
 仮想属性名は、構造データ内の書き込み位置を特定するための情報であり、構造データには、非構造データに含まれるファイルから情報抽出した結果が書き込まれる。仮想属性追加先は、仮想属性名を追加するデータベースとテーブルを特定するための情報である。抽出対象特定条件は、情報抽出の対象となる非構造データが含まれるデータベース情報と、抽出対象を絞り込むための条件である。出力先特定条件は、非構造データから抽出した結果を書き込む先となるテーブル内の位置を特定するための条件である。抽出処理内容は、抽出結果として出力する属性値の名前と、その属性値の抽出条件を含む。使用辞書には、情報抽出時に参照する辞書を設定するための情報である。
 図2に示す情報抽出ルール123では、仮想属性名は併発であり、仮想属性の追加先となる第1のデータベース151のテーブルは、データベースAのテーブル1であることわかる。また、抽出対象となる第2のデータベース152のファイルは、データベースBの看護記録ファイルであることがわかる。また、抽出結果を、テーブル1の患者IDで特定される位置に書き込むことがわかる。
 また、抽出結果として出力する属性値の名前は病名であり、病名は、医療辞書Aに定義された病名を抽出することを示している。発症情報とは、例えば、自然言語を解析する場合に、病気を「発症する」、「かかる」、「症状が見られる」などの発症と同一の意味を示す情報が含まれるかを判定する情報を示す。抽出処理内容の条件1にしたがって、医療辞書Aに記述された病名を発症したという記述があれば、その病名が抽出される。
 なお、図2に示す情報抽出ルール123は一例であって、情報抽出した結果が複数存在すれば、複数の出力結果の一覧を仮想属性値として書き込んでも良い。また、情報抽出ルール123に、第2のデータベースに対する全文検索の結果数を仮想属性値に書き込むルールや、関連ファイルの所在情報を書き込むルールや、関連ファイル内の情報に対して統計処理を実施した結果を書き込むルールなどを設定してもよい。
 次に、図3を参照して、仮想構造データ153について説明する。情報抽出ルール登録部131は、情報抽出ルール123の仮想属性追加先に設定された情報を用いて、仮想属性の追加先となるデータベース(第1のデータベース151)とそのデータベースに含まれるテーブル1510を特定する。そして、情報抽出ルール登録部131は、特定したデータベースのテーブルに、仮想属性名をカラム名としてカラムを追加して、仮想構造データ153を生成する。なお、ここでは、実際にテーブルにカラムを追加しなくても、テーブルに含まれるレコードを一意に識別するユニークなIDと、仮想属性から構成されるテーブルを新規に作成して、仮想構造データ153を生成してもよい。このように、特定したテーブルに仮想属性が追加された後、仮想属性として設定される初期値を決める情報が抽出されて、後述する関連ファイル情報124が関連ファイル情報保持部135に登録される。
 情報抽出部134は、情報抽出ルール123に示される抽出対象特定条件を参照して、情報抽出の対象となるデータベース(第2のデータベース152)のファイル1520aまたは1520bまたは1520c(以降、ファイル1520と総称して説明する場合もある。)のいずれかのファイルを特定する。そして、出力先特定条件に設定された情報を用いてファイルを特定し、そのファイルから抽出した情報の書き込み先となる仮想属性値の位置を特定する。例えば、図2の情報抽出ルール123では、出力先特定条件として患者IDが指定されているため、患者ごとの看護記録のファイルを特定し、そのファイルから抽出した情報を書き込む位置を、仮想構造データ153のテーブル1530内の仮想属性値のカラムから特定する。
 また、情報抽出部134は、特定したファイルを関連ファイルとして、仮想属性値の位置を特定するための仮想属性値特定情報と関連付けて関連ファイル情報124に登録する。例えば、図2の情報抽出ルール123では、出力先特定条件として患者IDが指定されているため、患者ごとの看護記録のファイルを各患者の仮想属性値に対応づける関連ファイルとして、関連ファイル情報124に登録する。
 そして、情報抽出部134は、特定した仮想属性値ごとに、関連ファイル情報124で対応付けられている関連ファイルを対象に情報抽出処理を実行して、抽出結果を特定した仮想属性値として、仮想構造データ153に書き込む。
 また、情報抽出部134は、関連ファイル情報保持部135の関連ファイル情報124に登録した関連ファイルの情報と、情報抽出ルール関連付けて登録する。これにより、図4に示す関連ファイル情報124が関連ファイル情報保持部135に保持される。
 図4に示すように、関連ファイル情報124は、仮想属性値特定情報欄1240、関連ファイル欄1241及び情報抽出ルール欄1242から構成される。仮想属性値特定情報欄1240には、ファイルから抽出した情報を書き込む先となる仮想構造データ153の仮想属性値の位置を特定するための情報が格納される。関連ファイル欄1241には、抽出対象のファイルを識別する情報が関連ファイルとし格納される。情報抽出ルール欄1242には、情報抽出ルール123を示す情報が格納される。
 図4では、例えば、関連ファイルfile1(患者ごとの看護記録ファイル)から情報抽出ルールfile.ruleにしたがって抽出した仮想属性値を書き込む先は、仮想構造データ145の看護記録テーブル1530の患者名Aさんの行の併発欄の列で特定される位置であることがわかる。
 このように、関連ファイル情報保持部135の関連ファイル情報124に、情報抽出の対象となる関連ファイルを示す情報と情報抽出ルールとを関連付けて設定することができる。また、関連ファイル情報124の情報抽出ルールにしたがって、指定された関連ファイルから仮想属性値を抽出し、仮想属性値特定情報が示す位置に仮想属性値を設定することにより、仮想構造データ153が生成される。
 図1に戻り、更新検知部136は、第2のデータベース152に含まれるファイルが更新された場合に、更新されたファイルが、関連ファイル情報124に設定されている関連ファイルと一致するかを確認する。ここで、ファイルの更新があったかは、例えば、ファイルの更新日が変更されているかにより判断する。また、ファイルの更新には、ファイルの削除も含まれる。
 そして、更新検知部136は、更新されたファイルと一致する関連ファイルが関連ファイル情報124に存在する場合に、その関連ファイルに関連付けられた情報抽出ルール123にしたがって、情報抽出処理を実行する。そして、仮想属性更新部133は、抽出した結果を、出力先特定条件と仮想属性名で特定される位置の仮想属性値として更新する。
 このように、非構造データから抽出したデータを既存の構造データと組み合わせて仮想構造データ153として管理して、非構造データが更新された場合には、仮想構造データ153も更新して最新のデータとしている。これにより、仮想構造データ153に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ153にアクセスするだけで、所望の抽出データを取得することが可能となる。
(1-3)データ管理装置の動作の詳細
 次に、データ管理装置101の動作の詳細について説明する。データ管理装置101は、まず、入力された情報抽出ルール123をもとに仮想属性名や仮想属性追加先などを登録する情報抽出ルール登録処理を実行する。そして、データ管理装置101は、情報抽出ルール123にしたがって、情報抽出対象のファイルからデータを抽出して、抽出結果を仮想属性値として仮想構造データ153の書き込み先のテーブル1530の特定された位置に書き込む仮想属性値初期値決定処理を実行する。さらに、第2のデータベース152に含まれるファイルが更新された場合には、更新されたファイルに対応する仮想属性を更新する仮想属性更新処理を実行する。以下、各処理を詳細に説明する。
(1-3-1)情報抽出ルール登録処理
 図5を参照して、情報抽出ルール登録処理の詳細を説明する。図5に示すように、情報抽出ルール登録部131は、通信装置113または入力装置115を介して情報抽出ルール123を受信したかを判断する(S101)。
 そして、ステップS101において、情報抽出ルール123を受信したと判定された場合には、情報抽出ルール登録部131は、情報抽出ルール123に含まれる仮想属性名と仮想属性追加先に設定されている情報を抽出し、仮想属性名と仮想属性の追加先となるテーブル情報とを関連ファイル情報保持部135に保存する(S102)。
 そして、情報抽出ルール登録部131は、仮想属性の追加先となるデータベースと、そのデータベースに含まれるテーブルとを特定する(S103)。具体的に、情報抽出ルール登録部131は、情報抽出ルール123の仮想属性追加先にデータベースA、テーブル1と設定されていた場合に、仮想属性の追加先となるデータベースとしてデータベースAを特定し、さらに、データベースAに含まれるテーブル1を特定する。
 そして、情報抽出ルール登録部131は、情報抽出ルール123の仮想属性名をカラム名としたカラムをステップS103で特定したテーブルに追加する(S104)。具体的に、情報抽出ルール登録部131は、情報抽出ルール123の仮想属性名に併発と設定されていた場合に、ステップS103で特定したテーブル1にカラム名を併発とするカラムを追加する。
(1-3-2)仮想属性値初期値決定処理
 次に、図6を参照して、仮想属性値初期値決定処理の詳細を説明する。図6に示すように、情報抽出部134は、情報抽出ルール123に設定されている抽出対象特定条件にしたがって、情報抽出の対象となるファイルを特定する(S201)。
 そして、情報抽出部134は、情報抽出ルール123の出力先特定条件の情報を用いてファイルを特定し、そのファイルから抽出した情報の書き込み先となる仮想属性値の位置を特定する(S202)。具体的に、情報抽出部134は、出力先特定条件が患者IDであった場合に、患者ごとの看護記録のファイルを特定する。そして、看護記録のファイルから抽出した情報を書き込む先として、仮想構造データ153のテーブル1530の仮想属性値を書き込む位置を特定する。
 そして、情報抽出部134は、ステップS202で特定したファイルを関連ファイルとして、仮想属性値の位置を特定するための仮想属性値特定情報と対応付けて関連ファイル情報124に登録する(S203)。具体的に、情報抽出部134は、情報抽出ルール123に出力先特定条件として患者IDが指定されているため、患者ごとの看護記録のファイルを各患者の仮想属性値に対応付ける関連ファイルとして、関連ファイル情報124に登録する。
 そして、情報抽出部134は、特定した仮想属性値ごとに、関連ファイル情報124で対応付けられている関連ファイルを対象に情報抽出処理を実行する(S204)。続いて、情報抽出部134は、ステップS204で実行した抽出処理の結果を仮想属性値として仮想構造データ153の該当テーブル1530の特定した書き込み位置に書き込む(S205)。
 以上説明した仮想属性値初期値決定処理により、関連ファイル情報保持部135の関連ファイル情報124に、情報抽出の対象となる関連ファイルを示す情報と情報抽出ルールとを関連付けて設定することができる。また、関連ファイル情報124の情報抽出ルールにしたがって、指定された関連ファイルから仮想属性値を抽出し、仮想属性値特定情報が示す位置に仮想属性値を設定することにより、仮想構造データ153が生成される。
(1-3-3)仮想属性更新処理
 次に、図7を参照して、仮想属性更新処理の詳細を説明する。図7に示すように、更新検知部136は、情報抽出の対象となる第2のデータベース152に含まれるファイルが更新されたかを判断する(S301)。
 ステップS301において、ファイルが更新されたと判断された場合には、更新検知部136は、関連ファイル情報保持部135に保持されている関連ファイル情報124を取得して、更新されたファイルと一致するファイルがあるかを確認する(S302)。
 そして、更新検知部136はステップS302の確認で、一致する関連ファイルが存在するかを判断する(S303)。ステップS303において、一致するファイルが存在しないと判定された場合には、更新検知部136は、ステップS301以降の処理を再度繰り返す。一方、ステップS303において、一致するファイルが存在すると判定された場合には、更新検知部136は、ステップS304の処理を実行する。
 更新検知部136は、一致する関連ファイルに対して、関連ファイル情報124に対応する情報抽出ルール123にしたがって、情報抽出処理を実行する(S304)。そして、仮想属性更新部133は、ステップS304で実行された情報抽出処理で抽出された結果を、出力先特定条件と仮想属性名で特定される位置の仮想属性値として更新する(S305)。
 上記したように、非構造データから抽出したデータを既存の構造データと組み合わせて仮想構造データ153として管理し、非構造データが更新された場合には、仮想構造データ153も更新して最新のデータとしている。これにより、仮想構造データ153に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ153にアクセスするだけで、所望の抽出データを取得することが可能となる。
(1-4)仮想構造データ管理画面
 次に、図8を参照して、仮想構造データ管理画面500について説明する。仮想構造データ管理画面500は、ユーザが仮想構造データの管理に利用する画面である。図8では、アクセスポイントとしてIPアドレス192.168.1.1を有し、医療情報という名前が付与された仮想構造データベースを管理する例を示す。
 図8に示すように、仮想DB名501には、データベース名を示す医療情報と、IPアドレスを示す192.168.1.1が表示される。そして、テーブル名502には、仮想構造データとして管理されているテーブル名の一覧が表示される。このテーブル一覧には、ユーザが仮想構造データとして管理するとして選択した既存の構造データベースのテーブル情報が並べて表示される。
 ユーザは、仮想構造データ管理画面500の参照ボタン504を押下して、ユーザが作成たした情報抽出ルール123を表示させて、利用する情報抽出ルール123を選択する。その後、ユーザは、Uploadボタン505を押下して、選択した情報抽出ルール123をデータ管理装置101に送信する。
 以下では、第1のデータベース151のテーブル1510のうち、患者テーブルに対して各患者が併発した他の病名を非構造データである看護記録ファイルから抽出し、抽出した他の病名を仮想属性値として、患者テーブルの併発カラムに格納する例について説明する。サンプル506には、併発カラムに看護記録ファイルから抽出された仮想属性値が格納した状態が表示され、サンプル506の上部に看護記録ファイルから抽出したことを示す情報が表示される。
 また、サンプル506の併発カラムには抽出結果として、インフルエンザまたは該当なしを示すハイフンが表示される。また、ユーザによりサンプル506に表示された併発カラムの語句を画面上で選択されると、その語句の抽出元のファイルである関連ファイル情報を表示される。この時、ファイル名の他に、ファイル内のどの部分から語句を抽出したか表示してもよい。また、その語句を抽出するために利用した情報抽出ルールを表示してもよい。
(1-5)本実施の形態の効果
 以上のように、本実施の形態によれば、構造化された第1のデータベース151に含まれるデータに任意の属性を仮想属性として追加し、仮想属性の属性値を第2のデータベース152に対する検索クエリの結果とする情報抽出ルールを登録し、検索クエリの結果の導出に関わった第2のデータベース152のファイルを関連ファイルとして情報抽出ルールと関連付けて記憶する。そして、関連ファイルが更新された場合に、検索クエリを再度実行して、その実行結果を仮想属性の新たな属性値とする。
 これにより、仮想構造データ153に対して検索処理が実行されるたびに抽出元の非構造データに対して再抽出処理を実行しなくとも、最新の非構造データの状態を反映した仮想構造データ153にアクセスするだけで、所望の抽出データを取得することが可能となる。
(2)第2の実施の形態
 以下では、第2のデータベース152のファイルについて、ファイルの更新や削除に加えて、新規に作成されたファイルの追加があった場合について説明する。新規ファイルが追加された場合には、第1のデータベース151に含まれるテーブル1510の仮想属性値が変更になる場合がある。そこで、本実施の形態では、追加されたファイルがいずれの仮想属性値に影響するかを特定する。
(2-1)データ管理装置の構成
 本実施の形態にかかるデータ管理装置101は、第1の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置101は、第1の実施の形態とは、図9に示すように、更新/追加検知部137及び追加ファイル検査部138を備える点で異なっている。
 更新/追加検知部137は、非構造データを管理する第2のデータベース152へのファイルの追加を検知する機能を有する。追加ファイル検査部138は、関連ファイル情報保持部135に追加されたファイルの情報を追加する処理と、追加されたファイルから情報抽出した結果を、構造データの該当する仮想属性値に書き込む機能を有する。
(2-2)データ管理装置の動作の詳細
 図10に示すように、まず、追加ファイル検査部138は、追加検知部137から第2のデータベース152に追加されたファイルの所在情報を受け取る(S401)。そして、追加ファイル検査部138は、情報抽出ルール保持部132から情報抽出ルール123を取得する(S402)。
 そして、追加ファイル検査部138は、情報抽出ルール123から情報抽出対象となるファイルを特定するための抽出対象特定条件を取得する(S403)。ステップS403において、例えば、図2に示す情報抽出ルール123を利用する場合、抽出対象特定条件として、データベースB、看護記録を抽出する。
 そして、追加ファイル検査部138は、追加ファイルが抽出対象特定条件に合致するか検査する(S404)。本実施の形態では、追加ファイルがデータベースBに追加されたデータであるか、看護記録に属するファイルであるかを検査する。
 追加ファイル検査部138は、ステップS404の検査の結果、抽出対象特定条件に合致するファイルであるかを判定する(S405)。ステップS405において、合致しないファイルであると判定された場合には、追加ファイル検査部138は、処理を終了する。一方、ステップS405において、合致するファイルであると判定された場合には、追加ファイル検査部138は、ステップS406の処理を実行する。
 そして、ステップS406において、追加ファイル検査部138は、取得した情報抽出ルール123の出力先特定条件を用いて、追加ファイルより抽出した情報を書き込む先となる仮想属性値の位置を特定する。続いて、追加ファイル検査部138は、特定した仮想属性値位置に対して、追加ファイルを関連ファイルとして対応付ける(S407)。
 そして、情報抽出部134は、特定した仮想属性値ごとに、関連ファイル情報124で対応付けられている関連ファイルを対象に情報抽出処理を実行する(S408)。続いて、情報抽出部134は、ステップS204で実行した抽出処理の結果を仮想属性値として仮想構造データ153の該当テーブル1530の特定した書き込み位置に書き込む(S409)。
 上記したように、抽出対象のファイルが仮想属性値特定情報とともに関連ファイル情報124に関連ファイルとして追加された後は、更新/追加検知部137により、追加されたファイルの更新を検知することができる。そして、関連ファイルに対応する情報抽出ルール123にしたがって情報抽出した結果に変更があれば、仮想構造データ153のテーブル1530の仮想属性値を更新する処理を繰り返す。
 なお、上記ステップS405において、追加ファイルが抽出対象特定条件に合致しないと判定された場合でも、その後の更新で抽出対象特定条件に合致する可能性もある。その場合には、追加されたファイルを未関連ファイルとして記憶し、未関連ファイルに更新があった場合に図10に示す処理を再度実行してもよい。
 また、追加ファイルに対応する複数の情報抽出ルールが存在した場合には、複数の抽出対象特定条件が存在し、それらを全て追加されたファイルに対して検査することとなる。この検査処理を短縮するため、複数の抽出対象特定条件から共通項を抜き出し、共通項で検査することで同じ条件を検査しないようにしてもよい。
(2-3)本実施の形態の効果
 以上のように、本実施の形態によれば、非構造データに新規ファイルが追加された場合においても、ユーザは、その新規ファイルから抽出できる最新の情報を反映した構造データに対して検索することができる。また、第1の実施の形態と同様に、ユーザが構造データに対する検索を実行するたびに非構造データに対する情報抽出処理の実行は不要なため、検索結果を得るまでの時間を短縮することができる。
(3)第3の実施の形態
 以下では、第1の実施の形態と同様に、非構造データに対して検索クエリを実行し、その結果得られたファイルから情報抽出処理を実行し、その抽出結果を情報抽出ルールにより特定できる構造データに含まれるデータの1つの特徴を示す仮想属性値に書き込む。構造データに大量のデータが含まれる場合には、情報抽出結果を書き込む仮想属性値の位置を一意に特定することが困難となる場合がある。
 そこで、本実施の形態では、構造データに含まれるデータのうち、仮想属性以外の属性の属性値を利用することで、情報抽出結果を書き込む仮想属性値の位置を特定する仮想構造データ管理装置の例を説明する。
(3-1)データ管理装置の構成
 本実施の形態にかかるデータ管理装置101は、第1の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置101は、第1の実施の形態とは、図11に示すように、情報抽出ルール拡張部139及び構造データ取得部140を備える点で異なっている。
 構造データ取得部140は、受信した情報抽出ルール123に関連する構造データを取得する機能を有する。情報抽出ルール拡張部139は、構造データ取得部140により取得された構造データを用いて情報抽出ルール123を拡張する機能を有する。
(3-2)データ管理装置の動作の詳細
 図12を参照して、情報抽出ルール123が与えられた場合に、情報抽出ルールを拡張する処理について説明する。
 図12に示すように、情報抽出ルール登録部131は、通信装置113や入力装置115を介して情報抽出ルール123を受信したかを判定する(S501)。
 そして、ステップS501において、情報抽出ルール123を受信したと判定された場合には、情報抽出ルール登録部131は、情報抽出ルール123に含まれる仮想属性名と仮想属性追加先に設定されている情報を抽出し、仮想属性名と仮想属性の追加先となるテーブル情報とを情報抽出ルール保持部132に保存する(S502)。ステップS502において、例えば、図3に示す第1のデータベース1510に含まれる患者情報のテーブル1510を抽出したとする。
 そして、構造データ取得部140は、ステップS502で取得したテーブル1510の各行を識別する属性の属性値を取得する(S503)。ステップS503において、テーブル1510の各行を識別する値は、テーブル1510に含まれる各行間で異なる属性値であり、各行を一意に識別することができる値である。例えば、患者名がすべて異なる場合には患者名のみでもよいし、患者名と入院日を組み合わせて各行が一意に識別される場合には、患者名と入院日の組み合わせでもよい。また、テーブル1510の各行を識別するように設定されている患者IDでもよい。
 次に、情報抽出ルール拡張部139は、ステップS503で取得した各行を識別する識別用の属性値を情報抽出ルール123の出力先特定条件に追加する(S504)。図13に示すように、情報抽出ルール拡張部139は、情報抽出ルール123の出力先特定条件に、テーブル1510の各行を識別する患者名と入院日を追加する。
 また、上記した仮想属性値初期値決定処理において実施される特定の仮想属性値の位置を示す仮想属性値特定情報に関連ファイルを関連付ける処理では、まず、拡張した出力先特定条件により、関連ファイルを特定する。そして、出力先特定条件を拡張するために利用した属性値が含まれるレコードの仮想属性値の位置を特定する情報と関連ファイルを関連付ける。
 例えば、図13において、仮想属性追加先がデータベースAのテーブル1である場合に、患者名であるAさん、Bさん、Cさんが出力先特定条件を拡張するための属性値となる。仮想属性名が「併発」の場合、その仮想属性値と関連するファイルはデータベースBに存在し、Aさんに関する記述が存在する関連ファイルは、患者名がAさんのレコードの仮想属性の位置を特定する情報と関連付けられる。
 このようにして拡張した出力先特定条件は、図8のユーザに提示する仮想構造データ管理画面500では、関連ファイルに関する拡張ルールとして表示される。図8の例では、例えば、拡張ルールとして、患者名&入院日@患者テーブル、と表示してもよい。これは、仮想構造データとして管理する患者テーブルの患者名と入院日の両方が情報として含まれるファイルを関連ファイルとすることを意味している。
 このように関連ファイルに関するルールを拡張しない場合は、非構造データへの検索は、看護記録かつ病名が含まれるものであった。しかし本実施の形態の拡張されたルールを用いることにより、非構造データを検索する際に、看護記録かつ病名が含まれるもの、かつ患者名がCさん、かつ入院日が12月1日、というように抽出対象となるファイルをさらに絞り込むことができる。
 (3-3)本実施の形態の効果
 以上のように、本実施の形態によれば、構造データに含まれるデータが持つ仮想属性以外の属性の属性値を用いて、非構造データから抽出された情報抽出結果を書き込む仮想属性値の位置を特定できる。これにより、構造データに大量のデータが含まれていても情報抽出結果の書き込み先を特定するルールの記述を簡易化できる。
(4)第4の実施の形態
 第1の実施の形態では、構造データの仮想属性に対し、その仮想属性値の決定に関わる非構造データに含まれるファイルを関連ファイルとして関連ファイル情報124に記憶している。そして、その関連ファイルから情報を抽出し、その情報抽出結果を仮想属性値として書き込む。ユーザが情報抽出元の情報の詳細を知りたい場合には、関連ファイル自体を取得し、その中身を参照することができる。この時、関連ファイルが多数ある場合は、ユーザが全ての中身を見ることは困難になる。
 そこで、本実施の形態では、構造データに含まれるデータが仮想属性以外に持つ属性の属性値を利用し、複数の関連ファイルに対して、データとの結び付きの強さを管理する。これにより、ユーザは、関連ファイルが多数ある場合に、抽出されたデータとの結び付きの強いファイルを参照することができる。
(4-1)データ管理装置の構成
 本実施の形態にかかるデータ管理装置101は、第1の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置101は、第1の実施の形態とは、図14に示すように、構造データ取得部140及び関連強さ計算部141を備える点で異なっている。
 構造データ取得部140は、受信した情報抽出ルール123に関連する構造データを取得する機能を有する。関連強さ計算部141は、構造データ取得部140により取得された構造データを用いて関連ファイルと仮想属性値との関連強さを計算する機能を有する。
(4-2)データ処理装置の動作の詳細
 図15を参照して、関連ファイルを特定すると同時に、関連ファイルと仮想属性値との関連強さを計算する処理について説明する。
 図15に示すように、まず、情報抽出ルール登録部131は、情報抽出ルール123に記述された抽出対象特定条件と、出力先特定条件を用いて仮想属性値に対して関連ファイルを関連付ける(S601)。
 続いて、構造データ取得部140は、ステップS601において関連ファイルが関連付けられたレコードの仮想属性値以外の属性値を取得する(S602)。
 そして、関連強さ計算部141は、ステップS602で取得した属性値と関連ファイルとの関連強さを計算する(S603)。関連強さは、ステップS602で取得した属性値が関連ファイル中に出現する回数をカウントしてもよい、属性値が文字列であれば、その同義語、類義語が出現する回数をカウントしてもよい。また、属性値ごとに各レコード間での重複有無により重み付けをして、出現回数に重み付け係数を乗じた値を計算してもよい。また、ステップS603で取得した属性値が複数存在する場合には、複数の属性値の関連ファイル内での出現位置の近さなど、関連ファイル内の構成情報を用いてもよい。
 そして、関連強さ計算部141は、これらの方法で計算した関連強さを、関連ファイルごとに関連ファイル情報124に格納する(S604)。具体的に、関連強さ計算部141は、図16に示す関連ファイル情報124の関連強さ(スコア)欄1243に計算した関連強さ(スコア)を関連ファイルごとに格納する。
 ステップS603及びS604で設定した関連強さ(スコア)は、ユーザのファイル要求に応じて利用される。例えば、ユーザが「Aさん、併発」の仮想属性値の詳細を調査するために抽出元となった関連ファイルを参照する場合、関連強さ(スコア)の大きい順にfile12.doc、file11.doc、file1.docと提示することができる。
(4-3)本実施の形態の効果
 以上のように、本実施の形態によれば、関連ファイルが複数ある場合に、関連元となる構造データに含まれるデータとの結び付きの強さ順に、関連ファイルを並び替えてユーザに提示することができる。これにより、ユーザが関連ファイルを参照する場合には、その結び付き強さをヒントにして、複数の関連ファイルから優先的に参照する関連ファイルを特定することができる。
(5)第5の実施の形態
 第1の実施の形態では、ファイルに含まれるオブジェクトを抽出し、その抽出結果を構造データに含まれるデータの仮想属性値として登録している。抽出対象となるファイルが文書の場合には、その文書に含まれる単語やその単語の類義語や同義語などの関連する単語を抽出することできる。また、抽出対象となるファイルが動画の場合には、その動画の画像と名前を抽出できる。また、抽出対象となるファイルには、ファイル中に明示的に表現されるオブジェクトだけでなく、そのファイルのカテゴリやクラス、今後出現する情報の予測、肯定的情報か否定的情報かの別、などファイル内の情報を分析して得られる様々な情報が含まれている。そこで、本実施の形態ででは、このような情報を抽出するために、ファイル内に含まれる情報の統計を取得し、その結果に対して判定を加える分析処理またはデータマイニングを実施する。
(5-1)データ管理装置の構成
 本実施の形態にかかるデータ管理装置101は、第1の実施の形態と同様のハードウェア構成であるため、詳細な説明は省略する。また、本実施の形態にかかるデータ管理装置101は、第1の実施の形態とは、図17に示すように、統計計算部142を備える点で異なっている。
 統計計算部142は、関連ファイルに付随する情報に対して定められた統計計算を実施する機能を有する。データの仮想属性値と関連付けられた関連ファイルから情報抽出する場合に、統計計算部142は、1つまたは複数の関連ファイル内の情報に対して統計情報を取得し、その結果に対して判定を加える分析処理またはデータマイニングする。そして、統計計算部142により分析処理またはデータマイニングされた結果を仮想属性値として構造データに書き込むことにより、関連ファイル内に明示的に表現されないオブジェクトの情報も構造化することが可能となる。
(5-2)データ管理装置の動作の詳細
 図18を参照して、非構造データからの情報抽出時に関連ファイルに対する統計情報を利用する情報抽出処理について説明する。
 統計計算部142は、情報抽出ルール123が登録されたか、非構造データのファイルが更新または追加された後、非構造データからの情報抽出先となる仮想属性値が特定された契機で以下の処理を開始する。
 図18に示すように、まず、統計計算部142は、特定された仮想属性値と関連するファイルを関連ファイル情報保持部135から取得する(S701)。
 そして、統計計算部142は、1つ以上の関連ファイルに対して、所定の統計計算ルールに従った統計計算を実施する(S702)。ステップS702において利用する統計計算ルールは、例えば、図19に示す統計計算ルールを例示できる。
 図19で示す統計計算ルールの一つ、ルール1は、辞書に出現する単語と一致する単語の数を計算するルールである。また、統計計算ルールの一つ、ルール2は、「できる」「回復」「良くなる」など肯定的な意味を示す言葉と「できない」「悪化」「悪くなる」などの否定的な意味を示す言葉の出現頻度を集計するルールである。また、統計計算ルールの一つ、ルール3は、治療行為に関する単語、リハビリに関する単語、食事に関する単語、といった特定のカテゴリやクラスに属する単語数の集計するルールである。
 上記した統計計算ルールにしたがって集計結果を実施した後、統計計算部142は、その集計結果を情報抽出部134に通知する(S703)。
 情報抽出部134は、ステップS703で通知された統計計算の結果に対して情報抽出ルールを適用し、その結果を情報抽出結果とし、特定した仮想属性値として書き込む(S704)。ステップS704で適用する情報抽出ルールとして、例えば、一つは、最も出現頻度が高い病名の単語を登録するルールである。一つは、肯定的情報と否定的情報の数を比べて、肯定的情報が多ければ、肯定的とするルールである。一つは、特定のカテゴリの単語数が多ければ、そのカテゴリ名を書き込むルールである。一つは、出現した複数のカテゴリ名から導き出される単語を登録するルールである。
 上記では、非構造データに含まれるファイル内の情報について、統計計算を実施する例を述べたが、ファイルに付随するメタデータを用いて統計計算を実施しても良い。例えば、ファイルの作成者情報、更新者情報、ファイルに含まれる人物といった人物情報などを利用してもよい。例えば、ファイル作成者情報を用いて、特定の作成者が作成または更新したファイルのみを統計計算の対象としてもよい。これにより、信頼できる人物が作成または更新したファイルのみを用いて統計計算し、情報の確度を上げることができる。
 また、人物情報以外に付随するメタデータを用いてもよい。例えば、ファイルの作成時刻や更新時刻、ファイルに含まれる時間情報などを利用してもよい。例えば、時刻情報を用いて、統計計算対象となる関連ファイルを絞り込むことで、新しい情報のみを使うことができる。また、ファイルに付随する時刻情報と、そのファイル内の数値情報から数値変化の傾向を抽出し、将来の数値を予測値として抽出しても良い。
 以上のような人物情報、時間情報の他に、位置情報、言語情報、色情報、権利情報、アクセス権情報またはバージョン情報など様々なメタデータを利用してもよい。
(5-3)本実施の形態の効果
 以上のように、本実施の形態によれば、非構造データ内のファイルに明示的に表現されないオブジェクトの情報を構造化し、当該オブジェクトの情報を構造データに含まれるデータの仮想属性値として管理することができる。
(6)他の実施の形態
 上記実施形態では、情報抽出の対象となるデータを非構造データとしているが、情報抽出の対象となるデータを、構造データを含む任意のデータとしてもよい。その場合には、対象となる任意のデータ群を適当な部分データに分割する。そして、分割した部分データを上記した関連ファイルと同様に扱い、部分データの更新を検知する。部分データに更新があった場合には、部分データに対して情報抽出ルールを適用して得られる結果を仮想構造データの仮想属性値として更新する。
 本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
 101  データ管理装置
 111  メモリ
 112  CPU
 113  通信装置
 114  記憶装置
 115  入力装置
 116  表示装置
 131  情報抽出ルール登録部
 132  情報抽出ルール保持部
 133  仮想属性更新部
 134  情報抽出部
 135  関連ファイル情報保持部
 136  更新検知部
 

Claims (15)

  1.  データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第1のデータベースと、構造化されていない非構造データをファイル単位で保持する第2のデータベースとを記憶する記憶部と、
     前記構造データと前記非構造データとを組み合わせて、前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部と
     を備えることを特徴とする、データ管理装置。
  2.  前記制御部は、
     前記第1のデータベースに含まれるデータに前記仮想属性の属性値を追加して仮想構造データを生成し、前記仮想属性の属性値を前記第2のデータベースに対する検索クエリの結果とする情報抽出ルールを登録し、前記検索クエリの結果の導出に関わった前記第2のデータベースのファイルを関連ファイルとして前記情報抽出ルールと関連付けて記憶し、
     前記関連ファイルが更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする
     ことを特徴とする、データ管理装置。
  3.  前記制御部は、
     前記第2のデータベースに新規にファイルが追加された場合に、前記情報抽出ルールに示される検索クエリの条件に前記追加されたファイルが合致するかを確認し、合致する場合に前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする
     ことを特徴とする、請求項1に記載のデータ管理装置。
  4.  前記制御部は、
     前記仮想属性の属性値を検索する検索クエリを第1のクエリとし、
     前記仮想属性の他にデータが有する属性の属性値を前記仮想属性の属性値を検索する条件として前記第1のクエリに加えて第2の検索クエリとし、
     前記第2の検索クエリの結果を前記仮想属性の属性値とする情報抽出ルールを登録する
     ことを特徴とする、請求項1に記載のデータ管理装置。
  5.  前記制御部は、
     前記データの仮想属性以外の属性に対する属性値が含まれる数を計測し、
     前記計測した数に応じたデータと前記関連ファイルの結び付きの強さを、前記関連ファイルに関連付けて記憶する
     ことを特徴とする、請求項2に記載のデータ管理装置。
  6.  前記制御部は、
     前記第2のデータベースに対する検索結果に対して、検索結果のファイル中に出現する特定のオブジェクト数を計測して統計情報を計算し、
     前記計測したオブジェクト数に応じた特定の値を導出するためのマッピング情報を管理し、
     前記導出した値を前記仮想属性の属性値とする
     ことを特徴とする、請求項1に記載のデータ管理装置。
  7.  前記制御部は、
     前記関連ファイルの作成者情報、更新者情報、ファイルに含まれる人物情報といった関連ファイルに関連付けられる人物情報を取得し、
     前記関連ファイルにて取得した人物情報と前記関連ファイルから抽出したオブジェクトの統計情報を組み合わせ、人物とオブジェクト統計情報の組み合わせ情報を前記仮想属性の属性値情報とする
     ことを特徴とする、請求項6に記載のデータ管理装置。
  8.  前記制御部は、
     前記関連ファイルの作成日時、更新日時、第2のデータベースへの登録日時、ファイルに含まれる時刻情報といった時間情報を取得し、
     前記取得した時刻情報順に前記関連ファイルを並び替え、前記関連ファイルに含まれる特定のオブジェクト数を計測し、前記関連ファイル間で前記計測したオブジェクト数を比較して時間ごとのオブジェクト出現数の変遷を抽出し、その結果を前記仮想属性の傾向情報とする
     ことを特徴とする、請求項6に記載のデータ管理装置。
  9.  前記制御部は、
     データをファイル単位で保持する前記第2のデータベースの他に、データをある特定の区分で分割して保持する任意のデータベースを組み合わせて管理し、
     前記任意のデータベースに対する検索クエリの結果とする抽出ルールを登録し、
     前記検索クエリの結果の導出に関わった前記任意のデータベースの特定の区分を前記関連ファイルと同様の関連区分として記憶し、
     前記関連区分が更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とすることを特徴とする
     請求項1~8のいずれかに記載のデータ管理装置。
  10.  データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第1のデータベースと、構造化されていない非構造データをファイル単位で保持する第2のデータベースとを記憶する記憶部と、前記構造データと前記非構造データとを組み合わせて前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理する制御部と、を備えるデータ管理装置におけるデータ管理方法であって、
     前記制御部が、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とする第1のステップと、
     前記制御部が、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する第2のステップと、
     を含むことを特徴とする、データ管理方法。
  11.  前記制御部が、前記第1のデータベースに含まれるデータに前記仮想属性を追加して仮想構造データを生成する第3のステップと、
     前記制御部が、前記仮想属性の属性値を前記第2のデータベースに対する検索クエリの結果とする情報抽出ルールを登録する第4のステップと、
     前記検索クエリの結果の導出に関わった前記第2のデータベースのファイルを関連ファイルとして前記情報抽出ルールと関連付けて記憶する第5のステップと、
     前記関連ファイルが更新された場合に、前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする第6のステップと
     を含むことを特徴とする、データ管理方法。
  12.  前記制御部が、前記第6のステップにおいて、前記第2のデータベースに新規にファイルが追加された場合に、前記情報抽出ルールに示される検索クエリの条件に前記追加されたファイルが合致するかを確認し、合致する場合に前記検索クエリを再度実行して、その実行結果を前記仮想属性の新たな属性値とする第7のステップを含む
     ことを特徴とする、請求項9に記載のデータ管理方法。
  13.  前記制御部が、前記第4のステップにおいて、前記仮想属性の属性値を検索する検索クエリを第1のクエリとし、前記仮想属性の他にデータが有する属性の属性値を前記仮想属性の属性値を検索する条件として前記第1のクエリに加えて第2の検索クエリとし、前記第2の検索クエリの結果を前記仮想属性の属性値とする情報抽出ルールを登録する第8のステップを含む
     ことを特徴とする、請求項9に記載のデータ管理方法。
  14.  前記制御部が、前記第5のステップにおいて、前記データの仮想属性以外の属性に対する属性値が含まれる数を計測し、前記計測した数に応じたデータと前記関連ファイルの結び付きの強さを、前記関連ファイルに関連付けて記憶する第9のステップを含む
     ことを特徴とする、請求項9に記載のデータ管理方法。
  15.  コンピュータを、
     データが有する複数の特徴を属性と属性値により構造化された構造データを保持する第1のデータベースと、構造化されていない非構造データをファイル単位で保持する第2のデータベースとを記憶する記憶部と、
     前記構造データと前記非構造データとを組み合わせて前記第2のデータベースに対する検索クエリ実行時にアクセスされる仮想構造データとして管理し、前記仮想構造データの仮想属性の属性値を前記第2のデータベースのファイルから所定の情報抽出ルールで抽出した値とし、前記非構造データを有する前記第2データベースのファイルが更新された場合に、前記仮想構造データの仮想属性の属性値を更新する制御部と、
     を備えるデータ管理装置として機能させるためのプログラムを記録する非一時的な記録媒体。
     
PCT/JP2013/060712 2013-04-09 2013-04-09 データ管理装置、データ管理方法及び非一時的な記録媒体 WO2014167647A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2013/060712 WO2014167647A1 (ja) 2013-04-09 2013-04-09 データ管理装置、データ管理方法及び非一時的な記録媒体
JP2015510993A JP6042974B2 (ja) 2013-04-09 2013-04-09 データ管理装置、データ管理方法及び非一時的な記録媒体
US14/782,237 US20160041992A1 (en) 2013-04-09 2013-04-09 Data management apparatus, data management method and non-transitory recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/060712 WO2014167647A1 (ja) 2013-04-09 2013-04-09 データ管理装置、データ管理方法及び非一時的な記録媒体

Publications (1)

Publication Number Publication Date
WO2014167647A1 true WO2014167647A1 (ja) 2014-10-16

Family

ID=51689083

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/060712 WO2014167647A1 (ja) 2013-04-09 2013-04-09 データ管理装置、データ管理方法及び非一時的な記録媒体

Country Status (3)

Country Link
US (1) US20160041992A1 (ja)
JP (1) JP6042974B2 (ja)
WO (1) WO2014167647A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101601916B1 (ko) * 2014-04-30 2016-03-21 울산과학기술원 외래진료에 대한 프로세스 시뮬레이션 모델 도출 시스템 및 이를 이용한 프로세스 시뮬레이션 모델 도출 방법
US20170031966A1 (en) * 2015-07-29 2017-02-02 International Business Machines Corporation Ingredient based nutritional information
US10521464B2 (en) * 2015-12-10 2019-12-31 Agile Data Decisions, Llc Method and system for extracting, verifying and cataloging technical information from unstructured documents
US10956467B1 (en) * 2016-08-22 2021-03-23 Jpmorgan Chase Bank, N.A. Method and system for implementing a query tool for unstructured data files
US10877944B2 (en) * 2019-05-08 2020-12-29 Atlassian Pty Ltd. External data repository file integration using a virtual file system
CN111177156B (zh) * 2019-12-31 2023-10-03 广东科学技术职业学院 一种大数据存储方法及系统
JP2021189569A (ja) * 2020-05-26 2021-12-13 富士通株式会社 データ更新プログラム、データ更新装置及びデータ更新方法
CN112765712A (zh) * 2021-01-20 2021-05-07 广联达科技股份有限公司 Bim数据的结构化管理方法、装置、计算机设备及存储介质
CN113705415B (zh) * 2021-08-23 2023-10-27 中国电子科技集团公司第十五研究所 基于雷达情报的空情目标特征提取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282241A (ja) * 2007-08-20 2010-12-16 Nec Corp ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
JP2012515407A (ja) * 2009-01-16 2012-07-05 グーグル・インコーポレーテッド 非構造化電子文書コレクションからの情報の取り出しおよび表示

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3708146B2 (ja) * 1994-10-14 2005-10-19 富士通株式会社 ファイルシステムおよびそのファイルシステムで管理される情報の属性構造
US8200775B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Enhanced syndication
US8347088B2 (en) * 2005-02-01 2013-01-01 Newsilike Media Group, Inc Security systems and methods for use with structured and unstructured data
US20080275731A1 (en) * 2005-05-18 2008-11-06 Rao R Bharat Patient data mining improvements
JP2007199315A (ja) * 2006-01-25 2007-08-09 Ntt Software Corp コンテンツ提供装置
JP2010211438A (ja) * 2009-03-10 2010-09-24 Hitachi Ltd 文書検索装置及び文書検索方法
JP5485866B2 (ja) * 2010-12-28 2014-05-07 株式会社日立ソリューションズ 情報管理方法、及び情報提供用計算機

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282241A (ja) * 2007-08-20 2010-12-16 Nec Corp ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
JP2012515407A (ja) * 2009-01-16 2012-07-05 グーグル・インコーポレーテッド 非構造化電子文書コレクションからの情報の取り出しおよび表示

Also Published As

Publication number Publication date
JP6042974B2 (ja) 2016-12-14
US20160041992A1 (en) 2016-02-11
JPWO2014167647A1 (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
JP6042974B2 (ja) データ管理装置、データ管理方法及び非一時的な記録媒体
US9836389B2 (en) Test data generation utilizing analytics
CN103631847A (zh) 基于上下文的搜索与图形节点相关的数据存储的方法和系统
CA2816781C (en) Identifying client states
US20150039984A1 (en) Table format multi-dimensional data translation method and device
WO2017065891A1 (en) Automated join detection
CN117409922A (zh) 一种用于临床辅助决策的循证方法
JP7324058B2 (ja) 文章解析方法、文章解析プログラム、および文章解析システム
JP2007334412A (ja) 検索プログラムおよび検索装置
WO2015124086A1 (en) Virus signature matching method and apparatus
JP6075013B2 (ja) ログ取得プログラム、ログ取得装置及びログ取得方法
US8302045B2 (en) Electronic device and method for inspecting electrical rules of circuit boards
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
JP5020274B2 (ja) 意味ドリフトの発生評価方法及び装置
KR20140123000A (ko) 연상 메모리 내의 문맥적 결과를 식별하기 위한 시스템 및 방법
JP2015094988A (ja) データ構造、データ生成装置、その方法及びプログラム
JP6375066B2 (ja) 解析支援システム及び解析支援方法
US11886459B2 (en) Data management system and data management method
JP2013149068A (ja) ファイル間の関連性の解析方法及びシステム並びにプログラム
JP7314089B2 (ja) 検索支援システム、及び検索支援方法
US11151158B2 (en) Data duplication device and computer readable medium
JP7119411B2 (ja) データベース装置、データ管理方法、及びコンピュータ・プログラム
JP2018055522A (ja) 計装図データ生成装置、計装図検索システム及びプログラム
CN117688124A (zh) 数据查询索引创建方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13882005

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015510993

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14782237

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13882005

Country of ref document: EP

Kind code of ref document: A1