WO2014125557A1 - 計算機、データアクセスの管理方法及び記録媒体 - Google Patents

計算機、データアクセスの管理方法及び記録媒体 Download PDF

Info

Publication number
WO2014125557A1
WO2014125557A1 PCT/JP2013/053178 JP2013053178W WO2014125557A1 WO 2014125557 A1 WO2014125557 A1 WO 2014125557A1 JP 2013053178 W JP2013053178 W JP 2013053178W WO 2014125557 A1 WO2014125557 A1 WO 2014125557A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
access
file
uniqueness
computer
Prior art date
Application number
PCT/JP2013/053178
Other languages
English (en)
French (fr)
Inventor
大樹 中塚
児玉 昇司
陽介 石井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2013/053178 priority Critical patent/WO2014125557A1/ja
Publication of WO2014125557A1 publication Critical patent/WO2014125557A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to a computer that manages access to data stored in a storage device, a management method, and a recording medium that stores a program that causes the computer to execute the management method.
  • a method for managing access restrictions on data (for example, files) in which personal information is described is conventionally known. Specifically, it is a method of setting an access authority for each employee who handles personal information and building a system that can access only data necessary for business.
  • the access authority is set for the data, and the data is received from a user who does not have access authority. Access is restricted.
  • anonymization refers to a process that makes it difficult to identify an individual by obscuring or deleting personal information in the data.
  • Patent Document 1 discloses a technology in which when a user who does not have access authority set by a system administrator accesses a file, a processing device in the system replaces personal information described in the file with another character string. It is disclosed.
  • Patent Document 1 in order for a computer to determine whether or not personal information is included in data, it is necessary to prepare definition data indicating personal information in advance.
  • a computer described in claims is applied. That is, a computer that manages access from an access source to data stored in a storage device, In a data set composed of a plurality of data, a value depending on the uniqueness of each data is calculated from the contents of each data constituting the data set, and the value depending on the calculated uniqueness is associated with each data.
  • Storing an access condition which is a threshold value for a value depending on the uniqueness of accessible data, for each access source accessing the data; It is a computer that allows an access request source satisfying a value depending on the uniqueness of the access condition to access the requested data.
  • FIG. 1 shows the configuration of a computer system to which the present invention is applied.
  • the computer system includes one or more file servers 100 and a management server 101, and is communicably connected to one or more clients 102 via a network. Access from the client 102 to the data (file) stored in the file server 100 is managed by the management server 101. More specifically, the management server 101 calculates the anonymity score for each file of the file server 100 according to the contents, and compares the score with the access source level for the file, thereby accessing the file. Whether it is possible or not is managed.
  • the file server 100 communicates with the management server 101 using a communication protocol such as CIFS or NFS.
  • the file server 100 includes a CPU and a control unit 150 that forms a control function unit in cooperation with the CPU, and a storage 151 that includes an SSD, an HDD, and / or a tape device.
  • the storage 151 is provided with a logical or physical volume, and logical and physical access to stored file data (such as the file X170) is possible.
  • a general-purpose server device having a CPU 180, a memory 182, and an auxiliary storage 183 is applied to the management server 101.
  • the access control unit 103, the personal information extraction unit 104, and the anonymity calculation unit 105 are realized by the cooperation of the program and the CPU 180, and the file management information 107, the access source information 106, and the personal information management information 108. Is retained.
  • an example in which these pieces of information are configured in a table format is applied.
  • the present invention is not limited to this format as long as various related data can be managed in association with each other.
  • the access control unit 103 performs user authentication in response to a system login request from a client, and, for example, in response to an access request to the file X 170 or the like, an access source uses an anonymity condition 302 that is an access condition set for the client.
  • the anonymity 203 obtained from the information 106 (FIG. 2) and set in the file X 170 is obtained from the file management information 107 (FIG. 4), and access is determined based on a comparison between the two. .
  • the access control unit 103 is allowed to access the file X170.
  • FIG. 2 schematically shows the access source information 106.
  • the access source information 106 includes items such as access source identification information 200, a password 201 used for authentication at the time of system login, and an anonymity condition 202 that is a condition for accessing a file. Is done.
  • the access source identification information 200 includes a user ID 200a and an IP address 200b, and access management based on anonymity can be performed for one or both of these. That is, access management can be performed for each user or each client terminal, and access management can be performed for both.
  • the anonymity condition 202 is a score indicating the range of anonymity 403 (FIG. 4) of a file that can be accessed. For example, since the anonymity condition of User_B is “10 or more”, access is permitted to a file having an anonymity 303 value of 10 or more, and access to a file having an anonymity 303 value lower than 10 is permitted. It will not be allowed.
  • the anonymity condition 202 is statically set by a computer system administrator or the like, but dynamically changes based on the service usage period and the number of times of use of the computer system and / or a predetermined rule. Also good.
  • the personal information extraction unit 104 analyzes the data contents for each file X170 and the like, and extracts information related to personal information. Specifically, the text sentence to be anonymized ("Taro Tanaka's hobby in Yokohama city is watching movies") is morphologically analyzed and proper nouns ("Taro Tanaka", "Yokohama City", “Movie watching”). Etc.) as attribute values. For the extracted attribute value, the attribute name (“name”, “address”, “hobby”) of the attribute value is determined from the word sequence before and after the attribute value appears. (The attribute name “XXX” + “live in” ⁇ “XXX” is “address” or the like)) A set of attribute names and attribute values is registered in the personal information management table 108.
  • FIG. 3 schematically shows an example of the personal information management information 108 that stores the extracted personal information.
  • the personal information management information 108 includes items such as a name 300, an address 301, a telephone number 302, a weight 303, a birthday 304, a profession 305, and a hobby 306. Each item corresponds to a corresponding one extracted by the personal information extraction unit 104. Terms (values) are to be registered. For example, in the personal information management information 108, for a specific individual Mr. A, information that the address is Yokohama city, the occupation is a company employee, and the hobby is movie watching is registered.
  • the file server 100 also has information that there is no file containing Mr.
  • the personal information management information 108 is used to calculate the anonymity of each file in the anonymity calculation unit 105 described later, and the existence / non-existence of records having the same contents in the population (uniqueness of the records) It can also be said to be information indicating).
  • each record of the personal information management information 108 is compared, and by calculating the number of files having the same content, the anonymity of the file is calculated.
  • anonymity refers to an index that quantitatively evaluates how much anonymity the information has on a set of personal information as a numerical value.
  • the value stored in the anonymity 403 is a numerical value calculated by selecting one of the 15 types of PrivacyvModel and using the model. Note that it may be a numerical value obtained by adding or averaging a plurality of numerical values derived using a plurality of Privacy Models.
  • the anonymity 403 of the file X170 is set to “20”.
  • 403 is set to “1”. That is, the smaller the number of the same content records in the set, the more unique the records, and as a result, there is a tendency that the possibility of being personal information is high. That is, the information “phone number” (which has uniqueness) is more highly anonymous than the information “watching movies”.
  • FIG. 4 schematically shows an example of the file management information 107 for registering the anonymity calculated by the anonymity calculator 105 and attribute information such as the file X170 corresponding to the anonymity. Note that this information is generated by the personal information extraction unit 104.
  • the file management information 107 four types of attributes are registered for each file. Specifically, the file management information 107 includes a file ID (name) 400, a file path 401, personal information 402 in which personal information in the file is registered, and anonymity 403 obtained by analyzing the personal information. Each item is provided, and each value is associated and managed. The above is the configuration of the computer system.
  • the processing flow of the computer system in the first embodiment will be described.
  • the processing flow of the computer system is divided into an “anonymity generation process” executed when a file is stored and an “access determination process” when accessing the stored file.
  • anonymity generation process executed when a file is stored
  • an access determination process when accessing the stored file.
  • FIG. 5 shows a flow of “anonymity generation processing”.
  • the client 102 transmits the user ID and password entered by the user together with the login request to the management server 101 (Note that the IP address of the client 102 may be transmitted together with or instead of the user ID. (This is an example in which only the user ID is used in this flow.)
  • the access control unit 103 of the management server 101 searches the user ID 200 a and Pass 201 of the access source management information 106 to check whether or not a corresponding user ID and password pair exists.
  • the access control unit 103 determines that login of the client 102 can be permitted, and transmits a login permission notification to the client 102. If it does not exist, the access control unit 103 transmits an access rejection notification to the client 102 and disconnects communication with the client 102.
  • the client 102 transmits a file stored in the file server 100 and a location (file path name) where the file is stored to the access control unit 103.
  • the access control unit 103 transfers the file to the personal information extraction unit 104.
  • step S ⁇ b> 505 the personal information extraction unit 104 analyzes the contents of the file and specifies the attributes of the personal information and the contents thereof. Further, the specified personal information is added to the personal information management information 108. If the extracted attribute does not exist in the personal information management information 108, the personal information extraction unit 104 adds a new item and registers information extracted from the document. In step S ⁇ b> 506, the personal information extraction unit 104 transmits the attribute and content of the personal information specified in step S ⁇ b> 505 to the anonymity calculation unit 105.
  • the anonymity calculation unit 105 searches the personal information management information 109 and calculates the anonymity of the received personal information.
  • the calculation method of anonymity as mentioned above, you may use what kind of Privacy Model.
  • the anonymity calculation unit 105 performs the following processing: Do.
  • the anonymity calculation unit 105 reads all the information stored in the items of name 300, address 301, occupation 305, and hobby 306 in the personal information management information 108. Then, the anonymity calculating unit 105 investigates how many records in the read information are the same as the set of personal information extracted in S505. Specifically, assuming that the contents of the personal information extracted in S505 are the name “Mr. A”, the address “Yokohama City”, the occupation “company employee”, and the hobby “movie appreciation”, the anonymity calculating unit 105 The number of records having the address “Yokohama City”, the occupation “company employee”, and the hobby “watching movies” in the personal information management table 108 is counted. If there are 20 records with the address “Yokohama City”, occupation “company employee”, and hobby “watching movies”, the anonymity calculator 105 calculates the anonymity of the received personal information as “20”. To do.
  • step S ⁇ b> 508 the anonymity calculation unit 105 transmits the calculated anonymity to the personal information extraction unit 104.
  • step S ⁇ b> 509 the personal information extraction unit 104 that has received the anonymity adds a new record to the file management information 107.
  • the name of the file received from the client 102 in S503 is added to the file ID 400
  • the file path name is added to the file path 401
  • the personal information extracted in S505 is added to the personal information 402
  • the anonymity calculated in S507 is added.
  • step S510 the personal information extraction unit 104 transmits a file and a file path name for storing the file to the file server 100.
  • the file server 100 stores the file based on the designated file path. If the designated file path does not exist, the file server 100 automatically creates a file path.
  • step S ⁇ b> 512 the file server 100 transmits a file storage completion notification to the personal information extraction unit 104.
  • step S ⁇ b> 613 the personal information extraction unit 104 that has received the completion notification transmits a file storage completion notification to the access control unit 103.
  • step S ⁇ b> 514 the access control unit 103 transmits a file storage completion notification to the client 102.
  • the above is the “anonymity generation process”.
  • FIG. 6 shows a flow of “access determination processing”.
  • the contents of the processes from S600 to S602 are the same as the “anonymity generation process” shown in FIG.
  • step S ⁇ b> 603 the client 102 transmits a file read request to the access control unit 103.
  • This request includes the name of the file and the name of the file path where the file is stored.
  • the access control unit 103 refers to the access source management information 106 and identifies the access source anonymity condition 202.
  • step S605 the access control unit 103 searches the file management information 107 based on the file name received in step S603, reads the content of the anonymity 403, and specifies the anonymity condition 202 of the user specified in step S604 and the file anonymity. The degree 403 is compared.
  • the access control unit 103 transmits an access rejection notification to the client 102. Otherwise, the access control unit 103 transmits to the file server 100 the file name and file path name included in the request received in S603 and the access source information that issued the request.
  • step S ⁇ b> 607 the file server 100 reads the corresponding file, transmits the file to the access control unit 103 in step S ⁇ b> 608, and the access control unit 103 transmits the file to the client 102 in step S ⁇ b> 609.
  • the above is the “access determination process”.
  • the computer system of this embodiment it is possible to realize high-speed processing of a large amount of data while dynamically maintaining a balance between information to be concealed and information that can be disclosed.
  • the access source anonymity condition is set, and the access is determined for each access source without depending only on the anonymity on the file side. The balance between the information to be disclosed and the information that can be disclosed can be controlled more finely and flexibly.
  • the anonymity condition of the access source can be set for each user and / or each client device, the balance between the information that should be kept confidential and the information that can be disclosed can be personally or mechanically assigned. There is an excellent effect of being able to depend on either.
  • ⁇ Modification of the first embodiment A modification of the first embodiment will be described.
  • the management server 101 is provided with an index such as the file 170 stored in the file server 100, receives a query (SQL, etc.) transmitted from the access source, refers to the index, and sends the corresponding search result to the user.
  • a search processing unit that responds is provided.
  • the search processing unit identifies the corresponding file from the search result, extracts the anonymity 403 of each file with reference to the file management information 403, and can access it by comparing with the anonymity condition 202 of the access source identification information 106 Only correct search results are returned to the access source. In this case, the comparison determination between the anonymity condition 202 and the anonymity 403 may be omitted for a file access request from the access source based on the subsequent search result.
  • FIG. 7 shows the configuration of the computer system of the second embodiment.
  • the management server 101 further includes an index unit 500, a search unit 501, and an anonymization unit 502 in the second embodiment.
  • an index of a file stored in the file server 100 is generated and held.
  • the index is generated when the file 170 or the like is stored in the file 100.
  • the search unit 501 receives a search query (SQL or the like) from the access source, searches the index generated by the index unit 500, and returns the search result to the access source. Further, the search unit 501 compares the anonymity 403 of the file included in the search result with the anonymity condition 202 of the access source of the search query, and for the file that does not satisfy the condition in the search result, the content ( Identification information (hereinafter referred to as “conditional access information”) indicating that access is possible by anonymizing part or all of the information is added to the search result and displayed on the access source.
  • conditional access information Identification information
  • FIG. 8 schematically shows an example of a search result screen displayed on the screen (not shown) of the client 102 that is the access source.
  • the search result screen 500 includes a search key input field 551 for displaying a search keyword input at the time of a search request, a search option display field 552, and a search result display field 554 for displaying a search result.
  • the search option display field it is possible to specify information on the format of the file to be searched and the date and time of the generated file, and these can be selected in advance as a pull-down menu.
  • a condition addition button 553 is also displayed, and a plurality of types of these conditions can be designated.
  • the search result display field 554 includes a result display field including a search result file name, file format, file size, file generation date and time, and a column 556 for displaying the above-mentioned conditional access information.
  • a download button 555 for specifying download is included. In the conditional access information column 556, “Yes” is displayed for a file in which a partially anonymized file can be downloaded.
  • anonymization unit 503 processing for anonymizing an anonymous part is executed for a file that is determined not to satisfy the condition by the search unit 502.
  • anonymization means updating a part of data to information without anonymity or information with which anonymity fades.
  • the real name “Taro Tanaka” is replaced with “Mr.X”, or the weight such as “72 kg” is converted into a wide value such as “60 kg to 80 kg”.
  • the update includes changes to other data (including replacement with other data contents, inking, etc.) and data deletion.
  • FIG. 9 shows a flow of file access processing in the computer system of the second embodiment
  • FIG. 10 shows a detailed flow of “anonymization processing” of a file in the anonymization unit 503. Note that the user authentication processing from S700 to S702 in FIG. 9 is the same as that in the first embodiment, and thus the description thereof is omitted.
  • the access source specifies a search query and transmits a search request to the access control unit 103.
  • the access control unit 103 transmits the access source identification information 200 (user IDs 200a and / or 200b) together with the search key included in the request to the search unit 502, and requests an index search.
  • step S704 the search unit 502 searches the search index with the specified search key.
  • step S ⁇ b> 705 the search unit 502 acquires the anonymity of the matched file from the file management information 107 based on the file ID of the file matched by the index search.
  • the search unit 502 acquires the anonymity condition 202 from the access source information 106 based on the access source identification information 200 received in S703, and compares the condition with the anonymity of the matched file acquired in S705. Identify unsatisfied files. This is because in the next “anonymization process”, the data contents are narrowed down to a file to be anonymized.
  • the anonymization unit 503 or the like receives a designation of a file that does not satisfy the condition, and executes processing for anonymizing a data portion that cannot be disclosed in personal information with data in the file. For example, for a file whose name is “Taro Tanaka”, if the anonymity condition of the access source does not satisfy the anonymity of the access request destination, “Taro Tanaka” is updated to a non-anonymized content such as “Mr.X”. Execute the process. In this process, anonymity is calculated again by the anonymity calculation unit 105 for non-anonymity data that is an update candidate, and the update candidate is updated when the calculated anonymity satisfies the anonymity condition 202. If the content is determined and the anonymity condition is not satisfied, the process of generating another update candidate that satisfies the anonymity condition is repeated. The details of this “anonymization process” will be described later.
  • the search unit 502 identifies identification information indicating access permission with anonymized information (hereinafter referred to as “conditional disclosure”) for the files matched in the search processing in S704.
  • the search result list including only the file ID and the like is returned to the access source via the access control unit 103.
  • step S ⁇ b> 709 when an access request such as download is specified via the screen, the access source transmits the file specification to the access control unit 103.
  • the access control unit 103 refers to the file management information 107, acquires the file path corresponding to the file ID included in the designation, requests the file server to acquire the file (S711), and receives the file from the file server 100. The transmission of the corresponding file is received (S712).
  • the file of “conditional disclosure information” is designated, the file having the personal information updated in the anonymization process of S707 is received. Thereafter, the access control unit 103 transmits the received file to the access source.
  • the search unit 502 transmits a list of files that need to be anonymized and the anonymity condition 202 of those files to the anonymization unit 503, and requests a file anonymization process.
  • the anonymization unit 503 selects one file from the received list and reads the file from the file server 100.
  • step S ⁇ b> 802 the anonymization unit 503 refers to the content of the file management information 170 and identifies a personal information group related to the file read from the personal information 402. In step S803, the anonymization unit 503 selects one piece of personal information from the specified personal information group, and anonymizes the file. In S804, the anonymization unit 503 transmits the data after anonymization in S803 to the anonymity calculation unit 105 and requests anonymity calculation. In step S ⁇ b> 805, the anonymity calculation unit 105 that has received the request calculates anonymity based on the received data and the content of the personal information management information 108, and transmits the result to the anonymization unit 503.
  • step S ⁇ b> 806 the anonymization unit 503 determines whether the calculated anonymity satisfies the access source anonymity condition 202.
  • satisfying the anonymity condition 202 means that an access source that cannot originally access the file can be disclosed with information whose level of anonymity is low enough to be disclosed (content in accordance with the anonymity condition) This will allow us to disclose information on the Internet and secure confidentiality). If the calculated anonymity does not satisfy the access source anonymity condition 202 (S806: Yes), the anonymization unit 503 proceeds to S809 and performs anonymization processing until the anonymity condition can be satisfied. If satisfied (S806: No), the process proceeds to S807.
  • step S807 the anonymization unit 503 generates an update file in which the content of the file acquired in step S801 is updated (by duplication) with the data after anonymization, and deletes the file name from the file list.
  • step S808 the anonymization unit 503 checks whether there is an unprocessed file name in the file list. If there is an unprocessed file name, the process returns to step S801 (S808: Yes), and if not, exits this flow (S808: No).
  • step S809 the anonymization unit 503 selects one piece of personal information that has not yet been anonymized from the group of personal information specified in step S802, executes anonymization regarding the personal information on the file, Repeat the process.
  • a priority may be given to the attribute name of the personal information to be selected from the personal information group. Specifically, since the “address” is more likely to identify the individual than the “hobby”, the attribute value of the “address” is preferentially anonymized. The above is the details of the “anonymization process”.
  • personal information that cannot be disclosed is updated to information according to the anonymity condition 202 even for files that cannot be disclosed to the access source due to the anonymity condition 202.
  • the information can be disclosed in a state where the information is included, and information including a part of personal information without access right can also be widely disclosed.
  • the computer system of the third embodiment has a configuration for managing personal information extracted from a file and information such as calculated anonymity as file metadata.
  • FIG. 11 schematically shows a configuration example of a computer system.
  • the computer system of the third embodiment includes a file server 100, a file search server 101A, a metadata management server 101B, and a metadata generation server 101C, and these are connected to be communicable via a communication line.
  • the metadata management server 101B it is possible to receive a search request and respond to it from the client 102 connected via the network. Note that the transfer of the file 170 or the like may be directly transmitted from the file server 100 to the client 102 via the metadata management server 101B, as in the other embodiments.
  • the file search server 101A, the metadata management server 101B, and the metadata generation server 101c are assumed to be independent general-purpose physical servers, but the metadata management server 101B and the metadata generation server 101C serve as functional units of the file server 100. Or you may comprise integrally in hardware.
  • the file search server 101A has a configuration in which the access control unit 103 and the index unit 501 are realized and the access source information 106 is held by the cooperation of the CPU and the program.
  • the setting of the anonymity condition 202 of the access source information 106 is accepted via an input device (not shown).
  • a metadata management unit 701 is realized by the cooperation of the CPU and the program.
  • the metadata management unit 701 functions as a so-called ETL (Extract / Transform / Load), and generates / stores metadata for storing files from the client 102 or data acquisition from an external system data source (not shown). It is responsible for processing.
  • the metadata management unit 701 generates and manages the file management information 107 as metadata.
  • the generated metadata is stored in the storage 702.
  • the metadata management unit 701 changes the file ID and the file path indicating the storage location in the file server 100 to the file ID 400 and the file path 401 of the file management information 107. Each is registered. Thereafter, a file is transmitted from the metadata management unit 701 to the metadata generation server 101C, personal information management information 108 is generated, and anonymity is calculated.
  • the metadata management unit 701 receives the generated personal information and the calculated anonymity 403 from the metadata generation server 101C and holds them in association with the corresponding entries of the file ID 400 registered earlier. Yes. Thereafter, the file itself is stored in the file server 100.
  • a personal information extraction unit 104 and an anonymous calculation unit 105 are realized, and in response to a request from the metadata management unit 701 of the metadata management server 101B, personal information management is performed from the transmitted file.
  • Information 108 is generated or anonymity is calculated.
  • access determination processing based on the anonymity 403 and the anonymity condition 202 is performed by the search unit 502 of the file search server 101A via the metadata management unit 701.
  • One of the features of this embodiment is that it is performed based on data.
  • the file acquisition request determined to be accessible is transferred from the file server 100 to the access request source client 102 via the access control unit 103 and the metadata management unit 701 of the file search server 101A. It is the same as that of other embodiment.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above-described embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. It is possible to add / replace the configuration of another embodiment to the configuration of a certain embodiment and to delete a part of each embodiment without departing from the spirit of the embodiment.
  • a program for realizing each functional component exemplified in the first to third embodiments is stored in a magnetic and / or electric / electronic portable non-transitory recording medium (a simple transmission communication path or the like). (Not included) can also be downloaded to a computer via a network such as the Internet.
  • DESCRIPTION OF SYMBOLS 100 ... File server, 101 ... Management server, 102 ... Client, 104 ... Personal information extraction part, 105 ... Anonymity calculation part, 106 ... Access source information, 107 ... File management information, 108 ... personal information management information, 202 ... anonymity condition, 403 ... anonymity

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

 利用する情報の開示と制限のバランスを効率よく管理することが望まれる。これを実現するために、記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、複数のデータからなるデータ集合における、そのデータ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を各データに関連付けて記憶する。アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、各データにアクセスするアクセス元毎に記憶し、アクセス条件がユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機を用いる。

Description

計算機、データアクセスの管理方法及び記録媒体
 本発明は、記憶装置に格納されたデータへのアクセスの管理を行う計算機、管理方法及びその管理方法を計算機に実行させるプログラムが格納された記録媒体に関する。
 近年、コンピュータシステムで扱うデータ量が爆発的に増加し、これらのデータを用いた種々のサービスに利活用することが行われている。例えば、行動履歴や購買履歴を基に、個々人の関心に応じて広告を端末装置等に提供するといったサービス等が登場している
 このようなサービスは、個々人の行動履歴や購買履歴の分析を行ったり、特定個人に広告等の情報を提供したりする際、個人情報を扱うことによって実現されることも多い。この点、個人情報を所有するサービス事業者は、個人情報の目的外利用や情報漏えいの管理に様々な仕組みを導入している。
 例えば、個人情報が記載されたデータ(例えば、ファイル)に対するアクセス制限を管理する方法が、従来から知られている。具体的には、個人情報を取り扱う従業者一人ひとりにアクセス権限を設定し、業務上必要なデータのみアクセスできるようなシステムを構築するなどの方法である。システム管理者が、データ内の情報が個人情報を含むか否かを判断し、個人情報が含まれると判断する場合には、そのデータにアクセス権限が設定され、アクセス権限を持たないユーザからのアクセスを制限等するようになっている。
 また、他の例として、個人情報を含むファイルを匿名化する方法も知られている。ここで、匿名化とは、データ中の個人情報をあいまいにしたり、削除したりすることによって、個人の特定を困難にする処理等をいう。
 特許文献1には、システム管理者が設定したアクセス権限を持たないユーザがファイルにアクセスすると、システム内の処理装置が、そのファイルに記載されている個人情報を他の文字列に置換する技術が開示されている。
特開2006-185311号公報
 特許文献1に開示されるように、データ中に個人情報が含まれるか否かをコンピュータに判断させるには、個人情報を示す定義データ等を予め用意する必要がある。個人情報を始め、情報の種類や分類は膨大であり、情報秘匿の機密度には幅があるためアクセス権限にも、幅を持たせたい場合もある。即ちユーザ毎にアクセス権限のレベルを設けたい場合もある。例えば、企業内のデータベースを利用する場合、一般社員、中間管理職及び上位管理職間で、アクセスレベルを異にしたい場合等である。
 アクセス権限にレベルを設ける場合には、レベル毎に応じた定義データを人手で予め用意する必要があり、その人的負荷は膨大である。
 また、データ内の個人情報等が、例えば、個人を特定できないほど曖昧な情報であっても、定義データ等に定義されていれば、アクセス制限の対象となる。このため、ユーザは、本来機密性が自己の権限内であるデータにアクセスできなくなってしまい、利便性が低下する。上述のように、扱う情報が多種大量になれば、曖昧な情報について、定義データを分類する人的負荷の増加という課題が益々残る。
 一般に、扱う情報量が増加することはユーザの情報取得に資するものであるが、開示を制限する情報を管理する必要から、本来得るべき利益まで損なわれることもあり、情報の開示と制限のバランスを効率よく管理することが望まれる。
  上述の課題を解決するために、例えば、請求の範囲に記載された計算機を適用する。即ち記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、
  複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を前記各データに関連付けて記憶し、
  アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶し、
  前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機である。
  本発明の一側面によれば、情報取得の利益と、情報開示のバランスを効率よく管理できるという効果を奏する。
本発明を適用した第1実施形態における計算機システムの構成例を示すブロック図である。 第1、第2及び第3実施形態におけるアクセス元情報の一例を模式的に示す図である。 第1、第2及び第3実施形態における個人情報管理情報の一例を模式的に示す図である。 第1、第2及び第3実施形態におけるファイル管理情報の一例を模式的に示す図である。 第1実施形態における匿名度生成処理の流れを示すフロー図である。 第1実施形態におけるアクセス判定処理の流れを示すフロー図である。 第2実施形態における計算機システムの構成例を示すブロック図である。 第2実施形態における計算機システムで、クライアント装置に表示させる画面例を示す模式図である。 第2実施形態における計算機システムの処理の流れを示すフロー図である。 第2実施形態における匿名化処理の詳細な流れを示すフロー図である。 第3実施形態における計算機システムの構成例を示すブロック図である。
  以下に、図面を用いて、発明を実施しするための形態について説明する。
  〔第1実施形態〕
  図1に、本発明を適用した計算機システムの構成を示す。計算機システムは、1以上のファイルサーバ100と、管理サーバ101とを含み、1以上のクライアント102とネットワークを介して通信可能に接続される。クライアント102からファイルサーバ100に格納されたデータ(ファイル)に対するアクセスは、管理サーバ101によって管理されるようになっている。より具体的には、管理サーバ101では、ファイルサーバ100のファイル毎に、その内容に応じて匿名性のスコアを算出し、そのファイルに対するアクセス元のレベルとの比較することで、ファイルへのアクセス可否が管理されるようになっている。
 ファイルサーバ100には、ファイルシステムが動作する汎用のサーバ装置を適用するものとする。ファイルサーバ100では、CIFSやNFSといった通信プロトコルを用いて管理サーバ101と通信するようになっている。ファイルサーバ100には、CPU及びこれと協働して制御機能部を構成する制御部150と、SSD、HDD及び/又はテープ装置からなるストレージ151が設けられる。ストレージ151には、論理的又は物理的なボリュームが設けられ、格納されたファイルデータ(ファイルX170等)に対する論理的・物理的なアクセスが可能となっている。
 管理サーバ101には、CPU180、メモリ182、補助記憶183を有する汎用のサーバ装置を適用するものとする。メモリ182には、プログラムとCPU180の協働によって、アクセス制御部103、個人情報抽出部104及び匿名度算出部105が実現されるとともに、ファイル管理情報107、アクセス元情報106及び個人情報管理情報108が保持される。なお、本実施形態では、これら情報をテーブル形式で構成される例を適用するものとするが、関連する種々のデータ同士を関連付けて管理できるものであればこの形式に限定されるものではない。
 アクセス制御部103では、クライアントからのシステムログイン要求に対するユーザ認証が行われるとともに、例えば、ファイルX170等へのアクセス要求に対して、そのクライアントに設定たれたアクセス条件である匿名度条件302をアクセス元情報106(図2)から取得し又ファイルX170に設定された匿名度203をファイル管理情報107(図4)から取得し、両者の比較に基づいて、アクセス可否が判断されるようになっている。条件を満たす場合、アクセス制御部103では、ファイルX170へのアクセスが許容されるようになっている。
 図2に、アクセス元情報106を模式的に示す。アクセス元情報106には、アクセス元識別情報200、システムログイン時の認証に使用されるパスワード201及びファイルにアクセスするための条件である匿名度条件202といった項目が設けられ、これらが対応付けて管理される。アクセス元識別情報200として、ユーザID200a及びIPアドレス200bを有するが、これらの一方又は両方を対象として、匿名度に基づくアクセス管理をおこなうことができるようになっている。即ちユーザ毎やクライアント端末毎でアクセス管理することも可能であるし、両方を対象にしてアクセス管理を行うことも可能である。
 匿名度条件202は、アクセスを可能にするファイルの匿名度403(図4)の範囲を示すスコアである。例えば、User_Bの匿名度条件は「10以上」であることから、匿名度303の値が10以上であるファイルにアクセスが許容され、匿名度303の値が10よりも低いファイルには、アクセスが許容されないこととなる。匿名度条件202は、計算機システムの管理者等によって、静的に設定するものとするが、計算機システムのサービス利用期間や利用回数及び/又は所定のルールに基づいて動的に変動するようにしてもよい。
 個人情報抽出部104では、ファイルX170等毎に、そのデータ内容が解析され、個人情報に関する情報が抽出されるようになっている。具体的には、匿名化するテキスト文(「横浜市に住む田中太郎さんの趣味は映画鑑賞である」)を形態素解析し、固有名詞(「田中太郎」、「横浜市」、「映画鑑賞」など)を属性値として抽出する。抽出した属性値に対し、属性値が出現する前後の単語の並びから、その属性値の属性名(「名前」、「住所」、「趣味」)を決定する。(「XXX」+「に住む」⇒「XXX」の属性名は「住所」など)属性名と属性値のセットを、個人情報管理テーブル108に登録する。
 なお、ファイルの内容の解析については、既存技術である文書の解析技術などを利用する。文書解析技術による自然文からの情報抽出については、例えば、非特許文献『大量・多種多様な非構造化データを扱う情報処理基盤』(URL :http://digital.hitachihyoron.com/pdf/2011/07/2011_07_10.pdf)などに記載されている。
 図3に、抽出された個人情報を格納する個人情報管理情報108の例を模式的に示す。個人情報管理情報108は、名前300、住所301、電話番号302、体重303、誕生日304、職業305、趣味306といった項目が設けられ、各項目に、個人情報抽出部104によって抽出された対応する用語(値)が登録されるになっている。例えば、個人情報管理情報108は、ある特定の個人Mr.Aについて、住所が横浜市であり、職業が会社員であり、趣味は映画鑑賞である、という情報が登録される。そして、ファイルサーバ100中に、Mr.Aの電話番号、体重、誕生日の個人情報を含むファイルが存在しない、という情報も有している(図では「-」で表している。)。個人情報管理情報108は、後述する匿名度算出部105における各ファイルの匿名度の算出で利用されるものであり、母集団において内容を同じにするレコードの存在/不存在(そのレコードのユニーク性ともいえる。)を示す情報となるものである。
 匿名度算出部105では、個人情報管理情報108の各レコードが比較され、内容を同じにするファイルの数を求めることによって、そのファイルの匿名度が算出される。
  ここで、個人情報の匿名度について説明する。本実施形態において、匿名度とは、個人情報の集合に対して、それらの情報がどの程度の匿名性を有するかを数値として定量的に評価した指標のことをいう。匿名度として、例えば、従来技術である「Privacy Model(BENJAMIN C. M. FUNG、『Privacy-Preserving Data Publishing: A Survey on Recent Developments』インターネット(http://dl.acm.org/citation.cfm?id=1749605 ))。
 この論文では、15種のPrivacy Modelを紹介している。具体的には、「k-Anonymity」、「l-Diversity」、「t-Closeness」、「MultiR k-Anonymity」、「Confidence Bounding、(α,k)-Anonymity」、「(X,Y)-Privacy、(k,e)-Anonymity」、「(ε,m)-Anonymity」、「Personalized Privacy」、「δ-Presence、(c,t)-Isolation」、「ε-Differential Privacy」、「(d,γ)-Privacy」及び「Distributional Privacy」である。
 匿名度403に格納する値は、上記15種類のPrivacy Modelからどれか一つを選び、そのモデルを用いて算出した数値である。なお、複数のPrivacy Modelを用いて導出した複数の数値の加算又は平均による数値であってもよい。簡単な例をあげれば、ファイルX170から抽出した個人情報からなるレコードと同内容のレコードが20レコードあれば、ファイルX170の匿名度403を「20」とし、同内容のレコードが無いときには、匿名度403を「1」とする。即ち集合の中で同内容レコードの数が少ないほど、そのレコードはユニークなものであり、結果として個人情報で有る可能性が高いものであるとみなせる傾向にある。即ち「映画鑑賞」という情報よりも「電話番号」という情報の方が(ユニーク性があり)、匿名性が高い情報であるとみなすことができる。
 図4に、匿名度算出部105によって算出された匿名度と、その匿名度に対応するファイルX170等の属性情報を登録するファイル管理情報107の例を模式的に示す。なお、この情報は個人情報抽出部104によって生成されるものとする。
  ファイル管理情報107には、ファイル毎に、4種類の属性が登録される。具体的には、ファイル管理情報107には、ファイルID(名)400、ファイルパス401、ファイル内の個人情報が登録される個人情報402及びその個人情報を解析して求められた匿名度403の各項目が設けられ、夫々の値が対応付けられて管理されるようになっている。
  以上が計算機システムの構成である。
 次に、第1実施形態における計算機システムの処理の流れを説明する。計算機システムの処理の流れは、ファイル格納時に実行する「匿名度生成処理」と、その格納したファイルに対してアクセスする時の「アクセス判定処理」に分けられる。先ず、前者の「匿名度生成処理」について説明する。
 図5に、「匿名度生成処理」のフローを示す。
  S500で、クライアント102は、ログイン要求と共にユーザが入力したユーザIDとパスワードを管理サーバ101に送信する(なお、ユーザIDと共に或いはこれに代えてクライアント102のIPアドレスを送信するようにしてもよいのは、前述の通りである。本フローでは、ユーザIDのみを利用する例を説明する。)。
  S501で、管理サーバ101のアクセス制御部103は、アクセス元管理情報106のユーザID200aとPass201を検索し、該当するユーザIDとパスワードの組が存在するか否かを調べる。
 S502で、その組が存在する場合、アクセス制御部103は、クライアント102のログインを許可できると判断し、クライアント102に対してログイン許可通知を送信する。なお、それが存在しない場合、アクセス制御部103は、クライアント102に対してアクセス拒否通知を送信し、クライアント102との通信を切断する。
  S503で、クライアント102は、アクセス制御部103に、ファイルサーバ100に格納するファイルと、そのファイルを格納する場所(ファイルパス名)とを送信する。
  S504で、アクセス制御部103は、個人情報抽出部104にファイルを転送する。
 S505で、個人情報抽出部104は、ファイルの内容を解析し、個人情報の属性とその内容を特定する。更に、特定した個人情報を個人情報管理情報108に追加する。また、抽出した属性が個人情報管理情報108に存在しなかった場合は、個人情報抽出部104は新たな項目を追加し、文書から抽出した情報を登録する。
  S506で、個人情報抽出部104は、S505において特定した個人情報の属性と内容を匿名度算出部105に送信する。
 S507で、匿名度算出部105は、個人情報管理情報109を検索し、受信した個人情報の匿名度を算出する。匿名度の算出方法については、前述の通り、どのようなPrivacy Modelを利用しても良い。例えば、匿名度の算出にk-Anonymityを使用する場合で、S505で抽出した個人情報の属性が人名、住所、職業、趣味であった場合、匿名度算出部105は、次のような処理を行う。
 まず、匿名度算出部105は、個人情報管理情報108における、名前300、住所301、職業305、趣味306の項目に格納されている情報をすべて読み出す。そして、匿名度算出部105は、読みだした情報の中に、S505で抽出した個人情報の内容の組と同一のレコードがどれだけ存在するかを調査する。具体的には、S505で抽出した個人情報の内容が、名前「Mr.A」、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であったとすると、匿名度算出部105は、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であるレコードが、個人情報管理テーブル108にいくつ存在するかを計数する。仮に、住所「横浜市」、職業「会社員」、趣味「映画鑑賞」であるレコードが20レコードであった場合、匿名度算出部105は、受信した個人情報の匿名度を「20」と算出する。
 S508で、匿名度算出部105は、算出した匿名度を個人情報抽出部104に送信する。
  S509で、匿名度を受信した個人情報抽出部104は、ファイル管理情報107に新しいレコードを1行追加する。そして、そのレコードにおいて、S503でクライアント102から受信したファイルの名前をファイルID400に、ファイルパス名をファイルパス401に追加し、S505で抽出した個人情報を個人情報402に、S507で算出した匿名度を匿名度403に、それぞれ登録する。
 S510で、個人情報抽出部104は、ファイルサーバ100に対して、ファイルとそのファイルを格納するファイルパス名を送信する。
  S511で、ファイルサーバ100は、指定されたファイルパス基づいてファイルを格納する。なお、指定されたファイルパスが存在しない場合、ファイルサーバ100は、ファイルパスを自動的に作成する。
 S512で、ファイルサーバ100は、個人情報抽出部104に対して、ファイルの格納完了の通知を送信する。S613で、完了通知を受信した個人情報抽出部104は、アクセス制御部103に対して、ファイル格納完了通知を送信する。S514で、アクセス制御部103は、クライアント102に対して、ファイルの格納完了通知を送信する。
  以上が、「匿名度生成処理」である。
 次に、「アクセス判定処理」を説明する。図6に、「アクセス判定処理」のフローを示す。なお、SS600からS602までの処理の内容は、図5に示す「匿名度生成処理」と同様であるため説明を省略する。
 S603で、クライアント102は、アクセス制御部103に、ファイルのリード要求を送信する。この要求は、ファイルの名前と、そのファイルを格納するファイルパスの名前を含む。
  S604で、アクセス制御部103は、アクセス元管理情報106を参照し、アクセス元の匿名度条件202を特定する。
 S605で、アクセス制御部103は、S603で受信したファイル名を基に、ファイル管理情報107を検索し、匿名度403の内容を読み出し、S604で特定したユーザの匿名度条件202と、ファイルの匿名度403とを比較する。
 S606で、匿名度403が、匿名度条件202を満たさない場合、アクセス制御部103は、クライアント102に対して、アクセス拒否通知を送信する。そうでない場合、アクセス制御部103は、ファイルサーバ100に、S603で受信した要求に含まれるファイル名及びファイルパス名と、当該要求を発行したアクセス元情報を送信する。
 S607で、ファイルサーバ100は、該当するファイルを読み出し、S608で、ファイルをアクセス制御部103に送信し、S609で、アクセス制御部103は、ファイルをクライアント102に送信する。
  以上が、「アクセス判定処理」である。
 このように、本実施形態の計算機システムによれば、秘匿するべき情報と、開示できる情報とのバランスを動的に維持しつつ大量データ処理の高速化を実現することができる。
  また、本実施形態の計算機システムによれば、アクセス元の匿名度条件を設定し、ファイル側の匿名度のみに依存せずに、更にアクセス元毎にアクセス可否を判断することから、秘匿性するべき情報と、開示できる情報とのバランスをより粒度を細かく且つ柔軟に制御することができる。
 更に、アクセス元の匿名度条件は、ユーザ単位及び/又はクライアント装置単位でも設定できるため、秘匿性するべき情報と、開示できる情報とのバランスを属人的にも、属機械的にも或いはその何れにも依存させることができるという優れた効果がある。
 <第1実施形態の変形例>
  第1実施形態の変形例について説明する。変形例の計算機システムでは、第1実施形態の計算機システムに、検索機能を追加したものである。例えば、管理サーバ101に、ファイルサーバ100に格納されたファイル170等のインデクスを設け、アクセス元から送信されたクエリ(SQL等)を受信し、インデクスを参照して、該当する検索結果をユーザに応答する検索処理部を設けるようにする。
 検索処理部では、検索結果から該当ファイルを特定し、ファイル管理情報403を参照して夫々のファイルの匿名度403を抽出し、アクセス元識別情報106の匿名度条件202と比較して、アクセス可能な検索結果のみがアクセス元に返信されるようにする。この場合は、その後の検索結果に基づいたアクセス元からのファイルアクセス要求に対して、匿名度条件202と匿名度403との比較判定を省略するようにしてもよい。
 〔第2実施形態〕
  第2実施形態の計算機システムでは、アクセス元の匿名度条件202が、ファイルの匿名度403を満たさない場合に、当該条件を超えるファイルについては、匿名部分を匿名化してアクセス元に送信することを特徴の1つとする。以下に、第2実施形態の計算機システムについて説明する。
  なお、第2実施形態では、ファイルサーバ100のファイルに対する検索機能を有するシステムを基に説明をする。
 図7に、第2実施形態の計算機システムの構成を示す。第1実施形態との主な相違点は、第2実施形態では、管理サーバ101に、インデクス部500、検索部501及び匿名化部502を更に有する点である。
 インデクス部500では、ファイルサーバ100に格納されたファイルのインデクスが生成及び保持される。インデクスは、ファイル170等がファイル100に格納される際に生成されるようになっている。
 検索部501では、アクセス元からの検索クエリ(SQL等)を受け付け、インデクス部500によって生成されたインデクスを検索し、検索結果がアクセス元に応答される。更に、検索部501では、検索結果に含まれるファイルの匿名度403と、検索クエリの発行元アクセス元の匿名度条件202が比較され、検索結果中で条件を満たさないファイルについては、内容(の一部又は全部)を匿名化してアクセス可能である旨の識別情報(以下、「条件付きアクセス情報」という)が更に検索結果に付加されて、これをアクセス元に表示させるようになっている。
 図8に、アクセス元であるクライアント102の画面(不図示)に表示される検索結果画面例を模式的に示す。検索結果画面500には、検索要求時に入力される検索キーワードを表示する検索キー入力欄551と、検索オプション表示欄552と、検索結果を表示する検索結果表示欄554と、が含まれる。検索オプション表示欄は、検索するファイルの形式や、生成されたファイルの日時に関する情報を指定可能とし、予めプルダウンメニューとしてこれらが選択可能な状態となっている。更に、条件追加ボタン553も表示され、これら条件が複数種類指定可能になっている。
 検索結果表示欄554には、検索結果のファイル名、ファイル形式、ファイルサイズ、ファイルの生成日時等と、前述の条件付きアクセス情報を表示するカラム556とからなる結果表示欄と、夫々のファイルのダウンロードを指定するダウンロードボタン555が含まれる。
  条件付きアクセス情報欄556は、一部が匿名化された状態のファイルをダウンロードできるファイルについて、「Yes」が表示されるようになっている。
 また、匿名化部503では、検索部502によって条件を満たさないと判断されたファイルについて、匿名部分を匿名化加工する処理が実行されるようになっている。アクセス元からのアクセス要求があった場合には、加工後のファイルを送信させるようになっている。ここで匿名化とは、データの一部を匿名性の無い情報や匿名性が薄れる情報に更新することをいう。例えば、「田中太郎」という本名を「Mr.X」に置換したり、「72kg」といった体重を「60kg~80kg」といった幅のある値に変換したりする。なお、更新には、他のデータへの変更(他のデータ内容への置換や墨入れ等を含む)やデータの削除が含まれる。
 図9に、第2実施形態の計算機システムにおけるファイルアクセスの処理の流れを示し、図10に、匿名化部503におけるファイルの「匿名化処理」の詳細な流れを示す。なお、図9のS700からS702のユーザ認証の処理は、第1実施形態と同様であるので説明を省略する。
 S703で、アクセス元は、検索クエリを指定して検索要求をアクセス制御部103に送信する。アクセス制御部103は、その要求に含まれる検索キーと共にアクセス元識別情報200(ユーザID200a及び/又は200b)を検索部502に送信し、インデクス検索を要求する。
 S704で、検索部502は、指定された検索キーで検索インデクスを検索する。
  S705で、検索部502は、インデクスの検索によってマッチしたファイルのファイルIDに基づいて、ファイル管理情報107から、マッチしたファイルの匿名度を取得する。
  S706で、検索部502は、S703によって受信したアクセス元識別情報200に基づいて、アクセス元情報106から匿名度条件202を取得し、S705で取得したマッチしたファイルの匿名度と比較し、条件を満たさないファイルを特定する。次の「匿名化処理」において、データ内容の匿名化を行うファイルに絞り込むためである。
 S707で、匿名化部503等は、条件を満たさないファイルの指定を受け、そのファイル内のデータで個人情報に開示不可のデータ部分を匿名化する処理を実行する。例えば、氏名が「田中 太郎」のファイルについて、アクセス元の匿名度条件がアクセス要求先の匿名度を満たさない場合、「田中 太郎」を「Mr.X」等の匿名性のない内容に更新する処理を実行する。なお、本処理では、更新候補である匿名性の無いデータについて、再度、匿名度算出部105で匿名度を算出し、算出した匿名度が匿名度条件202を満たす場合に、その更新候補を更新内容に決定し、匿名度条件を満たさない場合には、匿名度条件を満たす他の更新候補を生成する処理を繰り返す点も特徴の1つである。本「匿名化処理」については、詳細を後述する。
 S708で、検索部502は、S704の検索処理でマッチしたファイルのうち、S706で絞り込みの対象となったファイルについては、匿名化情報付きでのアクセス許可を示す識別情報(以下、「条件付き開示情報」という。)を付し、それ以外についてはファイルのID等のみとなる検索結果リストをアクセス制御部103経由でアクセス元に応答する。
 S709で、アクセス元は、画面を介してダウンロード等のアクセス要求が指定された場合、当該ファイルの指定をアクセス制御部103に送信する。
  S710で、アクセス制御部103は、ファイル管理情報107を参照し、指定に含まれたファイルIDに対応するファイルパスを取得し、ファイルの取得をファイルサーバに要求し(S711)、ファイルサーバ100から該当ファイルの送信を受ける(S712)。なお、「条件付き開示情報」のファイルの指定である場合は、S707の匿名化処理で個人情報が更新されたファイルの送信を受けることとなる。その後、アクセス制御部103は、受信したファイルをアクセス元に送信する。
 図10の「匿名化処理」について詳細に説明する。
  S800で、検索部502は、匿名化部503に、匿名化が必要なファイルのリスト及びそれらファイルの匿名度条件202を送信し、ファイル匿名化処理を要求する。
  S801で、匿名化部503は、受信したリストの中からファイルを一つ選び、そのファイルをファイルサーバ100から読み込む。
 S802で、匿名化部503は、ファイル管理情報170の内容を参照し、個人情報402から読み込んだファイルに関する個人情報群を特定する。
  S803で、匿名化部503は、特定した個人情報群から一つの個人情報を選び、ファイルに対して匿名化を実行する。
  S804で、匿名化部503は、匿名度算出部105に対し、S803で匿名化した後のデータを送信し、匿名度算出を要求する。
  S805で、要求を受信した匿名度算出部105は、受信したデータと個人情報管理情報108の内容を基に匿名度を算出し、その結果を匿名化部503に送信する。
 S806で、匿名化部503は、算出された匿名度がアクセス元の匿名度条件202を満たすか否かを判定する。即ち匿名度条件202を満たすということは、本来そのファイルにアクセスできないアクセス元に対して、開示できる程度に匿名性が低くされたレベルの情報で開示できるようになる(匿名度条件に沿った内容での開示を実現するとともに秘匿性も確保できることとなる)。
  匿名化部503は、算出された匿名度がアクセス元の匿名度条件202を満たさない場合(S806:Yes)には、S809に進み、匿名度条件を満足できるまで匿名化処理を行う。満たす場合(S806:No)には、S807の処理に進む。
 S807で、匿名化部503は、匿名化後のデータで、S801で取得したファイルの内容が更新された更新ファイルを(複製により)生成し、ファイルリスト中からそのファイル名を削除する。次いで、S808で、匿名化部503は、ファイルリストに未処理ファイル名があるかチェックし、有る場合にはS801の処理に戻り(S808:Yes)、無い場合には本フローを抜ける(S808:No)。
 S809で、匿名化部503は、S802で特定した個人情報群のうち、まだ匿名化を行っていない個人情報を一つ選び、その個人情報に関する匿名化をファイルに対して実行し、S804からの処理を繰り返す。ここで、個人情報群のうち、選択する個人情報の属性名に優先度を付けてもよい。具体的には、「趣味」より「住所」の方が個人を特定できる可能性が高いため、「住所」の属性値を優先的に匿名化する。
  以上が、「匿名化処理」の詳細である。
 このように、第2実施形態の計算機システムよれば、匿名度条件202との関係で、本来アクセス元に開示できないファイルについても、開示できない個人情報を匿名度条件202に沿ったレベルの情報に更新した状態で開示を行うことができ、アクセス権のない個人情報を一部に含む情報についても、広く開示することができる。
 特に、匿名度条件202を満たす更新内容に更新する際、更新候補の内容が匿名度条件202を満たすか否かをチェックするようにしているため、より確実に開示不可の内容の秘匿性を確保することができる。
  以上が、第2実施形態の計算機システムである。
 〔第3実施形態〕
  最後に、第3実施形態の計算機システムについて説明する。第3実施形態の計算機システムでは、ファイルから抽出した個人情報や、算出した匿名度などの情報を、ファイルのメタデータとして管理する構成を有する。
 図11に、計算機システムの構成例を模式的に示す。第3実施形態の計算機システムには、ファイルサーバ100、ファイル検索サーバ101A、メタデータ管理サーバ101B、メタデータ生成サーバ101Cが含まれ、これらが通信線を介して通信可能に接続された構成を有する。メタデータ管理サーバ101Bでは、ネットワークを介して接続されたクライアント102から、検索要求の受信及びその応答が可能となっている。なお、ファイル170等の転送は、メタデータ管理サーバ101B経由でも、ファイルサーバ100から直接、クライアント102に送信するようにしてもよいのは他の実施形態と同様である。
 ファイル検索サーバ101A、メタデータ管理サーバ101B及びメタデータ生成サーバ101cは独立した汎用の物理サーバ適用するものとするが、メタデータ管理サーバ101B及びメタデータ生成サーバ101Cをファイルサーバ100の機能部としてソフトウェア又はハードウェア的に一体に構成してもよい。
 ファイル検索サーバ101Aには、CPUとプログラムの協働によりアクセス制御部103及びインデクス部501を実現するとともにアクセス元情報106を保持する構成とする。また、アクセス元情報106の匿名度条件202の設定は、入力装置(不図示)を介して受けつけるようになっている。
 メタデータ管理サーバ101Bには、CPUとプログラムの協働によりメタデータ管理部701が実現される。メタデータ管理部701は、所謂ETL(Extract/Transform/Load)として機能し、クライアント102からのファイルの格納や、不図示の外部システムのデータソース等からデータ取得に対し、メタデータの生成・格納処理を司るものである。本実施形態において、メタデータ管理部701では、ファイル管理情報107がメタデータとして生成・管理されるようになっている。生成されたメタデータはストレージ702に格納されるようになっている。
 例えば、クライアント102から、ファイルの格納要求を受信した場合、メタデータ管理部701では、ファイルID及びファイルサーバ100での格納場所を示すファイルパスが、ファイル管理情報107のファイルID400及びファイルパス401に夫々登録される。その後、メタデータ管理部701から、ファイルがメタデータ生成サーバ101Cに送信されて、個人情報管理情報108が生成されるとともに匿名度が算出される。メタデータ管理部701は、生成された個人情報及び算出された匿名度403を、メタデータ生成サーバ101Cから受信し、先に登録したファイルID400の対応するエントリに対応付けて保持する様になっている。その後、ファイル自体をファイルサーバ100に格納させる。
 メタデータ生成サーバ101Cには、個人情報抽出部104及び匿名算出部105が実現されると共に、メタデータ管理サーバ101Bのメタデータ管理部701からの要求を受けて、送信されたファイルから個人情報管理情報108が生成されたり、匿名度の算出が行われたりするようになっている。
 また、クライアントからの検索要求を受ける際に、匿名度403や匿名度条件202に基づいたアクセス可否の判定処理等は、メタデータ管理部701を介してファイル検索サーバ101Aの検索部502によって、メタデータに基づいて行われるようになっている点が本実施形態の特徴の1つである。なお、アクセス可能と判定されたファイルの取得要求は、ファイル検索サーバ101Aのアクセス制御部103、メタデータ管理部701を介して、ファイルサーバ100からアクセス要求元のクライアント102に転送されるのは、他の実施形態と同様である。
 以上のように、第1~第3実施形態について説明したが、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成に他の実施形態の構成を追加・置換ことも、各実施形態の一部を削除することも、その趣旨を逸脱しない範囲で可能である。
 更に、また、第1~第3実施形態で例示した各機能構成部を実現するプログラムを、磁気的及び/又は電気・電子的な可搬性の非一時的な記録媒体(単なる電送通信路等は含まない)に記録することも可能であるし、インターネット等のネットワークを介して計算機にダウンロードすることも可能である。
100・・・ファイルサーバ、101・・・管理サーバ、102・・・クライアント、104・・・個人情報抽出部、105・・・匿名度算出部、106・・・アクセス元情報、107・・・ファイル管理情報、108・・・個人情報管理情報、202・・・匿名度条件、403・・・匿名度

Claims (11)

  1.   記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機であって、
      複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出して、算出したユニーク性に依存した値を前記各データに関連付けて記憶し、
      アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶し、
      前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容する計算機。
  2.   請求項1に記載の計算機であって、
      前記データ集合を構成する各データから所定のカテゴリに関連するデータ部分を解析により抽出し、該データ部分によって前記各データの内容のユニーク性に依存する値を算出する計算機。
  3.   請求項2に記載の計算機であって、
      前記所定のカテゴリが、個人情報に関するものである計算機。
  4.   請求項1に記載の計算機であって、
      前記ユニーク性に依存する値が、前記データ集合において前記内容を同一にするデータの数又は割合に基づくものである計算機。
  5.   請求項1に記載の計算機であって、
      前記アクセス元が、ユーザID、ネットワークアドレス又は前記ユーザ並びに前記ネットワークアドレスの両方である計算機。
  6.   請求項1に記載の計算機であって、
      前記データ集合の検索インデクスを有し、
      検索条件を含む検索要求を前記アクセス元から受信し、前記検索インデクスを検索した検索結果のうちで前記アクセス元のアクセス条件を満たす検索結果を前記アクセス元に送信する計算機。
  7.   請求項2に記載の計算機であって、
      前記アクセス条件が前記ユニーク性に依存する値を満たさないアクセス要求元に、前記データ部分が前記アクセス条件を満たすデータに更新されたデータへのアクセスを許容する計算機。
  8.   請求項1に記載の計算機であって、
      前記データ集合の検索インデクスを有し、
      検索条件を含む検索要求を前記アクセス元から受信し、前記検索インデクスを検索した検索結果のうちで前記アクセス元のアクセス条件を満たさない検索結果について、該検索結果に対応するデータの一部へのアクセスを制限する旨を示す情報を付加して前記アクセス元に送信する計算機。
  9.   請求項8に記載の計算機であって、
      前記データの一部へのアクセスを制限する旨を示す情報が付加された検索結果に対応するデータへのアクセス要求を、前記アクセス元から受信し、
      前記データの一部が前記アクセス条件を満たすデータに更新されたデータへのアクセスを許容する計算機。
  10.   記憶装置に格納されたデータに対するアクセス元からのアクセスの管理方法であって、
      計算機が、
      前記記憶装置に格納された複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、該各データに関するユニーク性に依存した値を算出するステップと、
      算出したユニーク性に依存した値を前記各データに関連付けて記憶するステップと、
      アクセス可能なデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶するステップと、
      前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容するステップと
    を含む管理方法。
  11.   記憶装置に格納されたデータに対するアクセス元からのアクセスを管理する計算機に、
      前記記憶装置に格納された複数のデータからなるデータ集合における、該データ集合を構成する各データの内容から、各データのユニーク性に依存した値を算出させる手順と、
      該ユニーク性に依存した値を前記各データに関連付けて記憶させる手順と、
      アクセス可能とするデータの前記ユニーク性に依存した値に対する閾値であるアクセス条件を、前記各データにアクセスするアクセス元毎に記憶させる手順と、
      前記アクセス条件が前記ユニーク性に依存する値を満たすアクセス要求元に、要求するデータに対するアクセスを許容させる手順と
    を実行させるプログラムが格納された非一時的な記録媒体。
PCT/JP2013/053178 2013-02-12 2013-02-12 計算機、データアクセスの管理方法及び記録媒体 WO2014125557A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/053178 WO2014125557A1 (ja) 2013-02-12 2013-02-12 計算機、データアクセスの管理方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/053178 WO2014125557A1 (ja) 2013-02-12 2013-02-12 計算機、データアクセスの管理方法及び記録媒体

Publications (1)

Publication Number Publication Date
WO2014125557A1 true WO2014125557A1 (ja) 2014-08-21

Family

ID=51353593

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/053178 WO2014125557A1 (ja) 2013-02-12 2013-02-12 計算機、データアクセスの管理方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2014125557A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130113A (ja) * 2016-01-21 2017-07-27 株式会社野村総合研究所 統制レベル付与データ表示制御装置、プログラム及び方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287846A (ja) * 2003-03-20 2004-10-14 Ntt Data Corp 個人特定防止装置、個人特定防止方法、および、プログラム
JP2004318391A (ja) * 2003-04-15 2004-11-11 Mitsubishi Electric Corp 情報提供装置及び情報提供システム及び分散データベースシステム
JP2006172433A (ja) * 2004-11-19 2006-06-29 Matsushita Electric Ind Co Ltd 匿名情報システム、情報登録装置及び情報蓄積装置
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2009181207A (ja) * 2008-01-29 2009-08-13 Hitachi Ltd 情報管理装置、プログラム及び情報管理方法。
US20110238829A1 (en) * 2006-06-28 2011-09-29 Microsoft Corporation Anonymous and secure network-based interaction
WO2012127987A1 (ja) * 2011-03-24 2012-09-27 日本電気株式会社 情報監視装置及び情報監視方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287846A (ja) * 2003-03-20 2004-10-14 Ntt Data Corp 個人特定防止装置、個人特定防止方法、および、プログラム
JP2004318391A (ja) * 2003-04-15 2004-11-11 Mitsubishi Electric Corp 情報提供装置及び情報提供システム及び分散データベースシステム
JP2006172433A (ja) * 2004-11-19 2006-06-29 Matsushita Electric Ind Co Ltd 匿名情報システム、情報登録装置及び情報蓄積装置
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
US20110238829A1 (en) * 2006-06-28 2011-09-29 Microsoft Corporation Anonymous and secure network-based interaction
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2009181207A (ja) * 2008-01-29 2009-08-13 Hitachi Ltd 情報管理装置、プログラム及び情報管理方法。
WO2012127987A1 (ja) * 2011-03-24 2012-09-27 日本電気株式会社 情報監視装置及び情報監視方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130113A (ja) * 2016-01-21 2017-07-27 株式会社野村総合研究所 統制レベル付与データ表示制御装置、プログラム及び方法

Similar Documents

Publication Publication Date Title
US10257196B2 (en) Access control for a document management and collaboration system
US11128465B2 (en) Zero-knowledge identity verification in a distributed computing system
US10404757B1 (en) Privacy enforcement in the storage and access of data in computer systems
US11082226B2 (en) Zero-knowledge identity verification in a distributed computing system
CN107092666B (zh) 用于网络的系统、方法以及存储介质
US9229992B2 (en) Automatic identification of digital content related to a block of text, such as a blog entry
US7865537B2 (en) File sharing system and file sharing method
US8819009B2 (en) Automatic social graph calculation
CN110870279B (zh) 安全策略分析器服务和可满足性引擎
US20120330959A1 (en) Method and Apparatus for Assessing a Person&#39;s Security Risk
US20170277907A1 (en) Abstracted Graphs from Social Relationship Graph
US20150254289A1 (en) Database architecture for storing multi-structured data
US20170262653A1 (en) Abstracted Graphs from Social Relationship Graph
EP3245569A1 (en) Record level data security
EP2839385A1 (en) Unified user profiles
WO2020214304A1 (en) Constraint querying for collaborative intelligence and constraint computing
US20100169982A1 (en) License management apparatus, license management method, and computer readable medium
JP4622514B2 (ja) 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム
US11425132B2 (en) Cross-domain authentication in a multi-entity database system
JP2011081642A (ja) 検索サーバ、情報検索方法、プログラムおよび記憶媒体
JP2004534297A (ja) ウェブカードシステムのグローバルネットワークおよびプライバシー制御ならびにその方法
WO2014125557A1 (ja) 計算機、データアクセスの管理方法及び記録媒体
US20110246500A1 (en) Storing and querying of user feedback in a personal repository accessible to a personal computing device
US20220398331A1 (en) Property-level visibilities for knowledge-graph objects
Poniszewska-Marańda et al. Analyzing user profiles with the use of social API

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13875086

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13875086

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP