WO2017168798A1 - 暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法 - Google Patents

暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法 Download PDF

Info

Publication number
WO2017168798A1
WO2017168798A1 PCT/JP2016/080183 JP2016080183W WO2017168798A1 WO 2017168798 A1 WO2017168798 A1 WO 2017168798A1 JP 2016080183 W JP2016080183 W JP 2016080183W WO 2017168798 A1 WO2017168798 A1 WO 2017168798A1
Authority
WO
WIPO (PCT)
Prior art keywords
encryption
search index
keyword
search
index
Prior art date
Application number
PCT/JP2016/080183
Other languages
English (en)
French (fr)
Inventor
通 冶
稔 藤本
Original Assignee
株式会社日立ソリューションズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ソリューションズ filed Critical 株式会社日立ソリューションズ
Priority to JP2018508358A priority Critical patent/JP6672451B2/ja
Publication of WO2017168798A1 publication Critical patent/WO2017168798A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09CCIPHERING OR DECIPHERING APPARATUS FOR CRYPTOGRAPHIC OR OTHER PURPOSES INVOLVING THE NEED FOR SECRECY
    • G09C1/00Apparatus or methods whereby a given sequence of signs, e.g. an intelligible text, is transformed into an unintelligible sequence of signs by transposing the signs or groups of signs or by replacing them by others according to a predetermined system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to an encrypted search index merge server, an encrypted search index merge system, and an encrypted search index merge method.
  • Patent Document 1 JP-A-2015-35072 (Patent Document 1) as background art in this technical field.
  • This gazette states that “a registered client deposits encrypted data, in which the size of a search tag created for search is compressed, in a server using a probabilistic encryption method using a hash value and a mask based on the output value of a homomorphic function.
  • the search client probabilistically encrypts the search keyword, sends only a part of the encrypted data to the management server as an encrypted search keyword, and sends the encrypted data and the random number of the encrypted keyword to the management server.
  • the management server searches the data corresponding to the search without detecting the mask, detects an erroneous search result, and decodes the search result ”(see summary).
  • Patent Document 1 executes a search process using a search index encrypted using non-deterministic encryption without decrypting the document and the search index.
  • Each search index described in Patent Document 1 includes a plurality of combinations including an encryption keyword that is a keyword encrypted using nondeterministic encryption and metadata corresponding to the keyword.
  • search processing speed decreases.
  • a merge process is performed in which a plurality of search indexes are merged to generate one search index.
  • each encryption keyword included in the search index described in Patent Document 1 is encrypted using non-deterministic encryption, even encryption keywords generated from the same keyword are different from each other. It is data. Therefore, in the technique described in Patent Document 1, since all of the encryption keywords included in the plurality of search indexes to be merged are basically different data, even if the above merge process is executed in the encrypted state, the search is performed. The total number of combinations of encryption keywords and metadata included in the index cannot be reduced.
  • an aspect of the present invention aims to merge search indexes without decrypting keywords included in the encrypted search index. As a result, it aims at improving the search processing speed while ensuring security.
  • a search index merge server for merging encrypted search indexes comprising a processor and a storage device, wherein the storage device holds a first search index and a second search index, and the first search index And each of the second search indexes associates and holds an encryption set generated from each of the one or more keywords and metadata corresponding to each of the one or more keywords.
  • Each of the two search index encryption sets includes an encryption keyword
  • each of the second search index encryption sets includes an encryption query
  • each of the encryption keywords includes a ciphertext indicating a keyword encrypted using a random number
  • Each of the cipher queries includes a ciphertext indicating a keyword encrypted using a random number, and a value obtained by performing a transformation with a homomorphic function on the random number.
  • a search tag that indicates a merged result of merging the first search index and the second search index to generate a third search index that is a merge result; Performing a comparison process for comparing the encryption keyword included in the first search index with the encryption query included in the second search index, and specifying an encryption set generated from the same keyword,
  • the cipher set including the first cipher keyword included in the generated cipher set and the cipher set identified above are associated with each cipher set. Data in association with each other and stored in the third search index.
  • part or all of the ciphertext of the second cipher keyword that is the comparison target and the ciphertext of the first cipher query that is the comparison target And a function value obtained by performing transformation by a homomorphic function on the value calculated from the above, and the value calculated from the function value and the value indicated by the search tag of the first cryptographic query
  • a search index merge server for determining whether or not an encryption set including one encryption query is generated from the same keyword.
  • search indexes can be merged without decrypting keywords included in the encrypted search index.
  • the search data size can be reduced and the search processing speed can be improved.
  • FIG. 10 is an explanatory diagram illustrating an example of search index merging processing according to the first embodiment.
  • FIG. 10 is a sequence diagram illustrating an example of search index creation processing according to the first embodiment. It is explanatory drawing which shows an example of the random number generation process in Example 1. It is explanatory drawing which shows an example of the intermediate
  • FIG. It is explanatory drawing which shows an example of the encryption keyword production
  • FIG. 6 is a sequence diagram illustrating an example of search index merging processing according to the first exemplary embodiment. 6 is an explanatory diagram illustrating an example of encryption set comparison processing in Embodiment 1.
  • FIG. FIG. 10 is an explanatory diagram illustrating an example of search index merging processing according to the second embodiment. It is a block diagram which shows the example of a whole structure of the full text search system in Example 3.
  • FIG. 6 is a sequence diagram illustrating an example of search index merging processing according to the first exemplary embodiment. 6 is an explanatory diagram illustrating an example of encryption set comparison processing in Embodiment 1.
  • FIG. 10 is an explanatory diagram illustrating an example of search index merging processing according to the second embodiment. It is a block diagram which shows the example of a whole structure of the full text search system in Example 3.
  • FIG. 1 is a block diagram showing an example of the overall configuration of the full-text search system of this embodiment.
  • the full-text search system 100 is a system that executes an index-type full-text search, and includes, for example, a search engine server 120 and an index generation server 110 that are connected to each other.
  • the index generation server 110 and the search engine server 120 may be configured on one computer.
  • the full-text search system 100, the user terminal 130 used by the user, and the key server 140 that stores the user's encryption key are connected to each other via a network 150.
  • the user terminal 130 holds user encryption key information.
  • the user encryption key information includes information (for example, identifiers of the user encryption key, function value encryption key, and function value decryption key) that can identify the user data encryption key.
  • the data encryption key, function value encryption key, function value decryption key, and random number secret key will be described later.
  • the key server 140 holds the user's data encryption key, function value encryption key, and function value decryption key.
  • the network 150 is, for example, the Internet, but may be a network in a predetermined organization (for example, an intranet).
  • the search engine server 120 holds search index information of documents encrypted using a non-deterministic encryption method.
  • the search engine server 120 searches for a document including a keyword designated by the user, for example, using an index stored in an index storage unit 113 described later.
  • searchable encryption processing is a series of processes for generating a search index including an encrypted keyword and executing a document search using the search index without decrypting the encrypted keyword included in the search index. It is processing. It is assumed that nondeterministic encryption is used in the searchable encryption process in the present embodiment. That is, nondeterministic encryption is used for encryption of keywords registered in the search index.
  • searchable encryption processing when searching for an encrypted keyword, which is an encrypted keyword, from the search index, an encrypted query that encrypts the keyword specified by the user for search is generated.
  • the non-deterministic encryption is also used.
  • the searchable encryption process described in Patent Document 1 can be used.
  • the search engine server 120 When the search engine server 120 searches for a document including a keyword specified by the user, the search engine server 120 generates an encryption query corresponding to the keyword by searchable encryption processing. The search engine server 120 compares the generated encryption query with the encryption keyword included in the search index to identify the encryption keyword generated from the same keyword as the keyword that is the source of the encryption query, Search for documents containing the keyword.
  • the index generation server 110 includes, for example, an index generation unit 111, an index merge unit 112, an index storage unit 113, and a searchable encryption unit 114.
  • the index generation unit 111 generates a search index for searching the document using the document before encryption.
  • the index merge unit 112 merges a plurality of search indexes to generate one search index.
  • the index storage unit 113 stores one or more search indexes. Each search index includes a cryptographic keyword and a cryptographic query generated from keywords in the document. Details of the search index will be described later.
  • the searchable encryption unit 114 performs encryption processing.
  • the searchable encryption unit 114 includes, for example, an encryption keyword generation unit 115, an encryption query generation unit 116, and a match determination unit 117.
  • the encryption keyword generation unit 115 generates an encryption keyword from each keyword extracted from the document by the index generation unit 111.
  • the cryptographic query generation unit 116 generates a cryptographic query from each of the keywords.
  • the coincidence determination unit 117 determines whether or not the encryption keyword and the encryption query are generated from the same keyword.
  • FIG. 2 is a block diagram illustrating a physical configuration example of the index generation server 110. 2 shows the configuration of the index generation server 110, the search engine server 120, the user terminal 130, and the key server 140 may have the same configuration.
  • the index generation server 110 of this embodiment is configured by a computer having a processor (CPU) 1, a memory 2, an auxiliary storage device 3, and a communication interface 4.
  • the processor 1 executes a program stored in the memory 2.
  • the memory 2 includes a ROM that is a nonvolatile storage element and a RAM that is a volatile storage element.
  • the ROM stores an immutable program (for example, BIOS).
  • BIOS basic input/output
  • the RAM is a high-speed and volatile storage element such as a DRAM (Dynamic Random Access Memory), and temporarily stores a program executed by the processor 1 and data used when the program is executed.
  • the auxiliary storage device 3 is configured by a large-capacity and non-volatile storage device such as a magnetic storage device (HDD) or a flash memory (SSD), for example, and stores a program executed by the processor 1 and data used when the program is executed. Store. That is, the program is read from the auxiliary storage device 3, loaded into the memory 2, and executed by the processor 1.
  • a large-capacity and non-volatile storage device such as a magnetic storage device (HDD) or a flash memory (SSD), for example, and stores a program executed by the processor 1 and data used when the program is executed. Store. That is, the program is read from the auxiliary storage device 3, loaded into the memory 2, and executed by the processor 1.
  • the communication interface 4 is a network interface device that controls communication with other devices (such as the search engine server 120, the user terminal 130, and the key server 140) according to a predetermined protocol.
  • the index generation server 110 may have an input interface 5 and an output interface 8.
  • the input interface 5 is an interface to which an input from an operator is received, to which a keyboard 6 and a mouse 7 are connected.
  • the output interface 8 is an interface to which a display device 9 or a printer is connected, and the execution result of the program is output in a form that can be visually recognized by the operator.
  • the program executed by the processor 1 is provided to the index generation server 110 via a removable medium (CD-ROM, flash memory, etc.) or a network, and is stored in the nonvolatile auxiliary storage device 3 that is a non-temporary storage medium. . Therefore, the index generation server 110 may have an interface for reading data from a removable medium.
  • the index generation server 110 is a computer system configured on a single computer or a plurality of computers that are logically or physically configured, and operates on separate threads on the same computer. It may be possible to operate on a virtual machine constructed on a plurality of physical computer resources.
  • FIG. 3 is an explanatory diagram illustrating an example of merge processing of search indexes stored in the index storage unit 113.
  • FIG. 3 shows an example in which a search index 301 and a search index 302 to be merged stored in the index storage unit 113 are merged to generate a search index 303 as a merge result.
  • the search index 301 includes, for example, a keyword dictionary 311 and metadata 321.
  • the keyword dictionary 311 is composed of one or more combinations of encryption keywords and encryption queries.
  • each of the one or more combinations is referred to as an encryption set.
  • the metadata 321 includes metadata associated with each encryption set.
  • the metadata associated with the cryptographic set includes, for example, a document including a keyword before encryption of the cryptographic set, the frequency of occurrence of the keyword in the document, and information indicating the appearance location of the keyword in the document. Including.
  • the search index 302 includes a keyword dictionary 312 and metadata 322
  • the search index 303 includes a keyword dictionary 312 and metadata 322.
  • “EnkeywordX” in FIG. 3 is an encryption keyword obtained by encrypting the keyword “keywordX”
  • “EnqueryX” is an encryption query obtained by encrypting “keywordX”.
  • the index generation server 110 identifies the cipher set generated from the same keyword, and the cipher set of the keyword dictionary 311 and the metadata of the metadata 321, and the meta data of the cipher set of the keyword dictionary 312 and the metadata 322, Stored in the keyword dictionary 313 and the metadata 323.
  • the index generation server 110 collects and searches the encryption sets and metadata associated with the encryption sets. Store in the index 303.
  • the keyword dictionary 311 and the keyword dictionary 312 include an encryption set composed of “Enckword1” and “Enquery1” generated from “keyword1”.
  • the index generation server 110 stores, in the keyword dictionary 313, an encryption set including “Enkeyword1” of the keyword dictionary 311 or the keyword dictionary 312 and “Enquery1” of the keyword dictionary 311 or the keyword dictionary 312.
  • the index generation server 110 stores metadata “MetaA” that is metadata associated with “Enkyword1” in the keyword dictionary 311 and metadata “MetaD” that is metadata associated with “Enkeyword1” in the keyword dictionary 312. And associated with the encryption set of the keyword dictionary 313.
  • the encryption keyword is generated using non-deterministic encryption, for example, “Enkeyword1” in the keyword dictionary 311 and “Enkeyword1” in the keyword dictionary 312 are different from each other.
  • the encryption query is also generated using non-deterministic encryption, for example, “Encquery1” in the keyword dictionary 311 and “Encquery1” in the keyword dictionary 312 are different from each other. Details of processing for determining whether or not these encryption sets are generated from the same keyword will be described later.
  • FIG. 4 shows an example of search index creation processing associated with document addition or update.
  • the user terminal 130 logs in to the search engine server 120 according to an instruction from the user, and transmits the user's encryption key information and a document addition / update request to the search engine server 120 (S401).
  • the document addition / update request includes document information (for example, the document itself or the URL of the document) that can specify text in the document.
  • the search engine server 120 transmits document information and encryption key information to the index generation unit 111 (S402).
  • the index generation unit 111 extracts the pre-encryption keyword and metadata from the text in the document indicated by the document information (S403).
  • the index generation unit 111 extracts one or more keywords from the text using an algorithm such as morphological analysis or N-gram method, and further extracts metadata corresponding to each extracted keyword. (S403).
  • the index generation unit 111 transmits the encryption key information and the extracted keyword to the searchable encryption unit 114 (S404).
  • the searchable encryption unit 114 transmits the encryption key information to the key server 140 (S405).
  • the key server 140 transmits the user's data encryption key, function value encryption key, function value decryption key, and random number private key indicated by the encryption key information to the searchable encryption unit 114 (S406). Since the function value decryption key is not used in the process of FIG. 4 (used in the process of FIG. 9 described later), the exchange of the function value decryption key may not be performed in steps S405 to S406.
  • the searchable encryption unit 114 generates an encryption keyword corresponding to each extracted keyword using the received data encryption key and the extracted keyword (S407). Details of the encryption keyword generation processing in step S407 will be described later.
  • the searchable encryption unit 114 generates an encryption query corresponding to each extracted keyword by using the received data encryption key and function value encryption key and the extracted keyword (S408). Details of the encryption query generation processing in step S408 will be described later.
  • the searchable encryption unit 114 generates, for each extracted keyword, an encryption set that is a combination of the encryption keyword and the encryption query corresponding to the keyword, and stores the encryption keyword dictionary including the generated encryption set in the index generation unit 111. Transmit (S409). In step S409, the searchable encryption unit 114 transmits to the index generation unit 111 information identifying keywords corresponding to the encryption sets included in the encryption keyword dictionary.
  • the index generation unit 111 associates an encryption set in the encryption keyword dictionary and metadata generated from the same keyword, generates a search index including the encryption keyword dictionary and metadata, and generates the generated search index.
  • the data is stored in the index storage unit 113 (S410).
  • the index generation unit 111 transmits a search index generation completion notification to the search engine server 120 (S411).
  • the search engine server 120 reads the search index stored in the index storage unit 113 (S412).
  • the encryption keyword generation unit 115 divides the keyword into a predetermined size that can be processed by the searchable encryption unit 114. For example, when the searchable encryption unit 114 implements the common key encryption AES, as shown in FIG. 5B, the encryption keyword generation unit 115 divides the keyword into 128-bit blocks of M1, M2,. To do.
  • the encryption keyword generation unit 115 generates blocks C1, C2,... Cn of intermediate encryption keywords by encrypting each of the divided keywords using a predetermined initial vector and a data encryption key.
  • the encryption keyword generation unit 115 uses the generated blocks of the intermediate encryption keyword to generate the blocks in the generation of each block of the intermediate encryption keyword. For example, as shown in FIG. 5B, the encryption keyword generation unit 115 encrypts the data obtained by calculating the exclusive OR (xor calculation) of the generated block of the intermediate encryption keyword and the block of the keyword, and the next intermediate encryption Create keywords. Accordingly, the block Cn of the intermediate encryption keyword corresponding to the block Mn reflects not only the contents of the block Mn but also the contents of other blocks M1, M2,.
  • the encryption keyword generation unit 115 generates a random number for each block of the intermediate encryption keyword. Specifically, for example, the encryption keyword generation unit 115 generates a random number for each of n blocks of the intermediate encryption keyword using a pseudo-random number generator.
  • the index generation server 110 holds, for example, a pseudo random number generator in advance.
  • the encryption keyword generation unit 115 inputs data obtained by concatenating an initial vector and a constant together with a random number secret key K2 to a pseudo random number generator (RNG), and outputs n pieces of 128 bits. Random numbers R1, R2,... Rn are generated.
  • RNG pseudo random number generator
  • the cryptographic keyword generation unit 115 inputs the n-th random number Rn to a predetermined homomorphic function, and acquires the output data as a function value X. For example, as illustrated in FIG. 7, the cryptographic keyword generation unit 115 inputs a 128-bit random number to the homomorphic function to obtain a 96-bit function value.
  • the homomorphic function F refers to a function that satisfies the following equation 1 for the input variable x and the input variable y.
  • the cryptographic keyword generation unit 115 performs a predetermined irreversible transformation on the function value X, and acquires a value after the irreversible transformation is performed as an irreversible transformation value H.
  • the irreversible conversion is the hash function SHA256
  • the cryptographic keyword generation unit 115 converts the 96-bit function value X into a 256-bit hash value (irreversible conversion value).
  • the encryption keyword generation unit 115 extracts the least significant 32 bits from the 256-bit hash value, and obtains the search tag Dn + 1 for the encryption keyword. As a result, search data having a data size smaller than the original data is obtained.
  • the encryption keyword generation unit 115 acquires the bit length indicated by the predetermined tag length from the irreversible conversion value H as the search tag Dn + 1 for the encryption keyword. For example, as shown in FIG. 6, the cryptographic keyword generation unit 115 extracts the least significant 32 bits from the 256-bit hash value, and obtains collation data D′ n + 1. Note that the bits to be extracted from the irreversible transformation value H are not limited to the least significant bits but may be extracted from the most significant bits, a predetermined bit may be extracted, or each bit may be extracted at random. The bit length to be selected is also arbitrary.
  • the encryption keyword generation unit 115 calculates the exclusive OR (XOR calculation) of n blocks and random numbers of the intermediate encryption keyword as shown in the following Equation 1, and outputs the results D1, D2 ... Dn is acquired as a ciphertext body (that is, a portion corresponding to an encrypted keyword).
  • the encryption keyword generation unit 115 concatenates the ciphertext body composed of the initial vector, D1, D2,... Dn and the prosecution tag Dn + 1, and determines this as the encryption keyword.
  • the encryption query generation unit 116 acquires a keyword and divides it into a predetermined size that can be processed by the searchable encryption unit 114. For example, the encryption query generation unit 116 divides the keyword into M1, M2,... Mn every 128 bits, similarly to the keyword division in the example of FIG.
  • the encryption query generation unit 116 generates an intermediate encryption query including n blocks C1, C2,... Cn by encrypting each of the divided keywords using a predetermined initial vector and a data encryption key. To do.
  • the encryption query generation unit 116 uses the already generated block of the intermediate encryption query, and generates the next intermediate encryption query block, similarly to the generation of the encryption keyword. For example, as illustrated in FIG. 5B, the encryption query generation unit 116 encrypts data obtained by xoring a block for which an intermediate encryption query has been created and a keyword block, and creates a block for the next intermediate encryption query.
  • the cryptographic query generation unit 116 inputs an initial vector (W0) and a random number secret key (K2) to a pseudo-random number generator and uses one random number for xor with the block Cn of the nth intermediate cryptographic query. R′n is generated.
  • the cryptographic query generation unit 116 inputs the random number R′n to the homomorphic function and acquires the output data as the function value X.
  • the homomorphic function needs to be the same as, for example, the homomorphic function used for generating the encryption keyword. For example, as illustrated in FIG. 7, the cryptographic query generation unit 116 inputs a 128-bit random number R′n to the homomorphic function to obtain a 96-bit function value X.
  • the encryption query generation unit 116 acquires data obtained by encrypting the function value X using the function value encryption key (K3) as a search tag Wn + 1 for encryption query. For example, as shown in FIG. 7, the encryption query generation unit 116 encrypts a 96-bit function value X using a function value encryption key (K3) and an initial vector (W0), thereby converting a 128-bit ciphertext. This is output as a search tag Wn + 1 for encryption query.
  • the cipher query generation unit 116 calculates an exclusive OR (XOR calculation) of the n-th block Cn of the intermediate encryption keyword and the random number R′n, and encrypts the output result Wn for the query. Get as body.
  • the cryptographic query generation unit 116 concatenates the initial vector W0, the ciphertext body Wn, and the probing tag Wn + 1 for the cryptographic query, and determines this as the cryptographic query. Note that the above-described procedure for creating the encryption query does not necessarily have to be performed in the order described above, and may be performed in a different order.
  • FIG. 8 shows an example of merge processing of a plurality of search indexes.
  • the search engine server 120 selects a plurality of search indexes to be merged from the search indexes stored in the index storage unit 113 according to a predetermined policy (S801).
  • the search engine server 120 determines, for example, that the search index stored in the index storage unit 113 is equal to or greater than a predetermined number, if a predetermined time has elapsed since the previous merge process, or the search engine server When the administrator of 120 directly instructs the server to perform index merging, the process of step S801 is started. Further, the search engine server 120 may start the process of step S801 when it is determined that a new search index has been generated.
  • the search engine server 120 selects, for example, all search indexes stored in the index storage unit 113 as merge targets.
  • the search engine server 120 may select a plurality of search indexes as merge targets so that the total number of encryption keywords included in the keyword dictionary of the selected plurality of search indexes is equal to or greater than a predetermined number.
  • the search engine server 120 transmits information indicating the selected merge target search index to the index merge unit 112 (S802).
  • the index merge unit 112 acquires the search index to be merged indicated by the received information from the index storage unit 113, and transmits the keyword dictionary of the acquired search index to the searchable encryption unit 114 (S803).
  • the coincidence determination unit 117 specifies an encryption set generated from the same keyword from the encryption sets included in the received keyword dictionary (S804).
  • the coincidence determination unit 117 compares the first encryption keyword included in the first encryption set with the encryption query included in the second encryption set, and the first encryption keyword corresponding to the first encryption set is compared with the first encryption keyword. It is determined whether or not the pre-encryption keywords corresponding to the two cipher sets match.
  • the coincidence determination unit 117 performs the comparison process for all the cipher sets included in the received keyword dictionary with the cipher sets included in other keyword dictionaries to which the cipher set does not belong, thereby performing the process of step S804. Execute. Details of the comparison process will be described later.
  • the coincidence determination unit 117 transmits the determination result in step S804 to the index merge unit 112 (S805). Based on the received determination result, the index merge unit 112 merges the search indexes to be merged to generate one search index as a merge result, stores the generated search index in the index storage unit 113, and merges Are deleted from the index storage unit 113 (S806).
  • the index merge unit 112 refers to the determination result, identifies a cipher set group composed of cipher sets generated from the same keyword, and performs the following processing on each cipher set group.
  • the index merge unit 112 stores the one cipher set in the merge result index dictionary for the cipher set group including one cipher set, and merges the metadata to be merged associated with the one cipher set into the merge result. And the cipher set and the metadata are associated with each other in the merge result.
  • the encryption set composed of “Enckword2” and “Enquery2” generated from “keyword2” is included only in the search index 301, that is, there is one encryption set generated from “keyword2”.
  • the “MetaB”, which is metadata associated with the cipher set and the cipher set, is stored in the search index 303 as it is.
  • the index merging unit 112 stores, for example, an encryption set consisting of an encryption keyword and an encryption query randomly selected from the plurality of encryption sets in the keyword dictionary of the merge result for an encryption set group consisting of a plurality of encryption sets. To do. Further, the index merge unit 112 acquires metadata associated with each of the plurality of encryption sets, and stores the acquired metadata in the metadata of the merge result. The index merge unit 112 associates the one encryption set with the metadata in the merge result.
  • each of the search index 301 and the search index 302 includes an encryption set generated from “keyword1”. Therefore, the index merging unit 112 stores an encryption set made up of encryption keywords and encryption queries randomly selected from the encryption set in the keyword dictionary of the search index 303. Further, the index merging unit 112 searches the search index 303 for “MetaA” that is metadata associated with the encryption set in the search index 301 and “MetaD” that is metadata associated with the encryption set in the search index 302. In the search index 303, the encryption set and the metadata are associated with each other.
  • the index merge unit 112 transmits a search index merge completion notification to the search engine server 120 (S807).
  • the search engine server 120 reads the search index stored in the index storage unit 113 (S808).
  • the coincidence determination unit 117 compares the first encryption keyword included in the first encryption set with the second query included in the second encryption set, and the first encryption set and the second encryption set are An example of the process which determines whether it produced
  • the match determination unit 117 acquires the function value decryption key of the user of the search index including the second cipher set from the key server 140. To do.
  • the coincidence determination unit 117 acquires the ciphertext body in the first encryption keyword, and extracts the nth block from the blocks divided into the sizes processed by the encryption keyword generation unit 115. For example, the match determination unit 117 regards the first encryption keyword D as a set of blocks divided into D0, D1, D2,... Dn, Dn + 1, and extracts the data Dn.
  • the match determination unit 117 acquires the ciphertext body in the second cipher query. For example, the coincidence determination unit 117 regards the second encryption query W as a set of blocks divided into W0, Wn, and Wn + 1 and extracts the second data Wn.
  • the coincidence determination unit 117 inputs the exclusive OR calculation result to the homomorphic function, and acquires the function value Y.
  • the homomorphic function needs to be the same as the homomorphic function used in the encryption keyword generation process of FIG. 6 and the encryption query generation process of FIG.
  • the match determination unit 117 performs exclusive logic between the n-th 128-bit block Dn of the ciphertext body of the first cipher keyword and the 128-bit ciphertext body of the second cipher query.
  • the sum (XOR) is input to the homomorphic function, and a function value Y of 96 bits, for example, is obtained as shown in Equation 6 below.
  • Equation 6 Equation 6
  • Equation 7 Equation 7 below can be derived from Equation 6.
  • Equation 7) Y F (Rn xor R′n)
  • the match determination unit 117 acquires the search tag of the second encryption query. For example, the match determination unit 117 regards the second encryption query W as a set of blocks divided into W0, Wn, and Wn + 1 and extracts the third data Wn + 1.
  • the coincidence determination unit 117 decrypts the search tag Wn + 1 of the second cipher query using the user function value decryption key corresponding to the second cipher set, and obtains the function value X that is the decryption result.
  • the coincidence determination unit 117 calculates an exclusive OR (XOR calculation) of the function value X and the function value Y, and acquires a function value Z that is a calculation result.
  • XOR calculation XOR calculation
  • data (B) depends on other data (A) If the exclusive OR operation is performed twice, the original data (B) is obtained)
  • the coincidence determination unit 117 performs irreversible conversion on the function value Z, and acquires it as an irreversible conversion value H that is the execution result.
  • the irreversible conversion needs to be the same as, for example, the irreversible conversion used in the encryption keyword generation process of FIG.
  • the irreversible transformation is a hash function SHA256
  • the exclusive OR of the 96-bit function value X and the function value Y is converted into a 256-bit hash value (irreversible transformation value). To do.
  • the coincidence determination unit 117 acquires the bit length indicated by the predetermined tag length in the encryption keyword generation process of FIG. For example, as shown in FIG. 9, the coincidence determination unit 117 extracts the least significant 32 bits from the 256-bit hash value, and obtains collation data D′ n + 1. Note that the bits to be extracted from the irreversible transformation value H are not limited to the least significant bits but may be extracted from the most significant bits, a predetermined bit may be extracted, or each bit may be extracted at random. The bit length to be selected is also arbitrary.
  • the match determination unit 117 acquires a search tag for the first encryption keyword. For example, the coincidence determination unit 117 extracts the data Dn + 1 in the first encryption keyword D.
  • the coincidence determination unit 117 compares the collation data D and the search tag of the first encryption keyword. If they are the same, the match determination unit 117 determines that the first encryption set and the second encryption set are generated from the same keyword. It is determined that the first cipher set and the second cipher set are generated from different keywords.
  • the match determination unit 117 compares the search tag Dn + 1 of the first encryption keyword with the collation data D′ n + 1. If they are the same, the first encryption set and the second encryption set are the same. If it is determined that the first cipher set and the second cipher set are not identical, it is determined that the first cipher set and the second cipher set are generated from different keywords. Note that the match determination unit 117 identifies and identifies a combination of encryption sets that have been erroneously determined to have been generated from the same keyword, for example, by further detecting erroneous search described in Patent Document 1. You may change the result of the matching determination in the combination.
  • the match determination unit 117 has generated the first encryption set and the second encryption set from the same keyword without decrypting the encryption keyword and the encryption query included in the first encryption set and the second encryption set. It can be determined whether or not. Note that the procedure for searching for the confidential data does not necessarily have to be performed in the order described above, and may be performed in a different order.
  • the full-text search system 100 can merge a plurality of search indexes without decrypting encryption keywords included in the plurality of search indexes.
  • the full-text search system 100 of the present embodiment can maintain search performance such as search processing speed while ensuring security.
  • Each of the encryption sets of the present embodiment includes an encryption keyword and an encryption query, but instead of the encryption query, other encryption text that can be determined that the plaintext matches with the encryption keyword without being decrypted. May be included.
  • the search engine server 120 receives a search query from the user terminal 130.
  • the search engine server 120 transmits the search query to the index generation server 110.
  • the cryptographic query generation unit 116 generates a cryptographic query from the search query using the method of step S408.
  • the match determination unit 117 performs a match determination (S804) between the encryption query generated by the encryption query generation unit 116 and each encryption keyword of the search index included in the index storage unit 113. That is, the match determination unit 117 specifies an encryption keyword generated from the same keyword as the search query received by the search engine server 120.
  • the match determination unit 117 transmits information indicating the specified encryption keyword to the search engine server 120.
  • the search engine server 120 extracts metadata associated with the encryption keyword indicated by the information from the read search index, and transmits the extracted metadata and / or the document indicated by the extracted metadata to the user terminal 130.
  • the index generation server 110 of this embodiment does not include the encryption query in the keyword dictionary of the search index that is the merge result.
  • FIG. 10 is an explanatory diagram illustrating an example of search index merging processing according to this embodiment.
  • the difference from the first embodiment (FIG. 3) is that the search index 301 and the search index 303 are main indexes.
  • the main index is a search index whose keyword dictionary does not include an encryption query. That is, each encryption set in the main index consists only of encryption keywords.
  • the search index 302 is a sub-index.
  • the sub-index is a search index whose keyword dictionary includes an encryption query. That is, the search index described in the first embodiment is a sub-index.
  • the index generation server 110 determines whether the encryption set is between the main index and the sub-index.
  • the merge process can be performed in the same manner as in the first embodiment. For example, in step S806, the index merge unit 112 generates a merge result that is a main index by not including an encryption query in the search index of the merge result.
  • FIG. 10 illustrates an example in which the main index and the sub-index are merged to generate the main index, but the sub-indexes may be merged to generate the main index.
  • each cipher set of the main index includes only the cipher keyword
  • the coincidence determination unit 117 cannot determine whether or not the cipher keyword is generated from the same keyword between the main indexes. That is, the index generation server 110 cannot execute merge processing between main indexes. Accordingly, in step S801, the search engine server 120 selects a plurality of search indexes to be merged so that only one main index is included or no main index is included.
  • the search engine server 120 may select a plurality of search indexes to be merged.
  • the index generation server 110 can execute the merging process between the main index and the sub-index without decrypting the encryption keyword included in each.
  • the index generation server 110 can ensure stronger security by generating the main index by the merge process.
  • FIG. 11 is a block diagram showing an example of the overall configuration of the full-text search system of this embodiment.
  • the user terminal 130 includes an index generation unit 131 and a searchable encryption unit 132.
  • the searchable encryption unit 132 includes an encryption keyword generation unit 133 and an encryption query generation unit 134.
  • the descriptions of the index generation unit 131, the encryption keyword generation unit 133, and the encryption query generation unit 134 are the same as the descriptions of the index generation unit 111, the encryption keyword generation unit 115, and the encryption query generation unit 116, respectively.
  • the index generation server 110 does not include the index generation unit 111, and the searchable encryption unit 114 of the index generation server 110 does not include the encryption keyword generation unit 115 and the encryption query generation unit 116. Different from the first embodiment. That is, in this embodiment, not the index generation server 110 but the user terminal 130 generates an index.
  • step S ⁇ b> 401 the index generation unit 131 receives a document addition / update request, and acquires user encryption key information held by the user terminal 130.
  • step S402 is not executed. Further, the index generation unit 131 transmits the index generated in step S410 to the index generation server 110, and the index generation server 110 stores the received index storage unit 113 in the received index storage unit 113. Thereafter, the index generation server 110 performs the process of step S411.
  • the index generation server 110 since the user terminal 130 generates an index, the index generation server 110 does not need to acquire the user's data encryption key and function value encryption key, so that stronger security can be ensured. .
  • FIG. 4 it is a sub-index generated by the index generation unit 131.
  • the index generation server 110 executes the merge process every time a sub-index is received, the time for holding the main index can be shortened, and more robust security can be ensured.
  • this invention is not limited to the above-mentioned Example, Various modifications are included.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • a part of the configuration of a certain embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of a certain embodiment.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
  • control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

第1検索インデックス及び第2検索インデックスそれぞれは、第1の非決定性暗号アルゴリズムで生成された1以上の暗号キーワードを含み、第2検索インデックスは、第2の非決定性暗号アルゴリズムで生成された1以上の暗号クエリを含み、検索インデックスマージサーバは、第1検索インデックスと第2検索インデックスとをマージする処理において、第1検索インデックスに含まれる暗号キーワードと第2検索インデックスに含まれる暗号クエリとを比較する比較処理を実行して、比較対象の暗号キーワードと比較対象の暗号クエリとが同一のキーワードから生成されたか否かを判定する。

Description

暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法 参照による取り込み
 本出願は、2016年3月30日に出願された日本特許出願第2016-067699号の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法に関する。
 本技術分野の背景技術として、特開2015-35072号公報(特許文献1)がある。この公報には、「登録クライアントは、ハッシュ値と準同型関数の出力値によるマスクを用いた確率的暗号化方式により、検索用に作成する検索タグのサイズを圧縮した暗号化データをサーバに預託し、検索クライアントは、検索用のキーワードを同様に確率的暗号化し、暗号化データの一部のみを暗号化した検索キーワードとして管理サーバに送信し、管理サーバに暗号化データと暗号化キーワードの乱数のマスクを解除させずに、管理サーバに検索に該当するデータを検索し、検索結果の誤検索を検知し、検索結果を復号する。」と記載されている(要約参照)。
特開2015-35072号公報
 特許文献1に記載の技術は、非決定性暗号を用いて暗号化された検索インデックスを用いて、ドキュメント及び検索インデックスを復号せずに、検索処理を実行する。特許文献1に記載の各検索インデックスは、非決定性暗号を用いて暗号化されたキーワードである暗号キーワードと、当該キーワードに対応するメタデータと、からなる複数の組み合わせを含む。
 検索インデックスの数が増加すると、暗号キーワードとメタデータとの組み合わせの総数も増加するため、検索処理速度が低下する。このような検索処理速度の低下を抑制するために、例えば、複数の検索インデックスをマージして1つの検索インデックスを生成するマージ処理が実行される。
 暗号化されていない検索インデックスのマージ処理において、同一のキーワードがマージ対象の複数の検索インデックスに含まれている場合、当該同一のキーワードと、当該同一のキーワードと紐づく全てのメタデータと、を紐づけて1つの組み合わせを生成し、マージ結果である検索インデックスに格納する。このようなマージ処理によって、暗号キーワードとメタデータとの組み合わせの総数を減少させることができる。
 しかし、特許文献1に記載の検索インデックスに含まれる各暗号キーワードは、非決定性暗号を用いて暗号化されているため、同一のキーワードから生成された暗号キーワードであっても、暗号キーワード同士は異なるデータである。従って、特許文献1に記載の技術において、複数のマージ対象の検索インデックスに含まれる暗号キーワードは原則的に全て異なるデータであるため、暗号化状態のまま上述のマージ処理を実行しても、検索インデックスに含まれる暗号キーワードとメタデータとの組み合わせの総数を減少させることはできない。
 また、特許文献1に記載の技術において、暗号キーワードを復号すれば、暗号化されていない検索インデックスと同様のマージ処理を実行することができるが、暗号キーワードを復号することによりセキュリティレベルが低下してしまう。
 そこで、本発明の一態様は、暗号化された検索インデックスに含まれるキーワードを復号することなく、検索インデックスをマージすることを目的とする。ひいては、セキュリティを確保しつつ、検索処理速度を向上させることを目的とする。
 上記課題を解決するため、本発明の一態様は、例えば、以下の構成を採用する。暗号化された検索インデックスをマージする、検索インデックスマージサーバであって、プロセッサと記憶装置とを含み、前記記憶装置は、第1検索インデックスと第2検索インデックスとを保持し、前記第1検索インデックス及び前記第2検索インデックスそれぞれは、1以上のキーワードそれぞれから生成された暗号セットと、前記1以上のキーワードそれぞれに対応するメタデータと、を紐づけて保持し、前記第1検索インデックス及び前記第2検索インデックスの暗号セットそれぞれは、暗号キーワードを含み、前記第2検索インデックスの暗号セットそれぞれは、暗号クエリを含み、前記暗号キーワードそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換及び不可逆変換が実行された値を示す検索タグと、を含み、前記暗号クエリそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換が実行された値を示す検索タグと、を含み、前記プロセッサは、前記第1検索インデックスと前記第2検索インデックスとをマージして、マージ結果である第3検索インデックスを生成するマージ処理を実行し、前記マージ処理において、前記第1検索インデックスに含まれる暗号キーワードと前記第2検索インデックスに含まれる暗号クエリとを比較する比較処理を実行して、同一のキーワードから生成された暗号セットを特定し、同一のキーワードから生成された暗号セットに含まれる第1暗号キーワードを含む暗号セットと、前記特定した暗号セットそれぞれに紐づくメタデータと、を紐づけて前記第3検索インデックスに格納し、前記比較処理において、比較対象である第2暗号キーワードの暗号文の一部又は全部と、比較対象である第1暗号クエリの暗号文と、から算出される値に対して、準同型関数による変換を実行した関数値を算出し、前記関数値と、前記第1暗号クエリの検索タグが示す値と、から算出される値に対して、不可逆変換を実行した不可逆変換値を算出し、前記不可逆変換値と、前記第2暗号キーワードの検索タグと、の比較結果に基づいて、前記第2暗号キーワードを含む暗号セットと、前記第1暗号クエリを含む暗号セットと、が同一のキーワードから生成されたか否かを判定する、検索インデックスマージサーバ。
 本発明の一態様によれば、暗号化された検索インデックスに含まれるキーワードを復号することなく、検索インデックスをマージすることができる。ひいては、セキュリティを確保しつつ、検索データサイズを削減し、検索処理速度を向上させることができる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施例1における全文検索システムの全体の構成例を示すブロック図である。 実施例1におけるインデックス生成サーバの物理的な構成例を示すブロック図である。 実施例1における検索インデックスのマージ処理の一例を示す説明図である。 実施例1における検索インデックス作成処理の一例を示すシーケンス図である。 実施例1における乱数生成処理の一例を示す説明図である。 実施例1における中間暗号文生成処理の一例を示す説明図である。 実施例1における暗号キーワード生成処理の一例を示す説明図である。 実施例1における暗号クエリ生成処理の一例を示す説明図である。 実施例1における検索インデックスのマージ処理の一例を示すシーケンス図である。 実施例1における暗号セットの比較処理の一例を示す説明図である。 実施例2における検索インデックスのマージ処理の一例を示す説明図である。 実施例3における全文検索システムの全体の構成例を示すブロック図である。
 以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
 図1は、本実施例の全文検索システムの全体の構成例を示すブロック図である。全文検索システム100は、インデックス型の全文検索を実行するシステムであり、例えば、互いに接続された検索エンジンサーバ120とインデックス生成サーバ110とを含む。なお、インデックス生成サーバ110と検索エンジンサーバ120は、1つの計算機上に構成されていてもよい。
 全文検索システム100と、ユーザが利用するユーザ端末130と、ユーザの暗号鍵を保管する鍵サーバ140と、はネットワーク150を介して互いに接続されている。ユーザ端末130は、ユーザの暗号鍵情報を保持する。ユーザの暗号鍵情報は、当該ユーザのデータ暗号鍵を特定可能な情報(例えば、当該ユーザの暗号鍵、関数値暗号鍵、及び関数値復号鍵の識別子等)を含む。データ暗号鍵、関数値暗号鍵、関数値復号鍵、乱数用秘密鍵については後述する。
 鍵サーバ140は、ユーザのデータ暗号鍵、関数値暗号鍵、及び関数値復号鍵と、を保持する。ネットワーク150は、例えば、インターネットであるが、所定の組織内のネットワーク(例えば、イントラネット)でもよい。
 検索エンジンサーバ120は、非決定性暗号方式を用いて暗号化されたドキュメントの検索インデックス情報を保持する。検索エンジンサーバ120は、例えばユーザに指定されたキーワードを含むドキュメントを、後述するインデックス格納部113に格納されたインデックスを用いて、検索する。
 なお、インデックス格納部113に格納された検索インデックスに含まれるキーワードは、検索可能暗号処理によって暗号化されている。検索可能暗号処理とは、暗号化したキーワードを含む検索インデックスを生成し、当該検索インデックスに含まれる暗号化されたキーワードを復号することなく、当該検索インデックスを用いたドキュメント検索を実行する、一連の処理である。なお、本実施例における検索可能暗号処理では、非決定性暗号が用いられているものとする。即ち、検索インデックスに登録されるキーワードの暗号化に非決定性暗号が用いられている。また、検索可能暗号処理では、暗号化されたキーワードである暗号キーワードを検索インデックスから検索する際に、ユーザが検索用に指定したキーワードを暗号化した暗号クエリが生成されるが、暗号クエリの生成においても、非決定性暗号が用いられる。本実施例において、例えば、特許文献1に記載の検索可能暗号処理を用いることができる。
 検索エンジンサーバ120は、ユーザに指定されたキーワードを含むドキュメントを検索する際、検索可能暗号処理によって、当該キーワードに対応する暗号クエリを生成する。検索エンジンサーバ120は、生成した暗号クエリと、検索インデックスに含まれる暗号キーワードと、を比較することで、暗号クエリの元となったキーワードと同一のキーワードから生成された暗号キーワードを特定して、当該キーワードを含むドキュメントを検索する。
 検索可能暗号処理における、暗号キーワード生成方法と暗号クエリ生成方法との違いの詳細、暗号キーワードと暗号クエリとの比較処理の詳細、及びドキュメント検索方法の詳細については、後述する。
 インデックス生成サーバ110は、例えば、インデックス生成部111、インデックスマージ部112、インデックス格納部113、及び検索可能暗号化部114を含む。インデックス生成部111は、暗号化前のドキュメントを用いて、当該ドキュメントを検索するための検索インデックスを生成する。
 インデックスマージ部112は、複数の検索インデックスをマージして、1つの検索インデックスを生成する。インデックス格納部113は、1以上の検索インデックスを格納する。検索インデックスそれぞれは、ドキュメント内のキーワードから生成された暗号キーワードと暗号クエリを含む。検索インデックスの詳細については後述する。
 検索可能暗号化部114は、暗号処理を実施する。検索可能暗号化部114は、例えば、暗号キーワード生成部115、暗号クエリ生成部116、及び一致判定部117を含む。暗号キーワード生成部115は、インデックス生成部111がドキュメントから抽出したキーワードそれぞれから、暗号キーワードを生成する。暗号クエリ生成部116は、当該キーワードそれぞれから、暗号クエリを生成する。一致判定部117は、暗号キーワードと暗号クエリとが、同一のキーワードから生成されたか否かを判定する。
 図2は、インデックス生成サーバ110の物理的な構成例を示すブロック図である。なお、図2には、インデックス生成サーバ110の構成を示すが、検索エンジンサーバ120、ユーザ端末130、及び鍵サーバ140も同様の構成を有すればよい。
 本実施例のインデックス生成サーバ110は、プロセッサ(CPU)1、メモリ2、補助記憶装置3及び通信インターフェース4を有する計算機によって構成される。
 プロセッサ1は、メモリ2に格納されたプログラムを実行する。メモリ2は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
 補助記憶装置3は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置によって構成され、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置3から読み出されて、メモリ2にロードされて、プロセッサ1によって実行される。
 通信インターフェース4は、所定のプロトコルに従って、他の装置(検索エンジンサーバ120、ユーザ端末130、鍵サーバ140など)との通信を制御するネットワークインターフェース装置である。
 インデックス生成サーバ110は、入力インターフェース5及び出力インターフェース8を有してもよい。入力インターフェース5は、キーボード6やマウス7などが接続され、オペレータからの入力を受けるインターフェースである。出力インターフェース8は、ディスプレイ装置9やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースである。
 プロセッサ1が実行するプログラムは、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介してインデックス生成サーバ110に提供され、非一時的記憶媒体である不揮発性の補助記憶装置3に格納される。このためインデックス生成サーバ110は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
 インデックス生成サーバ110は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
 図3は、インデックス格納部113に格納された検索インデックスのマージ処理の一例を示す説明図である。図3は、インデックス格納部113に格納されたマージ対象の検索インデックス301及び検索インデックス302がマージされて、マージ結果である検索インデックス303が生成される例を示す。
 検索インデックス301は、例えば、キーワード辞書311とメタデータ321とを含む。キーワード辞書311は、暗号キーワードと暗号クエリからなる1以上の組み合わせからなる。以下、当該1以上の組み合わせそれぞれを暗号セットと呼ぶ。メタデータ321は、各暗号セットに紐づくメタデータを含む。暗号セットに紐づくメタデータは、例えば、当該暗号セットの暗号化される前のキーワードが含まれるドキュメント、当該ドキュメントにおける当該キーワードの出現頻度、及び当該ドキュメントにおける当該キーワードの出現場所を示す情報等を含む。
 同様に、検索インデックス302は、キーワード辞書312とメタデータ322とを含み、検索インデックス303は、キーワード辞書312とメタデータ322とを含む。例えば、自然数Xに対して、図3における「EnckeywordX」は、キーワードである「keywordX」を暗号化した暗号キーワードであり、「EncqueryX」は、「keywordX」を暗号化した暗号クエリである。
 インデックス生成サーバ110は、同一のキーワードから生成された暗号セットを特定し、キーワード辞書311の暗号セットとメタデータ321のメタデータ、及びキーワード辞書312の暗号セットとメタデータ322とのメタデータを、キーワード辞書313及びメタデータ323に格納する。
 なお、同一のキーワードから生成された暗号セットがキーワード辞書311及びキーワード辞書312に含まれている場合、インデックス生成サーバ110は、当該暗号セット及び当該暗号セットそれぞれに紐づくメタデータを集約して検索インデックス303に格納する。
 具体的には、図3の例では、「keyword1」から生成された「Enckeyword1」と「Encquery1」からなる暗号セットがキーワード辞書311及びキーワード辞書312に含まれている。このときインデックス生成サーバ110は、キーワード辞書311又はキーワード辞書312の「Enckeyword1」と、キーワード辞書311又はキーワード辞書312の「Encquery1」と、からなる暗号セットを、キーワード辞書313に格納する。また、インデックス生成サーバ110は、キーワード辞書311において「Enckeyword1」に紐づくメタデータである「MetaA」と、キーワード辞書312において「Enckeyword1」に紐づくメタデータである「MetaD」と、をメタデータ323に格納し、キーワード辞書313の当該暗号セットと紐づける。
 なお、前述した通り、暗号キーワードは、非決定性暗号を用いて生成されるため、例えば、キーワード辞書311内の「Enckeyword1」とキーワード辞書312の「Enckeyword1」とは互いに異なる値である。同様に、暗号クエリも非決定性暗号を用いて生成されるため、例えば、キーワード辞書311内の「Encquery1」とキーワード辞書312の「Encquery1」とは互いに異なる値である。これらの暗号セットが同じキーワードから生成されたか否かを判定する処理の詳細については後述する。
 図4は、ドキュメントの追加又は更新に伴う検索インデックス作成処理の一例を示す。ユーザ端末130は、例えばユーザからの指示に従って、検索エンジンサーバ120にログインし、ユーザの暗号鍵情報及びドキュメント追加・更新リクエストを検索エンジンサーバ120に送信する(S401)。ドキュメント追加・更新リクエストは、ドキュメント内のテキストを特定できるドキュメント情報(例えば、ドキュメントそのもの又はドキュメントのURL等)を含む。
 検索エンジンサーバ120は、ドキュメント情報と暗号鍵情報とをインデックス生成部111に送信する(S402)。インデックス生成部111は、ドキュメント情報が示すドキュメント内のテキストから、暗号化前キーワードとメタデータとを抽出する(S403)。
 具体的には、インデックス生成部111は、例えば、形態素解析又はNグラム法等のアルゴリズムを用いて、当該テキストから1以上のキーワードを抽出し、さらに抽出したキーワードそれぞれに対応するメタデータを抽出する(S403)。インデックス生成部111は、暗号鍵情報と抽出したキーワードとを検索可能暗号化部114に送信する(S404)。
 検索可能暗号化部114は、暗号鍵情報を鍵サーバ140に送信する(S405)。鍵サーバ140は、暗号鍵情報が示すユーザのデータ暗号鍵と関数値暗号鍵と関数値復号鍵と乱数用秘密鍵とを検索可能暗号化部114に送信する(S406)。なお、関数値復号鍵は、図4の処理には使用されないため(後述する図9の処理において使用される)、関数値復号鍵のやりとりはステップS405~S406において、実施されなくてもよい。
 検索可能暗号化部114は、受信したデータ暗号鍵と抽出したキーワードとを用いて、抽出したキーワードそれぞれに対応する暗号キーワードを生成する(S407)。ステップS407における暗号キーワード生成処理の詳細は後述する。
 検索可能暗号化部114は、受信したデータ暗号鍵及び関数値暗号鍵と、抽出したキーワードと、を用いて、抽出したキーワードそれぞれに対応する暗号クエリを生成する(S408)。ステップS408における暗号クエリ生成処理の詳細は後述する。
 検索可能暗号化部114は、抽出したキーワードそれぞれについて、当該キーワードに対応する暗号キーワードと暗号クエリとの組み合わせである暗号セットを生成し、生成した暗号セットからなる暗号キーワード辞書をインデックス生成部111に送信する(S409)。なお、検索可能暗号化部114は、ステップS409において、暗号キーワード辞書に含まれる暗号セットそれぞれに対応するキーワードを特定する情報を併せて、インデックス生成部111に送信する。
 インデックス生成部111は、同一のキーワードから生成された、暗号キーワード辞書内の暗号セットとメタデータとを対応付けて、暗号キーワード辞書とメタデータとからなる検索インデックスを生成し、生成した検索インデックスをインデックス格納部113に格納する(S410)。インデックス生成部111は、検索エンジンサーバ120に対して、検索インデックス生成完了通知を送信する(S411)。検索エンジンサーバ120は、インデックス格納部113に格納された検索インデックスを読み込む(S412)。
 以下、暗号キーワードと暗号クエリの生成処理の一例を説明する。以下では、1つのキーワードから1つの暗号キーワードと1つの暗号クエリを生成する例を説明する。
 <暗号キーワードの生成方法>
 ステップS407における暗号キーワードの生成処理の一例を図6と図7を用いて示す。
 暗号キーワード生成部115は、キーワードを、検索可能暗号化部114が処理可能な所定のサイズに分割する。例えば、検索可能暗号化部114が共通鍵暗号AESを実装している場合、図5Bに示すように、暗号キーワード生成部115はキーワードをM1、M2、……Mnの128ビット毎のブロックに分割する。
 暗号キーワード生成部115は、所定の初期ベクトルとデータ暗号鍵とを用いて、分割されたキーワードそれぞれを暗号化した、中間暗号キーワードの各ブロックC1、C2、……Cnを生成する。
 暗号キーワード生成部115は、中間暗号キーワードの各ブロックの作成において、中間暗号キーワードの生成済のブロックを利用し、当該ブロックを作成する。暗号キーワード生成部115は、例えば、図5Bに示すように中間暗号化キーワードの生成済のブロックとキーワードのブロックとの排他的論理和(xor算)を計算したデータを暗号化し、次の中間暗号キーワードを作成する。従って、ブロックMnに対応する中間暗号化キーワードのブロックCnには、ブロックMnの内容だけでなく、他のブロックM1、M2、…、Mn-1の内容も反映されている。
 暗号キーワード生成部115は、中間暗号キーワードの各ブロックに対する乱数を生成する。具体的には、例えば、暗号キーワード生成部115は、擬似乱数生成器を用いて中間暗号キーワードのn個のブロックそれぞれに対する乱数を生成する。インデックス生成サーバ110は、例えば、擬似乱数生成器を予め保持している。
 例えば、図5Aに示すように、暗号キーワード生成部115は、初期ベクトルと定数を連結したデータを、乱数用秘密鍵K2とともに擬似乱数生成器(RNG)に入力し、128ビット毎のn個分の乱数R1、R2、……Rnを生成する。
 暗号キーワード生成部115は、所定の準同型関数にn個目の乱数Rnを入力し、出力されたデータを関数値Xとして取得する。例えば、図7に示すように、暗号キーワード生成部115は、128ビットの乱数を当該準同型関数に入力し、96ビットの関数値を得る。
 なお、準同型関数Fとは、入力変数x、入力変数yに対し、以下の数1が成り立つ関数を指す。
(数1)              F(x・y)=F(x)?F(y)
 ただし、「・」と「?」は、二項演算の演算記号を表わし、加算用の演算記号+、乗算用の演算記号*、ビット毎の排他的論理和であるXOR(eXclusive OR)演算用の演算記号xor等が入る。このとき、数1において、「・」と「?」にXOR演算記号xorが入る場合、以下の数2が成り立つ。
(数2)              F(x  xor  y)=F(x)xor  F(y)
 暗号キーワード生成部115は、関数値Xに対し所定の不可逆変換を実行し、不可逆変換実行後の値を不可逆変換値Hとして取得する。例えば、当該不可逆変換がハッシュ関数SHA256である場合、暗号キーワード生成部115は、96ビットの関数値Xを256ビットのハッシュ値(不可逆変換値)に変換する。
 例えば、図6に示すように、暗号キーワード生成部115は、256ビットのハッシュ値のうち、最下位32ビットを抽出し、暗号キーワード用の検索タグDn+1を得る。その結果、元のデータよりもデータサイズが小さい検索用のデータが得られる。
 暗号キーワード生成部115は、不可逆変換値Hから、所定のタグ長が示すビット長を暗号キーワード用の検索タグDn+1として取得する。例えば、図6に示すように、256ビットのハッシュ値のうち、最下位32ビットを暗号キーワード生成部115が抽出し、照合データD'n+1を得る。なお、不可逆変換値Hから、抽出するビットは最下位ビットからに限らず、最上位ビットから抽出してもよく、既定のビットを抽出、あるいはランダムに各ビットを抽出してもよい。また、選択するビット長も任意である。
 暗号キーワード生成部115は、中間暗号キーワードのn個のブロックと乱数とに対して、以下の数1に示すように、それぞれの排他的論理和(XOR算)を計算し、出力結果D1、D2、……Dnを暗号文本体(即ち、暗号化されたキーワードに相当する部分)として取得する。
(数3)          Di=Ci  xor  Ri(i=1、・・・n)
 暗号キーワード生成部115は、初期ベクトルとD1、D2、……Dnからなる暗号文本体と、検察タグDn+1を連結し、これを暗号キーワードに決定する。
 なお、上記の秘匿データを作成する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
 <暗号クエリの生成方法>
 ステップS407における暗号化クエリ生成処理の一例を、図7を用いて示す。
 暗号クエリ生成部116は、キーワードを取得し、検索可能暗号化部114が処理可能な所定のサイズに分割する。暗号クエリ生成部116は、例えば、図5Bの例におけるキーワードの分割と同様、128ビット毎にキーワードをM1、M2、……Mnに分割する。
 暗号クエリ生成部116は、所定の初期ベクトルとデータ暗号鍵とを用いて、分割されたキーワードそれぞれを暗号化することにより、n個のブロックC1、C2、……Cnからなる中間暗号クエリを生成する。
 暗号クエリ生成部116は、暗号キーワードの生成時と同様に、中間暗号クエリの作成済のブロックを利用し、次の中間暗号クエリのブロックを作成する。例えば、図5Bに示すように、暗号クエリ生成部116は、中間暗号クエリの作成済のブロックとキーワードのブロックをxorしたデータを暗号化し、次の中間暗号クエリのブロックを作成する。
 暗号クエリ生成部116は、例えば、擬似乱数生成器に初期ベクトル(W0)と乱数用秘密鍵(K2)を入力し、n番目の中間暗号クエリのブロックCnとのxorに用いる1個分の乱数R'nを生成する。
 暗号クエリ生成部116は、準同型関数に乱数R'nを入力し、出力されたデータを関数値Xとして取得する。当該準同型関数は、例えば、暗号キーワードの生成に用いた準同型関数と同じである必要がある。暗号クエリ生成部116は、例えば、図7に示すように、128ビットの乱数R'nを当該準同型関数に入力し、96ビットの関数値Xを得る。
 暗号クエリ生成部116は、関数値暗号鍵(K3)を用いて関数値Xを暗号化することにより得られたデータを、暗号クエリ用の検索タグWn+1として取得する。例えば、図7に示すように、暗号クエリ生成部116は96ビットの関数値Xを関数値暗号鍵(K3)と初期ベクトル(W0)を用いて暗号化することにより、128ビットの暗号文を出力し、それを暗号クエリ用の検索タグWn+1とする。
 暗号クエリ生成部116は、中間暗号化キーワードのn個目のブロックCnと乱数R'nとの排他的論理和(XOR算)を計算し、出力結果Wnをクエリ用に暗号化された暗号文本体として取得する。
 暗号クエリ生成部116は、初期ベクトルW0、暗号文本体Wn、及び暗号クエリ用の検察タグWn+1を連結し、これを暗号クエリに決定する。なお、上記の暗号クエリを作成する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
 図8は、複数の検索インデックスのマージ処理の一例を示す。まず検索エンジンサーバ120は、所定のポリシーに従って、インデックス格納部113に格納された検索インデックスから、マージ対象の複数の検索インデックスを選定する(S801)。
 具体的には、検索エンジンサーバ120は、例えば、インデックス格納部113に格納された検索インデックスが所定数以上であると判定した場合、前回のマージ処理から所定時間が経過した場合、又は検索エンジンサーバ120の管理者が直接サーバにインデックスマージを指示した場合、にステップS801の処理を開始する。また、検索エンジンサーバ120は、新たな検索インデックスが生成されたと判定した場合にステップS801の処理を開始してもよい。
 また、検索エンジンサーバ120は、例えば、インデックス格納部113に格納された全ての検索インデックスをマージ対象に選定する。また、例えば、検索エンジンサーバ120は、選定した複数の検索インデックスのキーワード辞書に含まれる暗号キーワードの合計数が所定数以上となるように、複数の検索インデックスをマージ対象に選定してもよい。
 続いて、検索エンジンサーバ120は、選定したマージ対象の検索インデックスを示す情報をインデックスマージ部112に送信する(S802)。インデックスマージ部112は、受信した情報が示すマージ対象の検索インデックスをインデックス格納部113から取得し、取得した検索インデックスのキーワード辞書を検索可能暗号化部114に送信する(S803)。
 一致判定部117は、受信したキーワード辞書に含まれる暗号セットから、同じキーワードから生成された暗号セットを特定する(S804)。なお、一致判定部117は、第1暗号セットに含まれる第1暗号キーワードと、第2暗号セットに含まれる暗号クエリと、を比較することにより、第1暗号セット対応する暗号化前キーワードと第2暗号セットに対応する暗号化前キーワードとが一致するか否かを判定する。
 例えば、一致判定部117は、受信したキーワード辞書に含まれる全ての暗号セットについて、当該暗号セットが属していない他のキーワード辞書に含まれる暗号セットと当該比較処理を行うことにより、ステップS804の処理を実行する。なお、当該比較処理の詳細については後述する。
 一致判定部117は、ステップS804における判定結果をインデックスマージ部112に送信する(S805)。インデックスマージ部112は、受信した判定結果に基づいて、マージ対象の検索インデックスをマージしてマージ結果である1つの検索インデックスを生成し、生成した検索インデックスをインデックス格納部113に格納し、マージ対象の検索インデックスをインデックス格納部113から削除する(S806)。
 ステップS806のマージ処理について説明する。インデックスマージ部112は、判定結果を参照して、同じキーワードから生成された暗号セットからなる暗号セット群を特定し、各暗号セット群に対して以下の処理を行う。
 インデックスマージ部112は、1つの暗号セットからなる暗号セット群に対して、当該1つの暗号セットをマージ結果のインデックス辞書に格納し、当該1つの暗号セットに紐づくマージ対象のメタデータをマージ結果のメタデータに格納し、マージ結果において当該暗号セットと当該メタデータとを紐づける。
 図3の例では、「keyword2」から生成された「Enckeyword2」と「Encquery2」とからなる暗号セットは検索インデックス301にのみ含まれる、即ち「keyword2」から生成された暗号セットは1つであるため、当該暗号セットと当該暗号セットに紐づくメタデータである「MetaB」は、そのまま検索インデックス303に格納される。
 インデックスマージ部112は、複数の暗号セットからなる暗号セット群に対して、例えば、当該複数の暗号セットからランダムに選択した暗号キーワードと暗号クエリとからなる暗号セットを、マージ結果のキーワード辞書に格納する。また、インデックスマージ部112は、当該複数の暗号セットそれぞれに紐づくメタデータを取得し、取得したメタデータをマージ結果のメタデータに格納する。インデックスマージ部112は、マージ結果において、当該1つの暗号セットと、当該メタデータとを紐づける。
 図3の例では、検索インデックス301及び検索インデックス302それぞれが、「keyword1」から生成された暗号セットを含んでいる。従って、インデックスマージ部112は、当該暗号セットからランダムに選択した暗号キーワードと暗号クエリとからなる暗号セットを、検索インデックス303のキーワード辞書に格納する。また、インデックスマージ部112は、検索インデックス301において当該暗号セットに紐づくメタデータである「MetaA」と、検索インデックス302において当該暗号セットに紐づくメタデータである「MetaD」と、を検索インデックス303のメタデータに格納し、検索インデックス303において、当該暗号セットと当該メタデータとを紐づける。
 続いて、インデックスマージ部112は、検索エンジンサーバ120に対して、検索インデックスマージ完了通知を送信する(S807)。検索エンジンサーバ120は、インデックス格納部113に格納された検索インデックスを読み込む(S808)。
 以下、一致判定部117による、ステップS804における暗号セットの比較処理の一例を、図9を用いて示す。具体的には、一致判定部117が、第1暗号セットに含まれる第1暗号キーワードと、第2暗号セットに含まれる第2クエリとを比較して、第1暗号セットと第2暗号セットが同一のキーワードから生成されたか否かを判定する処理の一例を示す。
 ステップS405~S406においてインデックス生成サーバ110が関数値復号鍵を取得していない場合、一致判定部117は、第2暗号セットが含まれる検索インデックスのユーザの関数値復号鍵を、鍵サーバ140から取得する。
 一致判定部117は、第1暗号キーワードにおける暗号文本体を取得し、暗号キーワード生成部115が処理したサイズに分割されたブロックのうち、n番目のブロックを取り出す。一致判定部117は、例えば、第1暗号キーワードDをD0、D1、D2、……Dn、Dn+1と分割されたブロックの集合とみなし、データDnを取り出す。
 一致判定部117は、第2暗号クエリにおける暗号文本体を取得する。一致判定部117は、例えば、第2暗号クエリWをW0、Wn、Wn+1と3分割されたブロックの集合とみなし、2番目のデータWnを取り出す。
 一致判定部117は、第1暗号キーワードの暗号文本体に含まれるブロックDnと第2暗号クエリの暗号文本体Wnとの排他的論理和(XOR算)を、下記の数4に従って計算する。
(数4)  Dn  xor  Wn=(Cn  xor  Rn)xor(Cn  xor  R'n)
 ここで、第1暗号キーワードの暗号化前のキーワードと、第2暗号クエリの暗号化前のキーワードの値が同じである場合、それらを暗号化した中間暗号キーワードと中間暗号クエリの値が等しいため、以下の数5が導ける。
(¬(A  xor  B)=A・B+¬A・¬Bより、但し¬は否定又は補集合)
(数5)      Dn  xor  Wn  =  Rn  xor  R'n
 即ち、乱数(RnとR'n)の情報のみが数5に残される。
 一致判定部117は、当該排他的論理和の計算結果を準同型関数に入力し、関数値Yを取得する。なお、例えば、当該準同型関数は、図6の暗号キーワード生成処理及び図7の暗号クエリの生成処理に用いられた準同型関数と同じである必要がある。
 例えば、図9に示すように、一致判定部117は、第1暗号キーワードの暗号文本体のn番目の128ビットのブロックDnと、第2暗号クエリの128ビットの暗号文本体との排他的論理和(XOR)を、準同型関数に入力し、以下の数6に示すように、例えば96ビットの関数値Yを得る。
(数6)    Y=F(Dn  xor  Wn)
数5が成り立つ場合、数6から以下の数7が導ける。
(数7)    Y=F(Rn  xor  R'n)
 一致判定部117は、第2暗号クエリの検索タグを取得する。一致判定部117は、例えば、第2暗号クエリWをW0、Wn、Wn+1と3分割されたブロックの集合とみなし、3番目のデータWn+1を取り出す。
 一致判定部117は、第2暗号セットに対応するユーザの関数値復号鍵を用いて第2暗号クエリの検索タグWn+1を復号し、復号結果である関数値Xを取得する。関数値Xは、乱数Rnと数2における準同型関数Fを用い、以下の数8で表わされる。
(数8)      X=F(Rn)
 一致判定部117は、関数値Xと関数値Yの排他的論理和(XOR算)を計算し、計算結果である関数値Zを取得する。関数値Zに対しては以下に示す数9が成り立つ。
(A  xor  (A  xor  B)=A・¬(A  xor  B)+¬A・(A  xor  B)=A・B+¬A・B=Bより、データ(B)に他のデータ(A)による排他的論理和の演算を2度施すと元のデータ(B)が得られる)
(数9)
Z=  X  xor  Y
  =  F(Rn)xor(F(Rn  xor  R'n))
  =  F(Rn)xor(F(Rn)xor  F(R'n))  (数2より)
  =  F(R'n)
 一致判定部117は、関数値Zに不可逆変換を実行し、実行結果である不可逆変換値Hとして取得する。なお、当該不可逆変換は、例えば、図6の暗号キーワード生成処理に用いられた不可逆変換と同一である必要がある。例えば、図9に示すように、当該不可逆変換がハッシュ関数SHA256である場合、96ビットの関数値Xと関数値Yの排他的論理和の値を256ビットのハッシュ値(不可逆変換値)に変換する。
 一致判定部117は、不可逆変換値Hから、図6の暗号キーワード生成処理における所定のタグ長が示すビット長を照合データDとして取得する。一致判定部117は、例えば、図9に示すように、256ビットのハッシュ値のうち、最下位32ビットを抽出し、照合データD'n+1を得る。なお、不可逆変換値Hから、抽出するビットは最下位ビットからに限らず、最上位ビットから抽出してもよく、既定のビットを抽出、あるいはランダムに各ビットを抽出してもよい。また、選択するビット長も任意である。
 一致判定部117は、第1暗号キーワードの検索タグを取得する。一致判定部117は、例えば、第1暗号キーワードDにおけるデータDn+1を取り出す。
 一致判定部117は、照合データDと第1暗号キーワードの検索タグとを比較、同一であれば、第1暗号セットと第2暗号セットが同一のキーワードから生成されたと判定し、同一でなければ、第1暗号セットと第2暗号セットは異なるキーワードから生成されたと判定する。
 一致判定部117は、例えば、図9に示すように、第1暗号キーワードの検索タグDn+1と照合データD'n+1を比較し、同一であれば、第1暗号セットと第2暗号セットが同一のキーワードから生成されたと判定し、同一でなければ、第1暗号セットと第2暗号セットは異なるキーワードから生成されたと判定する。なお、一致判定部117は、例えば、特許文献1に記載の誤検索の検知をさらに実施することにより、同一のキーワードから生成されたと誤って判定されてしまった暗号セットの組み合わせを特定し、特定した組み合わせにおける一致判定の結果を変更してもよい。
 上記処理によって、一致判定部117は、第1暗号セット及び第2暗号セットに含まれる暗号キーワード及び暗号クエリを復号することなく、第1暗号セットと第2暗号セットが同一のキーワードから生成されたか否かを判定することができる。なお、上記の秘匿データを検索する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
 以上、本実施例の全文検索システム100は、複数の検索インデックスに含まれる暗号キーワードを復号することなく、当該複数の検索インデックスをマージすることができる。ひいては、本実施例の全文検索システム100は、セキュリティを確保しつつ、検索処理速度等の検索性能を維持することができる。
 なお、本実施例の暗号セットそれぞれは暗号キーワードと暗号クエリとを含むが、暗号クエリの代わりに、復号せずに暗号キーワードと比較して平文が一致することが判定可能な他の暗号文を含んでもよい。
 以下、本実施例のドキュメント検索処理の一例を説明する。検索エンジンサーバ120は、ユーザ端末130から、検索クエリを受信する。検索エンジンサーバ120は、検索クエリをインデックス生成サーバ110に送信する。暗号クエリ生成部116は、ステップS408の方法を用いて、検索クエリから暗号クエリを生成する。
 一致判定部117は、暗号クエリ生成部116が生成した暗号クエリと、インデックス格納部113に含まれる検索インデックスの暗号キーワードそれぞれと、の一致判定(S804)を実施する。つまり、一致判定部117は、検索エンジンサーバ120が受け付けた検索クエリと同一のキーワードから生成された暗号キーワードを特定する。
 一致判定部117は、特定した暗号キーワードを示す情報を、検索エンジンサーバ120に送信する。検索エンジンサーバ120は、読み込み済みの検索インデックスから、当該情報が示す暗号キーワードに紐づくメタデータを抽出し、抽出したメタデータ及び/又は抽出したメタデータが示すドキュメントをユーザ端末130に送信する。
 以下の実施例においては、実施例1と同様の構成及び処理についての説明を省略し、実施例1との相違点を説明する。本実施例のインデックス生成サーバ110は、マージ結果である検索インデックスのキーワード辞書に暗号クエリを含めない。
 図10は、本実施例の検索インデックスのマージ処理の一例を示す説明図である。実施例1(図3)との相違点は、検索インデックス301及び検索インデックス303がメインインデックスである点である。
 メインインデックスとは、キーワード辞書が暗号クエリを含まない検索インデックスである。つまり、メインインデックスにおける各暗号セットは、暗号キーワードのみからなる。また、検索インデックス302はサブインデックスである。サブインデックスとは、キーワード辞書が暗号クエリを含む検索インデックスである。つまり、実施例1で説明した検索インデックスはサブインデックスである。
 一致判定部117は、暗号キーワードと暗号クエリとを比較することにより、暗号セットが同一のキーワードから生成されたか否かを判定するため、インデックス生成サーバ110は、メインインデックスとサブインデックスとの間のマージ処理を実施例1と同様の方法で実施することができる。インデックスマージ部112は、例えば、ステップS806において、マージ結果の検索インデックスに、暗号クエリを含めないことにより、メインインデックスであるマージ結果を生成する。
 なお、図10は、メインインデックスとサブインデックスとがマージされてメインインデックスが生成される例を示しているが、サブインデックス同士がマージされてメインインデックスが生成されてもよい。
 なお、メインインデックスの各暗号セットは暗号キーワードしか含まないため、一致判定部117は、メインインデックス間で暗号キーワードが同一のキーワードから生成されたか否かを判定することができない。つまり、インデックス生成サーバ110は、メインインデックス間のマージ処理を実行することができない。従って、ステップS801において検索エンジンサーバ120は、メインインデックスを1つだけ含む、又はメインインデックスを1つも含まないように、マージ対象の複数の検索インデックスを選定する。
 また、例えば、検索エンジンサーバ120は、ステップS801において、所定数以上のサブインデックスがインデックス格納部113に格納されていると判定した場合に、マージ対象の複数の検索インデックスを選定してもよい。
 以上、また、本実施例のインデックス生成サーバ110は、メインインデックスとサブインデックスとの間においても、それぞれに含まれる暗号キーワードを復号することなく、マージ処理を実行することができる。
 さらに、メインインデックスは暗号クエリを含まないため、復号鍵を用いない限り、複数のメインインデックス間で、同一のキーワードから生成された暗号キーワードが存在するか否かを判定することができない。つまり、本実施例のインデックス生成サーバ110は、マージ処理によってメインインデックスを生成することにより、より強固なセキュリティを確保することができる。
 図11は、本実施例の全文検索システムの全体の構成例を示すブロック図である。以下、実施例1との全文検索システムの全体構成との違いを説明する。ユーザ端末130は、インデックス生成部131と、検索可能暗号化部132とを含む。検索可能暗号化部132は、暗号キーワード生成部133と暗号クエリ生成部134とを含む。インデックス生成部131、暗号キーワード生成部133、及び暗号クエリ生成部134の説明は、それぞれインデックス生成部111、暗号キーワード生成部115、及び暗号クエリ生成部116の説明と同様であるため、省略する。
 本実施例は、インデックス生成サーバ110がインデックス生成部111を含まない点、及びインデックス生成サーバ110の検索可能暗号化部114が暗号キーワード生成部115と暗号クエリ生成部116とを含まない点、において実施例1と異なる。つまり、本実施例では、インデックス生成サーバ110ではなく、ユーザ端末130がインデックスの生成を行う。
 以下、図4の処理の相違点を説明する。実施例1で説明した図4におけるインデックス生成部111による処理は、インデックス生成部131によって実行される。実施例1で説明した図4における検索可能暗号化部114による処理は、検索可能暗号化部132によって実行される。また、ステップS401において、インデックス生成部131は、ドキュメント追加・更新リクエストを受け付け、ユーザ端末130が保持するユーザの暗号鍵情報を取得する。
 また、ステップS402の処理は実行されない。また、インデックス生成部131は、ステップS410で生成したインデックスをインデックス生成サーバ110に送信し、インデックス生成サーバ110は受信したインデックス格納部113に格納する。その後、インデックス生成サーバ110がステップS411の処理を行う。
 以上、本実施例では、ユーザ端末130がインデックスを生成するため、インデックス生成サーバ110がユーザのデータ暗号鍵及び関数値暗号鍵を取得する必要がないため、より強固なセキュリティを確保することができる。
 また、実施例2に本実施例を適用した例を説明する。図4において、インデックス生成部131が生成するサブインデックスである。インデックス生成サーバ110は、例えばサブインデックスを受信する度にマージ処理を実行すれば、メインインデックスを保持する時間を短縮することができ、さらに強固なセキュリティを確保することができる。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims (7)

  1.  暗号化された検索インデックスをマージする、検索インデックスマージサーバであって、
     プロセッサと記憶装置とを含み、
     前記記憶装置は、第1検索インデックスと第2検索インデックスとを保持し、
     前記第1検索インデックス及び前記第2検索インデックスそれぞれは、1以上のキーワードそれぞれから生成された暗号セットと、前記1以上のキーワードそれぞれに対応するメタデータと、を紐づけて保持し、
     前記第1検索インデックス及び前記第2検索インデックスの暗号セットそれぞれは、暗号キーワードを含み、
     前記第2検索インデックスの暗号セットそれぞれは、暗号クエリを含み、
     前記暗号キーワードそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換及び不可逆変換が実行された値を示す検索タグと、を含み、
     前記暗号クエリそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換が実行された値を示す検索タグと、を含み、
     前記プロセッサは、
     前記第1検索インデックスと前記第2検索インデックスとをマージして、マージ結果である第3検索インデックスを生成するマージ処理を実行し、
     前記マージ処理において、
      前記第1検索インデックスに含まれる暗号キーワードと前記第2検索インデックスに含まれる暗号クエリとを比較する比較処理を実行して、同一のキーワードから生成された暗号セットの組み合わせを特定し、
      前記特定した組み合わせそれぞれについて、当該組み合わせに含まれる暗号セットの一方に含まれる暗号キーワードと、前記組み合わせに含まれる暗号セットそれぞれに紐づくメタデータと、を紐づけて前記第3検索インデックスに格納し、
     前記比較処理において、
     比較対象である第2暗号キーワードの暗号文の一部又は全部と、比較対象である第1暗号クエリの暗号文と、から算出される値に対して、準同型関数による変換を実行した関数値を算出し、
     前記関数値と、前記第1暗号クエリの検索タグが示す値と、から算出される値に対して、不可逆変換を実行した不可逆変換値を算出し、
     前記不可逆変換値と、前記第2暗号キーワードの検索タグと、の比較結果に基づいて、前記第2暗号キーワードを含む暗号セットと、前記第1暗号クエリを含む暗号セットと、が同一のキーワードから生成されたか否かを判定する、検索インデックスマージサーバ。
  2.  請求項1に記載の検索インデックスマージサーバであって、
     前記暗号クエリそれぞれは、前記第1検索インデックス及び前記第2検索インデックスに含まれる暗号キーワードの検索に使用される暗号化された検索クエリと同一の暗号化アルゴリズムを用いて暗号化されている、検索インデックスマージサーバ。
  3.  請求項1に記載の検索インデックスマージサーバであって、
     前記第3検索インデックスに含まれる暗号セットそれぞれは、暗号キーワードのみからなり、
     前記プロセッサは、前記マージ処理の終了後に前記第1検索インデックス及び前記第2検索インデックスを削除する、検索インデックスマージサーバ。
  4.  ユーザ端末と検索インデックスマージサーバとを含み、暗号化された検索インデックスをマージする、検索インデックスマージシステムであって、
     前記ユーザ端末は、
     1以上のキーワードからなる第1キーワード群と、前記第1キーワード群のキーワードそれぞれに対応するメタデータ群と、を保持し、
     前記第1キーワード群のキーワードそれぞれについて、
      乱数を用いて当該キーワードを暗号化した暗号文を生成し、
      当該乱数に対して準同型関数及び不可逆変換による変換が施された値を示す検索タグを生成し、
      当該生成した暗号文と、当該生成した検索タグと、を含めた暗号キーワードを生成し、
     前記第1キーワード群のキーワードそれぞれについて、
      乱数を用いて当該キーワードを暗号化した暗号文を生成し、
      当該乱数に対して準同型関数による変換が施された値を示す検索タグを生成し、
      当該生成した暗号文と、当該生成した検索タグと、を含めた暗号クエリを生成し、
     同一のキーワードに対応する暗号キーワードと暗号クエリと、を同一の暗号セットに含め、
     同一のキーワードに対応する暗号セットとメタデータとを紐づけて、第2検索インデックスに格納し、
     前記第2検索インデックスを、前記検索インデックスマージサーバに送信し、
     前記検索インデックスマージサーバは、第1検索インデックスを保持し、
     前記第1検索インデックスは、1以上のキーワードからなる第2キーワード群のキーワードそれぞれから生成された暗号セットと、前記第2キーワード群のキーワードそれぞれに対応するメタデータと、を紐づけて保持し、
     前記第1検索インデックスの暗号セットそれぞれは、暗号キーワードを含み、
     前記第1検索インデックスの暗号キーワードそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換及び不可逆変換が実行された値を示す検索タグと、を含み、
     前記検索インデックスマージサーバは、
     前記第1検索インデックスと前記第2検索インデックスとをマージして、マージ結果である第3検索インデックスを生成するマージ処理を実行し、
     前記マージ処理において、
      前記第1検索インデックスに含まれる暗号キーワードと前記第2検索インデックスに含まれる暗号クエリとを比較する比較処理を実行して、同一のキーワードから生成された暗号セットの組み合わせを特定し、
      前記特定した組み合わせそれぞれについて、当該組み合わせに含まれる暗号セットの一方に含まれる暗号キーワードと、前記組み合わせに含まれる暗号セットそれぞれに紐づくメタデータと、を紐づけて前記第3検索インデックスに格納し、
     前記比較処理において、
     比較対象である第2暗号キーワードの暗号文の一部又は全部と、比較対象である第1暗号クエリの暗号文と、から算出される値に対して、準同型関数による変換を実行した関数値を算出し、
     前記関数値と、前記第1暗号クエリの検索タグが示す値と、から算出される値に対して、不可逆変換を実行した不可逆変換値を算出し、
     前記不可逆変換値と、前記第2暗号キーワードの検索タグと、の比較結果に基づいて、前記第2暗号キーワードを含む暗号セットと、前記第1暗号クエリを含む暗号セットと、が同一のキーワードから生成されたか否かを判定する、検索インデックスマージシステム。
  5.  検索インデックスマージサーバが、暗号化された検索インデックスをマージする、検索インデックスマージ方法であって、
     検索インデックスマージサーバは、第1検索インデックスと第2検索インデックスとを保持し、
     前記第1検索インデックス及び前記第2検索インデックスそれぞれは、1以上のキーワードそれぞれから生成された暗号セットと、前記1以上のキーワードそれぞれに対応するメタデータと、を紐づけて保持し、
     前記第1検索インデックス及び前記第2検索インデックスの暗号セットそれぞれは、暗号キーワードを含み、
     前記第2検索インデックスの暗号セットそれぞれは、暗号クエリを含み、
     前記暗号キーワードそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換及び不可逆変換が実行された値を示す検索タグと、を含み、
     前記暗号クエリそれぞれは、乱数を用いて暗号化されたキーワードを示す暗号文と、当該乱数に対して準同型関数による変換が実行された値を示す検索タグと、を含み、
     前記検索インデックスマージ方法は、
     前記検索インデックスマージサーバが、
     前記第1検索インデックスと前記第2検索インデックスとをマージして、マージ結果である第3検索インデックスを生成するマージ処理を実行し、
     前記マージ処理において、
      前記第1検索インデックスに含まれる暗号キーワードと前記第2検索インデックスに含まれる暗号クエリとを比較する比較処理を実行して、同一のキーワードから生成された暗号セットの組み合わせを特定し、
      前記特定した組み合わせそれぞれについて、当該組み合わせに含まれる暗号セットの一方に含まれる暗号キーワードと、前記組み合わせに含まれる暗号セットそれぞれに紐づくメタデータと、を紐づけて前記第3検索インデックスに格納し、
     前記比較処理において、
     比較対象である第2暗号キーワードの暗号文の一部又は全部と、比較対象である第1暗号クエリの暗号文と、から算出される値に対して、準同型関数による変換を実行した関数値を算出し、
     前記関数値と、前記第1暗号クエリの検索タグが示す値と、から算出される値に対して、不可逆変換を実行した不可逆変換値を算出し、
     前記不可逆変換値と、前記第2暗号キーワードの検索タグと、の比較結果に基づいて、前記第2暗号キーワードを含む暗号セットと、前記第1暗号クエリを含む暗号セットと、が同一のキーワードから生成されたか否かを判定する、検索インデックスマージ方法。
  6.  請求項5に記載の検索インデックスマージ方法であって、
     前記暗号クエリそれぞれは、前記第1検索インデックス及び前記第2検索インデックスに含まれる暗号キーワードの検索に使用される暗号化された検索クエリと同一の暗号化アルゴリズムを用いて生成されている、検索インデックスマージ方法。
  7.  請求項5に記載の検索インデックスマージ方法であって、
     前記第3検索インデックスに含まれる暗号セットそれぞれは、暗号キーワードのみからなり、
     前記検索インデックスマージ方法は、前記検索インデックスマージサーバが、前記マージ処理の終了後に前記第1検索インデックス及び前記第2検索インデックスを削除する、検索インデックスマージ方法。
PCT/JP2016/080183 2016-03-30 2016-10-12 暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法 WO2017168798A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018508358A JP6672451B2 (ja) 2016-03-30 2016-10-12 暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-067699 2016-03-30
JP2016067699 2016-03-30

Publications (1)

Publication Number Publication Date
WO2017168798A1 true WO2017168798A1 (ja) 2017-10-05

Family

ID=59963934

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/080183 WO2017168798A1 (ja) 2016-03-30 2016-10-12 暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法

Country Status (2)

Country Link
JP (1) JP6672451B2 (ja)
WO (1) WO2017168798A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111176928A (zh) * 2019-11-26 2020-05-19 浙江华云信息科技有限公司 一种嵌入式边缘计算系统的日志处理方法
US20220311621A1 (en) * 2018-11-26 2022-09-29 Sony Group Corporation Information processing device and information processing method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013080365A1 (ja) * 2011-12-01 2013-06-06 株式会社日立製作所 秘匿検索方法および秘匿検索装置
JP2015035072A (ja) * 2013-08-08 2015-02-19 株式会社日立ソリューションズ 検索可能暗号処理システム及び方法
US9342705B1 (en) * 2014-01-13 2016-05-17 Symantec Corporation Systems and methods for searching shared encrypted files on third-party storage systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013080365A1 (ja) * 2011-12-01 2013-06-06 株式会社日立製作所 秘匿検索方法および秘匿検索装置
JP2015035072A (ja) * 2013-08-08 2015-02-19 株式会社日立ソリューションズ 検索可能暗号処理システム及び方法
US9342705B1 (en) * 2014-01-13 2016-05-17 Symantec Corporation Systems and methods for searching shared encrypted files on third-party storage systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220311621A1 (en) * 2018-11-26 2022-09-29 Sony Group Corporation Information processing device and information processing method
CN111176928A (zh) * 2019-11-26 2020-05-19 浙江华云信息科技有限公司 一种嵌入式边缘计算系统的日志处理方法
CN111176928B (zh) * 2019-11-26 2023-07-04 浙江华云信息科技有限公司 一种嵌入式边缘计算系统的日志处理方法

Also Published As

Publication number Publication date
JPWO2017168798A1 (ja) 2019-07-25
JP6672451B2 (ja) 2020-03-25

Similar Documents

Publication Publication Date Title
US11537626B2 (en) Full-text fuzzy search method for similar-form Chinese characters in ciphertext domain
US10489604B2 (en) Searchable encryption processing system and searchable encryption processing method
CN107077469B (zh) 服务器装置、检索系统、终端装置以及检索方法
JP6239213B1 (ja) 秘匿検索システム、秘匿検索方法及び秘匿検索プログラム
WO2024077948A1 (zh) 匿踪查询方法、装置和系统及存储介质
US9946720B1 (en) Searching data files using a key map
CN111587452B (zh) 登记装置、检索操作装置、数据管理装置和计算机能读取的存储介质
US11184163B2 (en) Value comparison server, value comparison encryption system, and value comparison method
US10284535B2 (en) Secure database
Rane et al. Multi-user multi-keyword privacy preserving ranked based search over encrypted cloud data
JP6289768B2 (ja) 暗号化装置、暗号化プログラム及び暗号化方法
Hiemenz et al. Dynamic searchable symmetric encryption for storing geospatial data in the cloud
JP6672451B2 (ja) 暗号化検索インデックスマージサーバ、暗号化検索インデックスマージシステム、及び暗号化検索インデックスマージ方法
Dhumal et al. Confidentiality-conserving multi-keyword ranked search above encrypted cloud data
JP7016458B2 (ja) 秘匿検索システム、秘匿検索方法、及び、秘匿検索プログラム
Handa et al. Keyword binning-based efficient search on encrypted cloud data
JP6381861B2 (ja) 登録先決定装置、登録装置、秘匿検索システム、登録先決定方法及び登録先決定プログラム
US10769144B2 (en) Database search system, database search method, and non-transitory recording medium
JP6493402B2 (ja) 追加装置、削除装置、追加依頼装置、データ検索システム、データ検索方法、および、コンピュータプログラム
JP6918253B2 (ja) 秘匿検索システムおよび秘匿検索方法
WO2017221308A1 (ja) データ管理装置、データ管理方法、データ管理プログラム、検索装置、検索方法及び検索プログラム
JPWO2019142265A1 (ja) データ管理装置、データ管理方法及びデータ管理プログラム
KR20100073114A (ko) 그래픽 프로세서를 이용한 패스워드 고속 탐색 장치 및 방법

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16897015

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018508358

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 16897015

Country of ref document: EP

Kind code of ref document: A1