WO2011013490A1 - 情報処理装置、情報処理方法、プログラムおよびウェブ・システム - Google Patents

情報処理装置、情報処理方法、プログラムおよびウェブ・システム Download PDF

Info

Publication number
WO2011013490A1
WO2011013490A1 PCT/JP2010/061535 JP2010061535W WO2011013490A1 WO 2011013490 A1 WO2011013490 A1 WO 2011013490A1 JP 2010061535 W JP2010061535 W JP 2010061535W WO 2011013490 A1 WO2011013490 A1 WO 2011013490A1
Authority
WO
WIPO (PCT)
Prior art keywords
request
search
information
value
information processing
Prior art date
Application number
PCT/JP2010/061535
Other languages
English (en)
French (fr)
Inventor
百合子 杉嵜
田原 義則
亮二 黒澤
隼輔 石川
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to US13/387,477 priority Critical patent/US8725762B2/en
Priority to JP2011524721A priority patent/JP5705114B2/ja
Publication of WO2011013490A1 publication Critical patent/WO2011013490A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/564Enhancement of application control based on intercepted application data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2123Dummy operation

Definitions

  • the present invention relates to network technology, and more particularly, to technology for preventing information leakage that may occur from information acquisition via a network.
  • a client computer such as a personal computer (hereinafter simply referred to as a client) issues a request for information to a web server that stores information and responds to the request. Then, when the web server sends information matching the request to the client, the client acquires the requested information.
  • Requests sent from the client to the server include values that specify information such as numeric data sets and keywords, and the server issues a query to the database etc. by referring to the values.
  • the conventional information retrieval method means that information that the client is currently interested in is disclosed to the server.
  • the web server can be trusted, it can be said that there are relatively few problems even with conventional information retrieval. However, even if the web server is reliable, a search entity such as an individual or a company that performs a search can determine what information the search entity is currently interested in to obtain information. It is necessary to notify the server.
  • a search entity such as an individual or a company that performs a search can determine what information the search entity is currently interested in to obtain information. It is necessary to notify the server.
  • the mashup system includes a client, a mashup server, and a plurality of information servers.
  • the mashup server may be installed in a company or the like, or the ISP (Internet Service Provider) may be a web server installed in the Internet in order to execute mashup processing exclusively. Good.
  • Each information server is provided by an ISP or the like, searches information corresponding to a client request from a database managed by each, and sends the searched information to the mashup server.
  • the mashup server appropriately arranges the acquired information, and displays information acquired from a plurality of information servers on a client via a browser program or the like.
  • multiple information servers acquire requests issued by clients in response to information requested by clients.
  • the request is configured as, for example, an SQL (Structured Query Language) statement including a search word and a conditional expression for searching for information to be acquired.
  • the information server acquires search conditions from the received request, and acquires information corresponding to the request by executing a search of a database managed by each information server.
  • the problem here is that none of the information servers connected via the network is necessarily reliable. Even if a reliable information server is used, the request content sent to the information server is analyzed by data mining during log analysis of the information server, and the search purpose on the client side is implicit. It will be known.
  • the term “slow information leakage” means that the network access as a group on the network is statistically analyzed by the information server, and as a result, the intention of the group, that is, the search It means that the intention leaks slowly.
  • Patent Document 1 discloses a data search system that protects search conditions and the location of a searcher as confidential information. Has been.
  • a search is performed by concealing or shielding a part or all of the search conditions as confidential information in the data search device, and the data search device narrows down the search result, thereby performing the data search.
  • the search condition that should be shielded in advance is deleted from all the input search conditions, or the input search condition is similar words or higher ranks. This is done by replacing the concept, adding extra search conditions, or dividing the search conditions.
  • processing such as deletion, superordinate conceptualization, and addition of a search term is performed on the retrieval condition input to the data processing apparatus on the data retrieval apparatus side.
  • an additional program for processing the search condition, a similar word dictionary, and the like are required, and preprocessing for the search condition is required to execute the search process.
  • the data search device of Patent Document 1 the data search device temporarily stores information hit under a broader condition than the search condition using the shielded search condition, and information that matches the original search condition is again stored. A data editor to search is required.
  • the data search apparatus is required to acquire and process a larger amount of information than is originally acquired, and the data search apparatus itself must substantially include a secondary database. .
  • the data search device of Patent Document 1 involves waste of hardware resources and program resources, if the amount of information stored on the network is enormous as in the present, the search cannot be made efficient.
  • Patent Document 2 Japanese Patent Laid-Open No. 2002-312377
  • the input first search condition is changed to the second search condition for searching a wider range, and information search is executed on the search server.
  • the first search result is acquired, the acquired first search result is searched again according to the first search condition, a search result corresponding to the first search condition is generated, and information such as user privacy is stored.
  • a search device for preventing leakage is disclosed.
  • the search device described in Patent Document 2 also expands the search condition to cause the search device to acquire the extended search result, and searches the search result again to generate a search result that should be originally acquired.
  • the search device itself must function as a secondary database.
  • the search device must secure a storage space for the expansion of the search condition, and the search device itself needs to include a certain degree of search capability. Information leakage is not effectively prevented in terms of waste of resources and software resources.
  • the prior art generates a modified search expression including an original search condition to prevent information leakage due to search, issues a search request to the database, acquires an extended search result, and executes the extended search.
  • the original search result is generated again by using the original search condition and searching again by the search device.
  • the original search condition is expanded to create a higher level concept, or the extended search condition is generated so as to widen the range, but after all, the original search condition is , Must be included in the extended search criteria.
  • the extended search conditions generated by Patent Document 1 and Patent Document 2 do not prevent the leakage of the search intention that the client side intends to search. It does not prevent gradual information leakage.
  • An object of the present invention is to provide an information processing apparatus, an information processing method, a program, and a web system that prevent a gradual information leakage that may occur from information acquisition via a network.
  • the present invention has been made by paying attention to the fact that a gradual information leak occurs in the conventional information retrieval.
  • the past request log is statistically analyzed to retrieve information. If the request is specific from the past request history, a plurality of dummy requests including randomly selected dummy values are generated, and a spread request including a plurality of dummy requests is generated.
  • Diffusion requests are characterized by data mining, etc. for access logs to web servers that execute search processing when the search target input by the search subject is specific from the past request log. Accumulating data so that it cannot be analyzed improves the data mining tolerance of requests issued by the search subject.
  • the search target is specified by a numerical data set such as map data and has a continuous attribute that can be obtained by calculation from homogeneous information, as well as company name, stock price, product name, gender, age, arbitrary
  • the present invention can also be applied to an object having discrete attributes such as a character string.
  • an information processing apparatus that acquires information via a network
  • the information processing apparatus includes: A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database; Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history An evaluation unit; If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus.
  • a spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value for requesting information different from information that should be information;
  • a search request issuing unit that issues the spread request as a search request to the database via the network;
  • an information processing apparatus including a search result extraction unit that extracts information acquired by the spread request from a response to the search request.
  • the dummy value of the present invention is stored in a dummy generation information storage unit, and the data mining tolerance can be imparted by reducing the specificity of the search value in the request log.
  • the search request issuing unit of the present invention can issue the spread request including only the dummy request as the search request when the information to be acquired has a continuous attribute.
  • the search request issuing unit of the present invention can issue the spread request including the original request and the dummy request as the search request when the information to be acquired has discrete attributes.
  • the specificity evaluation unit of the present invention searches the request log for the search value included in the original request, and the number of occurrences of the search value corresponds to an increase rate of the currently determined search value.
  • Generation of the dummy request for the spread request unit can be started by predicting that the average value of the number of occurrences of search values will increase by a threshold value or more.
  • the original request of the present invention includes a plurality of search values for acquiring different information, and the specificity evaluation unit determines the specificity for each of the plurality of search values, and for each search value
  • the dummy request can be generated and the spreading request issued to the database to be searched for information.
  • the information processing apparatus of the present invention can receive a response from the database, generate a display area for displaying a response corresponding to each of the search values included in the original request, and display the response.
  • the information processing apparatus of the present invention can be a mashup server implemented in the Web 2.0 paradigm.
  • an information processing method and program executed by the information processing apparatus and a web system including the information processing apparatus.
  • the figure which showed embodiment of the web system 100 of this invention The figure which showed the web system 200 of 2nd Embodiment of this embodiment.
  • FIG. 6 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in the present embodiment.
  • FIG. 11 is an embodiment of pseudo code for executing the processing shown in FIG. 10.
  • FIG. The diffusion state of the content of the diffusion request generated in the embodiment when searching for map data.
  • the figure which showed embodiment of the access log 1500 produced
  • FIG. 1 illustrates an embodiment of a web system 100 of the present invention.
  • Web system 100 includes clients 110-114, mashup server 130, and web servers 150-154.
  • the clients 110 to 114 and the mashup server 130 are interconnected via a network 120 such as a LAN, WAN, or the Internet.
  • the mashup server 130 is interconnected to the web servers 150 to 154 via the network 140.
  • the network 140 is not particularly limited, but a wide area network such as the Internet can be used.
  • the mashup server 130 and the web servers 150 to 154 can employ almost the same hardware configuration, and a CISC architecture microprocessor such as a PENTIUM (registered trademark) or a PENTIUM (registered trademark) compatible chip, or A RISC architecture microprocessor such as POWERPC (registered trademark) can be implemented in a single-core or multi-core form.
  • each server is controlled by an operating system such as WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark), C, C ++, JAVA (registered trademark), JAVABEANS (registered trademark).
  • Search requests sent from clients 110 to 114 by executing server programs such as CGI, Servlet, APACHE, IIS (Internet Information Server) implemented using programming languages such as, PERL, and RUBY. ⁇ Process the request.
  • the mashup server 130 can be implemented as a partial function of a gateway server or the like of a company.
  • the mashup server 130 may be installed in an ISP (Internet Service Provider) that performs a service based on a paradigm such as Web 2.0.
  • the web servers 150 to 154 manage the databases 160 to 164, respectively, and can provide information corresponding to requests via the network 140.
  • the server 150 is implemented as a company information service providing server
  • the server 152 is implemented as a stock price information service providing server.
  • the web server 154 is implemented as a map information service providing server, and processes individual requests from the mashup server 130 and sends them to the mashup server 130.
  • Each of the clients 110 to 114 acquires information using a plurality of application services.
  • the client 110 acquires information corresponding to the original request issued by the client 110 via the mashup server 130.
  • the mashup server 130 stores information from the plurality of web servers 150 to 154 in association with the client 110, and presents the information to the client 110 as composite information.
  • the mashup server 130 determines each application based on an original request sent from the client 110, for example. ⁇ Generate a spread request to be sent to the web servers 150 to 154 that provide the service, send the spread request to each of the web servers 150 to 154, and create an original from the information acquired corresponding to the spread request The result corresponding to the request is acquired, and is combined with, for example, a web page as composite information and sent to the client 110.
  • the term “diffusion request” referred to in the present embodiment corresponds to the type of search target included in the original request issued by the client, and is sent to the web servers 150 to 154 generated for each search target attribute. Means a request to be made.
  • a spread request is a single, dummy value that is generated so that it is difficult for the web server to analyze the characteristics of the original request by statistically mining data using the access log. Generated as a request or set of requests.
  • Clients 110-114 can be implemented using a personal computer or workstation, etc., and the microprocessor (MPU) may include any single-core or multi-core processor known so far. .
  • the clients 110 to 114 may be controlled by any known operating system such as WINDOWS (registered trademark), UNIX (registered trademark), LINUX (registered trademark), or MAC OS.
  • the clients 110 to 114 access the mashup server 130 and the web servers 150 to 154 in order to access Internet Explorer (registered trademark), Mozilla (registered trademark), Opera (registered trademark), and FireFox (registered trademark). Browser software such as can be implemented.
  • the data is transferred using a file transfer protocol such as HTTP or HTTPS using a transaction protocol such as TCP / IP. Transmission / reception is performed.
  • the mashup server 130 implements JDBC (Java (registered trademark) Database Connectivity), ODBC (Open Database Connectivity), etc. to access the database of the web servers 150 to 154, and is defined by JDBC.
  • JDBC Java (registered trademark) Database Connectivity
  • ODBC Open Database Connectivity
  • An application level protocol can connect to the web servers 150-154.
  • the request issued by the client 110 is intercepted once by the mashup server 130. Then, the mashup server 130 performs statistical processing with reference to the past request log. As a result of the statistical processing, the mashup server 130 determines that the search value for designating the information to be acquired included in the request reflects the specific search intention based on the request history. And a spread request is issued to the web servers 150 to 154 that manage the search target information. Each of the web servers 150 to 154 receives the spread request, searches the databases 160 to 164 managed by each, extracts information corresponding to the request, and returns it to the mashup server as a response.
  • the mashup server 130 forms a web page having a display area for simultaneously displaying the response on the desktop screen from the responses received from the web servers 150 to 154, and assigns each response to the display area. By displaying the request, the client 110 that issued the request browses.
  • FIG. 2 shows a web system 200 according to the second embodiment of the present embodiment.
  • the web system 200 shown in FIG. 2 implements a mashup application in which a plurality of clients 210 to 214 are implemented as an extended application of a web browser, for example, a plug-in program or an add-in program. Instead, the web system 200 does not use a dedicated server such as the mashup server 130.
  • the function of the mashup server 130 in FIG. 1 is implemented as the function of the clients 210 to 214, and the spreading request issued from the original request to each of the web servers 230 to 234 is transmitted.
  • the web servers 230 to 234 have the same configuration as that of the embodiment shown in FIG. 1, and return the searched information to the client 210 or the like in response to the spread request from the client 210 or the like.
  • search values for specifying a search target of a dummy request are generated by combining them with an operator OR.
  • Create a set the dummy request refers to the request log and relates to the time scale for each search target so that the client-side search intent is not extracted by data mining on the web server. , Select the request content to average.
  • the spread request may include the original request or may not include the original request at all according to the attribute of the information to be searched.
  • FIG. 3 shows functional blocks of the information processing system 300 that generates the spreading request of this embodiment.
  • the information processing system 300 shown in FIG. 3 corresponds to the mashup server 130 in the embodiment of FIG. 1, and corresponds to the clients 210 to 214 in the embodiment shown in FIG.
  • each functional block is implemented as a server application or a client application
  • each functional block of the information processing system 300 is processed by a microprocessor. This is realized by reading a program for causing the apparatus to function as each functional means into a RAM, which is an execution space, and executing the program.
  • the information processing system 300 includes an information processing device 310 and an input / output device 330 including a display device, a keyboard, a mouse, and the like.
  • the information processing apparatus 310 sends a spread request to the networks 140 and 220 via the network adapter 312 and obtains a response from the web server corresponding to the spread request.
  • the information processing apparatus 310 further includes a request acquisition unit 314, a diffusion request generation unit 316, and a dummy generation information storage unit 322. Further, the information processing apparatus 310 includes a request log 328 that stores requests sent from the information processing apparatus 310 to the web server in time series.
  • the request acquisition unit 314 acquires original requests from the clients 110 to 114 via the network 120.
  • the information processing apparatus 310 accesses the web servers 230 to 234 without using the mashup server 130, an original request including a search condition input by the operator is acquired via the input / output apparatus 330.
  • the diffusion request generation unit 316 refers to the request / log storage unit 328 and determines the specificity of the original request acquired by the request acquisition unit 314 in the past request log.
  • the diffusion request generation unit 316 acquires a dummy value used to generate the diffusion request corresponding to the determination result from the dummy generation information storage unit 322, and the specificity evaluation unit 324 determines that the specific search target is specific. A dummy value is generated until it is determined that there is no dummy value and included in the spread request.
  • the peculiarity of the original request is determined by, for example, a threshold set by the mashup server 130 or the clients 210 to 214 for the number of appearances of the search target in a specific time scale in relation to the request issuance managed. Can be done using. Furthermore, it can be determined by performing more advanced statistical processing according to the processing capability of the information processing apparatus 310.
  • the spread request generated by the spread request generation unit 316 is created by different processing depending on the attribute of data to be processed by the web servers 150, 152, and 154.
  • the spread request is generated in order to make it difficult to analyze the time-series threshold behavior related to a specific target of the access log managed by each web server 150 to 154 statistically.
  • the target information to be searched is not particularly limited, but in this embodiment, the information to be searched is classified into information having a continuous attribute and information having a discrete attribute.
  • the information having the continuous attribute described above is a homogeneous information excluding data to be searched for values for characterizing information to be searched, for example, position coordinates, longitude, latitude, altitude, time, period, etc.
  • Information having an attribute that can be acquired by a preset operation such as extrapolation, interpolation, and movement from the. More specifically, examples of information having continuous attributes include position coordinates and latitude / longitude data.
  • the information having the above-mentioned discrete attribute is an attribute that has a possibility that the data may fluctuate independently of other homogeneous information and needs to directly access the data to be searched to acquire the data.
  • information having discrete attributes include company stock price information, business performance information, M & A (Mergers and Acquisitions) information, and other information related to company activities and group activities.
  • the dummy generation information storage unit 322 can be implemented as a database or a table and can register, for example, company names, addresses, latitude / longitude information, and the like in association with attributes of information requested by the request.
  • a dummy for each category is used to reduce the specificity of the original request for each attribute of the information. Information that can be used as values can be registered.
  • the peculiarity evaluation unit 324 receives the original request and analyzes the request log. When the received original request deviates from the average value of the access information of the request log, refer to the dummy generation information, Until the original request is determined to be non-specific as determined from the request log, the diffusion request generation unit 316 causes generation of the diffusion request including the dummy request including the dummy value.
  • the information processing apparatus 310 includes a search request issuing unit 318 and a search result extracting unit 320.
  • the search request issuing unit 318 sets the original request and the dummy request generated including the dummy value in the SQL query, and issues them to the web server via the networks 140 and 220.
  • the spread request generation unit 316 determines whether to pass the value specified in the original request to the search request issuing unit 318 according to the attribute of whether the information to be acquired is continuous or discrete. to decide.
  • the value specified in the original request is not set in the search request.
  • the dummy request is generated so that the web server 154 can reach the target information by another request from the client, not the target information.
  • the diffusion request generation unit 316 generates a request for requesting information that is the same quality as the information to be searched using the value described in the original request and is different from the information to be searched. And the dummy request is passed to the search request issuing unit 318 together with the original request to generate a diffusion request. For this reason, the search result extraction unit 320 receives the response of the original request together with the response of the dummy request.
  • the search result extraction unit 320 filters the search result sent from the web server as necessary, and displays the search result on the display device of the input / output device 330 via the input / output interface / browser 326.
  • the operator of the information processing apparatus 310 acquires a map or the like as a search result, the operator should adjust the display area or scale with a mouse or the like, and additionally issue a relative movement request or the like to acquire the original request. Update search results sequentially so that you can access the information.
  • FIG. 4 is a flowchart of the information processing method of this embodiment.
  • the process of FIG. 4 starts from step S400, and an original request is acquired in step S401.
  • the original request is acquired from the network 120 or the input / output device 330 by the information processing apparatus 310 according to the embodiment of FIG. 1 or the embodiment of FIG.
  • an original request is generated to acquire composite information with ⁇ C i , S i , G i ⁇ as a search target for searching for information acquisition of company information, stock price information, and map information.
  • the information processing apparatus 310 separates the search request included in the original request, calls the specificity evaluation unit 324 in step S402, and first, for each search request included in the original request, is diffused in relation to the time course. Determine whether or not The process executed by the specificity evaluation unit 324 will be described later in more detail.
  • step S403 When it is determined that the request to be sent to the web server is not spread in terms of contents and time based on the determination using the request log (no), in step S403, the diffusion request is referred to by referring to the dummy generation information. Then, the process returns to step S402 again to determine whether or not the content of the request is spread.
  • step S402 If it is determined in step S402 that the content of the request is diffused by comparison with the request log, that is, it is not specific (yes), the request is transmitted in step S404.
  • step S405 it is determined whether or not a response from the web server has been received. If the response has not been received (no), the process is repeated until the response has been received. On the other hand, when the reception of the response from the web server is completed in step S405 (yes), in step S406, the information processing apparatus 310 merges the responses corresponding to the original request and displays them in the browser. Note that the process of step S406 can include a process of filtering data to be browsed according to the attribute of the received data. When the browsing on the client display device is completed, the process ends in step S407 and waits for the subsequent input of the original request.
  • FIG. 5 shows a request log 500 for a particular search target included in the original request for exemplary purposes.
  • the time chunk can be set as appropriate, for example, in minutes, hours, days, weeks, months, etc., for the purpose of diluting the specificity of the original request.
  • the request log 500 can be generated and stored for each specific unit of request issuance, and the request issuer unit can be a client unit, a business unit unit, or a company unit.
  • a search target specified by numerical data such as map information can be determined by matching within a numerical range of longitude / latitude set around a specific latitude / longitude. In the case of searching for map information, the latitude / longitude range set according to whether it is an urban area or a non-urban area can be changed. The identity of the search target may be determined using whether or not there is a common landmark within a specific range in relation to the designated.
  • the information processing apparatus 310 generates, for each search target, a search target issued as an original request for a specific search target in units of time chunks given at an appropriate processing interval from the start of recording of the request log 500. Register as N. Then, in the time chunk in which the request log 500 is currently accumulated, the number of occurrences of original requests including the target search object is detected in units of original requests.
  • the peculiarity evaluation unit 324 checks the increase rate per request of the search target to be noticed at the stage where the currently accumulated time chunk is completed, and the time chunk is determined to be specific in the request log 500. Whether or not the search is to be performed is determined based on the currently determined time chunk TC p . As shown in FIG. 5, in the time chunk immediately after the start of request log recording, any original request issued in the time chunk is determined to be specific, and a spread request is generated.
  • the history of search requests is accumulated with the lapse of time recorded in the request log 500, it is necessary to determine whether or not the search target currently determined including the past history is specific.
  • the average value Nav of the number of requests over the time chunk TC i of the requests up to the current time chunk TC p for the specific search target, and the current time chunk TC p Using SN p as the number of requests predicted to be acquired for, for example, that the specificity index SN p given by the following equation (1) is larger than the probability error from the average value N av Judgment can be made.
  • ⁇ error is a probability error with respect to the number of requests for the search target over N av time chunks
  • is a positive real number multiplied by the probability error
  • ⁇ ⁇ 1 N av is given by the following formula (2), and is updated sequentially when the time chunk currently being recorded is completed.
  • the value p for identifying the time chunk increases as the request log is recorded, but the first time chunk that starts the singularity evaluation process forms a singularity.
  • the processing is started assuming that the search value is always singular.
  • the case that will be SN p number of requests for the first time in the current time-chunk TC p is issued, to always specific also
  • no specific processing is performed, and determination is performed according to the above formula (1).
  • SP can be defined using a probability density function and variance given in a binomial distribution.
  • the search targets it is assumed that the request log 500 has a multidimensional normal distribution, and the search target is searched using a multidimensional normal distribution and a variance-covariance matrix. Correlated specificity may be determined.
  • the specificity evaluation unit 324 of the present embodiment indicates that the last time chunk in FIG. 5 is a time chunk that is currently recording a request log, and designates a specific search target at the current time point.
  • the search value is accumulated up to SN current . This increased rate, increasing until the end of time chunks, predicts that the number of occurrences until SN predict increases, using the above equation (1) based on the prediction, it is determined as being specific.
  • the prediction determination embodiment of this embodiment will be described later in more detail.
  • FIG. 6 shows the characteristics of the search target in the time chunk in which the request log 500 is currently accumulated from the increase rate of the original request including the specific search target in the specific time chunk in this embodiment.
  • An embodiment of a process for determining In FIG. 6, the vertical axis indicates the cumulative number in the search target time chunk TC m (m 0, 2, 3,..., N) included in the original request, and the horizontal axis indicates the request log 600. The time course of is shown. Further, the request log 600 is individually inspected as search objects C i , S i , N i , and O i . The cumulative number in each time chunk is indicated by a bar, and the black hatched bar is a time chunk that has already been recorded.
  • time chunks that are determined to be specific on the request log 600 for a specific search target are indicated by black triangles on the bar.
  • the search target marked with a black triangle has not been requested in the past, and was first detected in the time chunk indicated by the black triangle.
  • the time chunk indicated by the white bar is a time chunk that is currently accumulated.
  • the web server 150 or the like analyzes the access log. Thus, it is possible to determine the search intention of the original request issuer.
  • the specificity evaluation unit 324 intercepts the original request and determines the content of the individual search request. This allows the original request acquired by the information processing apparatus 310 to determine the increase rate of the search target within a specific time chunk. That is, the peculiarity evaluation unit 324 accumulates search values specifying a specific search target in the time chunk, calculates an increase rate with respect to the total number of original requests, and performs linear extrapolation until the end of the time chunk. Then, extrapolation is performed by an appropriate method such as polynomial extrapolation or exponential extrapolation, and the extrapolated result is integrated within the currently accumulated time chunk to predict the number of occurrences.
  • the peculiarity evaluation unit 324 accumulates search values specifying a specific search target in the time chunk, calculates an increase rate with respect to the total number of original requests, and performs linear extrapolation until the end of the time chunk. Then, extrapolation is performed by an appropriate method such as polynomial extrapolation or exponential extrapolation, and the extrapolated result is integrated within the currently accumulated
  • the search object O i that is accumulating in the last time chunk is shown with a white triangle for the purpose of indicating that it is determined to be specific when the time chunk is completed.
  • the diffusion request generation unit 316 is instructed to generate the diffusion request, and the dilution process of the specificity level is started.
  • the diffusion request generation unit 316 of the present embodiment individually determines the specificity of the search target included in the original request, and generates a diffusion request when determining that the search target is specific.
  • the spread request is generated by modifying the original request so that the information to be searched is not specific as viewed from the request log 500.
  • the modification of the original request can be performed in the exemplary embodiment as follows.
  • a request is issued with numerical data such as map information
  • a single or multiple dummy requests including dummy values that are randomly corrected numerical data beyond the numerical range where the search target is determined to be the same Generate.
  • a plurality of dummy values are selected and set in the spread request so that the frequency spectrum becomes equal when Fourier transform is performed in relation to latitude and longitude.
  • attribute information for which a corresponding value such as company information or stock price information must be acquired directly it is the same as the search target company or stock brand that is determined to be specific from the dummy generation information storage unit 322 Randomly extract company names, stocks, and stock codes that are classified into different types of business, and acquire dummy information in an appropriate number so that the number of requests generated within the category is white noise. To do.
  • the dummy request can be configured as the same set of search values as the original request, but since the information processing apparatus 310 individually accesses the database, the dummy request is a single request. It can be generated as a search request including a search value. The generated dummy request is randomly selected including the search value that is the true purpose of the search, and is sent to the corresponding databases 160 to 164, 240 to 244, and the like.
  • FIG. 7 shows an embodiment of an access log 700 recorded, for example, by the web server 150 after issuing a spread request according to the present embodiment to the request log 500 shown in FIGS.
  • the information processing apparatus 310 detects the number of requests sent to the company information providing server 150 for each specific search target for each specific time chunk, and calculates the statistical peculiarity of the search target included in the original request while accumulating it. Determine gender.
  • the information processing apparatus 310 issues a dummy request, dilutes the specificity of the search target, and sends an access log to the specific issuer on the web server 150 side.
  • FIG. 7 shows that the access specificity is diluted, that is, white noise is generated so that the specific search value does not show a prominent tendency as shown in FIG.
  • the information processing apparatus 310 also has a case where the web server 150 is accumulated as an access log from a specific information processing apparatus 310 even when a search target that should be a dummy value for the true request TR is included in the original request A dummy request is generated so that the access log approaches white noise.
  • the true request is a search value included in the original request and means a request reflecting a searcher's specific intention.
  • the information processing apparatus 310 determines that the true request TR 1 is specific in the time chunk TC 1 , the information processing apparatus 310 extracts a search target whose specificity is diluted from the dummy generation information storage unit 322 and outputs the dummy request DR. Set to (Dummy Request).
  • FIG. 8 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in this embodiment.
  • the information to which FIG. 8 is applied can be applied as long as the map data characterized by a numerical data set such as position coordinates or the information specified by the numerical data is continuous.
  • the input value can be input as, for example, a value such as longitude and latitude, or can be input as a company name, a place name, and the like.
  • the process can be executed by replacing the latitude / longitude data stored in the dummy generation information storage unit 322.
  • step S800 shows details of steps S402 and S403 of FIG. 4 and is started after acquiring the original request in step S401.
  • step S800 shows details of steps S402 and S403 of FIG. 4 and is started after acquiring the original request in step S401.
  • Cx and cy that satisfy the above are generated using the function rnd ().
  • (x, y) is numeric data specified by the original request
  • w and h are values specifying the range of the numeric data.
  • cx and cy are numerical data generated by random numbers and correspond to longitude and latitude values.
  • gx and gy are the barycentric points (average coordinates) of the coordinates including the past history.
  • step S801 the time stale index ti is initialized to zero.
  • the time scale index ti is defined in minutes, hours, days, months, etc., and defines a time scale for determining how far the original request is not specific. Specifically, t0 specifies that one minute, t1 refers to one hour, and t2 refers to a request log issued during the time scale of one day. In addition, as t3 and t4, it is possible to refer to request logs in units of months or quarters.
  • step S802 it is determined whether or not ti exceeds the number of elements in the ta array. If ti ⁇ smaller than the number of elements in the array of ta (yes), the past history for ta [ti] time is determined in step S803.
  • the coordinates of the new center points gx and gy are calculated from the history coordinate group and cx and cy using the average value of the coordinate group values.
  • step S804 a distance L between (x, y) and (gx, gy) is calculated.
  • the distance L used in the present embodiment may be a Euclidean distance, a Manhattan distance, or an appropriate topological distance defined between feature values defined by feature coordinate axes.
  • step S805 when it is determined that the distance L is equal to or less than a threshold value that is a value that the original request is assumed to be non-specific (yes), the time scale index ti is incremented by 1 in step S806, and then processing is performed. Is returned to step S802 to determine the specificity in another time scale. On the other hand, if the distance L is not less than or equal to the threshold value in step S805 (no), the process returns to step S800 to generate additional cx ′ and cy ′, and the calculation is repeated until the distance L is less than or equal to the threshold value.
  • step S802 when calculation of the set timescale index is completed (no), since no period of the set timescale is specific, control is passed to step S404, and ⁇ (cx, cy) ⁇ is set as numerical data and issued as a spread request. In this embodiment, since the information is numerically continuous, (x, y) that is the value of the original request is not included in the spread request.
  • the information processing apparatus 310 can acquire the information acquired as the original request without sending the numerical data specified as the original request to the web server.
  • the process of FIG. 8 can be effectively applied when the information can be specified by numerical data and has topologically continuous attributes.
  • FIG. 8 there is a map search and the like.
  • the landmark Can when there is data in the extracted (cx, cy) set that is rounded to the position coordinates of a specific landmark that is not (x, y), the landmark Can be arranged in the area given by (w, h) and the retrieved information can be displayed.
  • FIG. 9 shows a pseudo code of the processes of S803 to S805 among the processes described in FIG.
  • the pseudo code block 900 corresponds to the processes of steps S804 and S805, and the pseudo code block 910 corresponds to the process of step S803 of FIG.
  • variable list.
  • the number of elements () included is the number of request log elements included in the time scale specified by ti.
  • FIG. 10 is a flowchart of the second embodiment of the information search method of this embodiment, and corresponds to steps S402 to S405 of FIG.
  • the embodiment of FIG. 10 can be suitably applied when the search target information has discrete attributes.
  • the processing in FIG. 10 starts from step S1000 after obtaining the original request in step S401.
  • the symbols used in FIG. 10 are defined as shown in Table 1 below.
  • step S1000 the index value of the attribute matching kn is obtained from the array k [] and set to the variable ti.
  • d
  • step S1003 it is determined whether or not
  • the threshold value the probability error of the request log described in the equation (1) can be used. However, when a different criterion is used to determine the specificity, a corresponding appropriate threshold value is set. Can be set.
  • step S1005 the value corresponding to the index value dc in the access count array ac [] is updated, the index value dc is set to the value of the access candidate index array c [ci], and the counter ci of the number of access candidates is set to 1. Increment, return the process to step S1002, and repeat the above-described process until a positive value is returned in the determination of step S1003.
  • step S1003 if it is determined in step S1003 that
  • the target attribute name to be accessed is described as being performed in a process other than the process of FIG. 10, but by omitting the process of step S ⁇ b> 1010 and storing all the access execution results, FIG. In this process, it is possible to complete the process for all access candidates to be accessed.
  • the access history can be spread over the time scale for spreading the access history by using the time scale index for calculating the average value as described in step S803 in FIG. .
  • FIG. 11 shows an embodiment of pseudo code for executing the processing shown in FIG.
  • a block 1100 corresponds to the processing step S1003 of FIG. 10, and a block 1110 corresponds to the processing of the block 1020 of FIG.
  • the access execution for the attribute name to be searched is described as an embodiment executed after the block 1110 ends.
  • the data mining tolerance can be further improved.
  • FIG. 12 shows the diffusion state of the content of the diffusion request generated in the embodiment when searching for map data.
  • the vertical and horizontal axes in FIG. 12 correspond to the vertical and horizontal widths w and h of the display area, respectively.
  • FIGS. 12 (a) to 12 (c) show changes in the diffusion state when the initial conditions for generating random numbers are different.
  • the spread request includes position coordinates sufficiently separated from the target coordinates (0, 0) given as the original request, and the points of the dummy request constituting the spread request are sufficiently random. The distribution is shown, indicating that the data mining tolerance of the request can be improved.
  • FIG. 13 shows an embodiment of a search screen 1300 displayed by the web system of this embodiment.
  • FIG. 13 shows a search in the case where the information search embodiment according to the present embodiment is applied to information having request contents set as numerical data and having continuity.
  • the landmark 1312 is a search target.
  • the operator of the information processing apparatus 310 inputs the position coordinates of the search target 1312, the company name, and the like. When the position coordinates and the company name are input, the information processing apparatus 310 uses the processing shown in FIG. 8 to determine whether or not the search target 1312 is a specific access from the request log history analysis. To judge.
  • the information processing apparatus 310 determines that access to the search target 1312 is specific (
  • the user who has acquired the map image 1310 scrolls the map data using a mouse or the like, moves the map data to a landmark 1316 such as a park, and moves the search target 1312 to the vicinity of the center to display the map data 1320.
  • map data is continuously registered on the two-dimensional plane, scrolling of map data does not include a value for specifying a search object as in a request, and is moved with respect to default map data. Therefore, the data specifying the search target 1312 is not transmitted to the web server and does not affect the data mining tolerance.
  • FIG. 14 shows an embodiment when the search target has discrete attributes in this embodiment.
  • information acquired from a plurality of web servers by the mashup server 130 is mashed up and provided as one desktop screen 1400.
  • an operator who performs a search performs a search with the intention of acquiring stock price information of a specific company “FGH” in LosLoAngels.
  • the operator inputs a search character string such as FGH, stock price, map, and topics, but the mashup server 130 does not send the original request input by the operator as it is.
  • the mashup server 130 refers to the company information and the request log stored in the dummy generation information storage unit 322, and obtains information such as a stock price in addition to the search target company “FGH”. Is acquired as an access candidate, and a search request is issued to the web server as a diffusion request.
  • all the search results acquired by the above-described processing are acquired without being filtered, and are displayed as a search result list in the order corresponding to the requests sent randomly to the display frame 1410.
  • a search result is also obtained for the search target company “FGH”.
  • the search target company name “FGH” in the request is obtained. ", The relative weight in the access log is reduced.
  • a statistically processed diffusion request of the request log is sent to the web server. Therefore, durability against data mining for analyzing the access log in the web server that accepted the request is received. Can be improved.
  • the display frame 1420, the display frame 1430, and the display frame 1440 display the map position, stock price fluctuation, and topics corresponding to the search result currently selected by the operator in the search result list of the display frame 1410. ing.
  • the display content in each display frame 1420, 1430, 1440 is changed in cooperation with the selection of other search results, and a plurality of web servers It is possible to efficiently present independent information from.
  • FIG. 15 is a diagram for explaining the access effect generated as a result of issuing a diffusion request in order to explain the effect of improving the data mining tolerance for preventing the gradual information leakage from the access log by the information processing method of this embodiment.
  • a log 1500 is shown.
  • an access log 1510 is an embodiment in a specific web server when the spread request of this embodiment is not used, and an access log 1520 is a case where the spread request of this embodiment is applied.
  • Fig. 4 illustrates an embodiment in a particular web server. Note that the vertical axis represents the total number of accesses for each search character string for access logs within a specific period.
  • company names A, B, C, and D are company names that are added to the spreading request. It is assumed that the search target company name is Company C.
  • the search target company name input by the operator is transmitted as it is to the web server, so that a request including the search target company name C company is prominently recorded as an access log. For this reason, on the web server side, it is possible to trace the transition of the search target of a specific enterprise or individual by performing data mining on the access log in time series. For example, when the number of accesses to the company C increases after a specific date and time, the searcher leaks to the site that operates the web server that he / she is interested in the company C after the specific date and time. For example, important information such as TOB (TakeOver Bid) and merger is less likely to be gradually leaked.
  • TOB TakeOver Bid
  • the access log 1520 indicates an access log generated on the web server side when the spread request of this embodiment is used.
  • the request log is statistically processed to generate a spread request, and a request set is issued to the web server.
  • that defines the specific specificity
  • FIG. 15 exemplifies the company name.
  • various information such as a specific character string in the geography / region name, product name, age, sex, group name, SNS, etc. Applicable and can prevent gradual information leakage about search intentions related to market research, future trends, corporate activity, and network activity, respectively.
  • the above-described functions of the present invention include C ++, Java (registered trademark), JavaBeans (registered trademark), Java Applet (registered trademark), JavaScript (registered trademark), Perl, Ruby and other object-oriented programming languages, SQL and other search-only languages, etc. It can be realized by a device-executable program described in the above, and can be stored in a device-readable recording medium and distributed or transmitted and distributed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

ネットワークを介した情報取得から生じる可能性のある情報漏洩の防止のために、 情報処理装置310は、取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部314と、過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき情報が統計的に特異的であるか否かを判断する特異性評価部324と、取得するべき情報が統計的に特異的ではないと判断されるまで、アクセス・ログのデータマイニング耐性を付与するためのダミー値を含むダミー・リクエストを生成する、拡散リクエスト生成部316と、拡散リクエストを検索要求としてネットワーク140、220を介してデータベースに宛てて発行する検索要求発行部318と、拡散リクエストにより取得された情報を検索要求に対するレスポンスから抽出する検索結果抽出部320とを含んでいる。

Description

情報処理装置、情報処理方法、プログラムおよびウェブ・システム
 本発明は、ネットワーク技術に関し、より詳細には、ネットワークを介した情報取得から生じる可能性のある情報漏洩の防止技術に関する。
 近年、ネットワーク基盤およびコンピュータ技術の進歩により、パーソナル・コンピュータ、ワークステーション、またはサーバ・コンピュータは、ネットワークを介して相互接続され、情報の共有を行っている。情報の共有を行う場合、通常、パーソナル・コンピュータなどのクライアント・コンピュータ(以下、単にクライアントとして参照する。)は、情報を蓄積するウェブ・サーバに対して情報の要求を発行し、当該要求に応答して、ウェブ・サーバが要求に一致する情報をクライアントに送付することにより、クライアントは、要求した情報を取得する。
 クライアントからサーバに対して送付される要求には、数値データ・セットやキーワードなどの情報を指定する値が含まれ、サーバは、当該値を参照して、データベースなどに対して照会を発行することによって情報をデータベースから抽出する。すなわち、従来の情報検索方法は、クライアントが現在興味を有している情報をサーバに開示することを意味する。
 ウェブ・サーバが信頼出来る場合には従来の情報検索でも問題は比較的少ないということができる。しかしながら、ウェブ・サーバが信頼できる場合であっても、検索を行う個人または企業などの検索主体は、情報を取得するため検索主体が現在どのような情報に興味を持っているのかを、ウェブ・サーバに通知することが必要である。
 近年では、ブラウジング技術の進歩により、複数のウェブ・サーバが管理する情報を単一の情報処理装置に集約して情報へのアクセス性を高める、いわゆるマッシュアップ(Mashup)システムが、Web2.0などとして普及している。マッシュアップ・システムは、クライアントと、マッシュアップ・サーバと、複数の情報サーバとを含んで構成されている。
 マッシュアップ・サーバは、企業などの社内に設置されていてもよいし、また、マッシュアップ処理を専ら実行するため、ISP(Internet Service Provider)がインターネット内に設置するウェブ・サーバとされていてもよい。また、情報サーバは、それぞれISPなどにより提供され、それぞれが管理するデータベースから、クライアントの要求に対応する情報を検索し、検索された情報を、マッシュアップ・サーバに送付している。マッシュアップ・サーバは、取得した情報を適切に配置し、ブラウザ・プログラムなどを介してクライアントに複数の情報サーバから取得した情報を表示させている。
 マッシュアップ・システムでは、クライアントが要求する情報に対応して複数の情報サーバが、クライアントの発行したリクエストを取得する。リクエストは、取得するべき情報を検索するための検索語や条件式を含む、例えば、SQL(Structured Query Language)文として構成される。情報サーバは、受領したリクエストから検索条件を取得し、それぞれが管理するデータベースの検索を実行することで、リクエストに対応する情報を取得する。ここで問題となることは、ネットワークを介して接続された情報サーバは、いずれもが必ずしも信頼できるものと言うことはできないことにある。また、信頼性ある情報サーバであっても、情報サーバに送付されたリクエスト内容によって、情報サーバのログ解析中のデータマイニングにより、リクエストの傾向が分析され、クライアント側の検索目的が暗黙のうちに知られてしまうことになる。
 すなわち、ネットワーク技術の普及およびネットワーク上に蓄積される情報の高付加価値化が進むにつれて、情報検索プロトコルで発生する、緩やかな情報漏洩が問題とされるようになっていた。なお、本明細書において、用語「緩やかな情報漏洩」とは、ネットワーク上での集団としてのネットワーク・アクセスが、情報サーバによって統計的に分析されること、そしてその結果として集団の意思すなわち、検索意図が緩やかに漏洩することを意味する。
 これまで情報検索プロトコルを拡張する検討が行われており、例えば、特開平11-259512号公報(特許文献1)では、検索条件や検索者の所在などと機密情報として保護するデータ検索システムが開示されている。特許文献1では、検索条件の一部または全部を機密情報としてデータ検索装置に隠蔽または遮蔽して検索を行い、検索結果をデータ検索装置が絞り込むことにより、データ検索が行われる。より詳細には、検索条件を遮蔽または不鮮明にする方法として、入力されたすべての検索条件から、予め登録された遮蔽するべき検索条件を削除するか、または入力された検索条件を類似語や上位概念へ置換したり、余分な検索条件を付加したり、検索条件を分割したりすることにより行われている。
 特許文献1に記載された情報検索プロトコルでは、データ処理装置に入力された検索条件に対し、データ検索装置側で、削除、上位概念化、検索語の付加などの処理が行われる。この結果、データ処理装置側では、検索条件を加工処理するための追加プログラムおよび類似語辞書などが必要で、検索処理を実行するため検索条件に対する前処理が必要とされる。また、特許文献1のデータ検索装置では、遮蔽された検索条件を使用して、検索条件よりも広い条件でヒットした情報をデータ検索装置が一旦蓄積し、本来の検索条件に一致する情報を再度検索するデータ編集部が必要となる。この結果、データ検索装置は、本来取得するべき情報よりも膨大な情報を取得し、処理することが必要とされ、データ検索装置自体が、副次的なデータベースを実質的に備えていなければならない。このため、特許文献1のデータ検索装置は、ハードウェア資源およびプログラム資源の浪費を伴うので、現在のようにネットワーク上に蓄積される情報量が膨大な場合、検索を効率化することはできない。
 また、特開2002-312377号公報(特許文献2)では、入力された第1の検索条件を、より広範囲を検索する第2の検索条件に変更して検索用サーバに対して情報検索を実行して第1の検索結果を取得し、取得した第1の検索結果を第1の検索条件により再度検索し、第1の検索条件に対応する検索結果を生成させ、利用者のプライバシーといった情報の漏洩を防止する検索装置が開示されている。
 特許文献2に記載された検索装置も、検索条件を拡張することにより、拡張された検索結果を検索装置に取得させ、当該検索結果を再度検索して本来取得するべき検索結果を生成する。この結果、検索装置自体も副次的なデータベースとして機能することが必要となる。この結果、検索装置は、検索条件の拡張に対応して、そのための記憶空間を確保しなければならず、また検索装置自体についてもある程度の検索能力を含む必要があるなど、検索効率、ハードウェア資源およびソフトウェア資源の浪費という点で、情報漏洩を効率的に防止するものではない。
特開平11-259512号公報 特開2002-312377号公報
 上述したように、従来技術は検索による情報漏洩を防止するために本来の検索条件を含む修正検索式を生成し、データベースに対して検索要求を発行して拡張検索結果を取得し、当該拡張検索結果を本来の検索条件を使用し、検索装置が再検索することによって本来の検索結果を再度生成するものである。
 しかしながら、近年のようにネットワークを介してアクセスすることができる情報が膨大となって来ると、拡張検索結果を、クライアントや、検索を実行するためのゲートウェイ・サーバに取得させることは、記憶空間の浪費や再検索処理、データ編集処理などのオーバーヘッドが無視できず、またソフトウェア的にも小規模データベース・システムレベルの実装が必要であり、情報検索システム自体の冗長実装が必要となるなど、大きなハードウェア資源およびソフトウェア資源の修正が必要であった。
 また、従来の情報漏洩を防止する方法では、本来の検索条件を拡張して上位概念化したり、範囲を広げるように拡張検索条件を生成するものであるが、結局の所、本来の検索条件は、拡張検索条件に含まれていなければならない。しかしながら、特許文献1および特許文献2により生成される拡張検索条件では、クライアント側が検索しようとする検索意図の漏洩を防止するものではなく、情報検索によって生じるクライアント側の検索意図の意図しない漏洩、すなわち緩やかな情報の漏洩を防止するものではない。
 本発明は、上記従来技術に鑑みて、ネットワークを介した情報取得から生じる可能性のある緩やかな情報漏洩を防止する、情報処理装置、情報処理方法、プログラムおよびウェブ・システムを提供することを目的とする。
 本発明は、従来の情報検索では、緩やかな情報漏洩が発生していることに着目してなされたものであり、本発明では、過去のリクエスト・ログを統計解析して、情報を検索するためのリクエストが過去のリクエスト履歴から特異的な場合、ランダムに選択したダミー値を含む複数のダミー・リクエストを生成し、複数のダミー・リクエストを含む拡散リクエストを生成する。
 拡散リクエストは、検索主体が入力する検索対象が過去のリクエスト・ログから推定して特異的である場合に、検索処理を実行するウェブ・サーバへのアクセス・ログを、データマイニングなどにより特徴的であることが解析できないように蓄積させることで、検索主体の発行するリクエストのデータマイニング耐性を向上する。
 本発明では、検索対象は、地図データなど数値データ・セットで指定され、同質の情報から演算によって取得できる連続的な属性を有する対象の他、企業名、株価、製品名、性別、年齢、任意の文字列など離散的な属性を有する対象についても適用することができる。
 本発明によれば、ネットワークを介して情報を取得する情報処理装置であって、前記情報処理装置は、
 データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
 前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
 前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
 前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部と、
 前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部と
 を含む、情報処理装置が提供される。
 本発明の前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、前記データマイニング耐性を付与することができる。本発明の前記検索要求発行部は、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行することができる。本発明の前記検索要求発行部は、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行することができる。
 本発明の前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させることができる。
 本発明の前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異性評価部は、複数の前記検索値ごとに前記特異性を判定し、前記検索値ごとに前記ダミー・リクエストを生成して、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行することができる。本発明の前記情報処理装置は、前記データベースからのレスポンスを受領して前記オリジナル・リクエストが含む前記検索値にそれぞれ対応するレスポンスを表示する表示領域を生成し、前記レスポンスを表示させることができる。
 本発明の前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバとすることができる。
 本発明によれば、さらに上記情報処理装置が実行する情報処理方法、プログラムおよび上記情報処理装置を含むウェブ・システムが提供される。
本発明のウェブ・システム100の実施形態を示した図。 本実施形態の第2の実施形態のウェブ・システム200を示した図。 本実施形態の拡散リクエストを生成する情報処理システム300の機能ブロックを示した図。 本実施形態の情報処理方法のフローチャート。 オリジナル・リクエストが含む特定の検索対象に対するリクエスト・ログ500を示した図。 本実施形態で、特定のタイム・チャンク内での特定の検索対象を含むオリジナル・リクエストの増加レートから、現在リクエスト・ログ500を蓄積しているタイム・チャンクでの検索対象の特性を判断する処理の実施形態を示した図。 図5および図6で示されるリクエスト・ログ500に対し、本実施形態による拡散リクエストを発行した後に例えばウェブ・サーバ150が記録するアクセス・ログ700の実施形態を示した図。 本実施形態で、特定の数値データに関連付けられた情報を検索する場合の、オリジナル・リクエストの取得からリクエストの発行までの処理の詳細フローチャート。 図8で説明した処理のうち、S803~S805の処理の疑似コードを示した図。 本実施形態の情報検索方法の第2の実施形態のフローチャート。 図10に示した処理を実行する疑似コードの実施形態。 地図データの検索を行う場合の実施形態で生成される拡散リクエストの内容の拡散状態。 本実施形態のウェブ・システムが表示する検索画面1300の実施形態を示した図。 本実施形態で、検索対象が離散的な属性を有している場合の実施形態を示した図。 本実施形態の情報処理方法による拡散リクエスト発行の結果として生成されるアクセス・ログ1500の実施形態を示した図。
 以下、本発明を実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本発明のウェブ・システム100の実施形態を示す。ウェブ・システム100は、クライアント110~114と、マッシュアップ・サーバ130と、ウェブ・サーバ150~154とを含んでいる。クライアント110~114とマッシュアップ・サーバ130は、LAN、WANまたはインターネットなどのネットワーク120を介して相互接続されている。また、マッシュアップ・サーバ130は、ネットワーク140を介してウェブ・サーバ150~154に相互接続されている。ネットワーク140は、特に限定されることはないが、インターネットなどの広域ネットワークを使用することができる。
 マッシュアップ・サーバ130およびウェブ・サーバ150~154は、概ね同様のハードウェア構成を採用することができ、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップなど、CISCアーキテクチャのマイクロプロセッサ、または、POWERPC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを、シングルコアまたはマルチコアの形態で実装することができる。また、各サーバは、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御されていて、C、C++、JAVA(登録商標)、JAVABEANS(登録商標)、PERL、RUBYなどのプログラミング言語を使用して実装される、CGI、サーブレット、APACHE、IIS(Internet Information Server)などのサーバ・プログラムを実行し、クライアント110~114から送付される検索要求、すなわちオリジナル・リクエストを処理する。
 なお、マッシュアップ・サーバ130の特定の実装形態では、マッシュアップ・サーバ130を、企業などのゲートウェイ・サーバなどの一部機能として実装することができる。また、他の実施形態では、マッシュアップ・サーバ130は、Web2.0などのパラダイムに基づいたサービスを行う、ISP(Internet Service Provider)に設置されていてもよい。さらに、ウェブ・サーバ150~154は、それぞれ、データベース160~164を管理していて、ネットワーク140を介したリクエストに対応して情報を提供することが可能とされている。説明する実施形態では、サーバ150は、会社情報サービス提供サーバとして実装され、サーバ152は、株価情報サービス提供サーバとして実装されている。ウェブ・サーバ154は、地図情報サービス提供サーバとして実装されていて、マッシュアップ・サーバ130からの個別的な要求を処理し、マッシュアップ・サーバ130に送付する。
 クライアント110~114は、それぞれ複数のアプリケーション・サービスを利用して情報を取得し、例えば、クライアント110は、自己が発行したオリジナル・リクエストに対応する情報をマッシュアップ・サーバ130を介して取得する。マッシュアップ・サーバ130は、複数のウェブ・サーバ150~154からの情報をクライアント110に対応付けて格納し、複合情報としてクライアント110に提示する。
 例えば、クライアント110が、特定の企業情報、株価情報、および地図情報を同時に取得することを希望する場合、マッシュアップ・サーバ130は、例えばクライアント110から送付されるオリジナル・リクエストに基づいて、各アプリケーション・サービスを提供するウェブ・サーバ150~154に送付するための拡散リクエストを生成し、それぞれのウェブ・サーバ150~154に宛てて拡散リクエストを送付し、拡散リクエストに対応して取得した情報からオリジナル・リクエストに対応する結果を取得し、複合情報として例えばウェブ・ページに合成してクライアント110に送付する。
 本実施形態で参照する用語「拡散リクエスト」とは、クライアントが発行するオリジナル・リクエストが含む検索対象の種類に対応し、検索対象の属性ごとに生成されるウェブ・サーバ150~154に宛てて送付されるリクエストを意味する。拡散リクエストは、ウェブ・サーバが、アクセス・ログを利用して統計的にデータマイニングすることで、オリジナル・リクエストの特性を解析することを困難とするように生成される、ダミー値を含む単一のリクエストまたはリクエスト・セットとして生成される。
 クライアント110~114は、パーソナル・コンピュータまたはワークステーションなどを使用して実装でき、また、そのマイクロプロセッサ(MPU)は、これまで知られたいかなるシングルコア・プロセッサまたはマルチコア・プロセッサを含んでいてもよい。また、クライアント110~114は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MAC OSなど、これまで知られたいかなるオペレーティング・システムにより制御されてもよい。また、クライアント110~114は、マッシュアップ・サーバ130や、ウェブ・サーバ150~154にアクセスするため、Internet Explorer(登録商標)、Mozilla(登録商標)、Opera(登録商標)、FireFox(登録商標)などのブラウザ・ソフトウェアを実装することができる。
 クライアント110~114と、マッシュアップ・サーバ130およびマッシュアップ・サーバ130と、ウェブ・サーバ150~154の間は、TCP/IPなどのトランザクション・プロトコルを使用するHTTP、HTTPSなどのファイル転送プロトコルでテータ送受信が行われる。また、マッシュアップ・サーバ130は、ウエブ・サーバ150~154のデータベースにアクセスするために、JDBC(Java(登録商標)Database Connectivity)、ODBC(Open Database Connectivity)などを実装し、JDBCなどで定められるアプリケーションレベル・プロトコルで、ウェブ・サーバ150~154に接続することができる。
 図1に示す実施形態では、クライアント110が発行したリクエストは、マッシュアップ・サーバ130により一旦インターセプトされる。そして、マッシュアップ・サーバ130は、過去のリクエスト・ログを参照して統計処理する。統計処理の結果、マッシュアップ・サーバ130は、当該リクエストが含む取得するべき情報を指定するための検索値がリクエストの履歴から判断して特定の検索意図を反映してしまうと判断すると、拡散リクエストを生成し、拡散リクエストを、検索対象の情報を管理するウェブ・サーバ150~154に発行する。各ウェブ・サーバ150~154は、拡散リクエストを受領して、それぞれが管理するデータベース160~164を検索し、リクエストに対応する情報を抽出し、マッシュアップ・サーバにレスポンスとして返す。マッシュアップ・サーバ130は、ウェブ・サーバ150~154から受領したレスポンスから、当該レスポンスを同時にデスクトップ画面上に表示するための表示領域を有するウェブ・ページを構成し、それぞれのレスポンスを表示領域に割り当てて表示させることによってリクエストの発行元のクライアント110にブラウジングさせている。
 図2は、本実施形態の第2の実施形態のウェブ・システム200を示す。図2に示したウェブ・システム200は、複数のクライアント210~214が、ウェブ・ブラウザの、例えばプラグイン・プログラムやアドインプログラムなどの拡張アプリケーションとして実装されるマッシュアップ・アプリケーションを実装する。その代わりに、ウェブ・システム200では、とりわけマッシュアップ・サーバ130といった専用サーバは利用されていない。図2に示す実施形態では、図1のマッシュアップ・サーバ130の機能は、クライアント210~214の機能として実装され、オリジナル・リクエストから、各ウェブ・サーバ230~234へと発行される拡散リクエストを生成し、ウェブ・サーバ230~234へと拡散リクエストを発行し、各拡散リクエストに対応する検索結果をフィルタリングして複合情報としてブラウザ・プログラムに表示する。
 一方、ウェブ・サーバ230~234は、図1で示した実施形態と同様の構成とされていて、クライアント210などからの拡散リクエストに応答して、検索した情報をクライアント210などに返している。
 本実施形態では、拡散リクエストを単一のリクエストとして生成する場合には、ダミー・リクエストの検索対象を指定する検索値を演算子ORで結合して生成する。また拡散リクエストをリクエスト・セットとして生成する場合には、アクセス・ログを統計的に均一化させる、例えば検索対象の発生頻度をホワイトノイズ化させるようにダミー値を含む複数のダミー・リクエストを含むリクエスト・セットを生成する。いずれの場合でも、ダミー・リクエストは、リクエスト・ログを参照し、クライアント側の検索意図がウェブ・サーバでのデータマイニングにより抽出されてしまうことを防止するように、検索の対象ごとのタイムスケールに関して、平均化するようにリクエスト内容を選択する。なお、拡散リクエストは、検索するべき情報の属性に対応して、オリジナル・リクエストを含んでも良いし、オリジナル・リクエストをまったく含まなくともよい。
 図3は、本実施形態の拡散リクエストを生成する情報処理システム300の機能ブロックを示す。図3に示す情報処理システム300は、図1の実施形態では、マッシュアップ・サーバ130に対応し、図2に示す実施形態では、クライアント210~214に対応する。各実施形態では、各機能ブロックが、サーバ・アプリケーションとして実装されるか、またはクライアント・アプリケーションとして実装されるかの相違はあるものの、情報処理システム300の各機能ブロックは、マイクロプロセッサが、情報処理装置を各機能手段として機能させるためのプログラムを実行空間であるRAMに読み込んでプログラムを実行することにより実現されている。
 図3に示すように、情報処理システム300は、情報処理装置310と、ディスプレイ装置、キーボードおよびマウスなどを含む入出力装置330とを含んで構成されている。情報処理装置310は、ネットワーク・アダプタ312を介してネットワーク140、220へと拡散リクエストを送出し、拡散リクエストに対応するウェブ・サーバからのレスポンスを取得している。情報処理装置310は、さらに、リクエスト取得部314と、拡散リクエスト生成部316と、ダミー生成情報格納部322とを含んでいる。さらに、情報処理装置310は、情報処理装置310がウェブ・サーバに送ったリクエストを時系列的に格納するリクエスト・ログ328を含んでいる。
 リクエスト取得部314は、情報処理装置310がマッシュアップ・サーバ130として実装される実施形態では、ネットワーク120を介してクライアント110~114からのオリジナル・リクエストを取得する。また、情報処理装置310がマッシュアップ・サーバ130を介さずにウェブ・サーバ230~234に対してアクセスする場合、入出力装置330を介してオペレータが入力する検索条件を含むオリジナル・リクエストを取得する。拡散リクエスト生成部316は、リクエスト・ログ格納部328を参照し、リクエスト取得部314が取得したオリジナル・リクエストの内容について、過去のリクエスト・ログにおける特異性を判断する。
 拡散リクエスト生成部316は、当該判断結果に対応し、拡散リクエストを生成するために使用するダミー値をダミー生成情報格納部322から取得し、特異性評価部324により特定の検索対象が特異的ではないと判断されるまでダミー値を取得して拡散リクエストに含ませてダミー・リクエストを生成する。なお、オリジナル・リクエストの特異性の判断は、マッシュアップ・サーバ130またはクライアント210~214が、管理するリクエスト発行に関連して特定のタイムスケールにおける検索対象の出現回数について設定されるしきい値などを使用して行うことができる。さらに、情報処理装置310の処理能力に応じてさらに高度な統計処理を行って決定することもできる。
 本実施形態では、拡散リクエスト生成部316が生成する拡散リクエストは、ウェブ・サーバ150、152、154が処理するべきデータの属性により異なる処理によって作成される。拡散リクエストは、本実施形態では、各ウェブ・サーバ150~154が管理するアクセス・ログの特定の対象に関連する時系列的なしきい値的挙動を、統計的に解析困難とするために生成される。検索する対象情報は、特に限定されるものではないが、本実施形態では、検索の対象とする情報を、連続的属性を有する情報と、離散的属性を有する情報とに分類する。
 上述した連続的属性を有する情報とは、検索対象とする情報を特徴付けるための値、例えば位置座標、経度、緯度、標高、時間、期間などの値が、検索対象とするデータを除く同質の情報からの外挿、補間、移動などの予め設定された演算によって取得できる属性を有する情報である。より例示的には、連続的属性を有する情報としては、位置座標や緯度・経度データなどを挙げることができる。
 一方、上述した離散的属性を有する情報とは、他の同質の情報とは独立してデータが変動する可能性を有し、検索対象のデータに直接アクセスしてデータを取得することが必要な属性を有する情報として定義する。より例示的には、離散的属性を有する情報としては、企業の株価情報、業績情報、M&A(Mergers and Acquisitions)情報、その他企業活動や集団の活動に関連する情報を挙げることができる。
 ダミー生成情報格納部322は、データベースまたはテーブルとして実装でき、リクエストが要求する情報の属性に対応して、例えば、企業名、住所、緯度・経度情報などを対応付けて登録することができる。また、他の実施形態で、取得するべき情報が特定企業の株価、業績、製品、トピックスなど離散的である場合、情報の属性ごとにオリジナル・リクエストの特異性を低下させるため、カテゴリごとにダミー値として利用することができる情報を登録しておくことができる。
 特異性評価部324は、オリジナル・リクエストを受領してリクエスト・ログの解析を行ない、受領したオリジナル・リクエストがリクエスト・ログのアクセス情報の平均値から逸脱する場合、ダミー生成情報を参照して、オリジナル・リクエストがリクエスト・ログから判断して特異的とはならないようになるまで、拡散リクエスト生成部316によるダミー値を含むダミー・リクエストを含む拡散リクエストの生成を実行させる。
 情報処理装置310は、検索要求発行部318と、検索結果抽出部320とを含んでいる。検索要求発行部318は、オリジナル・リクエストおよびダミー値を含んで生成したダミー・リクエストをそれぞれSQLクエリーにセットし、ネットワーク140、220を介してウェブ・サーバに発行する。なお、拡散リクエスト生成部316は、取得するべき情報が連続的かまたは離散的かの属性に応じて、検索要求発行部318に対して、オリジナル・リクエストで指定された値を渡すか否かを判断する。
 より具体的には、例えば、オリジナル・リクエストが、数値データ・セット、ベクトルなどとして記述される連続的属性を有する情報を要求する場合、オリジナル・リクエストで指定された値を検索要求にセットせずとも、外挿、補間、または相対差分を利用することにより、オリジナル・リクエストで指定された情報を取得することが可能である。このため、ダミー・リクエストは、連続的属性を有する情報の場合、対象情報ではなく、対象情報に対してウェブ・サーバ154がクライアントからの別のリクエストにより到達することができるように生成される。
 一方、情報が、株価情報や企業名、団体名、検索文字列などで指定される離散的属性を有する場合、目的とする情報を直接検索しなければ検索の目的を達成できない。このため拡散リクエスト生成部316は、オリジナル・リクエストに記述された値を使用して検索対象の情報と同質であって、検索対象とは異なる情報を要求するリクエストを生成し、これらをダミー・リクエストとして取得し、ダミー・リクエストをオリジナル・リクエストとともに検索要求発行部318に渡し、拡散リクエストを生成する。このため、検索結果抽出部320は、ダミー・リクエストのレスポンスとともにオリジナル・リクエストのレスポンスを受領する。
 検索結果抽出部320は、ウェブ・サーバから送付される検索結果を必要に応じてフィルタ処理し、入出力インタフェース/ブラウザ326を介して入出力装置330のディスプレイ装置に検索結果を表示する。また、情報処理装置310のオペレータは、検索結果としてマップなどを取得した場合、マウスなどで表示領域や縮尺を調整し、さらに相対移動リクエストなどを追加的に発行し、オリジナル・リクエストとして取得するべき情報にアクセスできるように逐次的に検索結果を更新する。
 図4は、本実施形態の情報処理方法のフローチャートである。図4の処理は、ステップS400から開始し、ステップS401で、オリジナル・リクエストを取得する。なお、オリジナル・リクエストは、図1の実施形態または図2の実施形態に応じて情報処理装置310がネットワーク120または入出力装置330から取得する。例えば、オリジナル・リクエストが企業情報、株価情報、および地図情報の情報取得を検索するための検索対象を、{C,S,G}として複合情報を取得するために生成されたものとする。情報処理装置310は、オリジナル・リクエストが含む検索要求を分離し、ステップS402で、特異性評価部324を呼び出して、まずオリジナル・リクエストが含む検索要求それぞれについて、時間的経過に関連して拡散されているか否かの判断を実行する。特異性評価部324が実行する処理については、より詳細に後述する。
 ウェブ・サーバに送るリクエストが、リクエスト・ログを使用した判断により内容的および時間的に拡散されていないと判断される場合(no)、ステップS403で、ダミー生成情報を参照して、拡散リクエストを生成し、再度、処理をステップS402に戻してリクエストの内容が拡散しているか否かを判断する。
 ステップS402の判断で、リクエストの内容がリクエスト・ログとの比較で拡散している、すなわち特異的ではないと判断された場合(yes)、ステップS404で、リクエストを送信する。
 ステップS405では、ウェブ・サーバからのレスポンスを受領したか否かを判断し、レスポンスの受領が完了していない場合(no)レスポンスの受領が完了するまで処理を反復する。一方、ステップS405でウェブ・サーバからのレスポンスの受領を完了した場合(yes)、ステップS406で、情報処理装置310は、レスポンスをオリジナル・リクエストに対応してマージして、ブラウザで表示させる。なお、ステップS406の処理では、受領するデータの属性に応じて、ブラウジングするべきデータをフィルタする処理を含むことができる。クライアントのディスプレイ装置上にブラウジングが完了した段階で、処理は、ステップS407で終了し、以後のオリジナル・リクエストの入力を待機する。
 以下、本実施形態で、特異性評価部324が実行する処理の例示的な実施形態を説明する。図5には、例示的な目的で、オリジナル・リクエストが含む特定の検索対象に対するリクエスト・ログ500を示す。図5で縦軸は、オリジナル・リクエストが含む同一の検索対象に対するi(i=0,...,p:pは、非負の整数である。)番目のタイム・チャンク内での累積リクエスト数SNであり、横軸は、時間経過を示す。なお、タイム・チャンクは、オリジナル・リクエストの特異性を希釈する目的で、例えば、分単位、時間単位、1日単位、週単位、月単位など、適宜設定することができる。また、リクエスト・ログ500は、リクエスト発行の特定の単位ごとに生成して、蓄積することができ、リクエスト発行元の単位としては、クライアント単位、事業所単位、企業単位とすることができる。
 また、オリジナル・リクエストが同一の検索対象を要求しているか否かについては、企業情報であれば、同一の企業名のテキスト一致、株価情報であれば企業名または銘柄コードなどのテキスト一致などを利用して判断することができる。また、地図情報などの数値データで指定される検索対象については、特定の緯度・経度を中心として設定された経度・緯度の数値範囲内で一致することによって判断することができる。なお、地図情報の検索の場合、市街地かまたは非市街地かによって設定された緯度・経度範囲を変更することができる。指定されたに関連して特定範囲内に共通するランドマークが存在するか否かを使用して検索対象の同一性を判断してもよい。
 情報処理装置310は、リクエスト・ログ500の記録開始から、特定の検索対象についてオリジナル・リクエストとして発行された検索対象を、適切な処理間隔で与えられるタイム・チャンク単位で、検索対象ごとに発生数Nとして登録する。そして、現在リクエスト・ログ500を蓄積しているタイム・チャンクでは、注目している検索対象を含むオリジナル・リクエストの発生数を、オリジナル・リクエスト単位で検出する。
 特異性評価部324は、現在蓄積中のタイム・チャンクが終了した段階で、注目している検索対象のリクエストあたりの増加速度を検査し、当該タイム・チャンクが、リクエスト・ログ500において特異的となるか否かを予測して、現在判断しているタイム・チャンクTCでの検索対象の特性を判断する。図5に示されるように、リクエスト・ログの記録を開始した直後のタイム・チャンクでは、当該タイム・チャンクで発行されたどのオリジナル・リクエストでも特異的と判断され、拡散リクエストが生成される。
 一方、リクエスト・ログ500の記録の時間経過と共に検索要求の履歴が蓄積されるので、過去の履歴を含めて現在判断中の検索対象が特異的であるか否かを判断することが必要である。過去の履歴を考慮して特性を判断する場合、特定の検索対象について現在のタイム・チャンクTCまでのリクエストのタイム・チャンクTCにわたるリクエスト数の平均値Navと、現在のタイム・チャンクTCについて取得されることが予測されるリクエスト数をSNとして、例えば、下記式(1)で与えられる特異性指標SNが、平均値Navから、確率誤差以上大きくなったことを使用して判断することができる。
Figure JPOXMLDOC01-appb-M000001

 上記式(1)中、σerrorは、Navのタイム・チャンクにわたる検索対象についてのリクエスト数についての確率誤差であり、αは、確率誤差に対して乗じられる正の実数であり、好ましくは、α≧1である。また、Navは、下記式(2)で与えられ、現在記録中のタイム・チャンクが終了すると、順次更新される。
Figure JPOXMLDOC01-appb-M000002

 上記式(1)では、タイム・チャンクを識別する値pは、リクエスト・ログの記録につれて大きくなるが、特異性評価処理を開始する最初のタイム・チャンクは、特異点を形成する。当該特異点に対応するためp=0の場合については、常に検索値は特異的であるとして処理を開始する。また、現在のタイム・チャンクTC以前にまったくリクエストがなされていない場合であって、現在のタイム・チャンクTCで始めてSN個のリクエストが発行されることになる場合、にも常に特異的と判断されるが、p>0である限り、特異的な処理は行わず、上記式(1)にしたがって判定を行う。一方、過去に同一の検索対象がまったくないという可能性も少ない。このため、特定の検索対象への特定の検索意図を含まないリクエスト・ログは、タイム・チャンクにわたりNavを中心としてホワイトノイズとして近似できるとすれば、上記式(1)、(2)に替えて、SPを2項分布で与えられる確率密度関数および分散を使用して定義することができる。さらに、検索対象間に関連性が想定される場合には、リクエスト・ログ500が、多次元正規分布となるものと仮定し、多次元正規分布および分散共分散行列などを使用して検索対象の相関的特異性を判断してもよい。
 また、本実施形態の特異性評価部324は、図5中、最後のタイム・チャンクは、現在リクエスト・ログを記録中のタイム・チャンクであり、現在の時点で、特定の検索対象を指定する検索値は、SNcurrentまで蓄積されている。この増加レートで、タイム・チャンク終了時まで増加すると、SNpredictまで発生数が増加することを予測し、当該予測に基づいて上記式(1)を使用して、特異的であるとして判断する。本実施形態の予測判断の実施形態については、より詳細に後述する。
 図6は、本実施形態で、特定のタイム・チャンク内での特定の検索対象を含むオリジナル・リクエストの増加レートから、現在リクエスト・ログ500を蓄積しているタイム・チャンクでの検索対象の特性を判断する処理の実施形態を示す。図6では、縦軸にオリジナル・リクエストが含む検索対象のタイム・チャンクTC(m=0,2,3,...,n)での累積数を示し、横軸が、リクエスト・ログ600の時間経過を示す。さらにリクエスト・ログ600は、検索対象C、S、N、Oとしてそれぞれ個別的に検査されている。各タイム・チャンクでの累積数は、バーで示されており、黒でハッチングされたバーは既に記録が終了しているタイム・チャンクである。
 図6中、特定の検索対象に対してリクエスト・ログ600上で特異的として判断されるタイム・チャンクについては、バー上に黒三角を付して示している。黒三角でマークした検索対象は、過去に要求がなされておらず、黒三角で示したタイム・チャンクで初めて検出されたものである。また、白抜きのバーで示したタイム・チャンクは、現在累積中のタイム・チャンクである。
 当該タイム・チャンクの特定の検索要求がタイム・チャンク終了時に特異的であることが判断されたとしても、既にオリジナル・リクエストは発行されているので、ウェブ・サーバ150などは、アクセス・ログを解析して、オリジナル・リクエストの発行元の検索意図を判断することが可能となる。
 本実施形態では、オリジナル・リクエストをウェブ・サーバ150~154に送付する前に特異性評価部324がオリジナル・リクエストをインターセプトし、個別の検索要求の内容を判断する。このことは、情報処理装置310が取得したオリジナル・リクエストが特定のタイム・チャンク内での検索対象の増加レートを判断することを可能とする。すなわち、特異性評価部324は、特定の検索対象を指定する検索値をタイム・チャンク内で積算し、オリジナル・リクエストの全数に対する増加レートを計算し、タイム・チャンクの終了時まで、直線補外、多項式補外、指数補外など適切な方法で補外し、補外した結果を、現在蓄積中のタイム・チャンク内で積分して、発生数を予測する。図6中最終タイム・チャンクで累積中の検索対象Oは、当該タイム・チャンクが終了した時点では特異的として判断されることを示す目的で白△を付して示している。当該予測に基づいた推定数が上記式(1)を満たすと判断される場合に、拡散リクエストの生成を、拡散リクエスト生成部316に指令し、特異性レベルの希釈処理を開始させている。
 当該処理は、図6中、検索対象Oについて、示されており、現在処理中のタイム・チャンク内で、現在までに累積された発生数SNcurrentは、特異的と判断されないものの、現在の増加レートでタイム・チャンクの終了時まで累積されるとすると、SNpredictの値となることが予測され、SNpredictは、特異的と判断されることになることを示す。この結果、現在蓄積中のタイム・チャンク内で特異性レベルを予測評価することになるので、タイム・チャンクのリクエスト・ログ記録中に当該タイム・チャンク内での特異性希釈処理を行うことが可能となり、緩やかな情報漏洩を未然に防止できる。
 本実施形態の拡散リクエスト生成部316は、オリジナル・リクエストが含む検索対象の特異性を個別的に判断し、検索対象が特異的であると判断した場合、拡散リクエストを生成する。拡散リクエストは、検索対象とする情報が、リクエスト・ログ500から見て特異的ではなくなるように、オリジナル・リクエストを修正することにより生成される。オリジナル・リクエストの修正は、例示的な実施形態では、下記のように行うことができる。
 ○地図情報などの数値データでリクエストが発行される場合、検索対象が同一であると判断される数値範囲を超えてランダムに数値データを修正したダミー値を含む単一または複数のダミー・リクエストを生成する。さらに好ましい実施形態では、緯度・経度に関連してフーリエ変換した場合に周波数スペクトルが均等になるように複数のダミー値を選択して、拡散リクエストにセットする。ただし、実際問題としては、周波数スペクトルがある程度均等になっていれば、データマイニングが困難になると考えられるので、必ずしも周波数スペクトルを完全に均等化する必要はない。
 ○企業情報や株価情報など直接該当する値を取得しなければならない属性の情報の場合、ダミー生成情報格納部322から、特異的であると判断された検索対象の企業や、株式銘柄などと同一の業種に区分される企業名、株式銘柄、銘柄コードをランダムに抽出し、区分内で、リクエストの発生数をホワイトノイズ化させるように適切な数のダミー情報を取得し、ダミー・リクエストを生成する。
 ○ダミー・リクエストは、オリジナル・リクエストと同一の検索値のセットとして構成することもできるが、情報処理装置310からは個別的にデータベースにアクセスすることになるため、ダミー・リクエストは、単一の検索値を含む検索要求として生成することができる。生成されたダミー・リクエストは、検索の真の目的となる検索値を含めてランダムに選択され、各別に対応するデータベース160~164、240~244などに送付される。
 図7は、図5および図6で示されるリクエスト・ログ500に対し、本実施形態による拡散リクエストを発行した後に例えばウェブ・サーバ150が記録するアクセス・ログ700の実施形態を示す。情報処理装置310は、特定の検索対象ごとに会社情報提供サーバ150に送付されるリクエスト数を、特定のタイム・チャンクごとに検出し、積算しながら、オリジナル・リクエストが含む検索対象の統計的特異性を判定する。検索対象が特異的と判定された場合、情報処理装置310は、ダミー・リクエストを発行し、検索対象の特異性を希釈させ、ウェブ・サーバ150側で特定の発行元に対してアクセス・ログを解析しても図7のように、特定の検索値が突出した傾向を示すことが無いように、アクセスの特異性を希釈、すなわちホワイトノイズ化させているのが示される。
 情報処理装置310は、真リクエストTRに対するダミー値とされるべき検索対象がオリジナル・リクエストに含まれる場合についても、ウェブ・サーバ150が特定の情報処理装置310からのアクセス・ログとして蓄積された場合にアクセス・ログをホワイトノイズに近づけるように、ダミー・リクエストが生成されている。なお、真リクエストとは、オリジナル・リクエストに含まれる検索値であって、検索者の特定の意図を反映したリクエストを意味する。情報処理装置310は、タイム・チャンクTCで真リクエストTRが特異的であると判断すると、特異性が希釈されるような検索対象をダミー生成情報格納部322から抽出し、ダミー・リクエストDR(Dummy Request)にセットする。
 図8は、本実施形態で、特定の数値データに関連付けられた情報を検索する場合の、オリジナル・リクエストの取得からリクエストの発行までの処理の詳細フローチャートである。例えば、図8が適用される情報は、位置座標などの数値データ・セットに特徴付けられる地図データや、数値データにより指定される情報が連続する情報であれば、適用することができる。図8の実施形態では、入力値は、例えば、経度・緯度などの値として入力することもできるし、企業名、地名などとして入力することができる。オリジナル・リクエストが企業名、地名、住所などとして入力される場合には、ダミー生成情報格納部322が格納する緯度経度データに置換して処理を実行することができる。
 図8の処理は、図4のステップS402、S403の詳細を示したもので、ステップS401でオリジナル・リクエストを取得した後に開始され、ステップS800では、
Figure JPOXMLDOC01-appb-M000003

を満たすcx、cyを関数rnd()などを使用して生成する。上記式(3)中、(x、y)は、オリジナル・リクエストの指定する数値データであり、w、hは、数値データの範囲を指定する値である。なお、cx、cyは、乱数により生成される数値データであり、経度および緯度の値などに対応する。また、gx、gyは、過去の履歴を含めた座標の重心点(平均座標)である。
 ステップS801では、タイムステール・インデックスtiを0に初期化する。なお、タイムスケール・インデックスtiは、分単位、時間単位、日単位、月単位などで規定され、どの程度過去まで遡ってオリジナル・リクエストが特異的ではないかを判断するタイムスケールを規定する。具体的には、t0が、1分、t1が、1時間、t2が、1日のタイムスケールの間に発行されたリクエスト・ログを参照することを指定する。なお、t3、t4として、月単位または四半期単位でのリクエスト・ログを参照することもできる。
 ステップS802では、tiがta配列の要素数を超えるか否かを判断し、ti<taの配列の要素数よりも小さい場合(yes)、ステップS803で、ta[ti]時間分の過去の履歴の履歴座標群と、cx、cyから、新規な中心点gx、gyの座標を、座標群の値の平均値を使用して計算する。ステップS804では、(x、y)と、(gx、gy)の距離Lを計算する。検索値が座標群として与えられる場合、このLおよびLについてのリクエストの発生数が、オリジナル・リクエストの特異性の尺度を与え、それぞれ確率誤差などとして統計処理される。なお、本実施形態で使用する距離Lは、ユークリッド距離でも良いし、マンハッタン距離でも良いし、さらに特徴座標軸で規定される特徴値の間に定義される適切な位相的距離とすることもできる。
 ステップS805では、距離Lがオリジナル・リクエストが特異的でないと想定される値である閾値以下であると判断された場合(yes)、ステップS806でタイムスケール・インデックスtiを1だけインクリメントした後、処理をステップS802に戻し、さらに他のタイムスケールでの特異性を判断する。一方、ステップS805で距離Lが閾値以下ではない場合(no)、処理をステップS800に戻し、追加のcx′、cy′を生成し、距離Lが、閾値以下となるまで、計算を反復する。
 ステップS802で、設定しているタイムスケール・インデックスの計算が終了すると(no)、設定するタイムスケールのどの期間についても特異的ではないのでステップS404に制御を渡し、検索クエリーに、{(cx、cy)}のセットとして数値データを設定し、拡散リクエストとして発行する。なお、当該実施形態では、情報は、数値的に連続性を有しているので、オリジナル・リクエストの値である(x,y)には拡散リクエスト内に含まれない。
 図8の処理を実行することにより、オリジナル・リクエストとして指定された数値データをウェブ・サーバに送付することなく、オリジナル・リクエストとして取得した情報を情報処理装置310が取得することが可能となる。図8の処理は、情報が数値データで指定でき、位相的に連続する属性を有している場合、効果的に適用することができる。図8が適用される好適な実施形態としては、地図検索などを挙げることができる。さらに本実施形態の好ましい他の実施形態として、抽出された(cx、cy)のセット内に、(x、y)ではない特定のランドマークの位置座標に丸められるデータがある場合、当該ランドマークを(w、h)で与えられる領域に配置して検索された情報を表示することができる。
 図9は、図8で説明した処理のうち、S803~S805の処理の疑似コードを示す。疑似コードのブロック900が、ステップS804およびS805の処理に対応し、疑似コードのブロック910が、図8のステップS803の処理に対応する。なおブロック910中、変数=リスト.含まれる要素数()は、tiで指定されるタイムスケール内に含まれるリクエスト・ログの要素の数である。
 図10は、本実施形態の情報検索方法の第2の実施形態のフローチャートであり、図4のステップS402~S405に対応している。図10の実施形態は、検索対象の情報が離散的な属性を有している場合に好適に適用することができる。図10の処理は、ステップS401でオリジナル・リクエストを取得した後、ステップS1000から開始する。なお、図10で使用する記号は、下記表1の通りに定義される。
Figure JPOXMLDOC01-appb-T000004

 ステップS1000では、配列k[]からknに一致する属性のインデックス値を取得し、変数tiに設定する。ステップS1001では、ダミー・リクエストとして抽出するべきアクセス候補数をnullに初期化し、インデックス値tiに対応するアクセス回数をカウント1に設定し、アクセス候補インデックス配列のインデックス=0の値として、tiを設定する。その後、アクセス候補数を1インクリメントする。ステップS1002では、d=|{Avg(ac[0],ac[n-1])-ac[ti]|を計算し、アクセス回数の平均値からの差分を計算する。
 ステップS1003では、|d|が閾値以下であるか否かを判断し、閾値以下でない場合(no)ステップS1004で、ダミー・リクエストとして抽出するべき属性名を指定するインデックス値を与え、0≦dc≦N-1、dc≠tiであり、かつ既抽出のものではないという条件を満足する整数値dcをrnd()関数などを使用して生成する。なお、しきい値には、式(1)で説明したリクエスト・ログの確率誤差を使用することができるが、特異性を判断するために異なる基準を使用する場合、対応した適切なしきい値を設定することができる。
 ステップS1005では、アクセス回数配列ac[]の、インデックス値dcに対応する値を更新し、アクセス候補インデックス配列c[ci]の値にインデックス値dcを設定し、アクセス候補数のカウンタciを1だけインクリメントし、処理をステップS1002に戻し、ステップS1003の判断で肯定的な値が返されるまで、上述した処理を反復する。
 一方、ステップS1003で|d|が閾値以下であると判断された場合(yes)、処理をステップS1006に分岐させ、ステップS1006で配列c[]のciこの要素をランダムにソートし、アクセス候補の抽出履歴を消去し、ステップS1007でループインデックスiを、0に初期化する。その後、ステップS1008で、ループカウンタiが、ci未満である場合(yes)、ステップS1009でk[c[i]]を拡散リクエストを構成するリクエストの検索文字列に設定し、ウェブ・サーバへのアクセスを実行する。ステップS1010では、c[i]が、tiに等しいか否かを判断し、c[i]==tiの場合(yes)、ステップS1012でループカウンタを1だけインクリメントし、処理をステップS1008に分岐させ、ステップS1008で否定的結果が返されるまでダミーアクセスを実行させる。
 また、ステップS1010で、c[i]==tiではない場合(no)、ステップS1011でアクセス結果を保存し、ステップS1012に処理を分岐させて再度、ステップS1008で否定的な値が返されるまで処理を反復する。ステップS1008で否定的な結果が返された場合(no)、制御をステップS406に渡し、図10の処理を終了する。なお、図10の処理では、アクセスしたい目的属性名については図10の処理以外で行うものとして説明するが、ステップS1010の処理を省略して、アクセス実行した結果を全部保存することにより、図10の処理内で、アクセスするべき全部のアクセス候補の処理を完了させてしまうこともできる。
 さらに、ステップS1003の判断においても、図8のステップS803で説明したように平均値を計算するタイムスケール・インデックスを使用して、アクセス履歴を拡散させるタイムスケールにわたり、アクセス履歴を拡散させることができる。
 図11は、図10に示した処理を実行する疑似コードの実施形態である。ブロック1100が図10の処理ステップS1003に対応し、ブロック1110が図10のブロック1020の処理に対応する。なお、図11の疑似コードでは、検索対象の属性名についてのアクセス実行は、ブロック1110が終了した後に実行される実施形態として記述されているが、図10で説明したように、ブロック1110の処理ループ内で実行させることにより、さらにデータマイニング耐性を向上させることができる。
 図12は、地図データの検索を行う場合の実施形態で生成される拡散リクエストの内容の拡散状態を示す。図12の縦軸および横軸は、表示領域のそれぞれ縦横幅w、hに相当する。また、図12(a)~図12(c)は、それぞれ乱数発生の初期条件が異なる場合の拡散状態の変化を示している。図12に示すように、拡散リクエストは、オリジナル・リクエストとして与えられる対象座標である(0,0)から充分に離れた位置座標を含み、拡散リクエストを構成するダミー・リクエストのポイントが充分ランダムに分布しているのが示され、リクエストのデータマイニング耐性を向上させることができることを示す。
 図13は、本実施形態のウェブ・システムが表示する検索画面1300の実施形態を示す。図13は、本実施形態による情報検索の実施形態を、リクエストの内容が、数値データとして設定され、連続性を有する情報に対して適用する場合の検索を実施形態として示す。図13に示した実施形態では、ランドマーク1312が検索対象である。本実施形態のウェブ・システムでは、情報処理装置310のオペレータが、検索対象1312の位置座標や会社名などを入力する。当該位置座標や会社名が入力されると、情報処理装置310は、当該検索対象1312が、リクエスト・ログの履歴解析から特異的なアクセスであるか否かを、図8に示した処理を使用して判断する。
 説明する実施形態では、情報処理装置310は、検索対象1312へのアクセスが特異的であると判断し(|d|>しきい値)、説明する実施形態ではアクセス候補として抽出した位置座標のうち、ランドマーク1314として登録されている位置座標に対応するリクエストのレスポンスをフィルタして地図イメージ1310を表示させる。なお、情報処理装置310が発行する拡散リクエストは、図8の処理にしたがって生成されたリクエスト・セットとして発行され、検索対象1312に関連するリクエストのデータマイニング耐性を向上させている。
 地図イメージ1310を取得したユーザは、マウスなどを使用して地図データをスクロールし、例えば公園などのランドマーク1316に移動させ、検索対象1312を中心付近に移動させることで地図データ1320を表示させる。なお、地図データは、2次元平面上に連続して登録されているので、地図データのスクロールは、リクエストのように検索対象を特定する値を含まず、デフォルトの地図データに対して移動させるための相対値が送信されるので、検索対象1312を特定するデータは、ウェブ・サーバに送信されず、データマイニング耐性に影響を与えることはない。
 図14は、本実施形態で、検索対象が離散的な属性を有している場合の実施形態を示す。図14に示した実施形態では、マッシュアップ・サーバ130が複数のウェブ・サーバから取得した情報がマッシュアップされて、1つのデスクトップ画面1400として提供されている。図14に示す実施形態では、検索を行うオペレータは、Los Angelsにある特定企業「FGH」の株価情報を取得する意図を持って検索を実行する。図14に示す実施形態で、オペレータは、FGH、株価、地図、トピックスなどの検索文字列を入力するが、マッシュアップ・サーバ130は、オペレータの入力するオリジナル・リクエストをそのまま送付しない。その代わりに、マッシュアップ・サーバ130は、ダミー生成情報格納部322に格納されている企業情報およびリクエスト・ログを参照して検索対象の企業「FGH」以外に株価などの情報を取得する企業名をアクセス候補として取得し、拡散リクエストとしてウェブ・サーバに検索要求を発行する。
 上述した処理によって取得された検索結果は、図14で説明する実施形態では、フィルタされずに全部取得され、表示フレーム1410にランダムに送付したリクエストに対応する順の検索結果リストとして表示される。表示フレーム1410に示すように、検索対象の企業「FGH」についても検索結果が得られているが、他の企業情報の検索リクエストとともに検索結果が得られるので、リクエストにおける検索対象の企業名「FGH」について、アクセス・ログにおける相対重みが低下されている。また本実施形態にしたがい、リクエスト・ログの統計的に処理された拡散リクエストがウェブ・サーバに送付されるので、リクエストを受け付けたウェブ・サーバにおけるアクセス・ログの解析のためのデータマイニングに対する耐久性を向上させることができる。
 なお、表示フレーム1420、表示フレーム1430、表示フレーム1440には、表示フレーム1410の検索結果リストで、現在オペレータが選択している検索結果に対応する、地図上の位置、株価変動、トピックスが表示されている。オペレータが表示フレーム1410の検索結果として他の検索結果を選択することによって、各表示フレーム1420、1430、1440内の表示内容は他の検索結果の選択に連携して変更され、複数のウェブ・サーバからの独立した情報を効率的に提示することが可能とされている。
 図15は、本実施形態の情報処理方法によって、アクセス・ログからの緩やかな情報漏洩を防止するためのデータマイニング耐性向上の作用効果を説明するため、拡散リクエスト発行の結果として生成されるアクセス・ログ1500を示す。図15において、アクセス・ログ1510は、本実施形態の拡散リクエストを使用しない場合の特定のウェブ・サーバにおける実施形態であり、アクセス・ログ1520は、本実施形態の拡散リクエストを適用する場合の、特定のウェブ・サーバにおける実施形態を示す。なお、縦軸は、特定の期間内でのアクセス・ログを、検索文字列ごとに合計したアクセス数であるものとする。
 また、説明の便宜上、企業名としてA社、B社、C社、D社が拡散リクエストに追加される企業名であるものとして説明する。なお、検索対象の企業名は、C社であるものとする。
 アクセス・ログ1510では、オペレータが入力する検索対象の企業名がそのままウェブ・サーバに送信されてしまうので、検索対象の企業名であるC社を含むリクエストが突出してアクセス・ログとして記録される。このため、ウェブ・サーバ側では、アクセス・ログを時系列的にデータマイニングすることにより、特定のエンタープライズや個人の検索対象の変遷をトレースすることが可能となる。例えば、特定の日時以後にC社へのアクセス数が増加する場合、検索者は、当該特定の日時以後にC社に関心を持ったということが、ウェブ・サーバを運営するサイトに漏洩し、例えばTOB(TakeOver Bid)や合併といった重要な情報が、緩やかに漏洩する可能性を低下させる。
 アクセス・ログ1520は、本実施形態の拡散リクエストを使用する場合にウェブ・サーバ側で生成されるアクセス・ログを示す。本実施形態では、リクエスト・ログを統計処理して拡散リクエストを生成し、ウェブ・サーバに対してリクエスト・セットを発行する。この結果、特定の特異性を規定するしきい値|d|の範囲に各社へのアクセス頻度がレベリングされ、アクセス・ログに対するデータマイニング耐性を向上させることが示される。図15では、企業名を例示的に説明するが、本実施形態では、この他にも、地理/地域名、製品名、年齢、性別、集団名、SNSなどにおける特定文字列など種々の情報について適用でき、それぞれ市場調査、将来動向、企業アクティビティ、ネットワーク・アクティビティに関連する検索意図について、緩やかな情報漏洩を防止することができる。
 なお、本発明を発明の理解を容易にするために各機能手段および各機能手段が実行する処理として説明したが、本発明は、上述した特定の機能手段が特定の処理を実行する他にも、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能手段に上述した処理を実行するための機能を割当てることができる。
 本発明の上記機能は、C++、Java(登録商標)、JavaBeans(登録商標)、JavaApplet(登録商標)、JavaScript(登録商標)、Perl、Rubyなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。
100…ウェブ・システム、110~114…クライアント、120…ネットワーク、130…マッシュアップ・サーバ、140…ネットワーク、150~154…ウェブ・サーバ、160~164…データベース、200…ウェブ・システム、210~214…クライアント、220…ネットワーク、230~234…ウェブ・サーバ、240~244…データベース、300…情報処理システム、310…情報処理装置、312…ネットワーク・アダプタ、314…リクエスト取得部、316…拡散リクエスト生成部、318…検索要求発行部、320…検索結果抽出部、322…ダミー生成情報格納部、324…特異性評価部、326…入出力インタフェース/ブラウザ、328…リクエスト・ログ格納部、330…入出力装置

Claims (20)

  1.  ネットワークを介して情報を取得する情報処理装置であって、前記情報処理装置は、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部と、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部と
     を含む、情報処理装置。
  2.  前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、データマイニング耐性を付与する、請求項1に記載の情報処理装置。
  3.  前記検索要求発行部は、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行する、請求項2に記載の情報処理装置。
  4.  前記検索要求発行部は、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行する、請求項2に記載の情報処理装置。
  5.  前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させる、請求項4に記載の情報処理装置。
  6.  前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異性評価部は、複数の前記検索値ごとに前記特異性を判定し、前記検索値ごとに前記ダミー・リクエストを生成して、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行する、請求項5に記載の情報処理装置。
  7.  前記情報処理装置は、前記データベースからのレスポンスを受領して前記オリジナル・リクエストが含む前記検索値にそれぞれ対応するレスポンスを表示する表示領域を生成し、前記レスポンスを表示させる、請求項6に記載の情報処理装置。
  8.  前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバである、請求項7に記載の情報処理装置。
  9.  ネットワークを介して情報を取得する情報処理方法であって、前記情報処理方法は、情報処理装置が、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するステップと、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断するステップと、
     前記特異的であるか否かを判断するステップにおいて前記検索値について特異的であると判断された場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成するステップと、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行するステップと、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出するステップと
    を実行する情報処理方法。
  10.  前記拡散リクエストを生成するステップは、前記検索値の前記リクエスト・ログにおける前記特異性を低下させるためのダミー値をダミー生成情報格納部から取得し、ダミー・リクエストにセットするステップを含む、請求項9に記載の情報処理方法。
  11.  前記拡散リクエストを発行するステップは、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行するステップを含む、請求項10に記載の情報処理方法。
  12.  前記拡散リクエストを発行するステップは、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行するステップを含む、請求項11に記載の情報処理方法。
  13.  前記特異的であるか否かを判断するステップは、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記ダミー・リクエストの生成を開始させるステップを含む、請求項12に記載の情報処理方法。
  14.  前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異的であるか否かを判断するステップは、複数の前記検索値ごとに前記特異性を判定するステップを含み、
     前記拡散リクエストを生成するステップは、前記検索値ごとに前記ダミー・リクエストを生成するステップと、
     前記拡散リクエストを発行するステップは、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行するステップを含む、請求項13に記載の情報処理方法。
  15.  前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバである、請求項14に記載の情報処理方法。
  16.  情報処理装置がネットワークを介して情報を取得する情報処理方法を実行するための装置実行可能なプログラムであって、前記プログラムは、情報処理装置を、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部
     として機能させるためのプログラム。
  17.  前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、データマイニング耐性を付与する、請求項16に記載のプログラム。
  18.  前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させる、請求項17に記載のプログラム。
  19.  ネットワークを介して情報を転送するウェブ・システムであって、前記ウェブ・システムは、
     取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得して、前記ネットワークに接続された少なくとも1のウェブ・サーバに対して前記取得するべき情報を検索するための検索要求を発行する情報処理装置と、
     前記情報処理装置からの複数の検索値を含む前記検索要求を受領してデータベースを検索し、前記検索要求で指定される情報を前記情報処理装置にレスポンスとして返すウェブ・サーバと
     を含み、
     前記情報処理装置は、
     前記データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行と、
     を含む、ウェブ・システム。
  20.  前記拡散リクエスト生成部は、前記取得するべき情報とは関連性がない前記ダミー値をダミー生成情報格納部から取得して追加して前記拡散リクエストを生成し、前記拡散リクエストは、前記取得するべき情報が連続的な場合、前記ダミー・リクエストのみを含み、前記取得するべき情報が離散的である場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含み、前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させると共に、前記ウェブ・システムは、Web2.0パラダイムとして構成され、前記情報処理装置は、マッシュアップ・サーバである、請求項19に記載のウェブ・システム。
PCT/JP2010/061535 2009-07-28 2010-07-07 情報処理装置、情報処理方法、プログラムおよびウェブ・システム WO2011013490A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/387,477 US8725762B2 (en) 2009-07-28 2010-07-07 Preventing leakage of information over a network
JP2011524721A JP5705114B2 (ja) 2009-07-28 2010-07-07 情報処理装置、情報処理方法、プログラムおよびウェブ・システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009175664 2009-07-28
JP2009-175664 2009-07-28

Publications (1)

Publication Number Publication Date
WO2011013490A1 true WO2011013490A1 (ja) 2011-02-03

Family

ID=43529153

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/061535 WO2011013490A1 (ja) 2009-07-28 2010-07-07 情報処理装置、情報処理方法、プログラムおよびウェブ・システム

Country Status (3)

Country Link
US (1) US8725762B2 (ja)
JP (1) JP5705114B2 (ja)
WO (1) WO2011013490A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106723A (ja) * 2012-11-27 2014-06-09 Kddi Corp 検索情報難読化装置、検索情報難読化方法、およびプログラム
WO2014141659A1 (ja) * 2013-03-15 2014-09-18 日本電気株式会社 情報受信装置、情報受信システム、及び、情報受信方法
WO2018034192A1 (ja) * 2016-08-19 2018-02-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP2020527772A (ja) * 2017-12-12 2020-09-10 グーグル エルエルシー 差分プライバシーを備える忘却型アクセス

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014003794A1 (en) * 2012-06-29 2014-01-03 Hewlett-Packard Development Company, L.P. Obscuring internet tendencies
US20140143882A1 (en) * 2012-11-21 2014-05-22 Alcatel-Lucent Usa Inc. Systems and methods for preserving privacy for web applications
US9444797B2 (en) 2014-07-10 2016-09-13 Empire Technology Development Llc Protection of private data
EP3163789B1 (en) * 2015-10-29 2021-08-18 Airbus Defence and Space GmbH Forward-secure crash-resilient logging device
US20220272110A1 (en) 2019-03-04 2022-08-25 Airgap Networks Inc. Systems and methods of creating network singularities and detecting unauthorized communications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132813A (ja) * 2000-10-18 2002-05-10 Sharp Corp 情報提供制御装置、情報提供方法、情報提供プログラムを記録した記録媒体および情報提供システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581009B2 (ja) 1998-03-12 2004-10-27 株式会社日立製作所 データ検索システム及びデータ検索方法
JP2002312377A (ja) 2001-04-18 2002-10-25 Nec Corp 検索装置、検索用サーバ、検索システム、検索方法およびそのプログラム
JP3871301B2 (ja) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索装置、及びプログラム
US7457946B2 (en) * 2002-10-17 2008-11-25 International Business Machines Corporation Method and program product for privately communicating web requests
JP4007596B2 (ja) * 2003-02-25 2007-11-14 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ及びプログラム
US20050177630A1 (en) * 2003-12-19 2005-08-11 Jolfaei Masoud A. Service analysis
JP2005222135A (ja) * 2004-02-03 2005-08-18 Internatl Business Mach Corp <Ibm> データベースアクセス監視装置、情報流出元特定システム、データベースアクセス監視方法、情報流出元特定方法、およびプログラム
US20090112805A1 (en) * 2007-10-31 2009-04-30 Zachary Adam Garbow Method, system, and computer program product for implementing search query privacy
US8239396B2 (en) * 2009-03-20 2012-08-07 Oracle International Corporation View mechanism for data security, privacy and utilization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132813A (ja) * 2000-10-18 2002-05-10 Sharp Corp 情報提供制御装置、情報提供方法、情報提供プログラムを記録した記録媒体および情報提供システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIDETOSHI KIDO: "Ichi Joho Service no Tameno Kaku Joho o Mochiita Ichi Privacy Hogo Shuho to Sono Cost Hyoka", DEWS2005 RONBUNSHU, 2 May 2005 (2005-05-02), Retrieved from the Internet <URL:http://www.ieice.org/iss/de/DEWS/DEWS2005/procs/papers/3A-i5.pdf> *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106723A (ja) * 2012-11-27 2014-06-09 Kddi Corp 検索情報難読化装置、検索情報難読化方法、およびプログラム
WO2014141659A1 (ja) * 2013-03-15 2014-09-18 日本電気株式会社 情報受信装置、情報受信システム、及び、情報受信方法
JPWO2014141659A1 (ja) * 2013-03-15 2017-02-16 日本電気株式会社 情報受信装置、情報受信システム、及び、情報受信方法
US9817996B2 (en) 2013-03-15 2017-11-14 Nec Corporation Information receiving device, information receiving method, and medium
WO2018034192A1 (ja) * 2016-08-19 2018-02-22 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JPWO2018034192A1 (ja) * 2016-08-19 2019-06-13 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2020527772A (ja) * 2017-12-12 2020-09-10 グーグル エルエルシー 差分プライバシーを備える忘却型アクセス
JP2021182402A (ja) * 2017-12-12 2021-11-25 グーグル エルエルシーGoogle LLC 差分プライバシーを備える忘却型アクセス
JP7124182B2 (ja) 2017-12-12 2022-08-23 グーグル エルエルシー 差分プライバシーを備える忘却型アクセス
US11727124B2 (en) 2017-12-12 2023-08-15 Google Llc Oblivious access with differential privacy

Also Published As

Publication number Publication date
US20120284299A1 (en) 2012-11-08
JP5705114B2 (ja) 2015-04-22
US8725762B2 (en) 2014-05-13
JPWO2011013490A1 (ja) 2013-01-07

Similar Documents

Publication Publication Date Title
JP5705114B2 (ja) 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
Das et al. Creating meaningful data from web logs for improving the impressiveness of a website by using path analysis method
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
KR101374651B1 (ko) 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US8126874B2 (en) Systems and methods for generating statistics from search engine query logs
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
US8868595B2 (en) Enhanced control to users to populate a cache in a database system
CA2790421C (en) Indexing and searching employing virtual documents
US20110093461A1 (en) Extensible Custom Variables for Tracking User Traffic
US20120278354A1 (en) User analysis through user log feature extraction
KR20110009198A (ko) 최다 클릭된 다음 객체들을 갖는 검색 결과
WO2013086113A2 (en) System for forensic analysis of search terms
CN102222098A (zh) 一种网页预取方法和系统
Jagan et al. A survey on web personalization of web usage mining
US20130227112A1 (en) Smart cache learning mechanism in enterprise portal navigation
US9400843B2 (en) Adjusting stored query relevance data based on query term similarity
Bhushan et al. Recommendation of optimized web pages to users using Web Log mining techniques
Sathiyamoorthi et al. Data Pre-Processing Techniques for Pre-Fetching and Caching of Web Data through Proxy Server
US10235459B1 (en) Creating entries in at least one of a personal cache and a personal index
JP2017167829A (ja) 検出装置、検出方法及び検出プログラム
US20150156169A1 (en) Method for determining validity of command and system thereof
CN112016017A (zh) 确定特征数据的方法和装置
Kim et al. RILCA: Collecting and analyzing user-behavior information in instant search using relational DBMS
Agrawal et al. A Survey Report On Current Research and Development of Data Processing In Web Usage Data Mining
Raut et al. Research on Web Log Mining to Predicting User Behavior through Session

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10804237

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011524721

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13387477

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10804237

Country of ref document: EP

Kind code of ref document: A1