WO2011013490A1 - Information processing device, information processing method, program and web system - Google Patents

Information processing device, information processing method, program and web system Download PDF

Info

Publication number
WO2011013490A1
WO2011013490A1 PCT/JP2010/061535 JP2010061535W WO2011013490A1 WO 2011013490 A1 WO2011013490 A1 WO 2011013490A1 JP 2010061535 W JP2010061535 W JP 2010061535W WO 2011013490 A1 WO2011013490 A1 WO 2011013490A1
Authority
WO
WIPO (PCT)
Prior art keywords
request
search
information
value
information processing
Prior art date
Application number
PCT/JP2010/061535
Other languages
French (fr)
Japanese (ja)
Inventor
百合子 杉嵜
田原 義則
亮二 黒澤
隼輔 石川
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to US13/387,477 priority Critical patent/US8725762B2/en
Priority to JP2011524721A priority patent/JP5705114B2/en
Publication of WO2011013490A1 publication Critical patent/WO2011013490A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/564Enhancement of application control based on intercepted application data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2123Dummy operation

Definitions

  • the present invention relates to network technology, and more particularly, to technology for preventing information leakage that may occur from information acquisition via a network.
  • a client computer such as a personal computer (hereinafter simply referred to as a client) issues a request for information to a web server that stores information and responds to the request. Then, when the web server sends information matching the request to the client, the client acquires the requested information.
  • Requests sent from the client to the server include values that specify information such as numeric data sets and keywords, and the server issues a query to the database etc. by referring to the values.
  • the conventional information retrieval method means that information that the client is currently interested in is disclosed to the server.
  • the web server can be trusted, it can be said that there are relatively few problems even with conventional information retrieval. However, even if the web server is reliable, a search entity such as an individual or a company that performs a search can determine what information the search entity is currently interested in to obtain information. It is necessary to notify the server.
  • a search entity such as an individual or a company that performs a search can determine what information the search entity is currently interested in to obtain information. It is necessary to notify the server.
  • the mashup system includes a client, a mashup server, and a plurality of information servers.
  • the mashup server may be installed in a company or the like, or the ISP (Internet Service Provider) may be a web server installed in the Internet in order to execute mashup processing exclusively. Good.
  • Each information server is provided by an ISP or the like, searches information corresponding to a client request from a database managed by each, and sends the searched information to the mashup server.
  • the mashup server appropriately arranges the acquired information, and displays information acquired from a plurality of information servers on a client via a browser program or the like.
  • multiple information servers acquire requests issued by clients in response to information requested by clients.
  • the request is configured as, for example, an SQL (Structured Query Language) statement including a search word and a conditional expression for searching for information to be acquired.
  • the information server acquires search conditions from the received request, and acquires information corresponding to the request by executing a search of a database managed by each information server.
  • the problem here is that none of the information servers connected via the network is necessarily reliable. Even if a reliable information server is used, the request content sent to the information server is analyzed by data mining during log analysis of the information server, and the search purpose on the client side is implicit. It will be known.
  • the term “slow information leakage” means that the network access as a group on the network is statistically analyzed by the information server, and as a result, the intention of the group, that is, the search It means that the intention leaks slowly.
  • Patent Document 1 discloses a data search system that protects search conditions and the location of a searcher as confidential information. Has been.
  • a search is performed by concealing or shielding a part or all of the search conditions as confidential information in the data search device, and the data search device narrows down the search result, thereby performing the data search.
  • the search condition that should be shielded in advance is deleted from all the input search conditions, or the input search condition is similar words or higher ranks. This is done by replacing the concept, adding extra search conditions, or dividing the search conditions.
  • processing such as deletion, superordinate conceptualization, and addition of a search term is performed on the retrieval condition input to the data processing apparatus on the data retrieval apparatus side.
  • an additional program for processing the search condition, a similar word dictionary, and the like are required, and preprocessing for the search condition is required to execute the search process.
  • the data search device of Patent Document 1 the data search device temporarily stores information hit under a broader condition than the search condition using the shielded search condition, and information that matches the original search condition is again stored. A data editor to search is required.
  • the data search apparatus is required to acquire and process a larger amount of information than is originally acquired, and the data search apparatus itself must substantially include a secondary database. .
  • the data search device of Patent Document 1 involves waste of hardware resources and program resources, if the amount of information stored on the network is enormous as in the present, the search cannot be made efficient.
  • Patent Document 2 Japanese Patent Laid-Open No. 2002-312377
  • the input first search condition is changed to the second search condition for searching a wider range, and information search is executed on the search server.
  • the first search result is acquired, the acquired first search result is searched again according to the first search condition, a search result corresponding to the first search condition is generated, and information such as user privacy is stored.
  • a search device for preventing leakage is disclosed.
  • the search device described in Patent Document 2 also expands the search condition to cause the search device to acquire the extended search result, and searches the search result again to generate a search result that should be originally acquired.
  • the search device itself must function as a secondary database.
  • the search device must secure a storage space for the expansion of the search condition, and the search device itself needs to include a certain degree of search capability. Information leakage is not effectively prevented in terms of waste of resources and software resources.
  • the prior art generates a modified search expression including an original search condition to prevent information leakage due to search, issues a search request to the database, acquires an extended search result, and executes the extended search.
  • the original search result is generated again by using the original search condition and searching again by the search device.
  • the original search condition is expanded to create a higher level concept, or the extended search condition is generated so as to widen the range, but after all, the original search condition is , Must be included in the extended search criteria.
  • the extended search conditions generated by Patent Document 1 and Patent Document 2 do not prevent the leakage of the search intention that the client side intends to search. It does not prevent gradual information leakage.
  • An object of the present invention is to provide an information processing apparatus, an information processing method, a program, and a web system that prevent a gradual information leakage that may occur from information acquisition via a network.
  • the present invention has been made by paying attention to the fact that a gradual information leak occurs in the conventional information retrieval.
  • the past request log is statistically analyzed to retrieve information. If the request is specific from the past request history, a plurality of dummy requests including randomly selected dummy values are generated, and a spread request including a plurality of dummy requests is generated.
  • Diffusion requests are characterized by data mining, etc. for access logs to web servers that execute search processing when the search target input by the search subject is specific from the past request log. Accumulating data so that it cannot be analyzed improves the data mining tolerance of requests issued by the search subject.
  • the search target is specified by a numerical data set such as map data and has a continuous attribute that can be obtained by calculation from homogeneous information, as well as company name, stock price, product name, gender, age, arbitrary
  • the present invention can also be applied to an object having discrete attributes such as a character string.
  • an information processing apparatus that acquires information via a network
  • the information processing apparatus includes: A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database; Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history An evaluation unit; If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus.
  • a spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value for requesting information different from information that should be information;
  • a search request issuing unit that issues the spread request as a search request to the database via the network;
  • an information processing apparatus including a search result extraction unit that extracts information acquired by the spread request from a response to the search request.
  • the dummy value of the present invention is stored in a dummy generation information storage unit, and the data mining tolerance can be imparted by reducing the specificity of the search value in the request log.
  • the search request issuing unit of the present invention can issue the spread request including only the dummy request as the search request when the information to be acquired has a continuous attribute.
  • the search request issuing unit of the present invention can issue the spread request including the original request and the dummy request as the search request when the information to be acquired has discrete attributes.
  • the specificity evaluation unit of the present invention searches the request log for the search value included in the original request, and the number of occurrences of the search value corresponds to an increase rate of the currently determined search value.
  • Generation of the dummy request for the spread request unit can be started by predicting that the average value of the number of occurrences of search values will increase by a threshold value or more.
  • the original request of the present invention includes a plurality of search values for acquiring different information, and the specificity evaluation unit determines the specificity for each of the plurality of search values, and for each search value
  • the dummy request can be generated and the spreading request issued to the database to be searched for information.
  • the information processing apparatus of the present invention can receive a response from the database, generate a display area for displaying a response corresponding to each of the search values included in the original request, and display the response.
  • the information processing apparatus of the present invention can be a mashup server implemented in the Web 2.0 paradigm.
  • an information processing method and program executed by the information processing apparatus and a web system including the information processing apparatus.
  • the figure which showed embodiment of the web system 100 of this invention The figure which showed the web system 200 of 2nd Embodiment of this embodiment.
  • FIG. 6 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in the present embodiment.
  • FIG. 11 is an embodiment of pseudo code for executing the processing shown in FIG. 10.
  • FIG. The diffusion state of the content of the diffusion request generated in the embodiment when searching for map data.
  • the figure which showed embodiment of the access log 1500 produced
  • FIG. 1 illustrates an embodiment of a web system 100 of the present invention.
  • Web system 100 includes clients 110-114, mashup server 130, and web servers 150-154.
  • the clients 110 to 114 and the mashup server 130 are interconnected via a network 120 such as a LAN, WAN, or the Internet.
  • the mashup server 130 is interconnected to the web servers 150 to 154 via the network 140.
  • the network 140 is not particularly limited, but a wide area network such as the Internet can be used.
  • the mashup server 130 and the web servers 150 to 154 can employ almost the same hardware configuration, and a CISC architecture microprocessor such as a PENTIUM (registered trademark) or a PENTIUM (registered trademark) compatible chip, or A RISC architecture microprocessor such as POWERPC (registered trademark) can be implemented in a single-core or multi-core form.
  • each server is controlled by an operating system such as WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark), C, C ++, JAVA (registered trademark), JAVABEANS (registered trademark).
  • Search requests sent from clients 110 to 114 by executing server programs such as CGI, Servlet, APACHE, IIS (Internet Information Server) implemented using programming languages such as, PERL, and RUBY. ⁇ Process the request.
  • the mashup server 130 can be implemented as a partial function of a gateway server or the like of a company.
  • the mashup server 130 may be installed in an ISP (Internet Service Provider) that performs a service based on a paradigm such as Web 2.0.
  • the web servers 150 to 154 manage the databases 160 to 164, respectively, and can provide information corresponding to requests via the network 140.
  • the server 150 is implemented as a company information service providing server
  • the server 152 is implemented as a stock price information service providing server.
  • the web server 154 is implemented as a map information service providing server, and processes individual requests from the mashup server 130 and sends them to the mashup server 130.
  • Each of the clients 110 to 114 acquires information using a plurality of application services.
  • the client 110 acquires information corresponding to the original request issued by the client 110 via the mashup server 130.
  • the mashup server 130 stores information from the plurality of web servers 150 to 154 in association with the client 110, and presents the information to the client 110 as composite information.
  • the mashup server 130 determines each application based on an original request sent from the client 110, for example. ⁇ Generate a spread request to be sent to the web servers 150 to 154 that provide the service, send the spread request to each of the web servers 150 to 154, and create an original from the information acquired corresponding to the spread request The result corresponding to the request is acquired, and is combined with, for example, a web page as composite information and sent to the client 110.
  • the term “diffusion request” referred to in the present embodiment corresponds to the type of search target included in the original request issued by the client, and is sent to the web servers 150 to 154 generated for each search target attribute. Means a request to be made.
  • a spread request is a single, dummy value that is generated so that it is difficult for the web server to analyze the characteristics of the original request by statistically mining data using the access log. Generated as a request or set of requests.
  • Clients 110-114 can be implemented using a personal computer or workstation, etc., and the microprocessor (MPU) may include any single-core or multi-core processor known so far. .
  • the clients 110 to 114 may be controlled by any known operating system such as WINDOWS (registered trademark), UNIX (registered trademark), LINUX (registered trademark), or MAC OS.
  • the clients 110 to 114 access the mashup server 130 and the web servers 150 to 154 in order to access Internet Explorer (registered trademark), Mozilla (registered trademark), Opera (registered trademark), and FireFox (registered trademark). Browser software such as can be implemented.
  • the data is transferred using a file transfer protocol such as HTTP or HTTPS using a transaction protocol such as TCP / IP. Transmission / reception is performed.
  • the mashup server 130 implements JDBC (Java (registered trademark) Database Connectivity), ODBC (Open Database Connectivity), etc. to access the database of the web servers 150 to 154, and is defined by JDBC.
  • JDBC Java (registered trademark) Database Connectivity
  • ODBC Open Database Connectivity
  • An application level protocol can connect to the web servers 150-154.
  • the request issued by the client 110 is intercepted once by the mashup server 130. Then, the mashup server 130 performs statistical processing with reference to the past request log. As a result of the statistical processing, the mashup server 130 determines that the search value for designating the information to be acquired included in the request reflects the specific search intention based on the request history. And a spread request is issued to the web servers 150 to 154 that manage the search target information. Each of the web servers 150 to 154 receives the spread request, searches the databases 160 to 164 managed by each, extracts information corresponding to the request, and returns it to the mashup server as a response.
  • the mashup server 130 forms a web page having a display area for simultaneously displaying the response on the desktop screen from the responses received from the web servers 150 to 154, and assigns each response to the display area. By displaying the request, the client 110 that issued the request browses.
  • FIG. 2 shows a web system 200 according to the second embodiment of the present embodiment.
  • the web system 200 shown in FIG. 2 implements a mashup application in which a plurality of clients 210 to 214 are implemented as an extended application of a web browser, for example, a plug-in program or an add-in program. Instead, the web system 200 does not use a dedicated server such as the mashup server 130.
  • the function of the mashup server 130 in FIG. 1 is implemented as the function of the clients 210 to 214, and the spreading request issued from the original request to each of the web servers 230 to 234 is transmitted.
  • the web servers 230 to 234 have the same configuration as that of the embodiment shown in FIG. 1, and return the searched information to the client 210 or the like in response to the spread request from the client 210 or the like.
  • search values for specifying a search target of a dummy request are generated by combining them with an operator OR.
  • Create a set the dummy request refers to the request log and relates to the time scale for each search target so that the client-side search intent is not extracted by data mining on the web server. , Select the request content to average.
  • the spread request may include the original request or may not include the original request at all according to the attribute of the information to be searched.
  • FIG. 3 shows functional blocks of the information processing system 300 that generates the spreading request of this embodiment.
  • the information processing system 300 shown in FIG. 3 corresponds to the mashup server 130 in the embodiment of FIG. 1, and corresponds to the clients 210 to 214 in the embodiment shown in FIG.
  • each functional block is implemented as a server application or a client application
  • each functional block of the information processing system 300 is processed by a microprocessor. This is realized by reading a program for causing the apparatus to function as each functional means into a RAM, which is an execution space, and executing the program.
  • the information processing system 300 includes an information processing device 310 and an input / output device 330 including a display device, a keyboard, a mouse, and the like.
  • the information processing apparatus 310 sends a spread request to the networks 140 and 220 via the network adapter 312 and obtains a response from the web server corresponding to the spread request.
  • the information processing apparatus 310 further includes a request acquisition unit 314, a diffusion request generation unit 316, and a dummy generation information storage unit 322. Further, the information processing apparatus 310 includes a request log 328 that stores requests sent from the information processing apparatus 310 to the web server in time series.
  • the request acquisition unit 314 acquires original requests from the clients 110 to 114 via the network 120.
  • the information processing apparatus 310 accesses the web servers 230 to 234 without using the mashup server 130, an original request including a search condition input by the operator is acquired via the input / output apparatus 330.
  • the diffusion request generation unit 316 refers to the request / log storage unit 328 and determines the specificity of the original request acquired by the request acquisition unit 314 in the past request log.
  • the diffusion request generation unit 316 acquires a dummy value used to generate the diffusion request corresponding to the determination result from the dummy generation information storage unit 322, and the specificity evaluation unit 324 determines that the specific search target is specific. A dummy value is generated until it is determined that there is no dummy value and included in the spread request.
  • the peculiarity of the original request is determined by, for example, a threshold set by the mashup server 130 or the clients 210 to 214 for the number of appearances of the search target in a specific time scale in relation to the request issuance managed. Can be done using. Furthermore, it can be determined by performing more advanced statistical processing according to the processing capability of the information processing apparatus 310.
  • the spread request generated by the spread request generation unit 316 is created by different processing depending on the attribute of data to be processed by the web servers 150, 152, and 154.
  • the spread request is generated in order to make it difficult to analyze the time-series threshold behavior related to a specific target of the access log managed by each web server 150 to 154 statistically.
  • the target information to be searched is not particularly limited, but in this embodiment, the information to be searched is classified into information having a continuous attribute and information having a discrete attribute.
  • the information having the continuous attribute described above is a homogeneous information excluding data to be searched for values for characterizing information to be searched, for example, position coordinates, longitude, latitude, altitude, time, period, etc.
  • Information having an attribute that can be acquired by a preset operation such as extrapolation, interpolation, and movement from the. More specifically, examples of information having continuous attributes include position coordinates and latitude / longitude data.
  • the information having the above-mentioned discrete attribute is an attribute that has a possibility that the data may fluctuate independently of other homogeneous information and needs to directly access the data to be searched to acquire the data.
  • information having discrete attributes include company stock price information, business performance information, M & A (Mergers and Acquisitions) information, and other information related to company activities and group activities.
  • the dummy generation information storage unit 322 can be implemented as a database or a table and can register, for example, company names, addresses, latitude / longitude information, and the like in association with attributes of information requested by the request.
  • a dummy for each category is used to reduce the specificity of the original request for each attribute of the information. Information that can be used as values can be registered.
  • the peculiarity evaluation unit 324 receives the original request and analyzes the request log. When the received original request deviates from the average value of the access information of the request log, refer to the dummy generation information, Until the original request is determined to be non-specific as determined from the request log, the diffusion request generation unit 316 causes generation of the diffusion request including the dummy request including the dummy value.
  • the information processing apparatus 310 includes a search request issuing unit 318 and a search result extracting unit 320.
  • the search request issuing unit 318 sets the original request and the dummy request generated including the dummy value in the SQL query, and issues them to the web server via the networks 140 and 220.
  • the spread request generation unit 316 determines whether to pass the value specified in the original request to the search request issuing unit 318 according to the attribute of whether the information to be acquired is continuous or discrete. to decide.
  • the value specified in the original request is not set in the search request.
  • the dummy request is generated so that the web server 154 can reach the target information by another request from the client, not the target information.
  • the diffusion request generation unit 316 generates a request for requesting information that is the same quality as the information to be searched using the value described in the original request and is different from the information to be searched. And the dummy request is passed to the search request issuing unit 318 together with the original request to generate a diffusion request. For this reason, the search result extraction unit 320 receives the response of the original request together with the response of the dummy request.
  • the search result extraction unit 320 filters the search result sent from the web server as necessary, and displays the search result on the display device of the input / output device 330 via the input / output interface / browser 326.
  • the operator of the information processing apparatus 310 acquires a map or the like as a search result, the operator should adjust the display area or scale with a mouse or the like, and additionally issue a relative movement request or the like to acquire the original request. Update search results sequentially so that you can access the information.
  • FIG. 4 is a flowchart of the information processing method of this embodiment.
  • the process of FIG. 4 starts from step S400, and an original request is acquired in step S401.
  • the original request is acquired from the network 120 or the input / output device 330 by the information processing apparatus 310 according to the embodiment of FIG. 1 or the embodiment of FIG.
  • an original request is generated to acquire composite information with ⁇ C i , S i , G i ⁇ as a search target for searching for information acquisition of company information, stock price information, and map information.
  • the information processing apparatus 310 separates the search request included in the original request, calls the specificity evaluation unit 324 in step S402, and first, for each search request included in the original request, is diffused in relation to the time course. Determine whether or not The process executed by the specificity evaluation unit 324 will be described later in more detail.
  • step S403 When it is determined that the request to be sent to the web server is not spread in terms of contents and time based on the determination using the request log (no), in step S403, the diffusion request is referred to by referring to the dummy generation information. Then, the process returns to step S402 again to determine whether or not the content of the request is spread.
  • step S402 If it is determined in step S402 that the content of the request is diffused by comparison with the request log, that is, it is not specific (yes), the request is transmitted in step S404.
  • step S405 it is determined whether or not a response from the web server has been received. If the response has not been received (no), the process is repeated until the response has been received. On the other hand, when the reception of the response from the web server is completed in step S405 (yes), in step S406, the information processing apparatus 310 merges the responses corresponding to the original request and displays them in the browser. Note that the process of step S406 can include a process of filtering data to be browsed according to the attribute of the received data. When the browsing on the client display device is completed, the process ends in step S407 and waits for the subsequent input of the original request.
  • FIG. 5 shows a request log 500 for a particular search target included in the original request for exemplary purposes.
  • the time chunk can be set as appropriate, for example, in minutes, hours, days, weeks, months, etc., for the purpose of diluting the specificity of the original request.
  • the request log 500 can be generated and stored for each specific unit of request issuance, and the request issuer unit can be a client unit, a business unit unit, or a company unit.
  • a search target specified by numerical data such as map information can be determined by matching within a numerical range of longitude / latitude set around a specific latitude / longitude. In the case of searching for map information, the latitude / longitude range set according to whether it is an urban area or a non-urban area can be changed. The identity of the search target may be determined using whether or not there is a common landmark within a specific range in relation to the designated.
  • the information processing apparatus 310 generates, for each search target, a search target issued as an original request for a specific search target in units of time chunks given at an appropriate processing interval from the start of recording of the request log 500. Register as N. Then, in the time chunk in which the request log 500 is currently accumulated, the number of occurrences of original requests including the target search object is detected in units of original requests.
  • the peculiarity evaluation unit 324 checks the increase rate per request of the search target to be noticed at the stage where the currently accumulated time chunk is completed, and the time chunk is determined to be specific in the request log 500. Whether or not the search is to be performed is determined based on the currently determined time chunk TC p . As shown in FIG. 5, in the time chunk immediately after the start of request log recording, any original request issued in the time chunk is determined to be specific, and a spread request is generated.
  • the history of search requests is accumulated with the lapse of time recorded in the request log 500, it is necessary to determine whether or not the search target currently determined including the past history is specific.
  • the average value Nav of the number of requests over the time chunk TC i of the requests up to the current time chunk TC p for the specific search target, and the current time chunk TC p Using SN p as the number of requests predicted to be acquired for, for example, that the specificity index SN p given by the following equation (1) is larger than the probability error from the average value N av Judgment can be made.
  • ⁇ error is a probability error with respect to the number of requests for the search target over N av time chunks
  • is a positive real number multiplied by the probability error
  • ⁇ ⁇ 1 N av is given by the following formula (2), and is updated sequentially when the time chunk currently being recorded is completed.
  • the value p for identifying the time chunk increases as the request log is recorded, but the first time chunk that starts the singularity evaluation process forms a singularity.
  • the processing is started assuming that the search value is always singular.
  • the case that will be SN p number of requests for the first time in the current time-chunk TC p is issued, to always specific also
  • no specific processing is performed, and determination is performed according to the above formula (1).
  • SP can be defined using a probability density function and variance given in a binomial distribution.
  • the search targets it is assumed that the request log 500 has a multidimensional normal distribution, and the search target is searched using a multidimensional normal distribution and a variance-covariance matrix. Correlated specificity may be determined.
  • the specificity evaluation unit 324 of the present embodiment indicates that the last time chunk in FIG. 5 is a time chunk that is currently recording a request log, and designates a specific search target at the current time point.
  • the search value is accumulated up to SN current . This increased rate, increasing until the end of time chunks, predicts that the number of occurrences until SN predict increases, using the above equation (1) based on the prediction, it is determined as being specific.
  • the prediction determination embodiment of this embodiment will be described later in more detail.
  • FIG. 6 shows the characteristics of the search target in the time chunk in which the request log 500 is currently accumulated from the increase rate of the original request including the specific search target in the specific time chunk in this embodiment.
  • An embodiment of a process for determining In FIG. 6, the vertical axis indicates the cumulative number in the search target time chunk TC m (m 0, 2, 3,..., N) included in the original request, and the horizontal axis indicates the request log 600. The time course of is shown. Further, the request log 600 is individually inspected as search objects C i , S i , N i , and O i . The cumulative number in each time chunk is indicated by a bar, and the black hatched bar is a time chunk that has already been recorded.
  • time chunks that are determined to be specific on the request log 600 for a specific search target are indicated by black triangles on the bar.
  • the search target marked with a black triangle has not been requested in the past, and was first detected in the time chunk indicated by the black triangle.
  • the time chunk indicated by the white bar is a time chunk that is currently accumulated.
  • the web server 150 or the like analyzes the access log. Thus, it is possible to determine the search intention of the original request issuer.
  • the specificity evaluation unit 324 intercepts the original request and determines the content of the individual search request. This allows the original request acquired by the information processing apparatus 310 to determine the increase rate of the search target within a specific time chunk. That is, the peculiarity evaluation unit 324 accumulates search values specifying a specific search target in the time chunk, calculates an increase rate with respect to the total number of original requests, and performs linear extrapolation until the end of the time chunk. Then, extrapolation is performed by an appropriate method such as polynomial extrapolation or exponential extrapolation, and the extrapolated result is integrated within the currently accumulated time chunk to predict the number of occurrences.
  • the peculiarity evaluation unit 324 accumulates search values specifying a specific search target in the time chunk, calculates an increase rate with respect to the total number of original requests, and performs linear extrapolation until the end of the time chunk. Then, extrapolation is performed by an appropriate method such as polynomial extrapolation or exponential extrapolation, and the extrapolated result is integrated within the currently accumulated
  • the search object O i that is accumulating in the last time chunk is shown with a white triangle for the purpose of indicating that it is determined to be specific when the time chunk is completed.
  • the diffusion request generation unit 316 is instructed to generate the diffusion request, and the dilution process of the specificity level is started.
  • the diffusion request generation unit 316 of the present embodiment individually determines the specificity of the search target included in the original request, and generates a diffusion request when determining that the search target is specific.
  • the spread request is generated by modifying the original request so that the information to be searched is not specific as viewed from the request log 500.
  • the modification of the original request can be performed in the exemplary embodiment as follows.
  • a request is issued with numerical data such as map information
  • a single or multiple dummy requests including dummy values that are randomly corrected numerical data beyond the numerical range where the search target is determined to be the same Generate.
  • a plurality of dummy values are selected and set in the spread request so that the frequency spectrum becomes equal when Fourier transform is performed in relation to latitude and longitude.
  • attribute information for which a corresponding value such as company information or stock price information must be acquired directly it is the same as the search target company or stock brand that is determined to be specific from the dummy generation information storage unit 322 Randomly extract company names, stocks, and stock codes that are classified into different types of business, and acquire dummy information in an appropriate number so that the number of requests generated within the category is white noise. To do.
  • the dummy request can be configured as the same set of search values as the original request, but since the information processing apparatus 310 individually accesses the database, the dummy request is a single request. It can be generated as a search request including a search value. The generated dummy request is randomly selected including the search value that is the true purpose of the search, and is sent to the corresponding databases 160 to 164, 240 to 244, and the like.
  • FIG. 7 shows an embodiment of an access log 700 recorded, for example, by the web server 150 after issuing a spread request according to the present embodiment to the request log 500 shown in FIGS.
  • the information processing apparatus 310 detects the number of requests sent to the company information providing server 150 for each specific search target for each specific time chunk, and calculates the statistical peculiarity of the search target included in the original request while accumulating it. Determine gender.
  • the information processing apparatus 310 issues a dummy request, dilutes the specificity of the search target, and sends an access log to the specific issuer on the web server 150 side.
  • FIG. 7 shows that the access specificity is diluted, that is, white noise is generated so that the specific search value does not show a prominent tendency as shown in FIG.
  • the information processing apparatus 310 also has a case where the web server 150 is accumulated as an access log from a specific information processing apparatus 310 even when a search target that should be a dummy value for the true request TR is included in the original request A dummy request is generated so that the access log approaches white noise.
  • the true request is a search value included in the original request and means a request reflecting a searcher's specific intention.
  • the information processing apparatus 310 determines that the true request TR 1 is specific in the time chunk TC 1 , the information processing apparatus 310 extracts a search target whose specificity is diluted from the dummy generation information storage unit 322 and outputs the dummy request DR. Set to (Dummy Request).
  • FIG. 8 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in this embodiment.
  • the information to which FIG. 8 is applied can be applied as long as the map data characterized by a numerical data set such as position coordinates or the information specified by the numerical data is continuous.
  • the input value can be input as, for example, a value such as longitude and latitude, or can be input as a company name, a place name, and the like.
  • the process can be executed by replacing the latitude / longitude data stored in the dummy generation information storage unit 322.
  • step S800 shows details of steps S402 and S403 of FIG. 4 and is started after acquiring the original request in step S401.
  • step S800 shows details of steps S402 and S403 of FIG. 4 and is started after acquiring the original request in step S401.
  • Cx and cy that satisfy the above are generated using the function rnd ().
  • (x, y) is numeric data specified by the original request
  • w and h are values specifying the range of the numeric data.
  • cx and cy are numerical data generated by random numbers and correspond to longitude and latitude values.
  • gx and gy are the barycentric points (average coordinates) of the coordinates including the past history.
  • step S801 the time stale index ti is initialized to zero.
  • the time scale index ti is defined in minutes, hours, days, months, etc., and defines a time scale for determining how far the original request is not specific. Specifically, t0 specifies that one minute, t1 refers to one hour, and t2 refers to a request log issued during the time scale of one day. In addition, as t3 and t4, it is possible to refer to request logs in units of months or quarters.
  • step S802 it is determined whether or not ti exceeds the number of elements in the ta array. If ti ⁇ smaller than the number of elements in the array of ta (yes), the past history for ta [ti] time is determined in step S803.
  • the coordinates of the new center points gx and gy are calculated from the history coordinate group and cx and cy using the average value of the coordinate group values.
  • step S804 a distance L between (x, y) and (gx, gy) is calculated.
  • the distance L used in the present embodiment may be a Euclidean distance, a Manhattan distance, or an appropriate topological distance defined between feature values defined by feature coordinate axes.
  • step S805 when it is determined that the distance L is equal to or less than a threshold value that is a value that the original request is assumed to be non-specific (yes), the time scale index ti is incremented by 1 in step S806, and then processing is performed. Is returned to step S802 to determine the specificity in another time scale. On the other hand, if the distance L is not less than or equal to the threshold value in step S805 (no), the process returns to step S800 to generate additional cx ′ and cy ′, and the calculation is repeated until the distance L is less than or equal to the threshold value.
  • step S802 when calculation of the set timescale index is completed (no), since no period of the set timescale is specific, control is passed to step S404, and ⁇ (cx, cy) ⁇ is set as numerical data and issued as a spread request. In this embodiment, since the information is numerically continuous, (x, y) that is the value of the original request is not included in the spread request.
  • the information processing apparatus 310 can acquire the information acquired as the original request without sending the numerical data specified as the original request to the web server.
  • the process of FIG. 8 can be effectively applied when the information can be specified by numerical data and has topologically continuous attributes.
  • FIG. 8 there is a map search and the like.
  • the landmark Can when there is data in the extracted (cx, cy) set that is rounded to the position coordinates of a specific landmark that is not (x, y), the landmark Can be arranged in the area given by (w, h) and the retrieved information can be displayed.
  • FIG. 9 shows a pseudo code of the processes of S803 to S805 among the processes described in FIG.
  • the pseudo code block 900 corresponds to the processes of steps S804 and S805, and the pseudo code block 910 corresponds to the process of step S803 of FIG.
  • variable list.
  • the number of elements () included is the number of request log elements included in the time scale specified by ti.
  • FIG. 10 is a flowchart of the second embodiment of the information search method of this embodiment, and corresponds to steps S402 to S405 of FIG.
  • the embodiment of FIG. 10 can be suitably applied when the search target information has discrete attributes.
  • the processing in FIG. 10 starts from step S1000 after obtaining the original request in step S401.
  • the symbols used in FIG. 10 are defined as shown in Table 1 below.
  • step S1000 the index value of the attribute matching kn is obtained from the array k [] and set to the variable ti.
  • d
  • step S1003 it is determined whether or not
  • the threshold value the probability error of the request log described in the equation (1) can be used. However, when a different criterion is used to determine the specificity, a corresponding appropriate threshold value is set. Can be set.
  • step S1005 the value corresponding to the index value dc in the access count array ac [] is updated, the index value dc is set to the value of the access candidate index array c [ci], and the counter ci of the number of access candidates is set to 1. Increment, return the process to step S1002, and repeat the above-described process until a positive value is returned in the determination of step S1003.
  • step S1003 if it is determined in step S1003 that
  • the target attribute name to be accessed is described as being performed in a process other than the process of FIG. 10, but by omitting the process of step S ⁇ b> 1010 and storing all the access execution results, FIG. In this process, it is possible to complete the process for all access candidates to be accessed.
  • the access history can be spread over the time scale for spreading the access history by using the time scale index for calculating the average value as described in step S803 in FIG. .
  • FIG. 11 shows an embodiment of pseudo code for executing the processing shown in FIG.
  • a block 1100 corresponds to the processing step S1003 of FIG. 10, and a block 1110 corresponds to the processing of the block 1020 of FIG.
  • the access execution for the attribute name to be searched is described as an embodiment executed after the block 1110 ends.
  • the data mining tolerance can be further improved.
  • FIG. 12 shows the diffusion state of the content of the diffusion request generated in the embodiment when searching for map data.
  • the vertical and horizontal axes in FIG. 12 correspond to the vertical and horizontal widths w and h of the display area, respectively.
  • FIGS. 12 (a) to 12 (c) show changes in the diffusion state when the initial conditions for generating random numbers are different.
  • the spread request includes position coordinates sufficiently separated from the target coordinates (0, 0) given as the original request, and the points of the dummy request constituting the spread request are sufficiently random. The distribution is shown, indicating that the data mining tolerance of the request can be improved.
  • FIG. 13 shows an embodiment of a search screen 1300 displayed by the web system of this embodiment.
  • FIG. 13 shows a search in the case where the information search embodiment according to the present embodiment is applied to information having request contents set as numerical data and having continuity.
  • the landmark 1312 is a search target.
  • the operator of the information processing apparatus 310 inputs the position coordinates of the search target 1312, the company name, and the like. When the position coordinates and the company name are input, the information processing apparatus 310 uses the processing shown in FIG. 8 to determine whether or not the search target 1312 is a specific access from the request log history analysis. To judge.
  • the information processing apparatus 310 determines that access to the search target 1312 is specific (
  • the user who has acquired the map image 1310 scrolls the map data using a mouse or the like, moves the map data to a landmark 1316 such as a park, and moves the search target 1312 to the vicinity of the center to display the map data 1320.
  • map data is continuously registered on the two-dimensional plane, scrolling of map data does not include a value for specifying a search object as in a request, and is moved with respect to default map data. Therefore, the data specifying the search target 1312 is not transmitted to the web server and does not affect the data mining tolerance.
  • FIG. 14 shows an embodiment when the search target has discrete attributes in this embodiment.
  • information acquired from a plurality of web servers by the mashup server 130 is mashed up and provided as one desktop screen 1400.
  • an operator who performs a search performs a search with the intention of acquiring stock price information of a specific company “FGH” in LosLoAngels.
  • the operator inputs a search character string such as FGH, stock price, map, and topics, but the mashup server 130 does not send the original request input by the operator as it is.
  • the mashup server 130 refers to the company information and the request log stored in the dummy generation information storage unit 322, and obtains information such as a stock price in addition to the search target company “FGH”. Is acquired as an access candidate, and a search request is issued to the web server as a diffusion request.
  • all the search results acquired by the above-described processing are acquired without being filtered, and are displayed as a search result list in the order corresponding to the requests sent randomly to the display frame 1410.
  • a search result is also obtained for the search target company “FGH”.
  • the search target company name “FGH” in the request is obtained. ", The relative weight in the access log is reduced.
  • a statistically processed diffusion request of the request log is sent to the web server. Therefore, durability against data mining for analyzing the access log in the web server that accepted the request is received. Can be improved.
  • the display frame 1420, the display frame 1430, and the display frame 1440 display the map position, stock price fluctuation, and topics corresponding to the search result currently selected by the operator in the search result list of the display frame 1410. ing.
  • the display content in each display frame 1420, 1430, 1440 is changed in cooperation with the selection of other search results, and a plurality of web servers It is possible to efficiently present independent information from.
  • FIG. 15 is a diagram for explaining the access effect generated as a result of issuing a diffusion request in order to explain the effect of improving the data mining tolerance for preventing the gradual information leakage from the access log by the information processing method of this embodiment.
  • a log 1500 is shown.
  • an access log 1510 is an embodiment in a specific web server when the spread request of this embodiment is not used, and an access log 1520 is a case where the spread request of this embodiment is applied.
  • Fig. 4 illustrates an embodiment in a particular web server. Note that the vertical axis represents the total number of accesses for each search character string for access logs within a specific period.
  • company names A, B, C, and D are company names that are added to the spreading request. It is assumed that the search target company name is Company C.
  • the search target company name input by the operator is transmitted as it is to the web server, so that a request including the search target company name C company is prominently recorded as an access log. For this reason, on the web server side, it is possible to trace the transition of the search target of a specific enterprise or individual by performing data mining on the access log in time series. For example, when the number of accesses to the company C increases after a specific date and time, the searcher leaks to the site that operates the web server that he / she is interested in the company C after the specific date and time. For example, important information such as TOB (TakeOver Bid) and merger is less likely to be gradually leaked.
  • TOB TakeOver Bid
  • the access log 1520 indicates an access log generated on the web server side when the spread request of this embodiment is used.
  • the request log is statistically processed to generate a spread request, and a request set is issued to the web server.
  • that defines the specific specificity
  • FIG. 15 exemplifies the company name.
  • various information such as a specific character string in the geography / region name, product name, age, sex, group name, SNS, etc. Applicable and can prevent gradual information leakage about search intentions related to market research, future trends, corporate activity, and network activity, respectively.
  • the above-described functions of the present invention include C ++, Java (registered trademark), JavaBeans (registered trademark), Java Applet (registered trademark), JavaScript (registered trademark), Perl, Ruby and other object-oriented programming languages, SQL and other search-only languages, etc. It can be realized by a device-executable program described in the above, and can be stored in a device-readable recording medium and distributed or transmitted and distributed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

In order to prevent information leakage that may possibly be caused by information acquisition through a network, an information processing device (310) includes a request acquisition unit (314) acquiring an original request including a search value specifying information to be acquired; a specificity evaluation unit (324) determining whether or not information to be acquired in response to a request to be issued currently is statistically specific in relation to a request issued in the past; a diffusing request generation unit (316) generating dummy requests including dummy values for imparting resistance to data mining of an access log, until information to be acquired is determined not to be statistically specific; a search request issuing unit (318) issuing a diffusing request as a search request through networks (140, 220) to a database; and a search result extraction unit (320) extracting information acquired in response to a diffusing request from responses to search requests.

Description

情報処理装置、情報処理方法、プログラムおよびウェブ・システムInformation processing apparatus, information processing method, program, and web system
 本発明は、ネットワーク技術に関し、より詳細には、ネットワークを介した情報取得から生じる可能性のある情報漏洩の防止技術に関する。 The present invention relates to network technology, and more particularly, to technology for preventing information leakage that may occur from information acquisition via a network.
 近年、ネットワーク基盤およびコンピュータ技術の進歩により、パーソナル・コンピュータ、ワークステーション、またはサーバ・コンピュータは、ネットワークを介して相互接続され、情報の共有を行っている。情報の共有を行う場合、通常、パーソナル・コンピュータなどのクライアント・コンピュータ(以下、単にクライアントとして参照する。)は、情報を蓄積するウェブ・サーバに対して情報の要求を発行し、当該要求に応答して、ウェブ・サーバが要求に一致する情報をクライアントに送付することにより、クライアントは、要求した情報を取得する。 In recent years, personal computers, workstations, or server computers are interconnected via a network and share information due to advances in network infrastructure and computer technology. When sharing information, a client computer such as a personal computer (hereinafter simply referred to as a client) issues a request for information to a web server that stores information and responds to the request. Then, when the web server sends information matching the request to the client, the client acquires the requested information.
 クライアントからサーバに対して送付される要求には、数値データ・セットやキーワードなどの情報を指定する値が含まれ、サーバは、当該値を参照して、データベースなどに対して照会を発行することによって情報をデータベースから抽出する。すなわち、従来の情報検索方法は、クライアントが現在興味を有している情報をサーバに開示することを意味する。 Requests sent from the client to the server include values that specify information such as numeric data sets and keywords, and the server issues a query to the database etc. by referring to the values. To extract information from the database. That is, the conventional information retrieval method means that information that the client is currently interested in is disclosed to the server.
 ウェブ・サーバが信頼出来る場合には従来の情報検索でも問題は比較的少ないということができる。しかしながら、ウェブ・サーバが信頼できる場合であっても、検索を行う個人または企業などの検索主体は、情報を取得するため検索主体が現在どのような情報に興味を持っているのかを、ウェブ・サーバに通知することが必要である。 If the web server can be trusted, it can be said that there are relatively few problems even with conventional information retrieval. However, even if the web server is reliable, a search entity such as an individual or a company that performs a search can determine what information the search entity is currently interested in to obtain information. It is necessary to notify the server.
 近年では、ブラウジング技術の進歩により、複数のウェブ・サーバが管理する情報を単一の情報処理装置に集約して情報へのアクセス性を高める、いわゆるマッシュアップ(Mashup)システムが、Web2.0などとして普及している。マッシュアップ・システムは、クライアントと、マッシュアップ・サーバと、複数の情報サーバとを含んで構成されている。 In recent years, with the advancement of browsing technology, so-called mashup systems that improve the accessibility to information by consolidating information managed by multiple web servers into a single information processing device, such as Web2.0 As popular. The mashup system includes a client, a mashup server, and a plurality of information servers.
 マッシュアップ・サーバは、企業などの社内に設置されていてもよいし、また、マッシュアップ処理を専ら実行するため、ISP(Internet Service Provider)がインターネット内に設置するウェブ・サーバとされていてもよい。また、情報サーバは、それぞれISPなどにより提供され、それぞれが管理するデータベースから、クライアントの要求に対応する情報を検索し、検索された情報を、マッシュアップ・サーバに送付している。マッシュアップ・サーバは、取得した情報を適切に配置し、ブラウザ・プログラムなどを介してクライアントに複数の情報サーバから取得した情報を表示させている。 The mashup server may be installed in a company or the like, or the ISP (Internet Service Provider) may be a web server installed in the Internet in order to execute mashup processing exclusively. Good. Each information server is provided by an ISP or the like, searches information corresponding to a client request from a database managed by each, and sends the searched information to the mashup server. The mashup server appropriately arranges the acquired information, and displays information acquired from a plurality of information servers on a client via a browser program or the like.
 マッシュアップ・システムでは、クライアントが要求する情報に対応して複数の情報サーバが、クライアントの発行したリクエストを取得する。リクエストは、取得するべき情報を検索するための検索語や条件式を含む、例えば、SQL(Structured Query Language)文として構成される。情報サーバは、受領したリクエストから検索条件を取得し、それぞれが管理するデータベースの検索を実行することで、リクエストに対応する情報を取得する。ここで問題となることは、ネットワークを介して接続された情報サーバは、いずれもが必ずしも信頼できるものと言うことはできないことにある。また、信頼性ある情報サーバであっても、情報サーバに送付されたリクエスト内容によって、情報サーバのログ解析中のデータマイニングにより、リクエストの傾向が分析され、クライアント側の検索目的が暗黙のうちに知られてしまうことになる。 In the mashup system, multiple information servers acquire requests issued by clients in response to information requested by clients. The request is configured as, for example, an SQL (Structured Query Language) statement including a search word and a conditional expression for searching for information to be acquired. The information server acquires search conditions from the received request, and acquires information corresponding to the request by executing a search of a database managed by each information server. The problem here is that none of the information servers connected via the network is necessarily reliable. Even if a reliable information server is used, the request content sent to the information server is analyzed by data mining during log analysis of the information server, and the search purpose on the client side is implicit. It will be known.
 すなわち、ネットワーク技術の普及およびネットワーク上に蓄積される情報の高付加価値化が進むにつれて、情報検索プロトコルで発生する、緩やかな情報漏洩が問題とされるようになっていた。なお、本明細書において、用語「緩やかな情報漏洩」とは、ネットワーク上での集団としてのネットワーク・アクセスが、情報サーバによって統計的に分析されること、そしてその結果として集団の意思すなわち、検索意図が緩やかに漏洩することを意味する。 That is, as the spread of network technology and the increase in added value of information accumulated on the network, the gradual information leakage that occurs in the information search protocol has become a problem. In this specification, the term “slow information leakage” means that the network access as a group on the network is statistically analyzed by the information server, and as a result, the intention of the group, that is, the search It means that the intention leaks slowly.
 これまで情報検索プロトコルを拡張する検討が行われており、例えば、特開平11-259512号公報(特許文献1)では、検索条件や検索者の所在などと機密情報として保護するデータ検索システムが開示されている。特許文献1では、検索条件の一部または全部を機密情報としてデータ検索装置に隠蔽または遮蔽して検索を行い、検索結果をデータ検索装置が絞り込むことにより、データ検索が行われる。より詳細には、検索条件を遮蔽または不鮮明にする方法として、入力されたすべての検索条件から、予め登録された遮蔽するべき検索条件を削除するか、または入力された検索条件を類似語や上位概念へ置換したり、余分な検索条件を付加したり、検索条件を分割したりすることにより行われている。 For example, Japanese Patent Application Laid-Open No. 11-259512 (Patent Document 1) discloses a data search system that protects search conditions and the location of a searcher as confidential information. Has been. In Patent Document 1, a search is performed by concealing or shielding a part or all of the search conditions as confidential information in the data search device, and the data search device narrows down the search result, thereby performing the data search. More specifically, as a method for hiding or blurring the search condition, the search condition that should be shielded in advance is deleted from all the input search conditions, or the input search condition is similar words or higher ranks. This is done by replacing the concept, adding extra search conditions, or dividing the search conditions.
 特許文献1に記載された情報検索プロトコルでは、データ処理装置に入力された検索条件に対し、データ検索装置側で、削除、上位概念化、検索語の付加などの処理が行われる。この結果、データ処理装置側では、検索条件を加工処理するための追加プログラムおよび類似語辞書などが必要で、検索処理を実行するため検索条件に対する前処理が必要とされる。また、特許文献1のデータ検索装置では、遮蔽された検索条件を使用して、検索条件よりも広い条件でヒットした情報をデータ検索装置が一旦蓄積し、本来の検索条件に一致する情報を再度検索するデータ編集部が必要となる。この結果、データ検索装置は、本来取得するべき情報よりも膨大な情報を取得し、処理することが必要とされ、データ検索装置自体が、副次的なデータベースを実質的に備えていなければならない。このため、特許文献1のデータ検索装置は、ハードウェア資源およびプログラム資源の浪費を伴うので、現在のようにネットワーク上に蓄積される情報量が膨大な場合、検索を効率化することはできない。 In the information retrieval protocol described in Patent Document 1, processing such as deletion, superordinate conceptualization, and addition of a search term is performed on the retrieval condition input to the data processing apparatus on the data retrieval apparatus side. As a result, on the data processing apparatus side, an additional program for processing the search condition, a similar word dictionary, and the like are required, and preprocessing for the search condition is required to execute the search process. Further, in the data search device of Patent Document 1, the data search device temporarily stores information hit under a broader condition than the search condition using the shielded search condition, and information that matches the original search condition is again stored. A data editor to search is required. As a result, the data search apparatus is required to acquire and process a larger amount of information than is originally acquired, and the data search apparatus itself must substantially include a secondary database. . For this reason, since the data search device of Patent Document 1 involves waste of hardware resources and program resources, if the amount of information stored on the network is enormous as in the present, the search cannot be made efficient.
 また、特開2002-312377号公報(特許文献2)では、入力された第1の検索条件を、より広範囲を検索する第2の検索条件に変更して検索用サーバに対して情報検索を実行して第1の検索結果を取得し、取得した第1の検索結果を第1の検索条件により再度検索し、第1の検索条件に対応する検索結果を生成させ、利用者のプライバシーといった情報の漏洩を防止する検索装置が開示されている。 In Japanese Patent Laid-Open No. 2002-312377 (Patent Document 2), the input first search condition is changed to the second search condition for searching a wider range, and information search is executed on the search server. The first search result is acquired, the acquired first search result is searched again according to the first search condition, a search result corresponding to the first search condition is generated, and information such as user privacy is stored. A search device for preventing leakage is disclosed.
 特許文献2に記載された検索装置も、検索条件を拡張することにより、拡張された検索結果を検索装置に取得させ、当該検索結果を再度検索して本来取得するべき検索結果を生成する。この結果、検索装置自体も副次的なデータベースとして機能することが必要となる。この結果、検索装置は、検索条件の拡張に対応して、そのための記憶空間を確保しなければならず、また検索装置自体についてもある程度の検索能力を含む必要があるなど、検索効率、ハードウェア資源およびソフトウェア資源の浪費という点で、情報漏洩を効率的に防止するものではない。 The search device described in Patent Document 2 also expands the search condition to cause the search device to acquire the extended search result, and searches the search result again to generate a search result that should be originally acquired. As a result, the search device itself must function as a secondary database. As a result, the search device must secure a storage space for the expansion of the search condition, and the search device itself needs to include a certain degree of search capability. Information leakage is not effectively prevented in terms of waste of resources and software resources.
特開平11-259512号公報JP 11-259512 A 特開2002-312377号公報JP 2002-312377 A
 上述したように、従来技術は検索による情報漏洩を防止するために本来の検索条件を含む修正検索式を生成し、データベースに対して検索要求を発行して拡張検索結果を取得し、当該拡張検索結果を本来の検索条件を使用し、検索装置が再検索することによって本来の検索結果を再度生成するものである。 As described above, the prior art generates a modified search expression including an original search condition to prevent information leakage due to search, issues a search request to the database, acquires an extended search result, and executes the extended search. The original search result is generated again by using the original search condition and searching again by the search device.
 しかしながら、近年のようにネットワークを介してアクセスすることができる情報が膨大となって来ると、拡張検索結果を、クライアントや、検索を実行するためのゲートウェイ・サーバに取得させることは、記憶空間の浪費や再検索処理、データ編集処理などのオーバーヘッドが無視できず、またソフトウェア的にも小規模データベース・システムレベルの実装が必要であり、情報検索システム自体の冗長実装が必要となるなど、大きなハードウェア資源およびソフトウェア資源の修正が必要であった。 However, when the amount of information that can be accessed via a network has become enormous in recent years, it is possible to cause an extended search result to be acquired by a client or a gateway server for executing a search. The overhead such as waste, re-search processing, and data editing processing cannot be ignored, and it is necessary to implement a small database system level in terms of software, and the information search system itself must be redundantly implemented. Hardware resources and software resources needed to be modified.
 また、従来の情報漏洩を防止する方法では、本来の検索条件を拡張して上位概念化したり、範囲を広げるように拡張検索条件を生成するものであるが、結局の所、本来の検索条件は、拡張検索条件に含まれていなければならない。しかしながら、特許文献1および特許文献2により生成される拡張検索条件では、クライアント側が検索しようとする検索意図の漏洩を防止するものではなく、情報検索によって生じるクライアント側の検索意図の意図しない漏洩、すなわち緩やかな情報の漏洩を防止するものではない。 In addition, in the conventional method for preventing information leakage, the original search condition is expanded to create a higher level concept, or the extended search condition is generated so as to widen the range, but after all, the original search condition is , Must be included in the extended search criteria. However, the extended search conditions generated by Patent Document 1 and Patent Document 2 do not prevent the leakage of the search intention that the client side intends to search. It does not prevent gradual information leakage.
 本発明は、上記従来技術に鑑みて、ネットワークを介した情報取得から生じる可能性のある緩やかな情報漏洩を防止する、情報処理装置、情報処理方法、プログラムおよびウェブ・システムを提供することを目的とする。 An object of the present invention is to provide an information processing apparatus, an information processing method, a program, and a web system that prevent a gradual information leakage that may occur from information acquisition via a network. And
 本発明は、従来の情報検索では、緩やかな情報漏洩が発生していることに着目してなされたものであり、本発明では、過去のリクエスト・ログを統計解析して、情報を検索するためのリクエストが過去のリクエスト履歴から特異的な場合、ランダムに選択したダミー値を含む複数のダミー・リクエストを生成し、複数のダミー・リクエストを含む拡散リクエストを生成する。 The present invention has been made by paying attention to the fact that a gradual information leak occurs in the conventional information retrieval. In the present invention, the past request log is statistically analyzed to retrieve information. If the request is specific from the past request history, a plurality of dummy requests including randomly selected dummy values are generated, and a spread request including a plurality of dummy requests is generated.
 拡散リクエストは、検索主体が入力する検索対象が過去のリクエスト・ログから推定して特異的である場合に、検索処理を実行するウェブ・サーバへのアクセス・ログを、データマイニングなどにより特徴的であることが解析できないように蓄積させることで、検索主体の発行するリクエストのデータマイニング耐性を向上する。 Diffusion requests are characterized by data mining, etc. for access logs to web servers that execute search processing when the search target input by the search subject is specific from the past request log. Accumulating data so that it cannot be analyzed improves the data mining tolerance of requests issued by the search subject.
 本発明では、検索対象は、地図データなど数値データ・セットで指定され、同質の情報から演算によって取得できる連続的な属性を有する対象の他、企業名、株価、製品名、性別、年齢、任意の文字列など離散的な属性を有する対象についても適用することができる。 In the present invention, the search target is specified by a numerical data set such as map data and has a continuous attribute that can be obtained by calculation from homogeneous information, as well as company name, stock price, product name, gender, age, arbitrary The present invention can also be applied to an object having discrete attributes such as a character string.
 本発明によれば、ネットワークを介して情報を取得する情報処理装置であって、前記情報処理装置は、
 データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
 前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
 前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
 前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部と、
 前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部と
 を含む、情報処理装置が提供される。
According to the present invention, an information processing apparatus that acquires information via a network, the information processing apparatus includes:
A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database;
Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history An evaluation unit;
If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus. A spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value for requesting information different from information that should be information;
A search request issuing unit that issues the spread request as a search request to the database via the network;
There is provided an information processing apparatus including a search result extraction unit that extracts information acquired by the spread request from a response to the search request.
 本発明の前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、前記データマイニング耐性を付与することができる。本発明の前記検索要求発行部は、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行することができる。本発明の前記検索要求発行部は、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行することができる。 The dummy value of the present invention is stored in a dummy generation information storage unit, and the data mining tolerance can be imparted by reducing the specificity of the search value in the request log. The search request issuing unit of the present invention can issue the spread request including only the dummy request as the search request when the information to be acquired has a continuous attribute. The search request issuing unit of the present invention can issue the spread request including the original request and the dummy request as the search request when the information to be acquired has discrete attributes.
 本発明の前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させることができる。 The specificity evaluation unit of the present invention searches the request log for the search value included in the original request, and the number of occurrences of the search value corresponds to an increase rate of the currently determined search value. Generation of the dummy request for the spread request unit can be started by predicting that the average value of the number of occurrences of search values will increase by a threshold value or more.
 本発明の前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異性評価部は、複数の前記検索値ごとに前記特異性を判定し、前記検索値ごとに前記ダミー・リクエストを生成して、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行することができる。本発明の前記情報処理装置は、前記データベースからのレスポンスを受領して前記オリジナル・リクエストが含む前記検索値にそれぞれ対応するレスポンスを表示する表示領域を生成し、前記レスポンスを表示させることができる。 The original request of the present invention includes a plurality of search values for acquiring different information, and the specificity evaluation unit determines the specificity for each of the plurality of search values, and for each search value The dummy request can be generated and the spreading request issued to the database to be searched for information. The information processing apparatus of the present invention can receive a response from the database, generate a display area for displaying a response corresponding to each of the search values included in the original request, and display the response.
 本発明の前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバとすることができる。 The information processing apparatus of the present invention can be a mashup server implemented in the Web 2.0 paradigm.
 本発明によれば、さらに上記情報処理装置が実行する情報処理方法、プログラムおよび上記情報処理装置を含むウェブ・システムが提供される。 According to the present invention, there is further provided an information processing method and program executed by the information processing apparatus, and a web system including the information processing apparatus.
本発明のウェブ・システム100の実施形態を示した図。The figure which showed embodiment of the web system 100 of this invention. 本実施形態の第2の実施形態のウェブ・システム200を示した図。The figure which showed the web system 200 of 2nd Embodiment of this embodiment. 本実施形態の拡散リクエストを生成する情報処理システム300の機能ブロックを示した図。The figure which showed the functional block of the information processing system 300 which produces | generates the spreading | diffusion request of this embodiment. 本実施形態の情報処理方法のフローチャート。The flowchart of the information processing method of this embodiment. オリジナル・リクエストが含む特定の検索対象に対するリクエスト・ログ500を示した図。The figure which showed the request log 500 with respect to the specific search object which an original request contains. 本実施形態で、特定のタイム・チャンク内での特定の検索対象を含むオリジナル・リクエストの増加レートから、現在リクエスト・ログ500を蓄積しているタイム・チャンクでの検索対象の特性を判断する処理の実施形態を示した図。In the present embodiment, the process of determining the characteristics of the search target in the time chunk that currently stores the request log 500 from the increasing rate of the original request including the specific search target in the specific time chunk. The figure which showed embodiment. 図5および図6で示されるリクエスト・ログ500に対し、本実施形態による拡散リクエストを発行した後に例えばウェブ・サーバ150が記録するアクセス・ログ700の実施形態を示した図。The figure which showed embodiment of the access log 700 which the web server 150 records after issuing the spreading | diffusion request by this embodiment with respect to the request log 500 shown by FIG. 5 and FIG. 本実施形態で、特定の数値データに関連付けられた情報を検索する場合の、オリジナル・リクエストの取得からリクエストの発行までの処理の詳細フローチャート。6 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in the present embodiment. 図8で説明した処理のうち、S803~S805の処理の疑似コードを示した図。The figure which showed the pseudo code of the process of S803-S805 among the processes demonstrated in FIG. 本実施形態の情報検索方法の第2の実施形態のフローチャート。The flowchart of 2nd Embodiment of the information search method of this embodiment. 図10に示した処理を実行する疑似コードの実施形態。FIG. 11 is an embodiment of pseudo code for executing the processing shown in FIG. 10. FIG. 地図データの検索を行う場合の実施形態で生成される拡散リクエストの内容の拡散状態。The diffusion state of the content of the diffusion request generated in the embodiment when searching for map data. 本実施形態のウェブ・システムが表示する検索画面1300の実施形態を示した図。The figure which showed embodiment of the search screen 1300 which the web system of this embodiment displays. 本実施形態で、検索対象が離散的な属性を有している場合の実施形態を示した図。The figure which showed embodiment in case this search object has a discrete attribute in this embodiment. 本実施形態の情報処理方法による拡散リクエスト発行の結果として生成されるアクセス・ログ1500の実施形態を示した図。The figure which showed embodiment of the access log 1500 produced | generated as a result of the spreading | diffusion request issue by the information processing method of this embodiment.
 以下、本発明を実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本発明のウェブ・システム100の実施形態を示す。ウェブ・システム100は、クライアント110~114と、マッシュアップ・サーバ130と、ウェブ・サーバ150~154とを含んでいる。クライアント110~114とマッシュアップ・サーバ130は、LAN、WANまたはインターネットなどのネットワーク120を介して相互接続されている。また、マッシュアップ・サーバ130は、ネットワーク140を介してウェブ・サーバ150~154に相互接続されている。ネットワーク140は、特に限定されることはないが、インターネットなどの広域ネットワークを使用することができる。 Hereinafter, the present invention will be described with embodiments, but the present invention is not limited to the embodiments described below. FIG. 1 illustrates an embodiment of a web system 100 of the present invention. Web system 100 includes clients 110-114, mashup server 130, and web servers 150-154. The clients 110 to 114 and the mashup server 130 are interconnected via a network 120 such as a LAN, WAN, or the Internet. The mashup server 130 is interconnected to the web servers 150 to 154 via the network 140. The network 140 is not particularly limited, but a wide area network such as the Internet can be used.
 マッシュアップ・サーバ130およびウェブ・サーバ150~154は、概ね同様のハードウェア構成を採用することができ、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップなど、CISCアーキテクチャのマイクロプロセッサ、または、POWERPC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを、シングルコアまたはマルチコアの形態で実装することができる。また、各サーバは、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御されていて、C、C++、JAVA(登録商標)、JAVABEANS(登録商標)、PERL、RUBYなどのプログラミング言語を使用して実装される、CGI、サーブレット、APACHE、IIS(Internet Information Server)などのサーバ・プログラムを実行し、クライアント110~114から送付される検索要求、すなわちオリジナル・リクエストを処理する。 The mashup server 130 and the web servers 150 to 154 can employ almost the same hardware configuration, and a CISC architecture microprocessor such as a PENTIUM (registered trademark) or a PENTIUM (registered trademark) compatible chip, or A RISC architecture microprocessor such as POWERPC (registered trademark) can be implemented in a single-core or multi-core form. In addition, each server is controlled by an operating system such as WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark), C, C ++, JAVA (registered trademark), JAVABEANS (registered trademark). Search requests sent from clients 110 to 114 by executing server programs such as CGI, Servlet, APACHE, IIS (Internet Information Server) implemented using programming languages such as, PERL, and RUBY.・ Process the request.
 なお、マッシュアップ・サーバ130の特定の実装形態では、マッシュアップ・サーバ130を、企業などのゲートウェイ・サーバなどの一部機能として実装することができる。また、他の実施形態では、マッシュアップ・サーバ130は、Web2.0などのパラダイムに基づいたサービスを行う、ISP(Internet Service Provider)に設置されていてもよい。さらに、ウェブ・サーバ150~154は、それぞれ、データベース160~164を管理していて、ネットワーク140を介したリクエストに対応して情報を提供することが可能とされている。説明する実施形態では、サーバ150は、会社情報サービス提供サーバとして実装され、サーバ152は、株価情報サービス提供サーバとして実装されている。ウェブ・サーバ154は、地図情報サービス提供サーバとして実装されていて、マッシュアップ・サーバ130からの個別的な要求を処理し、マッシュアップ・サーバ130に送付する。 Note that, in a specific implementation form of the mashup server 130, the mashup server 130 can be implemented as a partial function of a gateway server or the like of a company. In another embodiment, the mashup server 130 may be installed in an ISP (Internet Service Provider) that performs a service based on a paradigm such as Web 2.0. Furthermore, the web servers 150 to 154 manage the databases 160 to 164, respectively, and can provide information corresponding to requests via the network 140. In the embodiment to be described, the server 150 is implemented as a company information service providing server, and the server 152 is implemented as a stock price information service providing server. The web server 154 is implemented as a map information service providing server, and processes individual requests from the mashup server 130 and sends them to the mashup server 130.
 クライアント110~114は、それぞれ複数のアプリケーション・サービスを利用して情報を取得し、例えば、クライアント110は、自己が発行したオリジナル・リクエストに対応する情報をマッシュアップ・サーバ130を介して取得する。マッシュアップ・サーバ130は、複数のウェブ・サーバ150~154からの情報をクライアント110に対応付けて格納し、複合情報としてクライアント110に提示する。 Each of the clients 110 to 114 acquires information using a plurality of application services. For example, the client 110 acquires information corresponding to the original request issued by the client 110 via the mashup server 130. The mashup server 130 stores information from the plurality of web servers 150 to 154 in association with the client 110, and presents the information to the client 110 as composite information.
 例えば、クライアント110が、特定の企業情報、株価情報、および地図情報を同時に取得することを希望する場合、マッシュアップ・サーバ130は、例えばクライアント110から送付されるオリジナル・リクエストに基づいて、各アプリケーション・サービスを提供するウェブ・サーバ150~154に送付するための拡散リクエストを生成し、それぞれのウェブ・サーバ150~154に宛てて拡散リクエストを送付し、拡散リクエストに対応して取得した情報からオリジナル・リクエストに対応する結果を取得し、複合情報として例えばウェブ・ページに合成してクライアント110に送付する。 For example, when the client 110 desires to acquire specific company information, stock price information, and map information at the same time, the mashup server 130 determines each application based on an original request sent from the client 110, for example.・ Generate a spread request to be sent to the web servers 150 to 154 that provide the service, send the spread request to each of the web servers 150 to 154, and create an original from the information acquired corresponding to the spread request The result corresponding to the request is acquired, and is combined with, for example, a web page as composite information and sent to the client 110.
 本実施形態で参照する用語「拡散リクエスト」とは、クライアントが発行するオリジナル・リクエストが含む検索対象の種類に対応し、検索対象の属性ごとに生成されるウェブ・サーバ150~154に宛てて送付されるリクエストを意味する。拡散リクエストは、ウェブ・サーバが、アクセス・ログを利用して統計的にデータマイニングすることで、オリジナル・リクエストの特性を解析することを困難とするように生成される、ダミー値を含む単一のリクエストまたはリクエスト・セットとして生成される。 The term “diffusion request” referred to in the present embodiment corresponds to the type of search target included in the original request issued by the client, and is sent to the web servers 150 to 154 generated for each search target attribute. Means a request to be made. A spread request is a single, dummy value that is generated so that it is difficult for the web server to analyze the characteristics of the original request by statistically mining data using the access log. Generated as a request or set of requests.
 クライアント110~114は、パーソナル・コンピュータまたはワークステーションなどを使用して実装でき、また、そのマイクロプロセッサ(MPU)は、これまで知られたいかなるシングルコア・プロセッサまたはマルチコア・プロセッサを含んでいてもよい。また、クライアント110~114は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MAC OSなど、これまで知られたいかなるオペレーティング・システムにより制御されてもよい。また、クライアント110~114は、マッシュアップ・サーバ130や、ウェブ・サーバ150~154にアクセスするため、Internet Explorer(登録商標)、Mozilla(登録商標)、Opera(登録商標)、FireFox(登録商標)などのブラウザ・ソフトウェアを実装することができる。 Clients 110-114 can be implemented using a personal computer or workstation, etc., and the microprocessor (MPU) may include any single-core or multi-core processor known so far. . The clients 110 to 114 may be controlled by any known operating system such as WINDOWS (registered trademark), UNIX (registered trademark), LINUX (registered trademark), or MAC OS. The clients 110 to 114 access the mashup server 130 and the web servers 150 to 154 in order to access Internet Explorer (registered trademark), Mozilla (registered trademark), Opera (registered trademark), and FireFox (registered trademark). Browser software such as can be implemented.
 クライアント110~114と、マッシュアップ・サーバ130およびマッシュアップ・サーバ130と、ウェブ・サーバ150~154の間は、TCP/IPなどのトランザクション・プロトコルを使用するHTTP、HTTPSなどのファイル転送プロトコルでテータ送受信が行われる。また、マッシュアップ・サーバ130は、ウエブ・サーバ150~154のデータベースにアクセスするために、JDBC(Java(登録商標)Database Connectivity)、ODBC(Open Database Connectivity)などを実装し、JDBCなどで定められるアプリケーションレベル・プロトコルで、ウェブ・サーバ150~154に接続することができる。 Between the clients 110 to 114, the mashup server 130 and the mashup server 130, and the web servers 150 to 154, the data is transferred using a file transfer protocol such as HTTP or HTTPS using a transaction protocol such as TCP / IP. Transmission / reception is performed. In addition, the mashup server 130 implements JDBC (Java (registered trademark) Database Connectivity), ODBC (Open Database Connectivity), etc. to access the database of the web servers 150 to 154, and is defined by JDBC. An application level protocol can connect to the web servers 150-154.
 図1に示す実施形態では、クライアント110が発行したリクエストは、マッシュアップ・サーバ130により一旦インターセプトされる。そして、マッシュアップ・サーバ130は、過去のリクエスト・ログを参照して統計処理する。統計処理の結果、マッシュアップ・サーバ130は、当該リクエストが含む取得するべき情報を指定するための検索値がリクエストの履歴から判断して特定の検索意図を反映してしまうと判断すると、拡散リクエストを生成し、拡散リクエストを、検索対象の情報を管理するウェブ・サーバ150~154に発行する。各ウェブ・サーバ150~154は、拡散リクエストを受領して、それぞれが管理するデータベース160~164を検索し、リクエストに対応する情報を抽出し、マッシュアップ・サーバにレスポンスとして返す。マッシュアップ・サーバ130は、ウェブ・サーバ150~154から受領したレスポンスから、当該レスポンスを同時にデスクトップ画面上に表示するための表示領域を有するウェブ・ページを構成し、それぞれのレスポンスを表示領域に割り当てて表示させることによってリクエストの発行元のクライアント110にブラウジングさせている。 In the embodiment shown in FIG. 1, the request issued by the client 110 is intercepted once by the mashup server 130. Then, the mashup server 130 performs statistical processing with reference to the past request log. As a result of the statistical processing, the mashup server 130 determines that the search value for designating the information to be acquired included in the request reflects the specific search intention based on the request history. And a spread request is issued to the web servers 150 to 154 that manage the search target information. Each of the web servers 150 to 154 receives the spread request, searches the databases 160 to 164 managed by each, extracts information corresponding to the request, and returns it to the mashup server as a response. The mashup server 130 forms a web page having a display area for simultaneously displaying the response on the desktop screen from the responses received from the web servers 150 to 154, and assigns each response to the display area. By displaying the request, the client 110 that issued the request browses.
 図2は、本実施形態の第2の実施形態のウェブ・システム200を示す。図2に示したウェブ・システム200は、複数のクライアント210~214が、ウェブ・ブラウザの、例えばプラグイン・プログラムやアドインプログラムなどの拡張アプリケーションとして実装されるマッシュアップ・アプリケーションを実装する。その代わりに、ウェブ・システム200では、とりわけマッシュアップ・サーバ130といった専用サーバは利用されていない。図2に示す実施形態では、図1のマッシュアップ・サーバ130の機能は、クライアント210~214の機能として実装され、オリジナル・リクエストから、各ウェブ・サーバ230~234へと発行される拡散リクエストを生成し、ウェブ・サーバ230~234へと拡散リクエストを発行し、各拡散リクエストに対応する検索結果をフィルタリングして複合情報としてブラウザ・プログラムに表示する。 FIG. 2 shows a web system 200 according to the second embodiment of the present embodiment. The web system 200 shown in FIG. 2 implements a mashup application in which a plurality of clients 210 to 214 are implemented as an extended application of a web browser, for example, a plug-in program or an add-in program. Instead, the web system 200 does not use a dedicated server such as the mashup server 130. In the embodiment shown in FIG. 2, the function of the mashup server 130 in FIG. 1 is implemented as the function of the clients 210 to 214, and the spreading request issued from the original request to each of the web servers 230 to 234 is transmitted. Generate and issue a spread request to the web servers 230 to 234, filter the search result corresponding to each spread request, and display it as composite information on the browser program.
 一方、ウェブ・サーバ230~234は、図1で示した実施形態と同様の構成とされていて、クライアント210などからの拡散リクエストに応答して、検索した情報をクライアント210などに返している。 On the other hand, the web servers 230 to 234 have the same configuration as that of the embodiment shown in FIG. 1, and return the searched information to the client 210 or the like in response to the spread request from the client 210 or the like.
 本実施形態では、拡散リクエストを単一のリクエストとして生成する場合には、ダミー・リクエストの検索対象を指定する検索値を演算子ORで結合して生成する。また拡散リクエストをリクエスト・セットとして生成する場合には、アクセス・ログを統計的に均一化させる、例えば検索対象の発生頻度をホワイトノイズ化させるようにダミー値を含む複数のダミー・リクエストを含むリクエスト・セットを生成する。いずれの場合でも、ダミー・リクエストは、リクエスト・ログを参照し、クライアント側の検索意図がウェブ・サーバでのデータマイニングにより抽出されてしまうことを防止するように、検索の対象ごとのタイムスケールに関して、平均化するようにリクエスト内容を選択する。なお、拡散リクエストは、検索するべき情報の属性に対応して、オリジナル・リクエストを含んでも良いし、オリジナル・リクエストをまったく含まなくともよい。 In this embodiment, when generating a spread request as a single request, search values for specifying a search target of a dummy request are generated by combining them with an operator OR. In addition, when generating a spread request as a request set, a request including a plurality of dummy requests including dummy values so that the access log is statistically uniform, for example, the occurrence frequency of the search target is white noise.・ Create a set. In either case, the dummy request refers to the request log and relates to the time scale for each search target so that the client-side search intent is not extracted by data mining on the web server. , Select the request content to average. Note that the spread request may include the original request or may not include the original request at all according to the attribute of the information to be searched.
 図3は、本実施形態の拡散リクエストを生成する情報処理システム300の機能ブロックを示す。図3に示す情報処理システム300は、図1の実施形態では、マッシュアップ・サーバ130に対応し、図2に示す実施形態では、クライアント210~214に対応する。各実施形態では、各機能ブロックが、サーバ・アプリケーションとして実装されるか、またはクライアント・アプリケーションとして実装されるかの相違はあるものの、情報処理システム300の各機能ブロックは、マイクロプロセッサが、情報処理装置を各機能手段として機能させるためのプログラムを実行空間であるRAMに読み込んでプログラムを実行することにより実現されている。 FIG. 3 shows functional blocks of the information processing system 300 that generates the spreading request of this embodiment. The information processing system 300 shown in FIG. 3 corresponds to the mashup server 130 in the embodiment of FIG. 1, and corresponds to the clients 210 to 214 in the embodiment shown in FIG. In each embodiment, although each functional block is implemented as a server application or a client application, each functional block of the information processing system 300 is processed by a microprocessor. This is realized by reading a program for causing the apparatus to function as each functional means into a RAM, which is an execution space, and executing the program.
 図3に示すように、情報処理システム300は、情報処理装置310と、ディスプレイ装置、キーボードおよびマウスなどを含む入出力装置330とを含んで構成されている。情報処理装置310は、ネットワーク・アダプタ312を介してネットワーク140、220へと拡散リクエストを送出し、拡散リクエストに対応するウェブ・サーバからのレスポンスを取得している。情報処理装置310は、さらに、リクエスト取得部314と、拡散リクエスト生成部316と、ダミー生成情報格納部322とを含んでいる。さらに、情報処理装置310は、情報処理装置310がウェブ・サーバに送ったリクエストを時系列的に格納するリクエスト・ログ328を含んでいる。 As shown in FIG. 3, the information processing system 300 includes an information processing device 310 and an input / output device 330 including a display device, a keyboard, a mouse, and the like. The information processing apparatus 310 sends a spread request to the networks 140 and 220 via the network adapter 312 and obtains a response from the web server corresponding to the spread request. The information processing apparatus 310 further includes a request acquisition unit 314, a diffusion request generation unit 316, and a dummy generation information storage unit 322. Further, the information processing apparatus 310 includes a request log 328 that stores requests sent from the information processing apparatus 310 to the web server in time series.
 リクエスト取得部314は、情報処理装置310がマッシュアップ・サーバ130として実装される実施形態では、ネットワーク120を介してクライアント110~114からのオリジナル・リクエストを取得する。また、情報処理装置310がマッシュアップ・サーバ130を介さずにウェブ・サーバ230~234に対してアクセスする場合、入出力装置330を介してオペレータが入力する検索条件を含むオリジナル・リクエストを取得する。拡散リクエスト生成部316は、リクエスト・ログ格納部328を参照し、リクエスト取得部314が取得したオリジナル・リクエストの内容について、過去のリクエスト・ログにおける特異性を判断する。 In the embodiment in which the information processing apparatus 310 is implemented as the mashup server 130, the request acquisition unit 314 acquires original requests from the clients 110 to 114 via the network 120. When the information processing apparatus 310 accesses the web servers 230 to 234 without using the mashup server 130, an original request including a search condition input by the operator is acquired via the input / output apparatus 330. . The diffusion request generation unit 316 refers to the request / log storage unit 328 and determines the specificity of the original request acquired by the request acquisition unit 314 in the past request log.
 拡散リクエスト生成部316は、当該判断結果に対応し、拡散リクエストを生成するために使用するダミー値をダミー生成情報格納部322から取得し、特異性評価部324により特定の検索対象が特異的ではないと判断されるまでダミー値を取得して拡散リクエストに含ませてダミー・リクエストを生成する。なお、オリジナル・リクエストの特異性の判断は、マッシュアップ・サーバ130またはクライアント210~214が、管理するリクエスト発行に関連して特定のタイムスケールにおける検索対象の出現回数について設定されるしきい値などを使用して行うことができる。さらに、情報処理装置310の処理能力に応じてさらに高度な統計処理を行って決定することもできる。 The diffusion request generation unit 316 acquires a dummy value used to generate the diffusion request corresponding to the determination result from the dummy generation information storage unit 322, and the specificity evaluation unit 324 determines that the specific search target is specific. A dummy value is generated until it is determined that there is no dummy value and included in the spread request. Note that the peculiarity of the original request is determined by, for example, a threshold set by the mashup server 130 or the clients 210 to 214 for the number of appearances of the search target in a specific time scale in relation to the request issuance managed. Can be done using. Furthermore, it can be determined by performing more advanced statistical processing according to the processing capability of the information processing apparatus 310.
 本実施形態では、拡散リクエスト生成部316が生成する拡散リクエストは、ウェブ・サーバ150、152、154が処理するべきデータの属性により異なる処理によって作成される。拡散リクエストは、本実施形態では、各ウェブ・サーバ150~154が管理するアクセス・ログの特定の対象に関連する時系列的なしきい値的挙動を、統計的に解析困難とするために生成される。検索する対象情報は、特に限定されるものではないが、本実施形態では、検索の対象とする情報を、連続的属性を有する情報と、離散的属性を有する情報とに分類する。 In the present embodiment, the spread request generated by the spread request generation unit 316 is created by different processing depending on the attribute of data to be processed by the web servers 150, 152, and 154. In this embodiment, the spread request is generated in order to make it difficult to analyze the time-series threshold behavior related to a specific target of the access log managed by each web server 150 to 154 statistically. The The target information to be searched is not particularly limited, but in this embodiment, the information to be searched is classified into information having a continuous attribute and information having a discrete attribute.
 上述した連続的属性を有する情報とは、検索対象とする情報を特徴付けるための値、例えば位置座標、経度、緯度、標高、時間、期間などの値が、検索対象とするデータを除く同質の情報からの外挿、補間、移動などの予め設定された演算によって取得できる属性を有する情報である。より例示的には、連続的属性を有する情報としては、位置座標や緯度・経度データなどを挙げることができる。 The information having the continuous attribute described above is a homogeneous information excluding data to be searched for values for characterizing information to be searched, for example, position coordinates, longitude, latitude, altitude, time, period, etc. Information having an attribute that can be acquired by a preset operation such as extrapolation, interpolation, and movement from the. More specifically, examples of information having continuous attributes include position coordinates and latitude / longitude data.
 一方、上述した離散的属性を有する情報とは、他の同質の情報とは独立してデータが変動する可能性を有し、検索対象のデータに直接アクセスしてデータを取得することが必要な属性を有する情報として定義する。より例示的には、離散的属性を有する情報としては、企業の株価情報、業績情報、M&A(Mergers and Acquisitions)情報、その他企業活動や集団の活動に関連する情報を挙げることができる。 On the other hand, the information having the above-mentioned discrete attribute is an attribute that has a possibility that the data may fluctuate independently of other homogeneous information and needs to directly access the data to be searched to acquire the data. Is defined as information having More specifically, examples of information having discrete attributes include company stock price information, business performance information, M & A (Mergers and Acquisitions) information, and other information related to company activities and group activities.
 ダミー生成情報格納部322は、データベースまたはテーブルとして実装でき、リクエストが要求する情報の属性に対応して、例えば、企業名、住所、緯度・経度情報などを対応付けて登録することができる。また、他の実施形態で、取得するべき情報が特定企業の株価、業績、製品、トピックスなど離散的である場合、情報の属性ごとにオリジナル・リクエストの特異性を低下させるため、カテゴリごとにダミー値として利用することができる情報を登録しておくことができる。 The dummy generation information storage unit 322 can be implemented as a database or a table and can register, for example, company names, addresses, latitude / longitude information, and the like in association with attributes of information requested by the request. In another embodiment, when the information to be acquired is discrete such as the stock price, performance, product, and topics of a specific company, a dummy for each category is used to reduce the specificity of the original request for each attribute of the information. Information that can be used as values can be registered.
 特異性評価部324は、オリジナル・リクエストを受領してリクエスト・ログの解析を行ない、受領したオリジナル・リクエストがリクエスト・ログのアクセス情報の平均値から逸脱する場合、ダミー生成情報を参照して、オリジナル・リクエストがリクエスト・ログから判断して特異的とはならないようになるまで、拡散リクエスト生成部316によるダミー値を含むダミー・リクエストを含む拡散リクエストの生成を実行させる。 The peculiarity evaluation unit 324 receives the original request and analyzes the request log. When the received original request deviates from the average value of the access information of the request log, refer to the dummy generation information, Until the original request is determined to be non-specific as determined from the request log, the diffusion request generation unit 316 causes generation of the diffusion request including the dummy request including the dummy value.
 情報処理装置310は、検索要求発行部318と、検索結果抽出部320とを含んでいる。検索要求発行部318は、オリジナル・リクエストおよびダミー値を含んで生成したダミー・リクエストをそれぞれSQLクエリーにセットし、ネットワーク140、220を介してウェブ・サーバに発行する。なお、拡散リクエスト生成部316は、取得するべき情報が連続的かまたは離散的かの属性に応じて、検索要求発行部318に対して、オリジナル・リクエストで指定された値を渡すか否かを判断する。 The information processing apparatus 310 includes a search request issuing unit 318 and a search result extracting unit 320. The search request issuing unit 318 sets the original request and the dummy request generated including the dummy value in the SQL query, and issues them to the web server via the networks 140 and 220. Note that the spread request generation unit 316 determines whether to pass the value specified in the original request to the search request issuing unit 318 according to the attribute of whether the information to be acquired is continuous or discrete. to decide.
 より具体的には、例えば、オリジナル・リクエストが、数値データ・セット、ベクトルなどとして記述される連続的属性を有する情報を要求する場合、オリジナル・リクエストで指定された値を検索要求にセットせずとも、外挿、補間、または相対差分を利用することにより、オリジナル・リクエストで指定された情報を取得することが可能である。このため、ダミー・リクエストは、連続的属性を有する情報の場合、対象情報ではなく、対象情報に対してウェブ・サーバ154がクライアントからの別のリクエストにより到達することができるように生成される。 More specifically, for example, when the original request requests information having continuous attributes described as a numerical data set, a vector, etc., the value specified in the original request is not set in the search request. In any case, it is possible to acquire information specified by the original request by using extrapolation, interpolation, or relative difference. For this reason, in the case of information having a continuous attribute, the dummy request is generated so that the web server 154 can reach the target information by another request from the client, not the target information.
 一方、情報が、株価情報や企業名、団体名、検索文字列などで指定される離散的属性を有する場合、目的とする情報を直接検索しなければ検索の目的を達成できない。このため拡散リクエスト生成部316は、オリジナル・リクエストに記述された値を使用して検索対象の情報と同質であって、検索対象とは異なる情報を要求するリクエストを生成し、これらをダミー・リクエストとして取得し、ダミー・リクエストをオリジナル・リクエストとともに検索要求発行部318に渡し、拡散リクエストを生成する。このため、検索結果抽出部320は、ダミー・リクエストのレスポンスとともにオリジナル・リクエストのレスポンスを受領する。 On the other hand, if the information has discrete attributes specified by stock price information, company name, organization name, search character string, etc., the search purpose cannot be achieved unless the target information is directly searched. For this reason, the diffusion request generation unit 316 generates a request for requesting information that is the same quality as the information to be searched using the value described in the original request and is different from the information to be searched. And the dummy request is passed to the search request issuing unit 318 together with the original request to generate a diffusion request. For this reason, the search result extraction unit 320 receives the response of the original request together with the response of the dummy request.
 検索結果抽出部320は、ウェブ・サーバから送付される検索結果を必要に応じてフィルタ処理し、入出力インタフェース/ブラウザ326を介して入出力装置330のディスプレイ装置に検索結果を表示する。また、情報処理装置310のオペレータは、検索結果としてマップなどを取得した場合、マウスなどで表示領域や縮尺を調整し、さらに相対移動リクエストなどを追加的に発行し、オリジナル・リクエストとして取得するべき情報にアクセスできるように逐次的に検索結果を更新する。 The search result extraction unit 320 filters the search result sent from the web server as necessary, and displays the search result on the display device of the input / output device 330 via the input / output interface / browser 326. In addition, when the operator of the information processing apparatus 310 acquires a map or the like as a search result, the operator should adjust the display area or scale with a mouse or the like, and additionally issue a relative movement request or the like to acquire the original request. Update search results sequentially so that you can access the information.
 図4は、本実施形態の情報処理方法のフローチャートである。図4の処理は、ステップS400から開始し、ステップS401で、オリジナル・リクエストを取得する。なお、オリジナル・リクエストは、図1の実施形態または図2の実施形態に応じて情報処理装置310がネットワーク120または入出力装置330から取得する。例えば、オリジナル・リクエストが企業情報、株価情報、および地図情報の情報取得を検索するための検索対象を、{C,S,G}として複合情報を取得するために生成されたものとする。情報処理装置310は、オリジナル・リクエストが含む検索要求を分離し、ステップS402で、特異性評価部324を呼び出して、まずオリジナル・リクエストが含む検索要求それぞれについて、時間的経過に関連して拡散されているか否かの判断を実行する。特異性評価部324が実行する処理については、より詳細に後述する。 FIG. 4 is a flowchart of the information processing method of this embodiment. The process of FIG. 4 starts from step S400, and an original request is acquired in step S401. The original request is acquired from the network 120 or the input / output device 330 by the information processing apparatus 310 according to the embodiment of FIG. 1 or the embodiment of FIG. For example, an original request is generated to acquire composite information with {C i , S i , G i } as a search target for searching for information acquisition of company information, stock price information, and map information. To do. The information processing apparatus 310 separates the search request included in the original request, calls the specificity evaluation unit 324 in step S402, and first, for each search request included in the original request, is diffused in relation to the time course. Determine whether or not The process executed by the specificity evaluation unit 324 will be described later in more detail.
 ウェブ・サーバに送るリクエストが、リクエスト・ログを使用した判断により内容的および時間的に拡散されていないと判断される場合(no)、ステップS403で、ダミー生成情報を参照して、拡散リクエストを生成し、再度、処理をステップS402に戻してリクエストの内容が拡散しているか否かを判断する。 When it is determined that the request to be sent to the web server is not spread in terms of contents and time based on the determination using the request log (no), in step S403, the diffusion request is referred to by referring to the dummy generation information. Then, the process returns to step S402 again to determine whether or not the content of the request is spread.
 ステップS402の判断で、リクエストの内容がリクエスト・ログとの比較で拡散している、すなわち特異的ではないと判断された場合(yes)、ステップS404で、リクエストを送信する。 If it is determined in step S402 that the content of the request is diffused by comparison with the request log, that is, it is not specific (yes), the request is transmitted in step S404.
 ステップS405では、ウェブ・サーバからのレスポンスを受領したか否かを判断し、レスポンスの受領が完了していない場合(no)レスポンスの受領が完了するまで処理を反復する。一方、ステップS405でウェブ・サーバからのレスポンスの受領を完了した場合(yes)、ステップS406で、情報処理装置310は、レスポンスをオリジナル・リクエストに対応してマージして、ブラウザで表示させる。なお、ステップS406の処理では、受領するデータの属性に応じて、ブラウジングするべきデータをフィルタする処理を含むことができる。クライアントのディスプレイ装置上にブラウジングが完了した段階で、処理は、ステップS407で終了し、以後のオリジナル・リクエストの入力を待機する。 In step S405, it is determined whether or not a response from the web server has been received. If the response has not been received (no), the process is repeated until the response has been received. On the other hand, when the reception of the response from the web server is completed in step S405 (yes), in step S406, the information processing apparatus 310 merges the responses corresponding to the original request and displays them in the browser. Note that the process of step S406 can include a process of filtering data to be browsed according to the attribute of the received data. When the browsing on the client display device is completed, the process ends in step S407 and waits for the subsequent input of the original request.
 以下、本実施形態で、特異性評価部324が実行する処理の例示的な実施形態を説明する。図5には、例示的な目的で、オリジナル・リクエストが含む特定の検索対象に対するリクエスト・ログ500を示す。図5で縦軸は、オリジナル・リクエストが含む同一の検索対象に対するi(i=0,...,p:pは、非負の整数である。)番目のタイム・チャンク内での累積リクエスト数SNであり、横軸は、時間経過を示す。なお、タイム・チャンクは、オリジナル・リクエストの特異性を希釈する目的で、例えば、分単位、時間単位、1日単位、週単位、月単位など、適宜設定することができる。また、リクエスト・ログ500は、リクエスト発行の特定の単位ごとに生成して、蓄積することができ、リクエスト発行元の単位としては、クライアント単位、事業所単位、企業単位とすることができる。 Hereinafter, an exemplary embodiment of processing executed by the specificity evaluation unit 324 will be described in the present embodiment. FIG. 5 shows a request log 500 for a particular search target included in the original request for exemplary purposes. In FIG. 5, the vertical axis represents the number of accumulated requests in the i-th time chunk (i = 0,..., P: p is a non-negative integer) for the same search target included in the original request. It is SN i , and the horizontal axis shows the passage of time. The time chunk can be set as appropriate, for example, in minutes, hours, days, weeks, months, etc., for the purpose of diluting the specificity of the original request. Further, the request log 500 can be generated and stored for each specific unit of request issuance, and the request issuer unit can be a client unit, a business unit unit, or a company unit.
 また、オリジナル・リクエストが同一の検索対象を要求しているか否かについては、企業情報であれば、同一の企業名のテキスト一致、株価情報であれば企業名または銘柄コードなどのテキスト一致などを利用して判断することができる。また、地図情報などの数値データで指定される検索対象については、特定の緯度・経度を中心として設定された経度・緯度の数値範囲内で一致することによって判断することができる。なお、地図情報の検索の場合、市街地かまたは非市街地かによって設定された緯度・経度範囲を変更することができる。指定されたに関連して特定範囲内に共通するランドマークが存在するか否かを使用して検索対象の同一性を判断してもよい。 Whether the original request requests the same search target, for company information, the text match for the same company name, and for stock price information, the text match for the company name or stock code, etc. It can be used and judged. Further, a search target specified by numerical data such as map information can be determined by matching within a numerical range of longitude / latitude set around a specific latitude / longitude. In the case of searching for map information, the latitude / longitude range set according to whether it is an urban area or a non-urban area can be changed. The identity of the search target may be determined using whether or not there is a common landmark within a specific range in relation to the designated.
 情報処理装置310は、リクエスト・ログ500の記録開始から、特定の検索対象についてオリジナル・リクエストとして発行された検索対象を、適切な処理間隔で与えられるタイム・チャンク単位で、検索対象ごとに発生数Nとして登録する。そして、現在リクエスト・ログ500を蓄積しているタイム・チャンクでは、注目している検索対象を含むオリジナル・リクエストの発生数を、オリジナル・リクエスト単位で検出する。 The information processing apparatus 310 generates, for each search target, a search target issued as an original request for a specific search target in units of time chunks given at an appropriate processing interval from the start of recording of the request log 500. Register as N. Then, in the time chunk in which the request log 500 is currently accumulated, the number of occurrences of original requests including the target search object is detected in units of original requests.
 特異性評価部324は、現在蓄積中のタイム・チャンクが終了した段階で、注目している検索対象のリクエストあたりの増加速度を検査し、当該タイム・チャンクが、リクエスト・ログ500において特異的となるか否かを予測して、現在判断しているタイム・チャンクTCでの検索対象の特性を判断する。図5に示されるように、リクエスト・ログの記録を開始した直後のタイム・チャンクでは、当該タイム・チャンクで発行されたどのオリジナル・リクエストでも特異的と判断され、拡散リクエストが生成される。 The peculiarity evaluation unit 324 checks the increase rate per request of the search target to be noticed at the stage where the currently accumulated time chunk is completed, and the time chunk is determined to be specific in the request log 500. Whether or not the search is to be performed is determined based on the currently determined time chunk TC p . As shown in FIG. 5, in the time chunk immediately after the start of request log recording, any original request issued in the time chunk is determined to be specific, and a spread request is generated.
 一方、リクエスト・ログ500の記録の時間経過と共に検索要求の履歴が蓄積されるので、過去の履歴を含めて現在判断中の検索対象が特異的であるか否かを判断することが必要である。過去の履歴を考慮して特性を判断する場合、特定の検索対象について現在のタイム・チャンクTCまでのリクエストのタイム・チャンクTCにわたるリクエスト数の平均値Navと、現在のタイム・チャンクTCについて取得されることが予測されるリクエスト数をSNとして、例えば、下記式(1)で与えられる特異性指標SNが、平均値Navから、確率誤差以上大きくなったことを使用して判断することができる。 On the other hand, since the history of search requests is accumulated with the lapse of time recorded in the request log 500, it is necessary to determine whether or not the search target currently determined including the past history is specific. . When the characteristics are determined in consideration of the past history, the average value Nav of the number of requests over the time chunk TC i of the requests up to the current time chunk TC p for the specific search target, and the current time chunk TC p Using SN p as the number of requests predicted to be acquired for, for example, that the specificity index SN p given by the following equation (1) is larger than the probability error from the average value N av Judgment can be made.
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001

 上記式(1)中、σerrorは、Navのタイム・チャンクにわたる検索対象についてのリクエスト数についての確率誤差であり、αは、確率誤差に対して乗じられる正の実数であり、好ましくは、α≧1である。また、Navは、下記式(2)で与えられ、現在記録中のタイム・チャンクが終了すると、順次更新される。 In the above equation (1), σ error is a probability error with respect to the number of requests for the search target over N av time chunks, α is a positive real number multiplied by the probability error, α ≧ 1. N av is given by the following formula (2), and is updated sequentially when the time chunk currently being recorded is completed.
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002

 上記式(1)では、タイム・チャンクを識別する値pは、リクエスト・ログの記録につれて大きくなるが、特異性評価処理を開始する最初のタイム・チャンクは、特異点を形成する。当該特異点に対応するためp=0の場合については、常に検索値は特異的であるとして処理を開始する。また、現在のタイム・チャンクTC以前にまったくリクエストがなされていない場合であって、現在のタイム・チャンクTCで始めてSN個のリクエストが発行されることになる場合、にも常に特異的と判断されるが、p>0である限り、特異的な処理は行わず、上記式(1)にしたがって判定を行う。一方、過去に同一の検索対象がまったくないという可能性も少ない。このため、特定の検索対象への特定の検索意図を含まないリクエスト・ログは、タイム・チャンクにわたりNavを中心としてホワイトノイズとして近似できるとすれば、上記式(1)、(2)に替えて、SPを2項分布で与えられる確率密度関数および分散を使用して定義することができる。さらに、検索対象間に関連性が想定される場合には、リクエスト・ログ500が、多次元正規分布となるものと仮定し、多次元正規分布および分散共分散行列などを使用して検索対象の相関的特異性を判断してもよい。 In the above equation (1), the value p for identifying the time chunk increases as the request log is recorded, but the first time chunk that starts the singularity evaluation process forms a singularity. In order to correspond to the singular point, in the case of p = 0, the processing is started assuming that the search value is always singular. In addition, in a case where the current of the time chunk TC p previously all requests not been made, the case that will be SN p number of requests for the first time in the current time-chunk TC p is issued, to always specific also However, as long as p> 0, no specific processing is performed, and determination is performed according to the above formula (1). On the other hand, there is little possibility that there is no identical search target in the past. For this reason, if a request log that does not include a specific search intention for a specific search target can be approximated as white noise around N av over a time chunk, the above-described equations (1) and (2) are changed. Thus, SP can be defined using a probability density function and variance given in a binomial distribution. Furthermore, when a relationship is assumed between the search targets, it is assumed that the request log 500 has a multidimensional normal distribution, and the search target is searched using a multidimensional normal distribution and a variance-covariance matrix. Correlated specificity may be determined.
 また、本実施形態の特異性評価部324は、図5中、最後のタイム・チャンクは、現在リクエスト・ログを記録中のタイム・チャンクであり、現在の時点で、特定の検索対象を指定する検索値は、SNcurrentまで蓄積されている。この増加レートで、タイム・チャンク終了時まで増加すると、SNpredictまで発生数が増加することを予測し、当該予測に基づいて上記式(1)を使用して、特異的であるとして判断する。本実施形態の予測判断の実施形態については、より詳細に後述する。 In addition, the specificity evaluation unit 324 of the present embodiment indicates that the last time chunk in FIG. 5 is a time chunk that is currently recording a request log, and designates a specific search target at the current time point. The search value is accumulated up to SN current . This increased rate, increasing until the end of time chunks, predicts that the number of occurrences until SN predict increases, using the above equation (1) based on the prediction, it is determined as being specific. The prediction determination embodiment of this embodiment will be described later in more detail.
 図6は、本実施形態で、特定のタイム・チャンク内での特定の検索対象を含むオリジナル・リクエストの増加レートから、現在リクエスト・ログ500を蓄積しているタイム・チャンクでの検索対象の特性を判断する処理の実施形態を示す。図6では、縦軸にオリジナル・リクエストが含む検索対象のタイム・チャンクTC(m=0,2,3,...,n)での累積数を示し、横軸が、リクエスト・ログ600の時間経過を示す。さらにリクエスト・ログ600は、検索対象C、S、N、Oとしてそれぞれ個別的に検査されている。各タイム・チャンクでの累積数は、バーで示されており、黒でハッチングされたバーは既に記録が終了しているタイム・チャンクである。 FIG. 6 shows the characteristics of the search target in the time chunk in which the request log 500 is currently accumulated from the increase rate of the original request including the specific search target in the specific time chunk in this embodiment. An embodiment of a process for determining In FIG. 6, the vertical axis indicates the cumulative number in the search target time chunk TC m (m = 0, 2, 3,..., N) included in the original request, and the horizontal axis indicates the request log 600. The time course of is shown. Further, the request log 600 is individually inspected as search objects C i , S i , N i , and O i . The cumulative number in each time chunk is indicated by a bar, and the black hatched bar is a time chunk that has already been recorded.
 図6中、特定の検索対象に対してリクエスト・ログ600上で特異的として判断されるタイム・チャンクについては、バー上に黒三角を付して示している。黒三角でマークした検索対象は、過去に要求がなされておらず、黒三角で示したタイム・チャンクで初めて検出されたものである。また、白抜きのバーで示したタイム・チャンクは、現在累積中のタイム・チャンクである。 In FIG. 6, time chunks that are determined to be specific on the request log 600 for a specific search target are indicated by black triangles on the bar. The search target marked with a black triangle has not been requested in the past, and was first detected in the time chunk indicated by the black triangle. In addition, the time chunk indicated by the white bar is a time chunk that is currently accumulated.
 当該タイム・チャンクの特定の検索要求がタイム・チャンク終了時に特異的であることが判断されたとしても、既にオリジナル・リクエストは発行されているので、ウェブ・サーバ150などは、アクセス・ログを解析して、オリジナル・リクエストの発行元の検索意図を判断することが可能となる。 Even if it is determined that the specific search request for the time chunk is specific at the end of the time chunk, since the original request has already been issued, the web server 150 or the like analyzes the access log. Thus, it is possible to determine the search intention of the original request issuer.
 本実施形態では、オリジナル・リクエストをウェブ・サーバ150~154に送付する前に特異性評価部324がオリジナル・リクエストをインターセプトし、個別の検索要求の内容を判断する。このことは、情報処理装置310が取得したオリジナル・リクエストが特定のタイム・チャンク内での検索対象の増加レートを判断することを可能とする。すなわち、特異性評価部324は、特定の検索対象を指定する検索値をタイム・チャンク内で積算し、オリジナル・リクエストの全数に対する増加レートを計算し、タイム・チャンクの終了時まで、直線補外、多項式補外、指数補外など適切な方法で補外し、補外した結果を、現在蓄積中のタイム・チャンク内で積分して、発生数を予測する。図6中最終タイム・チャンクで累積中の検索対象Oは、当該タイム・チャンクが終了した時点では特異的として判断されることを示す目的で白△を付して示している。当該予測に基づいた推定数が上記式(1)を満たすと判断される場合に、拡散リクエストの生成を、拡散リクエスト生成部316に指令し、特異性レベルの希釈処理を開始させている。 In this embodiment, before sending the original request to the web servers 150 to 154, the specificity evaluation unit 324 intercepts the original request and determines the content of the individual search request. This allows the original request acquired by the information processing apparatus 310 to determine the increase rate of the search target within a specific time chunk. That is, the peculiarity evaluation unit 324 accumulates search values specifying a specific search target in the time chunk, calculates an increase rate with respect to the total number of original requests, and performs linear extrapolation until the end of the time chunk. Then, extrapolation is performed by an appropriate method such as polynomial extrapolation or exponential extrapolation, and the extrapolated result is integrated within the currently accumulated time chunk to predict the number of occurrences. In FIG. 6, the search object O i that is accumulating in the last time chunk is shown with a white triangle for the purpose of indicating that it is determined to be specific when the time chunk is completed. When it is determined that the estimated number based on the prediction satisfies the above formula (1), the diffusion request generation unit 316 is instructed to generate the diffusion request, and the dilution process of the specificity level is started.
 当該処理は、図6中、検索対象Oについて、示されており、現在処理中のタイム・チャンク内で、現在までに累積された発生数SNcurrentは、特異的と判断されないものの、現在の増加レートでタイム・チャンクの終了時まで累積されるとすると、SNpredictの値となることが予測され、SNpredictは、特異的と判断されることになることを示す。この結果、現在蓄積中のタイム・チャンク内で特異性レベルを予測評価することになるので、タイム・チャンクのリクエスト・ログ記録中に当該タイム・チャンク内での特異性希釈処理を行うことが可能となり、緩やかな情報漏洩を未然に防止できる。 This process is shown for the search target O i in FIG. 6, and the occurrence number SN current accumulated so far in the time chunk currently being processed is not determined to be specific, When the cumulative rate of increase until the end of the time chunk, is expected to be a value of SN predict, SN predict indicates that it will be judged that specific. As a result, the specificity level is predicted and evaluated in the currently accumulated time chunk, so that it is possible to perform specificity dilution processing in the time chunk during request log recording of the time chunk. Thus, gradual information leakage can be prevented.
 本実施形態の拡散リクエスト生成部316は、オリジナル・リクエストが含む検索対象の特異性を個別的に判断し、検索対象が特異的であると判断した場合、拡散リクエストを生成する。拡散リクエストは、検索対象とする情報が、リクエスト・ログ500から見て特異的ではなくなるように、オリジナル・リクエストを修正することにより生成される。オリジナル・リクエストの修正は、例示的な実施形態では、下記のように行うことができる。 The diffusion request generation unit 316 of the present embodiment individually determines the specificity of the search target included in the original request, and generates a diffusion request when determining that the search target is specific. The spread request is generated by modifying the original request so that the information to be searched is not specific as viewed from the request log 500. The modification of the original request can be performed in the exemplary embodiment as follows.
 ○地図情報などの数値データでリクエストが発行される場合、検索対象が同一であると判断される数値範囲を超えてランダムに数値データを修正したダミー値を含む単一または複数のダミー・リクエストを生成する。さらに好ましい実施形態では、緯度・経度に関連してフーリエ変換した場合に周波数スペクトルが均等になるように複数のダミー値を選択して、拡散リクエストにセットする。ただし、実際問題としては、周波数スペクトルがある程度均等になっていれば、データマイニングが困難になると考えられるので、必ずしも周波数スペクトルを完全に均等化する必要はない。 ○ When a request is issued with numerical data such as map information, a single or multiple dummy requests including dummy values that are randomly corrected numerical data beyond the numerical range where the search target is determined to be the same Generate. In a further preferred embodiment, a plurality of dummy values are selected and set in the spread request so that the frequency spectrum becomes equal when Fourier transform is performed in relation to latitude and longitude. However, as an actual problem, if the frequency spectrum is uniform to some extent, it is considered that data mining becomes difficult. Therefore, it is not always necessary to equalize the frequency spectrum completely.
 ○企業情報や株価情報など直接該当する値を取得しなければならない属性の情報の場合、ダミー生成情報格納部322から、特異的であると判断された検索対象の企業や、株式銘柄などと同一の業種に区分される企業名、株式銘柄、銘柄コードをランダムに抽出し、区分内で、リクエストの発生数をホワイトノイズ化させるように適切な数のダミー情報を取得し、ダミー・リクエストを生成する。 ○ In the case of attribute information for which a corresponding value such as company information or stock price information must be acquired directly, it is the same as the search target company or stock brand that is determined to be specific from the dummy generation information storage unit 322 Randomly extract company names, stocks, and stock codes that are classified into different types of business, and acquire dummy information in an appropriate number so that the number of requests generated within the category is white noise. To do.
 ○ダミー・リクエストは、オリジナル・リクエストと同一の検索値のセットとして構成することもできるが、情報処理装置310からは個別的にデータベースにアクセスすることになるため、ダミー・リクエストは、単一の検索値を含む検索要求として生成することができる。生成されたダミー・リクエストは、検索の真の目的となる検索値を含めてランダムに選択され、各別に対応するデータベース160~164、240~244などに送付される。 The dummy request can be configured as the same set of search values as the original request, but since the information processing apparatus 310 individually accesses the database, the dummy request is a single request. It can be generated as a search request including a search value. The generated dummy request is randomly selected including the search value that is the true purpose of the search, and is sent to the corresponding databases 160 to 164, 240 to 244, and the like.
 図7は、図5および図6で示されるリクエスト・ログ500に対し、本実施形態による拡散リクエストを発行した後に例えばウェブ・サーバ150が記録するアクセス・ログ700の実施形態を示す。情報処理装置310は、特定の検索対象ごとに会社情報提供サーバ150に送付されるリクエスト数を、特定のタイム・チャンクごとに検出し、積算しながら、オリジナル・リクエストが含む検索対象の統計的特異性を判定する。検索対象が特異的と判定された場合、情報処理装置310は、ダミー・リクエストを発行し、検索対象の特異性を希釈させ、ウェブ・サーバ150側で特定の発行元に対してアクセス・ログを解析しても図7のように、特定の検索値が突出した傾向を示すことが無いように、アクセスの特異性を希釈、すなわちホワイトノイズ化させているのが示される。 FIG. 7 shows an embodiment of an access log 700 recorded, for example, by the web server 150 after issuing a spread request according to the present embodiment to the request log 500 shown in FIGS. The information processing apparatus 310 detects the number of requests sent to the company information providing server 150 for each specific search target for each specific time chunk, and calculates the statistical peculiarity of the search target included in the original request while accumulating it. Determine gender. When it is determined that the search target is specific, the information processing apparatus 310 issues a dummy request, dilutes the specificity of the search target, and sends an access log to the specific issuer on the web server 150 side. FIG. 7 shows that the access specificity is diluted, that is, white noise is generated so that the specific search value does not show a prominent tendency as shown in FIG.
 情報処理装置310は、真リクエストTRに対するダミー値とされるべき検索対象がオリジナル・リクエストに含まれる場合についても、ウェブ・サーバ150が特定の情報処理装置310からのアクセス・ログとして蓄積された場合にアクセス・ログをホワイトノイズに近づけるように、ダミー・リクエストが生成されている。なお、真リクエストとは、オリジナル・リクエストに含まれる検索値であって、検索者の特定の意図を反映したリクエストを意味する。情報処理装置310は、タイム・チャンクTCで真リクエストTRが特異的であると判断すると、特異性が希釈されるような検索対象をダミー生成情報格納部322から抽出し、ダミー・リクエストDR(Dummy Request)にセットする。 The information processing apparatus 310 also has a case where the web server 150 is accumulated as an access log from a specific information processing apparatus 310 even when a search target that should be a dummy value for the true request TR is included in the original request A dummy request is generated so that the access log approaches white noise. The true request is a search value included in the original request and means a request reflecting a searcher's specific intention. When the information processing apparatus 310 determines that the true request TR 1 is specific in the time chunk TC 1 , the information processing apparatus 310 extracts a search target whose specificity is diluted from the dummy generation information storage unit 322 and outputs the dummy request DR. Set to (Dummy Request).
 図8は、本実施形態で、特定の数値データに関連付けられた情報を検索する場合の、オリジナル・リクエストの取得からリクエストの発行までの処理の詳細フローチャートである。例えば、図8が適用される情報は、位置座標などの数値データ・セットに特徴付けられる地図データや、数値データにより指定される情報が連続する情報であれば、適用することができる。図8の実施形態では、入力値は、例えば、経度・緯度などの値として入力することもできるし、企業名、地名などとして入力することができる。オリジナル・リクエストが企業名、地名、住所などとして入力される場合には、ダミー生成情報格納部322が格納する緯度経度データに置換して処理を実行することができる。 FIG. 8 is a detailed flowchart of processing from acquisition of an original request to issuance of a request when searching for information associated with specific numerical data in this embodiment. For example, the information to which FIG. 8 is applied can be applied as long as the map data characterized by a numerical data set such as position coordinates or the information specified by the numerical data is continuous. In the embodiment of FIG. 8, the input value can be input as, for example, a value such as longitude and latitude, or can be input as a company name, a place name, and the like. When the original request is input as a company name, a place name, an address, or the like, the process can be executed by replacing the latitude / longitude data stored in the dummy generation information storage unit 322.
 図8の処理は、図4のステップS402、S403の詳細を示したもので、ステップS401でオリジナル・リクエストを取得した後に開始され、ステップS800では、 The process of FIG. 8 shows details of steps S402 and S403 of FIG. 4 and is started after acquiring the original request in step S401. In step S800,
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003

を満たすcx、cyを関数rnd()などを使用して生成する。上記式(3)中、(x、y)は、オリジナル・リクエストの指定する数値データであり、w、hは、数値データの範囲を指定する値である。なお、cx、cyは、乱数により生成される数値データであり、経度および緯度の値などに対応する。また、gx、gyは、過去の履歴を含めた座標の重心点(平均座標)である。 Cx and cy that satisfy the above are generated using the function rnd (). In the above formula (3), (x, y) is numeric data specified by the original request, and w and h are values specifying the range of the numeric data. Note that cx and cy are numerical data generated by random numbers and correspond to longitude and latitude values. Further, gx and gy are the barycentric points (average coordinates) of the coordinates including the past history.
 ステップS801では、タイムステール・インデックスtiを0に初期化する。なお、タイムスケール・インデックスtiは、分単位、時間単位、日単位、月単位などで規定され、どの程度過去まで遡ってオリジナル・リクエストが特異的ではないかを判断するタイムスケールを規定する。具体的には、t0が、1分、t1が、1時間、t2が、1日のタイムスケールの間に発行されたリクエスト・ログを参照することを指定する。なお、t3、t4として、月単位または四半期単位でのリクエスト・ログを参照することもできる。 In step S801, the time stale index ti is initialized to zero. The time scale index ti is defined in minutes, hours, days, months, etc., and defines a time scale for determining how far the original request is not specific. Specifically, t0 specifies that one minute, t1 refers to one hour, and t2 refers to a request log issued during the time scale of one day. In addition, as t3 and t4, it is possible to refer to request logs in units of months or quarters.
 ステップS802では、tiがta配列の要素数を超えるか否かを判断し、ti<taの配列の要素数よりも小さい場合(yes)、ステップS803で、ta[ti]時間分の過去の履歴の履歴座標群と、cx、cyから、新規な中心点gx、gyの座標を、座標群の値の平均値を使用して計算する。ステップS804では、(x、y)と、(gx、gy)の距離Lを計算する。検索値が座標群として与えられる場合、このLおよびLについてのリクエストの発生数が、オリジナル・リクエストの特異性の尺度を与え、それぞれ確率誤差などとして統計処理される。なお、本実施形態で使用する距離Lは、ユークリッド距離でも良いし、マンハッタン距離でも良いし、さらに特徴座標軸で規定される特徴値の間に定義される適切な位相的距離とすることもできる。 In step S802, it is determined whether or not ti exceeds the number of elements in the ta array. If ti <smaller than the number of elements in the array of ta (yes), the past history for ta [ti] time is determined in step S803. The coordinates of the new center points gx and gy are calculated from the history coordinate group and cx and cy using the average value of the coordinate group values. In step S804, a distance L between (x, y) and (gx, gy) is calculated. When a search value is given as a coordinate group, the number of requests generated for L and L gives a measure of the specificity of the original request, and each is statistically processed as a probability error or the like. Note that the distance L used in the present embodiment may be a Euclidean distance, a Manhattan distance, or an appropriate topological distance defined between feature values defined by feature coordinate axes.
 ステップS805では、距離Lがオリジナル・リクエストが特異的でないと想定される値である閾値以下であると判断された場合(yes)、ステップS806でタイムスケール・インデックスtiを1だけインクリメントした後、処理をステップS802に戻し、さらに他のタイムスケールでの特異性を判断する。一方、ステップS805で距離Lが閾値以下ではない場合(no)、処理をステップS800に戻し、追加のcx′、cy′を生成し、距離Lが、閾値以下となるまで、計算を反復する。 In step S805, when it is determined that the distance L is equal to or less than a threshold value that is a value that the original request is assumed to be non-specific (yes), the time scale index ti is incremented by 1 in step S806, and then processing is performed. Is returned to step S802 to determine the specificity in another time scale. On the other hand, if the distance L is not less than or equal to the threshold value in step S805 (no), the process returns to step S800 to generate additional cx ′ and cy ′, and the calculation is repeated until the distance L is less than or equal to the threshold value.
 ステップS802で、設定しているタイムスケール・インデックスの計算が終了すると(no)、設定するタイムスケールのどの期間についても特異的ではないのでステップS404に制御を渡し、検索クエリーに、{(cx、cy)}のセットとして数値データを設定し、拡散リクエストとして発行する。なお、当該実施形態では、情報は、数値的に連続性を有しているので、オリジナル・リクエストの値である(x,y)には拡散リクエスト内に含まれない。 In step S802, when calculation of the set timescale index is completed (no), since no period of the set timescale is specific, control is passed to step S404, and {(cx, cy)} is set as numerical data and issued as a spread request. In this embodiment, since the information is numerically continuous, (x, y) that is the value of the original request is not included in the spread request.
 図8の処理を実行することにより、オリジナル・リクエストとして指定された数値データをウェブ・サーバに送付することなく、オリジナル・リクエストとして取得した情報を情報処理装置310が取得することが可能となる。図8の処理は、情報が数値データで指定でき、位相的に連続する属性を有している場合、効果的に適用することができる。図8が適用される好適な実施形態としては、地図検索などを挙げることができる。さらに本実施形態の好ましい他の実施形態として、抽出された(cx、cy)のセット内に、(x、y)ではない特定のランドマークの位置座標に丸められるデータがある場合、当該ランドマークを(w、h)で与えられる領域に配置して検索された情報を表示することができる。 8 is executed, the information processing apparatus 310 can acquire the information acquired as the original request without sending the numerical data specified as the original request to the web server. The process of FIG. 8 can be effectively applied when the information can be specified by numerical data and has topologically continuous attributes. As a preferred embodiment to which FIG. 8 is applied, there is a map search and the like. Furthermore, as another preferred embodiment of the present embodiment, when there is data in the extracted (cx, cy) set that is rounded to the position coordinates of a specific landmark that is not (x, y), the landmark Can be arranged in the area given by (w, h) and the retrieved information can be displayed.
 図9は、図8で説明した処理のうち、S803~S805の処理の疑似コードを示す。疑似コードのブロック900が、ステップS804およびS805の処理に対応し、疑似コードのブロック910が、図8のステップS803の処理に対応する。なおブロック910中、変数=リスト.含まれる要素数()は、tiで指定されるタイムスケール内に含まれるリクエスト・ログの要素の数である。 FIG. 9 shows a pseudo code of the processes of S803 to S805 among the processes described in FIG. The pseudo code block 900 corresponds to the processes of steps S804 and S805, and the pseudo code block 910 corresponds to the process of step S803 of FIG. In block 910, variable = list. The number of elements () included is the number of request log elements included in the time scale specified by ti.
 図10は、本実施形態の情報検索方法の第2の実施形態のフローチャートであり、図4のステップS402~S405に対応している。図10の実施形態は、検索対象の情報が離散的な属性を有している場合に好適に適用することができる。図10の処理は、ステップS401でオリジナル・リクエストを取得した後、ステップS1000から開始する。なお、図10で使用する記号は、下記表1の通りに定義される。 FIG. 10 is a flowchart of the second embodiment of the information search method of this embodiment, and corresponds to steps S402 to S405 of FIG. The embodiment of FIG. 10 can be suitably applied when the search target information has discrete attributes. The processing in FIG. 10 starts from step S1000 after obtaining the original request in step S401. The symbols used in FIG. 10 are defined as shown in Table 1 below.
Figure JPOXMLDOC01-appb-T000004
Figure JPOXMLDOC01-appb-T000004

 ステップS1000では、配列k[]からknに一致する属性のインデックス値を取得し、変数tiに設定する。ステップS1001では、ダミー・リクエストとして抽出するべきアクセス候補数をnullに初期化し、インデックス値tiに対応するアクセス回数をカウント1に設定し、アクセス候補インデックス配列のインデックス=0の値として、tiを設定する。その後、アクセス候補数を1インクリメントする。ステップS1002では、d=|{Avg(ac[0],ac[n-1])-ac[ti]|を計算し、アクセス回数の平均値からの差分を計算する。 In step S1000, the index value of the attribute matching kn is obtained from the array k [] and set to the variable ti. In step S1001, the number of access candidates to be extracted as a dummy request is initialized to null, the number of accesses corresponding to the index value ti is set to count 1, and ti is set as the value of index = 0 in the access candidate index array. To do. Thereafter, the number of access candidates is incremented by one. In step S1002, d = | {Avg (ac [0], ac [n-1])-ac [ti] | is calculated, and the difference from the average value of the access count is calculated.
 ステップS1003では、|d|が閾値以下であるか否かを判断し、閾値以下でない場合(no)ステップS1004で、ダミー・リクエストとして抽出するべき属性名を指定するインデックス値を与え、0≦dc≦N-1、dc≠tiであり、かつ既抽出のものではないという条件を満足する整数値dcをrnd()関数などを使用して生成する。なお、しきい値には、式(1)で説明したリクエスト・ログの確率誤差を使用することができるが、特異性を判断するために異なる基準を使用する場合、対応した適切なしきい値を設定することができる。 In step S1003, it is determined whether or not | d | is less than or equal to a threshold value. If it is not less than or equal to the threshold value (no), an index value specifying an attribute name to be extracted as a dummy request is given in step S1004, and 0 ≦ dc An integer value dc satisfying the condition that ≦ N−1, dc ≠ ti and not already extracted is generated using an rnd () function or the like. As the threshold value, the probability error of the request log described in the equation (1) can be used. However, when a different criterion is used to determine the specificity, a corresponding appropriate threshold value is set. Can be set.
 ステップS1005では、アクセス回数配列ac[]の、インデックス値dcに対応する値を更新し、アクセス候補インデックス配列c[ci]の値にインデックス値dcを設定し、アクセス候補数のカウンタciを1だけインクリメントし、処理をステップS1002に戻し、ステップS1003の判断で肯定的な値が返されるまで、上述した処理を反復する。 In step S1005, the value corresponding to the index value dc in the access count array ac [] is updated, the index value dc is set to the value of the access candidate index array c [ci], and the counter ci of the number of access candidates is set to 1. Increment, return the process to step S1002, and repeat the above-described process until a positive value is returned in the determination of step S1003.
 一方、ステップS1003で|d|が閾値以下であると判断された場合(yes)、処理をステップS1006に分岐させ、ステップS1006で配列c[]のciこの要素をランダムにソートし、アクセス候補の抽出履歴を消去し、ステップS1007でループインデックスiを、0に初期化する。その後、ステップS1008で、ループカウンタiが、ci未満である場合(yes)、ステップS1009でk[c[i]]を拡散リクエストを構成するリクエストの検索文字列に設定し、ウェブ・サーバへのアクセスを実行する。ステップS1010では、c[i]が、tiに等しいか否かを判断し、c[i]==tiの場合(yes)、ステップS1012でループカウンタを1だけインクリメントし、処理をステップS1008に分岐させ、ステップS1008で否定的結果が返されるまでダミーアクセスを実行させる。 On the other hand, if it is determined in step S1003 that | d | is equal to or smaller than the threshold value (yes), the process branches to step S1006, and in step S1006, this element of array c [] is randomly sorted, The extraction history is erased, and the loop index i is initialized to 0 in step S1007. Thereafter, if the loop counter i is less than ci in step S1008 (yes), k [c [i]] is set in the search character string of the request constituting the spread request in step S1009, and Perform access. In step S1010, it is determined whether c [i] is equal to ti. If c [i] == ti (yes), the loop counter is incremented by 1 in step S1012, and the process branches to step S1008. The dummy access is executed until a negative result is returned in step S1008.
 また、ステップS1010で、c[i]==tiではない場合(no)、ステップS1011でアクセス結果を保存し、ステップS1012に処理を分岐させて再度、ステップS1008で否定的な値が返されるまで処理を反復する。ステップS1008で否定的な結果が返された場合(no)、制御をステップS406に渡し、図10の処理を終了する。なお、図10の処理では、アクセスしたい目的属性名については図10の処理以外で行うものとして説明するが、ステップS1010の処理を省略して、アクセス実行した結果を全部保存することにより、図10の処理内で、アクセスするべき全部のアクセス候補の処理を完了させてしまうこともできる。 If c [i] == ti is not satisfied in step S1010 (no), the access result is stored in step S1011, the process branches to step S1012, and a negative value is returned again in step S1008. Repeat the process. If a negative result is returned in step S1008 (no), control is passed to step S406, and the process of FIG. 10 ends. In the process of FIG. 10, the target attribute name to be accessed is described as being performed in a process other than the process of FIG. 10, but by omitting the process of step S <b> 1010 and storing all the access execution results, FIG. In this process, it is possible to complete the process for all access candidates to be accessed.
 さらに、ステップS1003の判断においても、図8のステップS803で説明したように平均値を計算するタイムスケール・インデックスを使用して、アクセス履歴を拡散させるタイムスケールにわたり、アクセス履歴を拡散させることができる。 Further, also in the determination in step S1003, the access history can be spread over the time scale for spreading the access history by using the time scale index for calculating the average value as described in step S803 in FIG. .
 図11は、図10に示した処理を実行する疑似コードの実施形態である。ブロック1100が図10の処理ステップS1003に対応し、ブロック1110が図10のブロック1020の処理に対応する。なお、図11の疑似コードでは、検索対象の属性名についてのアクセス実行は、ブロック1110が終了した後に実行される実施形態として記述されているが、図10で説明したように、ブロック1110の処理ループ内で実行させることにより、さらにデータマイニング耐性を向上させることができる。 FIG. 11 shows an embodiment of pseudo code for executing the processing shown in FIG. A block 1100 corresponds to the processing step S1003 of FIG. 10, and a block 1110 corresponds to the processing of the block 1020 of FIG. In the pseudo code shown in FIG. 11, the access execution for the attribute name to be searched is described as an embodiment executed after the block 1110 ends. However, as described with reference to FIG. By executing it in the loop, the data mining tolerance can be further improved.
 図12は、地図データの検索を行う場合の実施形態で生成される拡散リクエストの内容の拡散状態を示す。図12の縦軸および横軸は、表示領域のそれぞれ縦横幅w、hに相当する。また、図12(a)~図12(c)は、それぞれ乱数発生の初期条件が異なる場合の拡散状態の変化を示している。図12に示すように、拡散リクエストは、オリジナル・リクエストとして与えられる対象座標である(0,0)から充分に離れた位置座標を含み、拡散リクエストを構成するダミー・リクエストのポイントが充分ランダムに分布しているのが示され、リクエストのデータマイニング耐性を向上させることができることを示す。 FIG. 12 shows the diffusion state of the content of the diffusion request generated in the embodiment when searching for map data. The vertical and horizontal axes in FIG. 12 correspond to the vertical and horizontal widths w and h of the display area, respectively. FIGS. 12 (a) to 12 (c) show changes in the diffusion state when the initial conditions for generating random numbers are different. As shown in FIG. 12, the spread request includes position coordinates sufficiently separated from the target coordinates (0, 0) given as the original request, and the points of the dummy request constituting the spread request are sufficiently random. The distribution is shown, indicating that the data mining tolerance of the request can be improved.
 図13は、本実施形態のウェブ・システムが表示する検索画面1300の実施形態を示す。図13は、本実施形態による情報検索の実施形態を、リクエストの内容が、数値データとして設定され、連続性を有する情報に対して適用する場合の検索を実施形態として示す。図13に示した実施形態では、ランドマーク1312が検索対象である。本実施形態のウェブ・システムでは、情報処理装置310のオペレータが、検索対象1312の位置座標や会社名などを入力する。当該位置座標や会社名が入力されると、情報処理装置310は、当該検索対象1312が、リクエスト・ログの履歴解析から特異的なアクセスであるか否かを、図8に示した処理を使用して判断する。 FIG. 13 shows an embodiment of a search screen 1300 displayed by the web system of this embodiment. FIG. 13 shows a search in the case where the information search embodiment according to the present embodiment is applied to information having request contents set as numerical data and having continuity. In the embodiment shown in FIG. 13, the landmark 1312 is a search target. In the web system of this embodiment, the operator of the information processing apparatus 310 inputs the position coordinates of the search target 1312, the company name, and the like. When the position coordinates and the company name are input, the information processing apparatus 310 uses the processing shown in FIG. 8 to determine whether or not the search target 1312 is a specific access from the request log history analysis. To judge.
 説明する実施形態では、情報処理装置310は、検索対象1312へのアクセスが特異的であると判断し(|d|>しきい値)、説明する実施形態ではアクセス候補として抽出した位置座標のうち、ランドマーク1314として登録されている位置座標に対応するリクエストのレスポンスをフィルタして地図イメージ1310を表示させる。なお、情報処理装置310が発行する拡散リクエストは、図8の処理にしたがって生成されたリクエスト・セットとして発行され、検索対象1312に関連するリクエストのデータマイニング耐性を向上させている。 In the embodiment to be described, the information processing apparatus 310 determines that access to the search target 1312 is specific (| d |> threshold), and in the embodiment to be described, out of the position coordinates extracted as the access candidate The response of the request corresponding to the position coordinates registered as the landmark 1314 is filtered to display the map image 1310. Note that the spread request issued by the information processing device 310 is issued as a request set generated according to the processing of FIG. 8, and improves the data mining tolerance of the request related to the search target 1312.
 地図イメージ1310を取得したユーザは、マウスなどを使用して地図データをスクロールし、例えば公園などのランドマーク1316に移動させ、検索対象1312を中心付近に移動させることで地図データ1320を表示させる。なお、地図データは、2次元平面上に連続して登録されているので、地図データのスクロールは、リクエストのように検索対象を特定する値を含まず、デフォルトの地図データに対して移動させるための相対値が送信されるので、検索対象1312を特定するデータは、ウェブ・サーバに送信されず、データマイニング耐性に影響を与えることはない。 The user who has acquired the map image 1310 scrolls the map data using a mouse or the like, moves the map data to a landmark 1316 such as a park, and moves the search target 1312 to the vicinity of the center to display the map data 1320. In addition, since map data is continuously registered on the two-dimensional plane, scrolling of map data does not include a value for specifying a search object as in a request, and is moved with respect to default map data. Therefore, the data specifying the search target 1312 is not transmitted to the web server and does not affect the data mining tolerance.
 図14は、本実施形態で、検索対象が離散的な属性を有している場合の実施形態を示す。図14に示した実施形態では、マッシュアップ・サーバ130が複数のウェブ・サーバから取得した情報がマッシュアップされて、1つのデスクトップ画面1400として提供されている。図14に示す実施形態では、検索を行うオペレータは、Los Angelsにある特定企業「FGH」の株価情報を取得する意図を持って検索を実行する。図14に示す実施形態で、オペレータは、FGH、株価、地図、トピックスなどの検索文字列を入力するが、マッシュアップ・サーバ130は、オペレータの入力するオリジナル・リクエストをそのまま送付しない。その代わりに、マッシュアップ・サーバ130は、ダミー生成情報格納部322に格納されている企業情報およびリクエスト・ログを参照して検索対象の企業「FGH」以外に株価などの情報を取得する企業名をアクセス候補として取得し、拡散リクエストとしてウェブ・サーバに検索要求を発行する。 FIG. 14 shows an embodiment when the search target has discrete attributes in this embodiment. In the embodiment shown in FIG. 14, information acquired from a plurality of web servers by the mashup server 130 is mashed up and provided as one desktop screen 1400. In the embodiment shown in FIG. 14, an operator who performs a search performs a search with the intention of acquiring stock price information of a specific company “FGH” in LosLoAngels. In the embodiment shown in FIG. 14, the operator inputs a search character string such as FGH, stock price, map, and topics, but the mashup server 130 does not send the original request input by the operator as it is. Instead, the mashup server 130 refers to the company information and the request log stored in the dummy generation information storage unit 322, and obtains information such as a stock price in addition to the search target company “FGH”. Is acquired as an access candidate, and a search request is issued to the web server as a diffusion request.
 上述した処理によって取得された検索結果は、図14で説明する実施形態では、フィルタされずに全部取得され、表示フレーム1410にランダムに送付したリクエストに対応する順の検索結果リストとして表示される。表示フレーム1410に示すように、検索対象の企業「FGH」についても検索結果が得られているが、他の企業情報の検索リクエストとともに検索結果が得られるので、リクエストにおける検索対象の企業名「FGH」について、アクセス・ログにおける相対重みが低下されている。また本実施形態にしたがい、リクエスト・ログの統計的に処理された拡散リクエストがウェブ・サーバに送付されるので、リクエストを受け付けたウェブ・サーバにおけるアクセス・ログの解析のためのデータマイニングに対する耐久性を向上させることができる。 In the embodiment described with reference to FIG. 14, all the search results acquired by the above-described processing are acquired without being filtered, and are displayed as a search result list in the order corresponding to the requests sent randomly to the display frame 1410. As shown in the display frame 1410, a search result is also obtained for the search target company “FGH”. However, since the search result is obtained together with a search request for other company information, the search target company name “FGH” in the request is obtained. ", The relative weight in the access log is reduced. In addition, according to the present embodiment, a statistically processed diffusion request of the request log is sent to the web server. Therefore, durability against data mining for analyzing the access log in the web server that accepted the request is received. Can be improved.
 なお、表示フレーム1420、表示フレーム1430、表示フレーム1440には、表示フレーム1410の検索結果リストで、現在オペレータが選択している検索結果に対応する、地図上の位置、株価変動、トピックスが表示されている。オペレータが表示フレーム1410の検索結果として他の検索結果を選択することによって、各表示フレーム1420、1430、1440内の表示内容は他の検索結果の選択に連携して変更され、複数のウェブ・サーバからの独立した情報を効率的に提示することが可能とされている。 The display frame 1420, the display frame 1430, and the display frame 1440 display the map position, stock price fluctuation, and topics corresponding to the search result currently selected by the operator in the search result list of the display frame 1410. ing. When the operator selects another search result as the search result of the display frame 1410, the display content in each display frame 1420, 1430, 1440 is changed in cooperation with the selection of other search results, and a plurality of web servers It is possible to efficiently present independent information from.
 図15は、本実施形態の情報処理方法によって、アクセス・ログからの緩やかな情報漏洩を防止するためのデータマイニング耐性向上の作用効果を説明するため、拡散リクエスト発行の結果として生成されるアクセス・ログ1500を示す。図15において、アクセス・ログ1510は、本実施形態の拡散リクエストを使用しない場合の特定のウェブ・サーバにおける実施形態であり、アクセス・ログ1520は、本実施形態の拡散リクエストを適用する場合の、特定のウェブ・サーバにおける実施形態を示す。なお、縦軸は、特定の期間内でのアクセス・ログを、検索文字列ごとに合計したアクセス数であるものとする。 FIG. 15 is a diagram for explaining the access effect generated as a result of issuing a diffusion request in order to explain the effect of improving the data mining tolerance for preventing the gradual information leakage from the access log by the information processing method of this embodiment. A log 1500 is shown. In FIG. 15, an access log 1510 is an embodiment in a specific web server when the spread request of this embodiment is not used, and an access log 1520 is a case where the spread request of this embodiment is applied. Fig. 4 illustrates an embodiment in a particular web server. Note that the vertical axis represents the total number of accesses for each search character string for access logs within a specific period.
 また、説明の便宜上、企業名としてA社、B社、C社、D社が拡散リクエストに追加される企業名であるものとして説明する。なお、検索対象の企業名は、C社であるものとする。 Also, for convenience of explanation, it is assumed that company names A, B, C, and D are company names that are added to the spreading request. It is assumed that the search target company name is Company C.
 アクセス・ログ1510では、オペレータが入力する検索対象の企業名がそのままウェブ・サーバに送信されてしまうので、検索対象の企業名であるC社を含むリクエストが突出してアクセス・ログとして記録される。このため、ウェブ・サーバ側では、アクセス・ログを時系列的にデータマイニングすることにより、特定のエンタープライズや個人の検索対象の変遷をトレースすることが可能となる。例えば、特定の日時以後にC社へのアクセス数が増加する場合、検索者は、当該特定の日時以後にC社に関心を持ったということが、ウェブ・サーバを運営するサイトに漏洩し、例えばTOB(TakeOver Bid)や合併といった重要な情報が、緩やかに漏洩する可能性を低下させる。 In the access log 1510, the search target company name input by the operator is transmitted as it is to the web server, so that a request including the search target company name C company is prominently recorded as an access log. For this reason, on the web server side, it is possible to trace the transition of the search target of a specific enterprise or individual by performing data mining on the access log in time series. For example, when the number of accesses to the company C increases after a specific date and time, the searcher leaks to the site that operates the web server that he / she is interested in the company C after the specific date and time. For example, important information such as TOB (TakeOver Bid) and merger is less likely to be gradually leaked.
 アクセス・ログ1520は、本実施形態の拡散リクエストを使用する場合にウェブ・サーバ側で生成されるアクセス・ログを示す。本実施形態では、リクエスト・ログを統計処理して拡散リクエストを生成し、ウェブ・サーバに対してリクエスト・セットを発行する。この結果、特定の特異性を規定するしきい値|d|の範囲に各社へのアクセス頻度がレベリングされ、アクセス・ログに対するデータマイニング耐性を向上させることが示される。図15では、企業名を例示的に説明するが、本実施形態では、この他にも、地理/地域名、製品名、年齢、性別、集団名、SNSなどにおける特定文字列など種々の情報について適用でき、それぞれ市場調査、将来動向、企業アクティビティ、ネットワーク・アクティビティに関連する検索意図について、緩やかな情報漏洩を防止することができる。 The access log 1520 indicates an access log generated on the web server side when the spread request of this embodiment is used. In the present embodiment, the request log is statistically processed to generate a spread request, and a request set is issued to the web server. As a result, it is shown that the access frequency to each company is leveled within the range of the threshold value | d | that defines the specific specificity, and the data mining resistance against the access log is improved. FIG. 15 exemplifies the company name. In this embodiment, in addition to this, various information such as a specific character string in the geography / region name, product name, age, sex, group name, SNS, etc. Applicable and can prevent gradual information leakage about search intentions related to market research, future trends, corporate activity, and network activity, respectively.
 なお、本発明を発明の理解を容易にするために各機能手段および各機能手段が実行する処理として説明したが、本発明は、上述した特定の機能手段が特定の処理を実行する他にも、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能手段に上述した処理を実行するための機能を割当てることができる。 In addition, although this invention was demonstrated as a process which each function means and each function means perform in order to make an understanding of invention easy, this invention is not limited to a specific function means mentioned above performing a specific process. A function for executing the above-described processing can be assigned to any functional means in consideration of efficiency such as processing efficiency and implementation programming.
 本発明の上記機能は、C++、Java(登録商標)、JavaBeans(登録商標)、JavaApplet(登録商標)、JavaScript(登録商標)、Perl、Rubyなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。 The above-described functions of the present invention include C ++, Java (registered trademark), JavaBeans (registered trademark), Java Applet (registered trademark), JavaScript (registered trademark), Perl, Ruby and other object-oriented programming languages, SQL and other search-only languages, etc. It can be realized by a device-executable program described in the above, and can be stored in a device-readable recording medium and distributed or transmitted and distributed.
100…ウェブ・システム、110~114…クライアント、120…ネットワーク、130…マッシュアップ・サーバ、140…ネットワーク、150~154…ウェブ・サーバ、160~164…データベース、200…ウェブ・システム、210~214…クライアント、220…ネットワーク、230~234…ウェブ・サーバ、240~244…データベース、300…情報処理システム、310…情報処理装置、312…ネットワーク・アダプタ、314…リクエスト取得部、316…拡散リクエスト生成部、318…検索要求発行部、320…検索結果抽出部、322…ダミー生成情報格納部、324…特異性評価部、326…入出力インタフェース/ブラウザ、328…リクエスト・ログ格納部、330…入出力装置 DESCRIPTION OF SYMBOLS 100 ... Web system, 110-114 ... Client, 120 ... Network, 130 ... Mashup server, 140 ... Network, 150-154 ... Web server, 160-164 ... Database, 200 ... Web system, 210-214 ... Client, 220 ... Network, 230-234 ... Web server, 240-244 ... Database, 300 ... Information processing system, 310 ... Information processing device, 312 ... Network adapter, 314 ... Request acquisition unit, 316 ... Diffusion request generation 318 ... Search request issuing unit 320 ... Search result extracting unit 322 ... Dummy generation information storage unit 324 ... Specificity evaluation unit 326 ... Input / output interface / browser 328 ... Request log storage unit 330 ... Input Output device

Claims (20)

  1.  ネットワークを介して情報を取得する情報処理装置であって、前記情報処理装置は、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部と、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部と
     を含む、情報処理装置。
    An information processing apparatus that acquires information via a network, wherein the information processing apparatus includes:
    A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database;
    Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history An evaluation unit;
    If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus. A spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value for requesting information different from information that should be information;
    A search request issuing unit that issues the spread request as a search request to the database via the network;
    An information processing apparatus comprising: a search result extracting unit that extracts information acquired by the spread request from a response to the search request.
  2.  前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、データマイニング耐性を付与する、請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the dummy value is stored in a dummy generation information storage unit, and data mining tolerance is imparted by reducing the specificity of the search value in the request log.
  3.  前記検索要求発行部は、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行する、請求項2に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the search request issuing unit issues the spread request including only the dummy request as the search request when the information to be acquired has a continuous attribute.
  4.  前記検索要求発行部は、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行する、請求項2に記載の情報処理装置。 The information according to claim 2, wherein the search request issuing unit issues the spread request including the original request and the dummy request as the search request when the information to be acquired has discrete attributes. Processing equipment.
  5.  前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させる、請求項4に記載の情報処理装置。 The peculiarity evaluation unit searches the request log for the search value included in the original request, and determines the number of occurrences of the search value corresponding to the increase rate of the search value currently determined. The information processing apparatus according to claim 4, wherein the generation of the dummy request for the spread request unit is started by predicting an increase in the average value of occurrences by a threshold value or more.
  6.  前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異性評価部は、複数の前記検索値ごとに前記特異性を判定し、前記検索値ごとに前記ダミー・リクエストを生成して、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行する、請求項5に記載の情報処理装置。 The original request includes a plurality of the search values for acquiring different information, and the specificity evaluation unit determines the specificity for each of the plurality of search values, and the dummy request for each of the search values. The information processing apparatus according to claim 5, wherein a request is generated and the spread request is issued to the database for which information is to be retrieved.
  7.  前記情報処理装置は、前記データベースからのレスポンスを受領して前記オリジナル・リクエストが含む前記検索値にそれぞれ対応するレスポンスを表示する表示領域を生成し、前記レスポンスを表示させる、請求項6に記載の情報処理装置。 The information processing apparatus according to claim 6, wherein the information processing apparatus receives a response from the database, generates a display area for displaying a response corresponding to each of the search values included in the original request, and displays the response. Information processing device.
  8.  前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバである、請求項7に記載の情報処理装置。 The information processing apparatus according to claim 7, wherein the information processing apparatus is a mashup server implemented in a Web 2.0 paradigm.
  9.  ネットワークを介して情報を取得する情報処理方法であって、前記情報処理方法は、情報処理装置が、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するステップと、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断するステップと、
     前記特異的であるか否かを判断するステップにおいて前記検索値について特異的であると判断された場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成するステップと、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行するステップと、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出するステップと
    を実行する情報処理方法。
    An information processing method for acquiring information via a network, the information processing method comprising:
    Obtaining an original request containing a search value specifying information to be retrieved from the database;
    Determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the history of the search value; ,
    When it is determined that the search value is specific in the step of determining whether or not it is specific, the specificity of the access log related to the search value for the database issued by the information processing apparatus is determined. Generating a diffusion request including a dummy request generated from a dummy value that provides a search value for requesting information different from the information to be acquired so as to be diluted;
    Issuing the spread request as a search request to the database via the network;
    An information processing method for executing the step of extracting information acquired by the spread request from a response to the search request.
  10.  前記拡散リクエストを生成するステップは、前記検索値の前記リクエスト・ログにおける前記特異性を低下させるためのダミー値をダミー生成情報格納部から取得し、ダミー・リクエストにセットするステップを含む、請求項9に記載の情報処理方法。 The step of generating the spread request includes a step of obtaining a dummy value for reducing the specificity of the search value in the request log from the dummy generation information storage unit and setting the dummy value in the dummy request. 9. The information processing method according to 9.
  11.  前記拡散リクエストを発行するステップは、前記取得するべき情報が連続的な属性を有する場合、前記ダミー・リクエストのみを含む前記拡散リクエストを前記検索要求として発行するステップを含む、請求項10に記載の情報処理方法。 The step of issuing the spread request includes the step of issuing the spread request including only the dummy request as the search request when the information to be acquired has a continuous attribute. Information processing method.
  12.  前記拡散リクエストを発行するステップは、前記取得するべき情報が離散的な属性を有する場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含む前記拡散リクエストを前記検索要求として発行するステップを含む、請求項11に記載の情報処理方法。 The step of issuing the spread request includes the step of issuing the spread request including the original request and the dummy request as the search request when the information to be acquired has discrete attributes. 11. The information processing method according to 11.
  13.  前記特異的であるか否かを判断するステップは、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記ダミー・リクエストの生成を開始させるステップを含む、請求項12に記載の情報処理方法。 The step of determining whether or not it is specific includes searching the request log for the search value included in the original request, and determining the number of occurrences of the search value from an increase rate of the currently determined search value. The information processing method according to claim 12, further comprising a step of starting generation of the dummy request by predicting that the average value of occurrences of the corresponding search values increases by a threshold value or more.
  14.  前記オリジナル・リクエストは、異なる情報を取得するための複数の前記検索値を含み、前記特異的であるか否かを判断するステップは、複数の前記検索値ごとに前記特異性を判定するステップを含み、
     前記拡散リクエストを生成するステップは、前記検索値ごとに前記ダミー・リクエストを生成するステップと、
     前記拡散リクエストを発行するステップは、それぞれ情報検索するべき前記データベースに前記拡散リクエストを発行するステップを含む、請求項13に記載の情報処理方法。
    The original request includes a plurality of search values for obtaining different information, and determining whether or not the original request is specific includes determining the specificity for each of the plurality of search values. Including
    Generating the spreading request includes generating the dummy request for each search value;
    The information processing method according to claim 13, wherein the step of issuing the spread request includes the step of issuing the spread request to the database for which information is to be searched.
  15.  前記情報処理装置は、Web2.0パラダイムで実装されるマッシュアップ・サーバである、請求項14に記載の情報処理方法。 The information processing method according to claim 14, wherein the information processing device is a mashup server implemented in a Web 2.0 paradigm.
  16.  情報処理装置がネットワークを介して情報を取得する情報処理方法を実行するための装置実行可能なプログラムであって、前記プログラムは、情報処理装置を、
     データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行部、
     前記拡散リクエストにより取得された情報を前記検索要求に対するレスポンスから抽出する検索結果抽出部
     として機能させるためのプログラム。
    An information processing apparatus is an executable program for executing an information processing method for acquiring information via a network, the program comprising:
    A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database;
    Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history Evaluation department,
    If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus. A spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value for requesting information different from the information that should be
    A search request issuing unit that issues the spread request as a search request to the database via the network;
    The program for functioning as a search result extraction part which extracts the information acquired by the said spreading | diffusion request from the response with respect to the said search request.
  17.  前記ダミー値は、ダミー生成情報格納部に格納され、前記検索値の前記リクエスト・ログにおける前記特異性を低下させることで、データマイニング耐性を付与する、請求項16に記載のプログラム。 The program according to claim 16, wherein the dummy value is stored in a dummy generation information storage unit, and data mining tolerance is imparted by reducing the specificity of the search value in the request log.
  18.  前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させる、請求項17に記載のプログラム。 The peculiarity evaluation unit searches the request log for the search value included in the original request, and determines the number of occurrences of the search value corresponding to the increase rate of the search value currently determined. The program according to claim 17, wherein the generation of the dummy request for the spread request unit is started by predicting that the average value of the number of occurrences increases by a threshold value or more.
  19.  ネットワークを介して情報を転送するウェブ・システムであって、前記ウェブ・システムは、
     取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得して、前記ネットワークに接続された少なくとも1のウェブ・サーバに対して前記取得するべき情報を検索するための検索要求を発行する情報処理装置と、
     前記情報処理装置からの複数の検索値を含む前記検索要求を受領してデータベースを検索し、前記検索要求で指定される情報を前記情報処理装置にレスポンスとして返すウェブ・サーバと
     を含み、
     前記情報処理装置は、
     前記データベースから取得するべき情報を指定する検索値を含むオリジナル・リクエストを取得するリクエスト取得部と、
     前記情報処理装置が過去に発行したリクエストに対して現在発行するべきリクエストにより取得するべき前記情報が、前記検索値の履歴を登録するリクエスト・ログに関して特異的であるか否かを判断する特異性評価部と、
     前記特異性評価部が前記検索値について特異的であると判断した場合、前記情報処理装置が発行する前記データベースに対する前記検索値に関連したアクセス・ログの特異性を希釈するように、前記取得するべき情報とは異なる情報を要求する検索値を与えるダミー値から生成したダミー・リクエストを含む拡散リクエストを生成する、拡散リクエスト生成部と、
     前記拡散リクエストを検索要求として前記ネットワークを介して前記データベースに宛てて発行する検索要求発行と、
     を含む、ウェブ・システム。
    A web system for transferring information over a network, the web system comprising:
    Information for acquiring an original request including a search value designating information to be acquired and issuing a search request for searching for the information to be acquired to at least one web server connected to the network A processing device;
    A web server that receives the search request including a plurality of search values from the information processing device, searches a database, and returns information specified in the search request as a response to the information processing device;
    The information processing apparatus includes:
    A request acquisition unit that acquires an original request including a search value that specifies information to be acquired from the database;
    Specificity for determining whether or not the information to be acquired by a request to be currently issued with respect to requests issued in the past by the information processing apparatus is specific with respect to a request log for registering the search value history An evaluation unit;
    If the specificity evaluation unit determines that the search value is specific, the acquisition is performed so as to dilute the specificity of the access log related to the search value for the database issued by the information processing apparatus. A spreading request generation unit that generates a spreading request including a dummy request generated from a dummy value that gives a search value that requests information different from the information that should be;
    Issuing a search request for issuing the spread request as a search request to the database via the network;
    Web system including
  20.  前記拡散リクエスト生成部は、前記取得するべき情報とは関連性がない前記ダミー値をダミー生成情報格納部から取得して追加して前記拡散リクエストを生成し、前記拡散リクエストは、前記取得するべき情報が連続的な場合、前記ダミー・リクエストのみを含み、前記取得するべき情報が離散的である場合、前記オリジナル・リクエストおよび前記ダミー・リクエストを含み、前記特異性評価部は、前記オリジナル・リクエストが含む前記検索値について、前記リクエスト・ログを検索し、現在判断している検索値の増加レートから前記検索値の発生数が対応する前記検索値の発生数の平均値に対してしきい値以上増加することを予測して前記拡散リクエスト部に対する前記ダミー・リクエストの生成を開始させると共に、前記ウェブ・システムは、Web2.0パラダイムとして構成され、前記情報処理装置は、マッシュアップ・サーバである、請求項19に記載のウェブ・システム。 The diffusion request generation unit generates the diffusion request by acquiring and adding the dummy value that is not related to the information to be acquired from the dummy generation information storage unit, and the diffusion request is to be acquired When the information is continuous, only the dummy request is included, and when the information to be acquired is discrete, the original request and the dummy request are included, and the specificity evaluation unit includes the original request. For the search value included in the search value, the request log is searched, and a threshold value is set with respect to an average value of the search value corresponding to the occurrence number of the search value corresponding to the increase rate of the search value currently determined. In anticipation of an increase, the generation of the dummy request for the spread request unit is started, and the web The stem is constructed as Web2.0 paradigm, the information processing apparatus is a mashup server, Web system according to claim 19.
PCT/JP2010/061535 2009-07-28 2010-07-07 Information processing device, information processing method, program and web system WO2011013490A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/387,477 US8725762B2 (en) 2009-07-28 2010-07-07 Preventing leakage of information over a network
JP2011524721A JP5705114B2 (en) 2009-07-28 2010-07-07 Information processing apparatus, information processing method, program, and web system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009175664 2009-07-28
JP2009-175664 2009-07-28

Publications (1)

Publication Number Publication Date
WO2011013490A1 true WO2011013490A1 (en) 2011-02-03

Family

ID=43529153

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/061535 WO2011013490A1 (en) 2009-07-28 2010-07-07 Information processing device, information processing method, program and web system

Country Status (3)

Country Link
US (1) US8725762B2 (en)
JP (1) JP5705114B2 (en)
WO (1) WO2011013490A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106723A (en) * 2012-11-27 2014-06-09 Kddi Corp Retrieval information obfuscation device, retrieval information obfuscation method, and program
WO2014141659A1 (en) * 2013-03-15 2014-09-18 日本電気株式会社 Information receiving device, information receiving system, and information receiving method
WO2018034192A1 (en) * 2016-08-19 2018-02-22 日本電気株式会社 Information processing device, information processing method, and storage medium
JP2020527772A (en) * 2017-12-12 2020-09-10 グーグル エルエルシー Failure-oblivious access with differential privacy

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014003794A1 (en) * 2012-06-29 2014-01-03 Hewlett-Packard Development Company, L.P. Obscuring internet tendencies
US20140143882A1 (en) * 2012-11-21 2014-05-22 Alcatel-Lucent Usa Inc. Systems and methods for preserving privacy for web applications
US9444797B2 (en) 2014-07-10 2016-09-13 Empire Technology Development Llc Protection of private data
EP3163789B1 (en) * 2015-10-29 2021-08-18 Airbus Defence and Space GmbH Forward-secure crash-resilient logging device
US20220272110A1 (en) 2019-03-04 2022-08-25 Airgap Networks Inc. Systems and methods of creating network singularities and detecting unauthorized communications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132813A (en) * 2000-10-18 2002-05-10 Sharp Corp Information provision controller, information providing method, recording medium with recorded information providing program, and information providing system

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581009B2 (en) 1998-03-12 2004-10-27 株式会社日立製作所 Data search system and data search method
JP2002312377A (en) 2001-04-18 2002-10-25 Nec Corp Device, server, system, and method for retrieval and program for it
JP3871301B2 (en) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション Database search apparatus and program
US7457946B2 (en) * 2002-10-17 2008-11-25 International Business Machines Corporation Method and program product for privately communicating web requests
JP4007596B2 (en) * 2003-02-25 2007-11-14 インターナショナル・ビジネス・マシーンズ・コーポレーション Server and program
US20050177630A1 (en) * 2003-12-19 2005-08-11 Jolfaei Masoud A. Service analysis
JP2005222135A (en) * 2004-02-03 2005-08-18 Internatl Business Mach Corp <Ibm> Database access monitoring device, information outflow source specification system, database access monitoring method, information outflow source specification method, and program
US20090112805A1 (en) * 2007-10-31 2009-04-30 Zachary Adam Garbow Method, system, and computer program product for implementing search query privacy
US8239396B2 (en) * 2009-03-20 2012-08-07 Oracle International Corporation View mechanism for data security, privacy and utilization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132813A (en) * 2000-10-18 2002-05-10 Sharp Corp Information provision controller, information providing method, recording medium with recorded information providing program, and information providing system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIDETOSHI KIDO: "Ichi Joho Service no Tameno Kaku Joho o Mochiita Ichi Privacy Hogo Shuho to Sono Cost Hyoka", DEWS2005 RONBUNSHU, 2 May 2005 (2005-05-02), Retrieved from the Internet <URL:http://www.ieice.org/iss/de/DEWS/DEWS2005/procs/papers/3A-i5.pdf> *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106723A (en) * 2012-11-27 2014-06-09 Kddi Corp Retrieval information obfuscation device, retrieval information obfuscation method, and program
WO2014141659A1 (en) * 2013-03-15 2014-09-18 日本電気株式会社 Information receiving device, information receiving system, and information receiving method
JPWO2014141659A1 (en) * 2013-03-15 2017-02-16 日本電気株式会社 Information receiving apparatus, information receiving system, and information receiving method
US9817996B2 (en) 2013-03-15 2017-11-14 Nec Corporation Information receiving device, information receiving method, and medium
WO2018034192A1 (en) * 2016-08-19 2018-02-22 日本電気株式会社 Information processing device, information processing method, and storage medium
JPWO2018034192A1 (en) * 2016-08-19 2019-06-13 日本電気株式会社 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM
JP2020527772A (en) * 2017-12-12 2020-09-10 グーグル エルエルシー Failure-oblivious access with differential privacy
JP2021182402A (en) * 2017-12-12 2021-11-25 グーグル エルエルシーGoogle LLC Forgetting type access with differential privacy
JP7124182B2 (en) 2017-12-12 2022-08-23 グーグル エルエルシー Forgetful access with differential privacy
US11727124B2 (en) 2017-12-12 2023-08-15 Google Llc Oblivious access with differential privacy

Also Published As

Publication number Publication date
US20120284299A1 (en) 2012-11-08
JP5705114B2 (en) 2015-04-22
US8725762B2 (en) 2014-05-13
JPWO2011013490A1 (en) 2013-01-07

Similar Documents

Publication Publication Date Title
JP5705114B2 (en) Information processing apparatus, information processing method, program, and web system
Das et al. Creating meaningful data from web logs for improving the impressiveness of a website by using path analysis method
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
KR101374651B1 (en) Search engine that applies feedback from users to improve search results
US8126874B2 (en) Systems and methods for generating statistics from search engine query logs
KR100672277B1 (en) Personalized Search Method Using Cookie Information And System For Enabling The Method
US8868595B2 (en) Enhanced control to users to populate a cache in a database system
CA2790421C (en) Indexing and searching employing virtual documents
US20110093461A1 (en) Extensible Custom Variables for Tracking User Traffic
US20120278354A1 (en) User analysis through user log feature extraction
KR20110009198A (en) Search results with most clicked next objects
WO2013086113A2 (en) System for forensic analysis of search terms
CN102222098A (en) Method and system for pre-fetching webpage
Jagan et al. A survey on web personalization of web usage mining
US20130227112A1 (en) Smart cache learning mechanism in enterprise portal navigation
US9400843B2 (en) Adjusting stored query relevance data based on query term similarity
Bhushan et al. Recommendation of optimized web pages to users using Web Log mining techniques
Sathiyamoorthi et al. Data Pre-Processing Techniques for Pre-Fetching and Caching of Web Data through Proxy Server
US10235459B1 (en) Creating entries in at least one of a personal cache and a personal index
JP2017167829A (en) Detection device, detection method, and detection program
US20150156169A1 (en) Method for determining validity of command and system thereof
CN112016017A (en) Method and device for determining characteristic data
Kim et al. RILCA: Collecting and analyzing user-behavior information in instant search using relational DBMS
Agrawal et al. A Survey Report On Current Research and Development of Data Processing In Web Usage Data Mining
Raut et al. Research on Web Log Mining to Predicting User Behavior through Session

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10804237

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011524721

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13387477

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10804237

Country of ref document: EP

Kind code of ref document: A1