WO2009154153A1 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
WO2009154153A1
WO2009154153A1 PCT/JP2009/060784 JP2009060784W WO2009154153A1 WO 2009154153 A1 WO2009154153 A1 WO 2009154153A1 JP 2009060784 W JP2009060784 W JP 2009060784W WO 2009154153 A1 WO2009154153 A1 WO 2009154153A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
formula
document
expression
search result
Prior art date
Application number
PCT/JP2009/060784
Other languages
English (en)
French (fr)
Inventor
野崎康行
Original Assignee
日立ソフトウエアエンジニアリング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立ソフトウエアエンジニアリング株式会社 filed Critical 日立ソフトウエアエンジニアリング株式会社
Priority to CN2009801232751A priority Critical patent/CN102067124A/zh
Priority to EP09766601.0A priority patent/EP2315135B1/en
Priority to US12/999,521 priority patent/US8407232B2/en
Publication of WO2009154153A1 publication Critical patent/WO2009154153A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Definitions

  • the present invention relates to a document search system, for example, a document search system for supporting collection of a target document from a huge document DB.
  • Search technology that searches by inputting a search keyword when searching for a target document from a huge document database stored on the Internet, an intranet, or a file server is a powerful means often used.
  • searching on the Internet it is often performed to collect past knowledge and related information on a specific theme for which a target document is not particularly determined in advance. Therefore, the user anticipates a search keyword comparable to the document he desires, repeats the search while devising the input method, and finds useful information.
  • searching on an intranet or a file server, or searching on a client computer the existence of the document to be searched is often known in advance, and the user selects a keyword for finding it. Given and performing a search. For example, when referring to the proposal material sent to Company A one year ago, search is performed by giving "Company A", the proposal content, or the sender of the material as keywords.
  • search keywords are input, and those keywords are all included in the document (logical product or AND search), some are included (logical sum or OR search), Or it is possible to include logical operations such as nothing (negation or NOT search). As a result, the target of the document group expected by the user can be brought closer.
  • Many search systems also support advanced searches using combinations of logical operations, such as those containing either keyword A or B and also containing C.
  • search system displays a sentence including two or three lines including the search keyword before and after the file name (or Web page title).
  • the keywords “prospective calculation” and “business plan” are conceived and the range of the search target is expanded to include any of “budget”, “predictive calculation”, and “business plan”.
  • the document that the auditor wants to refer to may not use any keywords of “budget”, “forecast”, and “business plan”. That is, even if acquisition of related documents without missing (or few) is found, if there are too many documents that hit the search, it is practical to limit the number of documents to a suitable number by narrowing down to some extent.
  • Patent Document 1 Conventionally, various techniques and methods have been studied for selecting search keywords that include a large amount of target contents and have an appropriate number of search hits.
  • Patent Document 2 by adding an attribute to a search keyword, the search could not be performed if the keyword was different while having the same meaning as “weather” and “weather” The conventional problem is avoided.
  • Patent Document 2 a thesaurus related to a search keyword input by an operator is referred to, and a search condition expression implicitly intended by the operator is automatically determined in consideration of a higher concept or lower concept of the keyword and an operation object. Provides a means to generate.
  • Patent Document 5 proposes a method of automatically generating a search expression that dynamically changes the number of hits closest to a predetermined reference search number when a document to be searched for a related document is selected. Yes. JP-A-6-187374 Japanese Patent Laid-Open No. 5-250411 Japanese Patent Laid-Open No. 5-314182 Japanese Patent Laid-Open No. 11-15841 Japanese Patent Laid-Open No. 2005-100136 JP 2006-12078 A
  • Patent Documents 3 and 4 search keywords such as replacement with synonyms are presented in the process of creating a search expression to make it easier for the user to narrow down the target, but the relationship between these candidate keywords is detailed. I can't know. For example, Patent Document 3 indicates that, out of 20568 documents including the keyword “information”, “search” is included in 9321 cases, and “medium” is included in 7566 cases. However, when this method is used, it is not known until the search is executed, such as how many sets of documents including “search” overlap with a set of documents including “medium”. In order to know this, it is necessary to perform an AND search of “information”, “search”, and “medium” to check the number of cases.
  • FIG. 1 is an example when the relationship between these keywords is examined using Patent Document 3. If an AND search of “information AND search” and “medium” is found and there are 7566 hits in “medium”, “information” and “search” are always used when “medium” is used. I understand that. That is, it can be understood that “medium” and “information and search” are concepts that are similar in terms of words. On the other hand, if the number is zero, it is understood that “medium” and “search” are contradictory keywords. Conventionally, since such a correlation was not known, it was necessary to repeatedly add or delete a search keyword when narrowing down a search target. In the prior art, there is no way to know in advance such quantitative knowledge (how many hits) and qualitative knowledge (what keyword groups exist and what tendencies exist). It was.
  • the search formula can be automatically assembled so as to be close to the number of hits specified in advance, but the user can know how many of the total hits should be narrowed down to the appropriate number. Absent. For example, even if 100 related documents you want to refer to are specified, 10 of them may be sufficient for the user. If there are 300, it may not be said that the entire related document is covered. is there.
  • the present invention has been made in view of the above problems, and provides a document search system that can efficiently and intuitively collect a desired document when collecting related documents using the search system.
  • the document search system of the present invention presents a list of search results and a new search formula candidate and the number of hits obtained by the search formula.
  • the document search system of the present invention is a document search system that searches for a document including the search keyword from a document DB in which documents to be searched are stored based on the search keyword.
  • a related word dictionary that collects related words and a related word of a search keyword included in the input first search expression are extracted from the related word dictionary, and a second search expression that is a new search expression using the related word is extracted.
  • a related term search expression generation processing unit that generates a search expression, and calculates an increase / decrease value between the number of hits of the search result obtained by the first search expression and the number of hits of the search result obtained by the second search expression.
  • the search execution unit for displaying simultaneously on the display unit.
  • it further includes a Venn diagram drawing processing unit that displays a correlation between the search result obtained by the first search formula and the search result obtained by the second search formula on the display unit in a Venn diagram. May be.
  • the document search system is a document search system for searching for a document including the search keyword from a document DB in which documents to be searched are stored based on the search keyword.
  • An associative keyword search expression generation processing unit that generates a second search expression that is a new search expression using frequent keywords that frequently appear in the search result of the first search expression, and obtained by the first search expression.
  • Search execution unit for calculating an increase / decrease value between the number of hits of the search result obtained and the number of hits of the search result obtained by the second search formula, the search obtained by the first search formula and the first search formula
  • a search result display processing unit for simultaneously displaying the results, the number of hits of the search results, the second search formula, the number of hits of the search results obtained by the second search formula, and the increase / decrease value; Specially equipped with To.
  • it further includes a Venn diagram drawing processing unit that displays a correlation between the search result obtained by the first search formula and the search result obtained by the second search formula on the display unit in a Venn diagram. May be.
  • the document search system is a document search system for searching for a document including the search keyword from a document DB in which documents to be searched are stored based on the search keyword.
  • a partial search expression creation processing unit that generates a second search expression that is a new search expression excluding a part of a plurality of search keywords included in the first search expression, and a search obtained by the first search expression
  • a search execution unit for calculating an increase / decrease value between the number of hits of the result and the number of hits of the search result obtained by the second search formula, the first search formula, the search result obtained by the first search formula,
  • a search result display processing unit that simultaneously displays on the display unit the number of hits of the search result, the second search formula, the number of hits of the search result obtained by the second search formula, and the increase / decrease value. It is characterized by that.
  • it further includes a Venn diagram drawing processing unit that displays a correlation between the search result obtained by the first search formula and the search result obtained by the second search formula on the display unit in a Venn diagram. May be.
  • the search execution unit includes a new search result different from the search result obtained by the first search expression in the search result obtained by the second search expression.
  • the search result display processing unit highlights the new search result and displays it on the display unit when displaying the search result obtained by the second search expression.
  • search system of the present invention when collecting related documents, a list of search results is displayed, and the next search formula candidate and the number of hits obtained by the search formula are presented, so that the user can efficiently ⁇ Intuitively collects desired documents.
  • FIG. 1 is a schematic diagram of a search system according to an embodiment of the present invention. It is an example of the data structure of a related word dictionary. It is a flowchart which shows the flow of a process of this invention. It is an example of the initial screen of the search system of invention. It is an example of the screen which presents the list display of a search result, and the search expression candidate using a related term. It is an example of the screen which presents the search result candidate using the search result list display and the frequent keyword of the search result. It is an example of a screen that presents a list of search results and a search formula candidate created by excluding a search keyword.
  • FIG. 2 is a block diagram schematically showing the internal structure of a document search system constructed as an embodiment of the present invention.
  • This system displays a document DB 201 in which documents to be searched are stored, a document index 202 in which document index information is stored, a related word dictionary 203 in which related word relationships are collected, search results, search expression candidates, and the like.
  • a display device 204 for input, a keyboard 205 and a pointing device 206 such as a mouse for inputting a search keyword and selecting a menu, a central processing unit 207 for performing necessary arithmetic processing, control processing, and the like, a search result
  • a memory 214 for temporarily storing.
  • the document DB 201 is also intended for those whose entities are on the network, such as a set of Web documents on the Internet. Further, the document DB 201 is also targeted when there are a plurality of DB entities instead of physically one.
  • the document index 202 is used for quickly searching for a document to be obtained from an input search expression, and its specific form is an association between a morpheme and an actual document in the document DB 201 (in the case of a search algorithm based on morpheme analysis), , There is an association between a character string fragment of N characters and an actual document in the document DB 201 (in the case of a search algorithm based on N-gram).
  • the document index 202 When executing the search, the document index 202 is used to search for a search formula that matches the search formula, and the search result is displayed on the display screen.
  • the document DB 201, the document index 202, and the related word dictionary 203 may exist in a local PC or on a network.
  • the central processing unit 207 performs a search execution unit 208 that executes a search using the document index 202 according to the input search formula, a search result display process that displays a list of search results and search formula candidates for adjusting search targets.
  • a related word search expression generation processing unit 210 that generates a search expression using related words of keywords included in the search expression, an associative keyword search that generates a search expression using words that are included in a large number of search result documents
  • Formula generation processing unit 211 partial search formula generation processing unit 212 that generates a new search formula by removing one or a plurality of keywords in the case of a search formula composed of a plurality of keywords
  • a Venn diagram that displays the relationship between search results in a Venn diagram A drawing processing unit 213.
  • the processing unit / execution unit and the program / data used in the processing unit / execution unit are stored in a recording medium such as a CD-ROM, DVD-ROM, MO, floppy disk (registered trademark), or USB memory. It can also be provided.
  • FIG. 3 is an example of data included in the related word dictionary 203.
  • the data is composed of a set of a keyword 301 and a related word 302 obtained by collecting terms related to the keyword. It is assumed that related terms are defined according to the target of the search system.
  • a synonym such as “document” for the keyword “document” shown in 303, or “ ⁇ ⁇ business department first design department” or “1 set” for the keyword “first design department” shown in 304.
  • FIG. 4 is a flowchart schematically showing the flow of processing by the document search system.
  • the search execution unit 208 receives the search expression generation method selected by the user.
  • the search formula generation method is a method in which the search system generates “candidates for search formulas for further narrowing (or changing) the search target from the search results”, depending on what information is generated. There are the following three methods. The first is a method for generating a search expression using related word information, the second is a method for generating a search expression using keywords that frequently appear in a document group of search results, and the third is a method for generating a search expression. This is a method for newly generating a search expression by excluding some keywords. Screen display serving as an interface when the search formula generation method is selected by the user will be described later with reference to FIG.
  • step 402 the search execution unit 208 executes a search using the document index 202 in accordance with the search expression S input to the system by the user.
  • pre-processing such as segmentation with a blank space between words included in the search expression S or deletion of a particle is performed using morphological analysis before execution of the search. If the search expression S is written in English, preprocessing such as deletion of prepositions and conjunctions is performed.
  • steps 403 to 407 how to generate a new search formula R candidate for narrowing down (or changing) the search target for each of the above-described three search formula generation methods will be described. .
  • the related word search expression generation processing unit 210 receives the search expression S input in step 402. To determine whether there is a related word for each search keyword included in the reference word dictionary 203. If there is a related word, the keyword and the related word are connected by a logical operation (AND or OR), and a new search expression R is generated. For example, if the search expression S is “X AND Y” and there is Z as a related word of the keyword X, the search expression R is “(X AND Z) AND Y”, “(X OR Z) AND Y” and “ Z AND Y ”.
  • search expression S is “X” and Z is a related word of the keyword X
  • search expression R is “Z”, “X AND Z”, and “X OR Z”. In this way, the search expressions R in all cases are listed by combining logical operations. If there is no related word, or there is a related word but the related word is included in the search expression (for example, the search expression S is “X AND Y” and the related word of keyword X is Y In some cases, the search expression R based on the related word cannot be generated, so nothing is done.
  • steps 405 and 406 when the search execution unit 208 accepts a method of generating a search expression using the frequent keywords appearing in the document group of the search result in step 401, the associative keyword search expression generation processing unit 211 Keywords that frequently appear between the document groups of the search results executed in step 402 are extracted. If the frequently used keywords extracted at this time are included in the search expression S, they are excluded.
  • a search using a characteristic keyword extracted from a document group of search results is called “associative search” and is also used in this embodiment.
  • associative search technology is used in Patent Document 6, but in the present invention as well, a characteristic keyword used between documents in the search result is extracted using the document index 202, and search is performed using it. I do.
  • the associative keyword search expression generation processing unit 211 connects the keyword extracted by the associative search and the search expression S by a logical operation to generate a new search expression R.
  • the associative keyword search expression generation processing unit 211 connects the keyword extracted by the associative search and the search expression S by a logical operation to generate a new search expression R.
  • step 407 when the search execution unit 208 receives the method for generating the search expression by excluding the keyword in step 401, the partial search expression generation processing unit 212 determines how many of the plurality of keywords included in the search expression S are. Generate the search expression R without the.
  • the removed keyword all combinations among all keywords appearing in the search expression S are targeted.
  • R is configured so that the search condition of the search expression R is wider than the search condition of the search expression S (the number of search hits is increased). More specifically, if the keyword is connected with AND and OR, then AND and the keyword are removed. If the keyword is connected only with AND (or only with OR), then AND (or OR) and the keyword are removed. .
  • search expression S is “X AND Y OR Z”
  • search formula R is “Y OR Z” (excluding X), “X OR Z” (excluding Y), “X AND Y "(Excluding Z),” X "(excluding Y and Z),” Y "(excluding X and Z), and” Z "(excluding X and Y) . If the search expression S contains only one keyword, the search expression R cannot be generated and nothing is done.
  • step 404 step 406, or step 407, if the search execution unit 208 determines that the search expression R cannot be generated, the process moves from step 408 to step 409.
  • step 409 the search result display processing unit 209 displays the search result executed in step 402. Thereafter, the process proceeds to step 416 described later.
  • step 410 the search execution unit 208 executes a search according to the search formula R.
  • step 411 the search execution unit 208 calculates the number of hits of the search formula R, and the increase / decrease value when the hit count of the search formula R and the hit count of the search formula S are compared.
  • the search result display processing unit 209 determines the search result of the search formula S, the search formula of the search formula R, the number of hits obtained by the search formula, the number of hits of the search formula R based on the above information. Displays the increase / decrease value when compared with the number of hits in search expression S.
  • the search results based on the search formula S are displayed in a list, they are displayed in the order corresponding to the importance of the document.
  • TF-IDF which determines both documents and search expressions as vectors consisting of a set of words and based on the similarity between vectors, measures the degree of popularity using the link structure of web pages.
  • PageRank an improved version of this PageRank, Subject-SpecificPopularity and HITS, Block-level Link Analysis that calculates the importance of links between meaningful blocks in the page, not the link structure between pages, Vision-based Page Segmentation Algorithm that considers the location of the content is known.
  • the Venn diagram drawing processing unit 213 illustrates the relationship between the search results obtained by the search formula R using a Venn diagram.
  • the Venn diagram shows the area of the area reflecting the number of hits, and the number of search results is displayed in each area.
  • the Venn diagram display method is divided into the following three types depending on which search expression generation method the search execution unit 208 has received in step 401. (1) When a search expression generation method for generating a search expression using a related word is accepted, it is drawn so that the difference in search results for each related word can be understood.
  • search keyword having a related word when included in the search expression S, a set of search results obtained by removing the search keyword from the search expression S, a set of search results of the search keyword, and a search
  • the interrelationship with the set of search results of related words of a keyword is illustrated. For example, if the search expression S is “K AND X AND Y”, the search keyword having a related word is “K”, and the related word is “K '”, the search expressions “X AND Y”, “K”, and “ The relationship between the search results of “K ′” is illustrated in a Venn diagram.
  • search expression S includes one keyword “K” and the keyword “K” includes the related word “K ′”, ⁇ search result obtained by removing the search keyword from the search expression S ⁇ cannot be defined.
  • the relationship between the keywords “K” and “K ′” is displayed in a Venn diagram.
  • A is the number (base) of set A
  • a ⁇ B is "A OR B”
  • a ⁇ B is "A AND B”
  • Venn diagrams generally display the relationship between three classifications, but any number of classifications can be displayed (reference: Frank Ruskey, Carla D. Savage, and Stan Wagon). . "The Search for Simple Symmetric Venn Diagrams" Notices of the AMS 53 (11): 1304-1311). However, since the figure becomes complicated when relationships between a large number of categories are displayed, for example, as shown in FIG. 6 described later, a usage form such as illustrating the relationship between categories according to the selection of display items by the user is also considered. It is done.
  • step 414 when the user who has viewed the search expression R displayed in step 412 desires to display the search result using the search expression R, the search execution unit 208 selects the search expression R selected by the user. Is replaced with the search expression S, and the processing is continued from step 403.
  • the search result of the new search formula S is the one obtained in step 410.
  • step 412 executed after the second time when displaying this list of search results, there may be a usage form in which highlights are displayed to make it easier to understand the difference in the newly increased search result documents. .
  • steps 416 and 417 when the user edits the search formula S and re-executes it with a new search formula, the search execution unit 208 executes the search according to the edited search formula.
  • the edited search expression is set to S again, and the process returns to step 403 to continue processing. If the user does not re-execute the search by editing the search formula S, the process ends.
  • FIG. 5 is a diagram showing an example of the initial screen display of this system.
  • the initial screen includes a search formula input text box 501 for inputting a search formula and a search formula generation method selection menu 502 for narrowing (or changing) a search target for the search result.
  • a generation method based on related words, a generation method using frequent keywords appearing in a document group of search results, and a generation method excluding some keywords in the search formula Can be selected by radio buttons (step 401 in FIG. 4).
  • the search execution button 503 the search is started (step 402 in FIG. 4).
  • an example of collecting documents from the document DB 201 for an activity report on human resource development will be described.
  • FIG. 6 shows an example of a screen display of a list of search results and a list of search formula candidates using related terms, which appear as a result of the search execution button 503 in FIG. 5 being pressed.
  • the search result list pane 601 displays a search expression and the number of hits, and a search result list is displayed below it.
  • a text including a search keyword in the document is displayed near the title of each document hit in the search. The user looks at these titles and sentences to determine whether the search result is what the user has expected.
  • the search formula candidate display pane 602 displays a list of search formulas for adjusting the search target. In the upper part of this pane 602, it is displayed according to which criteria the search formula is generated by the search formula generation method menu 603. In the generation of the search expression according to the related word criterion of FIG. 6, a list of words / phrases related to the input search expression is displayed under the menu 603. That is, if the search keyword included in the input search expression is registered as the keyword 301 of the related word dictionary 203, the corresponding related word 302 is displayed.
  • Venn diagram display pane 605 a correlation between the number of search result hits input by the user and the number of hits of related word search results presented in the search formula candidate display pane 602 is displayed in a Venn diagram.
  • the document set in the Venn diagram is a search result for the keyword selected by the user from the related word selection menu 606.
  • this menu 606 a list of related terms obtained from the search formula input by the user, the number of hits for each, and a check box are displayed, and the corresponding keyword is checked by the user for this check box.
  • a Venn diagram is displayed as a search result. As shown in the Venn diagram display pane 605, the number of hits is displayed in each area.
  • the search expression input pane 607 includes a search expression input text box 608 and a search execution button 609 for executing the search expression in the text box 608.
  • a search expression that automatically extracts a portion of the selected area is automatically input to the search expression input text box 608. If the user determines that the search keyword for the search target is inappropriate and wants to rewrite the search expression or enter a new search expression, enter a new search expression in the search expression input text box 608. Execute.
  • a search expression using the related word (second search expression) is automatically presented.
  • the user can collect the expected document group in a form that is less likely to be missed.
  • the number of search hits when searching with the second search formula and the number of hits that compare the second search formula with the original search formula (first search formula) are also displayed at the same time.
  • the user can make a decision to collect an appropriate number of documents. For example, if there are several tens to 100 search results that the user can actually browse, “Adding this search keyword will increase the number of hits to 1000 or more, so let ’s consider another keyword” or “ Even if this search keyword is added, the number of hits will only increase by three.
  • related words of search keywords included in the first search expression are added to the first search expression, the tendency and characteristics of the search result can be confirmed before executing the search. That is, it is possible to easily determine which related term should be used for the next search. For example, in the case of FIG. 6, there are few keyword search results for “human resource development”, there may be many related documents in the search result for “education” for human resource development activities, Shows that a large amount of documents are included.
  • Venn diagram display makes it possible to grasp the relationship between search keywords and the relationship between search keywords and related words, and visually understand the combination of appropriate keywords and the number of hits based on the combined search expression.
  • FIG. 7 is a screen display example of a list of search results and a list of search expression candidates based on frequent keywords in the search results. This is a screen in which “Generate using frequent keywords appearing in a search result document group” is selected in the search expression generation method menu 603 of FIG. 6 and a search is executed with the search expression as “human resource development OR education”.
  • search result list pane 701 as in FIG. 6, the search formula and the number of hits are displayed, and below that, a list of search results for the new search formula “human resource training OR training” is displayed. Documents newly added from the previous search result are highlighted (the part marked with an asterisk in FIG. 7). With such an invention, the user can directly understand what kind of document has been increased, and can easily understand the effect of the second search expression.
  • the search formula candidate display pane 702 displays a list of search formula candidates for adjusting the search target.
  • the generation using the frequent keywords appearing in the search result document group is selected in the search expression generation method menu 703.
  • frequent keywords appearing in actual search results are presented under the search formula generation method menu 703.
  • Venn diagram display pane 704 similarly to FIG. 6, the correlation between the number of hits in the search result of the search formula entered by the user and the frequent keywords appearing in the search result is shown in the Venn diagram.
  • a search expression (second search expression) using a frequent keyword of a search result is automatically presented, so that a document group desired by the user can be efficiently collected.
  • the number of search hits and the increase / decrease in the number of hits are simultaneously displayed for search expressions using frequent keywords, so the user can collect documents in an appropriate number.
  • the search result “human resource training OR training” includes a lot of documents related to “course guidance” notification, “student completion notification” notification, and “newcomer” education. You can get an overview.
  • the Venn diagram display allows you to understand the relationship between the search results of the original search formula (first search formula) and frequent keywords, and allows you to visually understand the appropriate keyword combinations and the number of hits based on the combined search formula.
  • a document including the keyword “learning completion notification” always includes the keyword “human resource development” or “education”, and a document including “course guidance” and “learning completion notification” simultaneously. You can see that it doesn't exist. Therefore, when the user collects activity reports related to human resource development, it can be determined that the course guidance document is excluded from the collection target because it does not seem to be related.
  • keywords such as “notification of completion of attendance” and “newcomer” are likely to be related to human resource development activities, so it can be determined that they should be included in the collection target.
  • FIG. 8 is a screen display example of a list of search formula candidates and a list of search formula candidates by excluding some keywords in the search formula. This is done by selecting “Generate by partially excluding keywords in the search formula” from the search formula generation method menu 703 in FIG. 7 and select “(Human Resource Development OR Education) AND (Completion Notification OR New Person)” This is the screen on which the search was executed as “AND 2007”.
  • search result list pane 801 the search formula and the number of hits are displayed and a search result list of the search formula “(Human Resource Development OR Education) AND (Lecture Completion Notification OR Newcomer) AND 2007” is displayed as in FIG. Is done.
  • a search formula candidate display pane 802 displays a list of search formula candidates for adjusting the search target.
  • generation by excluding some keywords in the search formula is selected in the search formula generation method menu 803.
  • the search formula (1) in FIG. 7 is “(Human Resource Development OR Education) AND (Lecture Completion Notification OR Newcomer)”, which is a search generated by excluding the keyword “2007” from the original search formula. It is a formula.
  • the correlation between the number of hits of the search result by the search formula input by the user and the search result of the search formula generated by excluding a part of the search keyword is illustrated in the Venn diagram. Is done.
  • the document set in the Venn diagram is a search result for the search formula selected by the user from the search formula candidate selection menu 805.
  • the search formula candidate selection menu 805 displays a list of search formula candidates presented in the search formula candidate display pane 802, the number of hits for each, and a check box. For the keyword for which the user has checked this check box, Thus, a Venn diagram of the corresponding search result is displayed.
  • the user can confirm whether the condition of the original search formula (first search formula) is not too strict or too weak for the target to be collected.
  • the first search expression input by the user is an AND search between a certain search keyword and a general search keyword.
  • the general keyword is If the number of hits does not change even if omitted, it can be determined that the keyword should be omitted.
  • an AND search is performed on a search keyword with a first search expression and a special search keyword, and there are only 2 to 3 hits as a result of the search using the first search expression, It can be judged that special search keywords should be omitted. For example, in the case of FIG.
  • the search results of the original search formula (first search formula) and the effect of omitting the search keyword from the original search formula can be visually confirmed before executing the search.
  • a search expression for adjusting a search target is presented while a list of search results is displayed, so what is suitable as the next search keyword? Users can understand it efficiently and directly. It is also easy to understand when the search result is different from what the user thinks (when the wrong search keyword is specified). In addition, while the search is repeated, another more appropriate keyword can be found, so that a search that matches the purpose of the user can be executed.
  • Search formula input pane 608 ... Search formula input text box 609 ... Search execution button 701 ... Search Result list pane 702 ... Search formula candidate display In 703 ... search expression generation method menu 704 ... Venn diagram display pane 801 ... search result list pane 802 ... search expression candidate display pane 803 ... search expression generation method menu 804 ... Venn diagram display pane 805 ... search expression candidate selection menu

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索システムを用いて目的の文書を収集する時において、効率的・直感的に所望の文書を収集するための文書検索システムを提供することを可能とする。検索結果の一覧表示と共に、新たな検索式の候補およびその検索式で得られたヒット件数を提示する。具体的には、検索キーワードの関連語を集めた関連語辞書と、入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値を表示部に同時に表示する検索結果表示処理部と、を備える。

Description

文書検索システム
 本発明は、文書検索システムに関し、例えば、膨大な文書DBから目的の文書を収集することを支援するための文書検索システムに関する。
 インターネット上あるいはイントラネットやファイルサーバ上に蓄積された膨大な文書DBの中から目的とする文書を探し出したいとき、検索キーワードを入力することによって検索を行う検索技術はよく使われる強力な手段である。インターネット上で検索を行う場合、予め目的とする文書が特に定まっていない、ある特定のテーマに関する過去の知見や関連情報の収集のために行われることが多い。そのため、ユーザは、自分が希望する文書に匹敵する検索キーワードを予想し、その入力の仕方を工夫しながら検索を繰り返し、有用な情報を見つけ出す。一方、イントラネット上やファイルサーバ上での検索や、クライアントパソコン内の検索を行う場合は、検索対象である文書の存在自体が予め分かっていることが多く、ユーザは、それを見つけ出すためのキーワードを与えて検索を実行する。例えば1年前にA社に送った提案資料を参照したいときは、「A社」、提案内容、または資料の送信者などをキーワードとして与え、検索を行う。
 近年では企業の監査対応で、企業内サーバ内の文書検索が行われることが多い。この場合、監査人や企業内監査部門など、監査対象部門の外部の人間か、またはこれら外部の人間の指示・指摘を受けた内部の人間が該当文書の検索を実行する。つまり、実際に検索を実行する人間は、該当文書の作成者ではないことが多く、従ってファイルサーバのどこにどのような文書があるかすぐには分からない。また、該当文書が複数ある場合には、監査の性質上、それらを取りこぼしなく探すことが求められる。
 ところで、一般的な検索システムでは、一つまたは複数の検索キーワードを入力し、それらのキーワードを文書中に全て含むもの(論理積またはAND検索)、どれか含むもの(論理和またはOR検索)、あるいはどれも含まないもの(否定またはNOT検索)などの論理演算を入れることが可能である。これによってユーザの期待する文書群の対象により近づけることができる。また、キーワードAとBのどちらかを含み、かつCを含むものといった、論理演算の組合せによる高度な検索も多くの検索システムでサポートされている。更に、ヒットした検索結果の一覧表示においては、ファイル名(またはWebページのタイトル)に加えて、検索キーワードの前後を含む文章を2~3行で表示する検索システムもある。
 しかし、このような検索技術を用いて実際に関連文書を収集する場合には、いくつかの問題が生じる。例えば監査人が予算資料を収集したいとして、検索システム上で「予算」のキーワードを指定して検索をする場合を考える。このとき監査人が参照したい文書に「予算」のキーワードが使われておらず、代わりに「予実算」や「事業計画書」という言葉が使われている場合、検索にヒットしない。すなわち、このような「予算」の類義語や「予算」の概念を包含する言葉を検索の利用時に思いつかなければ、情報の取りこぼしが発生してしまう。一方、キーワード「予実算」と「事業計画書」を思いつき、「予算」「予実算」「事業計画書」のどれかを含むように検索対象の範囲を広げたとする。しかしその結果、何千・何万件の検索結果が提示されれば、ユーザの望まない文書も多く含むことがあり得るし、全てに目を通すのは現実的に不可能となる。あるいは、監査人が参照したい文書は、「予算」「予実算」「事業計画書」のいずれのキーワードも使用していない可能性もある。つまり、取りこぼしのない(または少ない)関連文書の取得といえども、検索にヒットする文書が多すぎる場合には、ある程度の絞込みを行うことで適当な件数で抑えるのが現実的である。反対に、検索にヒットする文書が無い場合や少なすぎる場合には、ユーザが入力した検索キーワードから連想するようなキーワードを提案し検索可能性を広げる必要がある。
 このような、目的とする内容を多く含み、しかも適当な検索ヒット件数になるような検索キーワードの選び方については、従来から様々な技術・方法が検討されている。目的とする内容を多く含ませるために、例えば特許文献1では、検索キーワードに属性をつけることによって、“天候”“天気”のように同一の意味を持ちながらもキーワードが異なると検索できなかった従来の問題を回避している。また特許文献2では、操作者が入力した検索キーワードに関するシソーラスを参照し、キーワードの上位概念または下位概念、動作目的語を考慮して、操作者が暗黙的に意図した検索条件式を自動的に生成する手段を提供している。適当なヒット件数になるような検索式の生成に関しては、特許文献3や特許文献4によって、検索キーワードの追加・削除・同義語による展開などを繰り返すことで、その検索式によって得られるヒット件数を逐次表示する方式が提案されている。これらの方式では、検索式だけでなく、検索式に含まれる各検索キーワードが検索結果中に何件ヒットしたかも表示する。また特許文献5では、関連文書を検索したい文書を選択すると、予め定めた基準検索件数に最も近いヒット件数となるような検索式を動的に変化させながら自動的に生成する方式を提案している。
特開平6-187374号公報 特開平5-250411号公報 特開平5-314182号公報 特開平11-15841号公報 特開2005-100136号公報 特開2006-12078号公報
 しかしながら、特許文献1から特許文献4の技術では、ユーザが入力した検索キーワードおよび論理演算を基に、検索ヒット件数を参照しながら適切な検索式を生成するため、ユーザの検索目的が明確で、検索式から得られる検索結果に対して確固たるイメージが前もってある場合には有効だが、検索したい対象が明確に定まっていない場合や、検索したいものを表す適切なキーワードが思いつかない場合には、対応することができない。例えば、監査で人材育成に対する活動報告を求められた場合、どのような検索キーワードで調べたらよいのか見当をつけにくい。この場合、検索キーワード「人材育成」を用いても求めるものは見つかりにくく、「教育」や「実習」の方がより望ましいであろう。このような漠然とした対象に対しては、具体性のあるキーワードが分からないので、従来技術では関連文書を収集することが困難である。
 また特許文献3や4では、検索式を作る過程で、同義語による置き換えなど検索キーワードの提示を行い、ユーザにターゲットを絞り込みやすくさせているが、それらの候補となるキーワード間の関係を詳細に知ることができない。例えば特許文献3では、キーワード「情報」が含まれる文書20568件のうち、「検索」が含まれるのは9321件、「媒体」が含まれるのは7566件あることを示している。しかし、この方式を使う上では、「検索」が含まれる文書の集合と「媒体」が含まれる文書の集合とが何件オーバーラップしているかなどは、検索を実行するまでわからない。これを知るには、「情報」と「検索」と「媒体」のAND検索を行って、件数を調べる必要がある。
 図1は、特許文献3を用いて、これらのキーワードの関係を調べたときの一例である。「情報 AND 検索」と「媒体」とのAND検索で、「媒体」が7566件ヒットしていれば、「媒体」が使われているときはいつも「情報」と「検索」が使われていることがわかる。すなわち、「媒体」と「情報や検索」は言葉のイメージが近い概念であることがわかる。逆に0件ならば「媒体」と「検索」が相反する概念のキーワードであることがわかる。従来はこのような相関がわからなかったために、検索対象を絞り込むときに、検索キーワードの追加や削除を繰り返し行う必要があった。従来技術ではこのような、量的な知見(何件ヒットするか)と質的な知見(どのようなキーワードの文書群が存在し、どのような傾向があるのか)について、予め知る術がなかった。
 また特許文献5では、予め指定したヒット件数に近くなるように自動的に検索式を組み立てることができるが、そもそも全ヒット件数のうち何件に絞れば適当数と言えるのか、ユーザは知る術はない。例えば参照したい関連文書を100件と指定していても、そのうちの10件でユーザにとっては十分である場合もあるし、300件なければ関連文書の全体を網羅しているとは言えない場合もある。
 本発明は上記問題に鑑みてなされたものであり、検索システムを用いて関連文書を収集する時において、効率的・直感的に所望の文書を収集することのできる文書検索システムを提供する。
 本発明の文書検索システムは、検索結果の一覧表示と共に、新たな検索式の候補およびその検索式で得られたヒット件数を提示する。
 すなわち、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、検索キーワードの関連語を集めた関連語辞書と、入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、入力された第一の検索式の検索結果中に頻繁に出現する頻出キーワードを用いて新たな検索式である第二の検索式を生成する連想キーワード検索式生成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、本発明の文書検索システムは、検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、入力された第一の検索式に含まれる複数の検索キーワードの一部を除いて新たな検索式である第二の検索式を生成する部分検索式作成処理部と、前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、を備えることを特徴とする。
 この場合において、さらに、前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、を備えてもよい。
 また、上記文書検索システムにおいて、前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする。
 本発明の検索システムによれば、関連文書を収集する時において、検索結果の一覧表示と共に、次の検索式の候補およびその検索式で得られたヒット件数を提示することで、ユーザが効率的・直感的に所望の文書を収集することができる。
検索キーワードの関係性を表す図である。 本発明の実施の形態に係る検索システムの概略図である。 関連語辞書のデータ構造の一例である。 本発明の処理の流れを示すフローチャートである。 発明の検索システムの初期画面の例である。 検索結果の一覧表示と、関連語を用いた検索式候補を提示する画面の例である。 検索結果の一覧表示と、検索結果の頻出キーワードを用いた検索式候補を提示する画面の例である。 検索結果の一覧表示と、検索キーワードを除外することで作られた検索式候補を提示する画面の例である。
 以下、図面を参照し、本発明の実施の形態に係る文書検索システムについて説明する。尚、本実施形態は本発明を実現するための一例にすぎず、本発明の技術的範囲を制限するものではない。
 <文書検索システムの構成>
 図2は、本発明の一実施形態として構築される、文書検索システムの内部構造を概略的に示した構成図である。このシステムは、検索対象となる文書が蓄積された文書DB201、文書のインデックス情報が蓄積された文書インデックス202、関連語の関係を集めた関連語辞書203、検索結果や検索式の候補等を表示するための表示装置204、検索キーワードの入力やメニューを選択するなどの操作を行うためのキーボード205とマウスなどのポインティングデバイス206、必要な演算処理、制御処理等を行う中央処理装置207、検索結果を一時的に保存するためのメモリ214、を備える。ここで文書DB201は、インターネット上のWeb文書の集合のような、実体がネットワーク上にあるものも対象とする。さらに文書DB201は、DBとしての実体が物理的に一つではなく複数である場合も対象とする。文書インデックス202は入力された検索式から求める文書を高速に探すためのもので、その具体的な形は、形態素と文書DB201内の実際の文書との関連付け(形態素解析による検索アルゴリズムの場合)や、N文字の文字列片と文書DB201内の実際の文書との関連付け(N-gramによる検索アルゴリズムの場合)がある。検索実行時には、文書インデックス202を用いて検索式に適合するものを探し出し、検索結果の表示画面上で実際の文書への関連付けを行う。文書DB201・文書インデックス202・関連語辞書203は、ローカルのPC内に存在しても、ネットワーク上に存在しても構わない。
 <中央処理装置の構成>
 中央処理装置207は、入力された検索式に従って文書インデックス202を用いて検索を実行する検索実行部208、検索結果の一覧および検索対象を調整するための検索式の候補を表示する検索結果表示処理部209、検索式に含まれるキーワードの関連語を用いて検索式を生成する関連語検索式生成処理部210、検索結果の文書群に多く含まれる語句を用いて検索式を生成する連想キーワード検索式生成処理部211、複数のキーワードからなる検索式の場合に一つまたは複数のキーワードを取り除いて新たに検索式を生成する部分検索式生成処理部212、検索結果の関係をベン図で表示するベン図描画処理部213、を備える。また上記処理部・実行部および上記処理部・実行部で使用するプログラム・データ等は、CD-ROM、DVD-ROM、MO、フロッピーディスク(登録商標)、USBメモリ等の記録媒体に格納して提供することもできる。
 <関連語辞書の構成>
 図3は関連語辞書203に含まれるデータの一例である。データは、キーワード301とキーワードに関連する用語を集めた関連語302の組で構成される。関連語は、検索システムの対象に合わせて定義しておくことを想定している。典型的には、303に示すキーワード“文書”に対する“ドキュメント”のような同義語や、304に示すキーワード“第1設計部”に対する“○△事業部第1設計部”または“1設”のような正式名称、略称である。その他にも、305に示すキーワード“2007年”に対する“平成19年”および“H19”など年号の表記の違い、306に示すキーワード“center”に対して“centre”のような表記上のゆれ、あるいは誤記、スペルミスなども含まれる。また、307に示すキーワード“人材育成”に対する“教育”“実習”“研修”のような同義語ではないが関連性が強い言葉、308に示すキーワード“東京”に対する“関東”、309に示すキーワード“肉”に対する“牛肉”“豚肉”“鶏肉”など互いに包含関係にある言葉(上位・下位概念にある言葉)も含まれる。この関連語辞書としてインターネット上のシソーラス辞書を用いる形態もありうる。
 <文書検索処理>
 次に、上記のように構成された本実施形態の文書検索システムにおいて行われる処理について図4を用いて説明する。図4は、文書検索システムによる処理の流れを概略的に示すフローチャートである。
 ステップ401では、検索実行部208が、ユーザによって選択された検索式生成方法を受け付ける。検索式生成方法とは、本検索システムが「検索結果から検索対象を更に絞り込む(または変更する)ための検索式の候補」を生成する方法であり、どのような情報に基づいて生成するかによって、次の3つの方法がある。1つ目は関連語の情報を用いて検索式を生成する方法、2つ目は検索結果の文書群の中に頻出するキーワードを使って検索式を生成する方法、3つ目は検索式のキーワードを一部除くことによって検索式を新たに生成する方法、である。ユーザによって検索式生成方法が選択される際の、インターフェイスとなる画面表示については、図5を用いて後述する。
 ステップ402では、検索実行部208が、ユーザによって本システムに入力された検索式Sに従って、文書インデックス202を用い、検索を実行する。このとき必要であれば、検索実行前に、形態素解析を用いて検索式Sに含まれる単語の区切りに空白を挟む分かち書きや、助詞の削除等の前処理を行う。また、検索式Sが英語で書かれているのであれば、前置詞や接続詞の削除等の前処理を行う。以下のステップ403~407では、上述した3つの検索式生成方法のそれぞれの場合について、どのように、検索対象を絞り込む(または変更する)ための新たな検索式Rの候補を生成するか説明する。
 ステップ403、404では、検索実行部208が、ステップ401において関連語を用いて検索式を生成する方法を受け付けた場合、関連語検索式生成処理部210は、ステップ402において入力された検索式Sに含まれる各検索キーワードの関連語があるか、関連語辞書203を参照しながら調べる。もし関連語があれば、キーワードとその関連語とを論理演算(ANDやOR)でつなげて、新たに検索式Rを生成する。例えば、検索式Sが「X AND Y」であり、キーワードXの関連語としてZがあれば、検索式Rは「(X AND Z) AND Y」、「(X OR Z) AND Y」および「Z AND Y」となる。また、検索式Sに含まれるキーワードが「X」のみであり、キーワードXの関連語としてZがあれば、検索式Rは「Z」、「X AND Z」および「X OR Z」となる。このように論理演算を組合せてすべての場合の検索式Rを列挙する。もし関連語がない場合や、関連語があってもその関連語が検索式に含まれている場合(例えば、検索式Sが「X AND Y」であって、キーワードXの関連語がYである場合)は、関連語に基づいた検索式Rは生成できないので何も行わない。
 ステップ405、406では、検索実行部208が、ステップ401で検索結果の文書群の中に現れる頻出キーワードを用いて検索式を生成する方法を受け付けた場合、連想キーワード検索式生成処理部211は、ステップ402で実行した検索結果の文書群の間で頻繁に現れるキーワードを抽出する。このとき抽出した頻出のキーワードの中に、検索式Sに含まれるものがあれば除外する。検索結果の文書群から抽出した特徴的なキーワードを用いた検索は「連想検索」とよばれており、本実施形態でも用いられている。例えば、特許文献6で連想検索技術が使われているが、本発明でも同様に、文書インデックス202を用いて、検索結果の文書間で使われる特徴的なキーワードを抽出し、それを用いて検索を行う。連想キーワード検索式生成処理部211は、連想検索で抽出されたキーワードと検索式Sとを論理演算でつなげて新たに検索式Rを生成する。頻出キーワードが多数ある場合は、頻出数に応じて選んだ上位数個のキーワードと検索式Sとをつなげるという利用も考えられる。
 ステップ407では、検索実行部208が、ステップ401でキーワードの除外による検索式の生成する方法を受け付けた場合、部分検索式生成処理部212は、検索式Sに含まれる複数のキーワードのうちのいくつかを除いた形で検索式Rを生成する。ここで、除くキーワードとしては、検索式Sに現れる全てのキーワードの中の全ての組み合わせを対象とする。除外キーワードを除いた結果、検索式Rの検索条件が検索式Sの検索条件より広い検索範囲になる(検索ヒット件数が増える)ようにRを構成する。より具体的には、キーワードがANDとORで結ばれている場合はANDとキーワードを取り除き、キーワードがANDでのみ(またはORでのみ)結ばれている場合はAND(またはOR)とキーワードを取り除く。例えば検索式Sが「X AND Y OR Z」であれば、検索式Rは「Y OR Z」(Xを除いたとき)、「X OR Z」(Yを除いたとき)、「X AND Y」(Zを除いたとき)、「X」(YとZを除いたとき)、「Y」(XとZを除いたとき)、「Z」(XとYを除いたとき)、となる。検索式Sがひとつのキーワードのみを含むのであれば、検索式Rは生成できないので何も行わない。
 前記ステップ404、ステップ406、またはステップ407で、検索実行部208が検索式Rを生成できないと判断した場合は、ステップ408からステップ409へ移動する。ステップ409では、検索結果表示処理部209が、ステップ402で実行した検索結果を表示する。その後、後述するステップ416に移動する。
 一方、前記ステップ404、ステップ406、またはステップ407で、関連語検索式作成処理部210、連想キーワード検索式作成処理部211、または部分検索式作成処理部212が検索式Rを生成した場合は、ステップ408からステップ410へ移動する。ステップ410では、検索実行部208が、その検索式Rに従って検索を実行する。
 ステップ411では、検索実行部208が、検索式Rのヒット件数、および検索式Rのヒット件数と検索式Sのヒット件数とを比較したときの増減値を算出する。
 ステップ412では、検索結果表示処理部209が、以上の情報をもとに、検索式Sの検索結果、検索式Rの検索式およびその検索式で得られるヒット件数、検索式Rのヒット件数と検索式Sのヒット件数とを比較したときの増減値を表示する。検索式Sによる検索結果を一覧で表示する際には、文書の重要度に応じた順に表示する。この表示順を決めるアルゴリズムについては、文書と検索式をともに単語の集合からなるベクトルとして捉えてベクトル間の類似度を元に決定するTF-IDF、Webページのリンク構造を用いて人気度合いを測るPageRank、このPageRankの改良版であるSubject-Specific PopularityやHITS、ページ間のリンク構造ではなくページ内の意味のあるブロック同士のリンクで重要度を算出するBlock-level Link Analysis、ページ内の重要なコンテンツの場所を考慮したVision-based Page Segmentation Algorithmなどが知られている。
 ステップ413では、ベン図描画処理部213が、検索式Rで得られる検索結果の関係を、ベン図によって図示する。ベン図には、ヒット件数を反映した領域面積が図示され、各領域内には検索結果の件数が表示される。ベン図の表示方法は、ステップ401で、検索実行部208がどの検索式生成方法を受け付けたかによって、次の3つに分けられる。(1)関連語を用いて検索式を生成する検索式生成方法を受け付けた場合、関連語ごとの検索結果の違いが分かるように描く。具体的には、検索式Sに関連語を有する検索キーワードが含まれている場合、検索式Sから検索キーワードを除いた検索式の検索結果の集合と、検索キーワードの検索結果の集合と、検索キーワードの関連語の検索結果の集合との相互関係を図示する。例えば、検索式Sが「K AND X AND Y」、関連語を有する検索キーワードが「K」、関連語が「K’」であった場合、検索式「X AND Y」と「K」と「K’」の検索結果の関係をベン図で図示する。また、検索式Sがひとつのキーワード「K」からなる場合でキーワード「K」に関連語「K’」がある場合、{検索式Sから検索キーワードを除いた検索結果}が定義できない。この場合はキーワード「K」と「K’」との関係をベン図表示する。
(2)検索結果の文書群の中に現れる頻出キーワードを用いて検索式を生成する検索式生成方法を受け付けた場合、頻出キーワードを用いた検索がどのように検索結果に関係するか(検索対象を絞り込めるか)分かるように描く。具体的には、検索式Sの検索結果の集合と頻出キーワードで検索したときの検索結果の集合との関係を図示する。
(3)検索式のキーワードを一部除くことによって検索式を生成する検索式生成方法を受け付けた場合、元の検索式Sと検索式Sのキーワードの一部が除外された検索式Rとの関係を図示する。
 また、A1,…Anを有限集合としたとき、次の包除原理
Figure JPOXMLDOC01-appb-M000001

と、ド・モルガンの法則
Figure JPOXMLDOC01-appb-M000002

を組合せれば、各領域内の検索結果の件数を再帰的に計算することが可能である。
 ここで|A|は集合Aの個数(基数)とし、A∪Bは「A OR B」、A∩Bは「A AND B」、
Figure JPOXMLDOC01-appb-M000003

は「NOT A」のことを指すこととする。
 またベン図は、一般的に三つの分類間の関係を表示することが多いが、何個の分類間の関係であっても表示可能である(参考:Frank Ruskey, Carla D. Savage, and Stan Wagon. "The Search for Simple Symmetric Venn Diagrams" Notices of the AMS 53 (11): 1304-1311)。しかし、多数の分類間の関係を表示すると図が複雑になるので、例えば後述する図6のように、ユーザによる表示項目の選択に応じて、分類間の関係を図示するなどの利用形態も考えられる。
 ステップ414、415では、ステップ412で表示された検索式Rを見たユーザが、その検索式Rを用いた検索結果の表示を望んだ場合、検索実行部208は、ユーザが選択した検索式Rを検索式Sとして置き換え、ステップ403から処理を続ける。ここで新しい検索式Sの検索結果としては、ステップ410で得られたものとなる。また、二回目以降に実行されるステップ412では、この検索結果の一覧を表示する際に、新たに増えた検索結果の文書について、違いを分かりやすくするための強調表示を行う利用形態も考えられる。
 ステップ416、417では、ユーザが検索式Sを編集し、新しい検索式で再実行する場合、検索実行部208は、編集後の検索式に従って検索を実行する。編集後の検索式を改めてSとおき、ステップ403に戻って処理を続ける。また、ユーザが検索式Sを編集して検索を再実行しないならば、処理を終了する。
 <文書検索システムの初期画面表示例>
 図5は本システムの初期画面表示の例を示した図である。初期画面には、検索式を入力するための検索式入力用テキストボックス501と、検索結果に対して検索対象を絞り込む(または変更する)ための検索式生成方法選択メニュー502がある。検索式生成方法選択メニュー502では、関連語にもとづいて生成する方法、検索結果の文書群に現れる頻出キーワードを用いて生成する方法、検索式の中のキーワードを一部除外しての生成する方法の3つを、ラジオボタンで選択できるようになっている(図4のステップ401)。ユーザは、これらの項目または設定を入力し、検索実行ボタン503を押下すると、検索が開始される(図4のステップ402)。以下、人材育成に関する活動報告に対して、文書DB201から文書を収集することを例にとり説明する。
 <関連語を用いた検索結果の画面表示例>
 図6は、検索結果の一覧および関連語を用いた検索式候補の一覧の画面表示の例を示したもので、図5の検索実行ボタン503が押下された結果、現れるものである。
 検索結果一覧ペイン601には、検索式とヒット件数が表示され、その下に検索結果の一覧が表示される。検索でヒットしたそれぞれの文書のタイトルの傍には、文書内の検索キーワードを含む文章が表示される。ユーザはこれらのタイトルや文章をみて、検索結果がユーザの期待していたものかどうかを判断する。
 検索式候補表示ペイン602には、検索対象を調整するための検索式の一覧が表示される。このペイン602の上部には、検索式生成方法メニュー603でどの基準に従って検索式が生成されたかが表示される。図6の関連語の基準に従った検索式の生成では、メニュー603の下に、入力検索式に関連する語句の一覧が表示される。すなわち、入力検索式に含まれる検索キーワードが、関連語辞書203のキーワード301として登録されていれば、対応する関連語302が表示される。そして、それらの関連語を用いた新しい検索式の一覧と、その新しい検索式で得られる検索結果のヒット件数、および新しい検索式の検索結果のヒット件数と元の検索式の検索結果のヒット件数とを比較したときの増減値が表示される。ユーザが、検索式の傍にある検索実行ボタン604を押下すると、対応する検索式のもとで検索が実行される。
 ベン図表示ペイン605には、ユーザが入力した検索式の検索結果のヒット件数と検索式候補表示ペイン602で提示された関連語の検索結果のヒット件数との相関関係がベン図で表示される。ベン図内の文書集合は、ユーザが関連語選択メニュー606で選択したキーワードに対する検索結果である。このメニュー606には、ユーザが入力した検索式から得られた関連語の一覧と、それぞれのヒット件数、およびチェックボックスが表示され、ユーザがこのチェックボックスにチェックをしたキーワードに対して、対応する検索結果のベン図表示が行われる。ベン図表示ペイン605に示すとおり、各領域にはヒット件数が表示される。例えば、「人材育成 AND 教育」は2件、「教育」は2142件、「人材育成」は12件であるので、「教育」と「人材育成」の重複する領域に2件と表示される。また、ヒット件数は、破線あるいは実線で囲まれた各領域に係る部分のみを表示している。例えば、「人材育成」の全12件のうち、「教育」と重複する領域には2件、その他の領域には10件、と表示される。
 検索式入力ペイン607には、検索式入力用テキストボックス608、およびこのテキストボックス608の検索式を実行するための検索実行ボタン609がある。ベン図表示ペイン605のベン図表示で、ユーザが領域を選択すると、その選択領域の部分を抽出するような検索式が自動的に検索式入力用テキストボックス608に入力されるという利用形態も考えられる。また、ユーザが検索対象に対する検索キーワードが不適当と判断し、検索式を書き換えたい場合や、新規に検索式を入力したい場合は、検索式入力用テキストボックス608へ新たに異なる検索式を入れて実行する。
 このような発明によって、ユーザが検索キーワードに関する関連語を意識しなくても(または、関連語が思い出せなくても)、関連語を用いた検索式(第二の検索式)が自動的に提示されるので、ユーザは期待する文書群を取りこぼしが少ない形で収集することができる。
 また、第二の検索式で検索した場合の検索ヒット件数、および第二の検索式と元の検索式(第一の検索式)とを比較したヒット件数の増減数も同時に表示されるので、ユーザは適切な数で文書を収集するための判断が出来る。たとえば、ユーザが現実的に閲覧できる検索結果が数10件~100件である場合に、「この検索キーワードを追加すればヒット件数が千件以上になるので別のキーワードを考えよう」とか、「この検索キーワードを追加してもヒット件数が3件しか増えないので、それぐらいなら追加しよう」といった判断を行える。
 また、第一の検索式に、その検索式に含まれる検索キーワードの関連語を追加したときに、検索結果の傾向や特徴を、検索実行前に確認することが出来る。すなわち、次にどのような関連語を用いて検索を実行すればよいのかを容易に判断できる。たとえば図6の場合、「人材育成」のキーワード検索の結果は少ないこと、人材育成の活動に関しては「教育」の検索結果に多くの関連文書があるかもしれないこと、「教育」の検索結果には大量の文書が含まれていること、などがわかる。
 さらに、ベン図表示によって、検索キーワード間および検索キーワードと関連語との関係を把握でき、適切なキーワードの組合せ、および、組み合わせた検索式によるヒット件数が視覚的に理解できる。
 <頻出キーワードを用いた検索結果の画面表示例>
 図7は、検索結果の一覧と検索結果の頻出キーワードによる検索式候補の一覧の画面表示例である。これは、図6の検索式生成方法メニュー603で「検索結果の文書群に現れる頻出キーワードを用いて生成」を選択し、検索式を「人材育成 OR 教育」として検索を実行した画面である。
 検索結果一覧ペイン701には、図6と同様、検索式とヒット件数が表示され、その下に新しい検索式「人材育成 OR 教育」の検索結果の一覧が表示される。前回の検索結果から新たに増えた文書については、強調表示される(図7の星印が付された箇所)。このような発明によって、ユーザはどのような文書が増えたかを直接的に理解でき、第二の検索式の効果が容易にわかる。
 検索式候補表示ペイン702には、検索対象を調整するための検索式候補の一覧が表示される。ここでは、検索結果の文書群に現れる頻出キーワードを用いて生成することが、検索式生成方法メニュー703で選択されている。また、実際の検索結果に現れる頻出キーワードは、検索式生成方法メニュー703の下に提示されている。
 ベン図表示ペイン704には、図6と同様に、ユーザが入力した検索式の検索結果のヒット件数と検索結果に現れる頻出キーワードとの相関関係がベン図で図示される。
 このような発明により、検索結果の頻出キーワードを用いた検索式(第二の検索式)が自動的に提示されるので、ユーザが所望する文書群を効率的に収集することができる。
 また、頻出キーワードを用いた検索式について、検索ヒット件数およびヒット件数の増減数も同時に表示されるので、ユーザは適切な数で文書を収集することが出来る。
 また、ユーザは入力した検索式の検索結果内にどのようなキーワードが頻出しているのかを容易に理解できる。たとえば、図7の場合、検索式「人材育成 OR 教育」の検索結果には「講座案内」の通知や、「受講完了通知」の連絡や、「新人」の教育に関する文書が多く含まれていることが俯瞰できる。
 さらに、ベン図表示によって、元の検索式(第一の検索式)の検索結果と頻出キーワードの関係を把握でき、適切なキーワードの組合せ、および、組み合わせた検索式によるヒット件数が視覚的に理解できる。たとえば、図7の場合、キーワード「受講完了通知」を含む文書は必ず「人材育成」または「教育」のキーワードが入っていること、「講座案内」と「受講完了通知」が同時に含まれる文書は存在しないこと、などがわかる。したがって、ユーザが人材育成に関する活動報告を収集する場合においては、講座案内の文書は関係がなさそうなので収集対象から省こうという判断ができる。それに対し、「受講完了通知」や「新人」などのキーワードは、人材育成の活動と関係がありそうなので、収集対象に入れておこうという判断ができる。
 <キーワードを一部除外することによる検索結果の画面表示例>
 図8は、検索結果の一覧と検索式の中のキーワードを一部除外することによる検索式候補の一覧の画面表示例である。これは、図7の検索式生成方法メニュー703で「検索式の中のキーワードを一部除外して生成」を選択し、検索式を「(人材育成 OR 教育)AND (受講完了通知 OR 新人)AND 2007年度」として検索を実行した画面である。
 検索結果一覧ペイン801には、図6と同様に、検索式とヒット件数を表示および検索式「(人材育成 OR 教育) AND (受講完了通知 OR 新人) AND 2007年度」の検索結果の一覧が表示される。検索式候補表示ペイン802には、検索対象を調整するための検索式候補の一覧が表示される。ここでは検索式の中のキーワードを一部除外して生成することが、検索式生成方法メニュー803で選択されている。たとえば、図7の検索式(1)は「(人材育成 OR 教育)AND (受講完了通知 OR 新人)」であるが、これは元の検索式からキーワード「2007年度」を除外して生成した検索式である。
 ベン図表示ペイン804には、図6と同様に、ユーザが入力した検索式による検索結果のヒット件数と、検索キーワードを一部除外して生成した検索式の検索結果との相関関係がベン図で図示される。ベン図内の文書集合は、ユーザが検索式候補選択メニュー805で選択した検索式に対する検索結果である。検索式候補選択メニュー805には、検索式候補表示ペイン802で提示した検索式候補の一覧、それぞれのヒット件数、チェックボックスを表示しており、ユーザがこのチェックボックスにチェックを入れたキーワードに対して、対応する検索結果のベン図表示が行われる。
 このような発明によって、ユーザは、元の検索式(第一の検索式)の条件が収集したい対象に対して、厳しすぎないか/弱すぎないかを確認することが出来る。例えば、ユーザによって入力された第一の検索式が、ある検索キーワードと一般的な検索キーワードとのAND検索であって、その第一の検索式を用いた検索の結果、その一般的なキーワードを省いてもヒット件数がほとんど変わらなければ、そのキーワードは省いた方がよいと判断できる。逆に、第一の検索式がある検索キーワードと特殊な検索キーワードとのAND検索であって、その第一の検索式を用いた検索の結果、ヒット件数が2~3件しかなければ、その特殊な検索キーワードは省いた方がよいと判断できる。たとえば、図8の場合、検索式(1)、すなわち元の検索式から「2007年度」を除外した検索式を用いて検索しても2件しか変わらない。つまり、これらの2件の文書は、「2007年度」というキーワードが、偶然入っていなかった可能性がある。また2件の増加は、元々の検索結果のヒット件数169件に比べて微増なので、人材育成の活動記録としてこの2件も含めておいた方が、より漏れが少なく取り尽くすことができると判断することもできる。
 さらに、ベン図表示によって、元の検索式(第一の検索式)の検索結果と元の検索式の中から検索キーワードを省いたときの効果を検索実行前に視覚的に確認することが出来る。
 <まとめ>
 以上説明したように、本実施の形態によれば、検索結果の一覧が表示されながら検索対象を調整するための検索式が提示されるので、次の検索キーワードとしてどのようなものが適しているか、ユーザは効率的・直接的に理解できる。また、検索結果がユーザの思っているものと異なっていたとき(間違った検索キーワードを指定していたとき)も容易に理解できる。また、検索を繰り返している間に、更に適切な別のキーワードが見つけることができるので、よりユーザの目的に合致した検索を実行することができる。
201…文書DB
202…文書インデックス
203…関連語辞書
204…表示装置
205…キーボード
206…マウス
207…中央処理装置
208…検索実行部
209…検索結果表示処理部
210…関連語検索式生成処理部
211…連想キーワード検索式生成処理部
212…部分検索式生成処理部
213…ベン図描画処理部
214…メモリ
501…検索式入力用テキストボックス
502…検索式生成方法選択メニュー
503…検索実行ボタン
601…検索結果一覧ペイン
602…検索式候補表示ペイン
603…検索式生成方法メニュー
604…検索実行ボタン
605…ベン図表示ペイン
606…関連語選択メニュー
607…検索式入力ペイン
608…検索式入力用テキストボックス
609…検索実行ボタン
701…検索結果一覧ペイン
702…検索式候補表示ペイン
703…検索式生成方法メニュー
704…ベン図表示ペイン
801…検索結果一覧ペイン
802…検索式候補表示ペイン
803…検索式生成方法メニュー
804…ベン図表示ペイン
805…検索式候補選択メニュー

Claims (9)

  1.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     検索キーワードの関連語を集めた関連語辞書と、
     入力された第一の検索式に含まれる検索キーワードの関連語を前記関連語辞書から抽出し、該関連語を用いて新たな検索式である第二の検索式を生成する関連語検索式生成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  2.  請求項1に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  3.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     入力された第一の検索式の検索結果中に頻繁に出現する頻出キーワードを用いて新たな検索式である第二の検索式を生成する連想キーワード検索式生成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  4.  請求項3に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  5.  検索キーワードを基に、検索対象となる文書が蓄積された文書DBの中から、該検索キーワードを含んだ文書を探し出す文書検索システムであって、
     入力された第一の検索式に含まれる複数の検索キーワードの一部を除いて新たな検索式である第二の検索式を生成する部分検索式作成処理部と、
     前記第一の検索式で得られる検索結果のヒット件数と前記第二の検索式で得られる検索結果のヒット件数との増減値を算出する検索実行部と、
     前記第一の検索式、前記第一の検索式で得られる検索結果、該検索結果のヒット件数、前記第二の検索式、前記第二の検索式で得られる検索結果のヒット件数、および前記増減値、を表示部に同時に表示する検索結果表示処理部と、
    を備えることを特徴とする文書検索システム。
  6.  請求項5に記載の文書検索システムにおいて、さらに、
     前記第一の検索式で得られる検索結果と前記第二の検索式で得られる検索結果との相関関係をベン図で前記表示部に表示するベン図描画処理部と、
    を備えることを特徴とする文書検索システム。
  7.  請求項1に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
  8.  請求項3に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
  9.  請求項5に記載の文書検索システムにおいて、
     前記検索実行部が、前記第二の検索式で得られる検索結果中に、前記第一の検索式で得られる検索結果とは別の新たな検索結果が含まれると判断した場合、
     前記検索結果表示処理部は、前記第二の検索式で得られる検索結果を表示する際に前記新たな検索結果を強調して前記表示部に表示することを特徴とする文書検索システム。
PCT/JP2009/060784 2008-06-18 2009-06-12 文書検索システム WO2009154153A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2009801232751A CN102067124A (zh) 2008-06-18 2009-06-12 文档搜索系统
EP09766601.0A EP2315135B1 (en) 2008-06-18 2009-06-12 Document search system
US12/999,521 US8407232B2 (en) 2008-06-18 2009-06-12 Document search system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-159621 2008-06-18
JP2008159621A JP2010003015A (ja) 2008-06-18 2008-06-18 文書検索システム

Publications (1)

Publication Number Publication Date
WO2009154153A1 true WO2009154153A1 (ja) 2009-12-23

Family

ID=41434068

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/060784 WO2009154153A1 (ja) 2008-06-18 2009-06-12 文書検索システム

Country Status (5)

Country Link
US (1) US8407232B2 (ja)
EP (1) EP2315135B1 (ja)
JP (1) JP2010003015A (ja)
CN (1) CN102067124A (ja)
WO (1) WO2009154153A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209873A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8621376B2 (en) * 2009-10-28 2013-12-31 Yahoo! Inc. Developer interface and associated methods for system for querying and consuming web-based data
JP2011197863A (ja) * 2010-03-18 2011-10-06 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助系统与搜索辅助方法
EP2608065A4 (en) * 2010-08-20 2014-02-26 Rakuten Inc DEVICE FOR PROVIDING INFORMATION, METHOD FOR PROVIDING INFORMATION, PROGRAM THEREFOR AND MEDIUM FOR RECORDING INFORMATION
JP5567440B2 (ja) * 2010-09-29 2014-08-06 株式会社日立ソリューションズ 監査準備支援装置、監査準備支援システム、監査準備支援方法
US9519714B2 (en) * 2010-12-22 2016-12-13 Microsoft Technology Licensing, Llc Presenting list previews among search results
JP5585489B2 (ja) * 2011-02-17 2014-09-10 富士通株式会社 検索支援装置、プログラム及び方法
KR101950529B1 (ko) * 2011-02-24 2019-02-20 렉시스넥시스, 어 디비젼 오브 리드 엘서비어 인크. 전자 문서를 검색하는 방법 및 전자 문서 검색을 그래픽적으로 나타내는 방법
JP5338835B2 (ja) 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
WO2013066323A1 (en) 2011-11-02 2013-05-10 Hewlett-Packard Development Company, L.P. Method of searching and generating a relevant search string
JP5426710B2 (ja) * 2012-03-19 2014-02-26 株式会社東芝 検索支援装置、検索支援方法およびプログラム
JP5739844B2 (ja) * 2012-06-25 2015-06-24 ヤフー株式会社 情報提示装置、情報提示方法及び情報提示プログラム
US8843495B2 (en) 2012-07-12 2014-09-23 International Business Machines Corporation High-efficiency selection of runtime rules for programmable search
US9542492B2 (en) * 2013-02-07 2017-01-10 Fuji Xerox Co., Ltd. Method and system for generating interactive query results previews
US10152538B2 (en) * 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
EP2827260A1 (en) * 2013-07-16 2015-01-21 Thomson Licensing Apparatus and method enabling interactive searches
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
KR20150120123A (ko) * 2014-04-17 2015-10-27 삼성전자주식회사 정보 제공 방법 및 장치
JP6615514B2 (ja) * 2015-07-07 2019-12-04 一般社団法人日本みらい研 政策会議情報提供システム
US10332123B2 (en) * 2015-08-27 2019-06-25 Oracle International Corporation Knowledge base search and retrieval based on document similarity
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
CN107562753B (zh) * 2016-06-30 2020-04-17 索意互动(北京)信息技术有限公司 一种基于索引词的分析方法与装置
US11134090B1 (en) * 2018-06-04 2021-09-28 Target Brands, Inc. Network security analysis and malware detection using multiple types of malware information
JP7139157B2 (ja) * 2018-06-04 2022-09-20 株式会社ユニバーサルエンターテインメント 検索文生成システム、及び検索文生成方法
US10956470B2 (en) 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations
GB2586002A (en) * 2019-02-08 2021-02-03 All Street Res Limited Improved method and system for text based searching
US11501067B1 (en) 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11429879B2 (en) 2020-05-12 2022-08-30 Ubs Business Solutions Ag Methods and systems for identifying dynamic thematic relationships as a function of time
CN115017257A (zh) * 2022-04-21 2022-09-06 南京坤爵信息技术有限公司 一种基于KTree算法的智能超级检索的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250411A (ja) 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JPH05314182A (ja) 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH06187374A (ja) 1992-12-15 1994-07-08 Hokkaido Nippon Denki Software Kk 検索方式
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH1115841A (ja) 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2004341753A (ja) * 2003-05-14 2004-12-02 Internatl Business Mach Corp <Ibm> 検索支援装置、検索支援方法、およびプログラム
JP2005100136A (ja) 2003-09-25 2005-04-14 Sekai Nipposha:Kk 電子記事のヒット件数最適化検索システム
JP2006012078A (ja) 2004-06-29 2006-01-12 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6772150B1 (en) * 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
US6897867B2 (en) 1999-12-17 2005-05-24 Fujitsu Limited Information comparison display apparatus using colors and a method thereof
US20020143860A1 (en) * 2001-03-31 2002-10-03 Koninklijke Philips Electronics N. V. Machine readable label reader system with versatile default mode
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7536413B1 (en) * 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
JP3944102B2 (ja) * 2003-03-13 2007-07-11 株式会社日立製作所 語義関連ネットワークを用いた文書検索システム
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
CN101164067B (zh) 2005-02-28 2013-11-06 搜索引擎科技有限责任公司 通过合并用户输入信息来进行搜索的方法和系统
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05250411A (ja) 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JPH05314182A (ja) 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH06187374A (ja) 1992-12-15 1994-07-08 Hokkaido Nippon Denki Software Kk 検索方式
JPH10334105A (ja) * 1997-05-27 1998-12-18 Fuji Xerox Co Ltd 関連語提示装置及び関連語提示用プログラムを記録した媒体
JPH1115841A (ja) 1997-06-24 1999-01-22 Fuji Xerox Co Ltd 情報検索装置及び情報検索プログラムを記録した媒体
JP2001175668A (ja) * 1999-12-17 2001-06-29 Fujitsu Ltd 色彩を用いた情報比較表示装置および比較表示方法
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2004341753A (ja) * 2003-05-14 2004-12-02 Internatl Business Mach Corp <Ibm> 検索支援装置、検索支援方法、およびプログラム
JP2005100136A (ja) 2003-09-25 2005-04-14 Sekai Nipposha:Kk 電子記事のヒット件数最適化検索システム
JP2006012078A (ja) 2004-06-29 2006-01-12 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びプログラム
JP2006185020A (ja) * 2004-12-27 2006-07-13 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRANK RUSKEY; CARLA D. SAVAGE; STAN WAGON: "The Search for Simple Symmetric Venn Diagrams", NOTICES OF THE AMS, vol. 53, no. 11, pages 1304 - 1311
See also references of EP2315135A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209873A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、コンテンツ表示方法及びコンピュータプログラム
WO2013047471A1 (ja) * 2011-09-27 2013-04-04 株式会社ぐるなび 店舗情報検索システム
CN108563713A (zh) * 2018-03-29 2018-09-21 阿里巴巴集团控股有限公司 关键词规则生成方法及装置和电子设备
CN108563713B (zh) * 2018-03-29 2021-08-10 创新先进技术有限公司 关键词规则生成方法及装置和电子设备

Also Published As

Publication number Publication date
US8407232B2 (en) 2013-03-26
JP2010003015A (ja) 2010-01-07
US20110082878A1 (en) 2011-04-07
EP2315135B1 (en) 2015-08-26
CN102067124A (zh) 2011-05-18
EP2315135A4 (en) 2013-07-17
EP2315135A1 (en) 2011-04-27

Similar Documents

Publication Publication Date Title
WO2009154153A1 (ja) 文書検索システム
Färber et al. Citation recommendation: approaches and datasets
US20180004850A1 (en) Method for inputting and processing feature word of file content
US7783644B1 (en) Query-independent entity importance in books
AU2020221062B2 (en) Generating and provisioning of additional content for source perspective(s) of a document
JP2007527558A (ja) ウェブサイトなどの情報源によるナビゲーション
KR20130029045A (ko) 상관된 정보의 온라인 분석 및 디스플레이
JP2014106665A (ja) 文書検索装置、文書検索方法
US9208150B2 (en) Automatic association of informational entities
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JP4324650B2 (ja) 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
US8612431B2 (en) Multi-part record searches
Das et al. Opinion summarization in Bengali: a theme network model
JP2020064482A (ja) 属性抽出装置および属性抽出方法
Karthik et al. An Efficient Approach to Retrieve Information for Desktop Search Engine
US20240111944A1 (en) System and Method for Annotation-Based Document Management
Velásquez et al. Tools for external plagiarism detection in DOCODE
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
Boot Lost in Pools of Data: Text Reuse in the Emblem Genre and the Nature of Humanities Research Data
Sharma Hybrid Query Expansion assisted Adaptive Visual Interface for Exploratory Information Retrieval
WO2010106660A1 (ja) 特徴語提示装置及び特徴語提示プログラム
Azimzadeh et al. Incorporating structural information in scientific document retrieval
Shinkawa et al. Online Learning for Long-Query Reduction in Interactive Search for Experienced Workers
JP2002278991A (ja) 文書情報検索システム
JP2006343972A (ja) 検索装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980123275.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09766601

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12999521

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009766601

Country of ref document: EP