WO2009136426A1 - 検索クエリ提供装置 - Google Patents

検索クエリ提供装置 Download PDF

Info

Publication number
WO2009136426A1
WO2009136426A1 PCT/JP2008/001159 JP2008001159W WO2009136426A1 WO 2009136426 A1 WO2009136426 A1 WO 2009136426A1 JP 2008001159 W JP2008001159 W JP 2008001159W WO 2009136426 A1 WO2009136426 A1 WO 2009136426A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
node
word
important
phrase
Prior art date
Application number
PCT/JP2008/001159
Other languages
English (en)
French (fr)
Inventor
三上崇志
平野敬
相川勇之
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2008/001159 priority Critical patent/WO2009136426A1/ja
Publication of WO2009136426A1 publication Critical patent/WO2009136426A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Definitions

  • the present invention relates to a search query providing device that generates a search query based on a search term input by a user.
  • a full-text search technique is used when a desired document is specified from a document set or when a desired page is specified from a document.
  • Full-text search is a technique for acquiring documents and pages that match a search query using words or sentences.
  • the search device using the full-text search technology acquires a document and a page including all the words included in the search query when the AND search is performed, and among the words included in the search query when the OR search is performed. Get documents and pages that contain either
  • Patent Document 1 for example, the document search apparatus ranks words by an evaluation function using the number of search results, and presents the words in that order.
  • the present invention has been made to solve the above-described problems.
  • each word is extracted using a document structure network linked based on importance and relevance.
  • the object is to present a plurality of search queries in which search result pages are distributed without overlapping each other by presenting search terms.
  • the search query providing apparatus searches for a node of a phrase that matches an arbitrary search term from a hierarchical structure in which each phrase is classified into each hierarchy according to importance, using the phrase included in the document data as a node.
  • the title node extraction that extracts the node classified as the most important hierarchy among the hierarchical structure to which the search term node searched by the important term search unit and the important term search unit output as the search term node belongs
  • a search query presenting unit for presenting the phrase of the node extracted by the title node extracting unit as a candidate for a new search word to be added to a search query including an arbitrary search word.
  • a word / phrase node matching an arbitrary search word is obtained from a document structure network having a hierarchical structure in which words included in document data are classified into nodes according to importance.
  • a new search term that searches for a search term node and adds the phrase of the node classified as the most important hierarchy in the hierarchical structure to which the search term node belongs to a search query including an arbitrary search term Therefore, it is possible to present a plurality of search queries in which search result pages are distributed without overlapping each other.
  • FIG. 1 is a block diagram showing the overall configuration of a search query providing apparatus according to Embodiment 1 of the present invention.
  • the search query providing apparatus shown in FIG. 1 is a block diagram showing the overall configuration of a search query providing apparatus according to Embodiment 1 of the present invention.
  • node analyzes the document data storage unit 1 storing document data to be searched, the document data in the document data storage unit 1, and constructs an important phrase character string included in the document as a component ( (Hereinafter referred to as “node”), a document structure network construction unit 2 for constructing a network in which each node is linked by relevance of an important phrase, a document structure network 3 constructed by the document structure network construction unit 2, and a search input by a user
  • a search word input unit 4 that accepts words
  • search query creation unit 5 that extracts important words related to the search words from the document structure network 3 using the search words
  • a user as an additional search word that includes the extracted important words in the search query
  • the search query presenting unit 6 is provided.
  • the search query creating unit 5 searches the important word / phrase matching the search word from the important word / phrase searching unit 7 from the document structure network 3, and each of the nodes constituting the document structure network 3 includes the important word / phrase in the descendant node.
  • a title node extraction unit 8 for extraction is provided.
  • the additional search word is an additional search word for performing an AND search with the search word input by the searcher, and the search query is a word string or a sentence including the search word and the additional search word.
  • FIG. 2 is an explanatory diagram showing an example of document data used in the search query providing apparatus according to Embodiment 1 of the present invention.
  • the document data storage unit 1 shown in FIG. 1 stores document data as shown in FIG.
  • the manual shown in FIG. 2 includes a heading, a body, an image, and the like to which page numbers, chapters, and section numbers are assigned.
  • FIG. 3 is a block diagram showing a document structure network construction unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the document structure network construction unit 2 shown in FIG. 3 is input based on the 0th-order important phrase 12 included in the document data and used as an initial value of bootstrap processing described later, and boots based on the 0th-order important phrase 12.
  • the initial information input unit 11 accepts the input of chapter structure data 13 serving as table of contents information for defining a range in which important words and phrases are extracted by strap processing.
  • FIG. 4 is an explanatory diagram showing an example of a chapter structure input to the document structure network construction unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the chapter structure data 13 shown in FIG. 4 includes chapters 13a, 13b, chapter headings 13c, chapter start pages 13d, and chapter end pages 13e based on the document data shown in FIG.
  • the section 13b has one layer is shown.
  • the original document data has a plurality of layers as in “1.2.3.4”. If there is, the section 13b is the first hierarchy section, and the description columns for the second hierarchy section, the third hierarchy section, and the fourth hierarchy section may be provided.
  • 3 is text information given as seed information corresponding to each chapter of the chapter structure data 13 shown in FIG.
  • the heading 13c is used as the 0th-order important phrase, but the present invention is not limited to this, and a heading such as a chapter, a section, or a section may be used.
  • the layout analysis unit 14 analyzes the document data that is the target of extracting important words and phrases stored in the document data storage unit 1, and includes layout information data including font information, character position information, page information, text information, and the like based on the document format information. 15 is extracted.
  • FIG. 5 is an explanatory diagram showing an example of layout information data extracted by the layout analysis unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the layout information data 15 shown in FIG. 5 is obtained by analyzing and extracting the document data shown in FIG. 3 by the layout analysis unit 14.
  • the layout information data 15 includes a block number 15a, which is a serial number assigned to a group of sentences made of the same font, a page number 15b indicating the page position where the sentence is written, and a description of the sentence in the page. It consists of position information 15c indicating the position by a two-dimensional coordinate value, a font name 15d used for the sentence, a font size 15e, and text information 15f of the sentence. Since the layout analysis method in the layout analysis unit 14 is a known technique, detailed description thereof is omitted.
  • the text analysis unit 16 receives the text information 15f of the layout information data 15 and divides the text information 15f into morphemes, which are the smallest meaningful units, using a known morphological analysis technique.
  • the phrase analysis result 17 in which each phrase is made into one record is output in a unit of phrases based on the part of speech information of each morpheme by known compound word processing.
  • FIG. 6 is an explanatory diagram showing an example of the phrase analysis result extracted by the text analysis unit 16 of the search query providing apparatus according to Embodiment 1 of the present invention. In the phrase analysis result 17 shown in FIG.
  • the phrase analysis result 17 includes morpheme division information 17f which is division information of a morpheme (indicated by a slash /) which is a finer unit in the phrase, and a heading of an independent word part in the phrase. It consists of information 17g and part-of-speech information 17h of independent words.
  • the independent word extraction unit 18 extracts independent word headings that are not included in the 0th to n ⁇ 1 independent words from the nth important word / phrase 21 including the 0th important word / phrase 12 which is the initial information, and the nth independent word The word 19 is extracted.
  • the 0th-order important phrase 12 input from the initial information input unit 11 is also divided into phrase units by the text analysis unit 16.
  • the independent word extraction unit 18 determines “the tourist destination route” based on the independent word header information 17 g of the phrase analysis result 17.
  • Primary independent words “sightseeing place”, “route”, and “setting” are extracted from “setting”.
  • nouns and verbs are extracted as the above independent words.
  • the important phrase extraction unit 20 extracts the n-th order important phrase 21 from the phrase analysis result 17 using the chapter structure data 13 input from the initial information input unit 11 and the n-order independent word 19 input from the independent word extraction unit 18. .
  • the key word extraction unit 20 extracts key words / phrases that include the n-order independent words 19 from the phrase analysis result 17 for each chapter and are not included in the zero-order to n ⁇ 1-order key words.
  • the number of phrases included in the important phrase may be arbitrarily set. In this embodiment, 1 to 4 consecutive phrases are extracted for each block number from the same phrase.
  • the important phrase extracting unit 20 extracts these as primary important phrases.
  • the important word / phrase evaluation unit 22 calculates an evaluation value indicating importance for each of the first to n-th important words extracted by the important word / phrase extraction unit 20 and outputs scored important word / phrase data 23.
  • FIG. 7 is an explanatory diagram showing an example of a score calculation method by the keyword evaluation unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the important phrase evaluation unit 22 calculates evaluation values of four items of font size, surface case information, the number of characters, and prohibited words, and calculates a score based on these evaluation values.
  • the evaluation value SSa shown in FIG. 7 is the importance based on the font size of the important phrase.
  • the important word / phrase evaluation unit 22 determines that an important word / phrase having a large font size is high in importance.
  • the threshold value THf is calculated based on the font size distribution of the 0th-order important words / phrases.
  • the keyword evaluation unit 22 obtains the maximum font size value of each 0th-order important word that appears in the document data, and sets the minimum value among the font size maximum values of each 0th-order important word as the threshold value THf.
  • An evaluation value of 0.9 is given to an important phrase having a font size greater than or equal to the threshold value THf, and an evaluation value of 0.1 is given if it is less than the threshold value THf.
  • the evaluation value SSa is not a discrete value (0.9 and 0.1), but may be a continuous value calculated by a function having a font size as an argument.
  • the evaluation value SSb is the importance based on the surface case, which is calculated from the context of each important word and the syntactic connection relation.
  • the surface case information of each important phrase is extracted with reference to the morpheme division information 17f (FIG. 6) of the phrase analysis result 17.
  • the important word / phrase evaluation unit 22 completes semantically if the clause immediately before the important word / phrase whose importance is to be calculated ends with a “case” or “ga” case and is a predicate. Judge that it is not important because it is likely that the word is not. For example, the important phrase “Maruru” ends with the phrase “Sightseeing spot” immediately before and is a predicate, so the important phrase evaluation unit 22 has low semantic simplicity and is not important.
  • a low evaluation value SSb is given.
  • the important phrase that is the target for calculating the significance is semantically. Since there is a high possibility that the phrase is completed, the important phrase evaluation unit 22 highly evaluates an important phrase in which two or more previous phrases end in a “to” case than an important phrase in which the immediately preceding phrase ends in a “to” case.
  • the value SSb is given.
  • the important phrase evaluation unit 22 gives the evaluation value SSb in an integrated manner according to the case and sentence structure in the sentence of the important phrase. For example, when an important word or phrase is a subject or object, a higher evaluation value SSb is given because it is more likely to be important than an attached word.
  • the evaluation value SSc is an importance level based on the number of characters of an important phrase. In this embodiment, since it is assumed that additional search terms for narrowing down the search results are presented, it is determined that important words having an appropriate length that is neither too much nor too little are important. .
  • the important word / phrase evaluation unit 22 evaluates the important word / phrase for calculating the importance using the 0th-order important word / character distribution as a reference. For example, the number of 0th-order important words / phrases for each number of characters is obtained and divided by the number of all 0th-order important words / phrases, thereby calculating the 0th-order important word / phrase appearance probability for each number of characters and using the evaluation value SSc.
  • the important phrase evaluation unit 22 gives, as an evaluation value, the 0th-order important phrase appearance probability corresponding to the number of characters to the important phrase for which importance is calculated.
  • the evaluation value SSc of the number of characters for which the 0th-order important word appearance probability is 0 is 0.01. Further, a value obtained by interpolating this 0th-order important word appearance probability by a known method may be used.
  • the important word / phrase for importance calculation includes parenthesis expression, the number of characters is calculated so that the number of characters excluding the parenthesis part is dominant.
  • the evaluation value SSd is an importance level based on the presence or absence of prohibited words registered in advance in a prohibited word dictionary (not shown). For example, reference expressions such as “above”, “left figure”, and “below” are registered as prohibited words in the prohibited word dictionary, and the important word evaluation unit 22 includes these prohibited words as important words for importance calculation. In the case, it is determined that it is not important, and a low evaluation value SSd is given. Also, for reference expressions used in quantity expressions such as “above” and “below”, the key word evaluation unit 22 determines whether the expression is used as a quantity expression or a reference expression, and other than the quantity expression. It is determined that it is not important when used in
  • K 0.9
  • the score of the important phrase is calculated by the expression (1), and the scored important phrase data 23 is output.
  • Important phrase score K n ⁇ (SSa ⁇ SSb ⁇ SSc ⁇ SSd) (1)
  • FIG. 9 is a flowchart showing the operation of the document structure network construction unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the initial information input unit 11 shown in FIG. 3 accepts the input of the 0th-order important phrase 12 and the chapter structure data 13, and these are used as the initial information of the independent word extracting part 18 and the important phrase extracting part 20.
  • the initial information input unit 11 shown in FIG. 3 accepts the input of the 0th-order important phrase 12 and the chapter structure data 13, and these are used as the initial information of the independent word extracting part 18 and the important phrase extracting part 20.
  • step ST2 the layout analysis unit 14 analyzes the layout of the document data stored in the document data storage unit 1, and extracts the layout information data 15 shown in FIG.
  • the layout analysis unit 14 outputs the layout information data 15 to the text analysis unit 16 and the important phrase extraction unit 20.
  • step ST3 the text analysis unit 16 analyzes the text information 15f of the layout information data 15, and generates a phrase analysis result 17 obtained by dividing the text into phrase units.
  • the text analysis unit 16 outputs the phrase analysis result 17 to the important phrase extraction unit 20.
  • step ST4 the independent word extraction unit 18 extracts a primary independent word from the 0th important phrase 12 based on the independent word heading information 17g of the phrase analysis result 17.
  • FIG. 10 is an explanatory diagram showing an example of key word extraction by the key word extraction unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the 0th-order important phrase shown in the top layer is the heading 13 c of the chapter structure data 13 input from the initial information input unit 11.
  • the second hierarchy is “tourist spot”, “route”, and “setting” of primary independent words extracted by the independent word extraction unit 18 from “set the tourist destination route” which is the 0th-order important phrase.
  • step ST5 the important phrase extracting unit 20 extracts a primary important phrase including the primary independent word from the phrase analysis result 17.
  • the keyword extraction unit 20 since the keyword extraction unit 20 is set to extract 1 to 4 continuous phrases from Section 5.2, it is extracted from the block number “502” and the primary independent word “tourism spot”.
  • the primary important phrases including “the tourist spots of each prefecture”, “the tour around the tourist spots of each prefecture”, and “the route around the tourist spots of each prefecture”.
  • primary important phrases “character information of sightseeing spot” and “confirm character information of sightseeing spot” are extracted from another block number.
  • the document structure network construction unit 2 repeats the processing of step ST4 and step ST5 as long as there is an extended phrase extracted by the important phrase extraction unit 20 (step ST6).
  • the independent word extraction unit 18 extracts secondary independent words from the primary important words.
  • the extracted independent words are “each city” shown in FIG. “Prefecture” and “text information”.
  • the important phrase extracting unit 20 extracts secondary important phrases including secondary independent words from the phrase analysis result 17.
  • the important word / phrase extraction unit 20 is set not to extract an important word / phrase higher than the secondary, the extracted second important words / phrases are “prefectures”, “character information”, “photo / character information only”. And so on.
  • the important phrase extracting unit 20 sequentially extracts the third and subsequent nth important phrases.
  • step ST6 “No”) when there is no nth order independent word that can be extracted from the nth order important phrase 21 in the document data in section 5.2 (step ST6 “No”), the process proceeds to step ST7.
  • the key word evaluation unit 22 calculates the evaluation values SSa, SSb, SSc, SSd for each of the first to nth key words using the evaluation value calculation method as shown in FIG.
  • the scored key word data 23 is created according to 1).
  • FIG. 8 is an explanatory diagram showing an example of scored important phrase data output by the important phrase evaluation unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the scored important phrase data 23 shown in FIG. 8 includes an important phrase 23a and a score 23b.
  • FIG. 11 is an explanatory diagram showing an example of a document structure network of the search query providing apparatus according to Embodiment 1 of the present invention.
  • a document structure network 3 shown in FIG. 11 is an example of document structures 25 and 26 created by the document structure network construction unit 2 using chapters 1 and 2 of the document data 24, respectively.
  • the document structure network construction unit 2 constructs the document structure network 3 using chapter headings for the 0th-order important words.
  • the document structure network 3 classifies each node into each hierarchy according to importance, using words included in the document data as nodes, and each node corresponding to an important word including the same independent word (target word) Linked to each other.
  • a one-dot chain line square frame indicates a boundary between the document structures 25 and 26.
  • each important phrase node in the document structure network 3 has a unique node ID and node information shown in FIG. 12, and a network is constructed by associating the node IDs.
  • FIG. 12 is an explanatory diagram showing an example of node information possessed by an important phrase node that constructs a document structure network of the search query providing apparatus according to Embodiment 1 of the present invention.
  • this node information an important word / phrase character string of a node, a node ID, a direct connection to this node, a node ID array of a child node that is one level lower than this node, a direct connection to this node, and a 1 from this node
  • the hierarchy includes the node ID array of the upper parent node and the key phrase score.
  • node information shown in FIG. 12 is an example for constructing a network structure, and the network structure may be constructed according to other information.
  • the keyword search unit 7 shown in FIG. 1 searches the search term input by the searcher accepted by the search term input unit 4 from each node of the document structure network 3, and finds all the keyword phrases that match the search term. Get as search term node. For example, when the search term is “phone number”, the search term nodes 29, 30, and 31 are acquired from the document structure network 3 shown in FIG. In order for the important phrase search unit 7 to search for the search term node, for example, apart from the document structure network 3, data including all the important phrases and arranged in the dictionary order is prepared.
  • the keyword search unit 7 can search for a search word node by performing a binary search on the arrangement of the keyword. Note that the method for searching for the search word node is not limited to the binary search method, and any method for searching for a character string may be used.
  • the title node extraction unit 8 follows the parent node ID from each search term node acquired by the important phrase search unit 7 and extracts the title node of the network to which each search term node belongs.
  • an important word / phrase node having a zeroth-order important word / phrase forming a chapter heading is set as a title node.
  • the title node extraction unit 8 extracts the title node 27 from the search term node 29 and extracts the title node 28 from the search term node 30 and the search term node 31, for example, as shown in FIG.
  • the important words / phrases that the extracted title node has are added to the additional search word list shown in FIG. FIG.
  • the additional search word list includes a node ID and an important word / phrase character string that the node has.
  • the operation of the title node extraction unit 8 will be described by taking as an example the case where the search term nodes 29, 30, and 31 of “phone number” are input from the important phrase search unit 7.
  • the title node extraction unit 8 uses the parent node ID information of the search term node 29 “phone number” retrieved from the document structure 25 of Chapter 1 shown in FIG. Node 32 “Search by phone number” is obtained. Since this node has parent node ID information and is not a title node, the title node extraction unit 8 further traces the parent node ID of this important phrase node 32 to search for an important phrase node “search for destination” on one layer. Get. Since this important word / phrase node is at the highest level and has no parent node ID information, the title node extraction unit 8 determines this as the title node 27 and adds it to the additional search word list.
  • the title node extraction unit 8 obtains the title node 28 “use phone” by tracing the parent node ID starting from the search term node 30 “phone number” searched from the document structure 26 of Chapter 2, Add to additional search terms list. Further, the same title node 28 “use phone” can be obtained from the search term node 31 “phone number”, but it is not necessary to add the same important phrase because it already exists in the additional search term list.
  • the search query presentation unit 6 creates a search query by adding an additional search term to the search term input by the searcher using the additional search term list created by the title node extraction unit 8, and presents the search query to the searcher.
  • the search query presenting unit 6 creates two types of search queries “phone number search for destination” and “phone number use phone” as shown in FIG. To present.
  • FIG. 15 is an explanatory diagram showing an example of a search query presented by the search query presenting unit of the search query providing apparatus according to Embodiment 1 of the present invention.
  • FIG. 13 is a flowchart showing the operation of the search query providing apparatus according to Embodiment 1 of the present invention.
  • the search word input unit 4 receives the search word and outputs it to the keyword search unit 7.
  • step ST12 the important phrase search unit 7 acquires all search term nodes matching the search term from the document structure network 3 and outputs them to the title node extraction unit 8.
  • step ST13 the title node extraction unit 9 extracts the title node to which the search term node belongs by using the parent node ID information that each search term node has, and the node ID and parent node ID information that each node has. Output to the query presenting unit 6.
  • step ST14 the search query presenting unit 6 adds the important phrase character string information of the title node to the search term input by the searcher, and presents a plurality of new search queries.
  • each additional search term is extracted from a different document structure, the search result page is less duplicated and distributed over the entire document data to be searched by performing a search using each search query including these additional search terms. Can be made.
  • the text is classified according to the layout information, chapter section structure, etc. created by the document data creator, and the document structure network is constructed, so the important words and phrases extracted as additional search terms are classified according to the document data creator's classification criteria. It can be regarded as a phrase. Further, if the document data is searched using a search query including these important terms, it can be expected that the search result is classified according to the classification standard of the document data creator.
  • the score information of each node is used to increase the order of importance.
  • a configuration may be employed in which a predetermined number of additional search terms are selected on the basis of a rule such as, and a search query is created and presented.
  • the number of search queries to be presented may be determined according to restrictions such as the size of the screen that displays the search query, or may be determined according to other criteria.
  • the important phrase included in the document data stored in the document data storage unit 1 is regarded as an important phrase node, and each important phrase node is classified into each hierarchy according to importance.
  • a document structure network construction unit 2 that constructs a document structure network 3 in which important phrase nodes corresponding to important phrases including the same independent word are linked to each other, and a search term input by a searcher from the search term input unit 4
  • An important phrase node having a matching important phrase character string is searched from the document structure network 3, and an important phrase search unit 7 for outputting as a search term node and a link of the search term node searched by the important phrase search unit 7 are traced.
  • a title node extraction unit 8 that extracts title nodes classified in the most important hierarchy and a search query including a search term input from the search term input unit 4 As a new additional search terms of the candidate to be added to, and configured to include a search query presenting unit 6 for presenting the keyword string keyword node extracted in the title node extracting unit 8. Therefore, it is possible to present a plurality of search queries in which search result pages are distributed without overlapping each other.
  • the document structure network construction unit 2 classifies the words / phrases contained in the chapter, section, or section headings of the document data stored in the document data storage unit 1 into the most important highest hierarchy. Configured to do. Therefore, it is possible to classify important words / phrases according to the classification standard of the document data creator.
  • the key word phrase evaluation unit 22 that calculates the score of the key word phrase according to the formula (1) is provided, and the search query presentation unit 6 includes: A predetermined number of important words / phrases are presented in order of score. Therefore, when all the additional search terms cannot be presented to the searcher at a time, it is possible to select and present a search query having a high degree of importance.
  • FIG. 11 the configuration is such that the title node that has been traced from the search term node to the parent node is the additional search term.
  • this configuration as shown in FIG. 11, there is a bias in the number of search term nodes existing in descendant nodes composed of child node groups linked to the hierarchy below each title node.
  • the appearance frequency of the search word is higher in the title node 28 of the chapter 2 where the two search word nodes 30 and 31 exist than in the title node 27 of the chapter 1 where the one search word node 29 exists.
  • the search query providing apparatus presents a search query that makes the number of search results equal between the search queries.
  • FIG. 16 is a block diagram showing an overall configuration of a search query providing apparatus according to Embodiment 2 of the present invention.
  • the search query providing apparatus shown in FIG. 16 has a configuration in which a descendant search word node number adding unit 9 and a middle class node extracting unit 10 are added to the first embodiment.
  • FIG. 17 is an explanatory diagram showing an example of node information possessed by an important phrase node that constructs a document structure network of the search query providing apparatus according to Embodiment 2 of the present invention.
  • the node information shown in FIG. 17 is obtained by adding the item “number of descendant search word nodes” to the node information shown in FIG. 12, and is included in each important phrase node of the document structure network 3 of the present embodiment. .
  • the number of search term nodes existing in descendant nodes below a certain node is called the number of descendant search term nodes.
  • the search word is “telephone number”
  • the number of descendant search word nodes of the title node 27 shown in FIG. 11 is 1, and the number of descendant search word nodes of the title node 28 is 2.
  • the descendant search word node number adding unit 9 adds the number of descendant search word nodes to each important phrase node on the route that the title node extraction unit 8 follows the title node from the search word node.
  • the operation of the descendant search word node number adding unit 9 will be described.
  • FIG. 18 is a flowchart showing the operation of the descendant search word node number adding unit of the search query providing apparatus according to Embodiment 2 of the present invention.
  • step ST21 shown in FIG. 18 the descendant search word node number adding unit 9 initializes the number of descendant search word nodes in the node information of all the important phrase nodes to zero.
  • step ST22 the title node extraction unit 8 starts searching for the title node from the search term node, and acquires an important phrase node one level higher than the search term node as a parent node. Then, the descendant search term node number adding unit 9 adds 1 to the number of descendant search term nodes of the parent node acquired by the title node extracting unit 8 (step ST23).
  • step ST24 if the parent node ID is not included in the node information of the parent node, the title node extraction unit 8 acquires the parent node as the title node (step ST25). If the parent node ID is included in the node information of the parent node, the process returns to step ST22, and the title node extraction unit 8 follows the parent node again.
  • the descendant search term node number addition unit 9 also ends the descendant search term node addition process. In this way, every time the title node extraction unit 8 acquires a parent node, the descendant search word node number adding unit 9 adds 1 to the number of descendant search word nodes of the parent node, so that the same number of different search word nodes can be obtained. When the title node is reached, the number of descendant search word nodes of the title node can be automatically counted.
  • the middle classification node extraction unit 10 shown in FIG. 16 extracts an important phrase node that satisfies a predetermined criterion by using the number of descendant search word nodes of each important phrase node.
  • important phrase nodes are extracted on the basis of the average number of descendant search word nodes of title nodes.
  • the middle class node extraction unit 10 calculates the average value X using the number of descendant search word nodes of all title nodes acquired by the title node extraction unit 8.
  • the middle class node extraction unit 10 starts the title node having the number of descendant search word nodes larger than the average value X, and refers to the node ID array of the child node of the title node, and selects the important phrase node in the lower hierarchy. follow. If the number of descendant search word nodes of the important phrase node is equal to or less than the average value X, the middle class node extraction unit 10 extracts the child node as the middle class node. If the number of descendant search word nodes of the important phrase node is larger than the average value X, the middle class node extraction unit 10 traces the child nodes in the lower hierarchy from the child node.
  • the middle class node extraction unit 10 searches for an important phrase node that has the number of descendant search word nodes equal to or less than the average value X and is closest to the title node, and outputs the middle class node instead of the title node.
  • the search word nodes 29, 30, and 31 shown in FIG. 11 are acquired by the important phrase search unit 7, and the title nodes 27, 30, and 31 to which the search word nodes 29, 30, and 31 belong are acquired by the title node extraction unit 8.
  • a case where 28 is acquired and the number of descendant search word nodes of each important phrase node is set by the descendant search word node number adding unit 9 will be described.
  • the number of descendant search word nodes of the title nodes 27 and 28 is 1 and 2, respectively, and the average value X is 1.5.
  • the middle class node extraction unit 10 starts from the title node 28 having the number of descendant search word nodes larger than the average value 1.5, and traces the child nodes to search for important word nodes “call by phone number” and “phone number registration / Reference is made to the number of descendant search term nodes possessed by “edit”. Since the number of descendant search word nodes is 1 having an average value of 1.5 or less, the middle class node extraction unit 10 extracts these important phrase nodes as middle class nodes.
  • the search query presenting unit 6a illustrated in FIG. 16 performs an additional search term on the important word / phrase character string of the title node acquired by the title node extraction unit 8 and the important word / phrase character string of the middle classification node acquired by the middle classification node extraction unit 10.
  • the additional query used for is presented.
  • the search query “phone number search for destination” in which the title node is added to the search term “telephone number” input by the searcher is created from the document structure 25 in Chapter 1 and is used as the search term.
  • a search query “phone number calling by phone number” and “phone number registration / editing of phone number” to which the middle class node is added are created from the document structure 26 in Chapter 2.
  • the additional search terms obtained in this way are important terms close to the headings of the document structure classified by the document data creator, and the number of search term nodes linked to the additional search terms is uniform. Searching document data using a search query that includes such additional search terms results in search results that are classified according to the document data creator's classification criteria, and the number of search results between search queries is the same. It can be expected to become.
  • the middle class node extraction unit 10 is configured to use the average value X of the number of descendant search word nodes of the title node as a standard for extracting the middle class node, but may be configured to use other standards. For example, the middle class node extraction unit 10 searches for a middle class node when the maximum number of descendant search word nodes Y is set in advance and the number of descendant search word nodes of the title node is larger than Y.
  • the search query providing apparatus in addition to the configuration of the search query providing apparatus according to the first embodiment, it is in a lower hierarchy than any important phrase node, and directly or indirectly to this important phrase node.
  • Descendant search word node number adding unit 9 for adding the search word node number information linked to the node information of the important word node, the important word node of which the search word node is linked directly or indirectly to the lower hierarchy Of these, the middle class node extraction unit 10 that extracts important phrase nodes having a predetermined number of descendant search word nodes is provided. Therefore, it is possible to provide a plurality of search queries in which search result pages are distributed without being overlapped between search queries and the number of search results is equal.
  • the search query providing apparatus provides a search query in which an additional search word is added after the search word input by the searcher.
  • the searcher selects the presented search query, the following additional search terms are presented.
  • FIG. 19 is a block diagram showing an overall configuration of a search query providing apparatus according to Embodiment 3 of the present invention.
  • the search query presenting unit 6b of the search query providing apparatus shown in FIG. 3 presents a plurality of search queries including a search term and additional search terms.
  • the search query presenting unit 6b refers to the additional search word list and outputs the node ID corresponding to the selected additional search word to the additional search word extraction unit 33. To do.
  • the additional search word extraction unit 33 acquires the title node having the node ID input from the search query presenting unit 6b. Then, the child node of the title node is traced, and the important word / phrase character string of each child node is extracted as an additional search word, and is output to the search query presenting unit 6b.
  • the search query presentation unit 6b hierarchically displays the additional search terms input from the additional search term extraction unit 33 in addition to the presented search query.
  • the document structure network 3 is composed of the document structure network shown in FIG. 11, and uses an example in which a searcher inputs a search term “phone number”.
  • a searcher inputs a search term “phone number”.
  • the query presentation unit 6 b outputs the node ID corresponding to the additional search term “search for the destination” included in the search query to the additional search term extraction unit 33.
  • the additional search word extraction unit 33 traces the child node one layer below from the title node 27 having this node ID in the document structure network 3 shown in FIG. There are four child nodes in the hierarchy immediately below the title node 27: “search for destination”, “how to search for destination”, “search by phone number”, and “search for destination from list”.
  • the additional search word extraction unit 33 outputs the important word / phrase character strings of these child nodes to the search query presenting unit 6b.
  • FIG. 20 is an explanatory diagram showing an example of a search query presented hierarchically by the search query presenting unit of the search query providing apparatus according to Embodiment 3 of the present invention.
  • the search query presenting unit 6b creates a search query using these four important words / phrases as additional search words and displays them as shown in FIG.
  • the searcher selects a search query that includes “Search by phone number” from among the additional search terms that are newly presented, the document data is searched using the search query “Search by phone number Search for destination by phone number”. .
  • the search query providing apparatus is configured to present the two-stage search query shown in FIG. 20, but may be configured to present three or more stages of search queries.
  • the additional search word extraction unit 33 uses the important phrase node in the hierarchy two levels below the title node in the third-stage search query, and uses the important phrase node in the hierarchy three levels lower in the fourth stage.
  • the hierarchy of child nodes that the additional search word extraction unit 33 traces from the title node may be set in accordance with the number of stages presented in the search query.
  • the additional search word extraction unit 33 is configured to output all the extracted additional search words to the search query presenting unit 6b, but is configured to limit the number of additional search words to be extracted by setting a predetermined reference. May be.
  • the additional search word extraction unit 33 is configured to acquire, as an additional search word, an important phrase node having the highest score among the important phrase nodes extracted from the same independent word node.
  • the search query presentation unit 6b presents the words and phrases of the nodes of each hierarchy extracted by the additional search word extraction unit 33 for each hierarchy. Configured. Therefore, the searcher can search using a detailed search query.
  • the distribution of search result pages when using the search query presented in the first embodiment is in units of chapters. However, when the search query presented in the third embodiment is used, in units of sections or terms in the chapter. It can be dispersed.
  • the search query providing apparatus presents the phrase of the node at the top layer of the hierarchical structure to which the node matching the search word belongs as a search query candidate, so that the search result pages overlap each other. Since the search query providing device can provide a plurality of search queries that are distributed without being distributed, it is suitable for use in a document search device or the like having a small screen such as a car navigation device or a mobile phone.

Abstract

文書データ格納部1は検索対象となる文書データを格納する。文書構造ネットワーク構築部2は、この文書データに含まれる重要語句を重要語句ノードとして、各重要語句ノードを重要性に応じた階層に分類すると共に、同一の自立語を含む重要語句ノードを互いにリンクさせた文書構造ネットワーク3を構築する。重要語句探索部7は、検索語入力部4から検索者が入力した検索語に一致する重要語句文字列を有する重要語句ノードを文書構造ネットワーク3から探索して、検索語ノードとして出力し、タイトルノード抽出部8が検索語ノードのリンクを辿り、最も重要性の高い最上階層に分類されたタイトルノードを抽出する。検索クエリ提示部6は、検索語入力部4から入力した検索語を含む検索クエリに追加する新たな追加検索語の候補としてタイトルノードの重要語句文字列を検索者に提示する。

Description

検索クエリ提供装置
 この発明は、ユーザが入力した検索語に基づく検索クエリを生成する検索クエリ提供装置に関するものである。
 文書集合から所望の文書を特定する場合、文書から所望のページを特定する場合等に全文検索技術が用いられる。全文検索とは、単語または文章を用いた検索クエリに合致する文書およびページを取得する技術である。全文検索技術を用いた検索装置は、AND検索を行った場合には検索クエリに含まれる単語を全て含む文書およびページを取得し、OR検索を行った場合には検索クエリに含まれる単語のうちのいずれかを含む文書およびページを取得する。
 所望の文書またはページを取得するためには適切な検索クエリを用いる必要があるが、検索者が適切な検索クエリを容易に作成できるとは限らない。そこで、検索者が入力した検索語に続けて、関連する単語を提示して、検索クエリの作成補助を行うサジェスト技術が提案されている。サジェスト技術を利用すれば、検索者は提示された単語を選択するだけで、簡単に検索クエリを作成することができた。
 しかしながら、サジェスト技術が提示した単語を追加して作成した検索クエリを用いて検索した結果、合致した文書およびページ件数が0件になったり、単語を追加しても追加しなくても同じ検索結果になったりすることがある。このような検索結果になってしまうのでは、サジェスト技術が適切な単語を提示したとはいえない。そこで、例えば特許文献1では、文書検索装置が検索結果数を利用した評価関数により単語に順位をつけ、その順序で単語を提示していた。
特許第3422350号
 従来の検索クエリ提供装置は以上のように構成されているので、提示した追加検索語を含めた検索クエリを用いて検索した場合の検索結果の分散性について考慮されていないという課題があった。例えば、「電話番号」が検索語として入力され、検索クエリ提供装置が「電話機能」、「電話帳」、「登録・編集」という関連語を追加検索語として提示した場合を考える。検索クエリ「電話番号 電話機能」を用いて検索した検索結果と検索クエリ「電話番号 電話帳」を用いて検索した検索結果を比較して、互いの検索結果ページに重複が多い場合、「電話機能」および「電話帳」の追加検索語は検索結果を絞り込む方向が同じである。従って、この2つの追加検索語をそれぞれ用いて作成された2つの検索クエリは、実質的に同じ検索クエリということになる。そのため、この検索クエリ提供装置は「電話番号 電話機能」(=「電話番号 電話帳」)および「電話番号 登録・編集」の2種類の検索クエリしか提供できなかったことになる。
 カーナビゲーション装置、携帯電話等の画面の小さな機器に文書検索装置を適用した場合、同時に表示できる検索クエリ数が限られるため、多くの検索クエリを一度に提示できない。そのため、検索結果ページの多くが重複するような検索結果になるとすれば、複数の検索クエリを提供してもそれらは有効ではない。
 この発明は、上記のような課題を解決するためになされたもので、単一文書内の全文検索において各単語が重要度および関連性に基づいてリンクした文書構造ネットワークを利用して抽出した追加検索語を提示することで、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することを目的とする。
 この発明に係る検索クエリ提供装置は、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造から、任意の検索語に一致する語句のノードを探索して、検索語ノードとして出力する重要語句探索部と、重要語句探索部で探索した検索語ノードが属する階層構造のうち、最も重要性の高い最上階層に分類されたノードを抽出するタイトルノード抽出部と、任意の検索語を含む検索クエリに追加する新たな検索語の候補として、タイトルノード抽出部で抽出したノードの語句を提示する検索クエリ提示部とを備えるようにしたものである。
 この発明によれば、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造からなる文書構造ネットワークから、任意の検索語に一致する語句のノードを探索して検索語ノードとし、この検索語ノードが属する階層構造のうち、最も重要性の高い最上階層に分類されたノードの語句を、任意の検索語を含む検索クエリに追加する新たな検索語の候補として提示するようにしたので、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することが可能となる。
この発明の実施の形態1に係る検索クエリ提供装置の全体構成を示すブロック図である。 この発明の実施の形態1に係る検索クエリ提供装置で用いる文書データの一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部を示すブロック図である。 この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部に入力される章節構造の一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置のレイアウト解析部が抽出したレイアウト情報データの一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置のテキスト解析部16が抽出した文節解析結果の一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の重要語句評価部によるスコア計算方法の一例を示す説明図である。 の発明の実施の形態1に係る検索クエリ提供装置の重要語句評価部が出力したスコア付き重要語句データの一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部の動作を示すフローチャートである。 この発明の実施の形態1に係る検索クエリ提供装置の重要語句抽出部による重要語句抽出の一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワークの一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の動作を示すフローチャートである。 この発明の実施の形態1に係る検索クエリ提供装置の追加検索語リストの一例を示す説明図である。 この発明の実施の形態1に係る検索クエリ提供装置の検索クエリ提示部が提示する検索クエリの一例を示す説明図である。 この発明の実施の形態2に係る検索クエリ提供装置の全体構成を示すブロック図である。 この発明の実施の形態2に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。 この発明の実施の形態2に係る検索クエリ提供装置の子孫検索語ノード数付加部の動作を示すフローチャートである。 この発明の実施の形態3に係る検索クエリ提供装置の全体構成を示すブロック図である。 この発明の実施の形態3に係る検索クエリ提供装置の検索クエリ提示部が階層的に提示する検索クエリの一例を示す説明図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る検索クエリ提供装置の全体構成を示すブロック図である。図1に示す検索クエリ提供装置は、検索対象の文書データを格納した文書データ格納部1、文書データ格納部1の文書データを解析して、文書内に含まれる重要語句文字列を構成要素(以下ノードとする)として、各ノードが重要語句の関連性でリンクされたネットワークを構築する文書構造ネットワーク構築部2、文書構造ネットワーク構築部2によって構築される文書構造ネットワーク3、ユーザが入力する検索語を受け付ける検索語入力部4、検索語を用いて文書構造ネットワーク3から検索語と関係のある重要語句を抽出する検索クエリ作成部5、抽出した重要語句を検索クエリに含める追加検索語としてユーザに提示する検索クエリ提示部6を備える。検索クエリ作成部5は、検索語に一致する重要語句を文書構造ネットワーク3から探索する重要語句探索部7、および文書構造ネットワーク3を構成する各ノードのうち、子孫ノードに重要語句を含むものを抽出するタイトルノード抽出部8を備える。追加検索語とは、検索者が入力した検索語とAND検索を行うための追加の検索語であり、検索クエリとは検索語および追加検索語を含む単語列または文章である。
 図2は、この発明の実施の形態1に係る検索クエリ提供装置で用いる文書データの一例を示す説明図である。ここではカーナビゲーション装置の説明書の一部を示す。図1に示す文書データ格納部1は、図2に示すような文書データを格納している。図2に示す説明書は、ページ番号、章および節番号が割り当てられた見出し、本文、画像等からなる。
 図3は、この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部を示すブロック図である。図3において図1と同一または相当の部分については同一の符号を付し説明を省略する。図3に示す文書構造ネットワーク構築部2は、文書データに含まれ、後述するブートストラップ処理の初期値として使用するための0次重要語句12の入力、および0次重要語句12をもとにブートストラップ処理により重要語句を抽出する範囲を定義するための目次情報となる章節構造データ13の入力を初期情報入力部11で受け付ける。
 図4は、この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部に入力される章節構造の一例を示す説明図である。図4に示す章節構造データ13は、図2に示す文書データに基づき、章13a、節13b、各章節の見出し13c、各章節の開始ページ13d、各章節の終了ページ13eから構成される。なお、本実施の形態では説明を簡略にするために節13bが1階層の例を示すが、もとにする文書データが「1.2.3.4節」のように複数階層になっている場合には節13bを第1階層節とし、第2階層節、第3階層節、第4階層節の記載欄を設ければよい。
 図3に示す0次重要語句12は、図4に示す章節構造データ13の各章節に対応して種情報として与えるテキスト情報である。ここでは見出し13cを0次重要語句として用いるが、これに限定されるものではなく、章、節または項等の見出しを用いればよい。
 レイアウト解析部14は、文書データ格納部1が格納する重要語句抽出対象である文書データを解析し、文書フォーマット情報に基づいてフォント情報、文字位置情報、ページ情報、テキスト情報等を含むレイアウト情報データ15を抽出する。図5は、この発明の実施の形態1に係る検索クエリ提供装置のレイアウト解析部が抽出するレイアウト情報データの一例を示す説明図である。図5に示すレイアウト情報データ15は図3に示す文書データをレイアウト解析部14が解析して抽出したものである。レイアウト情報データ15は、同一フォントからなる一群の文章に対応して付与される連番であるブロック番号15a、その文章が記載されているページ位置を示すページ番号15b、ページ内におけるその文章の記載位置を2次元の座標値により示す位置情報15c、その文章に使用されたフォント名15d、そのフォントサイズ15e、その文章のテキスト情報15fから構成される。なお、レイアウト解析部14におけるレイアウト解析方法については公知の技術であるため詳細な説明を省略する。
 テキスト解析部16は、レイアウト情報データ15のテキスト情報15fを入力にして、公知の形態素解析技術によりテキスト情報15fを意味を持つ最小の単位である形態素に分割し、対象テキストが日本語や中国語の場合は公知の複合語処理により各形態素の品詞情報に基づいて文節単位にまとめて各文節を1レコードにした文節解析結果17を出力する。図6は、この発明の実施の形態1に係る検索クエリ提供装置のテキスト解析部16が抽出した文節解析結果の一例を示す説明図である。図6に示す文節解析結果17において、ブロック番号17a、ページ番号17b、位置情報17c、フォント名17d、フォントサイズ17eの各項目の情報は、入力に用いた図5に示すレイアウト情報データ15の同一名項目の情報と同じである。文節解析結果17は、これら各項目17a~17eに加えて、文節内のより細かな単位である形態素(スラッシュ/で示す)の分割情報である形態素分割情報17f、文節中の自立語部分の見出し情報17g、自立語の品詞情報17hから構成される。
 自立語抽出部18は、初期情報である0次重要語句12を含むn次重要語句21から、0次~n-1次の自立語に含まれていない自立語見出しを抽出し、n次自立語19を抽出する。なお、図3では説明を簡略にするために図示していないが、初期情報入力部11から入力した0次重要語句12も、テキスト解析部16により文節単位に分割されているものとする。日本語の場合は、0次重要語句である「観光地のルートを設定する」を例にすると、自立語抽出部18は文節解析結果17の自立語見出し情報17gに基づき、「観光地のルートを設定する」から1次自立語「観光地」、「ルート」、「設定」を抽出する。英語など欧米語の場合は上記の自立語として名詞や動詞を抽出する。
 重要語句抽出部20は、初期情報入力部11から入力した章節構造データ13および自立語抽出部18から入力したn次自立語19を用いて、文節解析結果17からn次重要語句21を抽出する。このとき、重要語句抽出部20は、章節毎に文節解析結果17からn次自立語19を含み、かつ、0次~n-1次の重要語句に含まれていない重要語句を抽出する。重要語句に含む文節の数は任意に設定すればよく、本実施の形態では同一節からブロック番号毎に1~4個の連続文節を抽出する。例えば1次自立語「観光地」を含む1~4個の連続文節には「各都道府県の観光地」、「各都道府県の観光地をまわる」、「各都道府県の観光地をまわるルート」が該当するため、重要語句抽出部20がこれらを1次重要語句として抽出する。
 重要語句評価部22は、重要語句抽出部20により抽出された1次~n次の各重要語句について、重要性を示す評価値を計算して、スコア付き重要語句データ23を出力する。図7は、この発明の実施の形態1に係る検索クエリ提供装置の重要語句評価部によるスコア計算方法の一例を示す説明図である。
 ここでは、重要語句評価部22がフォントサイズ、表層格情報、文字数、禁止語句の4項目の評価値をそれぞれ算出して、それらの評価値をもとにスコアを計算する例を用いて説明する。図7に示す評価値SSaは、重要語句のフォントサイズに基づく重要度である。重要語句評価部22は、フォントサイズが大きい重要語句を重要度が高いと判定する。ここでは、0次重要語句のフォントサイズ分布に基づき閾値THfが算出されることとする。例えば、重要語句評価部22は、文書データ中に出現する各0次重要語句のフォントサイズ最大値を求め、各0次重要語句のフォントサイズ最大値のうち最小の値を閾値THfとする。そして、この閾値THf以上のフォントサイズをもつ重要語句には評価値0.9を与え、閾値THf未満であれば評価値0.1を与える。なお、評価値SSaは、離散値(0.9および0.1)ではなく、フォントサイズを引数とする関数により算出される連続値であってもよい。
 評価値SSbは、各重要語句の前後関係と構文的な接続関係とにより計算される、表層格に基づく重要度である。各重要語句の表層格情報は、文節解析結果17の形態素分割情報17f(図6)を参照して抽出される。重要語句評価部22は、日本語の場合、重要度算出対象である重要語句の直前の文節が「を」格または「が」格で終了し、かつ用言であれば、意味的に完結していない語句である可能性が高いので重要ではないと判定する。例えば、「まわる」という重要語句は、直前の文節「観光地を」が「を」格で終了し、かつ用言であるので、重要語句評価部22は意味的な簡潔性が低く、重要ではないと判定して低い評価値SSbを与える。また、重要度算出対象である重要語句の1個前よりも2個前以上の文節が「を」格または「が」格で終了する場合は、重要度算出対象である重要語句が意味的に完結している可能性が高くなるので、重要語句評価部22は直前の文節が「を」格で終了する重要語句より2個前以上の文節が「を」格で終了する重要語句に高い評価値SSbを与える。
 英語など欧米語の場合、重要語句評価部22は重要語句の文中における格や文構造により統合的に評価値SSbを与える。例えば重要語句が主語や目的語になっている場合は、付属語の場合よりも重要である可能性が高くなるのでより高い評価値SSbが与えられる。
 評価値SScは、重要語句の文字数に基づく重要度である。本実施の形態では、検索結果を絞り込むための追加検索語を提示することを想定しているため、文字数が多すぎもせず、少なすぎもしない適切な長さの重要語句が重要と判定される。重要語句評価部22は、そのための基準として、0次重要語句の文字数分布を用いて重要度算出対象の重要語句を評価する。例えば、文字数毎の0次重要語句数を求め、全0次重要語句数で除算することにより、文字数毎の0次重要語句出現確率を算出し、評価値SScとする。重要語句評価部22は重要度算出対象の重要語句に、文字数に応じた0次重要語句出現確率を評価値として与える。ただし、0次重要語句出現確率が0であった文字数の評価値SScは0.01とする。また、この0次重要語句出現確率を公知の手法によって補間した値を用いてもよい。さらに、重要度算出対象の重要語句が括弧表現を含む場合は、括弧部分を除いた文字数が支配的となるような文字数計算を行うものとする。
 評価値SSdは、禁止語句辞書(不図示)に予め登録してある禁止語句の有無に基づく重要度である。禁止語句辞書に例えば「上記」、「左図」、「下表」等の参照表現を禁止語句として登録しておき、重要語句評価部22は重要度算出対象の重要語句がこれら禁止語句を含む場合は重要でないと判定して、低い評価値SSdを与える。また、「以上」、「以下」等の数量表現にも用いられる参照表現については、重要語句評価部22は数量表現として用いられているか、参照表現として用いられているかを判定し、数量表現以外に用いられている場合に重要でないと判定する。
 重要語句評価部22は、算出した評価値SSa,SSb,SSc,SSdをもとに、n次の重みとして1未満の実数である減衰率K(例えばK=0.9)を用いて、下記式(1)により重要語句のスコアを算出し、スコア付き重要語句データ23を出力する。
 重要語句スコア=Kn×(SSa×SSb×SSc×SSd)   (1)
 次に、文書データ格納部1の文書データを解析して文書構造ネットワーク3を構築する文書構造ネットワーク構築部2の動作を、図2から図9を用いて説明する。図9は、この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワーク構築部の動作を示すフローチャートである。図9に示すステップST1において、図3に示す初期情報入力部11が0次重要語句12および章節構造データ13の入力を受け付け、これらを自立語抽出部18および重要語句抽出部20の初期情報に設定する。ここでは図2の文書データ中の5.2節を用いた文書構造ネットワークを構築する例を説明する。
 ステップST2において、レイアウト解析部14が文書データ格納部1に格納された文書データのレイアウトを解析し、図5に示すレイアウト情報データ15を抽出する。レイアウト解析部14はレイアウト情報データ15をテキスト解析部16および重要語句抽出部20へ出力する。
 ステップST3において、テキスト解析部16がレイアウト情報データ15のテキスト情報15fを解析して、テキストを文節単位に分割した文節解析結果17を生成する。テキスト解析部16はこの文節解析結果17を重要語句抽出部20に出力する。
 ステップST4において、自立語抽出部18が文節解析結果17の自立語見出し情報17gに基づき、0次重要語句12から1次自立語を抽出する。図10は、この発明の実施の形態1に係る検索クエリ提供装置の重要語句抽出部による重要語句抽出の一例を示す説明図である。図10において、最上階層に示す0次重要語句は、初期情報入力部11から入力した章節構造データ13の見出し13cである。第2階層は、0次重要語句である「観光地のルートを設定する」から自立語抽出部18によって抽出された1次自立語の「観光地」、「ルート」、「設定」である。
 ステップST5において、重要語句抽出部20が1次自立語を含む1次重要語句を文節解析結果17から抽出する。上述したように、重要語句抽出部20は5.2節から1~4個の連続文節を抽出するよう設定されているため、ブロック番号「502」から抽出され、1次自立語「観光地」を含む1次重要語句は「各都道府県の観光地」、「各都道府県の観光地をまわる」、「各都道府県の観光地をまわるルート」である。図10に示すように、別のブロック番号からは、「観光地の文字情報」、「観光地の文字情報を確認」という1次重要語句が抽出される。
 文書構造ネットワーク構築部2は、重要語句抽出部20で抽出する拡張語句がある限りステップST4およびステップST5の処理を繰り返す(ステップST6)。再びステップST4において、自立語抽出部18が1次重要語句から2次自立語を抽出する。このとき、自立語抽出部18は2次より階層が上の自立語である「観光地」、「ルート」を抽出しない設定のため、抽出される2次自立語は図10に示す「各都道府県」、「文字情報」となる。
 続くステップST5において、重要語句抽出部20が2次自立語を含む2次重要語句を文節解析結果17から抽出する。このとき、重要語句抽出部20は2次より階層が上の重要語句を抽出しない設定のため、抽出される2次重要語句は「各都道府県」、「文字情報」、「写真・文字情報のみかた」等となる。重要語句抽出部20は以下同様に3次以降のn次重要語句を順次抽出する。このように文書構造ネットワーク構築部2のブートストラップ処理で、n-1次の重要語句を手がかりにして章節内の関連する語句を順次抽出することにより、見出しのように強調表現されていない語句であっても0次重要語句に関連する語句として簡便に抽出することができ、複雑な抽出ルールを記述するという手間をかける必要がない。
 他方、5.2節の文書データにn次重要語句21から抽出可能なn次自立語がなくなると(ステップST6“No”)、処理はステップST7へ進む。ステップST7において、重要語句評価部22が図7に示すような評価値算出方法を用いて、1次~n次の重要語句毎に評価値SSa,SSb,SSc,SSdを算出し、上記式(1)に従ってスコア付き重要語句データ23を作成する。図8は、この発明の実施の形態1に係る検索クエリ提供装置の重要語句評価部が出力したスコア付き重要語句データの一例を示す説明図である。図8に示すスコア付き重要語句データ23は、重要語句23aとそのスコア23bとからなる。
 図11は、この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワークの一例を示す説明図である。図11に示す文書構造ネットワーク3は、文書構造ネットワーク構築部2が文書データ24の1章および2章をそれぞれ用いて作成した文書構造25,26の例である。この例では文書構造ネットワーク構築部2が、0次重要語句に章見出しを用いて文書構造ネットワーク3を構築した。この文書構造ネットワーク3は、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類すると共に、同一の自立語(対象語)を含む重要語句に応じた各ノードが互いにリンクしてなる。一点鎖線四角枠は文書構造25,26の境界を示す。文書構造ネットワーク3には、実線四角枠で囲った重要語句ノードおよび破線四角枠で囲った自立語ノードが存在する。破線丸枠で囲った重要語句ノードは、同一の自立語から抽出された重要語句ノードであることを示す。なお、図11では一部の図示を省略している。
 また、文書構造ネットワーク3中の各重要語句ノードは固有のノードIDを有すると共に、図12に示すノード情報を有し、ノードIDの関連付けによってネットワークが構築されている。図12は、この発明の実施の形態1に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。このノード情報には、ノードの重要語句文字列、ノードID、このノードと直接接続し、このノードより1つ階層が下の子ノードのノードID配列、このノードと直接接続し、このノードより1つ階層が上の親ノードのノードID配列、重要語句のスコアが含まれる。
 例えば、あるノードを始点として、この始点のノードが有する親ノードIDまたは子ノードIDを参照すれば、始点のノードと直接リンクしている1階層上または下のノードを辿ることができ、さらに前記1階層上または下のノードが有する親ノードIDまたは子ノードIDを参照すれば、始点のノードと間接的にリンクしている2階層上または下のノードを辿ることができる。なお、図12に示すノード情報はネットワーク構造を構築するための一例であって、その他の情報に従ってネットワーク構造を構築してもよい。
 図1に示す重要語句探索部7は、検索語入力部4が受け付けた検索者の入力した検索語を、文書構造ネットワーク3の各ノードから探索し、検索語に一致した全ての重要語句ノードを検索語ノードとして取得する。例えば、検索語が「電話番号」である場合には、図11に示す文書構造ネットワーク3から検索語ノード29,30,31を取得する。重要語句探索部7が検索語ノードを探索するために、例えば文書構造ネットワーク3とは別に、重要語句全てを含み、辞書順に配列したデータを用意しておく。重要語句探索部7はこの重要語句の配列を二分探索することにより検索語ノードの探索が可能である。なお、検索語ノードを探索する方法は二分探索方法に限定されるものではなく、文字列を検索する方法であればよい。
 タイトルノード抽出部8は、重要語句探索部7が取得した各検索語ノードから親ノードIDを辿り、各検索語ノードが属するネットワークのタイトルノードを抽出する。本実施の形態では、章節見出しをなす0次重要語句を有する重要語句ノードをタイトルノードとする。タイトルノード抽出部8は、例えば図11に示すように検索語ノード29からタイトルノード27を抽出し、検索語ノード30および検索語ノード31からタイトルノード28を抽出する。抽出したタイトルノードが有する重要語句は、図14に示す追加検索語リストに追加される。図14は、この発明の実施の形態1に係る検索クエリ提供装置のタイトルノード抽出部が有する追加検索語リストの一例を示す説明図である。追加検索語リストは、ノードIDおよびそのノードが有する重要語句文字列からなる。
 タイトルノード抽出部8の動作を、重要語句探索部7から「電話番号」の検索語ノード29,30,31が入力された場合を例に用いて説明する。タイトルノード抽出部8は図11に示す1章の文書構造25から検索された検索語ノード29「電話番号」が有する親ノードID情報を用いて、親ノードIDを辿った1階層上の重要語句ノード32「電話番号で探す」を得る。このノードは親ノードID情報を有し、タイトルノードではないため、タイトルノード抽出部8はさらにこの重要語句ノード32が有する親ノードIDを辿って、1階層上の重要語句ノード「目的地を探す」を得る。この重要語句ノードは最上階層であって親ノードID情報がないため、タイトルノード抽出部8がこれをタイトルノード27と判断して、追加検索語リストに追加する。
 また、タイトルノード抽出部8は、2章の文書構造26から検索された検索語ノード30「電話番号」を始点にして、親ノードIDを辿ってタイトルノード28「電話を使う」を得て、追加検索語リストに追加する。さらに、検索語ノード31「電話番号」からも同じタイトルノード28「電話を使う」が得られるが、既に同一の重要語句が追加検索語リストに存在しているため追加する必要はない。
 検索クエリ提示部6は、タイトルノード抽出部8が作成した追加検索語リストを用いて、検索者が入力した検索語に追加検索語を追加して検索クエリを作成し、検索者に提示する。図14に示す追加検索語リストを用いた場合、検索クエリ提示部6は「電話番号 目的地を探す」、「電話番号 電話を使う」という2種類の検索クエリを作成し、図15に示すように提示する。図15は、この発明の実施の形態1に係る検索クエリ提供装置の検索クエリ提示部が提示する検索クエリの一例を示す説明図である。
 次に、検索クエリ提供装置の動作を説明する。図13は、この発明の実施の形態1に係る検索クエリ提供装置の動作を示すフローチャートである。図13に示すステップST11において、検索語入力部4が検索語を受け付け、重要語句探索部7へ出力する。
 ステップST12において、重要語句探索部7が文書構造ネットワーク3から検索語に一致する検索語ノードを全て取得し、タイトルノード抽出部8へ出力する。ステップST13において、タイトルノード抽出部9が各検索語ノードの有する親ノードID情報、ならびに各ノードの有するノードIDおよび親ノードID情報を用いて、検索語ノードが属するタイトルノードをそれぞれ抽出し、検索クエリ提示部6へ出力する。ステップST14において、検索クエリ提示部6がタイトルノードの有する重要語句文字列情報を、検索者が入力した検索語に続けて追加して、新たな検索クエリを複数提示する。
 各追加検索語は異なる文書構造からそれぞれ抽出されるため、これらの追加検索語を含む各検索クエリを用いて検索を行うことにより、検索結果ページは重複が少なく、検索対象の文書データ全体にわたって分散させることができる。
 このように、文書データ作成者が作成したレイアウト情報、章節構造等に従ってテキストを分類し、文書構造ネットワークを構築したため、追加検索語として抽出した重要語句を文書データ作成者の分類基準で分類した重要語句とみなすことができる。さらにこれらの重要語句を含めた検索クエリを用いて文書データを検索すれば、文書データ作成者の分類基準で分類された検索結果になることが期待できる。
 なお、追加検索語リストの重要語句数が多く、検索クエリ提示部6が一度に全ての検索クエリを検索者に提示できない場合には、各ノードが有するスコア情報を用いて、重要度の高い順等の規定に基づき所定数の追加検索語を選択して、検索クエリを作成・提示する構成であってもよい。検索クエリの提示数は、検索クエリを表示する画面の大きさ等の制限によって決定しても、他の基準に従って決定してもよい。
 以上のように、実施の形態1によれば、文書データ格納部1に格納した文書データに含まれる重要語句を重要語句ノードとして、各重要語句ノードを重要性に応じて各階層に分類すると共に、同一の自立語を含む重要語句に応じた重要語句ノードを互いにリンクさせてなる文書構造ネットワーク3を構築する文書構造ネットワーク構築部2と、検索語入力部4から検索者が入力した検索語に一致する重要語句文字列を有する重要語句ノードを文書構造ネットワーク3から探索して、検索語ノードとして出力する重要語句探索部7と、重要語句探索部7で探索した検索語ノードのリンクを辿り、最も重要性の高い最上階層に分類されたタイトルノードを抽出するタイトルノード抽出部8と、検索語入力部4から入力した検索語を含む検索クエリに追加する新たな追加検索語の候補として、タイトルノード抽出部8で抽出した重要語句ノードの重要語句文字列を提示する検索クエリ提示部6とを備えるように構成した。そのため、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することが可能となる。
 また、実施の形態1によれば、文書構造ネットワーク構築部2は、文書データ格納部1に格納した文書データの章、節または項の見出しに含まれる語句を最も重要性の高い最上階層に分類するように構成した。そのため、文書データ作成者の分類基準に従って重要語句を分類することが可能となる。
 さらに、実施の形態1によれば、評価値SSa,SSb,SSc,SSdを用いて、式(1)に従い重要語句のスコアを算出する重要語句評価部22を備え、検索クエリ提示部6は、スコア順に所定数の重要語句を提示するように構成した。そのため、一度に全ての追加検索語を検索者に提示できない場合に、重要度の高い検索クエリを選択して提示することが可能となる。
実施の形態2.
 上記実施の形態1では、検索語ノードから親ノードを辿った先のタイトルノードを追加検索語とする構成とした。この構成の場合には、図11に示すように各タイトルノードより下の階層にリンクした子ノード群からなる子孫ノード中に存在する検索語ノードの数に偏りが生じる。図11において、1つの検索語ノード29が存在する1章のタイトルノード27より、2つの検索語ノード30,31が存在する2章のタイトルノード28のほうが検索語の出現頻度が高くなる。そして、2章のタイトルノード28を追加検索語に用いて検索した場合の検索結果ページは文書データが広範囲にわたるため、1章のタイトルノード27を追加検索語にした検索クエリで検索した検索結果数に比べて2章のそれで検索した検索結果数が多くなると考えられる。そこで、本実施の形態2では、検索クエリ提供装置が、各検索クエリ間の検索結果数が均等になるような検索クエリを提示する。
 図16は、この発明の実施の形態2に係る検索クエリ提供装置の全体構成を示すブロック図である。図16において図1と同一または相当の部分については同一の符号を付し説明を省略する。図16に示す検索クエリ提供装置は、上記実施の形態1に子孫検索語ノード数付加部9および中分類ノード抽出部10を追加した構成としたものである。また、図17はこの発明の実施の形態2に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。図17に示すノード情報は、図12に示すノード情報に「子孫検索語ノード数」の項目を追加したものであり、本実施の形態の文書構造ネットワーク3の各重要語句ノードが有するものである。
 以下では、あるノードより下の階層の子孫ノードに存在する検索語ノード数を、子孫検索語ノード数と呼ぶ。例えば検索語が「電話番号」の場合、図11に示すタイトルノード27の子孫検索語ノード数は1、タイトルノード28の子孫検索語ノード数は2となる。
 子孫検索語ノード数付加部9は、タイトルノード抽出部8が検索語ノードからタイトルノードを辿る経路上の各重要語句ノードに、子孫検索語ノード数を加算する。ここで、子孫検索語ノード数付加部9の動作を説明する。図18は、この発明の実施の形態2に係る検索クエリ提供装置の子孫検索語ノード数付加部の動作を示すフローチャートである。
 図18に示すステップST21において、子孫検索語ノード数付加部9は、全ての重要語句ノードが有するノード情報のうちの子孫検索語ノード数を0に初期化する。続くステップST22において、タイトルノード抽出部8が検索語ノードからタイトルノードの探索を開始し、検索語ノードより1つ上の階層の重要語句ノードを親ノードとして取得する。そして、子孫検索語ノード数付加部9は、タイトルノード抽出部8が取得した親ノードの子孫検索語ノード数に1を加算する(ステップST23)。
 ステップST24において、その親ノードが有するノード情報に親ノードIDがなければ、タイトルノード抽出部8はその親ノードをタイトルノードとして取得する(ステップST25)。その親ノードが有するノード情報に親ノードIDがあれば、処理はステップST22へ戻り、タイトルノード抽出部8は再び親ノードを辿る。
 タイトルノード抽出部8が全ての検索語ノードについて、タイトルノードを抽出し終えると(ステップST26”No”)、子孫検索語ノード数付加部9も子孫検索語ノード付加処理を終了する。このように、タイトルノード抽出部8が親ノードを取得する度に子孫検索語ノード数付加部9がその親ノードの子孫検索語ノード数に1加算することで、異なる複数の検索語ノードから同一のタイトルノードに辿り着いた場合にも、自動的にそのタイトルノードの子孫検索語ノード数をカウントすることができる。
 図16に示す中分類ノード抽出部10は、各重要語句ノードの有する子孫検索語ノード数を用いて、所定の基準を満たす重要語句ノードを抽出する。以下の例では、タイトルノードの子孫検索語ノード数の平均値を基準にして重要語句ノードを抽出する。まず、中分類ノード抽出部10は、タイトルノード抽出部8が取得した全タイトルノードの子孫検索語ノード数を用いて、平均値Xを算出する。
 そして、中分類ノード抽出部10は子孫検索語ノード数が平均値Xより多いタイトルノードを始点にして、そのタイトルノードが有する子ノードのノードID配列を参照して下の階層の重要語句ノードを辿る。その重要語句ノードの子孫検索語ノード数が平均値X以下であれば、中分類ノード抽出部10がその子ノードを中分類ノードとして抽出する。その重要語句ノードの子孫検索語ノード数が平均値Xより多ければ、中分類ノード抽出部10はその子ノードから下の階層の子ノードを辿る。このようにして中分類ノード抽出部10は子孫検索語ノード数が平均値X以下、かつ最もタイトルノードに近い重要語句ノードを探索して、タイトルノードのかわりに中分類ノードを出力する。
 ここで、具体例として、重要語句探索部7により図11に示す検索語ノード29,30,31が取得され、タイトルノード抽出部8により各検索語ノード29,30,31が属するタイトルノード27,28が取得され、子孫検索語ノード数付加部9により各重要語句ノードの子孫検索語ノード数が設定された場合を用いて説明する。この例では、タイトルノード27,28の子孫検索語ノード数はそれぞれ1および2であり、その平均値Xは1.5となる。中分類ノード抽出部10は、平均値1.5より多い子孫検索語ノード数を有するタイトルノード28を始点にして、子ノードを辿り、重要語句ノード「電話番号でかける」および「電話番号の登録・編集」の有する子孫検索語ノード数を参照する。これらの子孫検索語ノード数は平均値1.5以下の1であるため、中分類ノード抽出部10はこれらの重要語句ノードを中分類ノードとして抽出する。
 図16に示す検索クエリ提示部6aは、タイトルノード抽出部8が取得したタイトルノードの重要語句文字列と、中分類ノード抽出部10が取得した中分類ノードの重要語句文字列とを追加検索語に用いた追加クエリを提示する。上述の例によれば、検索者が入力した検索語である「電話番号」にタイトルノードを追加した検索クエリ「電話番号 目的地を探す」が1章の文書構造25から作成され、検索語に中分類ノードを追加した検索クエリ「電話番号 電話番号でかける」、「電話番号 電話番号の登録・編集」が2章の文書構造26から作成される。
 このようにして得られた追加検索語は、文書データ作成者によって分類された文書構造の見出しに近い重要語句であると共に、その追加検索語にリンクした検索語ノード数が均等になっている。このような追加検索語を含む検索クエリを用いて文書データを検索することにより、文書データ作成者の分類基準で分類された検索結果になり、各検索クエリ間での検索結果数が同程度になると期待できる。
 なお、中分類ノード抽出部10は、中分類ノードを抽出する基準としてタイトルノードの子孫検索語ノード数の平均値Xを用いる構成としたが、その他の基準を用いる構成であってもよい。例えば、中分類ノード抽出部10は、予め最大子孫検索語ノード数Yが設定され、タイトルノードの子孫検索語ノード数がYより大きい場合に中分類ノードを探索する。
 以上のように、実施の形態2によれば、上記実施の形態1の検索クエリ提供装置の構成に加えて、任意の重要語句ノードより下位の階層にあり、この重要語句ノードに直接または間接的にリンクした検索語ノード数情報をこの重要語句ノードが有するノード情報に付加する子孫検索語ノード数付加部9、検索語ノードが下位の階層に直接または間接的にリンクしている重要語句ノードのうち、所定の子孫検索語ノード数を有する重要語句ノードを抽出する中分類ノード抽出部10を備えるように構成した。そのため、検索クエリ間での検索結果ページが重複せずに分散し、検索結果数が均等な検索クエリを複数提供することが可能となる。
実施の形態3.
 上記実施の形態1では、検索クエリ提供装置が検索者の入力した検索語に続けて追加検索語を追加した検索クエリを提供する構成とした。本実施の形態3では、検索者が提示された検索クエリを選択した場合に、さらに次の追加検索語を提示する構成とする。
 図19は、この発明の実施の形態3に係る検索クエリ提供装置の全体構成を示すブロック図である。図19において図1と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態1同様に、図3に示す検索クエリ提供装置の検索クエリ提示部6bが、検索語と追加検索語とを含む検索クエリを複数提示する。検索者がそれら検索クエリのうちの1つを選択すると、検索クエリ提示部6bは追加検索語リストを参照して、選択された追加検索語に対応するノードIDを追加検索語抽出部33へ出力する。
 追加検索語抽出部33は、検索クエリ提示部6bから入力したノードIDを有するタイトルノードを取得する。そして、そのタイトルノードの子ノードを辿って各子ノードの重要語句文字列を追加検索語として抽出し、検索クエリ提示部6bへ出力する。
 検索クエリ提示部6bは、提示している検索クエリに加えて、追加検索語抽出部33から入力した追加検索語を階層表示する。
 次に、検索クエリ提供装置の動作を説明する。文書構造ネットワーク3は図11に示す文書構造ネットワークで構成され、検索者が検索語「電話番号」を入力した例を用いる。検索クエリ提示部6bが提示する図15の検索クエリ「電話番号 目的地を探す」、「電話番号 電話を使う」のうち、「電話番号 目的地を探す」が検索者により選択された場合、検索クエリ提示部6bはこの検索クエリに含まれる追加検索語「目的地を探す」に対応するノードIDを追加検索語抽出部33へ出力する。
 すると、追加検索語抽出部33が、図11に示す文書構造ネットワーク3中のこのノードIDを有するタイトルノード27を始点にして、1階層下の子ノードを辿る。タイトルノード27の1つ下の階層の子ノードは「目的地の探索」、「目的地の検索のしかた」、「電話番号で探す」、「リストから行先を探す」の4つである。追加検索語抽出部33は、これらの子ノードが有する重要語句文字列を検索クエリ提示部6bへ出力する。
 図20は、この発明の実施の形態3に係る検索クエリ提供装置の検索クエリ提示部が階層的に提示する検索クエリの一例を示す説明図である。検索クエリ提示部6bは、これらの4つの重要語句を追加検索語とした検索クエリを作成し、図20に示すように表示する。検索者が新たに提示された追加検索語のうち「電話番号で探す」を含む検索クエリを選択すると、検索クエリ「電話番号 目的地を探す 電話番号で探す」を用いて文書データが検索される。
 なお、検索クエリ提供装置は、図20に示す2段の検索クエリを提示する構成としたが、3段以上の検索クエリを提示する構成であってもよい。その構成の場合には、追加検索語抽出部33はタイトルノードの2つ下の階層の重要語句ノードを3段目の検索クエリに用い、3つ下の階層の重要語句ノードを4段目の検索クエリに用いるというように、検索クエリの提示段数に応じて、追加検索語抽出部33がタイトルノードから辿る子ノードの階層を設定すればよい。
 また、追加検索語抽出部33は、抽出した全ての追加検索語を検索クエリ提示部6bに出力する構成としたが、所定の基準を設定して、抽出する追加検索語数を制限する構成であってもよい。例えば、追加検索語抽出部33は同一の自立語ノードから抽出された重要語句ノードのうちの最もスコアの高い重要語句ノードを追加検索語として取得するように構成する。
 以上のように、実施の形態3によれば、上記実施の形態1の検索クエリ提供装置の構成に加えて、タイトルノード抽出部8で抽出したタイトルノードより下位の各階層に直接または間接的にリンクしている重要語句ノードを抽出する追加検索語抽出部33を備え、検索クエリ提示部6bは、追加検索語抽出部33で抽出された各階層のノードの語句を階層毎に提示するように構成した。そのため、検索者は詳細な検索クエリを用いて検索することが可能となる。上記実施の形態1が提示する検索クエリを用いた場合の検索結果ページの分散は章単位になるが、本実施の形態3が提示する検索クエリを用いた場合は章内の節または項単位で分散させることが可能となる。
 なお、上述した説明では、上記実施の形態1で示した構成に対して上記実施の形態3を適用する場合を示したが、上記実施の形態2で示した構成に対して上記実施の形態3を適用してもよい。
 以上のように、この発明に係る検索クエリ提供装置は、検索語に一致するノードが属する階層構造のうちの最上階層のノードの語句を検索クエリ候補として提示することで、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提供することのできる検索クエリ提供装置としたので、カーナビゲーション装置、携帯電話等の画面が小さな機器の文書検索装置などに用いるのに適している。

Claims (8)

  1.  文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造からなる文書構造ネットワークから、任意の検索語に一致する語句のノードを探索して、検索語ノードとして出力する重要語句探索部と、
     前記重要語句探索部で探索した前記検索語ノードが属する階層構造のうち、最も重要性の高い語句を分類した最上階層に分類されたノードを抽出するタイトルノード抽出部と、
     前記任意の検索語を含む検索クエリに追加する新たな検索語の候補として、前記タイトルノード抽出部で抽出したノードの語句を提示する検索クエリ提示部とを備えた検索クエリ提供装置。
  2.  文書構造ネットワークを構築する文書構造ネットワーク構築部を備えたことを特徴とする請求項1記載の検索クエリ提供装置。
  3.  文書構造ネットワーク構築部は、文書データの章、節または項のタイトルに含まれる語句を最上階層に分類することを特徴とする請求項2記載の検索クエリ提供装置。
  4.  文書構造ネットワーク構築部は、同一の対象語を含む語句に応じた各ノードを互いにリンクさせることを特徴とする請求項2記載の検索クエリ提供装置。
  5.  任意のノードより下位の階層にあり、当該任意のノードに直接または間接的にリンクした検索語ノード数の情報を当該任意のノードに付加する子孫検索語ノード数付加部を備えたことを特徴とする請求項1記載の検索クエリ提供装置。
  6.  検索語ノードが下位の階層に直接または間接的にリンクしているノードのうち、所定の検索語ノード数を有するノードを抽出する中分類ノード抽出部を備え、
     検索クエリ提示部は、前記中分類ノード抽出部が抽出した前記ノードの語句を提示することを特徴とする請求項5記載の検索クエリ提供装置。
  7.  タイトルノード抽出部で抽出したノードより下位の各階層に直接または間接的にリンクしているノードを抽出する追加検索語抽出部を備え、
     検索クエリ提示部は、前記追加検索語抽出部で抽出された前記各階層のノードの語句を階層毎に提示することを特徴とする請求項1項記載の検索クエリ提供装置。
  8.  所定の評価基準を用いて語句の重要性を示すスコアを算出する重要語句評価部を備え、
     検索クエリ提示部は、スコア順に所定数のノードの語句を提示することを特徴とする請求項1記載の検索クエリ提供装置。
PCT/JP2008/001159 2008-05-08 2008-05-08 検索クエリ提供装置 WO2009136426A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/001159 WO2009136426A1 (ja) 2008-05-08 2008-05-08 検索クエリ提供装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/001159 WO2009136426A1 (ja) 2008-05-08 2008-05-08 検索クエリ提供装置

Publications (1)

Publication Number Publication Date
WO2009136426A1 true WO2009136426A1 (ja) 2009-11-12

Family

ID=41264488

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/001159 WO2009136426A1 (ja) 2008-05-08 2008-05-08 検索クエリ提供装置

Country Status (1)

Country Link
WO (1) WO2009136426A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106941A1 (zh) * 2011-07-29 2012-08-16 华为技术有限公司 一种全文搜索的方法和装置
JP2015041386A (ja) * 2013-08-23 2015-03-02 ネイバー コーポレーションNAVER Corporation セマンティックデプス構造基盤の検索語提示システムおよび方法
JP2020154991A (ja) * 2019-03-22 2020-09-24 株式会社日立製作所 情報管理装置および情報管理方法
CN117251473A (zh) * 2023-11-20 2023-12-19 摩斯智联科技有限公司 车辆数据查询分析方法、系统、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030241A (ja) * 2001-06-29 2003-01-31 Internatl Business Mach Corp <Ibm> キーワード検索方法、キーワード検索端末、コンピュータプログラム
JP2004234597A (ja) * 2003-02-03 2004-08-19 Ricoh Co Ltd キーワード抽出装置、プログラム、及び記録媒体
JP2004348768A (ja) * 2004-08-24 2004-12-09 Hitachi Ltd 文書検索方法
JP2007133688A (ja) * 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030241A (ja) * 2001-06-29 2003-01-31 Internatl Business Mach Corp <Ibm> キーワード検索方法、キーワード検索端末、コンピュータプログラム
JP2004234597A (ja) * 2003-02-03 2004-08-19 Ricoh Co Ltd キーワード抽出装置、プログラム、及び記録媒体
JP2004348768A (ja) * 2004-08-24 2004-12-09 Hitachi Ltd 文書検索方法
JP2007133688A (ja) * 2005-11-10 2007-05-31 Nec Corp 文書検索装置、文書検索プログラムおよび文書検索方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106941A1 (zh) * 2011-07-29 2012-08-16 华为技术有限公司 一种全文搜索的方法和装置
JP2015041386A (ja) * 2013-08-23 2015-03-02 ネイバー コーポレーションNAVER Corporation セマンティックデプス構造基盤の検索語提示システムおよび方法
US10176261B2 (en) 2013-08-23 2019-01-08 Naver Corporation Keyword presenting system and method based on semantic depth structure
JP2020154991A (ja) * 2019-03-22 2020-09-24 株式会社日立製作所 情報管理装置および情報管理方法
WO2020195545A1 (ja) * 2019-03-22 2020-10-01 株式会社日立製作所 情報管理装置および情報管理方法
JP7099976B2 (ja) 2019-03-22 2022-07-12 株式会社日立製作所 情報管理装置および情報管理方法
CN117251473A (zh) * 2023-11-20 2023-12-19 摩斯智联科技有限公司 车辆数据查询分析方法、系统、装置和存储介质
CN117251473B (zh) * 2023-11-20 2024-03-15 摩斯智联科技有限公司 车辆数据查询分析方法、系统、装置和存储介质

Similar Documents

Publication Publication Date Title
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
Gupta et al. A survey of text question answering techniques
JP5376163B2 (ja) 文書管理・検索システムおよび文書の管理・検索方法
JP5788015B2 (ja) 複数の粒度でのテキスト分割
JP4639077B2 (ja) 語彙と文法を有する言語の上のストリングの内部構造の各レベルにインデックス付けを行うためのシステム及び方法
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
CN103229223A (zh) 使用多个候选答案评分模型提供问题答案
CN103229162A (zh) 使用候选答案逻辑综合提供问题答案
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
Moncla et al. Automated geoparsing of paris street names in 19th century novels
JP2007047974A (ja) 情報抽出装置および情報抽出方法
WO2009136426A1 (ja) 検索クエリ提供装置
JP2005038395A (ja) データベース検索装置
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
Bhoir et al. Question answering system: A heuristic approach
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP3202381B2 (ja) 文書検索装置及び文書検索方法
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH09319767A (ja) 類義語辞書登録方法
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
JP5072651B2 (ja) 重要語句抽出装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08751683

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 08751683

Country of ref document: EP

Kind code of ref document: A1