WO2005041068A1 - 質問応答型文書検索のためのシステム及び方法 - Google Patents

質問応答型文書検索のためのシステム及び方法 Download PDF

Info

Publication number
WO2005041068A1
WO2005041068A1 PCT/JP2004/015719 JP2004015719W WO2005041068A1 WO 2005041068 A1 WO2005041068 A1 WO 2005041068A1 JP 2004015719 W JP2004015719 W JP 2004015719W WO 2005041068 A1 WO2005041068 A1 WO 2005041068A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
document
extracted
type
score
Prior art date
Application number
PCT/JP2004/015719
Other languages
English (en)
French (fr)
Inventor
Kenji Kobayashi
Daisuke Matsui
Original Assignee
Toshiba Solutions Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Solutions Corporation filed Critical Toshiba Solutions Corporation
Priority to US10/572,458 priority Critical patent/US7587420B2/en
Publication of WO2005041068A1 publication Critical patent/WO2005041068A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Definitions

  • the present invention extracts the semantic role (SR) of a question as a search request in the form of a question of user power, extracts a description that is an answer to the question, and displays the extracted description.
  • the present invention relates to a system and a method for question-response type document search suitable for presenting to a user via a screen.
  • Japanese Patent Application Laid-Open No. 8-255172 discloses the following document search technology.
  • a sentence or information is extracted as an excerpt sentence (excerpt sentence data) from the document data (original text data) constituting the relevant document.
  • the excerpt sentence data is extracted in advance for each sentence pattern from the original sentence data of each document stored in the original sentence database based on various viewpoints or criteria called sentence patterns.
  • Excerpt sentence data extracted for each sentence pattern is stored in a database (extract sentence database) in document units.
  • Japanese Patent Laying-Open No. 2002-132811 discloses the following question answering type document search technology.
  • a search request (a question-response type document search system) is given to a search system in the form of a question of user power.
  • a search request in the form of a question for example, asks, "What is the price of XXX?"
  • the query is a natural language search request, that is, a question.
  • the query determines a set of search terms and a question type.
  • the document set ability The set is searched, then the answer (word) to the question is extracted from the related document set, and the set of the extracted answer and the document containing the answer (or the document number of the document) is The answer to the question is presented to the user by the search system.
  • the first document search technology As described above, in the document search technology described in Document 1 (hereinafter referred to as the first document search technology), of the excerpt sentence data extracted from the document data of the searched document, A list of excerpt sentence data that matches the sentence pattern selected by the user is displayed. As a result, an excerpt sentence (summary) that is likely to be required by the user can be displayed, and the load required for the user to perform document search can be reduced.
  • the excerpt sentence data used as the excerpt sentence (summary) is extracted in advance for each original sentence data sentence pattern of each document stored in the original sentence database. For this reason, the first document search technology cannot respond to changes in sentence patterns.
  • a question answering document search technology (hereinafter referred to as a second document search technology) described in Patent Document 2
  • a direct answer to a question (a natural language search request) is used.
  • the document on which the answer is based is presented to the user. Therefore, the user can confirm the reliability of the answer.
  • the second document search technology there is no need to prepare data to be used as answers in advance. For this reason, it is possible to easily cope with the addition or change of the question type. Only However, with the second document search technology, the question is only a keyword or the question is ambiguous and the question type cannot be determined! In such a case, the answer result (search result) cannot be presented to the user.
  • the present invention utilizes a list of first summaries extracted from a document retrieved by a keyword retrieval method using a keyword extracted from a question, and a question answering retrieval method from the retrieved document.
  • the purpose is to be able to present the extracted summary of the second summary corresponding to the answer to the question to the user.
  • a question answering document search system that executes a document search in response to a search request in a question format.
  • the system searches for a related document based on a keyword extracted from a question as a query-type search request, and first describes a description related to the keyword included in the searched document.
  • Searching means for obtaining a document search result including a list of the extracted first summaries, question type determining means for analyzing the semantic role of the question and determining the question type of the question, Of the original text data constituting each document to be searched stored in the database, the question type determination is performed based on the original text data constituting each document indicated by the document search result obtained by the search means.
  • a summary extraction is performed to obtain a list of the second summary.
  • FIG. 1 is a block diagram showing a configuration of a computer system for realizing a question answering document search system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a question answering document search system realized by the computer system of FIG.
  • FIG. 3 is a flowchart showing a processing procedure of a search device 22 in the embodiment.
  • FIG. 4 is a flowchart showing a processing procedure of a question type determination unit 231 in the embodiment. It is a low chart.
  • FIG. 5 is a flowchart showing a processing procedure of a digest extraction unit 232 in the embodiment.
  • FIG. 6 is a diagram for explaining question type determination by a question type determination unit 231 performed using the type determination dictionary 204.
  • FIG. 7 is a diagram for explaining abstract extraction by an abstract extraction unit 232 performed using a type determination dictionary 204.
  • FIG. 8 is a view showing an example of a display screen in the embodiment.
  • FIG. 1 is a block diagram showing a hardware configuration of a computer system for realizing a question answering document search system according to an embodiment of the present invention.
  • the computer system shown in FIG. 1 includes a CPU 1, a storage device 2, a display device 3, and an input device 4.
  • the CPU 1 performs various processes related to document search and controls the entire system.
  • the storage device 2 includes, for example, a main memory and a disk drive (for example, a node disk drive). Here, how to use and divide the main memory and the disk drive is not directly related to the present invention, and therefore the description is omitted.
  • the storage device 2 is used to store various programs executed by the CPU 1.
  • the storage device 2 is also used to store an original sentence database 201, a word index 202, a morpheme dictionary 203, and a type determination dictionary 204.
  • the original sentence database 201 stores original sentence data (document data) constituting each of a plurality of documents to be searched.
  • the word index 202 is index information used to search for a document from a keyword.
  • the word index 202 indicates, for each word included in each document to be searched, a word including the word, a document included in the word, and a position in the document.
  • the morphological dictionary 203 is a dictionary used for morphological analysis of a question (question expressed in natural language) as a question-type proof request.
  • Morphological dictionary 2 03 includes, for each morpheme, a set of the morpheme and part-of-speech information indicating the POS of the morpheme.
  • the type determination dictionary 204 is used to analyze the semantic role of the question and determine the type of the question (question type).
  • the display device 3 includes a display represented by a liquid crystal display and a display controller for controlling the display.
  • the display device 3 is used to display an input field for inputting a document search request (for example, a question-type document search request), a search result for the search request, and the like.
  • Input device 4 includes a keyboard and a mouse. The input device 4 is used for inputting a document search request by a user's operation and for various selections.
  • FIG. 2 is a block diagram showing a configuration of a question answering document search system realized by the computer system of FIG.
  • This question answering type document search system mainly includes an interface 21, a search device 22, and an extract device 23.
  • the question answering document search system also includes an original sentence database 201, a word index 202, a morphological dictionary 203 and a type determination dictionary 204 appearing in FIG.
  • the interface 21, the search device 22 and the excerpt device 23 are realized by the CPU 1 shown in FIG. 1 executing a question answering type document search program.
  • the interface 21 has a function of receiving a search request (here, a search request in the form of a question) from a user and passing the search request to the search device 22.
  • a search request here, a search request in the form of a question
  • the interface 21 also has a function of receiving a search result from the search device 22 and passing the search result and a search request corresponding to the search result to the extraction device 23.
  • the interface 21 further has a function of receiving a list of summaries that meet the search request from the excerpt device 23 and displaying the list of summaries together with the search results from the search device 22 on the search result list screen by the display device 3.
  • the interface 21 includes a display order determination unit 210.
  • the search device 22 has a keyword extracting function of extracting a search request keyword in a question format passed from the interface 21.
  • the search device 22 also has a document search function for searching for a document including the extracted keyword using the word index 205.
  • a search using this keyword is called a keyword search.
  • a score based on the appearance rate of keywords is added. (That is, calculation of a score indicating the degree of relevance to the keyword).
  • the search device 22 selects the top M (M is an integer greater than 1) documents from the scored documents and interfaces the search results including the list of titles and summaries of the selected documents. Pass to 21.
  • the excerpt device 23 includes a question type determination unit 231 and a summary extraction unit 232.
  • the question type determination unit 231 determines the question type of the question by analyzing the semantic role (that is, the semantic role of the question) of the search request in the question format passed from the interface 21 based on the type determination dictionary 204. I do.
  • the summary extraction unit 232 specifies a sentence structure specific to the question type determined by the question type determination unit 231 based on the type determination dictionary 204.
  • the summary extraction unit 232 also extracts the sentence having the specified sentence structure from the original text data of up to M documents indicated by the search result passed from the interface 21.
  • the summary extraction unit 232 further scores each extracted sentence, and selects the top N (N is an integer satisfying N ⁇ M) sentences as a summary suitable for the question. The selected N summaries are passed to interface 21.
  • FIG. 3 is a flowchart showing a processing procedure of the search device 22
  • FIG. 4 is a flowchart showing a processing procedure of the question type determination unit 231
  • FIG. 5 is a flowchart showing a processing procedure of the digest extraction unit 232.
  • FIG. 6 is a diagram for explaining question type determination by the question type determination unit 231 performed using the type determination dictionary 204.
  • FIG. 7 is a diagram for explaining the abstract extraction by the abstract extraction unit 232 performed using the type determination dictionary 204
  • FIG. 8 is a diagram showing an example of a display screen.
  • a question input field 81 is displayed on the display screen of the display device 3 as shown in FIG.
  • This field 81 is used to enter a search request in the form of a question.
  • the user has performed an operation for inputting a question as a search request in a question format into the question input field 81.
  • This operation is performed using the input device 4.
  • a question 82 using a natural language for inquiring "the price of XXX", "How much is the price of XXX?" here
  • question 82 "How much is the price of XXX?", Is entered in Japanese. Therefore, FIG.
  • the question 82 input from the input device 4 is passed to the interface 21 as a question type search request.
  • the interface 21 passes the search request to the search device 22.
  • the search device 22 performs a morphological analysis of the search request in the question format passed from the interface 21, that is, the question 82, based on the morphological dictionary 203 (step Sl).
  • the question 82 "XXX no nedan wa ikura” is a morphological analysis like "ZXXX noun> + Zno k adjunct” Is done.
  • ⁇ noun>, ku adjunct, and ku adverb> indicate that the corresponding morphological power is a noun, adjunct and adverb, respectively.
  • the search device 22 extracts a keyword included in the question based on the result of the morphological analysis (step S2).
  • keywords whose part of speech is noun that is, "XXX” and “nedan” (that is, "price" are extracted.
  • the search device 22 performs a document search by a so-called keyword search method for searching for a document including the keyword extracted from the question 82 (step S3).
  • the search device 22 searches for a document including a keyword by referring to the word index 202.
  • the document search method using the word index 202 is conventionally well known as a method for searching a document including a keyword at high speed, and is not directly related to the present invention.
  • the search device 22 scores all the searched documents (step S4).
  • scoring is performed for each retrieved document based on the appearance rate of keywords in the document.
  • various methods of scoring the retrieved documents are conventionally known. For example, it is also possible to assign a score to each keyword term in advance and score the retrieved documents.
  • the search device 22 determines the M documents with the highest scores among all the searched documents as document search results in descending order of the score. To select (step S5). If the number of retrieved documents is less than M, all retrieved documents are selected. Here, it is also possible to select only documents exceeding a certain score as document search results in descending order of the score.
  • the search device 22 summarizes a description related to the keyword, for example, a sentence including the keyword, from each of all documents (here, M documents) selected in the order of score, into a summary (first summary). (Step S6).
  • the extraction of the first summary is performed for each of the M documents selected in the order of score by referring to the original sentence data stored in the original sentence database 201 and constituting the document.
  • the search device 22 passes the search result including the first summary of each of the M documents selected in the order of the score to the interface 21 (Step S7).
  • the interface 21 passes the search result to the extraction device 23 together with the search request in the above-described question format.
  • the question type determination unit 231 of the excerpt device 23 performs a morphological analysis on the search request in the question format passed from the interface 21, that is, the question 82 (step 11).
  • the morphological analysis result 61 for the question 82 “XXX no nedan wa ikura” (that is, “how much is the value of XXX?”), Ie, “ZXXX ⁇ noun> + Zno ⁇ Adjective> + Znedan noun> + / wa ⁇ adjunct> + / ikura ⁇ adverb> "
  • the question type determination unit 231 extracts the keywords included in the question 82 based on the morphological analysis result 61 (step 12).
  • the adverb "ikura” that is, "how much”
  • the noun "nedan” that is, "price”
  • the type determination dictionary 204 stores, for each predetermined question type, question type determination rule information serving as a keyword for determining the question type.
  • the type determination dictionary 204 stores question type determination rule information including question type determination rule information 204a and 204b, as shown in FIG.
  • the question type determination rule information 204a is used to determine a question type regarding a person.
  • This information 204a includes question type information indicating a question type regarding a person and word information unique to the question type regarding the person, for example, “who”.
  • information 204a is extracted from the question Indicates that the question type for a person is determined when "who" is included in the set of issued keywords.
  • the question type determination rule information 204b is used to determine a question type related to money, such as price and price.
  • This information 204b includes question type information indicating a question type related to money, and word information specific to the question type related to the money, for example, “price”, “price”, “amount” and “how much”.
  • Japanese information is used as the information 204b. Therefore, in FIG.
  • the information 204b includes a determination condition described as “(price I price I amount) & how much”.
  • "I” indicates an OR condition
  • "&” indicates an AND condition.
  • the information 204b indicates that if at least one of "price”, “price” or “amount” and "how much” are included in the set of keywords extracted from the question, Indicates that the question type is money. "Price”, “Price” and “Amount” are synonyms.
  • step S12 is performed by the question type determination unit 231, as shown in FIG. 6, pattern matching between the keyword extracted as the question power and the question type determination rule information stored in the type determination dictionary 204 is performed as shown in FIG. I do.
  • the question type determination unit 231 analyzes the semantic role of the question by using the pattern matching 62, and determines the question type representing the semantic role (step S13). Here, “value stage” and “how much” of the keywords extracted from the question hit “(price I price I amount) & how much” included in the question type determination rule information 204b. In this case, the question type determination unit 231 determines that the question type is "money”.
  • the question type determination unit 231 notifies the summary extraction unit 232 in the extraction device 23 of the determined question type (step S14). .
  • the abstract extraction unit 232 selects one unprocessed document among the M documents indicated by the search result passed from the interface 21 to the extraction device 23, and selects the unprocessed document stored in the original text database 201.
  • the original data constituting the document thus obtained is extracted (step S21).
  • the digest extraction unit 232 performs a morphological analysis on the extracted original text data based on the morphological dictionary 203 (step S22).
  • the original sentence data is ⁇ " ⁇ """ wa ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
  • the type determination dictionary 204 stores, in addition to the above-described question type determination rule information, sentence structure information indicating the sentence structure of a sentence that matches the question type for each predetermined question type. ing.
  • the sentence structure information 204c includes sentence structure information 204c unique to the question type related to a person and sentence structure information 204d unique to the question type related to money. Is stored.
  • the sentence structure information 204c includes a common Japanese sentence structure for sentences (descriptions) that are recommended as conforming to the question type when the question type is "person".
  • the sentence structure information 204d indicates a sentence structure common to a sentence (description) recommended as conforming to the question type ” ⁇ numeral> / ⁇ en I manen
  • a part of the sentence structure information 204d includes Japanese romaji notation " en “ (that is, “yen”), "manen” (that is, “million yen”), and "oku” (that is, "billion”) And “doru” (or “dollar”).
  • the sentence structure information 204d includes the sentence structure of "numerals + (yen or million yen or (billion + noun + yen) or dollar) + classifier"
  • the sentence can be extracted as a sentence that matches the question type regarding money.
  • step S23 the summary extraction unit 232, based on the morphological analysis result 72 in step S22, extracts each sentence extracted in step S21 and the sentence structure information unique to the question type determined by the question type determination unit 231.
  • the pattern matching 73 is performed (step S23).
  • pattern matching 73 between each sentence extracted in step S21 and the sentence structure information 204d of the sentence structure information for each question type stored in the type determination dictionary 204 is performed.
  • the summary extraction unit 232 extracts the matched sentence as a candidate for a sentence that matches the question type (that is, a sentence that matches the semantic role indicated by the question) (step S24).
  • the sentence 71 "XXX is released on December 1 and the price is from 1.25 million yen.” Of the "1.25 million yen" is the sentence structure indicated by the sentence structure information 204d.
  • the sentence 71 is extracted as a sentence candidate that matches the question type.
  • the abstract extraction unit 232 extracts, for example, a noun as a keyword from the question 82 (step S25).
  • the abstract extraction unit 232 selects a candidate including the keyword extracted in step S25 from the candidates (sentence 71) extracted in step S24 (step S26).
  • “XXX” and “price” are extracted as keywords from question 82, "What is the price of XXX?" "XXX" is included in the above sentence 71 ("XXX is released on December 1 and the price is as low as 1.25 million yen.”). Therefore, in step S25, the sentence 71, that is, "XXX is to be released on December 1 and the price is also 1.25 million yen" is selected.
  • the summary extraction unit 232 selects, from each sentence of the document searched by the search device 22, a sentence including a sentence structure specific to the question type of the question and including a keyword extracted from the question. Yes (step S23 to S26).
  • synonyms “price” and “amount” of “price” extracted as keywords from the question can also be used as keywords. This synonym is stored in the type determination dictionary 204, and is included in the question type determination rule information 204b relating to money.
  • the summary extraction unit 232 scores the selected sentence based on, for example, the appearance rate of the keyword as in step S4 (step S27). Summary extraction unit 232 The above steps S21 to S27 are repeated for the M document indicated by the search result (step S28). The summary extraction unit 232 then selects the top N sentences (N is an integer that satisfies N ⁇ M) from the scored sentences (candidates), and summarizes the recommended summaries (second summary) that match the question. ) Are selected, for example, in descending order of the score (step S29). If the number of scored sentences is less than N, all the scored sentences are selected. Here, it is also possible to select only sentences exceeding a certain score in descending order of the score. The summary extraction unit 232 passes the summaries selected in the order of the scores (here, the second summaries of the top N items) to the interface 21 (step S30).
  • the interface 21 displays the search result previously passed from the search device 22 and the second summary passed from the summary extraction unit 232 by the display controller of the display device 3 on the display device 3. Display on the screen.
  • the search result passed from the search device 22, that is, the search result including the list of the first summaries of the documents selected in the order of the score is displayed in the first area of the display screen. It is displayed on 83.
  • the second summary passed from the summary extraction unit 232 that is, a list of the second summary selected in the order of the score is displayed in the second area 84 of the display screen.
  • the display order determination unit 210 of the interface 21 determines the display order of the first summaries.
  • the display order is determined based on the score calculated when the search device 22 searches for a related document.
  • the interface 21 causes the first summary list to be displayed in the first area 83 of the display screen so as to have the determined display order (ie, the score order).
  • the display order determination unit 210 determines the display order of the second summary.
  • the display order is determined in the order of the score based on the score calculated when the second abstract is extracted by the abstract extracting unit 232.
  • the interface 21 displays a list of the second summaries in the second area 84 of the display screen so as to have the determined display order (that is, score order).
  • the determined display order that is, score order.
  • the list is divided and displayed.
  • the first or second summary corresponding to the group with the highest score is displayed first.
  • the group with the next highest score Is switched to the first or second summary display corresponding to.
  • the search device 22 is configured to pass a list of the first summaries (and titles) arranged in the order of the scores to the interface 21 in the order of the score
  • the display is performed.
  • the ranking determining unit 210 can determine the display order of the first summary (and title) without being aware of the score in the order of the score.
  • the summary extracting unit 232 is configured to pass a second summary list in which the second summary is arranged in the score order to the interface 21, the display order determination unit 210 determines the score.
  • the display order of the second summary without being aware can be determined in the order of the score.
  • a document is searched by a keyword search method using a keyword input from the question as a search request in the question format, which is input to the question input field 81. Then, a first summary, which is a description related to the keyword, is extracted from each of the top M documents among the retrieved documents. The extracted first summary power is displayed in the first area 83 of the display screen in the order of score. In addition, a description corresponding to the answer that matches the question type is extracted from each of the M documents. This question type is determined by analyzing the semantic role of the question using a question answer search method.
  • the description (sentence) power of each of the top N of the descriptions of each of the M documents described above is extracted as the second summary corresponding to the answer to the question.
  • the extracted second summary is displayed in the second area 84 of the display screen in the order of score.
  • the list of the second summary is explicitly presented to the user. You. Thus, users can easily access the information they are looking for from the second summary list. Further, in the present embodiment, since the process of the question and answer search is performed only for the document indicated by the document search result, it is possible to suppress a decrease in the response time in the question and answer search. Further, in the present embodiment, it is possible to refer to two types of summary lists having different properties, that is, the first summary list and the second summary list in order of the score and the summary power. You can easily find and access information. Here, when the user performs an operation of selecting a desired summary from the first or second summary list, the document corresponding to the summary can be displayed. The
  • the description related to the document strength keyword is described only when the second summaries cannot be found from the document indicated by the document search result. It could be extracted as one summary and displayed as an alternative to the second summary. However, this presentation method cannot distinguish between the first summary and the second summary. It is also conceivable to display the first and second summaries extracted from the same document as a set. However, in this display method, whether the display order is the score order calculated when the document is searched or the score order calculated when the second summary is extracted, the first order is used. Or one of the second summaries is not ordered by score. This makes it difficult for users to use.
  • the display device 3 and the input device 4 and the processing section (the interface 21, the search device 22, and the extraction device 23) for performing a document search according to the document search request input from the input device 4 are included. It is assumed that they exist in the same computer system.
  • the display device 3 and the input device 4 may be provided in, for example, a client terminal
  • the processing section may be provided in, for example, a search server computer connected to the client terminal via a network.
  • the original database 201 may be provided in a database server computer connected to the search server computer via, for example, a network.
  • a document strength searched by a keyword search method using a keyword extracted from a question is used.
  • a list of the extracted first summaries, and the searched document strength, a question response search method are used.
  • the list of the second summaries corresponding to the questions extracted in this manner can be presented to the user, and the user can easily access the information they are looking for.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 検索デバイス(22)は、利用者からの質問形式の検索要求としての質問に含まれているキーワードに基づいて関連する文書を検索する。検索デバイス(22)は、検索された文書に含まれている、上記キーワードに関連した記述を第1の要約として抽出する。要約抽出ユニット(232)は、原文データベース(201)に格納されている検索対象となる各文書を構成する原文データのうちの、上記文書検索結果により示される各文書をそれぞれ構成する原文データから、質問タイプ判定ユニット(231)によって判定された上記質問の質問タイプに適合する回答に相当する記述を第2の要約として抽出する。インタフェース(21)は、抽出された第1の要約の一覧を含む文書検索結果と抽出された第2の要約の一覧とを表示デバイスに表示させる。

Description

明 細 書
質問応答型文書検索のためのシステム及び方法
技術分野
[0001] 本発明は、利用者力 の質問形式の検索要求としての質問の意味役割 (SR)を解 祈して、その質問に対する回答となる記述を文書力 抽出し、抽出された記述を表示 画面を介して利用者に提示するのに好適な、質問応答型文書検索のためのシステ ム及び方法にに関する。
背景技術
[0002] 従来から、利用者からの検索要求に応じて文書を検索する文書検索システムが種 々開発されている。この種の文書検索システムとして、フルテキストサーチ手法、或い は形態素解析手法を利用して、単語ベースで文書を検索する文書検索システムが 知られている。ところが、 1つの検索要求を満たす文書の数と文書データの量は膨大 である。この場合、利用者は、検索された膨大な数の文書の各々の内容を表示画面 上で確認し、その中力 必要な文書を選定するか、或いは必要な情報を取り出さな ければならない。そこで近年は、この利用者の手間を省くために、検索された各文書 のタイトル、作成者等の文書情報と併せて、当該文書の要約 (或いは抄録)の一覧を 表示するユーザインタフェースが開発されている。ここで要約には、検索された文書 中の、利用者が指定したキーワードを含む文、或いは検索された文書中の先頭の文 等が用いられるのが一般的である。
[0003] しかし、表示された各文書の要約が利用者に必要なものであるかは、利用者の観 点の相異ゃ個人差に左右される。そこで特開平 8— 255172号公報 (文献 1)は、次の ような文書検索技術を開示している。この文献 1に記載された文書検索技術では、検 索の対象となる多数の文書の各々について、当該文書を構成する文書データ (原文 データ)から、文または情報が抜粋文 (抜粋文データ)として抽出される。ここでは、抜 粋文データは、原文データベースに格納されている各文書の原文データから、文型 と呼ばれる、様々な観点または基準に基づいて、文型毎に予め抽出される。文型毎 に抽出された抜粋文データは、文書単位でデータベース (抜粋文データベース)に 格納される。そして、検索された文書の文書データから抽出された抜粋文データのう ち、利用者が選択した文型に合致する抜粋文データの一覧が表示される。このような 文書検索技術によれば、利用者の必要とする可能性の高!、抜粋文 (要約)を表示で きる。
[0004] 一方、特開 2002 - 132811号公報 (文献 2)は、次のような質問応答型文書検索技 術を開示している。この文献 2に記載された文書検索技術では、検索システム (質問 応答型文書検索システム)に対して、利用者力 の質問形式の検索要求が与えられ る。この質問形式の検索要求は、例えば" XXXの値段はいくらか?"とカ 'YYY社の 社長は誰か?"という自然言語による検索要求、つまり質問である。ここでは、質問か ら、検索語集合と質問種別とが判定される。次に、検索語集合と質問種別とに基づい て文書集合力 関連文書集合が検索される。次に、関連文書集合から質問に対する 回答 (単語)が抽出される。そして、抽出された回答と当該回答を含む文書 (または当 該文書の文書番号)との組が、質問に対する回答結果として、検索システムによって 利用者に提示される。
発明の開示
[0005] 上記したように、文献 1に記載された文書検索技術 (以下、第 1の文書検索技術と 称する)においては、検索された文書の文書データから抽出された抜粋文データのう ち、利用者が選択した文型に合致する抜粋文データの一覧が表示される。これにより 、利用者の必要とする可能性の高い抜粋文 (要約)を表示でき、利用者の文書検索 作業に要する負荷を軽減できる。しかし、第 1の文書検索技術において、抜粋文 (要 約)として用いられる抜粋文データは、原文データベースに格納されている各文書の 原文データ力 文型毎に予め抽出される。このため第 1の文書検索技術は、文型の 追カ卩 ·変更に対応できな 、。
[0006] 一方、特許文献 2に記載された質問応答型文書検索技術 (以下、第 2の文書検索 技術と称する)にお 、ては、質問(自然言語による検索要求)に対する直接的な回答 とその回答の元となった文書とが利用者に提示される。このため利用者は、回答の信 頼性を確認できる。また第 2の文書検索技術では、回答として用いられるデータを予 め用意する必要がない。このため、質問種別の追加'変更に容易に対応できる。しか し、第 2の文書検索技術では、質問がキーワードだけとか、質問が曖昧で質問種別を 判定できな!、場合には、回答結果 (検索結果)を利用者に提示できな ヽ。
[0007] 本発明は、質問から抽出されたキーワードを用いてキーワード検索手法により検索 された文書から抽出された第 1の要約の一覧と、当該検索された文書から質問応答 検索手法を利用して抽出された、質問に対する回答に相当する第 2の要約の一覧と を、それぞれ利用者に提示できるようにすることを目的とする。
[0008] 本発明の 1つの観点によれば、質問形式の検索要求に応じて文書検索を実行する 質問応答型文書検索システムが提供される。このシステムは、質問形式の検索要求 としての質問から抽出されたキーワードに基づいて関連する文書を検索して、検索さ れた文書に含まれている、前記キーワードに関連した記述を第 1の要約として抽出し 、抽出された第 1の要約の一覧を含む文書検索結果を取得する検索手段と、前記質 問の意味役割を分析して当該質問の質問タイプを判定する質問タイプ判定手段と、 原文データベースに格納されている検索対象となる各文書を構成する原文データの うちの、前記検索手段により取得された文書検索結果により示される各文書をそれぞ れ構成する原文データから、前記質問タイプ判定手段によって判定された質問タイ プに適合する回答に相当する記述を第 2の要約として抽出することにより、当該第 2 の要約の一覧を取得する要約抽出手段と、前記検索手段により取得された第 1の要 約の一覧を含む文書検索結果と前記要約抽出手段により取得された第 2の要約の 一覧とを前記検索要求に対する応答として検索要求元の表示手段の表示画面に表 示させるインタフェース手段とを備えて 、る。
図面の簡単な説明
[0009] [図 1]図 1は、本発明の一実施形態に係る質問応答型文書検索システムを実現する 計算機システムの構成を示すブロック図である。
[図 2]図 2は、図 1の計算機システムによって実現される質問応答型文書検索システ ムの構成を示すブロック図である。
[図 3]図 3は、同実施形態における検索デバイス 22の処理手順を示すフローチャート である。
[図 4]図 4は、同実施形態における質問タイプ判定ユニット 231の処理手順を示すフ ローチャートである。
[図 5]図 5は、同実施形態における要約抽出ユニット 232の処理手順を示すフローチ ヤートである。
[図 6]図 6は、型判定辞書 204を利用して行われる質問タイプ判定ユニット 231による 質問タイプ判定を説明するための図である。
[図 7]図 7は、型判定辞書 204を利用して行われる要約抽出ユニット 232による要約 抽出を説明するための図である。
[図 8]図 8は、同実施形態における表示画面例を示す図である。
発明を実施するための最良の形態
[0010] 以下、本発明の一実施形態につき図面を参照して説明する。図 1は本発明の一実 施形態に係る質問応答型文書検索システムを実現する計算機システムのハードゥエ ァ構成を示すブロック図である。図 1に示す計算機システムは、 CPU1と、記憶デバィ ス 2と、表示デバイス 3と、入力デバイス 4とから構成される。 CPU1は、文書検索に関 係する各種処理及びシステム全体の制御を行う。記憶デバイス 2は、例えば主メモリ 及びディスクドライブ (例えばノヽードディスクドライブ)を含む。ここで、主メモリ及びディ スクドライブをどのように使 、分けるかにつ 、ては、本発明に直接関係しな 、ため説 明を省略する。記憶デバイス 2は、 CPU1によって実行される各種プログラムを格納 するのに用いられる。このプログラムの 1つは、質問応答型文書検索を実現するため の質問応答型文書検索プログラムである。なお、質問応答型文書検索プログラムが 独立のプログラムではなくて、 1つのアプリケーションプログラムの一要素であっても 構わない。記憶デバイス 2はまた、原文データベース 201、単語インデックス 202、形 態素辞書 203、及び型判定辞書 204を格納するのに用いられる。
[0011] 原文データベース 201は、検索の対象となる複数の文書の各々を構成する原文デ ータ(文書データ)を格納する。単語インデックス 202は、キーワードから文書を検索 するのに用いられるインデックス情報である。単語インデックス 202は、検索の対象と なる各文書に含まれて 、る単語にっ 、て、その単語が含まれて 、る文書と当該文書 中の位置とを示す。形態素辞書 203は、質問形式の検束要求としての質問(つまり自 然言語で表される質問)を形態素解析するのに用いられる辞書である。形態素辞書 2 03は、形態素毎に、当該形態素と当該形態素の品詞を示す品詞情報との組を含む 。型判定辞書 204は、質問の意味役割を解析して質問の型 (質問タイプ)を判定する のに用いられる。 表示デバイス 3は、液晶ディスプレイに代表される表示器及び当 該表示器を制御する表示コントローラを含む。表示デバイス 3は、文書検索要求 (例 えば質問形式の文書検索要求)を入力するための入力フィールド、及び当該検索要 求に対する検索結果等を表示するのに用いられる。入力デバイス 4は、キーボード及 びマウスを含む。入力デバイス 4は、利用者の操作による文書検索要求の入力及び 各種の選択等に用いられる。
[0012] 図 2は、図 1の計算機システムによって実現される質問応答型文書検索システムの 構成を示すブロック図である。この質問応答型文書検索システムは、主として、インタ フェース 21、検索デバイス 22及び抜粋デバイス 23から構成される。この質問応答型 文書検索システムはまた、図 1に現れる原文データベース 201、単語インデックス 20 2、形態素辞書 203及び型判定辞書 204を含む。インタフェース 21、検索デバイス 2 2及び抜粋デバイス 23は、図 1に現れる CPU1が質問応答型文書検索プログラムを 実行することにより実現される。インタフェース 21は、利用者からの検索要求 (ここで は質問形式の検索要求)を受け付けて、当該検索要求を検索デバイス 22に渡す機 能を有する。この検索要求は、利用者が図 1に現れる入力デバイス 4を操作すること により、当該入力デバイス 4から入力される。インタフェース 21はまた、検索デバイス 2 2から検索結果を受け取って、当該検索結果と当該検索結果に対応する検索要求と を抜粋デバイス 23に渡す機能を有する。インタフェース 21は更に、抜粋デバイス 23 から検索要求に適合する要約の一覧を受け取って、当該要約の一覧を検索デバィ ス 22からの検索結果と共に、表示デバイス 3によって検索結果一覧画面に表示させ る機能を有する。インタフェース 21は表示順位決定ユニット 210を含む。
[0013] 検索デバイス 22は、インタフェース 21から渡された質問形式の検索要求力 キーヮ ードを抽出するキーワード抽出機能を有する。検索デバイス 22はまた、抽出されたキ 一ワードを含む文書を単語インデックス 205を用いて検索する文書検索機能を有す る。このキーワードを利用した検索を、キーワード検索と称する。ここでは、キーワード 検索によって検索される文書に対して、例えばキーワードの出現率に基づくスコア付 け (つまりキーワードとの関連性の度合いを表すスコアの計算)が行われる。検索デバ イス 22は、スコア付けされた文書の中から上位 M件(Mは 1を超える整数)の文書を 選択し、当該選択された文書のタイトル及び要約の一覧を含む検索結果をインタフエ ース 21に渡す。
[0014] 抜粋デバイス 23は、質問タイプ判定ユニット 231と、要約抽出ユニット 232とを含む 。質問タイプ判定ユニット 231は、インタフェース 21から渡された質問形式の検索要 求の意味役割 (つまり質問の意味役割)を、型判定辞書 204に基づいて解析すること により、当該質問の質問タイプを判定する。要約抽出ユニット 232は、質問タイプ判 定ユニット 231によって判定された質問タイプに固有の文構造を型判定辞書 204に 基づいて特定する。要約抽出ユニット 232はまた、特定された文構造を持つ文を、ィ ンタフエース 21から渡された検索結果により示される最大 M件の文書の原文データ 力も抽出する。要約抽出ユニット 232は更に、抽出された各文に対してスコア付けを 行って、上位 N件 (Nは N≤Mを満足する整数)の文を、質問に適合した要約として 選択する。選択された N件の要約はインタフェース 21に渡される。
[0015] 次に、本実施形態の動作について、利用者の操作により入力デバイス 4から質問形 式の検索要求が入力された場合の動作を例に、図 3乃至図 8を参照して説明する。 なお、図 3は検索デバイス 22の処理手順を示すフローチャートであり、図 4は質問タ ィプ判定ユニット 231の処理手順を示すフローチャートである、図 5は要約抽出ュ- ット 232の処理手順を示すフローチャートであり、図 6は型判定辞書 204を利用して 行われる質問タイプ判定ユニット 231による質問タイプ判定を説明するための図であ る。図 7は型判定辞書 204を利用して行われる要約抽出ユニット 232による要約抽出 を説明するための図であり、図 8は表示画面例を示す図である。
[0016] まず、図 8に示すように、表示デバイス 3の表示画面上に、質問入力フィールド 81が 表示されているものとする。このフィールド 81は、質問形式の検索要求を入力するの に用いられる。今、利用者が、質問形式の検索要求としての質問を質問入力フィー ルド 81に入力するための操作を行ったものとする。この操作は、入力デバイス 4を用 いて行われる。ここでは、図 8に示すように、 "XXXの値段はいくら?"という、 "XXXの 値段"を問い合わせるための自然言語を用いた質問 82が入力されたものとする。ここ では、この質問 82、つまり" XXXの値段はいくら? "が日本語で入力された場合を想 定する。そこで、図 8には、質問 82として、 "XXXの値段はいくら?"に対応する日本 語のローマ字表記" XXX no nedan wa ikura"も併せて示されている。ローマ字表記" nedan"及び" ikura "力 それぞれ"値段"及び"!/、くら"に対応する。入力デバイス 4か ら入力された質問 82は、質問形式の検索要求として、インタフェース 21に渡される。 インタフェース 21は、入力デバイス 4から渡された質問形式の検索要求を受け付ける と、当該検索要求を検索デバイス 22に渡す。
[0017] 検索デバイス 22は、インタフェース 21から渡された質問形式の検索要求、つまり質 問 82を、形態素辞書 203に基づいて形態素解析する (ステップ Sl)。ここでは、質問 82、即ち" XXX no nedan wa ikura"は、 "ZXXXく名詞 > +Znoく付属語 > +Z nedan<名詞 > +Zwa<付属語 > +Zikura<副詞 > "のように形態素解析される。 この形態素解析結果中の <名詞 >、く付属語〉及びく副詞〉は、対応する形態素 力 それぞれ名詞、付属語及び副詞であることを示す。次に検索デバイス 22は、質 問に含まれて 、るキーワードを形態素解析結果に基づ 、て抽出する (ステップ S 2)。 ここでは、品詞が名詞のキーワード、即ち" XXX"及び" nedan" (つまり"値段")が抽 出される。
[0018] 次に検索デバイス 22は、質問 82から抽出されたキーワードを含む文書を検索する ための、いわゆるキーワード検索手法による文書検索を行う(ステップ S3)。ここでは 検索デバイス 22は、単語インデックス 202を参照することにより、キーワードを含む文 書を検索する。この単語インデックス 202を用いた文書検索手法は、キーワードを含 む文書を高速に検索するための手法として従来力 良く知られており、本発明に直 接関係しないため詳細な説明は省略する。
[0019] 次に検索デバイス 22は、検索された全文書に対してスコア付けを行う(ステップ S4) 。ここでは、 "TFIDF"と呼ばれる従来から知られているアルゴリズムを用いて、検索さ れた文書毎に、その文書中におけるキーワードの出現率に基づいてスコア付けが行 われる。なお、 "TFIDF"以外にも、検索された文書に対するスコア付けの方法は従 来力も種々知られている。例えば、キーワードとなる用語毎に予めスコアを与えてお V、て、検索された文書のスコア付けを行うことも可能である。 [0020] 検索デバイス 22は、検索された全文書に対するスコア付けの結果に基づ 、て、検 索された全文書の中から、スコアが上位の M件をスコアの高い順に文書検索結果と して選択する (ステップ S5)。なお、検索された文書の数が Mに満たない場合には、 検索された全文書が選択される。ここで、一定のスコアを越えた文書だけをスコアの 高い順に文書検索結果として選択することも可能である。
[0021] 次に検索デバイス 22は、スコア順に選択された全文書 (ここでは M文書)の各々か ら、上記キーワードに関連する記述、例えば当該キーワードを含む文を、要約(第 1 の要約)として抽出する (ステップ S6)。この第 1の要約の抽出は、スコア順に選択さ れた M文書の各々について、原文データベース 201に格納されている当該文書を 構成する原文データを参照することにより行われる。検索デバイス 22は、スコア順に 選択された M文書の各々の第 1の要約を含む検索結果をインタフェース 21に渡す( ステップ S7)。インタフェース 21は、検索デバイス 22から検索結果を受け取ると、そ の検索結果を、上記質問形式の検索要求と共に抜粋デバイス 23に渡す。
[0022] すると、抜粋デバイス 23の質問タイプ判定ユニット 231は、インタフェース 21から渡 された質問形式の検索要求、つまり質問 82を形態素解析する (ステップ 11)。これに より、図 6に示すように、質問 82である" XXX no nedan wa ikura" (つまり、 "XXXの値 段はいくら?")に対する形態素解析結果 61、即ち" ZXXX<名詞 > + Zno <付属 語〉 + Znedanく名詞 > + /wa<付属語 > + /ikura<副詞 > "が得られる。次に 質問タイプ判定ユニット 231は、質問 82に含まれているキーワードを形態素解析結 果 61に基づいて抽出する(ステップ 12)。ここでは、名詞" XXX"及び名詞" nedan" ( つまり"値段")だけでなぐ副詞" ikura" (つまり"いくら")も抽出される。
[0023] さて、型判定辞書 204には、予め定められた質問タイプ別に、その質問タイプを判 定するキーワードとなる質問タイプ判定ルール情報が格納されて 、る。本実施形態 では、型判定辞書 204には、図 6に示されるように、質問タイプ判定ルール情報 204 a及び 204bを含む質問タイプ判定ルール情報が格納されて ヽる。質問タイプ判定ル ール情報 204aは、人物に関する質問タイプを判定するのに用いられる。この情報 20 4aは、人物に関する質問タイプを示す質問タイプ情報と、当該人物に関する質問タ イブに固有の単語情報、例えば"誰"を含む。この例では、情報 204aは、質問から抽 出されたキーワードの集合の中に、 "誰"が含まれている場合に、人物に関する質問 タイプであると判定されることを示す。一方、質問タイプ判定ルール情報 204bは、値 段、価格等のお金に関する質問タイプを判定するのに用いられる。この情報 204bは 、お金に関する質問タイプを示す質問タイプ情報と、当該お金に関する質問タイプに 固有の単語情報、例えば"値段", "価格", "金額"及び"いくら"とを含む。本実施形 態では、情報 204bとして日本語の情報が用いられる。そこで、図 6には、情報 204b に含まれる単語情報としての"値段", "価格", "金額"及び"いくら"に関し、それぞれ 、 日本語のローマ字表記" nedan" (つまり"値段") , "kakaku" (つまり"価格") , " kingaku" (つまり"金額")及び" ikura" (つまり"!/、くら")が併記されて 、る。この例では 、情報 204bは、 " (値段 I価格 I金額) &いくら"のように記述された判定条件を含む 。ここで、 " I "は OR条件を、 "&"は AND条件を示す。この場合、情報 204bは、質 問から抽出されたキーワードの集合の中に、 "値段", "価格"または"金額"のうちの 少なくとも 1つと"いくら"とが共に含まれている場合に、お金に関する質問タイプであ ると判定されることを示す。 "値段", "価格"及び"金額"は類義語である。
[0024] 質問タイプ判定ユニット 231はステップ S 12を実行すると、図 6に示すように、質問 力 抽出されたキーワードと型判定辞書 204に格納されている質問タイプ判定ルー ル情報とのパターンマッチング 62を行う。質問タイプ判定ユニット 231は、このパター ンマッチング 62によって質問の意味役割を解析して、その意味役割を表す質問タイ プを判定する (ステップ S13)。ここでは、質問から抽出されたキーワードのうちの"値 段"及び"いくら"が、質問タイプ判定ルール情報 204bに含まれている" (値段 I価格 I金額) &いくら"にヒットする。この場合、質問タイプ判定ユニット 231は、質問タイプ 力 お金"であると判定する。質問タイプ判定ユニット 231は、判定された質問タイプを 抜粋デバイス 23内の要約抽出ユニット 232に通知する(ステップ S14)。
[0025] 要約抽出ユニット 232は、インタフェース 21から抜粋デバイス 23に渡された検索結 果の示す M文書のうちの未処理の 1文書を選択し、原文データベース 201に格納さ れている、当該選択された文書を構成する原文データを取り出す (ステップ S21)。次 に要約抽出ユニット 232は、取り出された原文データを、形態素辞書 203に基づいて 形態素解析する (ステップ S 22)。ここでは、原文データが、図 7に示すように、日本語 の口■ ~"マ字表己で" XXX wa 12 gatsu 1 nichi hatsubai de, kakaku wa 125 manen karadesu. " (つまり、 "XXXは 12月 1日発売で、価格は 125万円力もです。 ")という 文 71を含むものとすると、この文 71に対する形態素解析結果 72は、 "ZXXXく名詞 > +wa<付属語 > Z 12 <数詞 > Zgatsu <助数詞 > Z 1 <数詞 > Znichi <助数 詞 > Zhatsubai <名詞 > + de <付属語 > Z , <句読点 > Zkakaku <名詞 > + wa <付属語 > Z 125 <数詞 > Zmanen <助数詞 > + karadesu <付属語 > / . <句読 点 > "となる。
[0026] さて、型判定辞書 204には、上記した質問タイプ判定ルール情報の他に、予め定 められた質問タイプ別に、その質問タイプに適合する文の文構造を示す文構造情報 が格納されている。本実施形態では、型判定辞書 204には、図 7に示されるように、 人物に関する質問タイプに固有の文構造情報 204cと、お金に関する質問タイプに 固有の文構造情報 204dとを含む文構造情報が格納されて 、る。文構造情報 204c は、質問タイプが"人物"である場合に、その質問タイプに適合するとして推奨される 文 (記述)に共通の日本語の文構造" { (く姓 (固有名詞)〉 Iく名(固有名詞)〉 I く 人名接尾語〉 Iく姓接尾語〉 }Z (kunく接尾語〉 I ujiく接尾語〉)"を示す。ここ で、 "kun"及び" uji"は、英語の" Mr."或いは" Mrs."に相当する。但し、 "kun"或いは" uji"は、 "姓(固有名詞) "または"名(固有名詞) "等の後ろに付して用いられる。また、 " I "及び"/"は、それぞれ OR条件及び AND条件を示す。この文構造情報 204c により、 "{ <姓 (固有名詞) >またはく名(固有名詞)またはく人名接尾語〉またはく 姓接尾語〉 } + { (kunく接尾語〉)または (ujiく接尾語〉) } "の文構造を含む文を、 人物に関する質問タイプに適合する文として抽出することが可能となる。
[0027] 一方、文構造情報 204dは、質問タイプが"お金"である場合に、その質問タイプに 適合するとして推奨される文 (記述)に共通の文構造" <数詞 >/ {en I manen | oku く名詞〉/ en I doru}く助数詞〉"(つまり、 "く数詞〉/ (円 |万円 |億く名詞〉 Z円 Iドル)く助数詞〉")を示す。ここでは、文構造情報 204dの一部に、便宜的に 日本語のローマ字表記" en" (つまり"円"), "manen" (つまり"万円") , "oku" (つまり" 億")及び" doru" (つまり"ドル")が用いられている。この文構造情報 204dにより、 "数 詞 + (円または万円または (億 +名詞 +円)またはドル) +助数詞"の文構造を含む 文を、お金に関する質問タイプに適合する文として抽出することが可能となる。
[0028] 要約抽出ユニット 232はステップ S21で取り出された原文データの各文(つまり、検 索デバイス 22によって検索された文書の各文)を形態素解析すると (ステップ S22)、 ステップ S23の処理に進む。ステップ S23において、要約抽出ユニット 232は、ステツ プ S22での形態素解析結果 72に基づき、ステップ S21で取り出された各文と、質問 タイプ判定ユニット 231によって判定された質問タイプに固有の文構造情報とのバタ ーンマッチング 73を行う(ステップ S23)。ここでは、ステップ S21で取り出された各文 と、型判定辞書 204に格納されている質問タイプ毎の文構造情報のうちの文構造情 報 204dとのパターンマッチング 73が行われる。このパターンマッチング 73により、要 約抽出ユニット 232は、マッチングのとれた文を、質問タイプに適合する文(つまり質 問の示す意味役割に適合する文)の候補として抽出する (ステップ S24)。ここでは、 図 7に示すように、文 71である" XXXは 12月 1日発売で、価格は 125万円からです。 "のうちの" 125万円"が文構造情報 204dの示す文構造にヒットすることから、当該文 71が質問タイプに適合する文の候補として抽出される。次に要約抽出ユニット 232は 、質問 82から例えば名詞をキーワードとして抽出する (ステップ S25)。そして要約抽 出ユニット 232は、ステップ S 24で抽出された候補 (文 71)の中から、ステップ S25で 抽出されたキーワードを含む候補を選択する (ステップ S26)。ここでは、質問 82であ る" XXXの値段はいくら? "から" XXX"及び"値段"がキーワードとして抽出される。 " XXX"は上記文 71 ("XXXは 12月 1日発売で、価格は 125万円力もです。 ")に含ま れている。したがって、ステップ S25では、文 71、つまり" XXXは 12月 1日発売で、価 格は 125万円力もです。 "が選択される。このように要約抽出ユニット 232は、検索デ バイス 22によって検索された文書の各文の中から、質問の質問タイプに固有の文構 造を含み、且つ質問から抽出されたキーワードを含む文を選択する (ステップ S23乃 至 S26)。なお、質問からキーワードとして抽出された"値段"の類義語"価格"及び" 金額"もキーワードとして用いることが可能である。この類義語は、型判定辞書 204に 格納されて 、る、お金に関する質問タイプ判定ルール情報 204bに含まれて 、る。
[0029] 要約抽出ユニット 232は、選択された文に対し、例えばステップ S4と同様にキーヮ ードの出現率に基づいてスコア付けを行う(ステップ S27)。要約抽出ユニット 232は 、以上のステップ S21乃至 S27を、検索結果の示す M文書について繰り返す (ステツ プ S28)。そして要約抽出ユニット 232は、スコア付けされた文 (候補)の中から上位 N 件 (Nは N≤Mを満足する整数)の文を、質問に適合した推奨すべき要約 (第 2の要 約)として例えばスコアの高い順に選択する (ステップ S29)。なお、スコア付けされた 文の数が Nに満たない場合には、当該スコア付けされた全ての文が選択される。ここ で、一定のスコアを越えた文だけをスコアの高い順に選択することも可能である。要 約抽出ユニット 232は、スコア順に選択された要約(ここでは上位 N件の第 2の要約) をインタフェース 21に渡す (ステップ S30)。
[0030] インタフェース 21は、先に検索デバイス 22から渡された検索結果と要約抽出ュ-ッ ト 232から渡された第 2の要約とを、表示デバイス 3の表示コントローラにより当該表示 デバイス 3の表示画面に表示させる。ここでは、図 8に示すように、検索デバイス 22か ら渡された検索結果、即ちスコア順に選択された文書の各々の第 1の要約の一覧を 含む検索結果が、表示画面の第 1の領域 83に表示される。また、要約抽出ユニット 2 32から渡された第 2の要約、即ちスコア順に選択された第 2の要約の一覧が、表示画 面の第 2の領域 84に表示される。
[0031] さて、第 1の要約の一覧を含む検索結果が表示されるに際し、インタフェース 21の 表示順位決定ユニット 210は、当該第 1の要約の表示順位を決定する。この表示順 位は、検索デバイス 22によって関連する文書が検索される際に計算されたスコアに 基づいて、スコア順に決定される。インタフェース 21は、この決定された表示順位(つ まりスコア順)となるように、第 1の要約の一覧を、表示画面の第 1の領域 83に表示さ せる。同様に、第 2の要約の一覧が表示される際、表示順位決定ユニット 210は、当 該第 2の要約の表示順位を決定する。この表示順位は、要約抽出ユニット 232によつ て当該第 2の要約が抽出される際に計算されたスコアに基づいて、スコア順に決定さ れる。インタフェース 21は、この決定された表示順位 (つまりスコア順)となるように、第 2の要約の一覧を、表示画面の第 2の領域 84に表示させる。ここで、第 1または第 2の 要約の一覧の全てを一度に表示できない場合、当該一覧は分割して表示される。こ こでは、最初は最もスコアが高いグループに対応する第 1または第 2の要約が表示さ れる。そして、利用者力 要約の切り替えが指示されると、次にスコアが高いグループ に対応する第 1または第 2の要約の表示に切り替えられる。
[0032] なお、検索デバイス 22からインタフェース 21に対して、第 1の要約(及びタイトル)が スコア順に配置された、第 1の要約 (及びタイトル)の一覧が渡される構成とするなら ば、表示順位決定ユニット 210はスコアを意識することなぐ第 1の要約 (及びタイトル )の表示順位をスコア順に決定できる。同様に、要約抽出ユニット 232からインタフエ ース 21に対して、第 2の要約がスコア順に配置された、第 2の要約の一覧が渡される 構成とするならば、表示順位決定ユニット 210はスコアを意識することなぐ第 2の要 約の表示順位をスコア順に決定できる。
[0033] 上述したように本実施形態においては、質問入力フィールド 81に入力された、質問 形式の検索要求としての質問から抽出されたキーワードを用いて、キーワード検索手 法により文書が検索される。そして、検索された文書のうちの上位 M文書の各々から キーワードに関連した記述である第 1の要約が抽出される。この抽出された第 1の要 約力 表示画面の第 1の領域 83にスコア順に表示される。また、上記 M文書の各々 から、質問タイプに適合する回答に相当する記述が抽出される。この質問タイプは、 質問応答検索手法を利用して、質問の意味役割を解析することによって判定される。 そして、上記 M文書の各々力 抽出された記述のうちの上位 N件の記述 (文)力 そ れぞれ質問に対する回答に相当する第 2の要約として抽出される。この抽出された第 2の要約が、表示画面の第 2の領域 84にスコア順に表示される。
[0034] このように本実施形態においては、質問応答検索で質問に対する回答に相当する 記述を第 2の要約として探し出せた場合には、第 2の要約の一覧が利用者に明示的 に提示される。このため、利用者は第 2の要約の一覧から、自身が探している情報に 容易にアクセスできる。また本実施形態においては、文書検索結果により示される文 書に対してのみに質問応答検索の処理が行われるため、質問応答検索における応 答時間の低下を抑えることができる。また本実施形態においては、性質の異なる 2種 の要約一覧、即ち第 1の要約の一覧及び第 2の要約の一覧の各々について、スコア の高 、要約力 順に参照することが可能となるため、探して 、る情報に容易にァクセ スすることができる。ここで、利用者が、第 1または第 2の要約の一覧から所望の要約 を選択する操作を行うことで、その要約に対応する文書を表示させることも可能であ る。
[0035] なお、第 2の要約の一覧だけを表示することを基本とし、文書検索結果により示され る文書から第 2の要約を探し出せなかった場合だけ、その文書力 キーワードに関連 した記述を第 1の要約として抽出して、第 2の要約に代わる要約として表示することが 考えられる。しかし、この表示手法では、第 1の要約と第 2の要約とが区別できない。 また、同一文書から抽出された第 1及び第 2の要約を組にして表示することも考えら れる。しかし、この表示手法では、表示順を、文書が検索される際に計算されたスコ ァ順、または第 2の要約が抽出される際に計算されたスコア順のいずれにするとして も、第 1または第 2の要約の一方はスコア順とはならない。このため、利用者にとって 利用しにくいものとなる。
[0036] ところで、質問応答検索では、(1)質問文がキーワードだけである、(2)質問文が曖昧 である、(3)質問タイプの判定ルールが十分でない、或いは、(4)質問タイプに適合す る回答に相当する記述の抽出ルールが十分でない等の要因で、第 2の要約が探せ ないことがあり得る。しかし本実施形態では、キーワード検索手法を用いて取得され た第 1の要約の一覧を含む文書検索結果が利用者に提示される。このため、たとえ 第 2の要約が探せな力つた場合でも、利用者は第 1の要約の一覧から、自身が探し て 、る情報に容易にアクセスできる。
[0037] 上記実施形態では、表示デバイス 3及び入力デバイス 4と、入力デバイス 4から入力 された文書検索要求に従う文書検索等を行う処理セクション (インタフェース 21、検 索デバイス 22及び抜粋デバイス 23)とが、同一計算機システム内に存在していること を前提としている。しかし、表示デバイス 3及び入力デバイス 4が、例えばクライアント 端末に設けられ、上記処理セクションが、例えば当該クライアント端末とネットワークを 介して接続された検索サーバ計算機に設けられる構成であっても構わない。また、原 文データベース 201が、検索サーバ計算機と例えばネットワークを介して接続された データベースサーバ計算機に設けられて 、ても構わな 、。
[0038] 更なる特徴及び変更は、当該技術分野の当業者には着想されるところである。それ 故に、本発明はより広い観点に立つものであり、特定の詳細な及びここに開示された 代表的な実施形態に限定されるものではない。したがって、添付された請求項に定 義された広い発明概念及びその均等物の解釈と範囲において、そこから離れること 無ぐ種々の変更を行うことができる。
産業上の利用可能性
本発明によれば、質問から抽出されたキーワードを用いてキーワード検索手法によ り検索された文書力 抽出された第 1の要約の一覧と、当該検索された文書力 質問 応答検索手法を利用して抽出された、質問に対する回答に相当する第 2の要約の一 覧とを、それぞれ利用者に提示できるため、利用者は探している情報に容易にァクセ スすることができる。

Claims

請求の範囲
[1] 質問形式の検索要求に応じて文書検索を実行する質問応答型文書検索システム
、前記質問応答型文書検索システムは、
利用者力 の質問形式の検索要求としての質問から抽出されるキーワードに基づ
V、て関連する文書を検索するための検索手段であって、検索された文書に含まれて いる、前記キーワードに関連した記述を第 1の要約として抽出することによって、抽出 された第 1の要約の一覧を含む文書検索結果を取得する検索手段と、
前記質問の質問タイプを、当該質問の意味役割を解析することによって判定するた めの質問タイプ判定手段と、
原文データベースに格納されている検索対象となる各文書を構成する原文データ のうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文デー タから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約とし て抽出するための要約抽出手段であって、抽出された第 2の要約の一覧を取得する 要約抽出手段と、
前記第 1の要約の一覧を含む文書検索結果と前記第 2の要約の一覧とを、前記利 用者からの検索要求に対する応答として、当該利用者によって利用可能な表示デバ イスに表示させるように構成されたインタフェースと
を具備する。
[2] 請求項 1に従う質問応答型文書検索システムにお 、て、
予め定められた質問タイプ毎に、当該質問タイプに固有の文構造を表す文構造情 報を格納する型判定辞書を更に具備し、
前記要約抽出手段は、前記文書検索結果によって示される各文書をそれぞれ構 成する原文データと、前記判定された質問タイプに固有の、前記型判定辞書に格納 されている文書構造情報とのパターンマッチングによって、当該質問タイプに固有の 文構造を持つ記述を、当該質問タイプに適合する回答に相当する記述の候補として 抽出するための手段と、抽出された候補毎に、前記質問から抽出されるキーワードと の関連性の度合いを表すスコアを計算するためのスコア付け手段と、前記スコア付け 手段によって計算されたスコアに基づいて対応する記述を前記第 2の要約として抽 出するための手段とを含む。
[3] 請求項 1に従う質問応答型文書検索システムにお 、て、
前記検索手段は、前記質問から抽出されるキーワードに基づいて関連する文書が 検索される際に、文書毎に当該キーワードとの関連性の度合いを表す第 1のスコアを 計算するための第 1のスコア付け手段と、前記第 1のスコア付け手段によって計算さ れた第 1のスコアに基づいて関連する文書を選択するための選択手段と、前記選択 手段によって選択された文書から前記第 1の要約を抽出するための第 1の抽出手段 とを含み、
前記要約抽出手段は、前記判定された質問タイプに適合する回答に相当する記述 の候補毎に、前記質問から抽出されるキーワードとの関連性の度合いを表す第 2の スコアを計算するための第 2のスコア付け手段と、前記第 2のスコア付け手段によって 計算された第 2のスコアに基づいて対応する記述を前記第 2の要約として抽出するた めの第 2の抽出手段とを含む。
[4] 請求項 3に従う質問応答型文書検索システムにおいて、前記インタフェースは、前 記第 1の抽出手段によって抽出された前記第 1の要約の表示順位を、前記第 1のスコ ァ付け手段によって計算された、当該第 1の要約を含む文書に対応する第 1のスコア に基づいて決定すると共に、前記第 2の抽出手段によって抽出された前記第 2の要 約の表示順位を、前記第 2のスコア付け手段によって計算された、当該第 2の要約に 対応する第 2のスコアに基づ ヽて決定するように構成された表示順位決定ユニットを 含む。
[5] 請求項 3に従う質問応答型文書検索システムにおいて、
前記選択手段は、前記第 1のスコア付け手段によって計算された第 1のスコアに基 づいて、関連する文書をスコア順に選択し、
前記第 1の抽出手段は、前記スコア順に選択された文書から抽出された第 1の要約 の一覧を含む文書検索結果を、当該一覧における第 1の要約の順番が対応するスコ ァ順となるように前記インタフェースに渡し、
前記第 2の抽出手段は、前記第 2のスコア付け手段によって計算された第 2のスコ ァに基づいて抽出された前記第 2の要約の一覧を、当該一覧における第 2の要約の 順番が対応するスコア順となるように前記インタフェースに渡す。
[6] 請求項 3に従う質問応答型文書検索システムにおいて、
予め定められた質問タイプ毎に、当該質問タイプに固有の文構造を表す文構造情 報を格納する型判定辞書を更に具備し、
前記要約抽出手段は、前記文書検索結果によって示される各文書をそれぞれ構 成する原文データと、前記判定された質問タイプに固有の、前記型判定辞書に格納 されている文書構造情報とのパターンマッチングによって、当該質問タイプに固有の 文構造を持つ記述を、当該質問タイプに適合する回答に相当する記述の候補として 抽出するための手段を含み、
前記第 2のスコア付け手段は、前記抽出された候補毎に、前記質問から抽出される キーワードとの関連性の度合いを表すスコアを計算する。
[7] 質問形式の検索要求に応じて文書を検索する質問応答型文書検索のための方法 、前記方法は、
利用者力 の質問形式の検索要求としての質問から抽出されるキーワードに基づ Vヽて関連する文書を検索することと、
検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約とし て抽出することと、
前記抽出された第 1の要約の一覧を含む文書検索結果を取得することと、 前記質問の質問タイプを、当該質問の意味役割を解析することによって判定するこ とと、
原文データベースに格納されている検索対象となる各文書を構成する原文データ のうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文デー タから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約とし て抽出することと、
前記取得された第 1の要約の一覧を含む文書検索結果と前記抽出された第 2の要 約の一覧とを前記利用者力 の検索要求に対する応答として、当該利用者によって 利用可能な表示デバイスに表示させることと
を具備する。
[8] 請求項 7に従う方法において、
前記検索することは、前記質問から抽出されるキーワードに基づいて関連する文書 が検索される際に、文書毎に当該キーワードとの関連性の度合いを表す第 1のスコア を計算することと、前記計算された第 1のスコアに基づいて関連する文書を検索され た文書として選択することとを含み、
前記第 2の要約として抽出することは、前記判定された質問タイプに適合する回答 に相当する記述の候補毎に、前記質問から抽出されるキーワードとの関連性の度合 いを表す第 2のスコアを計算することと、前記計算された第 2のスコアに基づいて対応 する記述を前記第 2の要約として抽出することとを含む。
[9] 請求項 8に従う方法において、
前記表示させることは、前記抽出された前記第 1の要約の表示順位を、当該第 1の 要約を含む文書に対応する前記第 1のスコアに基づいて決定すると共に、前記抽出 された前記第 2の要約の表示順位を、当該第 2の要約に対応する前記第 2のスコア に基づ!/、て決定することを含む。
[10] 質問形式の検索要求に応じて文書を検索するのに用いられる質問応答型文書検 索のためのコンピュータプログラム製品、前記コンピュータプログラム製品は、 利用者力 の質問形式の検索要求としての質問から抽出されるキーワードに基づ いて関連する文書を検索するためのコンピュータ読み取り可能なコード手段と、 検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約とし て抽出するためのコンピュータ読み取り可能なコード手段と、
前記抽出された第 1の要約の一覧を含む文書検索結果を取得するためのコンビュ ータ読み取り可能なコード手段と、
前記質問の質問タイプを、当該質問の意味役割を解析することによって判定するた めのコンピュータ読み取り可能なコード手段と、
原文データベースに格納されている検索対象となる各文書を構成する原文データ のうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文デー タから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約とし て抽出するためのコンピュータ読み取り可能なコード手段と、 前記取得された第 1の要約の一覧を含む文書検索結果と前記抽出された第 2の要 約の一覧とを前記利用者力 の検索要求に対する応答として、当該利用者によって 利用可能な表示デバイスに表示させるためのコンピュータ読み取り可能なコード手段 と
を具備する。
PCT/JP2004/015719 2003-10-24 2004-10-22 質問応答型文書検索のためのシステム及び方法 WO2005041068A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/572,458 US7587420B2 (en) 2003-10-24 2004-10-22 System and method for question answering document retrieval

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003364949A JP3820242B2 (ja) 2003-10-24 2003-10-24 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2003-364949 2003-10-24

Publications (1)

Publication Number Publication Date
WO2005041068A1 true WO2005041068A1 (ja) 2005-05-06

Family

ID=34510140

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/015719 WO2005041068A1 (ja) 2003-10-24 2004-10-22 質問応答型文書検索のためのシステム及び方法

Country Status (4)

Country Link
US (1) US7587420B2 (ja)
JP (1) JP3820242B2 (ja)
CN (1) CN100535898C (ja)
WO (1) WO2005041068A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
CN108920488A (zh) * 2018-05-14 2018-11-30 平安科技(深圳)有限公司 多系统相结合的自然语言处理方法及装置
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007099812A1 (ja) * 2006-03-01 2007-09-07 Nec Corporation 質問回答装置、質問回答方法および質問回答用プログラム
US20100287162A1 (en) * 2008-03-28 2010-11-11 Sanika Shirwadkar method and system for text summarization and summary based query answering
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
JP5816936B2 (ja) 2010-09-24 2015-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US9569724B2 (en) * 2010-09-24 2017-02-14 International Business Machines Corporation Using ontological information in open domain type coercion
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
EP2616926A4 (en) 2010-09-24 2015-09-23 Ibm PROVISION OF QUESTIONS AND ANSWERS WITH DELAYED ASSESSMENT ON THE BASIS OF TEXT WITH LIMITED STRUCTURE
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
EP2622510A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US8738617B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
WO2013142493A1 (en) * 2012-03-19 2013-09-26 Mayo Foundation For Medical Education And Research Analyzing and answering questions
US9229974B1 (en) 2012-06-01 2016-01-05 Google Inc. Classifying queries
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9244952B2 (en) 2013-03-17 2016-01-26 Alation, Inc. Editable and searchable markup pages automatically populated through user query monitoring
US20140344259A1 (en) * 2013-05-15 2014-11-20 Google Inc. Answering people-related questions
CN103577558B (zh) * 2013-10-21 2017-04-26 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN103577556B (zh) * 2013-10-21 2017-01-18 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
US20150186527A1 (en) * 2013-12-26 2015-07-02 Iac Search & Media, Inc. Question type detection for indexing in an offline system of question and answer search engine
US10061861B2 (en) 2014-08-19 2018-08-28 Intuit Inc. Common declarative representation of application content and user interaction content processed by a user experience player
US10175997B2 (en) * 2014-11-26 2019-01-08 Intuit Inc. Method and system for storage retrieval
US9678936B2 (en) 2014-11-26 2017-06-13 Intuit Inc. Dynamic user experience workflow
US10891696B2 (en) * 2014-11-26 2021-01-12 Intuit Inc. Method and system for organized user experience workflow
US10417717B2 (en) 2014-11-26 2019-09-17 Intuit Inc. Method and system for generating dynamic user experience
WO2016122575A1 (en) * 2015-01-30 2016-08-04 Hewlett-Packard Development Company, L.P. Product, operating system and topic based recommendations
US9953265B2 (en) 2015-05-08 2018-04-24 International Business Machines Corporation Visual summary of answers from natural language question answering systems
US10402035B1 (en) 2015-07-29 2019-09-03 Intuit Inc. Content-driven orchestration of multiple rendering components in user interfaces of electronic devices
US10732782B1 (en) 2015-07-29 2020-08-04 Intuit Inc. Context-aware component styling in user interfaces of electronic devices
US10802660B1 (en) 2015-07-29 2020-10-13 Intuit Inc. Metadata-driven binding of platform-agnostic content to platform-specific user-interface elements
CN106909573A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种评价问答对质量的方法和装置
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer
JP6789860B2 (ja) * 2017-03-14 2020-11-25 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム
US10127323B1 (en) * 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
US10878193B2 (en) * 2018-05-01 2020-12-29 Kyocera Document Solutions Inc. Mobile device capable of providing maintenance information to solve an issue occurred in an image forming apparatus, non-transitory computer readable recording medium that records an information processing program executable by the mobile device, and information processing system including the mobile device
US20200210855A1 (en) * 2018-12-28 2020-07-02 Robert Bosch Gmbh Domain knowledge injection into semi-crowdsourced unstructured data summarization for diagnosis and repair
US11238027B2 (en) * 2019-03-22 2022-02-01 International Business Machines Corporation Dynamic document reliability formulation
US11586973B2 (en) 2019-03-22 2023-02-21 International Business Machines Corporation Dynamic source reliability formulation
KR20210043884A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP7168963B2 (ja) * 2020-04-28 2022-11-10 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
JP7112107B2 (ja) * 2020-04-28 2022-08-03 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255172A (ja) 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
US7058624B2 (en) * 2001-06-20 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for optimizing search results

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281566A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016133919A (ja) * 2015-01-16 2016-07-25 日本電信電話株式会社 質問応答方法、装置、及びプログラム
CN108920488A (zh) * 2018-05-14 2018-11-30 平安科技(深圳)有限公司 多系统相结合的自然语言处理方法及装置
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质

Also Published As

Publication number Publication date
US20070073683A1 (en) 2007-03-29
JP3820242B2 (ja) 2006-09-13
JP2005128873A (ja) 2005-05-19
CN100535898C (zh) 2009-09-02
US7587420B2 (en) 2009-09-08
CN1871605A (zh) 2006-11-29

Similar Documents

Publication Publication Date Title
WO2005041068A1 (ja) 質問応答型文書検索のためのシステム及び方法
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
Al-Saleh et al. Automatic Arabic text summarization: a survey
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
US6957213B1 (en) Method of utilizing implicit references to answer a query
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US20060282414A1 (en) Question answering system, data search method, and computer program
JP2010257488A (ja) 対話形サーチクエリー改良のためのシステム及び方法
AU2003243989A1 (en) Method and system for retrieving confirming sentences
WO2002048921A1 (en) Method and apparatus for searching a database and providing relevance feedback
JPH11102374A (ja) データベースの文書表示方法およびその装置
JPH03172966A (ja) 類似文書検索装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US20050033569A1 (en) Methods and systems for automatically identifying gene/protein terms in medline abstracts
US8082240B2 (en) System for retrieving information units
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP4499179B1 (ja) 端末装置
JP2009086903A (ja) 検索サービス装置
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP5439028B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480031332.0

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007073683

Country of ref document: US

Ref document number: 10572458

Country of ref document: US

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 10572458

Country of ref document: US