WO2010150910A1 - 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 - Google Patents

情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2010150910A1
WO2010150910A1 PCT/JP2010/060987 JP2010060987W WO2010150910A1 WO 2010150910 A1 WO2010150910 A1 WO 2010150910A1 JP 2010060987 W JP2010060987 W JP 2010060987W WO 2010150910 A1 WO2010150910 A1 WO 2010150910A1
Authority
WO
WIPO (PCT)
Prior art keywords
clause
document
sentence
clauses
user
Prior art date
Application number
PCT/JP2010/060987
Other languages
English (en)
French (fr)
Inventor
廣美 平野
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to JP2010545124A priority Critical patent/JP4768882B2/ja
Priority to US13/380,745 priority patent/US8296319B2/en
Priority to CN201080028234.7A priority patent/CN102460437B/zh
Priority to EP10792227.0A priority patent/EP2450805A4/en
Publication of WO2010150910A1 publication Critical patent/WO2010150910A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Definitions

  • the present invention relates to an information search apparatus, an information search method, an information search program, and a recording medium storing an information search program, which receives information from a terminal, performs information search, and transmits search results to the terminal.
  • the user uses the search engine to search for the information that the user wants out of the information existing on the Internet.
  • the user performs a search by inputting a keyword related to the desired information to the search engine.
  • the search results are largely different, and the current situation is that the desired information can not be reached immediately, and it is burdensome for the user to use keywords to efficiently reach the desired information. It was
  • Patent Document 1 when the input sentence is subjected to morphological analysis to determine the clause and the dependency is analyzed for each clause, the clauses are arranged in the order of appearance, and the verb without the dependency or the verb appears. Create a compound word that includes the relevant verb or clause and groups all clauses before it as a group, associates the compound word with the input sentence, records it in the sentence database, and enters a new arbitrary original sentence.
  • a similar sentence search program is disclosed which creates words and searches sentences including key compound words from a sentence database using compound words obtained for the original text as keys.
  • An object of the present invention is to provide an information search apparatus, an information search method, an information search program, and a recording medium recording the information search program, capable of accurately answering a search result in response to a question from a user. It is.
  • Another object of the present invention is to specify a document structure based on morphological analysis and dependency analysis, prepare a suitable database in which the document structure is converted to a structure suitable for search, and respond to a query from a user
  • Still another object of the present invention is an information search apparatus, an information search method, and information that can accurately answer a search result in response to a question from a user based on the number of arcs of the question and the number of arcs of the search target.
  • a search program and a recording medium recording an information search program.
  • the invention according to claim 1 comprises a document collecting means for collecting a document, a first document clause decomposing means for decomposing a sentence of the collected document into a clause, and a sentence of the document First document dependency analysis means for analyzing dependency relations between clauses and classifying each clause into at least a leaf clause and a root clause, a document structure storage means for storing the document, the clause of the document, and the clause type Receiving means for receiving from the terminal information of a user question sentence input to a user terminal, a second document clause decomposing means for decomposing the user question sentence into clauses, and a dependency relation between clauses of the user question sentence Means for analyzing each document clause and classifying each clause into at least a leaf clause and a root clause, referring to the document structure storage module, and corresponding to the root clause of the user question sentence
  • a document extraction unit for extracting a document including a document sentence, a search unit for referring to the extracted document, and searching for a clause lacking in the clause of the user question sentence among the
  • the invention according to claim 2 is that the first document acceptance analysis means adds an arc to the dependency relation between the clauses of the collected documents, and the first document acceptance analysis means further includes a root clause. If the number of arcs in the root clause is smaller than the number of arcs in the leaf clause, the leaf clause is used as a root clause for search. In addition to conversion, the root clause is converted into a search leaf clause, and the document structure storage means stores the converted clause and arc.
  • the document extraction means refers to the document structure storage means and includes a root clause corresponding to a root clause of the user question sentence, and the number of arcs of the root clause in the user question sentence It is characterized by extracting the document of the root clause of arc number exceeding.
  • the invention according to claim 4 further comprises a paired user question sentence creation unit for creating a paired user question sentence for the user based on the retrieved clause, and the transmission means transmits the paired user question sentence to the terminal. It is characterized by
  • the invention according to claim 5 further comprises a user question sentence creating means for creating a user question sentence for the user based on the searched clause, and the transmitting means substitutes for the searched user clause in place of the searched clause.
  • a question sentence is sent to the terminal.
  • the question sentence preparation means is characterized in that the question sentence for the user is prepared when the number of searched clauses is equal to or more than a predetermined number.
  • the invention according to claim 7 comprises document collection means for collecting documents, a first document clause disassembly means for decomposing the sentences of the collected documents into clauses, and analysis of dependency relationships between clauses of the sentences of the documents.
  • First document acceptance analysis means for classifying each clause into at least a leaf clause and a root clause, a document structure storage means for storing the document, the clause and the clause type of the document, and the user input to the user terminal
  • the dependency relation between the clauses of the user question sentence is analyzed, and the reception means for receiving the information of the question sentence from the terminal, the second document clause decomposition means for decomposing the user question sentence into clauses, and the respective clauses
  • a document including a root clause corresponding to a root clause of the user question sentence is extracted with reference to the second document dependency analysis means classified into at least a leaf clause and a root clause, and the document structure storage means.
  • a document extraction means characterized in that the document in which the document extracting means has extracted and a transmitting means for transmitting to said terminal.
  • the invention according to claim 8 comprises a document collecting step of collecting a document, a first document clause decomposing step of decomposing the sentence of the collected document into clauses, and analysis of a dependency relation between clauses of the sentence of the document
  • a first document acceptance analysis step for classifying each clause into at least a leaf clause and a root clause a storage step for storing the document, the clause of the document and the clause type in the document structure storage means, and input to the user terminal
  • the invention according to claim 9 is a computer, a document collecting means for collecting documents, A first document clause decomposing means for decomposing the collected document sentences into clauses, and a first document for analyzing dependency relations between clauses of the document sentences and classifying each clause into at least a leaf clause and a root clause
  • Document analysis and storage means for storing the document, the document, the clause of the document and the clause type, receiving means for receiving from the terminal information on the user's question text input to the user terminal, and the user question text
  • Document extraction means for extracting a document including a root clause corresponding to a root clause of the user question sentence with reference to the document structure storage means, and a leaf of the document with reference to the extracted document
  • the invention according to claim 10 includes a computer, a document collecting means for collecting a document, a first document clause disassembling means for decomposing a sentence of the collected document into a clause, and a dependency between sentences of the sentence of the document
  • a first document acceptance analysis unit that analyzes a relationship and classifies each clause into at least a leaf clause and a root clause
  • a document structure storage unit that stores the document, the clause of the document, and a clause type, and inputs the user terminal
  • Analyzing means for receiving the information of the user question sentence from the terminal, the second document clause disassembling means for decomposing the user question sentence into clauses, and the dependency relation between the clauses of the user question sentence
  • a document extraction unit that extracts a document including the document, a search unit that refers to the extracted document and searches for a clause lacking in the clause of the user
  • the document collecting means for collecting a document the first document clause disassembling means for decomposing the sentence of the collected document into clauses, and the dependency relation between the clauses of the sentence of the document are analyzed.
  • the document structure storing means for storing the document, the sentence and the clause type of the document, and the user question sentence input to the user terminal The dependency relation between the clauses of the user question sentence is analyzed, and the reception means for receiving information from the terminal, the second document clause decomposition means for decomposing the user question sentence into clauses, and each clause at least a leaf clause
  • a document extraction unit that classifies the document into a second sentence and a root clause, and extracts the document including the root clause corresponding to the root clause of the user question sentence with reference to the document structure storage unit; Since the search means for searching for the clause lacking in the user question sentence among the leaf clauses of the document by referring to the means and the extracted document, and the clause searched for by the search means are transmitted to the terminal With respect to the question part of the question from the user,
  • a suitable database is prepared in which the document structure is converted into a structure suitable for search. Even if the document whose primary subject is the root clause is, convert leaf clauses leading to the subject into root clauses for search and convert the documents into a database, so that the search results are more accurately applied to the questions from the user. I can answer.
  • the search result is accurately answered in response to the question from the user based on the number of arcs of the question and the number of arcs of the search target, noise is removed from the search result.
  • FIG. 1 is a block diagram showing an example of a schematic configuration of an information search system according to an embodiment of the present invention.
  • the information retrieval system 1 receives an input of a document on the Internet or the like, and converts the sentence of the collected document into a knowledge expression unit represented as knowledge information for answering a question from the user.
  • Knowledge input management server 10 a knowledge database server 15 storing this knowledge expression unit as sentence information related to the sentence of the collected document, a question received from the user, and knowledge stored in the knowledge database server 15
  • an inquiry response server 20 that answers the user based on the expression unit.
  • the collected document itself may or may not be stored in the system 1.
  • the knowledge expression unit is structured data in order to search for and answer a sentence from a user for a sentence extracted from a document, and as an example, a tree based on a dependency relation between sentence clauses of a sentence Structure data, which will be described in detail later.
  • the knowledge input management server 10 of the information search system 1 is connected to the web server 5 and the text data database 6 on the local area network via the network 3.
  • the inquiry response server 20 is connected to a terminal 2 or the like such as a user's personal computer via the network 3.
  • the text data database 6 stores collected documents such as blogs and reviews on the Internet as text data.
  • the knowledge database server 15 is connected to the knowledge input management server 10 and the inquiry response server 20 by a local area network or the like.
  • the knowledge input management server 10 analyzes a sentence of the collected document, and a control unit 11 that constructs a sentence of the document in a knowledge expression unit, and an execution program of the control unit 11 And a storage unit 12 for storing calculation results and the like.
  • the control unit 11 has a central processing unit (CPU) or the like, and a document collection unit for collecting documents posted on the web server 5 and documents stored in the text data / database 6, and the text of the collected documents
  • the document sentence is structured into a structure such as a knowledge expression unit based on the document phrase analysis means for decomposing a sentence into clauses, the document dependency analysis means for analyzing dependency relationships among these clauses, and the dependency relationship. Function as a document structuring means. Further, the control unit 11 transmits the structured sentence as the knowledge expression unit to the knowledge database server 15.
  • the storage unit 12 includes a random access memory (RAM), a read only memory (ROM), a hard disk drive, and the like, and stores an execution program such as a document segmentation unit, a document acceptance analysis unit, and a document structuring unit.
  • the hard disk drive and nonvolatile RAM and ROM store, for example, a program for morphological analysis and a program for dependency analysis.
  • the volatile RAM temporarily stores a program for morphological analysis and a program for dependency analysis.
  • the knowledge database server 15 performs control in response to a search request from the inquiry response server 20, and the control unit 16, and a knowledge expression unit transmitted from the knowledge input management server 10. And the like.
  • the control unit 16 has a CPU, a RAM, etc., and uses database storage means for storing structured sentences in the knowledge database 17 as knowledge representation units, and searching from the knowledge database 17 according to knowledge representation units which are an example of sentence information. It functions as search means etc. to carry out.
  • the knowledge database 17 has a hard disk drive or the like, and stores a user history such as a knowledge expression unit related to the sentence of the collected document and access information to a user knowledge expression unit. Furthermore, user history such as user profile and purchase history is also stored. The user history other than the access information to the knowledge expression unit may be a database of another server. As described above, the knowledge database 17 functions as a storage unit or the like that stores sentence information related to the sentence of the collected document.
  • the knowledge input management server 10 and the knowledge database server 15 function as a database creation device, and the knowledge database server 15 and the inquiry response server 20 function as an information search device.
  • the inquiry response server 20 receives, from the terminal 2, information on a user's question from the user, and a control unit 21 that transmits an answer result to the user's question to the user, and control And a storage unit 22 for storing an execution program of the unit 21, a calculation result, and the like.
  • a question sentence there is a sentence including a question, such as "Where did he buy a book?"
  • the control unit 21 has a CPU or the like, and receives means for receiving information on the user's question from the user from the terminal, a phrase decomposing means for breaking the user's question into phrases, and the sentence information retrieved as a search result Function as a transmission unit or the like that transmits an answer sentence based on the above to the terminal.
  • the storage unit 22 includes a RAM, a ROM, a hard disk drive, and the like, and stores an execution program such as a clause disassembly unit.
  • the hard disk drive and nonvolatile RAM and ROM store, for example, a program for morphological analysis and a program for dependency analysis.
  • the volatile RAM temporarily stores a program for morphological analysis and a program for dependency analysis.
  • FIG. 2 and 3 are schematic diagrams showing an example of the data structure of a sentence stored in the knowledge database 17. As shown in FIG.
  • the knowledge expression unit 30 sets each root clause as a root clause 30r whose corresponding phrase corresponds to the root of the tree structure, and a leaf clause 30l corresponding to a leaf of the tree structure or an internal node of the tree structure. It is defined in the clause type.
  • the root clause is a clause without dependency in the tree structure of the sentence as a result of morphological analysis and dependency analysis of the collected document.
  • the leaf clause means a clause other than the root clause.
  • the term “arc” is a concept representing a dependency relation between leaf clauses and between leaf clauses and root clauses.
  • the arcs 30a are given with directionality from one clause to another clause.
  • the root clause 30r is the verb V (buy)
  • the leaf clause 30l is the subject S (hi), the accusative Ac (book) , And the geographical rank L (store A).
  • an arc is added from the leaf clause 30l to the root clause 30r, and the verb V becomes the root clause of the tree structure.
  • the noun N of the inscription becomes the root clause 31r.
  • the root clause 31r is the noun N (wine)
  • the leaf clause 31l is the place L (store A) and the adjective Adj ( Red) and the internal node verb V (sold).
  • the arc 31a is given from the leaf clause 31l to the leaf clause 31l and from the leaf clause 31l to the root clause 31r.
  • the root clause is set according to the feature of the sentence.
  • Japanese "I am XXX.”
  • Chinese “My family XXX”
  • English "I am XXX.”
  • the leaf clause has a subject S (I, I, I).
  • the accusative Ac (XXX) and the root clause is the verb V (is surname ⁇ am).
  • the dependency relationship is (1) Japanese: leaf clause (I) ⁇ leaf clause (XXX) ⁇ root clause (is); (2) Chinese: leaf clause (I) ⁇ leaf clause (XXX) ⁇ root clause ( Last name); (3) English: leaf clause I ⁇ leaf clause (XXX) ⁇ root clause (am);
  • the knowledge representation unit is structured data in which one sentence is structured by the dependency structure of the sentence, and a phrase without a dependency is made a root clause, that is, an integrated structure by verbs
  • This is a tree-structured data in which the integrated structure of nouns in the clauses is included, and the concentrated phrases are the root clauses.
  • a knowledge representation unit is also a collection of clauses.
  • FIG. 4 and FIG. 5 are schematic views showing an example of an embodiment for realizing the data structure.
  • the table type knowledge representation unit 40 has a number column 40a allocated to specify the knowledge representation unit 40, a type item 40b indicating a part of speech, a case, etc. for each clause, and a sentence is decomposed
  • phrase column 40c showing the phrase of the phrase
  • the arc column 40d showing dependency and root
  • arc number column 40e showing the number of arcs in the root of tree structure
  • a field 40 f and an access field 40 g indicating the last access time to the knowledge expression unit 40 are provided.
  • examples of the information of the sentence type include cases such as nominatives and purpose cases, parts of speech such as verbs, nouns and adjectives, and information of conjugation forms of verbs and adjectives.
  • the table type knowledge expression unit 40 corresponds to the type item 40b such as the verb V, the nominative S, the accusative Ac, the case D, and the earth L
  • the phrase column 40c "Buy", “He”, “Book”, “None”, and "Store A” are entered.
  • “r” indicating a route, “V” indicating a type of a destination of dependency, and the like are stored.
  • the number of arcs is stored in the arc number column 40e so that the candidates can be easily narrowed down in the search, and the time is stored in the creation time column 40f and the access column 40g so that the knowledge expression unit 40 can be easily managed.
  • the knowledge expression unit 41 in the form of a table is obtained.
  • the configuration is the same as that of the knowledge representation unit 40, but the phrase is also stored in the phrase column 41c corresponding to the type item 41b of the noun N and the adjective Adj.
  • FIG. 6 is a schematic view showing an example of the data structure of the user question sentence generated by the inquiry response server.
  • the user query sentence from the user "Where did he buy the book?" Is broken down into clauses, and the knowledge representation unit 50 expressing the dependency relation in the tree structure is the root clause 50r corresponding to the root of the tree structure , A leaf clause 501 corresponding to a leaf of the tree structure, and an arc 50a corresponding to the arc of the tree structure and indicating a dependency relationship.
  • the root clause 50r and the leaf clause 50l are classified into a question clause 50w corresponding to a question part such as a question word and a non-question clause 50u related to other than the question. Also, among the non-question clauses 50u, the root clause 50r and some leaf clauses that are dependent on other clauses become the subject clauses.
  • clause information such as question clause information and non-question clause information
  • dependency information such as dependency or dependency from other clauses or dependency information
  • Information on the number of dependencies such as the number of arcs, information on character strings, information such as a root or leaf in a tree structure of clauses, information on features of the structure between clauses, and the like.
  • the root clause 50r is the verb V (buy), the leaf clause 50l is the subject S (his), the accusative Ac (book), and the ground
  • the case is L ().
  • question clause 50w which is an example of a clause lacking in the user question sentence clause, is a ground L (), an empty clause such as ground L (), and a ground L (where) It may be expressed by an unknown variable or the like like a question word or a ground L (X).
  • the non-question clause 50u is a prime candidate S (his) and a accusative Ac (book).
  • the user question sentences are also formed into a tree structure, which is similar to the data structure of the knowledge database 17.
  • FIG. 7 is a schematic view showing an example of an embodiment for realizing the data structure.
  • the table type knowledge representation unit 60 includes a type item 60b indicating a part of speech, a case, etc., a word / phrase column 60c indicating a phrase in which a sentence is decomposed, and an arc column 60d indicating dependency or route. , An arc number column 60 e indicating the number of arcs in the root of the tree structure, and a creation time column 60 f indicating the creation time of the knowledge expression unit 40.
  • FIG. 8 is a flow chart showing an example of operation of converting the sentence of the document collected from the web server 5 or the like into a data structure in the knowledge input management server 10.
  • the control unit 11 of the knowledge input management server 10 collects documents for creating the knowledge database 17 from the web server 5, the text data database 6, and the like. As described above, the control unit 11 functions as a document collection unit that collects documents.
  • control unit 11 of the knowledge input management server 10 extracts one sentence to be converted into a knowledge expression unit from the collected document (step S1). Specifically, the control unit 11 extracts sentences one by one in order from the first sentence of the document.
  • control unit 11 performs morphological analysis of the extracted one sentence (step S2). Specifically, the control unit 11 uses an morpheme analysis program, decomposes an extracted sentence into clauses, and obtains types such as part of speech and case of each clause. Note that a general morpheme analysis program may be used as the morpheme analysis. As described above, the control unit 11 functions as a first document clause decomposing unit that decomposes the collected document sentences into clauses.
  • the control unit 11 analyzes dependency (step S3). Specifically, the control unit 11 uses a dependency analysis program to obtain a dependency that indicates a modification relationship between clauses.
  • a general dependency analysis program may be used as the dependency analysis.
  • the control unit 11 functions as a document acceptance analysis unit that analyzes the dependency relationship between the clauses of the text of the document.
  • each language the features of each language structure and the dictionary of each language are used to break it up into clauses, divide into types such as parts of speech, and analyze dependencies. For example, in the case of a stuck language such as Japanese, a suffix or prefix is used, and in the case of an isolated word, information such as word order is used.
  • the control unit 11 sets the dependency relationship of the sentence as a knowledge expression unit of the tree structure (step S4). Specifically, based on the information of the dependency, in the case of a normal sentence, as shown in FIG. 2, the control unit 11 makes the dependency relation of the sentence a tree structure with the verb clause of the verb as the root In the case of the sentence, as shown in FIG. 3, a tree structure is formed with the noun corresponding to the injunction as the root. For Japanese, make the clause at the end of the term or the end of the sentence the root clause. In the case of Chinese, English, etc., the root clause is specified based on the arrangement of words, part-of-speech information, etc. Thus, the control unit 11 functions as a document structuring means for structuring the sentences of the document based on the dependency relation.
  • the control unit 11 divides the phrase of the sentence which has been decomposed into phrases and specified the type such as part of speech or case in step S2 Put in 40c, 41c. In the case of Japanese, particles and auxiliary verbs in parentheses can be removed.
  • step S3 based on the analysis of dependency, the control unit 11 puts information of the root clause and information of the dependency receiver in the arc fields 40d and 41d.
  • the control unit 11 counts the number of clauses related to the root clause, enters the number of arcs in the arc number column 40 e, and enters information of the date when the knowledge expression units 40 and 41 were created.
  • the control unit 11 analyzes the dependency relationship between sentence clauses of the document, and functions as a first document intervention analysis unit that classifies each clause at least into a leaf clause and a root clause.
  • the control unit 11 standardizes the knowledge expression unit (step S5). This standardization is performed to absorb differences in surface expression of sentences. For example, the sentence “He buys a book at store A” and “He buys a book at store A” is substantially the same.
  • the knowledge expression unit 32 of “The person who buys a book at store A is” has a leaf clause 32l connected to the root clause 32r connected to the root clause 32r. It is a tree structure in which two leaf clauses 32l are connected to this leaf clause 32l, which is largely different from the knowledge representation unit 30 shown in FIG. Therefore, as a specific process, as shown in FIG.
  • the control unit 11 first reverses the direction of the arc 32a of the root clause 32r and the leaf clause 32l in the knowledge expression unit 32, As a leaf clause 32l, a root clause 33r for search is used. Further, the root clause 32r is set as a search leaf clause 33l. Furthermore, the control unit 11 manipulates the type of clause such that “V ′ (to buy)” of the leaf clause 32 l is “V (buy)” to the root clause 33 r. Then, as shown in FIG. 9C, the control unit 11 operates the type (Be) of the search leaf clause 33l to the type (S). As described above, the control unit 11 standardizes the unit of knowledge expression by performing the process of aligning the direction of the arc with the node having many arcs to be dependent and operating the type of the clause.
  • the search leaf clause means a clause originating from the root clause and means a clause stored as a leaf clause after performing processing for manipulating the type of the clause.
  • the search root clause means a clause originating from a leaf clause, and means a clause which is stored as a root clause after processing for manipulating the type of the clause.
  • FIG. 10 illustrates this series of processing in units of knowledge representation in a table format.
  • the knowledge representation unit 42 is the knowledge representation unit 32 in the form of a table.
  • the control unit 11 converts this leaf clause to a root clause for search. For example, as shown in FIGS. 10 (A) and 10 (B), the control unit 11 moves by typing V ': "Buy (of)" in the word / phrase column 42c, and V: "Buy”. Then, in the arc column 42d, the type V is set to "r", and the type Ac and the type L "V '" are set to "V".
  • the control unit 11 moves the Be: “He (is)” in the word column 42c by typing to make it S: “He”, and in the arc column 42d, the type S: “V”. Make it Through this series of processing, the knowledge representation unit 42 becomes a knowledge representation unit 44 in which the knowledge representation units 34 are shown in the form of a table.
  • control unit 11 operates, as a function of standardization, a means for reversing the relationship of dependency relation in a sentence of a structured document, and a clause phrase type in which the dependency relation is reversed. It functions as a clause type operation means. Further, the control unit 11 compares the number of arcs of the root clause with the number of arcs of leaf clauses connected from the corresponding root clause through the arcs, and if the number of arcs of the corresponding root clause is smaller than the number of arcs of the corresponding leaf clause, It functions as a first document acceptance analysis unit that converts the leaf clause into a search root clause and converts the root clause into a search leaf clause.
  • the control unit 11 After standardizing the knowledge expression unit that needs to be standardized, the control unit 11 writes the creation time etc. in the knowledge expression unit (step S6). Specifically, as shown in FIG. 4 etc., the control unit 11 writes the creation date of the knowledge expression unit in the creation time column 40f. If the sentence is made into a knowledge expression unit, the control unit 11 transmits the knowledge expression unit to the knowledge database server 15. For example, the control unit 11 transmits, to the knowledge database server 15, information on the clause and arc of the document, and the information on the clause and arc of the standardized converted document.
  • the control unit 16 of the knowledge database server 15 stores the knowledge expression unit in the knowledge database 17 (step S7). At this time, overlapping knowledge expression units may not be stored.
  • the method of matching for duplication may be a method similar to the search described later.
  • control unit 16 stores the knowledge representation unit, which is an example of the sentence of the structured document, in the database, and as the sentence information, based on the dependency relation between the clauses of the sentence of the document. It functions as a storage means for storing a knowledge expression unit which is an example of the sentence information. Further, the control unit 16 functions as a document, a document structure storage unit that stores clauses of the document, and a clause type, and a document structure storage unit that stores clauses after conversion and an arc.
  • FIG. 11 is a flow chart showing an operation example of the information retrieval system 1 for responding to information retrieval from the user's inquiry.
  • FIG. 12 is a schematic view showing an example of the knowledge expression unit stored in the knowledge database 17. As shown in FIG.
  • the control unit 21 receives a user query sentence from the user from the terminal 2 of the user. For example, a user question such as "Where did he buy a book?" As described above, the control unit 21 functions as a receiving unit that receives, from the terminal, information on the user's question from the user.
  • the control unit 21 of the inquiry response server 20 that has received the user question sentence converts the user question sentence into the form of a knowledge expression unit (step S10). Specifically, the control unit 21 morpheme-analyzes the user question sentence and breaks it up into clauses, and specifies the type of part of speech of these clauses, case, and the like. Then, the control unit 21 analyzes the dependency of these clauses, and sets the user question sentence as a knowledge expression unit. For example, the control unit 21 converts the user question sentence into the knowledge expression unit 50 as shown in FIG. 6 or the knowledge expression unit 60 in table form as shown in FIG.
  • control unit 21 functions as a second clause decomposing unit that decomposes the user question sentence into clauses, and as a dependent analysis unit that analyzes the dependency relation between clauses of the user question sentence.
  • the control unit 21 analyzes the dependency relationship between the clauses of the user question sentence, and functions as a second document engagement analysis unit that classifies each clause into at least a leaf clause and a root clause.
  • control unit 21 transmits the knowledge expression units 50 and 60 of the user question sentence as a search request to the knowledge database server 15 (step S11).
  • the control unit 16 of the knowledge database server 15 that has received the knowledge expression units 50 and 60 of the user question sentence extracts the root clauses 50r and 60r from the knowledge expression units 50 and 60 of the user question sentence (step S12).
  • This step is to use the phrase in which the dependency is concentrated for the search so that the search can be efficiently performed, but the knowledge expression unit is standardized so that the dependency on the root clause is concentrated as much as possible. Therefore, the control unit 16 need only extract the root clauses 50r and 60r.
  • the control unit 16 sets the type whose arc column 60 d is “r”, the character string of the word column 60 c, the knowledge representation unit 50 of the knowledge database 17, A type such as 51, etc.
  • control unit 21 asks questions about questions among the clauses 50r, 50l of the user question sentence. It functions as a clause classification unit that classifies into the clause 50w and the non-question clause 50u related to other than the question. It may be determined.
  • the control unit 16 collects knowledge expression units of the root clause corresponding to the root clause of the user question sentence (step S13).
  • a root clause for search may be extracted, or a root clause having similar semantic content may be extracted using a synonym dictionary or the like.
  • the control unit 16 is the same type as the root clause 50r of the user question sentence, and has a knowledge expression unit 30 (a) (b) (c) having the root clause 30r of the same character string. Collect).
  • the control unit 16 is a knowledge that is an example of sentence information from the knowledge database 17. It functions as search means for searching for the expression units 30 and 31.
  • the control unit 16 also functions as a search unit that performs a search by matching 50r, which is an example of a subject sentence of a user question sentence, with 30r, which is an example of a subject sentence sentence.
  • control unit 16 functions as a document extraction unit that refers to the document structure storage unit and includes a root clause corresponding to the root clause of the user question sentence.
  • the control unit 16 narrows down to a knowledge expression unit having the number of arcs equal to or larger than the number of arcs of the user question sentence (step S14). Specifically, as shown in FIG. 12, the control unit 16 is a knowledge expression having the arc number “3” or more of the user question text among the knowledge expression units 30 (a) (b) (c). It narrows down to unit 30 (a) (b). In the case of the table type knowledge expression unit, the control unit 16 compares the value of the arc number column 60e of the knowledge expression unit 60 of the user question sentence with the value of the arc number column 50e, 51e of the knowledge expression unit 50, 51. Do.
  • the control unit 16 functions as a search unit that performs a search based on the case number of the user question sentence, which is an example of the number of clauses depending on the subject sentence of the user question sentence.
  • control unit 16 refers to the document structure storage unit, includes the root clause corresponding to the root clause of the user query sentence, and includes the document of the root clause having the number of arcs exceeding the number of arcs of the corresponding root clause in the user query sentence.
  • the control unit 16 narrows down to a knowledge expression unit of the same character string as the non-question clause (except for the root clause) of the user question sentence (step S15). Specifically, as shown in FIG. 12, among the leaf clauses 40l, the knowledge expression units 30 (a) having the same character string as the character string of the non-question clause 50y are narrowed down. In the case of the table type knowledge representation unit, the control unit 16 narrows down to knowledge representation units in which the type item 60 b has the same character string as the character string at “S” and “Ac”. Note that matching and comparison of character strings may be performed using the synonym dictionary or the like, and the same character string may be used as long as the terms have similar meanings.
  • control unit 16 narrows down to the type of question clause (step S16). Specifically, the control unit 16 further narrows down the candidate knowledge expression units by searching whether there is a clause of the case L, which is the type of question clause, in the knowledge expression units narrowed down in step S15. . In the case of the table type knowledge expression unit, the control unit 16 determines whether or not a phrase is present in the narrowed knowledge expression unit in the column of the ground L which is the type of the question clause 60w. As described above, the control unit 16 functions as a search means for searching for sentence information of an answer to the user question sentence from the storage means based on the information of the type of the question sentence and the information of the non-question sentence.
  • control unit 16 determines whether the number of narrowed knowledge expression units is smaller than a predetermined number (step S17). Specifically, the predetermined number is set so that the user can narrow down the answer candidates to about 7 ⁇ 2 which is the magic number of the acceptable memory.
  • the control unit 16 extracts clauses in the knowledge expression units matching the type of the question clause as an answer clause (step S18). Specifically, the control unit 16 extracts a character string from the answer phrase in the knowledge expression unit that matches the type of the question phrase, replaces it with the question word of the question phrase of the user question sentence, or sets the question phrase to the answer phrase. Replace the user's question sentence into an answer sentence by replacing it. By extracting clauses in the knowledge expression unit that matches the type of question clause as an answer clause, a clause missing in the clause of the user question sentence is searched. As described above, the control unit 16 functions as an answer clause acquiring unit that extracts a clause having a type that matches the type of the question clause from the retrieved sentence information to obtain an answer clause.
  • the control unit 16 writes the access time in the finally narrowed knowledge expression unit. For example, the control unit 16 writes date and time information in the access field 40g of the knowledge expression unit 40. Then, the control unit 16 transmits the answer sentence, the answer sentence converted from the narrowed knowledge expression unit, and the user question sentence as the search result to the inquiry response server 20.
  • the control unit 21 transmits the obtained search result as an answer to the terminal 2 (step S19). Specifically, the control unit 21 transmits a response sentence converted from a user question sentence, which is an example of a sentence based on the searched sentence information, or a sentence of a document corresponding to the narrowed-down knowledge expression unit, to the terminal 2. Send to In the case of not the answer sentence converted from the user question sentence but the sentence sentence of the document corresponding to the narrowed-down knowledge expression unit, the case where the number of arcs is large in step S14 is narrowed down. May contain a clause.
  • control unit 21 functions as a transmission unit that transmits an answer sentence based on the searched sentence information to the terminal, and a transmission unit that transmits information on the answer clause.
  • control unit 21 functions as a transmission unit that transmits the clauses searched by the search unit to the terminal 2.
  • control unit 21 functions as a transmission unit that transmits the document extracted by the extraction unit to the terminal.
  • step S17 when the number of knowledge expression units is equal to or more than the predetermined number (step S17; NO), the control unit 16 generates the narrowing-down question, and the control unit 21 receives the narrowing-down question from the knowledge database server 15 (Step S20).
  • the control unit 16 can acquire information of a clause (a type not included in the user's question sentence) other than the primacy S and the accusing Ac.
  • control unit 16 when there are many clauses of the rank L, the control unit 16 generates a question clause “where” based on the rank L, and as a question for narrowing down, “Where did you buy?” Generate The verb "buy” uses the user's question sentence.
  • the control unit 16 functions as a transmitting unit that transmits a paired user question sentence as a paired user question sentence creating unit that generates a paired user question sentence for the user based on the searched sentence information. Do.
  • control unit 16 transmits a corresponding user question sentence to the terminal instead of the retrieved clause.
  • the number of searched knowledge expression units (the number of searched phrase aggregations) is a predetermined number or more, the number of knowledge expression units is large, and the number of clauses included in the knowledge expression unit which is a collection of clauses Will also increase. The number of searched clauses also increases, and the number of searched clauses becomes equal to or more than a predetermined number.
  • the control unit 16 functions as a question sentence creation unit that creates a user question sentence when the number of searched phrases is equal to or more than a predetermined number.
  • control unit 21 of the inquiry response server 20 receives an answer sentence for the in-user question sentence from the user, converts it into a knowledge expression unit, and transmits it to the knowledge database server 15. Then, the control unit 16 of the knowledge database server 15 selects a corresponding knowledge expression unit from the narrowed down knowledge expression units, based on each clause of the received knowledge expression unit of the answer sentence (step S21). Specifically, when an answer “at store A” is received to the user question sentence “where did you buy it?”, A knowledge representation unit is selected based on the information of the geographical L clause of this answer.
  • control unit 16 extracts the clause in the knowledge expression unit matching the type of the question clause of the original user question sentence as the answer clause from the selected knowledge expression unit, and the question clause of the user question sentence
  • the user question sentence is converted into an answer sentence by replacing it with the question word of, or replacing the question sentence with the answer sentence.
  • the control unit 16 transmits the response sentence as the selection result to the inquiry response server 20.
  • control unit 16 refers to the extracted document, and compensates for the missing clause (50w) in the clause of the user question sentence of the knowledge expression unit 50 among the leaf clauses of the document.
  • the clause is searched so that the clause in the knowledge expression unit matched with the type of the question clause of is extracted as an answer clause.
  • control unit 21 transmits the selection result received from the inquiry response server 20 as a response to the terminal 2 of the user (step S22).
  • the knowledge database server 15 stores the knowledge expression units 30, 31 of the sentence information on the collected document sentences in the knowledge database 17, and the inquiry response server 20 is a user from the user.
  • Information on the question sentence is received from the terminal 2, the user question sentence is decomposed into clauses, and classified into the question clause 50w concerning the question and the non-question clause 50u concerning other than the question among the clauses of the user question sentence, the server for knowledge database 15 searches the knowledge expression units 30, 31 corresponding to the user question sentence from the knowledge database 17 based on the information of the type of the question sentence 50w and the information of the non-question sentence 50u, and the inquiry response server 20 By transmitting the search results to the terminal 2, the information search system 1 is based on the user question sentences and the structure of the collected document sentences. Since doing a search, it is possible to answer the question part of the question from the user, the accurate search results.
  • the document is collected, the collected document sentences are decomposed into clauses, the dependency relation between the sentence clauses of the document is analyzed, and each clause is at least leaf clauses 30l and 31l.
  • the root clauses 30r and 30r are classified, the arc 30a is added to the dependency relation between the clauses, the document, the clause and the clause type of the document are stored, and then the user question sentence input to the user terminal 2
  • the document structure memory that receives the following information from the terminal 2, decomposes the user question sentence into clauses, analyzes the dependency relation between clauses of the user question sentence, and classifies each clause into at least a leaf clause 50l and a root clause 50r Refers to the means, extracts the document including the root clause corresponding to the root clause of the user question sentence, refers to the extracted document, and is insufficient in the clause of the user question sentence among the leaf clauses of the document That performs a search of the clauses, and transmits the retrieved clause terminal 2, it is possible to answer the question part of the
  • a suitable database (knowledge database 17) is prepared by converting the document structure into a structure suitable for search. Therefore, even if the document is such that the subject case is a root clause, such as injunction, the leaf clauses leading to the subject case are converted into the search root clauses and the document is converted into a database. It is possible to more accurately answer the search results.
  • the search result is appropriately answered in response to the question from the user. Therefore, noise is removed from the search result. It is possible to answer the search result more accurately to the question of.
  • the number of arcs of the root clause is compared with the number of arcs of leaf clauses connected from the root clause through the arcs, and if the number of arcs of the root clause is smaller than the number of arcs of the leaf clause, the leaf clause is searched.
  • the matching is first attempted with the information of the sentence part of the non-question clause 50u, and the answer sentence candidates are roughly narrowed roughly. Since the information is narrowed down to the type of information such as case or part of speech in the clause 50w, it is possible to give an answer accurately to the user efficiently with little omission of the answer.
  • morphological analysis and dependency analysis are performed without changing the collected document.
  • a database for generating an appropriate answer is generated. There is a possibility that can not.
  • the document when the document is received, if the predetermined number of characters or the predetermined number of words is exceeded, the document is divided by punctuation marks or relative pronouns, and both the entire document and the divided document are analyzed. It is preferable to
  • the information search system 1 transmits an answer sentence based on the searched sentence information to the terminal 2, since the user answers the user with sentences, there is little discomfort. Because the sentence structure of knowledge expression units is used for storage and retrieval, it is easy to make sentences for answers to questions. In addition, the search result can be accurately answered as an answer sentence.
  • the information retrieval system 1 extracts a clause having a type matching the type of the question clause 50 w from the retrieved sentence information, obtains an answer clause, and transmits information on the response clause to the terminal 2 It is possible to pinpoint an answer to the core of the question to the user. Also, it is possible to give an answer to the question part of the question exactly.
  • the information retrieval system 1 analyzes the dependency relation between the clauses of the user question sentence, and based on the information of the dependent clauses that are dependent on other clauses such as the root clause 50r among the non-question clauses 50u.
  • the root clause 50r and some leaf clauses are dependencies from other clauses, and the dependencies are concentrated, and information on sentence structure is gathered Therefore, the search becomes efficient by being based on the subject clause.
  • the knowledge database 17 stores sentence information based on the dependency relation between clauses in the sentence of the document as sentence information, and the information retrieval system 1 receives the sentence involved in the user question sentence and the sentence information.
  • the search is performed by matching with the related clauses of, for example, when the search is first performed by matching the root clause 50r and the root clauses 30r and 31r, it corresponds to an answer from among the knowledge expression units of the knowledge database 17. It is easy to collect primary candidates of knowledge representation unit precisely. In addition, since it is handled as a structured knowledge expression unit called dependency relation between clauses, it becomes easier to retrieve by incorporating the knowledge of the structure into the retrieval method.
  • the candidate is first narrowed by the non-question clause 50u. In order to narrow down the candidates more accurately according to the number of arcs after answering, the answer sentence can be searched more accurately.
  • the information retrieval system 1 refers to the document structure storage means as the document extraction means, includes a root clause corresponding to the root clause of the user question sentence, and the number of arcs exceeds the number of arcs of the root clause in the user question sentence
  • the answer sentence can be searched more accurately because the candidates are narrowed more accurately according to the number of arcs.
  • the number of candidate knowledge expression units 30, 31 is predetermined.
  • a pair of user question sentences for narrowing down the answer sentence candidates is created and sent to the user, thereby becoming interactive with the user and obtaining answers from the user, further answer sentence candidates Can be squeezed
  • the user is interactive with the user, and by obtaining the answer from the user, it is possible to narrow down the candidates of the answer sentence more surely.
  • step S12 to S14 are skipped.
  • the answer sentence candidates are narrowed down by the non-question clause 50u of the leaf clause 50l of step S15 and the question clause 50w of step S16. Since there is little information to be narrowed down like this, there are many cases where the number of answer sentence candidates is large. In such a case, it is possible to narrow down the candidates for the answer sentence by transmitting the question to the user to the user and obtaining an answer interactively with the user.
  • a database creation device composed of the knowledge input management server 10 and the knowledge database server 15 etc. collects the document via the network 3 etc., and the text of the document collected from the text data database 6 By decomposing the sentence into clauses, analyzing the dependency relation between the sentence clauses of the document, structuring the sentence of the document based on the dependency relation, and storing the sentence of the structured document in the knowledge database 17,
  • the knowledge representation units 30, 31 are independent of each other, and the knowledge representation units 30, 31 facilitate data management.
  • the knowledge database server 15 directly deletes knowledge expression units that are not often used, based on the information in the creation time column 40f and the access column 40g of the table type knowledge expression unit 40. It is easy to manage the knowledge database 17, such as adding a new knowledge expression unit.
  • the knowledge database server 15 can easily perform a search according to the user's question sentence from the user.
  • the knowledge database server 15 reverses the direction (direction of the arc) of the dependency relation in the sentence of the structured document, and operates the clause type of the clause in which the dependency relation is reversed, to thereby obtain the knowledge expression unit.
  • the user's question text from the user does not necessarily require the user to input in the form of text, and may be in the form of a question input form 25 as shown in FIG. 13A, for example.
  • the question input form 25 has an input box 25a for each type of clause.
  • the inquiry response server 20 transmits the question input form 25 to the terminal 2 of the user, and as shown in FIG. 13 (B), the user writes a word in the question input form 25.
  • the terminal 2 having received the input from the user combines the word and the type of the clause, and transmits it to the inquiry response server 20.
  • the inquiry response server 20 converts the information into the knowledge expression unit 50 or the like based on this information.
  • the knowledge database server 15 functioning as a search engine may perform a search based on the user history. For example, after the step S16, the knowledge database server 15 is a user for the server 15 to finally narrow down the answer sentence candidates or to narrow the answer sentence candidates further after narrowing the answer sentence candidates largely in the step S13.
  • Use history By further narrowing down the answer sentence candidates based on the user's profile, purchase history, user information such as access information to the knowledge expression unit, and the like, answer sentences can be provided to the user accurately.
  • the answer sentence candidates may be narrowed down by other leaf clauses instead of the root clause 50r as the received clauses.
  • dependency is concentrated and information on data structure is often aggregated, and it is easy to narrow down candidates of answer sentences primarily.
  • the program for the clause database of the knowledge database server 15, the document clause decomposition unit, the program for the document acceptance analysis unit, and the program for the clause classification unit, the clause decomposition unit, and the intervention analysis unit of the inquiry response server 20 are common programs. Well, these processes may be performed by a common server.
  • the present invention is not limited to the above embodiments.
  • Each of the above-described embodiments is an exemplification and has substantially the same configuration as the technical idea described in the claims of the present invention, and any one having the same function and effect can be obtained. It is included in the technical scope of the present invention.
  • Information retrieval system 2 Terminal 10: Knowledge input management server 11: Control unit 15: Knowledge database server 16: Control unit 17: Knowledge database (database) 20: inquiry response server 21: control unit 30, 31: knowledge expression unit (sentence information, structured document sentence) 30r, 31r: Root clause (Affected clauses) 30l: leaf clause 50, 60: knowledge expression unit of question sentence 50w, 60w: question clause 50u: non-question clause 50r: root clause (received clause) 50 l: Leaf clause 60 e: Arc number column (number of clauses, number of arcs)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

 ユーザからの質問に対して、的確に検索結果を回答する情報検索装置等を提供する。 本発明は、収集した文書の文に関する文情報を記憶し、ユーザからのユーザ質問文の情報を端末2から受信し、ユーザ質問文を文節に分解し(S10)、ユーザ質問文の文節のうち、アーク文節が共通する文書を抽出し、その文書と質問文を比較して質問文に不足するリーフ文節の検索を行い(S12~S16)、検索結果を端末2に送信する(S19)。

Description

情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
 本発明は、端末から情報を受信して情報検索を行い、端末に検索結果を送信する情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体の技術分野に関する。
 インターネットの普及と共に、インターネット上の情報が爆発的に増加したため、ユーザは検索エンジンを利用してインターネット上に存在する情報の中からユーザが欲しい情報の検索を行っている。この場合、ユーザは欲しい情報に関連したキーワードを検索エンジンに対して入力して検索を行う。しかし、キーワードの選定の仕方により、検索結果が大きく異なり、欲しい情報に直ちにたどり着けないのが現状であり、ユーザは、欲しい情報に効率よくたどり着けるように、どのようなキーワードにするかが負担になっていた。
 そのため、利用者がキーワードを意識することなく文章を入力するだけで、検索できる検索方法が研究されている。例えば、特許文献1には、入力された文章を形態素解析して文節を判定すると共に文節毎に係り受けを解析し、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成し、入力された文章に複合語を関連付けて文章データベースに記録し、新たに任意の原文が入力された場合に複合語を作成し、原文に対して得られた複合語をキーとして、文章データベースからキーとなる複合語を含む文章を検索する類似文章検索プログラムが開示されている。
特開2008-210206号公報
 しかしながら、上記従来技術では、入力した文章に対して類似の文章を回答するが、そのためには回答に近い文章を明確に意識して入力する必要がある。欲しい情報の対象が明確でなく、ユーザに疑問点がある場合、例えば、疑問詞を含むような質問文に対しては、的確な回答を得ることができなかった。
 また、上記従来技術では、仮に回答を得られたとしても、網羅的に検索結果を返すため、ノイズが多くなる。
 本発明の目的は、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。
 本発明の他の目的は、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベースを用意し、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。
 本発明のさらに他の目的は、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。
 上記課題を解決するために、請求項1に記載の発明は、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第1文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第2文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段と、を備えたことを特徴とする。
 請求項2に記載の発明は、前記第1文書係受解析手段が、収集した前記文書の文節間の係り受け関係にアークを付与し、前記第1文書係受解析手段が、さらに、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、前記文書構造記憶手段が、変換後の文節およびアークを記憶することを特徴とする。
 請求項3に記載の発明は、前記文書抽出手段が、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含み、前記ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出することを特徴とする。
 請求項4に記載の発明は、検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、前記送信手段が、前記対ユーザ質問文を前記端末に送信することを特徴とする。
 請求項5に記載の発明は、検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、前記送信手段が、検索した文節に代えて、前記対ユーザ質問文を前記端末に送信することを特徴とする。
 請求項6に記載の発明は、前記質問文作成手段は、検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することを特徴とする。
 請求項7に記載の発明は、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第1文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第2文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、前記文書抽出手段が抽出した文書を前記端末に送信する送信手段とを備えたことを特徴とする。
 請求項8に記載の発明は、文書を収集する文書収集ステップと、収集した前記文書の文を文節に分解する第1文書文節分解ステップと、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析ステップと、前記文書、当該文書の文節および文節種別を文書構造記憶手段に記憶する記憶ステップと、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信ステップと、前記ユーザ質問文を文節に分解する第2文書文節分解ステップと、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析ステップと、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出ステップと、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索ステップと、前記検索手段が検索した文節を前記端末に送信する送信ステップを備えたことを特徴とする。
 請求項9に記載の発明は、コンピュータを、文書を収集する文書収集手段と、
 収集した前記文書の文を文節に分解する第1文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第2文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段として機能させることを特徴とする。
 請求項10に記載の発明は、コンピュータを、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第1文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第2文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
 本発明によれば、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第1文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第2文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信するので、ユーザからの質問の質問部分に対して、的確に検索結果を回答文として回答することができる。
 また、本発明によれば、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベースを用意しているので、体言止のような主格がルート文節であるような文書であっても、主格につながるリーフ文節を検索用ルート文節に変換して文書をデータベース化するため、ユーザからの質問に対して、より的確に検索結果を回答することができる。
 さらに、本発明によれば、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答するので、検索結果からノイズを除去し、ユーザからの質問に対して、より的確に検索結果を回答することができる。
本発明に係る実施形態に係る情報検索システムの概要構成例を示すブロック図である。 図1の知識データベースに記憶される文のデータ構造の一例を示す模式図である。 図1の知識データベースに記憶される文のデータ構造の一例を示す模式図である。 図2のデータ構造を実現する形態の一例を示す模式図である。 図3のデータ構造を実現する形態の一例を示す模式図である。 図1の問合せ応答サーバが作成する質問文のデータ構造の一例を示す模式図である。 図6のデータ構造を実現する形態の一例を示す模式図である。 図1の知識入力管理サーバにおいて、文書の文をデータ構造に変換する動作例を示すフローチャートである。 図1の知識入力管理サーバにおけるデータ構造の標準化の一例を示す模式図である。 図9のデータ構造の標準化を実現する形態の一例を示す模式図である。 図1の情報検索システムにおけてユーザからの問い合わせに対して回答する動作例を示すフローチャートである。 図1の知識データベースに記憶されているデータ構造の一例を示す模式図である。 図1の問合せ応答サーバにおける質問入力フォームの一例を示す模式図である。
 以下、図面を参照して本発明を実施するための形態について説明する。
 まず、本発明の実施形態に係る情報検索システムの概要構成および機能について、図に基づき説明する。
 図1は、本発明に係る実施形態に係る情報検索システムの概要構成例を示すブロック図である。
 図1に示すように、情報検索システム1は、インターネット上等の文書の入力を受信し、収集した文書の文を、ユーザからの質問に回答するための知識情報として表した知識表現単位に変換する知識入力管理サーバ10と、この知識表現単位を、収集した文書の文に関する文情報として記憶する知識データベース用サーバ15と、ユーザからの質問を受け付け、知識データベース用サーバ15に記憶されている知識表現単位に基づき、ユーザに回答をする問合せ応答サーバ20と、を備える。収集した文書自体はシステム1内に保存されても、システム1内に保存されなくてもよい。なお、知識表現単位は、文書から取り出した文を、ユーザからの質問に対して検索して回答するために構造化したデータであり、一例として、文の文節間の係り受け関係に基づいたツリー構造データであり、詳しくは後述する。
 図1に示すように、情報検索システム1の知識入力管理サーバ10は、ネットワーク3を介して、ウェブサーバ5や、ローカルエリアネットワーク上のテキストデータ・データベース6に接続されていて、情報検索システム1の問合せ応答サーバ20は、ネットワーク3を介してユーザのパーソナルコンピュータのような端末2等に接続されている。このテキストデータ・データベース6は、インターネット上のブログやクチコミ等の収集した文書をテキストデータとして保存しておく。
 そして、知識データベース用サーバ15は、図1に示すように、知識入力管理サーバ10と、問合せ応答サーバ20とにローカルエリアネットワーク等により接続されている。
 次に、図1に示すように、知識入力管理サーバ10は、収集した文書の文を分析したり、知識表現単位に文書の文を構造化したりする制御部11と、制御部11の実行プログラムや計算結果等を記憶する記憶部12と、を備える。
 制御部11は、CPU(Central Processing Unit)等を有し、ウェブサーバ5に掲載された文書やテキストデータ・データベース6に記憶されている文書を収集する文書収集手段や、この収集した文書の文を文節に分解する文書文節分解手段や、これら文節間の係り受け関係を解析する文書係受解析手段や、この係り受け関係に基づき、知識表現単位のような構造に、文書の文を構造化する文書構造化手段として機能する。また、制御部11は、構造化された文を知識表現単位として知識データベース用サーバ15に送信する。
 記憶部12は、RAM(Random Access Memory)やROM(Read Only Memory)やハードディスクドライブ等を有し、文書文節分解手段や文書係受解析手段や文書構造化手段等の実行プログラムを記憶している。ハードディスクドライブや不揮発性のRAMやROMは、例えば、形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。揮発性のRAMは、一時的に形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。
 次に、図1に示すように、知識データベース用サーバ15は、問合せ応答サーバ20からの検索要求に応じて検索を行う等する制御部16と、知識入力管理サーバ10から送信された知識表現単位等を記憶する知識データベース17と、を備える。
 制御部16は、CPUやRAM等を有し、構造化された文を知識表現単位として知識データベース17に記憶させるデータベース記憶手段や、知識データベース17から文情報の一例である知識表現単位により検索を行う検索手段等として機能する。
 知識データベース17は、ハードディスクドライブ等を有し、収集した文書の文に関する知識表現単位やユーザの知識表現単位へのアクセス情報等のユーザ履歴を記憶する。さらに、ユーザのプロファイルや購入履歴といったユーザ履歴も記憶する。なお、知識表現単位へのアクセス情報以外のユーザ履歴は、別のサーバのデータベースでもよい。このように知識データベース17は、収集した文書の文に関する文情報を記憶する記憶手段等として機能する。
 また、知識入力管理サーバ10と知識データベース用サーバ15とにより、データベースの作成装置として機能し、知識データベース用サーバ15と問合せ応答サーバ20とにより、情報検索装置として機能する。
 次に、図1に示すように、問合せ応答サーバ20は、ユーザからのユーザ質問文の情報を端末2から受信したり、ユーザ質問に対する回答結果をユーザに送信したりする制御部21と、制御部21の実行プログラムや計算結果等を記憶する記憶部22と、を備える。ここでユーザ質問文の一例として、”彼はどこで本を買ったのか?”というような、疑問詞を含む文が挙げられる。
 制御部21は、CPU等を有し、ユーザからのユーザ質問文の情報を端末から受信する受信手段や、ユーザ質問文を文節に分解する文節分解手段や、検索結果として検索された前記文情報に基づいた回答文を前記端末に送信する送信手段等として機能する。記憶部22は、RAMやROMやハードディスクドライブ等を有し、文節分解手段等の実行プログラムを記憶している。ハードディスクドライブや不揮発性のRAMやROMは、例えば、形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。揮発性のRAMは、一時的に形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。
 次に、知識データベース17に記憶される文のデータ構造(知識表現単位)について図2および図3に基づき説明する。
 図2および図3は、知識データベース17に記憶される文のデータ構造の一例を示す模式図である。
 図2に示すように、例えば形態素解析を用いて、通常の文が文節に分解される。ここで、言語形態学によれば、世界の言語は、日本語のような膠着語、中国語のような孤立語、ヨーロッパの言語のような屈折語に分類される。膠着語の場合、文節は例えば助詞を伴って分解される。孤立語の場合、それぞれの品詞が文節として分解される。屈折語の場合、文節は例えば格変化を伴った品詞に分解される。
 その後、知識表現単位30は、係り受け解析を用いて、それぞれの文節がツリー構造のルートに該当するルート文節30rと、ツリー構造のリーフやツリー構造の内部ノードに該当するリーフ文節30lとしてそれぞれの文節種別に定義付けられる。
 本発明において、文節種別のうちルート文節とは、収集した文書の形態素解析および係り受け解析の結果、その文のツリー構造において係り先のない文節である。また、本発明において、文節種別のうちリーフ文節とは、ルート文節以外の文節を意味する。さらに、本発明において、アークとは、リーフ文節間と、リーフ文節とルート文節間の係り受け関係を表す概念である。アーク30aは、1つの文節から他の文節に対して方向性を持って付与される。
 “彼はネットショップの店舗Aで本を買う。”という通常の文の場合、ルート文節30rは、動詞V(買う)であり、リーフ文節30lは、主格S(彼)、対格Ac(本)、および、地格L(店舗A)である。このように通常の文の場合、知識表現単位30において、リーフ文節30lからルート文節30rに向ってアークが付与され、動詞Vがツリー構造のルート文節となる。
 次に、文が体言止である場合、図3に示すように、知識表現単位31において、体言の名詞Nが、ルート文節31rになる。“店舗Aで売られている赤いワイン。”という体言止の文の場合、ルート文節31rは、名詞N(ワイン)、であり、リーフ文節31lは、地格L(店舗A)と形容詞Adj(赤)と、内部ノードである動詞V(売られている)である。アーク31aは、リーフ文節31lからリーフ文節31lに向って、および、リーフ文節31lからルート文節31rに向って付与される。
 なお、このような日本語の文に限定されず、日本語以外の言語でも、文の特徴に応じてルート文節を設定する。
 例えば、氏名を名乗る文書の場合、各言語では次のように表現される。(1)日本語:“私はXXXです。”;(2)中国語: “我姓XXX”;(3)英語:“I am XXX.” リーフ文節は、主格S(私・我・I)、対格Ac(XXX)であり、ルート文節は、動詞V(です・姓・am)である。係り受け関係は、(1)日本語:リーフ文節(私)→リーフ文節(XXX)→ルート文節(です);(2)中国語: リーフ文節(我)→リーフ文節(XXX)→ルート文節(姓);(3)英語:リーフ文節I→リーフ文節(XXX)→ルート文節(am);となる。
 このように、知識表現単位は、一文を文の係り受け構造による構造化したデータであり、係り先のない文節をルート文節にした、すなわち、動詞による統合した構造や、体言止の名詞をルート文節にした名詞による統合した構造が挙げられ、係り受けが集中した文節をルート文節としたツリー構造のデータである。また、知識表現単位は、文節の集合体でもある。
 次に、これらツリー構造の知識表現単位30、31を、知識データベース17の記憶媒体上に展開した場合の一形態としてテーブル形式で示した知識表現単位の構成を説明する。
 図4および図5は、データ構造を実現する形態の一例を示す模式図である。
 図4に示すように、テーブル形式の知識表現単位40は、知識表現単位40を特定するために割り振られた番号欄40aと、文節毎に品詞や格等を示すタイプ項目40bと、文が分解された文節の語句を示す語句欄40cと、係り受けやルートを示すアーク欄40dと、ツリー構造のルートにおけるアークの数を示すアーク数欄40eと、知識表現単位40の作成時を示す作成時欄40fと、知識表現単位40への最終アクセス時を示すアクセス欄40gと、を有する。ここで、文節のタイプの情報の例として、主格、目的格等といった格や、動詞、名詞、形容詞等といった品詞や、動詞および形容詞の活用形の情報が挙げられる。
 ツリー構造をビジュアルに示した知識表現単位30に対応して、テーブル形式の知識表現単位40には、動詞V、主格S、対格Ac、与格D、地格L等のタイプ項目40bに対応した語句欄40cに、“買う”、“彼は”、“本を”、“無し”、“店舗A”が入る。さらに、アーク欄40dには、ルートを示す“r”や係り受け先のタイプを示す“V”等が記憶される。また、検索において候補を絞りやすいように、アーク数欄40eには、アークの本数が記憶され、知識表現単位40が管理しやすいように、作成時欄40fやアクセス欄40gに時間が記憶される。
 図5に示すように、知識表現単位31のように体言止の文の場合、テーブル形式の知識表現単位41のようになる。構成は、知識表現単位40と同じであるが、名詞Nや形容詞Adjのタイプ項目41bに対応した語句欄41cにも語句が記憶されている。
 次に、問合せ応答サーバ20において作成されるユーザ質問文のデータ構造について図に基づき説明する。図6は、問合せ応答サーバが作成するユーザ質問文のデータ構造の一例を示す模式図である。
 ”彼はどこで本を買ったのか?”というユーザからのユーザ質問文が文節に分解され、係り受け関係をツリー構造で表現した知識表現単位50は、ツリー構造のルートに該当するルート文節50rと、ツリー構造のリーフに該当するリーフ文節50lと、ツリー構造のアークに該当し、係り受け関係を表すアーク50aと、を有する。さらに、ルート文節50rやリーフ文節50lは、疑問詞等の質問部分に該当する質問文節50wと、質問以外に関する非質問文節50uに分類される。また、非質問文節50uのうち、他の文節から係り受けされるルート文節50rや一部のリーフ文節が被係受文節となる。ここで、質問文節の情報や非質問文節の情報といった文節の情報の例として、文節のタイプの情報の他に、他の文節から係り受けされたり、係り受けしていたりという係り受けの情報や、アーク数等の係り受けの数の情報や、文字列の情報や、文節のツリー構造におけるルートやリーフであるといった情報や、文節間の構造の特徴の情報等が挙げられる。
 “彼はどこで本を買うか?”というユーザ質問文の場合、ルート文節50rは、動詞V(買う)であり、リーフ文節50lは、主格S(彼)、対格Ac(本)、および、地格L( )である。また、ユーザ質問文の文節に不足する文節の一例である質問文節50wは、地格L( )であり、地格L( )のように空の文節や、地格L(どこで)のように疑問詞や、地格L(X)のように未知変数等で表現してもよい。また、非質問文節50uは、主格S(彼)および対格Ac(本)である。このように、ユーザ質問文もツリー構造にして、知識データベース17のデータ構造と同じような構造にする。
 次に、ユーザ質問文のツリー構造の知識表現単位50を、テーブル形式で示した知識表現単位の構成を説明する。図7は、データ構造を実現する形態の一例を示す模式図である。
 図7に示すように、テーブル形式の知識表現単位60は、品詞や格等を示すタイプ項目60bと、文が分解された文節を示す語句欄60cと、係り受けやルートを示すアーク欄60dと、ツリー構造のルートにおけるアークの数を示すアーク数欄60eと、知識表現単位40の作成時を示す作成時欄60fと、を有する。
 また、アーク欄60dが“r”となる動詞Vの語句欄60cには、ルート文節60rの語句として、“買う”が入る。地格Lの語句欄60cには、質問文節60wの語句“どこで”等の疑問詞が入る。なお、質問文節60wが入る語句欄60cに入る語句は、ユーザ質問文が分解された文節のうち、質問文節と特定できる記号ならばよく、“X”のように未知変数等で表現してもよい。
 次に、情報検索システム1の動作として、収集した文書の文を知識表現単位に変換する動作と、ユーザからの問い合わせに応じて、検索をして質問に対する回答をする動作とについて図に基づき説明する。
 まず、収集した文書の文を知識表現単位に変換する動作について説明する。図8は、知識入力管理サーバ10において、ウェブサーバ5等から収集した文書の文をデータ構造に変換する動作例を示すフローチャートである。
 まず、知識入力管理サーバ10の制御部11は、図1に示したように、ウェブサーバ5やテキストデータ・データベース6等から、知識データベース17を作成するための文書を収集する。このように、制御部11は、文書を収集する文書収集手段として機能する。
 次に、図8に示すように、知識入力管理サーバ10の制御部11は、収集した文書から知識表現単位に変換する一文を抽出する(ステップS1)。具体的には、制御部11は、文書の先頭の文から順に一文ずつ文を抽出していく。
 次に、制御部11は、抽出した一文の形態素解析を行う(ステップS2)。具体的には、制御部11は、形態素解析のプログラムを用い、抽出した一文を文節に分解し、各文節の品詞や格等のタイプを求める。なお、形態素解析として、一般的な形態素解析のプログラムを用いればよい。このように、制御部11は、収集した文書の文を文節に分解する第1文書文節分解手段として機能する。
 文節に分解にした後、制御部11は、係り受け解析を行う(ステップS3)。具体的には、制御部11は、係り受け解析のプログラムを用い、文節間の修飾関係を示す係り受けを求める。係り受け解析として、一般的な係り受け解析のプログラムを用いればよい。このように、制御部11は、文書の文の文節間の係り受け関係を解析する文書係受解析手段として機能する。
 なお、各言語において、各言語構造の特徴や各言語の辞書を利用して、文節に分解したり、品詞等のタイプに分けたり、係り受けを解析したりする。例えば、日本語等の膠着語の場合、接尾辞、接頭辞を利用したり、孤立語の場合、語順等の情報を利用したりする。
 係り受けの解析が終わったら、制御部11は、文の係り受け関係をツリー構造の知識表現単位にする(ステップS4)。具体的には、係り受けの情報に基づき制御部11は、通常の文の場合、図2に示したように、文の係り受け関係を、動詞の文節をルートとしたツリー構造にし、体言止の文の場合、図3に示したように、体言止に対応する名詞をルートとしたツリー構造にする。日本語の場合、終止符や文の終わりにある文節をルート文節にする。中国語や英語等の場合、さらに単語の配置や品詞情報等に基づきルート文節を特定する。このように、制御部11は、係り受け関係に基づき、文書の文を構造化する文書構造化手段として機能する。
 図4や図5に示したようにテーブル形式の知識表現単位の場合、制御部11は、ステップS2で文節に分解され品詞や格等のタイプが特定された文の文節を、該当する語句欄40c、41cに入れる。日本語の場合、図中括弧書きの助詞や助動詞を取り除いてもよい。次にステップS3で係り受けの解析に基づき、制御部11は、アーク欄40d、41dに、ルート文節の情報や係り受け先の情報を入れる。さらに、制御部11は、ルート文節に係り受けしている文節の数をカウントし、アーク数欄40eにアーク数を入れ、知識表現単位40、41が作成された日時の情報を入れる。以上のように、制御部11は、文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段として機能する。
 次に、制御部11は、知識表現単位を標準化する(ステップS5)。この標準化は、文の表層表現の差を吸収するために行われる。例えば、“店舗Aで本を買うのは彼です。”と、“彼は店舗Aで本を買う。”という文は、実質的に内容は同じである。しかし、図9(A)に示すように、“店舗Aで本を買うのは彼です。”の知識表現単位32は、ルート文節32rに対して、当該ルート文節32rにつながるリーフ文節32lが接続し、このリーフ文節32lにリーフ文節32lが2個接続しているツリー構造であり、図2に示した知識表現単位30と大きく異なる。そこで、具体的な処理として、図9(B)に示すように、制御部11は、まず、知識表現単位32におけるルート文節32rとリーフ文節32lとのアーク32aの向きを逆にして、アーク33aとして、リーフ文節32lを検索用ルート文節33rとする。また、ルート文節32rを検索用リーフ文節33lとする。さらに、制御部11は、リーフ文節32lの“V’(買うのは)”を、ルート文節33rの“V(買う)”にするというように、文節のタイプを操作する。そして、図9(C)に示すように、制御部11は、検索用リーフ文節33lのタイプ(Be)をタイプ(S)に操作する。このように、制御部11は、係り受けするアークが多いノードにアークの向きを揃え、文節のタイプを操作する処理をすることにより、知識表現単位の標準化を図っている。
 ここで、本発明において、検索用リーフ文節とは、ルート文節を起源とする文節であって、文節のタイプを操作する処理を行った後、リーフ文節として保存されている文節を意味する。また、本発明において、検索用ルート文節とは、リーフ文節を起源とする文節であって、文節のタイプを操作する処理を行った後、ルート文節として保存されている文節を意味する。
 この一連の処理をテーブル形式の知識表現単位で説明したのが、図10である。図10(A)に示すように、知識表現単位32をテーブル形式にしたものが、知識表現単位42である。制御部11は、ルート文節に係り受けするアーク数より、当該ルート文節につながるリーフ文節に係り受けする文節に係るアーク数が多い場合、このリーフ文節を検索用ルート文節に変換する。例えば、図10(A)および(B)に示すように、制御部11は、語句欄42cにおいて、V’:“買う(のは)”をタイプ操作して移動して、V:“買う”にし、アーク欄42dにおいて、タイプVを“r”にし、タイプAcとタイプLの“V’”を“V”にする。そして、制御部11は、語句欄42cにおいて、Be:“彼(です)”をタイプ操作して移動して、S:“彼(は)”にし、アーク欄42dにおいて、タイプS:“V”にする。この一連の処理により、知識表現単位42は、知識表現単位34をテーブル形式で示した知識表現単位44となる。
 このように、制御部11は、標準化の機能として、構造化された文書の文における係り受け関係の向きを逆転させる係受関係逆転手段や、係り受け関係が逆転した文節の文節タイプを操作する文節タイプ操作手段として機能する。また、制御部11は、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換する第1文書係受解析手段として機能する。
 標準化が必要な知識表現単位を標準化した後、制御部11は、知識表現単位に作成時等を記入する(ステップS6)。具体的には、図4等に示すように、制御部11は、作成時欄40fに、知識表現単位の作成日時を記入する。文を知識表現単位にしたならば、制御部11は、知識表現単位を知識データベース用サーバ15に送信する。例えば、制御部11は、文書の文節およびアークの情報や、標準化された変換後の文書の文節およびアークの情報を知識データベース用サーバ15に送信する。
 知識表現単位を受信したら、知識データベース用サーバ15の制御部16は、知識表現単位を知識データベース17に記憶する(ステップS7)。このとき、重複する知識表現単位は、記憶しないようにしてもよい。重複しているか否かのマッチングの方法は、後述する検索と類似した方法でよい。
 このように、制御部16は、構造化された文書の文の一例である知識表現単位をデータベースに記憶するデータベース記憶手段、および、文情報として、文書の文における文節間の係り受け関係に基づいた文情報の一例である知識表現単位を記憶しておく記憶手段として機能する。また、制御部16は、文書、当該文書の文節および文節種別を記憶する文書構造記憶手段や、変換後の文節およびアークを記憶する文書構造記憶手段として機能する。
 次に、ユーザからの問い合わせに応じて、検索をして質問に対する回答をする動作について説明する。これは、文書のリーフ文節のうち、ユーザからのユーザ質問文の文節に不足する文節の検索を行う動作の一例である。
 図11は、情報検索システム1におけてユーザからの問い合わせに対して情報検索を行い回答する動作例を示すフローチャートである。図12は、知識データベース17に記憶されている知識表現単位の一例を示す模式図である。
 まず、制御部21は、ユーザの端末2からユーザからのユーザ質問文を受け付ける。例えば、“彼は本をどこで買ったか?”というようなユーザ質問文である。このように制御部21は、ユーザからのユーザ質問文の情報を端末から受信する受信手段として機能する。
 次に、ユーザ質問文を受信した問合せ応答サーバ20の制御部21は、ユーザ質問文を知識表現単位の形式に変換する(ステップS10)。具体的には、制御部21は、ユーザ質問文を形態素解析し文節に分解し、これら文節の品詞や格等のタイプを特定する。そして、制御部21は、これら文節の係り受け解析を行い、ユーザ質問文を知識表現単位にする。例えば、制御部21は、ユーザ質問文を図6に示したような知識表現単位50や図7に示したようなテーブル形式の知識表現単位60にする。このように、制御部21は、ユーザ質問文を文節に分解する第2文節分解手段、および、ユーザ質問文の文節間の係り受け関係を解析する係受解析手段として機能する。制御部21は、ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段として機能する。
 次に、制御部21は、ユーザ質問文の知識表現単位50、60を、知識データベース用サーバ15に検索要求として送信する(ステップS11)。
 ユーザ質問文の知識表現単位50、60を受信した知識データベース用サーバ15の制御部16は、ユーザ質問文の知識表現単位50、60からルート文節50r、60rを抽出する(ステップS12)。このステップは、効率的に検索ができるように、係り受けが集中している文節を検索に利用するためであるが、知識表現単位は、ルート文節に係り受けがなるべく集中するように標準化されているので、制御部16は、ルート文節50r、60rを抽出するだけでよい。また、図7に示したテーブル形式の知識表現単位60の場合、制御部16は、アーク欄60dが“r”であるタイプと語句欄60cの文字列と、知識データベース17の知識表現単位50、51等のアーク欄50d、51dがr”であるタイプと語句欄50c、51cの文字列とを照合する。このように制御部21は、ユーザ質問文の文節50r、50lのうち、質問に関する質問文節50wと質問以外に関する非質問文節50uとに分類する文節分類手段として機能している。なお、文字列の照合は、類義語辞書等を用いて、意味内容が近い語句同士なら対応していると判断させてもよい。   
 次に、制御部16は、ユーザ質問文のルート文節に対応するルート文節の知識表現単位を収集する(ステップS13)。図11のステップ13では、「同じルート文節」を収集するが、検索用ルート文節を抽出することもあり、類義語辞書等を用いて意味内容が近いルート文節を抽出することもある。具体的には、図12に示すように、制御部16は、ユーザ質問文のルート文節50rと同じタイプで、同文字列のルート文節30rを有する知識表現単位30(a)(b)(c)を収集する。このように制御部16は、非質問文節50uのうち、他の文節から係り受けされる被係受文節の一例であるルート文節50rの情報に基づき、知識データベース17から文情報の一例である知識表現単位30、31の検索を行う検索手段として機能する。また、制御部16は、ユーザ質問文の被係受文節の一例である50rと、文情報の被係受文節の一例である30rとの照合により検索を行う検索手段として機能する。
 このように、制御部16は、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含む文書抽出手段として機能する。
 次に、制御部16は、ユーザ質問文のアーク数以上のアーク数を有する知識表現単位に絞り込む(ステップS14)。具体的には、図12に示すように、制御部16は、知識表現単位30(a)(b)(c)のうち、ユーザ質問文のアーク数“3”以上のアーク数を有する知識表現単位30(a)(b)に絞り込む。テーブル形式の知識表現単位の場合、制御部16は、ユーザ質問文の知識表現単位60のアーク数欄60eの値と、知識表現単位50、51のアーク数欄50e、51eの値との比較を行う。ここで、動詞がルート文節の場合、主格S、対格Ac、地格Lと言った格数がアーク数となる。このように制御部16は、ユーザ質問文の被係受文節に係り受けしている文節の数の一例であるユーザ質問文の格数に基づき検索を行う検索手段として機能する。
 このように、制御部16は、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含み、ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する文書抽出手段として機能する。
 次に、制御部16は、ユーザ質問文の非質問文節(ルート文節を除く)と同じ文字列の知識表現単位に絞り込む(ステップS15)。具体的には、図12に示すように、リーフ文節40lのうち、非質問文節50yの文字列と同じ文字列を有する知識表現単位30(a)に絞り込む。テーブル形式の知識表現単位の場合、制御部16は、タイプ項目60bが“S”と“Ac”のところの文字列と同じ文字列を有する知識表現単位に絞り込む。なお、文字列の照合や比較は、類義語辞書等を用いて、意味内容が近い語句同士なら同じ文字列としてもよい。
 次に、制御部16は、質問文節のタイプに絞り込む(ステップS16)。具体的には、制御部16は、ステップS15で絞られた知識表現単位の中に、質問文節のタイプである地格Lの文節が存在するかを検索して候補の知識表現単位をさらに絞る。テーブル形式の知識表現単位の場合、制御部16は、質問文節60wのタイプである地格Lの欄に、絞られた知識表現単位に語句があるか判定する。このように制御部16は、質問文節のタイプの情報と非質問文節の情報とに基づき、記憶手段の中から、ユーザ質問文に対する回答の文情報の検索を行う検索手段として機能する。
 次に、制御部16は、絞り込まれた知識表現単位の数が所定数よりも小さいか否かを判定する(ステップS17)。具体的には、ユーザが許容可能な記憶のマジックナンバーである7±2個ぐらいまで回答の候補を絞り込めるように、所定数を設定する。
 知識表現単位の数が所定数よりも小さい場合(ステップS17;YES)、制御部16は、質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出す(ステップS18)。具体的には、制御部16は、質問文節のタイプに一致した知識表現単位中の回答文節から文字列を抜き出して、ユーザ質問文の質問文節の疑問詞と入れ替えたり、質問文節を回答文節に入れ替えたりして、ユーザ質問文を回答文に変換する。質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出すことにより、ユーザ質問文の文節に不足する文節の検索が行われる。このように、制御部16は、検索された文情報から、質問文節のタイプと一致したタイプを有する文節を抽出して回答文節を得る回答文節取得手段として機能する。
 なお、制御部16は、最終的に絞られた知識表現単位にアクセス時間を書き込む。例えば、制御部16は、知識表現単位40のアクセス欄40gに日時の情報を書き込む。そして、制御部16は、回答文節や、絞り込まれた知識表現単位やユーザ質問文から変換された回答文を検索結果として、問合せ応答サーバ20に送信する。
 次に、制御部21は、得られた検索結果を回答として端末2に送信する(ステップS19)。具体的には、制御部21は、検索された文情報に基づいた文の一例であるユーザ質問文から変換された回答文や、絞り込まれた知識表現単位に対応した文書の文を、端末2に送信する。なお、ユーザ質問文から変換された回答文でなく、絞り込まれた知識表現単位に対応した文書の文の場合、ステップS14でアーク数が多い場合で絞っているので、ユーザ質問文に無かった格の文節が含まれることがある。このように、制御部21は、検索された文情報に基づいた回答文を端末に送信する送信手段、回答文節に関する情報を送信する送信手段として機能する。また、制御部21は、検索手段が検索した文節を端末2に送信する送信手段として機能する。また、制御部21は、抽出手段が抽出した文書を前記端末に送信する送信手段として機能する。
 一方、知識表現単位の数が所定数以上の場合(ステップS17;NO)、制御部16は、絞込み質問を生成し、制御部21は、知識データベース用サーバ15から絞込み質問を受信し、質問者に送信する(ステップS20)。例えば、ユーザ質問文が、“彼は何を買ったのですか?”という場合、非質問文節における文節数が、より少なくなっていて、知識データベース17に、該当する知識表現単位が多く存在する可能性がある。この場合、制御部16は、主格Sや対格Ac以外のタイプ(ユーザ質問文にないタイプ)の文節の情報を取得できる。例えば、制御部16は、地格Lの文節が多い場合、地格Lに基づき、質問文節“どこで”を生成させ、絞り込むための質問としては,“どこで買ったのですか?”という絞込み質問を生成する。なお、動詞“買う”は、ユーザの質問文を利用する。このように、制御部16は、検索された文情報に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段として、制御部21は、対ユーザ質問文を送信する送信手段として機能する。
 また、制御部16は、知識表現単位の数が所定数以上の場合、検索した文節に代えて、対ユーザ質問文を前記端末に送信する。
 ここで、検索された知識表現単位の数(検索された文節集合体の数)が所定数以上であり、知識表現単位の数多くなり、文節の集合体である知識表現単位に含まれる文節の数も多くなる。検索された文節の数も多くなり、検索された文節の数が所定数以上となる。このように、制御部16は、検索された文節の数が所定の所定数以上の場合に、対ユーザ質問文を作成する質問文作成手段として機能する。
 次に、問合せ応答サーバ20の制御部21は、ユーザから対ユーザ質問文に対する回答文を受信し、知識表現単位に変換し、知識データベース用サーバ15に送信する。そして、知識データベース用サーバ15の制御部16は、受信した回答文の知識表現単位の各文節に基づき、絞り込まれている知識表現単位から該当する知識表現単位を選択する(ステップS21)。具体的には、対ユーザ質問文“どこで買ったのですか?”に対する回答“店舗Aで”を受信した場合、この回答の地格L文節の情報に基づき、知識表現単位を選択する。
 次に、制御部16は、選択された知識表現単位の中から、元のユーザ質問文の質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出して、ユーザ質問文の質問文節の疑問詞と入れ替えたり、質問文節を回答文節に入れ替えたりして、ユーザ質問文を回答文に変換する。そしてこの回答文を、制御部16は選択結果として、問合せ応答サーバ20に送信する。
 制御部16は、このように、抽出した文書を参照し、当該文書のリーフ文節のうち、知識表現単位50のユーザ質問文の文節に不足する文節(50w)を補うため、元のユーザ質問文の質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出すように、文節を検索する。
 次に、制御部21は、問合せ応答サーバ20から受信した選択結果を回答としてユーザの端末2に送信する(ステップS22)。
 このように本実施形態によれば、知識データベース用サーバ15が、収集した文書の文に関する文情報の知識表現単位30、31を知識データベース17に記憶し、問合せ応答サーバ20が、ユーザからのユーザ質問文の情報を端末2から受信し、ユーザ質問文を文節に分解し、ユーザ質問文の文節のうち、質問に関する質問文節50wと質問以外に関する非質問文節50uとに分類し、知識データベース用サーバ15が、質問文節50wのタイプの情報と非質問文節50uの情報とに基づき、知識データベース17中から、ユーザ質問文に対応する知識表現単位30、31の検索を行い、問合せ応答サーバ20が、検索結果を端末2に送信することにより、情報検索システム1として、ユーザ質問文や収集した文書の文の構造に基づいた検索を行っているので、ユーザからの質問の質問部分に対して、的確に検索結果を回答することができる。
 また、本実施形態によれば、文書を収集し、収集した文書の文を文節に分解し、文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節30l、31lとルート文節30r、30rに分類し、文節間の係り受け関係にアーク30a等を付与し、文書、当該文書の文節および文節種別を記憶し、次に、ユーザの端末2に入力されたユーザ質問文の情報を端末2から受信し、ユーザ質問文を文節に分解し、ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節50lとルート文節50rに分類する文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出し、抽出した文書を参照し、当該文書のリーフ文節のうち、ユーザ質問文の文節に不足する文節の検索を行い、検索した文節を端末2に送信するので、ユーザからの質問の質問部分に対して、的確に検索結果を回答文として回答することができる。
 また、本実施形態によれば、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベース(知識データベース17)を用意しているので、体言止のような主格がルート文節であるような文書であっても、主格につながるリーフ文節を検索用ルート文節に変換して文書をデータベース化するため、ユーザからの質問に対して、より的確に検索結果を回答することができる。
 さらに、本実施形態によれば、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答するので、検索結果からノイズを除去し、ユーザからの質問に対して、より的確に検索結果を回答することができる。
 また、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、前記文書構造記憶手段が、変換後の文節およびアークを知識データベース17に記憶することにより、文章の表現が標準化され、文の表層表現の差を吸収するために、知識データベース17のコンパクト化、検索の速度の向上を図ることができる。
 また、質問文の情報全体で一度にマッチングして検索するのではなく、非質問文節50uという文の部分の情報でマッチングをまず図り、回答文の候補を的確に大まかに絞り、次に、質問文節50wの格や品詞等のタイプの情報で絞るので、回答の取りこぼしが少なく、効率よく、的確に回答をユーザに与えることができる。以上の実施形態では、収集した文書に変更を加えることなく形態素解析および係り受け解析を行う例を記載したが、1つの文書が長文になる場合は適切な回答を行うためのデータベースを生成することができない可能性がある。そこで、他の実施形態として、文書を受信したときに、所定の文字数または所定のワード数を超える場合には、句読点や関係代名詞で文書を分割し、全体文書および分割文書をともに解析を行うようにすることが好ましい。
 また、情報検索システム1が、検索された文情報に基づいた回答文を端末2に送信する場合、ユーザに対して文章で回答するので違和感が少ない。知識表現単位という文の構造により、記憶や検索が行われているため、質問に対する回答の文章を作るのが容易である。また、的確に検索結果を回答文として回答することができる。
 また、情報検索システム1が、検索された文情報から、質問文節50wのタイプと一致したタイプを有する文節を抽出して回答文節を得て、この回答文節に関する情報を端末2に送信する場合、ユーザにピンポイント的に、質問の核心の部分の回答を的確に提供できる。また、的確に質問の質問部分に対する回答を与えることができる。
 また、情報検索システム1が、ユーザ質問文の文節間の係り受け関係を解析し、非質問文節50uのうち、ルート文節50r等の他の文節から係り受けされる被係受文節の情報に基づき、知識データベース17から知識表現単位30、31の検索を行う場合、文節間の関係を考慮しているため、より的確に知識データベース17からから回答を見つけ出すことができる。ルート文節50rや一部のリーフ文節(標準化によりルート文節に変換される)は、他の文節から係り受けを受けていて、係り受けが集中している文節であり、文の構造の情報が集まっているため、被係受文節に基づくことにより、検索が効率的となる。
 また、知識データベース17が、文情報として、文書の文における文節間の係り受け関係に基づいた文情報を記憶しておき、情報検索システム1が、ユーザ質問文の被係受文節と、文情報の被係受文節との照合により検索を行う場合、例えば、ルート文節50rとルート文節30r、31rとを照合により検索をまず行う場合、知識データベース17の知識表現単位の中から、回答に該当する知識表現単位の一次候補を的確に集めやすい。また、文節間の係り受け関係という構造化された知識表現単位として取り扱うため、構造の知識を検索の仕方に取り込むことにより、より検索しやすくなる。
 また、情報検索システム1が、ユーザ質問文のルート文節50r等の被係受文節に係り受けしている文節の数(アーク数)に基づき検索を行う場合、非質問文節50uでまず候補が絞られた後、アーク数により更に的確に候補を絞るため、さらに的確に、回答文を検索できる。
 また、情報検索システム1が、文書抽出手段としてが、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含み、ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する場合、アーク数により更により的確に候補を絞るため、さらに的確に、回答文を検索できる。
 また、検索された文情報(検索された文節)に基づき、ユーザに対する対ユーザ質問文を作成し、対ユーザ質問文を端末2に送信する場合、候補の知識表現単位30、31の数が所定数を超えたとき、回答文の候補を絞るための対ユーザ質問文を作成し、ユーザに送信することにより、ユーザと対話的になり、ユーザからその回答を得ることで、さらに回答文の候補を確実に絞ることができる。
 検索した文節に代えて、対ユーザ質問文を端末2に送信する場合も、ユーザと対話的になり、ユーザからその回答を得ることで、さらに回答文の候補を確実に絞ることができる。
 検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することにより、対ユーザ質問文を端末2に送信するか、検索した文節を端末2に送信するかを切り分けることができ、また、対ユーザ質問文を作成する明確な基準が定めることができる。
 また、ユーザ質問文に動詞がない場合、例えば、“彼はどこで?”というユーザ質問文の場合、ルート文節50rは空文節になり、ステップS12~ステップS14が飛ばされる。ステップS15のリーフ文節50lの非質問文節50uや、ステップS16の質問文節50wにより、回答文の候補が絞られる。このように絞り込む情報が少ないため、回答文の候補の数が多い場合が多くなる。このような場合に、対ユーザ質問文をユーザに送信してユーザと対話的に回答を得ることにより、回答文の候補を確実に絞ることができる。
 また、知識入力管理サーバ10と知識データベース用サーバ15等とから構成されるデータベースの作成装置が、ネットワーク3等を介して文書を収集したり、テキストデータ・データベース6から収集したりした文書の文を文節に分解し、文書の文の文節間の係り受け関係を解析し、係り受け関係に基づき、文書の文を構造化し、構造化された文書の文を知識データベース17に記憶させることにより、知識表現単位30、31が各々独立していて、知識表現単位30、31によりデータの管理が容易になる。例えば、図4に示したように、テーブル形式の知識表現単位40の作成時欄40fやアクセス欄40gの情報に基づき、知識データベース用サーバ15が、あまり利用されない知識表現単位をそのまま削除したり、新しい知識表現単位を追加したり等、知識データベース17の管理がしやすい。また、文書の文が構造化されているため、知識データベース用サーバ15はユーザからのユーザ質問文に応じた検索がしやすい。
 また、知識データベース用サーバ15が、構造化された文書の文における係り受け関係の向き(アークの向き)を逆転させ、係り受け関係が逆転した文節の文節タイプを操作することにより、知識表現単位の表層表現の差を吸収でき、知識表現単位を標準化することができる。例えば、図9に示したように、アークが多いリーフ文節32lにアークの向きを揃える変換を行い、文節のタイプを操作することにより、知識表現単位30と同等の知識表現単位34を得ることができ、知識表現単位を標準化することができる。標準化により、データ数の縮約ができ、検索のパフォーマンスの向上が図れる。
 なお、ユーザからのユーザ質問文は、必ずしもユーザに文章の形で入力を要求する必要はなく、例えば、図13(A)に示すように、質問入力フォーム25の形式でもよい。質問入力フォーム25は、文節のタイプごとに、入力ボックス25aを有する。そして、問合せ応答サーバ20が、質問入力フォーム25をユーザの端末2に送信し、図13(B)のように、ユーザが、質問入力フォーム25に語句を記入する。ユーザからの入力を受け付けた端末2は、語句と文節のタイプと結びつけて、問合せ応答サーバ20に送信する。問合せ応答サーバ20は、この情報に基づき、知識表現単位50等に変換する。
 また、検索エンジンとして機能する知識データベース用サーバ15は、ユーザ履歴に基づき検索を行ってもよい。例えば、ステップS16の後、最終的に回答文の候補を絞るためや、ステップS13で大きく回答文候補を絞った後に、候補をさらに回答文の候補を絞るために、知識データベース用サーバ15がユーザ履歴を利用する。ユーザのプロファイルや購入履歴や、知識表現単位へのアクセス情報等のユーザ履歴に基づき、回答文の候補をさらに絞ることにより、的確にユーザに回答文を提供することができる。
 また、ステップS13において、被係受文節としてルート文節50rでなく、他のリーフ文節により、回答文の候補を絞り込んでもよい。一部のリーフ文節には、係り受けが集中して、データ構造上の情報が集約していることが多く、回答文の候補を1次的に絞りやすい。
 また、知識データベース用サーバ15の文節分類手段、文書文節分解手段、文書係受解析手段のプログラムと、問合せ応答サーバ20の文節分類手段、文節分解手段、係受解析手段のプログラムは共通のプログラムでもよく、これらの処理を共通のサーバで行ってもよい。
 さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
 1:情報検索システム
 2:端末
 10:知識入力管理サーバ
 11:制御部
 15:知識データベース用サーバ
 16:制御部
 17:知識データベース(データベース)
 20:問合せ応答サーバ
 21:制御部
 30、31:知識表現単位(文情報、構造化された文書の文)
 30r、31r:ルート文節(被係受文節)
 30l:リーフ文節
 50、60:質問文の知識表現単位
 50w、60w:質問文節
 50u:非質問文節
 50r:ルート文節(被係受文節)
 50l:リーフ文節
 60e:アーク数欄(文節の数、アーク数)

Claims (10)

  1.  文書を収集する文書収集手段と、
     収集した前記文書の文を文節に分解する第1文書文節分解手段と、
     前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、
     前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
     ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
     前記ユーザ質問文を文節に分解する第2文書文節分解手段と、
     前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、
     前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
     抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
     前記検索手段が検索した文節を前記端末に送信する送信手段と、
    を備えたことを特徴とする情報検索装置。
  2.  前記第1文書係受解析手段が、収集した前記文書の文節間の係り受け関係にアークを付与し、 前記第1文書係受解析手段が、さらに、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、
     前記文書構造記憶手段が、変換後の文節およびアークを記憶する、
     請求項1記載の情報検索装置。
  3.  前記文書抽出手段が、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含み、前記ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する、
     請求項1または2記載の情報検索装置。
  4.  検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、
     前記送信手段が、前記対ユーザ質問文を前記端末に送信することを特徴とする、請求項1から請求項3のいずれか1項に記載の情報検索装置。
  5.  検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、
     前記送信手段が、検索した文節に代えて、前記対ユーザ質問文を前記端末に送信することを特徴とする、請求項1から請求項3のいずれか1項に記載の情報検索装置。
  6.  前記質問文作成手段は、検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することを特徴とする、請求項5記載の情報検索装置。
  7.  文書を収集する文書収集手段と、
     収集した前記文書の文を文節に分解する第1文書文節分解手段と、
     前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、
     前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
     ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
     前記ユーザ質問文を文節に分解する第2文書文節分解手段と、
     前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、
     前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
     前記文書抽出手段が抽出した文書を前記端末に送信する送信手段と、
     を備えたことを特徴とする情報検索装置。
  8.  文書を収集する文書収集ステップと、
     収集した前記文書の文を文節に分解する第1文書文節分解ステップと、
     前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析ステップと、
     前記文書、当該文書の文節および文節種別を文書構造記憶手段に記憶する記憶ステップと、
     ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信ステップと、
     前記ユーザ質問文を文節に分解する第2文書文節分解ステップと、
     前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析ステップと、
     前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出ステップと、
     抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索ステップと、
     前記検索手段が検索した文節を前記端末に送信する送信ステップと、
     を備えたことを特徴とする情報検索方法。
  9.  コンピュータを、
     文書を収集する文書収集手段と、
     収集した前記文書の文を文節に分解する第1文書文節分解手段と、
     前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、
     前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
     ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
     前記ユーザ質問文を文節に分解する第2文書文節分解手段と、
     前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、
     前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
     抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
     前記検索手段が検索した文節を前記端末に送信する送信手段として機能させることを特徴とする情報検索プログラム。
  10.  コンピュータを、
     文書を収集する文書収集手段と、
     収集した前記文書の文を文節に分解する第1文書文節分解手段と、
     前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第1文書係受解析手段と、
     前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
     ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
     前記ユーザ質問文を文節に分解する第2文書文節分解手段と、
     前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第2文書係受解析手段と、
     前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
     抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
     前記検索手段が検索した文節を前記端末に送信する送信手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
     
PCT/JP2010/060987 2009-06-26 2010-06-28 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 WO2010150910A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2010545124A JP4768882B2 (ja) 2009-06-26 2010-06-28 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
US13/380,745 US8296319B2 (en) 2009-06-26 2010-06-28 Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
CN201080028234.7A CN102460437B (zh) 2009-06-26 2010-06-28 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质
EP10792227.0A EP2450805A4 (en) 2009-06-26 2010-06-28 INFORMATION SEARCH, INFORMATION SEARCH PROCEDURE, INFORMATION SEARCH PROGRAM AND STORAGE MEDIUM WITH STORED SEARCH PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009152481 2009-06-26
JP2009-152481 2009-06-26

Publications (1)

Publication Number Publication Date
WO2010150910A1 true WO2010150910A1 (ja) 2010-12-29

Family

ID=43386677

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/060987 WO2010150910A1 (ja) 2009-06-26 2010-06-28 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体

Country Status (5)

Country Link
US (1) US8296319B2 (ja)
EP (1) EP2450805A4 (ja)
JP (1) JP4768882B2 (ja)
CN (1) CN102460437B (ja)
WO (1) WO2010150910A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
JP2014507704A (ja) * 2010-12-30 2014-03-27 プライマル フュージョン インコーポレイテッド デジタル・ソーシャル・ネットワーク上でセマンティック操作を実行するためのシステム及び方法
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
JP2022046759A (ja) * 2021-06-30 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 検索方法、装置、電子機器及び記憶媒体

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019437B2 (en) * 2015-02-23 2018-07-10 International Business Machines Corporation Facilitating information extraction via semantic abstraction
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
WO2019051845A1 (en) * 2017-09-18 2019-03-21 Microsoft Technology Licensing, Llc CONVERTIBLE ROBOTS FOR FITNESS SUPPORT

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2004127003A (ja) * 2002-10-03 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体
JP2005063158A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 質問応答装置および方法
JP2005346160A (ja) * 2004-05-31 2005-12-15 Oki Electric Ind Co Ltd 質問応答装置、質問応答方法、読替係り受け生成装置、読替係り受け生成方法及びプログラム
JP2007141090A (ja) * 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2008210206A (ja) 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
JP2006139692A (ja) * 2004-11-15 2006-06-01 Advance Design Corp テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2004127003A (ja) * 2002-10-03 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体
JP2005063158A (ja) * 2003-08-13 2005-03-10 Fuji Xerox Co Ltd 質問応答装置および方法
JP2005346160A (ja) * 2004-05-31 2005-12-15 Oki Electric Ind Co Ltd 質問応答装置、質問応答方法、読替係り受け生成装置、読替係り受け生成方法及びプログラム
JP2007141090A (ja) * 2005-11-21 2007-06-07 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2008210206A (ja) 2007-02-27 2008-09-11 Shizuoka Prefecture 類似文章検索プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ATSUSHI SAKAMOTO: "Taiwagata Shitsumon Oto System ni Okeru Aimai na Shitsumon ni Taisuru Toikaeshibun no Seisei", 19 March 2007 (2007-03-19), pages 1006 - 1009, XP008165559 *
See also references of EP2450805A4

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198503B2 (en) 2008-05-01 2019-02-05 Primal Fusion Inc. System and method for performing a semantic operation on a digital social network
JP2014507704A (ja) * 2010-12-30 2014-03-27 プライマル フュージョン インコーポレイテッド デジタル・ソーシャル・ネットワーク上でセマンティック操作を実行するためのシステム及び方法
JP2016146213A (ja) * 2010-12-30 2016-08-12 プライマル フュージョン インコーポレイテッド デジタル・ソーシャル・ネットワーク上でセマンティック操作を実行するためのシステム及び方法
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
JP2022046759A (ja) * 2021-06-30 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 検索方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
CN102460437B (zh) 2014-10-15
EP2450805A4 (en) 2015-11-04
US8296319B2 (en) 2012-10-23
EP2450805A1 (en) 2012-05-09
CN102460437A (zh) 2012-05-16
US20120096028A1 (en) 2012-04-19
JP4768882B2 (ja) 2011-09-07
JPWO2010150910A1 (ja) 2012-12-10

Similar Documents

Publication Publication Date Title
US20170235841A1 (en) Enterprise search method and system
Gupta et al. A survey of text question answering techniques
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US7447683B2 (en) Natural language based search engine and methods of use therefor
JP5481615B2 (ja) 使用者の意図に基づく情報検索方法及び情報提供方法
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US20100287162A1 (en) method and system for text summarization and summary based query answering
WO2010150910A1 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
US8280721B2 (en) Efficiently representing word sense probabilities
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP4005343B2 (ja) 情報検索システム
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
JP5106042B2 (ja) 文書関連性分析装置、方法及びプログラム
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
JP4024137B2 (ja) 数量表現検索装置
Milić-Frayling Text processing and information retrieval
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치
JP2002278963A (ja) 事例翻訳装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080028234.7

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2010545124

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10792227

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010792227

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13380745

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE