WO2007105615A1 - 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム - Google Patents

要求内容識別システム、自然言語による要求内容の識別方法及びプログラム Download PDF

Info

Publication number
WO2007105615A1
WO2007105615A1 PCT/JP2007/054632 JP2007054632W WO2007105615A1 WO 2007105615 A1 WO2007105615 A1 WO 2007105615A1 JP 2007054632 W JP2007054632 W JP 2007054632W WO 2007105615 A1 WO2007105615 A1 WO 2007105615A1
Authority
WO
WIPO (PCT)
Prior art keywords
request
score
analysis
candidate
input
Prior art date
Application number
PCT/JP2007/054632
Other languages
English (en)
French (fr)
Inventor
Kai Ishikawa
Susumu Akamine
Shinichi Ando
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/224,885 priority Critical patent/US8583435B2/en
Priority to JP2008505100A priority patent/JP5099367B2/ja
Publication of WO2007105615A1 publication Critical patent/WO2007105615A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Definitions

  • Request content identification system request content identification method and program in natural language
  • the present invention relates to a request content identification system, a request content identification method and program in natural language, and in particular, analyzes a request sentence (input request sentence) input in a natural language format
  • the present invention relates to a request content identification system capable of identifying and outputting a request content, a method for identifying a request content in a natural language, and a program.
  • One of the key to this question answering technique is an information request content identification technique for an input question sentence.
  • the content of information requests to be identified varies in content and granularity depending on the target domain. For example, in the question answering for information devices, how to use various functions related to information devices, questions, and troubleshooting methods, etc. Various questions and answers can be assumed. In this case, the question to which the input question corresponds is identified roughly or in detail as necessary.
  • Patent Document 1 An example of such a conventional technology for identifying information request contents is disclosed in Patent Document 1.
  • the Japanese question message analyzing apparatus described in Patent Document 1 includes an input means for inputting a Japanese question message, an information request sentence extracting means for extracting an information request sentence describing a core part of the message power information request, and Structuring the main information request in the message, the Japanese language analysis section that analyzes the information request sentence, the semantic structure analysis section that calculates the semantic structure of the information request sentence, the reference expression resolution means that resolves the reference expression of the request sentence Information request structuring means and output means for outputting an information request sentence. More specifically, the Japanese question message analyzing apparatus operates as follows.
  • the information request sentence extracting means extracts an information request sentence that describes the core part of the information request by focusing on a specific expression character string for the input Japanese question message to be processed
  • the Japanese analysis unit generates a syntax analysis result of the information request sentence through a syntax analysis process of the information request sentence.
  • the semantic structure analysis unit compares the result of the syntax analysis of the information request sentence obtained by the Japanese language analysis unit with a semantic structure pattern dictionary in which the syntax structure is previously described with respect to the variation of the information request sentence. Extract the semantic structure of the information request sentence.
  • the reference expression elimination means resolves the reference expression based on the characteristics of the information request sentence.
  • the information request structuring means integrates the structures of the plurality of information request sentences to generate the Japanese question message. Main information in Structuring the content of requests. Finally, the output means outputs the information request sentence integrated by the information request structuring means.
  • Patent Document 1 Japanese Patent No. 3358100
  • voice information retrieval for identifying request contents and presenting request information is executed from information request or operation request inputted by voice.
  • voice command it must be considered that the request sentence is inputted by voice.
  • the present invention has been made in view of the above circumstances, and its purpose is to robustly and accurately identify an unknown request sentence or a request sentence input by voice. To provide an identification system.
  • a first invention for solving the above problem is a request content identification system that analyzes a request sentence (input request sentence) input in a natural language format and identifies the request contents, and is dependent on the request contents. Using the common rule not to be executed and the request specific rule specific to each request content, the input request sentence is parsed to identify the request content.
  • a second aspect of the present invention for solving the above-mentioned problem is a request content identification system that analyzes a request sentence (input request sentence) input in a natural language format and identifies the request contents.
  • Common rule storage means for storing independent common rules
  • request specific rule storage means for storing request specific rules specific to each request content, and parsing of input request sentences using the common rules and the request specific rules
  • a request identification result generating means for generating an identification result of a request content identification result.
  • the request analysis processing means determines the degree of conformity between the input request text and a request content prepared in advance.
  • a plurality of analysis result candidates are generated together with an analysis score to be displayed, and the request identification result generation unit selects a maximum likelihood analysis result candidate based on the analysis score and generates a request content identification result .
  • a speech recognition result candidate is generated by further performing speech recognition processing on the input request sentence input by speech.
  • Voice recognition processing means, and the request analysis processing means generates a plurality of analysis result candidates together with an analysis score indicating a degree of matching with a request content prepared in advance for the voice recognition result candidate, and the request The identification result generating means is based on the analysis score
  • This method is characterized in that the most likely analysis result candidate is selected and the identification result of the requested content is generated.
  • a predetermined answer document data set and a request sentence data set is set as a search target.
  • a similar document search processing means for performing a similar search process for searching for data similar to the input request sentence, and obtaining a search result candidate together with a search score indicating a degree of matching with the input request sentence;
  • a request candidate score calculation unit that calculates an integrated score taking the search score into account, and the request identification result generation means selects the most likely analysis result candidate based on the integrated score. It is a feature.
  • a speech recognition process is further performed by performing speech recognition processing on the input request sentence that has been speech-input.
  • Speech recognition processing means for generating a result candidate, and the similar document search processing means searches for data similar to the speech recognition result candidate with at least one of a predetermined answer document data set and a request sentence data set as a search target.
  • Similar search processing is performed to obtain a search result candidate together with a search score indicating a degree of matching with each of the speech recognition result candidates, and the request candidate score calculating means includes the analysis score and the search score, An integrated score is calculated taking into account a recognition score indicating the degree of matching with the voice recognition result candidate, and the request identification result generation means is configured to generate a maximum likelihood analysis result candidate based on the integrated score. It is characterized by selecting.
  • the request specific rule storage means stores the request specific rule by dividing the request specific rule for each request content.
  • the request analysis processing means includes the common rule and the classified request specifics. It is characterized in that the parsing of the input request sentence is performed by sequentially switching the rules.
  • a request content cluster storage means for storing a request content cluster obtained by clustering similar request contents
  • the request identification result generation means aggregates at least the analysis score for each request content cluster, selects the most likely analysis result candidate cluster, and generates the identification result of the request content.
  • a tenth aspect of the present invention for solving the above-mentioned problems is a common rule storage means for storing a common rule that does not depend on a request content, and a request specific rule storage means for storing a request specific rule unique to each request content.
  • a request content identification method for identifying a request content in a natural language format input to a computer comprising the computer, wherein the computer responds to a request sentence (input request sentence) using the common rule and the request specific rule.
  • An eleventh aspect of the present invention for solving the above-mentioned problems is a common rule storage means for storing a common rule that does not depend on a request content, and a request specific rule storage means for storing a request specific rule unique to each request content.
  • a program to be executed by a computer comprising: a request analysis (input request sentence) in a natural language that is input using the common rule and the request specific rule; and A program for causing a computer to execute a process of generating a request content identification result from a result of parsing, and causing the computer to function as a means for identifying a request content in a natural language format.
  • FIG. 1 is a block diagram showing a configuration of a request content identification system according to a first embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation of the request content identification system according to the first exemplary embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a request content identification system according to a second exemplary embodiment of the present invention.
  • FIG. 4 is a flowchart showing the operation of the request content identification system according to the second exemplary embodiment of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a request content identification system according to a third exemplary embodiment of the present invention.
  • FIG. 6 is a flowchart showing the operation of the request content identification system according to the third exemplary embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration of a request content identification system according to a fourth exemplary embodiment of the present invention.
  • FIG. 8 is a flowchart showing the operation of the request content identification system according to the fourth exemplary embodiment of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a request content identification system according to a fifth exemplary embodiment of the present invention.
  • FIG. 10 is a flowchart showing the operation of the request content identification system according to the fifth exemplary embodiment of the present invention.
  • FIG. 11 is a block diagram showing a configuration of a request content identification system according to a sixth exemplary embodiment of the present invention.
  • FIG. 12 is a flowchart showing the operation of the request content identification system according to the sixth exemplary embodiment of the present invention.
  • FIG. 13 is an example of information request text (information request text voice data) for explaining an embodiment of the present invention.
  • FIG. 14 is an example (part) of a common rule and a request content specific rule for explaining an embodiment of the present invention.
  • FIG. 15 is a diagram illustrating a specific example of a request analysis result for an information request sentence text (information request sentence voice data) r for explaining an embodiment of the present invention.
  • FIG. 16 is a diagram showing a specific example of a request analysis result for an information request sentence text (information request sentence voice data) r for explaining an embodiment of the present invention.
  • FIG. 17 is a diagram showing an example of information (table) stored in request candidate score table storage means of the request content identification system according to the present invention.
  • FIG. 18 is a diagram for explaining an integrated score calculated by request candidate score calculation means of the request content identification system according to the present invention.
  • FIG. 19 is a diagram showing the relationship between the information request text in FIG. 13 and a similar document search score when a similar search is performed on the content stored in the response request data storage means.
  • FIG. 20 is a diagram for explaining an integrated score calculated by request candidate score calculation means of the request content identification system according to the present invention.
  • FIG. 21 is a diagram showing a specific example of a request analysis result for an information request sentence text (information request sentence voice data) r for explaining an embodiment of the present invention.
  • FIG. 22 is a diagram showing an example of information (table) stored in request candidate score table storage means of the request content identification system according to the present invention.
  • FIG. 23 is a diagram for explaining an integrated score calculated by request candidate score calculation means of the request content identification system according to the present invention.
  • FIG. 24 is another example (part) of the common rule and the request content specific rule for explaining the embodiment of the present invention.
  • FIG. 25 is a diagram showing a specific example of a request analysis result for an information request sentence text (information request sentence voice data) r for explaining an embodiment of the present invention.
  • FIG. 28 is another example (part) of the common rule and the request content specific rule for explaining the embodiment of the present invention.
  • FIG. 29 is a diagram showing a specific example of a request analysis result for an information request text (information request text voice data) r for explaining an embodiment of the present invention.
  • FIG. 30 is a diagram showing a specific example of a request analysis result for an information request sentence text (information request sentence voice data) r for explaining an example of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a request content identification system according to the first exemplary embodiment of the present invention.
  • a request content identification system includes an input device 100a, an output device 200, a computer (central processing unit; processor; data processing unit) 300 that operates under program control, and a storage medium. It is composed of 400.
  • the computer (central processing unit; processor; data processing unit) 300 includes request analysis processing means 301a and request identification result generation means 3002a each composed of a combo program.
  • the request analysis processing unit 301a performs a common rule stored in the common rule storage unit 401 and a request specific rule stored in the request specific rule storage unit 402 for the text data of the input information request sentence.
  • the request analysis process is performed to generate a syntax structure for the input request sentence, so that the request content number for the input request sentence and its request are obtained as a plurality of candidate request analysis results for the input request sentence. This is a means for outputting a list of analysis scores.
  • the request identification result generation unit 302a sorts the request content number candidates for the input request sentences in the list output from the request analysis processing unit 301a in order of score, and generates the request content number having the highest score as the identification result. And means for outputting.
  • the storage medium 400 includes common rule storage means 401 and request specific rule storage means 402.
  • the common rule storage means 401 is a syntax analysis rule (common) that is written so as not to depend on the specific request contents used when the request analysis processing means 301a performs the request analysis on the input request statement. Rule).
  • the request specific rule storage unit 402 is used for parsing specially written in the vocabulary and expression specific to the specific request contents used when the request analysis processing unit 301a performs the request analysis on the input request sentence. Memorize the rules (request-specific rules).
  • FIG. 2 is a flowchart showing the operation of the request content identification system according to the first embodiment of the present invention.
  • the request analysis processing means 301a performs the input of the text data of the information request sentence.
  • Step A2 By performing a request analysis process using the common rules stored in the common rule storage unit 401 and the request specific rules stored in the request specific rule storage unit 402, and generating a syntax structure for the input request sentence As a plurality of candidates for the request analysis results for the input request statement, a list of analysis scores (N best) indicating the request content number for the input request statement and the degree of conformity of each request content in the syntactic analysis is output ( Step A2). [0031] Subsequently, the request identification result generation unit 302a sorts all the input request sentence candidates obtained by the request analysis processing unit 301a in the order of score, and generates the request content number having the highest score as the identification result. Then, it is sent to the output device 200 (step A3).
  • FIG. 3 is a block diagram showing the configuration of the request content identification system according to the second exemplary embodiment of the present invention.
  • the request content identification system according to the present embodiment includes an input device 100b, an output device 200, a computer (central processing unit; processor; data processing unit) 30 0 that operates under program control, and a storage. Medium 400.
  • the input device 100b is an audio input device, the configuration of a computer (central processing unit; processor; data processing unit) 300, and a storage medium 400.
  • the request candidate score table storage means 403 is added. In the following description, parts common to the first embodiment will be omitted as appropriate.
  • the computer (central processing unit; processor; data processing unit) 30 0 in this embodiment includes a speech recognition processing unit 303, a request analysis processing unit 30 lb, and a request candidate score calculation unit each configured by a computer program. It includes 304a and request identification result generation means 300b.
  • the voice recognition processing means 303 performs voice recognition processing on the voice data of the input information request sentence, and as a voice recognition result for the input request sentence, the voice recognition processing means 303 conforms to the information request sentence text prepared in advance. This is means for outputting a plurality of candidate information request texts to which a speech recognition score indicating the degree is given.
  • the request analysis processing unit 301b is configured to output the speech recognition result obtained by the speech recognition processing unit 303. For each candidate, a request analysis process is performed using the common rule stored in the common rule storage unit 401 and the request specific rule stored in the request specific rule storage unit 402. By generating a syntax structure, it is means for outputting a list of request content numbers and request analysis scores for each candidate of recognition results as a plurality of candidates of request analysis results for each candidate of speech recognition results.
  • the request candidate score calculation unit 304a includes each candidate of the speech recognition result obtained by the speech recognition processing unit 303 and its speech recognition score, the request content number obtained by the request analysis processing unit 301b, and its request analysis. The score is recorded in the request candidate score table storage unit 403. Further, the request candidate score calculation unit 304a combines all the speech recognition scores of the candidates of the speech recognition result, the request content number, and the request analysis score, thereby requesting all candidates of the request content for the input information request sentence. Is a means for calculating an integrated score and outputting it to the request identification result generation means 302b together with the request content number.
  • the request identification result generation unit 302b sorts all the input request sentence candidates output from the request candidate score calculation unit 304a in the order of the integrated score, and generates the request content number having the highest integrated score as the identification result. It is a means to output.
  • the request candidate score table 403 records each candidate of the speech recognition result obtained by the speech recognition processing unit 303 and the speech recognition score in the request candidate score calculation unit 304a, and each of the speech recognition result
  • a request candidate score table used for recording the request content number and the request analysis score obtained by the request analysis processing means 301b for the candidate is stored (see FIG. 17).
  • FIG. 4 is a flowchart showing the operation of the request content identification system according to the second embodiment of the present invention.
  • the voice recognition processing means 303 performs voice recognition processing on the voice data of the input information request sentence. And output multiple candidate (N best) information request texts with voice recognition scores as the voice recognition results for the input information request text (Step B2; Example: r to r in Figure 13) o
  • the request analysis processing unit 301b performs voice recognition obtained by the voice recognition processing unit 303.
  • a request analysis process is performed using the common rule stored in the common rule storage unit 401 and the request specific rule stored in the request specific rule storage unit 402, and each of the speech recognition result
  • a list of the request content number and its request analysis score for each candidate of the recognition result is output as multiple candidates (N best) of the request analysis result for each candidate of the speech recognition result ( Step B3).
  • the request candidate score calculation unit 304a obtains each of the speech recognition result candidates obtained by the speech recognition processing unit 303 together with the speech recognition score by the request analysis processing unit 30 lb.
  • the requested content number and the requested analysis score are recorded in the requested candidate score table storage means 403. Further, for each candidate of the speech recognition result, the input information is obtained by combining the speech recognition score and the requested analysis score.
  • the integrated score is calculated for all the request contents candidates for the request sentence, and the request contents number is output together with the integrated score (step B4).
  • the request identification result generation unit 302b sorts all the input request sentence candidates obtained by the request candidate score calculation unit 304a in the order of the integrated score, and generates the request content number having the highest integrated score as the identification result. Then, it is sent to the output device 200 (step B5).
  • the result of the voice recognition and the request analysis is used complementarily. It is possible to obtain a result of identifying the question content.
  • the variation of the speech recognition processing is taken into consideration, it is possible to minimize the influence of the speech recognition error, and it is possible to identify the request for the information request sentence with high accuracy. Can be realized.
  • FIG. 5 is a block diagram showing a configuration of a request content identification system according to the third exemplary embodiment of the present invention.
  • the request content identification system according to the present embodiment includes an input device 100a, an output device 200, a computer (central processing unit; processor; data processing unit) 300 that operates under program control, and a storage. Medium 400 and force composed.
  • the difference from the first embodiment is that the configuration of the computer (central processing unit; processor; data processing unit) 300 and the response request data storage unit 404 are added to the storage medium 400. Is a point.
  • portions common to the first and second embodiments described above will be omitted as appropriate.
  • the computer (central processing unit; processor; data processing unit) 30 0 in this embodiment includes a request analysis processing unit 301a, a request candidate score calculation unit 304b, and a similar document search processing unit each configured by a computer program. 305a and request identification result generation means 302b.
  • the request analysis processing unit 301a performs a common rule stored in the common rule storage unit 401 and a request specific rule storage for the text data of the input information request sentence.
  • the request analysis process is performed using the request specific rules stored in the means 402, and a syntax structure for the input request sentence is generated, thereby requesting the input request sentence as a plurality of candidate request analysis results for the input request sentence. It is a means for outputting a list of content numbers and their request analysis scores.
  • the similar document search processing means 305a uses the text data of the input information request sentence as a search request, the answer document set for each request content stored in the answer request data storage means 404 or the information request sentence for each request content A search is performed on a set or both, and a similar document search score indicating the degree of matching between the request content number and the information request text is obtained as a search result, and a set of the request content number and its similar document search score is output. Means.
  • the request candidate score calculation unit 304b in the present embodiment is substantially the same as the request candidate score calculation unit 304a in the second embodiment described above, but uses a similar document search score instead of the speech recognition score.
  • the difference is that the integrated score is calculated. That is, the request candidate score calculation means 304b obtains the request content number obtained by the similar document search processing means 305a for each request content number obtained by the request analysis processing means 301a and the request analysis score candidate. This means that the similar document search score is combined with the request analysis score to calculate an integrated score for all candidates for the requested content for the input information request sentence and to output the request content number together with the integrated score. .
  • the request identification result generation unit 302b sorts all the input request sentence candidates obtained by the request candidate score calculation unit 304b in the order of the integrated score, generates the request content number having the highest integrated score as the identification result, and outputs it. It is means to do.
  • the response request data storage unit 404 is a unit that stores document data to be searched when the similar document search processing unit 305a searches for data similar to the input request sentence. For example, a reply document set or Z and information request sentence set for each request content is stored.
  • FIG. 6 is a flowchart showing the operation of the request content identification system according to the third embodiment of the present invention.
  • the request analysis processing means 301a applies to the input text data of the information request sentence.
  • the request analysis processing means 301a applies to the input text data of the information request sentence.
  • the similar document search processing means 305a uses the text data of the information request text input in step A1 as a search request and resembles the text data stored in the response request data storage means 404 as a target.
  • a document search is performed, a request content number and a similar document search score are obtained as a search result, and a set of the request content number and its similar document search score is output (step Cl).
  • the request candidate score calculation unit 304b applies the request content number obtained by the request analysis processing unit 301a and the request analysis score to the similar document for the text data of the input information request sentence. Combined with the request content number obtained by the search processing means 305a and its similar document search score, the integrated score is calculated for all the request content candidates for the input request sentence, and the request content number is output together with the integrated score. (Step C2).
  • the request identification result generation unit 302b sorts all the input request sentence candidates obtained by the request candidate score calculation unit 304b in the order of the integrated score, and the request content having the highest integrated score. A number is generated as an identification result and sent to the output device 200 (step B5).
  • FIG. 7 is a block diagram showing a configuration of a request content identification system according to the fourth exemplary embodiment of the present invention.
  • the request content identification system according to the present embodiment includes an input device 100b, an output device 200, a computer (central processing unit; processor; data processing unit) 300 that operates under program control, and a storage. Medium 400 and force composed.
  • the computer (central processing unit; processor; data processing unit) 30 0 in this embodiment includes a speech recognition processing unit 303, a request analysis processing unit 301b, and a request candidate score calculation unit 304c each configured by a computer program. And similar document search processing means 300b and request identification result generation means 302b.
  • the speech recognition processing unit 303 performs speech recognition processing on the speech data of the input information request sentence, and as a speech recognition result for the input request sentence. This is means for outputting a plurality of candidate information request texts with voice recognition scores.
  • the requirement analysis processing unit 301b stores the common rule storage unit 401 for each candidate of the speech recognition result obtained by the speech recognition processing unit 303.
  • Common rules and request specific rules stored in the request specific rule storage means 402 The request analysis process is performed using a single and a syntax structure for each candidate speech recognition result is generated, so that a plurality of request analysis result candidates for each speech recognition result candidate are obtained. It is a means for outputting a list of request content numbers and their request analysis scores.
  • the similar document search processing means 305b uses each candidate of the speech recognition result obtained by the speech recognition processing means 303 as a search request, and sets a reply document for each request content stored in the reply request data storage means 404 or This is a means for searching the information request statement set for each request content or both, obtaining the request content number and its similar document search score as a search result, and outputting the set of the request content number and its similar document search score is there.
  • the request candidate score calculation unit 304c includes each candidate of the speech recognition result obtained by the speech recognition processing unit 303, its speech recognition score, the request content number obtained by the request analysis processing unit 301b, and its request analysis.
  • the score, the request content number obtained by the similar document search processing means 305b, and the similar document search score are recorded in the request candidate score table storage means 403.
  • the request candidate score calculation means 304c combines the speech recognition score of each candidate of the speech recognition result with the request content number, the request analysis score, and the similar document search score, thereby inputting the input information. This is a means for calculating an integrated score for all candidate request contents for the request sentence and outputting it to the request identification result generating means 302b together with the request contents number.
  • the request identification result generation means 302b sorts all the input request sentence candidates output from the request candidate score calculation means 304c in the order of the integrated score, and generates the request content number having the highest integrated score as the identification result. It is a means to output.
  • the request candidate score table 403 and the response request data storage unit 404 are omitted since they are described in the second embodiment and the third embodiment, respectively.
  • FIG. 8 is a flowchart showing the operation of the request content identification system according to the fourth exemplary embodiment of the present invention.
  • the voice recognition processing means 303 performs voice recognition processing on the voice data of the input information request sentence.
  • Voice recognition as the voice recognition result for the input information request sentence Output multiple candidate (N best) information request texts with scores (Step B2; Example: r to r in Fig. 13) o
  • the request analysis processing unit 301b performs the common rule stored in the common rule storage unit 401 and the request specific rule storage for each candidate speech recognition result obtained by the speech recognition processing unit 303.
  • a request analysis process is performed using the request specific rules stored in the means 402, and a syntactic structure for each candidate speech recognition result is generated, so that a plurality of request analysis result candidates (N best ), A list of request contents numbers and request analysis scores for each candidate of the recognition result is output (step B3).
  • the similar document search processing unit 305b uses each of the speech recognition result candidates obtained by the voice recognition processing unit 303 as a search request, and is similar to the document data stored in the answer request data storage unit 404.
  • a document search is performed, a request content number and a similar document search score are obtained as search results, and a set of the request content number and its similar document search score is output (step Dl).
  • the request candidate score calculating unit 304c obtains the candidate of the speech recognition result obtained by the speech recognition processing unit 303 together with its speech recognition score by the request analysis processing unit 30 lb.
  • the request content number and its request analysis score, and the request content number obtained by the similar document search processing means 305b and its similar document search score are recorded in the request candidate score table storage means 403, and the voice recognition result
  • an integrated score is calculated for all request content candidates for the input information request sentence, and the request content numbers are integrated.
  • Output with score step D2).
  • the request identification result generation unit 302b sorts all the input request sentence candidates obtained by the request candidate score calculation unit 304c in the order of the integrated score, and generates the request content number having the highest integrated score as the identification result. Then, it is sent to the output device 200 (step B5).
  • the integrated score obtained by combining the speech recognition score, the request candidate score, and the similar document search score is used, so that the results of speech recognition, request analysis, and similar document search are obtained. Can be used in a complementary manner to minimize the effects of speech recognition errors, and to obtain the best results for identifying the question content.
  • FIG. 9 is a block diagram showing a configuration of a request content identification system according to the fifth exemplary embodiment of the present invention.
  • the request content identification system includes an input device 100a, an output device 200, a computer (central processing device; processor; data processing device) 300 that operates under program control, and a storage medium. It is composed of 400.
  • the rule switching means 306a is added to the configuration of the computer (central processing unit; processor; data processing device) 300, and the first embodiment described above.
  • the request specific rule storage means 402 that stores the request specific rules in a batch
  • the request specific rule 1 the request specific rule 2
  • a request unique rule storage means 402b is provided for distinguishing and storing unique rules.
  • Computer (central processing unit; processor; data processing unit) 300 includes request analysis processing means 301c, rule switching means 306a, and request identification result generation means 302a each composed of a combo program. Consists of.
  • the request analysis processing unit 301c performs, for each text of the request content, the common rule stored in the common rule storage unit 401 and the request specific rule storage unit 402b for the text data of the input information request sentence.
  • rule switching means 306a By performing the parsing process and generating a syntax structure using the common rules and all the request-specific rules in sequence for the input request sentence, multiple candidate request analysis results for the input request sentence are obtained. This is a means for outputting a list of request contents numbers and request analysis scores for input request sentences.
  • the request identification result generation unit 302a sorts the request content number candidates for the input request sentences in the list output from the request analysis processing unit 301c in order of score, and generates the request content number having the highest score as the identification result. And means for outputting.
  • the rule switching means 306a includes all the N request-specific rules of the request-specific rule 1, the request-specific rule 2, ..., the request-specific rule N stored in the request-specific rule storage means 402b. That is, request analysis processing means by sequentially switching to one of the request-specific rules
  • a request specific rule used for request analysis processing is provided for 301c.
  • the storage medium 400 includes common rule storage means 401 and request specific rule storage means 402b.
  • the common rule storage unit 401 is a rule for syntax analysis that is described so as not to depend on the specific request contents used when the request analysis processing unit 301c performs request analysis on the input request statement. Rule).
  • the request specific rule storage means 402 b is used for parsing specially written in the vocabulary and expression specific to the specific request contents used when the request analysis processing means 301 c performs the request analysis on the input request sentence. As the corresponding request specific rule for each request content, request specific rule 1, request specific rule 2,..., Request specific rule N are divided into all N request specific rules. Store separately.
  • FIG. 10 is a flowchart showing the operation of the request content identification system according to the fifth exemplary embodiment of the present invention.
  • the request analysis processing means 301c applies a common rule to the text data of the input information request sentence.
  • the rule switching means 3 06a sequentially performs the request analysis processing using the request specific rules that are switched in order to determine whether the input request statement is different from the common rule or all the request specific rules.
  • the rule switching means 3 06a sequentially performs the request analysis processing using the request specific rules that are switched in order to determine whether the input request statement is different from the common rule or all the request specific rules.
  • the request identification result generation unit 302a sorts all the input request sentence candidates obtained by the request analysis processing unit 301c in the order of score, and generates the request content number having the highest score as the identification result. Then, it is sent to the output device 200 (step A3).
  • FIG. 11 is a block diagram showing a configuration of a request content identification system according to the sixth exemplary embodiment of the present invention.
  • the request content identification system includes an input device 100a, an output device 200, a computer (central processing unit; processor; data processing unit) 300 that operates under program control, and a storage medium. It is composed of 400.
  • a difference from the fifth embodiment described above is that a request content multi-level cluster storage unit 405 and a request cluster specific rule storage unit 406 described later are added to the storage medium 400.
  • the computer (central processing unit; processor; data processing unit) 300 includes request analysis processing means 301d, rule switching means 306b, and request identification result generation means 302c each composed of a combo program. Composed.
  • the request analysis processing unit 301d performs, for the input text data of the information request sentence, the common rule stored in the common rule storage unit 401 and the request specific rule storage unit 402b for each request content.
  • the request identification result generation means 302c is a list of the list output from the request analysis processing means 301d. This is a means of sorting the request content cluster candidates for the input request text in the order of score, generating the highest score request content cluster (represented by a set of request content numbers) as an identification result, and outputting it.
  • the rule switching unit 306b includes a request specific rule 1, a request specific rule 2,... Stored for each request content in the request specific rule storage unit 402b according to the content stored in the request content multi-tier cluster storage unit 405. ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
  • the storage medium 400 includes common rule storage means 401, request specific rule storage means 402b, request content multi-tier cluster storage means 405, and request cluster specific rule storage means 406.
  • the common rule storage unit 401 is a rule for parsing that is written in such a way that the request analysis processing unit 301d does not depend on the specific request contents used when performing the request analysis on the input request sentence (! (Common rules) are stored.
  • the request specific rule storage means 4 02b is used for syntax analysis that is described in terms of vocabulary and expressions specific to the specific request contents used when the request analysis processing means 301d performs request analysis on the input request sentence.
  • request specific rule 1, request specific rule 2,..., Request specific rule N are divided into all N request specific rules. Store separately.
  • the request content multi-level cluster storage means 405 stores a request content cluster (request content category) in which a set of question contents whose request contents are similar to each other is described in a multi-level cluster structure (represented by a set of request content numbers). To do. Further, the request cluster specific rule storage means 406 includes a parsing rule (request cluster specific rule) written specifically for the vocabulary and expression specific to the request content cluster for each cluster. As specific rules, request cluster specific rule 1, request cluster specific rule 2,..., Request cluster specific rule N are distinguished from all N request cluster specific rules. . [0091] Next, the operation of the present embodiment will be described in detail with reference to the drawings.
  • FIG. 12 is a flowchart showing the operation of the request content identification system according to the sixth exemplary embodiment of the present invention.
  • the request analysis processing means 301d applies a common rule to the text data of the input information request sentence.
  • the request contents to be sequentially switched by the rule switching means 306b
  • the request analysis process is performed using a set of request-specific rules corresponding to the cluster, and by generating the syntax structure, the request content cluster for the input request sentence as a plurality of candidate request analysis results for the input request sentence, and A list of analysis scores (N best) indicating the degree of syntactic matching with the request contents of each cluster is output (step F1).
  • the request identification result generation unit 302c sorts all the input request sentence candidates obtained by the request analysis processing unit 301d in the order of score, and the request content cluster having the highest score (set of request content numbers) Is generated as an identification result and sent to the output device 200 (step F2).
  • the present embodiment in addition to the effects of the fifth embodiment, it is possible to select a request content cluster based on the analysis score, so that the input information request sentence is Even when an unknown request statement does not have a directly corresponding request content number, it can be identified as a request corresponding to an appropriate request content cluster having the closest content.
  • step A1 of Fig. 2 an information request message is input to the input device 100a as "the ability to set the screen when receiving short mail" (notation symbol r in Fig. 13).
  • Figure 14 shows common rules (a) and (b) and requirement specific rules (a) and ( It is a diagram showing a specific example of b) (each rule shows a part of the whole.) o
  • the request content specific rules (a) and (b) in FIG. 14 are specific to the request content number 19. Part of request specific rules.
  • the request analysis processing unit 301a is configured to execute the common rule, the request specific rule, and the common rule storage unit 401 and the request specific rule storage unit 402, respectively.
  • FIG. 15 shows the notation shown in FIG. 13 when the request analysis processing means 30 la uses the common rules (a) and (b) and the request content specific rules (a) and (b) as shown in FIG. Key of information request statement with symbol r
  • the second analysis candidate S (r) with Q as the candidate has an analysis score of -35.
  • the analysis score of the third analysis candidate S (r) as the 15 2 A 0 candidate is ⁇ 40.
  • the request identification result generation unit 302a sorts all these candidates in the order of score, sets the candidate with the highest score as the maximum likelihood, and sets the request content number. It is generated as an identification result and sent to the output device 200.
  • the requested content Q of the analysis candidate S (r) is generated as the identification result.
  • step B1 of Fig. 4 an information request message is sent to the input device 100b with the voice "The power to set the screen when receiving short mail" (notation symbol r in Fig. 13). Is entered
  • step B2 in FIG. 4 the result of the speech recognition processing in speech recognition processing means 303 (step B2 in FIG. 4) As a first candidate for an information request sentence, the information request sentence (voice recognition score) of the notation symbol!: In FIG.
  • the request analysis processing unit 301b uses the common rule and the request specific rule from the common rule storage unit 401 and the request specific rule storage unit 402. , Request analysis processing for the request text of the notation symbols r and r in FIG.
  • a request content number for the input request sentence and a list of its request analysis scores are output as a plurality of candidate request analysis results for the input request sentence.
  • FIG. 16 shows notation symbols in FIG. 13 when the request analysis processing means 301b uses the common rules (a) and (b) and the request content specific rules (a) and (b) as shown in FIG. Key information request statement for r
  • the analysis score is -35, and the analysis score of the second analysis candidate S2 (r) with the requested content Q as a candidate.
  • the analysis score is as described with reference to FIG. 15 in Example 1 above, and the analysis score of the first analysis candidate S (r) having the request content Q specified by the request number 19 as a candidate is ⁇ 25.
  • the analysis score of the second analysis candidate S (r) with the request content Q as a candidate is 35,
  • the third analysis candidate S (r) with Q as a candidate has an analysis score of -40.
  • the request candidate score calculation means 304a determines the speech recognition score of each candidate of the speech recognition result, the request content number, and the request analysis score.
  • the request candidate score table storage unit 403 records it.
  • Figure 17 shows a request sentence for the above notation symbol!: (First candidate) and a request sentence for the above notation symbol r (second candidate).
  • Supplement is an example of a table in which each voice recognition score, request content number, and request analysis score are recorded.
  • the request candidate score calculation unit 304a combines the speech recognition score recorded in the above table and the request analysis score, and thereby, for all candidates of the request contents for the input information request sentence.
  • the integrated score is calculated, and the request content number is output together with the integrated score.
  • R-Score is the speech recognition score
  • P-Score is the analysis score
  • ⁇ , j8 (a> 0, j8> 0) is the combined parameter
  • is the threshold for the analysis score of the requirement analysis.
  • Score ( ⁇ , Q.) a -R_Score ( ⁇ ) + ⁇ -p _ Score (S m (r,)), 0) (1)
  • step B5 of Fig. 4 when the request identification result generation unit 302b sorts all input request sentence candidates obtained by the request candidate score calculation unit 304a in the order of the integrated scores.
  • the input voice is the notation symbol r in FIG.
  • the correct results are obtained as in the first embodiment.
  • the second embodiment (example) of the present invention it is possible to identify the requested contents with high accuracy while minimizing the influence of voice recognition errors.
  • step A1 in Fig. 6 an information request message saying "Can the short mail reception function screen be set?" (Notation symbol in Fig. 13! :) is input to the input device 100a. What was done
  • the request analysis processing unit 301a uses the common rule and the request specific rule from the common rule storage unit 401 and the request specific rule storage unit 402, and The request analysis processing is performed on the request statement with the notation symbol r in FIG.
  • a request content number for the input request sentence and a list of its request analysis scores are output as a plurality of candidate request analysis results for the input request sentence.
  • the analysis score is as described in FIG. 16 in Example 2 above, and the analysis score of the first analysis candidate S (r) having the request content Q specified by the request number 19 as a candidate is -35.
  • the second analysis candidate S (r) with Q as the candidate has an analysis score of 40, and the request content
  • the analysis score of the third analysis candidate S (r) with Q as the candidate is -45.
  • the similar document search processing unit 305a uses the text data of the input information request sentence as a search request, and stores the document stored in the response request data storage unit 404.
  • a similar document search is performed on the data, a request content number and a similar document search score are obtained as search results, and a set of the request content number and its similar document search score is output.
  • FIG. 19 shows information request texts with notation symbols r to r and response request data storage means 404.
  • each request content number for each information request statement with notation symbol r, each request content number
  • step C2 of Fig. 6 the request candidate score calculation means 304b is inputted by combining the similar document search score and the request analysis score recorded in the above table. An integrated score is calculated for all candidate requests for information requests, and the request number is output along with the integrated score.
  • the request identification result generation unit 302b sorts all these candidates in the order of score, sets the candidate with the highest score as the maximum likelihood, and sets the request content number.
  • the identification result is generated and sent to the output device 200.
  • step B1 of Fig. 8 an information request message is sent to the input device 100b with the voice "The power to set the screen when receiving short mail" (notation symbol r in Fig. 13). Is entered
  • the request analysis processing unit 301b uses the common rule and the request specific rule from the common rule storage unit 401 and the request specific rule storage unit 402. , The request analysis process for the request statements with the notation symbols r and r in FIG.
  • a request content number for the input request sentence and a list of its request analysis scores are output as a plurality of candidate request analysis results for the input request sentence.
  • FIG. 21 shows the notation of FIG. 13 when the request analysis processing means 301b uses the common rules (a) and (b) and the request content specific rules (a) and (b) as shown in FIG. Key information request statement for r
  • the analysis score of the first analysis candidate S (r) having the request content Q as a candidate is -50.
  • the analysis score is as described with reference to FIG. 16 in Example 2 above, and the analysis score of the first analysis candidate S (r) having the request content Q specified by the request content number 19 as a candidate is 35.
  • the analysis score of the second analysis candidate S (r) with the requested content Q as a candidate is -40,
  • the analysis score for the third analysis candidate S (r) with Q as the candidate is -45.
  • the similar document search processing means 305b using the first candidate and the second candidate of the speech recognition result obtained by the speech recognition processing means 303 as a search request, a similar document search is performed on the document data stored in the response request data storage means 404, and the search is performed. As a result, the request content number and the similar document search score are obtained, and a set of the request content number and the similar document search score is output.
  • step D2 of FIG. 8 the request candidate score calculation means 304c
  • the voice recognition score of each candidate of the voice recognition result, the request content number, and the request analysis score are recorded in the request candidate score table storage unit 403.
  • Figure 22 shows a request sentence with the above-mentioned symbol r (first candidate) and a request sentence with the above-mentioned symbol r (second candidate).
  • the request candidate score calculation unit 304c combines all of the speech recognition score, the request analysis score, and the similar document search score recorded in the above-described table, thereby requesting all candidates of the request contents for the input information request sentence.
  • the integrated score is calculated for, and the request content number is output together with the integrated score.
  • Score is the speech recognition score
  • P Score is the analysis score
  • IR Score is the similar document search score (X, ⁇ , y ( ⁇ > 0, ⁇ > 0, ⁇ > 0) is the binding parameter
  • is the requirement analysis This is the threshold for the analysis score.
  • the request identification result generation means 302b sorts all these candidates in the order of score, sets the candidate with the highest score as the maximum likelihood, and sets the request content number. It is generated as an identification result and sent to the output device 200.
  • a request is made based on a request analysis result and a similar document search for the second candidate !: speech recognition result that correctly recognizes the original utterance.
  • step A1 in Fig. 10 an information request message is entered in the input device 100a, "Can you set the screen when receiving short mail" (notation symbol r in Fig. 13). Food
  • FIG. 24 is a diagram showing a specific example of the request-specific rules stored separately in the common rules (a) and (b) and the request-specific rule storage means 402b (each rule is a part of the whole). ;). Note that the request-specific rules 19 (a) and (b) in FIG. 24 are part of the request-specific rules 19 specific to the request content number 19, and the differences from the request-specific rules illustrated in FIG. The request content number is omitted. [0145] Subsequently, as described above in Step El of FIG. 10, the request analysis processing means 301c is changed from the common rule storage means 401 and the request specific rule storage means 402b to the common rule and the rule switching means 306a. Using the request-specific rules that are switched sequentially, the request analysis process is performed on the request statement with the notation symbol r in FIG.
  • a list of request content numbers and request analysis scores for the input request sentence is output.
  • FIG. 25 shows the notation shown in FIG. 13 when the request analysis processing means 301c uses the common rules (a) and (b) and the request content specific rules 19 (a) and (b) as shown in FIG. In the information request statement with symbol r
  • FIG. 6 is a diagram showing a first analysis candidate S (c>) (r) using a graph. Referring to Figure 25, the request details
  • the analysis score of the first analysis candidate S ( 19) (r) with Q as the candidate is -25, and the requested content Q
  • the analysis score of the first analysis candidate S ( 15) (r) with 19 1 A 15 as the candidate is -35, and the required content Q is
  • the analysis score of the first analysis candidate S (G) (r) as 1 A 0 complement is -40.
  • the request identification result generation unit 302a sorts all these candidates in order of score, and sets the candidate with the highest score as the maximum likelihood, and the request content number Is generated as an identification result and sent to the output device 200.
  • the requested content Q of the analysis candidate S (19) (r) is generated as an identification result.
  • step A1 of Fig. 12 an information request message is entered in the input device 100a, "Can you set the screen when receiving short mail" (notation symbol r in Fig. 13).
  • FIG. 27 is a diagram showing a specific example of the request content multi-tier cluster 405, in which the request content cluster number (C1 to C121 to CN) and the request content number included in each request content cluster are defined. It becomes the composition.
  • request content cluster 1 (C1) is defined with request content numbers 1 and 5 similar to each other
  • request content cluster 3 (C3) is defined with request content numbers 19 and 20 similar to each other. Yes.
  • FIG. 28 is a diagram showing a specific example of a request cluster specific rule for request content number 20 and request content cluster 3 (C3). Note that the request content specific rules 20 (a) and (b) in FIG. 28 are part of the request specific rule 20 specific to the request content number 20, and the request cluster specific rule 3 is the request content cluster 3 (C3 ) Is part of the requirement specific rules.
  • the request analysis processing unit 301d performs the common rule, the request specific rule storage unit 402b, and the request cluster specific rule storage unit 406 stored in the request.
  • the request switching of the notation symbol r in FIG. 13 is required using the set of request specific rules that the rule switching means 306b sequentially switches.
  • Multiple request analysis result candidates for the input request sentence are generated by performing a request analysis process and generating a syntax structure using a set of common rules and a set of request-specific rules corresponding to the request content cluster sequentially for the input request sentence.
  • a list of request content clusters (represented by a set of request content numbers) for the input request text and its request analysis score is output.
  • FIG. 29 shows the notation shown in FIG. 13 when the request analysis processing means 30 Id uses the common rules (a) and (b) and the request content specific rules 19 (a) and (b) as shown in FIG. In the information request statement with symbol r
  • the first analysis candidate S (19) (r) obtained by requirement analysis, its analysis score, common rules, and Fig. 28
  • request content specific rule 19 corresponding to request content cluster 3 (C3; see Fig. 27), request content specific rule 20 and request cluster specific rule 3 (C3) as shown in Fig. 28 It is a figure showing candidate S (e3) (r).
  • One A core is one 25.
  • the request identification result generation unit 302c sorts all these candidates in order of score, and sets the candidate with the highest score as the maximum likelihood, and the request content cluster. Is generated as an identification result and sent to the output device 200.
  • the request content Q analysis score
  • request content cluster 3 analysis score
  • the cluster components are arranged in descending order.
  • step A1 in Fig. 12 an information request message saying "Can I set when receiving short mail" (notation symbol in Fig. 26! :) is input to the input device 100a. It is the same.
  • FIG. 30 shows the notation of FIG. 26 when the request analysis processing means 30 Id uses the common rules (a) and (b) and the request content specific rules 19 (a) and (b) as shown in FIG. In the information request text with symbol r
  • the first analysis candidate S (19) (r) obtained by requirement analysis, its analysis score, common rules, and Fig. 28
  • the first analysis candidate S ( 2G) (r) with Q as the candidate is solved with the same structure based only on the common rule.
  • both analysis scores are -45.
  • the analysis score of the first analysis candidate S ( C3) (r) with the request content cluster C3 as a candidate is -30.
  • the request identification result generation unit 302c sorts all these candidates in order of score, and sets the candidate with the highest score as the maximum likelihood, and the request content cluster Is generated as an identification result and sent to the output device 200.
  • request content Q analysis score
  • S C3 (r) of the highest score
  • an input request statement that does not correspond to a specific request content number is provided. Is identified by the request content cluster in the upper hierarchy, and the result can be output.
  • the technical content of this invention is not limited to description of embodiment and Example mentioned above, but the required content. It is a matter of course that various modifications can be made according to the application and specifications of the system that requires identification.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

 要求内容識別システムは、入力装置100bより入力された音声データについて音声認識処理を行い、更に、共通ルール記憶手段401に記憶された共通ルールと、要求固有ルール記憶手段402に記憶された要求固有ルールとを用いて要求解析処理を行う。また、音声認識結果と回答要求データ記憶手段404に格納された情報要求文又は回答との類似文書検索処理を行う。要求候補スコア計算手段304cにて、前記各処理で得られた音声認識スコアと、要求解析スコアと、類似文書検索スコアとから統合スコアを計算し、要求識別結果生成手段302bにて、最も統合スコアの高い要求内容を識別して生成し、出力装置200に送る。  

Description

明 細 書
要求内容識別システム、自然言語による要求内容の識別方法及びプログ ラム
技術分野
[0001] 本発明は、要求内容識別システム、自然言語による要求内容の識別方法及びプロ グラムに関し、特に、自然言語形式で入力された要求文 (入力要求文)を解析し、該 入力要求文の要求内容を識別'出力することのできる要求内容識別システム、 自然 言語による要求内容の識別方法及びプログラムに関する。
背景技術
[0002] 従来より、利用者が入力する情報要求に対して、内容の関連する文書集合を関連 度の高いものから順に並べて出力するものが知られている力 近年では、単に情報 要求に関連する文書を提示するのではなぐ入力された質問文力 情報要求の内容 を識別し、回答情報を抽出して提示する、質問応答技術の研究が盛んに行われてい る。
[0003] この質問応答技術の一つの鍵となるのが、入力質問文に対する、情報要求内容の 識別技術である。識別する情報要求内容は、対象とするドメインによって内容も粒度 も異なるが、例えば、情報機器を対象とする質問応答においては、情報機器に関す る様々な機能の使い方や疑問、トラブルの解決方法等といった、様々な質問と回答 を想定することができる。この場合、入力された質問文がどれに該当するのかというこ とを、必要に応じて大雑把に、あるいは、詳細に識別する。
[0004] このような従来の情報要求内容の識別技術の一例が特許文献 1に開示されている 。特許文献 1記載の日本語質問メッセージ解析装置は、日本語質問メッセージを入 力する入力手段と、メッセージ力 情報要求の核となる部分を述べている情報要求文 を抽出する情報要求文抽出手段と、情報要求文を解析する日本語解析部と、さらに 情報要求文の意味構造を求める意味構造解析部と、要求文の参照表現を解消する 参照表現解消手段と、メッセージにおける主たる情報要求を構造化する情報要求構 造化手段と、情報要求文を出力する出力手段とから構成される。 [0005] 上記日本語質問メッセージ解析装置は、より具体的には、次のように動作する。前 記情報要求文抽出手段が、入力された処理対象の日本語質問メッセージについて、 特定の表現文字列に着目して、情報要求の核となる部分を述べている情報要求文を 抽出すると、前記日本語解析部が、前記情報要求文の構文解析処理によって情報 要求文の構文解析結果を生成する。そして、前記意味構造解析部が、前記日本語 解析部で得られた情報要求文の構文解析結果と、予め情報要求文のバリエーション に対して構文構造を記述した意味構造パタン辞書との照合によって、情報要求文の 意味構造を抽出する。また、前記参照表現解消手段が、前記情報要求文抽出手段 により抽出された前記情報要求文に参照表現が含まれる場合に、該参照表現を前 記情報要求文の特性に基づいて解消する。前記情報要求構造化手段が、抽出され た複数の情報要求文が同一の対象物に対する情報要求を述べている場合に、該複 数の情報要求文の構造を統合して、前記日本語質問メッセージにおける主たる情報 要求内容を構造化する。最後に、前記出力手段が、前記情報要求構造化手段により 統合された情報要求文を出力する。
[0006] 特許文献 1 :特許第 3358100号
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、上記従来技術には、未知の要求文が入力された場合に、要求文から 誤った意味構造が抽出されたり、意味構造の抽出自体に失敗するという問題点が残 されている。その理由は、未知の要求文が入力された場合、適切な意味構造パタン が存在しないために、意味構造の抽出に失敗し、あるいは、誤ったパタンの照合によ つて誤った意味構造が抽出されるためである。
[0008] また、上記した質問応答技術に限らず、音声入力された情報要求や操作要求から 、要求内容を識別し、要求情報を提示する音声情報検索や音声質問応答、または、 要求操作を実行する音声コマンドといった用途を視野に入れると、要求文が音声入 力されることも考えねばならない。
[0009] カロえて、要求文が音声によって入力される場合も、同様にして、意味構造の抽出に 失敗し、あるいは、誤ったパタンの照合によって誤った意味構造が抽出されることが 予想される。その理由は、音声認識処理によって得られる要求文テキストは誤り含み のため、要求文の誤りに起因して構文構造に誤りを生じ、さらに、要求文に対して正
L ヽ意味構造パタンが照合しなくなるためである。
[0010] 本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、 未知の要求文や、音声によって入力された要求文を、頑健かつ精度良く識別できる 要求内容識別システムを提供することにある。
課題を解決するための手段
[0011] 上記課題を解決する第 1の発明は、自然言語形式で入力された要求文 (入力要求 文)を解析し、要求内容を識別する要求内容識別システムであって、要求内容に依 存しない共通規則と、各要求内容に固有の要求固有規則とを用いて、前記入力要 求文に対する構文解析を行い、要求内容の識別を行うことを特徴とする。
[0012] 上記課題を解決する第 2の本発明は、自然言語形式で入力された要求文 (入力要 求文)を解析し、要求内容を識別する要求内容識別システムであって、要求内容に 依存しない共通規則を記憶する共通規則記憶手段と、各要求内容に固有の要求固 有規則を記憶する要求固有規則記憶手段と、前記共通規則と前記要求固有規則を 用いて入力要求文に対する構文解析を行う要求解析処理手段と、前記構文解析の 結果力 要求内容の識別結果を生成する要求識別結果生成手段とを備えたことを 特徴とする。
[0013] 上記課題を解決する第 3の本発明は、上記第 2の発明において、前記要求解析処 理手段が、前記入力要求文に対して、予め用意された要求内容との適合の度合いを 示す解析スコアとともに解析結果候補を複数生成し、前記要求識別結果生成手段が 、前記解析スコアに基づいて、最尤の解析結果候補を選択し、要求内容の識別結果 を生成することを特徴とする。
[0014] 上記課題を解決する第 4の本発明は、上記第 2又は第 3の発明において、更に、音 声入力された入力要求文に対して音声認識処理を行って音声認識結果候補を生成 する音声認識処理手段を備え、前記要求解析処理手段が、前記音声認識結果候補 に対して、予め用意された要求内容との適合の度合いを示す解析スコアとともに解析 結果候補を複数生成し、前記要求識別結果生成手段が、前記解析スコアに基づい て、最尤の解析結果候補を選択し、要求内容の識別結果を生成することを特徴とす る。
[0015] 上記課題を解決する第 5の本発明は、上記第 2から第 4のいずれかの発明におい て、更に、前記解析スコアに加えて、音声認識結果と音声認識結果候補との適合の 度合いを示す認識スコアを加味した統合スコアを算出する要求候補スコア計算手段 を備え、前記要求識別結果生成手段が、前記統合スコアに基づいて、最尤の解析結 果候補を選択することを特徴とする。
[0016] 上記課題を解決する第 6の本発明は、上記第 2から第 5のいずれかの発明におい て、更に、所定の回答文書データ集合及び要求文データ集合の少なくとも一方を検 索対象として、前記入力要求文に類似するデータを検索する類似検索処理を行って 、前記入力要求文との適合の度合いを示す検索スコアとともに検索結果候補を求め る類似文書検索処理手段と、前記解析スコアに加えて、前記検索スコアを加味した 統合スコアを算出する要求候補スコア計算手段とを備え、前記要求識別結果生成手 段が、前記統合スコアに基づいて、最尤の解析結果候補を選択することを特徴とす る。
[0017] 上記課題を解決する第 7の本発明は、上記第 2から第 6のいずれかの発明におい て、更に、音声入力された入力要求文に対して音声認識処理を行って音声認識結 果候補を生成する音声認識処理手段を備え、前記類似文書検索処理手段が、所定 の回答文書データ集合及び要求文データ集合の少なくとも一方を検索対象として、 前記音声認識結果候補に類似するデータを検索する類似検索処理を行って、前記 各音声認識結果候補との適合の度合いを示す検索スコアとともに検索結果候補を求 め、前記要求候補スコア計算手段が、前記解析スコアと検索スコアに加えて、前記音 声認識結果候補との適合の度合いを示す認識スコアを加味した統合スコアを算出し 、前記要求識別結果生成手段が、該統合スコアに基づいて、最尤の解析結果候補 を選択することを特徴とする。
[0018] 上記課題を解決する第 8の本発明は、上記第 2から第 7のいずれかの発明におい て、前記要求固有規則記憶手段は、前記要求固有規則を要求内容毎に区分けして 記憶しており、前記要求解析処理手段は、前記共通規則と前記区分けされた要求固 有規則を順次切り替えて入力要求文に対する構文解析を行うことを特徴とする。
[0019] 上記課題を解決する第 9の本発明は、上記第 2から第 8のいずれかの発明におい て、更に、類似する要求内容をクラスタ化した要求内容クラスタを記憶する要求内容 クラスタ記憶手段を有し、前記要求識別結果生成手段が、前記要求内容クラスタ毎 に、少なくとも前記解析スコアを集計して、最尤の解析結果候補クラスタを選択し、要 求内容の識別結果として生成することを特徴とする。
[0020] 上記課題を解決する第 10の本発明は、要求内容に依存しない共通規則を記憶す る共通規則記憶手段と、各要求内容に固有の要求固有規則を記憶する要求固有規 則記憶手段と、を備えるコンピュータに入力された自然言語形式による要求内容を識 別する要求内容識別方法であって、前記コンピュータが、前記共通規則と前記要求 固有規則を用いて要求文 (入力要求文)に対する構文解析を行うステップと、前記コ ンピュータが、前記構文解析の結果力 要求内容の識別結果を生成するステップと を含むことを特徴とする。
[0021] 上記課題を解決する第 11の本発明は、要求内容に依存しない共通規則を記憶す る共通規則記憶手段と、各要求内容に固有の要求固有規則を記憶する要求固有規 則記憶手段と、を備えるコンピュータに実行させるプログラムであって、入力された自 然言語による要求文 (入力要求文)に対して、前記共通規則と前記要求固有規則を 用いて要求解析を行う処理と、前記構文解析の結果から要求内容の識別結果を生 成する処理とを前記コンピュータに実行させて、該コンピュータを、自然言語形式の 要求内容を識別する手段として機能させるためのプログラムである。
発明の効果
[0022] 本発明によれば、未知の要求文が入力されたり、要求文が音声によって入力され たりした場合でも、これらの影響による要求識別の失敗や誤りが少ない、頑健で精度 の高い情報要求識別結果を得ることが可能となる。その理由は、前記した共通ルー ルと要求固有ルールを適用し、未知の要求文に対しても、誤ったルールの適用によ る識別誤りを最小限に抑え、要求文の構文構造の妥当性や要求の識別結果の妥当 性が保証された識別結果が得られるよう構成したことにある。
図面の簡単な説明 [図 1]本発明の第 1の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
[図 2]本発明の第 1の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 3]本発明の第 2の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
[図 4]本発明の第 2の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 5]本発明の第 3の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
[図 6]本発明の第 3の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 7]本発明の第 4の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
[図 8]本発明の第 4の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 9]本発明の第 5の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
[図 10]本発明の第 5の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 11]本発明の第 6の実施形態に係る要求内容識別システムの構成を表したブロッ ク図である。
[図 12]本発明の第 6の実施形態に係る要求内容識別システムの動作を表した流れ図 である。
[図 13]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ)の例である。
[図 14]本発明の実施例を説明するための、共通ルールおよび要求内容固有ルール の例(一部分)である。 圆 15]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
A
圆 16]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
B
[図 17]本発明に係る要求内容識別システムの要求候補スコアテーブル記憶手段に 格納される情報 (テーブル)の一例を表した図である。
圆 18]本発明に係る要求内容識別システムの要求候補スコア計算手段によって算出 される統合スコアを説明するための図である。
[図 19]図 13の情報要求文と、回答要求データ記憶手段に記憶された内容との類似 検索を行った場合の類似文書検索スコアとの関係を表した図である。
圆 20]本発明に係る要求内容識別システムの要求候補スコア計算手段によって算出 される統合スコアを説明するための図である。
圆 21]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
C
[図 22]本発明に係る要求内容識別システムの要求候補スコアテーブル記憶手段に 格納される情報 (テーブル)の一例を表した図である。
圆 23]本発明に係る要求内容識別システムの要求候補スコア計算手段によって算出 される統合スコアを説明するための図である。
[図 24]本発明の実施例を説明するための、共通ルールおよび要求内容固有ルール の別の例(一部分)である。
圆 25]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
A
圆 26]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ)の別の例である。
圆 27]本発明に係る要求内容識別システムの多階層要求内容クラスタ記憶手段に記 憶される情報の具体例である。
[図 28]本発明の実施例を説明するための、共通ルールおよび要求内容固有ルール の別の例(一部分)である。 [図 29]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
A
[図 30]本発明の実施例を説明するための、情報要求文テキスト (情報要求文音声デ ータ) rに対する要求解析結果の具体例を示す図である。
D
符号の説明
[0024] 100a, 100b 入力装置
200 出力装置
300 コンピュータ(中央処理装置;プロセッサ;データ処理装置)
301a, 301b, 301c, 301d 要求解析処理手段
302a, 302b, 302c 要求識別結果生成手段
303 音声認識処理手段
304a, 304b, 304c 要求候補スコア計算手段
305a, 305b 類似文書検索処理手段
306a, 306b 規貝 IJ切替手段
400 記録媒体
401 共通ルール記憶手段
402、 402b 要求固有ルール記憶手段
403 要求候補スコアテーブル記憶手段
404 回答要求データ記憶手段
405 要求内容多階層クラスタ記憶手段
406 要求クラスタ固有ルール記憶手段
発明を実施するための最良の形態
[0025] [第 1の実施形態]
続いて、本発明の第 1の実施形態について図面を参照して詳細に説明する。図 1 は、本発明の第 1の実施形態に係る要求内容識別システムの構成を表したブロック 図である。図 1を参照すると、本実施形態に係る要求内容識別システムは、入力装置 100aと、出力装置 200と、プログラム制御により動作するコンピュータ(中央処理装 置;プロセッサ;データ処理装置) 300と、記憶媒体 400とから構成されて ヽる。 [0026] コンピュータ(中央処理装置;プロセッサ;データ処理装置) 300は、それぞれコンビ ユータブログラムで構成された要求解析処理手段 301aと、要求識別結果生成手段 3 02aとを含んで構成される。
[0027] 要求解析処理手段 301aは、入力された情報要求文のテキストデータに対して、共 通ルール記憶手段 401に記憶された共通ルールと、要求固有ルール記憶手段 402 に記憶された要求固有ルールとを用 、て要求解析処理を行 、、入力要求文に対す る構文構造を生成することにより、入力要求文に対する要求解析結果の複数候補と して、入力要求文に対する要求内容番号とその要求解析スコアのリストを出力する手 段である。
[0028] 要求識別結果生成手段 302aは、要求解析処理手段 301aより出力されたリストの 入力要求文に対する要求内容番号の候補をスコア順にソートし、最もスコアの高い要 求内容番号を識別結果として生成し、出力する手段である。
[0029] 記憶媒体 400は、共通ルール記憶手段 401と、要求固有ルール記憶手段 402とを 含む。共通ルール記憶手段 401は、要求解析処理手段 301aにおいて、入力要求 文に対して要求解析を行う際に用いる、固有の要求内容に依存しな 、ように記述さ れた構文解析用のルール (共通ルール)を記憶する。要求固有ルール記憶手段 402 は、要求解析処理手段 301aにおいて、入力要求文に対して要求解析を行う際に用 いる、固有の要求内容に固有の語彙や表現に特化して記述された構文解析用のル ール(要求固有ルール)を記憶する。
[0030] 続いて、本実施形態の動作について図面を参照して詳細に説明する、図 2は、本 発明の第 1の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 2を参照すると、まず、入力装置 100aより情報要求文のテキストデータが入力され ると (ステップ A1)、要求解析処理手段 301aが、入力された情報要求文のテキストデ ータに対して、共通ルール記憶手段 401に記憶された共通ルールと、要求固有ルー ル記憶手段 402に記憶された要求固有ルールとを用いて要求解析処理を行 、、入 力要求文に対する構文構造を生成することにより、入力要求文に対する要求解析結 果の複数候補として、入力要求文に対する要求内容番号と各要求内容との構文解 析上の適合の度合 、を示す解析スコアのリスト (Nベスト)を出力する (ステップ A2)。 [0031] 続いて、要求識別結果生成手段 302aが、要求解析処理手段 301aで得られた入 力要求文の全候補をスコア順にソートし、最もスコアの高い要求内容番号を識別結 果として生成し、出力装置 200に送る (ステップ A3)。
[0032] 以上のように、本実施形態によれば、上記解析スコアに基づいた選択が可能となる ため、入力された情報要求文の構文構造の妥当性や要求の識別結果の妥当性が保 証された識別結果が得られる。また、未知の要求文に対しても、誤ったルールの適用 による識別誤りを最小限に抑えることが可能であり、精度の良い情報要求文力 の要 求の識別を実現することが可能となって 、る。
[0033] [第 2の実施形態]
続 、て、音声で入力された情報要求文を識別可能とした本発明の第 2の実施形態 について図面を参照して詳細に説明する。図 3は、本発明の第 2の実施形態に係る 要求内容識別システムの構成を表したブロック図である。図 3を参照すると、本実施 形態に係る要求内容識別システムは、入力装置 100bと、出力装置 200と、プロダラ ム制御により動作するコンピュータ(中央処理装置;プロセッサ;データ処理装置) 30 0と、記憶媒体 400とから構成されている。
[0034] 上記第 1の実施形態との相違点は、入力装置 100bが音声入力装置である点と、コ ンピュータ (中央処理装置;プロセッサ;データ処理装置) 300の構成と、記憶媒体 40 0に、要求候補スコアテーブル記憶手段 403が追加されている点である。以下、上記 した第 1の実施形態と共通する部分は適宜省略して説明する。
[0035] 本実施形態におけるコンピュータ(中央処理装置;プロセッサ;データ処理装置) 30 0は、それぞれコンピュータプログラムで構成された音声認識処理手段 303と、要求 解析処理手段 30 lbと、要求候補スコア計算手段 304aと、要求識別結果生成手段 3 02bとを含んで構成される。
[0036] 音声認識処理手段 303は、入力された情報要求文の音声データに対して音声認 識処理を行い、入力要求文に対する音声認識結果として、予め用意された情報要求 文テキストとの適合の度合いを示す音声認識スコアの付与された情報要求文テキスト を複数候補出力する手段である。
[0037] 要求解析処理手段 301bは、音声認識処理手段 303で得られた音声認識結果の 各候補に対して、共通ルール記憶手段 401に記憶された共通ルールと、要求固有 ルール記憶手段 402に記憶された要求固有ルールとを用いて要求解析処理を行 ヽ 、音声認識結果の各候補に対する構文構造を生成することにより、音声認識結果の 各候補に対する要求解析結果の複数候補として、認識結果の各候補に対する要求 内容番号とその要求解析スコアのリストを出力する手段である。
[0038] 要求候補スコア計算手段 304aは、音声認識処理手段 303で得られた音声認識結 果の各候補とその音声認識スコアと、要求解析処理手段 301bで得られた要求内容 番号とその要求解析スコアとを、要求候補スコアテーブル記憶手段 403に記録する。 更に、要求候補スコア計算手段 304aは、上記音声認識結果の各候補の音声認識ス コアと、要求内容番号とその要求解析スコアとを組み合わせることにより、入力された 情報要求文に対する要求内容の全候補に対して統合スコアを計算し、要求内容番 号とともに要求識別結果生成手段 302bに出力する手段である。
[0039] 要求識別結果生成手段 302bは、要求候補スコア計算手段 304aより出力された入 力要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容番号 を識別結果として生成し、出力する手段である。
[0040] 要求候補スコアテーブル 403は、要求候補スコア計算手段 304aにおいて、音声認 識処理手段 303で得られた音声認識結果の各候補とその音声認識スコアを記録す るとともに、音声認識結果の各候補に対して要求解析処理手段 301bで得られた、要 求内容番号とその要求解析スコアを記録する際に用いる、要求候補スコアテーブル を記憶する(図 17参照)。
[0041] 続いて、本実施形態の動作について図面を参照して詳細に説明する、図 4は、本 発明の第 2の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 4を参照すると、まず、入力装置 100bより情報要求文音声が入力されると (ステツ プ B1)、音声認識処理手段 303が、入力された情報要求文の音声データに対して音 声認識処理を行い、入力された情報要求文に対する音声認識結果として、音声認識 スコアの付与された情報要求文テキストを複数候補 (Nベスト)出力する (ステップ B2 ; 例:図 13の r〜r ) o
A C
[0042] 続いて、要求解析処理手段 301bが、音声認識処理手段 303で得られた音声認識 結果の各候補に対して、共通ルール記憶手段 401に記憶された共通ルールと、要 求固有ルール記憶手段 402に記憶された要求固有ルールとを用いて要求解析処理 を行い、音声認識結果の各候補に対する構文構造を生成することにより、音声認識 結果の各候補に対する要求解析結果の複数候補 (Nベスト)として、認識結果の各候 補に対する要求内容番号とその要求解析スコアのリストを出力する (ステップ B3)。
[0043] 続ヽて、要求候補スコア計算手段 304aが、音声認識処理手段 303で得られた音 声認識結果の各候補に対して、その音声認識スコアとともに、要求解析処理手段 30 lbで得られた要求内容番号とその要求解析スコアを、要求候補スコアテーブル記憶 手段 403に記録し、さらに、音声認識結果の各候補に対して、音声認識スコアと要求 解析スコアを組み合わせることにより、入力された情報要求文に対する要求内容の全 候補に対して統合スコアを計算し、要求内容番号を統合スコアとともに出力する (ステ ップ B4)。
[0044] 最後に、要求識別結果生成手段 302bが、要求候補スコア計算手段 304aで得られ た入力要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容 番号を識別結果として生成し、出力装置 200に送る (ステップ B5)。
[0045] 以上のように、本実施形態によれば、音声認識スコアと要求候補スコアを組み合わ せた統合スコアを用いて 、るため、音声認識と要求解析の結果を相補的に用いて最 適な質問内容の識別結果を得ることが可能となる。また本実施形態によれば、音声 認識処理のバラツキを考慮に入れているため、音声認識誤りの影響を最小限に抑え ることが可能であり、精度の良い情報要求文力 の要求の識別を実現することができ る。
[0046] [第 3の実施形態]
続いて、上記第 1の実施形態に改良を加えた本発明の第 3の実施形態について図 面を参照して詳細に説明する。図 5は、本発明の第 3の実施形態に係る要求内容識 別システムの構成を表したブロック図である。図 5を参照すると、本実施形態に係る要 求内容識別システムは、入力装置 100aと、出力装置 200と、プログラム制御により動 作するコンピュータ(中央処理装置;プロセッサ;データ処理装置) 300と、記憶媒体 4 00と力 構成されている。 [0047] 上記第 1の実施形態との相違点は、コンピュータ(中央処理装置;プロセッサ;デー タ処理装置) 300の構成と、記憶媒体 400に、回答要求データ記憶手段 404が追カロ されている点である。以下、上記した第 1、第 2の実施形態と共通する部分は適宜省 略して説明する。
[0048] 本実施形態におけるコンピュータ(中央処理装置;プロセッサ;データ処理装置) 30 0は、それぞれコンピュータプログラムで構成された要求解析処理手段 301aと、要求 候補スコア計算手段 304bと、類似文書検索処理手段 305aと、要求識別結果生成 手段 302bとを含んで構成される。
[0049] 要求解析処理手段 301aは、上記第 1の実施形態と同様に、入力された情報要求 文のテキストデータに対して、共通ルール記憶手段 401に記憶された共通ルールと 、要求固有ルール記憶手段 402に記憶された要求固有ルールとを用いて要求解析 処理を行い、入力要求文に対する構文構造を生成することにより、入力要求文に対 する要求解析結果の複数候補として、入力要求文に対する要求内容番号とその要 求解析スコアのリストを出力する手段である。
[0050] 類似文書検索処理手段 305aは、入力された情報要求文のテキストデータを検索 要求として、回答要求データ記憶手段 404に記憶された各要求内容に対する回答 文書集合又は各要求内容に対する情報要求文集合又はその両方を対象に検索を 行い、検索結果として要求内容番号と情報要求文との適合の度合いを示す類似文 書検索スコアを求め、要求内容番号とその類似文書検索スコアの組を出力する手段 である。
[0051] 本実施形態における要求候補スコア計算手段 304bは、上記した第 2の実施形態 の要求候補スコア計算手段 304aと略同様であるが、音声認識スコアに代えて、類似 文書検索スコアを用い、統合スコアを計算する点で異なっている。即ち、要求候補ス コア計算手段 304bは、要求解析処理手段 301aで得られた要求内容番号とその要 求解析スコアの各候補に対して、類似文書検索処理手段 305aで得られた要求内容 番号とその類似文書検索スコアを、要求解析スコアと組み合わせることにより、入力さ れた情報要求文に対する要求内容の全候補に対して統合スコアを計算し、要求内 容番号を統合スコアとともに出力する手段である。 [0052] 要求識別結果生成手段 302bは、要求候補スコア計算手段 304bで得られた入力 要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容番号を 識別結果として生成し、出力する手段である。
[0053] 回答要求データ記憶手段 404は、類似文書検索処理手段 305aが、入力要求文に 類似するデータを検索する際に、検索対象となる文書データを記憶する手段である。 例えば、各要求内容に対する回答文書集合又は Z及び情報要求文集合が記憶され る。
[0054] 続いて、本実施形態の動作について図面を参照して詳細に説明する、図 6は、本 発明の第 3の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 6を参照すると、まず、入力装置 100aより情報要求文のテキストデータが入力され ると (ステップ A1)、要求解析処理手段 301aが、入力された情報要求文のテキストデ ータに対して、共通ルール記憶手段 401に記憶された共通ルールと、要求固有ルー ル記憶手段 402に記憶された要求固有ルールとを用いて要求解析処理を行 、、入 力要求文に対する構文構造を生成することにより、入力要求文に対する要求解析結 果の複数候補 (Nベスト)として、入力要求文に対する要求内容番号とその要求解析 スコアのリストを出力する(ステップ A2)。
[0055] 続、て、類似文書検索処理手段 305aが、ステップ A1にて入力された情報要求文 のテキストデータを検索要求として、回答要求データ記憶手段 404に記憶された文 書データを対象に類似文書検索を行い、検索結果として要求内容番号と類似文書 検索スコアを求め、要求内容番号とその類似文書検索スコアの組を出力する (ステツ プ Cl)。
[0056] 続いて、要求候補スコア計算手段 304bが、入力された情報要求文のテキストデー タに対して、要求解析処理手段 301aで得られた要求内容番号とその要求解析スコ ァを、類似文書検索処理手段 305aで得られた要求内容番号とその類似文書検索ス コァと組み合わせることにより、入力要求文に対する要求内容の全候補に対して統合 スコアを計算し、要求内容番号を統合スコアとともに出力する (ステップ C2)。
[0057] 最後に、要求識別結果生成手段 302bが、要求候補スコア計算手段 304bで得られ た入力要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容 番号を識別結果として生成し、出力装置 200に送る (ステップ B5)。
[0058] 以上のように、本実施形態によれば、類似文書検索スコアと要求候補スコアを組み 合わせた統合スコアを用いているため、要求解析、類似文書検索の結果を相補的に 用いて最適な質問内容の識別結果を得ることが可能となる。また本実施形態によつ ても、未知の要求文や音声認識誤りに対する影響を最小限に抑えることが可能であ り、精度の良い情報要求文力 の要求の識別を実現することができる。
[0059] [第 4の実施形態]
続いて、上記第 2の実施形態に改良を加えた本発明の第 4の実施形態について図 面を参照して詳細に説明する。図 7は、本発明の第 4の実施形態に係る要求内容識 別システムの構成を表したブロック図である。図 7を参照すると、本実施形態に係る要 求内容識別システムは、入力装置 100bと、出力装置 200と、プログラム制御により動 作するコンピュータ(中央処理装置;プロセッサ;データ処理装置) 300と、記憶媒体 4 00と力 構成されている。
[0060] 上記第 2の実施形態との相違点は、コンピュータ(中央処理装置;プロセッサ;デー タ処理装置) 300の構成と、記憶媒体 400に、上記第 3の実施形態で説明した回答 要求データ記憶手段 404が追加されている点である。以下、上記した第 2、第 3の実 施形態と共通する部分は適宜省略して説明する。
[0061] 本実施形態におけるコンピュータ(中央処理装置;プロセッサ;データ処理装置) 30 0は、それぞれコンピュータプログラムで構成された音声認識処理手段 303と、要求 解析処理手段 301bと、要求候補スコア計算手段 304cと、類似文書検索処理手段 3 05bと、要求識別結果生成手段 302bとを含んで構成される。
[0062] 音声認識処理手段 303は、上記第 2の実施形態で説明したように、入力された情 報要求文の音声データに対して音声認識処理を行い、入力要求文に対する音声認 識結果として、音声認識スコアの付与された情報要求文テキストを複数候補出力す る手段である。
[0063] 要求解析処理手段 301bは、上記第 2の実施形態で説明したように、音声認識処理 手段 303で得られた音声認識結果の各候補に対して、共通ルール記憶手段 401〖こ 記憶された共通ルールと、要求固有ルール記憶手段 402に記憶された要求固有ル 一ルとを用いて要求解析処理を行、、音声認識結果の各候補に対する構文構造を 生成することにより、音声認識結果の各候補に対する要求解析結果の複数候補とし て、認識結果の各候補に対する要求内容番号とその要求解析スコアのリストを出力 する手段である。
[0064] 類似文書検索処理手段 305bは、音声認識処理手段 303で得られた音声認識結 果の各候補を検索要求として、回答要求データ記憶手段 404に記憶された各要求 内容に対する回答文書集合又は各要求内容に対する情報要求文集合又はその両 方を対象に検索を行い、検索結果として要求内容番号とその類似文書検索スコアを 求め、要求内容番号とその類似文書検索スコアの組を出力する手段である。
[0065] 要求候補スコア計算手段 304cは、音声認識処理手段 303で得られた音声認識結 果の各候補とその音声認識スコアと、要求解析処理手段 301bで得られた要求内容 番号とその要求解析スコアと、類似文書検索処理手段 305bで得られた要求内容番 号とその類似文書検索スコアとを要求候補スコアテーブル記憶手段 403に記録する 。更に、要求候補スコア計算手段 304cは、上記音声認識結果の各候補の音声認識 スコアと、上記要求内容番号とその要求解析スコアと類似文書検索スコアとを組み合 わせることにより、入力された情報要求文に対する要求内容の全候補に対して統合 スコアを計算し、要求内容番号とともに要求識別結果生成手段 302bに出力する手 段である。
[0066] 要求識別結果生成手段 302bは、要求候補スコア計算手段 304cより出力された入 力要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容番号 を識別結果として生成し、出力する手段である。
[0067] 要求候補スコアテーブル 403及び回答要求データ記憶手段 404は、それぞれ第 2 の実施形態及び第 3の実施形態で説明しているので省略する。
[0068] 続いて、本実施形態の動作について図面を参照して詳細に説明する。図 8は、本 発明の第 4の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 8を参照すると、まず、入力装置 100bより情報要求文音声が入力されると (ステツ プ B1)、音声認識処理手段 303が、入力された情報要求文の音声データに対して音 声認識処理を行い、入力された情報要求文に対する音声認識結果として、音声認識 スコアの付与された情報要求文テキストを複数候補 (Nベスト)出力する (ステップ B2 ; 例:図 13の r〜r ) o
A C
[0069] 続いて、要求解析処理手段 301bが、音声認識処理手段 303で得られた音声認識 結果の各候補に対して、共通ルール記憶手段 401に記憶された共通ルールと、要 求固有ルール記憶手段 402に記憶された要求固有ルールとを用いて要求解析処理 を行い、音声認識結果の各候補に対する構文構造を生成することにより、音声認識 結果の各候補に対する要求解析結果の複数候補 (Nベスト)として、認識結果の各候 補に対する要求内容番号とその要求解析スコアのリストを出力する (ステップ B3)。
[0070] 続いて、類似文書検索処理手段 305bが、音声認識処理手段 303で得られた音声 認識結果の各候補を検索要求として、回答要求データ記憶手段 404に記憶された 文書データを対象に類似文書検索を行い、検索結果として要求内容番号と類似文 書検索スコアを求め、要求内容番号とその類似文書検索スコアの組を出力する (ステ ップ Dl)。
[0071] 続 、て、要求候補スコア計算手段 304cが、音声認識処理手段 303で得られた音 声認識結果の各候補に対して、その音声認識スコアとともに、要求解析処理手段 30 lbで得られた要求内容番号とその要求解析スコアと、類似文書検索処理手段 305b で得られた要求内容番号とその類似文書検索スコアを、要求候補スコアテーブル記 憶手段 403に記録し、さらに、音声認識結果の各候補に対して、音声認識スコアと要 求解析スコアと類似文書検索スコアを組み合わせることにより、入力された情報要求 文に対する要求内容の全候補に対して統合スコアを計算し、要求内容番号を統合ス コアとともに出力する (ステップ D2)。
[0072] 最後に、要求識別結果生成手段 302bが、要求候補スコア計算手段 304cで得られ た入力要求文の全候補を統合スコア順にソートし、最も統合スコアの高い要求内容 番号を識別結果として生成し、出力装置 200に送る (ステップ B5)。
[0073] 以上のように、本実施形態によれば、音声認識スコアと要求候補スコアと類似文書 検索スコアを組み合わせた統合スコアを用いているため、音声認識、要求解析、類 似文書検索の結果を相補的に用いて音声認識誤りの影響を最小限に抑え、最適な 質問内容の識別結果を得ることが可能となる。 [0074] [第 5の実施形態]
続いて、本発明の第 5の実施形態について図面を参照して詳細に説明する。図 9 は、本発明の第 5の実施形態に係る要求内容識別システムの構成を表したブロック 図である。図 9を参照すると、本実施形態に係る要求内容識別システムは、入力装置 100aと、出力装置 200と、プログラム制御により動作するコンピュータ(中央処理装 置;プロセッサ;データ処理装置) 300と、記憶媒体 400とから構成されて ヽる。
[0075] 上記第 1の実施形態との相違点は、コンピュータ(中央処理装置;プロセッサ;デー タ処理装置) 300の構成に規則切替手段 306aを追加した点と、上記第 1の実施形態 で説明した要求固有ルールを一括して記憶する要求固有ルール記憶手段 402に代 えて、要求固有ルール 1、要求固有ルール 2、 · · ·、要求固有ルール Nというように各 要求内容毎に、対応する要求固有ルールを区別して記憶する、要求固有ルール記 憶手段 402bを備えた点である。
[0076] コンピュータ(中央処理装置;プロセッサ;データ処理装置) 300は、それぞれコンビ ユータブログラムで構成された要求解析処理手段 301cと、規則切替手段 306aと、要 求識別結果生成手段 302aとを含んで構成される。
[0077] 要求解析処理手段 301cは、入力された情報要求文のテキストデータに対して、共 通ルール記憶手段 401に記憶された共通ルールと、要求固有ルール記憶手段 402 bに、各要求内容毎に記憶された要求固有ルール 1、要求固有ルール 2、 · · ·、要求 固有ルール Nのすベての要求固有ルールのうち、規則切替手段 306aが順次切り替 える要求固有ルールとを用 、て要求解析処理を行 、、入力要求文に対して共通ル ールとすべての要求固有ルールから 、ずれかを順次用いて構文構造を生成すること により、入力要求文に対する要求解析結果の複数候補として、入力要求文に対する 要求内容番号とその要求解析スコアのリストを出力する手段である。
[0078] 要求識別結果生成手段 302aは、要求解析処理手段 301cより出力されたリストの 入力要求文に対する要求内容番号の候補をスコア順にソートし、最もスコアの高い要 求内容番号を識別結果として生成し、出力する手段である。
[0079] 規則切替手段 306aは、要求固有ルール記憶手段 402bに記憶された要求固有ル ール 1、要求固有ルール 2、 · · ·、要求固有ルール Nの全 N個の要求固有ルールのう ち、いずれかの要求固有ルールに順次切り替えを行うことにより、要求解析処理手段
301cに対して要求解析処理に用いる要求固有ルールを提供する。
[0080] 記憶媒体 400は、共通ルール記憶手段 401と、要求固有ルール記憶手段 402bと を含む。共通ルール記憶手段 401は、要求解析処理手段 301cにおいて、入力要求 文に対して要求解析を行う際に用いる、固有の要求内容に依存しな 、ように記述さ れた構文解析用のルール (共通ルール)を記憶する。要求固有ルール記憶手段 402 bは、要求解析処理手段 301cにおいて、入力要求文に対して要求解析を行う際に 用いる、固有の要求内容に固有の語彙や表現に特化して記述された構文解析用の ルール(要求固有ルール)を各要求内容毎に、対応する要求固有ルールとして、要 求固有ルール 1、要求固有ルール 2、 · · ·、要求固有ルール Nの全 N個の要求固有 ルールを区別して記憶する。
[0081] 続いて、本実施形態の動作について図面を参照して詳細に説明する。図 10は、本 発明の第 5の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 10を参照すると、まず、入力装置 100aより情報要求文のテキストデータが入力さ れると (ステップ A1)、要求解析処理手段 301cが、入力された情報要求文のテキスト データに対して、共通ルール記憶手段 401に記憶された共通ルールと、要求固有ル ール記憶手段 402bに、各要求内容毎に記憶された要求固有ルール 1、要求固有ル ール 2、 · · ·、要求固有ルール Nのすベての要求固有ルールのうち、規則切替手段 3 06aが順次切り替える要求固有ルールとを用いて要求解析処理を行い、入力要求文 に対して共通ルールとすべての要求固有ルールから 、ずれかを順次用いて構文構 造を生成することにより、入力要求文に対する要求解析結果の複数候補として、入力 要求文に対する要求内容番号と各要求内容との構文解析上の適合の度合いを示す 解析スコアのリスト (Nベスト)を出力する (ステップ El)。
[0082] 続いて、要求識別結果生成手段 302aが、要求解析処理手段 301cで得られた入 力要求文の全候補をスコア順にソートし、最もスコアの高い要求内容番号を識別結 果として生成し、出力装置 200に送る (ステップ A3)。
[0083] 以上のように、本実施形態によれば、第 1の実施例と同様、上記解析スコアに基づ いた選択が可能となるため、入力された情報要求文の構文構造の妥当性や要求の 識別結果の妥当性が保証された識別結果が得られる。また、未知の要求文に対して も、誤ったルールの適用による識別誤りを最小限に抑えることが可能であり、精度の 良 、情報要求文力 の要求の識別を実現することが可能となって 、る。
[0084] [第 6の実施形態]
続いて、本発明の第 6の実施形態について図面を参照して詳細に説明する。図 11 は、本発明の第 6の実施形態に係る要求内容識別システムの構成を表したブロック 図である。
図 11を参照すると、本実施形態に係る要求内容識別システムは、入力装置 100aと 、出力装置 200と、プログラム制御により動作するコンピュータ(中央処理装置;プロ セッサ;データ処理装置) 300と、記憶媒体 400とから構成されている。
[0085] 上記第 5の実施形態との相違点は、記憶媒体 400に、後記する要求内容多階層ク ラスタ記憶手段 405と、要求クラスタ固有ルール記憶手段 406とが追加されている点 である。
[0086] コンピュータ(中央処理装置;プロセッサ;データ処理装置) 300は、それぞれコンビ ユータブログラムで構成された要求解析処理手段 301dと、規則切替手段 306bと、 要求識別結果生成手段 302cとを含んで構成される。
[0087] 要求解析処理手段 301dは、入力された情報要求文のテキストデータに対して、共 通ルール記憶手段 401に記憶された共通ルールと、要求固有ルール記憶手段 402 bに、各要求内容毎に記憶された要求固有ルール 1、要求固有ルール 2、 · · ·、要求 固有ルール N、要求クラスタ固有ルール記憶手段 406に各要求内容クラスタ毎に記 憶された要求クラスタ固有ルール 1、要求クラスタ固有ルール 2、 · · ·、要求クラスタ固 有ルール Nのすベての要求固有ルールのうち、規則切替手段 306bが順次切り替え る要求内容クラスタに対応する要求固有ルールの集合とを用 Vヽて要求解析処理を行 V、、入力要求文に対して共通ルールとすべての要求固有ルールから!/、ずれかの要 求内容クラスタに対応する要求固有ルールの集合を順次用いて構文構造を生成す ることにより、入力要求文に対する要求解析結果の複数候補として、入力要求文に 対する要求内容クラスタとその要求解析スコアのリストを出力する手段である。
[0088] 要求識別結果生成手段 302cは、要求解析処理手段 301dより出力されたリストの 入力要求文に対する要求内容クラスタの候補をスコア順にソートし、最もスコアの高 い要求内容クラスタ (要求内容番号の集合で表現される)を識別結果として生成し、 出力する手段である。
[0089] 規則切替手段 306bは、要求内容多階層クラスタ記憶手段 405に記憶された内容 に従って、要求固有ルール記憶手段 402bに各要求内容毎に記憶された要求固有 ルール 1、要求固有ルール 2、 . · ·、要求固有ルール Nの全 N個の要求固有ルール 及び要求クラスタ固有ルール記憶手段 406に各要求内容クラスタ毎に記憶された要 求クラスタ固有ルール 1、要求クラスタ固有ルール 2、 · · ·、要求クラスタ固有ルール N のうち、いずれかの要求内容クラスタに対応する要求固有ルールの集合に順次切り 替えを行うことにより、要求解析処理手段 301dに対して要求解析処理に用いる要求 固有ルールの集合を提供する。
[0090] 記憶媒体 400は、共通ルール記憶手段 401と、要求固有ルール記憶手段 402bと 、要求内容多階層クラスタ記憶手段 405と、要求クラスタ固有ルール記憶手段 406と 、を含む。共通ルール記憶手段 401は、要求解析処理手段 301dにおいて、入力要 求文に対して要求解析を行う際に用いる、固有の要求内容に依存しな!、ように記述 された構文解析用のルール (共通ルール)を記憶する。要求固有ルール記憶手段 4 02bは、要求解析処理手段 301dにおいて、入力要求文に対して要求解析を行う際 に用いる、固有の要求内容に固有の語彙や表現に特化して記述された構文解析用 のルール(要求固有ルール)を各要求内容毎に、対応する要求固有ルールとして、 要求固有ルール 1、要求固有ルール 2、 · · ·、要求固有ルール Nの全 N個の要求固 有ルールを区別して記憶する。要求内容多階層クラスタ記憶手段 405は、要求内容 が互いに類似する質問内容の集合を多階層のクラスタ構造 (要求内容番号の集合で 表現される)で記述した要求内容クラスタ(要求内容カテゴリ)を記憶する。また、要求 クラスタ固有ルール記憶手段 406は、前記要求内容クラスタに固有の語彙や表現に 特ィ匕して記述された構文解析用のルール (要求クラスタ固有ルール)を各クラスタ毎 に、対応する要求固有ルールとして、要求クラスタ固有ルール 1、要求クラスタ固有ル ール 2、 · · ·、要求クラスタ固有ルール Nの全 N個の要求クラスタ固有ルールを区別し 飞 feす。。 [0091] 続いて、本実施形態の動作について図面を参照して詳細に説明する。図 12は、本 発明の第 6の実施形態に係る要求内容識別システムの動作を表した流れ図である。 図 12を参照すると、まず、入力装置 100aより情報要求文のテキストデータが入力さ れると (ステップ A1)、要求解析処理手段 301dが、入力された情報要求文のテキスト データに対して、共通ルール記憶手段 401に記憶された共通ルールと、要求固有ル ール記憶手段 402b及び要求クラスタ固有ルール記憶手段 406に格納されたすベて の要求固有ルールのうち、規則切替手段 306bが順次切り替える要求内容クラスタに 対応する要求固有ルールの集合とを用いて要求解析処理を行!ヽ、構文構造を生成 することにより、入力要求文に対する要求解析結果の複数候補として、入力要求文 に対する要求内容クラスタと、各クラスタの要求内容との構文解析上の適合の度合 、 を示す解析スコアのリスト (Nベスト)を出力する (ステップ F1)。
[0092] 続いて、要求識別結果生成手段 302cが、要求解析処理手段 301dで得られた入 力要求文の全候補をスコア順にソートし、最もスコアの高い要求内容クラスタ(要求内 容番号の集合で表現される)を識別結果として生成し、出力装置 200に送る (ステツ プ F2)。
[0093] 以上のように、本実施形態によれば、第 5の実施形態の効果に加え、上記解析スコ ァに基づいた要求内容クラスタの選択が可能となるため、入力された情報要求文が 未知の要求文で、直接対応する要求内容番号が存在しない場合においても、最も内 容の近い適当な要求内容クラスタに対応する要求として識別することが可能となって いる。
[0094] 続いて、上記した各実施形態の作用効果をより具体的に説明すベぐ本発明の実 施例を説明する。
[0095] [実施例 1]
以下、第 1実施例として、上記した本発明の第 1の実施形態の動作を、図 1、図 2と、 図 13〜図 15の補助図面を参照して、具体的に説明する。
[0096] 本実施例では、図 2のステップ A1にて、入力装置 100aに、「ショートメール受信時 の画面は設定できます力」(図 13の表記記号 r )との情報要求文が入力されたものと
A
して説明する。図 14は、共通ルール (a)及び (b)と、要求内容固有ルール (a)及び( b)の具体例を表した図である(各ルールは全体の一部を示す。 ) oなお、図 14の要 求内容固有ルール (a)及び (b)は、要求内容番号 19に固有の要求固有ルールの一 部である。
[0097] 続いて、先に図 2のステップ A2で説明したように、要求解析処理手段 301aが、共 通ルール記憶手段 401、要求固有ルール記憶手段 402より、共通ルールと、要求固 有ルールとを用いて、前記した図 13の表記記号 r の要求文について要求解析処理
A
を行い、入力要求文に対する構文構造を生成することにより、入力要求文に対する 要求解析結果の複数候補として、入力要求文に対する要求内容番号とその要求解 析スコアのリストを出力する。
[0098] 図 15は、要求解析処理手段 30 laが、図 14に示すような共通ルール (a)及び (b)、 要求内容固有ルール (a)及び (b)を用いて、図 13の表記記号 r の情報要求文の要
A
求解析により得られた候補とその解析スコアを表した図である。図 15を参照すると、 要求内容 Q を候補とする第 1解析候補 S (r )の解析スコアは 25であり、要求内
19 1 A
容 Q を候補とする第 2解析候補 S (r )の解析スコアは—35であり、要求内容 Qを
15 2 A 0 候補とする第 3解析候補 S (r )の解析スコアは— 40である。
3 A
[0099] そして、先に図 2のステップ A3で説明したように、要求識別結果生成手段 302aが、 これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内容 番号を識別結果として生成し、出力装置 200に送る。図 15に例示した要求解析結果 の場合、上記スコア順に、要求内容 Q (解析スコア = 25)、要求内容 Q (解析ス
19 15 コア = 35)、要求内容 Q (解析スコア =ー 40)が得られ、最もスコアの高い第 1解
0
析候補 S (r )の要求内容 Q が識別結果として生成される。
1 A 19
[0100] [実施例 2]
以下、第 2実施例として、上記した本発明の第 2の実施形態の動作を、図 3、図 4と、 図 13〜図 18の補助図面を参照して、具体的に説明する。
[0101] 本実施例では、図 4のステップ B1にて、入力装置 100bに、「ショートメール受信時 の画面は設定できます力」(図 13の表記記号 r )との音声にて情報要求文が入力さ
A
れたものとして説明する。
[0102] そして、音声認識処理手段 303における音声認識処理の結果(図 4のステップ B2) 、情報要求文の第 1候補として、図 13の表記記号!:の情報要求文 (音声認識スコア
B
=— 20)と、第 2候補として、図 13の表記記号!: の情報要求文 (音声認識スコア =—
A
22)とが得られたものとする。
[0103] そして、先に図 4のステップ B3で説明したように、要求解析処理手段 301bが、共通 ルール記憶手段 401、要求固有ルール記憶手段 402より、共通ルールと、要求固有 ルールとを用いて、前記した図 13の表記記号 r、r の要求文について要求解析処
B A
理を行い、入力要求文に対する構文構造を生成することにより、入力要求文に対す る要求解析結果の複数候補として、入力要求文に対する要求内容番号とその要求 解析スコアのリストを出力する。
[0104] 図 16は、要求解析処理手段 301bが、図 14に示すような共通ルール (a)及び (b)、 要求内容固有ルール (a)及び (b)を用いて、図 13の表記記号 rの情報要求文の要
B
求解析により得られた候補とその解析スコアを表した図である。図 16を参照すると、 要求内容番号 19で特定される要求内容 Q を候補とする第 1解析候補 S (r )の解
15 1 B 析スコアは— 35であり、要求内容 Qを候補とする第 2解析候補 S2 (r )の解析スコア
0 B
は— 40であり、要求内容 Q を候補とする第 3解析候補 S3 (r )の解析スコアは— 45
19 B
である。
[0105] 図 13の表記記号 r の情報要求文についての要求解析により得られた候補とその
A
解析スコアは、先の実施例 1で図 15を用いて説明したとおりであり、要求番号 19で特 定される要求内容 Q を候補とする第 1解析候補 S (r )の解析スコアは—25であり、
19 1 A
要求内容 Q を候補とする第 2解析候補 S (r )の解析スコアは 35であり、要求内
15 2 A
容 Qを候補とする第 3解析候補 S (r )の解析スコアは— 40である。
0 3 A
[0106] 従って、上記表記記号 rの要求文 (第 1候補)の音声認識スコアとして— 20が、要
B
求解析結果として、要求内容 Q (解析スコア =ー35)、要求内容 Q (解析スコア =
15 0
-40)、要求内容 Q (解析スコア =—45)が要求候補スコア計算手段 304aに出力
19
される。同様にして、上記表記記号 r の要求文 (第 2候補)の音声認識スコアとして
A
22が、要求解析結果として、要求内容 Q (解析スコア = 25)、要求内容 Q (解析
19 15 スコア = 35)、要求内容 Q (解析スコア =—40)が要求候補スコア計算手段 304a
0
に出力されることとなる。 [0107] そして、先に図 4のステップ B4で説明したように、要求候補スコア計算手段 304aが 、上記音声認識結果の各候補の音声認識スコアと、要求内容番号とその要求解析ス コアを、要求候補スコアテーブル記憶手段 403に記録する。
[0108] 図 17は、上記表記記号!:の要求文 (第 1候補)と上記表記記号 rの要求文 (第 2候
B A
補)について、各音声認識スコアと、要求内容番号とその要求解析スコアの記録した テーブルの一例である。
[0109] さらに、要求候補スコア計算手段 304aは、上記したテーブルに記録された音声認 識スコアと要求解析スコアを組み合わせることにより、入力された情報要求文に対す る要求内容の全候補に対して統合スコアを計算し、要求内容番号を統合スコアととも に出力する。
[0110] 上記統合スコアの計算には、例えば、下記(1)式を用いることができる。ここで、 R— Scoreは音声認識スコア、 P— Scoreは解析スコア、 α , j8 (a >0, j8 >0)は結合パ ラメータ、 Θは要求解析の解析スコアに対する閾値である。
[0111] [数 1]
Score (η , Q.) = a -R_Score {η)+ β - p _ Score (Sm(r,)),0) (1)
[0112] 例えば、上記(1)式 (但し、 α = β =1, Θ = 100)を用いて、音声認識結果の各候 補に対する要求内容番号毎の統合スコアを計算すると、図 18に示すとおりとなる。図 18を参照すると、上記表記記号 rの要求文 (第 1候補)に対して、 ··· 55(Q = Q
B 1
)、 ···、一 65(Q = Q )、 ···、一 60(Q = Q )、と上記表記記号 r の要求文(第 2候
5 19 0 A
補)に対して 57(Q Q 47(Q Q ) 62(Q Q )とい
15 19 0 つた結果が得られている。
[0113] そして、先に図 4のステップ B5で説明したように、要求識別結果生成手段 302bが、 要求候補スコア計算手段 304aで得られた入力要求文の全候補を統合スコア順にソ ートすると、図 18の結果の場合、 Score (Q ) =—47 Score(Q )=-55, Score (
19 15
Q ) =— 60· · ·となる。そして、最尤の候補である、最もスコアの高い Q = Q が生成
0 19
•出力される。
[0114] ここで、注意すべきことは、入力音声が、図 13の表記記号 rであり、その音声認識
A 結果として図 13の表記記号 rの方が音声認識スコアが高力つたにもかかわらず、上
B
記した要求解析結果を組み合わせることにより、第 1実施例と同様に正しい結果が得 られていることである。このように、本発明の第 2の実施形態 (実施例)では、音声認識 誤りの影響を最小限に抑え、精度良く要求内容を識別することが可能となっている。
[0115] [実施例 3]
以下、第 3実施例として、上記した本発明の第 3の実施形態の動作を、図 5、図 6と、 図 13、図 14、図 16、図 19、図 20の補助図面を参照して、具体的に説明する。
[0116] 本実施例では、図 6のステップ A1にて、入力装置 100aに、「ショートメール受信機 能画面は設定できますか」(図 13の表記記号!:)との情報要求文が入力されたものと
B
して説明する。
[0117] 先に図 6のステップ A2で説明したように、要求解析処理手段 301aが、共通ルール 記憶手段 401、要求固有ルール記憶手段 402より、共通ルールと、要求固有ルール とを用いて、前記した図 13の表記記号 rの要求文について要求解析処理を行い、
B
入力要求文に対する構文構造を生成することにより、入力要求文に対する要求解析 結果の複数候補として、入力要求文に対する要求内容番号とその要求解析スコアの リストを出力する。
[0118] 図 13の表記記号 rの情報要求文についての要求解析により得られた候補とその
B
解析スコアは、先の実施例 2で図 16を用いて説明したとおりであり、要求番号 19で特 定される要求内容 Q を候補とする第 1解析候補 S (r )の解析スコアは—35であり、
15 1 B
要求内容 Qを候補とする第 2解析候補 S (r )の解析スコアは 40であり、要求内容
0 2 B
Q を候補とする第 3解析候補 S (r )の解析スコアは— 45である。
19 3 B
[0119] 先に図 6のステップ C1で説明したように、類似文書検索処理手段 305aが、入力さ れた情報要求文のテキストデータを検索要求として、回答要求データ記憶手段 404 に記憶された文書データを対象に類似文書検索を行い、検索結果として要求内容 番号と類似文書検索スコアを求め、要求内容番号とその類似文書検索スコアの組を 出力する。
[0120] 図 19は、表記記号 r〜r の情報要求文と、回答要求データ記憶手段 404に記憶さ
A C
れた内容との類似検索を行った場合の類似文書検索スコアとの関係を表した図であ る。
以下、図 19に示されたように、表記記号 rの情報要求文に対し、各要求内容番号
B
に対する類似文書検索スコアとして、…、 +3 (Q = Q )、 ···、 +15(Q = Q )、 ···
15 19
、が得られたものとして説明する。
[0121] そして、先に図 6のステップ C2で説明したように、要求候補スコア計算手段 304bは 、上記したテーブルに記録された類似文書検索スコアと要求解析スコアを組み合わ せることにより、入力された情報要求文に対する要求内容の全候補に対して統合スコ ァを計算し、要求内容番号を統合スコアとともに出力する。
[0122] 上記統合スコアの計算には、例えば、下記(2)式を用いることができる。ここで、 P— Scoreは解析スコア、 IR— Scoreは類似文書検索スコア、 α , j8 (a >0, j8 >0)は 結合パラメータ、 Θは要求解析の解析スコアに対する閾値である。
[0123] [数 2]
Score (η ,Q = a- {^ __^Ρ _Score (S r,)),©) + β - IR_Score (η , Q) … (2)
[0124] 例えば、上記(2)式 (但し、 α = β =1, Θ = 100)を用いて、要求内容番号毎の統 合スコア Score (r, Q)を計算すると、図 20に示すとおりとなる。図 20を参照すると、
1 i
上記表記記号 rの要求文 (第 1候補)に対して、 ···、 -32(Q = Q )、 ···、一 30(Q
B 15
=Q ), ···、 -40(Q = Q )、といった結果が得られている。
19 0
[0125] そして、先に図 6のステップ B5で説明したように、要求識別結果生成手段 302bが、 これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内容 番号を識別結果として生成し、出力装置 200に送る。図 20に例示した要求解析結果 の場合、上記スコア順に、要求内容 Q (解析スコア = 30)、要求内容 Q (解析ス
19 15 コア = 32)、要求内容 Q (解析スコア =ー 40)が得られ、最もスコアの高い要求内
0
容 Q
19が識別結果として生成される。
[0126] 本実施例においても、図 13の表記記号 rの入力テキストに対し、その類似文書検
B
索結果と、要求解析結果を組み合わせることにより、第 1実施例と同様に正しい結果 が得られていることである。このように、本発明の第 3の実施形態 (実施例)でも、未知 の要求文や音声認識誤りに対する影響を最小限に抑え、精度良く要求内容を識別 することが可能となって 、る。
[0127] [実施例 4]
以下、第 4実施例として、上記した本発明の第 4の実施形態の動作を、図 7、図 8と、 図 13、図 14、図 16、図 19、図 21〜図 23の補助図面を参照して、具体的に説明す る。
[0128] 本実施例では、図 8のステップ B1にて、入力装置 100bに、「ショートメール受信時 の画面は設定できます力」(図 13の表記記号 r )との音声にて情報要求文が入力さ
A
れたものとして説明する。
[0129] そして、音声認識処理手段 303における音声認識処理の結果(図 8のステップ B2) 、情報要求文の第 1候補として、図 13の表記記号!: の情報要求文 (音声認識スコア
C
=— 20)と、第 2候補として、図 13の表記記号!:の情報要求文 (音声認識スコア =—
B
22)とが得られたものとする。
[0130] そして、先に図 8のステップ B3で説明したように、要求解析処理手段 301bが、共通 ルール記憶手段 401、要求固有ルール記憶手段 402より、共通ルールと、要求固有 ルールとを用いて、前記した図 13の表記記号 r、rの要求文について要求解析処
C B
理を行い、入力要求文に対する構文構造を生成することにより、入力要求文に対す る要求解析結果の複数候補として、入力要求文に対する要求内容番号とその要求 解析スコアのリストを出力する。
[0131] 図 21は、要求解析処理手段 301bが、図 14に示すような共通ルール (a)及び (b)、 要求内容固有ルール (a)及び (b)を用いて、図 13の表記記号 r の情報要求文の要
C
求解析により得られた候補とその解析スコアを表した図である。図 21を参照すると、 要求内容 Qを候補とする第 1解析候補 S (r )の解析スコアは— 50である。
0 1 C
[0132] 図 13の表記記号 rの情報要求文についての要求解析により得られた候補とその
B
解析スコアは、先の実施例 2で図 16を用いて説明したとおりであり、要求内容番号 1 9で特定される要求内容 Q を候補とする第 1解析候補 S (r )の解析スコアは 35
15 1 B
であり、要求内容 Qを候補とする第 2解析候補 S (r )の解析スコアは—40であり、要
0 2 B
求内容 Q を候補とする第 3解析候補 S (r )の解析スコアは— 45である。
19 3 B
[0133] 続いて、先に図 8のステップ D1で説明したように、類似文書検索処理手段 305bが 、音声認識処理手段 303で得られた音声認識結果の前記第 1候補、第 2候補を検索 要求として、回答要求データ記憶手段 404に記憶された文書データを対象に類似文 書検索を行い、検索結果として要求内容番号と類似文書検索スコアを求め、要求内 容番号とその類似文書検索スコアの組を出力する。
[0134] 上記類似文書検索の結果、図 19に示したように、表記記号 rの情報要求文に対し
C
、各要求内容番号に対する類似文書検索スコアとして、 ···、 +2(Q = Q )、 ···
15 、 +
2(Q = Q )、 ···、が得られ、表記記号 rの情報要求文に対し、各要求内容番号に
19
対する類似文書検索スコアとして、…、 +3 (Q = Q )、 ···、 +15(Q = Q )、 ···、
15 19 が得られたものとして説明する。
[0135] そして、先に図 8のステップ D2で説明したように、要求候補スコア計算手段 304cが
、上記音声認識結果の各候補の音声認識スコアと、要求内容番号とその要求解析ス コアを、要求候補スコアテーブル記憶手段 403に記録する。
[0136] 図 22は、上記表記記号 rの要求文 (第 1候補)と上記表記記号 rの要求文 (第 2候
C B
補)について、各音声認識スコアと、要求内容番号とその要求解析スコアを記録した テーブルの一例である。
[0137] さらに、要求候補スコア計算手段 304cは、上記したテーブルに記録された音声認 識スコアと要求解析スコアと類似文書検索スコアを組み合わせることにより、入力され た情報要求文に対する要求内容の全候補に対して統合スコアを計算し、要求内容 番号を統合スコアとともに出力する。
[0138] 上記統合スコアの計算には、例えば、下記(3)式を用いることができる。ここで、 R—
Scoreは音声認識スコア、 P— Scoreは解析スコア、 IR— Scoreは類似文書検索スコ 了ヽ (X, β , y (α>0, β >0, γ >0)は結合パラメータ、 Θは要求解析の解析スコ ァに対する閾値である。
[0139] [数 3]
Score (rj,Qi) = a-R_ Score (η ) +
β '
Figure imgf000031_0001
- IR-Score (r> ' ) … (3) [0140] 例えば、上記(3)式 (但し、 α = β = γ =1, Θ = 100)を用いて、要求内容番号毎 の統合スコア Score (r, Q)を計算すると、図 23〖こ示すとおりとなる。図 23を参照する
1 i
と、音声認識結果の表記記号 rの要求文 (第 1候補)に対して、 ···、 118(Q = Q
C 15
)、 ···、— 118(Q = Q )、 ···、 -70(Q = Q )、といった結果が得られ、音声認識
19 0
結果の表記記号 rの要求文 (第 2候補)に対して、 ···、—54(Q = Q )、 ···、 52
B 15
(Q = Q ), ···、 -62(Q = Q )、といった結果が得られている。
19 0
[0141] そして、先に図 8のステップ B5で説明したように、要求識別結果生成手段 302bが、 これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内容 番号を識別結果として生成し、出力装置 200に送る。図 23に例示した要求解析結果 の場合、上記スコア順に、要求内容 Q (解析スコア = 52)、要求内容 Q (解析ス
19 15 コア = 54)、要求内容 Q (解析スコア = 62)が得られ、最もスコアの高い要求内
0
容 Q
19が識別結果として生成される。
[0142] 上記したように、本実施例においても、比較的元の発声文を正しく認識している音 声認識結果の第 2候補!:に対する要求解析結果と類似文書検索に基づいて、要求
B
内容番号 Q = Q
19が最尤の識別結果であると判断している。このように、精度良く要 求内容を識別できている理由は、音声入力された情報要求文に対し、その音声認識 結果、その類似文書検索結果と、要求解析結果を相補的に用いて音声認識誤りの 影響を最小限に抑えていることにある。
[0143] [実施例 5]
以下、第 5実施例として、上記した本発明の第 5の実施形態の動作を、図 9、図 10と 、図 13、図 24〜図 25の補助図面を参照して、具体的に説明する。
[0144] 本実施例では、図 10のステップ A1にて、入力装置 100aに、「ショートメール受信 時の画面は設定できますか」(図 13の表記記号 r )との情報要求文が入力されたもの
A
として説明する。図 24は、共通ルール (a)及び (b)と、要求固有ルール記憶手段 40 2bに区別して格納された要求内容固有ルールの具体例を表した図である(各ルー ルは全体の一部を示す。;)。なお、図 24の要求内容固有ルール 19 (a)及び (b)は、 要求内容番号 19に固有の要求固有ルール 19の一部であり、図 14に例示した要求 固有ルールとの相違点は、要求内容番号が省略されている点である。 [0145] 続いて、先に図 10のステップ Elで説明したように、要求解析処理手段 301cが、共 通ルール記憶手段 401、要求固有ルール記憶手段 402bより、共通ルールと、規則 切替手段 306aが順次切り替える要求固有ルールとを用いて、前記した図 13の表記 記号 r の要求文について要求解析処理を行い、入力要求文に対して共通ルールと
A
すべての要求固有ルール力 いずれかを順次用いて構文構造を生成することにより
、入力要求文に対する要求解析結果の複数候補として、入力要求文に対する要求 内容番号とその要求解析スコアのリストを出力する。
[0146] 図 25は、要求解析処理手段 301cが、図 24に示すような共通ルール (a)及び (b)、 要求内容固有ルール 19 (a)及び (b)を用いて、図 13の表記記号 r の情報要求文の
A
要求解析により得た第 1解析候補 S(19) (r )とその解析スコア、共通ルールと要求内
1 A
容固有ルール 15を用いた第 1解析候補 S(15) (r )とその解析スコア、共通ルールの
1 A
みを用いた第 1解析候補 S(c>) (r )を表した図である。図 25を参照すると、要求内容
1 A
Q を候補とする第 1解析候補 S(19) (r )の解析スコアは—25であり、要求内容 Q
19 1 A 15 を候補とする第 1解析候補 S(15) (r )の解析スコアは— 35であり、要求内容 Qを候
1 A 0 補とする第 1解析候補 S(G) (r )の解析スコアは— 40である。
1 A
[0147] そして、先に図 10のステップ A3で説明したように、要求識別結果生成手段 302aが 、これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内 容番号を識別結果として生成し、出力装置 200に送る。図 25に例示した要求解析結 果の場合、上記スコア順に、要求内容 Q (解析スコア = 25)、要求内容 Q (解析
19 15 スコア = 35)、要求内容 Q (解析スコア =ー 40)が得られ、最もスコアの高い第 1
0
解析候補 S(19) (r )の要求内容 Q が識別結果として生成される。
1 A 19
[0148] [実施例 6]
以下、第 6実施例として、上記した本発明の第 6の実施形態の動作を、図 11、図 12 と、図 13、図 24、図 26〜図 30の補助図面を参照して、具体的に説明する。
[0149] 本実施例では、図 12のステップ A1にて、入力装置 100aに、「ショートメール受信 時の画面は設定できますか」(図 13の表記記号 r )との情報要求文が入力された場
A
合と、「ショートメール受信時の設定はできますか」(図 26の表記記号 r )との情報要
D
求文が入力された場合について説明する。 [0150] 図 27は、要求内容多階層クラスタ 405の具体例を表した図であり、要求内容クラス タ番号 (C1〜C121〜CN)と、各要求内容クラスタに含まれる要求内容番号が定義 された構成となっている。例えば、要求内容クラスタ 1 (C1)は、互いに類似する要求 内容番号 1、 5が定義付けられており、要求内容クラスタ 3 (C3)は、互いに類似する 要求内容番号 19、 20が定義付けられている。
[0151] 図 28は、要求内容番号 20および要求内容クラスタ 3 (C3)に対する要求クラスタ固 有ルールの具体例を示した図である。なお、図 28の要求内容固有ルール 20 (a)及 び (b)は、要求内容番号 20に固有の要求固有ルール 20の一部であり、要求クラスタ 固有ルール 3は、要求内容クラスタ 3 (C3)に固有の要求固有ルールの一部である。
[0152] 続いて、先に図 12のステップ F1で説明したように、要求解析処理手段 301dが、共 通ルールと、要求固有ルール記憶手段 402b及び要求クラスタ固有ルール記憶手段 406に記憶された要求固有ルールのうち、規則切替手段 306bが順次切り替える要 求固有ルールの集合とを用いて、前記した図 13の表記記号 r の要求文について要
A
求解析処理を行い、入力要求文に対して共通ルールと、要求内容クラスタに対応す る要求固有ルールの集合を順次用いて構文構造を生成することにより、入力要求文 に対する要求解析結果の複数候補として、入力要求文に対する要求内容クラスタ( 要求内容番号の集合で表現される)とその要求解析スコアのリストを出力する。
[0153] 図 29は、要求解析処理手段 30 Idが、図 24に示すような共通ルール (a)及び (b)、 要求内容固有ルール 19 (a)及び (b)を用いて図 13の表記記号 r の情報要求文の
A
要求解析により得た第 1解析候補 S(19) (r )とその解析スコア、共通ルールと図 28に
1 A
示すような要求内容固有ルール 20 (a)及び (b)を用いた第 1解析候補 S(2C>) (r )、要
1 A 求内容クラスタ 3 (C3;図 27参照)に対応する要求内容固有ルール 19、要求内容固 有ルール 20及び図 28に示すような要求クラスタ固有ルール 3 (C3)を用いた第 1解 析候補 S(e3) (r )を表した図である。
1 A
[0154] 図 29を参照すると、要求内容 Q を候補とする第 1解析候補 S(19) (r )の解析スコ
19 1 A
ァは— 25であり、要求内容 Q を候補とする第 1解析候補 S(2C>) (r )の解析スコアは
20 1 A
— 35であり、要求内容クラスタ 3 (C3)を候補とする第 1解析候補 S(G3) (r )の解析ス
1 A コアは一 25である。 [0155] そして、先に図 12のステップ F2で説明したように、要求識別結果生成手段 302cが 、これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内 容クラスタを識別結果として生成し、出力装置 200に送る。図 29に例示した要求解析 結果の場合、上記スコア順(同スコアの場合、クラスタ構成要素が少ない方から上位 に並べる)に、要求内容 Q (解析スコア = 25)、要求内容クラスタ 3 (解析スコア =
19
— 25)、要求内容 Q (解析スコア = 35)が得られ、最もスコアの高い S(19) (r )の
20 1 A 要求内容 Q
19が識別結果として生成される。
[0156] また、図 12のステップ A1にて、入力装置 100aに、「ショートメール受信時の設定は できますか」(図 26の表記記号!:)との情報要求文が入力された場合も同様である。
D
[0157] 図 30は、要求解析処理手段 30 Idが、図 24に示すような共通ルール (a)及び (b)、 要求内容固有ルール 19 (a)及び (b)を用いて図 26の表記記号 rの情報要求文の
D
要求解析により得た第 1解析候補 S(19) (r )とその解析スコア、共通ルールと図 28に
1 D
示すような要求内容固有ルール 20 (a)及び (b)を用いた第 1解析候補 S(2C>) (r )、要
1 D 求内容クラスタ 3 (C3)に対応する要求内容固有ルール 19、要求内容固有ルール 20 及び図 28に示すような要求クラスタ固有ルール C3を用いた第 1解析候補 S(e3) (r )
1 D を表した図である。
[0158] 図 30を参照すると、要求内容 Q を候補とする第 1解析候補 S(19) (r )と要求内容
19 1 D
Q を候補とする第 1解析候補 S(2G) (r )は共通ルールのみに基づく同一構造で解
20 1 D
析スコアも共に— 45である。一方、要求内容クラスタ C3を候補とする第 1解析候補 S( C3) (r )の解析スコアは— 30である。
1 D
[0159] そして、先に図 12のステップ F2で説明したように、要求識別結果生成手段 302cが 、これら全候補をスコア順にソートし、最もスコアの高い候補を最尤とし、その要求内 容クラスタを識別結果として生成し、出力装置 200に送る。図 30に例示した要求解析 結果の場合、上記スコア順(同スコアの場合、クラスタ構成要素が少ない方から上位 に並べる)に、要求内容クラスタ 3 (解析スコア = 30)、要求内容 Q (解析スコア =
19
—45)、要求内容 Q (解析スコア =—45)が得られ、最もスコアの高い S(C3) (r )の
20 I D 要求内容クラスタ C3が識別結果として生成される。
[0160] このように本実施例では、特定の要求内容番号に対応しない入力要求文であって も、その上位階層の要求内容クラスタに識別され、結果を出力することができる。 以上、本発明を実施するための形態及びこれに即応した各実施例を説明したが、 本発明の技術的範囲は、上述した実施形態及び実施例の記載に限定されるもので はなぐ要求内容の識別を必要とするシステムの用途、仕様等に応じて、各種の変形 をカロえることが可能であることは 、うまでもな!/、。

Claims

請求の範囲
[1] 自然言語形式で入力された要求文 (入力要求文)を解析し、要求内容を識別する 要求内容識別システムであって、
要求内容に依存しない共通規則と、各要求内容に固有の要求固有規則とを用いて 、前記入力要求文に対する構文解析を行い、要求内容の識別を行うこと、
を特徴とする要求内容識別システム。
[2] 自然言語形式で入力された要求文 (入力要求文)を解析し、要求内容を識別する 要求内容識別システムであって、
要求内容に依存しない共通規則を記憶する共通規則記憶手段と、
各要求内容に固有の要求固有規則を記憶する要求固有規則記憶手段と、 前記共通規則と前記要求固有規則を用いて入力要求文に対する構文解析を行う 要求解析処理手段と、
前記構文解析の結果から要求内容の識別結果を生成する要求識別結果生成手段 と
を備えたことを特徴とする要求内容識別システム。
[3] 前記要求解析処理手段が、前記入力要求文に対して、予め用意された要求内容と の適合の度合いを示す解析スコアとともに解析結果候補を複数生成し、
前記要求識別結果生成手段が、前記解析スコアに基づいて、最尤の解析結果候 補を選択し、要求内容の識別結果を生成すること、
を特徴とする請求項 2に記載の要求内容識別システム。
[4] 更に、音声入力された入力要求文に対して音声認識処理を行って音声認識結果 候補を生成する音声認識処理手段を備え、
前記要求解析処理手段が、前記音声認識結果候補に対して、予め用意された要 求内容との適合の度合いを示す解析スコアとともに解析結果候補を複数生成し、 前記要求識別結果生成手段が、前記解析スコアに基づいて、最尤の解析結果候 補を選択し、要求内容の識別結果を生成すること、
を特徴とする請求項 2に記載の要求内容識別システム。
[5] 更に、前記解析スコアに加えて、音声認識結果と音声認識結果候補との適合の度 合いを示す認識スコアを加味した統合スコアを算出する要求候補スコア計算手段を 備え、
前記要求識別結果生成手段が、前記統合スコアに基づいて、最尤の解析結果候 補を選択すること、
を特徴とする請求項 3に記載の要求内容識別システム。
[6] 更に、所定の回答文書データ集合及び要求文データ集合の少なくとも一方を検索 対象として、前記入力要求文に類似するデータを検索する類似検索処理を行って、 前記入力要求文との適合の度合いを示す検索スコアとともに検索結果候補を求める 類似文書検索処理手段と、
前記解析スコアに加えて、前記検索スコアを加味した統合スコアを算出する要求候 補スコア計算手段とを備え、
前記要求識別結果生成手段が、前記統合スコアに基づいて、最尤の解析結果候 補を選択すること、
を特徴とする請求項 3に記載の要求内容識別システム。
[7] 更に、音声入力された入力要求文に対して音声認識処理を行って音声認識結果 候補を生成する音声認識処理手段を備え、
前記類似文書検索処理手段が、所定の回答文書データ集合及び要求文データ集 合の少なくとも一方を検索対象として、前記音声認識結果候補に類似するデータを 検索する類似検索処理を行って、前記各音声認識結果候補との適合の度合!、を示 す検索スコアとともに検索結果候補を求め、
前記要求候補スコア計算手段が、前記解析スコアと検索スコアに加えて、前記音声 認識結果候補との適合の度合いを示す認識スコアを加味した統合スコアを算出し、 前記要求識別結果生成手段が、該統合スコアに基づいて、最尤の解析結果候補 を選択すること、
を特徴とする請求項 6に記載の要求内容識別システム。
[8] 前記要求固有規則記憶手段は、前記要求固有規則を要求内容毎に区分けして記 憶しており、
前記要求解析処理手段は、前記共通規則と前記区分けされた要求固有規則を順 次切り替えて入力要求文に対する構文解析を行うこと、
を特徴とする請求項 2から請求項 7いずれかに記載の要求内容識別システム。
[9] 更に、類似する要求内容をクラスタ化した要求内容クラスタを記憶する要求内容ク ラスタ記憶手段を有し、
前記要求識別結果生成手段が、前記要求内容クラスタ毎に、少なくとも前記解析ス コアを集計して、最尤の解析結果候補クラスタを選択し、要求内容の識別結果として 生成すること、
を特徴とする請求項 3から請求項 8いずれか一に記載の要求内容識別システム。
[10] 要求内容に依存しない共通規則を記憶する共通規則記憶手段と、各要求内容に 固有の要求固有規則を記憶する要求固有規則記憶手段と、を備えるコンピュータに 入力された自然言語形式による要求内容を識別する要求内容識別方法であって、 前記コンピュータが、前記共通規則と前記要求固有規則を用いて要求文 (入力要 求文)に対する構文解析を行うステップと、
前記コンピュータが、前記構文解析の結果から要求内容の識別結果を生成するス テツプと、を含むこと、
を特徴とする自然言語による要求内容の識別方法。
[11] 要求内容に依存しない共通規則を記憶する共通規則記憶手段と、各要求内容に 固有の要求固有規則を記憶する要求固有規則記憶手段と、を備えるコンピュータに 実行させるプログラムであって、
入力された自然言語による要求文 (入力要求文)に対して、前記共通規則と前記要 求固有規則を用いて要求解析を行う処理と、
前記構文解析の結果から要求内容の識別結果を生成する処理と、を前記コンビュ ータに実行させて、該コンピュータを、自然言語形式の要求内容を識別する手段とし て機能させるためのプログラム。
PCT/JP2007/054632 2006-03-10 2007-03-09 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム WO2007105615A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/224,885 US8583435B2 (en) 2006-03-10 2007-03-09 Request content identification system, request content identification method using natural language, and program
JP2008505100A JP5099367B2 (ja) 2006-03-10 2007-03-09 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006066097 2006-03-10
JP2006-066097 2006-03-10

Publications (1)

Publication Number Publication Date
WO2007105615A1 true WO2007105615A1 (ja) 2007-09-20

Family

ID=38509438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/054632 WO2007105615A1 (ja) 2006-03-10 2007-03-09 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム

Country Status (3)

Country Link
US (1) US8583435B2 (ja)
JP (1) JP5099367B2 (ja)
WO (1) WO2007105615A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417108A (zh) * 2020-10-26 2021-02-26 出门问问(苏州)信息科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质
JP2022538591A (ja) * 2019-07-02 2022-09-05 サービスナウ, インコーポレイテッド 自然言語理解(nlu)フレームワークにおける予測的類似性スコアリングサブシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6345577B2 (ja) 2014-11-26 2018-06-20 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、プログラム、及びデータ構造
JP6087333B2 (ja) 2014-11-26 2017-03-01 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、及びプログラム
JP6218057B1 (ja) * 2017-07-14 2017-10-25 Jeインターナショナル株式会社 自動応答サーバー装置、端末装置、応答システム、応答方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JP2003223185A (ja) * 2002-01-31 2003-08-08 Nippon Telegr & Teleph Corp <Ntt> 音声理解方法及び装置及び音声理解プログラム及び音声理解プログラムを格納した記憶媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3358100B2 (ja) 1995-04-17 2002-12-16 日本電信電話株式会社 日本語質問メッセージ解析方法及び装置
JPH09274495A (ja) * 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
JP2948159B2 (ja) * 1996-12-06 1999-09-13 株式会社日立製作所 データベース装置
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
US6330537B1 (en) * 1999-08-26 2001-12-11 Matsushita Electric Industrial Co., Ltd. Automatic filtering of TV contents using speech recognition and natural language
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
US7302381B2 (en) * 2000-12-30 2007-11-27 Intel Corporation Specifying arbitrary words in rule-based grammars
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JP2003223185A (ja) * 2002-01-31 2003-08-08 Nippon Telegr & Teleph Corp <Ntt> 音声理解方法及び装置及び音声理解プログラム及び音声理解プログラムを格納した記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022538591A (ja) * 2019-07-02 2022-09-05 サービスナウ, インコーポレイテッド 自然言語理解(nlu)フレームワークにおける予測的類似性スコアリングサブシステム
JP7420842B2 (ja) 2019-07-02 2024-01-23 サービスナウ, インコーポレイテッド 自然言語理解(nlu)フレームワークにおける予測的類似性スコアリングサブシステム
CN112417108A (zh) * 2020-10-26 2021-02-26 出门问问(苏州)信息科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质
CN112417108B (zh) * 2020-10-26 2024-04-05 出门问问创新科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
JP5099367B2 (ja) 2012-12-19
US20090099840A1 (en) 2009-04-16
JPWO2007105615A1 (ja) 2009-07-30
US8583435B2 (en) 2013-11-12

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
Liu et al. Insertion, deletion, or substitution? Normalizing text messages without pre-categorization nor supervision
CN102084417B (zh) 现场维护语音到语音翻译的系统和方法
TWI293455B (en) System and method for disambiguating phonetic input
Smith Limits on the application of frequency-based language models to OCR
CN1971554A (zh) 使用样例来翻译语音输入的设备和方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104462071A (zh) 语音翻译设备和语音翻译方法
Jiampojamarn et al. Phoneme alignment: An exploration
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN100454294C (zh) 用于将日文翻译成中文的设备
Li et al. Improving text normalization using character-blocks based models and system combination
CN104485106B (zh) 语音识别方法、语音识别系统和语音识别设备
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
WO2007105615A1 (ja) 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
Breiner et al. Userlibri: A dataset for asr personalization using only text
Hillard et al. iROVER: Improving system combination with classification
CN115455981B (zh) 一种多语种语句的语义理解方法、装置、设备及存储介质
CN111429886B (zh) 一种语音识别方法及系统
Andrés et al. Search for Hyphenated Words in Probabilistic Indices: A Machine Learning Approach
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
CN111090720B (zh) 一种热词的添加方法和装置
CN114185573A (zh) 一种人机交互机器翻译系统的实现和在线更新系统及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2008505100

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12224885

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07738117

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)