WO2022180721A1 - 情報処理装置、要約文出力方法、及び要約文出力プログラム - Google Patents

情報処理装置、要約文出力方法、及び要約文出力プログラム Download PDF

Info

Publication number
WO2022180721A1
WO2022180721A1 PCT/JP2021/007002 JP2021007002W WO2022180721A1 WO 2022180721 A1 WO2022180721 A1 WO 2022180721A1 JP 2021007002 W JP2021007002 W JP 2021007002W WO 2022180721 A1 WO2022180721 A1 WO 2022180721A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
sentences
unit
information
important
Prior art date
Application number
PCT/JP2021/007002
Other languages
English (en)
French (fr)
Inventor
辰彦 斉藤
啓恭 伍井
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023501746A priority Critical patent/JP7305077B2/ja
Priority to PCT/JP2021/007002 priority patent/WO2022180721A1/ja
Publication of WO2022180721A1 publication Critical patent/WO2022180721A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Definitions

  • the present disclosure relates to an information processing device, a summary output method, and a summary output program.
  • Patent Literature 1 The summarizing device of Patent Literature 1 creates a summary by combining important sentences extracted from input data. Note that the data is, for example, data indicating a speech recognition result.
  • a summary sentence is created using data indicating the speech recognition result. Therefore, for example, if there is an error in speech recognition, the summary contains the error. Also, for example, the content of the abstract is expressed in spoken language. Thus, in the above technique, the summary sentence depends on the writing style of the data. Therefore, the abstract based on the above technology may not be appropriate.
  • the purpose of this disclosure is to output an appropriate summary sentence.
  • An information processing device analyzes the text data using an acquisition unit that acquires text data indicating the content of dialogue and knowledge information including a plurality of sentences created based on past reports, and morphological analysis.
  • an analysis unit an important sentence extracting unit for extracting one sentence as a first important sentence from among a plurality of sentences included in the text data using the result of the morphological analysis;
  • a query is created based on one important sentence, sentences obtained by the query are searched from the knowledge information, and scores of each of the retrieved sentences are calculated by a preset method.
  • a degree of similarity between the first important sentence and each of the plurality of retrieved sentences, based on the created search calculation unit, the first important sentence, and each of the plurality of retrieved sentences a calculation updating unit that calculates a plurality of similarities and updates the score of each of the retrieved sentences based on the plurality of similarities; and based on the score of each of the retrieved sentences, a selection unit for selecting one of the plurality of sentences as a summary sentence; and an output unit for outputting the summary sentence.
  • FIG. 2 is a block diagram showing functions of the information processing apparatus according to Embodiment 1;
  • FIG. 2 illustrates hardware included in the information processing apparatus according to the first embodiment;
  • FIG. 4 is a diagram showing an example of an unnecessary word dictionary according to Embodiment 1;
  • FIG. 4 is a diagram showing an example of a sentence segmentation dictionary according to Embodiment 1;
  • FIG. 4 is a diagram showing an example of extraction of important sentences according to the first embodiment;
  • FIG. 4 is a diagram showing an example of a query according to Embodiment 1;
  • FIG. 2 is a diagram showing an example of a knowledge database according to Embodiment 1;
  • FIG. 10 is a diagram showing an example of search results according to the first embodiment;
  • FIG. 4 is a diagram showing an example of updated scores according to Embodiment 1;
  • FIG. 4 is a flow chart showing an example of processing executed by the information processing apparatus according to the first embodiment;
  • 2 is a block diagram showing functions of the creation device of Embodiment 1;
  • FIG. 4 is a diagram showing an example of a dialogue database according to Embodiment 1;
  • FIG. 4 is a diagram showing an example of a report database according to Embodiment 1;
  • FIG. FIG. 4 is a diagram showing an example of deletion of non-sentences according to the first embodiment;
  • 4 is a flow chart showing an example of processing executed by the creation device of Embodiment 1.
  • FIG. 3 is a block diagram showing functions of an information processing apparatus according to a second embodiment;
  • FIG. 12 is a diagram showing an example of a case where a category is not estimated according to the second embodiment;
  • FIG. 10 is a flow chart showing an example of processing executed by the information processing apparatus according to the second embodiment;
  • FIG. 11 is a block diagram showing functions of a creation device according to Embodiment 2;
  • FIG. 10 is a flow chart showing an example of processing executed by the creating device according to the second embodiment;
  • FIG. 11 is a block diagram showing functions of an information processing apparatus according to a third embodiment;
  • FIG. 13 is a diagram showing an example of auxiliary information according to Embodiment 3;
  • FIG. 10 is a flow chart showing an example of processing executed by the information processing apparatus according to the third embodiment;
  • FIG. 11 is a block diagram showing functions of a creation device according to Embodiment 3; 14 is a flow chart showing an example of processing executed by the creation device of Embodiment 3; FIG. 11 is a block diagram showing functions of an information processing apparatus according to a fourth embodiment; FIG. FIG. 13 is a flow chart showing an example of processing executed by an information processing apparatus according to a fourth embodiment; FIG.
  • FIG. 1 is a block diagram showing functions of an information processing apparatus according to a first embodiment.
  • the information processing device 100 is a device that executes a summary sentence output method.
  • the information processing device 100 may be called a dialogue summary generation device.
  • FIG. 2 illustrates hardware included in the information processing apparatus according to the first embodiment.
  • the information processing device 100 has a processor 101 , a volatile memory device 102 , a nonvolatile memory device 103 and an interface 104 .
  • the processor 101 controls the information processing apparatus 100 as a whole.
  • the processor 101 is a CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), or the like.
  • Processor 101 may be a multiprocessor.
  • the information processing device 100 may have a processing circuit.
  • the processing circuit may be a single circuit or multiple circuits.
  • the volatile memory device 102 is the main memory device of the information processing device 100 .
  • the volatile memory device 102 is RAM (Random Access Memory).
  • the nonvolatile storage device 103 is an auxiliary storage device of the information processing device 100 .
  • the nonvolatile storage device 103 is a HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the interface 104 communicates with other devices. Interface 104 may also receive audio signals indicative of customer and operator speech. In addition, interface 104 may receive textual data entered by an operator.
  • the information processing apparatus 100 includes a storage unit 110, an acquisition unit 120, an analysis unit 130, an unnecessary word deletion unit 140, an important sentence extraction unit 150, a creation search calculation unit 160, a calculation update unit 170, a selection unit 180, and an output unit 190. have.
  • the storage unit 110 may be implemented as a storage area secured in the volatile storage device 102 or the nonvolatile storage device 103 .
  • Part or all of the acquisition unit 120, the analysis unit 130, the unnecessary word deletion unit 140, the important sentence extraction unit 150, the creation search calculation unit 160, the calculation update unit 170, the selection unit 180, and the output unit 190 are realized by processing circuits. You may Some or all of the acquisition unit 120, the analysis unit 130, the unnecessary word deletion unit 140, the important sentence extraction unit 150, the creation search calculation unit 160, the calculation update unit 170, the selection unit 180, and the output unit 190 may be implemented as a module of a program executed by For example, the program executed by the processor 101 is also called a summary sentence output program. For example, a summary sentence output program is recorded on a recording medium.
  • the storage unit 110 may store the unnecessary word dictionary 111, the sentence segmentation dictionary 112, the word importance model 113, and the knowledge database 114.
  • the unnecessary word dictionary 111, sentence segmentation dictionary 112, word importance model 113, and knowledge database 114 will be described later.
  • the acquisition unit 120 acquires text data.
  • the acquisition unit 120 acquires text data from an external device (for example, cloud server).
  • the acquisition unit 120 acquires text data from the storage unit 110 .
  • the text data is data indicating the contents of the dialogue.
  • the content of dialogue includes the content of dialogue between a customer and an operator, the content of dialogue between a chatbot and a user, and the like.
  • Text data indicating the content of the conversation between the customer and the operator is generated using speech recognition technology.
  • the text data includes a plurality of sentences indicating the contents of the dialogue.
  • the acquisition unit 120 acquires the knowledge database 114.
  • the acquisition unit 120 acquires the knowledge database 114 from the storage unit 110 .
  • the acquisition unit 120 acquires the knowledge database 114 from an external device.
  • the analysis unit 130 analyzes text data using morphological analysis. As a result, words and parts of speech included in the text data are extracted. The analysis unit 130 may also use syntactic analysis to analyze clauses and relationships between clauses in the text data. The analysis unit 130 may analyze the text data after the unnecessary word deletion process described below has been executed.
  • the unnecessary word deletion unit 140 deletes unnecessary words from the text data by a preset method.
  • the unnecessary word deletion unit 140 uses the unnecessary word dictionary 111 to delete unnecessary words.
  • the unnecessary word dictionary 111 is illustrated.
  • FIG. 3 is a diagram showing an example of an unnecessary word dictionary according to the first embodiment.
  • the unnecessary word dictionary 111 is stored in the storage unit 110 .
  • fillers such as "ah” and “erh” and fixed phrases such as "Thank you for waiting" are registered.
  • Information indicating the correspondence between words and parts of speech may be registered in the unnecessary word dictionary 111 .
  • the unnecessary word deletion unit 140 may delete unnecessary words from the text data using a learned model obtained by machine learning. If the text data does not contain unnecessary words, the unnecessary word deletion unit 140 does not execute the process.
  • the important sentence extraction unit 150 extracts a preset number of sentences from a plurality of sentences included in the text data (for example, text data from which unnecessary words have been deleted) using the result of the morphological analysis. Extract as important sentences.
  • the preset number may be one, or two or more.
  • the preset number is one, the extracted important sentence is also called the first important sentence. In the following description, the preset number is two or more.
  • the important sentence extraction unit 150 divides a plurality of sentences included in the text data.
  • a method for dividing a plurality of sentences there are a method of dividing at divisions of speech recognition, a method of dividing by periods or commas included in text data, a method of dividing using a sentence dividing dictionary 112, and a method of dividing using a trained model. A method of dividing is mentioned.
  • the sentence segmentation dictionary 112 is illustrated.
  • FIG. 4 is a diagram showing an example of a sentence segmentation dictionary according to the first embodiment.
  • the sentence segmentation dictionary 112 is stored in the storage unit 110 .
  • the important sentence extraction unit 150 may use the sentence division dictionary 112 to divide a plurality of sentences.
  • the important sentence extraction unit 150 calculates the importance of each sentence. First, a method of calculating the degree of importance corresponding to one sentence will be described. For example, the important sentence extraction unit 150 uses TF-IDF, Okapi BM25, etc. to calculate the importance of each of the multiple words included in the one sentence obtained from the morphological analysis result. . The important sentence extraction unit 150 adds the importance of each of a plurality of words to calculate the importance of the sentence. In addition, the important sentence extraction unit 150 uses the word importance model 113, which is a trained model, to determine the importance of each of the plurality of words included in the one sentence obtained by the morphological analysis. , may be calculated.
  • the word importance model 113 which is a trained model
  • the important sentence extracting unit 150 calculates the importance level corresponding to the one sentence by adding the importance levels of each of the plurality of words. Also, the important sentence extraction unit 150 may calculate the average value of the importance of each of a plurality of words as the importance corresponding to the one sentence.
  • the important sentence extraction unit 150 calculates the importance of each sentence. As a result, multiple degrees of importance corresponding to multiple sentences are calculated.
  • the important sentence extraction unit 150 arranges multiple sentences in descending order of importance.
  • the important sentence extraction unit 150 extracts a preset number of high-ranking sentences as important sentences. Specifically, extraction of important sentences will be exemplified.
  • FIG. 5 is a diagram showing an example of extraction of important sentences according to the first embodiment.
  • FIG. 5 shows multiple sentences (that is, multiple divided sentences) included in the text data.
  • the important sentence extraction unit 150 extracts important sentences from a plurality of sentences.
  • the important sentence extraction unit 150 extracts a preset number of high ranking sentences as important sentences. This eliminates sentences of low importance. As will be described later, a summary sentence is selected based on the important sentence, so extracting only the important sentence means that an appropriate summary sentence is selected.
  • the creation search calculation unit 160 creates a query based on the important sentence. Queries may be formulated on a sentence-by-sentence basis or on a word (ie, morpheme) basis. Queries may be constructed by n-gram chains of sentences or words. Here is an example query.
  • FIG. 6 is a diagram showing an example of a query according to the first embodiment.
  • FIG. 6 shows a query created based on key sentences.
  • FIG. 6 shows a query constructed using 2-gram chaining.
  • the creation search calculation unit 160 may create a query by lexicalizing consecutive words in the important sentence.
  • the creation search calculation unit 160 creates a query by lexicalizing the negative word in the important sentence and the verb immediately before the negative word.
  • FIG. 6 shows "iru_nai" concatenated with the negative word and the immediately preceding verb.
  • both the numeral and the unit after the numeral are included in the query.
  • the query is “set the air conditioner to 25°C”.
  • sentences with different meanings may be retrieved. For example, "Purchase a refrigerator on the 25th” is retrieved. Therefore, the creation search calculation unit 160 may create a query by lexicalizing the numerals in the important sentence and the units following the numerals. For example, a lexicalized query is "25_°C”. As a result, the above query changes to "air conditioner 25_°C setting". In this way, by combining numerals and units into one vocabulary, retrieval of sentences with different meanings is prevented.
  • the creation search calculation unit 160 searches the knowledge database 114 for sentences obtained by the query. In other words, the creation search calculation unit 160 uses the query to search the knowledge database 114 for sentences that are close in meaning to the important sentence.
  • the knowledge database 114 is illustrated.
  • FIG. 7 is a diagram showing an example of the knowledge database according to the first embodiment.
  • the knowledge database 114 is also called knowledge information.
  • the knowledge database 114 contains a plurality of sentences created based on past reports.
  • the knowledge database 114 has items of sentences, indexing queries, steps, and categories.
  • sentence item sentences created based on past reports are registered.
  • clauses, a plurality of continuous clauses, and a plurality of continuous sentences may be registered in the sentence item.
  • a query is registered in the index registration query field.
  • the name of the work is registered in the step item.
  • a category indicated by the content of a sentence registered in the sentence item is registered in the category item. In this way, a category is associated with each of a plurality of sentences registered in the sentence item.
  • the knowledge database 114 may be information in a graph format.
  • the creation search calculation unit 160 uses queries to search the knowledge database 114 for sentences that are close in meaning to the important sentences. A plurality of sentences are retrieved as the retrieval result.
  • the creation search calculation unit 160 may create a query based on the important sentence and at least one of the preceding sentence and the following sentence of the relevant important sentence in the text data. By including a word included in at least one of the anterior sentence and the posterior sentence in the query, the creation search calculation unit 160 can retrieve sentences related to the important sentence even if the important sentence is short. can.
  • the creation search calculation unit 160 may include synonyms of words included in the important sentence in the query. When the word included in the important sentence is "not lit", the creation search calculation unit 160 includes "disappear", which is a synonym of "not lit", in the query. Note that the creation search calculation unit 160 can use word2vec to obtain synonyms of words included in the important sentence. In this way, the creation search calculation unit 160 can search for sentences containing synonyms by including the synonyms in the query.
  • the creation search calculation unit 160 may filter search targets by parts of speech such as nouns, verbs, adjectives, and shape words.
  • the creation search calculation unit 160 may use the important sentence and the knowledge database 114 to calculate the similarity of sentence vectors.
  • the creation search calculation unit 160 calculates scores for each of the plurality of searched sentences by a preset method.
  • the preset method is as follows.
  • the query is "air conditioner 25_°C setting”.
  • the retrieved sentences are "the air conditioner is at 25°C” and "the air conditioner does not work”.
  • the creation search calculation unit 160 calculates a score of 2 for “air conditioner is 25°C”.
  • the creation search calculation unit 160 calculates a score of 1 for “the air conditioner does not work”. That is, the creation search calculation unit 160 calculates the number of matches between the searched sentence and the words included in the query as a score. Thus, a score is calculated.
  • the creation search calculation unit 160 may calculate a score using a calculation method used in a search engine such as Elasticsearch.
  • the composition search calculator 160 may include scores for each of the multiple sentences in the search results.
  • the search results are illustrated.
  • FIG. 8 is a diagram showing an example of search results according to the first embodiment. As shown in FIG. 8, the searched sentence and the score of the searched sentence are output as the search result.
  • the calculation update unit 170 calculates a plurality of degrees of similarity based on the important sentence and each of the retrieved sentences. First, a case will be described where similarity is calculated based on an important sentence and one sentence out of a plurality of retrieved sentences.
  • the degree of similarity is the degree of similarity between the important sentence and the one sentence. Therefore, the multiple degrees of similarity are degrees of similarity between the important sentence and each of the retrieved multiple sentences.
  • the calculation updating unit 170 calculates the degree of similarity using Equation (1).
  • I is a set of words included in the important sentence.
  • K is a set of words contained in the retrieved sentences.
  • the calculation updating unit 170 gives a penalty when the number of elements of the difference set obtained by subtracting the set of words included in the important sentence from the set of words included in the retrieved sentence is large. Calculate the similarity. As a result, it is possible to retrieve sentences that do not contain unnecessary content that is not spoken while absorbing redundant utterances.
  • the calculation update unit 170 calculates the degree of similarity based on the important sentence and the one sentence. Similarly, the calculation updating unit 170 calculates similarities corresponding to each of the plurality of sentences. Thereby, a plurality of degrees of similarity are calculated. The calculation update unit 170 may calculate the degree of similarity using each of the top N sentences among the retrieved sentences. The calculation updating unit 170 updates the score of each of the retrieved sentences based on the similarities. Here is an example of the updated score.
  • FIG. 9 is a diagram showing an example of updated scores according to the first embodiment.
  • the score in FIG. 9 indicates the degree of similarity.
  • the selection unit 180 selects one of the plurality of retrieved sentences as a summary sentence based on the updated score of each of the plurality of sentences. For example, the selection unit 180 selects the sentence corresponding to the highest score as the summary sentence. In the following description, the sentence corresponding to the highest score shall be identified as the summary sentence.
  • the output unit 190 outputs a summary sentence.
  • FIG. 10 is a flowchart illustrating an example of processing executed by the information processing apparatus according to the first embodiment; FIG.
  • the acquisition unit 120 acquires text data.
  • the analysis unit 130 analyzes the text data using morphological analysis.
  • the unnecessary word deletion section 140 deletes unnecessary words from the text data.
  • Step S14 The important sentence extraction unit 150 divides multiple sentences included in the text data.
  • the important sentence extraction unit 150 calculates the importance of each sentence. As a result, multiple degrees of importance corresponding to multiple sentences are calculated.
  • the important sentence extraction unit 150 extracts a preset number of high-ranking sentences as important sentences based on multiple degrees of importance. As a result, multiple important sentences are extracted.
  • Step S15 The creation search calculation unit 160 determines whether or not there is an unprocessed important sentence. If there is an unprocessed important sentence, the process proceeds to step S16. If all important sentences have been processed, the process proceeds to step S20. (Step S16) The creation search calculation unit 160 selects one important sentence from the unprocessed important sentences. Note that the selected important sentence may be called a first important sentence.
  • Step S17 The creation search calculation unit 160 creates a query based on the key sentence, and searches the knowledge database 114 for a sentence obtained by the query. This retrieves multiple sentences.
  • the creation search calculation unit 160 calculates scores for each of the plurality of searched sentences. Thereby, multiple scores corresponding to multiple sentences are calculated.
  • Step S18 The calculation update unit 170 calculates a plurality of degrees of similarity based on the important sentence and each of the sentences corresponding to the top N scores.
  • the calculation update unit 170 updates the scores of the sentences corresponding to the top N scores based on the similarities.
  • Step S19 The selection unit 180 selects the sentence corresponding to the highest score as the summary sentence. Then, the process proceeds to step S15.
  • Step S20 The output unit 190 puts together the identified plural abstracts and outputs them as a summary text.
  • the output unit 190 may output a summary text created in a report format.
  • the summary sentences included in the summary text are not sentences based on speech recognition results.
  • the abstract is based on past reports. Therefore, there is a high possibility that the summary does not contain any error. Also, the content of the abstract is not expressed in spoken language. Therefore, the information processing apparatus 100 can output an appropriate summary sentence.
  • FIG. 11 is a block diagram showing functions of the creation device according to the first embodiment.
  • the creation device 200 has a storage unit 210 , a word importance learning unit 220 and a database creation unit 230 .
  • the storage unit 210 may be realized as a storage area secured in a volatile storage device or a non-volatile storage device of the creation device 200 .
  • a part or all of the word importance level learning unit 220 and the database creation unit 230 may be implemented by a processing circuit of the creation device 200 .
  • part or all of the word importance level learning unit 220 and the database creation unit 230 may be realized as modules of programs executed by the processor of the creation device 200 .
  • Storage unit 210 stores dialogue database 211 .
  • the dialog database 211 is illustrated.
  • 12 is a diagram showing an example of a dialogue database according to Embodiment 1.
  • FIG. A dialogue database 211 is stored in the storage unit 210 .
  • Past dialogue histories are registered in the dialogue database 211 .
  • the dialogue database 211 has items of dialogue ID (identifier), speech recognition result, category, and reception date and time.
  • Identifiers are registered in the conversation ID item.
  • Conversation content is registered in the speech recognition result item.
  • the Category field registers a category indicated by the content of the sentence registered in the Speech Recognition Result field.
  • the date and time when the dialogue was conducted is registered in the item of date and time of reception.
  • Storage unit 210 stores report database 212 .
  • the report database 212 is illustrated. 13 is a diagram illustrating an example of a report database according to Embodiment 1.
  • FIG. A report database 212 is stored in the storage unit 210 .
  • the report database 212 is information created based on past reports.
  • the report database 212 has items of dialogue ID, reception history, response history, category, and date and time of reception.
  • Identifiers are registered in the conversation ID item.
  • a summary of the information registered in the speech recognition result item of the dialog database 211 is registered in the reception history item.
  • Correspondence contents are registered in the correspondence history item.
  • a category indicated by the content registered in the reception history is registered in the category item.
  • the date and time when the dialogue was conducted is registered in the item of date and time of reception.
  • the word importance learning unit 220 creates the word importance model 113 by performing machine learning using the dialogue database 211 .
  • the word importance model 113 outputs the importance of the word.
  • the database creation unit 230 creates the knowledge database 114 based on the report database 212 .
  • the database creation unit 230 creates the knowledge database 114 by extracting meaningful sentences or meaningful clauses from the information registered in the items of reception history and response history of the report database 212. do.
  • the database creation unit 230 may delete sentences that are unnatural in terms of language (hereinafter referred to as non-sentences) from the information registered in the report database 212 .
  • the database creating unit 230 may calculate the likelihood of a sentence using an n-gram likelihood or the like, and delete non-sentences based on the likelihood of the sentence.
  • non-sentences are deleted.
  • FIG. 14 is a diagram showing an example of non-sentence deletion according to the first embodiment.
  • the database creation unit 230 deletes non-sentences from information registered in the report database 212 .
  • the knowledge database 114 is created by deleting non-sentences from past reports. By deleting non-sentences from past reports, it is possible to prevent non-sentences from being selected as summary sentences.
  • FIG. 15 is a flowchart illustrating an example of processing executed by the creation device according to Embodiment 1.
  • the word importance learning unit 220 refers to the speech recognition results in the dialogue database 211 and analyzes the speech recognition results using morphological analysis.
  • the word importance learning unit 220 uses TF-IDF or the like to calculate the importance of the words obtained by the analysis.
  • the word importance learning section 220 creates information indicating the correspondence between words and importance.
  • Step S23 The word importance learning unit 220 determines whether or not all speech recognition results have been processed. If all speech recognition results have been processed, the process proceeds to step S24. If there is an unprocessed speech recognition result, the process proceeds to step S21.
  • the word importance model 113 is information indicating the correspondence between words and importance obtained by repeating steps S21 and S22.
  • Step S ⁇ b>24 The database creating section 230 creates the knowledge database 114 based on the report database 212 . As a result, a word importance model 113 and a knowledge database 114 are created.
  • FIG. 16 is a block diagram showing functions of the information processing apparatus according to the second embodiment.
  • Information processing apparatus 100 further includes category estimating section 191 .
  • the storage unit 110 may further store the category estimation model 115.
  • the category estimation model 115 When a word is input, the category estimation model 115 outputs a category based on that word. In other words, category inference model 115 infers a category based on the word. Note that, for example, the category is model.
  • Acquisition unit 120 acquires category estimation model 115 .
  • the acquisition unit 120 acquires the category estimation model 115 from the storage unit 110 .
  • the acquisition unit 120 acquires the category estimation model 115 from an external device.
  • the category estimation unit 191 estimates the category of dialogue content using the words obtained by the morphological analysis and the category estimation model 115 .
  • FIG. 17 is a diagram showing an example in which the category is not estimated according to the second embodiment.
  • the category of dialogue content indicated by the text data is a refrigerator. If no category is estimated, many sentences related to microwave ovens are retrieved based on the word "inside light". Therefore, the creation search calculation unit 160 searches for sentences related to "refrigerator" using the estimated category "refrigerator”. As a result, only sentences relating to the dialogue content category are retrieved.
  • the information processing apparatus 100 can select an appropriate summary sentence by retrieving only sentences related to the category of dialogue content.
  • FIG. 18 is a flow chart showing an example of processing executed by the information processing apparatus according to the second embodiment.
  • the process of FIG. 18 differs from the process of FIG. 10 in that step S13a is executed. Further, in the process of FIG. 18, step S17 is changed to step S17a. Therefore, steps S13a and S17a will be described with reference to FIG. Further, description of processes other than steps S13a and S17a is omitted.
  • the category estimation unit 191 estimates the category of the dialogue content using the words obtained by the morphological analysis and the category estimation model 115 .
  • the creation search calculation unit 160 creates a query based on the important sentence.
  • the creation search calculator 160 searches the knowledge database 114 using the estimated category and query. That is, the creation search calculation unit 160 searches the knowledge database 114 using the query while narrowing down the information to the estimated category. This retrieves multiple sentences that are related to the inferred category.
  • the creation search calculation unit 160 calculates scores for each of the plurality of searched sentences. Thereby, multiple scores corresponding to multiple sentences are calculated.
  • the information processing apparatus 100 can select an appropriate summary sentence by searching only for sentences related to the category of dialogue content.
  • FIG. 19 is a block diagram showing functions of the creation device according to the second embodiment.
  • Creation device 200 further includes category estimation learning section 240 .
  • Category inference learning unit 240 creates category inference model 115 .
  • FIG. 20 is a flow chart showing an example of processing executed by the creation device according to the second embodiment.
  • the process of FIG. 20 differs from the process of FIG. 15 in that step S24a is executed. Therefore, in FIG. 20, step S24a will be described. The description of the processes other than step S24a is omitted.
  • Step S24a The category estimation learning unit 240 performs morphological analysis on the speech recognition results of the dialogue database 211.
  • the category estimation learning unit 240 calculates the amount of self-mutual information between the words obtained by the morphological analysis and the categories of the dialogue database 211, and based on the amount of self-mutual information, generates information indicating the correspondence between the words and the categories. , as the category estimation model 115 .
  • the category estimation learning unit 240 may perform morphological analysis on the reception history of the report database 212 .
  • the category estimation learning unit 240 calculates the self mutual information between the words obtained by the morphological analysis and the categories of the report database 212, and based on the self mutual information, information indicating the correspondence between the words and the categories. is created as the category estimation model 115 .
  • FIG. 21 is a block diagram showing functions of the information processing apparatus according to the third embodiment.
  • the storage unit 110 may store auxiliary information 116 .
  • the auxiliary information 116 is information that aids query generation.
  • the auxiliary information 116 is information used when generating queries.
  • the auxiliary information 116 is specifically shown.
  • FIG. 22 is a diagram showing an example of auxiliary information according to the third embodiment.
  • the auxiliary information 116 is information indicating the correspondence between each of a plurality of words, which are a plurality of predicates, and each of a plurality of relational information.
  • the relationship information indicates the relationship between multiple words.
  • the auxiliary information 116 has items of predicate labels and subword context matrices.
  • a word that is a predicate is registered in the item of the predicate label.
  • the predicate word "fall" is registered in the item of the sub-word context matrix.
  • the relationship information is represented by a two-dimensional table. That is, the relationship information may be considered as two-dimensional information.
  • a word that is a predicate is associated with the relationship information.
  • the information indicating the correspondence between the predicate word and the relational information may be considered as three-dimensional information. Therefore, the auxiliary information 116 may be considered as three-dimensional information.
  • the relationship information indicates the relationship between multiple words.
  • the plurality of words are words such as verbs, nouns, and adjectives.
  • the relationship information in FIG. 22 exemplifies noun words.
  • the relationship information in FIG. 22 may include words of parts of speech other than nouns.
  • the relationship information in FIG. 22 indicates that the degree of relationship between "proof” and “illumination” is "159".
  • a number such as "159” is called a degree of relationship indicating the degree of relationship between a plurality of words.
  • the auxiliary information 116 contains the degree of relationship.
  • the degree of relationship may be considered as the amount of self-mutual information. Note that the upper limit of the degree of relationship is not limited to 100.
  • the degree of relationship "159" is greater than a preset threshold. Therefore, the relationship information in FIG. 22 indicates that the relationship between "proof” and "illumination” is strong.
  • the acquisition unit 120 acquires the auxiliary information 116.
  • the acquisition unit 120 acquires the auxiliary information 116 from the storage unit 110 .
  • the acquisition unit 120 acquires the auxiliary information 116 from an external device.
  • the creation search calculation unit 160 identifies noun words or predicate words that can be predicates from among a plurality of words with parts of speech obtained by performing morphological analysis on important sentences.
  • the creation search calculation unit 160 generates a word converted from a noun word into a predicate or a specified predicate word, a word among a plurality of words with parts of speech (for example, also referred to as a first word), and auxiliary information. 116 to identify related words that are words that are related to the word (ie, the first word).
  • the creation search calculation unit 160 creates a query based on the important sentence and related words.
  • the creation search calculation unit 160 identifies the predicate word “fall”. Based on the predicate word “fall”, the word “proof”, and the auxiliary information 116, the creation search calculation unit 160 identifies the word “illumination” that is related to the word “proof”. The creation search calculation unit 160 creates a query based on the key sentence “proof is dropped” and the word “illumination”. For example, the creation search calculation unit 160 creates the query “proof falling lighting”. Thus, the creation search calculation unit 160 creates a query by query expansion.
  • the "proof” in the key sentence "proof fails” is the error of "illumination".
  • an important sentence that is, text data
  • an error in speech recognition produces the important sentence "Proof falls”.
  • the query is formulated based on "proof falls”
  • sentences related to "proof” are retrieved.
  • the selected summary sentences are less accurate. Therefore, the creation search calculation unit 160 creates a query including “lighting”.
  • sentences related to "illumination” are also retrieved. Thereby, the information processing apparatus 100 can select a sentence related to "illumination” as a summary sentence.
  • FIG. 23 is a flowchart showing an example of processing executed by the information processing apparatus according to the third embodiment.
  • step S17 is changed to step S17b. Therefore, FIG. 23 explains step S17b. A description of the processes other than step S17b is omitted.
  • Step S17b The creation search calculation unit 160 creates a query by query expansion.
  • the creation search calculation unit 160 searches the knowledge database 114 for sentences obtained by the query. This retrieves multiple sentences.
  • the creation search calculation unit 160 calculates scores for each of the plurality of searched sentences. Thereby, multiple scores corresponding to multiple sentences are calculated.
  • the information processing apparatus 100 can select a summary with high accuracy.
  • the auxiliary information 116 is created by the creation device 200 . Creation of the auxiliary information 116 will be described.
  • FIG. 24 is a block diagram showing functions of the creation device according to the third embodiment.
  • the creating device 200 further has an auxiliary information creating section 250 .
  • Auxiliary information creating unit 250 creates auxiliary information 116 .
  • FIG. 25 is a flow chart showing an example of processing executed by the creation device of the third embodiment.
  • the process of FIG. 25 differs from the process of FIG. 15 in that step S24b is executed. Therefore, FIG. 25 explains step S24b. A description of the processes other than step S24b is omitted.
  • Step S24b the auxiliary information creation unit 250 extracts one predicate and one noun included in the dialogue database 211.
  • the auxiliary information creation unit 250 extracts one noun included in the report database 212 .
  • the auxiliary information creation unit 250 uses the extracted predicates and nouns of the dialogue database 211 and the nouns of the report database 212 to calculate self-mutual information.
  • the auxiliary information creating unit 250 creates the auxiliary information 116 based on the self mutual information. Also, even if the dialogue database 211 (more specifically, the predicates and nouns of the dialogue database 211) contains an error, by searching for the nouns in the knowledge database 114 created based on the report database 212, The error is recovered.
  • FIG. 26 is a block diagram showing functions of the information processing apparatus according to the fourth embodiment.
  • the information processing apparatus 100 further has an extraction updating unit 192 .
  • Acquisition unit 120 acquires correction information.
  • the correction information is information of a summary sentence corrected by the user.
  • the extraction update unit 192 compares the summary sentence in the summary text output by the output unit 190 and the correction information, and extracts the difference.
  • the extraction update unit 192 identifies, from the auxiliary information 116, the degree of relationship between the word in the important sentence and the word corresponding to the difference in the summary sentence based on the difference between the important sentence and the summary sentence. Make it lower than the current relevant degree of relationship (that is, value).
  • the extraction update unit 192 identifies, from the auxiliary information 116, the degree of relationship between the word in the important sentence and the word corresponding to the difference in the correction information based on the difference between the important sentence and the correction information, and the identified degree of relationship is It is made higher than the current relevant degree of relationship (that is, value).
  • the extracting and updating unit 192 identifies, from the auxiliary information 116, the degree of relationship between the word "proof” in the important sentence and the word "prize name” corresponding to the difference in the abstract sentence, Lower the identified relationship.
  • the extraction update unit 192 identifies, from the auxiliary information 116, the degree of relationship between the word “proof” in the important sentence and the word “illumination” corresponding to the difference in the correction information, based on the difference between the important sentence and the correction information. increase the degree of relationship This allows more precise words to be included in the query. Therefore, the information processing apparatus 100 can select a summary sentence with high accuracy.
  • FIG. 27 is a flow chart showing an example of processing executed by the information processing apparatus according to the fourth embodiment.
  • the process of FIG. 27 differs from the process of FIG. 23 in that step S20a is executed. Therefore, step S20a will be described with reference to FIG. A description of the processes other than step S20a is omitted.
  • Step S20a The extraction update unit 192 compares the summary sentence in the summary text output by the output unit 190 and the correction information acquired by the acquisition unit 120, and extracts the difference.
  • the extraction update unit 192 updates the auxiliary information 116 based on the difference.
  • the information processing apparatus 100 can select a summary sentence with high accuracy.
  • 100 information processing device 101 processor, 102 volatile storage device, 103 non-volatile storage device, 104 interface, 110 storage unit, 111 unnecessary word dictionary, 112 sentence segmentation dictionary, 113 word importance model, 114 knowledge database, 115 category estimation model, 116 auxiliary information, 120 acquisition unit, 130 analysis unit, 140 unnecessary word deletion unit, 150 important sentence extraction unit, 160 creation search calculation unit, 170 calculation update unit, 180 selection unit, 190 output unit, 191 category estimation unit, 192 extraction update unit, 200 creation device, 210 storage unit, 211 dialogue database, 212 report database, 220 word importance learning unit, 230 database creation unit, 240 category estimation learning unit, 250 auxiliary information creation unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

情報処理装置(100)は、テキストデータと、知識データベース(114)とを取得する取得部(120)と、形態素解析を用いて、テキストデータを解析する解析部(130)と、形態素解析の結果を用いて、テキストデータに含まれている複数の文の中から、第1の重要文を抽出する重要文抽出部(150)と、第1の重要文に基づいて、クエリを作成し、知識データベース(114)の中から、クエリにより得られる文を検索し、検索された複数の文のそれぞれのスコアを算出する作成検索算出部(160)と、第1の重要文と、検索された複数の文のそれぞれとに基づいて、複数の類似度を算出し、複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する算出更新部と、複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する選択部(180)と、要約文を出力する出力部(190)と、を有する。

Description

情報処理装置、要約文出力方法、及び要約文出力プログラム
 本開示は、情報処理装置、要約文出力方法、及び要約文出力プログラムに関する。
 コールセンターでは、オペレータは、顧客とオペレータとの対話内容をまとめて、報告書を作成する。報告書を作成する作業は、アフターコールワークとも言う。オペレータがアフターコールワークを行うことは、オペレータの作業負担が大きい。そこで、対話内容を自動的に要約することが考えられる。ここで、要約を作成する技術が提案されている(特許文献1を参照)。特許文献1の要約装置は、入力されたデータから抽出された重要な文を結合した要約を作成する。なお、当該データは、音声認識結果を示すデータなどである。
特許5562219号公報
 上記の技術では、音声認識結果を示すデータを用いて、要約文が作成される。そのため、例えば、音声認識に誤りがあった場合、要約文には、誤りが含まれる。また、例えば、要約文の内容は、話し言葉で表される。このように、上記の技術では、要約文は、データの文体に依存される。そのため、上記の技術に基づく要約文は、適切と言えない場合がある。
 本開示の目的は、適切な要約文を出力することである。
 本開示の一態様に係る情報処理装置が提供される。情報処理装置は、対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得する取得部と、形態素解析を用いて、前記テキストデータを解析する解析部と、前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出する重要文抽出部と、前記第1の重要文に基づいて、クエリを作成し、前記知識情報の中から、前記クエリにより得られる文を検索し、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する作成検索算出部と、前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する算出更新部と、複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する選択部と、前記要約文を出力する出力部と、を有する。
 本開示によれば、適切な要約文を出力することができる。
実施の形態1の情報処理装置の機能を示すブロック図である。 実施の形態1の情報処理装置が有するハードウェアを示す図である。 実施の形態1の不要語辞書の例を示す図である。 実施の形態1の文分割辞書の例を示す図である。 実施の形態1の重要文の抽出の例を示す図である。 実施の形態1のクエリの例を示す図である。 実施の形態1の知識データベースの例を示す図である。 実施の形態1の検索結果の例を示す図である。 実施の形態1の更新されたスコアの例を示す図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の作成装置の機能を示すブロック図である。 実施の形態1の対話データベースの例を示す図である。 実施の形態1の報告書データベースの例を示す図である。 実施の形態1の非文の削除の例を示す図である。 実施の形態1の作成装置が実行する処理の例を示すフローチャートである。 実施の形態2の情報処理装置の機能を示すブロック図である。 実施の形態2のカテゴリが推定されない場合の例を示す図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態2の作成装置の機能を示すブロック図である。 実施の形態2の作成装置が実行する処理の例を示すフローチャートである。 実施の形態3の情報処理装置の機能を示すブロック図である。 実施の形態3の補助情報の例を示す図である。 実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態3の作成装置の機能を示すブロック図である。 実施の形態3の作成装置が実行する処理の例を示すフローチャートである。 実施の形態4の情報処理装置の機能を示すブロック図である。 実施の形態4の情報処理装置が実行する処理の例を示すフローチャートである。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、要約文出力方法を実行する装置である。情報処理装置100は、対話要約生成装置と呼んでもよい。
 まず、情報処理装置100が有するハードウェアを説明する。
 図2は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、及びインタフェース104を有する。
 プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
 インタフェース104は、他の装置と通信する。また、インタフェース104は、顧客とオペレータとの音声を示す音声信号を受信してもよい。さらに、インタフェース104は、オペレータが入力したテキストデータを受信してもよい。
 図1に戻って、情報処理装置100が有する機能を説明する。
 情報処理装置100は、記憶部110、取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
 取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190の一部又は全部は、処理回路によって実現してもよい。また、取得部120、解析部130、不要語削除部140、重要文抽出部150、作成検索算出部160、算出更新部170、選択部180、及び出力部190の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、要約文出力プログラムとも言う。例えば、要約文出力プログラムは、記録媒体に記録されている。
 記憶部110は、不要語辞書111、文分割辞書112、単語重要度モデル113、及び知識データベース114を記憶してもよい。不要語辞書111、文分割辞書112、単語重要度モデル113、及び知識データベース114については、後で説明する。
 取得部120は、テキストデータを取得する。例えば、取得部120は、テキストデータを外部装置(例えば、クラウドサーバ)から取得する。また、例えば、取得部120は、テキストデータを記憶部110から取得する。テキストデータは、対話内容を示すデータである。例えば、対話内容は、顧客とオペレータとの対話内容、チャットボットとユーザとの対話内容などである。なお、顧客とオペレータとの対話内容を示すテキストデータは、音声認識技術を用いることで、生成される。また、テキストデータには、対話内容を示す複数の文が含まれている。
 取得部120は、知識データベース114を取得する。例えば、取得部120は、知識データベース114を記憶部110から取得する。また、例えば、取得部120は、知識データベース114を外部装置から取得する。
 解析部130は、形態素解析を用いて、テキストデータを解析する。これにより、テキストデータに含まれる単語及び品詞が、抽出される。また、解析部130は、構文解析を用いて、テキストデータ内の文節及び文節間の関係を解析してもよい。
 解析部130は、後述する不要語削除処理が実行された後のテキストデータを、解析してもよい。
 不要語削除部140は、予め設定された方法で、テキストデータの中から不要語を削除する。例えば、不要語削除部140は、不要語辞書111を用いて、不要語を削除する。ここで、不要語辞書111を例示する。
 図3は、実施の形態1の不要語辞書の例を示す図である。例えば、不要語辞書111は、記憶部110に格納されている。不要語辞書111には、“あー”、“えー”などのフィラー、及び“お待たせ致しました。”のような定型句が登録される。また、不要語辞書111には、単語と品詞との対応関係を示す情報が登録されてもよい。
 また、不要語削除部140は、機械学習により得られた学習済モデルを用いて、テキストデータの中から不要語を削除してもよい。なお、テキストデータの中に不要語が含まれていない場合、不要語削除部140は、処理を実行しない。
 重要文抽出部150は、形態素解析の結果を用いて、テキストデータ(例えば、不要語が削除されたテキストデータ)に含まれている複数の文の中から、予め設定された数の文を、重要文として抽出する。なお、予め設定された数は、1つでもよいし、2つ以上でもよい。予め設定された数が1つである場合、抽出された重要文は、第1の重要文とも言う。以下の説明では、予め設定された数は、2つ以上とする。
 詳細に、重要文の抽出処理を説明する。まず、重要文抽出部150は、テキストデータに含まれている複数の文を分割する。複数の文を分割する方法としては、音声認識の区切れ目で分割する方法、テキストデータに含まれる句点又は読点で分割する方法、文分割辞書112を用いて分割する方法、学習済モデルを用いて分割する方法などが挙げられる。ここで、文分割辞書112を例示する。
 図4は、実施の形態1の文分割辞書の例を示す図である。例えば、文分割辞書112は、記憶部110に格納されている。重要文抽出部150は、文分割辞書112を用いて、複数の文を分割してもよい。
 重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。まず、1つの文に対応する重要度の算出方法を説明する。例えば、重要文抽出部150は、形態素解析の結果により得られた、当該1つの文に含まれている複数の単語のそれぞれの重要度を、TF-IDF、Okapi BM25などを用いて、算出する。重要文抽出部150は、複数の単語のそれぞれの重要度を加算することで、当該1つの文に対応する重要度を算出する。また、重要文抽出部150は、形態素解析の結果により得られた、当該1つの文に含まれている複数の単語のそれぞれの重要度を、学習済モデルである単語重要度モデル113を用いて、算出してもよい。そして、重要文抽出部150は、複数の単語のそれぞれの重要度を加算することで、当該1つの文に対応する重要度を算出する。また、重要文抽出部150は、複数の単語のそれぞれの重要度の平均値を、当該1つの文に対応する重要度として、算出してもよい。
 このように、当該1つの文に対応する重要度が、算出される。同様に、重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。これにより、複数の文に対応する複数の重要度が、算出される。
 重要文抽出部150は、重要度が高い順に、複数の文を並べる。重要文抽出部150は、上位の予め設定された数の文を、重要文として抽出する。具体的に、重要文の抽出を例示する。
 図5は、実施の形態1の重要文の抽出の例を示す図である。図5は、テキストデータに含まれている複数の文(すなわち、複数の分割文)を示している。重要文抽出部150は、複数の文の中から、重要文を抽出する。
 上述したように、重要文抽出部150は、上位の予め設定された数の文を、重要文として抽出する。これにより、重要度の低い文が除かれる。後述するように、重要文に基づいて要約文が選択されるので、重要文のみが抽出されることは、適切な要約文が選択される。
 作成検索算出部160は、重要文に基づいて、クエリを作成する。クエリは、文単位、又は単語(すなわち、形態素)単位で作成されてもよい。クエリは、文又は単語のn-gram連鎖により作成されてもよい。ここで、クエリを例示する。
 図6は、実施の形態1のクエリの例を示す図である。図6は、重要文に基づいて作成されたクエリを示している。図6は、2-gram連鎖を用いて作成されたクエリを示している。
 ここで、作成検索算出部160は、重要文の中の連続する単語を語彙化することにより、クエリを作成してもよい。例えば、作成検索算出部160は、重要文の中の否定語と、否定語の直前の動詞とを語彙化することにより、クエリを作成する。例えば、図6は、否定語と直前の動詞とが連結された“居る_ない”を示している。
 ここで、数詞と、数詞の後の単位とのそれぞれが、クエリに含まれる場合が考えられる。例えば、重要文が“エアコンを25℃に設定した”である場合、クエリは、“エアコン 25 ℃ 設定”である。しかし、当該クエリを用いて、検索が行われた場合、意味が異なる文が検索されることがある。例えば、“冷蔵庫を25日に購入”が、検索される。そこで、作成検索算出部160は、重要文の中の数詞と、当該数詞の後の単位とを語彙化することにより、クエリを作成してもよい。例えば、語彙化されたクエリは、“25_℃”である。これにより、上記のクエリは、“エアコン 25_℃ 設定”に変わる。このように、数詞と単位とを1つの語彙にすることで、意味が異なる文が検索されることが、防止される。
 作成検索算出部160は、知識データベース114の中から、クエリにより得られる文を検索する。言い換えれば、作成検索算出部160は、クエリを用いて、知識データベース114の中から、重要文の意味に近い文を検索する。ここで、知識データベース114を例示する。
 図7は、実施の形態1の知識データベースの例を示す図である。知識データベース114は、知識情報とも言う。知識データベース114は、過去の報告書に基づいて作成された複数の文を含む。知識データベース114は、文、インデックス登録クエリ、ステップ、及びカテゴリの項目を有する。
 文の項目には、過去の報告書に基づいて作成された文が登録される。また、文の項目には、文節、連続した複数の文節、連続した複数の文が登録されてもよい。インデックス登録クエリの項目には、クエリが登録される。ステップの項目には、業務の名称が登録される。カテゴリの項目には、文の項目に登録されている文の内容が示すカテゴリが登録される。このように、文の項目に登録されている複数の文のそれぞれには、カテゴリが対応付けられている。
 また、知識データベース114は、グラフ形式の情報でもよい。
 このように、作成検索算出部160は、クエリを用いて、知識データベース114の中から、重要文の意味に近い文を検索する。検索結果として、複数の文が検索される。
 また、作成検索算出部160は、重要文と、テキストデータの中の当該重要文の前文と後文とのうちの少なくとも1つとに基づいて、クエリを作成してもよい。前文と後文とうちの少なくとも1つに含まれている単語が、クエリの中に含まれることで、作成検索算出部160は、重要文が短い場合でも、重要文と関係のある文を検索できる。
 作成検索算出部160は、重要文に含まれている単語の類義語をクエリに含めてもよい。重要文に含まれている単語が“点かない”である場合、作成検索算出部160は、“点かない”の類義語である“消える”をクエリに含める。なお、作成検索算出部160は、word2vecを用いて、重要文に含まれている単語の類義語を得ることができる。このように、作成検索算出部160は、類義語をクエリに含めることで、類義語が含まれている文を検索できる。
 また、作成検索算出部160は、検索対象を、名詞、動詞、形容詞、形状詞などの品詞でフィルタリングしてもよい。作成検索算出部160は、重要文と知識データベース114とを用いて、文ベクトルの類似度を算出してもよい。
 作成検索算出部160は、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する。例えば、予め設定された方法は、次のような方法である。例えば、クエリは、“エアコン 25_℃ 設定”とする。検索された文は、“エアコンは25℃”と“エアコンが動かない”とする。作成検索算出部160は、“エアコンは25℃”のスコアを2と算出する。作成検索算出部160は、“エアコンが動かない”のスコアを、1と算出する。すなわち、作成検索算出部160は、検索された文とクエリに含まれる単語とのマッチ数をスコアとして、算出する。このように、スコアが、算出される。また、作成検索算出部160は、Elasticsearchのような検索エンジンで用いられている算出方法を用いて、スコアを算出してもよい。
 作成検索算出部160は、複数の文のそれぞれのスコアを検索結果に含めてもよい。ここで、検索結果を例示する。
 図8は、実施の形態1の検索結果の例を示す図である。図8が示すように、検索された文と、当該検索された文のスコアとが、検索結果として出力される。
 算出更新部170は、重要文と、検索された複数の文のそれぞれとに基づいて、複数の類似度を算出する。まず、重要文と、検索された複数の文のうちの1つの文とに基づいて、類似度が算出される場合を説明する。なお、当該類似度は、当該重要文と、当該1つの文とが類似している度合である。よって、上記の複数の類似度とは、重要文と、検索された複数の文のそれぞれとが類似している度合である。
 ここで、類似度を算出する方法として、Jaccard係数などを用いる方法が考えられる。しかし、音声対話が対象である場合、Jaccard係数などの方法を用いることは、望ましくない。理由は、差集合の要素数が大きいほど値が小さくなるというJaccard係数の特徴にある。音声対話において、発話が冗長になることが多いため、重要文に含まれる単語の集合から検索された文に含まれる単語の集合を引いた差集合の要素数が大きいことは、許容されるべきである。一方で、検索された文に含まれる単語の集合から重要文に含まれる単語の集合を引いた差集合の要素数が大きい場合は、発話していない余計な内容が検索された文に含まれる可能性があるためペナルティを与えたい。そこで、算出更新部170は、式(1)を用いて、類似度を算出する。Iは、重要文に含まれる単語の集合である。Kは、検索された文に含まれる単語の集合である。
Figure JPOXMLDOC01-appb-M000001
 このように、算出更新部170は、検索された文に含まれる単語の集合から重要文に含まれる単語の集合を引いた差集合の要素数が大きい場合にペナルティを与えることにより、集合同士の類似度を算出する。これにより、冗長な発話を吸収しつつ、発話していない余計な内容を含まない文が検索できるようになる。
 上記したように、算出更新部170は、重要文と、当該1つの文とに基づいて、類似度を算出する。同様に、算出更新部170は、複数の文のそれぞれに対応する類似度を算出する。これにより、複数の類似度が算出される。算出更新部170は、検索された複数の文のうち、上位N個の文のそれぞれを用いて、類似度を算出してもよい。
 算出更新部170は、複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する。ここで、更新されたスコアを例示する。
 図9は、実施の形態1の更新されたスコアの例を示す図である。図9のスコアは、類似度を示している。
 選択部180は、更新された、複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する。例えば、選択部180は、最も高いスコアに対応する文を、要約文として、選択する。以下の説明では、最も高いスコアに対応する文が、要約文として、特定されるものとする。
 出力部190は、要約文を出力する。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
 図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
 (ステップS11)取得部120は、テキストデータを取得する。
 (ステップS12)解析部130は、形態素解析を用いて、テキストデータを解析する。
 (ステップS13)不要語削除部140は、テキストデータの中から不要語を削除する。
 (ステップS14)重要文抽出部150は、テキストデータに含まれている複数の文を分割する。重要文抽出部150は、複数の文のそれぞれに対して、重要度を算出する。これにより、複数の文に対応する複数の重要度が算出される。重要文抽出部150は、複数の重要度に基づいて、上位の予め設定された数の文を、重要文として抽出する。これにより、複数の重要文が抽出される。
 (ステップS15)作成検索算出部160は、未処理の重要文があるか否かを判定する。未処理の重要文がある場合、処理は、ステップS16に進む。全ての重要文が処理された場合、処理は、ステップS20に進む。
 (ステップS16)作成検索算出部160は、未処理の重要文の中から、1つの重要文を選択する。なお、選択された重要文は、第1の重要文と呼んでもよい。
 (ステップS17)作成検索算出部160は、重要文に基づいて、クエリを作成し、知識データベース114の中から、クエリにより得られる文を検索する。これにより、複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。
 (ステップS18)算出更新部170は、重要文と、上位N個のスコアに対応する複数の文のそれぞれとに基づいて、複数の類似度を算出する。算出更新部170は、複数の類似度に基づいて、上位N個のスコアに対応する複数の文のそれぞれのスコアを更新する。
 (ステップS19)選択部180は、最も高いスコアに対応する文を、要約文として、選択する。そして、処理は、ステップS15に進む。
 (ステップS20)出力部190は、特定された複数の要約文をまとめて、要約テキストとして、出力する。出力部190は、報告書形式に作成された要約テキストを出力してもよい。
 実施の形態1によれば、要約テキストに含まれる要約文は、音声認識結果に基づく文でない。当該要約文は、過去の報告書に基づく文である。そのため、当該要約文には、誤りが含まれていない可能性が高い。また、当該要約文の内容は、話し言葉で表されていない。よって、情報処理装置100は、適切な要約文を出力することができる。
 ここで、作成装置を説明する。作成装置は、単語重要度モデル113と知識データベース114とを作成する。具体的に、作成装置を説明する。
 図11は、実施の形態1の作成装置の機能を示すブロック図である。作成装置200は、記憶部210、単語重要度学習部220、及びデータベース作成部230を有する。
 記憶部210は、作成装置200が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。
 単語重要度学習部220及びデータベース作成部230の一部又は全部は、作成装置200が有する処理回路によって実現してもよい。また、単語重要度学習部220及びデータベース作成部230の一部又は全部は、作成装置200が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。
 記憶部210は、対話データベース211を記憶する。ここで、対話データベース211を例示する。
 図12は、実施の形態1の対話データベースの例を示す図である。対話データベース211は、記憶部210に格納されている。対話データベース211には、過去の対話履歴が登録されている。具体的には、対話データベース211は、対話ID(identifier)、音声認識結果、カテゴリ、及び受付日時の項目を有する。
 対話IDの項目には、識別子が登録される。音声認識結果の項目には、対話内容が登録される。カテゴリの項目には、音声認識結果の項目に登録されている文の内容が示すカテゴリが登録される。受付日時の項目には、対話が行われた日時が登録される。
 記憶部210は、報告書データベース212を記憶する。ここで、報告書データベース212を例示する。
 図13は、実施の形態1の報告書データベースの例を示す図である。報告書データベース212は、記憶部210に格納されている。報告書データベース212は、過去の報告書に基づいて作成された情報である。報告書データベース212は、対話ID、受付履歴、対応履歴、カテゴリ、及び受付日時の項目を有する。
 対話IDの項目には、識別子が登録される。受付履歴の項目には、対話データベース211の音声認識結果の項目に登録されている情報の要約文が登録される。対応履歴の項目には、対応内容が登録される。カテゴリの項目には、受付履歴に登録されている内容が示すカテゴリが登録される。受付日時の項目には、対話が行われた日時が登録される。
 単語重要度学習部220は、対話データベース211を用いて機械学習を行うことにより、単語重要度モデル113を作成する。なお、単語重要度モデル113は、単語が入力された場合、当該単語の重要度を出力する。
 データベース作成部230は、報告書データベース212に基づいて、知識データベース114を作成する。例えば、データベース作成部230は、報告書データベース212の受付履歴及び対応履歴の項目に登録されている情報のうち、意味のある文、又は意味のある文節を抽出することで、知識データベース114を作成する。
 データベース作成部230は、報告書データベース212に登録されている情報のうち、言語として不自然な文(以下、非文という)を削除してもよい。例えば、データベース作成部230は、n-gram尤度等を用いて、文の尤度を算出し、文の尤度に基づいて、非文を削除してもよい。ここで、非文が削除される例を示す。
 図14は、実施の形態1の非文の削除の例を示す図である。図14が示すように、データベース作成部230は、報告書データベース212に登録されている情報の中から、非文を削除する。このように、知識データベース114は、過去の報告書の中から非文が削除されることにより作成される。そして、過去の報告書の中から非文が削除されることにより、非文が要約文として選択されることが防止できる。
 次に、作成装置200が実行する処理を、フローチャートを用いて、説明する。
 図15は、実施の形態1の作成装置が実行する処理の例を示すフローチャートである。
 (ステップS21)単語重要度学習部220は、対話データベース211の音声認識結果を参照し、形態素解析を用いて、音声認識結果を解析する。
 (ステップS22)単語重要度学習部220は、TF-IDFなどを用いて、解析により得られた単語の重要度を算出する。単語重要度学習部220は、単語と重要度との対応関係を示す情報を作成する。
 (ステップS23)単語重要度学習部220は、全ての音声認識結果に対して処理を行ったか否かを判定する。全ての音声認識結果に対して処理を行った場合、処理は、ステップS24に進む。未処理の音声認識結果がある場合、処理は、ステップS21に進む。
 このように、ステップS21とステップS22とが繰り返されることで、単語に対応する重要度が変化する。言い換えれば、学習により、単語に対応する重要度が更新される。そして、ステップS21とステップS22とが繰り返されることで得られた、単語と重要度との対応関係を示す情報が、単語重要度モデル113になる。
 (ステップS24)データベース作成部230は、報告書データベース212に基づいて、知識データベース114を作成する。
 これにより、単語重要度モデル113と知識データベース114とが、作成される。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
 図16は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、カテゴリ推定部191を有する。
 記憶部110は、さらに、カテゴリ推定モデル115を記憶してもよい。カテゴリ推定モデル115は、単語が入力された場合、当該単語に基づいたカテゴリを出力する。言い換えれば、カテゴリ推定モデル115は、当該単語に基づいて、カテゴリを推定する。なお、例えば、カテゴリは、機種である。
 取得部120は、カテゴリ推定モデル115を取得する。例えば、取得部120は、カテゴリ推定モデル115を記憶部110から取得する。また、例えば、取得部120は、カテゴリ推定モデル115を外部装置から取得する。
 カテゴリ推定部191は、形態素解析により得られた単語と、カテゴリ推定モデル115とを用いて、対話内容のカテゴリを推定する。
 ここで、カテゴリが推定されない場合の例を示す。
 図17は、実施の形態2のカテゴリが推定されない場合の例を示す図である。テキストデータが示す対話内容のカテゴリは、冷蔵庫である。カテゴリが推定されない場合、単語“庫内灯”に基づいて、オーブンレンジに関する文が、多く検索される。そこで、作成検索算出部160は、推定されたカテゴリ“冷蔵庫”を用いて、“冷蔵庫”に関する文を検索する。これにより、対話内容のカテゴリに関する文のみが、検索される。情報処理装置100は、対話内容のカテゴリに関する文のみを検索することで、適切な要約文を選択することができる。
 図18は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。図18の処理は、ステップS13aが実行される点が図10の処理と異なる。また、図18の処理では、ステップS17がステップS17aに変更される。そこで、図18では、ステップS13a,17aを説明する。そして、ステップS13a,17a以外の処理の説明は、省略する。
 (ステップS13a)カテゴリ推定部191は、形態素解析により得られた単語と、カテゴリ推定モデル115とを用いて、対話内容のカテゴリを推定する。
 (ステップS17a)作成検索算出部160は、重要文に基づいて、クエリを作成する。作成検索算出部160は、推定されたカテゴリとクエリを用いて、知識データベース114に対して検索を行う。すなわち、作成検索算出部160は、推定されたカテゴリに情報を絞った状態で、クエリを用いて、知識データベース114に対して検索を行う。これにより、推定されたカテゴリと関係のある複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。
 実施の形態2によれば、情報処理装置100は、対話内容のカテゴリに関する文のみを検索することで、適切な要約文を選択することができる。
 ここで、カテゴリ推定モデル115は、作成装置200により、作成される。カテゴリ推定モデル115の作成について説明する。
 図19は、実施の形態2の作成装置の機能を示すブロック図である。作成装置200は、さらに、カテゴリ推定学習部240を有する。カテゴリ推定学習部240は、カテゴリ推定モデル115を作成する。
 図20は、実施の形態2の作成装置が実行する処理の例を示すフローチャートである。図20の処理は、ステップS24aが実行される点が図15の処理と異なる。そこで、図20では、ステップS24aを説明する。そして、ステップS24a以外の処理の説明は、省略する。
 (ステップS24a)カテゴリ推定学習部240は、対話データベース211の音声認識結果に対して、形態素解析を行う。カテゴリ推定学習部240は、形態素解析により得られた単語と、対話データベース211のカテゴリとにおける自己相互情報量を算出し、自己相互情報量に基づいて、単語とカテゴリとの対応関係を示す情報を、カテゴリ推定モデル115として、作成する。
 また、カテゴリ推定学習部240は、報告書データベース212の受付履歴に対して、形態素解析を行ってもよい。カテゴリ推定学習部240は、形態素解析により得られた単語と、報告書データベース212のカテゴリとにおける自己相互情報量を算出し、自己相互情報量に基づいて、単語とカテゴリとの対応関係を示す情報を、カテゴリ推定モデル115として、作成する。
実施の形態3.
 次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。
 図21は、実施の形態3の情報処理装置の機能を示すブロック図である。記憶部110は、補助情報116を記憶してもよい。補助情報116は、クエリの生成を補助する情報である。言い換えれば、補助情報116は、クエリを生成する際に用いられる情報である。ここで、補助情報116を具体的に示す。
 図22は、実施の形態3の補助情報の例を示す図である。補助情報116は、複数の述語である複数の単語のそれぞれと、複数の関係情報のそれぞれとの対応関係を示す情報である。関係情報とは、複数の単語のそれぞれの関係性を示す。
 例えば、補助情報116は、述語ラベルとサブ単語文脈行列の項目を有する。述語ラベルの項目には、述語である単語が登録される。例えば、述語ラベルの項目には、述語である単語“落ちる”が登録される。サブ単語文脈行列の項目には、関係情報が登録される。ここで、関係情報は、2次元のテーブルで表されると考えてもよい。すなわち、関係情報は、2次元情報と考えてもよい。関係情報には、述語である単語が対応付けられる。述語である単語と関係情報との対応関係を示す情報は、3次元情報と考えてもよい。よって、補助情報116は、3次元情報と考えてもよい。
 上述したように、関係情報は、複数の単語のそれぞれの関係性を示す。当該複数の単語とは、動詞、名詞、形容詞などの単語である。図22の関係情報では、名詞の単語が例示されている。上述の通り、図22の関係情報には、名詞以外の品詞の単語が含まれてもよい。
 次に、補助情報116を具体的に説明する。例えば、述語ラベル“落ちる”には、関係情報が対応付けられている。図22の関係情報では、“証明”と“照明”との関係性の度合が“159”であることが示されている。ここで、“159”などの数字は、複数の単語のそれぞれの関係性の度合を示す関係度と呼ぶ。このように、補助情報116には、関係度が含まれている。また、関係度は、自己相互情報量と考えてもよい。なお、関係度の上限は、100に限らない。関係度“159”は、予め設定された閾値よりも大きい。よって、図22の関係情報は、“証明”と“照明”との関係性が強いことを示している。
 取得部120は、補助情報116を取得する。例えば、取得部120は、補助情報116を記憶部110から取得する。また、例えば、取得部120は、補助情報116を外部装置から取得する。
 作成検索算出部160は、重要文に対して形態素解析を実行することで得られた複数の品詞付単語の中から、述語になれる名詞の単語又は述語の単語を特定する。作成検索算出部160は、名詞の単語が述語に変換された単語又は特定された述語の単語と、複数の品詞付単語の中の単語(例えば、第1の単語とも言う。)と、補助情報116とに基づいて、当該単語(すなわち、第1の単語)と関係がある単語である関係単語を特定する。作成検索算出部160は、重要文と関係単語とに基づいてクエリを生成する。
 例えば、重要文が“証明が落ちる”であるものとする。作成検索算出部160は、述語の単語“落ちる”を特定する。作成検索算出部160は、述語の単語“落ちる”と、単語“証明”と、補助情報116とに基づいて、単語“証明”と関係がある単語“照明”を特定する。作成検索算出部160は、重要文“証明が落ちる”と単語“照明”とに基づいてクエリを生成する。例えば、作成検索算出部160は、クエリ“証明 落ちる 照明”を作成する。このように、作成検索算出部160は、クエリ拡張によって、クエリを作成する。
 ここで、重要文“証明が落ちる”の“証明”は、“照明”の誤りである。例えば、重要文(すなわち、テキストデータ)が音声認識によって作成された場合、音声認識の誤りによって、重要文“証明が落ちる”が作成される。クエリが“証明が落ちる”に基づいて、作成された場合、“証明”に関係する文が、検索される。“証明”に関係する文に基づいて、選択された要約文は、正確性が低い。そこで、作成検索算出部160は、“照明”を含むクエリを作成する。これにより、“照明”に関係する文も、検索される。これにより、情報処理装置100は、“照明”に関係する文を要約文として、選択できる。
 図23は、実施の形態3の情報処理装置が実行する処理の例を示すフローチャートである。図23の処理では、ステップS17がステップS17bに変更される。そこで、図23では、ステップS17bを説明する。そして、ステップS17b以外の処理の説明は、省略する。
 (ステップS17b)作成検索算出部160は、クエリ拡張によって、クエリを作成する。作成検索算出部160は、知識データベース114の中から、クエリにより得られる文を検索する。これにより、複数の文が検索される。作成検索算出部160は、検索された複数の文のそれぞれのスコアを算出する。これにより、複数の文に対応する複数のスコアが、算出される。
 実施の形態3によれば、情報処理装置100は、正確性の高い要約文を選択できる。
 ここで、補助情報116は、作成装置200により、作成される。補助情報116の作成について説明する。
 図24は、実施の形態3の作成装置の機能を示すブロック図である。作成装置200は、さらに、補助情報作成部250を有する。
 補助情報作成部250は、補助情報116を作成する。
 図25は、実施の形態3の作成装置が実行する処理の例を示すフローチャートである。図25の処理は、ステップS24bが実行される点が図15の処理と異なる。そこで、図25では、ステップS24bを説明する。そして、ステップS24b以外の処理の説明は、省略する。
 (ステップS24b)例えば、補助情報作成部250は、対話データベース211に含まれている1つの述語と1つの名詞を抽出する。補助情報作成部250は、報告書データベース212に含まれている1つの名詞を抽出する。補助情報作成部250は、抽出された、対話データベース211の述語と名詞と、報告書データベース212の名詞とを用いて、自己相互情報量を算出する。補助情報作成部250は、自己相互情報量に基づいて、補助情報116を作成する。また、対話データベース211(詳細には、対話データベース211の述語と名詞)に誤りが含まれていても、報告書データベース212に基づいて作成された知識データベース114内の名詞が検索されることで、当該誤りが回復される。
実施の形態4.
 次に、実施の形態4を説明する。実施の形態4では、実施の形態3と相違する事項を主に説明する。そして、実施の形態4では、実施の形態3と共通する事項の説明を省略する。
 図26は、実施の形態4の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、抽出更新部192を有する。
 取得部120は、修正情報を取得する。修正情報は、ユーザに修正された要約文の情報である。
 抽出更新部192は、出力部190が出力した要約テキスト内の要約文と、修正情報とを比較し、差分を抽出する。抽出更新部192は、重要文と要約文の差分とに基づいて、重要文の単語と要約文の差分に対応する単語との関係度を補助情報116から特定し、特定された関係度を、現状の当該関係度(すなわち、値)よりも低くする。抽出更新部192は、重要文と修正情報の差分とに基づいて、重要文の単語と修正情報の差分に対応する単語との関係度を補助情報116から特定し、特定された関係度を、現状の当該関係度(すなわち、値)よりも高くする。
 例えば、重要文が“証明が落ちる”であるものとする。当該要約テキストが“賞名が落ちる”であるとする。修正情報が“照明が落ちる”であるとする。当該要約テキストと修正情報との差分は、“賞名”と“照明”である。抽出更新部192は、重要文と要約文の差分とに基づいて、重要文の単語“証明”と要約文の差分に対応する単語“賞名”との関係度を補助情報116から特定し、特定された関係度を低くする。抽出更新部192は、重要文と修正情報の差分とに基づいて、重要文の単語“証明”と修正情報の差分に対応する単語“照明”との関係度を補助情報116から特定し、特定された関係度を高くする。
 これにより、より正確な単語が、クエリに含まれる。よって、情報処理装置100は、正確性の高い要約文を選択することができる。
 図27は、実施の形態4の情報処理装置が実行する処理の例を示すフローチャートである。図27の処理では、ステップS20aが実行される点が図23の処理と異なる。そこで、図27では、ステップS20aを説明する。そして、ステップS20a以外の処理の説明は、省略する。
 (ステップS20a)抽出更新部192は、出力部190が出力した要約テキスト内の要約文と、取得部120により取得された修正情報とを比較し、差分を抽出する。抽出更新部192は、差分に基づいて、補助情報116を更新する。
 実施の形態4によれば、情報処理装置100は、正確性の高い要約文を選択することができる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 104 インタフェース、 110 記憶部、 111 不要語辞書、 112 文分割辞書、 113 単語重要度モデル、 114 知識データベース、 115 カテゴリ推定モデル、 116 補助情報、 120 取得部、 130 解析部、 140 不要語削除部、 150 重要文抽出部、 160 作成検索算出部、 170 算出更新部、 180 選択部、 190 出力部、 191 カテゴリ推定部、 192 抽出更新部、 200 作成装置、 210 記憶部、 211 対話データベース、 212 報告書データベース、 220 単語重要度学習部、 230 データベース作成部、 240 カテゴリ推定学習部、 250 補助情報作成部。

Claims (15)

  1.  対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得する取得部と、
     形態素解析を用いて、前記テキストデータを解析する解析部と、
     前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出する重要文抽出部と、
     前記第1の重要文に基づいて、クエリを作成し、前記知識情報の中から、前記クエリにより得られる文を検索し、予め設定された方法で、検索された複数の文のそれぞれのスコアを算出する作成検索算出部と、
     前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新する算出更新部と、
     複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択する選択部と、
     前記要約文を出力する出力部と、
     を有する情報処理装置。
  2.  前記重要文抽出部は、前記テキストデータに含まれている複数の文の中から、複数の文を、複数の重要文として、抽出し、
     前記作成検索算出部は、前記複数の重要文のうちの前記第1の重要文に基づいて、前記クエリを作成する、
     請求項1に記載の情報処理装置。
  3.  予め設定された方法で、前記テキストデータの中から不要語を削除する不要語削除部をさらに有する、
     請求項1又は2に記載の情報処理装置。
  4.  前記作成検索算出部は、前記第1の重要文の中の連続する単語を語彙化することにより、前記クエリを作成する、
     請求項1から3のいずれか1項に記載の情報処理装置。
  5.  前記作成検索算出部は、前記第1の重要文の中の否定語と、前記否定語の直前の動詞とを語彙化することにより、前記クエリを作成する、
     請求項4に記載の情報処理装置。
  6.  前記作成検索算出部は、前記第1の重要文の中の数詞と、前記数詞の後の単位とを語彙化することにより、前記クエリを作成する、
     請求項4又は5に記載の情報処理装置。
  7.  前記作成検索算出部は、前記第1の重要文と、前記テキストデータの中の前記第1の重要文の前文と後文とのうちの少なくとも1つとに基づいて、前記クエリを作成する、
     請求項1から6のいずれか1項に記載の情報処理装置。
  8.  前記作成検索算出部は、前記第1の重要文に含まれている単語の類義語を前記クエリに含める、
     請求項1から7のいずれか1項に記載の情報処理装置。
  9.  前記算出更新部は、前記複数の類似度のうちの1つの類似度を算出する場合、検索された複数の文のうちの1つの文に含まれる単語の集合から前記第1の重要文に含まれる単語の集合を引いた差集合の要素数が大きい場合にペナルティを与えることにより、集合同士の類似度を算出する、
     請求項1から8のいずれか1項に記載の情報処理装置。
  10.  前記知識情報は、前記過去の報告書の中から非文が削除されることにより作成された情報である、
     請求項1から9のいずれか1項に記載の情報処理装置。
  11.  カテゴリ推定部をさらに有し、
     前記知識情報に含まれる複数の文のそれぞれには、カテゴリが対応付けられており、
     前記取得部は、単語に基づいて、カテゴリを推定するカテゴリ推定モデルを取得し、
     前記カテゴリ推定部は、前記形態素解析により得られた単語と、前記カテゴリ推定モデルとを用いて、前記対話内容のカテゴリを推定し、
     前記作成検索算出部は、推定されたカテゴリと前記クエリを用いて、前記知識情報に対して検索を行う、
     請求項1から10のいずれか1項に記載の情報処理装置。
  12.  前記取得部は、複数の述語である複数の単語のそれぞれと、複数の単語のそれぞれの関係性を示す複数の関係情報のそれぞれとの対応関係を示す情報である補助情報を取得し、
     前記作成検索算出部は、前記第1の重要文に対して形態素解析を実行することで得られた複数の品詞付単語の中から、述語になれる名詞の単語又は述語の単語を特定し、名詞の単語が述語に変換された単語又は特定された述語の単語と、前記複数の品詞付単語の中の第1の単語と、前記補助情報とに基づいて、前記第1の単語と関係がある単語である関係単語を特定し、前記第1の重要文と前記関係単語とに基づいて前記クエリを作成する、
     請求項1から11のいずれか1項に記載の情報処理装置。
  13.  抽出更新部をさらに有し、
     前記補助情報は、前記関係性の度合を示す関係度を含み、
     前記取得部は、前記要約文の修正情報を取得し、
     前記抽出更新部は、前記要約文と、前記修正情報とを比較して差分を抽出し、前記第1の重要文と前記要約文の差分とに基づいて、前記第1の重要文の単語と前記要約文の差分に対応する単語との前記関係度を前記補助情報から特定し、特定された前記関係度を、現状の値よりも低くし、前記第1の重要文と前記修正情報の差分とに基づいて、前記第1の重要文の単語と前記修正情報の差分に対応する単語との前記関係度を前記補助情報から特定し、特定された前記関係度を、現状の値よりも高くする、
     請求項12に記載の情報処理装置。
  14.  情報処理装置が、
     対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得し、
     形態素解析を用いて、前記テキストデータを解析し、
     前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出し、
     前記第1の重要文に基づいて、クエリを作成し、
     前記知識情報の中から、前記クエリにより得られる文を検索し、
     予め設定された方法で、検索された複数の文のそれぞれのスコアを算出し、
     前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、
     前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新し、
     複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択し、
     前記要約文を出力する、
     要約文出力方法。
  15.  情報処理装置に、
     対話内容を示すテキストデータと、過去の報告書に基づいて作成された複数の文を含む知識情報とを取得し、
     形態素解析を用いて、前記テキストデータを解析し、
     前記形態素解析の結果を用いて、前記テキストデータに含まれている複数の文の中から、1つの文を、第1の重要文として、抽出し、
     前記第1の重要文に基づいて、クエリを作成し、
     前記知識情報の中から、前記クエリにより得られる文を検索し、
     予め設定された方法で、検索された複数の文のそれぞれのスコアを算出し、
     前記第1の重要文と、検索された複数の文のそれぞれとに基づいて、前記第1の重要文と、検索された複数の文のそれぞれとが類似している度合である複数の類似度を算出し、
     前記複数の類似度に基づいて、検索された複数の文のそれぞれのスコアを更新し、
     複数の文のそれぞれのスコアに基づいて、検索された複数の文のうちの1つの文を、要約文として、選択し、
     前記要約文を出力する、
     処理を実行させる要約文出力プログラム。
     
PCT/JP2021/007002 2021-02-25 2021-02-25 情報処理装置、要約文出力方法、及び要約文出力プログラム WO2022180721A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023501746A JP7305077B2 (ja) 2021-02-25 2021-02-25 情報処理装置、要約文出力方法、及び要約文出力プログラム
PCT/JP2021/007002 WO2022180721A1 (ja) 2021-02-25 2021-02-25 情報処理装置、要約文出力方法、及び要約文出力プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/007002 WO2022180721A1 (ja) 2021-02-25 2021-02-25 情報処理装置、要約文出力方法、及び要約文出力プログラム

Publications (1)

Publication Number Publication Date
WO2022180721A1 true WO2022180721A1 (ja) 2022-09-01

Family

ID=83047888

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/007002 WO2022180721A1 (ja) 2021-02-25 2021-02-25 情報処理装置、要約文出力方法、及び要約文出力プログラム

Country Status (2)

Country Link
JP (1) JP7305077B2 (ja)
WO (1) WO2022180721A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084858A (ja) * 2003-09-08 2005-03-31 Chubu Electric Power Co Inc ネットワークコミュニケーションシステム、ネットワークコミュニケーション提供サーバ及びこれを動作させるためのプログラム、そのプログラムが記録された記録媒体
JP2020035135A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム
JP2020071676A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084858A (ja) * 2003-09-08 2005-03-31 Chubu Electric Power Co Inc ネットワークコミュニケーションシステム、ネットワークコミュニケーション提供サーバ及びこれを動作させるためのプログラム、そのプログラムが記録された記録媒体
JP2020035135A (ja) * 2018-08-29 2020-03-05 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム
JP2020071676A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Also Published As

Publication number Publication date
JP7305077B2 (ja) 2023-07-07
JPWO2022180721A1 (ja) 2022-09-01

Similar Documents

Publication Publication Date Title
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
CN108491462B (zh) 一种基于word2vec的语义查询扩展方法及装置
US7983915B2 (en) Audio content search engine
JP3720068B2 (ja) 質問の転記方法及び装置
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
US20040254795A1 (en) Speech input search system
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US20080270110A1 (en) Automatic speech recognition with textual content input
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统
JP2002510076A (ja) 言語モデルに基づく情報検索および音声認識
US20070219779A1 (en) Clustering system, clustering method, clustering program and attribute estimation system using clustering system
CA2250694A1 (en) A system, software and method for locating information in a collection of text-based information sources
US20120209590A1 (en) Translated sentence quality estimation
CN111611356A (zh) 信息查找方法、装置、电子设备及可读存储介质
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
JP2015138351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
CN111159381B (zh) 数据搜索方法及装置
US10102199B2 (en) Corpus specific natural language query completion assistant
US11151317B1 (en) Contextual spelling correction system
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
CN112183110A (zh) 一种基于数据中心的人工智能数据应用系统及应用方法
JP4005343B2 (ja) 情報検索システム
JP7305077B2 (ja) 情報処理装置、要約文出力方法、及び要約文出力プログラム
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21927823

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023501746

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21927823

Country of ref document: EP

Kind code of ref document: A1