WO2019208161A1 - 拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム - Google Patents

拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム Download PDF

Info

Publication number
WO2019208161A1
WO2019208161A1 PCT/JP2019/015090 JP2019015090W WO2019208161A1 WO 2019208161 A1 WO2019208161 A1 WO 2019208161A1 JP 2019015090 W JP2019015090 W JP 2019015090W WO 2019208161 A1 WO2019208161 A1 WO 2019208161A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
extended
utterances
storage unit
question
Prior art date
Application number
PCT/JP2019/015090
Other languages
English (en)
French (fr)
Inventor
雅博 水上
東中 竜一郎
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/050,226 priority Critical patent/US11508357B2/en
Priority to JP2020516177A priority patent/JP7040610B2/ja
Publication of WO2019208161A1 publication Critical patent/WO2019208161A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to a technique of a so-called example-based dialog system (including a technique for generating an example used in an example-based dialog system).
  • chat dialogue systems that aim at dialogues themselves.
  • the chat dialogue system is expected not only to become a human conversation partner, but also to be applied to entertainment and counseling, and to build trust relationships between users and systems through dialogue.
  • chat dialogue system As an effort to further enhance the amusement and friendliness of the chat dialogue system, there is a “narikiri dialogue system” that responds to user questions and chats with the chat dialogue system becoming a specific character such as a specific character or historical person. (For example, refer to Patent Document 1).
  • the Narikiri Dialogue System uses the question answer data collected when the worker becomes a predetermined personality and answers the questions.
  • a method described in Non-Patent Document 1 is used (for example, see Non-Patent Document 1).
  • the content of the response depends on the chat dialogue system, and there is a possibility that the nature of the speaker may not be reflected in the content of the dialogue act or utterance.
  • the present invention relates to an extended narrative utterance set generation device for realizing a dialogue device that reflects a predetermined personality at a lower cost than the prior art, a dialogue device that performs a dialogue reflecting a predetermined personality, and these methods And to provide a program.
  • the storage unit stores the storage.
  • a response utterance generation unit that generates a response utterance corresponding to the input utterance using the extended narration utterance set.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of an extended utterance utterance set generation device.
  • FIG. 2 is a diagram illustrating an example of a processing procedure of an extended narrative utterance set generation method.
  • FIG. 3 is a diagram illustrating an example of IDs of the first utterance and the second utterance.
  • FIG. 4 is a diagram illustrating an example of a complete utterance set stored in the first storage unit 1.
  • FIG. 5 is a diagram illustrating an example of a functional configuration of the interactive apparatus.
  • FIG. 6 is a diagram illustrating an example of the processing procedure of the dialogue method.
  • FIG. 7 is a diagram illustrating an example of an utterance set stored in the storage unit 190.
  • the extended narration utterance set generation device includes, for example, a first storage unit 1, a second storage unit 2, a narration utterance set selection unit 3, an extended narration utterance set generation unit 4, and a storage unit 5. .
  • the extended narration utterance set generation method is realized, for example, by the processing of steps S3 to S4 described below and shown in FIG.
  • I is a predetermined positive integer.
  • I is an integer of 2 or more.
  • the narrative utterance set i is performed with a predetermined personality for the first utterance t i (1) and the first utterance t i (1) associated with the first utterance t i (1). These are two utterances called the second utterance t i (2).
  • the first utterance is an utterance of a question
  • the second utterance is an utterance of a response to the question.
  • the narrative utterance set i may be stored in the first storage unit 1 together with the utterance ID for identifying the first utterance t i (1) and the second utterance t i (2).
  • the collection of utterance utterance sets to be stored in the first storage unit 1 is performed through a website as follows. First of all, you will be asked questions and answers in the form of question-and-answer responses based on a predetermined personality such as a real celebrity (historical person, actor, narrator, etc.), fictional character (novel, anime character, etc.) Build a website of interest. Then, on this website, a plurality of people (for example, about 50 people or more) are asked to post an answer that has become a predetermined personality for a predetermined question. Further, not only the answer posting but also the question itself may be posted, and the posted question may be included in the predetermined question for those who post the answer thereafter. A set of a predetermined question and each answer posted in response to the question is a candidate for a complete utterance set. An ID is assigned to each answer in order to identify the answer that is the second utterance t i (2).
  • a predetermined personality such as a real celebrity (historical person,
  • each of the first utterance set and the second utterance set is designated as the “spoken utterance set”. It may be stored in one storage unit 1. Or, for example, the “predetermined question” of the first utterance group and the “answer” posted to the question are similar or identical to the “character string of the predetermined question” of the first utterance group.
  • each of the first utterance group and the second utterance group may be stored in the first storage unit 1 as a “narrative utterance group”.
  • the “answer” is similar or identical, or both “question” and “answer” are similar or identical.
  • An utterance group in which two or more groups exist may be stored in the first storage unit 1 as a “narikiri utterance group”.
  • the similarity means that the similarity between character strings satisfies a predetermined criterion.
  • “similar answers” means that the similarity between character strings of two arbitrary answers exceeds a predetermined standard.
  • both “question” and “answer” are similar, the similarity A between the character strings of any two given questions, and between the two answer strings corresponding to each of the two given questions A value obtained by adding and averaging (or the root mean square) of the similarity B exceeds a predetermined reference, or both the similarity A and the similarity B exceed a predetermined reference.
  • the definition and example of the similarity will be described later.
  • Evaluation for the second utterances t i (2) a is a predetermined personality likelihood answers posted is stored together with Narikiri utterance pair i of the second utterances t i (2) in the first storage unit 1.
  • the “number of data” in which the number of similar or identical sets is counted is linked to the utterance utterance set and the first storage unit 1 may be stored.
  • IDs for identifying the first utterance t i (1) and second utterance t i (2) of the utterance set immediately after being collected on the above website are, for example, described in FIG. 3 and the following. Has been granted to. First, an utterance ID is assigned to each utterance including the first utterance t i (1) and the second utterance t i (2). If the utterance is the second utterance t i (2), a question source ID is further given. When the utterance is the first utterance t i (1), since the utterance is a question itself, the question source ID is not given. Therefore, in FIG.
  • “None” is described in the question source ID column when the utterance is the first utterance t i (1).
  • the first utterances t i (1) and second utterances t i (2) since it can not one-to-one correspondence only take, with respect to a plurality of the same speech content second utterances t i (2)
  • a different question source ID may be given.
  • question source IDs of 1 and 2 are assigned to the second utterances t i (2) having the same utterance ID “3 and 4”, which are the same utterance contents “if you can eat!” ing.
  • the first utterance t i ( The utterance ID for identifying 1) and the second utterance t i (2) is given, for example, as shown in FIG. In FIG. 4, utterance IDs starting from 1 are newly assigned to the narrative utterance group.
  • step S3 described later is performed for each second utterance t i (2).
  • J is a predetermined positive integer.
  • J is an integer of 2 or more.
  • the non-spoken utterance group is the first utterance t ' j (1) and the second utterance made for the first utterance t' j (1) associated with the first utterance t ' j (1).
  • information about the non-spoken utterance set j can be obtained from a website where the exchange of dialogue such as Twitter (registered trademark) is expressed in text.
  • the non-spoken utterance set selection unit 3 includes the second utterance t i (2) of the stipulated utterance set i read from the first storage unit 1 and the non-spoken utterance set j read from the second storage unit 2. Entered.
  • the non-spoken utterance set selection unit 3 corresponds to a non-spoken utterance set corresponding to the second utterance t ′ j (2) that is the same as or similar to the second utterance t i (2) of each stipple utterance set i read from the first storage unit 1.
  • One or more utterance sets j are selected from the second storage unit 2 (step S3).
  • the selected non-speaking utterance set j is output to the extended squeezing utterance set generation unit 4.
  • n is a positive integer greater than or equal to 1 and less than or equal to J
  • n non-consistent utterances as a non-consistent utterance set corresponding to a second utterance t ' j (2) identical or similar to the second utterance t i (2)
  • the utterance group (t ′ 1 (1), t ′ 1 (2)),..., (T ′ n (1), t ′ n (2)) is selected.
  • Similarity is an index that represents the proximity of character strings that constitute an utterance such as Levenshtein distance, normalized Levenshtein distance, COS similarity, and WordMoversDistance.
  • the similarity may be an index representing the closeness between character strings, and is not limited to the Levenshtein distance, the normalized Levenstein distance, the COS similarity, and WordMoversDistance.
  • Exceeding a predetermined standard means that, when using a similarity that indicates that the value is similar as the value is smaller, the similarity is smaller than the predetermined standard value, and the similarity that indicates that the value is similar as the value is larger When the degree is used, the similarity is larger than a predetermined reference value.
  • Levenshtein distance is the minimum number of operations required to transform one character string into another by inserting, deleting, or replacing one character. One character insertion and one character deletion is counted as one operation, and one character replacement is counted as two operations.
  • the Levenshtein distance and the normalized Levenshtein distance between the two character strings r and r ′ can be obtained as follows.
  • the character string “ice cream” can be changed to the character string “dry ice” by the following deletion and insertion.
  • the character string “ice cream” can be changed to the character string “dry ice” by 10 operations of 6 deletions and 4 insertions. For this reason, the Levenstein distance between the character string “ice cream” and the character string “dry ice” is 10.
  • the string “chocolate-covered donut” is the deletion of the 11th character “c”, the 12th character “v”, the 12th character “e”, the 3rd character deletion, the 11th character
  • the character string “chocolate-topped donut” is created by six operations, including “t” in front of character, “p” in front of character 13, and “p” in front of character 13. Can do.
  • the number of characters in the character string “chocolate-covered donut” is 23, and the number of characters in the character string “chocolate-topped donut” is 22.
  • the non-random utterance set selection unit 3 determines that the normalized Levenstein distance with the second utterance t i (2) is smaller than a predetermined reference value.
  • One or more non-random utterance sets j corresponding to the utterance t ′ j (2) are selected from the second storage unit 2.
  • the predetermined reference value in this case is a number larger than 0 and smaller than 1, for example, 0.1.
  • the non-utterance group selection unit 3 selects the predetermined personality
  • the process of step S3 described above may be performed using the utterance utterance group i of the second utterance t i (2) having a high evaluation in preference.
  • the non-spoken utterance set selection unit 3 performs the process of step S3 described above only for the stipulated utterance set i of the second utterance t i (2) whose evaluation of a predetermined personality is a predetermined reference value or more. You may go.
  • the extended narrative utterance set generation unit 4 receives one or more non-narrative utterance groups selected by the non-narrative utterance group selection unit 3.
  • the extended narrative utterance group generation unit 4 generates a first utterance t ′ j (1) of each non-arranged utterance group j selected by the non-random utterance group selection unit 3 and a second utterance t i (2) of the narrative utterance group i. ) And the extended utterance utterance set (t ′ j (1), t i (2)) and output.
  • the generated extended speech group is stored in the storage unit 5.
  • the timing for performing the process of storing the generated extended speech group in the storage unit 5 is arbitrary. That is, the process of storing the generated extended Narikiri speech set in the storage unit 5, extended to Narikiri speech sets may be performed for each of the generated second utterances t i (2) 1 or more with respect to that May be performed after all of the extended utterance sets of the first generation are generated, or only once after all of the one or more extended utterance sets for each of the plurality of second utterances t i (2) are generated. It may be done.
  • non-spoken utterance sets (as non-spoken utterance sets j corresponding to the second utterance t ′ j (2) identical or similar to the second utterance t i (2) ( Assume that t ′ 1 (1), t ′ 1 (2)),..., (t ′ n (1), t ′ n (2)) are selected.
  • t ′ j (1) with t i (2)
  • n extended definite utterance pairs (t ′ 1 (1), t i (2)),..., (T ′ n (1), t i (2)) is generated.
  • the validity of the second utterance which is a response to the first utterance, was considered.
  • the method of the above embodiment is different from the methods proposed so far.
  • the second utterance as a response becomes the predetermined personality of the utterance utterance group. Since the two utterances t i (2) are themselves, there is an advantage that the predetermined personality is not lost.
  • Extended Narikiri utterance pair generation unit 4 as the number of identical second utterances t i in the second utterances t i which is stored in the first storage section 1 (2) (2) is large, the same first A weight assigning unit 41 that assigns a large weight to the extended utterance utterance set including the two utterances t i (2) may be provided.
  • the extended narrative utterance set having a large assigned weight is preferentially used.
  • the weight assigning unit 41 assigns the weight of f (10) to the extended utterance utterance set including the second utterance t i (2) that says “anything is sweet!” Giving the weight of f (3) to the extended utterance set including the second utterance t i (2) that says “Anything is sweet!”, And the second utterance “Kasutei is good!”
  • the weight of f (1) may be given to the extended utterance set including t i (2).
  • the expanded utterance utterance group generation unit 4 increases the weight of the same extended utterance utterance group as the number of the same extended utterance utterance group in the extended narration utterance group generated by the extended narration utterance group generation unit 4 increases. You may provide the weight provision part 41 to provide.
  • the extended narrative utterance set having a large assigned weight is preferentially used.
  • Modifications 1 and 2 may be combined.
  • extended Narikiri utterance pair generation unit 4 as the number of the same in the second utterances t i which is stored in the first storage section 1 (2) Second utterances t i (2) is large, the same The number of the same extended utterance set in the extended utterance utterance set generated by the extended utterance utterance set generation unit 4 is given a large weight to the extended utterance utterance set including the second utterance t i (2) of There may be provided a weight assigning unit 41 that assigns a greater weight to the same extended utterance set as the number of speech sets increases.
  • Modifications 1 and 2 By combining Modifications 1 and 2, the effects of both Modifications 1 and 2 can be obtained. That is, by combining the first and second modified examples, the predetermined personality and legitimacy of the utterance generated by the dialogue apparatus and method are increased.
  • the dialogue apparatus and method generates and outputs an utterance of a response to an utterance that is an input question using at least the extended utterance utterance set generated by the extended utterance utterance set generation apparatus and method.
  • the dialogue apparatus includes a storage unit 190 in which at least an extended speech group generated by the extended speech group generating device and method is stored, and an extended speech group stored in the storage unit 190.
  • a response utterance generation unit 100 that generates an utterance of a response corresponding to an utterance input by using at least an output, and an output unit 140.
  • the response utterance generation unit 100 includes, for example, an input unit 110, a question search unit 120, and an answer selection unit 130.
  • the dialogue method is realized, for example, when each component of the dialogue apparatus performs the processing from step S110 to step S140 described below and shown in FIG.
  • the storage unit 190 includes the complete speech group that is stored in the first storage unit 1 of the extended narrative utterance group generation device and the extended speech unit generated by the extended narrative utterance group generation device and method. Is stored.
  • the storage unit 190 stores an utterance group including a narrative utterance group and an extended narrative utterance group together with an utterance ID.
  • utterance ID 1,2,4,6 is an utterance set derived from a narration utterance set
  • the input unit 110 receives at least information that identifies the question and the entity that is the subject of the question (step S110).
  • the question search unit 120 confirms whether a similar question is recorded in the storage unit 190 for the question target entity (designated entity) (step S121).
  • the similar question means a question for which a suitable answer can be obtained.
  • a question having a similarity equal to or higher than a threshold may be used.
  • an index representing the proximity of character strings such as the Levenshtein distance, the normalized Levenstein distance, the COS similarity, and WordMoversDistance can be used.
  • the degree of similarity used here does not have to be the same as the index used for generating the above-mentioned extended talking group.
  • the question search unit 120 performs any of the following processes (Case 1) to (Case 3).
  • the question search unit 120 outputs an answer if even one word is recorded. That is, if the question including any word string included in the inputted question is in the question corresponding to the specified entity recorded in the storage unit 190, the question search unit 120 Output ⁇ question, answer> corresponding to the question.
  • Step S123 the similarity between the question Q and the question Q ′ is calculated for the question Q ′ associated with an entity other than the entity received from the input unit 110 among the questions stored in the storage unit 190.
  • the COS similarity sim (Q, Q ′) of a set of words included in each question can be used.
  • a distance scale using characters such as Levenshtein distance and normalized Levenstein distance may be used.
  • the question search unit 120 outputs a pair ⁇ question, answer> including a question having the largest similarity value.
  • the answer selection unit 130 selects the ⁇ question, answer> answer output by the question search unit 120 as an answer to the question (step S131).
  • the output unit 140 outputs the utterance of the selected answer (step S140).
  • the output utterance of the answer is presented to the user.
  • the answer selection unit 130 checks whether there is a plurality of answers to the input question. If there is only one answer, the answer is set as the answer to the input question. . When there are a plurality of answers to one input question, the answer selection unit 130 sets one of those answers as the answer to the input question. In this case, since any answer is recorded as the answer of the subject of the question, for example, any one may be selected at random. When a weight is given to the extended utterance set, the answer having the largest weight may be selected.
  • the answer selection unit 130 also checks whether there is a plurality of answers to the inputted question after step S123 (when step S121 is No), and if there is only one answer, the answer Is the answer to the entered question. When there are a plurality of answers to one input question, the answer selection unit 130 may select any one at random, for example. If the first storage unit 1 stores the number of data of the complete utterance set and the number of data is inherited by the extended set of utterance sets, the answer having the largest data number may be selected. This is because an answer with a large number of data is considered to be highly versatile as an answer to the question.
  • the dialogue apparatus and method may preferentially use an extended narrative utterance set having a large assigned weight.
  • the above-described processing from step S110 to step S140 may be performed using only an extended speech group whose assigned weight is equal to or greater than a predetermined reference value.
  • the dialogue apparatus and method may avoid duplicate responses by lowering the weight of the extended utterance set once used for a response when there may be a plurality of answers to the same question.
  • the dialogue system and method may be capable of adjusting the weights assigned to the extended utterance set.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program.
  • the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
  • ASP Application Service Provider
  • the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • the present apparatus is configured by executing a predetermined program on a computer.
  • a predetermined program on a computer.
  • at least a part of these processing contents may be realized by hardware.
  • the predetermined person who is the target of Narikiri is a novel / animation character.
  • the proposed method yields an extended utterance utterance pair in which the second utterance of the utterance utterance pair and the first utterance of the non-utterance utterance pair that can use the second utterance are paired.
  • the relatively versatile second utterance in the narration utterance group is combined with the first utterance that does not exist in the narration utterance group, and is set as an extended narrative utterance group as a new example. .
  • the second utterance of the narration utterance group is used in more diverse scenes by associating the second utterance with high versatility in the original narration utterance group with various first utterances, and there is a problem in previous research This is expected to reduce the number of cases where an appropriate second utterance cannot be found in response to user input.
  • the number of narrative utterance group candidates was 13,669, and the number of narrative utterance groups with 2 or more data was 311. On the basis of these, 1.21 million extended narrative utterances A set was obtained. In this way, the number of extended narration utterance sets about 100 times the number of narration utterance sets was obtained. Also, in terms of the number of types of words, the number of utterances in the Narikiri utterance group is 6136 words, while the number of utterances in the Extended Narration utterance group has increased to 153,000 words.
  • test data 50 pieces of data extracted from the narrative utterance set, which is the learning of the extension example and the dialogue system
  • the first utterance (which is sometimes not used) was used as input, and output sentences were obtained from each dialogue system, and the naturalness and character of the second utterance with respect to the first utterance were evaluated.
  • the dialogue system used in the experiment is an example-based dialogue system that uses full-text search and reranking.
  • an example having the first utterance closest to the user's input sentence was acquired using full-text search.
  • Lucene 2 was used for this full-text search.
  • the second utterance was reranked using the question type of the example and the matching degree of the full text search, and the one with the highest score was output.
  • the difference between the two dialogue systems is the target of full-text search used and the learning data for reranking.
  • One dialogue system (hereinafter referred to as “narikiri dialogue system”) uses only the narrative utterance set, and the other In the dialogue system (hereinafter referred to as “extended narration dialogue system”), both the narration utterance group and the extended narration utterance group are used.
  • the Narikiri Dialogue System achieved a naturalness of 3.04 points and a character of 3.15 points.
  • the naturalness of 3.23 points was obtained, and the character of 3.24 points was obtained.
  • higher naturalness and character evaluation were obtained when the extended dialogue group was used.
  • the evaluation of naturalness was significantly higher when using the extended narrative utterance group than when using only the narrative utterance group (Steel-Dwass test, p ⁇ 0.05). From these experimental results, it was found that the extended narration utterance set enables a more natural response while maintaining the same character characteristics as when only the narration utterance set is used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

拡張なりきり発話組生成装置には、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記憶されている第一記憶部1と、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記憶されている第二記憶部2と、第一記憶部1から読み込んだ各なりきり発話組iの第二発話ti(2)と同一又は類似の第二発話t'j(2)に対応する非なりきり発話組jを第二記憶部2から1個以上選択する非なりきり発話組選択部3と、選択された各非なりきり発話組jの第一発話t'j(1)と、各なりきり発話組iの第二発話ti(2)とを対応付けて拡張なりきり発話組とする拡張なりきり発話組生成部4と、を備えている。

Description

拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム
 この発明は、いわゆる用例ベース対話システムの技術(用例ベース対話システムで用いられる用例を生成する技術を含む。)に関する。
 従来のタスク指向の対話とは異なり、対話そのものを目的とする雑談対話システムの需要が高まっている。雑談対話システムは、単に人間の対話相手になるのみでなく、エンタテインメントやカウンセリングへの応用や、対話を通したユーザとシステム間の信頼関係の構築への貢献も期待されている。
 雑談対話システムの娯楽性や親近感をより高める取り組みとして、雑談対話システムが特定のキャラクタや歴史上の人物等の所定の人格になりきってユーザの質問や雑談に応える「なりきり対話システム」が存在する(例えば、特許文献1参照。)。
 なりきり対話システムは、作業者が所定の人格になりきって質問に答えることにより収集された質問応答データを用いている。品質の高い質問応答データを収集するために、例えば非特許文献1に記載された方法が用いられている(例えば、非特許文献1参照。)。
特開2011-103018号公報
東中竜一郎、(外2名)、"対話システムのための「なりきり質問応答」を用いた質問応答ペアの収集とその応用"、言語処理学会、第16回年次大会発表論文集、2010年3月
 非特許文献1の方法による質問応答データの収集では、複数の作業者からデータを集めることができるため、時間当たりの収集効率が良く、作業者1人当たりのコストは低い。
 しかし、なりきり対話システムが多様な質問応答、雑談に対応できるように、質問応答データを収集するには依然として大きなコストがかかる。
 これを解決する試みとして、既存の雑談対話システムと、文を特定のキャラクタや人物の話し方への変換する処理とを組み合わせる手法が提案されている。
 しかし、この手法では、応答の内容は雑談対話システムに依存しており、対話行為や発話の内容に話者らしさが反映されない可能性があった。
 この発明は、所定の人格らしさを反映した対話を行う対話装置を従来よりも低コストで実現するための拡張なりきり発話組生成装置、所定の人格らしさを反映した対話を行う対話装置、これらの方法及びプログラムを提供することを目的とする。
 この発明の一態様による拡張なりきり発話組生成装置によれば、第一発話ti(1)と、第一発話ti(1)に対応付けられている、第一発話ti(1)に対して所定の人格になりきって行われた第二発話ti(2)という2個の発話をなりきり発話組iとし、Iを所定の正の整数として、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記憶されている第一記憶部と、第一発話t'j(1)と、第一発話t'j(1)に対応付けられている、第一発話t'j(1)に対して行われた第二発話t'j(2)という2個の発話を非なりきり発話組とし、Jを所定の正の整数として、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記憶されている第二記憶部と、第一記憶部から読み込んだ各なりきり発話組iの第二発話ti(2)と同一又は類似の第二発話t'j(2)に対応する非なりきり発話組jを第二記憶部から1個以上選択する非なりきり発話組選択部と、選択された各非なりきり発話組jの第一発話t'j(1)と、各なりきり発話組iの第二発話ti(2)とを対応付けて拡張なりきり発話組とする拡張なりきり発話組生成部と、を備えている。
 この発明の一態様による対話装置によれば、請求項1から3の何れかの拡張なりきり発話組生成装置により生成された拡張なりきり発話組が少なくとも記憶されている記憶部と、記憶部に記憶されている拡張なりきり発話組を用いて、入力された発話に対応する応答発話を生成する応答発話生成部と、を備えている。
 非なりきり発話組を用いて、なりきり発話組を拡張した拡張なりきり発話組を生成することにより、そのなりきり発話組を利用可能な発話機会のバリエーションを低コストで増やすことができる。これにより、所定の人格らしさを反映した対話を行う対話装置を従来よりも低コストで実現することができる。
図1は、拡張なりきり発話組生成装置の機能構成の例を示す図である。 図2は、拡張なりきり発話組生成方法の処理手続きの例を示す図である。 図3は、第一発話及び第二発話のIDの例を示す図である。 図4は、第一記憶部1に記憶されているなりきり発話組の例を示す図である。 図5は、対話装置の機能構成の例を示す図である。 図6は、対話方法の処理手続きの例を示す図である。 図7は、記憶部190に記憶されている発話組の例を示す図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [拡張なりきり発話組生成装置及び方法]
 拡張なりきり発話組生成装置は、図1に示すように、第一記憶部1、第二記憶部2、なりきり発話組選択部3、拡張なりきり発話組生成部4及び記憶部5を例えば備えている。
 拡張なりきり発話組生成方法は、拡張なりきり発話組生成装置の各構成部が、以下に説明する及び図2に示すステップS3からステップS4の処理を行うことにより例えば実現される。
 以下、拡張なりきり発話組生成装置の各構成部について説明する。
 <第一記憶部1>
 第一記憶部1には、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記憶されている。
 Iは、所定の正の整数である。例えば、Iは、2以上の整数である。なりきり発話組iは、第一発話ti(1)と、第一発話ti(1)に対応付けられている、第一発話ti(1)に対して所定の人格になりきって行われた第二発話ti(2)という2個の発話である。
 例えば、第一発話は質問の発話であり、第二発話はその質問に対する応答の発話である。
 なお、なりきり発話組iは、第一発話ti(1)及び第二発話ti(2)を識別するための発話IDと共に、第一記憶部1に記憶されていてもよい。
 第一発話ti(1)及び第二発話ti(2)の例は、(ti(1),ti(2))=(「好きな食べ物は何ですか?」,「食えれば何でもよいわ!」)である。第一発話ti(1)及び第二発話ti(2)の他の例は、(ti(1),ti(2))=(「金ヶ崎退き口の戦いはどうでしたか?」,「さすがのワシも死を覚悟するほどであった」)である。
 第一記憶部1に記憶させるなりきり発話組の収集は、例えば以下のようにウェブサイトを通して行われる。まず、実在する有名人(歴史上の人物、俳優、ナレーター等)、架空のキャラクタ(小説やアニメの登場人物等)等の所定の人格をテーマにしてなりきりによるやり取りを質問応答の形式で行ってもらう趣旨のウェブサイトを構築する。そして、このウェブサイトにおいて、複数人(例えば50人程度かそれ以上)に、所定の質問に対する所定の人格になりきった回答を投稿してもらう。また、回答の投稿のみでなく、質問自体も投稿をしてもらい、以降に回答を投稿する人に対しては、投稿された質問も所定の質問に含めるようにしてもよい。所定の質問とその質問に対して投稿された各回答との組が、なりきり発話組の候補となる。なお、第二発話ti(2)である回答を識別するために各回答にはIDが付与される。
 そして、「所定の質問とその質問に対して投稿された各回答との組」のうち、例えば、ある発話組(以下、第一の発話組)の「回答の文字列」と類似又は同一である「回答の文字列」を有する、第一の発話組とは異なる第二の発話組が存在する場合に、第一の発話組および第二の発話組のそれぞれが「なりきり発話組」として第一記憶部1に記憶されてもよい。あるいは、例えば、第一の発話組の「所定の質問」とその質問に対して投稿された「回答」それぞれについて、第一の発話組の「所定の質問の文字列」と類似又は同一である「所定の質問の文字列」を有し、かつ、第一の発話組の「回答の文字列」と類似又は同一である「回答の文字列」を有する、第一の発話組とは異なる第二の発話組が存在する場合に、第一の発話組および第二の発話組のそれぞれが「なりきり発話組」として第一記憶部1に記憶されてもよい。要は、「所定の質問とその質問に対して投稿された各回答との組」のうち、「回答」が類似又は同一の組、または、「質問」と「回答」の両方が類似又は同一の組が2以上存在する発話組が「なりきり発話組」として第一記憶部1に記憶されてもよい。ここで、類似とは、文字列同士の類似度が所定の基準を満たすことである。例えば、「回答」が類似するとは、任意の二つの回答の文字列間の類似度が所定の基準を超えることである。例えば、「質問」と「回答」の両方が類似するとは、任意の二つの所定の質問の文字列間の類似度Aと、その二つの所定の質問それぞれに対応する二つの回答の文字列間の類似度Bとを加算平均(または二乗平均)した値が所定の基準を超える、または、類似度Aと類似度Bの双方が所定の基準を超えることである。類似度の定義及び例は、後述する。このように、なりきり発話組の候補の中に、「回答」が類似又は同一、または、「質問」と「回答」の両方が類似又は同一のなりきり発話組の候補が存在するなりきり発話組の候補を「なりきり発話組」とすることで、誤ったデータを学習させるなど悪意を持って回答されたデータを除外することができる。これにより、データの正確性を向上させることができる。
 なお、投稿された各回答の所定の人格らしさについての評価が投票可能となっていてもよい。投稿された第二発話ti(2)である回答の所定の人格らしさについての評価は、その第二発話ti(2)のなりきり発話組iと共に第一記憶部1に記憶される。
 「所定の質問とこのようにして投稿された各回答との組」のうち、類似又は同一の組の個数がカウントされた「データ個数」が、なりきり発話組に紐づけられて第一記憶部1に記憶されてもよい。
 なお、上記のウェブサイトで集められた直後のなりきり発話組の候補の第一発話ti(1)及び第二発話ti(2)を識別するためのIDは、例えば図3及び以下に説明するように付与されている。まず、第一発話ti(1)及び第二発話ti(2)を含めた発話のそれぞれに対して発話IDが付与されている。また、発話が第二発話ti(2)である場合には、質問元IDが更に付与されている。発話が第一発話ti(1)である場合には、その発話は質問そのものであるため、質問元IDは付与されていない。このため、図3では、発話が第一発話ti(1)である場合の質問元IDの欄に「None」と記載している。なお、第一発話ti(1)及び第二発話ti(2)は、一対一の対応しか取ることができないので、同じ発話内容である複数の第二発話ti(2)に対して異なる質問元IDが付与されている場合もある。図3では、「食えれば何でもよいわ!」という同じ発話内容である、発話IDが3,4の第二発話ti(2)に対して、それぞれ1,2の質問元IDが付与されている。
 上記のように、なりきり発話組の候補の中に2回以上登場したものがなりきり発話組として第一記憶部1に記憶されるが、その際に、なりきり発話組iの第一発話ti(1)及び第二発話ti(2)を識別するための発話IDは、例えば図4に示すように付与される。図4では、なりきり発話組に新たに1から始まる発話IDが付与されている。
 後述するステップS3以降の処理は、第二発話ti(2)ごとに行われる。
 <第二記憶部2>
 第二記憶部2には、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記憶されている。
 Jは、所定の正の整数である。例えば、Jは、2以上の整数である。
 非なりきり発話組は、第一発話t'j(1)と、第一発話t'j(1)に対応付けられている、第一発話t'j(1)に対して行われた第二発話t'j(2)という2個の発話である。
 第一発話t'j(1)及び第二発話t'j(2)の例は、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「食えれば何でもいいわ!」)である。第一発話t'j(1)及び第二発話t'j(2)の他の例は、(t'j(1),t'j(2))=(「昨日の地震、怖かったね」,「さすがの俺も死にそうだった」)である。
 なお、非なりきり発話組jについての情報は、例えばTwitter(登録商標)等の対話のやり取りがテキストで表されているwebサイトから得ることができる。
 <非なりきり発話組選択部3>
 非なりきり発話組選択部3には、第一記憶部1から読み込まれたなりきり発話組iの第二発話ti(2)と、第二記憶部2から読み込まれた非なりきり発話組jとが入力される。
 非なりきり発話組選択部3は、第一記憶部1から読み込んだ各なりきり発話組iの第二発話ti(2)と同一又は類似の第二発話t'j(2)に対応する非なりきり発話組jを第二記憶部2から1個以上選択する(ステップS3)。
 選択された非なりきり発話組jは、拡張なりきり発話組生成部4に出力される。
 例えば、nを1以上J以下の正の整数として、第二発話ti(2)と同一又類似の第二発話t'j(2)に対応する非なりきり発話組として、n個の非なりきり発話組(t'1(1),t'1(2)),…,(t'n(1),t'n(2))が選択される。
 第二発話ti(2)と同一又は類似の第二発話t'j(2)とは、第二発話ti(2)との類似度が所定の基準を超える第二発話t'j(2)である。
 類似度は、レーベンシュタイン距離、正規化レーベンシュタイン距離、COS類似度、WordMoversDistance等の発話を構成する文字列同士の近さを表す指標である。類似度は、文字列同士の近さを表す指標であればよく、レーベンシュタイン距離、正規化レーベンシュタイン距離、COS類似度、WordMoversDistanceに限るものではない。
 所定の基準を超えるとは、値が小さいほど似ていることを表す類似度を用いる場合には、類似度が所定の基準値より小さいことであり、値が大きいほど似ていることを表す類似度を用いる場合には類似度が所定の基準値より大きいことである。
 以下、類似度が正規化レーベンシュタイン距離である場合を例に挙げて説明する。
 レーベンシュタイン距離は、1文字の挿入、削除、置換によって、一方の文字列をもう一方の文字列に変形するのに必要な操作の最小回数である。1文字の挿入及び1文字の削除は1回の操作とカウントされ、1文字の置換は2回の操作とカウントされる。これに対して、正規化レーベンシュタイン距離は、レーベンシュタイン距離を、2個の文字列の中の長い方の文字列の文字数で割った値である。すなわち、文字列rと文字列r'の正規化レーベンシュタイン距離NLD(r,r')は、NLD(r,r')=(rとr'のレーベンシュタイン距離)/max(|r|,|r'|)である。ここで、|r|は文字列rの文字数であり、|r'|は文字列r'の文字数である。正規化レーベンシュタイン距離は、0以上1以下の値となる。レーベンシュタイン距離及び正規化レーベンシュタイン距離は、値が小さいほど似ていることを表す。
 例えば、2個の文字列r,r'が、r=「ice cream」,r'=「dry ice」であったとする。この場合、2個の文字列r,r'のレーベンシュタイン距離及び正規化レーベンシュタイン距離は、以下のようにして求めることができる。「ice cream」という文字列は、以下に示す削除と挿入により「dry ice」という文字列にすることができる。
 “ice cream”
 ↓“m”を削除
 “ice crea”
 ↓“a”を削除
 “ice cre”
 ↓“e”を削除
 “ice cr"
 ↓“r”を削除
 “ice c”
 ↓“c”を削除
 “ice ”
 ↓“e”の後ろの空白を削除
 “ice”
 ↓“d”を1文字目前に挿入
 “dice”
 ↓“r”を2文字目前に挿入
 “drice”
 ↓“y”を3文字目前に挿入
 “dryice”
 ↓空白を4文字目前に挿入
 “dry ice”
 このように、「ice cream」という文字列は、6回の削除と4回の挿入という10回の操作により、「dry ice」という文字列にすることができる。このため、「ice cream」という文字列と「dry ice」という文字列のレーベンシュタイン距離は10となる。
 「ice cream」という文字列rの文字数|r|は9であり、「dry ice」という文字列r'の文字数|r'|は7である。このため、正規化レーベンシュタイン距離NLD(r,r')=(rとr'のレーベンシュタイン距離)/max(|r|,|r'|)=10/max(9,7)=10/9≒1.11…となる。正規化レーベンシュタイン距離は0に近いほど似ていることを表すことを考慮すると、「ice cream」という文字列と「dry ice」という文字列は、ほとんど似ていないことがわかる。
 2個の文字列r,r'が、r=「chocolate-covered donut」,r'=「chocolate-topped donut」であるとする。この場合、「chocolate-covered donut」という文字列は、11文字目の「c」の削除、12文字目の「v」の削除、12文字目の「e」という3文字の削除、11文字目の前に「t」の挿入、13文字目の前に「p」、13文字目の前に「p」の挿入、という6回の操作により、「chocolate-topped donut」という文字列にすることができる。また、「chocolate-covered donut」という文字列の文字数は23であり、「chocolate-topped donut」という文字列の文字数は22である。このため、この場合、正規化レーベンシュタイン距離NLD(r,r')=6/23=0.26…となる。このため、「chocolate-covered donut」という文字列と「chocolate-topped donut」という文字列とは、比較的似ていることがわかる。
 類似度として正規化レーベンシュタイン距離を用いた場合には、非なりきり発話組選択部3は、第二発話ti(2)との正規化レーベンシュタイン距離が、所定の基準値よりも小さい第二発話t'j(2)に対応する非なりきり発話組jを第二記憶部2から1個以上選択する。この場合の所定の基準値は、0より大きく1より小さい数であり、例えば0.1である。
 例えば、第二発話ti(2)=「食えれば何でもよいわ!」であり、所定の基準値=0.2であるとする。また、記憶部2に、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「食えれば何でもいいわ!」)という非なりきり発話組jが記憶されているとする。
 まず、日本語の場合について説明する。
 「食えれば何でもよいわ!」という文字列は、8文字目の「よ」の削除、8文字目前に「い」の挿入という2回の操作により、又は、8文字目の「よ」を「い」にする置換という1回の操作により、「食えれば何でもいいわ!」という文字列にすることができる。このため、「食えれば何でもよいわ!」という文字列と「食えれば何でもいいわ!」という文字列のレーベンシュタイン距離は、2となる。また、「食えれば何でもいいわ!」という文字列の文字数及び「食えれば何でもよいわ!」という文字列の文字数は、11である。このため、「食えれば何でもよいわ!」という文字列と「食えれば何でもいいわ!」という文字列の正規化レーベンシュタイン距離は2/11≒0.18となる。0.18<0.2であるため、非なりきり発話組選択部3は、第二発話ti(2)=「食えれば何でもよいわ!」との正規化レーベンシュタイン距離が、所定の基準値0.2よりも小さい第二発話t'j(2)に対応する非なりきり発話組jとして、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「食えれば何でもいいわ!」)という非なりきり発話組jを選択する。
 次に、英語の場合について説明する。
 「I'd eat anything as long as it's edible !」という文字列は、3文字目の「d」の削除、3文字目前に「l」の挿入、3文字目前に「l」の挿入という3回の操作により、「I'll eat anything as long as it's edible !」という文字列にすることができる。このため、「I'd eat anything as long as it's edible !」という文字列と「I'll eat anything as long as it's edible !」という文字列のレーベンシュタイン距離は、3となる。また、「I'll eat anything as long as it's edible !」という文字列の文字数は42であり、「I'd eat anything as long as it's edible !」という文字列の文字数は、41である。このため、「I'd eat anything as long as it's edible !」という文字列と「I'll eat anything as long as it's edible !」という文字列の正規化レーベンシュタイン距離は3/42≒0.071となる。0.071<0.2であるため、非なりきり発話組選択部3は、第二発話ti(2)=「I'd eat anything as long as it's edible !」との正規化レーベンシュタイン距離が、所定の基準値0.2よりも小さい第二発話t'j(2)に対応する非なりきり発話組jとして、(t'j(1),t'j(2))=(「今日の晩御飯何がいい?」,「I'll eat anything as long as it's edible !」)という非なりきり発話組jを選択する。
 第一記憶部1に記憶されている第二発話ti(2)に所定の人格らしさについての評価が付与されている場合には、非なりきり発話組選択部3は、所定の人格らしさについての評価が高い第二発話ti(2)のなりきり発話組iを優先して用いて、上述のステップS3の処理を行ってもよい。例えば、非なりきり発話組選択部3は、所定の人格らしさについての評価が所定の基準値以上の第二発話ti(2)のなりきり発話組iに対してのみ、上述のステップS3の処理を行ってもよい。
 <拡張なりきり発話組生成部4>
 拡張なりきり発話組生成部4には、非なりきり発話組選択部3で選択された1個以上の非なりきり発話組が入力される。
 拡張なりきり発話組生成部4は、非なりきり発話組選択部3で選択された各非なりきり発話組jの第一発話t'j(1)と、なりきり発話組iの第二発話ti(2)とを対応付けて拡張なりきり発話組(t'j(1), ti(2))とし、出力する。
 生成された拡張なりきり発話組は、記憶部5に記憶される。生成された拡張なりきり発話組を記憶部5に記憶する処理を行うタイミングは、任意である。すなわち、生成された拡張なりきり発話組を記憶部5に記憶する処理は、拡張なりきり発話組が生成される度ごとに行われてもよいし、ある第二発話ti(2)に対する1個以上の拡張なりきり発話組の全てが生成された後に行われてもよいし、複数の第二発話ti(2)のそれぞれに対する1個以上の拡張なりきり発話組の全てが生成された後に一回だけ行われてもよい。
 例えば、非なりきり発話組選択部3で、第二発話ti(2)と同一又類似の第二発話t'j(2)に対応する非なりきり発話組jとしてn個の非なりきり発話組(t'1(1),t'1(2)),…,(t'n(1),t'n(2))が選択されたとする。この場合、各t'j(1)とti(2)とを対応付けることにより、n個の拡張なりきり発話組(t'1(1),ti(2)),…,(t'n(1),ti(2))が生成される。
 例えば、非なりきり発話組選択部3で、第二発話ti(2)=「食えれば何でもよいわ!」と同一又類似の第二発話t'j(2)に対応する非なりきり発話組jとして、(t'j(1),t'j(2))=(「小腹がすいたら何食べる?」,「食えれば何でもいいわ!」)という1個の非なりきり発話組が選択されたとする。この場合、第一発話t'j(1)=「小腹がすいたら何食べる?」と第二発話ti(2)=「食えれば何でもよいわ!」とを対応付けることにより、(t'j(1),ti(2))=(「小腹がすいたら何食べる?」,「食えれば何でもよいわ!」)という1個の拡張なりきり発話組が生成される。
 これまで提案されていた対話システムを高品質化する手法では、第一発話に対する応答である第二発話の妥当性を考えていた。これに対して、上記の実施形態の手法では、第二発話ti(2)でカバーすることができる第一発話の範囲を拡大することを考えている。この点で、上記の実施形態の手法は、これまで提案されていた手法と異なる。
 このようにして、第二発話ti(2)でカバーすることができる第一発話の範囲を拡大しても、応答である第二発話は、所定の人格になりきったなりきり発話組の第二発話ti(2)そのものであるため、所定の人格らしさは失われないという長所がある。
 [拡張なりきり発話組生成装置及び方法の変形例]
 [変形例1]
 拡張なりきり発話組生成部4は、第一記憶部1に記憶されている第二発話ti(2)の中で同一の第二発話ti(2)の数が多いほど、その同一の第二発話ti(2)を含む拡張なりきり発話組に大きな重みを付与する重み付与部41を備えていてもよい。
 この場合、後述する対話装置及び方法では、付与された重みが大きい拡張なりきり発話組が優先して用いられる。
 第一記憶部1に記憶されている第二発話ti(2)の中の同一の第二発話ti(2)の数が多いほど、その同一の第二発話ti(2)は所定の人格らしさが高いと言える。このため、第一記憶部1に記憶されている第二発話ti(2)の中の同一の第二発話ti(2)の数が多いほど、その同一の第二発話ti(2)を含む拡張なりきり発話組に大きな重みを付与し、対話装置及び方法で優先して用いられるようにすることで、対話装置及び方法により生成される発話の所定の人格らしさが高まる。
 例えば、第一記憶部1に記憶されている第二発話ti(2)の中に、「食えれば何でもよいわ!」という第二発話ti(2)が10回登場し、「甘いものなら何でもよいわ!」という第二発話ti(2)が3回登場し、「かすていらはうまい!」という第二発話ti(2)が1回登場したとする。
 この場合、fを所定の非減少関数として、重み付与部41は、「甘いものなら何でもよいわ!」という第二発話ti(2)を含む拡張なりきり発話組にf(10)の重みを付与し、「甘いものなら何でもよいわ!」という第二発話ti(2)を含む拡張なりきり発話組にf(3)の重みを付与し、「かすていらはうまい!」という第二発話ti(2)を含む拡張なりきり発話組にf(1)の重みを付与してもよい。
 [変形例2]
 拡張なりきり発話組生成部4は、拡張なりきり発話組生成部4により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど、その同一の拡張なりきり発話組に大きな重みを付与する重み付与部41を備えていてもよい。
 この場合、後述する対話装置及び方法では、付与された重みが大きい拡張なりきり発話組が優先して用いられる。
 拡張なりきり発話組生成部4により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど、その同一の拡張なりきり発話組は応答としても正当度合いが高いと言える。このため、拡張なりきり発話組生成部4により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど、その同一の拡張なりきり発話組に大きな重みを付与し、対話装置及び方法で優先して用いられるようにすることで、対話装置及び方法により生成される発話の正当度合いが高まる。
 [変形例3]
 変形例1及び2を組み合わせてもよい。
 すなわち、拡張なりきり発話組生成部4は、第一記憶部1に記憶されている第二発話ti(2)の中で同一の第二発話ti(2)の数が多いほど、その同一の第二発話ti(2)を含む拡張なりきり発話組に大きな重みを付与し、かつ、拡張なりきり発話組生成部4により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど、その同一の拡張なりきり発話組に大きな重みを付与する重み付与部41を備えていてもよい。
 変形例1及び2を組み合わせることにより、変形例1及び2の両方の効果を得ることができる。すなわち、変形例1及び2を組み合わせることにより、対話装置及び方法により生成される発話の所定の人格らしさ及び正当度合いが高まる。
 [対話装置及び方法]
 以下、対話装置及び方法の実施の形態について説明する。対話装置及び方法は、拡張なりきり発話組生成装置及び方法により生成された拡張なりきり発話組を少なくとも用いて、入力された質問である発話に対する応答の発話を生成して出力する。
 対話装置は、図5に示すように、拡張なりきり発話組生成装置及び方法により生成された拡張なりきり発話組が少なくとも記憶されている記憶部190と、記憶部190に記憶されている拡張なりきり発話組を少なくとも用いて入力された発話に対応する応答の発話を生成する応答発話生成部100と、出力部140とを例えば備えている。応答発話生成部100は、入力部110と、質問検索部120と、回答選択部130とを例えば備えている。
 対話方法は、対話装置の各構成部が、以下に説明する及び図6に示すステップS110からステップS140の処理を行うことにより例えば実現される。
 記憶部190には、質問に対する回答に個性を有する複数の実体に対する質問と回答の組合せ<質問,回答>が、実体に紐付けて記録されている。ここで、実体とは、人格のことである。<質問,回答>として、拡張なりきり発話組生成装置の第一記憶部1に記憶されていたなりきり発話組と、拡張なりきり発話組生成装置及び方法により生成された拡張なりきり発話組とが記憶部190に記憶されているとする。例えば、図7に示すように、記憶部190には、なりきり発話組と拡張なりきり発話組を含む発話組が、発話IDと共に記憶されている。図7の例では、発話ID=1,2,4,6、なりきり発話組に由来する発話組であり、発話ID=3,5が、拡張なりきり発話組に由来する発話組である。
 入力部110には、少なくとも質問と質問の対象となる実体を特定する情報が入力される(ステップS110)。質問検索部120は、記憶部190に質問の対象の実体(指定された実体)に対する同様の質問が記録されているかを確認する(ステップS121)。同様の質問とは、適した回答が得られる質問を意味しており、例えば閾値以上の類似度の質問とすればよい。類似度として、レーベンシュタイン距離、正規化レーベンシュタイン距離、COS類似度、WordMoversDistance等の文字列同士の近さを表す指標を用いることができる。ここで用いる類似度は、上述の拡張なりきり発話組の生成に用いた指標と同一でなくてよい。質問の対象の実体に対する質問が記録されている場合(ステップS121がYesの場合)、質問検索部120は入力された質問と同様の<質問,回答>を出力する(ステップS122)。
 記憶部190に質問を受けた実体に対する質問が記録されていない場合(ステップS121がNoの場合)、質問検索部120は、以下の(Case1)から(Case3)の何れかの処理を行う。
 (Case1)では、質問検索部120は、1単語でも記録されていれば回答を出力するというものである。すなわち、質問検索部120は、入力された質問に含まれる何れかの単語列を含む質問が、記憶部190の中に記録されている指定された実体に対応する質問の中にあれば、その質問に対応する<質問,回答>を出力する。
 (Case2)は、質問検索部120が、一般的な既存の一問一答システムで回答するというものである。
 (Case3)は、質問検索部120が、記憶部190に記録された質問の対象の実体以外の実体に対する質問の中から最も類似度の高い質問を検索し、<質問,回答>を出力するというものである(ステップS123)。さらに具体的に説明すると、記憶部190に蓄積された質問のうち入力部110から受け取った実体以外の実体に紐付けられた質問Q’について、質問Qと質問Q’の類似度を算出する。類似度の計算には、それぞれの質問に含まれる単語のセットのCOS類似度sim(Q,Q')を例えば用いることができる。類似度として、COS類似度以外にも、レーベンシュタイン距離、正規化レーベンシュタイン距離等の文字を単位とする距離尺度を用いてもよい。
 質問検索部120は、類似度の値が最も大きい質問を含むペア<質問,回答>を出力する。
 回答選択部130は、質問検索部120が出力した<質問,回答>の回答を、質問に対する回答として選択する(ステップS131)。
 出力部140は、選択された回答の発話を出力する(ステップS140)。出力された回答の発話は、ユーザに提示される。
 なお、入力された1つの質問に対して複数の回答が対応している場合がある。回答選択部130は、ステップS122の処理の後に、入力された1つの質問に対して回答が複数あるかを確認し、回答が1つしかない場合、その回答を入力された質問に対する回答とする。入力された1つの質問に対して回答が複数ある場合、回答選択部130は、それらの回答のいずれかを入力された質問に対する回答とする。この場合は、どの回答も質問の対象の実体の回答として記録されているものであるため、例えばランダムにいずれかを選ぶこととすればよい。拡張なりきり発話組に重みが付与されている場合には、最も重みの大きな回答を選ぶこととしてもよい。
 また、回答選択部130は、ステップS123の後(ステップS121がNoの場合)も、入力された1つの質問に対して回答が複数あるかを確認し、回答が1つしかない場合、その回答を入力された質問に対する回答とする。入力された1つの質問に対して回答が複数ある場合、回答選択部130は、例えばランダムにいずれかを選ぶこととすればよい。第一記憶部1になりきり発話組のデータ個数が記憶されており、拡張なりきり発話組に当該データ個数が継承されている場合には、データ個数が最も大きな回答を選ぶこととしてもよい。データ個数が多い回答は、質問に対する回答としての汎用性が高いものと考えられるためである。
 なお、対話装置及び方法は、付与された重みが大きい拡張なりきり発話組を優先して用いてもよい。例えば、付与された重みが所定の基準値以上の拡張なりきり発話組のみを用いて、上述のステップS110からステップS140の処理を行ってもよい。
 なお、対話装置及び方法は、同じ質問に対して、複数の回答があり得た場合に、一度応答に使用した拡張なりきり発話組の重みを下げることにより、重複した応答を避けてもよい。
 例えば、「好きな食べ物はなんですか?」と聞かれたときに、最も高い重みが付与された(「今日の晩御飯何がいい?」,「食えれば何でもよいわ!」)という拡張なりきり発話組が既に用いられていたとする。この場合、(「今日の晩御飯何がいい?」,「食えれば何でもよいわ!」)という拡張なりきり発話組が用いられた時点で、(「今日の晩御飯何がいい?」,「食えれば何でもよいわ!」)という拡張なりきり発話組に付与された重みを下げる。これにより、(「今日の晩御飯何がいい?」,「食えれば何でもよいわ!」)という拡張なりきり発話組に付与された重みを下げて以降に「好きな食べ物はなんですか?」と聞かれたときに、最も高い重みが付与されていた発話組を用いて回答を生成することにより、「甘いものなら何でもよいわ!」という第二発話ti(2)を含む対話の中で未使用の拡張なりきり発話組、すなわち、使用済みの「今日の晩御飯何がいい?」,「食えれば何でもよいわ!」という拡張なりきり発話組以外の拡張なりきり発話組が用いられやすいようにしてもよい。
 このように、対話システム及び方法は、拡張なりきり発話組に付与された重みを調整可能であってもよい。
 [他の変形例]
 以上、この発明の実施の形態及び変形例について説明したが、具体的な構成は、これらの実施の形態及び変形例に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
 実施の形態及び変形例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 [実験結果]
 提案手法による効果を確認するために、事例分析と定性評価、実際の対話システムへの組み込みによる主観評価を行った。
 なりきりの対象である所定の人物は、小説・アニメの登場人物であるとする。
 例えば、なりきりの対象である所定の人物が徳川家康の場合、第一記憶部1に記憶されているなりきり発話組の例は、(ti(1),ti(2))=(「鳴かぬなら、鳴くまで待とう?」,「ホトトギス」)、(ti(1),ti(2))=(「好きな食べ物はなんですか?」,「鯛が好きじゃ」)、(ti(1),ti(2))=(「埋蔵金はどこにありますか?」,「秘密じゃ」)であるとする。
 第二記憶部2に記憶されている非なりきり発話組の例は、(t'i(1),t'i(2))=(「好きな鳥は?」,「ホトトギス~」)、(t'i(1),t'i(2))=(「寿司で好きなネタは?」,「鯛が好き!」)、(t'i(1),t'i(2))=(「今日の模試の点数何点だった?」,「秘密じゃん」)であるとする。
 提案手法により、例えば、(「好きな鳥は?」,「ホトトギス」)、(「寿司で好きなネタは?」,「鯛が好きじゃ」)、(「今日の模試の点数何点だった?」,「秘密じゃ」)という拡張なりきり発話組が得られた。
 提案手法によって、なりきり発話組の第二発話と、その第二発話が利用可能な非なりきり発話組の第一発話が対となった拡張なりきり発話組が得られているのがわかる。例えば、(「好きな鳥は?」,「ホトトギス」)という拡張なりきり発話組は、(ti(1),ti(2))=(「鳴かぬなら、鳴くまで待とう?」,「ホトトギス」)というなりきり発話組の第二発話と、(t'i(1),t'i(2))=(「好きな鳥は?」,「ホトトギス~」)という非なりきり発話組の第一発話とを対にしたものである。
 これらの事例から、なりきり発話組の中の比較的汎用性の高い第二発話が、なりきり発話組に存在しない第一発話と組み合わせられ、新たな用例として拡張なりきり発話組とされていることがわかる。
 元となったなりきり発話組の中でも汎用性の高い第二発話と、多様な第一発話が対応づけられることによって、より多様な場面でなりきり発話組の第二発話が利用され、先行研究で課題となっていたユーザの入力に対して適切な第二発話が見つからないケースを減少させる効果が期待される。
 さらに、提案手法により、小説・アニメの登場人物をなりきりの対象とした実験を行った。なりきり発話組の候補の個数が1万3669個であり、データ個数2個以上のなりきり発話組の個数が311個であったのに対して、これらを元にして、121万個の拡張なりきり発話組が得られた。このように、なりきり発話組の個数の約100倍の個数の拡張なりきり発話組が得られた。また、単語の種類数においても、なりきり発話組の発話の単語の種類が6136語であるのに対して、拡張なりきり発話組の発話の単語の種類は15万3000語と増加した。
 主観評価実験では、2個の対話システムを構築し、その出力について26名の被験者が評価を行った。主観評価の際には、用例の拡張の際に元にしたなりきり発話組の評価条件を踏まえ、テストデータ(なりきり発話組から抜き出した50個のデータであり、これは拡張用例および対話システムの学習時には用いられない)の第一発話を入力として、出力文をそれぞれの対話システムから取得し、第一発話に対する第二発話の自然性とキャラクタ性について評価した。
 実験に用いた対話システムは、全文検索とリランキングを用いた用例ベース対話システムである。まず、ユーザの入力文に対して最も近い第一発話をもつ用例を全文検索を用いて取得した。この全文検索にはLucene 2を利用した。さらに用例の質問タイプや全文検索の一致度などを用いて、第二発話をリランキングし、最も得点の高いものを出力した。2つの対話システムの違いは利用している全文検索の対象およびリランキングの学習データで、一方の対話システム(以下、「なりきり対話システム」とする。)ではなりきり発話組のみを利用し、他方の対話システム(以下、「拡張なりきり対話システム」とする。)ではなりきり発話組と拡張なりきり発話組の両方を用いた。
 なりきり対話システムでは、3.04ポイントの自然性が得られ、3.15ポイントのキャラクタ性が得られた。これに対して、拡張なりきり対話システムでは、3.23ポイントの自然性が得られ、3.24ポイントのキャラクタ性が得られた。このように、拡張なりきり対話組を用いた場合の方が、高い自然性、キャラクタ性の評価が得られた。特に、自然性の評価はなりきり発話組のみを用いた場合に比べて、拡張なりきり発話組を用いた場合は有意に高くなった(Steel-Dwass法による検定、p<0.05)。これらの実験結果から、拡張なりきり発話組は、なりきり発話組のみを用いた場合と同程度のキャラクタ性を維持したまま、より自然な応答を可能にすることがわかった。
1 第一記憶部
2 第二記憶部
3 発話組選択部
4 発話組生成部
5 記憶部

Claims (7)

  1.  第一発話ti(1)と、前記第一発話ti(1)に対応付けられている、前記第一発話ti(1)に対して所定の人格になりきって行われた第二発話ti(2)という2個の発話をなりきり発話組iとし、Iを所定の正の整数として、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記憶されている第一記憶部と、
     第一発話t'j(1)と、前記第一発話t'j(1)に対応付けられている、前記第一発話t'j(1)に対して行われた第二発話t'j(2)という2個の発話を非なりきり発話組とし、Jを所定の正の整数として、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記憶されている第二記憶部と、
     前記第一記憶部から読み込んだ各なりきり発話組iの第二発話ti(2)と同一又は類似の第二発話t'j(2)に対応する非なりきり発話組jを前記第二記憶部から1個以上選択する非なりきり発話組選択部と、
     前記選択された各非なりきり発話組jの第一発話t'j(1)と、前記各なりきり発話組iの第二発話ti(2)とを対応付けて拡張なりきり発話組とする拡張なりきり発話組生成部と、
     を含む拡張なりきり発話組生成装置。
  2.  請求項1の拡張なりきり発話組生成装置であって、
     前記第二発話ti(2)と同一又は類似の第二発話t'j(2)は、前記第二発話ti(2)との類似度が所定の基準を超える第二発話t'j(2)である、
     拡張なりきり発話組生成装置。
  3.  請求項1又は2の拡張なりきり発話組生成装置であって、
     前記拡張なりきり発話組生成部は、前記第一記憶部に記憶されている第二発話ti(2)の中の同一の第二発話ti(2)の数が多いほど前記同一の第二発話ti(2)を含む拡張なりきり発話組に大きな重みを付与する、及び/又は、前記拡張なりきり発話組生成部により生成される拡張なりきり発話組の中の同一の拡張なりきり発話組の数が多いほど前記同一の拡張なりきり発話組に大きな重みを付与する重み付与部を含む、
     拡張なりきり発話組生成装置。
  4.  請求項1から3の何れかの拡張なりきり発話組生成装置により生成された拡張なりきり発話組が少なくとも記憶されている記憶部と、
     前記記憶部に記憶されている拡張なりきり発話組を用いて、入力された発話に対応する応答発話を生成する応答発話生成部と、
     を含む対話装置。
  5.  第一記憶部には、第一発話ti(1)と、前記第一発話ti(1)に対応付けられている、前記第一発話ti(1)に対して所定の人格になりきって行われた第二発話ti(2)という2個の発話をなりきり発話組iとし、Iを所定の正の整数として、I個のなりきり発話組i=(ti(1),ti(2))(i=1,…,I)が記憶されているとし、
     第二記憶部には、第一発話t'j(1)と、前記第一発話t'j(1)に対応付けられている、前記第一発話t'j(1)に対して行われた第二発話t'j(2)という2個の発話を非なりきり発話組とし、Jを所定の正の整数として、J個の非なりきり発話組j=(t'j(1),t'j(2))(j=1,…,J)が記憶されているとし、
     非なりきり発話組選択部が、前記第一記憶部から読み込んだ各なりきり発話組iの第二発話ti(2)と同一又は類似の第二発話t'j(2)に対応する非なりきり発話組jを前記第二記憶部から1個以上選択する非なりきり発話組選択ステップと、
     拡張なりきり発話組生成部が、前記選択された各非なりきり発話組jの第一発話t'j(1)と、前記各なりきり発話組iの第二発話ti(2)とを対応付けて拡張なりきり発話組とする拡張なりきり発話組生成ステップと、
     を含む拡張なりきり発話組生成方法。
  6.  記憶部には、請求項1から3の何れかの拡張なりきり発話組生成装置により生成された拡張なりきり発話組が少なくとも記憶されているとして、
     応答発話生成部が、前記記憶部に記憶されている拡張なりきり発話組を少なくとも用いて、入力された発話に対応する応答の発話を生成する応答発話生成ステップと、
     を含む対話方法。
  7.  請求項1から3の何れかの拡張なりきり発話組生成装置又は請求項4の対話装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2019/015090 2018-04-25 2019-04-05 拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム WO2019208161A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/050,226 US11508357B2 (en) 2018-04-25 2019-04-05 Extended impersonated utterance set generation apparatus, dialogue apparatus, method thereof, and program
JP2020516177A JP7040610B2 (ja) 2018-04-25 2019-04-05 拡張なりきり発話組生成装置、方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-083926 2018-04-25
JP2018083926 2018-04-25

Publications (1)

Publication Number Publication Date
WO2019208161A1 true WO2019208161A1 (ja) 2019-10-31

Family

ID=68294038

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/015090 WO2019208161A1 (ja) 2018-04-25 2019-04-05 拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム

Country Status (3)

Country Link
US (1) US11508357B2 (ja)
JP (1) JP7040610B2 (ja)
WO (1) WO2019208161A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196356A (ja) * 2004-01-05 2005-07-21 Nec Corp 擬似人格対話システム、方法、およびプログラム
JP2011103018A (ja) * 2009-11-10 2011-05-26 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム
JP2017049681A (ja) * 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
JP7111154B2 (ja) * 2018-04-27 2022-08-02 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
US11195524B2 (en) * 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
US11211055B2 (en) * 2019-01-14 2021-12-28 Microsoft Technology Licensing, Llc Utilizing rule specificity in conversational AI

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196356A (ja) * 2004-01-05 2005-07-21 Nec Corp 擬似人格対話システム、方法、およびプログラム
JP2011103018A (ja) * 2009-11-10 2011-05-26 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、質問応答方法、質問応答プログラム
JP2017049681A (ja) * 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Also Published As

Publication number Publication date
JPWO2019208161A1 (ja) 2021-04-22
US11508357B2 (en) 2022-11-22
US20210104226A1 (en) 2021-04-08
JP7040610B2 (ja) 2022-03-23

Similar Documents

Publication Publication Date Title
JP7111154B2 (ja) 回答選択装置、回答選択方法、回答選択プログラム
JP6819990B2 (ja) 対話システム及びそのためのコンピュータプログラム
US8818926B2 (en) Method for personalizing chat bots
CN111506712B (zh) 对话系统、对话方法、程序以及存储介质
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
CN109582700A (zh) 一种语音房间用户匹配方法、装置及设备
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
Ismail et al. Bangla word clustering based on n-gram language model
CN113239666B (zh) 一种文本相似度计算方法及系统
KR20210056114A (ko) 자동 질의응답 장치
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
KR20170122755A (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
US9786274B2 (en) Analysis of professional-client interactions
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
Dhanani et al. FAST-MT Participation for the JOKER CLEF-2022 Automatic Pun and Humour Translation Tasks
Zhou et al. Odsum: New benchmarks for open domain multi-document summarization
WO2019208161A1 (ja) 拡張なりきり発話組生成装置、対話装置、これらの方法及びプログラム
White et al. Using zero-resource spoken term discovery for ranked retrieval
Kennedy et al. Learning and reusing dialog for repeated interactions with a situated social agent
Syed et al. Task proposal: The tl; dr challenge
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
Schuller Emotion modelling via speech content and prosody: in computer games and elsewhere
Du et al. Towards automatic generation of entertaining dialogues in chinese crosstalks
Pal et al. Comparing Statistical Models for Retrieval based Question-answering Dialogue: BERT vs Relevance Models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19792611

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020516177

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19792611

Country of ref document: EP

Kind code of ref document: A1