WO2022249221A1 - 対話装置、対話方法、およびプログラム - Google Patents

対話装置、対話方法、およびプログラム Download PDF

Info

Publication number
WO2022249221A1
WO2022249221A1 PCT/JP2021/019515 JP2021019515W WO2022249221A1 WO 2022249221 A1 WO2022249221 A1 WO 2022249221A1 JP 2021019515 W JP2021019515 W JP 2021019515W WO 2022249221 A1 WO2022249221 A1 WO 2022249221A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
dialogue
user
unit
question
Prior art date
Application number
PCT/JP2021/019515
Other languages
English (en)
French (fr)
Inventor
竜一郎 東中
雅博 水上
航 光田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/019515 priority Critical patent/WO2022249221A1/ja
Priority to JP2023523706A priority patent/JPWO2022249221A1/ja
Publication of WO2022249221A1 publication Critical patent/WO2022249221A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • This invention relates to technology for interacting with humans using natural language.
  • Non-Patent Document 1 describes in detail the task-oriented dialogue system and the non-task-oriented dialogue system.
  • Task-oriented dialogue systems are widely used as personal assistants and smart speakers on smartphones.
  • the main construction methods of task-oriented dialog systems are state-transition-based and frame-based.
  • a state of hearing a place name (start state), a state of hearing a date, a state of providing weather information (end state), and the like are defined.
  • start state a state of hearing a place name
  • end state a state of providing weather information
  • the dialogue starts, it transitions to the listening state defined as the starting state.
  • the listening state defined as the starting state.
  • the state changes to the state of hearing the date.
  • the state of listening to the date when the user speaks the date, the state transitions to the state of providing weather information.
  • the weather information is conveyed to the user by referring to an external database based on the information on place names and dates heard so far, and the dialogue ends.
  • This interactive act updates a "frame", an information structure internal to the system.
  • the frames contain the information heard from the user from the beginning of the dialogue up to that point.
  • the frame includes slots for "place name” and "date", for example. "Tomorrow” is embedded in the "Date” slot by the above dialogue action.
  • Dialog control generates the next action that the dialog system should take based on the updated frame.
  • actions are often expressed as dialogue acts. For example, if the "place name” slot is empty, a dialogue act having a "place name question” dialogue act type is generated.
  • the system's dialogue acts are converted into natural language (eg, "Where's the weather?") by speech generation and output to the user.
  • non-task-oriented dialogue systems For example, a method based on manually created response rules, an example-based method that retrieves system utterances for user utterances from large-scale texts using text retrieval methods, and response utterances based on a deep learning model based on large-scale dialogue data. There are methods to generate
  • Non-Patent Documents 2 and 3 methods have been proposed for generating utterances with a consistent character by converting word endings and the like to match characters, or by referring to predetermined profile information.
  • Non-Patent Document 4 a method of collecting questions and responses regarding characters from online users has been proposed (see, for example, Non-Patent Document 4). Specifically, an online user is asked to write questions about the target character, and the online user is asked to post responses to those questions. Online users have the pleasure of being able to ask questions to the characters they are interested in, and at the same time have the pleasure of imagining being able to pretend to be the characters they are interested in and responding to them.
  • Non-Patent Document 4 shows that this method can efficiently collect character-like utterances from online users. It is also shown that a chat dialogue system with high character can be constructed by using pairs of collected questions and answers (hereinafter also referred to as "question-answer data").
  • Non-Patent Document 4 can be used to collect a large amount of questions and their responses. Can not do it.
  • a dialogue system constructed based on a small amount of question-answer data has a problem of low response capability.
  • question-and-answer data is collected from online users and applied to a dialogue system, even if a large amount of data can be collected, there is a problem that exchanges beyond one question and one answer cannot be performed. For example, contextual dialogue systems that hear and respond to some information cannot be implemented.
  • the object of the present invention is to use question-and-answer data to perform exchanges that exceed a single question-and-answer, and to generate highly accurate system utterances even with a small amount of question-and-answer data. to present.
  • a dialogue apparatus comprises a question-and-answer collection unit that collects question-and-answer data including a dialogue state, questions, and responses, and generates an utterance template associated with the state based on the question-and-answer data.
  • a template generation unit an utterance generation unit that generates system utterances using an utterance template associated with a current dialogue state, an utterance presentation unit that presents system utterances to a user, and an utterance that receives user utterances uttered by users. It includes a reception unit and a state transition unit that transitions the state of the current dialogue based on user utterances.
  • a dialogue apparatus comprises a question-and-answer collection unit for collecting question-and-answer data including dialogue acts representing utterance intentions, questions, and responses;
  • a template generation unit that generates a template, an utterance generation unit that generates a system utterance using an utterance template associated with the next dialogue act, an utterance presentation unit that presents the system utterance to a user, and a user who has uttered the utterance. It includes an utterance reception unit that receives utterances, and a dialogue control unit that determines the next dialogue act based on user utterances.
  • a dialogue apparatus includes a question-and-answer collection unit that collects paraphrase data including an utterance and an utterance that paraphrases the utterance; A conversion model generation unit that learns an utterance conversion model that outputs utterances, an utterance generation unit that generates system utterances, and an utterance conversion unit that inputs system utterances into the utterance conversion model and obtains converted system utterances by paraphrasing the system utterances. and an utterance presentation unit that presents the post-conversion system utterance to the user.
  • FIG. 1 is a diagram illustrating the functional configuration of the interactive device of the first embodiment.
  • FIG. 2 is a diagram illustrating the processing procedure of the interaction method of the first embodiment.
  • FIG. 3 is a diagram illustrating the functional configuration of the interactive device of the second embodiment.
  • FIG. 4 is a diagram illustrating the processing procedure of the interaction method of the second embodiment.
  • FIG. 5 is a diagram illustrating the functional configuration of the interactive device of the third embodiment.
  • FIG. 6 is a diagram illustrating the processing procedure of the interaction method of the third embodiment.
  • FIG. 7 is a diagram illustrating the functional configuration of a computer.
  • the present invention collects question-response pairs associated with states and dialogue acts by asking online users to post questions and responses corresponding to states and dialogue acts, which are internal representations of the dialogue system. Then, by generating utterances based on them, the accuracy of system utterances is improved. By collecting utterances that resemble specific characters from online users, it is possible to make any dialogue system have character. In addition, by collecting character-like paraphrasing utterances from online users for responses of a given dialogue system and generating utterances based on the pair of current system utterances and character-like utterances, we can create an arbitrary dialogue system. It can have character.
  • utterances are collected from online users for each state, dialogue act, and utterance, but these have different restrictions.
  • the state represents the situation in which the dialogue system is placed, and there are multiple semantic contents that the dialogue system can utter in that situation.
  • the utterances collected for a dialogue act are constrained by the semantic content of that dialogue act. For example, given a dialogue action of "transmitting weather information", the semantic content of utterances collected from online users must convey weather information.
  • states there are cases where the semantic content is not restricted, such as "initial state of dialogue”.
  • the restrictions are stricter because the base expressions are also defined. Strict restrictions mean that online users have less freedom, which leads to efficient collection of only paraphrasing necessary to realize character-likeness.
  • the existing task-oriented dialogue system when a predetermined character (hereinafter referred to as "character A") is given, the existing task-oriented dialogue system is configured to respond like character A.
  • a dialogue system for guiding weather information is assumed.
  • Existing interactive systems for guiding weather information are state-transition-based and frame-based.
  • the first embodiment is an example of a state transition-based task-oriented dialog system.
  • the second and third embodiments are examples of frame-based task-oriented dialog systems.
  • Each embodiment will be described with a task-oriented dialogue system as its target, but the present invention is also applicable to non-task-oriented dialogue systems as long as they have states or dialogue actions.
  • character A is assumed to be a boy in elementary school. Also, a place is prepared for character A to collect questions and responses from online users. Specifically, this is a website (hereinafter referred to as a "question and answer collection site"). On the question-and-answer collection site, a user who is interested in character A can post a question about character A or a response pretending to be character A. When creating a question, tags representing states and dialogue actions can be entered as attached information.
  • the first embodiment of the present invention is an example of a dialog apparatus and method for presenting system utterances for responding like character A to input user utterances in a state transition-based task-oriented dialog system.
  • the dialogue device 1 of the first embodiment includes, for example, a template storage unit 10, a state extraction unit 11, a question and answer collection unit 12, a template generation unit 13, an utterance generation unit 14, an utterance presentation unit 15, A speech reception unit 16 and a state transition unit 17 are provided.
  • the dialogue device 1 may include a speech recognition section 18 and a speech synthesis section 19 .
  • the interaction method of the first embodiment is realized by the interaction device 1 executing the processing of each step shown in FIG.
  • a dialogue device is, for example, a special device configured by reading a special program into a publicly known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main memory (RAM: Random Access Memory), etc. is.
  • the interactive device executes each process under the control of, for example, a central processing unit. Data input to the interactive device and data obtained in each process are stored, for example, in a main memory device, and the data stored in the main memory device are read out to the central processing unit as necessary and used for other purposes. used for processing. At least a part of each processing unit included in the interactive device may be configured by hardware such as an integrated circuit.
  • Each storage unit provided in the interactive device is, for example, a main storage device such as RAM (Random Access Memory), an auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory device such as flash memory, or a relational database. and middleware such as a key-value store.
  • a main storage device such as RAM (Random Access Memory)
  • auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory device such as flash memory, or a relational database.
  • middleware such as a key-value store.
  • the dialogue device 1 receives as input text representing the contents of user utterances, and outputs text representing the contents of system utterances for responding to the user utterances, thereby executing a dialogue with the user who is the dialogue partner.
  • the dialogue executed by the dialogue device 1 may be text-based or speech-based.
  • a dialogue screen displayed on a display unit such as a display provided in the dialogue device 1 is used to execute dialogue between the user and the dialogue device 1 .
  • the display unit may be installed in the housing of the interactive device 1, or may be installed outside the housing of the interactive device 1 and connected to the interactive device 1 via a wired or wireless interface.
  • the dialogue screen includes at least an input area for inputting user utterances and a display area for presenting system utterances.
  • the dialogue screen may include a history area for displaying the history of the dialogue from the start of the dialogue to the present, or the history area may also serve as a display area.
  • the user inputs text representing the contents of the user's utterance into the input area of the interactive screen.
  • the dialogue device 1 displays text representing the content of the system utterance in the display area of the dialogue screen.
  • the dialogue device 1 When executing dialogue based on speech, the dialogue device 1 further includes a speech recognition unit 18 and a speech synthesis unit 19 .
  • the dialogue device 1 also has a microphone and a speaker (not shown).
  • the microphone and speaker may be installed in the housing of the interactive device 1, or may be installed outside the housing of the interactive device 1 and connected to the interactive device 1 via a wired or wireless interface.
  • the microphone and speaker may be installed in an android modeled after a human, or a robot modeled after an animal or a fictional character.
  • an android or a robot may be provided with the speech recognition unit 18 and the speech synthesis unit 19, and the interactive device 1 may be configured to input/output text representing the contents of user utterances or system utterances.
  • the microphone picks up an utterance uttered by the user and outputs a sound representing the content of the user's utterance.
  • the speech recognition unit 18 receives as an input speech representing the content of user's utterance, and outputs text representing the content of user's utterance, which is the result of speech recognition of the speech.
  • a text representing the content of the user's utterance is input to the utterance reception unit 16 .
  • the text representing the content of the system utterance output by the utterance presentation unit 15 is input to the speech synthesis unit 19 .
  • the speech synthesizing unit 19 receives a text representing the content of the system utterance, and outputs a voice representing the content of the system utterance obtained as a result of voice synthesis of the text.
  • the speaker emits sound representing the content of the system utterance.
  • step S11 the state extraction unit 11 acquires a list of states defined inside the dialogue device 1 (for example, the state transition unit 17) and outputs the acquired state list to the question and answer collection unit 12.
  • the state transition unit 17 For example, the state transition unit 17
  • step S12 the question-and-answer collection unit 12 receives the state list from the state extraction unit 11, collects question-and-answer data associated with each state from the online user, and outputs the collected question-and-answer data to the template generation unit 13. do. Specifically, first, the question-and-answer collection unit 12 adds each state as a tag to the question-and-answer collection site and makes it selectable on the posting screen. The online user selects a tag of an arbitrary state on the question-and-answer collection site, and inputs a question that character A would ask in that state and an answer to that question. As a result, the question-and-answer collection unit 12 can acquire the question-and-answer data tagged with the status.
  • utterances such as "Where do you want to hear the weather?” Speech such as "When?" In the "state of providing weather information", utterances such as "### day! are collected. However, ### is a placeholder filled with weather information extracted each time from the weather information database in the utterance generation unit 14 .
  • the template generator 13 receives the question-and-answer data from the question-and-answer collection unit 12, builds an utterance template from the question-and-answer data associated with each state, and stores it in the template storage unit 10.
  • An utterance template is an utterance template associated with each state of the state transition model. These are used when transitioning to the relevant state. Usually, it is assumed that questions contained in question-and-answer data are used as utterance templates, but responses may be used as utterance templates. Which of the questions and answers included in the question-and-answer data is to be used as an utterance template may be determined in advance based on the content of the state.
  • the utterance template for "Listening to place names” is "Where is your location?"
  • the template for "Listening to dates” is "What day is it?" is "Today's weather is ###". Since an utterance template is simply a pair of a state name and an utterance, it can be constructed by selecting a state and one utterance associated with it from the collected question-answer data.
  • step S14 the utterance generation unit 14 receives the current state of the dialogue as an input, acquires an utterance template associated with the current state of the dialogue from the utterance templates stored in the template storage unit 10, and obtains the acquired utterance.
  • the template is used to generate text representing the content of the system utterance, and the generated text representing the content of the system utterance is output to the utterance presenting unit 15 .
  • the current dialog state to be input is a predetermined start state (here, "listening to the place name”) if it is the first execution from the start of the dialog, and will be described later if it is the second or later execution. This is the state after the transition output by the state transition unit 17 .
  • the information corresponding to the placeholders is obtained from a predetermined database, and by embedding the obtained information in the placeholders of the utterance template, text representing the content of the system utterance is generated. do.
  • the weather information is retrieved from the weather information database (here, it is "sunny sometimes cloudy") and ### is changed to "sunny sometimes cloudy”.
  • ⁇ Today's weather is sunny and sometimes cloudy'' is the text representing the content of the system utterance.
  • step S15 the utterance presenting unit 15 receives the text representing the content of the system utterance from the utterance generating unit 14, and presents the text representing the content of the system utterance to the user by a predetermined method.
  • the text representing the content of the system utterance is output to the display section of the dialogue device 1 .
  • the dialogue is executed on a voice basis, the text representing the content of the system utterance is input to the voice synthesizing unit 18, and the voice representing the content of the system utterance outputted by the voice synthesizing unit 18 is reproduced from a predetermined speaker.
  • step S100 the dialogue device 1 determines whether or not the current dialogue has ended. If it is determined that the current dialogue has not ended (NO), the process proceeds to step S16. If it is determined that the current dialogue has ended (YES), the processing is terminated and the next dialogue is waited for to start.
  • the decision to end the dialogue may be made by determining whether or not the current state is a predefined end state (here, "weather information providing state").
  • step S16 the speech accepting unit 16 receives the text representing the content of the user's utterance input to the dialogue device 1 (or output by the speech recognition unit 18), and uses the text representing the content of the user's utterance as a state transition signal. Output to unit 17 .
  • step S17 the state transition unit 17 receives the text representing the content of the user utterance from the utterance reception unit 16, analyzes the content of the user utterance, transitions the state of the current dialogue based on the analysis result, and after the transition state is output to the utterance generation unit 14 .
  • the state transition unit 17 For example, in the "listening to place name" state, if a place name is included in the user's utterance, the place name is acquired, and then the state transitions to the next "listening to date" state.
  • the 'listening to the date' state if the date is included in the user's utterance, the date is obtained and then transitioned to the next 'state of providing weather information'.
  • Whether or not a place name is included in the user's utterance can be determined by character string matching as to whether or not the text representing the contents of the user's utterance includes a place name that matches a list of place names prepared in advance. The same is true for dates.
  • a named entity extraction technique based on a sequence labeling technique such as a conditional random field may be performed to extract place names and dates, thereby determining whether user utterances include place names and dates.
  • the dialogue device 1 returns the process to step S14 and presents the system utterance associated with the post-transition state.
  • the dialogue apparatus 1 repeats the presentation of system utterances (steps S14 and S15) and the acceptance of user utterances (steps S16 and S17) until it is determined in step S100 that the dialogue has ended. Run.
  • a specific example of dialogue executed by the dialogue device 1 of the first embodiment is shown below.
  • the first embodiment it is possible to construct a state transition-based task-oriented dialogue system for guiding weather information with a predetermined character-like utterance, as follows. Note that the description in parentheses in the system utterance represents the state at that time. System: Where do you want to hear the weather? (Listening to place names) User: I'm from Tokyo. System: When? (listening to the date) User : Today. System: It's sunny! (State of providing weather information)
  • the utterance template generation unit 13 can dynamically generate an utterance template for each dialogue, so that various phrasings typical of the character A can be made. As a result, it is possible to realize a task-oriented dialog system that is more human-like, friendly, and rich in expressiveness.
  • the second embodiment of the present invention is an example of a dialogue apparatus and method for presenting system utterances for responding like character A to input user utterances in a frame-based task-oriented dialogue system.
  • the dialog device 2 of the second embodiment includes a template storage unit 10, a question-and-answer collection unit 12, a template generation unit 13, an utterance generation unit 14, and an utterance presentation unit provided in the dialog device 1 of the first embodiment.
  • a dialogue log storage unit 20 , a dialogue action extraction unit 21 , a speech understanding unit 22 , and a dialogue control unit 23 are provided.
  • the dialogue device 2 may include a speech recognition unit 18 and a speech synthesis unit 19, like the dialogue device 1 of the first embodiment.
  • the interaction method of the second embodiment is realized by the interaction device 2 executing the processing of each step shown in FIG.
  • the dialogue log storage unit 20 stores the dialogue log when the user and the dialogue device interacted with each other.
  • the dialogue log contains text representing the contents of user utterances, text representing the contents of system utterances, and labels representing system dialogue actions.
  • the system dialogue act represents the utterance intent of the system utterance and is the dialogue act type of the system dialogue act.
  • the text representing the content of the user's utterance is stored when the utterance accepting unit 16 outputs the text representing the content of the user's utterance.
  • the text representing the content of the system utterance and the label representing the system dialogue act are stored when the utterance generation unit 14 outputs the text representing the content of the system utterance.
  • step S21 the dialogue act extraction unit 21 acquires a list of system dialogue acts from the dialogue log stored in the dialogue log storage unit 20, and outputs the acquired list of system dialogue acts to the question and answer collection unit 12.
  • a list of system dialogue actions defined inside the dialogue device 2 for example, the dialogue control unit 23
  • step S12 the question-and-answer collection unit 12 receives a list of system dialogue acts from the dialogue act extraction unit 21, collects question-and-answer data associated with each system dialogue act from online users, and uses the collected question-and-answer data as a template. Output to the generation unit 13 .
  • the question-and-answer collection unit 12 adds each system dialogue act as a tag to the question-and-answer collection site, and makes it selectable on the posting screen.
  • the online user selects an arbitrary system dialogue action tag on the question-and-answer collection site, and inputs a question that character A would ask in the system dialogue action and an answer to the question.
  • the question-and-answer collection unit 12 can acquire question-and-answer data tagged with the system dialogue act. For example, utterances such as "Where do you want to hear the weather?" Utterances such as "When?" In the system dialogue act of "providing weather information", utterances such as "### day! are collected.
  • the template generation unit 13 receives the question-response data from the question-response collection unit 12, constructs an utterance template from the question-response data associated with each system dialogue act, and stores it in the template storage unit 10.
  • An utterance template is an utterance template associated with each system dialogue act. These are used when uttering the system dialogue act. Usually, it is assumed that questions contained in question-and-answer data are used as utterance templates, but responses may be used as utterance templates. Which of the questions and answers included in the question-and-answer data is to be used as the utterance template may be determined in advance based on the content of the dialogue act.
  • the utterance template for "A question about a place name” is "Where is your place?" is "Today's weather is ###". Since an utterance template is simply a pair of a dialogue act name and an utterance, it can be constructed by selecting a system dialogue act and one associated utterance from the collected question-answer data.
  • step S14 the utterance generation unit 14 receives the next system dialogue act as input, acquires an utterance template associated with the system dialogue act from the utterance templates stored in the template storage unit 10, and acquires the acquired utterance template. is used to generate a text representing the content of the system utterance, and the generated text representing the content of the system utterance is output to the utterance presentation unit 15 .
  • the system dialogue act to be input is a predetermined dialogue act (for example, "question of place name”) if it is executed for the first time from the start of the dialogue, and if it is executed for the second time or later, a dialogue control unit to be described later. 23 outputs the next system interaction action.
  • step S22 the utterance understanding unit 22 receives the text representing the content of the user utterance from the utterance receiving unit 16, analyzes the content of the user utterance, obtains the user dialogue act representing the intention of the user utterance, and the attribute value pair.
  • the resulting user dialogue action and attribute value pair are output to the dialogue control unit 23 .
  • a user interaction act is an interaction act type of a user interaction act. In the present embodiment, it is assumed that there are three user dialogue actions, namely, "transmission of location name", “transmission of date”, and “transmission of location name and date”. For example, "transmission of place names" takes place names as attributes. Propagating Date takes the date as an attribute. "Transfer place name and date” takes both place name and date as attributes.
  • a user dialogue act can be obtained using a classification model learned by a machine learning method from data in which dialogue act types are assigned to utterances.
  • a machine learning technique for example, logistic regression can be used, and support vector machines and neural networks can also be used.
  • step S23 the dialogue control unit 23 receives the user dialogue action and the attribute value pair from the speech understanding unit 22, fills a predefined frame with the attribute value pair, and according to the state of the frame, determines the next system dialogue action to be performed. is determined, and the determined system dialogue act is output to the utterance generation unit 14 .
  • the method of determining system interaction actions is performed according to rules described in the form of If-Then, for example. For example, if the user interaction action is "conveying the date", processing such as filling the "date" slot with the attribute of the date is described. Also, if there is a slot in which the value is not filled in the frame, the process of selecting the system dialogue action to inquire about that slot next is described.
  • the behavior of the dialogue control part is not only the If-Then rule, but also the Encoder-Decoder type neural network that obtains the output for the input, the Markov decision process that learns the optimal action for the input, and the partially observable Markov decision. It may be implemented by reinforcement learning using processes.
  • the third embodiment of the present invention is another example of a dialogue apparatus and method for presenting system utterances for responding like character A to input user utterances in a frame-based task-oriented dialogue system.
  • the dialogue device 3 of the third embodiment includes a template storage unit 10, a question-and-answer collection unit 12, a template generation unit 13, an utterance generation unit 14, and an utterance presentation unit provided in the dialogue device 2 of the second embodiment.
  • an utterance reception unit 16 a dialogue log storage unit 20, a dialogue act extraction unit 21, an utterance understanding unit 22, and a dialogue control unit 23, and furthermore, a transformation model storage unit 30, an utterance extraction unit 31, and a transformation model generation unit 32, and an utterance conversion unit 33.
  • the dialogue device 3 may include a speech recognition unit 18 and a speech synthesis unit 19, like the dialogue device 1 of the first embodiment.
  • the interaction method of the third embodiment is realized by the interaction device 3 executing the processing of each step shown in FIG.
  • step S31 the utterance extraction unit 31 acquires a list of system utterances from the dialogue log stored in the dialogue log storage unit 20, and outputs the acquired list of system utterances to the question and answer collection unit 12.
  • a list of system utterances that the dialogue device 3 can utter may be obtained from inside the dialogue device 3 (for example, the template storage unit 20).
  • step S12-2 the question-and-answer collection unit 12 receives a list of system utterances from the utterance extraction unit 31, and pairs of each system utterance and a paraphrase utterance obtained by paraphrasing the system utterance from the online user (hereinafter, also referred to as “paraphrase data”). called), and outputs the collected paraphrasing data to the conversion model generation unit 32 .
  • the question-and-answer collection unit 12 adds each system utterance to the question-and-answer collection site as a tag, and makes it selectable on the posting screen.
  • the online user selects an arbitrary system utterance tag on the question-and-answer collection site, paraphrases the system utterance, and inputs the utterance character A would make.
  • the question-and-answer collection unit 12 can acquire the paraphrase utterance by the character A tagged with the system utterance. For example, paraphrase utterances such as "Where do you want to hear the weather?" are collected in response to the system utterance "Where is your place?" of the system dialogue act "question about the place name.”
  • the conversion model generation unit 32 receives the paraphrase data from the question-and-answer collection unit 12, and learns an utterance conversion model that paraphrases the utterance by using the tagged system utterance and the paraphrase utterance input by the online user as paired data. and stores the learned utterance conversion model in the conversion model storage unit 30 .
  • a Seq2Seq model based on a neural network can be used.
  • the BERT model is used for the encoder and decoder
  • OpenNMT-APE is used as the tool. This tool can build a generative model that generates output utterances for inputs from tokenized pairs of utterance data.
  • the speech conversion model may be learned by another method, for example, a method using a recursive neural network. BERT and OpenNMT-APE are described in detail in References 1 and 2 below.
  • step S33 the utterance conversion unit 33 receives the text representing the content of the system utterance from the utterance generation unit 14, inputs the text representing the content of the system utterance to the utterance conversion model stored in the conversion model storage unit 30, A text representing the content of the system utterance after conversion is obtained by paraphrasing the system utterance, and the obtained text representing the content of the system utterance after conversion is output to the utterance presenting unit 15 .
  • the utterance presenting unit 15 of the third embodiment receives the text representing the content of the converted system utterance from the utterance generating unit 14, and predetermines the text representing the content of the converted system utterance as the text representing the content of the system utterance. Present to the user in a way.
  • Computer-readable recording media are, for example, non-temporary recording media such as magnetic recording devices and optical discs.
  • this program will be carried out, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded.
  • the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.
  • a computer that executes such a program for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer once in the auxiliary recording unit 1050, which is its own non-temporary storage device. Store. When executing the process, this computer reads the program stored in the auxiliary recording unit 1050, which is its own non-temporary storage device, into the storage unit 1020, which is a temporary storage device, and follows the read program. Execute the process. Also, as another execution form of this program, the computer may read the program directly from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially.
  • ASP Application Service Provider
  • the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, and realizes the processing function only by its execution instruction and result acquisition.
  • ASP Application Service Provider
  • the program in this embodiment includes information that is used for processing by a computer and that conforms to the program (data that is not a direct instruction to the computer but has the property of prescribing the processing of the computer, etc.).
  • the device is configured by executing a predetermined program on a computer, but at least part of these processing contents may be implemented by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

質問応答データが少量であってもユーザ発話に対して精度の高い応答を行う。質問応答収集部(12)は、対話の状態と質問と応答とを含む質問応答データを収集する。テンプレート生成部(13)は、質問応答データに基づいて状態と関連付けられた発話テンプレートを生成する。発話生成部(14)は、現在の対話の状態に関連付けられた発話テンプレートを用いてシステム発話を生成する。発話提示部(15)は、システム発話をユーザへ提示する。発話受付部(16)は、ユーザが発話したユーザ発話を受け付ける。状態遷移部(17)は、ユーザ発話に基づいて現在の対話の状態を遷移させる。

Description

対話装置、対話方法、およびプログラム
 この発明は、人間と自然言語を用いて対話を行う技術に関する。
 音声認識技術や音声合成技術などの進展に伴い、人間と自然言語を用いて対話を行う対話システムが一般に普及している。対話システムは、一般に、所定のタスクを達成するためのタスク指向型対話システムと、対話すること自体を目的とする非タスク指向型対話システム(一般に「雑談対話システム」とも呼ばれる)に分類される。タスク指向型対話システムと非タスク指向型対話システムについては、非特許文献1に詳述されている。
 タスク指向型対話システムは、スマートフォン上のパーソナルアシスタントやスマートスピーカーとして広く用いられている。タスク指向型対話システムの主な構成法として、状態遷移ベースのものとフレームベースのものがある。
 状態遷移ベースの対話システムでは、対話をいくつかの状態に分類し、その状態間を遷移することでタスクを遂行する。例えば、天気情報案内を行う対話システムの場合、地名を聞く状態(開始状態)、日付を聞く状態、天気情報を提供する状態(終了状態)などが定義される。対話が開始すると、開始状態として定義された地名を聞く状態に遷移する。地名を聞く状態では、ユーザが地名を発話すると、日付を聞く状態に遷移する。日付を聞く状態では、ユーザが日付を発話すると、天気情報を提供する状態に遷移する。天気情報を提供する状態では、これまでに聞き取った地名と日付の情報に基づいて外部のデータベースを参照することで天気情報をユーザに伝え、対話を終了する。
 フレームベースの対話システムでは、ユーザにより発話が入力されると、発話理解、対話制御、発話生成の各プロセスを経て、ユーザの発話に応答する発話が出力される。発話理解は、ユーザ入力をシステムの内部表現に変換する。内部表現として、一般に対話行為が用いられる。対話行為とは、発話意図を表すシンボル(対話行為タイプ)とそれに付随する属性値対からなる意味表現である。例えば、天気情報案内を行う対話システムの場合、「明日の天気を教えてください」というユーザ発話からは、「日付の伝達」という対話行為タイプと、「日付=明日」という属性値対が得られる。この対話行為はシステム内部にある情報構造である「フレーム」を更新する。フレームには、対話の開始からその時点までにユーザから聞き取った情報が入力されている。上記の天気情報案内を行う対話システムの例であれば、フレームには、例えば、「地名」と「日付」のスロットが含まれる。上記の対話行為によって、「日付」のスロットに「明日」が埋め込まれる。対話制御は、更新されたフレームに基づいて、対話システムが次に行うべき行動を生成する。ここで、行動は対話行為として表現されることが多い。例えば、「地名」のスロットが空であれば、「地名の質問」という対話行為タイプを持つ対話行為を生成する。システムの対話行為は、発話生成によって自然言語(例えば、「どこの天気ですか?」)に変換され、ユーザに向けて出力される。
 非タスク指向型対話システムの構築法は複数の方法が提案されている。例えば、手動で作成された応答ルールによる方法、テキスト検索の手法を用いて大規模テキストからユーザ発話に対するシステム発話を検索する用例ベースの方法、大規模な対話データに基づき深層学習のモデルによって応答発話を生成する方法などがある。
 タスク指向型対話システムと非タスク指向型対話システムのどちらについても、キャラクタ性を持たせることが重要とされている。キャラクタ性により、人間らしい親しみを与えることが可能だからである。キャラクタ性を持たせるためには、発話内容や話し方を一貫させる必要があり、そのための手法も多く研究されている。例えば、非特許文献2,3のように、語尾等をキャラクタに合うように変換する、または、所定のプロフィール情報を参照することでキャラクタ性が一貫した発話を生成する手法が提案されている。
 キャラクタ性を持つ対話システムを構築するためには、対象となるキャラクタの発話データを用意し、それらに基づき発話生成部を構築することが望ましい。そうした発話データの効率的な収集法として、オンラインユーザからキャラクタに関する質問と応答を収集する方法が提案されている(例えば非特許文献4参照)。具体的には、対象となるキャラクタに対する質問をオンラインユーザに記述してもらい、それらの質問に対する応答をそのオンラインユーザに投稿してもらう。オンラインユーザは自身が関心を持つキャラクタに対して質問ができるという楽しみがあると同時に、自身が関心を持つキャラクタになりきって応答ができるという想像の楽しみがある。非特許文献4には、この手法によれば、効率的にオンラインユーザからキャラクタらしい発話を収集できることが示されている。また、収集された質問と応答のペア(以下、「質問応答データ」とも呼ぶ)を用いることで、高いキャラクタ性を持った雑談対話システムを構築できることが示されている。
東中竜一郎,稲葉通将,水上雅博,「Pythonでつくる対話システム」,オーム社,2020年 Miyazaki, Chiaki, et al, "Towards an entertaining natural language generation system: Linguistic peculiarities of Japanese fictional characters," Proceedings of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue, 2016. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, Jason Weston, "Personalizing Dialogue Agents: I have a dog, do you have pets too?", Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018. Ryuichiro Higashinaka, Masahiro Mizukami, Hidetoshi Kawabata, Emi Yamaguchi, Noritake Adachi, Junji Tomita, "Role play-based question-answering by real users for building chatbots with consistent personalities," Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, 2018.
 高度な対話システムであっても、ユーザが対話をしたくなるようなキャラクタ性を持たないと、利用されない恐れがある。しかし、既存の対話システムにキャラクタ性を持たせたい場合、システム開発者が対象となるキャラクタに合わせて発話生成部を作りなおす必要がある。オンラインユーザが多く存在する場合は、非特許文献4の方法を用いて、大量に質問とその応答を収集することができるが、キャラクタに対してオンラインユーザが少ない場合、多くの質問応答データを収集することができない。少ない質問応答データに基づいて構築された対話システムは、応答能力が低いという問題がある。加えて、オンラインユーザから質問応答データを収集して対話システムに適用する場合、たとえ大量のデータを収集することができたとしても、一問一答を超えるやりとりができないという問題がある。例えば、いくつかの情報を聞き取って応答するような文脈を踏まえた対話システムを実現することができない。
 この発明の目的は、上記のような技術的課題に鑑みて、質問応答データを用いて一問一答を超えるやりとりを行い、かつ、質問応答データが少量であっても精度の高いシステム発話を提示することである。
 この発明の第一の態様の対話装置は、対話の状態と質問と応答とを含む質問応答データを収集する質問応答収集部と、質問応答データに基づいて状態と関連付けられた発話テンプレートを生成するテンプレート生成部と、現在の対話の状態に関連付けられた発話テンプレートを用いてシステム発話を生成する発話生成部と、システム発話をユーザへ提示する発話提示部と、ユーザが発話したユーザ発話を受け付ける発話受付部と、ユーザ発話に基づいて現在の対話の状態を遷移させる状態遷移部と、を含む。
 この発明の第二の態様の対話装置は、発話意図を表す対話行為と質問と応答とを含む質問応答データを収集する質問応答収集部と、質問応答データに基づいて対話行為と関連付けられた発話テンプレートを生成するテンプレート生成部と、次に行う対話行為に関連付けられた発話テンプレートを用いてシステム発話を生成する発話生成部と、システム発話をユーザへ提示する発話提示部と、ユーザが発話したユーザ発話を受け付ける発話受付部と、ユーザ発話に基づいて次に行う対話行為を決定する対話制御部と、を含む。
 この発明の第三の態様の対話装置は、発話とその発話を言い換えた発話とを含む言い替えデータを収集する質問応答収集部と、言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、システム発話を生成する発話生成部と、システム発話を発話変換モデルに入力してシステム発話を言い換えた変換後システム発話を得る発話変換部と、変換後システム発話をユーザへ提示する発話提示部と、を含む。
 この発明によれば、質問応答データを用いて一問一答を超えるやりとりを行うことができ、かつ、質問応答データが少量であっても精度の高いシステム発話を提示することができる。
図1は第一実施形態の対話装置の機能構成を例示する図である。 図2は第一実施形態の対話方法の処理手順を例示する図である。 図3は第二実施形態の対話装置の機能構成を例示する図である。 図4は第二実施形態の対話方法の処理手順を例示する図である。 図5は第三実施形態の対話装置の機能構成を例示する図である。 図6は第三実施形態の対話方法の処理手順を例示する図である。 図7はコンピュータの機能構成を例示する図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [発明の概要]
 本発明では、対話システムの内部表現である状態や対話行為に対して、対応する質問と応答をオンラインユーザに投稿してもらうことで、状態や対話行為に関連付けられた質問と応答のペアを収集し、それらに基づき発話生成を行うことで、システム発話の精度を向上する。オンラインユーザから特定のキャラクタらしい発話を収集すれば、任意の対話システムにキャラクタ性を持たせることが可能となる。また、所定の対話システムの応答に対して、キャラクタらしい言い換えとなる発話をオンラインユーザから収集し、現在のシステム発話とキャラクタらしい発話のペアに基づいて発話生成を行うことで、任意の対話システムにキャラクタ性を持たせることができる。これにより、対話システムが複数の状態や対話行為を遷移するような対話を実行する場合でも、各状態や各対話行為に関連付けられた質問と応答のペアを用いることで、状況に応じて適切な応答を行うことができ、キャラクタ性を持った一問一答を超える一貫した対話を実現することができる。
 本発明においては、状態、対話行為、発話のそれぞれについてオンラインユーザから発話を収集するが、これらはそれぞれ制約が異なる。状態は対話システムが置かれている状況を表し、その状況において対話システムが発話可能な意味内容は複数あり得る。しかしながら、対話行為について収集される発話はその対話行為の意味内容に制約される。例えば、「天気情報の伝達」という対話行為が与えられたとき、オンラインユーザから収集される発話の意味内容は天気情報を伝達するものでなければならない。一方、状態の場合は、「対話の初期状態」のように意味内容に制約を受けない場合がある。発話に対する言い換えを収集する場合は、ベースとなる表現も規定するため、制約はより厳しい。制約が厳しいということは、オンラインユーザの自由度が少なく、キャラクタらしさを実現するために必要な言い換えのみを効率的に収集することに繋がる。
 各実施形態では、所定のキャラクタ(以下、「キャラクタA」と呼ぶ)が与えられたとき、既存のタスク指向型対話システムをキャラクタAらしく応答できるように構成する。ここでは、既存のタスク指向型対話システムとして、天気情報を案内する対話システムを想定する。既存の天気情報を案内する対話システムは、状態遷移ベースのものとフレームベースのものがある。第一実施形態は、状態遷移ベースのタスク指向型対話システムの例である。第二実施形態および第三実施形態は、フレームベースのタスク指向型対話システムの例である。各実施形態では、タスク指向型対話システムを対象として説明するが、本発明は、状態または対話行為を有する対話システムであれば、非タスク指向型対話システムにも適用可能である。
 各実施形態では、キャラクタAとして、小学生の男の子という設定のキャラクタを想定する。また、キャラクタAに対してオンラインユーザから質問とその応答を収集するための場を用意する。これは、具体的にはウェブサイト(以下、「質問応答収集サイト」と呼ぶ)である。質問応答収集サイト上では、キャラクタAに関心のあるユーザが、キャラクタAに対する質問やキャラクタAになりきった応答を投稿することができる。質問を作成する際には、状態や対話行為を表すタグを付属情報として入力できる。
 [第一実施形態]
 この発明の第一実施形態は、状態遷移ベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタAらしく応答するためのシステム発話を提示する対話装置およびその方法の一例である。第一実施形態の対話装置1は、図1に示すように、例えば、テンプレート記憶部10、状態抽出部11、質問応答収集部12、テンプレート生成部13、発話生成部14、発話提示部15、発話受付部16、および状態遷移部17を備える。対話装置1は、音声認識部18および音声合成部19を備えていてもよい。この対話装置1が図2に示す各ステップの処理を実行することにより、第一実施形態の対話方法が実現される。
 対話装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。対話装置が備える各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。対話装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
 以下、図2を参照して、第一実施形態の対話装置1が実行する対話方法について詳細に説明する。
 対話装置1は、ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話に応答するためのシステム発話の内容を表すテキストを出力することで、対話相手となるユーザとの対話を実行する。対話装置1が実行する対話は、テキストベースで行われてもよいし、音声ベースで行われてもよい。
 テキストベースで対話を実行する場合、対話装置1が備えるディスプレイ等の表示部(図示せず)に表示された対話画面を用いて、ユーザと対話装置1との対話が実行される。表示部は、対話装置1の筐体に設置されていてもよいし、対話装置1の筐体外に設置され、有線または無線のインターフェイスで対話装置1に接続されていてもよい。対話画面には、少なくともユーザ発話を入力するための入力領域と、システム発話を提示するための表示領域が含まれる。対話画面には、対話の開始から現在までに行われた対話の履歴を表示するための履歴領域が含まれていてもよいし、履歴領域が表示領域を兼ねていてもよい。ユーザは、対話画面の入力領域へユーザ発話の内容を表すテキストを入力する。対話装置1は、対話画面の表示領域へシステム発話の内容を表すテキストを表示する。
 音声ベースで対話を実行する場合、対話装置1は、音声認識部18および音声合成部19をさらに備える。また、対話装置1は、マイクロホンおよびスピーカ(図示せず)を備える。マイクロホンおよびスピーカは、対話装置1の筐体に設置されていてもよいし、対話装置1の筐体外に設置され、有線または無線のインターフェイスで対話装置1に接続されていてもよい。また、マイクロホンおよびスピーカを、人間を模したアンドロイドや、動物や架空のキャラクタを模したロボットに搭載してもよい。この場合、アンドロイドやロボットが音声認識部18および音声合成部19を備え、対話装置1には、ユーザ発話またはシステム発話の内容を表すテキストを入出力するように構成してもよい。マイクロホンは、ユーザが発声した発話を収音し、ユーザ発話の内容を表す音声を出力する。音声認識部18は、ユーザ発話の内容を表す音声を入力とし、その音声の音声認識結果であるユーザ発話の内容を表すテキストを出力する。ユーザ発話の内容を表すテキストは、発話受付部16へ入力される。発話提示部15が出力するシステム発話の内容を表すテキストは、音声合成部19へ入力される。音声合成部19は、システム発話の内容を表すテキストを入力とし、そのテキストを音声合成した結果として得られるシステム発話の内容を表す音声を出力する。スピーカは、システム発話の内容を表す音声を放音する。
 ステップS11において、状態抽出部11は、対話装置1の内部(例えば、状態遷移部17)に定義されている状態の一覧を取得し、取得した状態の一覧を質問応答収集部12へ出力する。本実施形態では、「地名を聞く状態」と「日付を聞く状態」と「天気情報を提供する状態」の3つの状態が取得されたものとする。
 ステップS12において、質問応答収集部12は、状態抽出部11から状態の一覧を受け取り、オンラインユーザから各状態に関連付けられた質問応答データを収集し、収集した質問応答データをテンプレート生成部13へ出力する。具体的には、まず、質問応答収集部12は、質問応答収集サイトに各状態をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意の状態のタグを選択し、その状態においてキャラクタAがするであろう質問と、その質問に対する応答を入力する。これにより、質問応答収集部12は、状態がタグ付けされた質問応答データを取得することができる。例えば、「地名を聞く状態」の質問として「どこの天気が聞きたいの?」「どこのこと?」などの発話が収集される。「日付を聞く状態」の質問として「いつ?」「何日ですか?」などの発話が収集される。「天気情報を提供する状態」では「###だよ!」などの発話が収集される。ただし、###は、発話生成部14において天気情報データベースから都度抽出される天気情報によって埋められるプレースホルダである。
 ステップS13において、テンプレート生成部13は、質問応答収集部12から質問応答データを受け取り、各状態に関連付けられた質問応答データから発話テンプレートを構築し、テンプレート記憶部10へ記憶する。発話テンプレートは、状態遷移モデルの各状態に紐づいた発話のテンプレートである。これらは当該状態に遷移した際に利用される。通常、質問応答データに含まれる質問を発話テンプレートとして利用することが想定されるが、応答を発話テンプレートとして利用してもよい。質問応答データに含まれる質問と応答のいずれを発話テンプレートとして利用するかは、状態の内容に基づいて予め定めておけばよい。例えば、「地名を聞く状態」の発話テンプレートは「場所はどこですか?」であり、「日付を聞く状態」の発話テンプレートは「何日ですか?」であり、「天気情報を提供する状態」の発話テンプレートは、「今日の天気は###です」である。発話テンプレートは単なる状態名と発話のペアであるので、収集された質問応答データから状態とそれに紐づく発話を一つ選択することで構築できる。
 ステップS14において、発話生成部14は、現在の対話の状態を入力とし、テンプレート記憶部10に記憶された発話テンプレートから、その現在の対話の状態に関連付けられた発話テンプレートを取得し、取得した発話テンプレートを用いてシステム発話の内容を表すテキストを生成し、生成したシステム発話の内容を表すテキストを発話提示部15へ出力する。入力とする現在の対話の状態は、対話開始から一回目の実行であれば、予め定めた開始状態(ここでは「地名を聞く状態」)であり、二回目以降の実行であれば、後述する状態遷移部17が出力する遷移後の状態である。発話テンプレートにプレースホルダが含まれる場合には、所定のデータベースからそのプレースホルダに対応する情報を取得し、取得した情報を発話テンプレートのプレースホルダに埋め込むことで、システム発話の内容を表すテキストを生成する。例えば、「今日の天気は###です」という発話テンプレートであれば、天気情報データベースから天気情報を取得し(ここでは「晴れ時々曇り」だったとする)、###を「晴れ時々曇り」で置き換えた「今日の天気は晴れ時々曇りです」がシステム発話の内容を表すテキストとなる。
 ステップS15において、発話提示部15は、発話生成部14からシステム発話の内容を表すテキストを受け取り、そのシステム発話の内容を表すテキストを予め定めた方法でユーザへ提示する。テキストベースで対話を実行している場合、システム発話の内容を表すテキストは対話装置1の表示部に出力される。音声ベースで対話を実行している場合、システム発話の内容を表すテキストは音声合成部18へ入力され、音声合成部18が出力するシステム発話の内容を表す音声が所定のスピーカから再生される。
 ステップS100において、対話装置1は、現在の対話が終了したか否かを判定する。現在の対話が終了していないと判定した場合(NO)、ステップS16へ処理を進める。現在の対話が終了したと判定した場合(YES)、処理を終了し、次の対話が開始するまで待機する。対話の終了判定は、現在の状態が予め定義した終了状態(ここでは「天気情報を提供する状態」)であるか否かを判定することにより行えばよい。
 ステップS16において、発話受付部16は、対話装置1に入力された(または、音声認識部18が出力した)ユーザ発話の内容を表すテキストを入力とし、そのユーザ発話の内容を表すテキストを状態遷移部17へ出力する。
 ステップS17において、状態遷移部17は、発話受付部16からユーザ発話の内容を表すテキストを受け取り、ユーザ発話の内容を解析し、その解析結果に基づいて現在の対話の状態を遷移させ、遷移後の状態を発話生成部14へ出力する。例えば、「地名を聞く状態」では、ユーザ発話に地名が含まれる場合、その地名を取得した上で、次の「日付を聞く状態」に遷移する。「日付を聞く状態」では、ユーザ発話に日付が含まれる場合、その日付を取得した上で、次の「天気情報を提供する状態」に遷移する。ユーザ発話に地名が含まれるか否かの判断は、ユーザ発話の内容を表すテキストに、予め用意された地名のリストに合致する地名が含まれるかどうかを文字列マッチにより行えばよい。日付についても同様である。その他、条件付確率場などの系列ラベリングの手法に基づく固有表現抽出技術を行い、地名や日付を抽出することで、ユーザ発話に地名や日付が含まれるか否かを判断してもよい。
 その後、対話装置1は、ステップS14へ処理を戻し、遷移後の状態に関連付けられたシステム発話を提示する。対話装置1は、ステップS100において、対話が終了したと判定されるまで、システム発話の提示(ステップS14およびS15)とユーザ発話の受付(ステップS16およびS17)を繰り返すことで、ユーザとの対話を実行する。
 <第一実施形態の具体例>
 第一実施形態の対話装置1により実行される対話の具体例を以下に示す。第一実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するための状態遷移ベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、その時点での状態を表す。
 システム:どこの天気が聞きたいの?(地名を聞く状態)
 ユーザ :東京です。
 システム:いつ?(日にちを聞く状態)
 ユーザ :明日です。
 システム:晴れだよ!(天気情報を提供する状態)
 なお、オンラインユーザからは、各状態について複数の発話が収集されることが想定される。よって、発話テンプレート生成部13が対話のたびに動的に発話テンプレートを生成することで、キャラクタAらしい様々な言い回しを行うようにすることも可能である。これにより、より人間らしく、親しみの持てる、表現力が豊かなタスク指向型対話システムを実現することができる。
 [第二実施形態]
 この発明の第二実施形態は、フレームベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタAらしく応答するためのシステム発話を提示する対話装置およびその方法の一例である。第二実施形態の対話装置2は、図3に示すように、第一実施形態の対話装置1が備えるテンプレート記憶部10、質問応答収集部12、テンプレート生成部13、発話生成部14、発話提示部15、および発話受付部16を備え、さらに、対話ログ記憶部20、対話行為抽出部21、発話理解部22、および対話制御部23を備える。対話装置2は、第一実施形態の対話装置1と同様に、音声認識部18および音声合成部19を備えていてもよい。この対話装置2が図4に示す各ステップの処理を実行することにより、第二実施形態の対話方法が実現される。
 以下、図4を参照して、第二実施形態の対話装置2が実行する対話方法について、第一実施形態との相違点を中心に説明する。
 対話ログ記憶部20には、ユーザと対話装置が対話した際の対話ログが記憶されている。対話ログには、ユーザ発話の内容を表すテキスト、システム発話の内容を表すテキスト、およびシステム対話行為を表すラベルが含まれている。システム対話行為は、システム発話の発話意図を表し、システムの対話行為の対話行為タイプである。ユーザ発話の内容を表すテキストは、発話受付部16がユーザ発話の内容を表すテキストを出力する際に記憶される。システム発話の内容を表すテキストおよびシステム対話行為を表すラベルは、発話生成部14がシステム発話の内容を表すテキストを出力する際に記憶される。
 ステップS21において、対話行為抽出部21は、対話ログ記憶部20に記憶された対話ログから、システム対話行為の一覧を取得し、取得したシステム対話行為の一覧を質問応答収集部12へ出力する。もしくは、対話装置2の内部(例えば、対話制御部23)に定義されているシステム対話行為の一覧を取得してもよい。本実施形態では、システム対話行為として、「地名の質問」と「日付の質問」と「天気情報の提供」の3つの対話行為が取得されたものとする。
 ステップS12において、質問応答収集部12は、対話行為抽出部21からシステム対話行為の一覧を受け取り、オンラインユーザから各システム対話行為に関連付けられた質問応答データを収集し、収集した質問応答データをテンプレート生成部13へ出力する。具体的には、まず、質問応答収集部12は、質問応答収集サイトに各システム対話行為をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意のシステム対話行為のタグを選択し、そのシステム対話行為においてキャラクタAがするであろう質問と、その質問に対する応答を入力する。これにより、質問応答収集部12は、システム対話行為がタグ付けされた質問応答データを取得することができる。例えば、「地名の質問」というシステム対話行為の質問として「どこの天気が聞きたいの?」「どこのこと?」などの発話が収集される。「日付の質問」というシステム対話行為の質問として「いつ?」「なんにち?」などの発話が収集される。「天気情報の提供」というシステム対話行為では「###だよ!」などの発話が収集される。
 ステップS13において、テンプレート生成部13は、質問応答収集部12から質問応答データを受け取り、各システム対話行為に関連付けられた質問応答データから発話テンプレートを構築し、テンプレート記憶部10へ記憶する。発話テンプレートは、各システム対話行為に紐づいた発話のテンプレートである。これらは当該システム対話行為を発話する際に利用される。通常、質問応答データに含まれる質問を発話テンプレートとして利用することが想定されるが、応答を発話テンプレートとして利用してもよい。質問応答データに含まれる質問と応答のいずれを発話テンプレートとして利用するかは、対話行為の内容に基づいて予め定めておけばよい。例えば、「地名の質問」の発話テンプレートは「場所はどこですか?」であり、「日付を聞く質問」の発話テンプレートは「何日ですか?」であり、「天気情報の提供」の発話テンプレートは、「今日の天気は###です」である。発話テンプレートは単なる対話行為名と発話のペアであるので、収集された質問応答データからシステム対話行為とそれに紐づく発話を一つ選択することで構築できる。
 ステップS14において、発話生成部14は、次に行うシステム対話行為を入力とし、テンプレート記憶部10に記憶された発話テンプレートから、そのシステム対話行為に関連付けられた発話テンプレートを取得し、取得した発話テンプレートを用いてシステム発話の内容を表すテキストを生成し、生成したシステム発話の内容を表すテキストを発話提示部15へ出力する。入力とするシステム対話行為は、対話開始から一回目の実行であれば、予め定めた対話行為(例えば、「地名の質問」)であり、二回目以降の実行であれば、後述する対話制御部23が出力する次に行うシステム対話行為である。
 ステップS22において、発話理解部22は、発話受付部16からユーザ発話の内容を表すテキストを受け取り、ユーザ発話の内容を解析し、ユーザ発話の意図を表すユーザ対話行為と属性値対を得、得たユーザ対話行為と属性値対を対話制御部23へ出力する。ユーザ対話行為は、ユーザの対話行為の対話行為タイプである。本実施形態では、ユーザ対話行為として「地名の伝達」と「日付の伝達」と「地名と日付の伝達」の3つの対話行為があるものとする。例えば、「地名の伝達」では、属性として地名を取る。「日付の伝達」では、属性として日付を取る。「地名と日付の伝達」では、属性として地名と日付の両方を取る。ユーザ対話行為は、発話に対して対話行為タイプが付与されたデータから機械学習の手法によって学習された分類モデルを用いて得ることができる。機械学習の手法として、例えば、ロジスティック回帰を用いることができるし、サポートベクトルマシンやニューラルネットワークを用いてもよい。属性の抽出には、発話に含まれる各単語に対して、その単語が地名であるか日付の部分文字列であるかをラベル付けしたデータを構築し、系列ラベリングの手法(例えば、条件付確率場)によって学習したモデルを用いることができる。これにより、「明日の天気なんですけど」という発話からは、ユーザ対話行為として「日付の伝達」を、属性値対として「日付=明日」を抽出できる。
 ステップS23において、対話制御部23は、発話理解部22からユーザ対話行為と属性値対を受け取り、その属性値対で予め定義されたフレームを埋め、フレームの状態に従って、次に行うべきシステム対話行為を決定し、決定したシステム対話行為を発話生成部14へ出力する。システム対話行為の決定方法は、例えば、If-Thenの形で記述されたルールに従って行われる。例えば、ユーザ対話行為が「日付の伝達」であれば、その日付の属性によって「日付」のスロットを埋める、といった処理が記述される。また、フレームに値が埋められていないスロットがあれば、次にそのスロットを質問するシステム対話行為を選択する、といった処理が記述される。ここで、対話制御部の挙動はIf-Thenルールのみならず、入力に対して出力を得るEncoder-Decoder型のニューラルネットワークや入力に対して最適な行動を学習するマルコフ決定過程や部分観測マルコフ決定過程を用いた強化学習により実装してもよい。
 <第二実施形態の具体例>
 第二実施形態の対話装置2により実行される対話の具体例を以下に示す。第二実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するためのフレームベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、システム対話行為を表し、ユーザ発話における括弧内の記載は、ユーザ対話行為と属性値対を表す。※以降は対話システムの動作を説明するコメントである。
 システム:どこの天気が聞きたいの?(地名の質問)※システムの初期発話として設定
 ユーザ :東京です。(地名の伝達、地名=東京)
 システム:いつ?(日付の質問)
 ユーザ :明日です。(日付の伝達、日付=明日)
 システム:晴れだよ!(天気情報の提供)
 [第三実施形態]
 この発明の第三実施形態は、フレームベースのタスク指向型対話システムにおいて、入力されたユーザ発話に対して、キャラクタAらしく応答するためのシステム発話を提示する対話装置およびその方法の他の例である。第三実施形態の対話装置3は、図5に示すように、第二実施形態の対話装置2が備えるテンプレート記憶部10、質問応答収集部12、テンプレート生成部13、発話生成部14、発話提示部15、発話受付部16、対話ログ記憶部20、対話行為抽出部21、発話理解部22、および対話制御部23を備え、さらに、変換モデル記憶部30、発話抽出部31、変換モデル生成部32、および発話変換部33を備える。対話装置3は、第一実施形態の対話装置1と同様に、音声認識部18および音声合成部19を備えていてもよい。この対話装置3が図6に示す各ステップの処理を実行することにより、第三実施形態の対話方法が実現される。
 以下、図6を参照して、第三実施形態の対話装置3が実行する対話方法について、第二実施形態との相違点を中心に説明する。
 ステップS31において、発話抽出部31は、対話ログ記憶部20に記憶された対話ログから、システム発話の一覧を取得し、取得したシステム発話の一覧を質問応答収集部12へ出力する。もしくは、対話装置3の内部(例えば、テンプレート記憶部20)から対話装置3が発話し得るシステム発話の一覧を取得してもよい。
 ステップS12-2において、質問応答収集部12は、発話抽出部31からシステム発話の一覧を受け取り、オンラインユーザから各システム発話とそのシステム発話を言い換えた言い換え発話のペア(以下、「言い換えデータ」とも呼ぶ)を収集し、収集した言い換えデータを変換モデル生成部32へ出力する。具体的には、まず、質問応答収集部12は、質問応答収集サイトに各システム発話をタグとして追加し、投稿画面において選択可能とする。オンラインユーザは、質問応答収集サイト上で任意のシステム発話のタグを選択し、そのシステム発話を言い換えて、キャラクタAがするであろう発話を入力する。これにより、質問応答収集部12は、システム発話がタグ付けされたキャラクタAによる言い換え発話を取得することができる。例えば、「地名の質問」というシステム対話行為のシステム発話である「場所はどこですか?」に対して「どこの天気が聞きたいの?」といった言い換え発話が収集される。
 ステップS32において、変換モデル生成部32は、質問応答収集部12から言い換えデータを受け取り、タグ付けされたシステム発話とオンラインユーザが入力した言い換え発話をペアのデータとして、発話を言い換える発話変換モデルを学習し、学習した発話変換モデルを変換モデル記憶部30へ記憶する。発話変換モデルには、例えば、ニューラルネットワークによるSeq2Seqのモデルを用いることができる。具体的には、BERTモデルをエンコーダとデコーダに用い、ツールとしてOpenNMT-APEを用いる。このツールは、トークナイズされたペアの発話データから、入力に対する出力発話を生成する生成モデルを構築することができる。なお、その他のやり方、例えば、再帰型ニューラルネットワークを用いる方法により発話変換モデルを学習してもよい。BERTとOpenNMT-APEについては以下の参考文献1,2に詳述されている。
 〔参考文献1〕Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019.
 〔参考文献2〕Gon,calo M. Correia, Andre F. T. Martins, "A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning," Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
 ステップS33において、発話変換部33は、発話生成部14からシステム発話の内容を表すテキストを受け取り、そのシステム発話の内容を表すテキストを変換モデル記憶部30に記憶された発話変換モデルへ入力し、システム発話を言い換えた変換後システム発話の内容を表すテキストを得、得た変換後システム発話の内容を表すテキストを発話提示部15へ出力する。
 第三実施形態の発話提示部15は、発話生成部14から変換後システム発話の内容を表すテキストを受け取り、その変換後システム発話の内容を表すテキストをシステム発話の内容を表すテキストとして予め定めた方法でユーザへ提示する。
 <第三実施形態の具体例>
 第三実施形態の対話装置3により実行される対話の具体例を以下に示す。第三実施形態によれば、下記のように、所定のキャラクタらしい発話で天気情報を案内するためのフレームベースのタスク指向型対話システムを構築することができる。なお、システム発話における括弧内の記載は、システム対話行為を表し、ユーザ発話における括弧内の記載は、ユーザ対話行為と属性値対を表す。※以降は対話システムの動作を説明するコメントである。
 システム:どこの天気が聞きたいの?(地名の質問)※システムの初期発話として設定
 ユーザ :東京です。(地名の伝達、地名=東京)
 システム:いつ?(日付の質問)※「いつですか?」を「いつ?」に言い換え
 ユーザ :明日です。(日付の伝達、日付=明日)
 システム:晴れだよ!(天気情報の提供)※「晴れです」を「晴れだよ!」に言い換え
 [発明の効果]
 本発明により、オンラインユーザから収集できた質問応答データが少なかったとしても、対話システムの内部表現である状態や対話行為に基づいてシステム発話を生成するため、対話の状況に応じて適切なシステム発話を提示することができる。オンラインユーザから特定のキャラクタらしい発話を収集すれば、既存の対話システムにキャラクタ性を持たせることができるようになり、システム開発者が対象となるキャラクタ向けに発話生成部を作り直す必要がなくなる。加えて、対話システムの状態や対話行為に紐づいた質問応答データを収集し、予め対話システムが有する状態や対話行為の遷移と組み合わせることにより、一問一答を超え、かつ、キャラクタらしいやり取りが可能となる。
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図7に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  対話の状態と質問と応答とを含む質問応答データを収集する質問応答収集部と、
     前記質問応答データに基づいて前記状態と関連付けられた発話テンプレートを生成するテンプレート生成部と、
     現在の対話の状態に関連付けられた前記発話テンプレートを用いてシステム発話を生成する発話生成部と、
     前記システム発話をユーザへ提示する発話提示部と、
     前記ユーザが発話したユーザ発話を受け付ける発話受付部と、
     前記ユーザ発話に基づいて前記現在の対話の状態を遷移させる状態遷移部と、
     を含む対話装置。
  2.  発話意図を表す対話行為と質問と応答とを含む質問応答データを収集する質問応答収集部と、
     前記質問応答データに基づいて前記対話行為と関連付けられた発話テンプレートを生成するテンプレート生成部と、
     次に行う対話行為に関連付けられた前記発話テンプレートを用いてシステム発話を生成する発話生成部と、
     前記システム発話をユーザへ提示する発話提示部と、
     前記ユーザが発話したユーザ発話を受け付ける発話受付部と、
     前記ユーザ発話に基づいて前記次に行う対話行為を決定する対話制御部と、
     を含む対話装置。
  3.  請求項2に記載の対話装置であって、
     前記システム発話とそのシステム発話を言い換えた発話とを含む言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、
     前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得る発話変換部と、
     をさらに含む対話装置。
  4.  発話とその発話を言い換えた発話とを含む言い替えデータを収集する質問応答収集部と、
     前記言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習する変換モデル生成部と、
     システム発話を生成する発話生成部と、
     前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得る発話変換部と、
     前記変換後システム発話をユーザへ提示する発話提示部と、
     を含む対話装置。
  5.  質問応答収集部が、対話の状態と質問と応答とを含む質問応答データを収集し、
     テンプレート生成部が、前記質問応答データに基づいて前記状態と関連付けられた発話テンプレートを生成し、
     発話生成部が、現在の対話の状態に関連付けられた前記発話テンプレートを用いてシステム発話を生成し、
     発話提示部が、前記システム発話をユーザへ提示し、
     発話受付部が、前記ユーザが発話したユーザ発話を受け付け、
     状態遷移部が、前記ユーザ発話に基づいて前記現在の対話の状態を遷移させる、
     対話方法。
  6.  質問応答収集部が、発話意図を表す対話行為と質問と応答とを含む質問応答データを収集し、
     テンプレート生成部が、前記質問応答データに基づいて前記対話行為と関連付けられた発話テンプレートを生成し、
     発話生成部が、次に行う対話行為に関連付けられた前記発話テンプレートを用いてシステム発話を生成し、
     発話提示部が、前記システム発話をユーザへ提示し、
     発話受付部が、前記ユーザが発話したユーザ発話を受け付け、
     対話制御部が、前記ユーザ発話に基づいて前記次に行う対話行為を決定する、
     対話方法。
  7.  質問応答収集部が、発話とその発話を言い換えた発話とを含む言い替えデータを収集し、
     変換モデル生成部が、前記言い替えデータを用いて、発話を入力とし、その発話を言い換えた発話を出力する発話変換モデルを学習し、
     発話生成部が、システム発話を生成し、
     発話変換部が、前記システム発話を前記発話変換モデルに入力して前記システム発話を言い換えた変換後システム発話を得、
     発話提示部が、前記変換後システム発話をユーザへ提示する、
     対話方法。
  8.  請求項1から4のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。
PCT/JP2021/019515 2021-05-24 2021-05-24 対話装置、対話方法、およびプログラム WO2022249221A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/019515 WO2022249221A1 (ja) 2021-05-24 2021-05-24 対話装置、対話方法、およびプログラム
JP2023523706A JPWO2022249221A1 (ja) 2021-05-24 2021-05-24

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019515 WO2022249221A1 (ja) 2021-05-24 2021-05-24 対話装置、対話方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022249221A1 true WO2022249221A1 (ja) 2022-12-01

Family

ID=84229649

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019515 WO2022249221A1 (ja) 2021-05-24 2021-05-24 対話装置、対話方法、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2022249221A1 (ja)
WO (1) WO2022249221A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126452A (ja) * 2014-12-26 2016-07-11 株式会社小学館ミュージックアンドデジタルエンタテイメント 会話処理ステム、会話処理方法、及び会話処理プログラム
JP2020190585A (ja) * 2019-05-20 2020-11-26 日本電信電話株式会社 自動対話装置、自動対話方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126452A (ja) * 2014-12-26 2016-07-11 株式会社小学館ミュージックアンドデジタルエンタテイメント 会話処理ステム、会話処理方法、及び会話処理プログラム
JP2020190585A (ja) * 2019-05-20 2020-11-26 日本電信電話株式会社 自動対話装置、自動対話方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOMACHI, MAMORU ET AL.: "Neural Paraphrase Generation for NLP for Education", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 34, no. 4, pages 451 - 459, ISSN: 2188-2266 *
TSUNOMORI, YUIKO ET AL.: "Development of a customizable open domain chat- oriented dialogue system", 84TH SPEECH AND LANGUAGE UNDERSTANDING AND DIALOGUE WORKSHOP, 15 November 2018 (2018-11-15), pages 124 - 127, ISSN: 0918-5682 *

Also Published As

Publication number Publication date
JPWO2022249221A1 (ja) 2022-12-01

Similar Documents

Publication Publication Date Title
Raj et al. Building chatbots with Python
Plauche et al. Speech recognition for illiterate access to information and technology
CN113128239A (zh) 促进以多种语言与自动化助理的端到端沟通
US20140316764A1 (en) Clarifying natural language input using targeted questions
McTear et al. Voice application development for Android
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
Wilks et al. A prototype for a conversational companion for reminiscing about images
Gregori Evaluation of modern tools for an omscs advisor chatbot
WO2022259005A1 (en) Automated no-code coding of app-software using a conversational interface and natural language processing
WO2022249221A1 (ja) 対話装置、対話方法、およびプログラム
Yadav et al. An Empirical Study of Design Techniques of Chatbot, a Review
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
WO2018147435A1 (ja) 学習支援システム及び方法、並びにコンピュータプログラム
Xia Addressing the Tasks and Opportunities of Agency Using AI-based Chatbots
Shih Voice revolution
Li et al. Speech interaction of educational robot based on Ekho and Sphinx
Patel et al. My Buddy App: Communications between Smart Devices through Voice Assist
Zahir et al. Transformer vs. RASA model: A thorough attempt to develop conversational Artificial Intelligence to provide automated services to university disciples
US20230026945A1 (en) Virtual Conversational Agent
Suraid Almutairi The Rewriting of Characters’ Dialogue: Translating Literary Dialectal Dialogue in Saudi and Egyptian Novels
Harshani Sinhala chatbot for train information
Laarfi Framework for reasoning with speech processing
Awino Swahili Conversational Ai Voicebot for Customer Support
Ahmed A CHATBOT SYSTEM FOR KURDISH SPEAKERS BASED ON NATURAL LANGUAGE PROCESSING
Cherkas et al. OSTIS technology integration with third-party NLP service

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21942879

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023523706

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18562294

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21942879

Country of ref document: EP

Kind code of ref document: A1