WO2021064947A1 - 対話方法、対話システム、対話装置、およびプログラム - Google Patents

対話方法、対話システム、対話装置、およびプログラム Download PDF

Info

Publication number
WO2021064947A1
WO2021064947A1 PCT/JP2019/039145 JP2019039145W WO2021064947A1 WO 2021064947 A1 WO2021064947 A1 WO 2021064947A1 JP 2019039145 W JP2019039145 W JP 2019039145W WO 2021064947 A1 WO2021064947 A1 WO 2021064947A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
user
dialogue
information
utterances
Prior art date
Application number
PCT/JP2019/039145
Other languages
English (en)
French (fr)
Inventor
弘晃 杉山
宏美 成松
雅博 水上
庸浩 有本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/039145 priority Critical patent/WO2021064947A1/ja
Priority to JP2021550887A priority patent/JP7310907B2/ja
Priority to US17/764,154 priority patent/US20220319516A1/en
Publication of WO2021064947A1 publication Critical patent/WO2021064947A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Definitions

  • the present invention relates to a technology in which a computer interacts with a human using natural language, etc., which can be applied to a robot or the like that communicates with a human.
  • a dialogue system that recognizes a user's voice utterance, generates a response sentence to the utterance, synthesizes the voice, and utters a robot, etc., accepts the utterance by the user's text input, and generates and displays a response sentence to the utterance.
  • Various forms of dialogue systems such as dialogue systems, are being put into practical use.
  • a task-oriented dialogue is a dialogue that aims to efficiently achieve a task with another clear goal through the dialogue.
  • chat is a dialogue that aims to gain fun and satisfaction from the dialogue itself. That is, it can be said that the chat dialogue system is a dialogue system whose purpose is to entertain and satisfy people through dialogue.
  • chat dialogue system does not directly lead to the achievement of the original purpose of the chat dialogue system, which is to entertain and satisfy people through dialogue.
  • system utterance the intention of the utterance of the dialogue system
  • An object of the present invention is to realize a dialogue system and a dialogue device capable of giving the user an impression of having sufficient dialogue ability to correctly understand the user's utterance in view of the above technical problems. Is.
  • the dialogue method of one aspect of the present invention is a dialogue method executed by a dialogue system in which a personality is virtually set, and the information included in the most recently input user utterance is used. Includes utterance presentation steps that present utterances based on, at least, with information set to the personality of the dialogue system.
  • FIG. 1 is a diagram illustrating a functional configuration of the dialogue system of the first embodiment.
  • FIG. 2 is a diagram illustrating the functional configuration of the utterance determination unit.
  • FIG. 3 is a diagram illustrating a processing procedure of the dialogue method of the first embodiment.
  • FIG. 4 is a diagram illustrating a processing procedure for determining and presenting a system utterance according to the first embodiment.
  • FIG. 5 is a diagram illustrating the functional configuration of the dialogue system of the second embodiment.
  • FIG. 6 is a diagram illustrating a functional configuration of a computer.
  • an "agent" having a virtual personality such as a chat partner virtually set on the display of a robot or a computer, interacts with a user. Therefore, a mode in which a humanoid robot is used as an agent will be described as a first embodiment, and a mode in which a chat partner virtually set on a computer display as an agent will be used as a second embodiment.
  • the dialogue system of the first embodiment is a system in which one humanoid robot interacts with a user.
  • the dialogue system 100 includes, for example, a dialogue device 1, an input unit 10 including a microphone 11, and a presentation unit 50 including at least a speaker 51.
  • the dialogue device 1 includes, for example, a voice recognition unit 20, an utterance determination unit 30, and a voice synthesis unit 40.
  • the dialogue device 1 is a special computer configured by loading a special program into a known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a device.
  • the dialogue device 1 executes each process under the control of the central processing unit, for example.
  • the data input to the dialogue device 1 and the data obtained in each process are stored in the main storage device, for example, and the data stored in the main storage device is read out as needed and used for other processes.
  • at least a part of each processing unit of the dialogue device 1 may be configured by hardware such as an integrated circuit.
  • the input unit 10 may be integrally or partially integrated with the presentation unit 50.
  • the microphone 11 which is a part of the input unit 10 is mounted on the head (ear position) of the humanoid robot 50 which is the presentation unit 50.
  • the input unit 10 is an interface for the dialogue system 100 to acquire the user's utterance.
  • the input unit 10 is an interface for inputting the user's utterance into the dialogue system 100.
  • the input unit 10 is a microphone 11 that picks up the voice spoken by the user and converts it into a voice signal.
  • the microphone 11 may be capable of picking up the uttered voice spoken by the user 101. That is, FIG.
  • the number of microphones 11 may be one or three or more. Further, one or more microphones installed in a place different from the humanoid robot 50 such as the vicinity of the user 101, or a microphone array equipped with a plurality of microphones is used as an input unit, and the humanoid robot 50 does not have the microphone 11. It may be configured.
  • the microphone 11 outputs the voice signal of the user's utterance voice obtained by the conversion. The voice signal output by the microphone 11 is input to the voice recognition unit 20.
  • the voice recognition unit 20 recognizes the voice signal of the user's utterance voice input from the microphone 11 and converts it into a text representing the user's utterance content, and outputs the voice signal to the utterance determination unit 30.
  • the voice recognition method performed by the voice recognition unit 20 may be any existing voice recognition technology, and a voice recognition method suitable for the usage environment or the like may be selected.
  • the utterance determination unit 30 determines a text representing the utterance content from the dialogue system 100 and outputs the text to the speech synthesis unit 40.
  • a text representing the utterance content of the user is input from the voice recognition unit 20
  • the text representing the utterance content from the dialogue system 100 is determined based on the input text representing the utterance content of the user, and voice synthesis is performed. Output to unit 40.
  • FIG. 2 shows the detailed functional configuration of the utterance determination unit 30.
  • the utterance determination unit 30 inputs the text representing the utterance content of the user, determines the text representing the utterance content from the dialogue system 100, and outputs the text.
  • the utterance determination unit 30 includes, for example, a user utterance understanding unit 310, a system utterance generation unit 320, a user information storage unit 330, a system information storage unit 340, and a scenario storage unit 350.
  • the utterance determination unit 30 may include an element information storage unit 360.
  • the user information storage unit 330 is a storage unit that stores attribute information about the user acquired from the user's utterance for various preset attributes.
  • the type of the attribute is set in advance according to the scenario used in the dialogue (that is, the scenario stored in the scenario storage unit 350 described later). Examples of attribute types are name, residence prefecture, experience of visiting famous places in the prefecture of residence, experience of specialties of famous places in the prefecture of residence, and evaluation of the experience of the famous product is a positive evaluation or a negative evaluation. Or, etc.
  • the information of each attribute is extracted from the text representing the user's utterance content input to the utterance determination unit 30 by the user utterance understanding unit 310, which will be described later, and stored in the user information storage unit 330.
  • the system information storage unit 340 is a storage unit that stores attribute information related to a personality (agent) set in the dialogue system.
  • the type of the attribute is set in advance according to the scenario used in the dialogue (that is, the scenario stored in the scenario storage unit 350 described later). Examples of attribute types include name, prefecture of residence, experience of visiting famous places in each prefecture, and experience of specialties of each famous place.
  • Information on each attribute related to the personality (agent) set in the dialogue system is set in advance and stored in the system information storage unit 340.
  • the user utterance understanding unit 310 which will be described later, determines the information of each attribute related to the personality (agent) set in the dialogue system according to the extracted user attribute information, and stores it in the system information storage unit 340. You may do so.
  • the element information storage unit 360 is classified into various types other than the attribute information related to the user and the agent for inserting into the utterance template of the system utterance of the scenario used in the dialogue (that is, the scenario stored in the scenario storage unit 350 described later). It is a storage unit that stores information on the elements of. Examples of types are famous places in each prefecture, specialties of each famous place in each prefecture, and so on. Examples of element information are "Nagatoro", which is a famous place in Saitama prefecture, and "Sakura", which is a specialty of Nagatoro. The element information may be set in advance and stored in the element information storage unit 360.
  • the user utterance understanding unit 310 puts the extracted user attribute information and the personality attribute information set in the dialogue system (for example, the user's residence prefecture or the system's residence prefecture) on the web. It may be acquired from a publicly available resource (for example, Wikipedia (registered trademark)) and stored in the element information storage unit 360. If the utterance template of the scenario stored in the scenario storage unit 350 includes element information in advance, the utterance determination unit 30 may not include the element information storage unit 360.
  • the scenario storage unit 350 stores the dialogue scenario in advance.
  • the dialogue scenario stored in the scenario storage unit 350 includes the transition within a finite range of the state of the utterance intention in the flow from the beginning to the end of the dialogue, and the immediately preceding user in each state spoken by the dialogue system 100.
  • the dialogue system 100 expresses the utterance template of the system utterance corresponding to each candidate of the utterance intention of the utterance and the utterance intention of the immediately preceding user utterance (that is, the utterance of the utterance intention consistent with the utterance intention of the immediately preceding user utterance).
  • the utterance template may include only the text representing the utterance content of the dialogue system 100, or may have a predetermined type of attribute related to the user instead of a part of the text representing the utterance content of the dialogue system 100. It includes information that specifies to include information, information that specifies that information of certain types of attributes related to the personality set in the dialogue system should be included, information that specifies that information of certain elements should be included, and so on. There may be.
  • the user utterance understanding unit 310 acquires the understanding result of the utterance intention of the user utterance and the attribute information about the user from the text representing the utterance content of the user input to the utterance determination unit 30, and refers to the system utterance generation unit 320. Output.
  • the user utterance understanding unit 310 also stores the acquired attribute information regarding the user in the user information storage unit 330.
  • the system utterance generation unit 320 determines a text representing the content of the system utterance and outputs it to the voice synthesis unit 40.
  • the system utterance generation unit 320 is a user input from the user utterance understanding unit 310 among the utterance templates corresponding to each candidate of the utterance intention of the immediately preceding user utterance in the current state in the scenario stored in the scenario storage unit 350. Acquires the utterance template corresponding to the utterance intention of (that is, the utterance intention of the most recently input user utterance).
  • the system utterance generation unit 320 has a personality (personality) set in the dialogue system stored in the system information storage unit 340 when there are a plurality of utterance templates that are consistent with the user's utterance intention input from the user utterance understanding unit 310. Identify and acquire the utterance template that is consistent with the attribute information about the agent). As a matter of course, the system utterance generation unit 320 does not contradict the attribute information about the user input from the user utterance understanding unit 310, and does not contradict the attribute information about the user already stored in the user information storage unit 330. , Identify and get the utterance template.
  • personality personality
  • the system utterance generation unit 320 includes a case where the acquired utterance template includes information specifying that the information of the attribute of a predetermined type regarding the user is included, and the information of the attribute of the type of the user is understood by the user. If it is not acquired from the unit 310, the information of the attribute of the relevant type regarding the user is acquired from the user information storage unit 330, and the acquired speech template is the attribute of the predetermined type regarding the personality (agent) set in the dialogue system. When the information that specifies to include the information of is included, the information of the attribute of the relevant type regarding the personality (agent) set in the dialogue system is acquired from the system information storage unit 330, and the acquired speech template is of the predetermined type.
  • the information of the element is acquired from the element information storage unit 360, and the acquired information is inserted into the specified position in the utterance template for system utterance. Determined as text that represents the content.
  • the voice synthesis unit 40 converts the text representing the content of the system utterance input from the utterance determination unit 30 into a voice signal representing the content of the system utterance, and outputs the text to the presentation unit 50.
  • the voice synthesis method performed by the voice synthesis unit 40 may be any existing voice synthesis technology, and a voice synthesis method suitable for the usage environment or the like may be selected.
  • the presentation unit 50 is an interface for presenting the utterance content determined by the utterance determination unit 30 to the user.
  • the presentation unit 50 is a humanoid robot manufactured by imitating a human shape. This humanoid robot pronounces a voice corresponding to a voice signal representing the utterance content input from the voice synthesis unit 40, for example, from a speaker 51 mounted on the head, that is, presents the utterance.
  • the speaker 51 may be capable of producing a voice corresponding to a voice signal representing the utterance content input from the voice synthesis unit 40. That is, FIG. 1 is an example, and the number of speakers 51 may be one or three or more.
  • a speaker array having one or more speakers or a plurality of speakers may be installed in a place different from the humanoid robot 50, such as in the vicinity of the user 101, so that the humanoid robot 50 does not have the speaker 51. ..
  • the feature of the dialogue method performed by the dialogue system of the present invention is that the system utterance is presented based not only on the information contained in the immediately preceding user utterance (the most recently input user utterance) but also on the information set in the personality of the dialogue system. It is to be.
  • the features of the present invention will be described with reference to the utterances included in the specific examples.
  • system utterance is based on at least the information included in the immediately preceding user utterance and the information set in the personality (agent) of the dialogue system, as in Example 2-1 and Example 2-2 below.
  • a system utterance based on past user utterances may be presented.
  • the system utterance t (7) "I envy you that there is a good cherry blossom.” Is an unnatural utterance and is not appropriate.
  • the system utterance t (7) For example, utterances that simply tune in, such as "Oh, isn't it so famous?", Or "No, I've heard that it's really good before.” make an utterance that continues the agent's own claim while acknowledging that it has not.
  • Example 3-1 when making a system utterance based on at least the information included in the immediately preceding user utterance and the information set in the personality (agent) of the dialogue system, the immediately preceding user utterance
  • the system utterance based on the difference between the information included in the immediately preceding user utterance and the information set in the personality (agent) of the dialogue system may be presented.
  • the system utterance generation unit 320 of the utterance determination unit 30 reads the utterance template of the system utterance performed in the initial state of the scenario from the scenario storage unit 350, and the contents of the system utterance. Is output, the voice synthesis unit 40 converts it into a voice signal, and the presentation unit 50 presents it.
  • the system utterance performed in the initial state of the scenario is, for example, a greeting such as system utterance t (1) and an utterance that asks a question to the user.
  • the input unit 10 collects the user's utterance voice and converts it into a voice signal, the voice recognition unit 20 converts it into a text, and outputs a text representing the user's utterance content to the utterance determination unit 30.
  • the texts representing the contents of the user's utterance are, for example, the user utterance t (2) uttered for the system utterance t (1), the user utterance t (4) spoken for the system utterance t (3), and the system.
  • step S2 Determination and presentation of system utterance (step S2 other than the first time)]
  • the utterance determination unit 30 determines a text representing at least the content of the system utterance based on the information included in the immediately preceding user utterance and the information set in the personality of the dialogue system, and the voice synthesis unit 40 sends the voice signal to the voice signal. The conversion is performed and the presentation unit 50 presents it.
  • the presented system utterances are system utterance t (3) for user utterance t (2), system utterance t (5) for user utterance t (4), system utterance t (7) for user utterance t (6), and user.
  • the details of step S2 will be described later as [Processing procedure for determining and presenting system utterances].
  • step S3 In the system utterance generation unit 320 of the utterance determination unit 30, if the current state in the scenario stored in the scenario storage unit 350 is the last state, the dialogue system 100 ends the dialogue operation, otherwise step S1 is performed. Continue the dialogue by doing.
  • step S2 The details of the processing procedure (step S2) for determining and presenting the system utterance are as follows from step S21 to step S25.
  • the user utterance understanding unit 310 obtains an understanding result of the utterance intention of the user utterance and information on attributes related to the user from the text representing the utterance content of the user input to the utterance determination unit 30, and refers to the system utterance generation unit 320. And output.
  • the user utterance understanding unit 310 also stores the acquired attribute information regarding the user in the user information storage unit 330.
  • step S21 is not performed.
  • the system utterance generation unit 320 is a user input from the user utterance understanding unit 310 among the utterance templates corresponding to each candidate of the utterance intention of the previous user utterance in the current state in the scenario stored in the scenario storage unit 350. Get the utterance template corresponding to the utterance intention of. That is, the system utterance generation unit 320 acquires the utterance template of the utterance intention that is consistent with the user's utterance intention in the most recently input user utterance.
  • the system utterance generation unit 320 is set in the dialogue system stored in the system information storage unit 340 when there are a plurality of utterance templates of the utterance intention consistent with the user's utterance intention input from the user utterance understanding unit 310.
  • One utterance template that is consistent with the attribute information about the personality (agent) and the attribute information about the user stored in the user information storage unit 330 is specified and acquired.
  • the scenario storage unit 350 At the stage of creating each state of the scenario to be stored in, it corresponds to the case where the utterance template that does not conflict with the attribute information about the agent and the attribute information about the user is created, so the attribute information about the agent and the user The utterance template that is inconsistent with the attribute information about is not selected.
  • the system utterance generator 320 says, "You say [user's name], I say [agent's name]. Thank you. How many prefectures does [user's name] live in? ”Get the utterance template.
  • the part of the utterance template enclosed in [] (square brackets) acquires information from any of the user utterance understanding unit 310, the user information storage unit 330, the system information storage unit 340, and the element information storage unit 360. Information that specifies that it should be included.
  • the user utterance includes or does not include information of a predetermined type, each case, and candidates for the utterance template corresponding to each case in advance.
  • the utterance template corresponding to the understanding result is selected from the utterance template candidates after obtaining the understanding result of whether the input user utterance contains or does not include the predetermined type of information by associating and storing it. It is better to do it.
  • the system utterance generation unit 320 is "Hmmmm. [User's residence prefecture]? [User's residence prefecture] is good. I want to go. Get the utterance template that says [[User's residence prefecture] famous place] or something famous, isn't it? " Also, for example, if the input text representing the utterance content of the user is utterance t (6), the system utterance generation unit 320 is envious of having "a good [special product of a famous place in the [user's residence]]. I like [behavior for the famous place of [user's residence]], but what about [the famous place of [user's residence]] of [[user's residence] famous place]? Get the utterance template.
  • the system utterance generation unit 320 is "[a specialty of the famous place of [user's residence]], isn't it? I live in [Agent's residence prefecture], but when I say [[User's residence prefecture]'s famous place], [[[User's residence]' s famous place] is a specialty [Agent's residence]. I also recommend [Prefecture] Famous Places]. Have you ever been to [User Name]? ”And get the utterance template.
  • step S22 in the first step S2 the system utterance generation unit 320 acquires the utterance template of the first state in the scenario stored in the scenario storage unit 350.
  • step S23 Genetic of system utterance (step S23)]
  • the system utterance generation unit 320 relates to the user.
  • the information of the attribute of the type is acquired from the user information storage unit 330, and the acquired utterance template includes information specifying that the information of the attribute of a predetermined type regarding the personality (agent) set in the dialogue system is included.
  • the system information storage unit 330 Acquires the information of the attribute of the type related to the personality (agent) set in the dialogue system from the system information storage unit 330, and includes the information specifying that the acquired utterance template includes the information of the element of the predetermined type.
  • the information of the relevant element is acquired from the element information storage unit 360, the acquired information is inserted at a designated position in the utterance template, and the text representing the content of the system utterance is determined and output.
  • the system utterance generation unit 320 acquires "Rico” which is the [agent name] from the system information storage unit 340, and obtains "Rico” which is the [agent name]. It is inserted into the above-mentioned utterance template together with "Sugiyama” which is the [user's name] acquired from the user utterance understanding unit 310, determined as the text of the utterance t (3), and output.
  • the [Saitama prefecture] which is the [user's residence prefecture] is acquired from the user information storage unit 330, and the [[user residence prefecture]] is obtained.
  • Famous place That is, "Nagatoro", which is a famous place in Saitama prefecture, is acquired from the element information storage unit 360, inserted into the above-mentioned utterance template, determined as the text of the utterance t (5), and output.
  • the [user's name] "Sugiyama” is acquired from the user information storage unit 330, and the [agent's residence prefecture] "Aomori”.
  • "Prefecture” is acquired from the system information storage unit 340, and [[user's residence prefecture] famous place specialty], that is, "cherry blossom” and [[[user's residence prefecture] famous place specialty] are specialties [agent's] The famous place of residence], that is, "Hirosaki Castle", which is famous for cherry blossoms, is acquired from the element information storage unit 360, inserted into the above-mentioned utterance template, determined as the text of utterance t (9), and output.
  • the expression of the acquired information is changed. May be inserted into the utterance template.
  • the voice synthesis unit 40 converts the text representing the content of the system utterance input from the utterance determination unit 30 into a voice signal representing the content of the system utterance, and outputs the text to the presentation unit 50.
  • the presentation unit 50 presents a voice corresponding to a voice signal representing the utterance content input from the voice synthesis unit 40.
  • the dialogue method performed by the dialogue system 100 is the dialogue method executed by the dialogue system in which the personality is virtually set, and is the newest. It is a dialogue method that presents a speech based on at least the information included in the input user speech and the information set in the personality of the dialogue system.
  • the dialogue method performed by the dialogue system 100 is based on the information contained in the user utterance input in the past, and the information included in the most recently input user utterance and the information contained in the user utterance input in the past. , It may be a dialogue method that presents an utterance consistent with the information set in the personality of the dialogue system.
  • the dialogue method performed by the dialogue system 100 includes the result of understanding the utterance intention of the most recently input user utterance, the information contained in the most recently input user utterance, and the user utterance input in the past. It may be a dialogue method in which utterances consistent with the information to be generated and the information set in the personality of the dialogue system are generated and the generated utterances are presented.
  • the utterance generation process performed by the dialogue system 100 includes a case where the user utterance includes a predetermined type of information and a case where the user utterance includes a predetermined type of affirmative information and a case where the user utterance includes a predetermined type of affirmative information and negative information.
  • the understanding result of at least one of the candidates of the utterance template, which includes or does not include the information of, and whether the affirmative information or the negative information of a predetermined type is included, is obtained. It is preferable that the process is to generate an utterance based on the utterance template corresponding to.
  • the dialogue method performed by the dialogue system 100 presents an utterance asking a question about an element having a finite number of possible options (hereinafter referred to as "target element"), accepts a user utterance for the presented utterance, and accepts the utterance. It includes presenting an utterance based on the difference between which of the options is the target element included in the user's utterance and which of the options is the target element set in the personality of the dialogue system. It may be.
  • the presentation unit of the dialogue system of the present invention has a body or the like even if it is a humanoid robot having a body or the like. It may be a robot that does not.
  • the dialogue system of the present invention is not limited to these, and may be in a form in which dialogue is performed using an agent that does not have an entity such as a body and does not have a vocalization mechanism like a humanoid robot. As such a form, for example, a form in which a dialogue is performed using an agent displayed on a computer screen can be mentioned.
  • the computer having the screen for displaying the agent needs to be in the vicinity of a person, but the computer and the dialogue device may be connected to each other via a network such as the Internet. That is, the dialogue system of the present invention can be applied not only to conversations in which speakers such as humans and robots actually talk to each other, but also to conversations in which speakers communicate with each other via a network.
  • the dialogue system 200 of the second embodiment includes, for example, one dialogue device 2.
  • the dialogue device 2 of the second embodiment includes, for example, an input unit 10, a voice recognition unit 20, an utterance determination unit 30, and a presentation unit 50.
  • the dialogue device 2 may include, for example, a microphone 11 and a speaker 51.
  • the dialogue device 2 of the second embodiment is, for example, an information processing device such as a mobile terminal such as a smartphone or a tablet, or a desktop type or laptop type personal computer.
  • the dialogue device 2 is a smartphone.
  • the presentation unit 50 is a liquid crystal display included in the smartphone.
  • a chat application window is displayed on this liquid crystal display, and the chat dialogue content is displayed in chronological order in the window.
  • the virtual account corresponding to the virtual personality controlled by the dialogue device 2 and the user's account participate in this chat. That is, the present embodiment is an example in which the agent is a virtual account displayed on the liquid crystal display of the smartphone which is the dialogue device.
  • the user can input the utterance content into the input unit 10 which is an input area provided in the chat window using the software keyboard, and post to the chat through his / her own account.
  • the utterance determination unit 30 determines the content of the utterance from the dialogue device 2 based on the posting from the user's account, and posts it to the chat through the virtual account.
  • the microphone 11 mounted on the smartphone and the voice recognition function may be used so that the user inputs the utterance content to the input unit 10 by utterance.
  • the speaker 51 mounted on the smartphone and the voice synthesis function may be used to output the utterance content obtained from each dialogue system from the speaker 51 with the voice corresponding to each virtual account.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a non-temporary recording medium, specifically, a magnetic recording device, an optical disk, or the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc., portable recording media such as DVDs and CD-ROMs on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first transfers the program recorded on the portable recording medium or the program transferred from the server computer to the auxiliary recording unit 1050, which is its own non-temporary storage device. Store. Then, at the time of executing the process, the computer reads the program stored in the auxiliary recording unit 1050, which is its own non-temporary storage device, into the storage unit 1020, and executes the process according to the read program. Further, as another execution form of this program, the computer may read the program directly from the portable recording medium into the storage unit 1020 and execute the processing according to the program, and further, the program from the server computer to this computer may be executed. Each time the is transferred, the processing according to the received program may be executed sequentially.
  • ASP Application Service Provider
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

十分な対話能力を持っている印象をユーザに与える。対話システム(100)は、人格が仮想的に設定されている。マイクロホン(11)は、ユーザ(101)の発話音声を収音して音声信号に変換する。音声認識部(20)は、ユーザ(101)の発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換する。発話決定部(30)は、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づくシステム発話の内容を表すテキストを決定する。音声合成部(40)は、システム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換する。スピーカ(51)は、システム発話の内容を表す音声信号を発音する。

Description

対話方法、対話システム、対話装置、およびプログラム
 この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。
 ユーザの音声発話を音声認識してその発話に対する応答文を生成して音声合成してロボットなどが発話する対話システム、ユーザのテキスト入力による発話を受け付けてその発話に対する応答文を生成して表示する対話システム、など、様々な形態の対話システムが実用化されつつある。近年は、従来のタスク指向の対話システムとは異なる、雑談を行う雑談対話システムに注目が集まっている(例えば、非特許文献1参照)。タスク指向の対話は、対話を通して別の明確なゴールを持つタスクを効率よく達成することを目的とする対話である。雑談はタスク指向の対話とは異なり、対話そのものから楽しさや満足を得ることを目的とする対話である。すなわち、雑談対話システムは、対話を通して人を楽しませたり、満足を与えたりすることを目的とする対話システムといえる。
 従来の雑談対話システムの研究の主流は、多様な話題(以下、「オープンドメイン」とも呼ぶ)のユーザによる発話(以下「ユーザ発話」とも呼ぶ)への自然な応答の生成となっており、これまで、オープンドメインの雑談において、どのようなユーザ発話に対しても何かしら応答できることを目指し、一問一答レベルで妥当な応答発話の生成や、それを適切に組み合わせた数分間の対話の実現が取り組まれてきた。
Higashinaka, R., Imamura, K., Meguro, T., Miyazaki, C., Kobayashi, N., Sugiyama, H., Hirano, T., Makino, T., and Matsuo, Y., "Towards an open-domain conversational system fully based on natural language processing," in Proceedings of the 25th International Conference on Computational Linguistics, pp. 928-939, 2014.
 しかしながら、オープンドメインな応答生成が、対話を通して人を楽しませ満足させるという雑談対話システムの本来の目的の達成に直接繋がるわけではない。例えば、従来の雑談対話システムでは、局所的には話題が繋がっていても、大局的には対話がどこに向かっているのかをユーザに理解できないことがある。そのため、ユーザが、対話システムの発話(以下、「システム発話」とも呼ぶ)の意図を解釈できずストレスを感じたり、対話システムが自身の発話さえ理解していないように感じられることから、対話能力が欠落しているように感じたりすることが課題であった。
 この発明の目的は、上記のような技術的課題に鑑みて、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる対話システム、対話装置を実現することである。
 上記の課題を解決するために、この発明の一態様の対話方法は、人格が仮想的に設定された対話システムが実行する対話方法であって、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づく発話を提示する発話提示ステップを含む。
 この発明によれば、ユーザの発話を正しく理解できるだけの十分な対話能力を持っている印象をユーザに与えることができる。
図1は、第1実施形態の対話システムの機能構成を例示する図である。 図2は、発話決定部の機能構成を例示する図である。 図3は、第1実施形態の対話方法の処理手続きを例示する図である。 図4は、第1実施形態のシステム発話の決定と提示の処理手続きを例示する図である。 図5は、第2実施形態の対話システムの機能構成を例示する図である。 図6は、コンピュータの機能構成を例示する図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。本発明の対話システムは、ロボットやコンピュータのディスプレイ上に仮想的に設定されたチャット相手などの、仮想的な人格が設定された「エージェント」がユーザとの対話を行うものである。そこで、エージェントとして人型ロボットを用いる形態を第1実施形態として説明し、エージェントとしてコンピュータのディスプレイ上に仮想的に設定されたチャット相手を用いる形態を第2実施形態として説明する。
 [第1実施形態]
 〔対話システムの構成と各部の動作〕
 まず、第1実施形態の対話システムの構成と各部の動作について説明する。第1実施形態の対話システムは、一台の人型ロボットがユーザとの対話を行うシステムである。対話システム100は、図1に示すように、例えば、対話装置1と、マイクロホン11からなる入力部10と、少なくともスピーカ51を備える提示部50とを含む。対話装置1は、例えば、音声認識部20、発話決定部30、および音声合成部40を備える。
 対話装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
 [入力部10]
 入力部10は提示部50と一体もしくは部分的に一体として構成してもよい。図1の例では、入力部10の一部であるマイクロホン11が、提示部50である人型ロボット50の頭部(耳の位置)に搭載されている。
 入力部10は、ユーザの発話を対話システム100が取得するためのインターフェースである。言い換えれば、入力部10は、ユーザの発話を対話システム100へ入力するためのインターフェースである。例えば、入力部10はユーザの発話音声を収音して音声信号に変換するマイクロホン11である。マイクロホン11は、ユーザ101が発話した発話音声を収音可能とすればよい。つまり、図1は一例であって、マイクロホン11は一個でもよいし、三個以上であってもよい。また、ユーザ101の近傍などの人型ロボット50とは異なる場所に設置された一個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、人型ロボット50がマイクロホン11を備えない構成としてもよい。マイクロホン11は、変換により得たユーザの発話音声の音声信号を出力する。マイクロホン11が出力した音声信号は、音声認識部20へ入力される。
 [音声認識部20]
 音声認識部20は、マイクロホン11から入力されたユーザの発話音声の音声信号を音声認識してユーザの発話内容を表すテキストに変換し、発話決定部30に対して出力する。音声認識部20が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて適したものを選択すればよい。
 [発話決定部30]
 発話決定部30は、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。音声認識部20からユーザの発話内容を表すテキストが入力された場合には、入力されたユーザの発話内容を表すテキストに基づいて、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。
 図2に、発話決定部30の詳細な機能構成を示す。発話決定部30は、ユーザの発話内容を表すテキストを入力とし、対話システム100からの発話内容を表すテキストを決定して出力する。発話決定部30は、例えば、ユーザ発話理解部310、システム発話生成部320、ユーザ情報記憶部330、システム情報記憶部340、およびシナリオ記憶部350を備える。なお、発話決定部30は、要素情報記憶部360を備えていてもよい。   
 [[ユーザ情報記憶部330]]
 ユーザ情報記憶部330は、予め設定した各種別の属性について、ユーザ発話から取得したユーザに関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ(すなわち、後述するシナリオ記憶部350に記憶されたシナリオ)に応じて予め設定しておく。属性の種別の例は、名前、居住県、居住県の名所への訪問経験の有無、居住県の名所の名物の経験の有無、当該名物の経験に対する評価が肯定評価であるか否定評価であるか、などである。各属性の情報は、後述するユーザ発話理解部310により、発話決定部30へ入力されたユーザの発話内容を表すテキストから抽出されてユーザ情報記憶部330に格納される。
 [[システム情報記憶部340]]
 システム情報記憶部340は、対話システムに設定された人格(エージェント)に関する属性の情報を格納する記憶部である。属性の種別は、対話で用いるシナリオ(すなわち、後述するシナリオ記憶部350に記憶されたシナリオ)に応じて予め設定しておく。属性の種別の例は、名前、居住県、各県にある名所への訪問経験の有無、当該各名所の名物の経験の有無、などである。対話システムに設定された人格(エージェント)に関する各属性の情報は、予め設定してシステム情報記憶部340に記憶しておく。ただし、後述するユーザ発話理解部310が、抽出したユーザの属性の情報に応じて、対話システムに設定された人格(エージェント)に関する各属性の情報を決定して、システム情報記憶部340に格納するようにしてもよい。
 [[要素情報記憶部360]]
 要素情報記憶部360は、対話で用いるシナリオ(すなわち、後述するシナリオ記憶部350に記憶されたシナリオ)のシステム発話の発話テンプレートに挿入するための、ユーザやエージェントに関する属性の情報以外の、各種別の要素の情報を格納する記憶部である。種別の例は、各県にある名所、各県にある各名所の名物、などである。要素の情報の例は、埼玉県の名所である「長瀞」、長瀞の名物である「桜」、などである。要素の情報は、予め設定して要素情報記憶部360に記憶しておけばよい。ただし、後述するユーザ発話理解部310が、抽出したユーザの属性の情報や対話システムに設定された人格の属性の情報(例えば、ユーザの居住県やシステムの居住県)に応じて、ウェブ上に公開されているリソース(例えば、Wikipedia(登録商標))から取得して要素情報記憶部360に記憶するようにしてもよい。なお、シナリオ記憶部350に記憶しておくシナリオの発話テンプレートに要素の情報を予め含めておく場合には、発話決定部30には要素情報記憶部360を備えないでよい。
 [[シナリオ記憶部350]]
 シナリオ記憶部350には、対話のシナリオが予め記憶されている。シナリオ記憶部350に記憶されている対話のシナリオは、対話の最初から終わりまでの流れにおける発話意図の状態の有限の範囲内での遷移と、対話システム100が発話する各状態における、直前のユーザ発話の発話意図の候補と、直前のユーザ発話の発話意図の各候補に対応するシステム発話の発話テンプレート(すなわち、直前のユーザ発話の発話意図と矛盾しない発話意図の発話を対話システム100が表出するための発話内容のテンプレート)の候補と、発話テンプレートの各候補に対応する次のユーザ発話の発話意図の候補(すなわち、発話テンプレートの各候補における対話システム100の発話意図に対して行われる次のユーザ発話の発話意図の候補)と、を含んで構成される。なお、発話テンプレートは、対話システム100の発話内容を表すテキストのみを含むものであってもよいし、対話システム100の発話内容を表すテキストの一部に代えて、ユーザに関する所定の種別の属性の情報を含めることを指定する情報、対話システムに設定された人格に関する所定の種別の属性の情報を含めることを指定する情報、所定の要素の情報を含めることを指定する情報、などを含むものであってもよい。
 [[ユーザ発話理解部310]]
 ユーザ発話理解部310は、発話決定部30に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報を取得し、システム発話生成部320に対して出力する。ユーザ発話理解部310は、取得したユーザに関する属性の情報についてはユーザ情報記憶部330への格納も行う。
 [[システム発話生成部320]]
 システム発話生成部320は、システム発話の内容を表すテキストを決定し、音声合成部40に対して出力する。システム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部310から入力されたユーザの発話意図(すなわち、最も新しく入力されたユーザ発話の発話意図)に対応する発話テンプレートを取得する。システム発話生成部320は、ユーザ発話理解部310から入力されたユーザの発話意図と矛盾しない発話テンプレートが複数個ある場合には、システム情報記憶部340に記憶された対話システムに設定された人格(エージェント)に関する属性の情報と矛盾しない発話テンプレートを特定して取得する。なお、当然ながら、システム発話生成部320は、ユーザ発話理解部310から入力されたユーザに関する属性の情報とも矛盾せず、ユーザ情報記憶部330に既に記憶されているユーザに関する属性の情報とも矛盾しない、発話テンプレートを特定して取得する。次に、システム発話生成部320は、取得した発話テンプレートがユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合であって、ユーザに関する当該種別の属性の情報がユーザ発話理解部310から取得されていない場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部330から取得し、取得した発話テンプレートが対話システムに設定された人格(エージェント)に関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、対話システムに設定された人格(エージェント)に関する当該種別の属性の情報をシステム情報記憶部330から取得し、取得した発話テンプレートが所定の種別の要素の情報を含めることを指定する情報を含む場合には、当該要素の情報を要素情報記憶部360から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定する。
 [音声合成部40]
 音声合成部40は、発話決定部30から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部50に対して出力する。音声合成部40が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて適したものを選択すればよい。
 [提示部50]
 提示部50は、発話決定部30が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部50は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部40から入力された発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ51から発音する、すなわち、発話を提示する。スピーカ51は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図1は一例であって、スピーカ51は一個でもよいし、三個以上であってもよい。また、ユーザ101の近傍などの人型ロボット50とは異なる場所に一個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、人型ロボット50がスピーカ51を備えない構成としてもよい。
 〔本発明の対話システムが行う対話方法の特徴〕
 次に、本発明の対話システムが行う対話方法の特徴について、対話システムとユーザとの対話の具体例を用いて説明する。以降の具体例の記載では、“S”はシステム発話を表し、“U”はユーザ発話を表す。t(i)(i=0, 1, 2, …)は対話中の発話を表し、iは発話の順番を表す数字である。
 [対話の具体例]
   t(1) S: こんにちは!お名前を伺ってもいいですか?
   t(2) U: 杉山といいます。
   t(3) S: 杉山さんとおっしゃるんですね。私はリコっていいます。よろしくお願いします。杉山さんは何県にお住まいなんですか?
   t(4) U: 埼玉県に住んでいます。
   t(5) S: ふむふむ。埼玉県ですか。埼玉いいですね。行ってみたいです。長瀞とか有名ですよね?
   t(6) U: 長瀞は近いので自転車で行くこともあります。
   t(7) S: いい桜があるのうらやましいなあ。。私はお花見とか好きなんですけど、長瀞の桜ってどうですか?
   t(8) U: 荒川沿いの桜並木が見事で、春には桜のトンネルのような景色になります。
   t(9) S: 桜いいですよねえ。ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。杉山さんは行かれたことはありますか?
 [本発明の特徴]
 本発明の対話システムが行う対話方法の特徴は、直前のユーザ発話(最も新しく入力されたユーザ発話)に含まれる情報のみならず、対話システムの人格に設定された情報にも基づくシステム発話を提示することである。以下、具体例に含まれる発話で本発明の特徴を説明する。
 [[例1-1]]システム発話t(5)の「埼玉いいですね。」
 システム発話t(5)の「埼玉いいですね。」の部分は、直前のユーザ発話t(4)で入力された「ユーザの居住県=埼玉県」という情報だけでなく、対話システムに設定された人格(エージェント)に予め設定された「エージェントの居住県=青森県」という情報にも基づいた発話である。すなわち、システム発話t(5)の「埼玉いいですね。」の部分は、ユーザとエージェントとで居住県が異なる点に基づいて決定されている。仮に「エージェントの居住県=埼玉県」という情報が設定されており、ユーザとエージェントとで居住県が一致していたのであれば、例えば「埼玉いいですよね。」のような発話となる。
 [[例1-2]]システム発話t(5)の「行ってみたいです。」
 システム発話t(5)の「行ってみたいです。」の部分は、直前のユーザ発話t(4)で入力された「ユーザの居住県=埼玉県」という情報だけでなく、エージェントに予め設定された「エージェントの居住県=青森県」かつ「埼玉県へのエージェントの訪問経験=なし」という情報にも基づいた発話である。
 [[例1-3]]システム発話t(7)の「長瀞の桜ってどうですか?」
 システム発話t(7)の「長瀞の桜ってどうですか?」の部分は、直前のユーザ発話t(6)で入力された「長瀞へのユーザの訪問経験=あり」という情報だけでなく、エージェントに予め設定された「埼玉県へのエージェントの訪問経験=なし」という情報にも基づいた発話である。
 なお、下記の例2-1や例2-2のように、直前のユーザ発話に含まれる情報と、対話システムの人格(エージェント)に設定された情報と、に少なくとも基づくシステム発話であれば、過去のユーザ発話にも基づくシステム発話を提示するようにしてもよい。
 [[例2-1]]システム発話t(7)の「いい桜があるのうらやましいなあ。。」
 システム発話t(7)の「いい桜があるのうらやましいなあ。。」の部分は、直前のユーザ発話t(6)で入力された「長瀞へのユーザの訪問経験=あり」という情報と、過去のユーザ発話t(4)で入力された「ユーザの居住県=埼玉県」という情報と、エージェントに予め設定された「エージェントの居住県=青森県」という情報と、に基づいた発話である。直前のユーザ発話t(6)で「長瀞へのユーザの訪問経験=あり」であったとしても、仮に「ユーザの居住県=埼玉県」でなかった場合や「エージェントの居住県=埼玉県」であった場合には、「があるのうらやましい」という発話は適切ではないので、システム発話t(7)として「いい桜があるのうらやましいなあ。。」とは異なる発話をする。また、直前のユーザ発話t(6)が「そうなんですか?」のように、「長瀞へのユーザの訪問経験=あり」ではなかった場合、例えば、長瀞を知らない、もしくは、有名であることに同意しない旨を発話した場合であれば、システム発話t(7)の「いい桜があるのうらやましいなあ。。」は不自然な発話となり適切ではないので、この場合は、システム発話t(7)として、例えば、「あ、そんなに有名でもないんですかね。」のように単に同調する発話、もしくは、「いや、前にすごくいいって聞いたことがあったので。」のようにユーザが同意していないことを承認しつつエージェント自身の主張を継続する発話、をする。
 [[例2-2]システム発話t(9)の「ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。」
 システム発話t(9)の「ところで、私青森県に住んでるんですけど、桜といえば弘前城とかもおすすめです。」の部分は、直前のユーザ発話t(8)で入力されたユーザの肯定評価と、過去のユーザ発話t(4)で入力された「ユーザの居住県=埼玉県」という情報と、エージェントに予め設定された「エージェントの居住県=青森県」という情報と、に基づいた発話である。仮に「ユーザの居住県=青森県」という情報が過去に入力されており、ユーザとエージェントとで居住県が一致していたのであれば、システム発話t(9)の上記の部分の冒頭は「ところで、私」ではなく、例えば「実は、私も」のような発話とする。また、ユーザの評価が否定評価であれば、システム発話t(9)では桜の話題の発話ではなく異なる話題の発話をする。
 なお、下記の例3-1のように、直前のユーザ発話に含まれる情報と、対話システムの人格(エージェント)に設定された情報と、に少なくとも基づくシステム発話をするときに、直前のユーザ発話においてあり得る選択肢が多い場合には、直前のユーザ発話に含まれる情報と対話システムの人格(エージェント)に設定された情報との異同に基づくシステム発話を提示するようにしてもよい。
 [[例3-1]システム発話t(3)の「杉山さんは何県にお住まいなんですか?」とシステム発話t(5)の「いいですね。行ってみたいです。」
 システム発話t(3)の「杉山さんは何県にお住まいなんですか?」との質問をする発話の部分は、日本の全都道府県に対応する47通りの選択肢があり得る質問である。これに対して、ユーザ発話t(4)ではユーザの居住県が回答されているものの、システム発話t(5)の「いいですね。行ってみたいです。」の部分は、ユーザの居住県に直接対応する発話ではなく、ユーザとエージェントとの居住経験や訪問経験の異同に基づく発話であるが、ユーザにはエージェントがユーザ発話を理解できているように感じられる。
 〔対話システム100が行う対話方法の処理手続き〕
 次に、第1実施形態の対話システム100が行う対話方法の処理手続きは図3に示す通りであり、そのうちのシステム発話を決定して提示する部分(図3のステップS2)の詳細な処理手続きの例は図4に示す通りである。
 [初回のシステム発話の決定と提示(初回のステップS2)]
 対話システム100が対話の動作を開始すると、まず、発話決定部30のシステム発話生成部320が、シナリオの最初の状態で行うシステム発話の発話テンプレートをシナリオ記憶部350から読み出して、システム発話の内容を表すテキストを出力し、音声合成部40が音声信号への変換を行い、提示部50が提示する。シナリオの最初の状態で行うシステム発話は、例えば、システム発話t(1)のような挨拶とユーザに何らかの質問をする発話である。
 [ユーザ発話の受け付け(ステップS1)]
 入力部10がユーザの発話音声を収音して音声信号に変換し、音声認識部20がテキストへの変換を行い、ユーザの発話内容を表すテキストを発話決定部30に出力する。ユーザの発話内容を表すテキストは、例えば、システム発話t(1)に対して発話されたユーザ発話t(2)、システム発話t(3)に対して発話されたユーザ発話t(4)、システム発話t(5)に対して発話されたユーザ発話t(6)、システム発話t(7)に対して発話されたユーザ発話t(8)、である。
 [システム発話の決定と提示(初回以外のステップS2)]
 発話決定部30は、直前のユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づくシステム発話の内容を表すテキストを決定し、音声合成部40が音声信号への変換を行い、提示部50が提示する。提示されるシステム発話は、ユーザ発話t(2)に対するシステム発話t(3)、ユーザ発話t(4)に対するシステム発話t(5)、ユーザ発話t(6)に対するシステム発話t(7)、ユーザ発話t(8)に対するシステム発話t(9)、である。ステップS2の詳細については、〔システム発話の決定と提示の処理手続き〕として後述する。
 [対話の継続と終了(ステップS3)]
 発話決定部30のシステム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態が最後の状態であれば対話システム100が対話の動作を終了し、そうでなければステップS1を行うことで対話を継続する。
 〔システム発話の決定と提示の処理手続き〕
 システム発話の決定と提示の処理手続き(ステップS2)の詳細は、以下のステップS21からステップS25の通りである。
 [ユーザ発話の理解結果の取得(ステップS21)]
 ユーザ発話理解部310は、発話決定部30に入力されたユーザの発話内容を表すテキストから、ユーザ発話の発話意図の理解結果とユーザに関する属性の情報とを得て、システム発話生成部320に対して出力する。ユーザ発話理解部310は、取得したユーザに関する属性の情報については、ユーザ情報記憶部330への格納も行う。
 例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、ユーザ発話理解部310は、ユーザ発話の発話意図の理解結果として「発話意図=名前を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの名前」である「杉山」を得る。入力されたユーザの発話内容を表すテキストが発話t(4)であれば、ユーザ発話理解部310は、ユーザ発話の発話意図の理解結果として「発話意図=居住県を発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県」である「埼玉県」を得る。入力されたユーザの発話内容を表すテキストが発話t(6)であれば、ユーザ発話理解部310は、ユーザ発話の発話意図の理解結果として「発話意図=名所への訪問経験ありと発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所への訪問経験=あり」を得る。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、ユーザ発話理解部310は、ユーザ発話の発話意図の理解結果として「発話意図=名物の経験ありと発話した」旨と「発話意図=名物の経験が肯定評価であると発話した」旨を得て、ユーザに関する属性の情報として「ユーザの居住県の名所の名物の経験=あり」を得る。
 なお、初回のステップS2においては、ステップS21は行わない。
 [発話テンプレートの取得(ステップS22)]
 システム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちの、ユーザ発話理解部310から入力されたユーザの発話意図に対応する発話テンプレートを取得する。すなわち、システム発話生成部320は、最も新しく入力されたユーザ発話におけるユーザの発話意図と矛盾しない発話意図の発話テンプレートを取得する。システム発話生成部320は、ユーザ発話理解部310から入力されたユーザの発話意図と矛盾しない発話意図の発話テンプレートが複数個ある場合には、システム情報記憶部340に記憶された対話システムに設定された人格(エージェント)に関する属性の情報とも矛盾せず、ユーザ情報記憶部330に記憶されたユーザに関する属性の情報とも矛盾しない、1つの発話テンプレートを特定して取得する。
 なお、現在の状態における直前のユーザ発話の発話意図の各候補に対応する発話テンプレートのうちに、入力されたユーザの発話意図に対応する発話テンプレートが1つだけであるケースは、シナリオ記憶部350に記憶するシナリオの各状態を予め作成する段階で、エージェントに関する属性の情報ともユーザに関する属性の情報とも矛盾しないような発話テンプレートが作成されているケースに該当するので、エージェントに関する属性の情報やユーザに関する属性の情報と矛盾した発話テンプレートが選択されてしまうことはない。
 例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部320は、「[ユーザの名前]さんとおっしゃるんですね、私は[エージェントの名前]っていいます。よろしくお願いします。[ユーザの名前]さんは何県にお住まいなんですか?」という発話テンプレートを取得する。なお、発話テンプレートのうちの[](角括弧)で囲まれた部分は、ユーザ発話理解部310とユーザ情報記憶部330とシステム情報記憶部340と要素情報記憶部360のいずれかから情報を取得して含めることを指定する情報である。システム発話生成部320は、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、ユーザ発話の発話意図の理解結果が「発話意図=名前を発話した」であるので、「発話意図=名前を発話した」に対応する上記の発話テンプレートを取得するが、ユーザ発話の発話意図の理解結果が、例えば「発話意図=名前を発話しなかった」などの別のものである場合には、ユーザ発話の発話意図の理解結果に対応する発話テンプレートを取得すればよい。すなわち、対話シナリオ記憶部350のシナリオには、ユーザ発話が予め定めた種別の情報を含む場合と含まない場合と、のそれぞれの場合と、それぞれの場合に対応する発話テンプレートの候補と、を予め対応付けて記憶しておき、入力されたユーザ発話が予め定めた種別の情報を含むか含まないかの理解結果を得て、発話テンプレートの候補のうちの当該理解結果に対応する発話テンプレートを選択するようにするのがよい。
 また例えば、入力されたユーザの発話内容を表すテキストが発話t(4)であれば、システム発話生成部320は、「ふむふむ。[ユーザの居住県]ですか。[ユーザの居住県]いいですね。行ってみたいです。[[ユーザの居住県]の名所]とか有名ですよね?」という発話テンプレートを取得する。また例えば、入力されたユーザの発話内容を表すテキストが発話t(6)であれば、システム発話生成部320は、「いい[[ユーザの居住県]の名所の名物]があるのうらやましいなあ。。私は[[ユーザの居住県]の名所の名物に対する行動]とか好きなんですけど、[[ユーザの居住県]の名所]の[[ユーザの居住県]の名所の名物]ってどうですか?」という発話テンプレートを取得する。
 また例えば、入力されたユーザの発話内容を表すテキストが発話t(8)であれば、システム発話生成部320は、「[[ユーザの居住県]の名所の名物]いいですよねえ。ところで、私[エージェントの居住県]に住んでいるんですけど、[[ユーザの居住県]の名所の名物]といえば[[[ユーザの居住県]の名所の名物]が名物である[エージェントの居住県]の名所]とかもおすすめです。[ユーザの名前]さんは行かれたことはあります?」という発話テンプレートを取得する。なお、システム発話t(7)に対するユーザの発話意図の候補は、まず「発話意図=名物の経験ありと発話した」と「発話意図=名物の経験ありと発話しなかった」の2通りがあるが、さらに「発話意図=名物の経験ありと発話した」には「発話意図=名物の経験が肯定評価であると発話した」と「発話意図=名物の経験が否定評価であると発話した」の2通りがある。そこで、対話シナリオ記憶部350のシナリオには、「発話意図=名物の経験ありと発話した」には「発話意図=名物の経験が肯定評価であると発話した」と「発話意図=名物の経験が否定評価であると発話した」の2通りの発話意図それぞれに対応する発話テンプレートの候補を予め記憶しておき選択できるようにする必要がある。すなわち、対話シナリオ記憶部350のシナリオには、ユーザ発話が予め定めた種別の肯定評価を含む場合と否定評価を含む場合と、のそれぞれの場合と、それぞれの場合に対応する発話テンプレートの候補と、を予め対応付けて記憶しておき、入力されたユーザ発話が予め定めた種別の肯定評価を含むか否定評価を含むかの理解結果を得て、発話テンプレートの候補のうちの当該理解結果に対応する発話テンプレートを選択するようにするのがよい。
 なお、初回のステップS2におけるステップS22では、システム発話生成部320は、シナリオ記憶部350に記憶されたシナリオにおける最初の状態の発話テンプレートを取得する。
 [システム発話の生成(ステップS23)]
 システム発話生成部320は、ステップS22で取得した発話テンプレートが、ユーザ発話理解部310から取得されなかったユーザに関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、ユーザに関する当該種別の属性の情報をユーザ情報記憶部330から取得し、取得した発話テンプレートが対話システムに設定された人格(エージェント)に関する所定の種別の属性の情報を含めることを指定する情報を含む場合には、対話システムに設定された人格(エージェント)に関する当該種別の属性の情報をシステム情報記憶部330から取得し、取得した発話テンプレートが所定の種別の要素の情報を含めることを指定する情報を含む場合には、当該の要素の情報を要素情報記憶部360から取得し、取得した情報を発話テンプレート中の指定された位置に挿入してシステム発話の内容を表すテキストとして決定して出力する。
 例えば、入力されたユーザの発話内容を表すテキストが発話t(2)であれば、システム発話生成部320は、システム情報記憶部340から[エージェントの名前]である「リコ」を取得して、ユーザ発話理解部310から取得された[ユーザの名前]である「杉山」とともに上述した発話テンプレートに挿入して発話t(3)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(4)であれば、[ユーザの居住県]である「埼玉県」をユーザ情報記憶部330から取得し、[[ユーザの居住県]の名所]すなわち埼玉県の名所である「長瀞」を要素情報記憶部360から取得して、上述した発話テンプレートに挿入して発話t(5)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(6)であれば、[[ユーザの居住県]の名所]すなわち埼玉県の名所である「長瀞」と、[[ユーザの居住県]の名所の名物]すなわち埼玉県の名所である長瀞の名物である「桜」と、[[ユーザの居住県]の名所の名物に対する行動]すなわち桜に対する行動である「お花見」と、を要素情報記憶部360から取得して、上述した発話テンプレートに挿入して発話t(7)のテキストとして決定して出力する。入力されたユーザの発話内容を表すテキストが発話t(8)であれば、[ユーザの名前]である「杉山」をユーザ情報記憶部330から取得し、[エージェントの居住県]である「青森県」をシステム情報記憶部340から取得し、[[ユーザの居住県]の名所の名物]すなわち「桜」と、[[[ユーザの居住県]の名所の名物]が名物である[エージェントの居住県]の名所]すなわち桜が名物である「弘前城」と、を要素情報記憶部360から取得して、上述した発話テンプレートに挿入して発話t(9)のテキストとして決定して出力する。なお、発話t(5)の一部で「埼玉県」の「県」を省略しているように、取得した情報の意味が変わらない範囲内であれば、取得した情報の表現を変更したものを発話テンプレートに挿入してもよい。
 [システム発話の音声の合成(ステップS24)]
 音声合成部40は、発話決定部30から入力されたシステム発話の内容を表すテキストを、システム発話の内容を表す音声信号に変換し、提示部50に対して出力する。
 [システム発話の提示(ステップS25)]
 提示部50は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を提示する。
 以上、対話システム100が行う対話方法の処理手続きを詳述したが、要するに、対話システム100が行う対話方法は、人格が仮想的に設定された対話システムが実行する対話方法であって、最も新しく入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に少なくとも基づく発話を提示する対話方法である。対話システム100が行う対話方法は、さらに過去に入力されたユーザ発話に含まれる情報にも基づき、最も新しく入力されたユーザ発話に含まれる情報と、過去に入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に矛盾しない発話を提示する対話方法であってもよい。より詳しくは、対話システム100が行う対話方法は、最も新しく入力されたユーザ発話の発話意図の理解結果と、最も新しく入力されたユーザ発話に含まれる情報と、過去に入力されたユーザ発話に含まれる情報と、対話システムの人格に設定された情報と、に矛盾しない発話を生成して、生成した発話を提示する対話方法であってもよい。
 また、対話システム100が行う発話の生成処理は、ユーザ発話が予め定めた種別の情報を含む場合と含まない場合、および、ユーザ発話が予め定めた種別の肯定情報を含む場合と否定情報を含む場合、のそれぞれの場合に、発話テンプレートの候補を対応付けて対話シナリオ記憶部350に予め記憶した対話シナリオに従って発話を生成する処理であって、最も新しく入力されたユーザ発話が、予め定めた種別の情報を含むか含まないか、および、予め定めた種別の肯定情報を含むか否定情報を含むか、の少なくともいずれかの理解結果を得て、発話テンプレートの候補のうちの、得た理解結果に対応する発話テンプレート、に基づく発話を生成する処理であるとよい。
 また、対話システム100が行う対話方法は、あり得る選択肢が有限個である要素(以下、「対象要素」という)について質問する発話を提示し、当該提示した発話に対するユーザ発話を受け付けて、当該受け付けたユーザ発話に含まれる対象要素が選択肢のうちのいずれであるかと、対話システムの人格に設定された対象要素が選択肢のうちのいずれであるかと、の異同に基づく発話を提示することを含むものであってもよい。
 [第2実施形態]
 第1実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、本発明の対話システムの提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、本発明の対話システムはこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態であってもよい。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」(登録商標)のような、テキストメッセージにより対話を行うチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態を第2実施形態として説明する。第2実施形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本発明の対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
 第2実施形態の対話システム200は、図5に示すように、例えば、一台の対話装置2からなる。第2実施形態の対話装置2は、例えば、入力部10、音声認識部20、発話決定部30、および提示部50を備える。対話装置2は、例えば、マイクロホン11、スピーカ51を備えていてもよい。
 第2実施形態の対話装置2は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置2がスマートフォンであるものとして説明する。提示部50はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはチャットの対話内容が時系列に表示される。このチャットには、対話装置2が制御する仮想的な人格に対応する仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本実施形態は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いてチャットのウィンドウ内に設けられた入力エリアである入力部10へ発話内容を入力し、自らのアカウントを通じてチャットへ投稿することができる。発話決定部30はユーザのアカウントからの投稿に基づいて対話装置2からの発話内容を決定し、仮想アカウントを通じてチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホン11と音声認識機能を用い、ユーザが発声により入力部10へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカ51と音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカ51から出力する構成としてもよい。
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。
 [プログラム、記録媒体]
 上記実施形態で説明した各対話装置における各種の処理機能をコンピュータによって実現する場合、各対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図6に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各対話装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1.  人格が仮想的に設定された対話システムが実行する対話方法であって、
     最も新しく入力されたユーザ発話に含まれる情報と、
     前記対話システムの前記人格に設定された情報と、
     に少なくとも基づく発話を提示する発話提示ステップ
     を含む対話方法。
  2.  請求項1に記載の対話方法であって、
     最も新しく入力されたユーザ発話に含まれる情報と、
     過去に入力されたユーザ発話に含まれる情報と、
     前記対話システムの前記人格に設定された情報と、
     に矛盾しない発話を提示する発話提示ステップ
     を含む対話方法。
  3.  請求項2に記載の対話方法であって、
     最も新しく入力されたユーザ発話の発話意図の理解結果と、
     最も新しく入力されたユーザ発話に含まれる情報と、
     過去に入力されたユーザ発話に含まれる情報と、
     前記対話システムの前記人格に設定された情報と、
     に矛盾しない発話を生成する発話決定ステップをさらに含み、
     前記発話提示ステップは、前記発話決定ステップが生成した発話を提示する、
     対話方法。
  4.  請求項1に記載の対話方法であって、
     ユーザ発話が予め定めた種別の情報を含む場合と含まない場合、および、ユーザ発話が予め定めた種別の肯定情報を含む場合と否定情報を含む場合、のそれぞれの場合に、発話のテンプレートを対応付けて予め記憶した対話シナリオに従って発話を生成する処理であって、
     最も新しく入力されたユーザ発話が、前記予め定めた種別の情報を含むか含まないか、および、前記予め定めた種別の肯定情報を含むか否定情報を含むか、の少なくともいずれかの理解結果を得て、前記発話のテンプレートのうちの前記理解結果に対応する発話のテンプレートに基づく発話を生成する発話決定ステップをさらに含み、
     前記発話提示ステップは、前記発話決定ステップが生成した発話を提示する、
     対話方法。
  5.  請求項1から4のいずれかに記載の対話方法であって、
     あり得る選択肢が有限個である要素(以下、「対象要素」という)について質問する発話を提示する質問提示ステップと、
     前記質問提示ステップで提示した発話に対するユーザ発話を受け付ける回答受付ステップと、
     をさらに含み、
     前記発話提示ステップは、
     前記回答受付ステップで受け付けた前記ユーザ発話に含まれる前記対象要素が前記選択肢のうちのいずれであるかと、前記対話システムの前記人格に設定された前記対象要素が前記選択肢のうちのいずれであるかと、の異同に基づく発話を提示する、
     対話方法。
  6.  請求項3または4に記載の対話方法であって、
     対話シナリオにおける各状態について予め記憶しておく発話のテンプレートのうち、少なくともいずれかの発話のテンプレートは、要素の種別を用いて記述されたものであり、
     前記各種別の要素の情報は、前記テンプレートとは別に予め記憶しておき、
     前記発話決定ステップは、
     前記対話シナリオから選択した現在の状態に対応する前記テンプレート中の前記要素の種別に、前記テンプレートとは別に予め記憶された前記要素の情報を挿入することで、発話を生成する、
     対話方法。
  7.  人格が仮想的に設定された対話システムであって、
     ユーザ発話を受け付ける入力部と、
     最も新しく入力されたユーザ発話に含まれる情報と、
     前記対話システムの前記人格に設定された情報と、
     に少なくとも基づく発話を提示する提示部と、
     を含む対話システム。
  8.  ユーザ発話を受け付ける入力部と、発話を提示する提示部を少なくとも含む対話システムが提示する発話を決定する対話装置であって、
     最も新しく入力されたユーザ発話に含まれる情報と、
     前記対話システムの前記人格に設定された情報と、
     に少なくとも基づく発話を決定する発話決定部
     を含む対話装置。
  9.  請求項1から6のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
  10.  請求項8に記載の対話装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/039145 2019-10-03 2019-10-03 対話方法、対話システム、対話装置、およびプログラム WO2021064947A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/039145 WO2021064947A1 (ja) 2019-10-03 2019-10-03 対話方法、対話システム、対話装置、およびプログラム
JP2021550887A JP7310907B2 (ja) 2019-10-03 2019-10-03 対話方法、対話システム、対話装置、およびプログラム
US17/764,154 US20220319516A1 (en) 2019-10-03 2019-10-03 Conversation method, conversation system, conversation apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/039145 WO2021064947A1 (ja) 2019-10-03 2019-10-03 対話方法、対話システム、対話装置、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021064947A1 true WO2021064947A1 (ja) 2021-04-08

Family

ID=75337956

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/039145 WO2021064947A1 (ja) 2019-10-03 2019-10-03 対話方法、対話システム、対話装置、およびプログラム

Country Status (3)

Country Link
US (1) US20220319516A1 (ja)
JP (1) JP7310907B2 (ja)
WO (1) WO2021064947A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7350384B1 (ja) 2022-05-30 2023-09-26 真由美 稲場 対話システム、及び対話方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323388A (ja) * 2002-05-01 2003-11-14 Omron Corp 情報提供方法および情報提供システム
US20150185996A1 (en) * 2013-12-31 2015-07-02 Next It Corporation Virtual assistant team identification
WO2017200079A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2017208003A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2018163647A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2019036171A (ja) * 2017-08-17 2019-03-07 Kddi株式会社 対話シナリオコーパスの作成支援システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346542B2 (en) * 2012-08-31 2019-07-09 Verint Americas Inc. Human-to-human conversation analysis
US20190286711A1 (en) * 2015-01-23 2019-09-19 Conversica, Inc. Systems and methods for message building for machine learning conversations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323388A (ja) * 2002-05-01 2003-11-14 Omron Corp 情報提供方法および情報提供システム
US20150185996A1 (en) * 2013-12-31 2015-07-02 Next It Corporation Virtual assistant team identification
WO2017200079A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2017208003A (ja) * 2016-05-20 2017-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2018163647A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
JP2019036171A (ja) * 2017-08-17 2019-03-07 Kddi株式会社 対話シナリオコーパスの作成支援システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUGIYAMA HIROAKI ET AL.: "Empirical study on domain-specific conversational dialogue system based on context-aware utterance understanding and generation", JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE- PROCEEDINGS OF 84TH SIG- SLUD, November 2018 (2018-11-01), pages 118 - 123 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7350384B1 (ja) 2022-05-30 2023-09-26 真由美 稲場 対話システム、及び対話方法
JP2023175269A (ja) * 2022-05-30 2023-12-12 真由美 稲場 対話システム、及び対話方法

Also Published As

Publication number Publication date
US20220319516A1 (en) 2022-10-06
JP7310907B2 (ja) 2023-07-19
JPWO2021064947A1 (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
JP7243625B2 (ja) 情報処理装置、及び情報処理方法
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
JP6719747B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
JP6667855B2 (ja) 取得方法、生成方法、それらのシステム、及びプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
WO2017200078A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6699010B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
Papaioannou et al. Hybrid chat and task dialogue for more engaging hri using reinforcement learning
WO2018163646A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN115167656A (zh) 基于人工智能虚拟形象的互动服务方法及装置
CN111556999A (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN111557001A (zh) 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
JP2022531994A (ja) 人工知能ベースの会話システムの生成および動作
WO2021064948A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11485022B2 (en) Dialogue apparatus and control program for dialogue apparatus
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JP6610965B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
Karat et al. Speech and language interfaces, applications, and technologies
JP7462995B1 (ja) 情報処理システム、情報処理方法及びプログラム
JPWO2017200075A1 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19947729

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021550887

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19947729

Country of ref document: EP

Kind code of ref document: A1