WO2014073612A1 - 会話文生成装置、会話文生成方法及び会話文生成プログラム - Google Patents

会話文生成装置、会話文生成方法及び会話文生成プログラム Download PDF

Info

Publication number
WO2014073612A1
WO2014073612A1 PCT/JP2013/080138 JP2013080138W WO2014073612A1 WO 2014073612 A1 WO2014073612 A1 WO 2014073612A1 JP 2013080138 W JP2013080138 W JP 2013080138W WO 2014073612 A1 WO2014073612 A1 WO 2014073612A1
Authority
WO
WIPO (PCT)
Prior art keywords
agent
state
conversation
conversation sentence
user
Prior art date
Application number
PCT/JP2013/080138
Other languages
English (en)
French (fr)
Inventor
貴士 大西
石川 開
千穂 井木
Original Assignee
日本電気株式会社
Necシステムテクノロジー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社, Necシステムテクノロジー株式会社 filed Critical 日本電気株式会社
Priority to JP2014545752A priority Critical patent/JPWO2014073612A1/ja
Priority to US14/441,576 priority patent/US9570064B2/en
Publication of WO2014073612A1 publication Critical patent/WO2014073612A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Definitions

  • the present invention relates to a conversation sentence generation device, a conversation sentence generation method, and a conversation sentence generation program, and more particularly to a conversation sentence generation apparatus, a conversation sentence generation method, and a conversation sentence generation method for generating a virtual agent conversation sentence for performing an anthropomorphic conversation with a user. It relates to a conversation sentence generation program.
  • Patent Document 1 is an example of such a dialogue system.
  • the ego state is estimated by the ego state estimation unit based on the exchange analysis (for example, Mineyasu Sugita: “Interaction Analysis”, Nihon Bunka Kagakusha, 1985), and the dialogue control unit using the estimated ego state.
  • a dialog system is disclosed in which a text for response is output and a human and machine interact smoothly.
  • the conventional dialogue system is aimed at accomplishing the task determined by the dialogue between the user and the machine according to a predetermined scenario, and the dialogue there is uniform. There were many, and it was not intended for free conversation like chat between humans.
  • the conventional human-machine dialogue system is a task that is determined by the dialogue control unit discriminating the content of a request in response to a request from a human and performing a dialogue with a human in accordance with a dialogue scenario that matches the requested content.
  • the conventional human-machine dialogue system is a task that is determined by the dialogue control unit discriminating the content of a request in response to a request from a human and performing a dialogue with a human in accordance with a dialogue scenario that matches the requested content.
  • the present invention has been made in view of the above problems, and an object thereof is to provide a conversation sentence generation device, a conversation sentence generation method, and a conversation sentence generation program capable of realizing a human-like conversation.
  • the present invention relates to a conversation sentence generation device for generating a conversation sentence of a virtual agent that performs an anthropomorphic conversation with a user, and estimates a conversation sentence directed from the user to the agent, and a physical state and a psychological state of the agent.
  • Input unit that accepts clue information as input information
  • an agent state storage unit that stores the physical state and psychological state of the agent as an agent state
  • agent state estimation that estimates a new agent state from the input information
  • the agent state Utterance intention generation unit that generates an utterance intention for the agent user from the input unit, input information, and agent state, and conversation that generates a conversation sentence for the agent user from the input information, agent state, and utterance intention
  • An output unit that is a sentence generating apparatus comprising: a.
  • conversation sentence generation is performed in three phases: state estimation, utterance intention generation, and conversation sentence generation.
  • state estimation By handling utterance intention generation and conversation sentence generation separately, it becomes possible to generate a plurality of conversation sentences for the same utterance intention and generate conversation sentences with variations.
  • estimating the state of the agent or the state of the user it is possible to estimate the physical state and psychological state of the agent and the user, and generate a conversation sentence that matches the estimated physical state and psychological state.
  • state estimation and storing the result in the state storage unit it is possible to generate a conversation sentence that is consistent with past utterance contents.
  • the present invention relates to a conversation sentence generation method for generating a conversation sentence of a virtual agent that performs anthropomorphic conversation with a user, and estimates a conversation sentence directed from the user to the agent, and a physical state and a psychological state of the agent.
  • Clue information is received as input information
  • the physical state and psychological state of the agent are stored as agent states
  • a new agent state is estimated from the input information and agent state
  • the agent is obtained from the input information and agent state.
  • a conversation characterized by generating a conversation intention for the user of the user, generating a conversation sentence for the user of the agent from the input information, the agent state, and the intention of speaking, and outputting the conversation sentence generated by the conversation sentence generation unit. This is a sentence generation method.
  • the present invention stores, in a computer, a conversation sentence from a user to an agent and clue information for estimating the physical state and psychological state of the agent as input information, and stores the physical state and psychological state of the agent as the agent state.
  • Process process of estimating new agent state from input information and agent state, process of generating utterance intention for agent user from input information and agent state, input information, agent state, utterance intention
  • a conversation sentence generation process for generating a conversation sentence for the user of the agent and a process for outputting the conversation sentence generated by the conversation sentence generation unit.
  • FIG. 1 is a block diagram showing the configuration of the first embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the second exemplary embodiment of the present invention.
  • FIG. 3 is a flowchart for explaining the operation of the embodiment of the present invention.
  • the present invention relates to a system that handles machines and animals as anthropomorphic agents and has a conversation with a human being as a user.
  • FIG. 1 is a block diagram showing a configuration example of a conversational sentence generating apparatus according to the first embodiment.
  • the first embodiment of the present invention includes an input unit 1, an agent state estimation unit 2, an utterance intention generation unit 3, a conversation sentence generation unit 4, an output unit 5, and an agent state storage unit 6.
  • the input unit 1 receives a conversation sentence from the user to the agent and clue information for estimating the physical state and psychological state of the agent as input information, and passes them to the agent state estimation unit 2.
  • Input information is given as a pair of attribute name and attribute value.
  • the conversation sentence may be used as it is, or the conversation sentence may be analyzed and only the main point extracted. For example, when an e-mail with the content “(return is late)” is sent from the user to the agent, only the main points that the attribute name is “mail” and the attribute value is “slow” may be input information. Further, when the agent expresses his / her state and becomes the beginning of the conversation, the conversation sentence from the user may not be input.
  • attributes such as user and agent name and gender, attributes specific to the agent (hereinafter referred to as user attributes and agent attributes), and dynamic attributes such as time and weather when creating a conversation sentence (Hereinafter referred to as a dynamic attribute).
  • Tables 1, 2 and 3 show examples of input information.
  • the agent state estimation unit 2 estimates a new agent state from the input information received from the input unit 1 and the agent state stored in the agent state storage unit 6, and stores the estimated agent state in the agent state storage unit 6. Store and pass the input information to the utterance intention generator 3.
  • the agent state represents the physical state and psychological state of the agent, and is represented by a pair of attribute name and attribute value as in the input information.
  • the “emotional value” that expresses the emotion of the agent is expressed as a positive value if the agent is happy or fun, and negative if the agent is sad or hard.
  • the absolute value of the value is defined as the strength of emotion.
  • Agent state estimation is performed using state estimation rules.
  • the state estimation rule includes a condition part and a state description part.
  • the state description part describes the physical state and psychological state of the agent.
  • the condition part describes a condition for determining whether the agent is in the state from the input information and the agent state stored in the agent state storage unit 6. If the input information and the agent state match the condition part, it is estimated that the agent is the agent state described in the state description part.
  • Table 4 illustrates the state estimation rules.
  • the utterance intention generation unit 3 generates an utterance intention for the agent user from the input information received from the agent state estimation unit 2 and the agent state, and passes the generated utterance intention together with the input information to the conversation sentence generation unit 4.
  • An utterance intention is defined by a label such as “loneliness expression” and “user rush” and a score indicating the strength of the intention, and one or a plurality of utterance intentions are generated at the time of generating a single conversation sentence.
  • the utterance intention generation rule includes a condition part and an utterance intention description part.
  • the utterance intention description part describes the utterance intention to the agent user.
  • the condition part describes a condition for determining whether the agent is in the utterance intention from the input information, the agent state, and the user state. When the input information and the agent state match the condition part, the utterance intention described in the utterance intention description part is generated.
  • the utterance intention score is the total score given to the condition section. In addition, if there is a recent state change, the intention regarding the changed state is considered to be stronger, so a bonus is added to the score for conditions that use a state within the threshold from the state change, The score may be increased.
  • the conversation sentence generation unit 4 generates a conversation sentence for the agent user using the input information, the agent state, and the utterance intention received from the utterance intention generation unit 3, and passes the generated conversation sentence to the output unit 5.
  • Conversation sentence generation is performed using conversation sentence generation rules.
  • the conversation sentence generation rule includes a condition part and a conversation sentence description part.
  • the conversation sentence description part describes a conversation sentence for the agent user.
  • the condition part describes a condition for determining whether or not the conversation sentence is appropriate as the conversation sentence for the agent user from the input information, the agent state, and the intention to speak.
  • the conversation sentence described in the conversation sentence description part is selected.
  • the conversation sentence may be described as it is, or may be described in a template format in which values such as user attributes and agent attributes are embedded as variables.
  • the conversation part is generated by replacing the variable part with values such as user attributes and agent attributes when the conversation sentence is generated. This makes it possible to generate a sentence in which the user name and agent name are embedded in the sentence.
  • a conversation sentence is generated for each utterance intention, and one sentence is generated from one utterance intention.
  • the scores given to the condition part are totaled as in the intention generation, and the rule having the largest total score is adopted. If the most recently used template is used continuously, it will be a one-pattern response, and the user will get bored.Therefore, the rule with a time within the threshold from the previous use will be penalized with the same rule. It may not be adopted.
  • the output unit 5 outputs the conversation sentence received from the conversation sentence generation unit 4 to the user.
  • the character color and size are edited and sent by e-mail or posted to SNS (social networking service).
  • SNS social networking service
  • it may be presented to the user by voice using a voice synthesizer.
  • the agent state storage unit 6 stores the agent state estimated by the agent state estimation unit 2 in association with the generation time. Even if the agent state is not changed by state estimation, it is possible to generate a conversation sentence that is consistent with the past conversation sentence by continuously maintaining the state at the time of the previous conversation sentence generation.
  • FIG. 2 shows a block diagram illustrating a configuration example of the conversational sentence generation apparatus according to the second embodiment.
  • the second embodiment of the present invention estimates not only the agent state but also the user state.
  • the user state estimation unit 22 and the user state storage unit 62 are added from the configuration of FIG.
  • the estimation and use of the user state is realized by the same method as the estimation and use of the agent state.
  • the user state represents the physical state and psychological state of the user, and includes, for example, a “positive negative state” having an attribute value of “positive” or “negative”.
  • the “positive / negative state” represents the mental state of the user by binary values of “positive” or “negative” based on the contents of the mail from the user.
  • the input unit 1 receives a conversation sentence directed from the user to the agent and clue information for estimating the physical state and psychological state of the agent as input information (step A1).
  • the agent state estimation unit 2 or the agent state estimation unit 21 and the user state estimation unit 22, the input information received from the input unit 1, the agent state storage unit 6, or the agent state storage unit 61 and the user state.
  • a new agent state and user state are estimated from the agent state stored in the storage unit 62, and the estimated agent state and user state are estimated as the agent state storage unit 6, or the agent state storage unit 61 and the user state storage unit 62. (Step A2).
  • the utterance intention generation unit 3 generates an utterance intention for the agent user from the input information received from the agent state estimation unit 2, the agent state, and the user state (step A3).
  • the conversation sentence generation unit 4 generates a conversation sentence for the agent user using the input information, agent state, and utterance intention received from the utterance intention generation unit 3 (step A4).
  • the utterance intention generator generates an utterance intention
  • the conversation sentence generator generates a conversation sentence according to the generated utterance intention.
  • the agent state estimation unit and the user state estimation unit estimate the physical state and psychological state of the agent and the user, and generate a conversation sentence accordingly. Can be realized. Further, by storing the result of state estimation in the state storage unit, it becomes possible to generate a conversation sentence that is consistent with the contents of past statements.
  • Example 1 Generation of a conversation sentence when user attributes, agent attributes, and dynamic attributes as shown in Tables 11, 12, and 13 are given as inputs will be described.
  • Example 2 Generation of a conversation sentence when user attributes, agent attributes, and dynamic attributes as shown in Table 21, Table 22, and Table 23 are given as input will be described.
  • the utterance intention generation unit 3 generates the utterance intention based on the “emotion” of the agent state by referring to the utterance intention generation rule as shown in Table 25.
  • the utterance intention generation rule as shown in Table 25.
  • Example 3 Generation of a conversation sentence when user attributes, agent attributes, and dynamic attributes as shown in Table 31, 32, and 33 are given as input will be described.
  • the utterance intention generation unit 3 refers to the utterance intention generation rules shown in Table 35 to generate an utterance intention based on the agent state emotion and the user state positive / negative state.
  • the utterance intention “user joy tuning” is generated in order to share joy with the user who is.
  • the conversation sentence generation unit 4 refers to the conversation sentence generation rules as shown in Table 36 and generates a conversation sentence corresponding to each conversation intention.
  • a conversation sentence expected by the user can be generated.
  • Example 4 Generation of a conversation sentence when user attributes, agent attributes, and dynamic attributes as shown in Table 41, Table 42, and Table 43 are given as input will be described.
  • user attributes, agent attributes, and dynamic attributes as shown in Table 41, Table 42, and Table 43 are given as input.
  • Table 41, Table 42, and Table 43 are given as input.
  • the agent state is generated with “waiting for souvenir”, the emotion value is “+1”, and the user state familiarity is “+1”. If the emotion value of the user state is “above threshold ( ⁇ 2 or more)”, the relationship between the agent and the user is usually judged to be good, and the agent state emotion is generated as “very happy”. If the emotion value of the user state is “below the threshold value ( ⁇ 3 or less)”, the relationship between the agent and the user is determined to be poor, and the emotion of the agent state is generated as “happy”.
  • the agent status is generated as “visit”, the emotion value is “ ⁇ 2”, and the user status familiarity is “ ⁇ 2”. If the emotion value of the user state is “above the threshold ( ⁇ 2 or more)”, the relationship between the agent and the user is generally determined to be good, and the emotion of the agent state is generated as “sad”. If the emotion value of the user state is “threshold or less ( ⁇ 3 or less)”, it is determined that the relationship between the agent and the user is poor, and the emotion of the agent state is generated as “disgust”.
  • the utterance intention generation unit 3 generates the utterance intention based on the agent state and the user state by referring to the utterance intention generation rule as shown in Table 45.
  • the conversation sentence generation unit 4 refers to the conversation sentence generation rules as shown in Table 46 and generates a conversation sentence corresponding to each conversation intention in consideration of the closeness of the user and the agent who are the conversation target. .
  • the intimacy of each user and the agent is defined numerically according to the emotion of the agent generated by the interaction with each user. If a positive dynamic attribute is given to the agent, the intimacy is added, and if a negative dynamic attribute is given, it is subtracted. However, it is possible to generate a response based on the intimacy with each user by changing the feelings of the agent generated between the user with high intimacy and the user with low intimacy.
  • Example 5 Generation of a conversation sentence when user attributes, agent attributes, and dynamic attributes as shown in Table 51, Table 52, and Table 53 are given as input will be described.
  • the present embodiment is an example in the case of performing a conversation along the flow of a past conversation.
  • the utterance intention generation unit 3 determines the utterance intention according to the agent state and the agent state inherited from the past.
  • the conversation sentence generation unit 4 refers to the dynamic information, agent state, and user state history information at the past time point, and defines a conversation sentence generation rule that touches past contents.
  • the input 3 generates a sentence according to the current agent state (fullness) without referring to the history information, but the input 4 is the agent at the past time from the history information at a certain point in the past specified by the dynamic attribute. Refer to the state (hunger) and define a response based on "I was hungry".
  • “history pointer” is given as “(input 1)” as a dynamic attribute, and the agent state at the time of input 1 can be referred to from the agent state storage unit 61 using the information.
  • the “physical condition” of the agent state at the time of the past input is referred to by a description such as “history: A state ⁇ physical condition”.
  • the state estimation rule, the utterance intention generation rule, and the conversation sentence generation rule may be stored in, for example, the storage unit of the conversation sentence generation device, or may be stored in another device to which the conversation sentence generation device can be connected. Good.
  • the present invention can be applied to a conversation system, a social media service, and the like in which an anthropomorphic object such as an animal or a machine is anthropomorphized to have a conversation with a user.
  • the conversational sentence generation device may be realized by a CPU (Central Processing Unit) reading and executing an operation program or the like stored in a storage unit, or configured by hardware. May be. Only some functions of the above-described embodiments can be realized by a computer program.
  • CPU Central Processing Unit
  • a conversation sentence generation device for generating a conversation sentence of a virtual agent that performs anthropomorphic conversation with a user, An input unit that accepts as input information a conversation sentence from the user to the agent and clue information for estimating the physical state and psychological state of the agent; An agent state storage unit for storing the physical state and psychological state of the agent as an agent state; An agent state estimation unit for estimating a new agent state from the input information and the agent state; An utterance intention generation unit that generates an utterance intention for the user of the agent from the input information and the agent state; A conversation sentence generator for generating a conversation sentence for the agent user from the input information, the agent state, and the utterance intention; An output unit that outputs a conversation sentence generated by the conversation sentence generation unit;
  • a conversational sentence generation device comprising:
  • the agent state estimation unit includes: A condition part describing conditions for determining whether the agent is in the state from the state description part describing the physical state and psychological state of the agent, the input information, and the agent state stored in the agent state storage unit.
  • the conversation sentence generation device according to appendix 1, wherein a new agent state is estimated using a state estimation rule consisting of:
  • the utterance intention generation unit An utterance intention generation rule comprising an utterance intention description part describing an utterance intention for the user of the agent, a condition part describing a condition for determining whether the agent is in the utterance intention from the input information and the agent state.
  • the conversation sentence generation device according to Supplementary Note 1 or Supplementary Note 2, wherein the conversation intention is generated to generate an utterance intention.
  • the conversation sentence generation unit A condition describing a condition for determining whether or not the conversation sentence is appropriate as a conversation sentence for the agent user from the conversation sentence description part describing the conversation sentence for the agent user, the input information, the agent state, and the utterance intention.
  • the conversation sentence generation device according to any one of appendix 1 to appendix 3, wherein the conversation sentence is generated using a conversation sentence generation rule.
  • the utterance intention generation unit generates an utterance intention using an utterance intention generation rule including an agent state as a condition,
  • the appendix 4 or appendix 5 wherein the conversation sentence generation unit generates a conversation sentence according to the agent state by generating a conversation sentence using a conversation sentence generation rule including the agent state as a condition.
  • Conversation sentence generator
  • the agent state storage unit stores an agent state at a past time point
  • the utterance intention generation unit generates an utterance intention using an utterance intention generation rule including an agent state at a past time as a condition
  • the conversation sentence generation device according to any one of appendix 4 to appendix 6, wherein the conversation sentence generation unit generates a conversation sentence using a conversation sentence generation rule including a condition of an agent at a past time as a condition.
  • a conversation sentence generation method for generating a conversation sentence of a virtual agent that performs anthropomorphic conversation with a user Accepts as input information a conversation sentence from the user to the agent and clue information for estimating the physical state and psychological state of the agent,
  • the agent's physical and psychological states are stored as agent states
  • a new agent state is estimated from the input information and the agent state, From the input information and the agent state, generate an utterance intention for the agent user, From the input information, agent status, and utterance intention, generate a conversation sentence for the agent user,
  • An utterance intention generation rule comprising an utterance intention description part describing an utterance intention for the user of the agent, a condition part describing a condition for determining whether the agent is in the utterance intention from the input information and the agent state.
  • the conversation sentence generation method according to appendix 8 or 9, wherein the utterance intention is generated.
  • Appendix 11 A condition describing a condition for determining whether or not the conversation sentence is appropriate as a conversation sentence for the agent user from the conversation sentence description part describing the conversation sentence for the agent user, the input information, the agent state, and the utterance intention.
  • the conversational sentence generation method according to any one of appendix 8 to appendix 10, wherein a conversational sentence is generated using a conversational sentence generation rule.
  • Appendix 13 Generate utterance intention using utterance intention generation rule that includes agent state as a condition, 13.
  • Appendix 14 Memorize agent status at the past time, Generate utterance intention using utterance intention generation rule that includes agent state at the past time as a condition, 14.
  • the conversation sentence generation method according to any one of appendix 11 to appendix 13, wherein a conversation sentence is generated using a conversation sentence generation rule including a condition of an agent state at a past time.
  • the agent state estimation process includes: A condition part describing conditions for determining whether the agent is in the state from the state description part describing the physical state and psychological state of the agent, the input information, and the agent state stored in the agent state storage unit
  • the utterance intention generation process includes: An utterance intention generation rule comprising an utterance intention description part describing an utterance intention for the user of the agent, a condition part describing a condition for determining whether the agent is in the utterance intention from the input information and the agent state.
  • An utterance intention generation rule comprising an utterance intention description part describing an utterance intention for the user of the agent, a condition part describing a condition for determining whether the agent is in the utterance intention from the input information and the agent state.
  • the program according to appendix 15 or appendix 16, wherein the program is used to generate an utterance intention.
  • the conversation sentence generation process includes: A condition describing a condition for determining whether or not the conversation sentence is appropriate as a conversation sentence for the agent user from the conversation sentence description part describing the conversation sentence for the agent user, the input information, the agent state, and the utterance intention. 18. The program according to any one of supplementary note 15 to supplementary note 17, wherein a conversation sentence is generated using a conversation sentence generation rule.
  • the conversation sentence generation process includes: When multiple conversation sentence generation rules with different conversation sentences are prepared for the same condition, and the input information, agent state, and utterance intention are completely the same in the same conversation multiple times Even so, the program according to appendix 18, wherein different conversation sentences are generated by preferentially selecting conversation sentences that are not used in the conversation.
  • the utterance intention generation process generates an utterance intention using an utterance intention generation rule including an agent state as a condition,
  • the utterance intention generation process generates an utterance intention using an utterance intention generation rule including an agent state at a past time as a condition
  • the program according to any one of appendix 18 to appendix 20, wherein the conversation sentence generation process generates a conversation sentence using a conversation sentence generation rule including a condition of an agent at a past time as a condition.
  • Agent state estimation part DESCRIPTION OF SYMBOLS 1 Input part 2 Agent state estimation part 3 Speech intention production

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本願発明の会話文生成装置は、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける入力部と、エージェントの物理状態および心理状態をエージェント状態として記憶するエージェント状態記憶部と、入力情報と、エージェント状態とから新たなエージェント状態を推定するエージェント状態推定部と、入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する発話意図生成部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成部と、会話文生成部で生成した会話文を出力する出力部と、を備える。

Description

会話文生成装置、会話文生成方法及び会話文生成プログラム
 本発明は、会話文生成装置、会話文生成方法及び会話文生成プログラムに関し、特にユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成装置、会話文生成方法及び会話文生成プログラムに関する。
 人間は誰かとコミュニケーションをとりたい、共感を得たいという欲求を持っており、そのようなコミュニケーションの相手は、対人間だけのものでなく、対機械や対動物のようにあらゆる対象との間で成り立つものであると考えられる。そのような人間と機械が対話的にインタラクションを行うシステムとしてこれまで多くの対話システムが提案されている。
 そのような対話システムの一例として特許文献1がある。特許文献1では、交流分析(たとえば、杉田峰泰:「交流分析」,日本文化科学社,1985)に基づいて自我状態を自我状態推定部で推定し、推定した自我状態を用いて対話制御部で応答用のテキストを出力し、人間と機械とがスムーズに対話する対話システムを開示している。
特開2006-71936号公報
 しかし、従来の対話システムは、あらかじめ決められたシナリオに沿ってユーザと機械とが対話を行うことで決められたタスクを達成することを志向したものであり、そこでの対話は画一的なものが多く、人間同士の雑談のような自由な会話を志向したものではなかった。
 従来の人間と機械の対話システムは、人間からの要求に対して、対話制御部で要求内容を判別し、要求内容に合わせた対話シナリオに沿って人間との対話を行うことで決められたタスクを達成するものであった。そこでの対話は画一的なものが多く、人間同士の会話のようなバリエーションのある会話文やユーザの状況に合わせた会話文を生成することはできなかった。人間同士の会話では会話相手を飽きさせないために同じ意図の発言をする場合でも様々なバリエーションのある発話を行っているし、会話相手がそれぞれ物理状態、心理状態を持ち、それに合わせた発話を行っている、また、過去の発言を記憶し、過去の発言内容と一貫した会話を行っている。従来の対話システムでは、そうした人間らしい会話を実現することが困難であった。
 本発明は、上記問題点に鑑みてなされたもので、人間らしい会話を実現することができる会話文生成装置、会話文生成方法及び会話文生成プログラムを提供することを目的とする。
 本発明は、ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成装置であって、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける入力部と、エージェントの物理状態および心理状態をエージェント状態として記憶するエージェント状態記憶部と、入力情報と、エージェント状態とから新たなエージェント状態を推定するエージェント状態推定部と、入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する発話意図生成部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成部と、会話文生成部で生成した会話文を出力する出力部と、を備えることを特徴とする会話文生成装置である。
 以上のような構成にすることで、本発明では、会話文生成を状態推定、発話意図生成、会話文生成の3つのフェーズに分けて行う。発話意図生成と会話文生成を分けて扱うことで同じ発話意図に対して複数の会話文を生成しバリエーションのある会話文を生成することが可能になる。エージェントの状態推定、またはユーザの状態推定を行うことで、エージェント、ユーザの物理状態、心理状態を推定し、推定した物理状態、心理状態に合わせた会話文を生成することが可能になる。また、状態推定を行い、その結果を状態記憶部で記憶することで過去の発言内容と一貫した会話文を生成することが可能になる。
 本発明は、ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成方法であって、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付け、エージェントの物理状態および心理状態をエージェント状態として記憶し、入力情報と、エージェント状態とから新たなエージェント状態を推定し、入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成し、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成し、会話文生成部で生成した会話文を出力することを特徴とする会話文生成方法である。
 本発明は、コンピュータに、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける処理、エージェントの物理状態および心理状態をエージェント状態として記憶する処理、入力情報と、エージェント状態とから新たなエージェント状態を推定する処理、入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する処理、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成処理、会話文生成部で生成した会話文を出力する処理、を実行させることを特徴とするプログラムである。
 本発明によれば、人間らしい会話を実現する会話文を生成することができる。
図1は本発明の第1の実施形態の構成を示すブロック図である。 図2は本発明の第2の実施形態の構成を示すブロック図である。 図3は本発明の実施形態の動作を説明するためのフローチャートである。
 以下、本発明の実施形態について図面を参照して説明する。本発明は、機械や動物を擬人化したエージェントとして扱い、ユーザである人間との間で会話を行うシステムに関するものである。
(第1の実施形態)
 第1の実施形態に係る会話文生成装置の構成例を示すブロック図を図1に示す。本発明の第1の実施の形態は、入力部1と、エージェント状態推定部2と、発話意図生成部3と、会話文生成部4と、出力部5と、エージェント状態記憶部6から構成される。
 入力部1は、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付け、それらをエージェント状態推定部2に渡す。
 入力情報は、属性名と属性値のペアで与えられる。ユーザからエージェントへ向けた会話文は、会話文そのままを用いてもよいし、会話文を解析し要点のみを抽出して用いてもよい。例えば、ユーザからエージェントへ「(帰りが)遅くなる」との内容のメールを送った際に属性名が「メール」、属性値が「遅くなる」との要点のみを入力情報としても良い。また、エージェントが自らの状態を表明し、会話の発端となる場合は、ユーザからの会話文は入力されなくてもよい。その他、入力情報としては、ユーザ、エージェントの呼び名や性別といったユーザ、エージェントに固有の属性(以下、ユーザ属性、エージェント属性と呼ぶ)や、会話文作成時の時間や天気のような動的な属性(以下、動的属性と呼ぶ)が挙げられる。表1、表2、表3に入力情報の例を示す。
Figure JPOXMLDOC01-appb-I000001
 エージェント状態推定部2は、入力部1から受け取った入力情報と、エージェント状態記憶部6で記憶されたエージェント状態とから新たなエージェント状態を推定し、推定されたエージェント状態をエージェント状態記憶部6に格納し、入力情報を発話意図生成部3に渡す。
 エージェント状態はエージェントの物理状態および心理状態を表したものであり、入力情報と同様に属性名と属性値のペアで表現される。例えば、エージェントの感情を数値で表した「感情値」は、エージェントがうれしい、楽しい場合は、「感情値」の値を正の値として表現し、逆にエージェントが悲しい、つらい場合は、負の値として表現し、値の絶対値を感情の強さとして定義する。
 エージェント状態の推定は、状態推定ルールを用いて行う。状態推定ルールは、条件部と、状態記述部とからなる。状態記述部は、エージェントの物理状態および心理状態を記述したものである。条件部は、入力情報と、エージェント状態記憶部6に記憶されたエージェント状態とから、エージェントが前記状態にあるかどうかを判定する条件を記述したものである。入力情報とエージェント状態が条件部に一致するとエージェントが状態記述部に記述されたエージェント状態であると推定される。状態推定ルールを表4に例示する。
 
Figure JPOXMLDOC01-appb-I000002
 発話意図生成部3は、エージェント状態推定部2から受け取った入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成し、生成した発話意図を入力情報と共に会話文生成部4に渡す。発話意図は「寂しさ表明」、「ユーザなぐさめ」のようなラベルと意図の強さを表すスコアで定義され、1回の会話文生成時に1又は複数の発話意図を生成する。
 発話意図の生成は、発話意図生成ルールを用いて行う。発話意図生成ルールは、条件部と、発話意図記述部とからなる。発話意図記述部は、エージェントのユーザに対する発話意図を記述したものである。条件部は、入力情報と、エージェント状態と、ユーザ状態とから、エージェントが前記発話意図にあるかどうかを判定する条件を記述したものである。入力情報とエージェント状態が条件部に一致すると発話意図記述部に記述された発話意図が生成される。発話意図のスコアは条件部に付与されたスコアの合計値とする。また、直近に状態変化があった場合は、変化があった状態に関する意図が強くなると考えられるため、状態変化からの時間が閾値以内の状態を用いた条件にはスコアにボーナスを加え、意図のスコアを大きくしてもよい。
 
Figure JPOXMLDOC01-appb-I000003
 会話文生成部4は、発話意図生成部3から受け取った入力情報、エージェント状態、発話意図を用いて、エージェントのユーザに対する会話文を生成し、生成した会話文を出力部5に渡す。
 会話文の生成は、会話文生成ルールを用いて行う。会話文生成ルールは、条件部と、会話文記述部とからなる。会話文記述部は、エージェントのユーザに対する会話文を記述したものである。条件部は、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文として前記会話文が適切かどうかを判定する条件を記述したものである。入力情報とエージェント状態と発話意図が条件部に一致すると、会話文記述部に記述された会話文が選択される。会話文は、文章をそのまま記述してもよいし、ユーザ属性、エージェント属性等の値を変数として埋め込んだテンプレート形式で記述してもよい。その場合、会話文生成時に変数部分をユーザ属性、エージェント属性等の値に置き換えて会話文を生成する。これによって、ユーザ名やエージェント名を文章に埋め込んだ文章を生成することが可能となる。
 会話文の生成は発話意図ごとに行い、1つの発話意図からは1つの文章を生成する。1つの発話意図に対して複数の会話文生成ルールが適合する場合は、意図生成時と同様に、条件部に付与されたスコアを合計し、合計スコアがもっとも大きなルールを採用する。直近に使用されたテンプレートを連続して使用するとワンパターンな応答となり、ユーザが飽きることになるため、前回使用時からの時間が閾値以内のルールはスコアにペナルティを付けて連続して同じルールが採用されないようにしてもよい。
 
Figure JPOXMLDOC01-appb-I000004
 出力部5は、会話文生成部4から受け取った会話文をユーザに対して出力する。例えば、文字の色、サイズを編集し、メール送信したりSNS(social networking service)に投稿する。または、音声合成器を用いて音声でユーザに提示してもよい。
 エージェント状態記憶部6は、エージェント状態推定部2で推定したエージェント状態を、生成を行った時刻と紐づけて格納する。エージェント状態は状態推定による変更がない場合でも前回の会話文生成時の状態を継続して保持しておくことで過去の会話文との一貫性のある会話文を生成することが可能となる。
Figure JPOXMLDOC01-appb-I000005
(第2の実施形態)
 第2の実施形態に係る会話文生成装置の構成例を示すブロック図を図2に示す。本発明の第2の実施の形態は、エージェント状態の推定だけでなく、ユーザ状態の推定を行う。ユーザ状態の推定が追加されることにより、第2の実施形態では、図1の構成からユーザ状態推定部22、ユーザ状態記憶部62が追加される。ユーザ状態の推定、利用はエージェント状態の推定、利用と同様の手法で実現される。
 ユーザ状態は、ユーザの物理状態および心理状態を表したものであり、例えば、「ポジティブ」か「ネガティブ」かの属性値を持つ「ポジネガ状態」がある。「ポジネガ状態」は、ユーザからのメール等の内容からユーザの精神状態を「ポジティブ」か「ネガティブ」の2値で表したものである。
 次に、図3のフローチャートを参照して第1及び第2の実施の形態の動作について詳細に説明する。まず、入力部1で、ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける(ステップA1)。
 次に、エージェント状態推定部2、又は、エージェント状態推定部21とユーザ状態推定部22で、入力部1から受け取った入力情報と、エージェント状態記憶部6、又は、エージェント状態記憶部61とユーザ状態記憶部62で記憶されたエージェント状態とから新たなエージェント状態、ユーザ状態を推定し、推定されたエージェント状態、ユーザ状態をエージェント状態記憶部6、又は、エージェント状態記憶部61とユーザ状態記憶部62に格納する(ステップA2)。
 次に、発話意図生成部3で、エージェント状態推定部2から受け取った入力情報と、エージェント状態、ユーザ状態とから、エージェントのユーザに対する発話意図を生成する(ステップA3)。
 次に、会話文生成部4で、発話意図生成部3から受け取った入力情報、エージェント状態、発話意図を用いて、エージェントのユーザに対する会話文を生成する(ステップA4)。
 最後に、出力部5で会話文を出力し(ステップA5)、処理を終える。
 次に、本実施の形態の効果について説明する。本実施の形態では、発話意図生成部で発話意図を生成し、生成された発話意図に沿った会話文を会話文生成部で生成する。1つの発話意図に対して複数の会話文生成ルールを用意することでバリエーションのある会話文を生成することが可能になる。また、エージェント状態推定部、ユーザ状態推定部でエージェントやユーザの物理状態、心理状態を推定し、それに応じて会話文を生成することでエージェントに感情を持たせたり、ユーザの心理に応じた会話を実現できる。また、状態推定の結果を状態記憶部で記憶することで過去の発言内容と一貫した会話文を生成することが可能になる。
 次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。本実施例では、エージェントとしてペットである犬と会話を行う会話システムを例に説明する。
(実施例1)
 入力として表11、表12、表13のようなユーザ属性、エージェント属性、動的属性が与えられた場合の会話文の生成について説明する。まず、エージェント状態推定部2において、表14のようなエージェント状態推定ルールを参照することによって、動的属性「メール=遅くなる」という入力によりエージェント状態の「状況」が「留守番」、「感情」が「寂しい」と推定される。
 次に、発話意図生成部3で、表15のような発話意図生成ルールを参照することによって、エージェント状態推定部2で決定されたエージェント状態の「感情=寂しい」によって留守番に対する「寂しさ表明」の発話意図を生成する。
 次に、会話文生成部4で、表16のような会話文生成ルールを参照することによって、「発話意図=寂しさ表明」かつ「状況=留守番」の条件を満たすため、表16にあるような3通りのテンプレートが選択され、3通りの会話文が生成される。実際に採用される会話文は1つのみのため、上記3通りの会話文がランダムもしくは順繰りに生成されることにより、ユーザを飽きさせない、バリエーションのある会話を実現することが可能となる。
 本例では、3パターンの会話文生成ルールを記載しているが、このパターンを増やすことで同じテンプレートの出現頻度を下げることができ、よりバリエーションの豊富な会話を実現することが可能となる。
Figure JPOXMLDOC01-appb-I000006
 
Figure JPOXMLDOC01-appb-I000007
(実施例2)
 入力として表21、表22、表23のようなユーザ属性、エージェント属性、動的属性が与えられた場合の会話文の生成について説明する。
 まず、エージェント状態推定部2において、表24のようなエージェント状態推定ルールを参照することによって、動的属性「メール=遅くなる」という入力によりエージェント状態の「状況」が「留守番」、「感情値」が「-1」と推定される。また、エージェント状態の感情値が「正値(0以上)」であればエージェントの感情がふつう~良好と判断され、エージェント状態の感情は「寂しい」と推定される。エージェント状態の感情値が「負値(-1以下)」であればエージェントの感情が不良と判断され、エージェント状態の感情は「嫌悪」と推定される。
 次に、発話意図生成部3で、表25のような発話意図生成ルールを参照することによって、エージェント状態の「感情」をもとに発話意図を生成する。「感情=寂しい」の場合は発話意図「寂しさ表明」を、「感情=嫌悪」の場合は発話意図「嫌悪表明」を生成する。
 次に、会話文生成部4で、発話意図に沿ったテンプレートを定義しておくことで、「寂しさ表明」の場合は「寂しい気持ち」を、「嫌悪表明」の場合は「嫌悪の気持ち」を表す文章を生成する。表26のような会話文生成ルールを参照すると、「発話意図=寂しさ表明」の場合は、「コロ、お留守番寂しいよぉ~o(;_;)oエーン」が、「発話意図=嫌悪表明」の場合は、「お留守番なんか、大っきらいだぁ~!」が会話文として生成される。
 以上のように、エージェントの状態として「感情値」という値を定義し、「感情値」に応じて生成する会話文を変化させることにより、非人間のエージェントがあたかも感情を持っているかのような会話を実現することが可能となる。
Figure JPOXMLDOC01-appb-I000008
 
Figure JPOXMLDOC01-appb-I000009
(実施例3)
 入力として表31、表32、表33のようなユーザ属性、エージェント属性、動的属性が与えられた場合の会話文の生成について説明する。
 まず、エージェント状態推定部21において、表341のようなエージェント状態推定ルールを参照することによって、動的属性「メール=遅くなる」という入力によりエージェント状態の状況が「留守番」、感情値が「-1」と推定される。また、エージェント状態の感情値が「正値(0以上)」であればエージェントの感情がふつう~良好と判断され、エージェント状態の感情は「寂しい」と推定される。エージェント状態の感情値が「負値(-1以下)」であればエージェントの感情が不良と判断され、エージェント状態の感情は「嫌悪」と推定される。
 さらに、ユーザ状態推定部22において、表342のようなユーザ状態推定ルールを参照することによって、動的属性「ユーザ状況=残業中」という入力により、ユーザの現在置かれている状況(残業中)からユーザの精神状態はネガティブと推定され、ユーザ状態のポジネガ状態は「ネガティブ」と推定される。逆にユーザの置かれている状況がユーザにとってポジティブな精神状態になると推定されるもの(デート中、遊び中など)であれば、ユーザ状態のポジネガ状態は「ポジティブ」と推定される。
 次に、発話意図生成部3で、表35のような発話意図生成ルールを参照することによって、エージェント状態の感情とユーザ状態のポジネガ状態をもとに発話意図を生成する。
 エージェント状態が「感情=寂しい」の場合は発話意図「寂しさ表明」を、「感情=嫌悪」の場合は発話意図「嫌悪表明」を生成する。また、ユーザ状態が「ポジネガ状態=ネガティブ」の場合はネガティブな精神状態となっているユーザをなぐさめるために発話意図「ユーザなぐさめ」を、「ポジネガ状態=ポジティブ」の場合はポジティブな精神状態となっているユーザと喜びを共有するために発話意図「ユーザ喜び同調」を生成する。
 次に、会話文生成部4で、表36のような会話文生成ルールを参照し、各会話意図に対応する会話文を生成する。
 例えば、発話意図として、「寂しさ表明」と「ユーザなぐさめ」があり、エージェント状態の「状況=留守番」、「感情=寂しい」、ユーザ状態の「状況=残業中」の場合は、以下のような会話文が生成される。
 
Figure JPOXMLDOC01-appb-I000010
 以上のように、「ポジネガ状態」のようなユーザの状態を定義し、ユーザ状態に応じて生成する会話文を変化させることにより、ユーザが期待する会話文を生成することが可能となる。
 
Figure JPOXMLDOC01-appb-I000011
Figure JPOXMLDOC01-appb-I000012
Figure JPOXMLDOC01-appb-I000013
(実施例4)
 入力として表41、表42、表43のようなユーザ属性、エージェント属性、動的属性が与えられた場合の会話文の生成について説明する。本実施例は、ユーザとエージェントが1対1の会話だけでなく、複数のユーザとエージェントが会話する場合である。
 まず、エージェント状態推定部21、ユーザ状態推定部22において、表44のようなエージェント状態推定ルール、ユーザ状態推定ルールを参照することによって、ユーザP1からの動的属性「土産=たべもの」という入力により、エージェント状態の状況が「土産待ち」、感情値が「+1」、ユーザ状態の親密度が「+1」で生成される。また、ユーザ状態の感情値が「閾値以上(-2以上)」であればエージェントとユーザとの関係はふつう~良好と判断され、エージェント状態の感情は「とてもうれしい」で生成される。ユーザ状態の感情値が「閾値以下(-3以下)」であればエージェントとユーザとの関係は不良と判断され、エージェント状態の感情は「うれしい」で生成される。
 ユーザP2からの動的属性「メール=病院に行く」という入力により、エージェント状態の状況が「通院」、感情値が「-2」、ユーザ状態の親密度が「-2」で生成される。また、ユーザ状態の感情値が「閾値以上(-2以上)」であればエージェントとユーザとの関係はふつう~良好と判断され、エージェント状態の感情は「悲しい」で生成される。ユーザ状態の感情値が「閾値以下(-3以下)」であればエージェントとユーザとの関係は不良と判断され、エージェント状態の感情は「嫌悪」で生成される。
 次に、発話意図生成部3で、表45のような発話意図生成ルールを参照することによって、エージェント状態とユーザ状態をもとに発話意図を生成する。ユーザP1の場合、「感情=とてもうれしい」の場合は発話意図「歓喜表明」を、「感情=うれしい」の場合は発話意図「うれしさ表明」を生成する。ユーザP2の場合、「感情=悲しい」の場合は発話意図「悲しみ表明」を、「感情=嫌悪」の場合は発話意図「嫌悪表明」を生成する。
 次に、会話文生成部4で、表46のような会話文生成ルールを参照し、会話対象となるユーザとエージェントの親密度を加味した上で、各会話意図に対応する会話文を生成する。
 例えば、エージェントにとってネガティブなことを重ねた親密度の低いユーザに対しては、ポジティブな動的属性(「土産=たべもの」)を与えられても余所余所しい形式ばった応答となるよう定義する。逆にポジティブなことを重ねた親密度の高いユーザに対しては、ネガティブな動的属性を与えられても甘えた応答を返すようテンプレートに変化をもたせておくことで、エージェントの感情に沿った応答となるよう定義する。
 以上のように、各ユーザとのやりとりによって発生したエージェントの感情によって、各ユーザとエージェントの親密度を数値で定義する。エージェントにとってポジティブな動的属性を与えた場合は親密度を加算、ネガティブな動的属性を与えた場合は減算し、各ユーザごとに保持、管理することで、与えられる動的属性が同じであっても、親密度の高いユーザと親密度の低いユーザとで発生するエージェントの感情を変化させることで、各ユーザとの親密度を踏まえた応答を生成することが可能となる。
Figure JPOXMLDOC01-appb-I000014
 
Figure JPOXMLDOC01-appb-I000015
Figure JPOXMLDOC01-appb-I000016
(実施例5)
 入力として表51、表52、表53のようなユーザ属性、エージェント属性、動的属性が与えられた場合の会話文の生成について説明する。本実施例は、過去の会話の流れに沿った会話を行う場合の例である。
 状況として、入力1の時点でエージェントは空腹状態にあったが、入力2で満腹状態となる。その状況で、入力3または入力4が与えられるとする。
 まず、エージェント状態推定部21、ユーザ状態推定部22において、入力1では、動的属性「メール=遅くなる」という入力によりエージェント状態の状況が「留守番」、感情値が「-1」、感情が「寂しい」で生成される。
 また、動的属性「ユーザ状況=デート中」という入力によりユーザ状態のポジネガ状態は「ポジティブ」で生成される。さらに、帰りが遅いという状況から、食事も遅くなり、お腹を空かせていると判断され、エージェント状態の体調が「空腹」で生成される。
 入力2では、動的属性「ごはん=完食」という入力によりエージェント状態の状況が「食後」、感情値が「+1」、感情が「うれしい」、体調が「満腹」で生成される。
 入力3、入力4では、動的属性「土産=たべもの」という入力によりエージェント状態の感情が「うれしい」に変化するが、体調を変化させる動的属性はないため、入力2の状態である「体調=満腹」をそのまま引き継ぐ。この段階で入力3、入力4の差分はない。
 発話意図生成部3では、エージェント状態と過去から引き継がれたエージェント状態に従って発話意図を決定する。
 入力1において、エージェント状態が「感情=寂しい」によって留守番に対する「寂しさ表明」と「体調=空腹」によって「空腹表明」を生成する。また、ユーザ状態の「ポジネガ状態=ポジティブ」から「ユーザ喜び同調」を生成する。
 入力2においては、エージェント状態の「感情=うれしい」によって「うれしさ表明」、「体調=満腹」によって「満腹表明」を生成する。
 入力3、入力4においては、エージェント状態の「感情=うれしい」によって「うれしさ表明」、「体調=満腹」によって「満腹表明」を生成する。この段階でも入力3、入力4の差分はない。
 会話文生成部4では、過去時点の動的属性、エージェント状態、ユーザ状態の履歴情報を参照した上で、過去の内容に触れる会話文生成ルールとなるよう定義する。
 入力3は、履歴情報を参照することなく現在のエージェント状態(満腹)に従った文章を生成するが、入力4は、動的属性で指定された過去のある時点の履歴情報から過去時点のエージェント状態(空腹)を参照し、「空腹だった」ことを踏まえた応答を行うよう定義する。入力4では、動的属性として「履歴ポインタ」が「(入力1)」として与えられており、その情報を用いてエージェント状態記憶部61から入力1時点でのエージェント状態を参照できるようにする。参照時には「履歴:A状態->体調」のような記述で過去の入力1時点のエージェント状態の「体調」を参照する。
 以上のように、過去の状態推定結果を利用したルールを用いることで過去との一貫性を保った会話文を生成することが可能となる。
 
Figure JPOXMLDOC01-appb-I000017
 
Figure JPOXMLDOC01-appb-I000018
 
Figure JPOXMLDOC01-appb-I000019
 
Figure JPOXMLDOC01-appb-I000020
 
Figure JPOXMLDOC01-appb-I000021
 なお、状態推定ルールと発話意図生成ルールと会話文生成ルールは、例えば会話文生成装置の記憶部に記憶されてもよく、また、会話文生成装置が接続可能な他の装置に記憶されてもよい。
 本発明の活用例として、動物や機械のような非人間の対象を擬人化してユーザと会話を行う会話システム、ソーシャルメディアサービス等に適用できる。
 上述した本発明の実施形態に係る会話文生成装置は、CPU(Central Processing Unit)が記憶部に格納された動作プログラム等を読み出して実行することにより実現されてもよく、また、ハードウェアで構成されてもよい。上述した実施の形態の一部の機能のみをコンピュータプログラムにより実現することもできる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成装置であって、
 ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける入力部と、
 エージェントの物理状態および心理状態をエージェント状態として記憶するエージェント状態記憶部と、
 入力情報と、エージェント状態とから新たなエージェント状態を推定するエージェント状態推定部と、
 入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する発話意図生成部と、
 入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成部と、
 会話文生成部で生成した会話文を出力する出力部と、
を備えることを特徴とする会話文生成装置。
 (付記2)
 前記エージェント状態推定部は、
 エージェントの物理状態および心理状態を記述した状態記述部と、入力情報と、前記エージェント状態記憶部に記憶されたエージェント状態とから、エージェントが前記状態にあるかどうかを判定する条件を記述した条件部とからなる状態推定ルールを用いて、新たなエージェント状態を推定する
ことを特徴とする付記1に記載の会話文生成装置。
 (付記3)
 前記発話意図生成部は、
 エージェントのユーザに対する発話意図を記述した発話意図記述部と、入力情報と、エージェント状態とから、エージェントが前記発話意図にあるかどうかを判定する条件を記述した条件部とからなる発話意図生成ルールを用いて、発話意図を生成する
ことを特徴とする付記1又は付記2に記載の会話文生成装置。
 (付記4)
 前記会話文生成部は、
 エージェントのユーザに対する会話文を記述した会話文記述部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文として前記会話文が適切かどうかを判定する条件を記述した条件部とからなる、会話文生成ルールを用いて、会話文を生成する
ことを特徴とする付記1から付記3のいずれかに記載の会話文生成装置。
 (付記5)
 前記会話文生成部は、
 同一の条件に対し、異なる会話文の記述された複数の会話文生成ルールを用意し、同じ会話の中で、入力情報と、エージェント状態と、発話意図が完全に同じ状態が複数回生じた場合であっても、同会話で使用されていない会話文を優先的に選択することで、異なる会話文を生成する
ことを特徴とする付記4に記載の会話文生成装置。
 (付記6)
 前記発話意図生成部は、エージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 前記会話文生成部は、エージェント状態を条件に含む会話文生成ルールを用いて会話文を生成することで、エージェント状態に応じた会話文を生成する
ことを特徴とする付記4又は付記5に記載の会話文生成装置。
 (付記7)
 前記エージェント状態記憶部は、過去時点でのエージェント状態を記憶し、
 前記発話意図生成部は、過去時点でのエージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 前記会話文生成部は、過去時点でのエージェント状態を条件に含む会話文生成ルールを用いて会話文を生成する
ことを特徴とする付記4から付記6のいずれかに記載の会話文生成装置。
 (付記8)
 ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成方法であって、
 ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付け、
 エージェントの物理状態および心理状態をエージェント状態として記憶し、
 入力情報と、エージェント状態とから新たなエージェント状態を推定し、
 入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成し、
 入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成し、
 生成した会話文を出力する
ことを特徴とする会話文生成方法。
 (付記9)
 エージェントの物理状態および心理状態を記述した状態記述部と、入力情報と、前記エージェント状態記憶部に記憶されたエージェント状態とから、エージェントが前記状態にあるかどうかを判定する条件を記述した条件部とからなる状態推定ルールを用いて、新たなエージェント状態を推定する
ことを特徴とする付記8に記載の会話文生成方法。
 (付記10)
 エージェントのユーザに対する発話意図を記述した発話意図記述部と、入力情報と、エージェント状態とから、エージェントが前記発話意図にあるかどうかを判定する条件を記述した条件部とからなる発話意図生成ルールを用いて、発話意図を生成する
ことを特徴とする付記8又は9に記載の会話文生成方法。
 (付記11)
 エージェントのユーザに対する会話文を記述した会話文記述部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文として前記会話文が適切かどうかを判定する条件を記述した条件部とからなる、会話文生成ルールを用いて、会話文を生成する
ことを特徴とする付記8から付記10のいずれかに記載の会話文生成方法。
 (付記12)
 同一の条件に対し、異なる会話文の記述された複数の会話文生成ルールを用意し、同じ会話の中で、入力情報と、エージェント状態と、発話意図が完全に同じ状態が複数回生じた場合であっても、同会話で使用されていない会話文を優先的に選択することで、異なる会話文を生成する
ことを特徴とする付記11に記載の会話文生成方法。
 (付記13)
 エージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 エージェント状態を条件に含む会話文生成ルールを用いて会話文を生成することで、エージェント状態に応じた会話文を生成する
ことを特徴とする付記11又は付記12に記載の会話文生成方法。
 (付記14)
 過去時点でのエージェント状態を記憶し、
 過去時点でのエージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 過去時点でのエージェント状態を条件に含む会話文生成ルールを用いて会話文を生成する
ことを特徴とする付記11から付記13のいずれかに記載の会話文生成方法。
 (付記15)
 コンピュータに、
 ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける処理、
 エージェントの物理状態および心理状態をエージェント状態として記憶する処理、
 入力情報と、エージェント状態とから新たなエージェント状態を推定するエージェント状態推定処理、
 入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する発話意図生成処理、
 入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成処理、
 会話文生成処理で生成した会話文を出力する処理、
を実行させることを特徴とするプログラム。
 (付記16)
 前記エージェント状態推定処理は、
 エージェントの物理状態および心理状態を記述した状態記述部と、入力情報と、前記エージェント状態記憶部に記憶されたエージェント状態とから、エージェントが前記状態にあるかどうかを判定する条件を記述した条件部とからなる状態推定ルールを用いて、新たなエージェント状態を推定する
ことを特徴とする付記15に記載のプログラム。
 (付記17)
 前記発話意図生成処理は、
 エージェントのユーザに対する発話意図を記述した発話意図記述部と、入力情報と、エージェント状態とから、エージェントが前記発話意図にあるかどうかを判定する条件を記述した条件部とからなる発話意図生成ルールを用いて、発話意図を生成する
ことを特徴とする付記15又は付記16に記載のプログラム。
 (付記18)
 前記会話文生成処理は、
 エージェントのユーザに対する会話文を記述した会話文記述部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文として前記会話文が適切かどうかを判定する条件を記述した条件部とからなる、会話文生成ルールを用いて、会話文を生成する
ことを特徴とする付記15から付記17のいずれかに記載のプログラム。
 (付記19)
 前記会話文生成処理は、
 同一の条件に対し、異なる会話文の記述された複数の会話文生成ルールを用意し、同じ会話の中で、入力情報と、エージェント状態と、発話意図が完全に同じ状態が複数回生じた場合であっても、同会話で使用されていない会話文を優先的に選択することで、異なる会話文を生成する
ことを特徴とする付記18に記載のプログラム。
 (付記20)
 前記発話意図生成処理は、エージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 前記会話文生成処理は、エージェント状態を条件に含む会話文生成ルールを用いて会話文を生成することで、エージェント状態に応じた会話文を生成する
ことを特徴とする付記18又は付記19に記載のプログラム。
 (付記21)
 過去時点でのエージェント状態を記憶し、
 前記発話意図生成処理は、過去時点でのエージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
 前記会話文生成処理は、過去時点でのエージェント状態を条件に含む会話文生成ルールを用いて会話文を生成する
ことを特徴とする付記18から付記20のいずれかに記載のプログラム。
 以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 この出願は、2012年11月8日に出願された日本出願特願2012-246261を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1   入力部
 2   エージェント状態推定部
 3   発話意図生成部
 4   会話文生成部
 5   出力部
 6   エージェント状態記憶部
 21  エージェント状態推定部
 22  ユーザ状態推定部
 61  エージェント状態記憶部
 62  ユーザ状態記憶部

Claims (9)

  1.  ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成装置であって、
     ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける入力部と、
     エージェントの物理状態および心理状態をエージェント状態として記憶するエージェント状態記憶部と、
     入力情報と、エージェント状態とから新たなエージェント状態を推定するエージェント状態推定部と、
     入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する発話意図生成部と、
     入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成部と、
     会話文生成部で生成した会話文を出力する出力部と、
    を備えることを特徴とする会話文生成装置。
  2.  前記エージェント状態推定部は、
     エージェントの物理状態および心理状態を記述した状態記述部と、入力情報と、前記エージェント状態記憶部に記憶されたエージェント状態とから、エージェントが前記状態にあるかどうかを判定する条件を記述した条件部とからなる状態推定ルールを用いて、新たなエージェント状態を推定する
    ことを特徴とする請求項1に記載の会話文生成装置。
  3.  前記発話意図生成部は、
     エージェントのユーザに対する発話意図を記述した発話意図記述部と、入力情報と、エージェント状態とから、エージェントが前記発話意図にあるかどうかを判定する条件を記述した条件部とからなる発話意図生成ルールを用いて、発話意図を生成する
    ことを特徴とする請求項1又は請求項2に記載の会話文生成装置。
  4.  前記会話文生成部は、
     エージェントのユーザに対する会話文を記述した会話文記述部と、入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文として前記会話文が適切かどうかを判定する条件を記述した条件部とからなる、会話文生成ルールを用いて、会話文を生成する
    ことを特徴とする請求項1から請求項3のいずれかに記載の会話文生成装置。
  5.  前記会話文生成部は、
     同一の条件に対し、異なる会話文の記述された複数の会話文生成ルールを用意し、同じ会話の中で、入力情報と、エージェント状態と、発話意図が完全に同じ状態が複数回生じた場合であっても、同会話で使用されていない会話文を優先的に選択することで、異なる会話文を生成する
    ことを特徴とする請求項4に記載の会話文生成装置。
  6.  前記発話意図生成部は、エージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
     前記会話文生成部は、エージェント状態を条件に含む会話文生成ルールを用いて会話文を生成することで、エージェント状態に応じた会話文を生成する
    ことを特徴とする請求項4又は請求項5に記載の会話文生成装置。
  7.  前記エージェント状態記憶部は、過去時点でのエージェント状態を記憶し、
     前記発話意図生成部は、過去時点でのエージェント状態を条件に含む発話意図生成ルールを用いて発話意図を生成し、
     前記会話文生成部は、過去時点でのエージェント状態を条件に含む会話文生成ルールを用いて会話文を生成する
    ことを特徴とする請求項4から請求項6のいずれかに記載の会話文生成装置。
  8.  ユーザとの擬人的な会話を行う仮想的なエージェントの会話文を生成する会話文生成方法であって、
     ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付け、
     エージェントの物理状態および心理状態をエージェント状態として記憶し、
     入力情報と、エージェント状態とから新たなエージェント状態を推定し、
     入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成し、
     入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成し、
     生成した会話文を出力する
    ことを特徴とする会話文生成方法。
  9.  コンピュータに、
     ユーザからエージェントへ向けた会話文と、エージェントの物理状態および心理状態を推定する手掛かり情報とを入力情報として受け付ける処理、
     エージェントの物理状態および心理状態をエージェント状態として記憶する処理、
     入力情報と、エージェント状態とから新たなエージェント状態を推定する処理、
     入力情報と、エージェント状態とから、エージェントのユーザに対する発話意図を生成する処理、
     入力情報と、エージェント状態と、発話意図とから、エージェントのユーザに対する会話文を生成する会話文生成処理、
     前記会話文生成処理で生成した会話文を出力する処理、
    を実行させることを特徴とするプログラム。
PCT/JP2013/080138 2012-11-08 2013-11-07 会話文生成装置、会話文生成方法及び会話文生成プログラム WO2014073612A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014545752A JPWO2014073612A1 (ja) 2012-11-08 2013-11-07 会話文生成装置、会話文生成方法及び会話文生成プログラム
US14/441,576 US9570064B2 (en) 2012-11-08 2013-11-07 Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012246261 2012-11-08
JP2012-246261 2012-11-08

Publications (1)

Publication Number Publication Date
WO2014073612A1 true WO2014073612A1 (ja) 2014-05-15

Family

ID=50684712

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/080138 WO2014073612A1 (ja) 2012-11-08 2013-11-07 会話文生成装置、会話文生成方法及び会話文生成プログラム

Country Status (3)

Country Link
US (1) US9570064B2 (ja)
JP (1) JPWO2014073612A1 (ja)
WO (1) WO2014073612A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3480814A1 (en) 2017-11-02 2019-05-08 Hitachi, Ltd. Robot dialogue system and control method of robot dialogue system
WO2022113951A1 (ja) * 2020-11-26 2022-06-02 京セラ株式会社 サーバ、制御方法および制御プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067100A (ja) * 2016-10-18 2018-04-26 株式会社日立製作所 ロボット対話システム
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
US10380992B2 (en) * 2017-11-13 2019-08-13 GM Global Technology Operations LLC Natural language generation based on user speech style
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
KR20200024511A (ko) 2018-08-28 2020-03-09 삼성전자주식회사 대화 에이전트의 동작 방법 및 그 장치
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259271A (ja) * 1998-03-13 1999-09-24 Aqueous Reserch:Kk エージェント装置
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249720B1 (en) 1997-07-22 2001-06-19 Kabushikikaisha Equos Research Device mounted in vehicle
JP2002077755A (ja) * 2000-08-29 2002-03-15 Sharp Corp エージェントインタフェース装置
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP2010531478A (ja) * 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー 感情に訴える助言システム及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259271A (ja) * 1998-03-13 1999-09-24 Aqueous Reserch:Kk エージェント装置
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RYOJI IKEBE ET AL.: "Emotional Dialogue System using Animated Agent with Emotional Behavior", IPSJ SIG NOTES, vol. 2000, no. 61, 7 July 2000 (2000-07-07), pages 49 - 56 *
TOSHIRO MUKAI ET AL.: "Hito to Computer tono Shizen na Taiwa", IMAGE LAB, vol. 13, no. 6, 1 June 2002 (2002-06-01), pages 12 - 16 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3480814A1 (en) 2017-11-02 2019-05-08 Hitachi, Ltd. Robot dialogue system and control method of robot dialogue system
WO2022113951A1 (ja) * 2020-11-26 2022-06-02 京セラ株式会社 サーバ、制御方法および制御プログラム

Also Published As

Publication number Publication date
JPWO2014073612A1 (ja) 2016-09-08
US9570064B2 (en) 2017-02-14
US20150310849A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
WO2014073612A1 (ja) 会話文生成装置、会話文生成方法及び会話文生成プログラム
WO2014073613A1 (ja) 会話文生成装置、会話文生成方法及び会話文生成プログラム
Feine et al. A taxonomy of social cues for conversational agents
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN108292305B (zh) 用于处理语句的方法
JP5286062B2 (ja) 対話装置、対話方法、対話プログラムおよび記録媒体
Berg Modelling of natural dialogues in the context of speech-based information and control systems
WO2018169000A1 (ja) 対話システム及びそのためのコンピュータプログラム
JP2007219149A (ja) 応答生成装置、方法及びプログラム
CN107393529A (zh) 语音识别方法、装置、终端及计算机可读存储介质
JP2006178063A (ja) 対話処理装置
Ma et al. A chat system based on emotion estimation from text and embodied conversational messengers
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN109800295A (zh) 基于情感词典和词概率分布的情感会话生成方法
CN109658931A (zh) 语音交互方法、装置、计算机设备及存储介质
JP2009163620A (ja) 応答生成装置、及び応答生成プログラム
JP2016090775A (ja) 応答生成装置、応答生成方法およびプログラム
CN111557001B (zh) 提供自然语言对话的方法、计算机装置及计算机可读存储介质
JP6643077B2 (ja) 対話システムおよびプログラム
Irfan et al. Coffee with a hint of data: towards using data-driven approaches in personalised long-term interactions
JP2008107673A (ja) 会話ロボット
Ishizuka et al. Describing and generating multimodal contents featuring affective lifelike agents with MPML
Yamamoto et al. Dialogue behavior control model for expressing a character of humanoid robots
JP6858721B2 (ja) コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法
Edlund In search for the conversational homunculus: serving to understand spoken human face-to-face interaction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13853143

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014545752

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14441576

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 13853143

Country of ref document: EP

Kind code of ref document: A1