WO2017145466A1 - 情報処理システム、クライアント端末、情報処理方法、および記録媒体 - Google Patents

情報処理システム、クライアント端末、情報処理方法、および記録媒体 Download PDF

Info

Publication number
WO2017145466A1
WO2017145466A1 PCT/JP2016/084647 JP2016084647W WO2017145466A1 WO 2017145466 A1 WO2017145466 A1 WO 2017145466A1 JP 2016084647 W JP2016084647 W JP 2016084647W WO 2017145466 A1 WO2017145466 A1 WO 2017145466A1
Authority
WO
WIPO (PCT)
Prior art keywords
agent
user
client terminal
emotion
information
Prior art date
Application number
PCT/JP2016/084647
Other languages
English (en)
French (fr)
Inventor
敦 塩野崎
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/074,666 priority Critical patent/US10852813B2/en
Priority to CN201680082057.8A priority patent/CN108701142A/zh
Publication of WO2017145466A1 publication Critical patent/WO2017145466A1/ja
Priority to US17/074,850 priority patent/US11327556B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present disclosure relates to an information processing system, a client terminal, an information processing method, and a recording medium.
  • a user can check a message transmitted from another terminal or transmit a message using an information processing terminal such as a smartphone, a mobile phone terminal, or a tablet terminal.
  • Patent Document 1 describes a conversational sentence generation device that can artificially give various personalities in an automatic response to a user.
  • Patent Document 2 describes an emotion grasping system that interacts with a user and estimates a user's emotion from text and operations exchanged in the user.
  • the emotion grasping system includes a customer service manual that recommends an attitude during interaction according to the user's emotion.
  • Patent Document 2 includes a customer service manual that recommends an attitude during interaction according to the user's emotion, but only changes the way the agent speaks, and the character cannot be changed. I have not been told.
  • the present disclosure proposes an information processing system, a client terminal, an information processing method, and a recording medium that can provide a more comfortable dialogue by selecting an appropriate agent from a plurality of agents according to user emotions. .
  • a storage unit that holds a plurality of agent programs having different attributes, a communication unit that provides an agent service by the agent program to a client terminal of a user, and the agent programs from the plurality of agent programs
  • An information processing system including a control unit that selects one agent program corresponding to the emotion of a user who can use a service is proposed.
  • a communication unit that receives a dialogue by an agent service by the agent program from a server having a plurality of agent programs having different attributes, and the server receives the agent service from the plurality of agent programs.
  • Proposing a client terminal comprising: a control unit that controls to transmit user-related information necessary for selecting one agent program corresponding to an available user's emotion to the server via the communication unit To do.
  • a storage unit that holds a plurality of agent programs having different attributes, an interface unit that provides a user with an agent service by the agent program, and a user's emotion that can use the agent service by the agent program
  • a control unit that selects a corresponding one agent program and provides a specific agent service to the user via the interface unit by executing the selected agent program.
  • the processor has a plurality of agent programs having different attributes in the storage unit, and provides an agent service by the agent program to the user's client terminal via the communication unit; Proposing an information processing method comprising: selecting one agent program corresponding to an emotion of a user who can use the agent service from the plurality of agent programs.
  • a communication unit that receives a dialog by an agent service by an agent program from a server that has a plurality of agent programs having different attributes, and the server includes the plurality of agent programs,
  • the server includes the plurality of agent programs,
  • a recording medium on which a program is recorded is proposed.
  • the computer includes a storage unit that holds a plurality of agent programs having different attributes, an interface unit that provides a user with an agent service by the agent program, and a user who can use the agent service by the agent program To select one agent program corresponding to the emotion of the user, and to execute the selected agent program so as to function as a control unit that provides a specific agent service to the user via the interface unit A recording medium on which a program is recorded is proposed.
  • a communication control system (agent system) according to an embodiment of the present disclosure can provide a more comfortable dialogue by selecting an appropriate agent from a plurality of agents according to user emotions.
  • the outline of the communication control system according to the present embodiment will be described below with reference to FIG.
  • FIG. 1 is a diagram illustrating an overview of a communication control system according to an embodiment of the present disclosure.
  • the dialogue between the user and the agent can be performed via the client terminal 1 such as a smartphone or a tablet terminal.
  • the client terminal 1 has a microphone and a speaker, and enables voice interaction with the user.
  • the client terminal 1 is provided with a display, and can display an agent image, and can further display the agent remarks in text.
  • the agent according to the present embodiment interacts with the user, and provides various agent services such as recommendation of contents on the real world and the Internet, provision of information such as news and weather forecasts, provision of games, route guidance, etc. according to the situation. Can do.
  • the communication control system according to the present embodiment prepares a plurality of agents having different personalities, and the user can select and purchase an arbitrary agent.
  • the communication control system according to the present embodiment also has a function (learning function) for acquiring user feedback on the agent's utterance and growing the agent based on the feedback.
  • the present disclosure it is possible to provide a more comfortable dialogue by selecting an appropriate agent from a plurality of agents according to the user emotion in an agent system that performs automatic dialogue with the user. Further, if the selected agent is owned by the user (that is, purchased), the agent is switched, and if it is not purchased, the purchase can be recommended to the user.
  • the user's emotion is obtained from various sensors provided on the wearable terminal (smart band, smart watch, smart eyeglass, smart neck, etc.) worn by the user or various sensors provided on the client terminal 1. It can be estimated based on the detected information. For example, the facial expression of the user imaged by the camera provided in the client terminal 1, the voice of the user picked up by the microphone provided in the client terminal 1 or the wearable terminal, or the biometric sensor provided in the wearable terminal Based on the user's biometric information and the like, the user's emotion and psychological state are estimated.
  • the communication control system selects an agent of an appropriate character among the plurality of agents 10 to 14 according to the user's emotion and psychological state.
  • the communication control system may select an appropriate agent from user-owned (ie, purchased) agents, or may recommend purchase when an appropriate agent has not been purchased. For example, if the user feels sad, a gentle healing agent is recommended, and if the user is in a healthy state, a strong older sister agent is recommended. Different agents are recommended accordingly. If the recommended agent is owned by the user, the communication control system automatically switches to start the conversation. If the agent is not owned by the user, the communication control system recommends the purchase, and after the purchase process is completed, switches to start the conversation. You may make it do.
  • the communication control system is not limited to a voice agent that makes a response by voice, but may be a text-compatible agent that makes a response on a text basis in the client terminal 1.
  • the communication control system according to the present embodiment may be installed in an information processing apparatus such as a smartphone, a tablet terminal, or a PC, or may be incorporated in a client server system including a home system, an in-vehicle system, and a client terminal and a server. Good. Further, the communication control system according to the present embodiment may be mounted on an anthropomorphic device such as a robot. In the case of a robot, expression control and action control can be performed in addition to voice dialogue.
  • FIG. 2 is a diagram showing the overall configuration of the communication control system according to the present embodiment.
  • the communication control system includes a client terminal 1 and an agent server 2.
  • the agent server 2 is connected to the client terminal 1 via the network 3 and transmits / receives data. Specifically, the agent server 2 generates a response voice for the uttered voice collected and transmitted by the client terminal 1 and transmits the response voice to the client terminal 1.
  • the agent server 2 has a phoneme DB (database) corresponding to one or more agents, and can generate a response voice with a voice of a specific agent.
  • the agent may be a character such as a cartoon, an animation, a game, a drama, a movie, a celebrity, a celebrity, a historical person, or the like. It may be an average person.
  • the agent may be an animal or a personified character.
  • the agent may be a person reflecting the personality of the user, or a person reflecting the personality of the user's friend, family, acquaintance, or the like.
  • agent server 2 can generate response contents reflecting the characteristics of each agent.
  • the agent server 2 can provide various services such as user schedule management, message transmission / reception, information provision, and the like through interaction with the user via the agent.
  • the client terminal 1 is not limited to the smart phone as shown in FIG. 2, for example, a mobile phone terminal, a tablet terminal, a PC (personal computer), a game machine, a wearable terminal (smart eyeglass, smart band, smart watch, smart neck). Etc.).
  • the client terminal 1 may be a robot.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the agent server 2 according to the present embodiment.
  • the agent server 2 includes a voice agent I / F (interface) 20, a dialogue processing unit 30, a phoneme storage unit 40, a conversation DB generation unit 50, a phoneme DB generation unit 60, an advertisement insertion processing unit 70, An advertisement DB 72 and a feedback acquisition processing unit 80 are included.
  • the voice agent I / F 20 functions as a voice data input / output unit, a voice recognition unit, and a voice generation unit.
  • As the input / output unit a communication unit that performs transmission and reception with the client terminal 1 via the network 3 is assumed.
  • the voice agent I / F 20 can receive the user's uttered voice from the client terminal 1 and convert it into text by voice recognition. Also, the voice agent I / F 20 converts the agent answer text data (text) output from the dialogue processing unit 30 into voice using the phoneme data corresponding to the agent, and generates the generated response voice of the agent on the client terminal 1. Send to.
  • the dialogue processing unit 30 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the agent server 2 according to various programs.
  • the dialogue processing unit 30 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor, for example. Further, the dialogue processing unit 30 according to the present embodiment functions as a basic dialogue processing unit 31, a character A dialogue processing unit 32, a person B dialogue processing unit 33, and a person C dialogue processing unit 34.
  • the character A dialogue processing unit 32, the person B dialogue processing unit 33, and the person C dialogue processing unit 34 realize a dialogue specialized for each agent.
  • “Character A”, “Person B”, and “Person C” are given as examples of the agent.
  • the present embodiment is not limited to this, and each dialogue that realizes a dialogue specialized for a large number of agents. You may have a process part.
  • the basic dialogue processing unit 31 realizes a general-purpose dialogue that is not specialized for each agent.
  • FIG. 4 is a diagram illustrating a configuration example of the dialogue processing unit 300 according to the present embodiment.
  • the dialogue processing unit 300 includes a question sentence search unit 310, an answer sentence generation unit 320, a phoneme data acquisition unit 340, and a conversation DB 330.
  • the conversation DB 330 stores conversation data in which question sentence data and answer sentence data are paired.
  • conversation data specialized for the agent is stored in the conversation DB 330
  • general-purpose dialogue processing unit general-purpose conversation data (that is, basic conversation that is not specialized for the agent) is stored in the conversation DB 330. Data) is stored.
  • the question sentence search unit 310 searches the conversation DB 330 for question sentence data that matches the question sentence that is output from the voice agent I / F 20 and recognized as a text by recognizing the user's question voice (an example of uttered voice).
  • the answer sentence generation unit 320 extracts answer sentence data stored in association with the question sentence data searched by the question sentence search unit 310 from the conversation DB 330, and generates answer sentence data.
  • the phoneme data acquisition unit 340 acquires phoneme data for converting the answer sentence generated by the answer sentence generation unit 320 from the phoneme storage unit 40 of the corresponding agent. For example, in the case of the character A dialogue processing unit 32, phoneme data for reproducing the answer sentence data with the voice of the character A is acquired from the character A phoneme DB 42. Then, the dialogue processing unit 300 outputs the generated answer sentence data and the acquired phoneme data to the voice agent I / F 20.
  • the phoneme storage unit 40 stores a phoneme database for generating speech for each agent.
  • the phoneme storage unit 40 can be realized by a ROM (Read Only Memory) and a RAM (Random Access Memory).
  • a basic phoneme DB 41, a character A phoneme DB 42, a person B phoneme DB 43, and a person C phoneme DB 44 are stored.
  • Each phoneme DB stores, for example, a phoneme piece and a prosodic model that is control information thereof as phoneme data.
  • the conversation DB generation unit 50 has a function of generating the conversation DB 330 of the conversation processing unit 300. For example, the conversation DB generation unit 50 collects assumed question sentence data, collects answer sentence data corresponding to each question, and then saves the question sentence data and the answer sentence data in pairs. When a predetermined number of conversation data (a set of question sentence data and answer sentence data, for example, 100 sets) is collected, the conversation DB generation unit 50 registers the conversation data set in the conversation DB 330 as an agent conversation data set.
  • a predetermined number of conversation data a set of question sentence data and answer sentence data, for example, 100 sets
  • the phoneme DB generation unit 60 has a function of generating a phoneme DB stored in the phoneme storage unit 40.
  • the phoneme DB generation unit 60 analyzes speech information read out from a predetermined text, decomposes it into phoneme segments and prosodic models that are control information thereof, and collects a predetermined number or more of speech information as phoneme DB as phoneme data. Process to register with.
  • the advertisement insertion processing unit 70 has a function of inserting advertisement information into the agent dialogue.
  • the advertisement information to be inserted can be extracted from the advertisement DB 72.
  • advertisement information requested by a provider (vendor, supplier) of a company or the like for example, advertisement contents such as text, image, and sound, information on an advertiser, an advertisement period, an advertisement target person, etc. is registered. Yes.
  • the feedback acquisition processing unit 80 has a function for inserting a question for acquiring feedback into the agent's dialogue and obtaining feedback from the user.
  • the configuration of the agent server 2 according to this embodiment has been specifically described above. Note that the configuration of the agent server 2 according to the present embodiment is not limited to the example shown in FIG. For example, each configuration of the agent server 2 may be configured by other servers on the network.
  • FIG. 5 is a flowchart showing a process for generating the conversation DB 330 according to this embodiment. As shown in FIG. 5, first, the conversation DB generation unit 50 stores an assumed question sentence (step S103).
  • the conversation DB generating unit 50 stores a (paired) answer sentence corresponding to the question sentence (step S106).
  • the conversation DB generation unit 50 determines whether or not a predetermined number of pairs of question sentences and answer sentences (also referred to as conversation data) have been collected (step S109).
  • the conversation DB generation unit 50 registers a data set including a large number of pairs of question sentences and answer sentences in the conversation DB 330 (step S109). S112).
  • a pair of a question sentence and an answer sentence for example, the following is assumed.
  • Pair of question and answer sentences Pair 1 Question: Good morning. Answer: How are you feeling today? Pair 2 Question: What is the weather today? Answer text: Today's weather is ⁇ .
  • Such a pair can be registered in the conversation DB 330 as conversation data.
  • FIG. 6 is a flowchart showing a phoneme DB generation process according to this embodiment.
  • the phoneme DB generation unit 60 displays an example sentence (step S113). For example, an example sentence necessary for generating phoneme data is displayed on a display of an information processing terminal (not shown).
  • the phoneme DB generation unit 60 records the voice that reads the example sentence (step S116) and analyzes the recorded voice (step S119). For example, the voice information read out by the person in charge of the agent's voice is collected by the microphone of the information processing terminal, and the phoneme DB generation unit 60 receives and stores it, and further performs voice analysis.
  • the phoneme DB generation unit 60 generates a prosody model based on the speech information (step S122).
  • the prosody model is used to extract prosodic parameters indicating prosodic features of speech (for example, pitch of a sound, strength of a sound, speech rate, etc.), and differs for each individual.
  • the phoneme DB generation unit 60 generates phoneme pieces (phoneme data) based on the voice information (step S125).
  • the phoneme DB generation unit 60 stores the prosody model and phoneme pieces (step S128).
  • the phoneme DB generation unit 60 determines whether or not a predetermined number of prosodic models and phonemes have been collected (step S131).
  • the phoneme DB generation unit 60 registers the prosodic models and phonemes in the phoneme storage unit 40 as a phoneme database for a predetermined agent (Ste S134).
  • FIG. 7 is a flowchart showing the dialogue control process according to the present embodiment.
  • the voice agent I / F 20 checks whether or not the user's question voice and the agent ID have been acquired (step S143).
  • the agent ID is identification information indicating specific agents such as character A, person B, and person C.
  • the user can purchase phoneme data for each agent. For example, the ID of the agent purchased during the purchase process is stored in the client terminal 1.
  • the voice agent I / F 20 recognizes the question voice and converts it into text (step S149).
  • the voice agent I / F 20 outputs the question text converted to text to the dialog processing unit of the specific agent specified by the agent ID. For example, in the case of “agent ID: character A”, the voice agent I / F 20 outputs the question text converted to text to the character A dialogue processing unit 32.
  • the dialogue processing unit 30 searches the question DB that matches the question text converted to text from the conversation DB of the specific agent specified by the agent ID (step S152).
  • step S155 when there is a matching question (step S155 / Yes), the character A dialogue processing unit 32 obtains answer sentence data corresponding to the question (stored in pairs) from the conversation DB of the specific agent. (Step S158).
  • step S155 when there is no matching question (step S155 / No), a question sentence that matches the textualized question sentence is searched from the conversation DB of the basic dialogue processing unit 31 (step S161).
  • step S161 / Yes the basic dialogue processing unit 31 obtains answer sentence data corresponding to the question (stored as a pair) from the conversation DB of the basic dialogue processing unit 31. (Step S167).
  • step S164 when there is no matching question sentence (step S164 / No), the basic dialogue processing unit 31 returns answer sentence data (for example, an answer sentence such as “I do not understand the question”) when there is no matching question sentence.
  • answer sentence data for example, an answer sentence such as “I do not understand the question”
  • the character A dialogue processing unit 32 refers to the phoneme DB of the specific agent designated by the agent ID (here, the character A phoneme DB 42), and the phoneme data of the character A for generating the voice of the answer sentence data is obtained. Obtained (step S173).
  • the acquired phoneme data and answer sentence data are output to the voice agent I / F 20 (step S176).
  • the voice agent I / F 20 converts the response sentence data (text) into speech using the phoneme data (speech synthesis) and transmits it to the client terminal 1 (step S179).
  • the answer sentence is reproduced with the voice of the character A.
  • Conversation DB update processing> update processing of the conversation DB 330 of each dialogue processing unit 300 will be described.
  • the conversation DB 330 can be grown by conversation with the user.
  • FIG. 8 is a diagram for explaining a data configuration example of the conversation DB 330 according to the present embodiment.
  • each conversation DB 330 has two layers, a personalization layer 331 and a common layer 332.
  • the common layer 332A holds conversation data reflecting the character and character of the character A.
  • the personalization layer 331A holds conversation data customized for the user by the conversation with the user.
  • the conversation data can be customized for the user. That is, for example, when “person B” is “person in 20s”, the common layer 332B holds average conversation data of 20s, and customized conversation data is maintained for each user by continuing the conversation with the user. Of personalization layer 331B.
  • the user can also select and purchase favorite phoneme data such as “male”, “female”, “high voice”, and “low voice” from the person B phoneme DB 43 as the voice of the person B.
  • FIG. 9 is a flowchart showing the update processing of the conversation DB 330 according to the present embodiment.
  • the voice agent I / F 20 acquires (receives) the user's question voice from the client terminal 1, and converts it into text by voice recognition (step S183).
  • the text data (question sentence data) is output to the dialogue processing unit (here, for example, the character A dialogue processing unit 32) of the specific agent designated by the agent ID.
  • the character A dialogue processing unit 32 determines whether or not the question sentence data is a predetermined command (step S186).
  • the character A dialogue processing unit 32 registers the answer text data specified by the user in a pair with the question text data in the personalization layer 331A of the conversation DB 330A (step S189).
  • the predetermined command may be words such as “NG” and “setting”, for example.
  • the conversation DB of character A can be customized by the following conversation flow.
  • NG is a predetermined command
  • the character A dialogue processing unit 32 has issued “NG” from the user, the user-specified answer text data “Perform with good spirit”
  • the question sentence data “Good morning” is registered in the personalization layer 331A of the conversation DB 330A.
  • the character A dialogue processing unit 32 searches the character A conversation DB 330A for answer sentence data held in a pair with the question sentence data.
  • the answer sentence data held in a pair with the question sentence data is not held in the character A conversation DB 330A, that is, when the user's question is a question without an answer sentence (step S192 / Yes)
  • the character A dialogue processing unit 32 registers the answer sentence data specified by the user in the personalization layer 331A as a pair with the question sentence (step S195).
  • the conversation DB of character A can be customized by the following conversation flow.
  • Character A “I don't know the question” (An example of answer data when there is no applicable answer) User: “If you ask,“ How are you? ”, Say,“ I ’m fine today. ” Character A: “I'm fine today”
  • step S192 the character A dialogue processing unit 32 acquires the answer sentence data and outputs it to the voice agent I / F 20 together with the corresponding phoneme data of the character A.
  • the answer sentence is reproduced with the voice of the character A at the client terminal 1 (step S198).
  • FIG. 10 is a flowchart showing conversation data migration processing from the personalization layer to the common layer according to the present embodiment.
  • the conversation data migration processing from the personalization layer 331A to the common layer 332A of the character A dialogue processing unit 32 will be described.
  • the character A dialogue processing unit 32 periodically searches for a personalization layer 331A for each user (step S203), and a conversation pair (question sentence data and answer sentence having substantially the same contents).
  • a data pair) is extracted (step S206).
  • a conversation pair with substantially the same content is, for example, a pair of a question sentence “How are you?” And an answer sentence “I'm fine today!” And a question sentence “How are you?” And an answer sentence “I'm fine today.
  • the “!” Pair is only a difference in whether the question sentence is a polite word or not, and can be determined as a conversation pair having substantially the same content.
  • step S209 / Yes when a predetermined number or more of conversation pairs are extracted from the personalization layer 331A for each user (step S209 / Yes), the character A dialogue processing unit 32 registers the conversation pair in the common layer 332A (for each user). (Step S212).
  • FIG. 11 is a diagram for explaining the transfer of conversation data to the basic conversation conversation DB 330F according to the present embodiment.
  • the conversation processing unit 30 may include an A conversation DB 330A-X, a user Y character A conversation DB 330A-Y, and a user Z person B conversation DB 330B-Z.
  • each personalization layer 331A-X, 331A-Y, 331B-Z is registered with its own (customized) conversation pair according to the dialogue with each user X, user Y, and user Z. (See FIG. 9).
  • the personalization layers 331A-X and 331A-Y of the same agent they are registered in the common layers 332A-X and 332A-Y for each user (see FIG. 10).
  • the conversation processing unit 30 extracts a predetermined number or more of substantially the same conversation pairs from the common layers 332A-X, 332A-Y, and 332B-Z of a plurality of agents (which may include different agents), the conversation processing unit 30 The conversation pair is transferred to the conversation conversation DB 330F.
  • the basic conversation conversation DB 330 ⁇ / b> F is a conversation DB included in the basic conversation processing unit 31. This makes it possible to grow the basic conversation conversation DB 330F (expand conversation pairs).
  • FIG. 12 is a flowchart showing the conversation data migration processing to the basic dialogue DB 330F according to the present embodiment.
  • the dialogue processing unit 30 periodically searches a plurality of common layers 332 in the conversation DB 330 (step S223), and extracts substantially the same conversation pairs (step S226).
  • the conversation processing unit 30 registers the conversation pairs in the basic conversation conversation DB 330F (step S232). .
  • the advertisement insertion processing unit 70 can insert the advertisement information stored in the advertisement DB 72 into the utterance of the agent. Advertisement information can be registered in the advertisement DB 72 in advance.
  • FIG. 13 is a diagram illustrating an example of advertisement information registered in the advertisement DB 72 according to the present embodiment.
  • the advertisement information 621 includes, for example, an agent ID, a question sentence, advertisement contents, conditions, and a probability.
  • the agent ID designates an agent that speaks the advertisement contents
  • the question sentence designates a question sentence of a user that triggers insertion of the advertisement contents
  • the advertisement contents are advertisement sentences to be inserted into the agent's dialogue.
  • the condition is a condition for inserting the advertisement content
  • the probability indicates the probability of inserting the advertisement content. For example, in the example shown in the first row of FIG.
  • the probability of inserting an advertisement may be set in this embodiment. Such a probability may be determined according to the advertisement fee. For example, the higher the advertising fee, the higher the probability.
  • FIG. 14 is a flowchart showing the insertion processing of advertisement content according to this embodiment.
  • the advertisement insertion processing unit 70 monitors the dialogue between the user and the agent (specifically, dialogue processing by the dialogue processing unit 30) (step S243).
  • the advertisement insertion processing unit 70 determines whether or not a question sentence having the same content as the question sentence registered in the advertisement DB 72 has appeared in the dialogue between the user and the agent (step S246).
  • the advertisement insertion processing unit 70 checks the advertisement insertion condition and probability associated with the corresponding question sentence (step S249).
  • the advertisement insertion processing unit 70 determines whether or not it is currently possible to place an advertisement based on the condition and the probability (step S252).
  • the advertisement insertion processing unit 70 temporarily stops the dialogue processing by the dialogue processing unit 30 (step S255), and inserts the advertisement content into the dialogue (step S258). Specifically, for example, the advertisement content is inserted into the agent's answer to the user's question.
  • the dialogue (conversation text data) including the advertisement content is output from the dialogue processing unit 30 to the voice agent I / F 20, transmitted from the voice agent I / F 20 to the client terminal 1, and reproduced by the voice of the agent (step S261). ).
  • the content of the advertisement can be presented to the user as an utterance of the character A by the following conversation.
  • the conversation data registration process As described above, the conversation data registration process, the phoneme DB generation process, the conversation control process, the conversation DB update process, and the advertisement insertion process have been described as basic operation processes of the communication control system according to the present embodiment.
  • the dialogue control process according to the present embodiment is not limited to the above-described example.
  • the dialogue processing unit 30 according to the present embodiment can also perform an agent switching process according to the user emotion.
  • FIGS. 1-10 a specific description will be given with reference to FIGS.
  • Dialogue control processing >> ⁇ 4-1. Configuration>
  • the configuration of the dialogue processing unit 30a capable of performing an agent (that is, agent program) switching process in accordance with a user emotion in the dialogue process according to the present embodiment will be described with reference to FIG.
  • FIG. 15 is a diagram illustrating a configuration example of the dialogue processing unit 30a according to the present embodiment.
  • the dialogue processing unit 30a includes dialogue processing units 32a to 32c for each agent, a control unit 35, an agent DB 36, a user information DB 37, and a communication unit 38.
  • Each agent's dialogue processing unit 32a to 32c performs automatic dialogue with the user by each agent, and various agent services (for example, recommendation of contents on the real world and the Internet, provision of information such as news and weather forecasts, It has a function to provide directions, etc.). Agent services can also include user interactions themselves.
  • the dialogue processing units 32a to 32c have a question sentence search unit 310, an answer sentence generation unit 320, a conversation DB 330, and a phoneme data acquisition unit 340 as shown in FIG. 4, and are connected to the user via the voice agent I / F 20.
  • the dialogue processing units 32a to 32c generate an answer sentence corresponding to the user's uttered voice with reference to the conversation DB 330, and the phoneme data acquisition unit 340 acquires the phoneme data of the corresponding agent. Then, the answer sentence and phoneme data are output to the voice agent I / F 20, and the answer sentence is voiced in the voice agent I / F 20, transmitted to the client terminal 1, and output from the client terminal 1 as an utterance of a predetermined agent.
  • the In the conversation DB 330 answer text data corresponding to the personality of each agent is stored in pairs with the question data. Further, the dialog processing units 32a to 32c can store information (agent image information) for displaying each agent.
  • the control unit 35 controls each component of the dialogue processing unit 30a.
  • the control unit 35 provides an automatic dialogue by an agent. More specifically, the control unit 35 functions as a registration unit 351, an emotion estimation unit 352, a selection unit 353, a switching control unit 354, a notification control unit 355, and a feedback processing unit 356.
  • the registration unit 351 has a function of storing agent information input by a supplier or the like in the agent DB 36.
  • agent information input by a supplier or the like in the agent DB 36.
  • agent ID agent ID
  • agent name agent name
  • emotion information to which the agent should be applied that is, information indicating what kind of emotion or psychological state the user is suitable for
  • the target user Enter the agent attributes, agent attributes, and so on.
  • the phoneme data of the agent is stored in the phoneme storage unit 40, and the conversation data set is stored in the dialog processing units (dialog processing units 32a to 32c, etc.) of each agent, and is associated with the agent ID.
  • the agent attribute indicates the character characteristics such as the personality and appearance of the agent.
  • a plurality of agent attributes may exist for one agent.
  • a weighting parameter is given to each attribute, which can be taken into consideration when selecting an agent by the selection unit 353 described later.
  • the emotion estimation unit 352 has a function of estimating the user's emotion and psychological state.
  • the emotion estimation unit 352 transmits user biometric information (pulse, heartbeat, heart sound, blood pressure, breathing, body temperature, sweating, brain waves, myoelectric potential, etc.), audio information, which is transmitted from the client terminal 1 and acquired via the communication unit 38.
  • the emotion and psychological state of the user are estimated based on sensing data such as (voice inflection), captured image (user face image, eye image), movement, and behavior. From the captured image, facial expressions of the user can be obtained by face analysis.
  • the movement and behavior are obtained by an acceleration sensor, a gyro sensor, a vibration sensor, a geomagnetic sensor, an orientation sensor, a position measurement sensor, and the like.
  • the selection unit 353 has a function of selecting an agent to be applied with reference to the agent DB 36 according to the user's emotion.
  • the “user's emotion” is sent from the client terminal 1 when the emotion estimated by the emotion estimation unit 352 or the emotion estimation is performed on the client terminal 1 side, and can be acquired via the communication unit 38.
  • the selection unit 353 refers to the user information DB 37 so as to select an agent to be applied from among agents owned by the user (having usage rights, specifically, for example, purchased). It may be. Furthermore, the selection unit 353 may select the target user attribute and the agent attribute included in the agent information in consideration. The selection unit 353 may select an agent with reference to the user information DB 37 and further considering user preference information (that is, user preference).
  • the selection unit 353 may match “sad” with an applied emotion of “sad”, “healing girl 1” with an agent ID of 10001, “healing girl 2” with an agent ID of 10002, and Agent ID: 10003 “Healing Boy 1” is selected.
  • the selection unit 353 may further select one optimal agent in consideration of the target user attribute, agent attribute, or user preference information.
  • the switching control unit 354 has a function of controlling agent switching. Specifically, when the selection unit 353 selects an agent, the switching control unit 354 controls the corresponding dialogue processing units 32a to 32c so as to start a dialogue by the selected agent. For example, when the agent with the agent ID: 10001 is selected, control is performed to start the dialogue processing by the agent ID: 10001 dialogue processing unit 32a (that is, the dialogue with the user by the agent with the agent ID: 10001).
  • the switching control unit 354 switches to the agent. Control may be performed.
  • the switching control unit 354 is in the middle of a conversation when a change in emotion is detected by the emotion estimation unit 352 and a new agent is selected by the selection unit 353 in response to the emotion change while the user is interacting with another agent. It is also possible to switch agents.
  • the notification control unit 355 sends a notification recommending the purchase of the agent to the user via the communication unit 38. Transmit to terminal 1.
  • Whether or not the agent is owned by the user can be determined with reference to the user information stored in the user information DB 37.
  • the data configuration stored in the user information DB 37 is shown in Table 2 below.
  • the user information includes an agent ID already owned by the user and user preference information (specifically, for example, a favorite attribute and a favorite agent).
  • Favorable attributes are managed along with emotion and psychological state. For example, according to Table 2, it is registered that the user b prefers “Nagusame” agents when sad. Further, according to Table 2, it is registered that the user “a” prefers the agent of the agent ID: 1002 in any emotion and psychological state. Such preference information can be registered by the feedback processing unit 39 described below.
  • favorite attributes and favorite agent IDs are registered as preference information.
  • the present embodiment is not limited to this, and unfavorable attributes and agent IDs may be registered. .
  • the user information DB 37 may be linked with other DBs.
  • the feedback processing unit 356 has a function of acquiring user evaluation for the agent and registering it in the user information DB 37 as preference information.
  • the feedback may be input manually (specifically, for example, by text or voice) by the user at the client terminal 1, or sensing data obtained by automatically detecting the user's reaction (emotion, psychological state) by various sensors. It may be.
  • the various sensors are sensors that can communicate with the client terminal 1 (including sensors provided in the client terminal 1), transmit the detected sensing data to the client terminal 1, and the sensing data is transmitted from the client terminal 1 to the agent server 2. Sent to.
  • a biological sensor for example, a microphone, a camera, an acceleration sensor, a gyro sensor, an orientation sensor, a position measurement sensor, and the like are assumed.
  • the agent selected by the system or the agent recommended for purchase was the agent that the user wanted at that time, or whether the agent was suitable for the user's emotion or psychological state at that time. It is shown.
  • the feedback processing unit 356 may estimate the user's emotion and psychological state based on the received sensing data and use it as feedback.
  • the communication unit 38 can send and receive data to and from an external device via a network.
  • the communication unit 38 receives sensor information and user evaluation from the client terminal 1 and transmits an agent recommendation notification.
  • the configuration of the dialogue processing unit 30a according to this embodiment has been specifically described above. Note that the configuration of the dialogue processing unit 30a according to the present embodiment is not limited to the example illustrated in FIG. 15, and for example, the emotion estimation unit 352 may be provided on the client terminal 1 side.
  • FIG. 16 is a flowchart showing an agent switching control process according to this embodiment.
  • the dialogue processing unit 30a acquires user emotion data (step S270).
  • the emotion data of the user is estimated based on the sensing data received from the client terminal 1 via the communication unit 38 by the emotion estimation unit 352, for example.
  • the sensing data is assumed to be, for example, biological information detected by various biological sensors, facial expression information, voice information, action information, or the like. Further, the emotion data of the user may be estimated based on the sensor data at the client terminal 1 and transmitted to the agent server 2.
  • the selection unit 353 of the dialogue processing unit 30a selects an agent corresponding to the user's current emotion based on the user ID and emotion data (step S273).
  • the dialogue processing unit 30a refers to agent information stored in the agent DB 36 as shown in Table 1, and selects an agent corresponding to the current emotion of the user from the “applied emotion” of each agent.
  • the dialogue processing unit 30a may also refer to user information stored in the user information DB 37 as shown in Table 2 and select an agent considering user preferences.
  • the dialogue processing unit 30a determines whether or not the selected agent is owned by the user (step S276). Specifically, the dialogue processing unit 30a refers to the user information stored in the user information DB 37 as shown in Table 2, and determines whether or not the selected agent is owned by the user (user purchased). to decide.
  • the switching control unit 354 determines the interaction process with the selected corresponding agent (step S279), and starts the interaction process with the agent. Control is performed (step S282). For example, when the agent with the agent ID: 10001 is selected and owned by the user, the switching control unit 354 controls the agent ID: 10001 dialogue processing unit 32a to start the dialogue processing.
  • the notification control unit 355 determines recommendation of the selected agent (step S285), and performs control so as to notify the user to purchase the agent (step S285). Step S288).
  • FIG. 17 is a flowchart showing an agent switching control process during a conversation according to this embodiment.
  • the dialogue processing unit 30a acquires emotion data of the user (step S296) when the dialogue processing between the predetermined agent and the user has already been performed (step S293).
  • the dialogue processing unit 30a determines whether or not it is immediately after agent switching (step S299). This is because the operation process shown in FIG. 17 includes a process that automatically considers feedback from the user.
  • step S302 determines whether or not a change in the feeling of switching the agent is observed (step S302).
  • step S302 / No when there is no change in emotion (step S302 / No), the dialogue processing unit 30a returns to the dialogue state with the user (step S293), and when there is (step S302 / Yes), the selection unit 353 An agent corresponding to the changed emotion is selected, and it is determined whether or not the selected agent is owned by the user (step S305).
  • the agent corresponding to the changed emotion is selected based on the “applied emotion” of the agent information stored in the agent DB 36. Further, whether or not the agent is owned by the user is determined based on the user information stored in the user information DB 37.
  • step S305 when the user has an agent corresponding to the changed emotion (step S305 / Yes), the switching control unit 354 determines to switch to the corresponding agent, and starts the dialogue processing with the agent. Control is performed (step S308).
  • the notification control unit 355 controls to perform a notification prompting the user to purchase the corresponding agent (step S311).
  • the registration unit 351 registers the agent in the user information DB 37 as an agent owned by the user, and the switching control unit 354 controls to start the dialogue processing with the registered new agent (Ste S314).
  • step S299 if it is immediately after agent switching (step S299 / Yes), the dialogue processing unit 30a determines whether or not there is a change in emotion according to the switched agent based on the acquired emotion data. (Step S320). In the present embodiment, whether or not there is an effect of the switched agent is evaluated based on the presence or absence of emotional change.
  • step S320 when there is no change in emotion according to the switched agent (step S320 / No), the feedback processing unit 356 feeds back that the switching of the agent is not appropriate (step S323). For example, if the emotion does not change after the start of the dialogue process with the agent corresponding to the sad emotion user, it is evaluated that the agent switching is not effective. Also, if the user becomes more sad, it is evaluated that the agent switching was not effective.
  • the feedback that there was no effect is taken into account when selecting the corresponding agent in step S305. That is, the selection unit 353 selects an agent other than the agent that has no effect among agents corresponding to the user's emotion.
  • step S320 when there is a change in emotion according to the switched agent (step S320 / Yes), the feedback processing unit 356 feeds back that the agent switching is appropriate (step S326), and the dialogue with the user is continued. (Step S293). For example, when the user's heart rate detected by the wearable terminal worn by the user is increased, it is considered that there has been a dialogue effect by the switched agent. Moreover, the feedback that it was appropriate can be registered, for example, as user information preference information stored in the user information DB 37 (specification of an agent preferred at a certain emotion).
  • FIG. 18 is a flowchart showing feedback processing according to the present embodiment.
  • the dialogue processing unit 30a executes dialogue processing with the user by the agent selected according to the user emotion (step S333).
  • the dialogue processing unit 30a obtains user feedback regarding the agent selection (step S336). For example, in the client terminal 1, an evaluation that the switching to the agent at this timing is good or bad is input by the user by voice or text and transmitted to the agent server 2.
  • the feedback processing unit 356 appropriately updates the user preference attribute and the preference agent included in the user information DB 37 based on the user feedback (step S339). For example, when the user b is in a sad state, the agent with the agent ID: 10001 is selected and the dialogue processing with the agent is started. When the user b is sad, the agent ID: 10002 is preferred. : 10002 is input to the client terminal 1 by voice or text and sent to the agent server 2 as feedback. In this case, the feedback processing unit 356 adds “favorite agent ID” as shown in Table 3 below in the user information of the user b stored in the user information DB 37 based on the feedback. Thus, from the next time, when the selection unit 353 selects an agent, the following table 3 is referred to, and the agent with the agent ID: 10002 is selected.
  • the feedback processing unit 356 includes “favorite agent attribute” in the user information of the user b stored in the user information DB 37. Is added as shown in Table 4 below.
  • the feedback processing unit 356 gives feedback that “beautiful” is not preferred.
  • a setting is added as shown in Table 5 below, such that a beautiful woman is not preferred when sad.
  • a flag “ ⁇ 1” indicating a state of not being preferred is added.
  • FIG. 19 is a flowchart showing the automatic feedback processing according to this embodiment. As shown in FIG. 19, first, the dialogue processing unit 30a executes dialogue processing with the user by the agent selected according to the user emotion (step S343).
  • the dialogue processing unit 30a acquires user emotion data (step S346).
  • the emotion data of the user is estimated based on the sensor data received from the client terminal 1 via the communication unit 38 by the emotion estimation unit 352, for example. Further, the emotion data of the user may be estimated based on the sensor data at the client terminal 1 and transmitted to the agent server 2.
  • the feedback processing unit 356 appropriately updates the user preference attribute and the preference agent included in the user information DB 37 based on the acquired user emotion data (step S349). For example, it is assumed that when the user d is in a sad state, an agent with an agent ID of 10001 is selected and a dialogue process with the agent is started. At this time, the heart rate of the user d is detected and the face is imaged, and the heart rate data and the captured image of the face are transmitted from the client terminal 1 to the agent server 2.
  • the feedback processing unit 356 selects the selected agent (here, The agent ID: 10001) automatically obtains an evaluation that it matches the user d's preference. Therefore, the feedback processing unit 356 can set the agent attribute and the agent ID that are preferred when sad in the user information of the user d stored in the user information DB 37 as shown in Table 6 below. In the example shown in Table 6, both the agent attribute and the agent ID are recorded, but only one of them may be recorded.
  • FIG. 20 is a block diagram illustrating an example of the configuration of the client terminal 1 according to the present embodiment.
  • the client terminal 1 includes a control unit 100, a communication unit 101, an operation input unit 102, a sensor 103, a camera 104, a microphone (abbreviation of microphone) 105, a display unit 106, a speaker 107, and a storage unit 108.
  • the control unit 100 is realized by a processor such as a CPU (Central Processing Unit) included in the client terminal 1, for example.
  • the control unit 100 controls the agent response sound transmitted from the agent server 2 via the communication unit 101 to be reproduced from the speaker 107, or displays the agent image on the display unit 106, for example. To do.
  • a processor such as a CPU (Central Processing Unit) included in the client terminal 1, for example.
  • the control unit 100 controls the agent response sound transmitted from the agent server 2 via the communication unit 101 to be reproduced from the speaker 107, or displays the agent image on the display unit 106, for example. To do.
  • control unit 100 controls the user related information used in the agent server 2 to be transmitted from the communication unit 101 to the agent server 2 via the network 3.
  • the control unit 100 includes user information input from the operation input unit 102, a captured image captured by the camera 104, user sound collected by the microphone 105, sensing data detected by the sensor 103, and the periphery of the client terminal 1.
  • Sensing data acquired by wireless communication with a sensor present in the network is transmitted from the communication unit 101 to the agent server 2 via the network 3. These data are used, for example, when the user emotion is estimated in the dialogue processing unit 30a of the agent server 2. Sensing data used for estimating user emotion is continuously transmitted via the client terminal 1 even when the user is interacting with the agent.
  • the control part 100 may transmit the user emotion estimated based on the sensing data automatically detected by the sensor 103 etc. as user related information.
  • control unit 100 performs control so as to start reception of an agent service from the agent server 2 that provides an automatic dialogue by an agent owned by the user.
  • control unit 100 controls to acquire feedback from a user who has enjoyed the agent service by the agent server 2 (has interacted with the owned agent) and to transmit the feedback from the communication unit 101 to the agent server 2.
  • Such feedback may be input manually by the user from the operation input unit 102 or the microphone 105, may be sensing data automatically detected by the sensor 103 or the like, or may be based on the sensing data.
  • the communication unit 101 is a communication interface configured by a communication device for connecting to the network 3, for example.
  • the communication unit 101 may be, for example, a communication card for LAN (Local Area Network), Bluetooth (registered trademark), Wi-Fi, or WUSB (Wireless USB). Further, the communication unit 101 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication unit 101 transmits and receives signals and the like with a predetermined protocol such as TCP / IP, for example, with the Internet and other communication devices.
  • the network 3 connected to the communication unit 101 is a network connected by wire or wireless, and may include, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like.
  • the operation input unit 102 has a function of receiving an input of a user operation and outputting it to the control unit 100.
  • the operation input unit 102 is realized by, for example, a mouse, a keyboard, a touch panel, a button, a switch, or a lever.
  • the sensor 103 has a function of detecting the user or the surrounding situation.
  • the sensor 103 is a biological sensor (pulse meter, heart rate monitor, sweat sensor, body temperature sensor, blood pressure sensor, electroencephalograph, etc.), environmental sensor (temperature sensor, illuminance sensor, pressure gauge, etc.), acceleration sensor, gyro sensor, direction sensor. , A vibration sensor, a position measurement sensor, or the like.
  • the camera 104 photoelectrically converts imaging light obtained by a lens system including an imaging lens, a diaphragm, a zoom lens, and a focus lens, a drive system that causes the lens system to perform a focus operation and a zoom operation, and the lens system.
  • a lens system including an imaging lens, a diaphragm, a zoom lens, and a focus lens, a drive system that causes the lens system to perform a focus operation and a zoom operation, and the lens system.
  • the solid-state imaging device array may be realized by a CCD (Charge Coupled Device) sensor array or a CMOS (Complementary Metal Oxide Semiconductor) sensor array, for example.
  • the microphone 105 picks up the user's voice and surrounding environmental sound and outputs it to the control unit 100 as voice data.
  • the display unit 106 has a function of displaying characters, diagrams, images, videos, and the like.
  • the display unit 106 is realized by, for example, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, or the like.
  • the speaker 107 has a function of reproducing an audio signal.
  • the storage unit 108 stores programs and parameters for the control unit 100 to execute each function.
  • the storage unit 108 may store user information such as a user ID, name, age, sex, agent preference information, and owned agent information.
  • emotion sensing may be performed at any time, and the dialogue processing unit 30a can switch agents at the timing when a user's emotion change is detected.
  • the agent switching may be performed in conversation units.
  • agent system when a change in user emotion occurs even during the interaction with the user, it is possible to immediately switch to an agent that will match that emotion. This allows the user to interact with the agent more comfortably and continuously.
  • the user's emotion is acquired as feedback, the user's preference is further learned, and an agent that matches the user's emotion and preference is selected and recommended. Is possible.
  • agent system is not limited to the configuration including the client terminal 1 and the agent server 2 as shown in FIG. 2, and for example, it is possible to provide an agent service by the client terminal 1 alone. Specifically, by providing the client terminal 1 with the configuration of the agent server 2 shown in FIG. 3 and the configuration of the dialog processing unit 30a shown in FIG. Agent switching control can be performed.
  • a computer-readable storage medium storing the computer program is also provided.
  • the configuration in which various functions are realized by the agent server 2 on the Internet is shown.
  • the present embodiment is not limited to this, and at least one of the configurations of the agent server 2 shown in FIG. May be in the user's client terminal 1 (smart phone, wearable terminal, etc.). 3 may be provided in the client terminal 1 so that all processing can be performed by the client terminal 1.
  • a storage unit having a plurality of agent programs having different attributes;
  • a communication unit for providing an agent service by the agent program to a client terminal of a user;
  • a control unit that selects one agent program corresponding to an emotion of a user who can use the agent service from the plurality of agent programs;
  • An information processing system comprising: (2) When the control unit detects an emotion change of the user while providing an agent service by the first agent program to the client terminal of the user, the control unit provides an agent service by the second agent program appropriate for the emotion change
  • the information processing system according to (1), wherein the information processing system is controlled to switch to (3)
  • the control unit starts providing the user with an agent service based on the selected agent program when the user has a right to use the agent service based on the selected agent program.
  • the feedback is described in (4) or (5), wherein the feedback is at least one of a user's biological information, voice information, captured image, and behavior information automatically detected by a sensor that can communicate with the client terminal.
  • the feedback is emotion information based on at least one of a user's biological information, voice information, captured image, and behavior information automatically detected by a sensor that can communicate with the client terminal.
  • the information processing system according to any one of 7).
  • the control unit controls the user to notify the user to purchase the selected agent program when the user does not have the right to use the agent service by the selected agent program;
  • the information processing system according to (1) or (2).
  • the storage unit stores user emotion information to be applied for each agent program, The control unit selects one agent program corresponding to the emotion of the user who can use the agent service from the plurality of agent programs according to the emotion of the user to be applied.
  • the information processing system according to any one of the above.
  • the information processing system according to any one of (1) to (10), wherein the control unit estimates an emotion of the user based on the biometric information of the user transmitted from the client terminal.
  • the emotion of the user is estimated and transmitted based on the biological information of the user at the client terminal.
  • a control unit for controlling to A client terminal comprising: (14) The control unit controls to continuously transmit the user-related information via the communication unit when receiving the agent service provided by the first agent program, and the user's emotion is transmitted from the server.
  • the client terminal according to (13), wherein when a change is detected, control is performed so as to receive an agent service dialogue by an appropriate second agent program switched according to the emotion change.
  • the control unit starts receiving the agent service for the user by the selected agent program via the communication unit when the user has the right to use the agent service by the selected agent program.
  • the client terminal according to (13) or (14).
  • the client terminal according to (16), wherein the feedback is input by the user by text or voice in the client terminal.
  • the feedback is user biometric information automatically detected by a sensor capable of communicating with the client terminal.
  • the feedback is emotion information based on a user's biological information automatically detected by a sensor that can communicate with the client terminal.
  • the control unit sends a notification prompting the user to purchase the selected agent program via the communication unit.
  • the control unit according to any one of (13) to (20), wherein the control unit performs control so as to transmit biometric information of a user detected by a sensor capable of communicating with the client terminal as the user-related information.
  • Client terminal The control unit controls to transmit the user's emotion estimated based on the user's biometric information detected by a sensor communicable with the client terminal as the user-related information.
  • the client terminal according to any one of the above.
  • a storage unit having a plurality of agent programs having different attributes; An interface unit for providing a user with an agent service by the agent program; A specific agent service is selected for the user via the interface unit by selecting one agent program corresponding to the emotion of the user who can use the agent service by the agent program and executing the selected agent program.
  • a control unit providing, An information processing system comprising: (24) Processor Holding a plurality of agent programs having different attributes in the storage unit; Providing an agent service by the agent program to a user's client terminal via a communication unit; Selecting one agent program corresponding to the emotion of the user who can use the agent service from the plurality of agent programs;
  • An information processing method comprising: (25) Computer A communication unit for receiving a dialogue by an agent service by the agent program from a server having a plurality of agent programs having different attributes; The server transmits user-related information necessary for selecting one agent program corresponding to the emotion of the user who can use the agent service from the plurality of agent programs to the server via the communication unit.
  • a control unit for controlling to Program to function as (26) Computer A storage unit having a plurality of agent programs having different attributes; An interface unit for providing a user with an agent service by the agent program; A specific agent service is selected for the user via the interface unit by selecting one agent program corresponding to the emotion of the user who can use the agent service by the agent program and executing the selected agent program.
  • Agent server 30 Dialog processing part 300 Dialog processing part 310 Question sentence search part 320 Answer sentence generation part 330 Conversation DB 340 Phoneme data acquisition unit 30a Dialogue processing unit 31 Basic dialogue processing unit 32 Character A dialogue processing unit 32a Agent ID: 10001 dialogue processing unit 32b Agent ID: 10001 dialogue processing unit 32c Agent ID: 10001 dialogue processing unit 33 Person B dialogue processing unit 34 person C dialogue processing unit 35 control unit 351 registration unit 352 emotion estimation unit 353 selection unit 354 switching control unit 355 notification control unit feedback processing unit 36 agent DB 37 User information DB 38 Communication unit 40 Phoneme storage unit 41 Basic phoneme DB 42 Character A Phoneme DB 43 Person B Phoneme DB 44 Person C Phoneme DB 50 Conversation DB Generation Unit 60 Phoneme DB Generation Unit 70 Advertisement Insertion Processing Unit 72 Advertising DB 80 Feedback acquisition processing unit 3 Network 10 Agent

Abstract

【課題】ユーザ感情に応じて複数のエージェントから適切なエージェントを選択し、より心地よい対話の提供を行うことが可能な情報処理システム、クライアント端末、情報処理方法、および記録媒体を提供する。 【解決手段】異なる属性を有する複数のエージェントプログラムを保有する記憶部と、ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを提供する通信部と、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する制御部と、を備える、情報処理システム。

Description

情報処理システム、クライアント端末、情報処理方法、および記録媒体
 本開示は、情報処理システム、クライアント端末、情報処理方法、および記録媒体に関する。
 近年、通信技術の発達により、ネットワークを介したメッセージのやり取りが頻繁に行われている。ユーザは、スマートフォンや携帯電話端末、タブレット端末等の情報処理端末を用いて、他端末から送信されたメッセージを確認したり、メッセージを送信したりすることができる。
 また、情報処理端末において、ユーザのメッセージに対して自動で応答を行うエージェントシステムが提案されている。このようなシステムに関し、例えば下記特許文献1では、ユーザへの自動応答において、疑似的に種々の人格を付与することができる会話文生成装置について記載されている。
 また、下記特許文献2では、ユーザとインタラクションを行い、その中でやり取りされるテキストや操作からユーザの感情を推定する感情把握システムが記載されている。また、かかる感情把握システムでは、ユーザの感情に応じてインタラクション中の態度を推薦する接客マニュアルを備える。
特開2015-69455号公報 特開2005-339368号公報
 ここで、自動応答を行うエージェントシステムでは、エージェントに人格を付与して特定のキャラクターとしてユーザに提供することができるが、ユーザにとって適切なキャラクターはユーザの気分によって異なることも想定される。しかしながら、上述したいずれの特許文献においても、エージェントキャラクターの切り替えについては何ら考慮されていない。例えば上記特許文献2に記載の感情把握システムは、ユーザの感情に応じてインタラクション中の態度を推薦する接客マニュアルを備えているが、エージェントの話し方を変更するだけであって、キャラクターの変更は行われていない。
 そこで、本開示では、ユーザ感情に応じて複数のエージェントから適切なエージェントを選択し、より心地よい対話の提供を行うことが可能な情報処理システム、クライアント端末、情報処理方法、および記録媒体を提案する。
 本開示によれば、異なる属性を有する複数のエージェントプログラムを保有する記憶部と、ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを提供する通信部と、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する制御部と、を備える、情報処理システムを提案する。
 本開示によれば、異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、を備える、クライアント端末を提案する。
 本開示によれば、異なる属性を有する複数のエージェントプログラムを保有する記憶部と、前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、を備える、情報処理システムを提案する。
 本開示によれば、プロセッサが、異なる属性を有する複数のエージェントプログラムを記憶部に保有することと、ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを通信部を介して提供することと、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択することと、を備える、情報処理方法を提案する。
 本開示によれば、コンピュータを、異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、として機能させるための、プログラムが記録された記録媒体を提案する。
 本開示によれば、コンピュータを、異なる属性を有する複数のエージェントプログラムを保有する記憶部と、前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、として機能させるための、プログラムが記録された記録媒体を提案する。
 以上説明したように本開示によれば、ユーザ感情に応じて複数のエージェントから適切なエージェントを選択し、より心地よい対話の提供を行うことが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による通信制御システムの概要について説明する図である。 本実施形態による通信制御システムの全体構成を示す図である。 本実施形態による音声エージェントサーバの構成の一例を示すブロック図である。 本実施形態による対話処理部の構成例を示す図である。 本実施形態による会話DBの生成処理を示すフローチャートである。 本実施形態による音素DBの生成処理を示すフローチャートである。 本実施形態による対話制御処理を示すフローチャートである。 本実施形態による会話DBのデータ構成例について説明する図である。 本実施形態による会話DBの更新処理を示すフローチャートである。 本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。 本実施形態による基本対話用会話DBへの会話データの移行について説明する図である。 本実施形態による基本対話用DBへの会話データ移行処理を示すフローチャートである。 本実施形態による広告DBに登録されている広告情報の一例を示す図である。 本実施形態による広告内容の挿入処理を示すフローチャートである。 本実施形態による対話処理部の構成例を示す図である。 本実施形態によるエージェント切替制御処理を示すフローチャートである。 本実施形態による対話中のエージェント切替制御処理を示すフローチャートである。 本実施形態によるフィードバック処理を示すフローチャートである。 本実施形態による自動フィードバック処理を示すフローチャートである。 本実施形態によるクライアント端末1の構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による通信制御システムの概要
 2.構成
  2-1.システム構成
  2-2.サーバの構成
 3.システム動作処理
  3-1.会話データ登録処理
  3-2.音素DB生成処理
  3-3.対話制御処理
  3-4.会話DB更新処理
  3-5.広告挿入処理
 4.対話処理
  4-1.構成
  4-2.動作処理
 5.まとめ
 <<1.本開示の一実施形態による通信制御システムの概要>>
 本開示の一実施形態による通信制御システム(エージェントシステム)は、ユーザ感情に応じて複数のエージェントから適切なエージェントを選択することで、より心地よい対話の提供を行うことを可能とする。以下、図1を参照して本実施形態による通信制御システムの概要について説明する。
 図1は、本開示の一実施形態による通信制御システムの概要について説明する図である。ユーザとエージェントとの対話は、例えばスマートフォンやタブレット端末等のクライアント端末1を介して行われ得る。クライアント端末1は、マイクロホンおよびスピーカを有し、ユーザとの音声による対話を可能とする。また、クライアント端末1には、ディスプレイが設けられ、エージェントの画像を表示し、さらにエージェントの発言をテキストで表示することも可能である。
 本実施形態によるエージェントは、ユーザと対話し、状況に応じて実世界やインターネット上のコンテンツ等の推薦、ニュースや天気予報等の情報提供、ゲームの提供、道案内等々の様々なエージェントサービスを提供し得る。また、本実施形態による通信制御システムは、それぞれ異なる人格を持った複数のエージェントを用意し、ユーザは任意のエージェントを選択して購入し得る。また、本実施形態による通信制御システムは、エージェントの発言に対するユーザのフィードバックを取得し、フィードバックに基づいてエージェントを成長させる機能(学習機能)も有する。
 (背景)
 ここで、上述したように、ユーザにとって適切なエージェントのキャラクターはユーザの気分によって異なることが想定されるが、上述したいずれの特許文献においても、エージェントキャラクターの切り替えについては何ら考慮されていなかった。
 そこで、本開示では、ユーザとの自動対話を行うエージェントシステムにおいて、ユーザ感情に応じて複数のエージェントから適切なエージェントを選択することで、より心地よい対話の提供を行うことを可能とする。また、選択したエージェントがユーザ保有のもの(すなわち、購入済み)であればエージェントの切り替えを行い、未購入のものであればユーザに対して購入を推薦することも可能である。
 ユーザの感情(または心理状態)は、ユーザが装着しているウェアラブル端末(スマートバンド、スマートウォッチ、スマートアイグラス、スマートネック等々)に設けられた各種センサやクライアント端末1に設けられた各種センサから検知された情報に基づいて推定され得る。例えば、クライアント端末1に設けられたカメラで撮像されたユーザの顔の表情、クライアント端末1またはウェアラブル端末に設けられたマイクロホンで収音されたユーザの音声、ウェアラブル端末に設けられた生体センサにより検知されたユーザの生体情報等に基づいて、ユーザの感情や心理状態が推定される。
 そして、通信制御システムは、ユーザの感情や心理状態に応じて、複数のエージェント10~14のうち適切なキャラクターのエージェントを選択する。通信制御システムは、ユーザ保有の(すなわち、購入済みの)エージェントから適切なエージェントを選択してもよいし、適切なエージェントが未購入の場合は購入を推薦してもよい。例えばユーザが悲しい気分の場合は、優しい癒し系のエージェントが推薦され、ユーザが元気な状態の場合は、気が強いお姉さん系のエージェントが推薦されるといったように、ユーザの感情が心理状態に応じて異なるエージェントが推薦される。通信制御システムは、推薦するエージェントがユーザ保有のものであれば自動的に切り替えて対話を開始し、ユーザ保有のものでなければ購入を推薦し、購入処理が完了してから切り替えて対話を開始するようにしてもよい。
 なお、本実施形態では、通信制御システムにより推薦されたエージェントに対するユーザ評価をフィードバックとして取得し、推薦精度を向上させることも可能である。また、本実施形態による通信制御システムは、音声により応答を行う音声エージェントに限定されず、クライアント端末1においてテキストベースで応答を行うテキスト対応エージェントであってもよい。
 また、本実施形態による通信制御システムは、スマートフォンやタブレット端末、PC等の情報処理装置に搭載されてもよいし、ホームシステム、車載システム、クライアント端末とサーバから成るクライアントサーバシステムに組み込まれてもよい。また、本実施形態による通信制御システムは、ロボットのような擬人化されたデバイスに搭載されていてもよい。ロボットの場合、音声対話に加えて、表情の制御やアクションの制御も行われ得る。
 <<2.構成>>
  <2-1.システム構成>
 続いて、上述した本実施形態による通信制御システムの全体構成について図2を参照して説明する。図2は、本実施形態による通信制御システムの全体構成を示す図である。
 図2に示すように、本実施形態による通信制御システムは、クライアント端末1およびエージェントサーバ2を含む。
 エージェントサーバ2は、ネットワーク3を介してクライアント端末1と接続し、データの送受信を行う。具体的には、エージェントサーバ2は、クライアント端末1で収音され、送信された発話音声に対する応答音声を生成し、クライアント端末1に送信する。エージェントサーバ2は、1以上のエージェントに対応する音素DB(データベース)を有し、特定のエージェントの音声で応答音声を生成することが可能である。ここで、エージェントとは、漫画、アニメ、ゲーム、ドラマ、映画等のキャラクターや、芸能人、著名人、歴史上の人物等であってもよいし、また、個人に特定せず、例えば世代別の平均的な人物であってもよい。また、エージェントは、動物や擬人化されたキャラクターであってもよい。また、エージェントは、ユーザ本人の性格を反映した人物や、ユーザの友人、家族、知人等の性格を反映した人物であってもよい。
 また、エージェントサーバ2は、各エージェントの性格を反映した応答内容を生成することが可能である。エージェントサーバ2は、エージェントを介して、ユーザのスケジュール管理、メッセージの送受信、情報提供等、様々なサービスをユーザとの対話を通じて提供し得る。
 なおクライアント端末1は、図2に示すようなスマートフォンに限定されず、例えば携帯電話端末、タブレット端末、PC(パーソナルコンピュータ)、ゲーム機、ウェアラブル端末(スマートアイグラス、スマートバンド、スマートウォッチ、スマートネック等)等であってもよい。また、クライアント端末1は、ロボットであってもよい。
 以上、本実施形態による通信制御システムの概要について説明した。続いて、本実施形態による通信制御システムのエージェントサーバ2の構成について図3を参照して具体的に説明する。
  <2-2.エージェントサーバ2>
 図3は、本実施形態によるエージェントサーバ2の構成の一例を示すブロック図である。図3に示すように、エージェントサーバ2は、音声エージェントI/F(インタフェース)20、対話処理部30、音素記憶部40、会話DB生成部50、音素DB生成部60、広告挿入処理部70、広告DB72、およびフィードバック取得処理部80を有する。
 音声エージェントI/F20は、音声データの入出力部、音声認識部、および音声生成部として機能する。入出力部としては、ネットワーク3を介してクライアント端末1と送受信を行う通信部が想定される。音声エージェントI/F20は、クライアント端末1からユーザの発話音声を受信し、音声認識によりテキスト化することが可能である。また、音声エージェントI/F20は、対話処理部30から出力されたエージェントの回答文データ(テキスト)を、当該エージェントに対応する音素データを用いて音声化し、生成したエージェントの応答音声をクライアント端末1に送信する。
 対話処理部30は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェントサーバ2内の動作全般を制御する。対話処理部30は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による対話処理部30は、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34として機能する。
 キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34は、エージェント毎に特化された対話を実現する。ここでは、エージェントの一例として「キャラクターA」「人物B」「人物C」を挙げているが、本実施形態は当然これに限定されず、さらに多数のエージェントに特化した対話を実現する各対話処理部を有していてもよい。基本対話処理部31は、エージェント毎に特化されていない、汎用の対話を実現する。
 ここで、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34に共通する基本構成について図4を参照して説明する。
 図4は、本実施形態による対話処理部300の構成例を示す図である。図4に示すように、対話処理部300は、質問文検索部310、回答文生成部320、音素データ取得部340、および会話DB330を有する。会話DB330は、質問文データと回答文データが組になった会話データが保存されている。エージェントに特化した対話処理部では、かかる会話DB330にエージェントに特化した会話データが保存され、汎用の対話処理部では、かかる会話DB330にエージェントに特化しない汎用の会話データ(すなわち、基本会話データ)が保存されている。
 質問文検索部310は、音声エージェントI/F20から出力された、ユーザの質問音声(発話音声の一例)を認識してテキスト化した質問文と一致する質問文データを会話DB330から検索する。回答文生成部320は、質問文検索部310により検索した質問文データに対応付けて保存されている回答文データを会話DB330から抽出し、回答文データを生成する。音素データ取得部340は、回答文生成部320により生成された回答文を音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば、キャラクターA対話処理部32の場合、キャラクターA音素DB42から、回答文データをキャラクターAの音声で再生するための音素データを取得する。そして、対話処理部300は、生成した回答文データおよび取得した音素データを音声エージェントI/F20に出力する。
 音素記憶部40は、エージェント毎の音声を生成するための音素データベースを格納する。音素記憶部40は、ROM(Read Only Memory)およびRAM(Random Access Memory)により実現され得る。図3に示す例では、基本音素DB41、キャラクターA音素DB42、人物B音素DB43、人物C音素DB44を格納する。各音素DBには、音素データとして、例えば音素片とその制御情報である韻律モデルが記憶されている。
 会話DB生成部50は、対話処理部300の会話DB330を生成する機能を有する。例えば会話DB生成部50は、想定される質問文データを収集し、各質問に対応する回答文データを収集した後に、質問文データと回答文データとを組にして保存する。そして、会話DB生成部50は、所定数の会話データ(質問文データと回答文データとの組、例えば100組)が集まったら、エージェントの会話データセットとして会話DB330に登録する。
 音素DB生成部60は、音素記憶部40に格納されている音素DBを生成する機能を有する。例えば音素DB生成部60は、所定のテキストを読み上げた音声情報を解析して、音素片とその制御情報である韻律モデルに分解し、所定数以上の音声情報が収集できたら音素データとして音素DBに登録する処理を行う。
 広告挿入処理部70は、エージェントの対話に広告情報を挿入する機能を有する。挿入する広告情報は、広告DB72から抽出し得る。広告DB72には、企業等の提供側(ベンダー、サプライヤー)から依頼された広告情報(例えばテキスト、画像、音声等の広告内容、広告主、広告期間、広告対象者等の情報)が登録されている。
 フィードバック取得処理部80は、エージェントの対話に、フィードバックを取得するための質問を挿入し、ユーザからフィードバックを得るための機能を有する。
 以上、本実施形態によるエージェントサーバ2の構成について具体的に説明した。なお、本実施形態によるエージェントサーバ2の構成は、図3に示す例に限定されない。例えば、エージェントサーバ2が有する各構成は、各々ネットワーク上の他サーバで構成されていてもよい。
 続いて、本実施形態による通信制御システムの基本的な動作処理について図5~図14を参照して説明する。
 <<3.システム動作処理>>
 <3-1.会話データ登録処理>
 図5は、本実施形態による会話DB330の生成処理を示すフローチャートである。図5に示すように、まず、会話DB生成部50は、想定される質問文を保存する(ステップS103)。
 次に、会話DB生成部50は、質問文に対応する(対の)回答文を保存する(ステップS106)。
 次いで、会話DB生成部50は、質問文と回答文のペア(会話データとも称す)が所定数集まったか否かを判断する(ステップS109)。
 そして、質問文と会話文のペアが所定数集まった場合(ステップS109/Yes)、会話DB生成部50は、質問文および回答文の多数のペアから成るデータセットを会話DB330に登録する(ステップS112)。質問文および回答文のペアの一例としては、例えば下記のようなものが想定される。
 質問文および回答文のペア例
 ペア1
  質問文:おはよう。
  回答文:今日の調子はどうですか?
 ペア2
  質問文:今日の天気は?
  回答文:今日の天気は○○です。
 このようなペアが、会話データとして会話DB330に登録され得る。
 <3-2.音素DB生成処理>
 図6は、本実施形態による音素DBの生成処理を示すフローチャートである。図6に示すように、まず、音素DB生成部60は、例文の表示を行う(ステップS113)。例文の表示は、例えば図示しない情報処理端末のディスプレイに、音素データ生成のために必要な例文を表示する。
 次に、音素DB生成部60は、例文を読み上げた音声を録音し(ステップS116)、録音音声を分析する(ステップS119)。例えば、エージェントの音声を担当する人物により読み上げられた音声情報が情報処理端末のマイクロホンにより収集され、音素DB生成部60がこれを受信し、記憶し、さらに音声分析を行う。
 次いで、音素DB生成部60は、音声情報に基づいて、韻律モデルを生成する(ステップS122)。韻律モデルとは、音声の韻律的特徴(例えば音の高低、音の強弱、発話速度等)を示す韻律パラメータを抽出するものであって、個人毎に異なる。
 次に、音素DB生成部60は、音声情報に基づいて、音素片(音素データ)を生成する(ステップS125)。
 次いで、音素DB生成部60は、韻律モデルおよび音素片を保存する(ステップS128)。
 続いて、音素DB生成部60は、韻律モデルおよび音素片が所定数集まったか否かを判断する(ステップS131)。
 そして、韻律モデルおよび音素片が所定数集まった場合(ステップS131/Yes)、音素DB生成部60は、韻律モデルおよび音素片を、所定のエージェント用の音素データベースとして音素記憶部40に登録する(ステップS134)。
 <3-3.対話制御処理>
 図7は、本実施形態による対話制御処理を示すフローチャートである。図7に示すように、まず、音声エージェントI/F20は、ユーザの質問音声およびエージェントIDを取得したか否かを確認する(ステップS143)。エージェントIDは、キャラクターA、人物B、人物Cといった特定のエージェントを示す識別情報である。ユーザは、エージェント毎の音素データを購入することができ、例えば購入処理時に購入したエージェントのIDがクライアント端末1に保存される。
 次に、ユーザの質問音声およびエージェントIDを取得すると(ステップS146/Yes)、音声エージェントI/F20は、質問音声を音声認識し、テキスト化する(ステップS149)。音声エージェントI/F20は、テキスト化した質問文を、エージェントIDで指定された特定エージェントの対話処理部に出力する。例えば「エージェントID:キャラクターA」の場合、音声エージェントI/F20は、テキスト化した質問文をキャラクターA対話処理部32に出力する。
 次いで、対話処理部30は、エージェントIDで指定された特定エージェントの会話DBから、テキスト化した質問文と一致する質問文を検索する(ステップS152)。
 次に、一致する質問があった場合(ステップS155/Yes)、キャラクターA対話処理部32は、質問に対応する(対になって保存されている)回答文データを特定エージェントの会話DBから取得する(ステップS158)。
 一方、一致する質問がなかった場合(ステップS155/No)、基本対話処理部31の会話DBから、テキスト化した質問文と一致する質問文が検索される(ステップS161)。
 一致する質問文があった場合(ステップS161/Yes)、基本対話処理部31は、質問に対応する(対になって保存されている)回答文データを基本対話処理部31の会話DBから取得する(ステップS167)。
 一方、一致する質問文がなかった場合(ステップS164/No)、基本対話処理部31は、一致する質問文が無い場合の回答文データ(例えば、「質問が解りません」といった回答文)を取得する(ステップS170)。
 次いで、キャラクターA対話処理部32により、エージェントIDで指定された特定エージェントの音素DB(ここでは、キャラクターA音素DB42)を参照し、回答文データの音声を生成するためのキャラクターAの音素データが取得される(ステップS173)。
 次に、取得された音素データと回答文データが音声エージェントI/F20に出力される(ステップS176)。
 そして、音声エージェントI/F20は、回答文データ(テキスト)を音素データを用いて音声化(音声合成)し、クライアント端末1に送信する(ステップS179)。クライアント端末1では、キャラクターAの音声で回答文が再生される。
 <3-4.会話DB更新処理>
 次に、各対話処理部300の会話DB330の更新処理について説明する。本実施形態では、ユーザとの会話によって会話DB330を成長させることが可能である。
 まず、会話DB330のデータ構成例について図8を参照して補足説明を行う。図8は、本実施形態による会話DB330のデータ構成例について説明する図である。図8に示すように、各会話DB330は、個人化レイヤー331と共通レイヤー332という2つのレイヤーを有する。例えばキャラクターA用会話DB330Aの場合、共通レイヤー332Aには、キャラクターAの性格や特徴が反映された会話データが保持される。一方、個人化レイヤー331Aには、ユーザとの会話により当該ユーザ向けにカスタマイズされた会話データが保持される。すなわち、キャラクターA音素DB42およびキャラクターA対話処理部32がセットでユーザに提供(販売)されるところ、あるユーザXと、ユーザYは、最初は同じキャラクターAと対話を行う(共通レイヤー332Aに保持されている会話データが使用される)が、対話を続けるにつれて、各ユーザ向けにカスタマイズされた会話データが、ユーザ毎の個人化レイヤー331Aに蓄積される。これにより、ユーザX、ユーザYそれぞれの好みに応じたキャラクターAとの対話を提供できるようになる。
 またエージェント「人物B」が、キャラクターAのような特定の性格を有さない平均的な世代別の人物の場合も、会話データがユーザ向けにカスタマイズされ得る。すなわち、例えば「人物B」が『20代の人物』の場合、共通レイヤー332Bには20代の平均的な会話データが保持され、ユーザとの対話を続けることでカスタマイズされた会話データがユーザ毎の個人化レイヤー331Bに保持される。また、ユーザは、人物Bの音声として「男性」、「女性」、「高い声」、「低い声」といった好きな音素データを人物B音素DB43から選択し、購入することも可能である。
 このような会話DB330のカスタマイズを行う際の具体的な処理について、図9を参照して説明する。図9は、本実施形態による会話DB330の更新処理を示すフローチャートである。
 図9に示すように、まず、音声エージェントI/F20は、クライアント端末1からユーザの質問音声を取得(受信)し、これを音声認識によりテキスト化する(ステップS183)。テキスト化されたデータ(質問文データ)は、エージェントIDにより指定されている特定エージェントの対話処理部(ここでは、例えばキャラクターA対話処理部32)に出力される。
 次に、キャラクターA対話処理部32は、質問文データが所定のコマンドであるか否かを判断する(ステップS186)。
 次いで、所定のコマンドである場合(ステップS186/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、会話DB330Aの個人化レイヤー331Aに質問文データと対で登録する(ステップS189)。所定のコマンドとは、例えば「NG」、「設定」といった言葉であってもよい。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
 ユーザ:「おはよう」
 キャラクターA:「おはよう」
 ユーザ:「NG。元気で頑張ってと答えて」
 キャラクターA:「元気で頑張って」
 上記の会話の流れでは、『NG』が所定のコマンドであって、キャラクターA対話処理部32は、ユーザから『NG』と発せられた後、ユーザ指定の回答文データ『元気で頑張って』を、質問文データ『おはよう』と対にして会話DB330Aの個人化レイヤー331Aに登録する。
 一方、所定のコマンドでない場合(ステップS186/No)、キャラクターA対話処理部32は、質問文データと対になって保持されている回答文データをキャラクターA用会話DB330Aから検索する。問文データと対になって保持されている回答文データがキャラクターA用会話DB330Aに保持されていない場合、すなわち、ユーザの質問が回答文の無い質問であった場合(ステップS192/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、質問文と対にして個人化レイヤー331Aに登録する(ステップS195)。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
 ユーザ:「元気?」
 キャラクターA:「質問がわかりません」(該当する回答が無い場合の回答データ例)
 ユーザ:「『元気?』と聞いたら、『今日も元気だよ』と答えて」
 キャラクターA:「今日も元気だよ」
 上記会話の流れでは、『元気?』と対になって保持される回答文データが無いため、該当する回答が無い場合の回答データ例である『質問がわかりません』がキャラクターA対話処理部32により取得され、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力され、クライアント端末1で再生される。次いで、ユーザ指定の回答文『今日も元気だよ』が入力されると、キャラクターA対話処理部32は、質問文データ『元気?』と対にして個人化レイヤー331Aに登録する。
 なお、回答文の有る質問であった場合(ステップS192/No)、キャラクターA対話処理部32は、当該回答文データを取得し、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力し、クライアント端末1で回答文がキャラクターAの音声で再生される(ステップS198)。
 次いで、個人化レイヤーから共通レイヤーへの会話データ移行について、図10を参照して説明する。図10は、本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。ここでは、一例としてキャラクターA対話処理部32の個人化レイヤー331Aから共通レイヤー332Aへの会話データ移行処理について説明する。
 図10に示すように、まず、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aを定期的にサーチし(ステップS203)、実質的に同じ内容の会話ペア(質問文データと回答文データのペア)を抽出する(ステップS206)。実質的に同じ内容の会話ペアとは、例えば質問文「元気?」と回答文「今日も元気だよ!」のペアと、質問文「元気ですか?」と回答文「今日も元気だよ!」のペアは、質問文が丁寧語か否かの違いのみであって、実質的に同じ内容の会話ペアと判断され得る。
 次に、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aから会話ペアが所定数以上抽出された場合(ステップS209/Yes)、当該会話ペアを(ユーザ毎の)共通レイヤー332Aに登録する(ステップS212)。
 このように、ユーザ毎の個人化レイヤー331において実質的に内容が同じ会話ペアを共通レイヤー332に移行することで、共通レイヤー332を成長(会話ペアを拡充)させることが可能となる。
 また、本実施形態では、特定エージェントの会話DB(具体的には共通レイヤー)から基本対話用の会話DBへ会話データを移行して基本対話用の会話DBを成長させることも可能である。図11は、本実施形態による基本対話用会話DB330Fへの会話データの移行について説明する図である。例えば、ユーザXおよびユーザYが各々エージェント「キャラクターA」を選択(購入)し、ユーザZがエージェント「人物B」を選択(購入)している場合、図11に示すように、ユーザXのキャラクターA用会話DB330A-X、ユーザYのキャラクターA用会話DB330A-Y、およびユーザZの人物B用会話DB330B-Zが対話処理部30に存在し得る。この場合、各個人化レイヤー331A-X、331A-Y、331B-Zには、各ユーザX、ユーザY、ユーザZとの対話に応じて独自の(カスタマイズされた)会話ペアが登録されていく(図9参照)。次いで、同じエージェントの個人化レイヤー331A-X、331A-Yにおいて実質同じ会話ペアが所定数あると、ユーザ毎の共通レイヤー332A-X、332A-Yに各々登録される(図10参照)。
 そして、対話処理部30は、複数のエージェント(異なるエージェントを含んでもよい)の共通レイヤー332A-X、332A-Y、332B-Zから実質同じ会話ペアが所定数以上抽出された場合、上位の基本対話用会話DB330Fに会話ペアを移行する。基本対話用会話DB330Fは、基本対話処理部31が有する会話DBである。これにより、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。かかるデータ移行処理について、図12を参照して具体的に説明する。図12は、本実施形態による基本対話用DB330Fへの会話データ移行処理を示すフローチャートである。
 図12に示すように、まず、対話処理部30は、定期的に会話DB330の複数の共通レイヤー332をサーチし(ステップS223)、実質同じ会話ペアを抽出する(ステップS226)。
 次に、対話処理部30は、複数の共通レイヤー332から実質同じ会話ペアが所定数以上抽出された場合(ステップS229/Yes)、当該会話ペアを基本対話用会話DB330Fに登録する(ステップS232)。
 このように、複数のエージェントにおける会話DB330の共通レイヤー332において実質的に内容が同じ会話ペアを、基本対話用会話DB330Fに移行することで、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。
 <3-5.広告出力処理>
 続いて、広告挿入処理部70による広告情報の挿入処理について図13~図14を参照して説明する。本実施形態では、広告挿入処理部70により、エージェントの発言に広告DB72に格納されている広告情報の挿入を行うことが可能である。広告DB72には、予め広告情報が登録され得る。図13は、本実施形態による広告DB72に登録されている広告情報の一例を示す図である。
 図13に示すように、広告情報621は、例えばエージェントID、質問文、広告内容、条件、および確率を含む。エージェントIDは広告内容を発言するエージェントを指定し、質問文は広告内容を挿入するトリガとなるユーザの質問文を指定し、広告内容はエージェントの対話に挿入する広告文章である。また、条件は、広告内容を挿入する条件であって、確率は広告内容を挿入する確率を示す。例えば図13の1段目に示す例では、エージェント「キャラクターA」との対話において、30歳以下のユーザからの質問文に「チョコレート」という単語が含まれている場合に、「BB社の新しく発売されたチョコはミルクがたくさん入っていて美味しいよ」といった広告内容が回答文に挿入される。また、トリガとなる質問文が発せられた際に毎回広告内容を挿入するとユーザが煩わしく思ってしまうこともあるため、本実施形態では、広告を挿入する確率を設定するようにしてもよい。かかる確率は広告料に応じて決定されてもよい。例えば広告料が高いほど確率が高く設定される。
 このような広告内容の挿入処理について図14を参照して具体的に説明する。図14は、本実施形態による広告内容の挿入処理を示すフローチャートである。
 図14に示すように、まず、広告挿入処理部70は、ユーザとエージェントとの対話(具体的には、対話処理部30による対話処理)を監視する(ステップS243)。
 次に、広告挿入処理部70は、ユーザとエージェントとの対話に、広告DB72に登録されている質問文と同一の内容の質問文が登場したか否かを判断する(ステップS246)。
 次いで、同一の内容の質問文が登場した場合(ステップS246/Yes)、広告挿入処理部70は、該当する質問文と対応付けられている広告挿入の条件および確率を確認する(ステップS249)。
 続いて、広告挿入処理部70は、条件および確率に基づいて、現在、広告が出せる状態であるか否かを判断する(ステップS252)。
 次に、広告が出せる状態である場合(ステップS252/Yes)、広告挿入処理部70は、対話処理部30による対話処理を一時停止させ(ステップS255)、広告内容を対話に挿入する(ステップS258)。具体的には、例えばユーザの質問文に対するエージェントの回答文に、広告内容を挿入させる。
 そして、広告内容を含む対話(会話文データ)が対話処理部30から音声エージェントI/F20に出力され、音声エージェントI/F20からクライアント端末1に送信され、エージェントの音声で再生される(ステップS261)。具体的には、例えば以下のような会話により、キャラクターAの発言としてユーザに広告内容を提示することができる。
 ユーザ:「おはよう」
 キャラクターA:「おはよう!今日の調子はどうですか?」
 ユーザ:「元気だよ。何か美味しい物食べたいな」
 キャラクターA:「CC店の焼肉が美味しいらしいよ」
 上記会話では、まず、ユーザの質問文「おはよう」に対して、キャラクターAの会話DBから検索された対応する回答文「おはよう!今日の調子はどうですか?」が音声出力される。次いで、ユーザの質問文「元気だよ。何か美味しい物食べたいな」に、広告挿入のトリガとなる質問文「何か美味しい物食べたいな」が含まれているため(図13の2段目参照)、広告挿入処理部70は広告挿入処理を行い、キャラクターAの音声で広告内容「CC店の焼肉が美味しいらしいよ」といった回答文が出力される。
 以上、本実施形態による通信制御システムの基本的な動作処理として、会話データ登録処理、音素DB生成処理、対話制御処理、会話DB更新処理、および広告挿入処理について説明した。
 なお、本実施形態による対話制御処理は、上述した例に限定されない。本実施形態による対話処理部30は、ユーザ感情に応じたエージェントの切り替え処理を行うことも可能である。以下、図15~図19を参照して具体的に説明する。
 <<4.対話制御処理>>
 <4-1.構成>
 まず、本実施形態による、対話処理においてユーザ感情に応じてエージェント(すなわちエージェントプログラム)の切り替え処理を行い得る対話処理部30aの構成について、図15を参照して説明する。
 図15は、本実施形態による対話処理部30aの構成例を示す図である。図15に示すように、対話処理部30aは、各エージェントの対話処理部32a~32c、制御部35、エージェントDB36、ユーザ情報DB37、および通信部38を有する。
 各エージェントの対話処理部32a~32cは、各エージェントによるユーザとの自動対話の実施、および対応による各種エージェントサービス(例えば実世界やインターネット上のコンテンツ等の推薦、ニュースや天気予報等の情報提供、道案内等)を提供する機能を有する。エージェントサービスには、ユーザとの対話自体も含まれ得る。対話処理部32a~32cは、図4に示したような、質問文検索部310、回答文生成部320、会話DB330、および音素データ取得部340を有し、音声エージェントI/F20を介してユーザとの対話を行う。具体的には、対話処理部32a~32cは、ユーザの発話音声に応じた回答文を会話DB330を参照して生成し、音素データ取得部340により対応するエージェントの音素データを取得する。そして、回答文と音素データが音声エージェントI/F20に出力され、音声エージェントI/F20において回答文が音声化され、クライアント端末1に送信され、所定のエージェントの発言としてクライアント端末1から音声出力される。会話DB330は、各エージェントの人格に応じた回答文データが質問データと組になって格納されている。また、対話処理部32a~32cには、各エージェントを表示するための情報(エージェント画像情報)が格納され得る。
 制御部35は、対話処理部30aの各構成の制御を行う。例えば制御部35は、エージェントによる自動対話を提供する。より具体的には、制御部35は、登録部351、感情推定部352、選択部353、切替制御部354、通知制御部355、およびフィードバック処理部356として機能する。
 登録部351は、業者等により入力されたエージェント情報をエージェントDB36に格納する機能を有する。業者等は、エージェント情報として、エージェントID、エージェント名称、エージェントを適用すべき感情の情報(すなわちユーザのどのような感情、心理状態の時に適したエージェントであるかを示す情報)、対象とするユーザの属性、およびエージェントの属性等を入力する。なお当該エージェントの音素データは音素記憶部40、会話データセットは各エージェントの対話処理部(対話処理部32a~32c等)に格納され、エージェントIDにより紐付けられる。
 ここで、エージェントDB36に格納されるエージェント情報のデータ構成の一例を下記表1に示す。
Figure JPOXMLDOC01-appb-T000001
 エージェント属性は、エージェントの性格や容姿等、キャラクターの特徴を示すものである。また、エージェント属性は1つのエージェントに対して複数存在していてもよい。複数のエージェント属性が紐付けられる場合、各々の属性には重み付けのパラメータが付与され、後述する選択部353によるエージェントの選択の際に考慮され得る。
 感情推定部352は、ユーザの感情や心理状態を推定する機能を有する。例えば感情推定部352は、クライアント端末1から送信され通信部38を介して取得したユーザの生体情報(脈拍、心拍、心音、血圧、呼吸、体温、発汗量、脳波、筋電位等)、音声情報(声の抑揚等)、撮像画像(ユーザの顔画像、眼の画像)、動き、行動等のセンシングデータに基づいて、ユーザの感情や心理状態を推定する。撮像画像からは、顔解析により、ユーザの顔の表情が得られる。動きや行動は、加速度センサ、ジャイロセンサ、振動センサ、地磁気センサ、方位センサ、位置測位センサ等により得られる。
 選択部353は、ユーザの感情に応じて、エージェントDB36を参照して適用すべきエージェントを選択する機能を有する。「ユーザの感情」は、感情推定部352により推定された感情、若しくは感情推定がクライアント端末1側で行われる場合はクライアント端末1から送信され、通信部38を介して取得し得る。
 また、選択部353は、ユーザ情報DB37を参照して、ユーザが所有する(利用権を保有している、具体的には例えば購入済みである)エージェントの中から適用すべきエージェントを選択するようにしてもよい。さらに、選択部353は、エージェント情報に含まれる対象ユーザ属性およびエージェント属性も考慮して選択してもよい。また、選択部353は、ユーザ情報DB37を参照し、さらにユーザの嗜好情報(すなわち、ユーザの好み)も考慮してエージェントを選択してもよい。
 例えば選択部353は、ユーザが「悲しい」感情であれば、適用感情が「悲しい」で一致するエージェントID:10001の『癒し系女子1』、エージェントID:10002の『癒し系女子2』、およびエージェントID:10003の『癒し系男子1』を選択する。複数選択された場合、選択部353は、さらに対象ユーザ属性、エージェント属性、またはユーザの嗜好情報を考慮して最適な1のエージェントを選択するようにしてもよい。
 切替制御部354は、エージェントの切り替えを制御する機能を有する。具体的には、切替制御部354は、選択部353によりエージェントが選択された場合、選択されたエージェントによる対話を開始するよう、対応する対話処理部32a~32cを制御する。例えば、エージェントID:10001のエージェントが選択された場合、エージェントID:10001対話処理部32aによる対話処理(すなわち、エージェントID:10001のエージェントによるユーザとの対話)を開始するよう制御する。
 また、切替制御部354は、選択部353により選択されたエージェントがユーザ所有の(利用権を保有している、具体的には例えば購入済みである)エージェントである場合に、当該エージェントへの切り替え制御を行うようにしてもよい。
 また、切替制御部354は、ユーザが他のエージェントと対話中において、感情推定部352により感情の変化が検知され、感情変化に応じて選択部353により新たなエージェントが選択された場合、対話途中でエージェントの切り替えを行うことも可能である。
 通知制御部355は、選択部353により選択されたエージェントがユーザ所有のエージェントでない(すなわち未購入のエージェントであった)場合、エージェントの購入をユーザに推薦する通知を、通信部38を介してクライアント端末1へ送信する。ユーザが所有しているエージェントであるか否かは、ユーザ情報DB37に格納されているユーザ情報を参照して判断され得る。ここで、ユーザ情報DB37に格納されるデータ構成の一例を下記表2に示す。
Figure JPOXMLDOC01-appb-T000002
 表2に示すように、ユーザ情報には、ユーザが既に保有しているエージェントのIDと、ユーザの嗜好情報(具体的には、例えば好みの属性、好みのエージェント)が含まれる。
 好みの属性は、感情や心理状態と共に管理される。例えば、表2によれば、ユーザbは、悲しい時は「なぐさめ系」のエージェントを好むことが登録されている。また、表2によれば、ユーザaは、どのような感情、心理状態の場合もエージェントID:10002のエージェントを好むことが登録されている。これらの嗜好情報は、次に説明するフィードバック処理部39により登録され得る。
 なお、表2に示す例では、嗜好情報として好みの属性や好みのエージェントIDを登録しているが、本実施形態はこれに限定されず、好みではない属性やエージェントIDを登録してもよい。
 また、表2には示していないが、さらにユーザの基本属性(例えば年齢、性別、住所等)が格納されていてもよい。また、ユーザ情報DB37は、他のDBと連携していてもよい。
 フィードバック処理部356は、エージェントに対するユーザ評価を取得し、嗜好情報としてユーザ情報DB37に登録する機能を有する。フィードバックは、クライアント端末1においてユーザにより手動で(具体的には、例えばテキストまたは音声で)入力されてもよいし、ユーザの反応(感情、心理状態)を各種センサで自動的に検知したセンシングデータであってもよい。各種センサは、クライアント端末1と通信可能なセンサであって(クライアント端末1に設けられるセンサも含む)、検知したセンシングデータをクライアント端末1へ送信し、当該センシングデータがクライアント端末1からエージェントサーバ2へ送信される。各種センサは、例えば生体センサ、マイクロホン、カメラ、加速度センサ、ジャイロセンサ、方位センサ、位置測位センサ等が想定される。ユーザのフィードバックは、例えばシステム側で選択されたエージェントや購入を推薦されたエージェントが、ユーザがその時望んでいたエージェントであったか、また、その時のユーザの感情や心理状態に合ったエージェントであったか等を示すものである。
 また、フィードバック処理部356は、受信したセンシングデータに基づいてユーザの感情や心理状態を推定し、フィードバックとしてもよい。
 通信部38は、ネットワークを介して外部装置とデータの送受信を行い得る。例えば通信部38は、クライアント端末1からセンサ情報やユーザ評価を受信したり、エージェントの推薦通知を送信したりする。
 以上、本実施形態による対話処理部30aの構成について具体的に説明した。なお本実施形態による対話処理部30aの構成は図15に示す例に限定されず、例えば感情推定部352がクライアント端末1側に設けられていてもよい。
 続いて、本実施形態による動作処理について図16~図19を参照して具体的に説明する。
 <4-2.動作処理>
 (4-2-1.エージェント切替制御処理)
 図16は、本実施形態によるエージェント切替制御処理を示すフローチャートである。図16に示すように、まず、対話処理部30aは、ユーザの感情データを取得する(ステップS270)。ユーザの感情データは、例えば感情推定部352により、クライアント端末1から通信部38を介して受信したセンシングデータに基づいて推定される。センシングデータは、上述したように、例えば各種生体センサにより検知された生体情報、顔の表情情報、音声情報、または行動情報等が想定される。また、ユーザの感情データは、クライアント端末1においてセンサデータに基づいて推定され、エージェントサーバ2へ送信されてもよい。
 次いで、対話処理部30aの選択部353は、ユーザIDと感情データに基づいて、ユーザの現在の感情に対応するエージェントを選択する(ステップS273)。例えば対話処理部30aは、表1に示すような、エージェントDB36に格納されるエージェント情報を参照し、各エージェントの「適用感情」からユーザの現在の感情に対応するエージェントを選択する。この際、対話処理部30aは、表2に示すような、ユーザ情報DB37に格納されるユーザ情報も参照し、ユーザ嗜好も考慮したエージェントを選択してもよい。
 次に、対話処理部30aは、選択したエージェントがユーザ所有のものであるか否かを判断する(ステップS276)。具体的には、対話処理部30aは、表2に示すような、ユーザ情報DB37に格納されるユーザ情報を参照し、選択したエージェントがユーザ所有(ユーザ購入済み)のものであるか否かを判断する。
 次いで、ユーザ所有のエージェントである場合(ステップS276/Yes)、切替制御部354は、選択された対応するエージェントでの対話処理を決定し(ステップS279)、当該エージェントでの対話処理を開始するよう制御する(ステップS282)。例えばエージェントID:10001のエージェントが選択され、ユーザ所有である場合、切替制御部354は、エージェントID:10001対話処理部32aに対して対話処理を開始するよう制御する。
 一方、ユーザ所有のエージェントでない場合(ステップS276/No)、通知制御部355は、選択されたエージェントの推薦を決定し(ステップS285)、当該エージェントの購入をユーザに促す通知を行うよう制御する(ステップS288)。
 (4-2-2.対話中のエージェント切替制御処理)
 次に、対話中のエージェント切替制御について図17を参照して説明する。図17は、本実施形態による対話中のエージェント切替制御処理を示すフローチャートである。
 図17に示すように、まず、対話処理部30aは、所定のエージェントとユーザとの対話処理が既に行われている際に(ステップS293)、ユーザの感情データを取得する(ステップS296)。
 次に、対話処理部30aは、エージェント切替直後であるか否かを判断する(ステップS299)。図17に示す動作処理では、ユーザからのフィードバックを自動的に考慮する処理を含むためである。
 次いで、エージェント切替直後ではない場合(ステップS299/No)、対話処理部30aは、エージェントを切り替える感情の変化が観測されたか否かを判断する(ステップS302)。
 次に、感情の変化がなかった場合(ステップS302/No)、対話処理部30aは、ユーザとの対話状態に戻し(ステップS293)、あった場合(ステップS302/Yes)、選択部353により、変化した感情に対応するエージェントを選択し、選択したエージェントがユーザ保有のものであるか否かを判断する(ステップS305)。変化した感情に対応するエージェントは、エージェントDB36に格納されるエージェント情報の「適用感情」に基づいて選択される。また、ユーザが保有しているエージェントであるか否かはユーザ情報DB37に格納されるユーザ情報に基づいて判断される。
 次いで、変化した感情に対応するエージェントをユーザが保有している場合(ステップS305/Yes)、切替制御部354は、対応するエージェントへの切替を決定し、当該エージェントでの対話処理を開始するよう制御する(ステップS308)。これにより、エージェントと対話中にユーザ感情が変化した場合にもエージェントの切替制御を行うことが可能となる。エージェントを適宜変えて対話処理を行うことで、例えばネガティブな感情状態になっているユーザをポジティブな感情状態になるよう誘導することができる。
 一方、変化した感情に対応するエージェントをユーザが保有していない場合(ステップS305/No)、通知制御部355は、対応するエージェントの購入をユーザに促す通知を行うよう制御する(ステップS311)。
 次に、推薦したエージェントをユーザが購入すると、登録部351は当該エージェントをユーザ所有のエージェントとしてユーザ情報DB37に登録し、切替制御部354は登録した新規エージェントで対話処理を開始するよう制御する(ステップS314)。
 続いて、上記ステップS299で、エージェント切替直後である場合(ステップS299/Yes)、対話処理部30aは、取得した感情データに基づいて、切り替えたエージェントに応じた感情の変化があったか否かを判断する(ステップS320)。本実施形態では、感情変化の有無に基づいて、切り替えたエージェントの効果があったか否かを評価する。
 次いで、切り替えたエージェントに応じた感情の変化がなかった場合(ステップS320/No)、フィードバック処理部356は、エージェントの切り替えが適切ではなかったとしてフィードバックする(ステップS323)。例えば、悲しい感情のユーザに対応するエージェントでの対話処理を開始後、その感情が変化しなかった場合、エージェントの切り替えは効果がなかったと評価される。また、ユーザがさらに悲しくなってしまった場合も、エージェントの切り替えは効果がなかったと評価される。
 効果がなかったことのフィードバックは、上記ステップS305における対応エージェントの選択の際に考慮される。すなわち選択部353は、ユーザの感情に対応するエージェントのうち、効果がなかったエージェント以外のエージェントを選択する。
 一方、切り替えたエージェントに応じた感情の変化があった場合(ステップS320/Yes)、フィードバック処理部356は、エージェントの切り替えが適切であったとフィードバックし(ステップS326)、ユーザとの対話が継続される(ステップS293)。例えば、ユーザが装着するウェアラブル端末で検知したユーザの心拍数が上がっている場合、切り替えたエージェントによる対話の効果があったとみなされる。また、適切であったことのフィードバックは、例えばユーザ情報DB37に格納されているユーザ情報の嗜好情報(ある感情の時に好むエージェントの特定)として登録され得る。
 そして、対話が終了するまで上記ステップS293~S314が繰り返される(ステップS317)。
 (4-2-3.フィードバック処理)
 上述した動作処理において自動フィードバックを考慮する旨を説明したが、ここでは本実施形態による手動および自動のフィードバック処理についてそれぞれ説明する。本実施形態では、システム側で自動的に選択、推薦されたエージェントが、その時にユーザが望んでいたエージェントだったかを評価することが可能である。フィードバックは、クライアント端末1において手動でユーザが直接入力することもできるし、ユーザの感情変化の有無に応じて自動でフィードバックを行うこともできる。
 図18は、本実施形態によるフィードバック処理を示すフローチャートである。まず、対話処理部30aは、ユーザ感情に応じて選択されたエージェントによるユーザとの対話処理を実行する(ステップS333)。
 次いで、対話処理部30aは、エージェント選択に対するユーザのフィードバックを取得する(ステップS336)。例えば、クライアント端末1において、このタイミングでのこのエージェントへの切替は良かった、または悪かったといった評価がユーザにより音声またはテキストで入力され、エージェントサーバ2へ送信される。
 次に、フィードバック処理部356は、ユーザのフィードバックに基づいて、ユーザ情報DB37に含まれるユーザの好み属性および好みエージェントを適宜更新する(ステップS339)。例えばユーザbが悲しい状態である時にエージェントID:10001のエージェントが選択され当該エージェントとの対話処理が開始されたが、悲しい時にはエージェントID:10002のエージェントと対話する方が好みである場合、エージェントID:10002を好む旨を音声またはテキストでクライアント端末1に入力し、フィードバックとしてエージェントサーバ2へ送信される。この場合、フィードバック処理部356は、フィードバックに基づいて、例えばユーザ情報DB37に格納されているユーザbのユーザ情報において、「好みのエージェントID」を下記表3のように追加する。これにより、次回からは選択部353がエージェントを選択する際に下記表3が参照され、エージェントID:10002のエージェントが選択されるようになる。
Figure JPOXMLDOC01-appb-T000003
 また、ユーザbが、悲しい時にはメイド系のエージェントが好みであるというフィードバックを行った場合、フィードバック処理部356は、ユーザ情報DB37に格納されているユーザbのユーザ情報において、「好みのエージェント属性」を下記表4のように追加する。
Figure JPOXMLDOC01-appb-T000004
 また、ユーザdが、悲しい時にエージェントID:10001「美人系」が選択されたが、このような感情状態の場合は「美人系」は好まないというフィードバックを行った場合、フィードバック処理部356は、ユーザ情報DB37に格納されているユーザdのユーザ情報において、悲しい時に美人系は好まないといった設定を下記表5のように追加する。ここでは、一例として、好まないという状態を表すフラグ「-1」を付加している。
Figure JPOXMLDOC01-appb-T000005
 以上、手動フィードバックの場合の処理について説明した。続いて自動フィードバックの場合の処理について説明する。
 図19は、本実施形態による自動フィードバック処理を示すフローチャートである。図19に示すように、まず、対話処理部30aは、ユーザ感情に応じて選択されたエージェントによるユーザとの対話処理を実行する(ステップS343)。
 次いで、対話処理部30aは、ユーザの感情データを取得する(ステップS346)。ユーザの感情データは、例えば感情推定部352により、クライアント端末1から通信部38を介して受信したセンサデータに基づいて推定される。また、ユーザの感情データは、クライアント端末1においてセンサデータに基づいて推定され、エージェントサーバ2へ送信されてもよい。
 次に、フィードバック処理部356は、取得したユーザの感情データに基づいて、ユーザ情報DB37に含まれるユーザの好み属性および好みエージェントを適宜更新する(ステップS349)。例えばユーザdが悲しい状態である時にエージェントID:10001のエージェントが選択され当該エージェントとの対話処理が開始されたとする。この時、ユーザdの心拍の検知や、顔の撮像が行われ、心拍データや顔の撮像画像がクライアント端末1からエージェントサーバ2へ送信される。これらのデータに基づいて、感情推定部352により、ユーザdの心拍数が上がったことやユーザdが笑顔になったことが検知されると、フィードバック処理部356は、選択したエージェント(ここでは、エージェントID:10001)はユーザdの好みに合っていたという評価を自動的に取得する。したがって、フィードバック処理部356は、ユーザ情報DB37に格納されているユーザdのユーザ情報において、悲しい時に好むエージェント属性とエージェントIDとを下記表6に示すように設定し得る。表6に示す例では、エージェント属性とエージェントIDの両方を記録しているが、片方のみを記録するようにしてもよい。
Figure JPOXMLDOC01-appb-T000006
  <<5.補足>>
 補足として、本実施形態によるクライアント端末1の構成について図20を参照して説明する。図20は、本実施形態によるクライアント端末1の構成の一例を示すブロック図である。図20に示すように、クライアント端末1は、制御部100、通信部101、操作入力部102、センサ103、カメラ104、マイク(マイクロホンの略称)105、表示部106、スピーカ107、および記憶部108を有する。
 制御部100は、例えばクライアント端末1が有するCPU(Central Processing Unit)のようなプロセッサによって実現される。本実施形態による制御部100は、例えば通信部101を介してエージェントサーバ2から送信されたエージェントの応答音声をスピーカ107から再生するよう制御したり、エージェントの画像を表示部106に表示するよう制御したりする。
 また、制御部100は、エージェントサーバ2で利用されるユーザ関連情報を通信部101からネットワーク3を介してエージェントサーバ2へ送信するよう制御する。例えば制御部100は、操作入力部102から入力されたユーザ情報、カメラ104で撮像された撮像画像、マイク105で収音したユーザ音声、およびセンサ103で検知したセンシングデータや、クライアント端末1の周辺に存在するセンサと無線通信により取得したセンシングデータを、通信部101からネットワーク3を介してエージェントサーバ2へ送信する。これらのデータは、例えばエージェントサーバ2の対話処理部30aにおいてユーザ感情を推定する際に用いられる。ユーザ感情を推定するために用いられるセンシングデータは、クライアント端末1を介してユーザがエージェントとの対話中においても、継続的に送信される。また、制御部100は、センサ103等により自動的に検知したセンシングデータに基づいて推定したユーザ感情を、ユーザ関連情報として送信してもよい。
 また、制御部100は、ユーザが所有するエージェントによる自動対話を提供するエージェントサーバ2からのエージェントサービスの受信を開始するよう制御する。
 また、制御部100は、エージェントサーバ2によるエージェントサービスを享受した(所有するエージェントとの対話を行った)ユーザからのフィードバックを取得し、通信部101からエージェントサーバ2へ送信するよう制御する。かかるフィードバックは、操作入力部102またはマイク105からユーザが手動で入力されたものであってもよいし、センサ103等により自動的に検知したセンシングデータであってもよいし、当該センシングデータに基づいて推定したユーザ感情であってもよい。
 通信部101は、例えば、ネットワーク3に接続するための通信デバイスなどで構成された通信インターフェースである。通信部101は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信部101は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信部101は、例えばインターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信部101に接続されるネットワーク3は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
 操作入力部102は、ユーザ操作の入力を受け付け、制御部100に出力する機能を有する。操作入力部102は、例えばマウス、キーボード、タッチパネル、ボタン、スイッチ、またはレバーなどにより実現される。
 センサ103は、ユーザまたは周辺状況を検知する機能を有する。例えばセンサ103は、生体センサ(脈拍計、心拍計、発汗センサ、体温センサ、血圧センサ、脳波計等)、環境センサ(温度センサ、照度センサ、圧力計等)、加速度センサ、ジャイロセンサ、方位センサ、振動センサ、または位置測位センサなどにより実現される。
 カメラ104は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を各々有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
 マイク105は、ユーザの音声や周囲の環境音を収音し、音声データとして制御部100に出力する。
 表示部106は、文字、図、画像、映像等を表示する機能を有する。表示部106は、例えば液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置等により実現される。
 スピーカ107は、音声信号を再生する機能を有する。
 記憶部108は、制御部100が各機能を実行するためのプログラムやパラメータを格納する。例えば記憶部108は、ユーザID、氏名、年齢、性別、エージェント嗜好情報、所有エージェント情報等のユーザ情報を記憶していてもよい。
  <<6.まとめ>>
 上述したように、本開示の実施形態による通信制御システムでは、ユーザ感情に応じて複数のエージェントから適切なエージェントを選択することで、より心地よい対話の提供を行うことを可能とする。また、選択したエージェントがユーザ保有のもの(すなわち、購入済み)であればエージェントの切り替えを行い、未購入のものであればユーザに対して購入を推薦することも可能である。
 さらに、選択されたエージェントの評価を手動または自動が行われることで、本システムのユーザ利便性が向上する。
 また、感情のセンシング(各種センサデータに基づく感情推定)は随時行われていてもよく、対話処理部30aは、ユーザの感情変化が検知されたタイミングでエージェントを切り替えることができる。感情の変化が激しい場合、エージェントの切り替えは、対話の会話単位で行われる場合もある。
 また、本実施形態によるエージェントシステムでは、ユーザとインタラクションを行っている途中でも、ユーザ感情の変化が生じた場合、すぐにその感情にマッチするであろうエージェントに切り替えることが可能であって、これによりユーザはより心地よくエージェントと継続的に対話が可能となる。
 また、本実施形態では、エージェントサービスを享受している間(インタラクション中)においてユーザの感情をフィードバックとして取得し、さらにユーザの好みを学習し、ユーザの感情および好みにマッチしたエージェントを選択、推薦することが可能である。
 また、本実施形態によるエージェントシステムは、図2に示すようなクライアント端末1およびエージェントサーバ2から成る構成に限定されず、例えばクライアント端末1単体でエージェントサービスの提供を行うことも可能である。具体的には、図3に示すエージェントサーバ2の構成、および図15に示す対話処理部30aの構成をクライアント端末1に備えることで、ユーザの音声に対するエージェントによる自動対話制御、およびユーザ感情に応じたエージェントの切り替え制御等が可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述したクライアント端末1、またはエージェントサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはエージェントサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、上述した実施形態では、インターネット上のエージェントサーバ2で各種機能が実現される構成を示したが、本実施形態はこれに限定されず、図3に示すエージェントサーバ2の構成のうち少なくとも一部が、ユーザのクライアント端末1(スマートフォンやウェアラブル端末等)にあってもよい。また、図3に示すエージェントサーバ2の構成全てがクライアント端末1に設けられ、クライアント端末1で全ての処理を行えるようにしてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
 ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを提供する通信部と、
 前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する制御部と、
を備える、情報処理システム。
(2)
 前記制御部は、第1のエージェントプログラムによるエージェントサービスを前記ユーザのクライアント端末に提供している際に、前記ユーザの感情変化を検知すると、当該感情変化に適切な第2のエージェントプログラムによるエージェントサービスに切り替えるよう制御する、前記(1)に記載の情報処理システム。
(3)
 前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有している際に、当該選択されたエージェントプログラムによるエージェントサービスを前記ユーザへ提供開始する、前記(1)または(2)に記載の情報処理システム。
(4)
 前記制御部は、前記エージェントサービスを享受したユーザから受信したフィードバックに応じて、前記ユーザの嗜好情報を前記記憶部に記憶する、前記(3)に記載の情報処理システム。
(5)
 前記制御部は、前記嗜好情報に基づき、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する、前記(4)に記載の情報処理システム。
(6)
 前記フィードバックは、前記クライアント端末において前記ユーザによりテキストまたは音声で入力されたものである、前記(4)または(5)に記載の情報処理システム。
(7)
 前記フィードバックは、前記クライアント端末と通信可能なセンサにより自動的に検出されたユーザの生体情報、音声情報、撮像画像、および行動情報の少なくともいずれかである、前記(4)または(5)に記載の情報処理システム。
(8)
 前記フィードバックは、前記クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報、音声情報、撮像画像、および行動情報の少なくともいずれかに基づく感情情報である、前記(4)~(7)のいずれか1項に記載の情報処理システム。
(9)
 前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有していない時、当該選択されたエージェントプログラムの購入を促す通知を前記ユーザに対して行うよう制御する、前記(1)または(2)に記載の情報処理システム。
(10)
 前記記憶部は、前記エージェントプログラム毎に、適用すべきユーザの感情情報を記憶し、
 前記制御部は、当該適用すべきユーザの感情に応じて、前記複数のエージェントプログラムから前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する、前記(1)~(9)のいずれか1項に記載の情報処理システム。
(11)
 前記制御部は、前記クライアント端末から送信された前記ユーザの生体情報に基づいて、前記ユーザの感情を推定する、前記(1)~(10)のいずれか1項に記載の情報処理システム。
(12)
 前記ユーザの感情は、前記クライアント端末において前記ユーザの生体情報に基づいて推定され、送信される、前記(1)~(10)のいずれか1項に記載の情報処理システム。
(13)
 異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、
 前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、
を備える、クライアント端末。
(14)
 前記制御部は、第1のエージェントプログラムによるエージェントサービスの提供を受けている際に、前記通信部を介して前記ユーザ関連情報を継続的に送信するよう制御し、前記サーバにて前記ユーザの感情変化が検知されると、当該感情変化に応じて切り替えられた適切な第2のエージェントプログラムによるエージェントサービスによる対話を受信するよう制御する、前記(13)に記載のクライアント端末。
(15)
 前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有しているとき、当該選択されたエージェントプログラムによる前記ユーザに対するエージェントサービスを前記通信部を介して受信開始する、前記(13)または(14)に記載のクライアント端末。
(16)
 前記制御部は、前記通信部を介して、前記エージェントサービスを享受したユーザからのフィードバックを送信するよう制御する、前記(13)~(15)のいずれか1項に記載のクライアント端末。
(17)
 前記フィードバックは、前記ユーザにより本クライアント端末においてテキストまたは音声で入力されたものである、前記(16)に記載のクライアント端末。
(18)
 前記フィードバックは、本クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報である、前記(16)に記載のクライアント端末。
(19)
 前記フィードバックは、本クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報に基づく感情情報である、前記(16)に記載のクライアント端末。
(20)
 前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有していないとき、当該選択されたエージェントプログラムの購入を前記ユーザに対して促す通知を前記通信部を介して受信する、前記(13)に記載のクライアント端末。
(21)
 前記制御部は、前記ユーザ関連情報として、本クライアント端末と通信可能なセンサより検出されたユーザの生体情報を送信するよう制御する、前記(13)~(20)のいずれか1項に記載のクライアント端末。
(22)
 前記制御部は、前記ユーザ関連情報として、本クライアント端末と通信可能なセンサより検出されたユーザの生体情報に基づき推定された前記ユーザの感情を送信するよう制御する、前記(13)~(20)のいずれか1項に記載のクライアント端末。
(23)
 異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
 前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、
 前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、
を備える、情報処理システム。
(24)
 プロセッサが、
 異なる属性を有する複数のエージェントプログラムを記憶部に保有することと、
 ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを通信部を介して提供することと、
 前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択することと、
を備える、情報処理方法。
(25)
 コンピュータを、
 異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、
 前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、
として機能させるための、プログラム。
(26)
 コンピュータを、
 異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
 前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、
 前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、
として機能させるための、プログラム。
  1  クライアント端末
  2  エージェントサーバ
  30 対話処理部
   300 対話処理部
   310 質問文検索部
   320 回答文生成部
   330  会話DB
   340  音素データ取得部
  30a  対話処理部
  31 基本対話処理部
  32 キャラクターA対話処理部
  32a  エージェントID:10001対話処理部
  32b  エージェントID:10001対話処理部
  32c  エージェントID:10001対話処理部
  33 人物B対話処理部
  34 人物C対話処理部
  35 制御部
   351 登録部
   352 感情推定部
   353 選択部
   354 切替制御部
   355 通知制御部フィードバック処理部
  36 エージェントDB
  37 ユーザ情報DB
  38 通信部
  40 音素記憶部
  41 基本用音素DB
  42  キャラクターA音素DB
  43  人物B音素DB
  44  人物C音素DB
  50  会話DB生成部
  60  音素DB生成部
  70  広告挿入処理部
  72  広告DB
  80 フィードバック取得処理部
  3  ネットワーク
  10  エージェント

Claims (26)

  1.  異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
     ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを提供する通信部と、
     前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する制御部と、
    を備える、情報処理システム。
  2.  前記制御部は、第1のエージェントプログラムによるエージェントサービスを前記ユーザのクライアント端末に提供している際に、前記ユーザの感情変化を検知すると、当該感情変化に適切な第2のエージェントプログラムによるエージェントサービスに切り替えるよう制御する、請求項1に記載の情報処理システム。
  3.  前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有している際に、当該選択されたエージェントプログラムによるエージェントサービスを前記ユーザへ提供開始する、請求項1に記載の情報処理システム。
  4.  前記制御部は、前記エージェントサービスを享受したユーザから受信したフィードバックに応じて、前記ユーザの嗜好情報を前記記憶部に記憶する、請求項3に記載の情報処理システム。
  5.  前記制御部は、前記嗜好情報に基づき、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する、請求項4に記載の情報処理システム。
  6.  前記フィードバックは、前記クライアント端末において前記ユーザによりテキストまたは音声で入力されたものである、請求項4に記載の情報処理システム。
  7.  前記フィードバックは、前記クライアント端末と通信可能なセンサにより自動的に検出されたユーザの生体情報、音声情報、撮像画像、および行動情報の少なくともいずれかである、請求項4に記載の情報処理システム。
  8.  前記フィードバックは、前記クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報、音声情報、撮像画像、および行動情報の少なくともいずれかに基づく感情情報である、請求項4に記載の情報処理システム。
  9.  前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有していない時、当該選択されたエージェントプログラムの購入を促す通知を前記ユーザに対して行うよう制御する、請求項1に記載の情報処理システム。
  10.  前記記憶部は、前記エージェントプログラム毎に、適用すべきユーザの感情情報を記憶し、
     前記制御部は、当該適用すべきユーザの感情に応じて、前記複数のエージェントプログラムから前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択する、請求項1に記載の情報処理システム。
  11.  前記制御部は、前記クライアント端末から送信された前記ユーザの生体情報に基づいて、前記ユーザの感情を推定する、請求項1に記載の情報処理システム。
  12.  前記ユーザの感情は、前記クライアント端末において前記ユーザの生体情報に基づいて推定され、送信される、請求項1に記載の情報処理システム。
  13.  異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、
     前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、
    を備える、クライアント端末。
  14.  前記制御部は、第1のエージェントプログラムによるエージェントサービスの提供を受けている際に、前記通信部を介して前記ユーザ関連情報を継続的に送信するよう制御し、前記サーバにて前記ユーザの感情変化が検知されると、当該感情変化に応じて切り替えられた適切な第2のエージェントプログラムによるエージェントサービスによる対話を受信するよう制御する、請求項13に記載のクライアント端末。
  15.  前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有しているとき、当該選択されたエージェントプログラムによる前記ユーザに対するエージェントサービスを前記通信部を介して受信開始する、請求項13に記載のクライアント端末。
  16.  前記制御部は、前記通信部を介して、前記エージェントサービスを享受したユーザからのフィードバックを送信するよう制御する、請求項13に記載のクライアント端末。
  17.  前記フィードバックは、前記ユーザにより本クライアント端末においてテキストまたは音声で入力されたものである、請求項16に記載のクライアント端末。
  18.  前記フィードバックは、本クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報である、請求項16に記載のクライアント端末。
  19.  前記フィードバックは、本クライアント端末と通信可能なセンサより自動的に検出されたユーザの生体情報に基づく感情情報である、請求項16に記載のクライアント端末。
  20.  前記制御部は、前記選択されたエージェントプログラムによるエージェントサービスの利用権を前記ユーザが保有していないとき、当該選択されたエージェントプログラムの購入を前記ユーザに対して促す通知を前記通信部を介して受信する、請求項13に記載のクライアント端末。
  21.  前記制御部は、前記ユーザ関連情報として、本クライアント端末と通信可能なセンサより検出されたユーザの生体情報を送信するよう制御する、請求項13に記載のクライアント端末。
  22.  前記制御部は、前記ユーザ関連情報として、本クライアント端末と通信可能なセンサより検出されたユーザの生体情報に基づき推定された前記ユーザの感情を送信するよう制御する、請求項13に記載のクライアント端末。
  23.  異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
     前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、
     前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、
    を備える、情報処理システム。
  24.  プロセッサが、
     異なる属性を有する複数のエージェントプログラムを記憶部に保有することと、
     ユーザのクライアント端末に対して前記エージェントプログラムによるエージェントサービスを通信部を介して提供することと、
     前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択することと、
    を備える、情報処理方法。
  25.  コンピュータを、
     異なる属性を有する複数のエージェントプログラムを保有するサーバから、当該エージェントプログラムによるエージェントサービスによる対話を受信する通信部と、
     前記サーバが、前記複数のエージェントプログラムから、前記エージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択するために必要なユーザ関連情報を、前記通信部を介して前記サーバへ送信するよう制御する制御部と、
    として機能させるための、プログラムが記録された記録媒体。
  26.  コンピュータを、
     異なる属性を有する複数のエージェントプログラムを保有する記憶部と、
     前記エージェントプログラムによるエージェントサービスをユーザに提供するインタフェース部と、
     前記エージェントプログラムによるエージェントサービスを利用可能なユーザの感情に相応する1のエージェントプログラムを選択し、当該選択されたエージェントプログラムを実行することにより前記インタフェース部を介して前記ユーザに対して特定のエージェントサービスを提供する制御部と、
    として機能させるための、プログラムが記録された記録媒体。
PCT/JP2016/084647 2016-02-26 2016-11-22 情報処理システム、クライアント端末、情報処理方法、および記録媒体 WO2017145466A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/074,666 US10852813B2 (en) 2016-02-26 2016-11-22 Information processing system, client terminal, information processing method, and recording medium
CN201680082057.8A CN108701142A (zh) 2016-02-26 2016-11-22 信息处理系统、客户终端、信息处理方法和记录介质
US17/074,850 US11327556B2 (en) 2016-02-26 2020-10-20 Information processing system, client terminal, information processing method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016035543 2016-02-26
JP2016-035543 2016-02-26

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/074,666 A-371-Of-International US10852813B2 (en) 2016-02-26 2016-11-22 Information processing system, client terminal, information processing method, and recording medium
US17/074,850 Continuation US11327556B2 (en) 2016-02-26 2020-10-20 Information processing system, client terminal, information processing method, and recording medium

Publications (1)

Publication Number Publication Date
WO2017145466A1 true WO2017145466A1 (ja) 2017-08-31

Family

ID=59686109

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/084647 WO2017145466A1 (ja) 2016-02-26 2016-11-22 情報処理システム、クライアント端末、情報処理方法、および記録媒体

Country Status (3)

Country Link
US (2) US10852813B2 (ja)
CN (1) CN108701142A (ja)
WO (1) WO2017145466A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523010A (zh) * 2017-09-19 2019-03-26 卡西欧计算机株式会社 信息处理装置、人工智能选择方法以及记录介质
JP2019082920A (ja) * 2017-10-31 2019-05-30 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理装置、その制御方法及びプログラム
WO2019150469A1 (ja) * 2018-01-31 2019-08-08 株式会社エクシヴィ 複合現実空間におけるキャラクタの制御方法
JP2019159878A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP2019159880A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP2020205057A (ja) * 2020-07-31 2020-12-24 株式会社Suntac 情報処理装置
JP2021015547A (ja) * 2019-07-16 2021-02-12 株式会社博報堂 対話エージェントシステム
CN112534449A (zh) * 2018-07-27 2021-03-19 索尼公司 信息处理系统、信息处理方法和记录介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6219448B1 (ja) * 2016-05-16 2017-10-25 Cocoro Sb株式会社 顧客応対制御システム、顧客応対システム及びプログラム
US10817670B2 (en) 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11373632B2 (en) 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US20220284194A1 (en) * 2017-05-10 2022-09-08 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11586827B2 (en) * 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US11386274B2 (en) * 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
WO2018208979A1 (en) 2017-05-10 2018-11-15 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
EP3688609A1 (en) 2017-09-28 2020-08-05 Oracle International Corporation Determining cross-document rhetorical relationships based on parsing and identification of named entities
US11024294B2 (en) 2017-12-29 2021-06-01 DMAI, Inc. System and method for dialogue management
CN112074899A (zh) * 2017-12-29 2020-12-11 得麦股份有限公司 基于多模态传感输入的人机对话的智能发起的系统和方法
US11504856B2 (en) 2017-12-29 2022-11-22 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US11468894B2 (en) * 2017-12-29 2022-10-11 DMAI, Inc. System and method for personalizing dialogue based on user's appearances
US11331807B2 (en) 2018-02-15 2022-05-17 DMAI, Inc. System and method for dynamic program configuration
US10735592B1 (en) * 2018-03-30 2020-08-04 8X8, Inc. Routing of calls based on analysis of digital voice data in a data-communications server system
JP7258047B2 (ja) 2018-05-09 2023-04-14 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
US11288714B2 (en) * 2018-06-29 2022-03-29 Capital One Services, Llc Systems and methods for pre-communicating shoppers communication preferences to retailers
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
JP2020144274A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN111696559B (zh) * 2019-03-15 2024-01-16 微软技术许可有限责任公司 提供情绪管理辅助
CN114270301A (zh) * 2019-08-27 2022-04-01 索尼集团公司 代理提供系统、代理提供方法和记录介质
JP7318587B2 (ja) * 2020-05-18 2023-08-01 トヨタ自動車株式会社 エージェント制御装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122549A (ja) * 2003-10-17 2005-05-12 Aruze Corp 会話制御装置及び会話制御方法
JP2005222331A (ja) * 2004-02-05 2005-08-18 Ntt Docomo Inc エージェントインターフェースシステム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002216026A (ja) * 2000-11-17 2002-08-02 Sony Corp 情報通信システム、エージェント端末、情報配信システム、エージェントプログラムが記憶された記憶媒体、エージェントアクセスプログラムが記憶された記憶媒体、専用処理プログラムが記憶された記憶媒体、エージェントプログラム、エージェントアクセスプログラム、及び、専用処理プログラム
JP2005339368A (ja) 2004-05-28 2005-12-08 Ntt Docomo Inc 感情把握システムおよび感情把握方法
US8842811B2 (en) * 2011-07-14 2014-09-23 Intellisist, Inc. Computer-implemented system and method for providing recommendations regarding hiring agents in an automated call center environment based on user traits
KR20140052155A (ko) * 2012-10-19 2014-05-07 삼성전자주식회사 디스플레이 장치, 디스플레이 장치 제어 방법 및 디스플레이 장치의 제어를 위한 정보처리장치
US9313332B1 (en) * 2012-11-28 2016-04-12 Angel.Com Incorporated Routing user communications to agents
JP2015069455A (ja) 2013-09-30 2015-04-13 Necソリューションイノベータ株式会社 会話文生成装置、会話文生成方法、及びプログラム
US9479643B1 (en) * 2015-06-15 2016-10-25 International Business Machines Corporation Linguistic coordination system
US9716792B2 (en) * 2015-10-19 2017-07-25 Genesys Telecommunications Laboratories, Inc. System and method for generating a network of contact center agents and customers for optimized routing of interactions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122549A (ja) * 2003-10-17 2005-05-12 Aruze Corp 会話制御装置及び会話制御方法
JP2005222331A (ja) * 2004-02-05 2005-08-18 Ntt Docomo Inc エージェントインターフェースシステム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523010A (zh) * 2017-09-19 2019-03-26 卡西欧计算机株式会社 信息处理装置、人工智能选择方法以及记录介质
JP2019056970A (ja) * 2017-09-19 2019-04-11 カシオ計算機株式会社 情報処理装置、人工知能選択方法及び人工知能選択プログラム
US11341423B2 (en) 2017-09-19 2022-05-24 Casio Computer Co., Ltd. Information processing apparatus, artificial intelligence selection method, and artificial intelligence selection program
JP2019082920A (ja) * 2017-10-31 2019-05-30 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理装置、その制御方法及びプログラム
JP7078837B2 (ja) 2017-10-31 2022-06-01 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理装置、その制御方法及びプログラム
WO2019150469A1 (ja) * 2018-01-31 2019-08-08 株式会社エクシヴィ 複合現実空間におけるキャラクタの制御方法
JP7014646B2 (ja) 2018-03-14 2022-02-01 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP7045886B2 (ja) 2018-03-14 2022-04-01 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP2019159880A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
JP2019159878A (ja) * 2018-03-14 2019-09-19 Kddi株式会社 応答装置、応答方法、応答プログラム及び応答システム
CN112534449A (zh) * 2018-07-27 2021-03-19 索尼公司 信息处理系统、信息处理方法和记录介质
JP2021015547A (ja) * 2019-07-16 2021-02-12 株式会社博報堂 対話エージェントシステム
JP7294924B2 (ja) 2019-07-16 2023-06-20 株式会社博報堂 対話エージェントシステム
JP2020205057A (ja) * 2020-07-31 2020-12-24 株式会社Suntac 情報処理装置

Also Published As

Publication number Publication date
US11327556B2 (en) 2022-05-10
US20190033957A1 (en) 2019-01-31
CN108701142A (zh) 2018-10-23
US20210034141A1 (en) 2021-02-04
US10852813B2 (en) 2020-12-01

Similar Documents

Publication Publication Date Title
WO2017145466A1 (ja) 情報処理システム、クライアント端末、情報処理方法、および記録媒体
CN109074117B (zh) 提供基于情绪的认知助理系统、方法及计算器可读取媒体
CN108475404B (zh) 通信系统和通信控制方法
JP7070652B2 (ja) 情報処理システム、情報処理方法、およびプログラム
JP7242736B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP7099589B2 (ja) サーバ、通信制御方法、およびプログラム
CN109804357A (zh) 服务器、客户端、控制方法和存储介质
WO2017064891A1 (ja) 情報処理システム、情報処理方法、および記憶媒体
JP6719072B2 (ja) 接客装置、接客方法及び接客システム
CN110019743A (zh) 信息处理装置及存储程序的计算机可读介质
JP2018027613A (ja) 接客装置、接客方法及び接客システム
US20210256046A1 (en) Apparatus, systems and methods for providing conversational assistance
US20190149490A1 (en) Information processing apparatus and non-transitory computer readable medium
CN108139988A (zh) 信息处理系统和信息处理方法
KR20200092207A (ko) 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
JP2002324126A (ja) メイクアップアドバイス情報供給システム
JP2020052847A (ja) 感情管理システム、感情管理方法及びプログラム
JP6990472B1 (ja) 人とコミュニケーションを行うシステム及びそのためのプログラム
JP2022031617A (ja) アドバイスシステムおよびアドバイス方法
US20210319361A1 (en) Information processing system, information processing method, and recording medium
US11270682B2 (en) Information processing device and information processing method for presentation of word-of-mouth information
KR102347807B1 (ko) 보이스 리딩 방법 및 그 장치
JP2022127234A (ja) 情報処理方法、情報処理システム及びプログラム
JP2017182530A (ja) 検索システム、検索方法、サーバ、およびプログラム
JP2024011403A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16891622

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16891622

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP