WO2017163509A1 - 情報処理システムおよび情報処理方法 - Google Patents

情報処理システムおよび情報処理方法 Download PDF

Info

Publication number
WO2017163509A1
WO2017163509A1 PCT/JP2016/087855 JP2016087855W WO2017163509A1 WO 2017163509 A1 WO2017163509 A1 WO 2017163509A1 JP 2016087855 W JP2016087855 W JP 2016087855W WO 2017163509 A1 WO2017163509 A1 WO 2017163509A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
scenario
agent
client terminal
character
Prior art date
Application number
PCT/JP2016/087855
Other languages
English (en)
French (fr)
Inventor
井原 圭吾
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018506772A priority Critical patent/JP6795028B2/ja
Publication of WO2017163509A1 publication Critical patent/WO2017163509A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Definitions

  • This disclosure relates to an information processing system and an information processing method.
  • a user can check a message transmitted from another terminal or transmit a message using an information processing terminal such as a smartphone, a mobile phone terminal, or a tablet terminal.
  • Patent Document 1 describes an agent creation device that can create an agent by combining user creation data such as clothes, hairstyle, belongings, and personality as desired.
  • Patent Document 2 describes a device that interprets a cultural background including user hobbies and preferences from user information and causes an agent to perform an action corresponding to the cultural background. Further, in Patent Document 3 below, the voice interface agent learns an unpredictable incidental condition that appears peculiar to a situation that generates a predetermined emotion, and the predetermined condition under a new situation that satisfies the learned incidental condition. An emotion generation device capable of recalling emotion is described.
  • agent characters can be set in various ways, the agent exists only as a user's conversation partner, and it has not been possible to obtain the experience that the user himself can become the favorite agent character.
  • the present disclosure proposes an information processing system and an information processing method that can further enhance the entertainment of the agent system by allowing the user to experience the agent character through the agent.
  • an agent storage unit that stores a phoneme database corresponding to a plurality of types of characters and an utterance phrase database, a selection signal for selecting a specific character via the user's client terminal, and the specific A communication unit that transmits an utterance phrase corresponding to the utterance phrase database of a character, and the specific phoneme database corresponding to the specific character using the phoneme database corresponding to the specific character based on the user message received via the communication unit.
  • Generating a conversion message converted into the voice of the character further generating an utterance phrase of the specific character corresponding to the message of the user using the utterance phrase database, and generating the converted message and the utterance phrase generated by the client; And a control unit for controlling so as to return to the terminal, to propose an information processing system.
  • the processor stores a phoneme database and an utterance phrase database corresponding to a plurality of types of characters in the agent storage unit, and receives a selection signal for selecting a specific character via the user's client terminal. And transmitting the utterance phrase according to the utterance phrase database of the specific character by the communication unit, and the phoneme corresponding to the specific character based on the message of the user received through the communication unit.
  • a conversion message converted to the voice of the specific character using a database is generated, and an utterance phrase of the specific character corresponding to the message of the user is generated using the utterance phrase database, and the generated conversion Messages and It includes controlling by the control unit so as to return the speech phrase to said client terminal, and proposes an information processing method.
  • the information processing system according to an embodiment of the present disclosure can further enhance the entertainment of the agent system by allowing the user to experience the agent character through the agent.
  • the outline of the information processing system according to the present embodiment will be described below with reference to FIG.
  • FIG. 1 is a diagram illustrating an overview of an information processing system according to an embodiment of the present disclosure.
  • the dialogue with the agent is performed via the client terminal 1 such as a smartphone owned by the user.
  • the client terminal 1 has a microphone and a speaker, and enables voice conversation with the user.
  • the agent character can be set in various ways, the agent exists only as a user's conversation partner, and it is possible to obtain an experience that the user can become the favorite agent character. I could not do it.
  • the information processing system when the agent program is activated, converts the speech voice W 1 into the voice W 2 of the agent character 10 when the user utters as shown in FIG. To reproduce from the user's earphone or the like (audio conversion processing). In this way, since the words spoken by the user can be heard by the voice of the agent character 10 (for example, a hero), the user can obtain the experience of becoming the agent character 10.
  • the information processing system according to the present embodiment may continuously output a predetermined phrase corresponding to the user's utterance voice W 1 with the voice of the agent character 10 following the converted voice W 2 (FIG. 1). Speech voice W 3 ) shown in (automatic speech processing).
  • the predetermined phrase such as phrases to keywords (or phrases) contained in speech W 1 of the user are registered in association.
  • the keyword (or phrase) contained in speech W 1 may be reproduced together effect sound corresponding to a corresponding predetermined phrases.
  • the automatic utterance process according to the present embodiment is not limited to the user's uttered voice, and may reproduce phrases and sound effects corresponding to the user's behavior, moving place, facial expression, date and time, and the like.
  • the information processing system can also allow the user himself / herself to participate in the scenario with the agent character 10 completely.
  • information detected from a position measurement unit (GPS or the like) or various sensors (acceleration sensor, gyro sensor, geomagnetic sensor, microphone, camera, etc.) mounted on the client terminal 1 Scenarios are developed according to the real world situation of the user based on. Specifically, various events are held according to the progress of the scenario, and the user can experience the event by uttering the action corresponding to the event.
  • the information processing system converts each other's utterance voice into the voice of the other party's agent character at each client terminal 1 and plays it from the earphone or the like, so that the users can talk as characters appearing in the scenario. You may be able to enjoy it.
  • the agent character image of the other party is superimposed on the appearance of the other party, It is possible to intuitively provide an impersonation of the partner user as an agent character not only auditorily but also visually.
  • the information processing system is not limited to a voice agent that responds by voice, but may be a text-compatible agent that performs a text-based response at the client terminal 1.
  • the system configuration of the information processing system according to the present embodiment the basic configuration of each apparatus, and operation processing will be described in detail.
  • the information processing system according to the present embodiment will be described as a communication control system.
  • FIG. 2 is a diagram showing the overall configuration of the communication control system according to the present embodiment.
  • the communication control system includes a client terminal 1 and an agent server 2.
  • the agent server 2 is connected to the client terminal 1 via the network 3 and transmits / receives data. Specifically, the agent server 2 generates a response voice for the uttered voice collected and transmitted by the client terminal 1 and transmits the response voice to the client terminal 1.
  • the agent server 2 has a phoneme DB (database) corresponding to one or more agents, and can generate a response voice with a voice of a specific agent.
  • the agent may be a character such as a cartoon, an animation, a game, a drama, a movie, a celebrity, a celebrity, a historical person, or the like. It may be an average person.
  • the agent may be an animal or a personified character.
  • the agent may be a person reflecting the personality of the user, or a person reflecting the personality of the user's friend, family, acquaintance, or the like.
  • agent server 2 can generate response contents reflecting the characteristics of each agent.
  • the agent server 2 can provide various services such as user schedule management, message transmission / reception, information provision, and the like through interaction with the user via the agent.
  • the client terminal 1 is not limited to the smart phone as shown in FIG. 2, for example, a mobile phone terminal, a tablet terminal, a PC (personal computer), a game machine, a wearable terminal (smart eyeglass, smart band, smart watch, smart neck). Etc.).
  • the client terminal 1 may be a robot.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the agent server 2 according to the present embodiment.
  • the agent server 2 includes a voice agent I / F (interface) 20, a dialogue processing unit 30, a phoneme storage unit 40, a conversation DB generation unit 50, a phoneme DB generation unit 60, an advertisement insertion processing unit 70, An advertisement DB 72 and a feedback acquisition processing unit 80 are included.
  • the voice agent I / F 20 functions as a voice data input / output unit, a voice recognition unit, and a voice generation unit.
  • As the input / output unit a communication unit that performs transmission and reception with the client terminal 1 via the network 3 is assumed.
  • the voice agent I / F 20 can receive the user's uttered voice from the client terminal 1 and convert it into text by voice recognition. Also, the voice agent I / F 20 converts the agent answer text data (text) output from the dialogue processing unit 30 into voice using the phoneme data corresponding to the agent, and generates the generated response voice of the agent on the client terminal 1. Send to.
  • the dialogue processing unit 30 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the agent server 2 according to various programs.
  • the dialogue processing unit 30 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor, for example. Further, the dialogue processing unit 30 according to the present embodiment functions as a basic dialogue processing unit 31, a character A dialogue processing unit 32, a person B dialogue processing unit 33, and a person C dialogue processing unit 34.
  • the character A dialogue processing unit 32, the person B dialogue processing unit 33, and the person C dialogue processing unit 34 realize a dialogue specialized for each agent.
  • “Character A”, “Person B”, and “Person C” are given as examples of the agent.
  • the present embodiment is not limited to this, and each dialogue that realizes a dialogue specialized for a large number of agents. You may have a process part.
  • the basic dialogue processing unit 31 realizes a general-purpose dialogue that is not specialized for each agent.
  • FIG. 4 is a diagram illustrating a configuration example of the dialogue processing unit 300 according to the present embodiment.
  • the dialogue processing unit 300 includes a question sentence search unit 310, an answer sentence generation unit 320, a phoneme data acquisition unit 340, and a conversation DB 330.
  • the conversation DB 330 stores conversation data in which question sentence data and answer sentence data are paired.
  • conversation data specialized for the agent is stored in the conversation DB 330
  • general-purpose dialogue processing unit general-purpose conversation data (that is, basic conversation that is not specialized for the agent) is stored in the conversation DB 330. Data) is stored.
  • the question sentence search unit 310 searches the conversation DB 330 for question sentence data that matches the question sentence that is output from the voice agent I / F 20 and recognized as a text by recognizing the user's question voice (an example of uttered voice).
  • the answer sentence generation unit 320 extracts answer sentence data stored in association with the question sentence data searched by the question sentence search unit 310 from the conversation DB 330, and generates answer sentence data.
  • the phoneme data acquisition unit 340 acquires phoneme data for converting the answer sentence generated by the answer sentence generation unit 320 from the phoneme storage unit 40 of the corresponding agent. For example, in the case of the character A dialogue processing unit 32, phoneme data for reproducing the answer sentence data with the voice of the character A is acquired from the character A phoneme DB 42. Then, the dialogue processing unit 300 outputs the generated answer sentence data and the acquired phoneme data to the voice agent I / F 20.
  • the phoneme storage unit 40 stores a phoneme database for generating speech for each agent.
  • the phoneme storage unit 40 can be realized by a ROM (Read Only Memory) and a RAM (Random Access Memory).
  • a basic phoneme DB 41, a character A phoneme DB 42, a person B phoneme DB 43, and a person C phoneme DB 44 are stored.
  • Each phoneme DB stores, for example, a phoneme piece and a prosodic model that is control information thereof as phoneme data.
  • the conversation DB generation unit 50 has a function of generating the conversation DB 330 of the conversation processing unit 300. For example, the conversation DB generation unit 50 collects assumed question sentence data, collects answer sentence data corresponding to each question, and then saves the question sentence data and the answer sentence data in pairs. When a predetermined number of conversation data (a set of question sentence data and answer sentence data, for example, 100 sets) is collected, the conversation DB generation unit 50 registers the conversation data set in the conversation DB 330 as an agent conversation data set.
  • a predetermined number of conversation data a set of question sentence data and answer sentence data, for example, 100 sets
  • the phoneme DB generation unit 60 has a function of generating a phoneme DB stored in the phoneme storage unit 40.
  • the phoneme DB generation unit 60 analyzes speech information read out from a predetermined text, decomposes it into phoneme segments and prosodic models that are control information thereof, and collects a predetermined number or more of speech information as phoneme DB as phoneme data. Process to register with.
  • the advertisement insertion processing unit 70 has a function of inserting advertisement information into the agent dialogue.
  • the advertisement information to be inserted can be extracted from the advertisement DB 72.
  • advertisement information requested by a provider (vendor, supplier) of a company or the like for example, advertisement contents such as text, image, and sound, information on an advertiser, an advertisement period, an advertisement target person, etc. is registered. Yes.
  • the feedback acquisition processing unit 80 has a function for inserting a question for acquiring feedback into the agent's dialogue and obtaining feedback from the user.
  • the configuration of the agent server 2 according to this embodiment has been specifically described above. Note that the configuration of the agent server 2 according to the present embodiment is not limited to the example shown in FIG. For example, each configuration of the agent server 2 may be configured by other servers on the network.
  • FIG. 5 is a flowchart showing a process for generating the conversation DB 330 according to this embodiment. As shown in FIG. 5, first, the conversation DB generation unit 50 stores an assumed question sentence (step S103).
  • the conversation DB generating unit 50 stores a (paired) answer sentence corresponding to the question sentence (step S106).
  • the conversation DB generation unit 50 determines whether or not a predetermined number of pairs of question sentences and answer sentences (also referred to as conversation data) have been collected (step S109).
  • the conversation DB generation unit 50 registers a data set including a large number of pairs of question sentences and answer sentences in the conversation DB 330 (step S109). S112).
  • a pair of a question sentence and an answer sentence for example, the following is assumed.
  • Pair of question and answer sentences Pair 1 Question: Good morning. Answer: How are you feeling today? Pair 2 Question: What is the weather today? Answer text: Today's weather is ⁇ .
  • Such a pair can be registered in the conversation DB 330 as conversation data.
  • FIG. 6 is a flowchart showing a phoneme DB generation process according to this embodiment.
  • the phoneme DB generation unit 60 displays an example sentence (step S113). For example, an example sentence necessary for generating phoneme data is displayed on a display of an information processing terminal (not shown).
  • the phoneme DB generation unit 60 records the voice that reads the example sentence (step S116) and analyzes the recorded voice (step S119). For example, the voice information read out by the person in charge of the agent's voice is collected by the microphone of the information processing terminal, and the phoneme DB generation unit 60 receives and stores it, and further performs voice analysis.
  • the phoneme DB generation unit 60 generates a prosody model based on the speech information (step S122).
  • the prosody model is used to extract prosodic parameters indicating prosodic features of speech (for example, pitch of a sound, strength of a sound, speech rate, etc.), and differs for each individual.
  • the phoneme DB generation unit 60 generates phoneme pieces (phoneme data) based on the voice information (step S125).
  • the phoneme DB generation unit 60 stores the prosody model and phoneme pieces (step S128).
  • the phoneme DB generation unit 60 determines whether or not a predetermined number of prosodic models and phonemes have been collected (step S131).
  • the phoneme DB generation unit 60 registers the prosodic models and phonemes in the phoneme storage unit 40 as a phoneme database for a predetermined agent (Ste S134).
  • FIG. 7 is a flowchart showing the dialogue control process according to the present embodiment.
  • the voice agent I / F 20 checks whether or not the user's question voice and the agent ID have been acquired (step S143).
  • the agent ID is identification information indicating specific agents such as character A, person B, and person C.
  • the user can purchase phoneme data for each agent. For example, the ID of the agent purchased during the purchase process is stored in the client terminal 1.
  • the voice agent I / F 20 recognizes the question voice and converts it into text (step S149).
  • the voice agent I / F 20 outputs the question text converted to text to the dialogue processing unit of the specific agent specified by the agent ID. For example, in the case of “Agent ID: Character A”, the voice agent I / F 20 outputs the question text converted to text to the character A dialogue processing unit 32.
  • the dialogue processing unit 30 searches a question sentence that matches the question sentence converted to text from the conversation DB of the specific agent designated by the agent ID (step S152).
  • step S155 when there is a matching question (step S155 / Yes), the character A dialogue processing unit 32 obtains answer sentence data corresponding to the question (stored in pairs) from the conversation DB of the specific agent. (Step S158).
  • step S155 when there is no matching question (step S155 / No), a question sentence that matches the textualized question sentence is searched from the conversation DB of the basic dialogue processing unit 31 (step S161).
  • step S161 / Yes the basic dialogue processing unit 31 obtains answer sentence data corresponding to the question (stored as a pair) from the conversation DB of the basic dialogue processing unit 31. (Step S167).
  • step S164 when there is no matching question sentence (step S164 / No), the basic dialogue processing unit 31 returns answer sentence data (for example, an answer sentence such as “I do not understand the question”) when there is no matching question sentence.
  • answer sentence data for example, an answer sentence such as “I do not understand the question”
  • the character A dialogue processing unit 32 refers to the phoneme DB of the specific agent designated by the agent ID (here, the character A phoneme DB 42), and the phoneme data of the character A for generating the voice of the answer sentence data is obtained. Obtained (step S173).
  • the acquired phoneme data and answer sentence data are output to the voice agent I / F 20 (step S176).
  • the voice agent I / F 20 converts the response sentence data (text) into speech using the phoneme data (speech synthesis) and transmits it to the client terminal 1 (step S179).
  • the answer sentence is reproduced with the voice of the character A.
  • Conversation DB update processing> update processing of the conversation DB 330 of each dialogue processing unit 300 will be described.
  • the conversation DB 330 can be grown by conversation with the user.
  • FIG. 8 is a diagram for explaining a data configuration example of the conversation DB 330 according to the present embodiment.
  • each conversation DB 330 has two layers, a personalization layer 331 and a common layer 332.
  • the common layer 332A holds conversation data reflecting the character and character of the character A.
  • the personalization layer 331A holds conversation data customized for the user by the conversation with the user.
  • the conversation data can be customized for the user. That is, for example, when “person B” is “person in 20s”, the common layer 332B holds average conversation data of 20s, and customized conversation data is maintained for each user by continuing the conversation with the user. Of personalization layer 331B.
  • the user can also select and purchase favorite phoneme data such as “male”, “female”, “high voice”, and “low voice” from the person B phoneme DB 43 as the voice of the person B.
  • FIG. 9 is a flowchart showing the update processing of the conversation DB 330 according to the present embodiment.
  • the voice agent I / F 20 acquires (receives) the user's question voice from the client terminal 1, and converts it into text by voice recognition (step S183).
  • the text data (question sentence data) is output to the dialogue processing unit (in this case, for example, the character A dialogue processing unit 32) of the specific agent designated by the agent ID.
  • the character A dialogue processing unit 32 determines whether or not the question sentence data is a predetermined command (step S186).
  • the character A dialogue processing unit 32 registers the answer text data specified by the user in a pair with the question text data in the personalization layer 331A of the conversation DB 330A (step S189).
  • the predetermined command may be words such as “NG” and “setting”, for example.
  • the conversation DB of character A can be customized by the following conversation flow.
  • NG is a predetermined command
  • the character A dialogue processing unit 32 has issued “NG” from the user, the user-specified answer text data “Perform with good spirit”
  • the question sentence data “Good morning” is registered in the personalization layer 331A of the conversation DB 330A.
  • the character A dialogue processing unit 32 searches the character A conversation DB 330A for answer sentence data held in a pair with the question sentence data.
  • the answer sentence data held in a pair with the question sentence data is not held in the character A conversation DB 330A, that is, when the user's question is a question without an answer sentence (step S192 / Yes)
  • the character A dialogue processing unit 32 registers the answer sentence data specified by the user in the personalization layer 331A as a pair with the question sentence (step S195).
  • the conversation DB of character A can be customized by the following conversation flow.
  • Character A “I don't know the question” (An example of answer data when there is no applicable answer) User: “If you ask,“ How are you? ”, Say,“ I ’m fine today. ” Character A: “I'm fine today”
  • step S192 the character A dialogue processing unit 32 acquires the answer sentence data and outputs it to the voice agent I / F 20 together with the corresponding phoneme data of the character A.
  • the answer sentence is reproduced with the voice of the character A at the client terminal 1 (step S198).
  • FIG. 10 is a flowchart showing conversation data migration processing from the personalization layer to the common layer according to the present embodiment.
  • the conversation data migration processing from the personalization layer 331A to the common layer 332A of the character A dialogue processing unit 32 will be described.
  • the character A dialogue processing unit 32 periodically searches for a personalization layer 331A for each user (step S203), and a conversation pair (question sentence data and answer sentence having substantially the same contents).
  • a data pair) is extracted (step S206).
  • a conversation pair with substantially the same content is, for example, a pair of a question sentence “How are you?” And an answer sentence “I'm fine today!” And a question sentence “How are you?” And an answer sentence “I'm fine today.
  • the “!” Pair is only a difference in whether the question sentence is a polite word or not, and can be determined as a conversation pair having substantially the same content.
  • step S209 / Yes when a predetermined number or more of conversation pairs are extracted from the personalization layer 331A for each user (step S209 / Yes), the character A dialogue processing unit 32 registers the conversation pair in the common layer 332A (for each user). (Step S212).
  • FIG. 11 is a diagram for explaining the transfer of conversation data to the basic conversation conversation DB 330F according to the present embodiment.
  • the conversation processing unit 30 may include an A conversation DB 330A-X, a user Y character A conversation DB 330A-Y, and a user Z person B conversation DB 330B-Z.
  • each personalization layer 331A-X, 331A-Y, 331B-Z is registered with its own (customized) conversation pair according to the dialogue with each user X, user Y, and user Z. (See FIG. 9).
  • the personalization layers 331A-X and 331A-Y of the same agent they are registered in the common layers 332A-X and 332A-Y for each user (see FIG. 10).
  • the conversation processing unit 30 extracts a predetermined number or more of substantially the same conversation pairs from the common layers 332A-X, 332A-Y, and 332B-Z of a plurality of agents (which may include different agents), the conversation processing unit 30 The conversation pair is transferred to the conversation conversation DB 330F.
  • the basic conversation conversation DB 330 ⁇ / b> F is a conversation DB included in the basic conversation processing unit 31. This makes it possible to grow the basic conversation conversation DB 330F (expand conversation pairs).
  • FIG. 12 is a flowchart showing the conversation data migration processing to the basic dialogue DB 330F according to the present embodiment.
  • the dialogue processing unit 30 periodically searches a plurality of common layers 332 in the conversation DB 330 (step S223), and extracts substantially the same conversation pairs (step S226).
  • the conversation processing unit 30 registers the conversation pairs in the basic conversation conversation DB 330F (step S232). .
  • the advertisement insertion processing unit 70 can insert the advertisement information stored in the advertisement DB 72 into the utterance of the agent. Advertisement information can be registered in the advertisement DB 72 in advance.
  • FIG. 13 is a diagram illustrating an example of advertisement information registered in the advertisement DB 72 according to the present embodiment.
  • the advertisement information 621 includes, for example, an agent ID, a question sentence, advertisement contents, conditions, and a probability.
  • the agent ID designates an agent that speaks the advertisement contents
  • the question sentence designates a user's question sentence that triggers insertion of the advertisement contents
  • the advertisement contents are advertisement sentences to be inserted into the agent's dialogue.
  • the condition is a condition for inserting the advertisement content
  • the probability indicates the probability of inserting the advertisement content. For example, in the example shown in the first row of FIG.
  • the probability of inserting an advertisement may be set in this embodiment. Such a probability may be determined according to the advertisement fee. For example, the higher the advertising fee, the higher the probability.
  • FIG. 14 is a flowchart showing the insertion processing of advertisement content according to this embodiment.
  • the advertisement insertion processing unit 70 monitors the dialogue between the user and the agent (specifically, dialogue processing by the dialogue processing unit 30) (step S243).
  • the advertisement insertion processing unit 70 determines whether or not a question sentence having the same content as the question sentence registered in the advertisement DB 72 has appeared in the dialogue between the user and the agent (step S246).
  • the advertisement insertion processing unit 70 checks the advertisement insertion condition and probability associated with the corresponding question sentence (step S249).
  • the advertisement insertion processing unit 70 determines whether or not it is currently possible to place an advertisement based on the condition and the probability (step S252).
  • the advertisement insertion processing unit 70 temporarily stops the dialogue processing by the dialogue processing unit 30 (step S255), and inserts the advertisement content into the dialogue (step S258). Specifically, for example, the advertisement content is inserted into the agent's answer to the user's question.
  • the dialogue (conversation text data) including the advertisement content is output from the dialogue processing unit 30 to the voice agent I / F 20, transmitted from the voice agent I / F 20 to the client terminal 1, and reproduced by the voice of the agent (step S261). ).
  • the content of the advertisement can be presented to the user as an utterance of the character A by the following conversation.
  • the conversation data registration process As described above, the conversation data registration process, the phoneme DB generation process, the conversation control process, the conversation DB update process, and the advertisement insertion process have been described as basic operation processes of the communication control system according to the present embodiment.
  • the dialog processing unit 30 of the communication control system can provide the agent character with an experience that the user himself can use to enhance the fun of the agent system by using the voice utterance function of the agent. To do.
  • the voice output control process of the dialogue processing unit 30 according to the present embodiment will be specifically described with reference to FIGS.
  • FIG. 15 is a diagram illustrating a configuration example of the dialogue processing unit 30a according to the present embodiment.
  • the dialogue processing unit 30a includes a basic dialogue processing unit 31, a character A dialogue processing unit 32, a person B dialogue processing unit 33, a person C dialogue processing unit 34, a user management unit 35, and an automatic utterance control unit 36. And a scenario management unit 37.
  • the basic dialogue processing unit 31, the character A dialogue processing unit 32, the person B dialogue processing unit 33, and the person C dialogue processing unit 34 are agents corresponding to the user's utterance. It has a function to generate a response.
  • the basic dialogue processing unit 31 generates a general-purpose response that is not specialized for agents, and the character A dialogue processing unit 32, the person B dialogue processing unit 33, and the person C dialogue processing unit 34 B, responses specific to the person C) are generated.
  • the user management unit 35 manages (registers, changes, updates, deletes) user information.
  • FIG. 16 shows a configuration example of the user management unit 35 according to the present embodiment. As illustrated in FIG. 16, the user management unit 35 includes a login management unit 351, a user information DB 352, a face information registration unit 353, and a user position information registration unit 354.
  • the login management unit 351 performs user login authentication in response to a request from the client terminal 1. Specifically, for example, the login management unit 351 refers to account information (account name and password) input by the user at the client terminal 1 with the user information DB 352 and performs login authentication.
  • the user information DB 352 stores user information including user ID, account information, user attribute information (birthday, sex, zip code, etc.), face information, purchased (user-owned) agent ID and scenario ID, and the like.
  • Such user information is transmitted from the client terminal 1 via the voice agent I / F 20 (see FIG. 3) of the agent server 2 and registered, for example.
  • the face information registration unit 353 registers user face information in the user information DB 52.
  • the user's face information is, for example, a result of analyzing a user's face image captured by a camera provided in the client terminal 1 and can be transmitted from the client terminal 1 to the agent server 2. Note that a face image may be transmitted from the client terminal 1 and analyzed by the face information registration unit 353.
  • the user position information registration unit 354 registers the current position information of the user in the user information DB 52.
  • the current position information of the user is measured by a position positioning unit such as a GPS (Global Positioning System) provided in the client terminal 1 and is periodically transmitted to the agent server 2.
  • GPS Global Positioning System
  • the automatic speech control unit 36 has a function of controlling automatic speech by the agent.
  • FIG. 17 the structural example of the automatic speech control part 36 by this embodiment is shown.
  • the automatic utterance control unit 36 includes a user voice extraction unit 361, a phoneme data acquisition unit 362, a position information acquisition unit 363, a phrase search unit 364, a phrase DB 365, and an information analysis unit 366.
  • the user voice extraction unit 361 analyzes the input voice information and extracts the user voice. Such audio information is collected, for example, by a microphone of the client terminal 1 and transmitted from the client terminal 1 to the agent server 2 via the network.
  • the agent server 2 outputs the voice information received by the voice agent I / F 20 to the dialogue processing unit 30a.
  • the client terminal 1 picks up surrounding voice information continuously, periodically, or at a predetermined timing, and transmits it to the agent server 2.
  • the user voice extraction unit 361 converts the extracted user voice into text (generated utterance text) and outputs it to the phoneme data acquisition unit 362.
  • the location information acquisition unit 363 acquires the current location information of the user and outputs it to the phrase search unit 364.
  • the current location information of the user can be transmitted from the client terminal 1.
  • the information analysis unit 366 analyzes various information indicating the user status transmitted from the client terminal 1, and outputs the analysis result to the phrase search unit 364. Specifically, for example, the information analysis unit 366 performs facial expression from face information transmitted from the client terminal 1 (current user face information or face information of a person in the vicinity analyzed based on a captured image). Is analyzed. Further, the information analysis unit 366 analyzes user behavior (running, jumping, sleeping, etc.) from the acceleration information (information detected by the acceleration sensor) transmitted from the client terminal 1. In addition, the information analysis unit 366 analyzes environmental sound (such as noise around the user) from the sound information (voice information collected by the microphone) transmitted from the client terminal 1.
  • face information transmitted from the client terminal 1 current user face information or face information of a person in the vicinity analyzed based on a captured image. Is analyzed.
  • the information analysis unit 366 analyzes user behavior (running, jumping, sleeping, etc.) from the acceleration information (information detected by the acceleration sensor) transmitted from the client terminal 1.
  • the information analysis unit 366 is in tension from the biological information (information detected by a pulse sensor, a heart rate sensor, a sweat sensor, a body temperature sensor, a blood pressure sensor, an electroencephalogram sensor, or the like) transmitted from the client terminal 1. , Angry, sad, happy, etc.). Then, the information analysis unit 366 outputs an analysis result (a user or a surrounding person situation) to the phrase search unit 364.
  • the phrase search unit 364 uses a phrase (also referred to as an utterance phrase) according to the user position acquired by the position information acquisition unit 363, the facial expression of the user or the other party analyzed by the information analysis unit 366, the user behavior, the user situation, or the like. Search from the phrase DB 365 and output the search result to the phoneme data acquisition unit 362. Narration and sound effects may be associated with the phrase.
  • the phrase DB 365 stores phrase data for each agent character.
  • Table 1 below shows an example of phrase data of the agent character “hero” stored in the phrase DB 365.
  • the phrase DB 365 stores situations, phrases, and sound effects in association with each other.
  • situation is associated with one sensor type, but this embodiment is not limited to this, and “situation” is comprehensively based on the analysis results of a plurality of sensors. It may be judged.
  • phrases and sound effects corresponding to a case where a plurality of situations (location, facial expression, time, state, etc.) satisfy the conditions may be associated.
  • the phoneme data acquisition unit 362 acquires the utterance text output from the speech extraction unit 361 or the phoneme data output from the phrase search unit 364 to synthesize the narration from the phoneme storage unit 40 of the corresponding agent. To do.
  • the phoneme data acquisition unit 362 acquires the phoneme data of the agent according to the utterance text in order to convert the user voice into the voice of the agent designated by the user.
  • a selection signal for selecting a specific agent character can be transmitted from the client terminal 1.
  • the scenario management unit 37 manages each scenario associated with the agent character.
  • FIG. 18 shows a configuration example of the scenario management unit 37 according to the present embodiment. As illustrated in FIG. 18, the scenario management unit 37 includes a data management unit 371, a scenario execution unit 372, an information analysis unit 373, and a scenario DB 374.
  • the data management unit 371 performs management such as registration, change, update, and deletion of scenarios stored in the scenario DB 374.
  • the scenario DB 374 stores one or more scenario data corresponding to each agent character.
  • the scenario data includes a title, a summary, a purchase amount, and the like as accompanying information, and further includes data related to an event (also referred to as a scenario event).
  • the data related to the event includes a situation (location, user behavior, facial expression, user utterance, etc.) that triggers the occurrence of the event, an event holding time (holding period), and the like.
  • the scenario execution unit 372 controls to present the agent character's voice and image to the user according to the scenario in which the user is participating. Specifically, the scenario execution unit 372 controls presentation information such as voice and images based on the scenario to be transmitted from the voice agent I / F 20 to the client terminal 1 via the network. In addition, the scenario execution unit 372 determines the trigger of the event included in the scenario based on the analysis result by the information analysis unit 373, and when the event occurs, the presentation information such as the sound or image of the event is displayed as the voice agent I. / F20 is controlled to be transmitted to the client terminal 1 via the network.
  • the information analysis unit 373 analyzes various information indicating the user status transmitted from the client terminal 1, and outputs the analysis result to the phrase search unit 364.
  • the various information indicating the user status includes, for example, position information, face information (current user face information or face information of a person in the vicinity analyzed based on a captured image), acceleration information, voice information, and biological information. Etc.
  • Table 2 below shows an example of event data included in the scenario data stored in the scenario DB 374. As shown in Table 2 below, in the event data, trigger generation conditions, event contents, and actions are associated with each other.
  • FIG. 19 is a sequence diagram illustrating the agent application purchase process according to the present embodiment.
  • the agent application is software used to enjoy an automatic dialogue by a specific agent character on the client terminal 1, and the purchase of the agent application can be said to be “the purchase of the agent”.
  • the application is also referred to as “App”.
  • the client terminal 1 downloads and installs an arbitrary agent App (that is, selected by the user) from the application shop website provided by the agent server 2 (step S270). .
  • the client terminal 1 and the agent server 2 are connected via a network. Data transmission / reception of the agent server 2 can be performed by the voice agent I / F 20.
  • the client terminal 1 activates (first activation) the agent App (step S273). If the user account has not been registered (step S276 / No), an account registration process is requested to the agent server 2 (step S279).
  • the user management unit 35 (see FIG. 16) of the agent server 2 registers new account information in the user information DB 352 in response to a request from the client terminal 1 (step S282).
  • the new account information is an account name, password, user attribute information (gender, date of birth, nickname), etc., which is input by the user at the client terminal 1 and transmitted together with a request for account registration processing.
  • step S276 when the user account has already been registered (step S276 / Yes), the client terminal 1 requests the agent server 2 to perform a login process (step S285).
  • the login management unit 351 of the agent server 2 refers to the user information DB 352 and performs an account login process (step S288).
  • the account name and password input by the user are transmitted at the client terminal 1, so the login management unit 351 refers to the user information DB 352 and collates.
  • the agent server 2 transmits a login completion notification from the voice agent I / F 20 to the client terminal 1 via the network (step S291).
  • the client terminal 1 activates the camera of the client terminal 1 (or a camera provided in a communicable external terminal that exists in the vicinity), captures the face of the user, and detects face information from the captured image (face image). Is acquired (step S294).
  • the face information may be an analysis result of the captured image (face image) or the face image itself.
  • the client terminal 1 transmits face information to the agent server 2 (step S297), and the agent server 2 registers the face information in the user information DB 352 (step S300).
  • the client terminal 1 accepts a selection by the user as to whether or not to execute the agent App in the background (step S303), and transmits the selected content to the agent server 2 as setting information (step S306).
  • the agent server 2 stores the setting information in the user information DB 352 (step S309).
  • Such setting information may be stored in the storage unit of the client terminal 1.
  • the client terminal 1 displays a main screen according to the activated agent App (step S312).
  • FIG. 20 is a diagram showing an example of a display screen at the time of purchasing the agent application according to the present embodiment.
  • titles of a plurality of agent apps that are candidates for purchase are displayed.
  • the title of each agent App shown on the screen 100 is, for example, the name of the agent character.
  • the user selects “Agent App“ Powerful Man ”” on the screen 100.
  • the screen 100 transitions to a screen 101 shown in the center of FIG.
  • an account information input field an account creation button, and a “here if you have an account” button are displayed. If an account for using the application shop has already been registered, the user selects the “Click here if you have an account” button. In this case, the screen 101 transitions to a screen 102 shown on the right side of FIG.
  • an account name input field, a password input field, and a login button are displayed.
  • the user inputs a registered account name (also referred to as user name / ID and login name / ID) and a password, and selects a login button.
  • the client terminal 1 makes a login process request to the agent server 2 together with the input account name and password.
  • FIG. 21 is a diagram showing an example of an account registration screen according to the present embodiment. As shown in the screen 103 on the left side of FIG. 21, when an account name or the like is input and an “account creation” button is selected, the client terminal 1 sends a request for account registration processing to the agent server 2 together with the input information. Do it.
  • a screen 104 for notifying that the account creation is completed is displayed as shown in the right of FIG.
  • text such as “Do you want to register customer face information?” Is displayed.
  • the camera of the client terminal 1 is activated and the user's face is imaged.
  • And face information extraction (analysis) is performed.
  • the extracted face information is transmitted to the agent server 2 and registered as user information.
  • FIG. 22 is a diagram showing an example of a main screen according to the present embodiment.
  • a screen 105 for confirming whether to start the Agent App is displayed as shown on the left side of FIG.
  • the screen 105 also displays a check box for setting whether to execute in the background. The user checks this if he wants the agent app to run in the background.
  • the client terminal 1 transmits the presence / absence of the check in the check box to the agent server 2 as setting information on whether or not to execute in the background.
  • the main screen 106 of the agent app is displayed.
  • an image of the hero character “Powerful Man” is displayed on the display portion of the client terminal 1, and “Powerful Man” voices and theme songs such as “This town protects me!” Played from.
  • FIG. 23 is a diagram illustrating the voice conversion process according to the present embodiment.
  • the microphone wearable device existing around the communication connection with the or the client terminal 1
  • a speech W 4 of the user client terminal 1 is converted by the automatic speech control section 36 of 30a to voice W 5 of a specific agent character.
  • the specific agent character is, for example, a character corresponding to the agent App running on the client terminal 1, and an operation for starting the agent App is recognized as a substantial agent character selection by the user, and the selection signal is It is transmitted to the agent server 2.
  • the user can become an agent character by hearing his / her utterance voice with the voice of the agent character.
  • FIG. 24 is a sequence diagram showing a voice conversion process according to the present embodiment.
  • the client terminal 1 collects sound data with the microphone (step S320)
  • the client terminal 1 transmits the collected sound data to the agent server 2 (step S323).
  • the client terminal 1 may also transmit a selection signal indicating the agent character selected by the user.
  • These data can be transmitted from the client terminal 1 to the agent server 2 via the network 3 and received by the voice agent I / F 20 (functioning as a communication unit) of the agent server 2.
  • the agent server 2 analyzes the sound data and extracts the user voice by the user voice extraction unit 361 (see FIG. 17) of the automatic utterance control unit 36.
  • the agent server 2 converts the voice into a voice of a specific agent character (here, “hero character”, for example) selected by the user (step S326). More specifically, the agent server 2 uses the phoneme data of the dialog processing unit 30a as the phoneme data for voice conversion of the user voice text extracted by the user voice extraction unit 361 of the dialog processing unit 30a and converted into text with the voice of the agent character. Acquired by the data acquisition unit 362.
  • the speech agent I / F 20 converts the user speech sentence into the voice of the specific agent character (voice conversion).
  • the voiced data (voice data) is transmitted from the voice agent I / F 20 to the client terminal 1 via the network (step S329).
  • the client terminal 1 reproduces the voice data of the voice of the hero character converted by the agent server 2 from an earphone or the like (an example of a speaker) (step S332).
  • the voice conversion process has been described, but the present embodiment is not limited to the above-described auditory process, and can provide a visual experience.
  • the present embodiment is not limited to the above-described auditory process, and can provide a visual experience.
  • FIG. 25 is a diagram for explaining the visual alignment due to AR (Augmented Reality) transformation according to the present embodiment.
  • a screen 107 in which a user's own face is captured by a camera provided in the client terminal 1 and the agent character's face image is superimposed on the captured user's face image is displayed.
  • the agent server 2 confirms face recognition based on the captured face image, that is, whether or not the face information registered in the user information DB 3532 matches, and if it matches, the face of the agent character is added to the face image.
  • An image may be displayed in a superimposed manner.
  • a visual perfect experience may be provided together with the auditory perfect experience of the voice conversion described above.
  • FIG. 26A is a sequence diagram showing an automatic speech process according to a place according to the present embodiment.
  • the client terminal 1 acquires current position information by GPS or the like (step S340), and transmits the current position information to the agent server 2 (step S342).
  • Such acquisition and transmission of the current position information can be performed periodically, for example, when the agent program is running on the client terminal 1.
  • the automatic utterance control unit 36 of the agent server 2 sends a phrase corresponding to the location information (location) of the client terminal 1 transmitted from the client terminal 1 and acquired by the location information acquisition unit 363 to the phrase DB 365 using the phrase search unit 364.
  • search step S344
  • phrases and sound effects associated with a specific place XX city, Y park, Z station, etc.
  • general place station, post office, park, sea, etc.
  • the automatic utterance control unit 36 converts the searched phrase into a voice of a specific agent character specified by the user, for example, a hero character.
  • the phoneme data acquisition unit 362 acquires phoneme data of a hero character for making a phrase into speech from the phoneme storage unit 40, and the acquired phoneme data and phrase are output to the voice agent I / F 20, Phrase speech processing (for example, speech synthesis) is performed by the agent I / F 20.
  • the agent server 2 transmits the voice data generated by the voice agent I / F 20 to the client terminal 1 (step S350).
  • the client terminal 1 reproduces the audio data received from the agent server 2, that is, the audio data obtained by converting the predetermined phrase into the voice of the hero character (step S352).
  • the phrase corresponding to the location is reproduced from the speaker of the client terminal 1 using the voice of the specific agent character, triggered by the user moving to the predetermined location.
  • FIG. 26B is a sequence diagram showing each automatic utterance process according to the person attribute and facial expression according to the present embodiment.
  • the client terminal 1 activates the camera, acquires a captured image (step S354), and transmits the captured image to the agent server 2 (step S356).
  • Such activation, imaging, and transmission of the camera can be performed periodically when the agent program is activated in the client terminal 1, for example.
  • the camera includes an outward-facing camera (also referred to as an out-camera) in which the client terminal 1 captures the user's surroundings such as the user's line-of-sight direction, and an inward-facing camera (also referred to as an in-camera) that captures the user operating the client terminal 1. Is assumed).
  • the automatic speech control unit 36 of the agent server 2 determines whether or not the captured image transmitted from the client terminal 1 has been captured by the in-camera (step S358). Whether the image is captured by the in-camera can be determined from, for example, metadata attached to the captured image.
  • step S358 / Yes when the camera is an in-camera (step S358 / Yes), it is determined that the user is captured in the captured image, and the phrase search unit 364 determines the facial expression based on the face image analysis result by the information analysis unit 366.
  • the corresponding phrase is searched from the phrase DB 365 (step S360). For example, as shown in Table 1 above, a phrase or sound effect corresponding to the case where the user is smiling or a phrase or sound effect corresponding to the case where the user is angry is searched.
  • step S358 / No if it is not the in-camera (step S358 / No), that is, if the image is captured by the out-camera, it is determined that a person around the user (for example, a person facing the user) is captured in the captured image, and the phrase Based on the face image analysis result by the information analysis unit 366, the search unit 364 searches the phrase DB 365 for a phrase corresponding to the attribute (age, gender, atmosphere, etc.) or facial expression of the person to face (step S362). For example, as shown in Table 1 above, a phrase, sound effect, or the like corresponding to the case where the person facing the person is a woman is searched.
  • step S364 when a phrase corresponding to the person attribute or facial expression is found (that is, when the search is hit) (step S364 / Yes), the automatic utterance control unit 36 uses the searched phrase as a specific agent character specified by the user, for example, a hero character.
  • the voice color is converted (step S366).
  • the conversion process to the specific agent character is the same as the process described in step S348.
  • the agent server 2 transmits the voice data generated by the voice agent I / F 20 to the client terminal 1 (step S368).
  • the client terminal 1 reproduces the audio data received from the agent server 2, that is, the audio data obtained by converting the predetermined phrase into a voice with the voice of the hero character (step S370).
  • the client terminal 1 reproduces the audio data received from the agent server 2, that is, the audio data obtained by converting the predetermined phrase into a voice with the voice of the hero character (step S370).
  • a phrase corresponding to the facial expression or attribute at that time is reproduced from the speaker of the client terminal 1 with the voice color of the specific agent character, triggered by the facial expression of the user, or the attribute or facial expression of the opponent.
  • FIG. 26C is a sequence diagram showing each automatic utterance process according to the user action according to the present embodiment.
  • the client terminal 1 acquires acceleration sensor information by the acceleration sensor (step S372), and transmits the acceleration sensor information to the agent server 2 (step S374).
  • the transmission of the acceleration sensor information can be performed periodically when the agent program is activated on the client terminal 1, for example.
  • the automatic utterance control unit 36 of the agent server 2 performs a behavior recognition process by the information analysis unit 366 based on the acceleration sensor information transmitted from the client terminal 1, and a phrase corresponding to the behavior state indicated by the behavior recognition result. Is searched by the phrase search unit 364 with reference to the phrase DB 365 (step S376). For example, as shown in Table 1 above, phrases and sound effects associated with a running state or a sleeping state are searched.
  • the acceleration sensor information is used here as the sensor data used for the action recognition process, this embodiment is naturally not limited to this, and is detected by various sensors such as a gyro sensor and a geomagnetic sensor in addition to the acceleration sensor. Data may be used.
  • step S378 / Yes when a phrase corresponding to the action state is found (that is, when the search is hit) (step S378 / Yes), the automatic utterance control unit 36 converts the searched phrase into the voice of a specific agent character specified by the user, for example, a hero character. Conversion is performed (step S380).
  • the agent server 2 transmits the voice data generated by the voice agent I / F 20 to the client terminal 1 (step S382).
  • the client terminal 1 reproduces the voice data received from the agent server 2, that is, voice data in which a predetermined phrase is voiced with the voice of the hero character (step S384).
  • the phrase corresponding to the behavior state at that time is reproduced from the speaker of the client terminal 1 with the tone of the specific agent character triggered by the user having entered the predetermined behavior state.
  • FIG. 26D is a sequence diagram showing each automatic utterance process according to the psychological state according to the present embodiment.
  • the client terminal 1 detects the user's biometric information with a biometric sensor (step S386), and transmits the biometric information to the agent server 2 (step S388).
  • the transmission of the biometric information can be performed periodically when the agent program is running on the client terminal 1, for example.
  • the automatic utterance control unit 36 of the agent server 2 analyzes the biological information transmitted from the client terminal 1 by the information analysis unit 366, and selects a phrase corresponding to the user's psychological state (ie, emotion) obtained by the analysis.
  • the phrase search unit 364 searches the phrase DB 365 with reference to the phrase DB 365 (step S390). For example, as shown in Table 1 above, phrases and sound effects linked to a state where the pulse is fast and tense are searched.
  • the biological sensor is various sensors that detect, for example, a pulse, a heartbeat, a blood pressure, a sweating amount, a respiration, an electroencephalogram, or a myoelectricity. Based on such biological information, the information analysis unit 366 analyzes the psychological state of the user, that is, emotions such as joy, anger, sadness, tension, and excitement.
  • step S392 when a phrase corresponding to the psychological state is found (that is, when the search is hit) (step S392 / Yes), the automatic speech control unit 36 converts the searched phrase into the voice of a specific agent character specified by the user, for example, a hero character. Conversion is performed (step S394).
  • the agent server 2 transmits the voice data generated by the voice agent I / F 20 to the client terminal 1 (step S396).
  • the client terminal 1 reproduces the voice data received from the agent server 2, that is, the voice data obtained by converting the predetermined phrase into a voice by the voice of the hero character (step S398).
  • the phrase corresponding to the psychological state at that time is reproduced from the speaker of the client terminal 1 using the tone of the specific agent character, triggered by the psychological state of the user.
  • the automatic utterance control processing of the agent according to the user situation has been described.
  • the automatic utterance control process according to the present embodiment is not limited to the above-described example.
  • the phrase search may be performed in, for example, a predetermined order (in order of priority) among the plurality of user situations.
  • the dialogue processing unit 30a converts the user voice into the agent character voice as described above and automatically utters the agent character according to the user situation. ) Can provide experiences to participate in. Acquisition of a scenario program used when providing such an experience will be described below with reference to FIGS.
  • FIG. 27 is a sequence diagram showing scenario acquisition processing according to this embodiment.
  • scenario list is selected from the menu screen displayed on the display unit of the client terminal 1 (step S410)
  • the client terminal 1 sends a scenario list to the agent server 2.
  • An acquisition request is made (step S413).
  • a request for acquiring a scenario list of the agent character “hero character“ powerful man ”” purchased by the user is made.
  • the scenario management unit 37 of the agent server 2 acquires a list of scenarios associated with the hero character from the scenario DB 374 (step S416), and transmits it to the client terminal 1 from the voice agent I / F 20 via the network (step S419). ).
  • the client terminal 1 displays the scenario list received from the agent server 2 on the display unit (step S422), and accepts a scenario selection by the user (step S425).
  • the client terminal 1 transmits selection information indicating the scenario selected by the user to the agent server 2 (step S428).
  • the scenario management unit 37 of the agent server 2 determines whether or not the scenario selected by the user has been purchased (step S431). If it has not been purchased (step S431 / Yes), the scenario management unit 37 determines whether the scenario selected by the user has been purchased. The display instruction for the purchase screen of the scenario is given to the scenario (step S434).
  • the client terminal 1 displays a scenario purchase screen (step S437). For example, the user taps a purchase button displayed on the scenario purchase screen to decide to purchase the scenario.
  • step S440 when scenario purchase is determined (step S440 / Yes), the client terminal 1 makes a scenario purchase request to the agent server 2 (step S443).
  • the agent server 2 performs scenario purchase processing (step S446).
  • the scenario purchase process can be performed, for example, by a settlement process (charging process in an application) using a credit card or electronic money.
  • the purchase of the scenario by the user is registered as user information in the user information DB 352 by the user management unit 35.
  • step S440 / No the user may tap a return button or the like to return to the menu list screen and consider obtaining another scenario.
  • FIG. 28 and FIG. 29 show screen display examples in the client terminal 1 until the scenario purchase.
  • the left side of FIG. 28 shows a main screen 110 when a user purchases a hero character.
  • a menu screen 112a is displayed as shown in the center of FIG.
  • a scenario list screen 113 is displayed as shown on the right side of FIG. Scenarios that can be participated are arranged on the scenario list screen 113, and the user selects a scenario to be purchased. Scenarios that have already expired or sold out are grayed out and cannot be selected.
  • scenarios 113a and 113b are displayed as selectable scenarios
  • the scenario 113c is grayed out as a scenario that cannot be selected.
  • a purchase screen 114 as shown on the left of FIG. 29 is displayed.
  • the purchase screen 114 displays a scenario title, a summary, a purchase price, a purchase button 114a, a scenario participation location and a period, and the user confirms the scenario content, price, participation location, period, and the like.
  • a plurality of events are prepared in the scenario, and the goal is to clear the scenario by clearing all of them.
  • Participation place is a place that triggers an event, and it is possible to participate in a scenario even if you are not in that place, but it is difficult to clear the scenario because there are few events to be triggered. It becomes.
  • a purchase decision screen 115 shown on the right side of FIG. 29 is displayed.
  • purchase processing financial transaction processing
  • scenario purchase is completed. .
  • FIG. 30 is a sequence diagram showing scenario participation registration processing according to this embodiment. Note that the process shown in FIG. 30 is a process that is continuously performed when the scenario selected by the user has been purchased in step S431.
  • the scenario management unit 37 of the agent server 2 searches for a scenario in which a specific agent character purchased by the user, for example, a hero character is not registered in the scenario selected by the user (step S450).
  • a specific agent character purchased by the user for example, a hero character is not registered in the scenario selected by the user (step S450).
  • the scenario configuration according to the present embodiment will be described with reference to FIG.
  • FIG. 31 is a diagram for explaining a scenario configuration according to the present embodiment.
  • One or more characters appear in the scenario according to the present embodiment, and one user is registered in one character.
  • a plurality of users have purchased the same character agent program, as shown in FIG. 31, a plurality of participating groups are set for each scenario, and user registration is performed for each participating group.
  • a plurality of participating groups are linked to the participating groups # 1-1, # 1-2, # 1-3, etc., and users are distributed so that characters do not overlap in the participating groups. .
  • the user group who is both “Character A” and “Character B” is currently registered in the participating group # 1-1 of Scenario # 1, but “Character C” is in an empty state. It is.
  • “Character A” is in an empty state.
  • “Character A”, “Character B”, and “Character C” are in an empty state.
  • the scenario management unit 37 grasps the user registration status in the participating group of the scenario, and searches for a participating group in which the character purchased by the user is not registered (vacant).
  • the scenario management unit 37 transmits the searched scenario information of the participating group to the client terminal 1 (step S453).
  • FIG. 32 shows an example of a scenario participation screen according to the present embodiment.
  • the screen 116 shown on the left side of FIG. 32 is registered for participation in the scenario selected on the scenario list screen 113 (see FIG. 28) or the scenario for which purchase processing has been completed and the purchase processing has been completed on the scenario purchase decision screen 115 (see FIG. 29). It is a screen which receives operation for.
  • a title of the selected scenario for example, a title of the selected scenario, a summary, a display indicating that the scenario has been purchased, a participation place, participation period information, and a participation button 116a are displayed.
  • the user can input an intention to participate in this scenario by selecting the participation button 116a.
  • step S459 / Yes when the participation button is selected and the user's intention to participate is input (step S459 / Yes), the client terminal 1 requests the agent server 2 to participate in this scenario (participation group) (step S462). .
  • the scenario management unit 37 of the agent server 2 performs a user registration process for participating in the scenario in response to a request from the client terminal 1 (step S465).
  • Information on user registration with a caraque appearing in a participating group of each scenario may be registered in the scenario DB 374 (see FIG. 18) or may be registered in the user information DB 352 (see FIG. 16).
  • the scenario management unit 37 notifies the user of the start time (step S471) when the scenario that the user has registered for participation is before the start time (step S468 / Yes), and the client terminal 1 starts the scenario.
  • the time is notified to the user via a display screen or the like (step S474).
  • a display screen for example, a screen 117 shown in the upper right of FIG.
  • the screen 17 displays, together with the scenario title, the fact that participation has been reserved and the countdown until the scenario start time.
  • the scenario management unit 37 notifies the user of the scenario start notification (step S480). For example, when the scenario registered for participation is already after the start time (that is, when the scenario is being held), as shown in FIG. 32, when the participation button 116a is tapped, a screen 118 shown in the lower right of FIG. , The message “Participating!” Is displayed together with the scenario title, and the scenario starts immediately. Further, when the start time of the scenario that has already been registered for participation is reached, a start notification as shown in FIG. 33 or FIG. 34 is performed, for example. If the scenario period has ended (step S469 / No), the participation registration process ends because participation in the scenario is not possible.
  • FIG. 33 is a diagram showing a typical scenario start start example when the agent App according to the present embodiment is activated in the foreground.
  • the agent application screen 120 for example, the main screen
  • the scenario start time is reached
  • the agent app screen 120 is displayed on the right side of FIG.
  • a pop-up display 120a indicating that the scenario is started is displayed.
  • the pop-up display 120a is closed.
  • FIG. 34 is a diagram showing a typical scenario start start case when the agent App according to the present embodiment is not activated.
  • the agent App when the agent App is not activated (for example, when the home screen 122 is displayed), the scenario is started on the home screen 122 when the scenario start time is reached.
  • a pop-up display 122a (Push notification) is displayed.
  • the Agent App is activated, and the Agent App main screen 123 is displayed as shown on the right in FIG.
  • the client terminal 1 notifies the user that the scenario is started via a display screen or the like (step S483).
  • the scenario management unit 37 starts the scenario execution process (step S486).
  • a scenario such as “XX city battle”
  • an image of an agent character for example, a hero character
  • voices of narration and a hero character are further transmitted from an earphone or the like.
  • Is output as follows. ⁇ Scenario audio Narration “October 12, 2015, the stage is XX city. The warriors were exhausted by the fierce battle ...” Hero character "XX city is waiting for me! Narration "Defeat 8 enemies in the XX city.”
  • a hero character is displayed on the client terminal 1, and the hero character automatically speaks or a corresponding sound effect flows according to the user's situation.
  • the automatic utterance according to the situation is the same as the processing described with reference to FIGS. 26A to 26D.
  • -Automatic utterance voice User situation Recognize that the user has moved to XX city by analyzing location information. Hero character "Is this XX city? Where is the enemy?"
  • an event prepared in advance in the scenario occurs under certain conditions.
  • an event occurs, the fact that the event has occurred due to a hero character or narration and an action necessary for clearing the event are notified.
  • the event is cleared.
  • a scenario execution process such as the occurrence of an event corresponding to such a condition will be described in detail below.
  • the scenario management unit 37 causes the scenario execution unit 372 to generate a scenario event (referred to as an “event” in the present embodiment) triggered by the user's utterance, moving place, action (behavior), etc. Processing such as instructing the user of a predetermined action for clearing the event is performed.
  • a scenario event referred to as an “event” in the present embodiment
  • FIG. 35 is a sequence diagram showing event execution processing triggered by a user voice according to the present embodiment.
  • the client terminal 1 collects surrounding sound data with a microphone (step S490), and transmits the collected sound data to the agent server 2 (step S493).
  • the scenario management unit 37 of the agent server 2 uses the information analysis unit 373 to analyze the sound data and extract the user voice.
  • the scenario execution unit 372 searches for an event corresponding to the user's utterance from the scenario in which the user is participating (step S496).
  • the event search is performed with reference to the scenario data stored in the scenario DB 374 and in which the user is participating.
  • each scenario includes one or more events, and data in which event generation triggers (conditions), event contents, and actions for event clearing are associated is stored in the scenario DB 374 as scenario data.
  • scenario data has been. Specific examples of scenario data are as shown in Table 2 above.
  • the scenario management unit 37 refers to the event data as shown in Table 2 and searches for an event that uses the user voice (that is, the utterance content) as a trigger (generation condition).
  • the scenario execution unit 372 extracts information on the searched event from the scenario data (step S499), and transmits information related to the corresponding specified action (specified action for clearing the event) to the client terminal 1 (step S499). S502). If the corresponding event cannot be searched, the scenario execution unit 372 may not particularly transmit information to the client terminal 1, or may give a hint (trigger suggestion) for event occurrence. May be. In addition, sound data collection by the client terminal 1 and transmission to the agent server 2 can be performed periodically during the scenario holding period.
  • the client terminal 1 instructs the user through display output, audio output, or the like to perform a specified action for clearing the event (step S505).
  • a specific example of the display screen when an event occurs will be described with reference to FIG.
  • FIG. 36 is a diagram showing an example of a display screen when an event occurs according to the present embodiment.
  • Figure 36 as shown in the left, for example, by the voice conversion function speech W 6 with user and described above is converted to speech W 7
  • an agent's speech W 8 such as “Jump up! Now!” Is output from an earphone or the like, or a screen including a text “Jump!” And an image of the agent. 124 is displayed on the display unit of the client terminal 1.
  • the user can execute a specified action corresponding to the event.
  • the client terminal 1 acquires an output result from each sensor that detects the user's behavior or the like (step S508), and transmits the output result of each sensor to the agent server 2 (step S511).
  • Each sensor that detects a user's action is, for example, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a camera, or the like.
  • the agent server 2 analyzes the output result from each sensor by the information analysis unit 366 (for example, analysis of behavior recognition), and determines whether or not the specified action is performed by the scenario execution unit 372 based on the analysis result. Judgment is made (step S514).
  • the information analysis unit 366 for example, analysis of behavior recognition
  • step S514 when it is determined that the specified action has been performed (step S514 / Yes), the scenario execution unit 372 determines that the corresponding event has been cleared (step S517), and sends the event to the client terminal 1. The fact that it has been cleared is transmitted (step S520).
  • the scenario execution unit 372 registers (updates) event clear information in the scenario DB 374.
  • the client terminal 1 notifies the user that the event has been cleared by display output, voice output, or the like (step S523).
  • a predetermined event is generated using a user's specific utterance as a trigger, the user is prompted to perform a predetermined action, and when the action is detected, the scenario proceeds with the event cleared. Can be made.
  • FIG. 37 is a sequence diagram showing event execution processing triggered by the user position according to the present embodiment.
  • the client terminal 1 acquires current position information by GPS or the like (step S530), and transmits the acquired current position information to the agent server 2 (step S533).
  • the scenario management unit 37 of the agent server 2 uses the information analysis unit 373 to analyze the position information and identify the location indicated by the position information.
  • the information analysis unit 373 refers to the map data to which the landmark information is linked, and the name (location name, city name, building name, park name, etc.) and type (station, park, seaside) where the user is currently located , Post office, etc.).
  • the scenario execution unit 372 searches for an event corresponding to the identified location from the scenario in which the user is participating (step S536).
  • the event search is performed with reference to the scenario data stored in the scenario DB 374 and in which the user is participating.
  • the scenario management unit 37 refers to the event data as shown in Table 2 above, and searches for an event triggered by the location where the user is currently located (that is, the moving location).
  • the scenario execution unit 372 extracts information on the retrieved event from the scenario data (step S539), and transmits information related to the corresponding designated action (designated action for clearing the event) to the client terminal 1 (step S539).
  • the acquisition of the current position information and transmission to the agent server 2 by the client terminal 1 can be performed periodically during the scenario holding period.
  • the client terminal 1 instructs the user through a display output, a voice output, or the like to perform a designated action for clearing the event (step S545).
  • the client terminal 1 acquires an output result from each sensor that detects a user's action or the like (step S548), and transmits the output result of each sensor to the agent server 2 (step S551).
  • the agent server 2 analyzes the output result from each sensor by the information analysis unit 366 (for example, analysis of behavior recognition), and determines whether or not the specified action is performed by the scenario execution unit 372 based on the analysis result. Judgment is made (step S554).
  • the information analysis unit 366 for example, analysis of behavior recognition
  • step S554 when it is determined that the designated action has been performed (step S554 / Yes), the scenario execution unit 372 determines that the corresponding event has been cleared (step S557), and sends the event to the client terminal 1. The fact that it has been cleared is transmitted (step S560).
  • the scenario execution unit 372 registers (updates) event clear information in the scenario DB 374.
  • the client terminal 1 notifies the user that the event has been cleared by display output or voice output (step S563).
  • a predetermined event is generated by using the position of the user as a trigger, the user is prompted to perform a predetermined action, and the scenario is advanced assuming that the event is cleared when the action is detected. Can do.
  • FIG. 38 is a sequence diagram showing event execution processing triggered by the positions of multiple users according to this embodiment.
  • the client terminal 1 acquires current position information by GPS or the like (step S570), and transmits the acquired current position information to the agent server 2 (step S572).
  • the scenario management unit 37 of the agent server 2 determines whether another user who has another character participating in the same scenario as an agent is near the user (step S573).
  • the location information of each user participating in the scenario is periodically transmitted from the client terminal 1 and managed on the agent server 2 side. Further, the scenario management unit 37 may search for users of other characters in the vicinity when the user moves to a specific place. Further, the scenario management unit 37 may search for users of other unspecified characters participating in the same scenario.
  • the scenario management unit 37 searches for a corresponding event (step S576).
  • the scenario management unit 37 refers to the event data as shown in Table 2 above, for example, and triggers an event when “another character participating in the same scenario is nearby” (for example, “overlay display”). Search for.
  • the scenario execution unit 372 extracts the searched event information from the scenario data (step S579), and performs event execution processing.
  • the scenario execution unit 372 makes a request for acquiring a face image of a person nearby to the client terminal 1 (step S582).
  • the client terminal 1 activates the camera in response to a request from the agent server 2 and instructs the user to hold the camera over a nearby person (step S585).
  • the action of starting the camera and holding it over a nearby person is the designated action for clearing the event.
  • the client terminal 1 captures a nearby person's face with a camera to acquire a captured image (step S588), and transmits the captured image to the agent server 2 (step S591).
  • the scenario management unit 37 of the agent server 2 analyzes the captured image by the information analysis unit 366 and recognizes the face of a person in the vicinity of the user (step S594). Furthermore, the scenario execution unit 372 refers to the face information of the other user determined to be in the vicinity of the user based on the position information in step S573 and the face recognition result based on the captured image, so that the person in the vicinity Face authentication may be performed.
  • the scenario execution unit 372 acquires information on other characters in the vicinity determined in step S573 from the scenario DB 374 (step S597). ) To the client terminal 1 (step S600).
  • the character information includes a character image.
  • the client terminal 1 is based on the character information transmitted from the agent server 2 when the through image is displayed on the display unit while the user holds the camera of the client terminal 1 over a nearby person (the other user). Then, an image of the agent character in which the opponent is completely displayed is displayed as an overlay on the through image on the through image (step S603). Thereby, the user can meet other characters appearing in the same scenario in the real space.
  • the agent server 2 not only superimposes and displays the opponent character image on the through image of the opponent, but also converts the other party's utterance voice into the voice of the opponent character and reproduces it from the user's earphone or the like. Good.
  • the user character may be superimposed on the user's through image, or the user's voice may be converted into the user's character voice and played back.
  • the user character may be superimposed on the user's through image, or the user's voice may be converted into the user's character voice and played back.
  • FIG. 39A is a diagram showing a display screen example that prompts the user to hold the camera according to the present embodiment.
  • the illustrated screen 125 is a guidance screen displayed on the display unit of the client terminal 1 in step S585, and includes an agent character image and a camera activation button 125a.
  • an utterance voice W 9 such as “Start up the camera and hold it over a nearby person!” May be played in the voice of the agent character. Accordingly, the user can take a designated action for clearing the event, such as tapping the camera activation button 125a according to the guidance of the agent character to activate the camera and hold it over a nearby person.
  • FIG. 39B is a view for explaining the overlay display of another character according to this embodiment.
  • a through image captured by the camera of the client terminal 1 is displayed on the display unit of the client terminal 1, and the other user appears in the through image.
  • An image 126 in which the character image of the opponent is superimposed in real time is displayed.
  • the client terminal 1 uses the agent server 2 to convert the other user's speech voice into the other user's character voice or the other user's character's predetermined phrase voice W 10 that is automatically spoken according to the situation. Etc. may be reproduced.
  • the scenario execution unit 372 determines that the corresponding event has been cleared (step S606), and transmits to the client terminal 1 that the event has been cleared (step S609).
  • the scenario execution unit 372 registers (updates) event clear information in the scenario DB 374.
  • the client terminal 1 notifies the user that the event has been cleared by display output, audio output, or the like (step S612).
  • FIG. 40 is a sequence diagram showing event execution processing triggered by output results from each sensor according to the present embodiment.
  • the client terminal 1 acquires the output result from each sensor (step S620), and transmits it to the agent server 2 (step S623).
  • Each sensor is, for example, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a camera, or the like, and is provided in the client terminal 1 or a wearable terminal (for example, smart band, smart watch, smart eye glass) that is connected to the client terminal 1 for communication. Recognize user behavior.
  • the scenario management unit 37 of the agent server 2 uses the information analysis unit 373 to analyze the output result of each sensor and identify the user's action.
  • the scenario execution unit 372 changes the user's action from the scenario in which the user is participating.
  • the corresponding event is searched (step S626).
  • the event search is performed with reference to the scenario data stored in the scenario DB 374 and in which the user is participating.
  • the scenario management unit 37 refers to the event data as shown in Table 2 above and searches for an event triggered by the user's action.
  • the scenario execution unit 372 extracts information on the searched event from the scenario data (step S629), and transmits information related to the corresponding designated action (designated action for clearing the event) to the client terminal 1 (step S629). S632).
  • the acquisition of the output result from each sensor by the client terminal 1 and the transmission to the agent server 2 can be performed periodically during the scenario holding period.
  • the client terminal 1 instructs the user through display output, audio output, or the like to perform a specified action for clearing the event (step S635).
  • the client terminal 1 acquires an output result from each sensor that detects the user's behavior or the like (step S638), and transmits the output result of each sensor to the agent server 2 (step S641).
  • the agent server 2 analyzes the output result from each sensor by the information analysis unit 366 (for example, analysis of behavior recognition), and determines whether or not the specified action is performed by the scenario execution unit 372 based on the analysis result. Judgment is made (step S644).
  • the information analysis unit 366 for example, analysis of behavior recognition
  • step S644 when it is determined that the specified action has been performed (step S644 / Yes), the scenario execution unit 372 determines that the corresponding event has been cleared (step S647), and sends an event to the client terminal 1. The fact that it has been cleared is transmitted (step S650).
  • the scenario execution unit 372 registers (updates) event clear information in the scenario DB 374.
  • the client terminal 1 notifies the user that the event has been cleared by display output or voice output (step S653).
  • a predetermined event is generated with the user's action as a trigger, the user is prompted to perform a predetermined action, and the scenario is advanced by clearing the event when the action is detected. Can do.
  • the scenario event generation trigger includes the above-described utterance (user voice), moving location (position information), multiple users meeting (position information of multiple users), and output results of each sensor (user behavior). Or it is good also as conditions containing at least any one or more among a user's facial expression (captured image), date and time. For example, it may be conditional on performing a certain utterance at a certain specific place or moving to a certain place at a certain time. In addition, among the triggers described above, whether or not an event has occurred may be determined in a predetermined order (a preset order, a high priority order, etc.).
  • the above-described event can also occur when the agent app is not started (running in the background).
  • an event for example, this is notified by a push notification (such as “agent app notification event occurs!”), And the content can be confirmed by starting the agent app.
  • -Scenario clear One scenario includes, for example, a plurality of events, and it is required to clear all events during the scenario holding period.
  • scenario clear according to the present embodiment will be described with reference to FIGS.
  • FIG. 41 is a sequence diagram showing scenario clear determination processing according to the present embodiment. As shown in FIG. 41, first, the scenario management unit 37 of the agent server 2 determines whether all events in the scenario in which the user is participating have been cleared (step S660).
  • step S660 when it is determined that all events have been cleared (step S660 / Yes), the scenario execution unit 372 determines that the scenario has been cleared (step S663), and the client terminal 1 has cleared the scenario. Is transmitted (step S666).
  • the scenario execution unit 372 registers (updates) scenario clear information in the scenario DB 374.
  • FIG. 42 shows an example of a notification screen when the scenario is cleared according to the present embodiment.
  • a notification such as “Scenario # 1“ Battle in XX City ”has been cleared!” And an OK button are displayed on the screen 128.
  • the OK button is tapped, the notification display screen is closed and, for example, the screen returns to the main screen of the agent app.
  • a computer-readable storage medium storing the computer program is also provided.
  • each configuration of the agent server 2 shown in FIGS. 3 and 15 to 18 may be in the client terminal 1 (smart phone, wearable terminal, etc.). Further, all the configurations of the agent server 2 shown in FIGS. 3 and 15 to 18 may be provided in the client terminal 1 so that all processing can be performed by the client terminal 1.
  • An agent storage unit for storing a phoneme database corresponding to a plurality of types of characters and an utterance phrase database;
  • a communication unit that receives a selection signal for selecting a specific character via the user's client terminal and transmits an utterance phrase according to the utterance phrase database of the specific character;
  • Based on the user's message received via the communication unit generating a converted message converted into the voice of the specific character using the phoneme database corresponding to the specific character;
  • a control unit that controls to return the generated conversion message and utterance phrase to the client terminal;
  • An information processing system comprising: (2) The information processing system according to (1), wherein the control unit generates an utterance phrase corresponding to the user message based on the user context received via the communication unit and the utterance phrase database.
  • the information processing system further includes a scenario storage unit that stores a plurality of scenarios in which the user can participate as a character, The control unit; Selecting a scenario stored in the scenario storage unit in response to a scenario selection signal from the user received via the communication unit; When the user context received via the communication unit matches an event generation condition described in the selected scenario, control is performed to notify the user of the occurrence of a predetermined event.
  • the information processing system according to any one of (4).
  • the content notified to the user when the predetermined event occurs includes information indicating a specific action
  • the control unit determines whether or not the specific action has been executed based on the user context newly received via the communication unit, and determines that the specific action has been executed.
  • the information processing system according to (5) or (6), wherein the user context used to determine the event occurrence condition is at least one of the user's position, speech, acceleration information, and biometric sensor information. .
  • the control unit receives each location information indicating the location of the client terminal of each user participating in the selected scenario by the communication unit, and other users participating in the same scenario around the user 8.
  • control is performed to notify the user of an event occurrence via the communication unit.
  • the control unit recognizes a human face in the captured image captured by the imaging unit of the client terminal received via the communication unit, the control unit displays an image of the other user's character to be superimposed on the face.
  • the information processing system according to (8), wherein control is performed to transmit to the client terminal.
  • the control unit recognizes the speech of another user from the sound collected by the sound collection unit of the client terminal received via the communication unit, the control unit converts the speech to the voice of the character of the other user.
  • the information processing system according to (8) or (9), wherein control is performed to generate a corresponding phrase based on the converted conversion message and the utterance phrase database and transmit the generated phrase to the client terminal.
  • (11) Processor Storing a phoneme database and an utterance phrase database corresponding to a plurality of types of characters in an agent storage unit; Receiving a selection signal for selecting a specific character via the user's client terminal, and transmitting the utterance phrase according to the utterance phrase database of the specific character by the communication unit; Based on the user's message received via the communication unit, generating a converted message converted into the voice of the specific character using the phoneme database corresponding to the specific character; And generating an utterance phrase of the specific character corresponding to the user message using the utterance phrase database; Controlling the generated conversion message and utterance phrase to be returned to the client terminal by the control unit; Including an information processing method.
  • Agent server 30 Dialog processing part 300 Dialog processing part 310 Question sentence search part 320 Answer sentence generation part 330 Conversation DB 340 Phoneme data acquisition unit 30a Dialog processing unit 31 Basic dialog processing unit 32 Character A dialog processing unit 33 Person B dialog processing unit 34 Person C dialog processing unit 35 User management unit 351 Login management unit 352 User information DB 353 Face information registration unit 354 User position information registration unit 36 Automatic speech control unit 361 User voice extraction unit 362 Phoneme data acquisition unit 363 Position information acquisition unit 364 Phrase search unit 365 Phrase DB 366 Information analysis unit 37 Scenario management unit 371 Data management unit 372 Scenario execution unit 373 Information analysis unit 374 Scenario DB 40 phoneme storage unit 41 basic phoneme DB 42 Character A Phoneme DB 43 Person B Phoneme DB 44 Person C Phoneme DB 50 Conversation DB Generation Unit 60 Phoneme DB Generation Unit 70 Advertisement Insertion Processing Unit 72 Advertising DB 80 Feedback acquisition processing unit 3 Network 10 Agent

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能な情報処理システムおよび情報処理方法を提供する。 【解決手段】ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの発話フレーズデータベースに応じた発話フレーズを送信する通信部と、通信部を介して受信したユーザのメッセージに基づいて、特定のキャラクターに対応する音素データベースを用いて特定のキャラクターの音声に変換した変換メッセージを生成し、さらにユーザのメッセージに対応する特定のキャラクターの発話フレーズを、発話フレーズデータベースを用いて生成し、生成した変換メッセージおよび発話フレーズをクライアント端末に返送するよう制御する制御部とを備える、情報処理システム。

Description

情報処理システムおよび情報処理方法
 本開示は、情報処理システムおよび情報処理方法に関する。
 近年、通信技術の発達により、ネットワークを介したメッセージのやり取りが頻繁に行われている。ユーザは、スマートフォンや携帯電話端末、タブレット端末等の情報処理端末を用いて、他端末から送信されたメッセージを確認したり、メッセージを送信したりすることができる。
 また、情報処理端末において、ユーザのメッセージに対して自動で応答を行うエージェントシステムが提案されている。このようなシステムに関し、例えば下記特許文献1には、服装、髪型、持ち物、性格といったエージェント作成用データをユーザが好きに組み合わせてエージェントを作成することができるエージェント作成装置が記載されている。
 また、下記特許文献2には、ユーザ情報からユーザの趣味・嗜好を含めた文化的背景を解釈し、その文化的背景に対応する動作をエージェントに行わせる装置が記載されている。また、下記特許文献3には、音声インタフェースエージェントにおいて、所定の感情を発生させる状況に特有に現れる予測不可能な付帯条件を学習し、学習された付帯条件を満たす新たな状況下で該所定の感情を想起させることが可能な感情生成装置が記載されている。
特開2003-186589号公報 特開2003-106846号公報 特開平11-265239号公報
 しかしながら、エージェントのキャラクターを様々設定出来ても、エージェントはあくまでもユーザの対話相手として存在するものであって、ユーザ自身が好きなエージェントのキャラクターになりきるといった体験を得ることは出来なかった。
 そこで、本開示では、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能な情報処理システムおよび情報処理方法を提案する。
 本開示によれば、複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースを記憶するエージェント記憶部と、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し、さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し、前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、を備える、情報処理システムを提案する。
 本開示によれば、プロセッサが、複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し、さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し、前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、を含む、情報処理方法を提案する。
 以上説明したように本開示によれば、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態による通信制御システムの全体構成を示す図である。 本実施形態による音声エージェントサーバの構成の一例を示すブロック図である。 本実施形態による対話処理部の構成例を示す図である。 本実施形態による会話DBの生成処理を示すフローチャートである。 本実施形態による音素DBの生成処理を示すフローチャートである。 本実施形態による対話制御処理を示すフローチャートである。 本実施形態による会話DBのデータ構成例について説明する図である。 本実施形態による会話DBの更新処理を示すフローチャートである。 本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。 本実施形態による基本対話用会話DBへの会話データの移行について説明する図である。 本実施形態による基本対話用DBへの会話データ移行処理を示すフローチャートである。 本実施形態による広告DBに登録されている広告情報の一例を示す図である。 本実施形態による広告内容の挿入処理を示すフローチャートである。 本実施形態による対話処理部の構成例を示す図である。 本実施形態によるユーザ管理部の構成例を示す図である。 本実施形態による自動発話制御部の構成例を示す図である。 本実施形態によるシナリオ管理部の構成例を示す図である。 本実施形態によるエージェントアプリケーションの購入処理を示すシーケンス図である。 本実施形態によるエージェントアプリケーションの購入時における表示画面例を示す図である。 本実施形態によるアカウント登録画面例を示す図である。 本実施形態によるメイン画面例を示す図である。 本実施形態による音声変換処理について説明する図である。 本実施形態による音声変換処理を示すシーケンス図である。 本実施形態によるAR変身による成りきりについて説明する図である。 本実施形態による場所に応じた自動発話処理を示すシーケンス図である。 本実施形態による人物属性や表情に応じた自動発話処理を示すシーケンス図である。 本実施形態によるユーザ行動に応じた自動発話処理を示すシーケンス図である。 本実施形態による心理状態に応じた自動発話処理を示すシーケンス図である。 本実施形態によるシナリオ取得処理を示すフローチャートである。 本実施形態によるシナリオ購入までのクライアント端末における画面表示例を示す図である。 本実施形態によるシナリオ購入までのクライアント端末における画面表示例を示す図である。 本実施形態によるシナリオ参加登録処理を示すシーケンス図である。 本実施形態によるシナリオ構成について説明する図である。 本実施形態によるシナリオ参加画面の一例を示す図である。 本実施形態によるエージェントAppがフォアグラウンドで起動中の場合におけるシナリオ開催開始通例例を示す図である。 本実施形態によるエージェントAppが非起動の場合におけるシナリオ開催開始通例例を示す図である。 本実施形態によるシナリオ実行処理を示すシーケンス図である。 本実施形態によるイベント発生時における表示画面例を示す図である。 本実施形態によるユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。 本実施形態による複数ユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。 本実施形態によるカメラをかざす行動をユーザに促す表示画面例を示す図である。 本実施形態による他のキャラクターのオーバーレイ表示について説明する図である。 本実施形態による各センサからの出力結果をトリガとしたイベントの実行処理を示すシーケンス図である。 本実施形態によるシナリオクリアの判断処理を示すシーケンス図である。 本実施形態によるシナリオクリア時の通知画面例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.構成
  2-1.システム構成
  2-2.サーバの構成
 3.システム動作処理
  3-1.会話データ登録処理
  3-2.音素DB生成処理
  3-3.対話制御処理
  3-4.会話DB更新処理
  3-5.広告挿入処理
 4.音声出力制御処理
  4-1.構成
  4-2.動作処理
  (4-2-1.エージェント購入処理)
  (4-2-2.音声変換処理)
  (4-2-3.自動発話処理)
  (4-2-4.シナリオ取得処理)
  (4-2-5.シナリオ実行処理)
 5.まとめ
 <<1.本開示の一実施形態による情報処理システムの概要>>
 本開示の一実施形態による情報処理システムは、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることを可能とする。以下、図1を参照して本実施形態による情報処理システムの概要について説明する。
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。エージェントとの対話は、例えばユーザが所有するスマートフォン等のクライアント端末1を介して行われる。クライアント端末1は、マイクロホンおよびスピーカーを有し、ユーザとの音声による対話を可能とする。
 ここで、上述したように、エージェントのキャラクターを様々設定出来ても、エージェントはあくまでもユーザの対話相手として存在するものであって、ユーザ自身が好きなエージェントのキャラクターになりきるといった体験を得ることは出来なかった。
 そこで、本実施形態では、エージェントがユーザと音声による自動会話を行う他、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることを可能とする。
 例えば、エージェントプログラムが起動している際、本実施形態による情報処理システムは、図1に示すように、ユーザが発話を行うと、その発話音声W1をエージェントキャラクター10の音声W2に変換してユーザのイヤホン等から再生する(音声変換処理)。このように、ユーザが話した言葉がエージェントキャラクター10(例えばヒーロー)の声で聞こえるため、ユーザはそのエージェントキャラクター10になりきった体験が得られる。また、本実施形態による情報処理システムは、変換した音声W2に続けて、ユーザの発話音声W1に対応する所定のフレーズを同エージェントキャラクター10の音声で続けて出力してもよい(図1に示す発話音声W3)(自動発話処理)。所定のフレーズとは、例えばユーザの発話音声W1に含まれるキーワード(またはフレーズ)に紐付けられて登録されているフレーズである。このようなフレーズを、ユーザの音声を変換した音声に続けて自動発話させることにより、そのキャラクターへのなりきり体験をより高めることができる。また、本実施形態による情報処理システムは、発話音声W1に含まれるキーワード(またはフレーズ)や、対応する所定のフレーズに応じた効果音を併せて再生してもよい。また、本実施形態による自動発話処理は、ユーザの発話音声に限らず、ユーザの行動や移動場所、表情、日時等に対応するフレーズや効果音を再生してもよい。
 また、本実施形態による情報処理システムは、エージェントキャラクター10にユーザ自身がなりきってシナリオに参加できるようにすることも可能である。例えばユーザが予め好きなエージェントとシナリオを購入すると、クライアント端末1に搭載された位置測位部(GPSなど)や各種センサ(加速度センサ、ジャイロセンサ、地磁気センサ、マイク、カメラ等)から検知された情報に基づくユーザの実世界の状況に応じてシナリオが展開される。具体的には、シナリオの進行に応じて各種イベントが開催され、ユーザはイベントに応じた行動は発話を行うことで、イベントを体験することができる。
 また、本実施形態では、同シナリオに参加する他のエージェントキャラクターになりきった人物と出会うイベントを開催することも可能である。例えば、キャラクター同士が特定の時間、場所で出会うシーンを含むシナリオプログラムが実行されている際に、各キャラクターになりきった人物が特定の時間に特定の場所に移動すると、特別なイベントが発生する。具体的には、例えば情報処理システムは、各クライアント端末1において相手の発話音声を相手のエージェントキャラクターの音声に変換してイヤホン等から再生させることで、ユーザ同士がシナリオに登場するキャラクターとして会話を楽しむことができるようにしてもよい。また、本実施形態では、ユーザがクライアント端末1を相手にかざしてクライアント端末1のカメラで相手の姿が捉えられた際に、相手の姿に相手のエージェントキャラクターの画像を重畳表示させることで、聴覚的のみならず視覚的にも相手ユーザのエージェントキャラクターへの成りきりを直感的に提供することができる。
 なお、本実施形態による情報処理システム(エージェントシステム)は、音声により応答を行う音声エージェントに限定されず、クライアント端末1においてテキストベースで応答を行うテキスト対応エージェントであってもよい。
 以下、本実施形態による情報処理システムのシステム構成と、各装置の基本的な構成および動作処理について具体的に説明する。なお以降では、本実施形態による情報処理システムを通信制御システムと称して説明する。
 <<2.構成>>
  <2-1.システム構成>
 続いて、上述した本実施形態による通信制御システムの全体構成について図2を参照して説明する。図2は、本実施形態による通信制御システムの全体構成を示す図である。
 図2に示すように、本実施形態による通信制御システムは、クライアント端末1およびエージェントサーバ2を含む。
 エージェントサーバ2は、ネットワーク3を介してクライアント端末1と接続し、データの送受信を行う。具体的には、エージェントサーバ2は、クライアント端末1で収音され、送信された発話音声に対する応答音声を生成し、クライアント端末1に送信する。エージェントサーバ2は、1以上のエージェントに対応する音素DB(データベース)を有し、特定のエージェントの音声で応答音声を生成することが可能である。ここで、エージェントとは、漫画、アニメ、ゲーム、ドラマ、映画等のキャラクターや、芸能人、著名人、歴史上の人物等であってもよいし、また、個人に特定せず、例えば世代別の平均的な人物であってもよい。また、エージェントは、動物や擬人化されたキャラクターであってもよい。また、エージェントは、ユーザ本人の性格を反映した人物や、ユーザの友人、家族、知人等の性格を反映した人物であってもよい。
 また、エージェントサーバ2は、各エージェントの性格を反映した応答内容を生成することが可能である。エージェントサーバ2は、エージェントを介して、ユーザのスケジュール管理、メッセージの送受信、情報提供等、様々なサービスをユーザとの対話を通じて提供し得る。
 なおクライアント端末1は、図2に示すようなスマートフォンに限定されず、例えば携帯電話端末、タブレット端末、PC(パーソナルコンピュータ)、ゲーム機、ウェアラブル端末(スマートアイグラス、スマートバンド、スマートウォッチ、スマートネック等)等であってもよい。また、クライアント端末1は、ロボットであってもよい。
 以上、本実施形態による通信制御システムの概要について説明した。続いて、本実施形態による通信制御システムのエージェントサーバ2の構成について図3を参照して具体的に説明する。
  <2-2.エージェントサーバ2>
 図3は、本実施形態によるエージェントサーバ2の構成の一例を示すブロック図である。図3に示すように、エージェントサーバ2は、音声エージェントI/F(インタフェース)20、対話処理部30、音素記憶部40、会話DB生成部50、音素DB生成部60、広告挿入処理部70、広告DB72、およびフィードバック取得処理部80を有する。
 音声エージェントI/F20は、音声データの入出力部、音声認識部、および音声生成部として機能する。入出力部としては、ネットワーク3を介してクライアント端末1と送受信を行う通信部が想定される。音声エージェントI/F20は、クライアント端末1からユーザの発話音声を受信し、音声認識によりテキスト化することが可能である。また、音声エージェントI/F20は、対話処理部30から出力されたエージェントの回答文データ(テキスト)を、当該エージェントに対応する音素データを用いて音声化し、生成したエージェントの応答音声をクライアント端末1に送信する。
 対話処理部30は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェントサーバ2内の動作全般を制御する。対話処理部30は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、本実施形態による対話処理部30は、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34として機能する。
 キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34は、エージェント毎に特化された対話を実現する。ここでは、エージェントの一例として「キャラクターA」「人物B」「人物C」を挙げているが、本実施形態は当然これに限定されず、さらに多数のエージェントに特化した対話を実現する各対話処理部を有していてもよい。基本対話処理部31は、エージェント毎に特化されていない、汎用の対話を実現する。
 ここで、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34に共通する基本構成について図4を参照して説明する。
 図4は、本実施形態による対話処理部300の構成例を示す図である。図4に示すように、対話処理部300は、質問文検索部310、回答文生成部320、音素データ取得部340、および会話DB330を有する。会話DB330は、質問文データと回答文データが組になった会話データが保存されている。エージェントに特化した対話処理部では、かかる会話DB330にエージェントに特化した会話データが保存され、汎用の対話処理部では、かかる会話DB330にエージェントに特化しない汎用の会話データ(すなわち、基本会話データ)が保存されている。
 質問文検索部310は、音声エージェントI/F20から出力された、ユーザの質問音声(発話音声の一例)を認識してテキスト化した質問文と一致する質問文データを会話DB330から検索する。回答文生成部320は、質問文検索部310により検索した質問文データに対応付けて保存されている回答文データを会話DB330から抽出し、回答文データを生成する。音素データ取得部340は、回答文生成部320により生成された回答文を音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば、キャラクターA対話処理部32の場合、キャラクターA音素DB42から、回答文データをキャラクターAの音声で再生するための音素データを取得する。そして、対話処理部300は、生成した回答文データおよび取得した音素データを音声エージェントI/F20に出力する。
 音素記憶部40は、エージェント毎の音声を生成するための音素データベースを格納する。音素記憶部40は、ROM(Read Only Memory)およびRAM(Random Access Memory)により実現され得る。図3に示す例では、基本音素DB41、キャラクターA音素DB42、人物B音素DB43、人物C音素DB44を格納する。各音素DBには、音素データとして、例えば音素片とその制御情報である韻律モデルが記憶されている。
 会話DB生成部50は、対話処理部300の会話DB330を生成する機能を有する。例えば会話DB生成部50は、想定される質問文データを収集し、各質問に対応する回答文データを収集した後に、質問文データと回答文データとを組にして保存する。そして、会話DB生成部50は、所定数の会話データ(質問文データと回答文データとの組、例えば100組)が集まったら、エージェントの会話データセットとして会話DB330に登録する。
 音素DB生成部60は、音素記憶部40に格納されている音素DBを生成する機能を有する。例えば音素DB生成部60は、所定のテキストを読み上げた音声情報を解析して、音素片とその制御情報である韻律モデルに分解し、所定数以上の音声情報が収集できたら音素データとして音素DBに登録する処理を行う。
 広告挿入処理部70は、エージェントの対話に広告情報を挿入する機能を有する。挿入する広告情報は、広告DB72から抽出し得る。広告DB72には、企業等の提供側(ベンダー、サプライヤー)から依頼された広告情報(例えばテキスト、画像、音声等の広告内容、広告主、広告期間、広告対象者等の情報)が登録されている。
 フィードバック取得処理部80は、エージェントの対話に、フィードバックを取得するための質問を挿入し、ユーザからフィードバックを得るための機能を有する。
 以上、本実施形態によるエージェントサーバ2の構成について具体的に説明した。なお、本実施形態によるエージェントサーバ2の構成は、図3に示す例に限定されない。例えば、エージェントサーバ2が有する各構成は、各々ネットワーク上の他サーバで構成されていてもよい。
 続いて、本実施形態による通信制御システムの基本的な動作処理について図5~図14を参照して説明する。
 <<3.システム動作処理>>
 <3-1.会話データ登録処理>
 図5は、本実施形態による会話DB330の生成処理を示すフローチャートである。図5に示すように、まず、会話DB生成部50は、想定される質問文を保存する(ステップS103)。
 次に、会話DB生成部50は、質問文に対応する(対の)回答文を保存する(ステップS106)。
 次いで、会話DB生成部50は、質問文と回答文のペア(会話データとも称す)が所定数集まったか否かを判断する(ステップS109)。
 そして、質問文と会話文のペアが所定数集まった場合(ステップS109/Yes)、会話DB生成部50は、質問文および回答文の多数のペアから成るデータセットを会話DB330に登録する(ステップS112)。質問文および回答文のペアの一例としては、例えば下記のようなものが想定される。
 質問文および回答文のペア例
 ペア1
  質問文:おはよう。
  回答文:今日の調子はどうですか?
 ペア2
  質問文:今日の天気は?
  回答文:今日の天気は○○です。
 このようなペアが、会話データとして会話DB330に登録され得る。
 <3-2.音素DB生成処理>
 図6は、本実施形態による音素DBの生成処理を示すフローチャートである。図6に示すように、まず、音素DB生成部60は、例文の表示を行う(ステップS113)。例文の表示は、例えば図示しない情報処理端末のディスプレイに、音素データ生成のために必要な例文を表示する。
 次に、音素DB生成部60は、例文を読み上げた音声を録音し(ステップS116)、録音音声を分析する(ステップS119)。例えば、エージェントの音声を担当する人物により読み上げられた音声情報が情報処理端末のマイクロホンにより収集され、音素DB生成部60がこれを受信し、記憶し、さらに音声分析を行う。
 次いで、音素DB生成部60は、音声情報に基づいて、韻律モデルを生成する(ステップS122)。韻律モデルとは、音声の韻律的特徴(例えば音の高低、音の強弱、発話速度等)を示す韻律パラメータを抽出するものであって、個人毎に異なる。
 次に、音素DB生成部60は、音声情報に基づいて、音素片(音素データ)を生成する(ステップS125)。
 次いで、音素DB生成部60は、韻律モデルおよび音素片を保存する(ステップS128)。
 続いて、音素DB生成部60は、韻律モデルおよび音素片が所定数集まったか否かを判断する(ステップS131)。
 そして、韻律モデルおよび音素片が所定数集まった場合(ステップS131/Yes)、音素DB生成部60は、韻律モデルおよび音素片を、所定のエージェント用の音素データベースとして音素記憶部40に登録する(ステップS134)。
 <3-3.対話制御処理>
 図7は、本実施形態による対話制御処理を示すフローチャートである。図7に示すように、まず、音声エージェントI/F20は、ユーザの質問音声およびエージェントIDを取得したか否かを確認する(ステップS143)。エージェントIDは、キャラクターA、人物B、人物Cといった特定のエージェントを示す識別情報である。ユーザは、エージェント毎の音素データを購入することができ、例えば購入処理時に購入したエージェントのIDがクライアント端末1に保存される。
 次に、ユーザの質問音声およびエージェントIDを取得すると(ステップS146/Yes)、音声エージェントI/F20は、質問音声を音声認識し、テキスト化する(ステップS149)。音声エージェントI/F20は、テキスト化した質問文を、エージェントIDで指定された特定エージェントの対話処理部に出力する。例えば「エージェントID:キャラクターA」の場合、音声エージェントI/F20は、テキスト化した質問文をキャラクターA対話処理部32に出力する。
 次いで、対話処理部30は、エージェントIDで指定された特定エージェントの会話DBから、テキスト化した質問文と一致する質問文を検索する(ステップS152)。
 次に、一致する質問があった場合(ステップS155/Yes)、キャラクターA対話処理部32は、質問に対応する(対になって保存されている)回答文データを特定エージェントの会話DBから取得する(ステップS158)。
 一方、一致する質問がなかった場合(ステップS155/No)、基本対話処理部31の会話DBから、テキスト化した質問文と一致する質問文が検索される(ステップS161)。
 一致する質問文があった場合(ステップS161/Yes)、基本対話処理部31は、質問に対応する(対になって保存されている)回答文データを基本対話処理部31の会話DBから取得する(ステップS167)。
 一方、一致する質問文がなかった場合(ステップS164/No)、基本対話処理部31は、一致する質問文が無い場合の回答文データ(例えば、「質問が解りません」といった回答文)を取得する(ステップS170)。
 次いで、キャラクターA対話処理部32により、エージェントIDで指定された特定エージェントの音素DB(ここでは、キャラクターA音素DB42)を参照し、回答文データの音声を生成するためのキャラクターAの音素データが取得される(ステップS173)。
 次に、取得された音素データと回答文データが音声エージェントI/F20に出力される(ステップS176)。
 そして、音声エージェントI/F20は、回答文データ(テキスト)を音素データを用いて音声化(音声合成)し、クライアント端末1に送信する(ステップS179)。クライアント端末1では、キャラクターAの音声で回答文が再生される。
 <3-4.会話DB更新処理>
 次に、各対話処理部300の会話DB330の更新処理について説明する。本実施形態では、ユーザとの会話によって会話DB330を成長させることが可能である。
 まず、会話DB330のデータ構成例について図8を参照して補足説明を行う。図8は、本実施形態による会話DB330のデータ構成例について説明する図である。図8に示すように、各会話DB330は、個人化レイヤー331と共通レイヤー332という2つのレイヤーを有する。例えばキャラクターA用会話DB330Aの場合、共通レイヤー332Aには、キャラクターAの性格や特徴が反映された会話データが保持される。一方、個人化レイヤー331Aには、ユーザとの会話により当該ユーザ向けにカスタマイズされた会話データが保持される。すなわち、キャラクターA音素DB42およびキャラクターA対話処理部32がセットでユーザに提供(販売)されるところ、あるユーザXと、ユーザYは、最初は同じキャラクターAと対話を行う(共通レイヤー332Aに保持されている会話データが使用される)が、対話を続けるにつれて、各ユーザ向けにカスタマイズされた会話データが、ユーザ毎の個人化レイヤー331Aに蓄積される。これにより、ユーザX、ユーザYそれぞれの好みに応じたキャラクターAとの対話を提供できるようになる。
 またエージェント「人物B」が、キャラクターAのような特定の性格を有さない平均的な世代別の人物の場合も、会話データがユーザ向けにカスタマイズされ得る。すなわち、例えば「人物B」が『20代の人物』の場合、共通レイヤー332Bには20代の平均的な会話データが保持され、ユーザとの対話を続けることでカスタマイズされた会話データがユーザ毎の個人化レイヤー331Bに保持される。また、ユーザは、人物Bの音声として「男性」、「女性」、「高い声」、「低い声」といった好きな音素データを人物B音素DB43から選択し、購入することも可能である。
 このような会話DB330のカスタマイズを行う際の具体的な処理について、図9を参照して説明する。図9は、本実施形態による会話DB330の更新処理を示すフローチャートである。
 図9に示すように、まず、音声エージェントI/F20は、クライアント端末1からユーザの質問音声を取得(受信)し、これを音声認識によりテキスト化する(ステップS183)。テキスト化されたデータ(質問文データ)は、エージェントIDにより指定されている特定エージェントの対話処理部(ここでは、例えばキャラクターA対話処理部32)に出力される。
 次に、キャラクターA対話処理部32は、質問文データが所定のコマンドであるか否かを判断する(ステップS186)。
 次いで、所定のコマンドである場合(ステップS186/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、会話DB330Aの個人化レイヤー331Aに質問文データと対で登録する(ステップS189)。所定のコマンドとは、例えば「NG」、「設定」といった言葉であってもよい。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
 ユーザ:「おはよう」
 キャラクターA:「おはよう」
 ユーザ:「NG。元気で頑張ってと答えて」
 キャラクターA:「元気で頑張って」
 上記の会話の流れでは、『NG』が所定のコマンドであって、キャラクターA対話処理部32は、ユーザから『NG』と発せられた後、ユーザ指定の回答文データ『元気で頑張って』を、質問文データ『おはよう』と対にして会話DB330Aの個人化レイヤー331Aに登録する。
 一方、所定のコマンドでない場合(ステップS186/No)、キャラクターA対話処理部32は、質問文データと対になって保持されている回答文データをキャラクターA用会話DB330Aから検索する。問文データと対になって保持されている回答文データがキャラクターA用会話DB330Aに保持されていない場合、すなわち、ユーザの質問が回答文の無い質問であった場合(ステップS192/Yes)、キャラクターA対話処理部32は、ユーザ指定の回答文データを、質問文と対にして個人化レイヤー331Aに登録する(ステップS195)。例えば以下のような会話の流れにより、キャラクターAの会話DBをカスタマイズすることができる。
 ユーザ:「元気?」
 キャラクターA:「質問がわかりません」(該当する回答が無い場合の回答データ例)
 ユーザ:「『元気?』と聞いたら、『今日も元気だよ』と答えて」
 キャラクターA:「今日も元気だよ」
 上記会話の流れでは、『元気?』と対になって保持される回答文データが無いため、該当する回答が無い場合の回答データ例である『質問がわかりません』がキャラクターA対話処理部32により取得され、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力され、クライアント端末1で再生される。次いで、ユーザ指定の回答文『今日も元気だよ』が入力されると、キャラクターA対話処理部32は、質問文データ『元気?』と対にして個人化レイヤー331Aに登録する。
 なお、回答文の有る質問であった場合(ステップS192/No)、キャラクターA対話処理部32は、当該回答文データを取得し、対応するキャラクターAの音素データと共に音声エージェントI/F20に出力し、クライアント端末1で回答文がキャラクターAの音声で再生される(ステップS198)。
 次いで、個人化レイヤーから共通レイヤーへの会話データ移行について、図10を参照して説明する。図10は、本実施形態による個人化レイヤーから共通レイヤーへの会話データ移行処理を示すフローチャートである。ここでは、一例としてキャラクターA対話処理部32の個人化レイヤー331Aから共通レイヤー332Aへの会話データ移行処理について説明する。
 図10に示すように、まず、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aを定期的にサーチし(ステップS203)、実質的に同じ内容の会話ペア(質問文データと回答文データのペア)を抽出する(ステップS206)。実質的に同じ内容の会話ペアとは、例えば質問文「元気?」と回答文「今日も元気だよ!」のペアと、質問文「元気ですか?」と回答文「今日も元気だよ!」のペアは、質問文が丁寧語か否かの違いのみであって、実質的に同じ内容の会話ペアと判断され得る。
 次に、キャラクターA対話処理部32は、ユーザ毎の個人化レイヤー331Aから会話ペアが所定数以上抽出された場合(ステップS209/Yes)、当該会話ペアを(ユーザ毎の)共通レイヤー332Aに登録する(ステップS212)。
 このように、ユーザ毎の個人化レイヤー331において実質的に内容が同じ会話ペアを共通レイヤー332に移行することで、共通レイヤー332を成長(会話ペアを拡充)させることが可能となる。
 また、本実施形態では、特定エージェントの会話DB(具体的には共通レイヤー)から基本対話用の会話DBへ会話データを移行して基本対話用の会話DBを成長させることも可能である。図11は、本実施形態による基本対話用会話DB330Fへの会話データの移行について説明する図である。例えば、ユーザXおよびユーザYが各々エージェント「キャラクターA」を選択(購入)し、ユーザZがエージェント「人物B」を選択(購入)している場合、図11に示すように、ユーザXのキャラクターA用会話DB330A-X、ユーザYのキャラクターA用会話DB330A-Y、およびユーザZの人物B用会話DB330B-Zが対話処理部30に存在し得る。この場合、各個人化レイヤー331A-X、331A-Y、331B-Zには、各ユーザX、ユーザY、ユーザZとの対話に応じて独自の(カスタマイズされた)会話ペアが登録されていく(図9参照)。次いで、同じエージェントの個人化レイヤー331A-X、331A-Yにおいて実質同じ会話ペアが所定数あると、ユーザ毎の共通レイヤー332A-X、332A-Yに各々登録される(図10参照)。
 そして、対話処理部30は、複数のエージェント(異なるエージェントを含んでもよい)の共通レイヤー332A-X、332A-Y、332B-Zから実質同じ会話ペアが所定数以上抽出された場合、上位の基本対話用会話DB330Fに会話ペアを移行する。基本対話用会話DB330Fは、基本対話処理部31が有する会話DBである。これにより、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。かかるデータ移行処理について、図12を参照して具体的に説明する。図12は、本実施形態による基本対話用DB330Fへの会話データ移行処理を示すフローチャートである。
 図12に示すように、まず、対話処理部30は、定期的に会話DB330の複数の共通レイヤー332をサーチし(ステップS223)、実質同じ会話ペアを抽出する(ステップS226)。
 次に、対話処理部30は、複数の共通レイヤー332から実質同じ会話ペアが所定数以上抽出された場合(ステップS229/Yes)、当該会話ペアを基本対話用会話DB330Fに登録する(ステップS232)。
 このように、複数のエージェントにおける会話DB330の共通レイヤー332において実質的に内容が同じ会話ペアを、基本対話用会話DB330Fに移行することで、基本対話用会話DB330Fを成長(会話ペアを拡充)させることが可能となる。
 <3-5.広告出力処理>
 続いて、広告挿入処理部70による広告情報の挿入処理について図13~図14を参照して説明する。本実施形態では、広告挿入処理部70により、エージェントの発言に広告DB72に格納されている広告情報の挿入を行うことが可能である。広告DB72には、予め広告情報が登録され得る。図13は、本実施形態による広告DB72に登録されている広告情報の一例を示す図である。
 図13に示すように、広告情報621は、例えばエージェントID、質問文、広告内容、条件、および確率を含む。エージェントIDは広告内容を発言するエージェントを指定し、質問文は広告内容を挿入するトリガとなるユーザの質問文を指定し、広告内容はエージェントの対話に挿入する広告文章である。また、条件は、広告内容を挿入する条件であって、確率は広告内容を挿入する確率を示す。例えば図13の1段目に示す例では、エージェント「キャラクターA」との対話において、30歳以下のユーザからの質問文に「チョコレート」という単語が含まれている場合に、「BB社の新しく発売されたチョコはミルクがたくさん入っていて美味しいよ」といった広告内容が回答文に挿入される。また、トリガとなる質問文が発せられた際に毎回広告内容を挿入するとユーザが煩わしく思ってしまうこともあるため、本実施形態では、広告を挿入する確率を設定するようにしてもよい。かかる確率は広告料に応じて決定されてもよい。例えば広告料が高いほど確率が高く設定される。
 このような広告内容の挿入処理について図14を参照して具体的に説明する。図14は、本実施形態による広告内容の挿入処理を示すフローチャートである。
 図14に示すように、まず、広告挿入処理部70は、ユーザとエージェントとの対話(具体的には、対話処理部30による対話処理)を監視する(ステップS243)。
 次に、広告挿入処理部70は、ユーザとエージェントとの対話に、広告DB72に登録されている質問文と同一の内容の質問文が登場したか否かを判断する(ステップS246)。
 次いで、同一の内容の質問文が登場した場合(ステップS246/Yes)、広告挿入処理部70は、該当する質問文と対応付けられている広告挿入の条件および確率を確認する(ステップS249)。
 続いて、広告挿入処理部70は、条件および確率に基づいて、現在、広告が出せる状態であるか否かを判断する(ステップS252)。
 次に、広告が出せる状態である場合(ステップS252/Yes)、広告挿入処理部70は、対話処理部30による対話処理を一時停止させ(ステップS255)、広告内容を対話に挿入する(ステップS258)。具体的には、例えばユーザの質問文に対するエージェントの回答文に、広告内容を挿入させる。
 そして、広告内容を含む対話(会話文データ)が対話処理部30から音声エージェントI/F20に出力され、音声エージェントI/F20からクライアント端末1に送信され、エージェントの音声で再生される(ステップS261)。具体的には、例えば以下のような会話により、キャラクターAの発言としてユーザに広告内容を提示することができる。
 ユーザ:「おはよう」
 キャラクターA:「おはよう!今日の調子はどうですか?」
 ユーザ:「元気だよ。何か美味しい物食べたいな」
 キャラクターA:「CC店の焼肉が美味しいらしいよ」
 上記会話では、まず、ユーザの質問文「おはよう」に対して、キャラクターAの会話DBから検索された対応する回答文「おはよう!今日の調子はどうですか?」が音声出力される。次いで、ユーザの質問文「元気だよ。何か美味しい物食べたいな」に、広告挿入のトリガとなる質問文「何か美味しい物食べたいな」が含まれているため(図13の2段目参照)、広告挿入処理部70は広告挿入処理を行い、キャラクターAの音声で広告内容「CC店の焼肉が美味しいらしいよ」といった回答文が出力される。
 以上、本実施形態による通信制御システムの基本的な動作処理として、会話データ登録処理、音素DB生成処理、対話制御処理、会話DB更新処理、および広告挿入処理について説明した。
 さらに、本実施形態による通信制御システムの対話処理部30は、エージェントの音声発話機能を用いて、エージェントのキャラクターにユーザ自身がなりきる体験を提供し、エージェントシステムの楽しさを高めることを可能とする。このような本実施形態による対話処理部30の音声出力制御処理について、図15~図42を参照して具体的に説明する。
 <<4.音声出力制御処理>>
 <4-1.構成>
 まず、本実施形態による音声出力制御処理を行う対話処理部30aの構成について、図15を参照して説明する。
 図15は、本実施形態による対話処理部30aの構成例を示す図である。図15に示すように、対話処理部30aは、基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、人物C対話処理部34、ユーザ管理部35、自動発話制御部36、およびシナリオ管理部37を有する。
 基本対話処理部31、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34は、図3および図4を参照して説明したように、ユーザの発話に対応するエージェントの応答を生成する機能を有する。基本対話処理部31は、エージェントに特化しない汎用の応答を生成し、キャラクターA対話処理部32、人物B対話処理部33、および人物C対話処理部34は、各エージェントキャラクター(キャラクターA、人物B、人物C)にそれぞれ特化した応答を生成する。
 (ユーザ管理部35)
 ユーザ管理部35は、ユーザ情報の管理(登録、変更、更新、削除)を行う。図16に、本実施形態によるユーザ管理部35の構成例を示す。図16に示すように、ユーザ管理部35は、ログイン管理部351、ユーザ情報DB352、顔情報登録部353、およびユーザ位置情報登録部354を有する。
 ログイン管理部351は、クライアント端末1からの要求に応じて、ユーザのログイン認証を行う。具体的には、例えばログイン管理部351は、ユーザによりクライアント端末1で入力されたアカウント情報(アカウント名、パスワード)をユーザ情報DB352と参照し、ログイン認証を行う。ユーザ情報DB352は、ユーザID、アカウント情報、ユーザ属性情報(誕生日、性別、郵便番号等)、顔情報、購入した(ユーザ所有の)エージェントIDおよびシナリオID等を含むユーザ情報を記憶する。これらのユーザ情報は、例えばエージェントサーバ2の音声エージェントI/F20(図3参照)を介してクライアント端末1から送信され、登録される。
 顔情報登録部353は、ユーザの顔情報をユーザ情報DB52に登録する。ユーザの顔情報は、例えばクライアント端末1に設けられたカメラにより撮像されたユーザの顔画像を解析した結果であって、クライアント端末1からエージェントサーバ2へ送信され得る。なお、クライアント端末1から顔画像が送信され、顔情報登録部353において解析してもよい。
 ユーザ位置情報登録部354は、ユーザの現在位置情報をユーザ情報DB52に登録する。ユーザの現在位置情報は、例えばクライアント端末1に設けられたGPS(Global Positioning System)等の位置測位部により測位され、定期的にエージェントサーバ2に送信される。
 (自動発話制御部36)
 自動発話制御部36は、エージェントによる自動的な発話を制御する機能を有する。図17に、本実施形態による自動発話制御部36の構成例を示す。図17に示すように、自動発話制御部36は、ユーザ音声抽出部361、音素データ取得部362、位置情報取得部363、フレーズ検索部364、フレーズDB365、および情報解析部366を有する。
 ユーザ音声抽出部361は、入力された音声情報を解析し、ユーザ音声を抽出する。かかる音声情報は、例えばクライアント端末1のマイクロホンにより収音され、ネットワークを介してクライアント端末1からエージェントサーバ2に送信される。エージェントサーバ2では、音声エージェントI/F20により受信した当該音声情報を対話処理部30aへ出力する。なおクライアント端末1は、継続的、定期的、または所定のタイミングで周辺の音声情報を収音し、エージェントサーバ2へ送信する。ユーザ音声抽出部361は、抽出したユーザ音声をテキスト化し(発話テキストの生成)、音素データ取得部362へ出力する。
 位置情報取得部363は、ユーザの現在位置情報を取得し、フレーズ検索部364へ出力する。ユーザの現在位置情報は、クライアント端末1から送信され得る。
 情報解析部366は、クライアント端末1から送信されたユーザ状況を示す種々の情報を解析し、解析結果をフレーズ検索部364へ出力する。具体的には、例えば情報解析部366は、クライアント端末1から送信された顔情報(撮像画像に基づいて解析された、現在のユーザの顔情報または周囲に居る人物の顔情報)から顔の表情を解析する。また、情報解析部366は、クライアント端末1から送信された加速度情報(加速度センサにより検知された情報)からユーザ行動(走っている、ジャンプしている、寝ている等)を解析する。また、情報解析部366は、クライアント端末1から送信された音声情報(マイクロホンにより収音された音声情報)から環境音(ユーザ周辺の雑音等)を解析する。また、情報解析部366は、クライアント端末1から送信された生体情報(脈拍センサ、心拍センサ、発汗センサ、体温センサ、血圧センサ、脳波センサ等により検知された情報)からユーザ状態(緊張している、怒っている、悲しんでいる、喜んでいる等)を解析する。そして、情報解析部366は、解析結果(ユーザまたは周辺人物の状況)をフレーズ検索部364へ出力する。
 フレーズ検索部364は、位置情報取得部363により取得されたユーザ位置、情報解析部366により解析されたユーザまたは相手の表情、ユーザ行動、またはユーザ状況等に応じたフレーズ(発話フレーズとも称す)をフレーズDB365から検索し、検索結果を音素データ取得部362へ出力する。フレーズには、ナレーションや効果音が紐付けられていてもよい。また、フレーズDB365は、エージェントキャラクター毎のフレーズデータが格納される。ここで、下記表1に、フレーズDB365に格納されるエージェントキャラクター「ヒーロー」のフレーズデータ例を示す。下記表1に示すように、フレーズDB365には、状況とフレーズや効果音が対応付けて記憶されている。下記表1に示す例では、一のセンサ種別に「状況」が対応付けられているが、本実施形態はこれに限定されず、複数のセンサの解析結果に基づいて「状況」が総合的に判断されてもよい。また、本実施形態では、複数の状況(場所、表情、時刻、状態等)が条件を満たす場合に対応する「フレーズ、効果音」が対応付けられていてもよい。
Figure JPOXMLDOC01-appb-T000001
 音素データ取得部362は、音声抽出部361から出力された発話テキスト、またはフレーズ検索部364から出力されたフレーズ、ナレーションを音声化するための音素データを、対応するエージェントの音素記憶部40から取得する。例えば音素データ取得部362は、ユーザ音声をユーザ指定のエージェントの音声に変換するため、当該エージェントの音素データを発話テキストに応じて取得する。クライアント端末1からは、特定のエージェントキャラクターを選択する選択信号が送信され得る。
 (シナリオ管理部37)
 シナリオ管理部37は、エージェントキャラクターに紐付けられた各シナリオの管理を行う。図18に、本実施形態によるシナリオ管理部37の構成例を示す。図18に示すように、シナリオ管理部37は、データ管理部371、シナリオ実行部372、情報解析部373、およびシナリオDB374を有する。
 データ管理部371は、シナリオDB374に格納されているシナリオの登録、変更、更新、削除といった管理を行う。シナリオDB374には、各エージェントキャラクターに対応する1以上のシナリオデータが格納されている。シナリオデータには、タイトル、あらすじ、購入金額等が付随情報として付与され、さらに、イベント(シナリオイベントとも称す)に関するデータが含まれる。イベントに関するデータには、イベント発生のトリガとなる状況(場所、ユーザ行動、表情、ユーザ発話等)と、イベントの開催時刻(開催期間)等が含まれる。
 シナリオ実行部372は、ユーザが参加中のシナリオに従って、エージェントキャラクターの音声や画像をユーザに提示するよう制御する。具体的には、シナリオ実行部372は、シナリオに基づく音声や画像等の提示情報を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信するよう制御する。また、シナリオ実行部372は、情報解析部373による解析結果に基づいて、シナリオに含まれるイベントのトリガ判断を行い、イベントが発生する場合はイベントの音声や画像等の提示情報を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信するよう制御する。
 情報解析部373は、クライアント端末1から送信されたユーザ状況を示す種々の情報を解析し、解析結果をフレーズ検索部364へ出力する。ユーザ状況を示す種々の情報とは、例えば位置情報、顔情報(撮像画像に基づいて解析された、現在のユーザの顔情報または周囲に居る人物の顔情報)、加速度情報、音声情報、生体情報等である。
 ここで、下記表2に、シナリオDB374に格納されるシナリオデータに含まれるイベントデータ例を示す。下記表2に示すように、イベントデータでは、トリガ発生の条件、イベント内容、およびアクションが対応付けられている。
Figure JPOXMLDOC01-appb-T000002
 以上、本実施形態による対話処理部30aの構成について具体的に説明した。続いて、本実施形態による動作処理について図19~図42を参照して具体的に説明する。
 <4-2.動作処理>
 (4-2-1.エージェント購入処理)
 図19は、本実施形態によるエージェントアプリケーションの購入処理を示すシーケンス図である。ここで、エージェントアプリケーションとは、特定のエージェントキャラクターによる自動対話をクライアント端末1で享受するために使用されるソフトウェアであって、エージェントアプリケーションの購入は、「エージェントの購入」とも言える。以下、アプリケーションを「App」とも称する。
 図19に示すように、まず、クライアント端末1は、エージェントサーバ2により提供されるアプリケーションショップのWebサイトから任意の(すなわち、ユーザにより選択された)エージェントAppのダウンロードおよびインストールを行う(ステップS270)。なお、クライアント端末1とエージェントサーバ2は、ネットワークを介して接続される。エージェントサーバ2のデータの送受信は、音声エージェントI/F20により行われ得る。
 次いで、クライアント端末1は、エージェントAppを起動(初回起動)する(ステップS273)。ユーザアカウントが登録済みでない場合(ステップS276/No)、アカウントの登録処理をエージェントサーバ2に要求する(ステップS279)。
 次に、エージェントサーバ2のユーザ管理部35(図16参照)は、クライアント端末1からの要求に応じて、新規アカウント情報をユーザ情報DB352に登録する(ステップS282)。新規アカウント情報は、アカウント名やパスワード、ユーザ属性情報(性別、生年月日、ニックネーム)等であって、クライアント端末1においてユーザにより入力され、アカウント登録処理の要求と共に送信される。
 一方、ユーザアカウントが登録済みである場合(ステップS276/Yes)、クライアント端末1は、ログイン処理をエージェントサーバ2に要求する(ステップS285)。
 次いで、新規アカウント登録を行った場合若しくはログイン処理要求を受信した場合、エージェントサーバ2のログイン管理部351は、ユーザ情報DB352を参照し、アカウントのログイン処理を行う(ステップS288)。ログイン処理の要求では、クライアント端末1においてユーザにより入力されたアカウント名とパスワードが送信されるので、ログイン管理部351はユーザ情報DB352を参照して照合する。
 次に、ログイン処理が正常に完了すると、エージェントサーバ2は、ログイン完了通知を、音声エージェントI/F20からネットワークを介してクライアント端末1へ送信する(ステップS291)。
 次いで、クライアント端末1は、クライアント端末1のカメラ(または周辺に存在する通信可能な外部端末に設けられているカメラ)を起動し、ユーザの顔を撮像し、撮像画像(顔画像)から顔情報を取得する(ステップS294)。顔情報は、撮像画像(顔画像)の解析結果でもよいし、顔画像自体であってもよい。
 次に、クライアント端末1は、顔情報をエージェントサーバ2へ送信し(ステップS297)、エージェントサーバ2は、顔情報をユーザ情報DB352に登録する(ステップS300)。
 続いて、クライアント端末1は、バックグラウンドでエージェントAppを実行させるか否かのユーザによる選択を受け付け(ステップS303)、選択内容を設定情報としてエージェントサーバ2へ送信する(ステップS306)。
 次いで、エージェントサーバ2は、設定情報をユーザ情報DB352に保存する(ステップS309)。なおかかる設定情報はクライアント端末1の記憶部に保存されていてもよい。
 そして、クライアント端末1は、起動したエージェントAppに従ってメイン画面を表示する(ステップS312)。
 以上、エージェントApp購入とエージェントApp初回起動時の処理について説明した。ここで、エージェントApp購入とエージェントApp初回起動時におけるクライアント端末1での表示画面例について図20~図22を参照して説明する。
 図20は、本実施形態によるエージェントアプリケーションの購入時における表示画面例を示す図である。図20左に示す画面100には、購入対象の候補となる複数のエージェントAppのタイトルが表示されている。画面100に示す各エージェントAppのタイトルは、例えばエージェントキャラクターの名称である。例えばエージェントキャラクター「パワフルマン」を購入したい場合、ユーザは、画面100の「エージェントApp『パワフルマン』」を選択する。この場合、画面100は図20中央に示す画面101に遷移する。
 画面101には、アカウント情報入力欄、アカウント作成ボタン、および「アカウントをお持ちの方はこちら」ボタンが表示されている。アプリケーションショップを利用するためのアカウントを既に登録済みの場合、ユーザは、「アカウントをお持ちの方はこちら」ボタンを選択する。この場合、画面101は図20右に示す画面102に遷移する。
 画面102には、アカウント名入力欄、パスワード入力欄、およびログインボタンが表示されている。ユーザは、登録済みのアカウント名(ユーザ名/ID、ログイン名/IDとも称される)およびパスワードを入力し、ログインボタンを選択する。ログインボタンが選択されると、クライアント端末1は、入力されたアカウント名およびパスワードと共に、エージェントサーバ2に対してログイン処理要求を行う。
 一方、アカウントが未登録の場合、画面101においてアカウント名等の入力を行い、アカウントの作成をエージェントサーバ2に依頼する。図21は、本実施形態によるアカウント登録画面例を示す図である。図21左の画面103に示すように、アカウント名等が入力され、「アカウント作成」ボタンが選択されると、クライアント端末1は、入力された情報と共にアカウント登録処理の要求をエージェントサーバ2に対して行う。
 エージェントサーバ2においてアカウント登録処理が正常に完了すると、図21右に示すように、アカウント作成が完了したことを通知する画面104が表示される。画面104には、「続いて、お客様の顔情報を登録しますか?」といったテキストが表示され、「はい」ボタンが選択されると、クライアント端末1のカメラが起動し、ユーザの顔の撮像、および顔情報の抽出(解析)が行われる。抽出された顔情報は、エージェントサーバ2へ送信され、ユーザ情報として登録される。
 図22は、本実施形態によるメイン画面例を示す図である。エージェントAppの初回起動においてログイン処理やアカウント登録処理が終了すると、図22の左に示すように、エージェントAppを開始するか否かを確認する画面105が表示される。開始する場合、ユーザは画面105に表示されている「はい」ボタンを選択する。なお画面105には、バックグラウンドでの実行可否を設定するためのチェックボックスも表示されている。ユーザは、エージェントAppをバックグラウンドで実行したい場合にはチェックを入れる。クライアント端末1は、当該チェックボックスへのチェックの有無を、バックグラウンドでの実行可否の設定情報としてエージェントサーバ2へ送信する。
 画面105の「はい」ボタンが選択されると、エージェントAppのメイン画面106が表示される。ここでは、例えばヒーローキャラクターの「パワフルマン」の画像がクライアント端末1の表示部に表示され、さらに「この街は俺が守る!」といった「パワフルマン」の音声やテーマ曲がクライアント端末1のスピーカーから再生される。
 (4-2-2.音声変換処理)
 続いて、本実施形態による音声変換処理について図23~図24を参照して説明する。図23は、本実施形態による音声変換処理について説明する図である。本実施形態では、図23に示すように、ユーザの発話音声W4をクライアント端末1(またはクライアント端末1と通信接続する周辺に存在するウェアラブル装置)のマイクロホンにより収音すると、これを対話処理部30aの自動発話制御部36により特定のエージェントキャラクターの音声W5に変換してユーザが装着するイヤホン等から再生する。特定のエージェントキャラクターとは、例えばクライアント端末1において起動中のエージェントAppに対応するキャラクターであって、当該エージェントAppを起動する操作が、実質的なユーザによるエージェントキャラクターの選択として認識され、選択信号がエージェントサーバ2へ送信される。このように、ユーザは自分の発話音声がエージェントキャラクターの音声で聞こえることで、エージェントキャラクターに成りきることができる。
 図24は、本実施形態による音声変換処理を示すシーケンス図である。図24に示すように、まず、クライアント端末1は、マイクロホンにより音データを収音すると(ステップS320)、収音した音データをエージェントサーバ2へ送信する(ステップS323)。この際、クライアント端末1は、ユーザが選択しているエージェントキャラクターを示す選択信号も併せて送信してもよい。これらのデータは、クライアント端末1からネットワーク3を介してエージェントサーバ2へ送信され、エージェントサーバ2の音声エージェントI/F20(通信部として機能)で受信され得る。
 次いで、エージェントサーバ2は、自動発話制御部36のユーザ音声抽出部361(図17参照)により、音データを解析し、ユーザ音声の抽出を行う。エージェントサーバ2は、ユーザ音声が抽出できた場合、これをユーザに選択された特定のエージェントキャラクター(ここでは、例えば「ヒーローキャラクター」)の音声に変換する(ステップS326)。より具体的には、エージェントサーバ2は、対話処理部30aのユーザ音声抽出部361により抽出、テキスト化したユーザ音声文をエージェントキャラクターの音声で音声化するための音素データを対話処理部30aの音素データ取得部362により取得する。そして、対話処理部30aから出力されたユーザ音声文および対応する特定のエージェントキャラクターの音素データに基づいて、音声エージェントI/F20により、ユーザ音声文を特定のエージェントキャラクターの音声で音声化し(音声変換)、音声化したデータ(音声データ)を音声エージェントI/F20からネットワークを介してクライアント端末1へ送信する(ステップS329)。
 次に、クライアント端末1は、エージェントサーバ2で変換されたヒーローキャラクターの声色の音声データをイヤホン等(スピーカーの一例)から再生する(ステップS332)。
 以上、音声変換処理について説明したが、本実施形態は、上述したような聴覚的な成りきりに限定されず、視覚的にも成りきり体験を提供することが可能である。以下、図25を参照して説明する。
 図25は、本実施形態によるAR(Augmented Reality)変身による視覚的な成りきりについて説明する図である。本実施形態では、図25に示すように、例えばクライアン端末1に設けられたカメラでユーザ自身の顔を撮像し、撮像したユーザの顔画像に、エージェントキャラクターの顔画像を重畳表示した画面107を生成して表示することで、視覚的な成りきり体験を提供することができる。この際、エージェントサーバ2により、撮像した顔画像に基づく顔認識、すなわちユーザ情報DB3532に登録された顔情報と一致するか否かの確認を行い、一致する場合は当該顔画像にエージェントキャラクターの顔画像を重畳表示するようにしてもよい。また、上述した音声変換の聴覚的な成りきり体験と併せて視覚的な成りきり体験を提供するようにしてもよい。
 (4-2-3.自動発話処理)
 続いて、ユーザ状況に応じた特定エージェントキャラクターの自動発話処理について図26A~図26Dを参照して説明する。ユーザ状況とは、例えばユーザの場所、人物属性や表情、行動状態(行動認識)、および心理状態等が想定される。
 図26Aは、本実施形態による場所に応じた自動発話処理を示すシーケンス図である。図26Aに示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS340)、エージェントサーバ2へ現在位置情報を送信する(ステップS342)。このような現在位置情報の取得および送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
 次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信され位置情報取得部363により取得したクライアント端末1の位置情報(場所)に対応するフレーズを、フレーズ検索部364によりフレーズDB365を参照して検索する(ステップS344)。例えば上記表1に示しように、特定の場所(XX都市、Y公園、Z駅等)や一般的な場所(駅、郵便局、公園、海等)に紐付けられたフレーズや効果音が検索される。
 次いで、場所に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS346/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS348)。具体的には、音素データ取得部362によりフレーズを音声化するためのヒーローキャラクターの音素データを音素記憶部40から取得し、取得された音素データおよびフレーズが音声エージェントI/F20に出力され、音声エージェントI/F20によりフレーズの音声化処理(例えば音声合成)が行われる。
 続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS350)。
 そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS352)。これにより、ユーザが所定の場所に移動したことをトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその場所に対応するフレーズが再生される。
 図26Bは、本実施形態による人物属性や表情に応じた各自動発話処理を示すシーケンス図である。図26Bに示すように、まず、クライアント端末1は、カメラを起動し、撮像画像を取得し(ステップS354)、エージェントサーバ2へ撮像画像を送信する(ステップS356)。このようなカメラの起動、撮像、および送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。カメラは、クライアント端末1がユーザの視線方向等ユーザの周辺を撮像する外向きのカメラ(アウトカメラとも称される)と、クライアント端末1を操作するユーザを撮像する内向きのカメラ(インカメラとも称される)とが想定される。
 次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された撮像画像がインカメラで撮像されたものであるか否かを判断する(ステップS358)。インカメラで撮像されたか否かは、例えば撮像画像に付属するメタデータから判断し得る。
 次いで、インカメラである場合(ステップS358/Yes)、撮像画像にはユーザが写っていると判断され、フレーズ検索部364は、情報解析部366による顔画像解析結果に基づいて、顔の表情に対応するフレーズをフレーズDB365から検索する(ステップS360)。例えば上記表1に示したように、ユーザが笑顔の場合に対応するフレーズや効果音、若しくはユーザが怒り顔の場合に対応するフレーズや効果音等が検索される。
 一方、インカメラでない場合(ステップS358/No)、すなわちアウトカメラで撮像されたものである場合、撮像画像にはユーザ周辺の人物(例えばユーザと対面する人物)が写っていると判断され、フレーズ検索部364は、情報解析部366による顔画像解析結果に基づいて、対面する人物の属性(年齢、性別、雰囲気等)や表情に対応するフレーズをフレーズDB365から検索する(ステップS362)。例えば上記表1に示したように、対面する相手が女性である場合に対応するフレーズや効果音等が検索される。
 次いで、人物属性や表情に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS364/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS366)。特定エージェントキャラクターへの変換処理は、上記ステップS348で説明した処理と同様である。
 続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS368)。
 そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS370)。これにより、ユーザの表情、または対面する相手の属性や表情をトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の表情や属性に対応するフレーズが再生される。
 図26Cは、本実施形態によるユーザ行動に応じた各自動発話処理を示すシーケンス図である。図26Cに示すように、まず、クライアント端末1は、加速度センサにより加速度センサ情報を取得し(ステップS372)、エージェントサーバ2へ加速度センサ情報を送信する(ステップS374)。加速度センサ情報の送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
 次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された加速度センサ情報に基づいて情報解析部366により行動認識処理を行い、行動認識結果で示される行動状態に対応するフレーズをフレーズ検索部364によりフレーズDB365を参照して検索する(ステップS376)。例えば上記表1に示しように、走っている状態や寝ている状態に紐付けられたフレーズや効果音が検索される。なお、行動認識処理に用いるセンサデータとしてここでは加速度センサ情報を用いているが、本実施形態は当然これに限定されず、加速度センサの他、ジャイロセンサ、地磁気センサ等、様々なセンサにより検知されたデータを用いてもよい。
 次いで、行動状態に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS378/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS380)。
 続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS382)。
 そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS384)。これにより、ユーザが所定の行動状態になったことをトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の行動状態に対応するフレーズが再生される。
 図26Dは、本実施形態による心理状態に応じた各自動発話処理を示すシーケンス図である。図26Dに示すように、まず、クライアント端末1は、生体センサによりユーザの生体情報を検知し(ステップS386)、エージェントサーバ2へ生体情報を送信する(ステップS388)。生体情報の送信は、例えばクライアント端末1でエージェントプログラムが起動している際に定期的に行われ得る。
 次に、エージェントサーバ2の自動発話制御部36は、クライアント端末1から送信された生体情報を情報解析部366により解析し、解析により得られたユーザの心理状態(すなわち感情)に対応するフレーズを、フレーズ検索部364によりフレーズDB365を参照して検索する(ステップS390)。例えば上記表1に示しように、脈拍が速く緊張した状態に紐付けられたフレーズや効果音が検索される。生体センサは、例えば脈拍、、心拍、血圧、発汗量、呼吸、脳波、または筋電等を検知する各種センサである。情報解析部366は、このような生体情報に基づいて、ユーザの心理状態、すなわち、喜び、怒り、悲しみ、緊張、興奮等の感情を解析する。
 次いで、心理状態に応じたフレーズが見つかった(すなわち検索がヒットした)場合(ステップS392/Yes)、自動発話制御部36は、検索したフレーズをユーザ指定の特定エージェントキャラクター、例えばヒーローキャラクターの声色に変換する(ステップS394)。
 続いて、エージェントサーバ2は、音声エージェントI/F20により生成した音声データをクライアント端末1へ送信する(ステップS396)。
 そして、クライアント端末1は、エージェントサーバ2から受信した音声データ、すなわち、所定のフレーズをヒーローキャラクターの声色で音声化された音声データを再生する(ステップS398)。これにより、ユーザの心理状態をトリガにクライアント端末1のスピーカーから特定のエージェントキャラクターの声色でその時の心理状態に対応するフレーズが再生される。
 以上、ユーザ状況に応じたエージェントの自動発話制御処理について説明した。なお、本実施形態による自動発話制御処理は上述した例に限定されず、例えば場所、表情、行動、感情、ユーザ発話、日時等のうち少なくとも1以上のユーザ状況に対応するフレーズを検索してもよいし、複数のユーザ状況のうち例えば所定の順序(優先度の高い順等)にフレーズ検索を行ってもよい。
 (4-2-4.シナリオ取得処理)
 続いて、本実施形態によるシナリオモードについて説明する。本実施形態による対話処理部30aは、上述したようなユーザ音声のエージェントキャラクター音声への変換、およびユーザ状況に応じたエージェントキャラクターの自動発話の他、さらにユーザがエージェントキャラクターに成りきってシナリオ(物語)へ参加する体験を提供することができる。このような体験を提供する際に用いられるシナリオプログラムの取得について、以下図27~図29を参照して説明する。
 図27は、本実施形態によるシナリオ取得処理を示すシーケンス図である。図27に示すように、まず、クライアント端末1の表示部に表示されたメニュー画面から「シナリオ一覧」が選択されると(ステップS410)、クライアント端末1は、エージェントサーバ2に対してシナリオ一覧の取得要求を行う(ステップS413)。ここでは、例えばユーザが購入したエージェントキャラクター「ヒーローキャラクター『パワフルマン』」のシナリオ一覧の取得要求が行われる。
 次いで、エージェントサーバ2のシナリオ管理部37は、ヒーローキャラクターに紐づくシナリオの一覧をシナリオDB374から取得し(ステップS416)、クライアント端末1へ音声エージェントI/F20からネットワークを介して送信する(ステップS419)。
 次に、クライアント端末1は、エージェントサーバ2から受信したシナリオ一覧を表示部に表示し(ステップS422)、ユーザによるシナリオの選択を受け付ける(ステップS425)。
 次いで、クライアント端末1は、ユーザが選択したシナリオを示す選択情報をエージェントサーバ2へ送信する(ステップS428)。
 次に、エージェントサーバ2のシナリオ管理部37は、ユーザにより選択されたシナリオが購入済みであるか否かを判断し(ステップS431)、未購入の場合(ステップS431/Yes)、クライアント端末1に対して当該シナリオの購入画面の表示指示を行う(ステップS434)。
 次いで、クライアント端末1は、シナリオ購入画面を表示する(ステップS437)。ユーザは、例えばシナリオ購入画面に表示された購入ボタンをタップしてシナリオの購入を決定する。
 続いて、シナリオの購入が決定された場合(ステップS440/Yes)、クライアント端末1は、エージェントサーバ2に対してシナリオの購入依頼を行う(ステップS443)。
 そして、エージェントサーバ2は、シナリオ購入処理を行う(ステップS446)。シナリオ購入処理は、例えばクレジットカードや電子マネーを用いた決済処理(アプリケーション内の課金処理)により行われ得る。また、ユーザによるシナリオの購入は、ユーザ管理部35によりユーザ情報DB352にユーザ情報として登録される。
 なお、シナリオ購入画面が表示された後、購入を見合わせる場合(ステップS440/No)、例えばユーザは戻るボタン等をタップしてメニュー一覧画面に戻り、他のシナリオの取得を検討してもよい。
 ここで、図28および図29に、シナリオ購入までのクライアント端末1における画面表示例を示す。例えば、図28左には、ユーザがあるヒーローキャラクターを購入した際のメイン画面110を示す。ユーザがメイン画面110に表示されているメニューボタン111を選択すると、図28中央に示すように、メニュー画面112aが表示される。そして、メニュー画面112aに表示されているメニューに含まれる「シナリオ一覧」の項目を選択すると、図28右に示すように、シナリオ一覧画面113が表示される。シナリオ一覧画面113には、参加可能なシナリオが並び、ユーザは購入したいシナリオを選択する。なお参加期間が既に終了しているシナリオや売り切れのシナリオは、グレーアウト表示され選択できない。例えば画面113では、選択可能なシナリオとしてシナリオ113a、113bが表示され、選択できないシナリオとしてシナリオ113cがグレーアウト表示されている。
 次いで、ユーザが例えばシナリオ113a「XX都市でバトル」を選択した場合、図29の左に示すような購入画面114が表示される。購入画面114には、シナリオのタイトル、あらすじ、購入金額、購入ボタン114a、シナリオへの参加場所および期間が表示され、ユーザはシナリオの内容や金額、参加場所、期間等を確認する。シナリオには例えば複数のイベントが用意されていて、それらを全てクリアすることでシナリオをクリアすることが目標となる。「参加場所」とは、イベントが発動するトリガとなる場所であって、その場所に居なくてもシナリオに参加することは可能であるが、発動するイベントが少なく、シナリオをクリアすることが困難となる。
 そして、ユーザが購入ボタン114aを選択すると、図29右に示す購入決定画面115が表示され、「はい」ボタンを選択すると購入処理(決算処理)がエージェントサーバ2により行われ、シナリオ購入が完了する。
 続いて、シナリオへの参加登録処理について図30を参照して説明する。図30は、本実施形態によるシナリオ参加登録処理を示すシーケンス図である。なお図30に示す処理は、上記ステップS431で、ユーザに選択されたシナリオが購入済みの場合に引き続き行われる処理である。
 エージェントサーバ2のシナリオ管理部37は、ユーザに選択されたシナリオにおいて、ユーザが購入した特定のエージェントキャラクター、例えばヒーローキャラクターが未登録のシナリオを検索する(ステップS450)。ここで、本実施形態によるシナリオ構成について図31を参照して説明する。
 図31は、本実施形態によるシナリオ構成について説明する図である。本実施形態によるシナリオには1以上のキャラクターが登場し、1つのキャラクターには一人のユーザが登録される。しかしながら、複数のユーザが同じキャラクターのエージェントプログラムを購入している状態も想定されるため、図31に示すように、シナリオ毎に複数の参加グループを設定し、参加グループ毎にユーザ登録を行う。例えば、シナリオ#1には、参加グループ#1-1、#1-2、#1-3…と複数の参加グループが紐付けされ、参加グループ内においてキャラクターが重複しないようユーザの振り分けが行われる。具体的には、現在、シナリオ#1の参加グループ#1-1には「キャラクターA」と「キャラクターB」にそれぞれ成りきるユーザの登録が行われているが、「キャラクターC」は空位の状態である。また、同シナリオの参加グループ#1-2では、「キャラクターA」が空位の状態である。また、同シナリオの参加グループ#1-3では、「キャラクターA」、「キャラクターB」、「キャラクターC」が空位の状態である。シナリオ管理部37は、ユーザがシナリオ#1の選択を行った際に、同シナリオの参加グループにおけるユーザ登録状態を把握し、ユーザが購入したキャラクターが未登録(空位)の参加グループを検索する。例えばユーザのキャラクターが「キャラクターA」の場合、参加グループ#1-2を検索し、「キャラクターB」の場合、参加グループ#1-3を検索し、「キャラクターC」の場合、参加グループ#1-1を検索する。なお、ユーザが同キャラクターで異なるシナリオ(例えばシナリオ#1とシナリオ#2)に同時に参加登録することは可能である。
 次いで、シナリオ管理部37は、検索した参加グループのシナリオ情報をクライアント端末1に送信する(ステップS453)。
 次に、クライアント端末1は、受信したシナリオ情報を表示部に表示する(ステップS456)。シナリオ情報の表示画面には、シナリオのあらすじや参加場所、日時の詳細と共に、参加ボタンが表示されている。ここで、図32に本実施形態によるシナリオ参加画面の一例を示す。図32左に示す画面116は、シナリオ一覧画面113(図28参照)で選択したシナリオ、若しくはシナリオの購入決定画面115(図29参照)で購入を決定し購入処理が完了したシナリオへ参加登録するための操作を受け付ける画面である。画面116には、例えば選択されたシナリオのタイトル、あらすじ、シナリオ購入済みの表示、参加場所、参加期間情報、および参加ボタン116aが表示されている。ユーザは参加ボタン116aを選択することで本シナリオへの参加意思を入力することができる。
 次いで、参加ボタンが選択されユーザの参加意思が入力された場合(ステップS459/Yes)、クライアント端末1はエージェントサーバ2に対して本シナリオ(の参加グループ)への参加依頼を行う(ステップS462)。
 次に、エージェントサーバ2のシナリオ管理部37は、クライアント端末1からの要求に応じて、ユーザのシナリオへの参加登録処理を行う(ステップS465)。各シナリオの参加グループに登場するキャラクーへのユーザ登録の情報は、シナリオDB374(図18参照)に登録されていてもよいし、ユーザ情報DB352(図16参照)に登録されていてもよい。
 次に、シナリオ管理部37は、ユーザが参加登録しているシナリオが開始時刻前である場合(ステップS468/Yes)、開始時刻をユーザへ通知し(ステップS471)、クライアント端末1ではシナリオの開始時刻を表示画面等を介してユーザに通知する(ステップS474)。表示画面例としては、例えば図32の右上に示す画面117が挙げられる。画面17には、シナリオタイトルと共に、参加予約済みである旨、およびシナリオ開催開始時刻までのカウントダウンが表示されている。
 続いて、シナリオの開催開始時刻になった場合(ステップS477/Yes)、若しくは参加登録したシナリオが既に開催開始時刻後であって(ステップS468/No)かつシナリオ開催中の場合(ステップS469/Yes)、シナリオ管理部37は、シナリオの開催開始通知をユーザに通知する(ステップS480)。例えば、参加登録したシナリオが既に開始時刻後である場合(すなわちシナリオ開催中の場合)、図32に示すように、参加ボタン116aをタップした際に、図32右下に示す画面118のように、シナリオタイトルと共に「参加中!」の旨が表示され、直ちにシナリオが開始される。また、既に参加登録しているシナリオの開催開始時刻に達した際、例えば図33または図34に示すような開催開始通知が行われる。なお、シナリオの開催期間が終了している場合(ステップS469/No)、シナリオへの参加はできないため参加登録処理は終了する。
 図33は、本実施形態によるエージェントAppがフォアグラウンドで起動中の場合におけるシナリオ開催開始通例例を示す図である。図33左に示すように、エージェントAppの画面120(例えばメイン画面)が表示されている際に、シナリオの開催開始時刻に達すると、図33右に示すように、エージェントAppの画面120上に、シナリオが開始されることを示すポップアップ表示120aが表示される。ユーザが通知内容を確認の上、「OK」ボタンを押すと、ポップアップ表示120aが閉じる。
 図34は、本実施形態によるエージェントAppが非起動の場合におけるシナリオ開催開始通例例を示す図である。図34左に示すように、エージェントAppが非起動の場合(例えばホーム画面122が表示されている場合)に、シナリオの開催開始時刻に達すると、ホーム画面122上にシナリオが開始されることを示すポップアップ表示122a(Push通知)が表示される。ユーザが通知内容を確認の上、「開く」ボタンを押すと、エージェントAppが起動し、図34右に示すようにエージェントAppのメイン画面123が表示される。
 次いで、クライアント端末1は、シナリオが開始されることを表示画面等を介してユーザに通知する(ステップS483)。
 そして、シナリオ管理部37は、シナリオ実行処理を開始する(ステップS486)。
 例えば「XX都市でバトル」といったシナリオが開始された場合、例えばクライアント端末1の表示部には、エージェントキャラクター(例えばヒーローキャラクター)の画像が表示され、さらにナレーションとヒーローキャラクターの音声がイヤホン等から以下のように出力される。
 ・シナリオ音声
 ナレーション「2015年10月12日、舞台はXX都市。繰り広げられる激しいバトルに戦士たちは疲弊していた…」
 ヒーローキャラ「XX都市が俺を待ってるぜ!」
 ナレーション「そのXX都市で8人の敵を倒すことが使命である。」
 次いで、シナリオが進行している通常時は、クライアント端末1にヒーローキャラクターが表示され、ユーザの状況に応じてヒーローキャラクターが自動発話したり、対応する効果音が流れたりする。状況に応じた自動発話は、図26A~図26Dを参照して説明した処理と同様である。
 ・自動発話音声
 ユーザ状況:位置情報の解析により、ユーザがXX都市に移動したことを認識。
 ヒーローキャラ「ここがXX都市か。敵はどこだ!?」
 続いて、ある条件により、事前にシナリオに用意されたイベントが発生する。イベントが発生した場合は、ヒーローキャラクターまたはナレーションによりイベントが発生した旨と、イベントクリアのために必要なアクションが通知される。ユーザがそのアクションを正しく行うことで、イベントクリアとなる。このような条件に応じたイベント発生といったシナリオ実行処理について、以下詳細に説明する。
 (4-2-5.シナリオ実行処理)
 本実施形態によるシナリオ管理部37は、シナリオ実行部372により、ユーザの発話や移動場所、アクション(行動)等をトリガとしてシナリオイベント(本実施形態では「イベント」と称される)を発生させ、イベントクリアのための所定のアクションをユーザに指示する等の処理を行う。以下、図35~図42を参照して具体的に説明する。
 ・ユーザ音声をトリガとしたイベントの発生
 図35は、本実施形態によるユーザ音声をトリガとしたイベントの実行処理を示すシーケンス図である。図35に示すように、まず、クライアント端末1は、マイクにより周辺の音データを収音し(ステップS490)、収音した音データをエージェントサーバ2へ送信する(ステップS493)。
 次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、音データの解析を行い、ユーザ音声の抽出を行う。ユーザ音声ができた場合、シナリオ実行部372は、ユーザが参加中のシナリオからユーザの発話に対応するイベントを検索する(ステップS496)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。上述したように、各シナリオには、1以上のイベントが含まれ、イベント発生のトリガ(条件)とイベント内容とイベントクリアのためのアクションとが対応付けられたデータがシナリオデータとしてシナリオDB374に格納されている。シナリオデータの具体例は、上記表2に示した通りである。シナリオ管理部37は、表2に示したようなイベントデータを参照して、ユーザ音声(すなわち発話内容)をトリガ(発生条件)とするイベントを検索する。
 次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS499)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS502)。なお、対応するイベントが検索できなかった場合、シナリオ実行部372は特にクライアント端末1への情報送信は行わないようにしてもよいし、イベント発生のためのヒント(トリガの示唆)を出すようにしてもよい。また、クライアント端末1による音データの収音およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
 次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS505)。ここで、図36を参照してイベント発生時における表示画面の具体例について説明する。
 図36は、本実施形態によるイベント発生時における表示画面例を示す図である。図36左に示すように、例えばユーザのある発話音声W6が上述した音声変換機能によりエージェントキャラクターの音声W7に変換されると共に、当該発話音声W6が特定の発話であって対応するイベントが検索された場合、当該イベントをクリアするためのアクションが指示される。例えば図36右に示すように、「上にジャンプするんだ!今すぐ!」といったエージェントの発話音声W8がイヤホン等から出力されたり、「ジャンプだ!」といったテキストとエージェントの画像を含む画面124がクライアント端末1の表示部に表示されたりする。これにより、ユーザは、イベントに対応する指定のアクションを実行することができる。
 続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS508)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS511)。ユーザの行動等を検知する各センサとは、例えば加速度センサ、ジャイロセンサ、地磁気センサ、カメラ等である。
 次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS514)。
 次に、指定のアクションが行われたと判断された場合(ステップS514/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS517)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS520)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
 そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS523)。
 このように、本実施形態では、ユーザの特定の発話をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。
 ・移動場所(ユーザの位置)をトリガとしたイベントの発生
 図37は、本実施形態によるユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。図37に示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS530)、取得した現在位置情報をエージェントサーバ2へ送信する(ステップS533)。
 次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、位置情報の解析を行い、位置情報で示される場所を特定する。例えば情報解析部373は、ランドマーク情報が紐付けられた地図データを参照して、ユーザが現在居る場所の名称(地名、都市名、建物名、公園名等)や種別(駅、公園、海辺、郵便局等)を取得する。場所が特定できた場合、シナリオ実行部372は、ユーザが参加中のシナリオから特定した場所に対応するイベントを検索する(ステップS536)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。シナリオ管理部37は、上記表2に示したようなイベントデータを参照して、ユーザの現在居る場所(すなわち移動場所)をトリガとするイベントを検索する。
 次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS539)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS542)。なお、クライアント端末1による現在位置情報の取得およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
 次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS545)。
 続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS548)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS551)。
 次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS554)。
 次に、指定のアクションが行われたと判断された場合(ステップS554/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS557)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS560)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
 そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS563)。
 このように、本実施形態では、ユーザの位置をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。
 ・複数ユーザが出会うこと(複数ユーザの位置)をトリガとしたイベントの発生
 図38は、本実施形態による複数ユーザの位置をトリガとしたイベントの実行処理を示すシーケンス図である。図38に示すように、まず、クライアント端末1は、GPS等により現在位置情報を取得し(ステップS570)、取得した現在位置情報をエージェントサーバ2へ送信する(ステップS572)。
 次いで、エージェントサーバ2のシナリオ管理部37は、同じシナリオに参加している他のキャラクターをエージェントとしている他ユーザがユーザの近くにいるか否かを判断する(ステップS573)。シナリオに参加している各ユーザの位置情報は、定期的にクライアント端末1から送信され、エージェントサーバ2側で管理されている。また、シナリオ管理部37は、ユーザが特定の場所に移動した際に近辺に居る他のキャラクターのユーザを検索するようにしてもよい。また、シナリオ管理部37は、同じシナリオに参加している不特定の他のキャラクターのユーザを検索するようにしてもよい。
 次に、近くに他のキャラクターをエージェントとする他ユーザが居ると判断された場合(ステップS573/Yes)、シナリオ管理部37は、対応するイベントを検索する(ステップS576)。シナリオ管理部37は、例えば上記表2に示したようなイベントデータを参照して、「同じシナリオに参加する他のキャラクターが近くに居る」場合をトリガとするイベント(例えば、「オーバーレイ表示」)を検索する。
 次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS579)、イベントの実行処理を行う。ここでは、例えば「オーバーレイ表示」というイベントである場合、シナリオ実行部372は、近くに居る人の顔画像の取得要求をクライアント端末1に対して行う(ステップS582)。
 次に、クライアント端末1は、エージェントサーバ2からの要求に応じて、カメラを起動し、ユーザに対して近くの人にカメラをかざすよう指示する(ステップS585)。ここでは、カメラを起動して近くの人にかざす行動が、イベントクリアのための指定のアクションとなる。
 続いて、クライアント端末1は、近くの人の顔をカメラにより撮像して撮像画像を取得し(ステップS588)、撮像画像をエージェントサーバ2に送信する(ステップS591)。
 次いで、エージェントサーバ2のシナリオ管理部37は、情報解析部366により、撮像画像を解析し、ユーザの近辺に居る人物の顔認識を行う(ステップS594)。さらに、シナリオ実行部372は、上記ステップS573で位置情報に基づいてユーザの近辺に居ると判断された他ユーザの顔情報と、撮像画像に基づく顔認識結果とを参照して、近辺に居る人物の顔認証を行ってもよい。
 次に、近辺に居る人物の顔認識ができた場合(ステップS594/Yes)、シナリオ実行部372は、上記ステップS573で判断した近辺に居る他のキャラクターの情報をシナリオDB374から取得し(ステップS597)、クライアント端末1へ送信する(ステップS600)。キャラクター情報には、キャラクターの画像が含まれる。
 続いて、クライアント端末1は、ユーザが近くの人物(相手ユーザ)にクライアント端末1のカメラをかざしてスルー画像が表示部に表示されている際に、エージェントサーバ2から送信されたキャラクター情報に基づいて、相手が成りきっているエージェントキャラクターの画像をスルー画像上で相手にオーバーレイ表示する(ステップS603)。これにより、ユーザは、現実空間で同シナリオに登場する他のキャラクターと出会うことができる。なお、エージェントサーバ2は、相手のキャラクター画像を相手のスルー画像に重畳表示するのみならず、例えば相手の発話音声を相手のキャラクターの音声に変換してユーザのイヤホン等から再生するようにしてもよい。また、相手ユーザのクライアント端末1においても同様にユーザのスルー画像にユーザのキャラクターを重畳表示させたり、ユーザの音声をユーザのキャラクターの音声に変換して再生したりするようにしてもよい。これにより、両ユーザは、同シナリオに登場するキャラクター同士として出会い、会話することができる。
 ここで、図39Aおよび図39Bを参照して本実施形態による他のキャラクターのオーバーレイ表示の具体例について説明する。図39Aは、本実施形態によるカメラをかざす行動をユーザに促す表示画面例を示す図である。図示された画面125は、上記ステップS585でクライアント端末1の表示部に表示される誘導画面であって、エージェントキャラクターの画像およびカメラ起動ボタン125aが含まれる。また、エージェントキャラクターの声色で、「カメラを起動して近くの人にかざしてみるんだ!」といった発話音声W9が再生されてもよい。これによりユーザは、エージェントキャラクターの誘導に従ってカメラ起動ボタン125aをタップしてカメラを起動し、近くの人物にかざすといったイベントクリアのための指定のアクションを取ることができる。
 図39Bは、本実施形態による他のキャラクターのオーバーレイ表示について説明する図である。図39Bに示すように、ユーザがクライアント端末1を近くにいる人物にかざすと、クライアント端末1の表示部に、クライアント端末1のカメラで撮像したスルー画像が表示され、さらにスルー画像に写る相手ユーザに相手のキャラクター画像がリアルタイムで重畳された画像126が表示される。この際、クライアント端末1は、エージェントサーバ2により相手ユーザの発話音声が相手ユーザのキャラクター音声に変換された音声や、状況に応じて自動発話される相手ユーザのキャラクターの所定フレーズ音声W10をイヤホン等から再生してもよい。
 次いで、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS606)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS609)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
 そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS612)。
 このように、本実施形態では、複数ユーザの位置に基づいて、同じシナリオに参加するキャラクター同士が現実空間で出会うことをトリガとして所定のイベントを発生させることができる。
 ・各センサからの出力結果をトリガとしたイベントの発生
 図40は、本実施形態による各センサからの出力結果をトリガとしたイベントの実行処理を示すシーケンス図である。図40に示すように、まず、クライアント端末1は、各センサからの出力結果を取得し(ステップS620)、エージェントサーバ2へ送信する(ステップS623)。各センサとは、例えば加速度センサ、ジャイロセンサ、地磁気センサ、カメラ等であってクライアント端末1や、クライアント端末1と通信接続するウェアラブル端末(例えばスマートバンド、スマートウォッチ、スマートアイグラス)等に設けられ、ユーザの行動を認識する。
 次に、エージェントサーバ2のシナリオ管理部37は、情報解析部373により、各センサの出力結果の解析を行い、ユーザの行動を特定する。ユーザの行動(寝ている、起きた、走った、歩いた、電車/自転車/自動車に乗った等)が特定できた場合、シナリオ実行部372は、ユーザが参加中のシナリオからユーザの行動に対応するイベントを検索する(ステップS626)。イベントの検索は、シナリオDB374に格納されている、ユーザが参加中のシナリオのシナリオデータを参照して行う。シナリオ管理部37は、上記表2に示したようなイベントデータを参照して、ユーザの行動をトリガとするイベントを検索する。
 次いで、シナリオ実行部372は、検索したイベントの情報をシナリオデータから抽出し(ステップS629)、対応する指定のアクション(イベントクリアのための指定のアクション)に関する情報をクライアント端末1へ送信する(ステップS632)。なお、クライアント端末1による各センサからの出力結果の取得およびエージェントサーバ2への送信は、シナリオ開催期間中に定期的に行われ得る。
 次に、クライアント端末1は、イベントクリアのための指定のアクションを行うよう、表示出力や音声出力等によりユーザに指示する(ステップS635)。
 続いて、クライアント端末1は、ユーザの行動等を検知する各センサからの出力結果を取得し(ステップS638)、各センサの出力結果をエージェントサーバ2へ送信する(ステップS641)。
 次いで、エージェントサーバ2は、情報解析部366により、各センサからの出力結果を解析し(例えば行動認識の解析)、解析結果に基づいてシナリオ実行部372により指定のアクションが行われたか否かを判断する(ステップS644)。
 次に、指定のアクションが行われたと判断された場合(ステップS644/Yes)、シナリオ実行部372は、対応するイベントがクリアされたと判断し(ステップS647)、クライアント端末1に対して、イベントをクリアした旨を送信する(ステップS650)。また、シナリオ実行部372は、イベントクリアの情報をシナリオDB374に登録(更新)する。
 そして、クライアント端末1は、イベントをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS653)。
 このように、本実施形態では、ユーザの行動をトリガとして所定のイベントを発生させ、所定のアクションをユーザに行うよう促し、アクションが検知された場合に当該イベントをクリアしたとしてシナリオを進行させることができる。
 以上、本実施形態によるシナリオイベントの実行処理について具体的に説明した。なお、本実施形態によるシナリオイベントの発生トリガは、上述した発話(ユーザ音声)、移動場所(位置情報)、複数ユーザが出会うこと(複数ユーザの位置情報)、各センサの出力結果(ユーザ行動)、若しくはユーザの表情(撮像画像)、日時等のうち、少なくともいずれか1以上を含む条件としてもよい。例えば、ある特定の場所で、ある発話を行うことを条件としたり、ある特定の時刻にある場所に移動することを条件としてもよい。また、上述したトリガのうち、所定の順(予め設定された順序、優先度の高い順序等)にイベント発生有無を判断してもよい。
 また、上述したイベントは、エージェントAppが非起動時(バッググラウンドで実行中)にも発生し得る。イベント発生時は、例えばプッシュ通知でその旨が知らされ(「エージェントApp通知 イベントが発生!」等)、エージェントAppを起動することでその内容を確認することができる。
 ・シナリオクリア
 1つのシナリオには例えば複数のイベントが含まれ、シナリオ開催期間中に全てのイベントをクリアすることが求められる。以下、図41~図42を参照して本実施形態によるシナリオクリアの一例について説明する。
 図41は、本実施形態によるシナリオクリアの判断処理を示すシーケンス図である。図41に示すように、まず、エージェントサーバ2のシナリオ管理部37は、ユーザが参加中のシナリオにおける全てのイベントがクリアされたか否かを判断する(ステップS660)。
 次いで、全てのイベントがクリアされたと判断した場合(ステップS660/Yes)、シナリオ実行部372は、当該シナリオがクリアされたと判断し(ステップS663)、クライアント端末1に対して、シナリオをクリアした旨を送信する(ステップS666)。また、シナリオ実行部372は、シナリオクリアの情報をシナリオDB374に登録(更新)する。
 そして、クライアント端末1は、シナリオをクリアした旨を表示出力や音声出力等によりユーザに通知する(ステップS669)。ここで、図42に、本実施形態によるシナリオクリア時の通知画面例を示す。
 図示された例では、画面128に、「シナリオ#1 『XX都市でバトル』をクリアしました!!」といった通知と、OKボタンが表示される。これによりユーザは、参加中のシナリオ#1の全てのイベントをクリアしたことが分かる。また、OKボタンをタップすると当該通知の表示画面が閉じられ、例えばエージェントAppのメイン画面に戻る。
  <<5.まとめ>>
 上述したように、本開示の実施形態による通信制御システムでは、エージェントを通してエージェントのキャラクターをユーザ自身が体験できるようにすることでエージェントシステムの娯楽性をさらに高めることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述したクライアント端末1、またはエージェントサーバ2に内蔵されるCPU、ROM、およびRAM等のハードウェアに、クライアント端末1、またはエージェントサーバ2の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、上述した実施形態では、クライアント端末1とインターネットを介して接続するエージェントサーバ2で各種機能が実現される構成を示したが、本実施形態はこれに限定されない。例えば、図3、図15~図18に示すエージェントサーバ2の各構成のうち少なくとも一部が、クライアント端末1(スマートフォンやウェアラブル端末等)にあってもよい。また、図3、図15~図18に示すエージェントサーバ2の構成全てがクライアント端末1に設けられ、クライアント端末1で全ての処理を行えるようにしてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースを記憶するエージェント記憶部と、
 ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、
 前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
 さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
 前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、
を備える、情報処理システム。
(2)
 前記制御部は、前記通信部を介して受信した前記ユーザのコンテキストと、前記発話フレーズデータベースに基づいて、前記ユーザのメッセージに対応する発話フレーズを生成する、前記(1)に記載の情報処理システム。
(3)
 前記ユーザのコンテキストは、前記ユーザの位置、顔認識、加速度情報、または生体センサ情報の少なくともいずれかである、前記(2)に記載の情報処理システム。
(4)
 前記ユーザのメッセージは、ユーザの発話音声または当該発話音声をテキスト化したものである、前記(2)または(3)に記載の情報処理システム。
(5)
 前記情報処理システムは、前記ユーザがキャラクターとして参加可能な複数のシナリオを記憶するシナリオ記憶部をさらに備え、
 前記制御部は;
 前記通信部を介して受信した前記ユーザからのシナリオ選択信号に応じて、前記シナリオ記憶部に記憶されるシナリオを選択し;
 前記通信部を介して受信した前記ユーザのコンテキストが、前記選択したシナリオに記述されているイベント発生条件に一致すると、所定のイベントの発生を前記ユーザに通知するよう制御する、前記(1)~(4)のいずれか1項に記載の情報処理システム。
(6)
 前記所定のイベント発生時に前記ユーザに通知される内容には、特定のアクションを示す情報が含まれ、
 前記制御部は、前記通信部を介して新たに受信した前記ユーザのコンテキストに基づいて、前記特定のアクションが実行された否かを判定し、実行されたと判定すると、イベントクリアを示す通知を前記ユーザに送信するよう制御する、前記(5)に記載の情報処理システム。
(7)
 前記イベント発生条件の判断に用いられる前記ユーザのコンテキストは、前記ユーザの位置、発話、加速度情報、または生体センサ情報の少なくともいずれかである、前記(5)または(6)に記載の情報処理システム。
(8)
 前記制御部は、前記選択されたシナリオに参加している各ユーザのクライアント端末の位置を示す各位置情報を前記通信部により受信し、前記ユーザの周辺に同一の前記シナリオに参加する他のユーザが存在すると判断した場合、前記通信部を介して前記ユーザにイベント発生の通知を行うよう制御する、前記(5)~(7)のいずれか1項に記載の情報処理システム。
(9)
 前記制御部は、前記通信部を介して受信した前記クライアント端末の撮像部により撮像された撮像画像に人物の顔を認識すると、当該顔に重畳表示するための前記他のユーザのキャラクターの画像を前記クライアント端末に送信するよう制御する、前記(8)に記載の情報処理システム。
(10)
 前記制御部は、前記通信部を介して受信した前記クライアント端末の収音部により収音された音声から他のユーザの発話音声を認識すると、当該発話音声を前記他のユーザのキャラクターの音声に変換した変換メッセージと、前記発話フレーズデータベースに基づく対応するフレーズを生成し、前記クライアント端末に送信するよう制御する、前記(8)または(9)に記載の情報処理システム。
(11)
 プロセッサが、
 複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、
 ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、
 前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
 さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
 前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、
を含む、情報処理方法。
  1  クライアント端末
  2  エージェントサーバ
  30 対話処理部
   300 対話処理部
   310 質問文検索部
   320 回答文生成部
   330  会話DB
   340  音素データ取得部
  30a 対話処理部
  31 基本対話処理部
  32 キャラクターA対話処理部
  33 人物B対話処理部
  34 人物C対話処理部
  35 ユーザ管理部
   351 ログイン管理部
   352 ユーザ情報DB
   353 顔情報登録部
   354 ユーザ位置情報登録部
  36  自動発話制御部
   361 ユーザ音声抽出部
   362 音素データ取得部
   363 位置情報取得部
   364 フレーズ検索部
   365 フレーズDB
   366 情報解析部
  37  シナリオ管理部
   371 データ管理部
   372 シナリオ実行部
   373 情報解析部
   374 シナリオDB
  40 音素記憶部
  41 基本用音素DB
  42  キャラクターA音素DB
  43  人物B音素DB
  44  人物C音素DB
  50  会話DB生成部
  60  音素DB生成部
  70  広告挿入処理部
  72  広告DB
  80 フィードバック取得処理部
  3  ネットワーク
  10  エージェント

Claims (11)

  1.  複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースを記憶するエージェント記憶部と、
     ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを送信する通信部と、
     前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
     さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
     前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御する制御部と、
    を備える、情報処理システム。
  2.  前記制御部は、前記通信部を介して受信した前記ユーザのコンテキストと、前記発話フレーズデータベースに基づいて、前記ユーザのメッセージに対応する発話フレーズを生成する、請求項1に記載の情報処理システム。
  3.  前記ユーザのコンテキストは、前記ユーザの位置、顔認識、加速度情報、または生体センサ情報の少なくともいずれかである、請求項2に記載の情報処理システム。
  4.  前記ユーザのメッセージは、ユーザの発話音声または当該発話音声をテキスト化したものである、請求項2に記載の情報処理システム。
  5.  前記情報処理システムは、前記ユーザがキャラクターとして参加可能な複数のシナリオを記憶するシナリオ記憶部をさらに備え、
     前記制御部は;
     前記通信部を介して受信した前記ユーザからのシナリオ選択信号に応じて、前記シナリオ記憶部に記憶されるシナリオを選択し;
     前記通信部を介して受信した前記ユーザのコンテキストが、前記選択したシナリオに記述されているイベント発生条件に一致すると、所定のイベントの発生を前記ユーザに通知するよう制御する、請求項1に記載の情報処理システム。
  6.  前記所定のイベント発生時に前記ユーザに通知される内容には、特定のアクションを示す情報が含まれ、
     前記制御部は、前記通信部を介して新たに受信した前記ユーザのコンテキストに基づいて、前記特定のアクションが実行された否かを判定し、実行されたと判定すると、イベントクリアを示す通知を前記ユーザに送信するよう制御する、請求項5に記載の情報処理システム。
  7.  前記イベント発生条件の判断に用いられる前記ユーザのコンテキストは、前記ユーザの位置、発話、加速度情報、または生体センサ情報の少なくともいずれかである、請求項5に記載の情報処理システム。
  8.  前記制御部は、前記選択されたシナリオに参加している各ユーザのクライアント端末の位置を示す各位置情報を前記通信部により受信し、前記ユーザの周辺に同一の前記シナリオに参加する他のユーザが存在すると判断した場合、前記通信部を介して前記ユーザにイベント発生の通知を行うよう制御する、請求項5に記載の情報処理システム。
  9.  前記制御部は、前記通信部を介して受信した前記クライアント端末の撮像部により撮像された撮像画像に人物の顔を認識すると、当該顔に重畳表示するための前記他のユーザのキャラクターの画像を前記クライアント端末に送信するよう制御する、請求項8に記載の情報処理システム。
  10.  前記制御部は、前記通信部を介して受信した前記クライアント端末の収音部により収音された音声から他のユーザの発話音声を認識すると、当該発話音声を前記他のユーザのキャラクターの音声に変換した変換メッセージと、前記発話フレーズデータベースに基づく対応するフレーズを生成し、前記クライアント端末に送信するよう制御する、請求項8に記載の情報処理システム。
  11.  プロセッサが、
     複数種類のキャラクターに対応する音素データベースと発話フレーズデータベースをエージェント記憶部に記憶することと、
     ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの前記発話フレーズデータベースに応じた発話フレーズを通信部により送信することと、
     前記通信部を介して受信した前記ユーザのメッセージに基づいて、前記特定のキャラクターに対応する前記音素データベースを用いて前記特定のキャラクターの音声に変換した変換メッセージを生成し;
     さらに前記ユーザのメッセージに対応する前記特定のキャラクターの発話フレーズを、前記発話フレーズデータベースを用いて生成し;
     前記生成した変換メッセージおよび発話フレーズを前記クライアント端末に返送するよう制御部により制御することと、
    を含む、情報処理方法。
PCT/JP2016/087855 2016-03-22 2016-12-19 情報処理システムおよび情報処理方法 WO2017163509A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018506772A JP6795028B2 (ja) 2016-03-22 2016-12-19 情報処理システムおよび情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016057208 2016-03-22
JP2016-057208 2016-03-22

Publications (1)

Publication Number Publication Date
WO2017163509A1 true WO2017163509A1 (ja) 2017-09-28

Family

ID=59901035

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/087855 WO2017163509A1 (ja) 2016-03-22 2016-12-19 情報処理システムおよび情報処理方法

Country Status (2)

Country Link
JP (2) JP6795028B2 (ja)
WO (1) WO2017163509A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019115522A (ja) * 2017-12-27 2019-07-18 株式会社カプコン ゲームプログラムおよびゲーム装置
JP2021039370A (ja) * 2016-03-22 2021-03-11 ソニー株式会社 情報処理システムおよび情報処理方法
JP2022003408A (ja) * 2017-10-03 2022-01-11 グーグル エルエルシーGoogle LLC アシスタントアプリケーションのための音声ユーザインタフェースショートカット
CN114270301A (zh) * 2019-08-27 2022-04-01 索尼集团公司 代理提供系统、代理提供方法和记录介质
WO2023195115A1 (ja) * 2022-04-07 2023-10-12 日本電気株式会社 会話装置、会話方法、及び非一時的なコンピュータ可読媒体
CN117354356A (zh) * 2023-12-04 2024-01-05 四川才子软件信息网络有限公司 一种app区域留存统计方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2014123072A (ja) * 2012-12-21 2014-07-03 Nec Corp 音声合成システム及び音声合成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001230801A (ja) 2000-02-14 2001-08-24 Sony Corp 通信システムとその方法、通信サービスサーバおよび通信端末装置
US6987514B1 (en) * 2000-11-09 2006-01-17 Nokia Corporation Voice avatars for wireless multiuser entertainment services
JP2003140677A (ja) 2001-11-06 2003-05-16 Matsushita Electric Ind Co Ltd 読み上げシステム
JP2005322125A (ja) 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2007072511A (ja) 2005-09-02 2007-03-22 Oki Electric Ind Co Ltd チャットシステム,チャットサーバ,プログラム,およびメッセージ交換方法
JP6795028B2 (ja) 2016-03-22 2020-12-02 ソニー株式会社 情報処理システムおよび情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2014123072A (ja) * 2012-12-21 2014-07-03 Nec Corp 音声合成システム及び音声合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN'ICHI KAWAMOTO ET AL.: "Voice Output System Considering Personal Voice for Instant Casting Movie", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 51, no. 2, 15 February 2010 (2010-02-15), pages 250 - 264 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039370A (ja) * 2016-03-22 2021-03-11 ソニー株式会社 情報処理システムおよび情報処理方法
JP7070638B2 (ja) 2016-03-22 2022-05-18 ソニーグループ株式会社 情報処理システムおよび情報処理方法
JP2022003408A (ja) * 2017-10-03 2022-01-11 グーグル エルエルシーGoogle LLC アシスタントアプリケーションのための音声ユーザインタフェースショートカット
JP7297836B2 (ja) 2017-10-03 2023-06-26 グーグル エルエルシー アシスタントアプリケーションのための音声ユーザインタフェースショートカット
JP2019115522A (ja) * 2017-12-27 2019-07-18 株式会社カプコン ゲームプログラムおよびゲーム装置
CN114270301A (zh) * 2019-08-27 2022-04-01 索尼集团公司 代理提供系统、代理提供方法和记录介质
WO2023195115A1 (ja) * 2022-04-07 2023-10-12 日本電気株式会社 会話装置、会話方法、及び非一時的なコンピュータ可読媒体
CN117354356A (zh) * 2023-12-04 2024-01-05 四川才子软件信息网络有限公司 一种app区域留存统计方法、系统及设备

Also Published As

Publication number Publication date
JPWO2017163509A1 (ja) 2019-01-31
JP7070638B2 (ja) 2022-05-18
JP6795028B2 (ja) 2020-12-02
JP2021039370A (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
JP7070638B2 (ja) 情報処理システムおよび情報処理方法
US20220254343A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11430439B2 (en) System and method for providing assistance in a live conversation
JP7396396B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2017145466A1 (ja) 情報処理システム、クライアント端末、情報処理方法、および記録媒体
CN107870977A (zh) 基于用户状态形成聊天机器人输出
JP6860010B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
CN109086860B (zh) 一种基于虚拟人的交互方法及系统
KR20020067591A (ko) 개인의 상호작용을 시뮬레이팅하는 자기-갱신 사용자인터페이스/오락 장치
KR20020071917A (ko) 개인 상호 작용을 시뮬레이트하고 관련 데이터를 갖는외부 데이터베이스를 차징하는 유저인터페이스/엔터테인먼트 장치
JP6888557B2 (ja) 通信システムおよび通信制御方法、ならびに、プログラム
US11508392B1 (en) Automated conversation content items from natural language
US20190248001A1 (en) Conversation output system, conversation output method, and non-transitory recording medium
KR20160029895A (ko) 감정 캐릭터 추천 장치 및 감정 캐릭터 추천 방법
WO2018230345A1 (ja) 対話ロボットおよび対話システム、並びに対話プログラム
KR101791979B1 (ko) 오버레이 아이템 또는 추가 아이템을 통해 메신저 서비스를 제공하는 방법 및 그를 이용한 서버
WO2023212162A1 (en) Artificial intelligence character models with goal-oriented behavior
US20220270162A1 (en) Computing devices and systems for sending and receiving a digital gift using a voice interface
JP2022531994A (ja) 人工知能ベースの会話システムの生成および動作
US12002470B1 (en) Multi-source based knowledge data for artificial intelligence characters
US11954570B2 (en) User interface for construction of artificial intelligence based characters
US20230351142A1 (en) Relationship graphs for artificial intelligence character models
US11954794B2 (en) Retrieval of augmented parameters for artificial intelligence-based characters
US20230351216A1 (en) Artificial intelligence character models with modifiable behavioral characteristics
US20230351217A1 (en) Agent-based training of artificial intelligence character models

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018506772

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16895532

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16895532

Country of ref document: EP

Kind code of ref document: A1