WO2019181221A1 - 情報処理装置、および情報処理システム - Google Patents

情報処理装置、および情報処理システム Download PDF

Info

Publication number
WO2019181221A1
WO2019181221A1 PCT/JP2019/003141 JP2019003141W WO2019181221A1 WO 2019181221 A1 WO2019181221 A1 WO 2019181221A1 JP 2019003141 W JP2019003141 W JP 2019003141W WO 2019181221 A1 WO2019181221 A1 WO 2019181221A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
agent
unique information
unit
Prior art date
Application number
PCT/JP2019/003141
Other languages
English (en)
French (fr)
Inventor
浩明 小川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/979,973 priority Critical patent/US20210012778A1/en
Publication of WO2019181221A1 publication Critical patent/WO2019181221A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • This disclosure relates to an information processing apparatus and an information processing system that enable a user to interact with each other via a virtual agent.
  • Patent Documents 1 and 2 An information processing system has been developed that allows virtual characters (hereinafter collectively referred to as "agents") created by robots and software to behave as if speaking to the user (user). ing. Synthetic speech can be used as a medium for talking to the user, or text can be output on the screen of the display device.
  • an interactive system capable of interactive interaction between an agent and a user has been developed (see Patent Documents 1 and 2).
  • Patent Document 1 proposes a dialog system that can perform a dialog that intermixes work such as search and chat.
  • Patent Document 2 proposes an interactive system that can acquire and store individual user information (user-specific information) through interaction.
  • the content (unique information) that the user has interacted with any one agent may be diffused and leaked to other agents not intended by the user. is there.
  • the information processing apparatus includes a user's utterance content included in the utterance content based on the utterance content of the user when any one of the plurality of virtual agents is a conversation partner. Based on the information extraction unit that extracts the unique information and the unique information extracted by the information extraction unit, it is determined which of the plurality of agents is permitted to use the extracted unique information. And a determination unit that adds the determination result to the unique information as use permission information.
  • An information processing system is capable of communicating with each of a plurality of virtual agents, and provides user-specific information to agents that are permitted to use among the plurality of agents.
  • An information server, and at least one information processing device that interacts with the user via at least one of the plurality of agents with reference to the user's unique information provided by the information server,
  • the apparatus extracts information specific to the user included in the utterance content based on the utterance content of the user when one of the agents is the conversation partner, and is extracted by the information extraction unit.
  • the extracted unique information for any of the multiple agents A determination unit that determines whether to permit use of the information, adds the determination result to the specific information as use permission information, and an output unit that outputs the specific information to which the use permission information has been added by the determination unit to the information server; Is provided.
  • the use permission of the specific information is granted to any of the plurality of agents based on the specific information included in the utterance content of the user. And the determination result is added to the specific information as use permission information.
  • Comparative Example> Outline of information processing system according to comparative example
  • an agent and a user can interact in both directions, by acquiring and storing the user's unique information through the interaction, the agent can store the unique information in subsequent interactions. It can be used.
  • a specific user's specific information obtained by a certain agent A interacting with a specific user is stored in a storage device that can be used by another agent B, thereby improving the satisfaction of a specific user. I can expect. For example, when agent A obtains specific information that a particular user's favorite food is a cake in an interaction with a specific user, agent B gives priority to the topic of cake when the agent B interacts with the specific user. It is possible to perform operations such as
  • Specific information such as favorite food can be shared among a plurality of agents, so that improvement in user satisfaction can be expected as described above.
  • specific information such as a specific user's action history (eg, yesterday was late to go home) or specific user's personal likes / dislikes information (eg, a favorite person was created)
  • the user A has processed all the unique information so that the agent A can also use it for the agent B after speaking to the agent A.
  • the specific information of the specific user acquired through the agent A is used by the agent B in the dialog with the specific user, “why agent B knows the contents that only agent A is talking about? “A has a light mouth” or the like, may harm a particular user.
  • FIG. 1 shows an overview of an information processing system 100 according to the first embodiment.
  • the information processing system 100 includes a unique information server 3 and at least one information processing apparatus 10.
  • the unique information server 3 and the information processing apparatus 10 are connected to the network 2.
  • the network 2 may be a WAN (Wide Area Network) such as the Internet or a LAN (Local Area Network).
  • WAN Wide Area Network
  • LAN Local Area Network
  • the information processing apparatus 10 has a function of providing a virtual agent to the user 1.
  • a plurality of agents are provided by at least one information processing apparatus 10.
  • a plurality of information processing apparatuses 10 may be provided.
  • One information processing apparatus 10 may provide one agent, or one information processing apparatus 10 may provide a plurality of agents.
  • the appearance of the agent recognized by the user 1 may be the entire information processing apparatus 10 (the entire casing) or a part of the information processing apparatus 10 (a part of the casing).
  • the information processing apparatus 10 includes a voice recognition unit 11 and a voice output unit (speech synthesis unit 12), so that the user 1 can interact.
  • the information processing apparatus 10 may be provided with a display, and the virtual character displayed on the display may be visually recognized as an agent by the user 1.
  • the interactive function of the agent is not limited to voice, and may be based on character information via a display.
  • the unique information server 3 can communicate with each of a plurality of agents (information processing apparatuses 10) via the network 2.
  • the unique information server 3 stores the unique information of the user 1 and has a function of providing the unique information of the user 1 to a plurality of agents.
  • FIG. 1 only one user 1 is illustrated, but a plurality of users may exist. Further, FIG. 1 shows an example in which there are two agents, agent X and agent Y, but three or more agents may exist. Each agent may be a dedicated agent that can be used only by one user 1 or may be an agent shared by a plurality of users.
  • the agent X refers to the unique information of the user 1 stored in the unique information server 3 and interacts with the user 1. Thereafter, the agent X stores the new unique information of the user 1 obtained by the dialogue in the unique information server 3.
  • the agent Y can also obtain the unique information of the user 1 from the unique information server 3. At this time, the unique information of the user 1 acquired by the agent X can also be extracted from the unique information server 3. After that, the agent Y interacts with the user 1 and adds and stores the new unique information of the user 1 obtained as a result in the unique information server 3.
  • the information processing system 100 is configured such that a plurality of agents can share the unique information of the same user 1.
  • the unique information server 3 provides the unique information of the user 1 only to agents that are permitted to use among a plurality of agents.
  • the agent for example, agent X
  • the permission information (FIG. 3 described later) regarding “the agent (for example, agent Y) that can use the acquired specific information”.
  • the unique information is uploaded to the unique information server 3.
  • the unique information server 3 provides unique information only to agents that have permission to use it.
  • FIG. 2 shows a configuration example of the information processing apparatus 10.
  • FIG. 2 shows a configuration example in the case where the dialogue between the user 1 and the agent is performed by voice.
  • the information processing apparatus 10 includes a voice recognition unit 11, a voice synthesis unit 12, a dialogue management unit 13, an application 14, and a situation recognition unit 15.
  • the information processing apparatus 10 includes a unique information extraction unit 21, a unique information use determination unit 22, a unique information storage unit 23, a server access unit 24, and a database 27.
  • the dialogue management unit 13 corresponds to a specific example of “a dialogue unit” in the technology of the present disclosure.
  • the unique information extraction unit 21 corresponds to a specific example of “information extraction unit” in the technology of the present disclosure.
  • the unique information use determination unit 22 corresponds to a specific example of “determination unit” in the technology of the present disclosure.
  • the server access unit 24 corresponds to a specific example of an “output unit” in the technology of the present disclosure.
  • the database 27 includes a public setting table 25 as shown in FIG. 4 to be described later and an agent relationship table 26 as shown in FIG. 5 to be described later.
  • the information processing apparatus 10 includes a CPU (Central Processing Unit) (not shown) and a program storage unit that stores a program.
  • the functions of the dialogue management unit 13, the application 14, the unique information extraction unit 21, and the unique information use determination unit 22 are realized by, for example, the CPU executing a program stored in the program storage unit.
  • the voice recognition unit 11 includes a microphone that converts sound into an electrical signal.
  • the voice synthesis unit 12 includes a speaker as a voice output unit that converts an electrical signal into sound.
  • the situation recognition unit 15 recognizes the situation of the user 1 at the time of dialogue.
  • the situation recognition unit 15 includes, for example, a camera and a microphone, and recognizes the user's utterance prosody (intonation, etc.) and the facial expression when the user 1 utters as the situation of the user 1.
  • the voice recognition unit 11, the voice synthesis unit 12, and the situation recognition unit 15 are electrically connected to the dialogue management unit 13.
  • the dialogue management unit 13 recognizes the voice of the user 1 via the voice recognition unit 11 and performs natural language processing.
  • the dialogue management unit 13 generates a response sentence according to the result of the natural language processing, and outputs it to the user 1 through the speech synthesis unit 12.
  • the dialogue management unit 13 accesses the application 14 when generating a response sentence.
  • the user's utterance content is supplied to the specific information extraction unit 21 via the dialogue management unit 13.
  • the unique information extraction unit 21 extracts the unique information of the user included in the utterance content based on the utterance content of the user 1 when any one agent is set as the conversation partner.
  • the unique information extracted by the unique information extraction unit 21 is supplied to the unique information use determination unit 22.
  • the unique information use determination unit 22 determines which of the plurality of agents is permitted to use the extracted unique information. The determination result is added to the specific information as use permission information. At that time, the unique information utilization determining unit 22 adds utilization permission information to the unique information based on the disclosure setting table 25 and the agent relation table 26. The unique information use determination unit 22 stores the unique information to which the use permission information is added in the unique information storage unit 23.
  • the unique information storage unit 23 stores the unique information to which the use permission information is added by the unique information use determination unit 22.
  • the unique information to which the use permission information is added by the unique information utilization determining unit 22 is output to the unique information server 3 via the server access unit 24 and stored in the unique information server 3. Thereby, the unique information stored in the unique information storage unit 23 and the unique information stored in the unique information server 3 are synchronized.
  • the dialogue management unit 13 can obtain user unique information from the unique information storage unit 23 and use it for dialogue output.
  • FIG. 3 shows an example of unique information to which use permission information is added, which is stored in the unique information storage unit 23.
  • FIG. 4 shows an example of the public setting table 25 that is referred to when the usage permission information is added.
  • FIG. 5 shows an example of the agent relation table 26 that is referred to when the usage permission information is added.
  • the unique information stored in the unique information storage unit 23 includes, for example, “predicate”, “relationship”, “target” extracted from the utterance of the user 1 and the ID of the agent who acquired the information.
  • the unique information includes a user ID indicating which user the unique information is.
  • the unique information extraction unit 21 extracts unique information from the user's utterance content.
  • data string information that is, user ID, predicate, relationship, object, and acquisition agent
  • the unique information use determination unit 22 sets the use permission information as the use permission information in the use permission column of the unique information based on the disclosure setting table 25 (FIG. 4) and the agent relation table 26 (FIG. 5). Describe the ID.
  • the unique information is stored in the unique information storage unit 23 and is also used in dialogue.
  • the unique information is also stored in the unique information server 3.
  • the unique information server 3 provides information only to agents that have permission to use it.
  • the agent X hears from the user 1 that he likes Mr. A and dislikes Mr. B
  • the specific information can be used only by the agent X in the example of FIG.
  • the agent Y hears from the user 1 that he ate hamburger, the unique information is available to all agents in the example of FIG.
  • the dialogue management unit 13 can return a chat response if a specific task is not executed depending on the content of the user's utterance.
  • the specific task is, for example, when the user's utterance content simply requests a search for things and returns the search result. Further, the agent may spontaneously execute the chat response at a timing such as when the user's utterance is interrupted for a certain period of time, regardless of the content of the utterance of the user 1.
  • the unique information use determination unit 22 determines an agent capable of unique information in accordance with the content of the extracted unique information. For example, when “predicate” is content related to good and bad and “target” is a person's name, the agent permitted to use is only the agent who acquired the information.
  • the determination of “use permission” by the specific information use determination unit 22 can use not only the content of the extracted specific information but also the relationship information of the agent. For example, when the user 1 gives a special permission that the agent Y can refer to all the knowledge of the agent X, or the agent 1 recognizes that the agent X and the agent Y are “specially good friends” from the beginning. For example, when there is a setting.
  • FIG. 3 particularly shows an example of the unique information regarding the user 1 acquired by the agent X.
  • the unique information use determination unit 22 refers to a relationship table indicating relationships between a plurality of agents, groups the plurality of agents into a plurality of groups having the same relationship, and extracts the unique information extracted for each group. Judge whether to give permission to use information.
  • the relationship table here is, for example, the agent relationship table 26 shown in FIG.
  • the unique information 311 in FIG. 3 is an example of information that the user 1 has told the agent X that “I like Mr. A”. As shown in the public setting table 25 (FIG. 4), in the information “I like (person name)”, the public group belongs to “private”. Therefore, the unique information use determination unit 22 describes the value of “X” as the information acquisition agent in the use permission column of the unique information 311. As a result, the unique information 311 is permitted to be used only by the agent X, which is an information acquisition agent, and is not disclosed to other than the agent X.
  • the unique information 312 is an example of information that the user 1 has told the agent L that “I like cream puff”. As shown in the disclosure setting table 25 (FIG. 4), the information “I like (food)” belongs to the “public” public group. Further, as shown in the agent relationship table 26 (FIG. 5), the agents X and L have a “friend” relationship. For this reason, the values “X” and “L” are described in the use permission column of the unique information 312 by the unique information usage determining unit 22.
  • the unique information 312 is information that the agent X can acquire from the unique information server 3 because the agents L and X have permission to use it.
  • the unique information 313 is an example of information that the user 1 has told Agent X that “I don't like Mr. B”. As shown in the public setting table 25 (FIG. 4), the public group belongs to “private” for the information “I hate (person name)”. Therefore, the unique information utilization determining unit 22 describes the value of “X” as the information acquisition agent in the utilization permission column of the unique information 313. As a result, the unique information 313 is permitted to be used only by the agent X, which is an information acquisition agent, and is not disclosed to other than the agent X.
  • the unique information 314 is an example of information that the user 1 has told the agent Y that he ate a hamburger. As shown in the public setting table 25 (FIG. 4), the public group belongs to “pulic” for the information “I ate”. For this reason, “no restriction” is described in the use permission column of the unique information 314 by the unique information use determination unit 22.
  • the unique information 315 is an example of information that the user 1 has told Agent X that “Grandpa is sick”. As shown in the public setting table 25 (FIG. 4), the public group belongs to “family” in the information “(person name) is ill”. Further, as shown in the agent relationship table 26 (FIG. 5), the agents X and Y have a “family” relationship. For this reason, the values “X” and “Y” are described in the use permission column of the unique information 312 by the unique information usage determining unit 22. As a result, the unique information 315 is information transmitted to the agent X, but the agent Y is also permitted to use it.
  • the public setting table 25 describes, for example, the relationship between information corresponding to three data strings (predicates, relationships, and targets) in the specific information in FIG. 3 and public groups.
  • “food” is described as an example of “object” information, and a category can be entered instead of a specific name of the object.
  • a description such as “(arbitrary)” is possible regardless of conditions.
  • predicates, relationships, and targets are described in a table format.
  • the unique information use determination unit 22 uses the “predicate” and “target” in the unique information and the public setting table 25. It is also possible to perform similarity determination of parts using machine learning or the like. For example, when “meat” is in the “target” column of the public setting table 25 and the unique information is “Bun”, it is considered that the “target” in the public information and the public setting table 25 matches. Processing may be performed.
  • the agent relationship table 26 describes the correspondence between the “group name” and the “target agent” that is the target of the group.
  • FIG. 5 shows an example in which “family”, “close-friend”, and “friend” are described as group names.
  • the group names described in the agent relationship table 26 are not limited to these. Absent.
  • the target agent is not necessarily an agent owned by an actual family or an agent owned by a friend.
  • the relationship as part of the agent's character assignment such as “agent X and agent Y are good friends” may be used.
  • the unique information may take into account the situation of the user 1 at the time of information acquisition.
  • the situation recognition unit 15 may recognize the situation of the user 1 when the unique information is extracted, and output the recognition result to the unique information use determination unit 22 via the dialogue management unit 13 as situation recognition information.
  • the unique information use determination unit 22 determines which agent among the plurality of agents. It may be determined whether to give permission to use the extracted unique information.
  • the situation recognition information acquired by the situation recognition unit 15 may include the following information, for example. ⁇ It was a mysterious voice (prosody of voice) ⁇ "This is a secret”, “Don't tell anyone” (user explicit instructions) ⁇ You were told with a serious expression (expression recognition result)
  • the situation recognition information as described above may be recorded, and the setting may be expanded so that the public setting table 25 reflects the public setting for each situation recognition information. For example, when there is recognition information that “You are said to be“ I'm sick ”with“ serious face ”,” the public group is set to “private” instead of “family”. Expansion may be performed.
  • FIG. 6 shows an example of an operation during dialogue by the agent (information processing apparatus 10).
  • the dialogue management unit 13 identifies the user 1 (step S100).
  • the information processing apparatus 10 acquires the unique information of the user 1 from the unique information server 3 via the server access unit 24 (step S101).
  • the acquired unique information is stored in the unique information storage unit 23.
  • the dialogue management unit 13 can perform a dialogue with the user 1 with reference to the unique information of the user 1 stored in the unique information storage unit 23.
  • the dialogue management unit 13 waits for the utterance of the user 1 (step S102).
  • the unique information extracting unit 21 determines whether or not the unique information is included in the utterance of the user 1 (step S103).
  • the dialog management unit 13 stores the unique information in the unique information storage unit 23. Based on the contents of the unique information and the response from the application 14, a response sentence to the user 1 is generated (step S107).
  • the dialogue management unit 13 responds to the user 1 by outputting the generated response sentence via the voice synthesis unit 12 (step S108).
  • the unique information use determination unit 22 determines that the unique information is included in the utterance of the user 1 (step S103; Y)
  • the unique information use determination unit 22 then extracts the unique information.
  • the disclosure range (the range of agents that give permission to use) is determined (step S104).
  • the unique information use determination unit 22 stores the unique information with the use permission information added in the unique information storage unit 23 (step S105).
  • the unique information utilization determining unit 22 synchronizes the unique information in the unique information storage unit 23 and the unique information server 3 via the server access unit 24 (step S106). Thereafter, the dialogue management unit 13 proceeds to the process of step S107.
  • FIG. 7 illustrates a configuration example of the information processing apparatus 10A according to the second embodiment of the present disclosure.
  • a unique information rewriting unit 28 that newly performs “rewriting of unique information” may be provided between the unique information use determination unit 22 and the unique information storage unit 23.
  • the unique information rewriting unit 28 modifies the unique information extracted by the unique information extracting unit 21 based on the character setting or the like of the agent that is the conversation partner.
  • the character setting of the agent and the relationship of the agent can be expressed.
  • the unique information rewriting unit 28 may replace “puff cream” with “sweet”. Thereby, the character effect that the agent X is rough can be performed.
  • the unique information is provided only to the agent permitted to use at the stage of providing the unique information from the unique information server 3. You may make it provide specific information to all the agents irrespective of permission.
  • the determination as to whether or not the agent can actually use the unique information may be performed by the agent on the information processing apparatus side based on the use permission information added to the unique information.
  • the dialogue management unit 13 refers to the unique information stored in the unique information storage unit 23 and performs a dialogue with the user 1, the unique information that can be used based on the use permission information added to the unique information. You may make a judgment.
  • each component in each of the above embodiments may be divided into a plurality of parts, and the functions may be different among the plurality of divided elements.
  • an operation flow that omits a part of each processing step may be executed. Moreover, you may perform the operation
  • this technique can also take the following structures.
  • the use permission information is added to the unique information based on the unique information included in the utterance content of the user, so that the diffusion of the unique information unintended by the user can be prevented. .
  • An information extraction unit that extracts specific information of the user included in the utterance content based on the utterance content of the user when an arbitrary one of the virtual agents is a conversation partner; Based on the specific information extracted by the information extraction unit, a determination is made as to which agent of the plurality of agents is permitted to use the extracted specific information, and the determination result is
  • An information processing apparatus comprising: a determination unit that adds to the unique information as use permission information.
  • a unique information storage unit for storing the unique information to which the use permission information is added by the determination unit;
  • the information processing apparatus according to (1) further including: (3) A unique information rewriting unit that modifies the extracted unique information based on the character setting of the agent that is the conversation partner;
  • the information processing apparatus according to (1) or (2) further including: (4) An output unit that outputs the specific information to which the use permission information has been added by the determination unit to an information server with which each of the plurality of agents can communicate;
  • a dialog unit for referring to the user-specific information provided by the information server and performing a dialog with the user;
  • the information processing apparatus according to (5) further including: (7)
  • the determination unit Referring to the relationship table indicating the relationship between the plurality of agents, grouping the plurality of agents into a plurality of groups having the same relationship, and using the extracted specific information for each group.
  • a situation recognition unit that recognizes the situation of the user when the unique information is extracted, and outputs the recognition result as situation recognition information; Further comprising The determination unit, for any agent among the plurality of agents, based on the situation recognition information recognized by the situation recognition unit and the unique information extracted by the information extraction unit, The information processing apparatus according to any one of (1) to (7), wherein whether to permit use of the extracted unique information is determined. (9) The situation recognition unit The information processing apparatus according to (8), wherein the user's utterance prosody is recognized as the user status. (10) The situation recognition unit The information processing apparatus according to (8), wherein a facial expression when the user speaks is recognized as the user situation.
  • An information server that can communicate with each of a plurality of virtual agents, and provides user-specific information to an agent that is permitted to use among the plurality of agents; Including at least one information processing apparatus that performs dialogue with the user via at least one agent among the plurality of agents with reference to the unique information of the user provided by the information server,
  • the information processing apparatus includes: An information extraction unit that extracts the user-specific information included in the utterance content based on the utterance content of the user when the one agent is the conversation partner of the plurality of agents; Based on the specific information extracted by the information extraction unit, a determination is made as to which agent of the plurality of agents is permitted to use the extracted specific information, and the determination result is A determination unit to add to the specific information as use permission information;
  • An information processing system comprising: an output unit that outputs the specific information to which the use permission information is added by the determination unit to the information server.
  • the information processing apparatus includes: A unique information storage unit that stores the unique information of the user provided by the information server, and stores the unique information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示の情報処理装置は、仮想的な複数のエージェントのうち、任意の1つのエージェントを対話相手にした際のユーザの発話内容に基づいて、発話内容に含まれるユーザの固有情報を抽出する情報抽出部と、情報抽出部によって抽出された固有情報に基づいて、複数のエージェントのうち、いずれのエージェントに対して、抽出された固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として固有情報に付加する判断部とを備える。

Description

情報処理装置、および情報処理システム
 本開示は、仮想的なエージェントを介してユーザとの対話を可能にする情報処理装置、および情報処理システムに関する。
 ロボットやソフトウエアで作られる仮想的なキャラクタ(以下では総称して「エージェント」と呼ぶ)が、あたかも利用者(ユーザ)に話しかけるような行動をとることができるようにした情報処理システムが開発されている。ユーザに話しかける媒体は合成音声を用いることもできるし、表示装置の画面上に文字で出力することもできる。また、エージェントとユーザとが双方向に対話することが可能な対話システムが開発されている(特許文献1,2参照)。例えば特許文献1には、検索などの作業と雑談とを織り交ぜた対話を行うことができる対話システムが提案されている。さらに、例えば特許文献2には、対話を通してユーザ個別の情報(ユーザの固有情報)を取得し記憶することができるようにした対話システムが提案されている。
特開2014-98844号公報 特開2017-62602号公報
 上記のような対話システムでは、例えば複数のエージェントが存在する場合に、ユーザが任意の1つのエージェントと対話した内容(固有情報)が、ユーザが意図しない他のエージェントに拡散して漏洩するおそれがある。
 ユーザが意図しない固有情報の拡散を防ぐことができるようにした情報処理装置、および情報処理システムを提供することが望ましい。
 本開示の一実施の形態に係る情報処理装置は、仮想的な複数のエージェントのうち、任意の1つのエージェントを対話相手にした際のユーザの発話内容に基づいて、発話内容に含まれるユーザの固有情報を抽出する情報抽出部と、情報抽出部によって抽出された固有情報に基づいて、複数のエージェントのうち、いずれのエージェントに対して、抽出された固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として固有情報に付加する判断部とを備えるものである。
 本開示の一実施の形態に係る情報処理システムは、仮想的な複数のエージェントのそれぞれと通信可能であり、複数のエージェントのうち利用許可の与えられたエージェントに対してユーザの固有情報を提供する情報サーバと、情報サーバによって提供されたユーザの固有情報を参照して、複数のエージェントのうち少なくとも1つのエージェントを介して、ユーザとの対話を行う少なくとも1つの情報処理装置とを含み、情報処理装置が、複数のエージェントのうち、1つのエージェントを対話相手にした際のユーザの発話内容に基づいて、発話内容に含まれるユーザの固有情報を抽出する情報抽出部と、情報抽出部によって抽出された固有情報に基づいて、複数のエージェントのうち、いずれのエージェントに対して、抽出された固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として固有情報に付加する判断部と、判断部によって利用許可情報が付加された固有情報を、情報サーバに出力する出力部とを備えるものである。
 本開示の一実施の形態に係る情報処理装置、または情報処理システムでは、ユーザの発話内容に含まれる固有情報に基づいて、複数のエージェントのうち、いずれのエージェントに対して、固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として固有情報に付加する。
本開示の第1の実施の形態に係る情報処理システムの概要を示す構成図である。 第1の実施の形態に係る情報処理装置の一構成例を示すブロック図である。 利用許可情報が付加された固有情報の一例を示す説明図である。 公開設定表の一例を示す説明図である。 エージェント関係表の一例を示す説明図である。 第1の実施の形態に係る情報処理装置による対話時の動作の一例を概略的に示す流れ図である。 第2の実施の形態に係る情報処理装置の一構成例を示すブロック図である。
 以下、本開示の実施の形態について図面を参照して詳細に説明する。なお、説明は以下の順序で行う。
 0.比較例
 1.第1の実施の形態
  1.1 情報処理システムの概要(図1)
  1.2 情報処理装置の構成例(図2~図5)
  1.3 動作(図6)
  1.4 効果
 2.第2の実施の形態(図7)
 3.その他の実施の形態
<0.比較例>
(比較例に係る情報処理システムの概要)
 エージェントとユーザとが双方向に対話することが可能な情報処理システムにおいて、対話を通してユーザの固有情報を取得して記憶しておくことで、以降の対話の際に、その固有情報をエージェント側で利用することが考えられる。
 例えば、あるエージェントAが特定のユーザと対話して得られた特定のユーザの固有情報を、別のエージェントBが利用可能な記憶装置に記憶しておくことで特定のユーザの満足度の向上が期待できる。例えばエージェントAが特定のユーザとの対話の中で、特定のユーザの好きな食べ物がケーキであるという固有情報を得た場合、エージェントBが特定のユーザと対話する場合にケーキの話題を優先的に行うなどの動作が可能となる。
(課題)
 好きな食べ物などの固有情報は、複数のエージェント間で共有することで、上記のようにユーザ満足度の向上が期待できる。一方、例えば特定のユーザの行動履歴(例:昨日は帰宅が遅かった)や、特定のユーザの個人的な人の好き嫌いの情報(例:好きな人ができた)などの固有情報を、特定のユーザがエージェントAに話した後に、全ての固有情報をエージェントAがエージェントBにも利用可能となるように処理してしまった場合を考える。このとき、エージェントAを介して取得した特定のユーザの固有情報を、エージェントBが特定のユーザとの対話で利用すると「なぜエージェントAにしか話していない内容をエージェントBが知っているのか? エージェントAは『口が軽い』」などと、特定のユーザの気分を害してしまう可能性がある。
 このため、エージェントとユーザとが双方向に対話することが可能な情報処理システムにおいて、ユーザが意図しない固有情報の拡散を防ぐことが可能な技術の開発が望まれる。
<1.第1の実施の形態>
[1.1 情報処理システムの概要]
 図1は、第1の実施の形態に係る情報処理システム100の概要を示している。
 情報処理システム100は、固有情報サーバ3と、少なくとも1つの情報処理装置10とを備えている。固有情報サーバ3および情報処理装置10は、ネットワーク2に接続されている。
 ネットワーク2は、インターネットなどのWAN(Wide Area Network)であってもよいし、LAN(Local Area Network)であってもよい。
 情報処理装置10は、ユーザ1に対して仮想的なエージェントを提供する機能を有する。情報処理システム100では、少なくとも1つの情報処理装置10によって、複数のエージェントが提供される。情報処理装置10は、複数、設けられていても良い。1つの情報処理装置10が、1つのエージェントを提供する形態であってもよいし、1つの情報処理装置10が、複数のエージェントを提供する形態であってもよい。ユーザ1に対して認識させるエージェントの外観は、情報処理装置10の全体(筐体全体)であってもよいし、情報処理装置10の一部(筐体の一部)であってもよい。この場合、後述する図2に示すように、情報処理装置10が音声認識部11と音声出力部(音声合成部12)とを備えることにより、ユーザ1と対話可能である。また、情報処理装置10がディスプレイを備え、そのディスプレイに表示された仮想的なキャラクタをユーザ1に対して、視覚的にエージェントとして認識させる形態であってもよい。また、エージェントの対話機能は音声に限らず、ディスプレイを介した文字情報によるものであってもよい。
 固有情報サーバ3は、ネットワーク2を介して、複数のエージェント(情報処理装置10)のそれぞれと通信可能となっている。固有情報サーバ3は、ユーザ1の固有情報を記憶すると共に、複数のエージェントに対してユーザ1の固有情報を提供する機能を有する。
 なお、図1では、一人のユーザ1のみを図示しているが、ユーザが複数、存在してもよい。また、図1では、エージェントがエージェントXとエージェントYとの2つである例を示しているが、エージェントが3つ以上、存在していてもよい。また、各エージェントは、一人のユーザ1のみが使用できる専用のエージェントであってもよいし、複数のユーザが共有するエージェントであってもよい。
 この情報処理システム100では、例えばエージェントXが固有情報サーバ3に記憶されたユーザ1の固有情報を参照し、ユーザ1との対話を行う。その後、エージェントXは対話によって得られたユーザ1の新たな固有情報を固有情報サーバ3に記憶させる。
 また、エージェントYも固有情報サーバ3からユーザ1の固有情報を得ることができる。その際、エージェントXが取得したユーザ1の固有情報も固有情報サーバ3から引き出すことができる。その後、エージェントYはユーザ1と対話を行い、その結果得られたユーザ1の新たな固有情報を固有情報サーバ3に追加、記憶させる。
 このように、情報処理システム100では、複数のエージェントが同一のユーザ1の固有情報を共有することが可能な構成となっている。
 本実施の形態では、固有情報サーバ3は、複数のエージェントのうち利用許可の与えられたエージェントに対してのみユーザ1の固有情報を提供する。この情報処理システム100では、ユーザ1との対話で固有情報を取得したエージェント(例えばエージェントX)が、「取得した固有情報を利用できるエージェント(例えばエージェントY)」に関する利用許可情報(後述する図3の「利用許可」カラム)を付与して固有情報を固有情報サーバ3にアップロードする。固有情報サーバ3は、利用許可のあるエージェントに対してのみ固有情報を提供する。
[1.2 情報処理装置の構成例]
 図2は、情報処理装置10の一構成例を示している。図2では、ユーザ1とエージェントとの対話を音声で行う場合の構成例を示す。
 情報処理装置10は、音声認識部11と、音声合成部12と、対話管理部13と、アプリケーション14と、状況認識部15とを備えている。また、情報処理装置10は、固有情報抽出部21と、固有情報利用判断部22と、固有情報記憶部23と、サーバアクセス部24と、データベース27とを備えている。
 対話管理部13は、本開示の技術における「対話部」の一具体例に対応する。固有情報抽出部21は、本開示の技術における「情報抽出部」の一具体例に対応する。固有情報利用判断部22は、本開示の技術における「判断部」の一具体例に対応する。サーバアクセス部24は、本開示の技術における「出力部」の一具体例に対応する。
 データベース27は、後述する図4に示すような公開設定表25と、後述する図5に示すようなエージェント関係表26とを含んでいる。
 情報処理装置10は、図示しないCPU(Central Processing Unit)とプログラムを格納するプログラム格納部とを備えている。対話管理部13、アプリケーション14、固有情報抽出部21、および固有情報利用判断部22の機能は、例えばCPUがプログラム格納部に格納されたプログラムを実行することによって実現される。
 音声認識部11は、音を電気信号に変換するマイクロフォンを含んでいる。音声合成部12は、電気信号を音に変換する音声出力部としてのスピーカを含んでいる。
 状況認識部15は、対話時のユーザ1の状況を認識する。状況認識部15は、例えば、カメラやマイクロフォンを含み、ユーザ1の状況として、ユーザの発話のプロソディ(抑揚等)や、ユーザ1が発話した際の表情を認識する。
 音声認識部11、音声合成部12、および状況認識部15は、対話管理部13に電気的に接続されている。
 対話管理部13は、音声認識部11を介してユーザ1の音声を認識し、自然言語処理を行う。対話管理部13は、自然言語処理の結果に従い応答文を生成し、音声合成部12を通してユーザ1に出力する。対話管理部13は、応答文を生成する際にアプリケーション14へのアクセスを行う。
 ユーザの発話内容は、対話管理部13を介して固有情報抽出部21に供給される。固有情報抽出部21は、任意の1つのエージェントを対話相手にした際のユーザ1の発話内容に基づいて、発話内容に含まれるユーザの固有情報を抽出する。固有情報抽出部21によって抽出された固有情報は、固有情報利用判断部22に供給される。
 固有情報利用判断部22は、固有情報抽出部21によって抽出された固有情報に基づいて、複数のエージェントのうち、いずれのエージェントに対して、抽出された固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として固有情報に付加する。その際、固有情報利用判断部22は、公開設定表25、およびエージェント関係表26に基づいて、固有情報に利用許可情報を付加する。固有情報利用判断部22は、利用許可情報が付加された固有情報を固有情報記憶部23に記憶させる。
 固有情報記憶部23は、固有情報利用判断部22によって利用許可情報が付加された固有情報を記憶する。また、固有情報利用判断部22によって利用許可情報が付加された固有情報は、サーバアクセス部24を介して固有情報サーバ3に出力され、固有情報サーバ3に記憶される。これにより、固有情報記憶部23に記憶される固有情報と固有情報サーバ3に記憶される固有情報とが同期される。
 ユーザの発話内容からの情報抽出に関しては、例えば、京都大学黒橋・河原研究室で公開している日本語構文・格・照応解析システムKNPなどがあり『構文・述語項構造解析システムKNPの解析の流れと特徴 言語処理学会 第19回年次大会 発表論文集(2013年3月)』に詳細が説明されている。
 このような解析システムでは、例えば「Aさんが好き」というユーザの発話内容から、「好き」と「Aさんが」という文が「が格」で接続されることから、好きの対象が「Aさん」であることが解析できる。
(固有情報の具体例)
 対話管理部13は、固有情報記憶部23からユーザ固有情報を得て、対話出力に利用することができる。
 図3は、固有情報記憶部23に記憶される、利用許可情報が付加された固有情報の一例を示している。図4は、利用許可情報を付加する際に参照される公開設定表25の一例を示している。図5は、利用許可情報を付加する際に参照されるエージェント関係表26の一例を示している。
 固有情報記憶部23に記憶される固有情報には、例えば、ユーザ1の発話から抽出された「述語」、「関係性」、「対象」および情報を取得したエージェントのIDが含まれる。また、固有情報には、その固有情報がどのユーザの情報であるかを示すユーザIDが含まれる。
 固有情報抽出部21は、ユーザの発話内容から固有情報を抽出する。この時点で、図3の「利用許可」を除くデータ列の情報(つまり、ユーザID、述語、関係性、対象、および取得エージェント)が得られる。その後、固有情報利用判断部22が、公開設定表25(図4)、およびエージェント関係表26(図5)に基づき、固有情報の利用許可欄に、利用許可情報として、利用許可を与えるエージェントのIDを記述する。その後、固有情報は固有情報記憶部23に記憶され、対話でも利用される。また、固有情報は固有情報サーバ3にも記憶される。これにより、固有情報記憶部23と固有情報サーバ3とで固有情報の同期が行われる。固有情報サーバ3は、利用許可のあるエージェントにのみ情報を提供する。
 例えば、エージェントXが、ユーザ1からAさんが好きで、Bさんが嫌いであることを聞いた場合、その固有情報は、図3の例では、エージェントXのみが利用可能である。また、例えば、エージェントYが、ユーザ1からハンバーグを食べたことを聞いた場合、その固有情報は、図3の例では、全てのエージェントで利用可能となっている。
 対話管理部13は、ユーザの発話内容によって、特定のタスクの実行でなければ雑談応答を返すことができる。特定のタスクとは、例えばユーザの発話内容が、単に物事の検索を要求する場合に、その検索結果を返す場合などである。また、ユーザ1の発話の内容に依らずとも、ユーザの発話が一定時間途切れたときなどのタイミングで、エージェントが自発的に雑談応答を実行してもよい。
 固有情報利用判断部22では、抽出された固有情報の内容に従い、その固有情報可能なエージェントを決定する。例えば、「述語」が好悪に関する内容であって、「対象」が人名である場合、利用許可されるエージェントは情報を取得したエージェントのみとなる。
 固有情報利用判断部22による「利用許可」の判断は、抽出された固有情報の内容のみならず、エージェントの関係性情報も利用できる。例えばユーザ1がエージェントXの知識はエージェントYが全て参照して良いと特別の許可を与えた場合や、エージェントXとエージェントYは「特別に仲が良い」とはじめからユーザ1が認知している設定がある場合などである。
 以下、図3の固有情報について、より詳細に説明する。図3では、特に、エージェントXが取得した、ユーザ1に関する固有情報の例を示している。
 固有情報利用判断部22は、複数のエージェント間の関係性を示す関係テーブルを参照して、複数のエージェントを同一の関係性を有する複数のグループにグループ分けし、グループごとに、抽出された固有情報の利用許可を与えるか否かを判断する。ここでいう関係テーブルとは、例えば図5に示すエージェント関係表26である。
 図3の固有情報311は、ユーザ1が「Aさんが好き」とエージェントXに対して話した情報の例である。公開設定表25(図4)の通り、「(人名)が好き」という情報は、公開グループが「private」に属する。このため、固有情報利用判断部22によって、固有情報311の利用許可欄に、情報取得エージェントである「X」の値が記述されている。これにより、固有情報311は、情報取得エージェントであるエージェントXにのみ利用許可があり、エージェントX以外には公開されない。
 固有情報312は、ユーザ1が「シュークリームが好き」とエージェントLに伝えた情報の例である。公開設定表25(図4)の通り、「(食品)が好き」という情報は、公開グループが「friend」に属する。また、エージェント関係表26(図5)の通り、エージェントX,Lは「friend」の関係にある。このため、固有情報利用判断部22によって、固有情報312の利用許可欄に、「X」と「L」の値が記述されている。固有情報312は、エージェントL,Xに対して利用許可があるため、エージェントXが固有情報サーバ3から取得できた情報である。
 固有情報313は、ユーザ1が「Bさんが嫌い」とエージェントXに伝えた情報の例である。公開設定表25(図4)の通り、「(人名)が嫌い」という情報は、公開グループが「private」に属する。このため、固有情報利用判断部22によって、固有情報313の利用許可欄に、情報取得エージェントである「X」の値が記述されている。これにより、固有情報313は、情報取得エージェントであるエージェントXにのみ利用許可があり、エージェントX以外には公開されない。
 固有情報314は、ユーザ1が「ハンバーグを食べた」とエージェントYに伝えた情報の例である。公開設定表25(図4)の通り、「を食べた」という情報は、公開グループが「pulic」に属する。このため、固有情報利用判断部22によって、固有情報314の利用許可欄に、「制限なし」と記述されている。
 固有情報315は、ユーザ1が「おじいちゃんが病気」とエージェントXに伝えた情報の例である。公開設定表25(図4)の通り、「(人名)が病気」という情報は、公開グループが「family」に属する。また、エージェント関係表26(図5)の通り、エージェントX,Yは「family」の関係にある。このため、固有情報利用判断部22によって、固有情報312の利用許可欄に、「X」と「Y」の値が記述されている。結果、固有情報315は、エージェントXに伝えた情報であるが、エージェントYにも利用許可が出ている。
 図4に示したように、公開設定表25には、例えば図3の固有情報における3つのデータ列(述語、関係性、対象)に対応する情報と公開グループとの関係が記述されている。ただし、例えば「対象」の情報の一例として「食品」と記述されているように、対象物の具体名ではなくカテゴリを記入することができる。また、「(任意)」のように条件を問わない記述も可能となっている。
 公開設定表25には、公開グループとして、図5に示したエージェント関係表26に記載されている、「family」,「close-friend」,「friend」などのグループに加えて、「private(非公開)」,「public(制限なし)」などを記述することができる。なお、privateの場合には、固有情報を取得したエージェントのみに利用許可が与えられる。
 なお、図4の例では、述語、関係性、および対象を表形式で記述しているが、固有情報利用判断部22は、固有情報と公開設定表25とにおける「述語」や「対象」の部分の類似度判定を機械学習などを用いて行うことも可能である。例えば、公開設定表25の「対象」欄に「肉まん」とあり、固有情報が「饅頭」であった場合、固有情報と公開設定表25とにおける「対象」が一致していると見なすような処理を行ってもよい。
 図5に示したように、エージェント関係表26には、「グループ名」とそのグループの対象となる「対象エージェント」との対応関係が記述されている。図5では、グループ名として、「family」、「close-friend」および「friend」が記述されている例を示しているが、エージェント関係表26に記述するグループ名はこれらに限定されるものではない。また、対象エージェントは、必ずしも実際の家族の所有するエージェントや、友達の所有するエージェントである必要は無い。例えば「エージェントXとエージェントYは仲が良い」といったような、エージェントのキャラクタ付けの一環としての関係性でも良い。同様に、エージェントXを持つユーザとエージェントYを持つユーザとが家族関係であっても、「エージェントXとエージェントYは仲が悪い」といったエージェント間のキャラクタ付けを反映させて、familyグループにあえて記述しないなどのコントロールを行ってもよい。
(変形例)
 固有情報は、図3の例以外にも、例えば、情報取得時のユーザ1の状況を加味してもよい。状況認識部15は、固有情報を抽出したときのユーザ1の状況を認識し、その認識結果を状況認識情報として対話管理部13を介して固有情報利用判断部22に出力してもよい。固有情報利用判断部22は、状況認識部15によって認識された状況認識情報と、固有情報抽出部21によって抽出された固有情報とに基づいて、複数のエージェントのうち、いずれのエージェントに対して、抽出された固有情報の利用許可を与えるかを判断するようにしてもよい。
 状況認識部15によって取得される状況認識情報は、例えば、以下のような情報を含んでいてもよい。
・ヒソヒソ声だった(声のプロソディ)
・「これは秘密だよ」、「誰にも言わないで」と指摘された(ユーザの明示的指示)
・真剣な表情で言われた(表情認識結果)
 上記のような状況認識情報を記録しておき、公開設定表25に各状況認識情報に対する公開設定を反映させるような設定の拡張を行ってもよい。例えば、「「真剣な顔」で「○○が病気だ」と言われた」という認識情報があった場合には、公開グループは「family」ではなく、「private」にする、などの設定の拡張を行ってもよい。
 また、固有情報を直接取得したエージェント以外が雑談で固有情報を利用する際に、「エージェントXから聞きましたけど、シュークリームが好きなんですか?」というように、固有情報の取得元を提示して、ユーザ1から見たエージェント間の情報流通の透明性を上げることもできる。
[1.3 動作]
 図6は、エージェント(情報処理装置10)による対話時の動作の一例を示している。
 まず、対話管理部13は、ユーザ1の識別を行う(ステップS100)。次に、情報処理装置10は、サーバアクセス部24を介して固有情報サーバ3からユーザ1の固有情報を取得する(ステップS101)。取得された固有情報は、固有情報記憶部23に記憶される。これにより、対話管理部13は、固有情報記憶部23に記憶されたユーザ1の固有情報を参照して、ユーザ1との対話を行うことが可能となる。次に、対話管理部13は、ユーザ1の発話を待つ(ステップS102)。
 次に、固有情報抽出部21は、ユーザ1の発話に固有情報が含まれているか否かを判断する(ステップS103)。固有情報抽出部21によってユーザ1の発話に固有情報が含まれていないと判断された場合(ステップS103;N)には、次に、対話管理部13は、固有情報記憶部23に記憶された固有情報の内容と、アプリケーション14からの応答を元に、ユーザ1への応答文を生成する(ステップS107)。次に、対話管理部13は、生成した応答文を音声合成部12を介して出力することによって、ユーザ1に応答する(ステップS108)。
 一方、固有情報抽出部21によってユーザ1の発話に固有情報が含まれていると判断された場合(ステップS103;Y)には、次に、固有情報利用判断部22が、抽出された固有情報の公開範囲(利用許可を与えるエージェントの範囲)を決定する(ステップS104)。次に、固有情報利用判断部22は、利用許可情報を付加した固有情報を固有情報記憶部23に記憶する(ステップS105)。次に、固有情報利用判断部22は、サーバアクセス部24を介して固有情報記憶部23と固有情報サーバ3とにおける固有情報の同期を行う(ステップS106)。その後、対話管理部13は、ステップS107の処理に進む。
[1.4 効果]
 以上のように、本実施の形態によれば、ユーザ1の発話内容に含まれる固有情報に基づいて、固有情報に利用許可情報を付加するようにしたので、ユーザ1が意図しない固有情報の拡散を防ぐことができる。これにより、ユーザ1が任意の1つのエージェント(例えばエージェントX)に話した内容をエージェントXとの雑談などに活用しつつ、ユーザ1の意図しない異なる他のエージェント(例えばエージェントY)への情報の拡散を防ぎ、ユーザ1から見たエージェントXに対する親密感を増加させることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。以降の他の実施の形態の効果についても同様である。
<2.第2の実施の形態>
 次に、本開示の第2の実施の形態に係る情報処理装置、および情報処理システムについて説明する。なお、以下では、上記第1の実施の形態に係る情報処理装置、および情報処理システムの構成要素と略同じ部分については、同一符号を付し、適宜説明を省略する。
 図7は、本開示の第2の実施の形態に係る情報処理装置10Aの一構成例を示している。
 図7に示したように、固有情報利用判断部22と固有情報記憶部23との間に、新たに「固有情報の書き換え」を行う固有情報書換部28を設けてもよい。固有情報書換部28は、固有情報抽出部21によって抽出された固有情報を、対話相手となったエージェントのキャラクタ設定等に基づいて改変する。
 固有情報書換部28によって、エージェントが得た固有情報を変形(改変)することで、エージェントのキャラクタ設定や、エージェントの関係を表現することができる。例えば、ユーザ1がエージェントXに「シュークリーム」「が」「好き」という情報を伝えた場合に、固有情報書換部28において、「シュークリーム」を「甘いもの」で置き換えるようにしてもよい。これにより、エージェントXが大雑把であるというキャラクタ演出を行うことができる。また、例えば、固有情報書換部28において、「シュークリーム」を「アイスクリーム」と置き換えることで、エージェントXが「いいかげん」であると演出するようなこともできる。また、情報取得時の時刻やユーザ1の表情などを事細かに伝達することにより、エージェントXが「細かい性格」であることを演出することができる。
 その他の構成、動作および効果は、上記第1の実施の形態に係る情報処理装置10、および情報処理システム100と略同様であってもよい。
<3.その他の実施の形態>
 本開示による技術は、上記各実施の形態の説明に限定されず種々の変形実施が可能である。
 例えば、以上の各実施の形態では、固有情報サーバ3から固有情報を提供する段階で、利用許可のあるエージェントに対してのみ、固有情報を提供するようにしたが、固有情報サーバ3からは利用許可に関わらず全てのエージェントに固有情報を提供するようにしてもよい。そして、実際にエージェントが固有情報を利用できるか否かの判断は、固有情報に付加された利用許可情報に基づいて、情報処理装置側でエージェント自らが行うようにしてもよい。例えば、対話管理部13が固有情報記憶部23に記憶された固有情報を参照してユーザ1との対話を行う際に、固有情報に付加された利用許可情報に基づいて、利用可能な固有情報の判断を行ってもよい。
 また、例えば上記各実施の形態における各構成要素は複数に分割されていてもよく、分割された複数の構成要素で機能を異ならせていてもよい。
 また、例えば上記各実施の形態における動作フローにおいて、各処理ステップの一部を省略するような動作フローを実行してもよい。また、動作フローには記載しなかった別の処理ステップを追加するような動作フローを実行してもよい。また、動作フローに示した各処理ステップの順序を部分的に入れ替えるような動作フローを実行してもよい。
 例えば、本技術は以下のような構成を取ることもできる。
 以下の構成の本技術によれば、ユーザの発話内容に含まれる固有情報に基づいて、固有情報に利用許可情報を付加するようにしたので、ユーザが意図しない固有情報の拡散を防ぐことができる。
(1)
 仮想的な複数のエージェントのうち、任意の1つのエージェントを対話相手にした際のユーザの発話内容に基づいて、前記発話内容に含まれる前記ユーザの固有情報を抽出する情報抽出部と、
 前記情報抽出部によって抽出された前記固有情報に基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として前記固有情報に付加する判断部と
 を備える
 情報処理装置。
(2)
 前記判断部によって前記利用許可情報が付加された前記固有情報を記憶する固有情報記憶部、
 をさらに備えた
 上記(1)に記載の情報処理装置。
(3)
 前記対話相手となったエージェントのキャラクタ設定に基づいて、前記抽出された前記固有情報を改変する固有情報書換部、
 をさらに備えた
 上記(1)または(2)に記載の情報処理装置。
(4)
 前記判断部によって前記利用許可情報が付加された前記固有情報を、前記複数のエージェントのそれぞれが通信可能な情報サーバに出力する出力部、
 をさらに備えた
 上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(5)
 前記情報サーバは、前記複数のエージェントのうち、前記利用許可の与えられたエージェントに対してのみ前記ユーザの固有情報を提供する
 上記(4)に記載の情報処理装置。
(6)
 前記情報サーバによって提供された前記ユーザの固有情報を参照して、前記ユーザとの対話を行う対話部、
 をさらに備える
 上記(5)に記載の情報処理装置。
(7)
 前記判断部は、
 前記複数のエージェント間の関係性を示す関係テーブルを参照して、前記複数のエージェントを同一の関係性を有する複数のグループにグループ分けし、前記グループごとに、前記抽出された前記固有情報の利用許可を与えるか否かを判断する
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(8)
 前記固有情報を抽出したときの前記ユーザの状況を認識し、その認識結果を状況認識情報として出力する状況認識部、
 をさらに備え、
 前記判断部は、前記状況認識部によって認識された前記状況認識情報と、前記情報抽出部によって抽出された前記固有情報とに基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断する
 上記(1)ないし(7)のいずれか1つに記載の情報処理装置。
(9)
 前記状況認識部は、
 前記ユーザの状況として、前記ユーザの発話のプロソディを認識する
 上記(8)に記載の情報処理装置。
(10)
 前記状況認識部は、
 前記ユーザの状況として、前記ユーザが発話した際の表情を認識する
 上記(8)に記載の情報処理装置。
(11)
 仮想的な複数のエージェントのそれぞれと通信可能であり、前記複数のエージェントのうち利用許可の与えられたエージェントに対してユーザの固有情報を提供する情報サーバと、
 前記情報サーバによって提供された前記ユーザの固有情報を参照して、前記複数のエージェントのうち少なくとも1つのエージェントを介して、前記ユーザとの対話を行う少なくとも1つの情報処理装置と
 を含み、
 前記情報処理装置は、
 前記複数のエージェントのうち、前記1つのエージェントを対話相手にした際の前記ユーザの発話内容に基づいて、前記発話内容に含まれる前記ユーザの固有情報を抽出する情報抽出部と、
 前記情報抽出部によって抽出された前記固有情報に基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として前記固有情報に付加する判断部と、
 前記判断部によって前記利用許可情報が付加された前記固有情報を、前記情報サーバに出力する出力部と
 を備える
 情報処理システム。
(12)
 前記情報処理装置は、
 前記情報サーバによって提供された前記ユーザの固有情報を記憶すると共に、前記判断部によって前記利用許可情報が付加された前記固有情報を記憶する固有情報記憶部、
 をさらに備えた
 上記(11)に記載の情報処理システム。
 本出願は、日本国特許庁において2018年3月20日に出願された日本特許出願番号第2018-052264号を基礎として優先権を主張するものであり、この出願のすべての内容を参照によって本出願に援用する。
 当業者であれば、設計上の要件や他の要因に応じて、種々の修正、コンビネーション、サブコンビネーション、および変更を想到し得るが、それらは添付の請求の範囲やその均等物の範囲に含まれるものであることが理解される。

Claims (12)

  1.  仮想的な複数のエージェントのうち、任意の1つのエージェントを対話相手にした際のユーザの発話内容に基づいて、前記発話内容に含まれる前記ユーザの固有情報を抽出する情報抽出部と、
     前記情報抽出部によって抽出された前記固有情報に基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として前記固有情報に付加する判断部と
     を備える
     情報処理装置。
  2.  前記判断部によって前記利用許可情報が付加された前記固有情報を記憶する固有情報記憶部、
     をさらに備えた
     請求項1に記載の情報処理装置。
  3.  前記対話相手となったエージェントのキャラクタ設定に基づいて、前記抽出された前記固有情報を改変する固有情報書換部、
     をさらに備えた
     請求項1に記載の情報処理装置。
  4.  前記判断部によって前記利用許可情報が付加された前記固有情報を、前記複数のエージェントのそれぞれが通信可能な情報サーバに出力する出力部、
     をさらに備えた
     請求項1に記載の情報処理装置。
  5.  前記情報サーバは、前記複数のエージェントのうち、前記利用許可の与えられたエージェントに対してのみ前記ユーザの固有情報を提供する
     請求項4に記載の情報処理装置。
  6.  前記情報サーバによって提供された前記ユーザの固有情報を参照して、前記ユーザとの対話を行う対話部、
     をさらに備える
     請求項5に記載の情報処理装置。
  7.  前記判断部は、
     前記複数のエージェント間の関係性を示す関係テーブルを参照して、前記複数のエージェントを同一の関係性を有する複数のグループにグループ分けし、前記グループごとに、前記抽出された前記固有情報の利用許可を与えるか否かを判断する
     請求項1に記載の情報処理装置。
  8.  前記固有情報を抽出したときの前記ユーザの状況を認識し、その認識結果を状況認識情報として出力する状況認識部、
     をさらに備え、
     前記判断部は、前記状況認識部によって認識された前記状況認識情報と、前記情報抽出部によって抽出された前記固有情報とに基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断する
     請求項1に記載の情報処理装置。
  9.  前記状況認識部は、
     前記ユーザの状況として、前記ユーザの発話のプロソディを認識する
     請求項8に記載の情報処理装置。
  10.  前記状況認識部は、
     前記ユーザの状況として、前記ユーザが発話した際の表情を認識する
     請求項8に記載の情報処理装置。
  11.  仮想的な複数のエージェントのそれぞれと通信可能であり、前記複数のエージェントのうち利用許可の与えられたエージェントに対してユーザの固有情報を提供する情報サーバと、
     前記情報サーバによって提供された前記ユーザの固有情報を参照して、前記複数のエージェントのうち少なくとも1つのエージェントを介して、前記ユーザとの対話を行う少なくとも1つの情報処理装置と
     を含み、
     前記情報処理装置は、
     前記複数のエージェントのうち、前記1つのエージェントを対話相手にした際の前記ユーザの発話内容に基づいて、前記発話内容に含まれる前記ユーザの固有情報を抽出する情報抽出部と、
     前記情報抽出部によって抽出された前記固有情報に基づいて、前記複数のエージェントのうち、いずれのエージェントに対して、前記抽出された前記固有情報の利用許可を与えるかを判断し、その判断結果を利用許可情報として前記固有情報に付加する判断部と、
     前記判断部によって前記利用許可情報が付加された前記固有情報を、前記情報サーバに出力する出力部と
     を備える
     情報処理システム。
  12.  前記情報処理装置は、
     前記情報サーバによって提供された前記ユーザの固有情報を記憶すると共に、前記判断部によって前記利用許可情報が付加された前記固有情報を記憶する固有情報記憶部、
     をさらに備えた
     請求項11に記載の情報処理システム。
PCT/JP2019/003141 2018-03-20 2019-01-30 情報処理装置、および情報処理システム WO2019181221A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/979,973 US20210012778A1 (en) 2018-03-20 2019-01-30 Information processing device and information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018052264 2018-03-20
JP2018-052264 2018-03-20

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/573,803 A-371-Of-International US10555329B2 (en) 2015-08-07 2016-06-30 Self- and cross- carrier scheduling
US16/721,261 Continuation US11368967B2 (en) 2015-08-07 2019-12-19 Self- and cross- carrier scheduling

Publications (1)

Publication Number Publication Date
WO2019181221A1 true WO2019181221A1 (ja) 2019-09-26

Family

ID=67986409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/003141 WO2019181221A1 (ja) 2018-03-20 2019-01-30 情報処理装置、および情報処理システム

Country Status (2)

Country Link
US (1) US20210012778A1 (ja)
WO (1) WO2019181221A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002341985A (ja) * 2001-05-21 2002-11-29 Fujitsu Ltd キャラクタインタフェースシステム
JP2004021509A (ja) * 2002-06-14 2004-01-22 Mitsubishi Heavy Ind Ltd 情報共有型ロボット
JP2005271098A (ja) * 2004-03-23 2005-10-06 Omron Corp 個人情報制御システム
JP2005279828A (ja) * 2004-03-29 2005-10-13 Victor Co Of Japan Ltd 情報共有可能なロボット
JP2005279830A (ja) * 2004-03-29 2005-10-13 Victor Co Of Japan Ltd ロボットおよびロボットを用いた情報管理方法
JP2017119337A (ja) * 2015-12-28 2017-07-06 ヴイストン株式会社 ロボット、ロボット制御方法およびロボットプログラム
WO2018043113A1 (ja) * 2016-08-29 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法、プログラム
JP2018054866A (ja) * 2016-09-29 2018-04-05 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP2018101249A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 ロボット、ロボットシステム、サーバ、情報収集方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9648171B1 (en) * 2016-05-23 2017-05-09 Intuit Inc. Emotion recognition to match support agents with customers
US10511450B2 (en) * 2016-09-20 2019-12-17 Google Llc Bot permissions
US10810322B2 (en) * 2017-12-05 2020-10-20 Microsoft Technology Licensing, Llc Sharing user information with and between bots

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002341985A (ja) * 2001-05-21 2002-11-29 Fujitsu Ltd キャラクタインタフェースシステム
JP2004021509A (ja) * 2002-06-14 2004-01-22 Mitsubishi Heavy Ind Ltd 情報共有型ロボット
JP2005271098A (ja) * 2004-03-23 2005-10-06 Omron Corp 個人情報制御システム
JP2005279828A (ja) * 2004-03-29 2005-10-13 Victor Co Of Japan Ltd 情報共有可能なロボット
JP2005279830A (ja) * 2004-03-29 2005-10-13 Victor Co Of Japan Ltd ロボットおよびロボットを用いた情報管理方法
JP2017119337A (ja) * 2015-12-28 2017-07-06 ヴイストン株式会社 ロボット、ロボット制御方法およびロボットプログラム
WO2018043113A1 (ja) * 2016-08-29 2018-03-08 ソニー株式会社 情報処理装置、情報処理方法、プログラム
JP2018054866A (ja) * 2016-09-29 2018-04-05 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP2018101249A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 ロボット、ロボットシステム、サーバ、情報収集方法及びプログラム

Also Published As

Publication number Publication date
US20210012778A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
Hoegen et al. An end-to-end conversational style matching agent
JP7263376B2 (ja) 自動化されたアシスタントによる以前の対話コンテキスト間の遷移
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
Levitan et al. Implementing Acoustic-Prosodic Entrainment in a Conversational Avatar.
Branigan et al. Linguistic alignment between people and computers
CN114207710A (zh) 检测和/或登记热命令以由自动助理触发响应动作
JP2019528512A (ja) 人工知能に基づくヒューマンマシンインタラクション方法及び装置
TW201913300A (zh) 人機互動方法及系統
CN113412515A (zh) 适配自动化助理以用多种语言使用
KR20200007891A (ko) 제작자 제공 콘텐츠 기반 인터랙티브 대화 애플리케이션 테일링
WO2018169000A1 (ja) 対話システム及びそのためのコンピュータプログラム
WO2017200078A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
KR20220140599A (ko) 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터
US20200193961A1 (en) System for synchronizing speech and motion of character
CN109643246A (zh) 经由用户的计算设备的用户界面设备自动发起和适配与用户的对话
JP2001249945A (ja) 感情生成方法および感情生成装置
Endrass et al. Culture-related topic selection in small talk conversations across Germany and Japan
CN113545781A (zh) 虚拟现实促眠的方法及装置
JP6643077B2 (ja) 対話システムおよびプログラム
WO2019181221A1 (ja) 情報処理装置、および情報処理システム
Aicher et al. Towards building a spoken dialogue system for argument exploration
US12002487B2 (en) Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy
Zulfikar et al. Memoro: Using Large Language Models to Realize a Concise Interface for Real-Time Memory Augmentation
JP7462995B1 (ja) 情報処理システム、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19772349

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19772349

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP