WO2024069975A1 - 学習装置、推定装置、学習方法、推定方法及びプログラム - Google Patents

学習装置、推定装置、学習方法、推定方法及びプログラム Download PDF

Info

Publication number
WO2024069975A1
WO2024069975A1 PCT/JP2022/036822 JP2022036822W WO2024069975A1 WO 2024069975 A1 WO2024069975 A1 WO 2024069975A1 JP 2022036822 W JP2022036822 W JP 2022036822W WO 2024069975 A1 WO2024069975 A1 WO 2024069975A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
user
model
intention
voice
Prior art date
Application number
PCT/JP2022/036822
Other languages
English (en)
French (fr)
Inventor
克洋 鈴木
済央 野本
亮 北原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/036822 priority Critical patent/WO2024069975A1/ja
Publication of WO2024069975A1 publication Critical patent/WO2024069975A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a learning device, an estimation device, a learning method, an estimation method, and a program.
  • neural networks and other techniques have been proposed that use neural networks and other techniques to obtain data from the tasks and comments of real users, as well as techniques to add fictional characters to role-playing games.
  • the development of artificial intelligence technology using neural networks and other techniques has made it possible to demonstrate performance that exceeds that of humans in areas such as competitive games.
  • Neural networks and artificial intelligence technologies are also being widely researched in the field of collaborative work. In collaborative work, artificial intelligence does not make inferences based on its own knowledge alone, but is required to understand the other party and change its thinking depending on the other party. Collaborative work requires the ability to build equal relationships with humans and the ability to behave socially, such as communicating with humans and working together with them.
  • Patent Document 1 cannot model real people, and its use is limited to specific role-playing games.
  • Patent Document 2 acquires data from the tasks and comments of real users, but only assists in deepening the user's thinking.
  • the present invention has been made in consideration of the above, and aims to provide a learning device, an estimation device, a learning method, an estimation method, and a program that enable output with human-like individuality.
  • the learning device of the present invention includes a recognition unit that recognizes the appearance, gestures, facial expression, tone of voice, emotion and/or language information of another person or an object of the other person as a recognition result based on input data that is an image, voice, and/or text created by the other person or an object of the other person; an estimation unit that uses a first model to estimate the intention and/or action of the person who will become the self based on at least the recognition result by the recognition unit; a generation unit that generates an image, voice, text, and/or operation information for a specified device of the object of the person who will become the self that indicates the appearance, gestures, facial expression, tone of voice, emotion and/or language information expressing the intention and/or action of the person who will become the self estimated by the estimation unit; and a personal
  • the device is characterized by having a characteristic, a trust index indicating the first person's trust in others, a first recognition result regarding the appearance, gestures, facial expression
  • the estimation device further comprises a recognition unit that recognizes the appearance, gestures, facial expressions, tone of voice, emotions and/or language information of a second person or an object of the second person performing a task in cooperation with a real first person as a second recognition result based on second data being an image, a voice and/or a text created by the second person or the object of the second person, and a correlation between the intention and/or action of the first person when the first person performs a task in cooperation with the second person or the object of the second person and the second recognition result.
  • the system is characterized by having an estimation unit that estimates the intention and/or action of the first person when performing a task in cooperation with the second person using a first model that has learned a third relationship, which is a relationship between the first person and the second person, and a second model that estimates the intention and action of the second person or the object of the second person based on the second recognition result, and a generation unit that generates an image, voice, text, and/or operation information for a specified device of the object of the first person that indicates the appearance, gesture, facial expression, tone of voice, emotion, and/or language information that expresses the intention and/or action of the first person estimated by the estimation unit.
  • the present invention makes it possible to produce output with human-like individuality.
  • FIG. 1 is a diagram illustrating an example of a configuration of a processing device according to a first embodiment.
  • FIG. 2 is a diagram for explaining the data accumulation phase.
  • FIG. 3 is a diagram illustrating the learning phase.
  • FIG. 4 is a flowchart showing the procedure of the processing method according to the first embodiment.
  • FIG. 5 is a flowchart showing the procedure of the estimation process shown in FIG.
  • FIG. 6 is a flowchart showing the procedure of the learning process shown in FIG.
  • FIG. 7 is a diagram illustrating an example of a configuration of a processing device according to the second embodiment.
  • FIG. 8 is a diagram illustrating the estimation phase.
  • FIG. 9 is a diagram illustrating the learning phase.
  • FIG. 10 is a flowchart showing the procedure of the processing method according to the second embodiment.
  • FIG. 10 is a flowchart showing the procedure of the processing method according to the second embodiment.
  • FIG. 11 is a flowchart showing the procedure of the estimation process shown in FIG.
  • FIG. 12 is a flowchart showing the procedure of the learning process shown in FIG.
  • FIG. 13 is a diagram illustrating an example of a configuration of a processing device according to a modification of the second embodiment.
  • FIG. 14 is a diagram illustrating an example of a configuration of a processing system according to the third embodiment.
  • FIG. 15 is a sequence diagram showing the procedure of a processing method according to the third embodiment.
  • FIG. 16 is a diagram illustrating an example of a computer in which a processing device is realized by executing a program.
  • a processing device that executes learning of a model that enables output with a personality like a human will be described.
  • the goal is to build trust with other users and accomplish a cooperative task, in the same way as when a certain user actually builds trust with other users and cooperates to perform a task.
  • the other users include not only other real people, but also thought models having the personalities of these other people.
  • the elements necessary to generate a model that reflects the individuality of a certain user are the appearance, gestures, language information, personality traits, and trustworthiness of the user.
  • a thought model that reflects the individuality of, for example, user A (first person) is generated. Note that user A is a real person.
  • the behavior of user A who actually works together with other users to perform a task is collected, and learning data (first learning data) is accumulated to learn how user A thinks logically, decides on an intention, and generates an intention in response to the behavior of other users, which leads to actual behavior. Then, in the first embodiment, learning of a thinking model that reflects user A's individuality is performed based on the accumulated first learning data.
  • FIG. 1 is a diagram showing an example of the configuration of a processing device according to embodiment 1.
  • a processing device 10 shown in Fig. 1 is initially equipped with two general-purpose thinking models (a general-purpose self model and an other-person model).
  • one of the thinking models estimates the self's intentions and/or actions as the self (generalized self model) and outputs a digital twin or the like (first data) corresponding to the self's intentions and/or actions.
  • the processing device 10 regards its own device as the self (third person) and user A (first person) as another person who performs a task in cooperation with the self, and collects the behavior of user A with respect to the output digital twin or the like of the self.
  • the processing device 10 treats the other's thought model as an other-person model, and this other-person model estimates user A's intention and/or the next action that user A will take based on user A's behavior, etc., and outputs this to the generic self-model.
  • the processing device 10 accumulates user A's behavior, etc., and also accumulates user A's intention and/or action estimated by the other-person model.
  • the processing device 10 performs learning of the other-model based on the accumulated learning data.
  • the processing device 10 transfers the other-model having the personality of user A, generated by this learning, to the self-model, and in the subsequent processing (see embodiments 2 and 3 described below), the transferred self-model is used to estimate the intentions and/or actions of user A when performing a task in cooperation with another user (user B (second person)).
  • the processing device 10 is realized, for example, by loading a specific program into a computer or the like including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), etc., and the CPU executing the specific program.
  • the processing devices 10, 210, 210-1, 310A, and 310B have a communication interface for sending and receiving various information to and from other devices connected via a network, etc.
  • the processing device 10 has a reception unit 20, an estimation processing unit 30, an output unit 40, and a learning unit 50.
  • the reception unit 20 receives input of information indicating user A's behavior, etc.
  • user A's behavior is an action taken in response to an image, voice, or text that corresponds to the person's intention and/or action and that is output by the processing device 10.
  • Information indicating user A's behavior, etc. is, for example, an image of user A, a voice of user A, and/or text created by user A.
  • the estimation processing unit 30 recognizes information indicating the behavior, etc. of user A received by the reception unit 20, and outputs information corresponding to the user's intention and/or action estimated by the generic self-model 33 (described below) based on at least the recognition result (first recognition result).
  • the estimation processing unit 30 outputs, for example, an image of a generically used human model (e.g., an image of a three-dimensional or two-dimensional object or a digital twin), audio, and/or text, etc., that corresponds to the intention and/or action of the generic self-model 33, which is the user.
  • the generic self-model 33 may estimate its own intentions and/or actions using as input the recognition results regarding the behavior, etc. of user A, as well as the intentions and/or actions of user A estimated by the other-model 34A (described below) based on the behavior, etc. of user A.
  • the estimation processing unit 30 stores the first recognition result and the intention and/or action of user A estimated using the other person model 34A.
  • the estimation processing unit 30 also acquires personal characteristics of user A obtained from a questionnaire or the like given by user A, and a trust index indicating the degree of trust that user A has in others, and stores these in DB 36 (described below).
  • the learning unit 50 uses the first learning data among the data stored in the DB 36 to make the other model 34A learn the personality of the user A.
  • the first learning data is data that accumulates the personal characteristics of the person of the user A, a trust index indicating the degree of trust of the user A in others, a first recognition result regarding the behavior, etc. of the user A, and an estimation result of the intention and/or action of the user A estimated by the other model 34A.
  • the first learning data may include the intention and action of the person who will become the self, estimated by the generic self model 33.
  • the first learning data may also include the personal characteristic information and trust index of the generic self model.
  • the learning unit 50 transfers the learned other-model 34A to the generic self-model 33, and in subsequent processing (see embodiments 2 and 3 described below), a self-model 33A (described below) (first model) having the personality of user A is used to estimate the intentions and/or actions of user A when performing a task in cooperation with another user (user B).
  • a self-model 33A (described below) (first model) having the personality of user A is used to estimate the intentions and/or actions of user A when performing a task in cooperation with another user (user B).
  • the estimation processing unit 30 has a recognition unit 31, an estimation unit 32 having a general self model 33 and an other-person model 34A, a generation unit 35, and an output unit 40.
  • the recognition unit 31 accepts input of images, voice, and text, and converts them into information in a format that can be processed by the estimation unit 32. For example, the recognition unit 31 recognizes the appearance (e.g., a three-dimensional object (three-dimensional model)), gestures (e.g., a pose), facial expressions, tone of voice, emotions, and/or language information of user A based on the image, voice, and/or text of user A accepted by the acceptance unit 20, and outputs this recognition result (first recognition result) to the estimation unit 32 and DB 36.
  • the recognition unit 31 outputs the first recognition result with identification information (e.g., an identification ID) or a timestamp that can identify the first recognition result, so that the association with the intention and/or action estimated by the estimation unit 32 (described later) can be determined.
  • identification information e.g., an identification ID
  • the recognition unit 31 applies, for example, facial expression recognition and emotion recognition technology through image analysis.
  • the recognition unit 31 also applies appearance recognition or gesture recognition technology based on feature points of the face, body, and hands.
  • the recognition unit 31 also applies voice tone recognition, emotion recognition, and language information recognition technology through voice analysis.
  • the estimation unit 32 receives the recognition result by the recognition unit 31 as an input.
  • the estimation unit 32 estimates the intention and/or action of the person who will be the self, using the general self model 33, based on at least the first recognition result.
  • Other model 34A estimates what kind of logical thinking, intention determination, and intention generation the other person, user A, is engaged in. Based on the first recognition result, other person model 34A estimates the intention and/or action of other person, user A, and outputs this to the general self model 33 and DB 36. Other person model 34A outputs the estimated intention and/or action with identification information (e.g., an identification ID) or a timestamp corresponding to the identification information assigned to the first recognition result by recognition unit 31, so that the correspondence with the first recognition result can be determined.
  • identification information e.g., an identification ID
  • recognition unit 31 e.g., a timestamp
  • the generic self model 33 estimates the logical thinking, intention determination, intention generation, etc., of the person who will become the self. For example, the generic self model 33 understands the intention of the other person, user A, from the first recognition result and the information in DB 36, and estimates the intention of the person who will become the self and the action that the person who will become the self should take from now on.
  • the generic self model 33 may receive the estimation result by the other-person model 34A as an input in addition to the first recognition result, and estimate the intention and/or action of the person who will become the self.
  • the estimation unit 32 outputs the intention and/or action of the person who will become the self estimated by the generic self model 33 to the generation unit 35 and DB 36.
  • the generation unit 35 converts the intentions and/or actions of the person who will become the self input from the estimation unit 32 into information in a form that can be communicated to others.
  • the generation unit 35 generates images, audio, text, and/or operation information for a specified device of the object of the person who will become the self that expresses the intentions and/or actions of the person who will become the self estimated by the estimation unit 32.
  • the generation unit 35 generates images, audio, and text that indicate the appearance (e.g., a three-dimensional object (3D model)), gestures (e.g., a pose), facial expressions, audio, and/or language information of the person who will become the self.
  • DB36 stores, for example, learning data for various models held by the estimation unit 32.
  • DB36 stores personal characteristic information 361 (e.g., Big Five) of each user obtained from a questionnaire or the like given by each user, and a reliability index 362 (e.g., Rapport) indicating the reliability of each user with respect to other users.
  • the personal characteristic information 361 and reliability index 362 are stored for all parties involved in performing a task in cooperation with each other.
  • DB36 stores the recognition results output from recognition unit 31 and the intentions and/or actions output from estimation unit 32 as accumulated information group 363.
  • the intentions and actions include the intentions and actions of the person who is the self estimated by general self model 33, as well as the intentions and actions of user A, who is the other person, estimated by other model 34A.
  • the output unit 40 outputs the image, audio, text, and/or operation information for a specific device of the object of the person who is the self generated by the generation unit 35 in a format appropriate to the output target.
  • the output unit 40 is a terminal device having a display and a speaker, and outputs the image, audio, and text of the object of the person who is the self to user A who is another person.
  • the output unit 40 outputs operation information for the controller to a game control device.
  • FIG. 2 is a diagram for explaining the data accumulation phase.
  • Fig. 2 illustrates a case in which various data are accumulated with user A as a third party. Note that the personal characteristic information and reliability index of user A are stored in advance in DB 36.
  • the processing device 10 accepts input of an image, voice, and/or text of user A (step S1), and the recognition unit 31 recognizes the appearance, gestures, facial expressions, tone of voice, emotions, and/or language information of user A, who is another person.
  • the recognition unit 31 outputs the recognition result as a first recognition result to the general self model 33, the other person model 34A, and DB 36 (steps S2-1, S2-2, S2-3).
  • DB 36 stores the first recognition result in the stored information group 363.
  • the other person model 34A estimates the intention and action of the other person, user A, based on the first recognition result, and outputs this to the general self model 33 and DB 36 (steps S3-1, S3-2).
  • the other person model 34A estimates the intention and/or action of user A at time n+1 from the recognition result at time n.
  • DB 36 stores the intention and action of the other person, user A, estimated by the other person model 34A, in the stored information group 363.
  • the generic self model 33 estimates the intention and/or action of the person who will become the self based on the first recognition result and the estimation result by the other-person model 34A, and outputs this to the generation unit 35 and the DB 36 (steps S4-1, S4-2).
  • the DB 36 stores the intention and/or action of the person who will become the self, estimated by the generic self model 33, in the accumulated information group 363.
  • the generation unit 35 generates an image, voice, text, and/or operation information for a specified device of an object of the person who is to become the self, which indicates the gestures, facial expressions, voice, and/or language information expressing the intentions and/or actions of the person who is to become the self estimated by the estimation unit 32 (step S5).
  • the output unit 40 outputs the image, audio, text, and/or operation information (first data) for a specific device of the object of the person representing the self generated by the generation unit 35 to the other person, user A (step S6).
  • the reception unit 20 receives input of user A's image, voice, and/or text in response to the output by the output unit 40 (step S1).
  • the processing device 10 accumulates the accumulated information group 363 in the DB 36 by repeating the processes of steps S1 to S6.
  • FIG. 3 is a diagram for explaining the learning phase.
  • the processing device 10 generates a model having the personality of the user A by performing learning on the other person model 34A.
  • the learning unit 50 determines whether it is time to learn.
  • the learning timing may be, for example, when a preset date and time is reached, when a preset amount of collaborative tasks is completed, or when the amount of data in the accumulated information group 363 of the DB 36 reaches a preset amount.
  • the learning unit 50 determines that it is time to learn, it starts learning the other model 34A of the estimation processing unit 30 (step S11).
  • the first learning data to be used for learning the other model 34A is read out from the various data stored in DB36 (step S12).
  • the personal characteristic information 361 of user A and the reliability index 362 of user A are used as the first learning data.
  • the recognition result of user A by the recognition unit 31 (first recognition result) is used as the first learning data.
  • the first recognition result is a recognition result by the recognition unit 31 recognized based on the image, voice and/or text created by user A at time n for the image, voice and/or text output by the processing device 10, and relates to the appearance, gestures, facial expressions, tone of voice, emotions and/or language information of user A.
  • the intentions and actions of the other person, user A, at time n+1, estimated by the other-person model 34A, and the intentions and actions of the self (third person) at time n+1, estimated by the general self-model 33, are used.
  • the teacher data the recognition result of user A by the recognition unit 31 at time n+1 is used.
  • the learning unit 50 uses the first learning data to make the other-person model 34A learn a first relationship.
  • the first relationship is the relationship between the intention and/or action of user A when user A performs a task in cooperation with the processing device 10 (self (third person)) and the first recognition result.
  • the learning unit 50 executes learning of the other-person model 34A so as to minimize the difference between the estimation result of the intention and/or action of user A at time n+1 based on the recognition result by the recognition unit 31 for user A at time n, and the recognition result by the recognition unit 31 for user A at time n+1, which is the teacher data.
  • the output (first data) of the processing device 10 is an image, voice, and/or text created by the object of the person who is the self (generic self model 33).
  • the first recognition result is a recognition result recognized by the recognition unit 31 based on the image, voice, and/or text of the image of user A relative to the output (first data) of the processing device 10.
  • the other-model 34A can estimate what kind of logical thinking, intention determination, and intention generation the user A is performing when collaborating with other users to perform a task.
  • the learning unit 50 transfers the other-model 34A, for which learning has been completed, to the general self-model 33 (step S13), which is hereafter referred to as the self-model 33A (described below).
  • Fig. 4 is a flowchart showing the procedure of the processing method in the embodiment 1.
  • the processing device 10 accepts input of an image, voice, and/or text of user A, who is another person, in response to the output by the processing device 10 (step S21), and performs an estimation process to estimate the user's intentions and/or actions (step S22).
  • the processing device 10 outputs an image, audio, text, and/or operation information for a specified device of the object of the person who will become the self, which expresses the intention and/or action of the person who will become the self estimated in the estimation process (step S23).
  • the processing device 10 determines whether the collaborative task with user A has ended (step S24). If the collaborative task with user A has not ended (step S24: No), the processing device 10 returns to step S21. The processing device 10 accumulates the first learning data by repeating steps S21 to S24.
  • step S24: Yes the processing device 10 determines whether it is time to learn (step S25). If it is not time to learn (step S25: No), the processing device 10, for example, temporarily ends the process.
  • step S25 If it is time to learn (step S25: Yes), the processing device 10 executes a learning process to learn a model based on the first learning data (step S26).
  • the learning process of the first embodiment executes learning on the other model 34A so that the other model 34A has the personality of user A.
  • the processing device 26 transfers the other-person model 34A to the generic self-model 33 (step S27) and ends the process.
  • the recognition unit 31 performs a recognition process to recognize the appearance, gestures, facial expressions, tone of voice, emotions, and/or language information of user A based on the image, voice, and/or text of user A (step S31).
  • the recognition unit 31 outputs the recognition result of user A (first recognition result) to the general self model 33, the other model 34A, and DB 36.
  • the other model 34A estimates the intention and action of the other user A based on the first recognition result (step S32).
  • the other model 34 estimates the intention and/or action of user A at time n+1 based on the recognition result by the recognition unit 31 for user A at time n.
  • the other model 34A outputs the estimated intention and action of user A to the generic self model 33 and stores it in the DB 36 (step S33).
  • the generic self model 33 estimates the intention and/or action of the person who will become the self based on the first recognition result and the estimation result by the other-person model 34A (step S34).
  • the generic self model 33 outputs the estimated intention and action of the person who will become the self to the generation unit 35 and stores them in the DB 36 (step S35).
  • the generation unit 35 generates, for example, an image, sound, text, and/or operation information for a specified device of the object of the person who will become the self, which indicates a three-dimensional object (3D model) of the person who will become the self, its pose, facial expression, voice, and linguistic information, gestures, facial expression, voice, and/or linguistic information (step S36).
  • step S26 the learning process (step S26) will be described with reference to a flowchart shown in FIG.
  • the first learning data uses the personal characteristic information 361 of user A, the trust index 362 of user A, the first recognition result by the recognition unit 31 for user A at time n, the intention and action of user A at time n+1 estimated by the other model 34A based on the first recognition result, and the intention and action of the person who will be the self at time n+1 estimated by the general self model 33 based on the first recognition result.
  • the teacher data uses the recognition result by the recognition unit 31 for user A at time n+1.
  • the learning unit 50 uses the first learning data to have the other model 34A learn the first relationship and optimize the parameters of the other model 34A (step S42).
  • user A can be modeled by using appearance, gestures, language information, personality traits, and trustworthiness as learning data, which are elements necessary for modeling an actual person.
  • model learning is performed by including data on user A's behavior, etc., in a state in which user A is performing a task in cooperation with others in the first learning data, so that a model capable of estimating the thoughts of user A performing a task in cooperation with others can be realized. Since the processing device 10 can model the individuality of a human being, it can be applied to various cooperative tasks.
  • Embodiment 2 Next, a description will be given of embodiment 2.
  • the processing device according to embodiment 2 executes a task in cooperation with another user B (second person) by using a self-model 33A (described later) (first model) having the personality of user A (first person) learned in embodiment 1.
  • user B includes not only another real user B himself, but also a thought model having the personality of user B.
  • [Processing device] 7 is a diagram showing an example of the configuration of a processing device according to embodiment 2.
  • the processing device 210 has the same functions as the processing device 10.
  • the processing device 210 has a receiving unit 20, an estimation processing unit 230 having an estimation unit 232, an output unit 40, and a learning unit 250.
  • the reception unit 20 receives input of information indicating user B's behavior, etc.
  • user B's behavior is an action taken in response to an image, voice, or text output by the processing device 210 that corresponds to the intention and/or action of the person (user A) himself/herself.
  • the information (second data) indicating user B's behavior, etc. is, for example, an image of user B or user B's object, user B's voice, and/or text created by user B or user B's object.
  • the estimation processing unit 230 has a recognition unit 31, an estimation unit 232, a generation unit 35, a DB 36, and an output unit 40.
  • the recognition unit 31 recognizes the appearance, gestures, facial expressions, tone of voice, emotions and/or language information of the person of user B or the object of user B as the second recognition result based on the second data.
  • the recognition unit 31 outputs the second recognition result to the estimation unit 232 and DB 36.
  • the recognition unit 31 outputs the second recognition result with identification information (e.g., an identification ID) or a timestamp that can identify the second recognition result, so that the association with the intention and/or action estimated by the estimation unit 232 (described later) can be determined.
  • the estimation unit 232 is equipped with a self-model 33A (first model) that has the personality of user A transferred in the processing of embodiment 1, and an other-person model 34B (second model) that is a general-purpose thinking model at the beginning of the processing.
  • first model that has the personality of user A transferred in the processing of embodiment 1
  • second model that is a general-purpose thinking model at the beginning of the processing.
  • the other person model 34B estimates the type of logical thinking, intention determination, and intention generation that the other person, user B, is performing based on the second recognition result, and estimates the intention and action of user B or user B's object.
  • the other person model 34B outputs the estimation result to the self model 33A and DB 36.
  • the other person model 34B outputs the estimated intention and/or action with identification information (e.g., an identification ID) corresponding to the identification information assigned to the second recognition result by the recognition unit 31 or a time stamp, so that the correspondence with the second recognition result can be determined.
  • identification information e.g., an identification ID
  • Self-model 33A is a thinking model that learns the personality of user A, and estimates the logical thinking, intention determination, intention generation, etc. of user A, who becomes the self.
  • Self-model 33A estimates the intention and/or action of user A when performing a task in cooperation with user B based on the second recognition result and the estimation result by other-model 34B.
  • Self-model 33A outputs the estimation result to generation unit 35 and DB 36.
  • Self-model 33A outputs the estimated intention and/or action with identification information (e.g., an identification ID) or a timestamp corresponding to the identification information assigned to the second recognition result by recognition unit 31, so that the correspondence with the second recognition result can be determined.
  • identification information e.g., an identification ID
  • the generation unit 35 generates images, sounds, text, and/or operation information for a specific device of user A's object, which indicate gestures, facial expressions, sounds, and/or language information expressing the intentions and/or actions of user A estimated by the self-model 33A.
  • the output unit 40 outputs the images, sounds, and text of user A's object to user B, who is another person.
  • DB36 stores the second recognition result and the estimation results of self-model 33A and other-model 34B as accumulated information group 363.
  • the learning unit 250 uses the second learning data from the data stored in the DB 36 to cause the other model 34B to learn the second relationship.
  • the second learning data includes personal characteristics of user B, a trust index indicating user B's trust in others, a second recognition result for user B by the recognition unit 31 at time n, and an estimation result of user B's intention and/or action at time n+1 by the other-model 34B.
  • the second learning data includes personal characteristics of user A, a trust index indicating user A's trust in others, and an estimation result of user A's intention and/or action at time n+1 by the self-model 33A.
  • the teacher data is the recognition result for user B by the recognition unit 31 at time n+1.
  • the second relationship is the relationship between the intention and/or action of user B or user B's object when user B or user B's object collaborates with user A to perform a task, and the second recognition result.
  • the learning unit 250 causes the other-person model 34B to learn the second relationship, and also causes the self-model 33A to learn the third relationship using the second learning data.
  • the third relationship is the relationship between the second recognition result and the intention and/or action of user A when user A collaborates with user B or user B's object to perform a task.
  • Fig. 8 is a diagram for explaining the estimation phase.
  • various data for learning are also accumulated. Note that the personal characteristic information and reliability index of users A and B are stored in advance in DB 36.
  • the processing device 210 accepts input of an image, voice, and/or text of user B (step S201), and the recognition unit 31 recognizes the appearance, gestures, facial expressions, tone of voice, emotions, and/or language information of the other user B.
  • the recognition unit 31 outputs the recognition result as a second recognition result to the self model 33A, the other person model 34B, and DB 36 (steps S202-1, S202-2, S202-3).
  • DB 36 stores the second recognition result in the stored information group 363.
  • the other model 34B estimates the intention and action of the other user B based on the second recognition result, and outputs this to the self model 33A and DB 36 (steps S203-1, S203-2).
  • the other model 34B estimates the intention and/or action of user B at time n+1 based on the recognition result at time n.
  • DB 36 stores the intention and action of user B, who is the other user, estimated by the other model 34B in the stored information group 363.
  • the self model 33A estimates the intention and/or action of user A, who will become the self, based on the second recognition result and the estimation result by the other-person model 34B, and outputs this to the generation unit 35 and DB 36 (steps S204-1, S204-2).
  • the self model 33A estimates the intention and/or action of user A at time n+1 based on the recognition result at time n and the intention and/or action of user B at time n+1.
  • DB 36 accumulates the intention and/or action of user A, who will become the self, estimated by the self model 33A in accumulated information group 363.
  • the generation unit 35 generates an image, a voice, a text, and/or operation information for a specific device of user A, which indicates the gesture, facial expression, voice, and/or language information expressing the intention and/or action of user A estimated by the estimation unit 32 (step S205).
  • the output unit 40 outputs the image, audio, text, and/or operation information for a specific device of the object of user A generated by the generation unit 35 to another user B (step S206).
  • the reception unit 20 receives input of image, voice and/or text from user B in response to the output by the output unit 40 (step S201).
  • the processing device 210 repeats the processes of steps S201 to S206. That is, it accepts data on the behavior of user B, estimates the intention and/or action of user B in response to the data, and sends back a process to output a digital twin or the like. By repeating these processes, the processing device 210 can execute a task in cooperation with user B, regarding user A as itself. At the same time, the processing device 210 accumulates a group of accumulated information 363 for learning in DB 36.
  • Fig. 9 is a diagram for explaining the learning phase.
  • the processing device 210 generates a model for estimating the intention and/or action of user B by performing learning on the other-person model 34B, and also generates a model capable of estimating the intention and/or action of the user when performing a task in cooperation with user B by performing learning on the self-model 33A.
  • the learning unit 250 determines whether it is time to learn.
  • the learning timing may be, for example, when a preset date and time is reached, when a preset amount of collaborative tasks is completed, or when the amount of data in the accumulated information group 363 of DB 36 reaches a preset amount.
  • the learning unit 250 determines that it is time to learn, it starts learning the other model 34B and the self model 33A of the estimation processing unit 230 (step S211).
  • the second learning data to be used for learning the other model 34B and the self model 33A is read out from the various data stored in DB36 (step S212).
  • the learning unit 250 uses the second learning data to have the other model 34B learn the second relationship (step S212).
  • the learning unit 250 executes learning of the other model 34A so as to minimize the difference between the intention and/or action of user B at time n+1 estimated based on the recognition result by the recognition unit 31 for user B at time n, and the recognition result by the recognition unit 31 for user B at time n+1, which is the teacher data.
  • the learning unit 250 uses the second learning data to have the self model 33A learn the third relationship (step S213).
  • Fig. 10 is a flowchart showing the procedure of the processing method in the second embodiment.
  • the processing device 210 accepts input of an image, voice, and/or text of another person, user B (step S221), and performs an estimation process to estimate the intention and/or action of the processing device 210 (user A) (step S222).
  • the processing device 210 outputs an image, sound, text, and/or operation information for a specific device of user A's object that expresses user A's intention and/or action (step S223).
  • the processing device 210 determines whether the collaborative task with user B has ended (step S224). If the collaborative task with user B has not ended (step S224: No), the process returns to step S221. The processing device 210 repeats steps S221 to S224 to perform the task in collaboration with user B.
  • step S224 Yes
  • the processing device 210 executes step S225, which is the same process as step S25 shown in FIG. 4.
  • step S225 If it is time to learn (step S225: Yes), the processing device 210 or the processing device 10 executes a learning process to learn the model based on the second learning data (step S226).
  • the recognition unit 31 performs a recognition process to recognize the appearance, gestures, facial expressions, tone of voice, emotions, and/or language information of user B based on the image, voice, and/or text of user B (step S231).
  • the recognition unit 31 outputs the recognition result of user B (second recognition result) to the self model 33A, the other-person model 34B, and DB 36.
  • the other-person model 34B estimates the intention and action of user B based on the third recognition result (step S232), outputs the result to the self-model 33A, and stores the result in the DB 36 (step S233).
  • the self model 33A estimates the intention and/or action of the user A, who is the self, based on the second recognition result and the estimation result by the other-person model 34B (step S234), and outputs it to the generation unit 35 and stores it in the DB 36 (step S235).
  • the generation unit 35 generates, for example, an image, a voice, a text of an object of user A, and/or operation information for a specific device, which indicates the gestures, facial expressions, voice, and/or language information of user A who is the self (step S236).
  • step S226 the learning process (step S226) will be described with reference to a flowchart shown in FIG.
  • the estimation processing unit 230 under the control of the learning unit 250, acquires second learning data from various data stored in DB 36 (steps S241, S243).
  • the second learning data includes personal characteristics of users A and B, a trust index indicating the degree of trust of users A and B in others, a second recognition result for user B by the recognition unit 31 at time n, an estimation result of user B's intention and/or action at time n+1 by the other-person model 34B, and an estimation result of user A's intention and/or action at time n+1 by the self-model 33A.
  • the teacher data is the recognition result of user B by the recognition unit 31 at time n+1.
  • the learning unit 250 uses the second learning data from the data stored in the DB 36 to have the other model 34B learn the second relationship and optimize the parameters of the other model 34B (step S242).
  • the learning unit 250 uses the second learning data to have the self-model 33A learn the third relationship and optimize the parameters of the self-model 33A (step S244).
  • the estimation unit 232 has an other-person model 34B, and in addition to the second recognition result for the other person, user B, the self model 33A also receives the estimation result of user B's thoughts and/or actions by the other-person model 34B. Then, the self model 33A estimates user A's thoughts and/or actions based on the estimation result of user B's thoughts and/or actions by the other-person model 34B in addition to the second recognition result.
  • self-model 33A can estimate intentions and/or actions similar to those of user A when actually performing a task in cooperation with user B. Therefore, processing device 210 can build a sense of trust with user B and smoothly perform a task in cooperation with user B, just as user A actually does.
  • the processing device 210 even while the processing device 210 is performing a task in cooperation with user B, the processing device 210 accumulates the estimated intentions and/or actions in the self-model 33A and the other-model 34B in the accumulation value database in DB36 as indications of the characteristics of the self or the other. Therefore, the processing device 210 can continue to grow the self-model 33A and the other-model 34B even while performing a cooperative task.
  • [Modification of the second embodiment] 13 is a diagram showing an example of the configuration of a processing device according to the modification of embodiment 2. As shown in FIG. 13, a processing device 210-1 according to the modification of embodiment 2 performs a task in cooperation with user B and user C.
  • the processing device 210-1 has a reception unit 20B that receives the image, voice, and/or text created by user B, a reception unit 20C that receives the image, voice, and/or text created by user C, an estimation processing unit 230-1, an output unit 40, and a learning unit 250A that controls the learning process of the other-models 34B, 34C and the self-model 33A.
  • the estimation processing unit 230-1 further includes a recognition unit 31C that recognizes the appearance, gestures, facial expressions, tone of voice, emotions, and/or language information of user C based on the data received by the reception unit 20C.
  • the estimation unit 232-1 further includes an other-person model 34C.
  • the other-person model 34C estimates the intentions and/or actions of user C based on the recognition results of the recognition unit 31C, and outputs the estimation results to the self-model 33A and DB 36.
  • the self model 33A estimates the intention and/or action of user A, which represents the self, based on the recognition results by the recognition units 31B and 31C and the estimation results of the other-person models 34B and 34C.
  • the generation unit 35 then generates images, sounds, text, and/or operation information for a specific device of user A's object, which indicate gestures, facial expressions, sounds, and/or language information expressing user A's intention and/or action, and outputs them from the output unit 40.
  • reception units 20B and 20C receive input of images, voice, and/or text from users B and C in response to the output from the output unit 40. Thereafter, the processing device 210-1 repeats the same process to execute the task in cooperation with users B and C, just as user A would actually do.
  • the learning unit 250A performs learning of the other-models 34B, 34C and the self-model 33A using the personal characteristics of the users A, B, and C, the trust index indicating the degree of trust of the users A, B, and C in others, the recognition results by the recognition units 31B and 31C, the estimation results by the other-models 34B and 34C, and the estimation results by the self-model 33A as learning data.
  • the learning unit 250A causes the other-person model 34B to learn the relationship between the intention and/or action of user B when user B performs a task in cooperation with user A and user C, and the recognition results by the recognition units 31B and 31C.
  • the learning unit 250A causes the other-person model 34C to learn the relationship between the intention and/or action of user C's object when user C performs a task in cooperation with user A and user B, and the recognition results by the recognition units 31B and 31C.
  • the learning unit 250A also causes the self-model 33A to learn the relationship between the intention and/or action of user A when user A performs a task in cooperation with user B and user C, and the recognition results by the recognition units 31B and 31C.
  • the processing device 210-1 even while the processing device 210-1 is performing a task in cooperation with users B and C, the processing device 210-1 accumulates the estimated intentions and/or actions in the self model 33A and the other models 34B and 34C in the accumulated value database in DB 36 as indicators of the characteristics of the self or the other. Therefore, the processing device 210 can grow the self model 33A and the other models 34B and 34C even while performing a cooperative task. Furthermore, when there are three or more users collaborating, the processing device 210-1 can provide an other model for each other user, accumulate learning data even while performing the cooperative task, and learn each model.
  • a third embodiment will be described.
  • a loop system is proposed in which, when processing devices of a plurality of people perform tasks in cooperation with each other while outputting digital twins, each processing device recognizes the actions of the digital twins that are the other parties and updates the respective other party models, while determining its own intentions and/or actions based on the updated other party models.
  • [Processing System] 14 is a diagram showing an example of the configuration of a processing system according to embodiment 3.
  • the processing system according to the embodiment includes, for example, a processing device 310A having a self-model 333A having a personality of a user A, and a processing device 310B having a self-model 333B having a personality of a user B.
  • the reception unit 320A receives input of images, audio, text, and/or operation information for a specific device of user B's object, which expresses user B's intention and/or action, output from the processing device 310B.
  • the estimation unit 332A estimates the intention and/or action of the user A himself/herself, and outputs images, audio, text, and/or operation information for a specific device of user A's object, which expresses user A's intention and/or action, to the processing device 310B via the generation unit 35A and the output unit 40A.
  • the reception unit 320B receives input of images, voice, text, and/or operation information for a specific device of user A's object, which expresses user A's intention and/or action output from the processing device 310A. Then, the estimation processing unit 330B, the estimation unit 332B, estimates the intention and/or action of the user itself (user B), and outputs to the processing device 310A via the generation unit 35B and the output unit 40B, images, voice, text, and/or operation information for a specific device of user B's object, which show gestures, facial expressions, voice, and/or language information expressing user B's intention and/or action.
  • the estimation unit 332A has an other-person model 334B that estimates the intention and/or action of user B based on the recognition results by the recognition unit 331A for the images, voice, and text of user B's objects output by the processing device 310B.
  • the self-model 333A estimates the intention and/or action of user A based on the recognition results by the recognition unit 331A and the estimation results of the other-person model 334B.
  • the estimation unit 332B has an other-person model 334A that estimates the intention and/or action of user A based on the recognition results by the recognition unit 331B for the images, voice, and text of user A's objects output by the processing device 310A.
  • the self-model 333B estimates the intention and/or action of user B based on the recognition results by the recognition unit 331B and the estimation results of the other-person model 334A.
  • the processing device 310A that generates user A's object and the other processing device 310B that generates user B's object each estimate the intention and/or action of the person's object to be output based on the recognition results of the appearance, gestures, facial expressions, tone of voice, emotions and/or language information of the other person's object.
  • the learning units 350A and 350B share the personal characteristic information, reliability index, and accumulated information group stored in the DBs 36A and 36B of the other processing devices 310A and 310B, and use the shared data to perform learning, respectively.
  • the processing device 310A that generates user A's object and the other processing device 310B that generates user B's object each share the recognition results of the appearance, gestures, facial expressions, tone of voice, emotions and/or language information of the other person's object, as well as the estimation results of the other person's self model and other model, and update the self model and other model of their own device.
  • Fig. 15 is a sequence diagram showing the procedure of the processing method in embodiment 3.
  • processing device 310A receives input of user B's object image, audio, text, and/or operation information for a specific device from processing device 310B (steps S301, S302).
  • the processing device 310A performs an estimation process to estimate the intention and/or action of the user A (step S303), and outputs to the processing device 310B an image, sound, text, and/or operation information for a specific device of the user A's object that expresses the intention and/or action of the user A (steps S304, S305).
  • Step S303 is the same process as step S222 in FIG. 10.
  • the processing of the processing device 310B involves accepting input of images, audio, text, and/or operation information for a specific device of user A's object from the processing device 310A (steps S307, S308).
  • the processing device 310B performs an estimation process to estimate the intention and/or action of the user (user B) (step S308), and outputs to the processing device 310A an image, sound, text, and/or operation information for a specific device of user B, which expresses the intention and/or action of user B (steps S309, S301).
  • Step S308 is the process of replacing user A with user B, replacing self-model 33A with self-model 333B, and replacing other-model 34B with other-model 334A in step S222 of FIG. 10.
  • step S306 No, step S310: No
  • the processing devices 310A and 310B return to step S302 and step S307, respectively, and continue the cooperative task.
  • step S306 Yes, step S310: Yes
  • step S311 Yes, step S312: Yes
  • step S3113 the processing devices 310A and 310B share personal characteristics, trust indices, and accumulated information (step S313), and perform learning processes for the self-model and other-model, respectively (steps S314, S315).
  • the processing devices 310A, 310B share the personal characteristic information, reliability index, and accumulated information group held by the other processing device 310A, 310B, and use the shared data to learn their own model and other-person model, respectively.
  • the processing devices 310A, 310B can obtain not only the information accumulated by their own device, but also the information accumulated by the other device with which they are collaborating, making it easier to collect the data necessary for model learning and to construct an appropriate model.
  • each process performed by the processing devices 10, 210, 210-1, 310A, and 310B may be realized in whole or in part by a CPU and a program analyzed and executed by the CPU. Furthermore, each process performed by the processing devices 10, 210, 210-1, 310A, and 310B may be realized as hardware using wired logic.
  • [program] 16 is a diagram showing an example of a computer in which the processing devices 10, 210, 210-1, 310A, and 310B are realized by executing a program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These components are connected by a bus 1080.
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to a hard disk drive 1090.
  • the disk drive interface 1040 is connected to a disk drive 1100.
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example.
  • the video adapter 1060 is connected to a display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS (Operating System) 1091, an application program 1092, a program module 1093, and program data 1094. That is, the programs that define the processes of the processing devices 10, 210, 210-1, 310A, and 310B are implemented as program modules 1093 in which code executable by the computer 1000 is written.
  • the program modules 1093 are stored, for example, in the hard disk drive 1090.
  • the program modules 1093 for executing processes similar to the functional configurations of the processing devices 10, 210, 210-1, 310A, and 310B are stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-mentioned embodiment is stored as program data 1094, for example, in memory 1010 or hard disk drive 1090.
  • the CPU 1020 reads the program module 1093 or program data 1094 stored in memory 1010 or hard disk drive 1090 into RAM 1012 as necessary and executes it.
  • the program module 1093 and program data 1094 may not necessarily be stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and program data 1094 may be stored in another computer connected via a network (such as a LAN (Local Area Network), WAN (Wide Area Network)).
  • the program module 1093 and program data 1094 may then be read by the CPU 1020 from the other computer via the network interface 1070.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

処理装置(10)は、ユーザAの個人特性と、ユーザAにおける他者に対する信頼度を示す信頼指数と、第1の認識結果と、第1の認識結果に基づくユーザAの意図及び/またはアクションの推定結果と、を第1の学習データとして、第1のモデルに、ユーザAが他のユーザのオブジェクトと協調してタスク際のユーザAの意図及び/またはアクションと、第1の認識結果との関係である第1の関係を学習させる。第1の認識結果は、ユーザAの協調対象である他のユーザのオブジェクトの画像、音声、及び/または、他のユーザのオブジェクトが作成したテキストである第1のデータに対するユーザAの画像、音声及び/またはユーザAが作成したテキストを基に認識されたユーザAの外観、仕草、表情、声色、感情及び/または言語情報に関する。

Description

学習装置、推定装置、学習方法、推定方法及びプログラム
 本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。
 ニューラルネットワーク等を用いて、実在するユーザのタスクや発言からデータを取得する技術や、ロールプレイングゲームに登場する架空の人物を追加する技術が提案されている。このように、ニューラルネットワーク等を用いた人工知能技術の発展により、例えば、対戦ゲームなどの分野で人間を超える性能を発揮できるようになった。ニューラルネットワークや人工知能の技術は協調作業の分野においても広く研究されている。協調作業では、人工知能は自分の知識のみで推論を行うのではなく、相手を理解して、相手によって思考を変更することが必要となる。協調作業を行う上で、人間と対等な関係を構築する能力や、人間とコミュニケーションを取りながら一緒に仕事をするといった社会的な行動をする能力が求められる。
特開2000-271347号公報 特開2010-117859号公報
 人間の代理行為を行うことが可能である人工知能技術の開発が望まれている。人工知能が本人の代理行為として人間関係を構築し、経験を本人にフィードバックすることで、その本人は、より多くの機会や経験を得ることができる。しかしながら、特許文献1に記載の技術は、実在する人物をモデルにして登場させることはできず、特定のロールプレイングゲームに用途が限られている。また、特許文献2に記載の技術は、実在するユーザのタスクや発言からデータを取得しているが、ユーザの思考内容を深めるよう支援するに過ぎない。
 このように、従来の技術では、タスクを早く、正確に解くことや、決められたポイントを最大化することはできるものの、人間のような個性を持つモデルがまだ実現できていない。言い換えると、機械学習技術では、協調作業などの相手を理解して、相手によって思考を変更することが必要となるタスクを解くことは難しい。また、従来技術では、特定の用途に限られたモデルや、人間の一部機能しかモデル化できていない。また、特許文献1,2には、本人の代理行為を行うために必要な個性を持つモデルについては言及されていない。
 本発明は、上記に鑑みてなされたものであって、人間のような個性を持った出力を可能とする学習装置、推定装置、学習方法、推定方法及びプログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、他の人物または前記他の人物のオブジェクトの画像、音声、及び/または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識結果として認識する認識部と、第1のモデルを用いて、少なくとも前記認識部による認識結果を基に、自己となる人物の意図及び/またはアクションを推定する推定部と、前記推定部が推定した前記自己となる人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する生成部と、第1の人物の個人特性と、前記第1の人物における他者に対する信頼度を示す信頼指数と、前記第1の人物の協調対象である第3の人物のオブジェクトの画像、音声、及び/または、前記第3の人物のオブジェクトが作成したテキストである第1のデータに対する前記第1の人物の画像、音声及び/または前記第1の人物が作成したテキストを基に前記認識部によって認識された前記第1の人物の外観、仕草、表情、声色、感情及び/または言語情報に関する第1の認識結果と、前記第1の認識結果に基づく前記第1の人物の意図及び/またはアクションの推定結果と、を第1の学習データとして、前記第1のモデルに、前記第1の人物が前記第3の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第1の認識結果との関係である第1の関係を学習させる学習部と、を有することを特徴とする。
 また、本発明に係る推定装置は、実在する第1の人物の人物と協調してタスクを行う第2の人物または前記第2の人物のオブジェクトの画像、音声、及び/または、前記第2の人物または前記第2の人物のオブジェクトが作成したテキストである第2のデータに基づいて、前記第2の人物または前記第2の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を第2の認識結果として認識する認識部と、前記第1の人物が前記第2の人物または前記第2の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第2の認識結果との関係である第3の関係を学習した第1のモデルと、前記第2の認識結果を基に前記第2の人物または前記第2の人物のオブジェクトの意図及びアクションを推定する第2のモデルと、を用いて、前記第2の人物と協調してタスクを行う際の前記第1の人物の意図及び/またはアクションを推定する推定部と、前記推定部が推定した前記第1の人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記第1の人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する生成部と、を有することを特徴とする。
 本発明によれば、人間のような個性を持った出力を可能とする。
図1は、実施の形態1に係る処理装置の構成の一例を示す図である。 図2は、データ蓄積フェーズを説明する図である。 図3は、学習フェーズを説明する図である。 図4は、実施の形態1における処理方法の処理手順を示すフローチャートである。 図5は、図4に示す推定処理の処理手順を示すフローチャートである。 図6は、図4に示す学習処理の処理手順を示すフローチャートである。 図7は、実施の形態2に係る処理装置の構成の一例を示す図である。 図8は、推定フェーズを説明する図である。 図9は、学習フェーズを説明する図である。 図10は、実施の形態2における処理方法の処理手順を示すフローチャートである。 図11は、図10に示す推定処理の処理手順を示すフローチャートである。 図12は、図10に示す学習処理の処理手順を示すフローチャートである。 図13は、実施の形態2の変形例に係る処理装置の構成の一例を示す図である。 図14は、実施の形態3に係る処理システムの構成の一例を示す図である。 図15は、実施の形態3における処理方法の手順を示すシーケンス図である。 図16は、プログラムが実行されることにより、処理装置が実現されるコンピュータの一例を示す図である。
 以下に、本願に係る学習装置、推定装置、学習方法、推定方法及びプログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。
[実施の形態1]
 実施の形態1では、人間のような個性を持った出力を可能とするモデルの学習を実行する処理装置について説明する。実施の形態1では、あるユーザの個性を有する思考モデルの出力を基に、あるユーザが実際に他のユーザと信頼感を構築して協調してタスクを行う場合と同様に、他のユーザと信頼感を構築し、協調タスクを達成することを目標とする。なお、他のユーザは、実在する他の人物のほか、この他の人物の個性を有する思考モデルも含まれる。
 まず、実施の形態1では、あるユーザの個性を有するモデルを生成するために必要な要素が、このユーザの外見、しぐさ、言語情報、人格特性、信頼度であることを定義する。実施の形態1では、これらの各種要素を学習データとして用いることで、例えば、ユーザA(第1の人物)の個性を有する思考モデルを生成する。なお、ユーザAは、実在する人物である。
 そして、ユーザAの思考モデルが、協調タスクを他のユーザと実行するには、ユーザAの個性を有するとともに、協調してタスクを行う他のユーザがどのような意図及び/またはアクションを行うかを推定することも必要であると考えられる。
 そこで、実施の形態1では、他のユーザと実際に協調してタスクを行うユーザAの行動等を収集することで、他のユーザの行動等に対しユーザAがどのような論理的思考、意図決定、意図生成を行い、実際の行動に至っているかを学習するための学習データ(第1の学習データ)を蓄積する。そして、実施の形態1では、蓄積した第1の学習データを基に、ユーザAの個性を有する思考モデルの学習を実行する。
[処理装置]
 図1は、実施の形態1に係る処理装置の構成の一例を示す図である。図1に示す処理装置10は、当初は、汎用的な二つの思考モデル(汎用自己モデル、他者モデル)を搭載する。
 データ蓄積フェーズにおいて、まず、処理装置10では、一方の思考モデルが、自己(汎用自己モデル)として、自己の意図及び/またはアクションを推定し、この自己の意図及び/またはアクションに対応するデジタルツイン等(第1のデータ)を出力する。実施の形態1では、処理装置10が、自装置を自己(第3の人物)と見立て、ユーザA(第1の人物)を自己と協調してタスクを行う他者として見立て、出力した自己のデジタルツイン等に対するユーザAの行動等を収集する。
 そして、処理装置10は、他方の思考モデルを他者モデルとし、この他者モデルが、ユーザAの行動等を基に、ユーザAの意図及び/またはユーザAが次に取るアクションを推定して、汎用自己モデルに出力する。処理装置10は、ユーザAの行動等を蓄積するとともに、他者モデルで推定したユーザAの意図及び/またはアクションを蓄積する。
 学習フェーズにおいて、処理装置10は、蓄積した学習データを基に、他者モデルの学習を実行する。処理装置10は、この学習によって生成された、ユーザAの個性を有する他者モデルを、自己モデルに転写し、以降の処理(後述する実施の形態2,3参照)では、転写した自己モデルを用いて、他のユーザ(ユーザB(第2の人物))と協調してタスクを行う際のユーザAの意図及び/またはアクションを推定する。
 処理装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、処理装置10,210,210-1,310A,310Bは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。処理装置10は、受付部20、推定処理部30、出力部40及び学習部50を有する。
 受付部20は、ユーザAの行動等を示す情報の入力を受け付ける。具体的には、ユーザAの行動は、処理装置10が出力した、自己である人物の意図及び/またはアクションに対応する画像、音声またはテキストに対して取った行動である。ユーザAの行動等を示す情報は、例えば、ユーザAの画像、ユーザAの音声、及び/または、ユーザAが作成したテキストである。
 推定処理部30は、受付部20が受け付けたユーザAの行動等を示す情報を認識し、少なくとも該認識結果(第1の認識結果)を基に汎用自己モデル33(後述)が推定した、自己の意図及び/またはアクションに対応する情報を出力する。推定処理部30は、例えば、自己である汎用自己モデル33の意図及び/またはアクションに対応させた、汎用的に使用される人物モデルの画像(例えば、3次元または2次元のオブジェクトの画像やデジタルツイン)、音声、及び/または、テキスト等を出力する。
 汎用自己モデル33は、ユーザAの行動等に関する認識結果とともに、ユーザAの行動等を基に他者モデル34A(後述)で推定されたユーザAの意図及び/またはアクションを入力として、自己の意図及び/またはアクションを推定してもよい。
 推定処理部30は、第1の認識結果、他者モデル34Aで推定したユーザAの意図及び/またはアクションを蓄積する。また、推定処理部30は、ユーザAによるアンケート等から取得したユーザAの個人特性、ユーザAにおける他者に対する信頼度を示す信頼指数を取得し、DB36(後述)に蓄積する。
 学習部50は、DB36に蓄積されたデータのうち、第1の学習データを用いて、他者モデル34AにユーザAの個性を学習させる。第1の学習データは、ユーザAの人物の個人特性と、ユーザAにおける他者に対する信頼度を示す信頼指数と、ユーザAの行動等に関する第1の認識結果と、他者モデル34Aが推定したユーザAの意図及び/またはアクションの推定結果とを蓄積したデータである。第1の学習データは、汎用自己モデル33によって推定された、自己となる人物の意図及びアクションとを含んでもよい。また、第1の学習データは、汎用自己モデルの個人特性情報と信頼指数も含んでもよい。
 学習部50は、学習後の他者モデル34Aを汎用自己モデル33に転写し、以降の処理(後述する実施の形態2,3参照)では、ユーザAの個性を有する自己モデル33A(後述)(第1のモデル)を用いて、他のユーザ(ユーザB)と協調してタスクを行う際のユーザAの意図及び/またはアクションを推定する。
 続いて、推定処理部30について説明する。推定処理部30は、認識部31、汎用自己モデル33及び他者モデル34Aを有する推定部32、生成部35及び出力部40を有する。
 認識部31は、画像、音声、テキストの入力を受け付けて、推定部32が処理可能である形式の情報へと変換する。例えば、認識部31は、受付部20が受け付けたユーザAの画像、音声及び/またはテキストを基に、ユーザAの外観(例えば、3次元オブジェクト(3次元モデル))、仕草(例えば、ポーズ)、表情、声色、感情及び/または言語情報を認識し、この認識結果(第1の認識結果)を、推定部32及びDB36に出力する。認識部31は、推定部32(後述)が推定した意図及び/アクションとの対応付けが判別できるように、第1の認識結果に、この第1の認識結果を識別可能である識別情報(例えば、識別ID)、または、タイムスタンプを付して出力する。
 認識部31は、例えば、画像解析による表情認識及び感情認識の技術を適用する。また、認識部31は、顔と体と手の特徴点に基づく外観認識または仕草認識の技術を適用する。また、認識部31は、音声解析による声色認識、感情認識、言語情報認識の認識技術を適用する。
 推定部32は、認識部31による認識結果を入力として受け付ける。推定部32は、少なくとも第1の認識結果を基に、汎用自己モデル33を用いて、自己となる人物の意図及び/またはアクションを推定する。
 他者モデル34Aは、他者であるユーザAがどのような論理的思考、意図決定、意図生成を行っているのか推定する。他者モデル34Aは、第1の認識結果を基に、他者となるユーザAの意図及び/またはアクションを推定し、汎用自己モデル33及びDB36に出力する。他者モデル34Aは、第1の認識結果との対応付けが判別できるように、推定した意図及び/またはアクションに、この意図及び/またはアクションに、認識部31が第1の認識結果に付与した識別情報と対応する識別情報(例えば、識別ID)、または、タイムスタンプを付して出力する。
 汎用自己モデル33は、自己となる人物の論理的思考、意図決定、意図生成などを推定する。例えば、汎用自己モデル33は、第1の認識結果とDB36の情報とから、他者であるユーザAの意図を理解し、自己となる人物の意図と、自己となる人物が今から取るべきアクションとを推定する。
 汎用自己モデル33は、第1の認識結果に加え、他者モデル34Aによる推定結果を入力として受け付け、自己となる人物の意図及び/またはアクションを推定してもよい。推定部32は、汎用自己モデル33が推定した、自己となる人物の意図及び/またはアクションを生成部35及びDB36に出力する。
 生成部35は、推定部32から入力された、自己となる人物の意図及び/アクションを、他者に伝わる形態の情報に変換する。生成部35は、推定部32が推定した、自己となる人物の意図及び/またはアクションを表現した、自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する。例えば、生成部35は、自己となる人物の外観(例えば、3次元オブジェクト(3Dモデル))、仕草(例えば、ポーズ)、表情、音声、及び/または、言語情報を示す、画像、音声、テキストを生成する。
 DB36は、例えば、推定部32が有する各種モデルの学習データを記憶する。DB36は、各ユーザによるアンケート等から取得した各ユーザの個人特性情報361(例えば、Big Five)、各ユーザの他のユーザに対する信頼度を示す信頼指数362(例えば、Rapport)を記憶する。個人特性情報361及び信頼指数362は、協調してタスクを行う関係者全員について記憶される。
 DB36は、認識部31から出力された認識結果、及び、推定部32から出力された意図及び/またはアクションを蓄積情報群363として記憶する。意図及びアクションは、汎用自己モデル33によって推定された自己となる人物の意図及びアクションのほか、他者モデル34Aによって推定された他者であるユーザAの意図及びアクションを含む。
 出力部40は、生成部35が生成した自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を、出力対象に応じた形式で出力する。例えば、出力部40は、ディスプレイ及びスピーカーを有する端末装置であり、自己となる人物のオブジェクトの画像、音声、テキストを、他者であるユーザAに対して出力する。また、出力部40は、ユーザAとの間でコントローラを用いてゲーム等を行っている場合には、コントローラに対する操作情報を、ゲーム制御装置に出力する。
[データ蓄積フェーズ]
 続いて、学習データを蓄積するデータ蓄積フェーズの処理について説明する。図2は、データ蓄積フェーズを説明する図である。図2では、ユーザAを他者として、各種データを蓄積する場合について説明する。なお、DB36には、予め、ユーザAの個人特性情報及び信頼指数が格納されている。
 図2に示すように、処理装置10では、ユーザAの画像、音声及び/またはテキストをの入力を受け付けて(ステップS1)、認識部31が、他者であるユーザAの外観、仕草、表情、声色、感情及び/または言語情報を認識する。認識部31は、認識結果を、第1の認識結果として、汎用自己モデル33、他者モデル34A及びDB36に出力する(ステップS2-1,S2-2,S2-3)。DB36は、第1の認識結果を、蓄積情報群363に蓄積する。
 他者モデル34Aは、第1の認識結果を基に、他者となるユーザAの意図及びアクションを推定し、汎用自己モデル33及びDB36に出力する(ステップS3-1、S3-2)。他者モデル34Aは、時間nの時の認識結果から時間n+1の時のユーザAの意図及び/またはアクションを推定する。DB36は、他者モデル34Aによって推定された、他者となるユーザAの意図及びアクションを、蓄積情報群363に蓄積する。
 汎用自己モデル33は、第1の認識結果と、他者モデル34Aによる推定結果とを基に、自己となる人物の意図及び/またはアクションを推定し、生成部35及びDB36に出力する(ステップS4-1、S4-2)。DB36は、汎用自己モデル33によって推定された、自己となる人物の意図及び/またはアクションを、蓄積情報群363に蓄積する。
 生成部35は、推定部32が推定した、自己となる人物の意図及び/またはアクションを表現した仕草、表情、音声、及び/または、言語情報を示す、自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する(ステップS5)。
 出力部40は、生成部35が生成した自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報(第1のデータ)を、他者であるユーザAに対して出力する(ステップS6)。
 そして、受付部20は、出力部40による出力に対するユーザAの画像、音声及び/またはテキストの入力を受け付ける(ステップS1)。処理装置10は、ステップS1~ステップS6の処理を繰り返すことで、DB36に、蓄積情報群363を蓄積する。
[学習フェーズ]
 次に、学習フェーズの処理について説明する。図3は、学習フェーズを説明する図である。図3では、処理装置10は、他者モデル34Aに対する学習を行うことによって、ユーザAの個性を有するモデルを生成する場合について説明する。
 まず、学習部50は、学習タイミングであるか否かを判定する。学習タイミングは、例えば、予め設定された所定の日時に達した場合、所定量の協調タスクが終了した場合、DB36の蓄積情報群363のデータ量が所定量に達した場合などである。
 学習部50は、学習タイミングであると判定した場合、推定処理部30の他者モデル34Aの学習を開始する(ステップS11)。
 まず、学習フェーズでは、DB36に蓄積された各種データのうち、他者モデル34Aの学習に使用する第1の学習データを読み出す(ステップS12)。
 具体的には、第1の学習データとして、ユーザAの個人特性情報361、及び、ユーザAの信頼指数362を使用する。第1の学習データとして、認識部31によるユーザAの認識結果(第1の認識結果)を使用する。第1の認識結果は、処理装置10が出力した画像、音声及び/またはテキストに対する、時間nにおけるユーザAの画像、音声及び/またはユーザAが作成したテキストを基に認識された認識部31による認識結果であり、ユーザAの外観、仕草、表情、声色、感情及び/または言語情報に関する。
 そして、第1の学習データとして、他者モデル34Aによって推定された、他者であるユーザAの時間時間n+1での意図及びアクションと、汎用自己モデル33によって推定された、自己(第3の人物)の時間時間n+1での意図及びアクションとを使用する。また、教師データとして、ユーザAの時間n+1での認識部31による認識結果を用いる。
 学習部50は、第1の学習データを用いて、他者モデル34Aに第1の関係を学習させる。第1の関係は、ユーザAが処理装置10(自己(第3の人物))と協調してタスクを行う際のユーザAの意図及び/またはアクションと、第1の認識結果との関係である。学習部50は、時間nの時のユーザAに対する認識部31による認識結果に基づいて時間n+1のユーザAの意図及び/またはアクションを推定した推定結果と、教師データである時間n+1の時のユーザAに対する認識部31による認識結果との差が最も小さくなるように他者モデル34Aの学習を実行する。
 ここで、処理装置10の出力(第1のデータ)は、自己(汎用自己モデル33)となる人物のオブジェクトの画像、音声、及び/または、自己となる人物のオブジェクトが作成したテキストである。第1の認識結果は、処理装置10の出力(第1のデータ)に対するユーザAの画像の画像、音声及び/またはテキストを基に、認識部31によって認識された認識結果である。
 これによって、他者モデル34Aは、ユーザAが、他のユーザと協調してタスクを行う際に、どのような論理的思考、意図決定、意図生成を行っているのか推定することができる。学習部50は、学習が終了した他者モデル34Aを、汎用自己モデル33に転写し(ステップS13)、以降、自己モデル33A(後述)とする。
[処理方法]
 次に、実施の形態1の処理装置10が実行する処理方法の処理手順について説明する。図4は、実施の形態1における処理方法の処理手順を示すフローチャートである。
 図4に示すように、処理装置10は、処理装置10による出力に対する他者であるユーザAの画像、音声及び/またはテキストの入力を受け付けて(ステップS21)、自己の意図及び/またはアクションを推定する推定処理を行う(ステップS22)。
 処理装置10は、推定処理において推定された自己となる人物の意図及び/またはアクションを表現した、自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を出力する(ステップS23)。
 処理装置10は、ユーザAとの協調タスクが終了したか否かを判定する(ステップS24)。ユーザAとの協調タスクが終了していない場合(ステップS24:No)、ステップS21に戻る。処理装置10は、ステップS21~ステップS24を繰り返すことによって、第1の学習データを蓄積する。
 ユーザAとの協調タスクが終了している場合(ステップS24:Yes)、処理装置10は、学習タイミングであるか否かを判定する(ステップS25)。学習タイミングでない場合(ステップS25:No)、処理装置10は、例えば、一旦処理を終了する。
 学習タイミングである場合(ステップS25:Yes)、処理装置10は、第1の学習データを基に、モデルの学習を実行する学習処理を実行する(ステップS26)。実施の形態1の学習処理は、他者モデル34AがユーザAの個性を有するように、他者モデル34Aに対して学習を実行する。
 そして、処理装置26は、他者モデル34Aを汎用自己モデル33に転写し(ステップS27)、処理を終了する。
[推定処理]
 次に、推定処理(ステップS22)について説明する。図5は、図4に示す推定処理の処理手順を示すフローチャートである。
 図5に示すように、推定処理部30では、認識部31が、ユーザAの画像、音声及び/またはテキストを基に、ユーザAの外観、仕草、表情、声色、感情及び/または言語情報を認識する認識処理を行う(ステップS31)。認識部31は、ユーザAの認識結果(第1の認識結果)を汎用自己モデル33、他者モデル34A及びDB36に出力する。
 他者モデル34Aは、第1の認識結果を基に、他者となるユーザAの意図及びアクションを推定する(ステップS32)。他者モデル34は、時間nの時のユーザAに対する認識部31による認識結果を基に、時間n+1の時のユーザAの意図及び/またはアクションを推定する。他者モデル34Aは、推定したユーザAの意図及びアクションを汎用自己モデル33に出力するとともに、DB36に格納する(ステップS33)。
 汎用自己モデル33は、第1の認識結果と、他者モデル34Aによる推定結果とを基に、自己となる人物の意図及び/またはアクションを推定する(ステップS34)。汎用自己モデル33は、推定した自己となる人物の意図及びアクションを生成部35に出力するとともに、DB36に格納する(ステップS35)。
 生成部35は、例えば、自己となる人物の3次元オブジェクト(3Dモデル)、そのポーズ、表情、音声、言語情報仕草、表情、音声、及び/または、言語情報を示す、自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する(ステップS36)。
[学習処理]
 次に、学習処理(ステップS26)について説明する。図6は、図4に示す学習処理の処理手順を示すフローチャートである。
 図6に示すように、推定処理部30は、学習部50の制御の基、DB36に蓄積された各種データのうち、第1の学習データを取得する(ステップS41)。第1の学習データは、ユーザAの個人特性情報361、ユーザAの信頼指数362、時間nの時のユーザAに対する認識部31による第1の認識結果、第1の認識結果を基に他者モデル34Aによって推定された時間n+1の時のユーザAの意図及びアクションと、第1の認識結果を基に汎用自己モデル33によって推定された、自己となる人物の時間n+1での意図及びアクションとを使用する。教師データは、ユーザAの時間n+1での認識部31による認識結果を用いる。
 学習部50は、第1の学習データを用いて他者モデル34Aに第1の関係を学習させ、他者モデル34Aのパラメータを最適化する(ステップS42)。
[実施の形態1の効果]
 このように、実施の形態1では、実際の人物をモデル化するために必要な要素として、外見、しぐさ、言語情報、性格特性、信頼度を学習データとして用いることによって、ユーザAをモデル化することができる。また、実施の形態1では、ユーザAが他者と協調してタスクを行っている状態の、ユーザAの行動等に関するデータを第1の学習データに含めてモデル学習を行うため、他者と協調してタスクを行うユーザAの思考を推定することができるモデルを実現できた。処理装置10は、人間の持つ個性をモデル化することができるため、様々な協調タスクに適用することができる。
[実施の形態2]
 次に、実施の形態2について説明する。実施の形態2に係る処理装置は、実施の形態1において学習されたユーザA(第1の人物)の個性を有する自己モデル33A(後述)(第1のモデル)を用いて、他者であるユーザB(第2の人物)と協調してタスクを実行する。なお、ユーザBは、実在する他のユーザB自身のほか、ユーザBの人物の個性を有する思考モデルも含まれる。
[処理装置]
 図7は、実施の形態2に係る処理装置の構成の一例を示す図である。処理装置210は、処理装置10と同様の機能を有する。処理装置210は、受付部20と、推定部232を有する推定処理部230と、出力部40と、学習部250とを有する。
 受付部20は、ユーザBの行動等を示す情報の入力を受け付ける。具体的には、ユーザBの行動は、処理装置210が出力した、自己である人物(ユーザA)の意図及び/またはアクションに対応する画像、音声またはテキストに対して取った行動である。ユーザBの行動等を示す情報(第2のデータ)は、例えば、ユーザBまたはユーザBのオブジェクトの画像、ユーザBの音声、及び/または、ユーザBまたはユーザBのオブジェクトが作成したテキストである。
 推定処理部230は、認識部31、推定部232、生成部35、DB36及び出力部40を有する。
 認識部31は、第2のデータに基づいて、ユーザBの人物またはユーザBのオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を、第2の認識結果として認識する。認識部31は、第2の認識結果を、推定部232及びDB36に出力する。認識部31は、推定部232(後述)が推定した意図及び/アクションとの対応付けが判別できるように、第2の認識結果に、この第2の認識結果を識別可能である識別情報(例えば、識別ID)、または、タイムスタンプを付して出力する。
 推定部232は、実施の形態1の処理において転写された、ユーザAの個性を有する自己モデル33A(第1のモデル)と、処理当初は汎用的思考モデルである他者モデル34B(第2のモデル)とを搭載する。
 他者モデル34Bは、第2の認識結果を基に、他者であるユーザBがどのような論理的思考、意図決定、意図生成を行っているのか推定し、ユーザBまたはユーザBのオブジェクトの意図及びアクションを推定する。他者モデル34Bは、推定結果を自己モデル33A及びDB36に出力する。他者モデル34Bは、第2の認識結果との対応付けが判別できるように、推定した意図及び/またはアクションに、この意図及び/またはアクションに、認識部31が第2の認識結果に付与した識別情報と対応する識別情報(例えば、識別ID)、または、タイムスタンプを付して出力する。
 自己モデル33Aは、ユーザAの個性を学習した思考モデルであり、自己となるユーザAの論理的思考、意図決定、意図生成などを推定する。自己モデル33Aは、第2の認識結果と、他者モデル34Bによる推定結果とを基に、ユーザBと協調してタスクする際のユーザAの意図及び/またはアクションを推定する。自己モデル33Aは、推定結果を生成部35及びDB36に出力する。自己モデル33Aは、第2の認識結果との対応付けが判別できるように、推定した意図及び/またはアクションに、この意図及び/またはアクションに、認識部31が第2の認識結果に付与した識別情報と対応する識別情報(例えば、識別ID)、または、タイムスタンプを付して出力する。
 生成部35は、自己モデル33Aが推定したユーザAの意図及び/またはアクションを表現した仕草、表情、音声、及び/または、言語情報を示す、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する。出力部40は、ユーザAのオブジェクトの画像、音声、テキストを、他者であるユーザBに対して出力する。
 DB36は、第2の認識結果、及び、自己モデル33A及び他者モデル34Bの推定結果を蓄積情報群363として記憶する。
 学習部250は、DB36に格納されたデータのうち、第2の学習データを用いて、他者モデル34Bに、第2の関係を学習させる。
 第2の学習データは、ユーザBの個人特性と、ユーザBにおける他者に対する信頼度を示す信頼指数と、時間nでの認識部31によるユーザBに対する第2の認識結果と、他者モデル34Bによる時間時間n+1でのユーザBの意図及び/またはアクションの推定結果とを含む。そして、第2の学習データは、ユーザAの個人特性と、ユーザAにおける他者に対する信頼度を示す信頼指数と、自己モデル33Aによる時間時間n+1でのユーザAの意図及び/またはアクションの推定結果を含む。教師データは、ユーザBの時間n+1での認識部31による認識結果である。
 第2の関係は、ユーザBまたはユーザBのオブジェクトがユーザAと協調してタスクを行う際のユーザBまたはユーザBのオブジェクトの意図及び/またはアクションと、第2の認識結果との関係である。
 学習部250は、他者モデル34Bに第2の関係を学習させるとともに、第2の学習データを用いて、自己モデル33Aに、第3の関係を学習させる。第3の関係は、ユーザAがユーザBまたはユーザBのオブジェクトと協調してタスクを行う際のユーザAの意図及び/またはアクションと、第2の認識結果との関係である。
[推定フェーズ]
 続いて、ユーザAの意図及ぶ/アクションを推定しながら、ユーザBと協調してタスクを行う推定フェーズの処理について説明する。図8は、推定フェーズを説明する図である。推定フェーズでは、学習用の各種データの蓄積も行う。なお、DB36には、予め、ユーザA,Bの個人特性情報及び信頼指数が格納されている。
 図8に示すように、処理装置210では、ユーザBの画像、音声及び/またはテキストの入力を受け付けて(ステップS201)、認識部31が、他者であるユーザBの外観、仕草、表情、声色、感情及び/または言語情報を認識する。認識部31は、認識結果を、第2の認識結果として、自己モデル33A、他者モデル34B及びDB36に出力する(ステップS202-1,S202-2,S202-3)。DB36は、第2の認識結果を、蓄積情報群363に蓄積する。
 他者モデル34Bは、第2の認識結果を基に、他者となるユーザBの意図及びアクションを推定し、自己モデル33A及びDB36に出力する(ステップS203-1、S203-2)。他者モデル34Bは、時間nの時の認識結果を基に、時間n+1の時のユーザBの意図及び/またはアクションを推定する。DB36は、他者モデル34Bによって推定された、他者となるユーザBの意図及びアクションを、蓄積情報群363に蓄積する。
 自己モデル33Aは、第2の認識結果と、他者モデル34Bによる推定結果とを基に、自己となるユーザAの意図及び/またはアクションを推定し、生成部35及びDB36に出力する(ステップS204-1、S204-2)。自己モデル33Aは、時間nの時の認識結果と、時間n+1の時のユーザBの意図及び/またはアクションとを基に、時間n+1の時のユーザAの意図及び/またはアクションを推定する。DB36は、自己モデル33Aによって推定された、自己となるユーザAの意図及び/またはアクションを、蓄積情報群363に蓄積する。
 生成部35は、推定部32が推定した、ユーザAの意図及び/またはアクションを表現した仕草、表情、音声、及び/または、言語情報を示す、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する(ステップS205)。
 出力部40は、生成部35が生成したユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を、他者であるユーザBに対して出力する(ステップS206)。
 そして、受付部20は、出力部40による出力に対するユーザBの画像、音声及び/またはテキストの入力を受け付ける(ステップS201)。
 処理装置210は、ステップS201~ステップS206の処理を繰り返す。すなわち、ユーザBの行動等に関するデータを受け付け、それに対するユーザBの意図及び/またはアクションを推定して、デジタルツイン等を出力する処理を送り返す。これら処理の繰り返しを行うことで、処理装置210は、ユーザAを自己とし、ユーザBとの間で協調してタスクを実行することができる。それとともに、処理装置210は、DB36に、学習用の蓄積情報群363を蓄積する。
[学習フェーズ]
 次に、学習フェーズの処理について説明する。図9は、学習フェーズを説明する図である。図9では、処理装置210は、他者モデル34Bに対する学習を行うことによって、ユーザBの意図及び/またはアクションを推定するモデルを生成するとともに、自己モデル33Aに対する学習を行うことによって、ユーザBと協調してタスクを行う場合のユーザの意図及び/またはアクションを推定できるモデルについて説明する。
 まず、学習部250は、学習タイミングであるか否かを判定する。学習タイミングは、例えば、予め設定された所定の日時に達した場合、所定量の協調タスクが終了した場合、DB36の蓄積情報群363のデータ量が所定量に達した場合などである。
 学習部250は、学習タイミングであると判定した場合、推定処理部230の他者モデル34B及び自己モデル33Aの学習を開始する(ステップS211)。
 まず、学習フェーズでは、DB36に蓄積された各種データのうち、他者モデル34B及び自己モデル33Aの学習に使用する第2の学習データを読み出す(ステップS212)。
 そして、学習部250は、第2の学習データを用いて、他者モデル34Bに、第2の関係を学習させる(ステップS212)。学習部250は、時間nの時のユーザBに対する認識部31による認識結果に基づいて推定された時間n+1の時のユーザBの意図及び/またはアクションと、教師データである時間n+1の時のユーザBに対する認識部31による認識結果と、の差が最も小さくなるように他者モデル34Aの学習を実行する。これとともに、学習部250は、第2の学習データを用いて、自己モデル33Aに、第3の関係を学習させる(ステップS213)。
[処理方法]
 次に、実施の形態2の処理装置210が実行する処理方法の処理手順について説明する。図10は、実施の形態2における処理方法の処理手順を示すフローチャートである。
 図10に示すように、処理装置210は、他者であるユーザBの画像、音声及び/またはテキストの入力を受け付けて(ステップS221)、自己(ユーザA)の意図及び/またはアクションを推定する推定処理を行う(ステップS222)。
 処理装置210は、ユーザAの意図及び/またはアクションを表現した、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を出力する(ステップS223)。
 処理装置210は、ユーザBとの協調タスクが終了したか否かを判定する(ステップS224)。ユーザBとの協調タスクが終了していない場合(ステップS224:No)、ステップS221に戻る。処理装置210は、ステップS221~ステップS224を繰り返すことによって、ユーザBと協調してタスクを行う。
 処理装置210は、ユーザBとの協調タスクが終了している場合(ステップS224:Yes)、図4に示すステップS25と同じ処理であるステップS225を実行する。
 学習タイミングである場合(ステップS225:Yes)、処理装置210は、処理装置10は、第2の学習データを基に、モデルの学習を実行する学習処理を実行する(ステップS226)。
[推定処理]
 次に、推定処理(ステップS222)について説明する。図11は、図10に示す推定処理の処理手順を示すフローチャートである。
 図11に示すように、推定処理部330では、認識部31が、ユーザBの画像、音声及び/またはテキストを基に、ユーザBの外観、仕草、表情、声色、感情及び/または言語情報を認識する認識処理を行う(ステップS231)。認識部31は、ユーザBの認識結果(第2の認識結果)を自己モデル33A、他者モデル34B及びDB36に出力する。
 他者モデル34Bは、第3の認識結果を基に、ユーザBの意図及びアクションを推定し(ステップS232)、自己モデル33Aへの出力、及び、DB36への格納を行う(ステップS233)。
 自己モデル33Aは、第2の認識結果と、他者モデル34Bによる推定結果とを基に、自己となるユーザAの意図及び/またはアクションを推定し(ステップS234)、生成部35への出力、及び、DB36への格納を行う(ステップS235)。
 生成部35は、例えば、自己となるユーザAの仕草、表情、音声、及び/または、言語情報を示す、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する(ステップS236)。
[学習処理]
 次に、学習処理(ステップS226)について説明する。図12は、図10に示す学習処理の処理手順を示すフローチャートである。
 図12に示すように、推定処理部230は、学習部250の制御の基、DB36に蓄積された各種データのうち、第2の学習データを取得する(ステップS241,S243)。第2の学習データは、ユーザA,Bの個人特性と、ユーザA,Bにおける他者に対する信頼度を示す信頼指数と、時間nでの認識部31によるユーザBに対する第2の認識結果と、他者モデル34Bによる時間時間n+1でのユーザBの意図及び/またはアクションの推定結果と、自己モデル33Aによる時間時間n+1でのユーザAの意図及び/またはアクションの推定結果とを含む。教師データは、ユーザBの時間n+1での認識部31による認識結果である。
 学習部250は、DB36に格納されたデータのうち、第2の学習データを用いて、他者モデル34Bに第2の関係を学習させ、他者モデル34Bのパラメータを最適化する(ステップS242)。
 学習部250は、第2の学習データを用いて、自己モデル33Aに、第3の関係を学習させ、自己モデル33Aのパラメータを最適化する(ステップS244)。
[実施の形態2の効果]
 ユーザAは、実際にユーザBと協調してタスクを行っている場合、ユーザBの表情や仕草等を基に、ユーザBの意図及び/アクションを予測しながら、自己の思考及び/またはアクションを決定している。
 実施の形態2では、推定部232に、他者モデル34Bを持たせ、自己モデル33Aに、他者であるユーザBに対する第2の認識結果に加え、さらに、他者モデル34BによるユーザBの思考及び/またはアクションの推定結果を入力する。そして、自己モデル33Aは、第2の認識結果に加え、さらに、他者モデル34BによるユーザBの思考及び/またはアクションの推定結果を基に、ユーザAの思考及び/またはアクションを推定している。
 このため、自己モデル33Aは、実際にユーザBと協調してタスクを行っている場合のユーザAと近似した意図及び/アクションを推定することができるといえる。したがって、処理装置210は、ユーザAが実際に行うように、ユーザBと信頼感を構築し、ユーザBと協調して円滑にタスクを実行することができる。
 そして、処理装置210は、ユーザBとの間で協調してタスクを行っている間も、自己モデル33A及び他者モデル34Bにおいて、それぞれ推定された意図及び/またはアクションを、自己或いは他者の特性を示すものとしてDB36に蓄積価値観データベースに蓄積している。このため、処理装置210は、協調タスクを行う間も自己モデル33A及び他者モデル34Bを成長させていくことができる。
[実施の形態2の変形例]
 図13は、実施の形態2の変形例に係る処理装置の構成の一例を示す図である。図13に示すように、実施の形態2の変形例に係る処理装置210-1は、ユーザB及びユーザCと協調してタスクを行う。
 この際、処理装置210-1は、ユーザBの画像、音声、及び/または、ユーザBが作成したテキストを受ける受付部20Bと、ユーザCの画像、音声、及び/または、ユーザCが作成したテキストを受ける受付部20Cと、推定処理部230-1と、出力部40と、他者モデル34B,34C及び自己モデル33Aの学習処理を制御する学習部250Aとを有する。
 推定処理部230-1は、受付部20Cが受け付けたデータを基にユーザCの外観、仕草、表情、声色、感情及び/または言語情報を認識する認識部31Cをさらに有する。推定部232-1は、他者モデル34Cをさらに有する。他者モデル34Cは、認識部31Cの認識結果を基に、ユーザCの意図及び/アクションを推定し、推定結果を自己モデル33A及びDB36に出力する。
 自己モデル33Aは、認識部31B,31Cによる認識結果と、他者モデル34B,34Cの推定結果を基に、自己となるユーザAの意図及び/またはアクションを推定する。そして、生成部35は、ユーザAの意図及び/またはアクションを表現した仕草、表情、音声、及び/または、言語情報を示す、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成し、出力部40から出力する。
 そして、受付部20B,20Cは、出力部40による出力に対するユーザB,Cの画像、音声及び/またはテキストの入力を受け付ける。以降、処理装置210-1は、同様の処理を繰り返すことで、ユーザAが実際に行うように、ユーザB,Cと協調してタスクを実行する。
 学習部250Aは、ユーザA,B,Cの個人特性と、ユーザA,B,Cにおける他者に対する信頼度を示す信頼指数と、認識部31B,31Cによる認識結果と、他者モデル34B,34Cによる推定結果と、自己モデル33Aによる推定結果とを学習データとして、他者モデル34B,34C及び自己モデル33Aの学習を実行する。
 学習部250Aは、他者モデル34Bに、ユーザBが、ユーザA及びユーザCと協調してタスクを行う際のユーザBの意図及び/またはアクションと、認識部31B,31Cによる認識結果との関係を学習させる。学習部250Aは、他者モデル34Cに、ユーザCが、ユーザA及びユーザBと協調してタスクを行う際のユーザCのオブジェクトの意図及び/またはアクションと、認識部31B,31Cによる認識結果との関係を学習させる。また、学習部250Aは、自己モデル33Aに、ユーザAがユーザB及びユーザCと協調してタスクを行う際のユーザAの意図及び/またはアクションと、認識部31B,31Cによる認識結果との関係を学習させる。
 このため、処理装置210-1は、ユーザB,Cとの間で協調してタスクを行っている間も、自己モデル33A及び他者モデル34B,34Cにおいて、それぞれ推定された意図及び/またはアクションを、自己或いは他者の特性を示すものとしてDB36に蓄積価値観データベースに蓄積している。このため、処理装置210は、協調タスクを行う間も自己モデル33A及び他者モデル34B,34Cを成長させていくことができる。また、処理装置210-1は、協調するユーザが3名以上となる場合には、他者となるユーザごとに他者モデルを持たせて、協調タスクを行う間も学習用データを蓄積し、各モデルの学習を行えばよい。
[実施の形態3]
 次に、実施の形態3について説明する。実施の形態3では、複数の人の処理装置同士がデジタルツインを出力しながら協調してタスクを行う場合、各処理装置が他者となるデジタルツインの行動を認識してそれぞれの他者モデルを更新しながら、更新された他者モデルに基づき自己の意図及び/またはアクションを決定するループシステムを提案する。
[処理システム]
 図14は、実施の形態3に係る処理システムの構成の一例を示す図である。実施の形態に係る処理システムでは、例えば、ユーザAの個性を有する自己モデル333Aを有する処理装置310Aと、ユーザBの個性を有する自己モデル333Bを有する処理装置310Bとを有する。
 処理装置310Aは、受付部320Aが、処理装置310Bから出力されたユーザBの意図及び/またはアクションを表現した、ユーザBのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報の入力を受け付ける。推定処理部330Aは、推定部332Aが、自己(ユーザA)の意図及び/またはアクションを推定し、生成部35A及び出力部40Aを介して、ユーザAの意図及び/またはアクションを表現した、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を処理装置310Bに出力する。
 処理装置310Bは、受付部320Bが、処理装置310Aから出力されたユーザAの意図及び/またはアクションを表現した、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報の入力を受け付ける。そして、推定処理部330Bは、推定部332Bが、自己(ユーザB)の意図及び/またはアクションを推定し、生成部35B及び出力部40Bを介して、ユーザBの意図及び/またはアクションを表現した仕草、表情、音声、及び/または、言語情報を示す、ユーザBのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を処理装置310Aに出力する。
 推定部332Aは、処理装置310Bが出力したユーザBのオブジェクトの画像、音声、テキストに対する認識部331Aによる認識結果を基に、ユーザBの意図及び/またはアクションを推定する他者モデル334Bを有する。自己モデル333Aは、認識部331Aによる認識結果及び他者モデル334Bの推定結果を基に、ユーザAの意図及び/またはアクションを推定する。
 推定部332Bは、処理装置310Aが出力したユーザAのオブジェクトの画像、音声、テキストに対する認識部331Bによる認識結果を基に、ユーザAの意図及び/またはアクションを推定する他者モデル334Aを有する。自己モデル333Bは、認識部331Bによる認識結果及び他者モデル334Aの推定結果を基に、ユーザBの意図及び/またはアクションを推定する。
 このように、ユーザAのオブジェクトと、ユーザBのオブジェクトとが協調してタスクを行う場合、ユーザAのオブジェクトを生成する処理装置310Aと、ユーザBのオブジェクトを生成する他方の処理装置310Bとのそれぞれが、それぞれ他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識した認識結果を基に、出力する人物のオブジェクトの意図及び/またはアクションを推定する。
 学習部350A,350Bは、学習時には、他方の処理装置310A,310BのDB36A,36Bが格納する個人特性情報、信頼指数、蓄積情報群を共有し、共有したデータを用いて、それぞれ学習を行う。
 このようにユーザAのオブジェクトと、ユーザBのオブジェクトとが協調してタスクを行う場合、ユーザAのオブジェクトを生成する処理装置310Aと、ユーザBのオブジェクトを生成する他方の処理装置310Bとのそれぞれが、他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識した認識結果、及び、他方の自己モデル及び他者モデルの推定結果を共有して、自装置の自己モデル及び他者モデルを更新する。
[処理方法]
 次に、実施の形態3の処理システムが実行する処理方法の処理手順について説明する。図15は、実施の形態3における処理方法の手順を示すシーケンス図である。
 図15に示すように、処理装置310Aが、処理装置310Bから、ユーザBのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報の入力を受け付ける(ステップS301,S302)。
 処理装置310Aは、自己(ユーザA)の意図及び/またはアクションを推定する推定処理を行い(ステップS303)、ユーザAの意図及び/またはアクションを表現した、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を処理装置310Bに出力する(ステップS304,S305)。ステップS303は、図10のステップS222と同じ処理である。
 処理装置310Bの処理は、処理装置310Aから、ユーザAのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報の入力を受け付ける(ステップS307,S308)。
 処理装置310Bは、自己(ユーザB)の意図及び/またはアクションを推定する推定処理を行い(ステップS308)、ユーザBの意図及び/またはアクションを表現した、ユーザBのオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を処理装置310Aに出力する(ステップS309,S301)。ステップS308は、図10のステップS222において、ユーザAをユーザBに入れ替え、自己モデル33Aを自己モデル333Bに入れ替え、他者モデル34Bを他者モデル334Aに入れ替えた処理となる。
 処理装置310A,310Bは、協調タスクが終了していない場合(ステップS306:No,ステップS310:No)、それぞれステップS302、ステップS307に戻り、協調タスクを継続する。
 協調タスクが終了しており(ステップS306:Yes,ステップS310:Yes)、宅習タイミングである場合(ステップS311:Yes,ステップS312:Yes)、処理装置310A,310B間で、個人特性、信頼指数、蓄積情報群の共有を行い(ステップS313)、それぞれ、自己モデル及び他者モデルに対する学習処理を行う(ステップS314,S315)。
[実施の形態3の効果]
 実施の形態3では、処理装置310A,310B同士が、デジタルツイン等を出力しながら協調してタスクを行う場合、各処理装置310A,310Bが他者となるデジタルツインの行動を認識してそれぞれの自己モデル、他者モデルを更新しながら、更新された他者モデルに基づき自己の意図及び/またはアクションを決定するループシステムを構成する。
 このため、処理装置310A,310Bは、学習時には、他方の処理装置310A,310Bが有する個人特性情報、信頼指数、蓄積情報群を共有し、共有したデータを用いて、それぞれ自己モデル及び他者モデルの学習を行う。この結果、処理装置310A,310Bは、自装置が蓄積した情報のみならず、協調対象の他方の装置が蓄積した情報も取得できるため、モデルの学習に必要なデータが集めやすく、適切なモデルを構築しやすい。
 また、人が持つ相手への価値観、経験だけでは、データが不十分である場合や、主観が入る場合があり、正確な情報になりにくい場合がある。これに対し、実施の形態3では、複数の処理装置310A,310B間で価値観、各モデルの推定結果を共有することで、各ユーザが持つ不変の価値観はどこにあるのかをより適切に推定できるといえる。
[実施形態のシステム構成について]
 上記に示した処理装置10,210,210-1,310A,310Bの各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、処理装置10,210,210-1,310A,310Bの機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、処理装置10,210,210-1,310A,310Bにおいておこなわれる各処理は、全部または任意の一部が、CPUおよびCPUにより解析実行されるプログラムにて実現されてもよい。また、処理装置10,210,210-1,310A,310Bにおいておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図16は、プログラムが実行されることにより、処理装置10,210,210-1,310A,310Bが実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、処理装置10,210,210-1,310A,310Bの各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、処理装置10,210,210-1,310A,310Bにおける機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例および運用技術等はすべて本発明の範疇に含まれる。
 10,210,210-1,310A,310B 処理装置
 20,20B,20C,320A,320B 受付部
 30,230,230-1,330A,330B 推定処理部
 31,31B,31C,331A,331B 認識部
 32,232,232-1,332A,332B 推定部
 33 汎用自己モデル
 33A,333A,333B 自己モデル
 34A,34B,34C,334A,334B 他者モデル
 35,35A,35B 生成部
 36,36A,36B データベース(DB)
 40,40A,40B 出力部
 50,250,250A,350A,350B 学習部
 361 個人特性情報
 362 信頼指数
 363 蓄積情報群

Claims (8)

  1.  他の人物または前記他の人物のオブジェクトの画像、音声、及び/または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識結果として認識する認識部と、
     第1のモデルを用いて、少なくとも前記認識部による認識結果を基に、自己となる人物の意図及び/またはアクションを推定する推定部と、
     前記推定部が推定した前記自己となる人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する生成部と、
     第1の人物の個人特性と、前記第1の人物における他者に対する信頼度を示す信頼指数と、前記第1の人物の協調対象である第3の人物のオブジェクトの画像、音声、及び/または、前記第3の人物のオブジェクトが作成したテキストである第1のデータに対する前記第1の人物の画像、音声及び/または前記第1の人物が作成したテキストを基に認識された前記第1の人物の外観、仕草、表情、声色、感情及び/または言語情報に関する第1の認識結果と、前記第1の認識結果に基づく前記第1の人物の意図及び/またはアクションの推定結果と、を第1の学習データとして、前記第1のモデルに、前記第1の人物が前記第3の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第1の認識結果との関係である第1の関係を学習させる学習部と、
     を有することを特徴とする学習装置。
  2.  前記認識部は、前記第1の人物と協調してタスクを行う第2の人物または前記第2の人物のオブジェクトの画像、音声、及び/または、前記第2の人物または前記第2の人物のオブジェクトが作成したテキストである第2のデータに基づいて、前記第2の人物または前記第2の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を第2の認識結果として認識し、
     前記推定部は、前記第2の認識結果を基に、前記第2の人物または前記第2の人物のオブジェクトの意図及びアクションを推定する第2のモデルを有し、
     前記第1のモデルは、自己となる人物を前記第1の人物として、前記第2の認識結果と、前記第2のモデルによる推定結果とを基に、前記第2の人物と協調してタスクを行う際の前記第1の人物の意図及び/またはアクションを推定し、
     前記学習部は、前記第1の人物の個人特性と、前記第1の人物における他者に対する信頼度を示す信頼指数と、前記第2の人物の個人特性と、前記第2の人物における他者に対する信頼度を示す信頼指数と、前記第2の認識結果と、前記第2のモデルによる推定結果と、前記第1のモデルによる推定結果と、を第2の学習データとして、前記第2のモデルに、前記第2の人物または前記第2の人物のオブジェクトが前記第1の人物と協調してタスクする際の前記第2の人物または前記第2の人物のオブジェクトの意図及び/またはアクションと、前記第2の認識結果との関係である第2の関係を学習させるとともに、前記第2の学習データを用いて前記第1のモデルに、前記第1の人物が前記第2の人物または前記第2の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第2の認識結果との関係である第3の関係を学習させることを特徴とする請求項1に記載の学習装置。
  3.  前記第1の人物のオブジェクトと、前記第2の人物のオブジェクトとが協調してタスクを行う場合、前記第1の人物のオブジェクトを生成する当該学習装置と、前記第2の人物のオブジェクトを生成する学習装置とのそれぞれが、他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識した認識結果、及び、他方の前記第1のモデル及び前記第2のモデルの推定結果を共有して、前記第1のモデル及び前記第2のモデルを更新することを特徴とする請求項2に記載の学習装置。
  4.  実在する第1の人物の人物と協調してタスクを行う第2の人物または前記第2の人物のオブジェクトの画像、音声、及び/または、前記第2の人物または前記第2の人物のオブジェクトが作成したテキストである第2のデータに基づいて、前記第2の人物または前記第2の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を第2の認識結果として認識する認識部と、
     前記第1の人物が前記第2の人物または前記第2の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第2の認識結果との関係である第3の関係を学習した第1のモデルと、前記第2の認識結果を基に前記第2の人物または前記第2の人物のオブジェクトの意図及びアクションを推定する第2のモデルと、を用いて、前記第2の人物と協調してタスクを行う際の前記第1の人物の意図及び/またはアクションを推定する推定部と、
     前記推定部が推定した前記第1の人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記第1の人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する生成部と、
     を有することを特徴とする推定装置。
  5.  前記第1の人物のオブジェクトと、前記第2の人物のオブジェクトとが協調してタスクを行う場合、前記第1の人物のオブジェクトを生成する当該推定装置と、前記第2の人物のオブジェクトを生成する推定装置とのそれぞれが、それぞれ他方の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識した認識結果を基に、出力する人物のオブジェクトの意図及び/またはアクションを推定することを特徴とする請求項4に記載の推定装置。
  6.  学習装置が実行する学習方法であって、
     他の人物または前記他の人物のオブジェクトの画像、音声、及び/または、前記他の人物または前記他の人物のオブジェクトが作成したテキストである入力データに基づいて、前記他の人物または前記他の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を認識結果として認識する工程と、
     第1のモデルを用いて、少なくとも前記認識する工程における認識結果を基に、自己となる人物の意図及び/またはアクションを推定する工程と、
     前記推定する工程において推定された前記自己となる人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記自己となる人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する工程と、
     第1の人物の個人特性と、前記第1の人物における他者に対する信頼度を示す信頼指数と、前記第1の人物の協調対象である第3の人物のオブジェクトの画像、音声、及び/または、前記第3の人物のオブジェクトが作成したテキストである第1のデータに対する前記第1の人物の画像、音声及び/または前記第1の人物が作成したテキストを基に認識された前記第1の人物の外観、仕草、表情、声色、感情及び/または言語情報に関する第1の認識結果と、前記第1の認識結果に基づく前記第1の人物の意図及び/またはアクションの推定結果と、を第1の学習データとして、前記第1のモデルに、前記第1の人物が前記第3の人物のオブジェクトと協調してタスクする際の前記第1の人物の意図及び/またはアクションと、前記第1の認識結果との関係である第1の関係を学習させる工程と、
     を含んだことを特徴とする学習方法。
  7.  推定装置が実行する推定方法であって、
     実在する第1の人物の人物と協調してタスクを行う第2の人物または前記第2の人物のオブジェクトの画像、音声、及び/または、前記第2の人物または前記第2の人物のオブジェクトが作成したテキストである第2のデータに基づいて、前記第2の人物または前記第2の人物のオブジェクトの外観、仕草、表情、声色、感情及び/または言語情報を第2の認識結果として認識する工程と、
     前記第1の人物が前記第2の人物または前記第2の人物のオブジェクトと協調してタスクを行う際の前記第1の人物の意図及び/またはアクションと、前記第2の認識結果との関係である第3の関係を学習した第1のモデルと、前記第2の認識結果を基に前記第2の人物または前記第2の人物のオブジェクトの意図及びアクションを推定する第2のモデルと、を用いて、前記第2の人物と協調してタスクを行う際の前記第1の人物の意図及び/またはアクションを推定する工程と、
     前記推定する工程において推定された前記第1の人物の意図及び/またはアクションを表現した外観、仕草、表情、声色、感情及び/または言語情報を示す、前記第1の人物のオブジェクトの画像、音声、テキスト、及び/または、所定の装置に対する操作情報を生成する工程と、
     を含んだことを特徴とする推定方法。
  8.  コンピュータを、請求項1~3のいずれか一つに記載の学習装置、または、請求項4または5に記載の推定装置として機能させるためのプログラム。
PCT/JP2022/036822 2022-09-30 2022-09-30 学習装置、推定装置、学習方法、推定方法及びプログラム WO2024069975A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/036822 WO2024069975A1 (ja) 2022-09-30 2022-09-30 学習装置、推定装置、学習方法、推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/036822 WO2024069975A1 (ja) 2022-09-30 2022-09-30 学習装置、推定装置、学習方法、推定方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2024069975A1 true WO2024069975A1 (ja) 2024-04-04

Family

ID=90476709

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/036822 WO2024069975A1 (ja) 2022-09-30 2022-09-30 学習装置、推定装置、学習方法、推定方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2024069975A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227208A (ja) * 2003-01-22 2004-08-12 Matsushita Electric Ind Co Ltd ユーザ適応型行動決定装置および行動決定方法
JP2021039677A (ja) * 2019-09-05 2021-03-11 株式会社日本総合研究所 情報処理方法、プログラム及び情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227208A (ja) * 2003-01-22 2004-08-12 Matsushita Electric Ind Co Ltd ユーザ適応型行動決定装置および行動決定方法
JP2021039677A (ja) * 2019-09-05 2021-03-11 株式会社日本総合研究所 情報処理方法、プログラム及び情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AYAMI YOKOYAMA: "Model Based Analysis of Action Decision Process in Collaborative Task Based on Intention Estimation", IEICE TRANSACTION, vol. J92–A, no. 11, 1 January 2009 (2009-01-01), pages 734 - 742, XP093152257 *

Similar Documents

Publication Publication Date Title
Fidan et al. Managing schools as complex adaptive systems: A strategic perspective
McCalla et al. Active learner modelling
Blackwell et al. Live Algorithms: towards autonomous computer improvisers
Ravenet et al. Conversational behavior reflecting interpersonal attitudes in small group interactions
Wilks et al. A prototype for a conversational companion for reminiscing about images
Murray et al. Learning backchanneling behaviors for a social robot via data augmentation from human-human conversations
Mihoub et al. Learning multimodal behavioral models for face-to-face social interaction
Fujita et al. Intelligent human interface based on mental cloning-based software
WO2024069975A1 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
Whalley Software Agents in Music and Sound Art Research/Creative Work: current state and a possible direction
Buschmeier et al. When to elicit feedback in dialogue: Towards a model based on the information needs of speakers
Taniguchi Collective predictive coding hypothesis: Symbol emergence as decentralized bayesian inference
US20220414472A1 (en) Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data
Moore Spoken language processing: time to look outside?
CN111027215A (zh) 针对虚拟人的性格训练系统及其方法
Gómez Esteban et al. Competition and cooperation in a community of autonomous agents
Maroto-Gómez et al. Deep reinforcement learning for the autonomous adaptive behavior of social robots
Dubova et al. Reinforcement communication learning in different social network structures
JP7418106B2 (ja) 情報処理装置、情報処理方法およびプログラム
Nölle How language adapts to the environment: An evolutionary, experimental approach
Szucs Lip Synchronization for ECA Rendering with Self-Adjusted POMDP Policies
Zhang et al. Communication atmosphere in humans and robots interaction based on fuzzy analytical hierarchy process
Grifoni et al. When language evolution meets multimodality: Current status and challenges toward multimodal computational models
WO2023286118A1 (ja) 対話装置、対話方法およびプログラム
Andreev et al. Towards an architectural framework for intelligent virtual agents using probabilistic programming

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22961034

Country of ref document: EP

Kind code of ref document: A1