WO2021140800A1 - コミュニケーション支援システムおよびコミュニケーション支援プログラム - Google Patents

コミュニケーション支援システムおよびコミュニケーション支援プログラム Download PDF

Info

Publication number
WO2021140800A1
WO2021140800A1 PCT/JP2020/045302 JP2020045302W WO2021140800A1 WO 2021140800 A1 WO2021140800 A1 WO 2021140800A1 JP 2020045302 W JP2020045302 W JP 2020045302W WO 2021140800 A1 WO2021140800 A1 WO 2021140800A1
Authority
WO
WIPO (PCT)
Prior art keywords
communication
user
avatar
terminal
agent
Prior art date
Application number
PCT/JP2020/045302
Other languages
English (en)
French (fr)
Inventor
由奈 翁
柿井 俊昭
桂明 戴
細谷 俊史
Original Assignee
住友電気工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 住友電気工業株式会社 filed Critical 住友電気工業株式会社
Publication of WO2021140800A1 publication Critical patent/WO2021140800A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • Patent Document 1 describes non-verbal behavioral movements such as gaze and gesture among avatar movements corresponding to user movements from the viewpoint of cultural appropriateness. Disclose a conference system that modifies to a different behavior.
  • the communication support system is a communication support system that supports communication performed by a user using a terminal, so that an agent displayed on the terminal and participating in the communication operates according to a communication situation.
  • the trained model is provided with a control data generation unit that generates control data for controlling the operation of the agent, the agent is an avatar in a virtual space, and the trained model has a communication status. When input, it is a trained model generated using the training data so as to output the control data.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a communication support system according to an embodiment.
  • FIG. 2 is a diagram showing an example of communication provided by the communication support system according to the embodiment.
  • FIG. 3 is a diagram showing an example of a functional block of a terminal and a server.
  • FIG. 4 is a sequence diagram showing an example of processing executed in the communication system.
  • the communication support system is a communication support system that supports communication performed by a user using a terminal, so that an agent displayed on the terminal and participating in the communication operates according to a communication situation.
  • the trained model is provided with a control data generation unit that generates control data for controlling the operation of the agent, the agent is an avatar in a virtual space, and the trained model has a communication status. When input, it is a trained model generated using the training data so as to output the control data.
  • the communication support program operates a computer as the above communication support system.
  • the communication status may include the state of the user indicated by the information obtained by the sensor.
  • the above situation may include the verbal or non-verbal behavior of the user. Natural communication is provided by operating the agent according to such a communication situation.
  • the above agent may be a non-participating avatar who does not participate in communication.
  • the avatar of a real person who has not participated in the communication can participate in the communication.
  • the agent may be an avatar of a fictitious person.
  • the control data generation unit further generates control data for controlling the user's avatar so that the user's avatar displayed on the terminal and participating in the communication operates according to the user's operation. You may. As a result, communication is provided in which the avatar that operates according to the user's action also participates.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a communication support system (hereinafter, may be simply referred to as a “system”) according to an embodiment.
  • the system 100 is a computer system that supports communication. Examples of communication include video conferencing, chat, medical examination, counseling, interview (personal evaluation), telework, navigation, and the like.
  • the communication may be communication between a plurality of users or communication between a single user and the system 100.
  • the present embodiment will be described with reference to an example of supporting communication between a plurality of users, unless otherwise specified.
  • the system 100 includes a terminal 10, a terminal 20, and a terminal 30.
  • the terminal 10 is a laptop personal computer (PC) used by the user U1.
  • the terminal 20 is a mobile phone (smartphone or the like) used by the user U2.
  • the terminal 30 is a desktop PC used by the user U3.
  • the terminal 10, the terminal 20, and the terminal 30 can be connected to the network N.
  • the terminal 10 is connected to the network N via the access point AP
  • the terminal 20 is connected to the base station BS
  • the terminal 30 is connected to the network N by wire (not shown).
  • the terminal 10 As the terminal 10, the terminal 20, and the terminal 30, in addition to the above-mentioned PC and mobile phone, a tablet terminal, a wearable terminal, a head-mounted display (HMD) terminal, and various other terminals may be used.
  • the number of terminals included in the system 100 is not limited to the example of FIG.
  • System 100 includes server 40.
  • the server 40 is connected to the network N. Therefore, the terminal 10, the terminal 20, the terminal 30, and the server 40 can communicate with each other via the network N.
  • the number of servers included in the system 100 is not limited to the example of FIG.
  • the configuration of network N is not limited.
  • the network N may be configured to include the Internet (public network), a communication carrier network, a business network, and the like.
  • FIG. 2 is a diagram showing an example of communication provided by the system 100. Communication takes place in the virtual space 50 represented by a computer. The virtual space 50 is presented to the user U1, the user U2, and the user U3 by being displayed on the terminal 10, the terminal 20, and the terminal 30.
  • the agent A appears in the virtual space 50 as a communication participant. Further, in the example shown in FIG. 2, the avatar V1 of the user U1, the avatar V2 of the user U2, and the avatar V3 of the user U3 also appear in the virtual space 50 as participants in the communication.
  • the avatar V1 is an alter ego of the user U1 represented in the virtual space 50, and is generated by an image material independent of the actual image (imaging data, etc.) of the user U1.
  • the avatar V1 may be the alter ego of the user U1 represented in the virtual space 50 on the network N.
  • the image material may be a material for generating an animation character, or may be a material for generating a user image closer to the real thing created in advance based on a photograph or the like of the user U1.
  • Avatar V1 may be drawn by two-dimensional or three-dimensional computer graphics (CG). Attributes of Avatar V1 include, for example, Avatar's clothing, hair, age, gender, ugliness (eg, cute, normal, not cute, etc.).
  • the avatar V1 may be freely selected and set by the user U1 including the above attributes. The same applies to avatar V2 and user U2, and avatar V3 and user U3.
  • Agent A is an avatar in the virtual space 50.
  • Agent A may be an avatar of a fictitious person (a non-existent person).
  • the agent A may be an avatar of another user (non-participating user) who is not currently participating in the communication.
  • Agent A's avatar attributes include, for example, avatar clothing, hair, age, gender, ugliness (eg, cute, normal, not cute, etc.).
  • the avatar of the agent A displayed on the terminal 10, the terminal 20 and the terminal 30, respectively, of the user U1, the user U2 and the user U3 may be freely selected and set by the user U1, the user U2 and the user U3 including their attributes. ..
  • Other users are avatars of real people other than user U1, user U2, and user U3. In the following, unless otherwise specified, the case where the agent A is an avatar of a fictitious person will be described.
  • FIG. 3 is a diagram showing an example of functional blocks of the terminal 10, the terminal 20, the terminal 30, and the server 40. Since the functional blocks of the terminal 20 and the terminal 30 are the same as the functional blocks of the terminal 10, the terminal 10 and the server 40 will be described below. First, the terminal 10 will be described, and then the server 40 will be described.
  • the terminal 10 includes an input unit 11.
  • the input unit 11 is a portion where the video of the user U1 is input.
  • the video of user U1 includes audio and images of user U1.
  • the terminal 10 includes a control unit 12.
  • the control unit 12 is a part that generates video data of the user U1.
  • the video data of the user U1 is generated based on the video of the user U1 input to the input unit 11.
  • the video data may be composed of audio data and image data that can be separated from each other.
  • the image data is composed of a plurality of continuous unit frame image data. For example, 60 frames / second image data includes 60 unit frame image data per second.
  • the control unit 12 may encode and multiplex the audio data and the frame image data so as to be compatible with the communication via the network N.
  • the control unit 12 is also a part that controls the agent A.
  • the control of the agent A includes the control of the operation of the agent A.
  • Actions here include verbal and non-verbal behaviors.
  • Language behavior is behavior that uses language, such as utterances (words).
  • Nonverbal behavior is behavior that does not use language, such as line of sight (movement of line of sight), posture, gesture, facial expression, and the like.
  • Examples of facial postures or movements are squeezing, swinging, tilting, nodding, and the like.
  • Examples of upper body postures or movements include torso orientation, shoulder twisting, elbow bending, hand raising and lowering, and the like.
  • finger movements are extension, flexion, abduction, adduction and the like.
  • the control of the agent A is performed based on the control data corresponding to the operation to be performed by the agent A.
  • the control data is generated by the server 40 as described later.
  • the control unit 12 is also a part that controls the avatar V1, the avatar V2, and the avatar V3.
  • Control of Avatar V1, Avatar V2 and Avatar V3 includes control of the actions of Avatar V1, Avatar V2 and Avatar V3.
  • the movement here includes at least non-verbal behavior among the above-mentioned verbal behavior and non-verbal behavior.
  • the control of the avatar V1, the avatar V2 and the avatar V3 is performed based on the control data corresponding to the actions to be performed by the avatar V1, the avatar V2 and the avatar V3.
  • the control data is generated by the server 40 as described later.
  • the control unit 12 is also a part that generates video data of the virtual space 50.
  • the video data of the virtual space 50 includes the video data of the agent A, the avatar V1, the avatar V2, and the avatar V3, which are controlled based on the control data.
  • various objects appearing in the virtual space 50 may be included in the video data of the virtual space 50. Examples of objects are chairs, desks, other ornaments, conference materials, screens on which the materials are displayed, etc. provided in the conference room.
  • the terminal 10 includes a storage unit 13.
  • the storage unit 13 is a portion that stores information necessary for controlling (processing) the terminal 10.
  • the terminal program 13P is exemplified as the information stored in the storage unit 13.
  • the terminal program 13P is a program for operating the terminal 10, and operates the computer so that the control by the control unit 12 or the like is executed. Since the system 100 is a communication support system, the terminal program 13P can be said to be a communication support program.
  • the terminal 10 includes the communication unit 14.
  • the communication unit 14 is a portion that communicates with an external device of the terminal 10 via the network N (FIG. 1). Examples of external devices for terminal 10 are terminal 20, terminal 30, and server 40.
  • the communication unit 14 transmits the video data generated by the control unit 12 to the server 40, and receives the control data of the agent A, the avatar V1, the avatar V2, and the avatar V3 from the server 40.
  • the terminal 10 includes an output unit 15.
  • the output unit 15 outputs the video of the virtual space 50.
  • the video of the virtual space 50 is a video based on the video data of the virtual space 50 generated by the control unit 12.
  • the server 40 includes a control unit 42.
  • the control unit 42 is also a part (control data generation unit) that generates control data for controlling the agent A.
  • the control data (agent operation information) of the agent A is generated by using the situation data 43S and the trained model 43L, which will be described later.
  • the control unit 42 acquires the operation information of the agent A by inputting the situation data 43S into the trained model 43L, and generates the control data of the agent A based on the acquired operation information.
  • the control unit 42 is also a part that specifies the communication status.
  • the communication situation includes the atmosphere of communication.
  • the atmosphere of communication includes the appearance of users U1, user U2, and user U3 participating in the communication.
  • the appearance of the user U1, the user U2, and the user U3 may include the above-mentioned verbal or non-verbal behavior.
  • Such a communication situation may be specified from the video data of the user U1, the video data of the user U2, and the video data of the user U3.
  • linguistic behavior such as utterance (meaning content of the audio) is specified.
  • image data of the video data non-verbal behaviors such as facial expressions, gazes, and nods are identified.
  • Various known methods may be used for the analysis of audio data and the analysis of image data.
  • the communication status may be specified from the control data of the avatar V1, the avatar V2, and the avatar V3 instead of the video data.
  • the communication status is a virtual space 50 prepared for the user U1, the user U2 and the user U3 (for example, a communication room such as a conference room) or a law or rule in the organization to which the user U1, the user U2 and the user U3 belong, NG ( Prohibition) Words and the like may be included.
  • NG Prohibition
  • Words and the like may be included.
  • the control unit 42 adds noise to the voice, for example, to violate the rule.
  • Make the linguistic expressions, NG words, etc. inaudible to users who are expected to be offended by such linguistic expressions, or issue an alarm sound to the terminal of the user who made such linguistic expressions.
  • Such control data may be generated.
  • the communication status includes, for example, the background and color of the virtual space 50 (or a communication room such as a conference room set in the virtual space 50), BGM (Background Music), the above-mentioned objects (desk, chair, etc.), arrangement of objects, and the like. May include.
  • the communication status may include the timing of communication. Examples of timing are the timing of the early stage of communication, the timing of the middle stage of communication, the timing of the final stage of communication, the timing of material exhibition (presentation), and the like.
  • the timing of communication may be determined, for example, as follows.
  • the timing of the beginning, middle, or end of communication may be determined by linguistic expression.
  • Whether it is the early stage, the middle stage, or the final stage of communication may be determined by eye contact between the user U1, the user U2, and the user U3. For example, if there are few eye contacts, it may be determined that it is the beginning or the end of communication, and if there are many eye contacts, it may be determined that it is the middle stage of communication.
  • the timing of exhibiting (presenting) materials may be determined by linguistic expressions.
  • the linguistic expression includes an expression such as "I will put out the material”
  • the timing of displaying (presenting) the material may be determined based on the line of sight of the user U1, the user U2, or the user U3. For example, when the eyes of a plurality of users are directed to a shared item such as a material, it may be determined as the timing of displaying (presenting) the material.
  • the presence or absence of the above-mentioned eye contact can be determined by using the line of sight of the user U1, the user U2, and the user U3.
  • the line of sight can be identified by analyzing the image data of the video data, as described above. For example, when the line of sight of the user U1 is toward the user U2 and the line of sight of the user U2 is toward the user U1, it can be determined that there is eye contact between the user U1 and the user U2. Whether or not the line of sight of the user U1 is toward the user U2 (or the line of sight of the user U2 is toward the user U1) is determined by the user U1 (or the user U2) on the monitor screen of the terminal 10 (or the terminal 20). It can be judged by where you are watching.
  • the control unit 42 makes eye contact with the avatar V1 and the avatar V2 of the user U1 and the user U2, such as the line of sight and the direction of the body, in a real space, for example. Control to perform the same operation.
  • eye contact between the user U1 and the user U2 has been described, but the same applies to the eye contact of any two of the user U1, the user U2, and the user U3.
  • the method for determining eye contact is not limited to the illustrated method.
  • the control unit 42 is also a part that generates control data for controlling the avatar V1, the avatar V2, and the avatar V3.
  • the control data of the avatar V1 is generated based on the video data of the user U1.
  • the control data of the avatar V2 is generated based on the video data of the user U2.
  • the control data of the avatar V3 is generated based on the video data of the user U3.
  • the control unit 42 may analyze the image data separated from the video data to determine a pattern corresponding to the non-verbal behavior of the user U1, the user U2, and the user U3.
  • the image pattern may be selected from a finite number of given patterns stored in the storage unit 43 in advance.
  • the volume of control data of the avatar V1, the avatar V2, and the avatar V3, and thus the communication load becomes large. It will be reduced.
  • non-verbal behavior may be described in JSON (Javascript ⁇ registered trademark> Object Notification) format.
  • the audio data of the avatar V1, the avatar V2, and the avatar V3, the audio data itself separated from the video data may be used, or the audio data with some modification may be used.
  • the control unit 42 combines the determined data indicating the patterns of the avatar V1, the avatar V2, and the avatar V3 with the voice data of the user U1, the user U2, and the user U3 to obtain the control data of the avatar V1, the avatar V2, and the avatar V3. Generate.
  • a trained model may be used to generate nonverbal behavior data for avatars V1, avatars V2 and avatars V3.
  • the trained model in this case is generated using training data, for example, to output information indicating the non-verbal behavior of the avatar when an image of a person is input.
  • the training data may be a group of teacher data in which images of various persons and non-verbal behaviors are associated with each other.
  • a trained model customized for each of user U1, user U2, and user U3 may be used.
  • Such a trained model may also be stored in the storage unit 43 as an aspect of the trained model 43L.
  • the server 40 includes a storage unit 43.
  • the storage unit 43 is a unit that stores information necessary for controlling the server 40.
  • FIG. 3 exemplifies the server program 43P, the status data 43S, and the learned model 43L as the information stored in the storage unit 43.
  • the server program 43P is a program for operating the server 40, and operates the computer so that the control by the control unit 42 or the like is executed. Since the system 100 is a communication support system, the server program 43P can be said to be a communication support program.
  • the status data 43S is information indicating the communication status. As described above, the communication status specified by the control unit 42 is stored in the storage unit 43 as the status data 43S.
  • the status data 43S may be time-series information in which the specified communication status is accumulated over a predetermined period.
  • the predetermined period may be set arbitrarily. An example of a predetermined period is the period from the start of communication to the present time.
  • the trained model 43L is used to select, determine, estimate, and the like the operation of the agent A according to the situation data 43S.
  • the trained model 43L is generated by using the training data so as to output the agent operation information when the situation data 43S is input.
  • the agent operation information is information indicating the operation of the agent A.
  • the operation information of the agent A indicates an operation suitable for the role of the agent A. For example, when the agent A is the facilitator of the conference, the operation information suitable for the progress of the conference is output from the trained model 43L. For example, when the agent A is the facilitator of the meeting, if it is the beginning of the meeting, information indicating an operation for greeting, introducing a participant, and explaining a topic may be output.
  • the trained model 43L reflects the characteristics of the real person who is the other user (for example, behavior pattern in a meeting, response pattern, etc.). It may be a trained model customized to output information indicating the performed behavior.
  • An example of training data is a group of teacher data in which situation data and operation information of agent A are associated with each other.
  • the status data and the operation information of the agent A are as described above.
  • the following data may be prepared as teacher data. That is, the teacher data may be teacher data in which the situation data that is the beginning of the meeting is associated with the information indicating the operation for greeting, introducing the participants, and explaining the topic.
  • the teacher data may be teacher data in which the situation data that it is in the middle of the meeting is associated with the utterance related to the discussion, the information indicating the movement of the participant during the utterance, the nod, the facial expression, and the like.
  • the teacher data the situation data that it is the end of the meeting, the greeting of the end, and the information indicating the operation for summarizing the meeting may be output.
  • Training data is prepared, for example, by monitoring the state of communication of an actual person (including a user) who plays a role similar to that of Agent A by using a camera, a microphone, or the like.
  • teacher data that associates the communication situation with the movement of the person may be created.
  • the video analysis may be performed manually by an expert or the like, or may be automatically performed by using an application or the like.
  • the server 40 includes the communication unit 44.
  • the communication unit 44 is a portion that communicates with an external device of the server 40 via the network N (FIG. 1). Examples of external devices for the server 40 are terminals 10, terminals 20 and terminals 30.
  • the communication unit 44 receives the video data of the user U1, the video data of the user U2, and the video data of the user U3 from the terminal 10, the terminal 20, and the terminal 30, respectively, and the control data and the avatar of the agent A generated by the control unit 42.
  • the control data of V1, the control data of avatar V2, and the control data of avatar V3 are transmitted to each of the terminal 10, the terminal 20, and the terminal 30.
  • the communication unit 44 of the server 40 may be configured using a network card or a wireless communication device so that the network N can be accessed.
  • the control unit 42 of the server 40 can be configured by using a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the control unit 42 may be configured by further using a clock and a built-in memory together with the processor.
  • the control unit 42 may be configured as one piece of hardware (SoC: System on a Chip) in which a processor, a clock, a built-in memory, a storage unit 43, and a communication unit 44 are integrated.
  • SoC System on a Chip
  • the server computer is operated as the server 40.
  • the storage unit 43 of the server 40 can be configured by using a non-volatile storage medium such as a flash memory, a hard disk, and an SSD (Solid State Disk).
  • the input unit 11 of the terminal 10 includes a sensor that acquires information (for example, voice, image, etc.) indicating the state of the user U1.
  • the sensor may be configured using, for example, a microphone that acquires the voice of the user U1, a camera that acquires an image of the user U1, and the like. Further, the input unit 11 may be configured by using an operation device of a keyboard, a mouse, and a touch panel.
  • the control unit 12 of the terminal 10 can be configured in the same manner as the control unit 42 of the server 40.
  • the control unit 12 operates based on the terminal program 13P to operate the general-purpose computer as the terminal 10.
  • the storage unit 13 of the terminal 10 may be configured in the same manner as the storage unit 43 of the server 40.
  • the communication unit 14 of the terminal 10 may be configured in the same manner as the communication unit 44 of the server 40.
  • the output unit 15 of the terminal 10 may be configured by using a display device such as a liquid crystal panel, an organic EL panel, or the like (a touch panel may be used). Further, the output unit 15 may be configured by using a speaker as well.
  • FIG. 4 is a sequence diagram showing an example of processing executed in the system 100.
  • the process shown in FIG. 4 can be performed repeatedly while communication continues.
  • the storage unit 43 may store initial data indicating that the situation data 43S is the timing of the early stage of communication.
  • the initial data is stored in the storage unit 43.
  • step S1 agent control data is generated. Specifically, the control unit 42 of the server 40 generates the control data of the agent A by using the situation data 43S stored in the storage unit 43 as the initial data and the trained model 43L.
  • step S2 agent control data is transmitted. Specifically, in step S2, the server 40 transmits the control data of the agent A generated in the previous step S1 to the terminal 10. In step S3, the server 40 transmits the control data of the agent A generated in the previous step S1 to the terminal 20. In step S4, the server 40 transmits the control data of the agent A generated in the previous step S1 to the terminal 30.
  • the agent is controlled in steps S5 to S7. Specifically, in step S5, the terminal 10 controls the agent A based on the control data of the agent A received in the previous step S2. As a result, the agent A in the virtual space 50 displayed on the terminal 10 operates according to the communication status. In step S6, the terminal 20 controls the agent A based on the control data of the agent A received in the previous step S3. As a result, the agent A in the virtual space 50 displayed on the terminal 20 operates according to the communication status. In step S7, the terminal 30 controls the agent A based on the control data of the agent A received in the previous step S4. As a result, the agent A in the virtual space 50 displayed on the terminal 30 operates according to the communication status.
  • step S8 the user's video data is transmitted to the server 40.
  • the terminal 10 transmits the video data of the user U1 to the server 40.
  • step S9 the terminal 20 transmits the video data of the user U2 to the server 40.
  • step S10 the terminal 30 transmits the video data of the user U3 to the server 40.
  • These video data can be stored in the storage unit 43 as the situation data 43S.
  • step S11 avatar control data is generated.
  • the control unit 42 of the server 40 generates the control data of the avatar V1 based on the video data of the user U1 received in the previous step S8, and is based on the video data of the user U2 received in the previous step S9.
  • the control data of the avatar V2 is generated, and the control data of the avatar V3 is generated based on the video data of the user U3 received in the previous step S10.
  • These control data can be stored in the storage unit 43 as the status data 43S.
  • step S12 the situation data is stored. Specifically, the control unit 42 of the server 40 analyzes the communication status, and the analyzed communication status is stored in the storage unit 43 as the status data 43S. If the status data 43S is already stored, the information is added.
  • Avatar control data is transmitted from step S13 to step S15. Specifically, in step S13, the server 40 transmits the control data of the avatar V1, the avatar V2, and the avatar V3 generated in the previous step S11 to the terminal 10. In step S14, the server 40 transmits the control data to the terminal 20. In step S15, the server 40 transmits the control data to the terminal 30.
  • the avatar is controlled in steps S16 to S18. Specifically, in step S16, the terminal 10 controls avatar V1, avatar V2, and avatar V3 based on the control data of avatar V1, avatar V2, and avatar V3 received in step S13. As a result, the avatars V1, avatar V2, and avatar V3 in the virtual space 50 displayed on the terminal 10 operate so as to reflect the actions of the user U1, the user U2, and the user U3. In step S17, the terminal 20 controls avatar V1, avatar V2, and avatar V3 based on the control data of avatar V1, avatar V2, and avatar V3 received in step S14.
  • the avatars V1, avatar V2, and avatar V3 in the virtual space 50 displayed on the terminal 20 operate so as to reflect the actions of the user U1, the user U2, and the user U3.
  • the terminal 30 controls avatar V1, avatar V2, and avatar V3 based on the control data of avatar V1, avatar V2, and avatar V3 received in step S15.
  • the avatars V1, avatars V2, and avatars V3 in the virtual space 50 displayed on the terminal 30 operate so as to reflect the actions of the user U1, the user U2, and the user U3.
  • Steps S19 to S25 are the same as steps S1 to S7 described above. That is, in step S19, agent control data is generated. From step S20 to step S22, agent control data is transmitted. From step S23 to step S25, the agent is controlled. Although not shown, after this, the same processing as the processing of steps S8 to S10 described above is executed. By repeatedly executing the process in this way, the agent A, the avatar V1, the avatar V2, and the avatar V3 are controlled, and communication is promoted. The situation data stored in the storage unit 43 in step S12 is used to generate the control data of the agent A in step S19.
  • the system 100 described above is specified as follows, for example. That is, in the system 100, the communication performed by the user U1, the user U2, and the user U3 (hereinafter, referred to as "user U1 or the like") using the terminal 10, the terminal 20, and the terminal 30 (hereinafter, referred to as "terminal 10 or the like").
  • the control unit (control data generation unit) 42 (which may include cooperation with the control unit 12) provides control data for operating the agent A displayed on the terminal 10 or the like and participating in the communication according to the communication status. It is generated using the trained model 43L. Agent A is an avatar in the virtual space.
  • the trained model 43L is generated by using the training data so as to output the agent operation information when the communication status is input.
  • the system 100 can be realized by operating a computer as the system 100 by the terminal program 13P and the server program 43P (communication support program).
  • the system 100 communication is provided in which an agent that operates according to the communication situation participates. Therefore, the system 100 provides communication that makes better use of the characteristics of using a computer. For example, if the agent operates according to the communication status, communication can proceed more smoothly. For example, if the communication is a conference and the agent is the facilitator of the conference, the agent acts as the facilitator. Therefore, the user U1 and the like who participate through the terminal 10 and the like can concentrate on the meeting, so that the meeting can proceed smoothly. Since the agent is a participant virtually created by computer support separately from the user U1 and the like who participate through the terminal 10 and the like, the system 100 can provide smoother communication by computer support.
  • the communication status may include the state of the user U1 or the like indicated by the information obtained by the sensor.
  • the appearance may include verbal or non-verbal behavior such as user U1.
  • Agent A may be the avatar of another user (non-participating user) who is not participating in communication. As a result, the avatar of a real person who has not participated in the communication can participate in the communication. Agent A may be an avatar of a fictitious person.
  • control unit 42 causes the avatar V1, the avatar V2, and the avatar V3 (hereinafter, referred to as “avatar V1 etc.”) displayed on the terminal 10 or the like and participating in the communication to operate according to the operation of the user U1 or the like.
  • avatar V1 etc. displayed on the terminal 10 or the like and participating in the communication to operate according to the operation of the user U1 or the like.
  • Control data for controlling the avatar V1 and the like may be generated.
  • communication is provided in which the avatar V1 or the like that operates according to the operation of the user U1 or the like also participates.
  • the present disclosure is not limited to the above embodiment.
  • Agent A, Avatar V1, Avatar V2, and Avatar V3 appear in the virtual space 50.
  • the agent A may appear in the virtual space 50.
  • the user's own avatar does not have to appear in the virtual space 50.
  • the agent A, the avatar V2, and the avatar V3 appear in the virtual space 50 displayed on the terminal 10 of the user U1, but the avatar V1 does not appear.
  • the non-verbal actions (movement of the line of sight, etc.) of the agent A, the avatar V2, and the avatar V3 may be controlled so as to be actions for the user U1 who is looking at the virtual space 50 displayed on the terminal 10.
  • Agent A, avatar V1 and avatar V3 appear in the virtual space 50 displayed on the terminal 20 of user U2, but avatar V2 does not appear.
  • the non-verbal actions of the agent A, the avatar V1 and the avatar V3 may be controlled so as to be actions for the user U2 who is looking at the virtual space 50 displayed on the terminal 20.
  • Agent A, avatar V1 and avatar V2 appear in the virtual space 50 displayed on the terminal 30 of user U3, but avatar V3 does not appear.
  • the non-verbal actions of the agent A, the avatar V2, and the avatar V3 may be controlled so as to be actions for the user U3 who is viewing the virtual space 50 displayed on the terminal 30.
  • the number of users participating in the communication may be one.
  • the agent A since at least the agent A appears in the virtual space 50, communication can be performed between the agent A and the user U1.
  • the agent A by making the agent A a boss or a colleague of the user U1, it is possible to organize or deepen the thoughts of the user U1 rather than the user U1 asking himself / herself.

Abstract

システムは、ユーザが端末を用いて行うコミュニケーションを支援する。システムは、端末に表示されコミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いてエージェントを制御するための制御データを生成する制御データ生成部を備える。エージェントは、仮想空間内のアバターである。学習済みモデルは、コミュニケーション状況が入力されると、制御データを出力するように、訓練データを用いて生成される。

Description

コミュニケーション支援システムおよびコミュニケーション支援プログラム
 本開示の一側面は、コミュニケーション支援システムおよびコミュニケーション支援プログラムに関する。
 本出願は、2020年1月10日出願の日本出願2020-003106号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。
 コンピュータを用いるコミュニケーションに関して、たとえば特開2009-77380号公報(特許文献1)は、ユーザ動作に対応するアバター動作のうち、凝視およびジェスチャのような非言語行動動作を、文化的適切度の観点から別の動作に修正する会議システムを開示する。
特開2009-77380号公報
 本開示の一側面に係るコミュニケーション支援システムは、ユーザが端末を用いて行うコミュニケーションを支援するコミュニケーション支援システムであって、上記端末に表示され上記コミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いて上記エージェントの動作を制御するための制御データを生成する制御データ生成部を備え、上記エージェントは、仮想空間内のアバターであり、上記学習済みモデルは、コミュニケーション状況が入力されると、上記制御データを出力するように、訓練データを用いて生成された学習済みモデルである。
図1は、実施形態に係るコミュニケーション支援システムの概略構成の例を示す図である。 図2は、実施形態に係るコミュニケーション支援システムによって提供されるコミュニケーションの例を示す図である。 図3は、端末およびサーバの機能ブロックの例を示す図である。 図4は、コミュニケーションシステムにおいて実行される処理の例を示すシーケンス図である。
[本開示が解決しようとする課題]
 上述のような会議システムといったコンピュータを用いるコミュニケーションでは、通常、実空間のユーザが端末を介して参加する。これにより、たとえば、コミュニケーションに参加すべきユーザが距離的に離れている場合でもあっても、仮想空間においてコミュニケーションを実施できる。しかしながら、この場合、一部のユーザが進行役を担う必要があることから、進行役のユーザがコミュニケーション(たとえば会議)に集中できなかったりする等の実空間と同様の問題が生じる。更に、従来のコンピュータを用いるコミュニケーションでは、端末を介した複数のユーザの参加が前提であり、コンピュータを用いるコミュニケーションの特性を十分に活用できていなかった。
 そこで、本開示の一側面は、コンピュータを用いることの特性をより活用したコミュニケーションを提供することを目的とする。
 [本開示の効果]
 本開示の一側面によれば、コンピュータを用いることの特性をより活用したコミュニケーションを提供できる。
 [本開示の実施形態の説明]
 はじめに、本開示の実施態様を列記して説明する。以下に記載する実施態様の一部を任意に組み合わせてもよい。
 本開示の一側面に係るコミュニケーション支援システムは、ユーザが端末を用いて行うコミュニケーションを支援するコミュニケーション支援システムであって、上記端末に表示され上記コミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いて上記エージェントの動作を制御するための制御データを生成する制御データ生成部を備え、上記エージェントは、仮想空間内のアバターであり、上記学習済みモデルは、コミュニケーション状況が入力されると、上記制御データを出力するように、訓練データを用いて生成された学習済みモデルである。
 本開示の一側面に係るコミュニケーション支援プログラムは、上記コミュニケーション支援システムとしてコンピュータを動作させる。
 このような側面においては、端末を介して参加するユーザ以外に、コミュニケーション状況に応じて動作するエージェントがコミュニケーションに参加する。そのため、コンピュータを用いることの特性をより活用したコミュニケーションを提供できる。
 上記コミュニケーション状況は、センサによって得た情報で示される上記ユーザの様子を含んでよい。上記様子は、上記ユーザの言語行動または非言語行動を含んでよい。このようなコミュニケーション状況に応じてエージェントが動作することにより、自然なコミュニケーションが提供される。
 上記エージェントは、コミュニケーションに参加していない不参加のアバターであってよい。これにより、コミュニケーションに参加していない実在人物のアバターを、コミュニケーションに参加させることができる。上記エージェントは、架空人物のアバターでもよい。
 上記制御データ生成部は、さらに、上記端末に表示され上記コミュニケーションに参加する上記ユーザのアバターが、上記ユーザの動作に応じて動作するように、上記ユーザのアバターを制御ための制御データを生成してもよい。これにより、ユーザの動作に応じて動作するアバターも参加するコミュニケーションが提供される。
 以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明は繰り返さない。
 図1は、実施形態に係るコミュニケーション支援システム(以下、単に「システム」という場合もある。)の概略構成の例を示す図である。システム100は、コミュニケーションを支援するコンピュータシステムである。コミュニケーションの例は、テレビ会議、チャット、診察、カウンセリング、面接(人物評価)、テレワーク、ナビゲーション等である。コミュニケーションは、複数のユーザ間のコミュニケーションであってもよいし、単一のユーザとシステム100との間のコミュニケーションであってもよい。以下、とくに説明がある場合を除き、複数のユーザ間のコミュニケーションを支援する態様を例に挙げて本実施形態を説明する。
 システム100は、端末10、端末20および端末30を含む。図1に示される例では、端末10は、ユーザU1が使用するラップトップ型のパーソナルコンピュータ(PC)である。端末20は、ユーザU2が使用する携帯電話機(スマートフォン等)である。端末30は、ユーザU3が使用するデスクトップ型のPCである。端末10、端末20および端末30は、ネットワークNに接続可能である。この例では、端末10はアクセスポイントAPを介して、端末20は基地局BSを介して、端末30は有線(不図示)により、それぞれネットワークNに接続される。端末10、端末20および端末30には、上述のPC、携帯電話機以外にも、タブレット端末、ウェアラブル端末、ヘッドマウントディスプレイ(HMD)端末、その他さまざまな端末が用いられてよい。システム100に含まれる端末の数は、図1の例に限定されない。
 システム100は、サーバ40を含む。サーバ40は、ネットワークNに接続される。したがって、端末10、端末20、端末30およびサーバ40は、ネットワークNを介して互いに通信可能である。システム100に含まれるサーバの数は、図1の例に限定されない。
 ネットワークNの構成は限定されない。例えば、ネットワークNは、インターネット(公衆網)、通信キャリアネットワーク、事業者ネットワーク等を含んで構成されてよい。
 本願発明者らは、システム100を用いて、コミュニケーション状況に応じて動作するエージェントをコミュニケーションに参加させることを着想した。図2は、システム100によって提供されるコミュニケーションの例を示す図である。コミュニケーションは、コンピュータによって表現される仮想空間50で行われる。仮想空間50は、端末10、端末20および端末30に表示されることで、ユーザU1、ユーザU2およびユーザU3に提示される。
 本実施形態においては、エージェントAが、コミュニケーションの参加者として仮想空間50に現れる。さらに、図2に示される例では、ユーザU1のアバターV1、ユーザU2のアバターV2およびユーザU3のアバターV3も、コミュニケーションの参加者として仮想空間50に現れる。
 アバターV1は、仮想空間50内で表現されるユーザU1の分身であり、ユーザU1の実際の像(撮像データ等)とは独立した画像素材によって生成される。アバターV1は、ネットワークN上の仮想空間50内で表現されるユーザU1の分身でもよい。画像素材は、アニメーションキャラクタを生成するための素材であってもよいし、ユーザU1の写真等に基づいて予め作成されたより本物に近いユーザ画像を生成するための素材であってもよい。アバターV1は二次元または三次元のコンピュータグラフィック(CG)によって描画されてもよい。アバターV1の属性は、例えばアバターの服装、髪の毛、年齢、性別、美醜(たとえば、可愛い、普通、可愛くないなど)などを含む。アバターV1は上記属性を含めてユーザU1によって自由に選択及び設定されてもよい。アバターV2およびユーザU2、アバターV3およびユーザU3についても同様である。
 エージェントAは、仮想空間50内のアバターである。エージェントAは、架空人物(実在しない人物)のアバターであってよい。あるいは、エージェントAは、現在コミュニケーションに参加していない他のユーザ(不参加ユーザ)のアバターであってもよい。エージェントAのアバターの属性の例は、例えばアバターの服装、髪の毛、年齢、性別、美醜(たとえば、可愛い、普通、可愛くないなど)などを含む。ユーザU1、ユーザU2およびユーザU3それぞれ端末10、端末20および端末30に表示されるエージェントAのアバターは、その属性を含めてユーザU1、ユーザU2およびユーザU3によって自由に選択及び設定されてもよい。他のユーザは、ユーザU1、ユーザU2およびユーザU3以外の実在人物のアバターである。以下では、とくに説明がある場合を除き、エージェントAが架空人物のアバターである場合を説明する。
 図3は、端末10、端末20、端末30およびサーバ40の機能ブロックの例を示す図である。端末20および端末30の機能ブロックは、端末10の機能ブロックと同様であるので、以下では端末10およびサーバ40を説明する。はじめに端末10について説明し、次にサーバ40を説明する。
 端末10は、入力部11を含む。入力部11は、ユーザU1の映像が入力される部分である。ユーザU1の映像は、ユーザU1の音声および画像を含む。
 端末10は、制御部12を含む。制御部12は、ユーザU1の映像データを生成する部分である。ユーザU1の映像データは、入力部11に入力されたユーザU1の映像に基づいて生成される。映像データは、互いに分離可能な音声データおよび画像データで構成され得る。画像データは、連続する複数の単位フレーム画像データによって構成される。たとえば60フレーム/秒の画像データは、一秒間に60個の単位フレーム画像データを含む。制御部12は、ネットワークNを介した通信に適合するように、音声データおよびフレーム画像データを符号化および多重化してよい。
 制御部12は、エージェントAを制御する部分でもある。エージェントAの制御は、エージェントAの動作の制御を含む。ここでの動作は、言語行動および非言語行動を含む。言語行動は、言語を用いる行動であり、発話(言葉)等である。非言語行動は、言語を用いない行動であり、たとえば視線(視線移動)、姿勢、ジェスチャ、表情等である。顔の姿勢または動作の例は、領き、首振り、首傾げ、うなずき等である。上半身の姿勢または動作の例は、胴体の向き、肩のねじり、肘の曲げ、手の上げ下げ等である。指の動きの例は、伸展、屈曲、外転、内転等である。表情の例は、中立、喜び、軽蔑、嫌悪、恐怖、驚き、悲しみ、怒り等である。エージェントAの制御は、エージェントAが実施すべき動作に対応する制御データに基づいて行われる。制御データは後述するようにサーバ40で生成される。
 制御部12は、アバターV1、アバターV2およびアバターV3を制御する部分でもある。アバターV1、アバターV2およびアバターV3の制御は、アバターV1、アバターV2およびアバターV3の動作の制御を含む。ここでの動作は、上述の言語行動および非言語行動のうち、少なくとも非言語行動を含む。アバターV1、アバターV2およびアバターV3の制御は、アバターV1、アバターV2およびアバターV3が実施すべき動作に対応する制御データに基づいて行われる。制御データは後述するようにサーバ40で生成される。
 制御部12は、仮想空間50の映像データを生成する部分でもある。仮想空間50の映像データは、制御データに基づいて制御されるエージェントA、アバターV1、アバターV2およびアバターV3の映像データを含む。この他に、仮想空間50に現れるさまざまなオブジェクトが、仮想空間50の映像データに含まれてよい。オブジェクトの例は、会議室に設けられる椅子、机、その他装飾品、会議用の資料、当該資料を映し出すスクリーン等である。
 端末10は、記憶部13を含む。記憶部13は、端末10の制御(処理)に必要な情報を記憶する部分である。図3には、記憶部13に記憶される情報として、端末プログラム13Pが例示される。端末プログラム13Pは、端末10を動作させるためのプログラムであり、制御部12による制御等が実行されるようにコンピュータを動作させる。システム100がコミュニケーション支援システムであるので、端末プログラム13Pは、コミュニケーション支援プログラムともいえる。
 端末10は、通信部14を含む。通信部14は、ネットワークN(図1)を介して、端末10の外部装置と通信する部分である。端末10の外部装置の例は、端末20、端末30およびサーバ40である。通信部14は、制御部12が生成した映像データをサーバ40に送信したり、エージェントA、アバターV1、アバターV2およびアバターV3の制御データをサーバ40から受信したりする。
 端末10は、出力部15を含む。出力部15は、仮想空間50の映像を出力する。仮想空間50の映像は、制御部12によって生成された仮想空間50の映像データに基づく映像である。
 サーバ40は、制御部42を含む。制御部42は、エージェントAを制御するための制御データを生成する部分(制御データ生成部)でもある。エージェントAの制御データ(エージェント動作情報)は、後述の状況データ43Sおよび学習済みモデル43Lを用いて生成される。制御部42は、状況データ43Sを学習済みモデル43Lに入力することによって、エージェントAの動作情報を取得し、取得した動作情報に基づいて、エージェントAの制御データを生成する。
 制御部42は、コミュニケーション状況を特定する部分でもある。コミュニケーション状況は、コミュニケーションの雰囲気を含む。コミュニケーションの雰囲気は、コミュニケーションに参加しているユーザU1、ユーザU2、ユーザU3の様子を含む。ユーザU1、ユーザU2およびユーザU3の様子は、上述の言語行動または非言語行動を含んでよい。このようなコミュニケーション状況は、ユーザU1の映像データ、ユーザU2の映像データおよびユーザU3の映像データから特定されてよい。映像データのうちの音声データを解析することによって、発話(音声の意味内容)等の言語行動が特定される。映像データのうちの画像データを解析することによって、表情、視線、うなずき等の非言語行動が特定される。音声データの解析および画像データの解析には、種々の公知の手法が用いられてよい。映像データではなく、アバターV1、アバターV2およびアバターV3の制御データからコミュニケーション状況が特定されてもよい。
 コミュニケーション状況は、ユーザU1、ユーザU2およびユーザU3のために準備された仮想空間50(たとえば、会議室といったコミュニケーション室)またはユーザU1、ユーザU2およびユーザU3が所属する組織における法令または規則、NG(禁止)ワードなどを含んでもよい。たとえば、ハラスメント(パワーハラスメントなど)に分類される動作または言動、過度な労働(長時間の会議等)、差別用語、たとえば会社の会議などにおける極秘事項などである。ユーザU1、ユーザU2およびユーザU3の何れかの言動表現が法令または規則違反に該当したり、NGワードが含まれている場合、制御部42は、たとえば、音声にノイズを加えて、規則違反の言語表現、NGワードなどが、そのような言語表現などによって気分を害することが想定されるユーザに聞こえないようにする、又は、そのような言語表現などを行ったユーザの端末にアラーム音を出すような制御データを生成してもよい。
 コミュニケーション状況は、たとえば、仮想空間50(或いは、仮想空間50に設定する会議室といったコミュニケーション室)の背景、色、BGM(Back Ground Music)、上述したオブジェクト(机、椅子など)、オブジェクトの配置等を含んでもよい。
 コミュニケーション状況は、コミュニケーションのタイミングも含んでよい。タイミングの例は、コミュニケーション序盤のタイミング、コミュニケーション中盤のタイミング、コミュニケーション終盤のタイミング、資料展示(提示)のタイミング等である。
 コミュニケーションがいずれのタイミングであるかは、たとえば次のように判断されてよい。
 たとえば、コミュニケーションの序盤、中盤および終盤のいずれのタイミングであるかは、言語表現で判断してもよい。たとえば、コミュニケーションの序盤、中盤または終盤を示す言語表現(たとえば、コミュニケーションの開始を示す言語表現、終わりを示す言語表現等)が音声データに含まれるか否かで判断してもよい。コミュニケーションの序盤、中盤および終盤かどうかは、ユーザU1、ユーザU2およびユーザU3間のアイコンタクトで判断してもよい。たとえば、アイコンタクトが少ない場合は、コミュニケーションの序盤または終盤と判断し、アイコンタクトが多い場合は、コミュニケーションの中盤と判断してもよい。コミュニケーションの序盤、中盤および終盤かどうかは、上述した言語表現およびアイコンタクトの両方を用いて判断してもよい。
 たとえば、資料展示(提示)のタイミングは、言語表現で判断してもよい。たとえば、言語表現に「資料を出します」などの表現が含まれている場合に、資料展示(提示)のタイミングと判断してもよい。資料展示(提示)のタイミングは、ユーザU1、ユーザU2またはユーザU3の視線に基づいて判断してもよい。たとえば、複数のユーザの視線が資料といった共有アイテムに向けられている場合に、資料展示(提示)のタイミングと判断してもよい。
 上述したアイコンタクトの有無は、ユーザU1、ユーザU2およびユーザU3の視線をも用いて判断され得る。視線は、上述したように、映像データのうちの画像データを解析することによって特定され得る。たとえば、ユーザU1の視線がユーザU2に向かっており、ユーザU2の視線がユーザU1に向かっている場合、ユーザU1およびユーザU2間にアイコンタクトがあると判断し得る。ユーザU1の視線がユーザU2に向かっている(又は、ユーザU2の視線がユーザU1に向かっている)か否かは、ユーザU1(又はユーザU2)が端末10(又は端末20)のモニター画面のどこを注視しているかで判定され得る。ユーザU1およびユーザU2間にアイコンタクトがあると判断した場合、制御部42は、ユーザU1およびユーザU2のアバターV1およびアバターV2の視線、体の向きなどを、たとえば実空間でアイコンタクトした場合と同様の動作をするように制御する。ここでは、ユーザU1とユーザU2のアイコンタクトの例を説明したが、ユーザU1、ユーザU2およびユーザU3のうち任意の二人のアイコンタクトについても同様である。アイコンタクトの判断方法は、例示した方法に限定されない。
 制御部42は、アバターV1、アバターV2およびアバターV3を制御するための制御データを生成する部分でもある。アバターV1の制御データは、ユーザU1の映像データに基づいて生成される。アバターV2の制御データは、ユーザU2の映像データに基づいて生成される。アバターV3の制御データは、ユーザU3の映像データに基づいて生成される。制御部42は、映像データから分離された画像データを解析して、ユーザU1、ユーザU2およびユーザU3の非言語行動に対応するパターンを決定してよい。画像パターンは、予め記憶部43に記憶された有限個の所与のパターンの中から選択されてもよい。この場合、ユーザU1、ユーザU2およびユーザU3の無限の非言語行動が有限個のパターンにまとめられる(分類される)ので、アバターV1、アバターV2およびアバターV3の制御データのボリューム、ひいては通信負荷が低減される。制御データにおいては、たとえば非言語行動がJSON(JavaScript<登録商標> Object Notation)形式で記述されてよい。アバターV1、アバターV2およびアバターV3の音声データは、映像データから分離された音声データそのものが用いられてもよいし、何らかの変更が加えられた音声データが用いられてもよい。制御部42は、決定したアバターV1、アバターV2およびアバターV3のパターンを示すデータと、ユーザU1、ユーザU2およびユーザU3の音声データとを組み合わせて、アバターV1、アバターV2およびアバターV3の制御データを生成する。
 アバターV1、アバターV2およびアバターV3の非言語行動のデータの生成に、学習済みモデルが用いられてもよい。この場合の学習済みモデルは、たとえば、人物の画像が入力されると、アバターの非言語行動を示す情報を出力するように、訓練データを用いて生成される。訓練データは、さまざまな人物の画像と非言語行動とを対応付けた教師データの群であってよい。ユーザU1、ユーザU2およびユーザU3の各々にカスタマイズされた学習済みモデルがそれぞれ用いられてもよい。このような学習済みモデルも、学習済みモデル43Lの一態様として記憶部43に記憶されてよい。
 サーバ40は、記憶部43を含む。記憶部43は、サーバ40の制御に必要な情報を記憶する部分である。図3には、記憶部43に記憶される情報として、サーバプログラム43P、状況データ43Sおよび学習済みモデル43Lが例示される。サーバプログラム43Pは、サーバ40を動作させるためのプログラムであり、制御部42による制御等が実行されるようにコンピュータを動作させる。システム100がコミュニケーション支援システムであるので、サーバプログラム43Pは、コミュニケーション支援プログラムともいえる。
 状況データ43Sは、コミュニケーション状況を示す情報である。先に説明したように制御部42が特定したコミュニケーション状況が、状況データ43Sとして記憶部43に記憶される。状況データ43Sは、所定期間にわたって特定されたコミュニケーション状況が蓄積された時系列情報であってよい。所定期間は任意に設定されてよい。所定期間の例は、コミュニケーションの開始時点から現時点までの期間である。
 学習済みモデル43Lは、状況データ43Sに応じたエージェントAの動作を選択、決定、推定等するために用いられる。学習済みモデル43Lは、状況データ43Sが入力されると、エージェント動作情報を出力するように、訓練データを用いて生成される。エージェント動作情報は、エージェントAの動作を示す情報である。エージェントAの動作情報は、エージェントAの役割に適した動作を示す。たとえばエージェントAが会議の進行役である場合、会議の進行に適した動作情報が、学習済みモデル43Lから出力される。たとえば、エージェントAが会議の進行役である場合、会議の序盤であれば、挨拶、参加者の紹介、トピックの説明を行うための動作を示す情報が出力されてよい。会議の中盤であれば、議論に関する発話、発話中の参加者に対する視線移動、うなずき、表情等の動作を示す情報が出力されてよい。会議の終盤であれば、終了の挨拶、会議のまとめを行うための動作を示す情報が出力されてよい。エージェントAがコミュニケーションに参加していない他のユーザのアバターである場合には、学習済みモデル43Lは、上記他のユーザである実在人物の特徴(例えば会議などにおける行動パターン、応答パターンなど)が反映された動作を示す情報を出力するようにカスタマイズされた学習済みモデルであってよい。
 訓練データの例は、状況データと、エージェントAの動作情報とを対応付けた教師データの群である。状況データおよびエージェントAの動作情報については、これまで説明したとおりである。たとえば、上述の会議の例であれば、教師データとして以下のようなデータが準備されてよい。すなわち、教師データは、会議の序盤であるという状況データと、挨拶、参加者の紹介、トピックの説明を行うための動作を示す情報とを対応付けた教師データであってよい。教師データは、会議の中盤であるという状況データと、議論に関する発話、発話中の参加者に対する視線移動、うなずき、表情等の動作を示す情報とを対応付けた教師データであってよい。教師データは、会議の終盤であるという状況データと、終了の挨拶、会議のまとめを行うための動作を示す情報が出力されてよい。
 訓練データは、たとえば、エージェントAの役割と同様の役割を果たしている実際の人物(ユーザを含む)のコミュニケーションの様子を、カメラ、マイクロフォン等を用いてモニタリングすることによって準備される。モニタリングによって得られたコミュニケーションの映像を分析することによって、コミュニケーション状況と、人物の動作とを対応づけた教師データ作られてよい。映像の分析は、専門家等がマニュアルで行ってもよいし、アプリケーション等を用いて自動的に行われてもよい。
 サーバ40は、通信部44を含む。通信部44は、ネットワークN(図1)を介して、サーバ40の外部装置と通信する部分である。サーバ40の外部装置の例は、端末10、端末20および端末30である。通信部44は、ユーザU1の映像データ、ユーザU2の映像データおよびユーザU3の映像データを端末10、端末20および端末30からそれぞれ受信したり、制御部42が生成したエージェントAの制御データ、アバターV1の制御データ、アバターV2の制御データおよびアバターV3の制御データを端末10、端末20および端末30のそれぞれに送信したりする。
 端末10およびサーバ40の各機能部分に関するハードウェア構成の例を説明する。サーバ40の通信部44は、ネットワークNにアクセスできるように、ネットワークカードまたは無線通信デバイスを用いて構成され得る。サーバ40の制御部42は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサを用いて構成され得る。制御部42は、プロセッサとともにクロックと、内蔵メモリとを更に用いて構成されてもよい。制御部42は、プロセッサ、クロック、内蔵メモリ、記憶部43および通信部44を集積した一つのハードウェア(SoC:System On a Chip)として構成されてもよい。サーバプログラム43Pに基づいて動作することで、サーバコンピュータをサーバ40として動作させる。サーバ40の記憶部43は、フラッシュメモリ、ハードディスク、SSD(Solid State Disk)等の不揮発性記憶媒体を用いて構成され得る。
 端末10の入力部11は、ユーザU1の様子を示す情報(たとえば、音声、画像等)を取得するセンサを含む。上記センサは、たとえば、ユーザU1の音声を取得するマイクロフォン、ユーザU1の画像を取得するカメラ等を用いて構成され得る。さらに、入力部11は、キーボード、マウス、タッチパネルの操作デバイスも用いて構成されてよい。端末10の制御部12は、サーバ40の制御部42と同様に構成され得る。制御部12は、端末プログラム13Pに基づいて動作することで、汎用コンピュータを端末10として動作させる。端末10の記憶部13は、サーバ40の記憶部43と同様に構成され得る。端末10の通信部14は、サーバ40の通信部44と同様に構成され得る。端末10の出力部15は、液晶パネル、有機ELパネル等(タッチパネルでもよい)等のディスプレイ装置を用いて構成され得る。さらに、出力部15は、スピーカも用いて構成されてよい。
 図4は、システム100において実行される処理の例を示すシーケンス図である。図4に示される処理は、コミュニケーションが継続している間、繰り返し実行され得る。記憶部43には、状況データ43Sがコミュニケーションの序盤のタイミングであることを示す初期データが記憶されていてよい。以下、初期データが記憶部43に記憶されている場合を説明する。
 ステップS1において、エージェントの制御データが生成される。具体的に、サーバ40の制御部42が、初期データとして記憶部43に記憶されている状況データ43Sと学習済みモデル43Lとを用いて、エージェントAの制御データを生成する。
 ステップS2からステップS4において、エージェントの制御データが送信される。具体的に、ステップS2において、サーバ40が、先のステップS1で生成したエージェントAの制御データを端末10に送信する。ステップS3において、サーバ40が、先のステップS1で生成したエージェントAの制御データを端末20に送信する。ステップS4において、サーバ40が、先のステップS1で生成したエージェントAの制御データを端末30に送信する。
 ステップS5からステップS7において、エージェントが制御される。具体的に、ステップS5において、端末10が、先のステップS2で受信したエージェントAの制御データに基づいて、エージェントAを制御する。これにより、端末10に表示される仮想空間50中のエージェントAが、コミュニケーション状況に応じて動作する。ステップS6において、端末20が、先のステップS3で受信したエージェントAの制御データに基づいて、エージェントAを制御する。これにより、端末20に表示される仮想空間50中のエージェントAが、コミュニケーション状況に応じて動作する。ステップS7において、端末30が、先のステップS4で受信したエージェントAの制御データに基づいて、エージェントAを制御する。これにより、端末30に表示される仮想空間50中のエージェントAが、コミュニケーション状況に応じて動作する。
 ステップS8からステップS10において、ユーザの映像データがサーバ40に送信される。具体的に、ステップS8において、端末10が、ユーザU1の映像データをサーバ40に送信する。ステップS9において、端末20が、ユーザU2の映像データをサーバ40に送信する。ステップS10において、端末30が、ユーザU3の映像データをサーバ40に送信する。これらの映像データは、状況データ43Sとして記憶部43に記憶され得る。
 ステップS11において、アバターの制御データが生成される。具体的に、サーバ40の制御部42が、先のステップS8で受信したユーザU1の映像データに基づいてアバターV1の制御データを生成し、先のステップS9で受信したユーザU2の映像データに基づいてアバターV2の制御データを生成し、先のステップS10で受信したユーザU3の映像データに基づいてアバターV3の制御データを生成する。これらの制御データは、状況データ43Sとして記憶部43に記憶され得る。
 ステップS12において、状況データが記憶される。具体的に、サーバ40の制御部42がコミュニケーション状況を解析し、解析したコミュニケーション状況を、状況データ43Sとして記憶部43に記憶する。すでに状況データ43Sが記憶されている場合には、情報が追加される。
 ステップS13からステップS15において、アバターの制御データが送信される。具体的に、ステップS13において、サーバ40が、先のステップS11で生成したアバターV1、アバターV2およびアバターV3の制御データを端末10に送信する。ステップS14において、サーバ40が、それらの制御データを端末20に送信する。ステップS15において、サーバ40が、それらの制御データを端末30に送信する。
 ステップS16からステップS18において、アバターが制御される。具体的に、ステップS16において、端末10が、先のステップS13で受信したアバターV1、アバターV2およびアバターV3の制御データに基づいて、アバターV1、アバターV2およびアバターV3を制御する。これにより、端末10に表示される仮想空間50中のアバターV1、アバターV2およびアバターV3が、ユーザU1、ユーザU2およびユーザU3の動作を反映するように動作する。ステップS17において、端末20が、先のステップS14で受信したアバターV1、アバターV2およびアバターV3の制御データに基づいて、アバターV1、アバターV2およびアバターV3を制御する。これにより、端末20に表示される仮想空間50中のアバターV1、アバターV2およびアバターV3が、ユーザU1、ユーザU2およびユーザU3の動作を反映するように動作する。ステップS18において、端末30が、先のステップS15で受信したアバターV1、アバターV2およびアバターV3の制御データに基づいて、アバターV1、アバターV2およびアバターV3を制御する。これにより、端末30に表示される仮想空間50中のアバターV1、アバターV2およびアバターV3が、ユーザU1、ユーザU2およびユーザU3の動作を反映するように動作する。
 ステップS19からステップS25は、先に説明したステップS1~S7と同様である。すなわち、ステップS19において、エージェントの制御データが生成される。ステップS20からステップS22において、エージェントの制御データが送信される。ステップS23からステップS25において、エージェントが制御される。図示されないが、この後には、先に説明したステップS8からステップS10の処理と同様の処理が実行される。このように処理が繰り返し実行されることで、エージェントA、アバターV1、アバターV2およびアバターV3が制御され、コミュニケーションが進められる。
 ステップS19におけるエージェントAの制御データの生成には、ステップS12で記憶部43に記憶された状況データが用いられる。
 以上説明したシステム100は、たとえば次のように特定される。すなわち、システム100は、ユーザU1、ユーザU2およびユーザU3(以下、「ユーザU1等」という。)が端末10、端末20および端末30(以下、「端末10等」という。)を用いて行うコミュニケーションを支援する。制御部(制御データ生成部)42(制御部12との協働を含んでよい)は、端末10等に表示されコミュニケーションに参加するエージェントAをコミュニケーション状況に応じて動作させるための制御データを、学習済みモデル43Lを用いて生成する。エージェントAは、仮想空間内のアバターである。学習済みモデル43Lは、コミュニケーション状況が入力されると、エージェント動作情報を出力するように、訓練データを用いて生成される。
 システム100は、端末プログラム13Pおよびサーバプログラム43P(コミュニケーション支援プログラム)がシステム100としてコンピュータを動作させることによって実現され得る。
 システム100によれば、コミュニケーション状況に応じて動作するエージェントが参加するコミュニケーションが提供される。そのため、システム100によって、コンピュータを用いることの特性をより活用したコミュニケーションを提供される。たとえば、エージェントがコミュニケーション状況に応じて動作することで、コミュニケーションをよりスムーズに進められる。たとえば、コミュニケーションが会議であり、エージェントが会議の進行役である場合、エージェントは進行役として動作する。そのため、端末10等を介して参加するユーザU1等は会議に集中できるので、会議をスムーズに進められる。エージェントは、端末10等を介して参加するユーザU1等とは別にコンピュータ支援により仮想的に作成された参加者であるため、システム100によって、コンピュータ支援によるよりスムーズなコミュニケーションを提供できる。
 コミュニケーション状況は、センサによって得た情報で示されるユーザU1等の様子を含んでよい。様子は、ユーザU1等の言語行動または非言語行動を含んでよい。このようなコミュニケーション状況に応じてエージェントAが動作することにより、自然なコミュニケーションが提供される。
 エージェントAは、コミュニケーションに参加していない他のユーザ(不参加ユーザ)のアバターであってよい。これにより、コミュニケーションに参加していない実在人物のアバターを、コミュニケーションに参加させることができる。エージェントAは、架空人物のアバターでもよい。
 制御部42は、さらに、端末10等に表示されコミュニケーションに参加するアバターV1、アバターV2およびアバターV3(以下、「アバターV1等」という。)が、ユーザU1等の動作に応じて動作するように、アバターV1等を制御するための制御データを生成してよい。これにより、ユーザU1等の動作に応じて動作するアバターV1等も参加するコミュニケーションが提供される。
 本開示は上記実施形態に限定されない。たとえば、上記実施形態では、仮想空間50内にエージェントA、アバターV1、アバターV2およびアバターV3が現れる例を説明した。ただし、仮想空間50内に現れるのは、エージェントAだけであってもよい。また、仮想空間50内には、ユーザ自身のアバターが現れなくともよい。この場合、ユーザU1の端末10に表示される仮想空間50内には、エージェントA、アバターV2およびアバターV3は現れるが、アバターV1は現れない。エージェントA、アバターV2およびアバターV3の非言語動作(視線移動等)は、端末10に表示される仮想空間50を見ているユーザU1に対する動作となるように制御されてよい。ユーザU2の端末20に表示される仮想空間50内には、エージェントA、アバターV1およびアバターV3は現れるが、アバターV2は現れない。エージェントA、アバターV1およびアバターV3の非言語動作は、端末20に表示される仮想空間50を見ているユーザU2に対する動作となるように制御されてよい。ユーザU3の端末30に表示される仮想空間50内には、エージェントA、アバターV1およびアバターV2は現れるが、アバターV3は現れない。エージェントA、アバターV2およびアバターV3の非言語動作は、端末30に表示される仮想空間50を見ているユーザU3に対する動作となるように制御されてよい。
 上記実施形態では、ユーザU1等の複数のユーザがコミュニケーションに参加する例を説明した。ただし、コミュニケーションに参加するユーザは、一人であってもよい。この場合でも、仮想空間50に少なくともエージェントAが現れるので、エージェントAとユーザU1との間でコミュニケーションを行うことができる。この場合、たとえば、エージェントAを、ユーザU1の上司または同僚とすることによって、ユーザU1が自問自答するよりもユーザU1自身の考えを整理または深化させることも可能である。或いは、ユーザU1、上司または同僚が参加する会議の予行演習を行うことも可能である。
 10、20、30…端末、11…入力部、12…制御部、42…制御部(制御データ生成部)、13…記憶部、13P…端末プログラム(コミュニケーション支援プログラム)、14…通信部、15…出力部、40…サーバ、43L…学習済みモデル、43P…サーバプログラム(コミュニケーション支援プログラム)、43S…状況データ、50…仮想空間、100…システム(コミュニケーション支援システム)、A…エージェント、U1、U2、U3…ユーザ、V1、V2、V3…アバター。

 

Claims (7)

  1.  ユーザが端末を用いて行うコミュニケーションを支援するコミュニケーション支援システムであって、
     前記端末に表示され前記コミュニケーションに参加するエージェントがコミュニケーション状況に応じて動作するように、学習済みモデルを用いて前記エージェントの動作を制御するための制御データを生成する制御データ生成部を備え、
     前記エージェントは、仮想空間内のアバターであり、
     前記学習済みモデルは、コミュニケーション状況が入力されると、前記制御データを出力するように、訓練データを用いて生成された学習済みモデルである、
    コミュニケーション支援システム。
  2.  前記コミュニケーション状況は、センサによって得た情報で示される前記ユーザの様子を含む、
    請求項1に記載のコミュニケーション支援システム。
  3.  前記様子は、前記ユーザの言語行動または非言語行動を含む、
    請求項2に記載のコミュニケーション支援システム。
  4.  前記エージェントは、前記コミュニケーションに参加していない不参加ユーザのアバターである、
    請求項1から請求項3のいずれか一項に記載のコミュニケーション支援システム。
  5.  前記エージェントは、架空人物のアバターである、
    請求項1から請求項3のいずれか一項に記載のコミュニケーション支援システム。
  6.  前記制御データ生成部は、さらに、前記端末に表示され前記コミュニケーションに参加する前記ユーザのアバターが、前記ユーザの動作に応じて動作するように、前記ユーザのアバターを制御するための制御データを生成する、
    請求項4または請求項5に記載のコミュニケーション支援システム。
  7.  請求項1に記載のコミュニケーション支援システムとしてコンピュータを動作させる、コミュニケーション支援プログラム。

     
PCT/JP2020/045302 2020-01-10 2020-12-04 コミュニケーション支援システムおよびコミュニケーション支援プログラム WO2021140800A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020003106 2020-01-10
JP2020-003106 2020-01-10

Publications (1)

Publication Number Publication Date
WO2021140800A1 true WO2021140800A1 (ja) 2021-07-15

Family

ID=76788532

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/045302 WO2021140800A1 (ja) 2020-01-10 2020-12-04 コミュニケーション支援システムおよびコミュニケーション支援プログラム

Country Status (1)

Country Link
WO (1) WO2021140800A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108502A (ja) * 2001-09-28 2003-04-11 Interrobot Inc 身体性メディア通信システム
JP2005202909A (ja) * 2003-12-16 2005-07-28 Kyoto Univ アバター制御システム
JP2011039860A (ja) * 2009-08-13 2011-02-24 Nomura Research Institute Ltd 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
JP2012168862A (ja) * 2011-02-16 2012-09-06 Nomura Research Institute Ltd 行動情報記録装置
JP2018120583A (ja) * 2017-12-19 2018-08-02 株式会社コロプラ 情報処理方法及び当該情報処理方法をコンピュータに実行させるためのプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108502A (ja) * 2001-09-28 2003-04-11 Interrobot Inc 身体性メディア通信システム
JP2005202909A (ja) * 2003-12-16 2005-07-28 Kyoto Univ アバター制御システム
JP2011039860A (ja) * 2009-08-13 2011-02-24 Nomura Research Institute Ltd 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
JP2012168862A (ja) * 2011-02-16 2012-09-06 Nomura Research Institute Ltd 行動情報記録装置
JP2018120583A (ja) * 2017-12-19 2018-08-02 株式会社コロプラ 情報処理方法及び当該情報処理方法をコンピュータに実行させるためのプログラム

Similar Documents

Publication Publication Date Title
US20220284896A1 (en) Electronic personal interactive device
Wang et al. Exploring virtual agents for augmented reality
WO2020203999A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム
US11960792B2 (en) Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
JP2021044001A (ja) 情報処理システム、制御方法、およびプログラム
US20120229446A1 (en) Method and system for topic based virtual environments and expertise detection
US9690784B1 (en) Culturally adaptive avatar simulator
Kurzweil How my predictions are faring
Bickmore Unspoken rules of spoken interaction
Sobel et al. Exploring the design space of AAC awareness displays
WO2021140799A1 (ja) コミュニケーション支援システムおよびコミュニケーション支援プログラム
Rincón-Nigro et al. A text-driven conversational avatar interface for instant messaging on mobile devices
Berke et al. Chat in the hat: A portable interpreter for sign language users
WO2021140800A1 (ja) コミュニケーション支援システムおよびコミュニケーション支援プログラム
Riva The emergence of e-health: using virtual reality and the internet for providing advanced healthcare services
Malakhoff et al. Towards usage of avatar interviewers in web surveys
Mullin et al. Eye-tracking explorations in multimedia communications
KR102561352B1 (ko) 효율적인 소통 환경이 구현된 가상의 강의 공간을 제공하는 방법 및 디바이스
JP7347725B1 (ja) 表示プログラム、表示方法及び表示システム
WO2024029135A1 (ja) 表示プログラム、表示方法及び表示システム
Klaassen et al. Elckerlyc Goes Mobile Enabling Natural Interaction in Mobile User Interfaces
US20230230293A1 (en) Method and system for virtual intelligence user interaction
Meling Virtual Reality as a Digital Collaboration Tool
Paleari et al. Toward environment-to-environment (E2E) affective sensitive communication systems
Lege A social presence benchmark framework for extended reality (XR) technologies

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20913010

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20913010

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP