WO2022079933A1 - コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム - Google Patents

コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム Download PDF

Info

Publication number
WO2022079933A1
WO2022079933A1 PCT/JP2021/010187 JP2021010187W WO2022079933A1 WO 2022079933 A1 WO2022079933 A1 WO 2022079933A1 JP 2021010187 W JP2021010187 W JP 2021010187W WO 2022079933 A1 WO2022079933 A1 WO 2022079933A1
Authority
WO
WIPO (PCT)
Prior art keywords
animation
state
communication
user
support program
Prior art date
Application number
PCT/JP2021/010187
Other languages
English (en)
French (fr)
Inventor
桂明 戴
俊昭 柿井
俊史 細谷
康 野村
由奈 翁
亭亭 房
Original Assignee
住友電気工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 住友電気工業株式会社 filed Critical 住友電気工業株式会社
Priority to JP2021574939A priority Critical patent/JP7193015B2/ja
Priority to US17/630,944 priority patent/US11960792B2/en
Priority to CN202180004742.XA priority patent/CN114787759B/zh
Publication of WO2022079933A1 publication Critical patent/WO2022079933A1/ja
Priority to JP2022194014A priority patent/JP7517390B2/ja
Priority to US18/597,974 priority patent/US20240211208A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Definitions

  • One aspect of the disclosure relates to a communication support program, a communication support method, a communication support system, a terminal device and a non-verbal expression program.
  • Patent Document 1 uses a prepared acoustic model, a language model, and a correspondence table between a plurality of phonemes and a plurality of visual elements. , Speech recognition is gradually performed on the speech signal to generate a visual element sequence, the visual element sequence is smoothed to generate a mixed weight for each of a plurality of visual elements, and a mixed weight for each of a plurality of visual elements is followed.
  • a speech animation generator that generates a face image by mixing a plurality of face models corresponding to each of the plurality of visual elements is disclosed.
  • the communication support program is a communication support program that supports user communication, and includes identification information that can identify one or more communication targets and a state animation that indicates the state of the communication target. Have the computer perform the steps to display it in one piece.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a communication support system according to a first embodiment.
  • FIG. 2 is a diagram showing an example of communication provided by the communication support system according to the first embodiment.
  • FIG. 3 is a diagram showing an example of a functional block of a terminal and a server.
  • FIG. 4 is a diagram showing an example of animation operation.
  • FIG. 5 is a diagram showing an example of animation operation.
  • FIG. 6 is a diagram showing an example of animation operation.
  • FIG. 7 is a diagram showing an example of the operation of the animation.
  • FIG. 8 is a sequence diagram showing the operation of the communication support system.
  • FIG. 9 is a flowchart showing the operation of the terminal.
  • FIG. 10 is a diagram showing an example of communication provided by the communication support system according to the modified example.
  • FIG. 11 is a diagram showing an example of communication according to a modified example.
  • FIG. 12 is a diagram showing an example of communication according to a modified example.
  • FIG. 13 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 14 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 15 is a diagram showing an example of a screen displayed to the user.
  • FIG. 16 is a diagram showing an example of a screen displayed to the user.
  • FIG. 17 is a diagram showing an example of a screen displayed to the user.
  • FIG. 18 is a diagram showing an example of a screen displayed to the user.
  • FIG. 19 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 19 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 20 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 21 is a diagram showing an example of the operation of the animation according to the modified example.
  • FIG. 22 is a diagram showing the operation of the character.
  • FIG. 23 is a diagram showing the operation of the character.
  • FIG. 24 is a diagram showing a character according to a modified example.
  • FIG. 25 is a diagram showing an example of communication according to a modified example.
  • FIG. 26 is a diagram showing a character according to a modified example.
  • FIG. 27 is a diagram showing a character according to a modified example.
  • FIG. 28 is a diagram showing an example of communication according to a modified example.
  • FIG. 29 is a diagram showing an example of communication according to a modified example.
  • FIG. 30 is a diagram showing an example of communication according to a modified example.
  • FIG. 31 is a diagram showing a character according to a modified example.
  • FIG. 32 is a diagram showing an example
  • One aspect of this disclosure is to provide a communication support program, a communication support method, a communication support system, a terminal device, and a non-verbal expression program that can realize smooth communication.
  • the communication support program is a communication support program that supports user communication, and includes identification information that can identify one or more communication targets, state animation that shows the state of the communication target, and so on. Have the computer perform the steps to display the together.
  • the identification information and the state animation showing the state of the communication target are displayed integrally.
  • the communication support program can recognize the state of the communication target. Therefore, the communication support program can realize smooth communication.
  • the state animation may be an animation in which the state of the communication target is expressed in a form different from the actual motion part of the communication target.
  • the state animation may be displayed so as to protrude from the display area outside the display area of the identification information.
  • the distinction between the identification information and the state animation can be clarified, and the operation of the state animation can be made easy to understand.
  • the state animation may be displayed around the display area of the identification information so as to accompany the display area.
  • the distinction between the identification information and the state animation can be clarified, and the operation of the state animation can be made easy to understand.
  • the display form of the state animation may be modified according to the state of the communication target.
  • the state animation by transforming the state animation, it is possible to increase the variation that expresses the state of the communication target. Therefore, the state of the communication target can be grasped more accurately.
  • the state animation is an animation that imitates the ear, and may operate in response to a change in the state of the communication target.
  • the state animation is a face animation to be communicated
  • it is not easy to grasp the user's state because it is necessary to pay attention to the movement of various parts of the face animation.
  • the change in the user's state is expressed by the operation of the state animation that imitates the ear, it is sufficient to pay attention only to the state animation. Therefore, the state of the communication target can be easily grasped.
  • the identification information, the state animation, and the animation that moves according to the change of the state of the communication target and imitates at least one of the arm, the hand, and the foot may be displayed integrally. ..
  • an animation that imitates at least one of the arms, hands, and feet is displayed, so that the state of the communication target can be grasped more accurately.
  • the operation of the state animation may be changed according to the attribute of the communication target.
  • the attribute of the communication target it is possible to avoid misunderstandings due to cultural differences, for example, by changing the behavior of state animation according to nationality as an attribute. In this way, it is possible to respond to various different cultures, so smooth communication can be realized.
  • the state animation may be operated based on at least one of the set operating intensity and operating speed.
  • the state animation may be operated based on at least one of the set operating intensity and operating speed.
  • the identification information may include at least one of an image indicating a communication target and a text indicating a communication target.
  • the communication target can be recognized at a glance.
  • the state animation may operate according to at least one of a user's emotion, a user's action, a user's voice, a communication target's emotion, a communication target's action, and a communication target's voice. In this configuration, it is possible to recognize the emotions and actions of the communication target.
  • the state animation may operate according to the dialogue state between the user and the communication target.
  • the state animation can be operated according to the dialogue state between the user and the communication target.
  • the communication target is an AI assistant
  • the state animation of the communication target can be operated in response to the user's remark.
  • a predetermined word and an operation pattern of the state animation are associated with each other, and when the predetermined word is uttered, even if the state animation is operated based on the operation pattern corresponding to the predetermined word. good.
  • a predetermined word including characters and voice
  • an operation pattern of the state animation are associated in advance, the state animation suitable for the user's state can be displayed accurately and quickly.
  • the operation pattern may be selected from at least one of a preset standard operation pattern and a preset creation pattern and associated with a predetermined word.
  • the operation pattern of the state animation can be set arbitrarily.
  • the state animation may operate in response to input from the communication target.
  • the state animation can be operated by operating the key of the communication target (for example, the other party), so that the state of the communication target can be grasped more accurately.
  • the input may include the detection result of the wearable sensor.
  • the state animation operates according to the detection result of the wearable sensor. Therefore, the actual movement of the communication target can be reflected in the state animation.
  • the input includes the operation result for the device operated by the communication target, and the operation of the state animation may be changed according to the operation time in the device.
  • At least one of the pictogram, the preset image and the text may be displayed integrally with the state animation.
  • the state of the communication target can be grasped more accurately by using pictograms and the like.
  • the character is composed of a body on which identification information is displayed and a state animation, and the character drawn by three-dimensional computer graphics may be displayed.
  • the state of the communication target is displayed by the three-dimensional character, so that the state of the communication target can be grasped more accurately.
  • the character may be made to display a shadow, and the shadow displayed on the character may be changed according to the state of the communication target.
  • the state of the communication target since the state of the communication target is expressed by the shadow, the state of the communication target can be grasped more accurately.
  • the observation viewpoint of the space in which the character is displayed may be changed according to the operation of the user.
  • the user can freely change the observation viewpoint.
  • At least one of the position and size of the character may be changed according to at least one of the user's operation and the user's voice.
  • the user can freely change the position and size of the character.
  • the information related to at least one line of sight of the user and the communication target detected by the sensor, the identification information, and the state animation may be displayed integrally. In this configuration, it is possible to confirm where the line of sight of the user or the communication target is.
  • the line-of-sight information includes line-of-sight transmission information indicating that the user's line of sight exists on a predetermined area including identification information and state animation, and includes line-of-sight transmission information, identification information, and
  • the state animation and the state animation may be displayed integrally. In this configuration, it can be confirmed that the user is looking at the communication target.
  • the line-of-sight information includes line-of-sight reception information indicating that the line-of-sight of the communication target exists on a predetermined area including the user's identification information and state animation, and the line-of-sight reception information.
  • the identification information, and the state animation may be displayed integrally. In this configuration, the line of sight of the communication target can be confirmed.
  • a computer may be made to perform a step of generating control data for controlling the operation of the state animation and a step of outputting the control data based on the state of the target.
  • control data for controlling the operation of the state animation is output, the data capacity output (transmitted) from the terminal is smaller than when all the data related to the state of the communication target is output. be able to. Therefore, even in a communication environment where the communication speed is slow or a large amount of data communication cannot be performed, smooth communication can be realized in a call made using a terminal.
  • a computer may be made to perform a step of outputting state data related to the state of the communication target. With this configuration, it is possible to reduce the processing load on the terminal.
  • the mode of operation of the state animation may be set based on at least one of the voice data and the mode data. In this configuration, the mode of operation of the state animation can be appropriately set according to the state of the communication target.
  • the speed of the state animation operation may be set based on at least one of the voice data and the mode data. In this configuration, the speed of the state animation operation can be appropriately set according to the state of the communication target.
  • the state of the communication target is estimated using the trained model, and the trained model is input with at least one of voice data and mode data.
  • the state of the communication target may be output.
  • the computer is made to execute a step of displaying the utterance animation based on the speaker's voice data, which is different from the state animation, integrally with the speaker's identification information, and the utterance animation is performed. , It may operate according to the mode of speech of the speaker. In this configuration, the speaker can be recognized at a glance, and the utterance state of the speaker can be recognized by the utterance animation.
  • the computer may be made to perform a step of integrally displaying the identification information that can identify the user and the state animation that shows the state of the user.
  • the user can check his / her own state animation.
  • the state animations of the user and the communication target are displayed together, it is possible to give the impression that the user and the communication target exist in the same space, and realize a conversation with a sense of presence and unity. can do. As a result, smooth communication can be realized.
  • the identification information of the communication target and the state animation of the communication target, and the identification information of the user and the state animation of the user may be displayed in the same size. In this configuration, by displaying the same size, it is possible to give the impression that the user and the communication target exist in the same space, so that the conversation with a sense of presence and unity is realized. be able to.
  • it is composed of a body in which identification information is displayed and a state animation, a character drawn by three-dimensional computer graphics is displayed, and when there are a plurality of communication targets, the user's character is behind. It may be displayed as follows. In this configuration, the state animation of the character to be communicated is easy to see, so that the state of the communication target can be accurately grasped.
  • information relating to the line of sight of a user and a communication target detected by a sensor which is composed of a body on which identification information is displayed and a state animation, displays a character drawn by three-dimensional computer graphics,
  • the character may be operated based on the voice of the user and the communication target, and the operation by the user.
  • the character operates according to the line of sight or a call from the user or the like. Therefore, it is possible to realize a conversation with a sense of unity.
  • the user character and the communication target character may be operated so as to face each other.
  • the characters face each other and have a conversation, so that a conversation with a sense of unity can be realized.
  • identification information and state animation may be displayed in cyberspace.
  • identification information and state animation are displayed in a cyber space (virtual space) realized in VR (Virtual Reality), AR (Augmented Reality), MR (Mixed Reality), etc. be able to.
  • the state animation may be operated as the basic biological existence information to be communicated.
  • the existence of the communication target can be transmitted by the movement of the state animation. Therefore, it is possible to inform the user of the existence of the communication target.
  • the communication target may be an AI assistant operated by artificial intelligence. With this configuration, smooth communication with the AI assistant can be realized.
  • the state animation does not have to include a dynamically changing facial expression. If a state animation is created to resemble the face of a communication target such as an avatar and expressed as a dynamically changing facial expression, it may be affected by the uncanny valley. In addition, when a dynamically changing facial expression is included, a large transmission capacity is required. On the other hand, the state animation does not include a dynamically changing facial expression, so it does not give an eerie impression. In addition, the transmission capacity can be reduced.
  • the color when the communication target is silent, the color may be changed in the state animation. In this configuration, it is possible to recognize by state animation that the communication target is silent due to thought or the like.
  • the usage status of the motion pattern used in the state animation may be displayed at a predetermined timing.
  • a predetermined timing for example, during communication or after communication is completed
  • At least one of the usage ratio of the operation pattern in the user and the communication target and the change in the usage frequency of the operation pattern corresponding to the time axis may be displayed as the usage status.
  • the usage status can be confirmed in various modes.
  • the communication support method is a communication support method that supports communication by a user, and integrally integrates identification information that can identify a communication target and a state animation that indicates the state of the communication target. Includes steps to display.
  • the identification information and the state animation showing the state of the communication target are displayed integrally.
  • the state of the communication target can be recognized. Therefore, the communication support method can realize smooth communication.
  • the communication support system is a communication support system that supports communication by a user, and integrates identification information that can identify a communication target and a state animation that indicates the state of the communication target. It is equipped with a control unit to be displayed on.
  • control unit integrally displays the identification information and the state animation indicating the state of the communication target.
  • the communication support system can recognize the state of the communication target. Therefore, the communication support system can realize smooth communication.
  • the terminal device is a terminal device that supports communication by a user, and integrally displays identification information that can identify a communication target and a state animation that indicates the state of the communication target. It is provided with a control unit to be operated.
  • the control unit integrally displays the identification information and the state animation indicating the state of the communication target.
  • the terminal device can recognize the state of the communication target. Therefore, the terminal device can realize smooth communication.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a communication support system (hereinafter, may be simply referred to as a “system”) according to the first embodiment.
  • the system 100 is a computer system that supports communication. Examples of communication involve talking to other users, such as video conferences, medical examinations, counseling, interviews (personal evaluation), and telework.
  • the system 100 includes a terminal (terminal device) 10, a terminal 20, and a terminal 30.
  • the terminal 10 is a laptop personal computer (PC) used by the user U1.
  • the terminal 20 is a mobile phone (smartphone or the like) used by the user U2.
  • the terminal 30 is a desktop type PC used by the user U3.
  • the terminal 10, the terminal 20, and the terminal 30 can be connected to the network N.
  • the terminal 10 is connected to the network N via the access point AP
  • the terminal 20 is connected to the network N via the base station BS
  • the terminal 30 is connected to the network N by wire (not shown).
  • the terminal 10 As the terminal 10, the terminal 20, and the terminal 30, in addition to the above-mentioned PC and mobile phone, a tablet terminal, a wearable terminal, a head-mounted display (HMD) terminal, and various other terminals may be used.
  • the number of terminals included in the system 100 is not limited to the example of FIG.
  • the system 100 includes a server 40.
  • the server 40 is connected to the network N. Therefore, the terminal 10, the terminal 20, the terminal 30, and the server 40 can communicate with each other via the network N.
  • the number of servers included in the system 100 is not limited to the example of FIG.
  • the configuration of network N is not limited.
  • the network N may be configured to include the Internet (public network), a communication carrier network, a business network, and the like.
  • FIG. 2 is a diagram showing an example of communication provided by the system 100. Communication is performed on the call screen G (output unit 15) represented by a computer.
  • the call screen G is displayed on the terminal 10, the terminal 20, and the terminal 30, and is presented to the user U1, the user U2, and the user U3. Users U1, U2, and U3 are communication targets with each other.
  • the character C1 of the user U1, the character C2 of the user U2, and the character C3 of the user U3 appear on the call screen G as participants in the communication.
  • FIG. 2 shows that the user U1 is in an utterance state.
  • Characters C1, C2, and C3 indicate users U1, U2, and U3 on the call screen G.
  • the characters C1, C2, and C3 are dynamic characters.
  • the characters C1, C2, and C3 are generated by an image material independent of the actual image (imaging data, etc.) of the users U1, U2, and U3.
  • the image material is a material for generating an animation character. Characters C1, C2, and C3 may be drawn by two-dimensional or three-dimensional computer graphics (CG).
  • Characters C1, C2, and C3 are configured to include icon B and ear animation E.
  • the icon B and the ear animation E are integrally displayed on the call screen G. Displaying integrally means that the icon B and the ear animation E are visually recognized as one unit when the characters C1, C2, and C3 are viewed. That is, the term "integral display" means that the icon B and the ear animation E are connected (corresponding) to each other at a glance. Therefore, being displayed integrally may be a state in which the icon B and the ear animation E are in contact with each other, or a state in which the icon B and the ear animation E are separated from each other.
  • Icon B is identification information that can identify the user who is the other party of the call.
  • Icon B includes at least one of an image indicating the user and a text indicating the user.
  • the icon B has a circular shape and includes user-identifiable text (“A”, “B”, “C”).
  • the text is displayed in the display area of the icon B.
  • the display area has a circular shape.
  • "A" displayed on the icon B indicates the user U1
  • "B" displayed on the icon B indicates the user U2
  • "C" displayed on the icon B indicates the user U1.
  • User U3 The shape of the icon B may be another shape.
  • the icon B may include an image (face photograph or the like) set by the user.
  • the icon B may be freely selected and set by the user.
  • Ear animation E is a state animation showing the state of the user.
  • the state animation is an animation that expresses the user's state in a form different from the actual motion part of the user. State animation does not include dynamically and continuously changing facial expressions. That is, the state animation does not include facial expressions that change according to the user's state.
  • the state animation is displayed so as to protrude from the display area outside the display area of the icon B.
  • the ear animation E is an animation that imitates the ears of an animal (for example, a rabbit, etc.) and operates in response to changes in the user's state.
  • the ear animation E operates according to at least one of the user's emotions and movements.
  • the user's emotions are, for example, happy, surprised, and the like.
  • the user's actions are, for example, a line of sight (movement of the line of sight), a posture, a gesture, a facial expression, and the like.
  • the ear animation E performs operations such as expansion / contraction,
  • Character C1 (C2, C3) is configured to further include utterance animation H.
  • the icon B, the ear animation E, and the utterance animation H are integrally displayed on the call screen G.
  • the utterance animation H is an animation based on the voice data of the speaker (speaker).
  • the utterance animation H operates according to the utterance mode of the speaker.
  • the utterance animation H for example, operates to expand and contract left and right.
  • FIG. 3 is a diagram showing an example of functional blocks of the terminal 10, the terminal 20, the terminal 30, and the server 40. Since the functional blocks of the terminal 20 and the terminal 30 are the same as the functional blocks of the terminal 10, the terminal 10 and the server 40 will be described below. First, the terminal 10 will be described, and then the server 40 will be described.
  • the terminal 10 includes an input unit 11.
  • the input unit 11 is a part where the voice data and the image data of the user U1 are input.
  • the video data of the user U1 may be input to the input unit 11.
  • the video includes audio data and image data of the user U1.
  • the terminal 10 includes a control unit 12.
  • the control unit 12 is a part that generates control data of the user U1.
  • the control data of the user U1 is generated based on the voice data and the image data of the user U1 input to the input unit 11.
  • the image data is composed of a plurality of consecutive unit frames.
  • the unit frame usually includes the image information of the user U1. For example, 60 frames / second image data includes 60 unit frames per second.
  • the control unit 12 estimates the state of the user U1 based on at least one of the voice data (language data) of the user U1 and the aspect data indicating the aspect of the user U1.
  • Aspects of user U1 include at least nonverbal behavior.
  • Nonverbal behavior is behavior that does not use language.
  • Aspects of the user U1 are, for example, a line of sight (movement of the line of sight), a posture, a gesture, a facial expression, and the like.
  • Examples of facial postures or movements are swaying, swinging, tilting, etc.
  • upper body postures or movements are torso orientation, shoulder twisting, elbow bending, hand raising and lowering, and the like.
  • Examples of finger movements are applause, extension, flexion, abduction, adduction and the like.
  • Examples of facial expressions are thoughts, joy, surprises, sadness, anger, etc.
  • the control unit 12 estimates the state of the user U1 based on the voice data and the image data.
  • the state of the user U1 may include at least one of the emotions and actions of the user U1.
  • the control unit 12 determines that the user U1 has a keyword of the spoken language of the user U1, an emotion of the user U1, a posture of the user U1, a gesture of the user U1, a voice rhythm (speech speed) of the user U1, an operation speed of the user U1, and the like. Estimate the state.
  • the control unit 12 estimates the state of the user U1 using the following operation as a trigger, and generates control data, for example.
  • -Keywords issued by user U1 thank you, I'm sorry, agree, disagree, etc.
  • -User U1's emotion recognition happy, surprised, thinking
  • -User U1 gesture recognition nodding, raising hands, tilting neck, applause
  • control unit 12 estimates the user's state using the trained model 13L.
  • the trained model 13L is stored in a storage unit 13 described later.
  • the trained model 13L can be generated, for example, by deep learning.
  • the trained model 13L may include a plurality of trained models.
  • the control unit 12 inputs the image data into the first trained model to obtain the first estimation result based on the image data.
  • the control unit 12 inputs the voice data into the second trained model to obtain a second estimation result based on the voice data.
  • the control unit 12 inputs the first estimation result and the second estimation result into the third trained model, and obtains the estimation result related to the state of the user U1.
  • the control unit 12 estimates the state of the user U1 based on the estimation result of the trained model.
  • the control unit 12 generates control data for controlling the operation of the ear animation E and the utterance animation H based on the estimated state of the user U1.
  • control data for controlling the operation of the ear animation E and the utterance animation H based on the estimated state of the user U1.
  • control unit 12 raises the ear in the ear animation E of the character C1 as shown in the type A of FIG. Generates control data that changes (colors) the color together with.
  • the control unit 12 is shown in FIG. 4 when, for example, the user U1 is nodding or giving an aizuchi, and / or the user U1 makes a predetermined statement (“Yeah”, “Yes”, etc.).
  • a predetermined statement (“Yeah”, “Yes”, etc.).
  • Type B of the above in the ear animation E of the character C1, control data for repeatedly performing front-back bending in the upper 1/3 portion of the ear is generated.
  • the control unit 12 is centered on the character C1 as shown in the type C of FIG. 4, for example, when the user U1 expresses a feeling of happiness and / or when the user U1 laughs. It generates control data that rotates (vibrates) in small steps for a predetermined time (for example, 2 seconds).
  • the control unit 12 represents, for example, an attitude in which the user U1 agrees with another user's utterance, and / or when the user U1 makes a predetermined statement (“agree”, etc.).
  • control data is generated in which the front and back bending in the upper 1/2 portion of the ear is repeatedly performed a predetermined number of times (for example, twice).
  • control unit 12 sets the type B in FIG. As shown, it generates control data that slowly swings the character C1 left and right.
  • the control unit 12 may, for example, indicate that the user U1 has an attitude opposite to the utterance of another user (such as crossing the index finger in front of the chest) and / or the user U1 has a predetermined statement (“opposite”). Etc.), as shown in the type C of FIG. 5, in the ear animation E of the character C1, control data for maintaining the crossed state of the ears for a certain period of time is generated.
  • the control unit 12 is of the type of FIG. 6, for example, when the user U1 is moving to lower his / her head and / or when the user U1 makes a predetermined statement (“Thank you”, “I'm sorry”, etc.).
  • A in the ear animation E of the character C1, control data for maintaining the bending in the upper two-thirds of the ear for a certain period of time is generated.
  • control unit 12 when the user U1 raises his / her hand, the control unit 12 generates control data for expanding / contracting one ear in the ear animation E of the character C1, as shown in the type B of FIG.
  • control unit 12 tilts the ear to the left or right in the ear animation E of the character C1 as shown in the type C of FIG. Generates control data that changes the color (makes it colorless).
  • control unit 12 raises the ears of the ear animation E and changes the color of the character C1 and makes an utterance, as shown in the type B of FIG. Generate control data to display animation H.
  • the control unit 12 generates, for example, control data in which the utterance animation H expands and contracts left and right during the utterance of the user U1.
  • the control unit 12 can include the content for controlling the rhythm of the operation of the character C1 in the above control data.
  • the control unit 12 generates control data in which the rhythm is adjusted (set) for the operation of the ear animation E (bending, expansion / contraction, vibration, color change, etc.).
  • the control unit 12 generates control data in which the rhythm is adjusted with respect to the operation (expansion / contraction) of the utterance animation H.
  • the control unit 12 detects the utterance speed based on the voice data, and reflects the rhythm based on the utterance speed in the movements of the ear animation E and the utterance animation H.
  • the control unit 12 can subword-divide the voice data based on the voice model or the sound model and detect the utterance speed.
  • the control unit 12 reflects the rhythm based on the utterance speed of the user U1 in the actions of the ear animation E and the utterance animation H of the character C1.
  • the control unit 12 detects the body movement (swaying, etc.) speed of the user U1 based on the image data, and reflects the rhythm based on the movement speed in the movement of the ear animation E.
  • the control unit 12 detects a key point (joint point of the body) based on a posture estimation model, detects a movement trajectory of the same key point at a predetermined time interval from a time-series scene, and detects an operation speed. obtain.
  • the control unit 12 reflects the rhythm based on the operation speed of the user U1 in the operation of the ear animation E of the character C1.
  • the control unit 12 is also a part that controls the operation of the characters C1, C2, and C3 based on the control data. Based on the generated control data and the received control data, the control unit 12 displays the characters C1, C2, and C3 on the call screen G (see FIG. 2), and the ear animation E and the speech of the characters C1, C2, and C3. Controls the operation of animation H. In the present embodiment, as shown in FIG. 2, the control unit 12 causes the character C1, the character C2, and the character C3 to be displayed on the call screen G in the same size.
  • the control unit 12 changes the operation of the ear animation E of the character C1 into a rhythm based on the speech speed of the speaker character C2 or C3 based on the received control data. Synchronize. When the speaker does not exist (the user does not speak), the control unit 12 performs the ear animation E of the characters C1, C2, and C3 with a predetermined rhythm (a rhythm applied to all the user's characters). Make it work.
  • the control unit 12 is also a part that generates video data of the call screen G.
  • the video data of the call screen G includes the video data of the characters C1, the character C2, and the character C3 controlled based on the control data.
  • various objects appearing on the call screen G may be included in the video data of the call screen G.
  • the terminal 10 includes a storage unit 13.
  • the storage unit 13 is a unit that stores information necessary for controlling (processing) the terminal 10.
  • FIG. 3 exemplifies the terminal program 13P and the trained model 13L as the information stored in the storage unit 13.
  • the terminal program 13P is a program for operating the terminal 10, and operates the computer so that the control by the control unit 12 or the like is executed. Since the system 100 is a communication support system, the terminal program 13P can be said to be a communication support program.
  • the trained model 13L may be provided to the terminal 10 after being fixedly recorded on a tangible recording medium such as a CD-ROM, a DVD-ROM, or a semiconductor memory. Alternatively, the trained model 13L may be provided to the terminal 10 via the communication network as a data signal superimposed on the carrier wave.
  • the terminal 10 includes the communication unit 14.
  • the communication unit 14 is a unit that communicates with the external device of the terminal 10 via the network N (see FIG. 1). Examples of external devices for the terminal 10 are the terminal 20, the terminal 30, and the server 40.
  • the communication unit 14 transmits the voice data and the control data generated by the control unit 12 to the server 40, and receives the voice data and the control data from the server 40.
  • the terminal 10 includes an output unit 15.
  • the output unit 15 outputs the image of the call screen G.
  • the image of the call screen G is an image based on the image data of the call screen G generated by the control unit 12.
  • the server 40 includes a control unit 42.
  • the control unit 42 controls the operation of the server 40.
  • the server 40 includes a storage unit 43.
  • the storage unit 43 is a unit that stores information necessary for controlling the server 40.
  • the server program 43P and the received data 43S are exemplified as the information stored in the storage unit 43.
  • the server program 43P is a program for operating the server 40, and operates the computer so that the control by the control unit 42 or the like is executed.
  • the received data 43S is data sent from the terminal 10, the terminal 20 and the terminal 30 to the server 40, and may include control data generated by the terminal 10, the terminal 20 and the terminal 30.
  • the server 40 includes the communication unit 44.
  • the communication unit 44 is a unit that communicates with the external device of the server 40 via the network N (see FIG. 1). Examples of external devices for the server 40 are terminals 10, terminals 20 and terminals 30.
  • the communication unit 44 receives the control data of the user U1, the control data of the user U2, and the control data of the user U3 from the terminal 10, the terminal 20, and the terminal 30, respectively, or the control data generated by the terminal 10, the terminal 20, and the terminal 30. Is transmitted to each of the terminal 10, the terminal 20, and the terminal 30.
  • the communication unit 44 of the server 40 may be configured using a network card or a wireless communication device so that the network N can be accessed.
  • the control unit 42 of the server 40 can be configured by using a processor such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), a clock, and a built-in memory.
  • the control unit 42 may be configured as one piece of hardware (SoC: System On a Chip) in which a processor, a clock, a built-in memory, a storage unit 43, and a communication unit 44 are integrated.
  • SoC System On a Chip
  • the control unit 42 operates the server computer as the server 40 by operating based on the server program 43P.
  • the storage unit 43 of the server 40 may be configured by using a non-volatile storage medium such as a flash memory, a hard disk, and an SSD (Solid State Disk).
  • the input unit 11 of the terminal 10 can be configured by using a microphone, a camera, or the like.
  • the voice of the user U1 is acquired by the microphone. That is, the microphone is a kind of voice sensor that acquires voice.
  • the image of the user U1 is acquired by the camera. That is, the camera is a kind of image sensor that acquires an image.
  • the input unit 11 may be configured by using an operation device of a keyboard, a mouse, and a touch panel.
  • the control unit 12 of the terminal 10 may be configured in the same manner as the control unit 42 of the server 40.
  • the control unit 12 operates based on the terminal program 13P to operate the general-purpose computer as the terminal 10.
  • the storage unit 13 of the terminal 10 may be configured in the same manner as the storage unit 43 of the server 40.
  • the communication unit 14 of the terminal 10 may be configured in the same manner as the communication unit 44 of the server 40.
  • the output unit 15 of the terminal 10 may be configured by using a display device such as a liquid crystal panel, an organic EL panel, or the like (a touch panel may be used). Further, the output unit 15 may be configured by using a speaker as well.
  • FIG. 8 is a sequence diagram showing an example of processing (communication support method) executed in the system 100. The process shown in FIG. 8 may be repeated while communication continues.
  • Control data is generated in steps S1 to S3. Specifically, in step S1, the terminal 10 generates control data. In step S2, the terminal 20 generates control data. In step S3, the terminal 30 generates control data.
  • control data is transmitted to the server 40.
  • the terminal 10 transmits the control data to the server 40.
  • the terminal 20 transmits the control data to the server 40.
  • the terminal 30 transmits the control data to the server 40.
  • the control data is stored in the storage unit 43 of the server 40 as the received data 43S.
  • control data is transmitted to the terminal 10, the terminal 20, and the terminal 30.
  • the server 40 transmits the control data to the terminal 10.
  • the server 40 transmits the control data to the terminal 20.
  • the server 40 transmits the control data to the terminal 30.
  • step S11 the terminal 10 controls the character based on the control data received in the previous step S8.
  • step S11 the characters in the call screen G displayed on the terminal 10 operate so as to reflect the operations of the user U1, the user U2, and the user U3.
  • the terminal 10 integrally displays an icon B that can identify another user who is the other party of the call and an ear animation E that shows the state of the other user on the call screen.
  • step S12 the terminal 20 controls the character based on the control data received in the previous step S9.
  • the characters in the call screen G displayed on the terminal 20 operate so as to reflect the operations of the user U1, the user U2, and the user U3.
  • step S13 the terminal 30 controls the character based on the control data received in the previous step S10.
  • the characters in the call screen G displayed on the terminal 30 operate so as to reflect the operations of the user U1, the user U2, and the user U3.
  • FIG. 9 is a flowchart showing an example of processing (communication support method) executed in the terminal 10, the terminal 20, and the terminal 30. The process shown in FIG. 9 can be performed repeatedly while communication continues.
  • Image data is input in step S21.
  • step S22 aspect recognition (emotion recognition, gesture recognition) is performed based on the image data.
  • image data is input to the trained model, and the estimation result of the aspect recognition is obtained.
  • the trained model outputs the estimation result of the aspect recognition.
  • step S23 the operating speed is detected.
  • step S24 voice data is input.
  • step S25 voice recognition is performed based on the voice data. Specifically, in the terminal 10, the terminal 20, and the terminal 30, voice data is input to the trained model, and the estimation result of voice recognition is obtained. The trained model outputs the estimation result of speech recognition when the speech data is input.
  • step S26 the utterance speed is detected. Then, in step S27, control data is generated.
  • the control units 12 of the terminal 10, the terminal 20, and the terminal 30 have an icon B, an ear animation E indicating the states of the users U1, U2, and U3, and an ear animation E. Is displayed integrally on the call screen G.
  • the system 100 can recognize the state of another user who is the other party of the call. Therefore, in the system 100, smooth communication can be realized in a call made by using the terminal 10, the terminal 20, and the terminal 30.
  • the control unit 12 detects the utterance speed based on the voice data, and reflects the rhythm based on the utterance speed in the operations of the ear animation E and the utterance animation H. Further, the control unit 12 detects the body movement (swaying, etc.) speed of the user U1 based on the image data, and reflects the rhythm based on the movement speed in the movement of the ear animation E. Therefore, in the system 100, the states of the users U1, U2, and U3 can be grasped more accurately.
  • the characters C1, C2, and C3 including the ear animation E have the following advantages over pictograms, avatars, and video dialogues.
  • the characters C1, C2, and C3 are superior in real-time property and dynamic property as compared with pictograms.
  • the impression is strongly influenced by the design.
  • creating an avatar that simply resembles the user's face can be affected by the uncanny valley.
  • the characters C1, C2, and C3 have the same design, the impression is not affected by each user and does not give an eerie impression.
  • the characters C1, C2, and C3 do not have facial expressions, but are characterized by the fact that they act on the generation of effective communication.
  • a non-verbal expression that is not a facial expression
  • the movement and tilt of the ear animation E convey the sensibility equivalent to an infinite facial expression.
  • the visual movement of the ear animation E linked to the context of speech and dialogue, and the utilization of the imagination of the recipient of the nonverbal expression. By utilizing your imagination, you can convey deep and subtle sensibilities. Therefore, it is important to convert the motion part (ear animation E) different from the facial expression.
  • the listener's reaction can be obtained even in a situation where the speaker speaks to one side in, for example, a remote lecture. Therefore, the speaker can take a response according to the reaction of the listener. Therefore, smooth communication can be realized.
  • the user U1, U2, and U3 can convey their own state to other users by ear animation E, even if they are not good at expressing emotions through conversation, they can convey their own state to the other user. Can be done. In this way, non-verbal expressions can be strengthened, so smooth communication can be realized.
  • the state animation showing the states of the users U1, U2, and U3 is the ear animation E that imitates the ears, and operates according to the change of the states of the users U1, U2, and U3.
  • the state animation is a face animation of the user U1, U2, U3 of the other party, it is necessary to read the change of emotion from the subtle change of the face on the call screen G.
  • the identification information is an icon B displayed on the call screen G, and includes at least one of an image indicating the users U1, U2, U3 and a text indicating the users U1, U2, U3. There is.
  • the users U1, U2, and U3 who are the other party of the call can be recognized at a glance on the call screen G.
  • the ear animation E operates according to at least one of the emotions and movements of the users U1, U2, and U3. In this configuration, it is possible to recognize the emotions and actions of the users U1, U2, and U3 who are the call partners.
  • a step of generating control data for controlling the operation of the ear animation E and a step of outputting the control data are executed.
  • control data for controlling the operation of the ear animation E is output, the terminal 10, the terminal 20, and the terminal 30 are compared with the case where all the data related to the states of the users U1, U2, and U3 are output.
  • the amount of data output (transmitted) from can be reduced. Therefore, even in a communication environment where the communication speed is slow or a large amount of data communication cannot be performed, smooth communication can be realized in a call performed using the terminal 10, the terminal 20, and the terminal 30.
  • the state of the user U1, U2, U3 is estimated using the trained model 13L, and the trained model is the voice data and the voice data.
  • the user's state is output.
  • the system 100 has a step of displaying the utterance animation H, which is the utterance animation H based on the voice data of the speaker and is different from the ear animation E, on the call screen G integrally with the speaker icon B. Run.
  • the utterance animation H operates according to the utterance mode of the speaker. In this configuration, the speaker can be recognized at a glance, and the utterance state of the speaker can be recognized by the utterance animation H.
  • the character C1 of the user U1, the character C2 of the user U2, and the character C3 of the user U3 are displayed on the call screen G.
  • users U1, U2, and U3 can confirm their own ear animation E.
  • the ear animations E of the users U1, U2, and U3 are displayed together on the call screen G, it is possible to give the impression that the users U1, U2, and U3 exist in the same space. It is possible to realize a conversation with a sense of unity. As a result, smooth communication can be realized.
  • the characters C1, C2, and C3 are displayed in the same size on the call screen G.
  • this configuration by displaying the characters C1, C2, and C3 in the same size, it is possible to give the impression that the users U1, U2, and U3 exist in the same space, so that the feeling of presence is further increased. , It is possible to realize a conversation with a sense of unity.
  • control data may be generated by the server 40.
  • the terminal 10, the terminal 20, and the terminal 30 transmit the voice data and the image data to the server 40, and the server 40 generates the control data based on the voice data and the image data.
  • the server program 43P can be said to be a communication support program.
  • the control data may be generated in each of the terminal 10, the terminal 20 and the terminal 30 based on the voice data and the image data transmitted from each of the other terminals 10, the terminal 20 and the terminal 30.
  • the mode in which the input unit 11 of the terminal 10 is configured by using a camera and the image of the user U1 is acquired by the camera has been described as an example.
  • the terminal 10 may acquire mode data by a laser or the like.
  • an infrared sensor array, a 3-axis sensor, a pressure sensor or the like may be used to detect the operating speed.
  • the terminal 20 and the terminal 30 may be used to detect the terminal 20 and the terminal 30.
  • the user's line of sight, pupil, and movement of the user's head can be appropriately detected.
  • the icon B, the ear animation E, and the like are displayed on the call screen G of the terminals 10, 20, and 30.
  • the terminal is a wearable terminal or a head-mounted display (HMD) terminal
  • the icon B, the ear animation E, and the like may be displayed on a lens or the like, or may be displayed as a hologram. That is, the characters C1, C2, and C3 are displayed in the cyber space.
  • the cyber space may include VR (Virtual Reality), AR (Augmented Reality), and MR (Mixed Reality).
  • the control unit 12 estimates the states of the users U1, U2, and U3 based on at least one of the voice data of the user U1 and the aspect data indicating the aspect of the user U1 as an example. explained.
  • the state of the user may be estimated in consideration of environmental information.
  • the environmental information is, for example, music (BGM), location information, or the like.
  • voice data may be processed by natural language processing (NLP: Natural Language Processing).
  • NLP Natural Language Processing
  • the image data may be processed by pattern matching.
  • the image data may be analyzed to determine a pattern corresponding to the modes of user U1, user U2, and user U3.
  • the image pattern may be selected from a finite number of given patterns stored in advance in the storage unit 43.
  • the user's state may be determined by voice recognition of preset words. For example, a predetermined word (including letters and voice) and an operation pattern of the ear animation E are associated with each other, and when the predetermined word is uttered, the ear animation E is based on the operation pattern corresponding to the predetermined word. May be operated.
  • the operation pattern may be selected from at least one of a preset standard operation pattern and a creation pattern created in advance by the users U1, U2, and U3 and associated with a predetermined word.
  • the operation of the ear animation E is set (determined) based on the sensing results such as voice and motion.
  • the predetermined words of the person to be used are registered and the predetermined words are associated with the operation pattern of the ear animation E, the recognition efficiency is improved. Therefore, the users U1, U2, U3 It is possible to quickly display a state animation suitable for the state of. In addition, it is possible to support non-verbal expressions for the unique wording of users U1, U2, and U3.
  • the operation pattern can be selected from at least one of a preset standard operation pattern and a creation pattern created in advance by the users U1, U2, and U3.
  • the operation pattern can be created and the creation pattern can be used as the operation pattern, it is possible to make an original non-verbal expression and operation pattern corresponding to the person's own words. This also allows the creation of non-verbal expressions. Therefore, richer communication can be realized. Users can also update new words and new non-verbal expressions.
  • a predetermined word and an action pattern for example, as a word associated with a light nozuki movement pattern, expressions that the person often uses on a daily basis, for example, "Eh, eh”, “Yeah, hi", " Register words such as "yes, yes”, “I see”, “yes”, “after all”, “yes”, “understand”, “yes, I think” in your own words (voice).
  • this registered information is voice-recognized, and an action pattern associated with a predetermined word is selected, whereby a light nodding action can be expressed.
  • it is possible to register predetermined words it is possible to deal with dialects and industry-specific words. This makes it possible to express a unique expression as a non-verbal expression. Not only the ear animation E but also the arm animation A and the foot animation F, which will be described later, can be associated with predetermined words.
  • control unit 12 inputs the first estimation result and the second estimation result into the third trained model to obtain the estimation result related to the state of the user U1 as an example. explained. However, when the control unit 12 obtains the first estimation result and the second estimation result, the control unit 12 may estimate the user's state by the rule base. Further, each of the first estimation result and the second estimation result may be weighted.
  • it may have a function of selecting whether or not to display its own character on the terminal of the other party.
  • a function of selecting whether or not to display its own character on the terminal of the other party for example, only one of the plurality of users has a character displayed on the call screen G, and the other users can display the image of the user. This function is effective in preserving user privacy and reducing transmission bandwidth.
  • each of the characters C1, C2, and C3 may swing at a predetermined cycle.
  • the predetermined cycle is preset and changes based on the state of each user U1, U2, U3 (body shaking, respiration, gaze change, heart rate, blood pressure, etc.).
  • the cycles of the users U1, U2, and U3 are different, and the swings are not synchronized. That is, the characters C1, C2, and C3 are shown to be swinging at different cycles.
  • the swing cycle of the characters C1, C2, and C3 changes based on the conversation status and the elapsed time of the users U1, U2, and U3.
  • the swing cycle changes with reference to the speaker's condition. Specifically, the swing cycle is based on the speaker's volume change rhythm, the speaker's voice tone, and the speaker's speech speed, and the elapsed time is also a parameter, and the swing cycle of the users U1, U2, and U3.
  • the control unit 12 synchronizes the swinging operations of the characters C1, C2, and C3 based on the state of the speaker.
  • the control unit 12 may use the characters C1, C2. Generate control data that makes the swing period of C3 the same. Specifically, for example, when the speaker is the user U1, the control unit 12 adjusts the cycle of the characters C2 and C3 to the cycle of the swing of the character C1. The control unit 12 may also detect the mirroring level, backtracking, paging utterance amount, etc. between the users U1, U2, U3, and generate control data.
  • the characters C1, C2, and C3 may further include the arm animation A.
  • the arm animation A is an animation that imitates at least one of an arm and a hand, and operates in response to a change in the user's state.
  • the arm animation A like the ear animation E, operates according to at least one of the user's emotions and movements.
  • the arm animation A may have the same content as the ear animation E, or may have a different content from the ear animation E.
  • the arm animation A and the ear animation E have the same operation.
  • the character C3 expands and contracts one ear in the ear animation E and raises one arm in the arm animation A according to the movement of the hand raised by the user U3.
  • the control unit 12 expands / contracts one ear in the ear animation E of the character C2 and generates control data for raising one arm in the arm animation A.
  • the state shown by the characters C1 and C2 shown in FIG. 12 is a fixed position (initial position).
  • the arm animation A performs movements such as applause, waving, and crossing arms according to the movement of the user.
  • the icon B may display a company name (for example, “XXX”), an organization name, a club name, a brand name, or the like, or the type B of FIG.
  • XXX company name
  • the roles of presenter, teacher, student, counselor, client, etc. may be displayed as shown in, or the company logo or the like may be displayed as shown in type C of FIG.
  • the icon B may display at least one of a pictogram, a preset image, and text. As shown in type A of FIG. 14, the icon B displays a pictogram. Pictograms are defined in Unicode. The pictogram may be automatically selected and displayed according to at least one of the user's emotions and actions, or may be selected and displayed by the user's operation. When automatically selected, the control unit 12 generates control data for displaying a smiley pictogram, for example, when the user expresses a feeling of happiness and / or when the user laughs. do. When manually selected by a user's operation, any pictogram may be selected from the list of pictograms, or the pictogram may be selected by a predetermined operation (key operation or the like).
  • a preset image is displayed on the icon B.
  • the image can be arbitrarily set (created) by the user.
  • an image (smile bar) imitating the shape of the mouth is shown.
  • Information related to the user's emotions and actions is associated with each image.
  • the image may be automatically selected and displayed according to at least one of the user's emotions and actions, or may be selected and displayed by the user's operation.
  • the control unit 12 When automatically selected, the control unit 12 generates control data for displaying an image showing a smile, for example, when the user expresses a feeling of happiness and / or when the user laughs. do.
  • an arbitrary pictogram may be selected from the image list, or an image may be selected by a predetermined operation (key operation or the like).
  • text is displayed on the icon B.
  • the text may be preset or may be entered by the user.
  • the text may be automatically selected and displayed according to at least one of the user's emotions and actions, or may be selected and displayed by the user's operation.
  • the control unit 12 may, for example, indicate that the user has an opposite attitude (such as crossing the index finger in front of the chest) to another user's utterance, and / or the user determines.
  • control data for displaying the text of “opposite” is generated.
  • any pictogram may be selected from the text list, or the text may be selected by a predetermined operation (key operation or the like).
  • the characters C1, C2, and C3 may display information related to the user's line of sight.
  • the control unit 12 generates control data for displaying information related to the line of sight to the characters C1, C2, and C3 based on the detected line of sight of the user.
  • FIGS. 15 to 18 a specific description will be given with reference to FIGS. 15 to 18.
  • the type A of FIG. 15, the type A of FIG. 16, the type A of FIG. 17, and the type A of FIG. 18 show the call screen G of the terminal 10 of the user U1
  • the type B of FIG. 15 and the type B of FIG. , Type B of FIG. 17 and Type B of FIG. 18 show the call screen G of the terminal 20 of the user U2.
  • type A in FIG. 15 and type B in the figure user U1 and user U2 are not looking at character C1 and character C2, respectively. That is, the line of sight of the user U1 and the user U2 is not on the character C1 and the character C2.
  • the line-of-sight transmission information GT is displayed in the ear animation E of the character C2 as shown in the type A of FIG.
  • the line-of-sight transmission information GT indicates that the user U1 is staring at the character C2.
  • the line-of-sight transmission information GT has, for example, an ellipse.
  • the line-of-sight transmission information GT imitates, for example, the eyeliner of the eye.
  • the line-of-sight reception information GR is displayed on the ear animation E of the character C1 as shown in the type B of FIG.
  • the line-of-sight reception information GR indicates that the user U1 is staring at the character C2.
  • the line-of-sight reception information GR is, for example, a black circle and has a circular shape.
  • the line-of-sight reception information GR imitates the pupil of the eye, for example.
  • the line-of-sight matching information GC is displayed in the ear animation E of the character C2 as shown in the type A of FIG.
  • the line-of-sight match information GC indicates that the user U1 is looking at the character C2 and the user U2 is looking at the character C1. That is, it indicates that eye contact has been made.
  • the line-of-sight coincidence information GC has, for example, a form in which the line-of-sight transmission information GT and the line-of-sight reception information GR are superimposed.
  • the line-of-sight coincidence information GC is, for example, imitating an eye.
  • the line-of-sight matching information GC is displayed in the ear animation E of the character C1 as shown in the type B of FIG.
  • the line-of-sight matching information GC is displayed in the ear animation E of the character C1 as shown in the type A of FIG.
  • the line-of-sight matching information GC is not displayed on the call screen G of the user U2 as shown in the type B of FIG.
  • the design, position, size, etc. of the line-of-sight transmission information GT, the line-of-sight reception information GR, and the line-of-sight matching information GC can be appropriately set. Further, when there are many users and a specific user is the speaker (for example, in the case of a lecture), the line-of-sight transmission information GT is set to be displayed to the characters of a plurality of users at the same time. It is also possible. Further, for the detection of the line of sight, the detection area can be set. Specifically, for example, it can be set in a wide area including the periphery of the characters C1, C2, and C3, or can be set in a narrow area such as a part of the characters C1, C2, and C3. By setting the detection area, it is possible to control the users U1, U2, and U3 according to their sensibilities and situations.
  • a specific method for displaying the above-mentioned line-of-sight transmission information GT, line-of-sight reception information GR, and line-of-sight matching information GC will be described.
  • the control unit 12 of the terminals 10, 20, and 30 generates control data including information related to the line of sight of the users U1, U2, and U3.
  • Terminals 10, 20, and 30 transmit control data to the server 40.
  • the server 40 transmits control data to terminals 10, 20, and 30.
  • the control unit 12 of the terminals 10, 20, and 30 controls the characters C1, C2, and C3 based on the control data transmitted from the server 40. Specifically, the control unit 12 causes the characters C1, C2, and C3 to display any one of the line-of-sight transmission information GT, the line-of-sight reception information GR, and the line-of-sight matching information GC based on the control data.
  • the line-of-sight transmission information GT, the line-of-sight reception information GR, and the line-of-sight matching information GC on the characters C1, C2, and C3, the line-of-sight of the users U1, U2, and U3 can be recognized (consciously) or the character. Eye contact can be made via C1, C2 and C3. This makes it possible to check the situation such as whether the other party is interested in himself / herself and check whether he / she understands the conversation. Therefore, smooth communication can be realized.
  • the utterance animation H has been described as an example in which the utterance animation H expands and contracts to the left and right.
  • both ears may move in the same phase from the root, or each ear may move alternately in the opposite phase.
  • both ears of the ear animation E may be stretched and changed at the same time according to the utterance.
  • the operation of the utterance animation can be selected by the user.
  • characters C1, C2, and C3 are drawn by two-dimensional computer graphics
  • the characters C1, C2, and C3 may be drawn by three-dimensional computer graphics.
  • the three-dimensional character will be described with reference to FIGS. 19 to 21.
  • the character C2 of the user U2 will be described as an example.
  • the type A of FIG. 19, the type A of FIG. 20, and the type A of FIG. 21 show the state before the operation of the character C2, and the type B of FIG. The state after the operation of the character C2 is shown.
  • the character C2 includes the body B and the ear animation E.
  • the body B and the ear animation E are integrally displayed on the call screen G.
  • the body B is identification information that can identify a user who is a call partner.
  • the body B includes at least one of an image indicating the user and a text indicating the user.
  • a shadow is displayed on the character C2.
  • the body B is spherical and contains a user-identifiable text (“B”).
  • the characters C2 (C1 and C3) may be configured to include an utterance animation (not shown) like the two-dimensional character, or may be configured to include an arm animation A (see FIG. 22). ..
  • the body B is rotatable about the X-axis, the Y-axis, and the Z-axis.
  • the body B operates in response to changes in the user's state.
  • the body B like the ear animation E, operates according to at least one of the user's emotions and movements.
  • the body B may have the same movement as the ear animation E, or may have a different movement from the ear animation E.
  • Type B of FIG. 19 Type B of FIG. 20, and Type B of FIG. 21, the body B and the ear animation E have the same operation.
  • the character C2 repeatedly rotates the body B back and forth around the X axis, and repeatedly bends the upper part of the ear in the ear animation E.
  • the control unit 12 X in the body B when the user U2 is nodding or giving an aizuchi, and / or when the user U2 makes a predetermined statement (“Yeah”, “Yes”, etc.).
  • Control data is generated in which the rotation is repeatedly performed back and forth around the axis, and the front and back bending is repeatedly performed in the upper 1/3 portion of the ear in the ear animation E of the character C1.
  • the body B repeatedly rotates left and right about the Y axis, and the ears swing left and right in the ear animation E.
  • the control unit 12 centers on the Y axis in the body B. While repeatedly rotating left and right, control data for swinging the ear left and right in the ear animation E is generated.
  • the body B repeatedly rotates about the Z axis, and the ears rotate left and right in the ear animation E.
  • the control unit 12 indicates that the user U2 has an attitude opposite to the utterance of another user (crossing the index finger in front of the chest, etc.) and / or the user U2 makes a predetermined statement (“opposite”, etc.). ),
  • the body B is repeatedly rotated about the Z axis, and the ear animation E generates control data for rotating the ear left and right.
  • the body B and the text (“B”) may move integrally, or the text may be fixed and only the body B may move.
  • the ear when the user U2 is absent, the ear may be tilted to the left or right in the ear animation E, or the ear may be tilted to the left or right in FIG. 22.
  • Type B of in the case of an apology, the ears may be bent deeply in the ear animation E.
  • the utterance animation H may be displayed in the background when the utterance is in progress, and as shown in the type D of FIG. 22, the ear animation may be displayed when it is fun.
  • the ear may be rotated in E.
  • the body B may be scratched in the ear animation E when thinking.
  • the ear may be extended according to the voice rhythm in the ear animation E as shown in the type B of FIG. 23, or as shown in the type C of FIG. 23.
  • the ears may sway back and forth according to the voice rhythm.
  • the shadow displayed on the character C2 may change according to the state of the user U2. For example, if the emotion of the user U2 is "sad", the number of shadows may be increased. In this configuration, since the state of the user U2 is represented by the shadow, the other users U1 and U3 can more accurately grasp the state of the user U2. In addition, the presence of shadows enhances the three-dimensional effect and enhances the facial expression and non-verbal expression of the character C2.
  • the body B is not limited to a spherical shape.
  • the body B may be in the form of imitating a display.
  • a translated sentence for example, "Hello!
  • the body B may have a shape imitating a car as shown in type B of FIG. 24, or may have a shape imitating an alarm clock as shown in type C of FIG. 24.
  • the body B may be changed, deformed, or the like depending on the state of the user or the like.
  • FIG. 25 shows a state in which the three-dimensional characters C1, the character C2, and the character C3 are talking.
  • a table T is displayed as an object.
  • the characters C1, C2, and C3 are displayed so as to surround the table T and face each other.
  • the characters C1, C2, and C3 are arranged at equal intervals (60 ° intervals) in the table T, for example.
  • FIG. 25 shows a state in which the three-dimensional characters C1, the character C2, and the character C3 are talking.
  • a table T is displayed as an object.
  • the characters C1, C2, and C3 are displayed so as to surround the table T and face each other.
  • the characters C1, C2, and C3 are arranged at equal intervals (60 ° intervals) in the table T, for example.
  • the character C1 and the character C2 are displayed so as to surround the table T and face each other in a state of facing diagonally.
  • the character C3 is displayed so as to be on the back side in the center of the screen.
  • the screen shown in FIG. 25 is the screen of the terminal 30 of the user U3
  • the character C3 of the user U3 may be displayed behind the screen by default.
  • the ear animation E of the characters C1 and C2 of the other users U1 and U2 is easy to see, the state of the other users U1 and U2 can be accurately grasped.
  • the positions of characters C1, C2, and C3 can be changed by rotating the table T.
  • the observation viewpoint can be changed.
  • the characters C1, C2, and C3 can be changed to a viewpoint (bird's-eye view, bird's-eye view) that looks down from above.
  • the viewpoint may be changed by manual operation with a keyboard or the like, or may be performed based on the sensing of the wearable sensor. In this way, by displaying the characters C1, the characters C2, and the characters C3 in one continuous space, it is possible to generate a presence in the same space. As a result, it is possible to realize a conversation with a sense of presence and a sense of unity.
  • the student can look at the teacher.
  • the teacher can look at the students from the podium. In this way, it is possible to improve the sense of presence and immersiveness by using the same viewpoint as in the actual lesson. In addition, it is easy for the teacher to grasp the reaction of the students, and it is possible to give feedback to the progress of the lesson.
  • the ear animation E is provided on the upper part of the body B even when the back side of the character C3 is displayed or is displayed from a bird's-eye view, for example. Therefore, the operation of the ear animation E of each character C1, C2, C3 can be confirmed from all directions. Therefore, the state / situation of each character C1, C2, and C3 can be recognized (understood) regardless of the display form.
  • the movements of the characters C1, C2, and C3 may be controlled based on the information related to the line of sight of the users U1, U2, and U3.
  • the control unit 12 generates control data for controlling the operation of the characters C1, C2, and C3 based on the detected line of sight of the user. For example, when the user U1 is staring at the character C2, the character C1 faces the character C2. That is, the body B and ear animation E of the character C1 are rotated by, for example, 30 ° around the Z axis so that the character C1 faces the character C2. As a result, the ear animation E of the character C1 faces the character C2.
  • the characters C1, C2, and C3 may face forward.
  • the operation of the characters C1, C2, and C3 based on the information related to the line of sight does not have to completely match the line of sight of the users U1, U2, and U3.
  • the character C1 may be facing the character C2 for a certain period of time. That is, the stop time may be set so as to stop in a state of facing each other for a certain period of time.
  • the speed at which the user U1 moves the line of sight to the character C2 and the speed at which the characters C1, C2, and C3 rotate do not have to match. That is, the rotation speeds of the characters C1, C2, and C3 may be set.
  • the line of sight of the users U1, U2, and U3 can be recognized (consciously), and the eye can be recognized via the characters C1, C2, and C3. You can make contacts. This makes it possible to check the situation such as whether the other party is interested in himself / herself and check whether he / she understands the conversation. Therefore, smooth communication can be realized.
  • the characters C1, C2, and C3 may be operated regardless of the line of sight of the users U1, U2, and U3.
  • the characters C1, C2, and C3 may be operated based on the detection results of the wearable sensors (accelerometers and the like) of the users U1, U2, and U3.
  • Characters C1, C2, and C3 may be operated based on the line of sight and the detection result.
  • the characters C2 and C3 may face the character C1.
  • the character C1 may face the character C3.
  • the orientations of the characters C1, C2, and C3 may be manually changed, the characters C1, C2, and C3 may be oriented in order, and the characters C1, C2, and C3 may be oriented in order. May be oriented randomly.
  • the mode in which the ear animation E and / or the arm animation A operates in response to a change in the user's state has been described as an example.
  • the ear animation E and / or the arm animation A may be operated by the input of the user.
  • the operation of the animation is controlled by, for example, input (operation result) by a key operation on a device operated by the user.
  • the operation of the animation and the key operation are associated in advance.
  • the user controls the movement of the character by performing a predetermined key operation. For example, the upper part of the ear of the ear animation E may be bent back and forth by clicking (pressing) the key of the downward arrow.
  • the ear animation E may applaud by clicking the up arrow key. This makes it possible to express praise, respect, happiness, etc.
  • the right ear of the ear animation E may be extended and tilted by clicking the right arrow key. This makes it possible to express interruptions, surprises, fevers, and the like.
  • the ear animation E may be extended and entangled by clicking the left arrow key. This makes it possible to express questions, anxieties, problems, and the like.
  • the operation may be continued depending on the time that the key is pressed.
  • the operation by the user is not limited to the key operation, and may be screen touch, gesture, line-of-sight movement, or the like.
  • the ear animation E and / or the arm animation A may operate according to the operation time in the device. For example, when clicking the down arrow key, the upper part of the ear of the ear animation E bends lightly back and forth once with one click, and the upper part of the ear of the ear animation E bends slowly back and forth once with a long press. That is, one click can express a light nod, and a long press can express a deep nod. Similarly, in the click of the up arrow key, the right arrow key, and the left arrow key, the operation can be changed by one-click and long-press click.
  • the level of the movement of the ear animation E and / or the arm animation A may be adjusted.
  • the magnitude of the movement is, for example, a swing angle, a tilt angle, or the like of the ear animation E.
  • an intensity level (intensity coefficient) is set for the magnitude of operation, and the intensity level can be arbitrarily adjusted by the user.
  • the ear animation E and / or the arm animation A can be operated with the size intended by the user. With this configuration, even if you are not good at expressing emotions, you can strengthen and convey your own condition.
  • Adjustments of various levels can be set in advance or can be performed during a call.
  • two numbers can be used. For example, when adjusting the operating speed, pressing "1" may increase the operating speed, and pressing "2" may decrease the operating speed.
  • pressing "3" may reduce the movement, and pressing "4" may increase the movement.
  • the magnitude, speed, and the like of the movements of the ear animation E and / or the arm animation A may be changed based on at least one of the voice data and the mode data, that is, at least one of the user's emotions and movements.
  • the size, speed, and the like of the ear animation E and / or the arm animation A may be changed according to the size of the movement of the user and the size of the voice.
  • the inclination of the ear may be set based on the tone of the voice
  • the degree of fluttering of the ear may be set based on the speed of the voice.
  • the user U1, U2, U3 may be able to change at least one of the positions and sizes of the characters C1, C2, and C3.
  • Users U1, U2, and U3 can freely change the position and size by performing a predetermined operation. This makes it possible to set the position in the same way as the space in an actual situation, such as a panel discussion, a guest seat, a speaker seat, and the like.
  • the position can be determined based on the user's name, or the position can be determined based on the role. Also, in the case of a lecture, visual enhancement such as enlarging the speaker can be performed.
  • the ear animation E may be operated as the basic biological existence information of the users U1, U2, and U3.
  • the basic biological existence information is information indicating that the users U1, U2, and U3 are present.
  • the shaking corresponding to breathing is given.
  • the movement of life as an existence can be transmitted even if the users U1, U2, and U3 do nothing.
  • the typing image operation (the tip of the ear is the typing movement) can be set in the ear animation E.
  • the ear may hang down in the ear animation E.
  • the arm animation A may move according to the utterance content, volume, rhythm, and the like.
  • users U1, U2, and U3 sing a song or move a part of their body (for example, hands, feet, neck, head, etc.), characters C1, C2, and C3 perform (dance, etc.). It can also be directed to do.
  • music when playing, it can be synchronized and synchronized with the music.
  • the movement of the body can be sensed by an acceleration sensor, an electromyographic sensor, or the like.
  • the effect function can be set by the user.
  • the effect function can be an effective function for, for example, a user with a physical disability.
  • the AI character may be displayed in addition to the characters C1, C2, and C3.
  • the AI character may be displayed as a facilitator.
  • an AI butler dedicated to each user who supports the users U1, U2, and U3 may be accompanied.
  • the AI butler is displayed, for example, beside the characters C1, C2, and C3.
  • the AI butler plays a role of supporting the conversations of the users U1, U2, and U3 from various aspects. Support includes schedule management, file management, provision of text / visual visual materials, audio information output, etc.
  • the AI butler may automatically display information related to the conversation, or may search for and display necessary information.
  • the contents of a video conference or the like may be recorded and analyzed.
  • the situation, characteristics, characteristics, relationships, emotions, etc. of the members who participated in the conversation can be multifaceted.
  • the analysis result may be displayed as a graph, text, or the like.
  • the usage status of the motion pattern used in the state animation may be displayed at a predetermined timing.
  • user U1 At least one of the change in the usage rate of the movement pattern in U2 and U3 and the change in the usage frequency of the movement pattern corresponding to the time axis may be displayed.
  • users U1, U2, and U3 display the usage status (usage history) of the operation pattern of the state animation at predetermined timings (for example, during communication (during presentation, dialogue, etc.), after communication is completed). The tendency of the reaction can be confirmed.
  • the communication that incorporates the reaction such as the thinking state and emotional state of the participants in the video conference etc. can be performed. It will be easier to take. For example, is the percentage of use of motion patterns that the presenter or teacher agrees with "yes, yes” to the question “Did you understand enough in this explanation?" Is 100%, or about 20 to 30%. Depending on what you have, you can give feedback and the way you proceed will change. In particular, by displaying the usage ratio of the participants in real time, it becomes easy to proceed with reaction learning and reaction lectures in real time.
  • the operation of the ear animation E may be changed according to the attributes of the users U1, U2, and U3.
  • the attributes are, for example, nationality, ethnicity, gender, language, and the like. For example, in the culture of one country, “agreement” may shake its head back and forth, whereas in the culture of another country, “agreement” may shake its head. In this case, if the same ear animation E is used for "agreement", the recipient's feeling will differ depending on the culture. Therefore, the operation of the ear animation E is changed (set) based on the information related to the attributes of the users U1, U2, and U3. In this configuration, it is possible to avoid misunderstandings due to cultural differences, for example, by changing the operation of the ear animation E according to nationality as an attribute. In this way, it is possible to respond to various different cultures, so smooth communication can be realized.
  • the state animation may be in other forms.
  • the state animation may be an animation that imitates horns, hair, and the like.
  • the state animation may mimic the antennae of an insect (eg, an ant).
  • the state animation SA may mimic a structure such as an antenna.
  • the state animation SA may mimic the horns of an animal (eg, a deer).
  • the state animation SA may imitate a plant (eg, sunflower).
  • the display form of the state animation SA may be changed according to the state of the communication target. For example, one corner may be transformed into two corners. Further, the spherical body B may be transformed into, for example, the display shown in the type A of FIG. 24. In this configuration, the state of the communication target can be grasped more accurately by transforming the state animation.
  • the character C may further include the foot animation F.
  • the foot animation F is an animation that imitates a foot, and operates in response to changes in the user's state. Like the ear animation E, the foot animation F may operate according to at least one of the user's emotions and movements, or may operate based on environmental information.
  • Character C may move according to the states of users U1, U2, and U3.
  • character C may be capped with a cap CP. In this configuration, when the character C moves, the direction of the brim of the cap CP may change according to the moving direction of the character C.
  • character C may be on a vehicle such as a flying carpet FC.
  • the flying carpet FC is displayed around the body B so as to be attached to the body B.
  • the flying carpet FC is displayed below the body B.
  • a tassel TR is provided at the corner of the flying carpet FC.
  • the tassel TR may operate in response to changes in the user's state.
  • the flying carpet FC may operate based on the user's basic biological existence information.
  • an object other than the flying carpet FC may be displayed around the body B.
  • ancillary items such as a flying carpet FC may be displayed above or to the side of the body B.
  • character C may be wearing a hat HT.
  • the hat HT is provided with a blade W.
  • the blade W may operate based on the user's basic biological existence information.
  • a mode in which the characters C1, C2, and C3 are displayed so as to surround the table T and face each other has been described as an example.
  • a plurality of characters C may be displayed so as to surround the whiteboard WB.
  • the whiteboard WB allows each user to write text (for example, "1, 2, 3 !, "A, B, C, D ## etc.), display an image, or the like.
  • the position and size of the character C with respect to the whiteboard WB can be freely changed.
  • the body B of one of the plurality of characters C is used as a display, the character C is enlarged and displayed, and the other characters C are arranged in front of the character C. May be displayed.
  • Text for example, "1, 2, 3 !, "A, B, C, D ## etc.
  • the user can arbitrarily set the orientation of the character C other than the enlarged character C.
  • the character C may be displayed behind the display so as to look at the display, may be displayed facing the front with the display as the back, or may be displayed so that the characters face each other. good.
  • a plurality of characters C on a flying carpet FC may be displayed so as to surround the object O.
  • Object O is, for example, an object (eg, a car, etc.) that is the subject of a meeting.
  • the orientation of the object O may be arbitrarily changed by each user. In this case, only the orientation of the object O displayed to the user who changed the orientation of the object O may be changed, or the orientation of the object O displayed to all users when one user changes the orientation of the object O. May be changed. Further, only a fixed user may be able to change the orientation of the object O. Further, the viewpoint for the object O displayed to each user may be changed as the position of the character C is changed.
  • the character C may imitate a cloud.
  • the character C includes an icon B and a state animation SA.
  • the icon B is displayed, for example, in the state animation SA.
  • the state animation SA of the character C operates in response to changes in the user's state (emotions, actions), user operations, and the like.
  • the user's state is "anger"
  • a part of the state animation SA of the character C protrudes.
  • the character C is not limited to imitating a cloud, and may imitate various objects, not limited to tangible and intangible objects.
  • the design of the characters C, C1, C2 and C3, the operation of the ear animation E, the arm animation A and the foot animation F can be set (changed) by the users U1, U2 and U3. Characters may be drawn by computer graphics in a combination of 2D and 3D. Further, the character design can be updated (changed, added, etc.) by updating the data or the like.
  • the communication target is an AI (Artificial Intelligence) assistant.
  • the AI assistant is, for example, Siri (registered trademark), Google Assistant (registered trademark), Alexa (registered trademark), Cortana (registered trademark), and the like.
  • An example of system communication according to a second embodiment includes interaction with an AI assistant.
  • the system includes a terminal (terminal device) 50.
  • the terminal 50 may be a laptop-type personal computer (PC), a mobile phone (smartphone, etc.), a desktop-type PC, a tablet terminal, a wearable terminal, a head-mounted display (HMD) terminal, or a smart speaker with a display. , And various other terminals may be used.
  • the terminal 50 can communicate with the server 40 via the network N.
  • the terminal 50 has the same configuration as the terminal 10.
  • FIG. 32 communication is performed on the screen G1 (output unit 15) represented by a computer.
  • the screen G1 is presented to the user by being displayed on the terminal 50.
  • the character CA of the AI assistant appears on the screen G1.
  • the character CA indicates an AI assistant on the screen G1.
  • Character C is a dynamic character.
  • Character CA may be drawn by two-dimensional or three-dimensional computer graphics (CG).
  • the character CA includes an icon B and an ear animation E. In the character CA, the icon B and the ear animation E are integrally displayed on the screen G1.
  • Icon B is identification information that can identify the AI assistant to be communicated.
  • Icon B includes at least one of an image indicating the AI assistant and text indicating the user.
  • the icon B has a circular shape and contains user-identifiable text (eg, "XXX").
  • the ear animation E is a state animation showing the state of the AI assistant.
  • the ear animation E operates according to at least one of the emotions and movements of the AI assistant and the voice data of the user who uses the AI assistant.
  • the control unit 12 is a part that generates AI control data.
  • the control unit 12 generates control data of the character CA based on at least one of the voice data (language data) of AI and the mode data indicating the mode of AI, and the voice and action of the user who uses the AI assistant. do.
  • the behavior of the user using the AI assistant may include the behavior of the user.
  • the control unit 12 estimates the state of the AI assistant, for example, using the following operation as a trigger, and generates control data. ⁇ Keywords issued by AI Assistant (I don't know, please say it again, etc.) -Keywords issued by the user (AI assistant name, hey, high, etc.) -User's actions (approaching the terminal 50, moving away from the terminal 50, etc.)
  • the control unit 12 estimates the state of the AI assistant using the trained model 13L.
  • the control unit 12 inputs the AI assistant voice data (text) and the user's behavior data (voice data, etc.) into the trained model 13L, and obtains an estimation result based on the data.
  • the control unit 12 estimates the state of the AI assistant based on the estimation result of the trained model.
  • the control unit 12 generates control data for controlling the operation of the ear animation E based on the estimated state of the AI assistant. For example, when the AI assistant says “I don't know", the control unit 12 generates control data for tilting the ear to the left or right in the ear animation E of the character CA. For example, when the answer to the question from the user includes the content of "opposite, prohibition” or the like, the control unit 12 generates control data for maintaining the state in which the ears are crossed for a certain period of time.
  • the control unit 12 when the user issues the "AI assistant name (for example,” XXX ”)", the control unit 12 generates control data for raising the ear in the ear animation E of the character CA.
  • the control unit 12 When the user is speaking (question, etc.), the control unit 12 generates control data for repeatedly performing front-back bending in the upper 1/3 portion of the ear because the AI assistant is in a listening state.
  • the control unit 12 generates control data for swinging the ears left and right in the ear animation E of the character CA, for example, when the user approaches the terminal 50 or when the user leaves the terminal 50.
  • the control unit 12 when the AI assistant is in the standby state, the control unit 12 generates control data for swinging the ear left and right in the ear animation E, and generates control data for changing the color of the ear. You may.
  • the AI assistant has only audio or an abstract image is displayed.
  • the emotions of the AI assistant are difficult to convey to the user, the presence of the dialogue is poor.
  • a mechanical answer such as "I don't know” from the AI assistant, it can be felt as an artificial conversation.
  • some specific character animation, avatar, etc.
  • a feeling of strangeness may occur.
  • characters such as animations are received differently depending on age, gender, etc., they may lack reliability or a sense of intimacy.
  • the control unit 12 of the terminal 50 displays the character CA including the icon B and the ear animation E indicating the state of the AI assistant on the screen G1.
  • Ear animation E can give a neutral impression in terms of age and gender.
  • the state of the AI assistant can be recognized by the ear animation E. Therefore, smooth communication between the AI assistant and the user can be realized.
  • Non-verbal information was not displayed on the conventional telephone.
  • non-verbal information can be visually generated from the voice of a telephone. Since the communication target (other users) and one's own state animation can be displayed integrally with the identification information, a visual effect is added to the telephone voice, and richer communication is possible.
  • state animation it is possible to provide material information and a whiteboard function for joint writing at the same time, so it is possible to change from the conventional "listening phone" to "watching phone” such as emotions and information.
  • voice chat of multiple people can be displayed integrally with identification information of each person and state animation by voice recognition.
  • identification information and the state animation the design prepared as standard may be used, or the original design may be installed and used. Not only words but also songs can be provided as motion rendering.
  • By displaying the identification information and the state animation in an integrated manner it is possible to recognize the participants of the voice chat, the person of the speaker, and the non-verbal information of the speaker and the participants. Richer communication can be realized.
  • personal information on the face can be kept secret.
  • the software can be made with a lighter processing load than an avatar having a realistic facial expression, and the transmission capacity can be reduced.
  • the facial expressions of avatars the "uncanny valley" problem arises when they are resembled.
  • the face is an animated face, the age and the like are concealed, and misunderstanding information is likely to be induced. As a result, it can be operational information. In this disclosure, it is possible to avoid the problem caused by the uniquely designed animated face.
  • nonverbal information can be transmitted in an easy-to-understand manner.
  • ear animation E that imitates the ear, which protrudes above the identification information
  • receiving applause from both ears leads to an uplifting feeling, a sense of fulfillment, and a sense of accomplishment of the presenter.
  • non-verbal information can be expressed without any hassle by automatically generating a state animation from the user's voice information, motion information, and the like.
  • the character and an accessory with a feeling of levitation such as a carpet can be displayed integrally in the VR space. You can create a natural feeling of being in the air.
  • the present disclosure is a step of inputting at least one of audio data, image data, video data, music data, sensing data and operation input data, and a step of converting the data into animation as a non-verbal expression. It is a non-verbal expression program that causes a computer to execute a step of integrally displaying identification information indicating an object related to data and an animation.
  • the non-verbal expression program causes the computer to execute a step of estimating the state of the target based on the data and a step of generating control data for controlling the operation of the animation based on the state of the target.
  • the animation may be displayed so as to protrude from the display area outside the display area of the identification information, or may be displayed so as to accompany the display area around the display area of the identification information. Also, the animation does not include dynamically changing facial expressions.
  • the input data is rendered into an animation (for example, ear animation).
  • the input data is at least one of audio data (including music), image data, video data, sensing data, and operation input data.
  • the sensing data is, for example, data detected by a wearable sensor (accelerometer, myoelectric sensor, etc.).
  • the operation input data is data input by a user's operation in a device such as a terminal.
  • a non-verbal expression program for example, when radio audio data is input, the contents of the radio are rendered into an animation that does not include dynamically changing facial expressions.
  • the state of the target is estimated based on the voice data.
  • the target is a personality or the like.
  • control data (code) for controlling the operation of the animation is generated based on the state of the target.
  • the voice data is analyzed based on the voice data, and identification information indicating an object related to the voice data is generated. For example, when a dialogue is held by two personalities on the radio, the two personalities are identified and the identification information of each is generated.
  • the identification information and the animation are displayed integrally.
  • the animation may be displayed so as to protrude from the display area outside the display area of the identification information (see FIGS. 4, 19, etc.), or accompany the display area around the display area of the identification information. May be displayed in (see Type C in FIG. 27).
  • the ear animation of the two characters can be displayed in conjunction with the voice (voice recognition also works).
  • video data such as YouTube (registered trademark) can be input.
  • the non-linguistic expression program when music data is input, the content of the music (lyrics, rhythm) is rendered into an animation.
  • the state of the target is estimated based on the voice data.
  • the objects mentioned here are the rhythm, tempo, lyrics, etc. of music. That is, the state in music can be estimated to be fun, sad, bright, dark, or the like.
  • control data code
  • identification information is generated based on voice data. The identification information can be, for example, a music title or the like.
  • the identification information and the animation are displayed integrally.
  • AI may be used to create a cyber image, or accelerometers or the like may be attached to both wrists of an actual singer, dancer, etc., and the movement of the ear animation may be linked to the movement of the wrist. ..
  • the identification information can be the name of the singer or dancer.
  • Terminal (terminal device) 11 ... Input unit (sensor) 12 ... Control unit 13 ... Storage unit 13L ... Learned model 13P ... Terminal program (communication support program) 14 ... Communication unit 15 ... Output unit 20 ... Terminal (terminal device) 30 ... Terminal (terminal device) 40 ... Server 42 ... Control unit 43 ... Storage unit 43P ... Server program 43S ... Received data 44 ... Communication unit 50 ... Terminal (terminal device) 100 ... Communication support system A ... Arm animation B ... Icon, Body AP ... Access point BS ... Base station C ... Character C1 ... Character C2 ... Character C3 ... Character CA ... Character CP ... Cap E ... Ear animation (state animation) F ...
  • Step S1 Foot animation FC ... Flying carpet G ... Call screen G1 ... Screen GC ... Line of sight matching information GR ... Line of sight reception information GT ... Line of sight transmission information H ... Speech animation HT ... Hat N ... Network O ... Object S1 ... Step S2 ... Step S3 ... Step S4 ... Step S5 ... Step S6 ... Step S7 ... Step S8 ... Step S9 ... Step S10 ... Step S11 ... Step S12 ... Step S13 ... Step S21 ... Step S22 ... Step S23 ... Step S24 ... Step S25 ... Step S26 ... Step S27 ... Step SA ... State animation T ... Table TR ... Tassel U1 ... User U2 ... User U3 ... User W ... Wings WB ... Whiteboard

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

コミュニケーション支援プログラムは、ユーザのコミュニケーションを支援するコミュニケーション支援プログラムであって、コミュニケーション対象を識別可能な識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを、コンピュータに実行させる。

Description

コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
 本開示の一側面は、コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラムに関する。
 本出願は、2020年10月14日出願の日本出願第2020-173201号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。
 コンピュータを用いるコミュニケーションに関して、例えば特開2015-38725号公報(特許文献1)は、予め用意された音響モデル、言語モデル、及び複数の音素と複数の視覚素との間の対応表を使用して、音声信号に対して音声認識を漸次的に行って視覚素系列を生成し、視覚素系列を平滑化して複数の視覚素ごとの混合重みを生成し、複数の視覚素ごとの混合重みに従って、複数の視覚素それぞれに対応する複数の顔モデルを混合することにより、顔画像を生成する発話アニメーション生成装置を開示する。
特開2015-38725号公報
 本開示の一側面に係るコミュニケーション支援プログラムは、ユーザのコミュニケーションを支援するコミュニケーション支援プログラムであって、一又は複数のコミュニケーション対象を識別可能な識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを、コンピュータに実行させる。
図1は、第1実施形態に係るコミュニケーション支援システムの概略構成の例を示す図である。 図2は、第1実施形態に係るコミュニケーション支援システムによって提供されるコミュニケーションの例を示す図である。 図3は、端末及びサーバの機能ブロックの例を示す図である。 図4は、アニメーションの動作の一例を示す図である。 図5は、アニメーションの動作の一例を示す図である。 図6は、アニメーションの動作の一例を示す図である。 図7は、アニメーションの動作の一例を示す図である。 図8は、コミュニケーション支援システムの動作を示すシーケンス図である。 図9は、端末の動作を示すフローチャートである。 図10は、変形例に係るコミュニケーション支援システムによって提供されるコミュニケーションの例を示す図である。 図11は、変形例に係るコミュニケーションの例を示す図である。 図12は、変形例に係るコミュニケーションの例を示す図である。 図13は、変形例に係るアニメーションの動作の一例を示す図である。 図14は、変形例に係るアニメーションの動作の一例を示す図である。 図15は、ユーザに表示される画面の一例を示す図である。 図16は、ユーザに表示される画面の一例を示す図である。 図17は、ユーザに表示される画面の一例を示す図である。 図18は、ユーザに表示される画面の一例を示す図である。 図19は、変形例に係るアニメーションの動作の一例を示す図である。 図20は、変形例に係るアニメーションの動作の一例を示す図である。 図21は、変形例に係るアニメーションの動作の一例を示す図である。 図22は、キャラクタの動作を示す図である。 図23は、キャラクタの動作を示す図である。 図24は、変形例に係るキャラクタを示す図である。 図25は、変形例に係るコミュニケーションの例を示す図である。 図26は、変形例に係るキャラクタを示す図である。 図27は、変形例に係るキャラクタを示す図である。 図28は、変形例に係るコミュニケーションの例を示す図である。 図29は、変形例に係るコミュニケーションの例を示す図である。 図30は、変形例に係るコミュニケーションの例を示す図である。 図31は、変形例に係るキャラクタを示す図である。 図32は、第2実施形態に係るコミュニケーション支援システムによって提供されるコミュニケーションの例を示す図である。
[本開示が解決しようとする課題]
 近年、テレワークが拡大しており、ビデオ会議(WEB会議)を行う機会が増加している。ビデオ会議を利用する際、通信環境(帯域制限等)やプライバシーの観点から、カメラを使用せずに、音声のみで会議に参加する場合がある。この場合、各ユーザの端末には、会議に参加しているユーザのアイコン等が表示される。そのため、通話相手が発話に対して関心を示しているか等の状態・状況を認識(把握)することが困難である。そのため、円滑なコミュニケーションを図ることが難しい。
 本開示の一側面は、円滑なコミュニケーションを実現できるコミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラムを提供することを目的とする。
[本開示の効果]
 本開示の一側面によれば、円滑なコミュニケーションを実現できる。
[本開示の実施形態の説明]
 最初に、本開示の実施形態の内容を列記して説明する。以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
 本開示の一実施形態に係るコミュニケーション支援プログラムは、ユーザのコミュニケーションを支援するコミュニケーション支援プログラムであって、一又は複数のコミュニケーション対象を識別可能な識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを、コンピュータに実行させる。
 本開示の一実施形態に係るコミュニケーション支援プログラムでは、識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる。これにより、コミュニケーション支援プログラムでは、コミュニケーション対象の状態を認識することができる。したがって、コミュニケーション支援プログラムでは、円滑なコミュニケーションを実現できる。
 一実施形態においては、状態アニメーションは、コミュニケーション対象の状態を、コミュニケーション対象の実際の動作部位とは異なる形態で表現したアニメーションであってもよい。この構成では、異なる形態で表現(レンダリング)したアニメーションとすることによって、シンプルなアニメーションとすることが可能となる。そのため、ユーザは、コミュニケーション対象の状態を容易に把握することができる。
 一実施形態においては、状態アニメーションは、識別情報の表示領域の外側に当該表示領域から突出するように表示されてもよい。この構成では、識別情報と状態アニメーションとを区別を明確にすることができると共に、状態アニメーションの動作を分かり易くすることができる。
 一実施形態においては、状態アニメーションは、識別情報の表示領域の周囲に当該表示領域に付随するように表示されてもよい。この構成では、識別情報と状態アニメーションとを区別を明確にすることができると共に、状態アニメーションの動作を分かり易くすることができる。
 一実施形態においては、コミュニケーション対象の状態に応じて、状態アニメーションの表示形態を変形させてもよい。この構成では、状態アニメーションをトランスフォームさせることにより、コミュニケーション対象の状態を表現するバリエーションを増やすことができる。したがって、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、状態アニメーションは、耳を模したアニメーションであり、コミュニケーション対象の状態の変化に応じて動作してもよい。例えば、状態アニメーションがコミュニケーション対象の顔アニメーションである場合、画面上において、顔の微妙な変化から感情の変化等を読み取らなければならない。また、顔アニメーションのさまざまな部位の動作に注目しなければならないため、ユーザの状態を把握することが容易ではない。一実施形態では、ユーザの状態の変化が耳を模した状態アニメーションの動作によって表現されるため、状態アニメーションだけに注目すればよい。したがって、コミュニケーション対象の状態を容易に把握することができる。
 一実施形態においては、識別情報と、状態アニメーションと、コミュニケーション対象の状態の変化に応じて動作すると共に腕、手及び足の少なくとも一つを模したアニメーションと、を一体的に表示させてもよい。これにより、耳に加えて、腕、手及び足の少なくとも一つを模したアニメーションが表示されるため、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、コミュニケーション対象の属性に応じて、状態アニメーションの動作を変更させてもよい。この構成では、属性として例えば国籍に応じて状態アニメーショの動作を変更することにより、文化の違いによって誤解が生じることを回避することができる。このように、異なる様々な文化に対応することができるため、円滑なコミュニケーションを実現できる。
 一実施形態においては、設定された動作強度及び動作速度の少なくとも一方に基づいて、状態アニメーションを動作させてもよい。この構成では、例えば、感情表現が苦手な場合であっても、動作強度や動作速度を適宜設定することによって、自身の状態を強化して伝えることができる。したがって、相手に対して状態を効果的に伝えることができる。
 一実施形態においては、識別情報は、コミュニケーション対象を示す画像及びコミュニケーション対象を示すテキストの少なくとも一方を含んでいてもよい。この構成では、コミュニケーション対象を一見して認識することができる。
 一実施形態においては、状態アニメーションは、ユーザの感情、ユーザの動作、ユーザの音声、コミュニケーション対象の感情、コミュニケーション対象の動作及びコミュニケーション対象の音声の少なくとも一つに応じて動作してもよい。この構成では、コミュニケーション対象の感情や動作を認識することができる。
 一実施形態においては、状態アニメーションは、ユーザとコミュニケーション対象との対話状態に応じて動作してもよい。この構成では、ユーザとコミュニケーション対象との対話状態に応じて状態アニメーションを動作させることができる。これにより、例えば、コミュニケーション対象がAIアシスタントである場合、ユーザの発言に対して、コミュニケーション対象の状態アニメーションを動作させることができる。
 一実施形態においては、所定の言葉と状態アニメーションの動作パターンとが対応付けられており、所定の言葉が発せられた場合、所定の言葉に対応する動作パターンに基づいて状態アニメーションを動作させてもよい。この構成では、所定の言葉(文字、音声を含む)と状態アニメーションの動作パターンとが予め対応付けられているため、ユーザの状態に適した状態アニメーションを正確且つ迅速に表示させることができる。
 一実施形態においては、動作パターンは、予め設定されている標準動作パターン、及び、予め作成された作成パターンの少なくとも一方から選択されて所定の言葉と対応付けられてもよい。この構成では、状態アニメーションの動作パターンを任意に設定することができる。
 一実施形態においては、状態アニメーションは、コミュニケーション対象からの入力に応じて動作してもよい。この構成では、コミュニケーション対象(例えば、通話相手)のキー操作等によって、状態アニメーションを動作させることができるため、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、入力は、ウェアラブルセンサの検出結果を含んでいてもよい。この構成では、ウェアラブルセンサの検出結果に応じて状態アニメーションが動作する。そのため、コミュニケーション対象の実際の動作を状態アニメーションに反映することができる。
 一実施形態においては、入力は、コミュニケーション対象によって操作される機器に対する操作結果を含み、機器における操作時間に応じて、状態アニメーションの動作を変化させてもよい。この構成では、コミュニケーション対象の状態をより正確に状態アニメーションに反映させることが可能となる。そのため、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、絵文字、予め設定された画像及びテキストの少なくとも一つを、状態アニメーションと一体的に表示させてもよい。この構成では、絵文字等によって、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、識別情報が表示されるボディと状態アニメーションとによってキャラクタが構成されており、三次元のコンピュータグラフィックによって描画されたキャラクタを表示させてもよい。この構成では、三次元のキャラクタによってコミュニケーション対象の状態が表示されるため、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、キャラクタに影を表示させ、コミュニケーション対象の状態に応じて、キャラクタに表示される影を変化させてもよい。この構成では、影によってコミュニケーション対象の状態が表現されるため、コミュニケーション対象の状態をより正確に把握することができる。
 一実施形態においては、ユーザの操作に応じて、キャラクタが表示される空間の観察視点を変更させてもよい。この構成では、ユーザが観察視点を自由に変更することができる。
 一実施形態においては、ユーザの操作及びユーザの音声の少なくとも一方に応じて、キャラクタの位置及び大きさの少なくとも一方を変更させてもよい。この構成では、ユーザがキャラクタの位置や大きさを自由に変更することができる。
 一実施形態においては、センサによって検出されたユーザ及びコミュニケーション対象の少なくとも一方の視線に係る情報と、識別情報と、状態アニメーションと、を一体的に表示させてもよい。この構成では、ユーザ又はコミュニケーション対象の視線がどこにあるのかを確認することができる。
 一実施形態においては、視線に係る情報は、識別情報及び状態アニメーションを含む所定の領域上にユーザの視線が存在していることを示す視線送信情報を含み、視線送信情報と、識別情報と、状態アニメーションと、を一体的に表示させてもよい。この構成では、コミュニケーション対象に対してユーザが視線を向けていることを確認することができる。
 一実施形態においては、視線に係る情報は、コミュニケーション対象がユーザの識別情報及び状態アニメーションを含む所定の領域上にコミュニケーション対象の視線が存在していることを示す視線受信情報を含み、視線受信情報と、識別情報と、状態アニメーションと、を一体的に表示させてもよい。この構成では、コミュニケーション対象の視線を確認することができる。
 一実施形態においては、センサによって検出されたコミュニケーション対象の音声データ及びセンサによって検出されたコミュニケーション対象の態様を示す態様データの少なくともいずれか一方に基づいて、コミュニケーション対象の状態を推定するステップと、コミュニケーション対象の状態に基づいて、状態アニメーションの動作を制御するための制御データを生成するステップと、制御データを出力するステップと、をコンピュータに実行させてもよい。この構成では、状態アニメーションの動作を制御するための制御データを出力するため、コミュニケーション対象の状態に係る全てのデータを出力する場合に比べて、端末から出力(送信)されるデータ容量を小さくすることができる。そのため、通信速度が遅かったり、大容量のデータ通信が行えなかったりする通信環境においても、端末を用いて行う通話において円滑なコミュニケーションを実現できる。
 一実施形態においては、センサによって検出されたコミュニケーション対象の音声データ及びセンサによって検出されたコミュニケーション対象の態様を示す態様データの少なくともいずれか一方に基づいて、コミュニケーション対象の状態を推定するステップと、推定したコミュニケーション対象の状態に係る状態データを出力するステップと、をコンピュータに実行させてもよい。この構成では、端末における処理負荷の低減を図ることができる。
 一実施形態においては、状態アニメーションの動作の形態を、音声データ及び態様データの少なくとも一方に基づいて設定してもよい。この構成では、コミュニケーション対象の状態に応じた、状態アニメーションの動作の形態を適切に設定できる。
 一実施形態においては、状態アニメーションの動作の速度を、音声データ及び態様データの少なくとも一方に基づいて設定してもよい。この構成では、コミュニケーション対象の状態に応じた、状態アニメーションの動作の速度を適切に設定できる。
 一実施形態においては、コミュニケーション対象の状態を推定するステップでは、学習済みモデルを用いてコミュニケーション対象の状態を推定し、学習済みモデルは、音声データ及び態様データの少なくともいずれか一方が入力されると、コミュニケーション対象の状態を出力してもよい。この構成では、コミュニケーション対象の状態を高精度に推定することが可能となる。
 一実施形態においては、発話者の音声データに基づく発話アニメーションであって状態アニメーションとは異なる当該発話アニメーションを、発話者の識別情報と一体的に表示させるステップを、コンピュータに実行させ、発話アニメーションは、発話者の発話の態様に応じて動作してもよい。この構成では、発話者を一見して認識することができると共に、発話者の発話状態を発話アニメーションによって認識することができる。
 一実施形態においては、ユーザを識別可能な識別情報と、当該ユーザの状態を示す状態アニメーションと、を一体的に表示させるステップを、コンピュータに実行させてもよい。この構成では、ユーザが自身の状態アニメーションを確認することができる。また、ユーザ及びコミュニケーション対象のそれぞれの状態アニメーションが一緒に表示されるため、ユーザ及びコミュニケーション対象が同一空間に存在しているような印象を与えることができ、臨場感、一体感のある会話を実現することができる。その結果、円滑なコミュニケーションを実現できる。
 一実施形態においては、コミュニケーション対象の識別情報及び当該コミュニケーション対象の状態アニメーションと、ユーザの識別情報及び当該ユーザの状態アニメーションと、を同じサイズで表示させてもよい。この構成では、同じサイズで表示することにより、ユーザ及びコミュニケーション対象が同一空間に存在しているような印象をより一層与えることができるため、より一層、臨場感、一体感のある会話を実現することができる。
 一実施形態においては、識別情報が表示されるボディと状態アニメーションとによって構成され、三次元のコンピュータグラフィックによって描画されたキャラクタを表示させ、コミュニケーション対象が複数存在する場合、ユーザのキャラクタが背後となるように表示させてもよい。この構成では、コミュニケーション対象のキャラクタの状態アニメーションが見易くなるため、コミュニケーション対象の状態を正確に把握することができる。
 一実施形態においては、識別情報が表示されるボディと状態アニメーションとによって構成され、三次元のコンピュータグラフィックによって描画されたキャラクタを表示させ、センサによって検出されたユーザ及びコミュニケーション対象の視線に係る情報、ユーザ及びコミュニケーション対象の音声、及び、ユーザによる操作に基づいて、キャラクタを動作させてもよい。この構成では、ユーザ等の視線や呼びかけに応じてキャラクタが動作する。したがって、一体感のある会話を実現することができる。
 一実施形態においては、ユーザのキャラクタとコミュニケーション対象のキャラクタとが向き合うように動作させてもよい。この構成では、キャラクタ同士が向き合って会話をするため、一体感のある会話を実現することができる。
 一実施形態においては、サイバー空間において、識別情報及び状態アニメーションを表示させてもよい。この構成では、VR(Virtual Reality:仮想現実)、AR(Augmented Reality:拡張現実)、MR(Mixed Reality:混合現実)等において実現されるサイバー空間(仮想空間)に識別情報及び状態アニメーションを表示させることができる。
 一実施形態においては、コミュニケーション対象の基本生体存在情報として、状態アニメーショを動作させてもよい。この構成では、例えば、コミュニケーション対象が発話したり、動作したりしていない場合であっても、コミュニケーション対象の存在を状態アニメーションの動作によって伝達することができる。そのため、コミュニケーション対象の存在をユーザに知らしめることができる。
 一実施形態においては、コミュニケーション対象は、人工知能によって動作するAIアシスタントであってもよい。この構成では、AIアシスタントとの円滑なコミュニケーションが実現できる。
 一実施形態においては、状態アニメーションは、動的に変化する顔表情を含まなくてもよい。状態アニメーションをアバター等のようにコミュニケーション対象等の顔に似せて作成し、動的に変化する顔表情として表現すると、不気味の谷の影響を受け得る。また、動的に変化する顔表情を含む場合、多くの伝送容量を必要とする。これに対して、状態アニメーションは、動的に変化する顔表情を含まないため、不気味な印象を与えることがない。また、伝送容量を小さくすることができる。
 一実施形態においては、コミュニケーション対象が沈黙している場合には、状態アニメーションにおいて色を変化させてもよい。この構成では、コミュニケーション対象が思案等によって沈黙していることを状態アニメーショによって認識することができる。
 一実施形態においては、所定のタイミングで、状態アニメーションにおいて使用された動作パターンの使用状況を表示させてもよい。この構成では、所定のタイミング(例えば、コミュニケーション中、コミュニケーション終了後)に状態アニメーションの動作パターンの使用状況(使用履歴)を表示することで、ユーザ及びコミュニケーション対象の反応の傾向等を確認することができる。
 一実施形態においては、使用状況として、ユーザ及びコミュニケーション対象における動作パターンの使用割合、及び、時間軸に対応した動作パターンの使用頻度の変化の少なくとも一方を表示させてもよい。この構成では、使用状況を様々な態様で確認することができる。
 本開示の一実施形態に係るコミュニケーション支援方法は、ユーザのコミュニケーションを支援するコミュニケーション支援方法であって、コミュニケーション対象を識別可能な識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを含む。
 本開示の一実施形態に係るコミュニケーション支援方法では、識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる。これにより、コミュニケーション支援方法では、コミュニケーション対象の状態を認識することができる。したがって、コミュニケーション支援方法では、円滑なコミュニケーションを実現できる。
 本開示の一実施形態に係るコミュニケーション支援システムは、ユーザのコミュニケーションを支援するコミュニケーション支援システムであって、コミュニケーション対象を識別可能な識別情報と、当該コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる制御部を備える。
 本開示の一実施形態に係るコミュニケーション支援システムでは、制御部は、識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる。これにより、コミュニケーション支援システムでは、コミュニケーション対象の状態を認識することができる。したがって、コミュニケーション支援システムでは、円滑なコミュニケーションを実現できる。
 本開示の一実施形態に係る端末装置は、ユーザのコミュニケーションを支援する端末装置であって、コミュニケーション対象を識別可能な識別情報と、当該コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる制御部を備える。
 本開示の一実施形態に係る端末装置では、制御部は、識別情報と、コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる。これにより、端末装置では、コミュニケーション対象の状態を認識することができる。したがって、端末装置では、円滑なコミュニケーションを実現できる。
[本開示の実施形態の詳細]
 本開示の実施形態の具体例を、以下に図面を参照しつつ説明する。本開示はこれらの例示に限定されるものではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
・第1実施形態
 図1は、第1実施形態に係るコミュニケーション支援システム(以下、単に「システム」という場合もある。)の概略構成の例を示す図である。システム100は、コミュニケーションを支援するコンピュータシステムである。コミュニケーションの例は、テレビ会議、診察、カウンセリング、面接(人物評価)、テレワーク等、他のユーザとの通話を伴うものである。
<システムの構成>
 システム100は、端末(端末装置)10、端末20及び端末30を含む。図1に示される例では、端末10は、ユーザU1が使用するラップトップ型のパーソナルコンピュータ(PC)である。端末20は、ユーザU2が使用する携帯電話機(スマートフォン等)である。端末30は、ユーザU3が使用するデスクトップ型のPCである。端末10、端末20及び端末30は、ネットワークNに接続可能である。この例では、端末10はアクセスポイントAPを介して、端末20は基地局BSを介して、端末30は有線(不図示)により、それぞれネットワークNに接続される。端末10、端末20及び端末30には、上述のPC、携帯電話機以外にも、タブレット端末、ウェアラブル端末、ヘッドマウントディスプレイ(HMD)端末、その他さまざまな端末が用いられてよい。なお、システム100に含まれる端末の数は、図1の例に限定されない。
 システム100は、サーバ40を含む。サーバ40は、ネットワークNに接続される。したがって、端末10、端末20、端末30及びサーバ40は、ネットワークNを介して互いに通信可能である。なお、システム100に含まれるサーバの数は、図1の例に限定されない。
 ネットワークNの構成は限定されない。例えば、ネットワークNは、インターネット(公衆網)、通信キャリアネットワーク、事業者ネットワーク等を含んで構成されてよい。
 図2は、システム100によって提供されるコミュニケーションの例を示す図である。コミュニケーションは、コンピュータによって表現される通話画面G(出力部15)で行われる。通話画面Gは、端末10、端末20及び端末30に表示されることで、ユーザU1、ユーザU2及びユーザU3に提示される。ユーザU1,U2,U3は、互いにコミュニケーション対象である。図2に示す例では、ユーザU1のキャラクタC1、ユーザU2のキャラクタC2及びユーザU3のキャラクタC3が、コミュニケーションの参加者として通話画面Gに現れている。図2では、ユーザU1が発話状態であることを示している。
 キャラクタC1,C2,C3は、通話画面GにおいてユーザU1,U2,U3を示すものである。キャラクタC1,C2,C3は、ダイナミックなキャラクタである。キャラクタC1,C2,C3は、ユーザU1,U2,U3の実際の像(撮像データ等)とは独立した画像素材によって生成される。画像素材は、アニメーションキャラクタを生成するための素材である。キャラクタC1,C2,C3は二次元又は三次元のコンピュータグラフィック(CG)によって描画されてもよい。
 キャラクタC1,C2,C3は、アイコンB及び耳アニメーションEを含んで構成される。キャラクタC1,C2,C3では、アイコンBと耳アニメーションEとが通話画面Gにおいて、一体的に表示される。一体的に表示されるとは、キャラクタC1,C2,C3を見たときに、視覚的にアイコンBと耳アニメーションEとが一つのまとまりとして認識されることを意味する。すなわち、一体的に表示されるとは、アイコンBと耳アニメーションEとが結びついている(対応している)ことを一見して認識できる状態であればよい。そのため、一体的に表示されるとは、アイコンBと耳アニメーションEとが接触している状態であってもよいし、アイコンBと耳アニメーションEとが離隔している状態であってもよい。
 アイコンBは、通話相手であるユーザを識別可能な識別情報である。アイコンBは、ユーザを示す画像及びユーザを示すテキストの少なくとも一方を含む。図2に示す例では、アイコンBは、円形状を呈しており、ユーザを識別可能なテキスト(「A」、「B」、「C」)を含んでいる。テキストは、アイコンBの表示領域に表示されている。本実施形態では、表示領域が円形状を呈しているとも言える。本実施形態では、例えば、アイコンBに表示の「A」は、ユーザU1を示しており、アイコンBに表示の「B」は、ユーザU2を示しており、アイコンBに表示の「C」は、ユーザU3を示している。アイコンBの形状は、他の形状であってもよい。アイコンBは、ユーザが設定した画像(顔写真等)を含んでいてもよい。アイコンBは、ユーザによって自由に選択及び設定されてもよい。
 耳アニメーションEは、ユーザの状態を示す状態アニメーションである。状態アニメーションは、ユーザの状態を、ユーザの実際の動作部位とは異なる形態で表現したアニメーションである。状態アニメーショは、動的に連続的に変化する顔表情を含まない。すなわち、状態アニメーションは、ユーザの状態に応じて変化する顔表情を含まない。状態アニメーションは、アイコンBの表示領域の外側に表示領域から突出するように表示される。耳アニメーションEは、動物(例えば、うさぎ等)の耳を模したアニメーションであり、ユーザの状態の変化に応じて動作する。耳アニメーションEは、ユーザの感情及び動作の少なくとも一方に応じて動作する。ユーザの感情とは、例えば、嬉しい、驚き等である。ユーザの動作とは、例えば、視線(視線移動)、姿勢、ジェスチャ、表情等である。耳アニメーションEは、例えば、伸縮、折り曲げ、揺動等の動作をする。
 キャラクタC1(C2,C3)は、発話アニメーションHを更に含んで構成される。キャラクタC1(C2,C3)では、アイコンB、耳アニメーションE及び発話アニメーションHが通話画面Gにおいて、一体的に表示される。発話アニメーションHは、発話者(話し手)の音声データに基づくアニメーションである。発話アニメーションHは、発話者の発話の態様に応じて動作する。発話アニメーションHは、例えば、左右に伸縮する動作をする。
 図3は、端末10、端末20、端末30及びサーバ40の機能ブロックの例を示す図である。端末20及び端末30の機能ブロックは、端末10の機能ブロックと同様であるので、以下では端末10及びサーバ40について説明する。はじめに端末10について説明し、次にサーバ40について説明する。
<端末の構成>
 端末10は、入力部11を含む。入力部11は、ユーザU1の音声データ及び画像データが入力される部分である。入力部11は、ユーザU1の映像データが入力されてもよい。映像は、ユーザU1の音声データ及び画像データを含む。
 端末10は、制御部12を含む。制御部12は、ユーザU1の制御データを生成する部分である。ユーザU1の制御データは、入力部11に入力されたユーザU1の音声データ及び画像データに基づいて生成される。画像データは、連続する複数の単位フレームによって構成される。単位フレームは、通常、ユーザU1の画像情報を含む。例えば60フレーム/秒の画像データは、一秒間に60個の単位フレームを含む。
 制御部12は、ユーザU1の音声データ(言語データ)及びユーザU1の態様を示す態様データの少なくともいずれか一方に基づいて、ユーザU1の状態を推定する。ユーザU1の態様は、少なくとも、非言語行動を含む。非言語行動は、言語を用いない行動である。ユーザU1の態様は、例えば視線(視線移動)、姿勢、ジェスチャ、表情等である。顔の姿勢又は動作の例は、領き、首振り、首傾げ等である。上半身の姿勢又は動作の例は、胴体の向き、肩のねじり、肘の曲げ、手の上げ下げ等である。指の動きの例は、拍手、伸展、屈曲、外転、内転等である。表情の例は、思考、喜び、驚き、悲しみ、怒り等である。
 制御部12は、音声データ及び画像データに基づいて、ユーザU1の状態を推定する。ユーザU1の状態は、ユーザU1の感情及び動作の少なくとも一方を含み得る。制御部12は、ユーザU1の発話言語のキーワード、ユーザU1の感情、ユーザU1の姿勢、ユーザU1のジェスチャ、ユーザU1の音声のリズム(発話速度)及びユーザU1の動作速度等から、ユーザU1の状態を推定する。
 制御部12は、例えば、以下の動作をトリガーとしてユーザU1の状態を推定し、制御データを生成する。
・ユーザU1の発したキーワード(ありがとう、ごめんさない、賛成、反対等)
・ユーザU1の感情認識(嬉しい、驚き、思考)
・ユーザU1のジェスチャ認識(頷き、挙手、首傾げ、拍手)
・ユーザU1の発話速度の検出
・ユーザU1の動作速度の検出
 本実施形態では、制御部12は、学習済みモデル13Lを用いてユーザの状態を推定する。学習済みモデル13Lは、後述する記憶部13に記憶される。学習済みモデル13Lは、例えば、深層学習によって生成され得る。学習済みモデル13Lは、複数の学習済みモデルを含み得る。
 制御部12は、画像データを第1の学習済みモデルに入力することで、画像データに基づく第1の推定結果を得る。制御部12は、音声データを第2の学習済みモデルに入力することで、音声データに基づく第2の推定結果を得る。制御部12は、第1の推定結果及び第2の推定結果を第3の学習済みモデルに入力することで、ユーザU1の状態に係る推定結果を得る。制御部12は、学習済みモデルの推定結果に基づいて、ユーザU1の状態を推定する。
 制御部12は、推定したユーザU1の状態に基づいて、耳アニメーションE及び発話アニメーションHの動作を制御するための制御データを生成する。以下、制御部12が制御データを生成する一例について、図4~図7を参照して説明する。
 制御部12は、例えば、ユーザU1の視線が端末10の通話画面Gに注目している場合には、図4のタイプAに示されるように、キャラクタC1の耳アニメーションEにおいて、耳を立たせると共に色を変化させる(着色する)制御データを生成する。
 制御部12は、例えば、ユーザU1が頷いたり相槌を打ったりしている場合、及び/又は、ユーザU1が所定の発言(「うんうん」、「はい」等)をした場合には、図4のタイプBに示されるように、キャラクタC1の耳アニメーションEにおいて、耳の上部1/3部分における前後の折り曲げを繰り返し実施させる制御データを生成する。
 制御部12は、例えば、ユーザU1が嬉しいという感情を表している場合、及び/又は、ユーザU1が笑い声を発した場合には、図4のタイプCに示されるように、キャラクタC1を軸中心に小刻みに所定時間(例えば、2秒間)回転(振動)させる制御データを生成する。
 制御部12は、例えば、ユーザU1が他のユーザの発話に対して同意している態度を表している場合、及び/又は、ユーザU1が所定の発言(「賛成」等)をした場合には、図5のタイプAに示されるように、キャラクタC1の耳アニメーションEにおいて、耳の上部1/2部分における前後の折り曲げを所定回数(例えば、2回)繰り返し実施させる制御データを生成する。
 制御部12は、例えば、ユーザU1が思案(首をかしげる等)している場合、及び/又は、ユーザU1が所定の発言(「うーん」等)をした場合には、図5のタイプBに示されるように、キャラクタC1を左右にゆっくり揺動させる制御データを生成する。
 制御部12は、例えば、ユーザU1が他のユーザの発話に対して反対(人差し指を胸の前で交差等)の態度を表している場合、及び/又は、ユーザU1が所定の発言(「反対」等)をした場合には、図5のタイプCに示されるように、キャラクタC1の耳アニメーションEにおいて、耳を交差させた状態を一定時間維持させる制御データを生成する。
 制御部12は、例えば、ユーザU1が首を下げる動作をしている場合、及び/又は、ユーザU1が所定の発言(「ありがとう」、「ごめんなさい」等)をした場合には、図6のタイプAに示されるように、キャラクタC1の耳アニメーションEにおいて、耳の上部2/3部分における折り曲げを一定時間維持させる制御データを生成する。
 制御部12は、例えば、ユーザU1が挙手をしている場合には、図6のタイプBに示されるように、キャラクタC1の耳アニメーションEにおいて、一方の耳を伸縮させる制御データを生成する。
 制御部12は、例えば、ユーザU1の視線が一定時間通話画面Gから外れている場合には、図6のタイプCに示されるように、キャラクタC1の耳アニメーションEにおいて、耳を左右に傾倒させると共に色を変化させる(無色にする)制御データを生成する。
 制御部12は、例えば、発話者が存在しておらず、ユーザU1の視線が通話画面G内にある状態で沈黙している場合には、図7のタイプAに示されるように、キャラクタC1の耳アニメーションEにおいて、耳の色をゆっくりと連続的に変化させる制御データを生成する。
 制御部12は、例えば、ユーザU1が発話者である場合には、図7のタイプBに示されるように、キャラクタC1において、耳アニメーションEの耳を立たせると共に色を変化させ、且つ、発話アニメーションHを表示させる制御データを生成する。制御部12は、例えば、ユーザU1の発話中、発話アニメーションHが左右に伸縮する制御データを生成する。
 制御部12は、上記の制御データにおいて、キャラクタC1の動作のリズムを制御する内容を含めることができる。制御部12は、耳アニメーションEの動作(折り曲げ、伸縮、振動、色変化等)に対して、リズムを調整(設定)した制御データを生成する。制御部12は、発話アニメーションHの動作(伸縮)に対して、リズムを調整した制御データを生成する。
 制御部12は、音声データに基づいて発話速度を検出し、耳アニメーションE及び発話アニメーションHの動作に発話速度に基づくリズムを反映させる。制御部12は、音声モデル又は音響モデルに基づいて音声データをサブワード分割し、発話速度を検出し得る。制御部12は、キャラクタC1の耳アニメーションE及び発話アニメーションHの動作に、ユーザU1の発話速度に基づくリズムを反映させる。
 制御部12は、画像データに基づいてユーザU1の身体の動作(揺れ等)速度を検出し、耳アニメーションEの動作に動作速度に基づくリズムを反映させる。制御部12は、姿勢推定モデルに基づいてキーポイント(身体の関節点)を検出し、時系列のシーンから所定時間の間隔での同一キーポイントの動きの軌跡を検出し、動作速度を検出し得る。制御部12は、キャラクタC1の耳アニメーションEの動作に、ユーザU1の動作速度に基づくリズムを反映させる。
 制御部12は、制御データに基づいて、キャラクタC1,C2,C3の動作を制御する部分でもある。制御部12は、生成した制御データ及び受信した制御データに基づいて、通話画面G(図2参照)にキャラクタC1,C2,C3を表示させると共に、キャラクタC1,C2,C3の耳アニメーションE及び発話アニメーションHの動作を制御する。本実施形態では、図2に示されるように、制御部12は、キャラクタC1、キャラクタC2及びキャラクタC3を同じサイズで通話画面Gに表示させる。
 制御部12は、ユーザU1が受話者(聞き手)である場合、受信した制御データに基づいて、キャラクタC1の耳アニメーションEの動作を、発話者のキャラクタC2又はキャラクタC3の発話速度に基づくリズムに同調させる。制御部12は、発話者が存在していない(ユーザが発言していない)場合、規定のリズム(全てのユーザのキャラクタに適用されるリズム)で、キャラクタC1,C2,C3の耳アニメーションEを動作させる。
 制御部12は、通話画面Gの映像データを生成する部分でもある。通話画面Gの映像データは、制御データに基づいて制御されるキャラクタC1、キャラクタC2及びキャラクタC3の映像データを含む。この他に、通話画面Gに現れるさまざまなオブジェクトが、通話画面Gの映像データに含まれてよい。
 端末10は、記憶部13を含む。記憶部13は、端末10の制御(処理)に必要な情報を記憶する部分である。図3には、記憶部13に記憶される情報として、端末プログラム13P及び学習済みモデル13Lが例示される。端末プログラム13Pは、端末10を動作させるためのプログラムであり、制御部12による制御等が実行されるようにコンピュータを動作させる。システム100がコミュニケーション支援システムであるので、端末プログラム13Pは、コミュニケーション支援プログラムともいえる。
 学習済みモデル13Lは、例えば、CD-ROM、DVD-ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で端末10に提供されてもよい。あるいは、学習済みモデル13Lは、搬送波に重畳されたデータ信号として通信ネットワークを介して端末10に提供されてもよい。
 端末10は、通信部14を含む。通信部14は、ネットワークN(図1参照)を介して、端末10の外部装置と通信する部分である。端末10の外部装置の例は、端末20、端末30及びサーバ40である。通信部14は、音声データ及び制御部12が生成した制御データをサーバ40に送信したり、音声データ及び制御データをサーバ40から受信したりする。
 端末10は、出力部15を含む。出力部15は、通話画面Gの映像を出力する。通話画面Gの映像は、制御部12によって生成された通話画面Gの映像データに基づく映像である。
<サーバの構成>
 サーバ40は、制御部42を含む。制御部42は、サーバ40の動作を制御する。サーバ40は、記憶部43を含む。記憶部43は、サーバ40の制御に必要な情報を記憶する部分である。図3には、記憶部43に記憶される情報として、サーバプログラム43P及び受信データ43Sが例示される。サーバプログラム43Pは、サーバ40を動作させるためのプログラムであり、制御部42による制御等が実行されるようにコンピュータを動作させる。受信データ43Sは、端末10、端末20及び端末30からサーバ40に送られるデータであり、端末10、端末20及び端末30が生成した制御データを含み得る。
 サーバ40は、通信部44を含む。通信部44は、ネットワークN(図1参照)を介して、サーバ40の外部装置と通信する部分である。サーバ40の外部装置の例は、端末10、端末20及び端末30である。通信部44は、ユーザU1の制御データ、ユーザU2の制御データ及びユーザU3の制御データを端末10、端末20及び端末30からそれぞれ受信したり、端末10、端末20及び端末30が生成した制御データを端末10、端末20及び端末30のそれぞれに送信したりする。
<ハードウェア構成>
 端末10及びサーバ40の各機能部分に関するハードウェア構成の例を説明する。サーバ40の通信部44は、ネットワークNにアクセスできるように、ネットワークカード又は無線通信デバイスを用いて構成され得る。サーバ40の制御部42は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサと、クロックと、内蔵メモリとを用いて構成され得る。制御部42は、プロセッサ、クロック、内蔵メモリ、記憶部43及び通信部44を集積した一つのハードウェア(SoC:System On a Chip)として構成されてもよい。制御部42は、サーバプログラム43Pに基づいて動作することで、サーバコンピュータをサーバ40として動作させる。サーバ40の記憶部43は、フラッシュメモリ、ハードディスク、SSD(Solid State Disk)等の不揮発性記憶媒体を用いて構成され得る。
 端末10の入力部11は、マイクロフォン、カメラ等を用いて構成され得る。マイクロフォンにより、ユーザU1の音声が取得される。すなわち、マイクロフォンは、音声を取得する音声センサの一種である。カメラにより、ユーザU1の画像が取得される。すなわち、カメラは、画像を取得する画像センサの一種である。さらに、入力部11は、キーボード、マウス、タッチパネルの操作デバイスも用いて構成されてよい。端末10の制御部12は、サーバ40の制御部42と同様に構成され得る。制御部12は、端末プログラム13Pに基づいて動作することで、汎用コンピュータを端末10として動作させる。端末10の記憶部13は、サーバ40の記憶部43と同様に構成され得る。端末10の通信部14は、サーバ40の通信部44と同様に構成され得る。端末10の出力部15は、液晶パネル、有機ELパネル等(タッチパネルでもよい)等のディスプレイ装置を用いて構成され得る。さらに、出力部15は、スピーカも用いて構成されてよい。
<システムの動作>
 図8は、システム100において実行される処理(コミュニケーション支援方法)の例を示すシーケンス図である。図8に示される処理は、コミュニケーションが継続している間、繰り返し実行され得る。
 ステップS1からステップS3において、制御データが生成される。具体的に、ステップS1において、端末10が、制御データを生成する。ステップS2において、端末20が、制御データを生成する。ステップS3において、端末30が、制御データを生成する。
 ステップS4からステップS6において、制御データがサーバ40に送信される。具体的に、ステップS4において、端末10が、制御データをサーバ40に送信する。ステップS5において、端末20が、制御データをサーバ40に送信する。ステップS6において、端末30が、制御データをサーバ40に送信する。ステップS7において、制御データが受信データ43Sとしてサーバ40の記憶部43に格納される。
 ステップS8からステップS10において、制御データが端末10、端末20及び端末30に送信される。具体的に、ステップS8において、サーバ40が、制御データを端末10に送信する。ステップS9において、サーバ40が、制御データを端末20に送信する。ステップS10において、サーバ40が、制御データを端末30に送信する。
 ステップS11からステップS13において、キャラクタが制御される。具体的に、ステップS11において、端末10が、先のステップS8で受信した制御データに基づいて、キャラクタを制御する。これにより、端末10に表示される通話画面G中のキャラクタが、ユーザU1、ユーザU2及びユーザU3の動作を反映するように動作する。端末10は、通話相手である他のユーザを識別可能なアイコンBと、当該他のユーザの状態を示す耳アニメーションEと、を通話画面において一体的に表示させる。
 ステップS12において、端末20が、先のステップS9で受信した制御データに基づいて、キャラクタを制御する。これにより、端末20に表示される通話画面G中のキャラクタが、ユーザU1、ユーザU2及びユーザU3の動作を反映するように動作する。ステップS13において、端末30が、先のステップS10で受信した制御データに基づいて、キャラクタを制御する。これにより、端末30に表示される通話画面G中のキャラクタが、ユーザU1、ユーザU2及びユーザU3の動作を反映するように動作する。
 図9は、端末10、端末20及び端末30において実行される処理(コミュニケーション支援方法)の例を示すフローチャートである。図9に示される処理は、コミュニケーションが継続している間、繰り返し実行され得る。
 ステップS21において、画像データが入力される。ステップS22において、画像データに基づいて、態様認識(感情認識、ジェスチャ認識)が行われる。具体的には、端末10、端末20及び端末30において、画像データを学習済みモデルに入力し、態様認識の推定結果を得る。学習済みモデルは、画像データが入力されると、態様認識の推定結果を出力する。ステップS23において、動作速度が検出される。
 ステップS24において、音声データが入力される。ステップS25において、音声データに基づいて、音声認識が行われる。具体的には、端末10、端末20及び端末30において、音声データを学習済みモデルに入力し、音声認識の推定結果を得る。学習済みモデルは、音声データが入力されると、音声認識の推定結果を出力する。ステップS26において、発話速度が検出される。そして、ステップS27において、制御データが生成される。
[効果]
 以上説明したように、本実施形態に係るシステム100では、端末10、端末20及び端末30のそれぞれの制御部12は、アイコンBと、ユーザU1,U2,U3の状態を示す耳アニメーションEと、を通話画面Gにおいて一体的に表示させる。これにより、システム100では、通話相手である他のユーザの状態を認識することができる。したがって、システム100では、端末10、端末20及び端末30を用いて行う通話において円滑なコミュニケーションを実現できる。
 コミュニケーションにおいて、会話中の頷き等、発話や行動に対する同調は、他のユーザとの共感を増大させ、協調作業の効率を向上することが知られている。そのため、通話画面Gにおいて、耳アニメーションEをユーザU1,U2,U3の状態に応じて動作させることにより、コミュニケーションの向上を図ることができる。特に、本実施形態に係るシステム100では、制御部12は、音声データに基づいて発話速度を検出し、耳アニメーションE及び発話アニメーションHの動作に発話速度に基づくリズムを反映させている。また、制御部12は、画像データに基づいてユーザU1の身体の動作(揺れ等)速度を検出し、耳アニメーションEの動作に動作速度に基づくリズムを反映させている。したがって、システム100では、ユーザU1,U2,U3の状態をより的確に把握することができる。
 また、耳アニメーションEを含むキャラクタC1,C2,C3は、絵文字、アバター及び映像対話に対して、以下の優位性を有している。キャラクタC1,C2,C3は、絵文字に比べて、リアルタイム性、ダイナミック性に優れている。また、アバターの場合、そのデザインに印象が強く左右される。また、アバターをユーザの顔に単純に似せて作成すると、不気味の谷の影響を受け得る。これに対して、キャラクタC1,C2,C3は、同様のデザインであるため、ユーザ毎に印象が左右されず、不気味な印象も与えない。また、映像通話では、カメラ目線ではないため、視線が一致しない不自然な表情(カメラが上に配置されている場合、うつむき映像等)となるため、相手が違和感を覚えるおそれがある。また、多くの伝送容量を必要とする。これに対して、キャラクタC1,C2,C3の場合、相手に違和感を与えることを抑制でき、かつ、伝送容量も小さくすることができる。
 また、キャラクタC1,C2,C3は、顔としての表情を持たないが、それを特徴として、効果的なコミュニケーションの生成に作用させている。顔表情でない非言語表現として、耳アニメーションEの動作や傾きで、無限の顔表情に相当する感性を伝達させている。それを可能としているのは、音声、対話の文脈と連動した耳アニメーションEの視覚的動作であり、非言語表現の受け取り手の想像力の活用である。想像力の活用によって、深い、機微な感性を伝えることができる。そのため、顔表情とは異なる動作部位(耳アニメーションE)への変換が重要となる。
 また、ユーザU1,U2,U3の状態を示す耳アニメーションEが動作するため、例えば、リモート講義等において、話し手が一方に発話するような状況であっても、聞き手の反応を得ることができる。そのため、話し手は、聞き手の反応に応じた対応を取ることができる。したがって、円滑なコミュニケーションを実現することができる。
 また、ユーザU1,U2,U3の自身の状態を耳アニメーションEによって他のユーザに伝えることができるため、会話による感情表現が苦手な場合であっても、相手に対して自身の状態を伝えることができる。このように、非言語表現を強化できるため、円滑なコミュニケーションの実現が可能となる。
 本実施形態に係るシステム100では、ユーザU1,U2,U3の状態を示す状態アニメーションは、耳を模した耳アニメーションEであり、ユーザU1,U2,U3の状態の変化に応じて動作する。例えば、状態アニメーションが通話相手のユーザU1,U2,U3の顔アニメーションである場合、通話画面G上において、顔の微妙な変化から感情の変化等を読み取らなければならない。また、顔アニメーションのさまざまな部位の動作に注目しなければならないため、ユーザU1,U2,U3の状態を把握することが容易ではない。システム100では、ユーザU1,U2,U3の状態の変化が耳を模した耳アニメーションEの動作によって表現されるため、耳アニメーションEだけに注目すればよい。したがって、通話相手の状態を容易に把握することができる。
 本実施形態に係るシステム100では、識別情報は、通話画面Gに表示されるアイコンBであり、ユーザU1,U2,U3を示す画像及びユーザU1,U2,U3を示すテキストの少なくとも一方を含んでいる。この構成では、通話画面Gにおいて、通話相手であるユーザU1,U2,U3を一見して認識することができる。
 本実施形態に係るシステム100では、耳アニメーションEは、ユーザU1,U2,U3の感情及び動作の少なくとも一方に応じて動作する。この構成では、通話相手であるユーザU1,U2,U3の感情や動作を認識することができる。
 本実施形態に係るシステム100では、ユーザU1,U2,U3の音声データ及びユーザU1,U2,U3の態様を示す態様データの少なくともいずれか一方に基づいて、ユーザの状態を推定するステップと、ユーザU1,U2,U3の状態に基づいて、耳アニメーションEの動作を制御するための制御データを生成するステップと、制御データを出力するステップと、を実行する。この構成では、耳アニメーションEの動作を制御するための制御データを出力するため、ユーザU1,U2,U3の状態に係る全てのデータを出力する場合に比べて、端末10、端末20及び端末30から出力(送信)されるデータ容量を小さくすることができる。そのため、通信速度が遅かったり、大容量のデータ通信が行えなかったりする通信環境においても、端末10、端末20及び端末30を用いて行う通話において円滑なコミュニケーションを実現できる。
 本実施形態に係るシステム100では、ユーザU1,U2,U3の状態を推定するステップでは、学習済みモデル13Lを用いてユーザU1,U2,U3の状態を推定し、学習済みモデルは、音声データ及び態様データの少なくともいずれか一方が入力されると、ユーザの状態を出力する。この構成では、ユーザU1,U2,U3の状態を高精度に推定することが可能となる。
 本実施形態に係るシステム100は、発話者の音声データに基づく発話アニメーションHであって耳アニメーションEとは異なる発話アニメーションHを、発話者のアイコンBと一体的に通話画面Gに表示させるステップを実行する。発話アニメーションHは、発話者の発話の態様に応じて動作する。この構成では、発話者を一見して認識することができると共に、発話者の発話状態を発話アニメーションHによって認識することができる。
 本実施形態に係るシステム100では、例えば、ユーザU1のキャラクタC1と、ユーザU2のキャラクタC2と、ユーザU3のキャラクタC3とを、通話画面Gに表示させる。この構成では、ユーザU1,U2,U3が自身の耳アニメーションEを確認することができる。また、ユーザU1,U2,U3のそれぞれの耳アニメーションEが通話画面Gに一緒に表示されるため、ユーザU1,U2,U3が同一空間に存在しているような印象を与えることができ、臨場感、一体感のある会話を実現することができる。その結果、円滑なコミュニケーションを実現できる。
 本実施形態に係るシステム100では、通話画面Gにおいて、キャラクタC1,C2,C3を同じサイズで表示させる。この構成では、同じサイズでキャラクタC1,C2,C3を表示することにより、ユーザU1,U2,U3が同一空間に存在しているような印象をより一層与えることができるため、より一層、臨場感、一体感のある会話を実現することができる。
 以上、本開示の第1実施形態について説明してきたが、本開示は必ずしも上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で変更が可能である。
 上記第1実施形態では、端末10、端末20及び端末30において制御データを生成する形態を一例に説明した。しかし、制御データは、サーバ40によって生成されてもよい。この構成では、端末10、端末20及び端末30は、音声データ及び画像データをサーバ40に送信し、サーバ40は、音声データ及び画像データに基づいて、制御データを生成する。この場合、サーバプログラム43Pは、コミュニケーション支援プログラムともいえる。また、制御データは、他の端末10、端末20及び端末30のそれぞれから送信された音声データ及び画像データに基づいて、端末10、端末20及び端末30のそれぞれにおいて生成されてもよい。
 上記第1実施形態では、端末10の入力部11がカメラを用いて構成され、カメラにより、ユーザU1の画像が取得される形態を一例に説明した。しかし、端末10は、レーザ等によって、態様データを取得してもよい。また、動作速度の検出には、赤外線センサアレイ、3軸センサ、圧力センサ等を用いてもよい。端末20及び端末30についても同様である。なお、ヘッドマウントディスプレイ(HMD)端末である場合には、ユーザの視線や瞳孔、ユーザの頭部の動作を適切に検出することができる。
 上記第1実施形態では、端末10,20,30の通話画面GにアイコンB及び耳アニメーションE等が表示される形態を一例に説明した。しかし、端末がウェアラブル端末、ヘッドマウントディスプレイ(HMD)端末である場合には、アイコンB及び耳アニメーションE等がレンズ等に表示されてもよいし、ホログラムで表示されてもよい。すなわち、サイバー空間において、キャラクタC1,C2,C3を表示させる。サイバー空間には、VR(Virtual Reality:仮想現実)、AR(Augmented Reality:拡張現実)、MR(Mixed Reality:混合現実)が含まれ得る。
 上記第1実施形態では、制御部12が、ユーザU1の音声データ及びユーザU1の態様を示す態様データの少なくともいずれか一方に基づいて、ユーザU1,U2,U3の状態を推定する形態を一例に説明した。しかし、ユーザの状態は、更に環境情報も加味して推定されてもよい。環境情報は、例えば、音楽(BGM)、位置情報等である。
 上記第1実施形態では、学習済みモデル13Lによって、ユーザの状態を推定する形態を一例に説明した。しかし、ユーザの状態は、他の方法により推定されてもよい。例えば、音声データは、自然言語処理(NLP:Natural Language Processing)によって処理されてもよい。画像データは、パターンマッチングによって処理されてもよい。例えば、画像データを解析して、ユーザU1、ユーザU2及びユーザU3の態様に対応するパターンを決定してよい。画像パターンは、予め記憶部43に記憶された有限個の所与のパターンの中から選択されてもよい。
 また、ユーザの状態は、予め設定された言葉の音声認識によって決定されてもよい。例えば、所定の言葉(文字、音声を含む)と耳アニメーションEの動作パターンとが対応付けられており、所定の言葉が発せられた場合、所定の言葉に対応する動作パターンに基づいて耳アニメーションEを動作させてもよい。動作パターンは、予め設定されている標準動作パターン、及び、ユーザU1,U2,U3が予め作成した作成パターンの少なくとも一方から選択されて所定の言葉と対応付けられてもよい。
 上記第1実施形態のように、耳アニメーションEは、音声や動作等のセンシング結果より動作が設定(決定)される。これに加えて、使用する本人の所定の言葉の登録を行い、所定の言葉と、耳アニメーションEの動作パターンとを対応付けしておくと、認識効率が向上するため、ユーザU1,U2,U3の状態に適した状態アニメーションを迅速に表示させることができる。また、ユーザU1,U2,U3の独自の言葉使いに対しての非言語表現に対応できる。動作パターンは、予め設定されている標準動作パターン及び、ユーザU1,U2,U3が予め作成した作成パターンの少なくとも一方から選択することができる。このように、動作パターンを作成し、作成パターンも動作パターンとして使用できるため、本人の独自言葉に対応した独自の非言語表現、動作パターンとすることができる。これにより、非言語表現の創作もできる。したがって、より豊かなコミュニケーションを実現できる。また、新しい言葉、新しい非言語表現をユーザがアップデートできる。
 所定の言葉と動作パターンとの対応付けについて、例えば、軽いうなずきの動作パターンと対応付けられる言葉として、本人が日頃よく使う表現、例えば、「え~、え~」、「うん、うん」、「はい、はい」、「なるほど」、「そう」、「やはり」、「そうですね」、「わかります」、「そう、思います」等の言葉を、本人自身の言葉(音声)で登録する。対話中には、この登録情報を音声認識させて、所定の言葉に紐付く動作パターンを選択することにより、軽いうなずき動作を表現できる。また、所定の言葉を登録できるため、方言や業界特殊言葉等にも対応できる。これにより、独自の表現を非言語表現として表現することができる。なお、耳アニメーションEに限られず、後述する腕アニメーションA及び足アニメーションFについても、所定の言葉と対応付けることができる。
 上記第1実施形態では、制御部12が、第1の推定結果及び第2の推定結果を第3の学習済みモデルに入力することで、ユーザU1の状態に係る推定結果を得る形態を一例に説明した。しかし、制御部12は、第1の推定結果及び第2の推定結果を得た場合、ルールベースによって、ユーザの状態を推定してもよい。また、第1の推定結果及び第2の推定結果のそれぞれに、重み付けを行ってもよい。
 上記第1実施形態に加えて、通話相手の端末に自身のキャラクタを表示するか否か選択可能な機能を有していてもよい。これにより、例えば、複数のユーザのうち、一人だけキャラクタが通話画面Gに表示されており、他のユーザは当該ユーザの映像を表示させることができる。この機能は、ユーザのプライバシー保全、伝送帯域削減に有効である。
 上記第1実施形態に加えて、図10に示されるように、キャラクタC1,C2,C3のそれぞれは、所定の周期で揺動してもよい。所定の周期は、予め初期設定されており、各ユーザU1,U2,U3の状態(身体の揺れ、呼吸、視線変化、心拍、血圧等)に基づいて変化する。図10に示す例では、各ユーザU1,U2,U3の周期が異なっており、揺動が同期していない。すなわち、キャラクタC1,C2,C3が、それぞれ異なる周期で揺動している状態を示している。
 キャラクタC1,C2,C3の揺動の周期は、ユーザU1,U2,U3の会話の状況及び経過時間に基づいて変化する。揺動の周期は、発話者の状態を基準として変化する。具体的には、揺動の周期は、発話者の音量変化リズム、発話者の声のトーン、発話者の発話速度に基づき、経過時間もパラメータとして、ユーザU1,U2,U3の揺動の周期を変化させる。制御部12は、発話者の状態に基づいて、キャラクタC1,C2,C3の揺動の動作を同期させる。例えば、制御部12は、発話者の音量変化リズム、声のトーン及び発話速度が閾値以上となり、且つ、通話を開始してからの経過時間が所定時間を超えた場合に、キャラクタC1,C2,C3の揺動の周期を同じにする制御データを生成する。具体的には、制御部12は、例えば、発話者がユーザU1である場合、キャラクタC1の揺動の周期に、キャラクタC2,C3の周期を合わせる。なお、制御部12は、各ユーザU1,U2,U3間のミラーリングレベル、バックトラッキング、ページング発話量等も検出して、制御データを生成してもよい。
 キャラクタC1,C2,C3の揺動の周期が同期すると、図11に示されるように、キャラクタC1,C2,C3の揺動が同期する。すなわち、キャラクタC1,C2,C3が、同じ周期で同じ方向に揺動する。このように、発話者の状態に基づいてキャラクタC1,C2,C3の揺動を同期させることにより、会話の状態に応じてキャラクタC1,C2,C3の動作に一体感が表現される。したがって、臨場感、一体感のある会話を実現することができる。
 上記第1実施形態に加えて、図12に示されるように、キャラクタC1,C2,C3は、腕アニメーションAを更に含んでいてもよい。腕アニメーションAは、腕及び手の少なくとも一方を模したアニメーションであり、ユーザの状態の変化に応じて動作する。腕アニメーションAは、耳アニメーションEと同様に、ユーザの感情及び動作の少なくとも一方に応じて動作する。腕アニメーションAは、耳アニメーションEと同じ内容の動作をしてもよいし、耳アニメーションEと異なる内容の動作をしてもよい。図12に示す例では、腕アニメーションAと耳アニメーションEとは、同じ内容の動作をしている。具体的には、キャラクタC3は、ユーザU3の挙手の動作に応じて、耳アニメーションEにおいて一方の耳が伸縮していると共に、腕アニメーションAにおいて一方の腕を上げている。制御部12は、ユーザU3が挙手をしている場合には、キャラクタC2の耳アニメーションEにおいて一方の耳を伸縮させると共に、腕アニメーションAにおいて一方の腕を上げる制御データを生成する。
 腕アニメーションAは、例えば、図12に示すキャラクタC1,C2で示す状態が定位置(初期位置)である。腕アニメーションAは、ユーザの動作に応じて、拍手、手を振る、腕を交差させる等の動作を行う。
 上記第1実施形態では、アイコンBにおいて、ユーザを識別可能なテキストとして、「A」、「B」、「C」が表示される形態を一例に説明した。しかし、アイコンBには、図13のタイプAに示されるように、企業名(例えば、「XXX」)、団体名、クラブ名、ブランド名等が表示されてもよいし、図13のタイプBに示されるように、プレゼンター、先生、生徒、カウンセラー、クライアント等の役割が表示されてもよいし、図13のタイプCに示されるように、企業のロゴ等が表示されてもよい。
 上記第1実施形態に加えて、アイコンBには、絵文字、予め設定された画像及びテキストの少なくとも一つが表示されてもよい。図14のタイプAに示されるように、アイコンBには、絵文字が表示される。絵文字は、ユニコードで規定されているものである。絵文字は、ユーザの感情及び動作の少なくとも一方に応じて自動で選択されて表示されてもよいし、ユーザの操作によって選択されて表示されてもよい。自動で選択される場合、制御部12は、例えば、ユーザが嬉しいという感情を表している場合、及び/又は、ユーザが笑い声を発した場合には、笑顔を示す絵文字を表示させる制御データを生成する。ユーザの操作によって手動で選択される場合には、絵文字の一覧から任意の絵文字が選択されてもよいし、所定の操作(キー操作等)によって絵文字が選択されてもよい。
 図14のタイプBに示されるように、アイコンBには、予め設定された画像が表示される。画像は、ユーザによって任意に設定(作成)可能である。図14のタイプBに示す例では、口の形を模した画像(スマイルバー)を示している。各画像には、ユーザの感情及び動作に係る情報が対応付けられている。画像は、ユーザの感情及び動作の少なくとも一方に応じて自動で選択されて表示されてもよいし、ユーザの操作によって選択されて表示されてもよい。自動で選択される場合、制御部12は、例えば、ユーザが嬉しいという感情を表している場合、及び/又は、ユーザが笑い声を発した場合には、笑顔を示す画像を表示させる制御データを生成する。ユーザの操作によって手動で選択される場合には、画像の一覧から任意の絵文字が選択されてもよいし、所定の操作(キー操作等)によって画像が選択されてもよい。
 図14のタイプCに示されるように、アイコンBには、テキストが表示される。テキストは、予め設定されていてもよいし、ユーザによって入力されてもよい。テキストは、ユーザの感情及び動作の少なくとも一方に応じて自動で選択されて表示されてもよいし、ユーザの操作によって選択されて表示されてもよい。自動で選択される場合、制御部12は、例えば、ユーザが他のユーザの発話に対して反対(人差し指を胸の前で交差等)の態度を表している場合、及び/又は、ユーザが所定の発言(「反対」等)をした場合には、「反対」のテキストを表示させる制御データを生成する。ユーザの操作によって手動で選択される場合には、テキストの一覧から任意の絵文字が選択されてもよいし、所定の操作(キー操作等)によってテキストが選択されてもよい。
 上記第1実施形態に加えて、キャラクタC1,C2,C3において、ユーザの視線に係る情報が表示されてもよい。制御部12は、検出されたユーザの視線に基づいて、キャラクタC1,C2,C3に視線に係る情報を表示させる制御データを生成する。以下、図15~図18を参照して、具体的に説明する。以下の説明では、ユーザU1とユーザU2とが通話している態様を一例に説明する。図15のタイプA、図16のタイプA、図17のタイプA及び図18のタイプAは、ユーザU1の端末10の通話画面Gを示しており、図15のタイプB、図16のタイプB、図17のタイプB及び図18のタイプBは、ユーザU2の端末20の通話画面Gを示している。
 図15のタイプA及び図のタイプBでは、ユーザU1及びユーザU2のそれぞれは、キャラクタC1及びキャラクタC2を見つめていない。すなわち、ユーザU1及びユーザU2の視線が、キャラクタC1及びキャラクタC2上に無い。ユーザU1がユーザU2のキャラクタC2を見つめると、図16のタイプAに示されるように、キャラクタC2の耳アニメーションEに視線送信情報GTが表示される。視線送信情報GTは、ユーザU1がキャラクタC2を見つめていることを示している。視線送信情報GTは、例えば、楕円形等を呈している。視線送信情報GTは、例えば、目のアイラインを模している。また、ユーザU1がユーザU2のキャラクタC2を見つめると、図16のタイプBに示されるように、キャラクタC1の耳アニメーションEに視線受信情報GRが表示される。視線受信情報GRは、ユーザU1がキャラクタC2を見つめていることを示している。視線受信情報GRは、例えば、黒丸であり、円形状を呈している。視線受信情報GRは、例えば、目の瞳を模している。
 さらに、ユーザU2がユーザU1のキャラクタC1を見つめると、図17のタイプAに示されるように、キャラクタC2の耳アニメーションEに視線一致情報GCが表示される。視線一致情報GCは、ユーザU1がキャラクタC2を見つめていると共に、ユーザU2がキャラクタC1を見つめていることを示している。すなわち、アイコンタクトが取れていることを示している。視線一致情報GCは、例えば、視線送信情報GTと視線受信情報GRとが重ねられた形態を有している。視線一致情報GCは、例えば、目を模している。同様に、ユーザU2がユーザU1のキャラクタC1を見つめると、図17のタイプBに示されるように、キャラクタC1の耳アニメーションEに視線一致情報GCが表示される。
 また、ユーザU1がキャラクタC1を見つめると、図18のタイプAに示されるように、キャラクタC1の耳アニメーションEに視線一致情報GCが表示される。このとき、ユーザU2はキャラクタC1及びキャラクタC2のいずれも見つめていないため、図18のタイプBに示されるように、ユーザU2の通話画面Gには視線一致情報GCは表示されない。
 なお、視線送信情報GT、視線受信情報GR及び視線一致情報GCのデザイン、位置、大きさ等は、適宜設定することができる。また、ユーザが多数存在しており、特定のユーザが発話者になる場合(例えば、講演会等の場合)には、視線送信情報GTが複数のユーザのキャラクタに同時に表示されるように設定することも可能である。また、視線の検出については、検出領域を設定することができる。具体的には、例えば、キャラクタC1,C2,C3の周囲を含めた広い領域に設定したり、キャラクタC1,C2,C3の一部の領域等の狭い領域に設定したりすることができる。検出領域を設定することによって、ユーザU1,U2,U3の感性、状況に応じた制御が可能となる。
 上記の視線送信情報GT、視線受信情報GR及び視線一致情報GCを表示させる具体的な方法について説明する。以下の説明においては、ユーザU1,U2,U3が端末10,20,30において通話する場合について説明する。端末10,20,30の制御部12は、ユーザU1,U2,U3の視線に係る情報を含む制御データを生成する。端末10,20,30は、制御データをサーバ40に送信する。サーバ40は、端末10,20,30に制御データを送信する。
 端末10,20,30の制御部12は、サーバ40から送信された制御データに基づいて、キャラクタC1,C2,C3を制御する。具体的に、制御部12は、制御データに基づいて、キャラクタC1,C2,C3に、視線送信情報GT、視線受信情報GR及び視線一致情報GCのいずれかを表示させる。
 以上説明したように、キャラクタC1,C2,C3において視線送信情報GT、視線受信情報GR及び視線一致情報GCを表示させることにより、ユーザU1,U2,U3の視線を認識(意識)したり、キャラクタC1,C2,C3を介してアイコンタクトを取ったりすることができる。これにより、通話相手が自分に興味を持っているか等の状況を確認したり、会話を理解しているか等を確認したりすることができる。そのため、円滑なコミュニケーションを実現できる。
 上記第1実施形態では、図7のタイプBに示されるように、発話アニメーションHが、左右に伸縮する動作をする形態を一例に説明した。しかし、発話アニメーションとしては、発話者の耳アニメーションEにおいて、両耳が根元から同位相で動いてもよいし、各耳が逆位相で交互に動いてもよい。また、耳アニメーションEの両耳が、発話に応じて同時に伸長変化してもよい。発話アニメーションの動作は、ユーザによって選択可能である。
 上記第1実施形態では、キャラクタC1,C2,C3が二次元のコンピュータグラフィックによって描画されている形態を一例に説明した。しかし、キャラクタC1,C2,C3は、三次元のコンピュータグラフィックによって描画されていてもよい。三次元のキャラクタについて、図19~図21を参照して説明する。図19~図21では、ユーザU2のキャラクタC2を一例に説明する。図19のタイプA、図20のタイプA及び図21のタイプAは、キャラクタC2の動作前の状態を示しており、図19のタイプB、図20のタイプB及び図2のタイプBは、キャラクタC2の動作後の状態を示している。
 図19~図21に示されるように、キャラクタC2は、ボディB及び耳アニメーションEを含んで構成される。キャラクタC2では、ボディBと耳アニメーションEとが通話画面Gにおいて、一体的に表示される。ボディBは、通話相手であるユーザを識別可能な識別情報である。ボディBは、ユーザを示す画像及びユーザを示すテキストの少なくとも一方を含む。キャラクタC2には、影が表示される。図19~図21に示す例では、ボディBは、球状を呈しており、ユーザを識別可能なテキスト(「B」)を含んでいる。キャラクタC2(C1,C3)は、二次元のキャラクタと同様に発話アニメーション(図示省略)を含んで構成されていてもよいし、腕アニメーションA(図22参照)を含んで構成されていてもよい。
 続いて、キャラクタC2の動作について説明する。キャラクタC2において、ボディBは、X軸、Y軸及びZ軸を中心に回動可能である。ボディBは、ユーザの状態の変化に応じて動作する。ボディBは、耳アニメーションEと同様に、ユーザの感情及び動作の少なくとも一方に応じて動作する。ボディBは、耳アニメーションEと同じ内容の動作をしてもよいし、耳アニメーションEと異なる内容の動作をしてもよい。図19のタイプB、図20のタイプB及び図21のタイプBに示す例では、ボディBと耳アニメーションEとは、同じ内容の動作をしている。
 図19のタイプBに示されるように、キャラクタC2は、ボディBがX軸を中心に前後に回動する動作を繰り返していると共に、耳アニメーションEにおいて耳の上部の折り曲げを繰り返している。制御部12は、ユーザU2が頷いたり相槌を打ったりしている場合、及び/又は、ユーザU2が所定の発言(「うんうん」、「はい」等)をした場合には、ボディBにおいてX軸を中心に前後に回動を繰り返し実施させると共に、キャラクタC1の耳アニメーションEにおいて耳の上部1/3部分における前後の折り曲げを繰り返し実施させる制御データを生成する。
 図20のタイプBに示されるように、キャラクタC2は、ボディBがY軸を中心に左右に回動する動作を繰り返していると共に、耳アニメーションEにおいて耳が左右に揺動している。制御部12は、ユーザU2が思案(首をかしげる等)している場合、及び/又は、ユーザU2が所定の発言(「うーん」等)をした場合には、ボディBにおいてY軸を中心に左右に回動を繰り返し実施させると共に、耳アニメーションEにおいて耳を左右に揺動させる制御データを生成する。
 図21のタイプBに示されるように、キャラクタC2は、ボディBがZ軸を中心に回動する動作を繰り返していると共に、耳アニメーションEにおいて耳が左右に回動している。制御部12は、ユーザU2が他のユーザの発話に対して反対(人差し指を胸の前で交差等)の態度を表している場合、及び/又は、ユーザU2が所定の発言(「反対」等)をした場合には、ボディBにおいてZ軸を中心に回動を繰り返し実施させると共に、耳アニメーションEにおいて耳を左右に回動させる制御データを生成する。なお、ボディBの動作について、ボディBとテキスト(「B」)とが一体で動いてもよいし、テキストを固定して、ボディBのみが動いてもよい。
 キャラクタC2の動作は、上記の動作の他に、図22のタイプAに示されるように、ユーザU2が退席中の場合には耳アニメーションEにおいて耳を左右に傾倒させてもよいし、図22のタイプBに示されるように、謝罪の場合には耳アニメーションEにおいて耳を深く折り曲げてもよい。また、図22のタイプCに示されるように、発話中である場合には背景に発話アニメーションHが表示されてもよいし、図22のタイプDに示されるように、楽しい場合には耳アニメーションEにおいて耳を回転させてもよい。
 また、図23のタイプAに示されるように、思考中である場合には耳アニメーションEにおいてボディBを掻く動作をさせてもよい。また、発話中である場合には、図23のタイプBに示されるように、耳アニメーションEにおいて、音声リズムに合わせて耳を伸長させてもよいし、図23のタイプCに示されるように、音声リズムに合わせて耳が前後に揺れるようにしてもよい。
 また、キャラクタC2に表示される影は、ユーザU2の状態に応じて変化してもよい。例えば、ユーザU2の感情が「悲しい」場合には、影の数を多くしてもよい。この構成では、影によってユーザU2の状態が表現されるため、他のユーザU1,U3は、ユーザU2の状態をより正確に把握することができる。また、影の存在により、立体感が強調されると共に、キャラクタC2の表情、非言語表現を強化することができる。
 また、ボディBは、球状に限定されない。図24のタイプAに示されるように、キャラクタCにおいて、ボディBは、ディスプレイを模した形態であってもよい。この場合、例えば、ボディBに、発話者の発話内容の翻訳文(例えば、「Hello!」等)が表示されるようにしてもよい。また、ボディBは、図24のタイプBに示されるように、車を模した形状であってもよいし、図24のタイプCに示されるように、目覚まし時計を模した形状であってもよいし、図24のタイプDに示されるように、木を模した形状であってもよい。ボディBは、ユーザの状態等に応じて、変化、変形等してもよい。
 上記第1実施形態では、図2に示されるように、キャラクタC1,C2,C3が通話画面Gにおいて、それぞれ区画された領域内に表示される形態を一例に説明した。しかし、キャラクタC1,C2,C3は、一つの空間(連続背景空間)に表示されてもよい。図25では、三次元のキャラクタC1、キャラクタC2及びキャラクタC3が通話している状態を示している。図25に示されるように、一つの空間には、例えば、オブジェクトとしてテーブルTが表示されている。キャラクタC1,C2,C3は、テーブルTを囲んで向かい合うように表示される。キャラクタC1,C2,C3は、テーブルTにおいて、例えば、等間隔(60°間隔)で配置される。図25に示す例では、キャラクタC1とキャラクタC2とは、斜めを向いた状態で、テーブルTを囲んで向かい合うように表示される。キャラクタC3は、画面中央において、背後側となるように表示される。図25に示される画面がユーザU3の端末30の画面である場合、デフォルトとして、ユーザU3のキャラクタC3が背後となるように表示されるようにしてもよい。この場合、他のユーザU1,U2のキャラクタC1,C2の耳アニメーションEが見易くなるため、他のユーザU1,U2の状態を正確に把握することができる。
 テーブルTを回転させることにより、キャラクタC1,C2,C3の位置を変更することができる。また、観察視点を変更することができる。例えば、キャラクタC1,C2,C3を上方から見下ろすような視点(鳥瞰的視点、俯瞰的視点)に変更することができる。視点の変更は、キーボード等における手動操作によって行われてもよいし、ウェアラブルセンサのセンシングに基づいて行われてもよい。このように、連続した一つの空間にキャラクタC1、キャラクタC2及びキャラクタC3を表示させることにより、同一空間での存在感を生成することができる。これにより、臨場感、一体感のある会話を実現することができる。
 例えば、リモートでの授業形式においては、生徒が先生を見つめる視点にすることができる。先生は、教壇から生徒を見つめる視点にすることができる。このように、実際の授業と同様の視点とすることにより、臨場感、没入感を向上させることができる。また、先生にとっても、生徒の反応を掴み易く、授業の進行にフィードバックすることができる。
 なお、図25に示されるように、例えば、キャラクタC3の背後側が表示される場合であったり、鳥瞰的視点で表示される場合であったりしても、耳アニメーションEがボディBの上部に設けられているため、各キャラクタC1,C2,C3の耳アニメーションEの動作を全方位から確認することができる。そのため、いずれの表示形態であっても、各キャラクタC1,C2,C3の状態・状況を認識(把握)することができる。
 キャラクタC1,C2,C3は、ユーザU1,U2,U3の視線に係る情報に基づいて、動作が制御されてもよい。制御部12は、検出されたユーザの視線に基づいて、キャラクタC1,C2,C3の動作を制御する制御データを生成する。例えば、ユーザU1がキャラクタC2を見つめている場合には、キャラクタC1がキャラクタC2を向くようにする。すなわち、キャラクタC1のボディB及び耳アニメーションEをZ軸を中心に例えば30°回転させて、キャラクタC1がキャラクタC2を向くようにする。これにより、キャラクタC1の耳アニメーションEがキャラクタC2と正対する。ユーザU1,U2,U3の視線がキャラクタC1,C2,C3上にない場合には、キャラクタC1,C2,C3は、前を向くようにしてもよい。
 視線に係る情報に基づくキャラクタC1,C2,C3の動作は、ユーザU1,U2,U3の視線と完全に一致していなくてもよい。例えば、ユーザU1がキャラクタC2に視線を合わせた後、直ぐに視線を外した場合であっても、一定時間はキャラクタC1がキャラクタC2を向いているようにしてもよい。すなわち、一定時間向き合った状態で停止するように、停止時間が設定できるようにしてもよい。また、ユーザU1がキャラクタC2に視線を移動させる速度と、キャラクタC1,C2,C3が回転する速度とが一致していなくてもよい。すなわち、キャラクタC1,C2,C3の回転速度を設定できるようにしてもよい。これらの設定により、ユーザU1,U2,U3の視線に合わせてキャラクタC1,C2,C3が頻繁に動作(回転)しないようにできるため、キャラクタC1,C2,C3の動きが会話の妨げとなることを回避できる。
 以上のように、キャラクタC1,C2,C3を視線に係る情報に基づいて動作させることにより、ユーザU1,U2,U3の視線を認識(意識)したり、キャラクタC1,C2,C3を介してアイコンタクトを取ったりすることができる。これにより、通話相手が自分に興味を持っているか等の状況を確認したり、会話を理解しているか等を確認したりすることができる。そのため、円滑なコミュニケーションを実現できる。
 また、ユーザU1,U2,U3の視線に関わらず、キャラクタC1,C2,C3を動作させてもよい。例えば、ユーザU1,U2,U3のウェアラブルセンサ(加速度センサ等)の検出結果に基づいて、キャラクタC1,C2,C3を動作させてもよい。視線と当該検出結果とに基づいてキャラクタC1,C2,C3を動作させてもよい。また。例えば、ユーザU1が発話した場合には、キャラクタC2,C3がキャラクタC1を向くようにしてもよい。また、例えば、ユーザU1がユーザU3に対して呼びかけた場合、キャラクタC1がキャラクタC3を向くようにしてもよい。また、手動で、キャラクタC1,C2,C3の向きを任意に変更できるようにしてもよいし、各キャラクタC1,C2,C3を順番で向くようにしてもよいし、各キャラクタC1,C2,C3をランダムに向くようにしてもよい。
 上記実施形態では、耳アニメーションE及び/又は腕アニメーションAがユーザの状態の変化(感情、動作)に応じて動作する形態を一例に説明した。しかし、耳アニメーションE及び/又は腕アニメーションAは、ユーザの入力によって動作してもよい。この構成では、アニメーションの動作が、例えばユーザによって操作される機器に対するキー操作による入力(操作結果)によって制御される。具体的には、アニメーションの動作とキー操作とは、予め対応付けられている。ユーザは、所定のキー操作を行うことによって、キャラクタの動作を制御する。例えば、下向き矢印のキーのクリック(押下)によって耳アニメーションEの耳の上部が前後に一回折り曲がるようにしてもよい。これにより、同意、感謝、謝罪等を表現することができる。また、上向き矢印キーのクリックによって耳アニメーションEが拍手をするようにしてもよい。これにより、賞賛、敬意、幸福等を表現することができる。また、右矢印キーのクリックによって耳アニメーションEの右耳が伸びると共に傾くようにしてもよい。これにより、中断、驚き、反意等を表現することができる。また、左矢印キーのクリックによって耳アニメーションEが伸びると共に絡まるようにしてもよい。これにより、疑問、不安、問題等を表現することができる。キーを押下している時間に応じて、動作を持続させたりしてもよい。なお、ユーザによる操作は、キー操作に限らず、画面タッチ、ジェスチャ、視線移動等であってもよい。
 また、機器における操作時間に応じて、耳アニメーションE及び/又は腕アニメーションAが動作してもよい。例えば、下向き矢印キーのクリックにおいて、ワンクリックでは、耳アニメーションEの耳の上部が前後に一回軽く折り曲がり、長押しでは、耳アニメーションEの耳の上部が前後に一回ゆっくり折り曲がる。すなわち、ワンクリックでは、軽い頷き、長押しでは、深い頷きを表現できる。同様に、上向き矢印キー、右向き矢印キー、及び左向き矢印キーのクリックにおいて、ワンクリックと、長押しクリックとにより動作を変更することができる。
 上記実施形態に加えて、耳アニメーションE及び/又は腕アニメーションAの動作の大きさ、速さ等のレベルが調整できるようにしてもよい。動作の大きさは、例えば、耳アニメーションEの揺動角度、倒れ角度等である。例えば、動作の大きさについて、強度レベル(強度係数)が設定されており、強度レベルをユーザが任意に調整可能とすることができる。これにより、耳アニメーションE及び/又は腕アニメーションAをユーザの意図する大きさで動作させることができる。この構成では、感情表現が苦手な場合であっても、自身の状態を強化して伝えることができる。なお、各種レベルの調整は、予め設定しておくこともできるし、通話中に行うこともできる。通話中に調整を行う場合には、例えば、2つの数字を用いることができる。例えば、動作速度を調整する場合、「1」を押すと動作速度が速くなり、「2」を押すと遅くなるようにしてもよい。動作の大きさを調整する場合、「3」を押すと動作が小さくなり、「4」を押すと動作が大きくなるようにしてもよい。
 また、耳アニメーションE及び/又は腕アニメーションAの動作の大きさ、速さ等は、音声データ及び態様データの少なくとも一方、すなわちユーザの感情及び動作の少なくとも一方に基づいて変化してもよい。例えば、ユーザの動きの大きさや声の大きさに応じて、耳アニメーションE及び/又は腕アニメーションAの動作の大きさ、速さ等を変化させてもよい。具体的には、例えば、声の音調に基づいて耳の傾きを設定し、声の速さに基づいて耳のバタつき具合を設定してもよい。詳細には、高い声で早口で話すユーザの場合には、耳の傾きを小さく、短い周期で耳の傾きを変化させる。一方、低い声でゆっくり話すユーザの場合には、耳の傾きを大きく、長い周期で耳の傾きを変化させる。
 上記実施形態に加えて、キャラクタC1,C2,C3の位置及び大きさの少なくとも一方をユーザU1,U2,U3が変更できるようにしてもよい。ユーザU1,U2,U3が所定の操作を行うことによって、位置及び大きさを自由に変更可能である。これにより、パネル討論、来賓席、スピーカ席等のように、実際の状況での空間と同じように位置を設定することができる。また、ユーザの名前に基づいて位置を決定したり、役割に基づいて位置を決定したりすることができる。また、講演会の場合には、講演者を大きくする等といった視覚強調を行うこともできる。
 上記実施形態に加えて、ユーザU1,U2,U3の基本生体存在情報として、耳アニメーションEを動作させてもよい。基本生体存在情報は、ユーザU1,U2,U3が存在していることを示す情報である。ユーザU1,U2,U3がテレビ会議等に参加している場合、端末10,20,30の前に着席していると、耳アニメーションEにおいて立つ動作に加えて、呼吸に相当する揺れを与える。これにより、ユーザU1,U2,U3が何もしていなくとも、存在としての生命の動きを伝達できる。また、対話でないときの存在、状態観察モードとして、ユーザがタイピングをしている場合には、耳アニメーションEにおいてタイピングイメージ動作(耳先端がタイピング動き)にすることができる。ユーザが端末の前から離席すると、耳アニメーションEにおいて耳が垂れ下がるようにしてもよい。
 上記実施形態では、図2に示されるように、ユーザU1,U2,U3の全員がキャラクタC1,C2,C3で表現されている形態を一例に説明した。しかし、複数のユーザで通話を行う場合、一部のユーザが実際の映像を用いてもよい。
 上記実施形態に加えて、状態アニメーション/又は腕アニメーションAに演出を加える機能を有していてもよい。例えば、ユーザの腕が動いてない場合であっても、腕アニメーションAが発話内容、音量、リズム等に応じて動作してもよい。また、ユーザU1,U2,U3が歌を歌ったり、身体の一部(例えば、手、足、首、頭等)を動かしたりした場合に、キャラクタC1,C2,C3がパフォーマンス(ダンス等)を行うように演出することもできる。また、音楽が流れている場合には、音楽に同期、同調させたりすることもできる。身体の動きは、加速度センサ、筋電センサ等によってセンシングできる。演出機能は、ユーザが設定することができる。演出機能は、例えば、身体の動作に障害のあるユーザに対して、有効な機能となり得る。
 上記実施形態に加えて、キャラクタC1,C2,C3の他に、AIのキャラクタが表示されてもよい。例えば、キャラクタC1,C2,C3の他に、ファシリテータとして、AIのキャラクタが表示されてもよい。また、ユーザU1,U2,U3を支援する、各ユーザ専用のAI執事を同伴させるようにしてもよい。AI執事は、例えば、キャラクタC1,C2,C3の傍らに表示される。AI執事は、ユーザU1,U2,U3の会話を多面的にサポートする役割を担う。サポートとしては、スケジュール管理、ファイル管理、テキスト・映像視覚資料の提供、音声情報出力等である。また、AI執事は、会話に関連する情報を自動で表示してもよいし、必要な情報を検索して表示してもよい。
 上記実施形態に加えて、テレビ会議等の内容を記録して分析してもよい。例えば、耳アニメーションE及び/又は腕アニメーションAの制御データの生成に係る情報を収集して分析することによって、会話の状況、特徴、その会話に参加したメンバの特徴、関係性、感情等を多面的に分析できる。分析結果は、グラフやテキスト等で表示するようにしてもよい。
 上記実施形態に加えて、所定のタイミングで、状態アニメーション(耳アニメーションE及び/又は腕アニメーションA)において使用された動作パターンの使用状況を表示させてもよい。使用状況として、ユーザU1.U2,U3における動作パターンの使用割合、及び、時間軸に対応した動作パターンの使用頻度の変化の少なくとも一方を表示させてもよい。この構成では、所定のタイミング(例えば、コミュニケーション中(プレゼンテーション中、対話中等)、コミュニケーション終了後)に状態アニメーションの動作パターンの使用状況(使用履歴)を表示することで、ユーザU1,U2,U3の反応の傾向等を確認することができる。
 上記のように、コミュニケーション中又はコミュニケーションの終了後に、状態アニメーションにおいて使用された動作パターンの使用状況を表示することにより、テレビ会議等の参加者の思考状態、感情状態等の反応を取り込んだコミュニケーションを取り易くなる。例えば、プレゼンターや先生が、「今回の説明で十分わかりましたか?」の質問に、「はい、はい」と同意反応する動作パターンの使用割合が、100%なのか、或いは20~30%程度であるかによって、フィードバックができ、進め方も変わってくる。特に、リアルタイムで、参加者の使用割合の表示がされることにより、リアルタイムでの反応学習、反応講話を進め易くなる。
 更に、例えば、時間軸上で「うなずき」に対応する状態アニメーションの動作パターンの使用頻度変化を示すことにより、全体の流れで、非言語情報を手掛かりに、どのような感情反応、思考反応が得られたのかを知り得る。また、例えば、発話非言語情報のデータを用いて、聴き手と話し手がどのようにスイッチしたのか、聴き手としての立場での時間割合、その反応状況等、コミュニケーションの質の分析データ、コミュニケーション力の改善情報としても活用ができる。音声録画と共に、動作パターンの使用状況を確認することで、対話内容に対しての非言語表現の事後確認も行い易くなる。
 上記実施形態に加えて、ユーザU1,U2,U3の属性に応じて、耳アニメーションEの動作を変更してもよい。属性は、例えば、国籍、民族、性別、言語等である。例えばある国の文化では、「同意」が首を前後に振ることに対して、他の国の文化では、「同意」が首を横に振る場合がある。この場合、「同意」に対して同じ耳アニメーションEを用いると、文化の違いによって、受け取り手の感じ方が異なる。そのため、ユーザU1,U2,U3の属性に係る情報に基づいて、耳アニメーションEの動作を変更(設定)する。この構成では、属性として例えば国籍に応じて耳アニメーションEの動作を変更することにより、文化の違いによって誤解が生じることを回避することができる。このように、異なる様々な文化に対応することができるため、円滑なコミュニケーションを実現できる。
 上記実施形態では、状態アニメーションが耳アニメーションEである形態を一例に説明した。しかし、状態アニメーションは、他の形態であってもよい。例えば、状態アニメーションは、角、髪等を模したアニメーションであってもよい。例えば、図26のタイプAに示されるように、状態アニメーションは、昆虫(例えば、アリ)の触角を模していてもよい。図26のタイプBに示されるように、状態アニメーションSAは、アンテナのような構造物を模していてもよい。図26のタイプCに示されるように、状態アニメーションSAは、動物(例えば、鹿)の角を模していてもよい。図26のタイプDに示されるように、状態アニメーションSAは、植物(例えば、向日葵)を模していてもよい。
 また、図26のタイプEに示されるように、状態アニメーションSAは、コミュニケーション対象の状態に応じて、表示形態が変形してもよい。例えば、1本の角が2本の角に変形してもよい。また、球状のボディBから、例えば、図24のタイプAに示されるディスプレイに変形してもよい。この構成では、状態アニメーションをトランスフォームさせることにより、コミュニケーション対象の状態をより正確に把握することができる。
 また、図27のタイプAに示されるように、キャラクタCは、足アニメーションFを更に含んでいてもよい。足アニメーションFは、足を模したアニメーションであり、ユーザの状態の変化に応じて動作する。足アニメーションFは、耳アニメーションEと同様に、ユーザの感情及び動作の少なくとも一方に応じて動作してもよいし、環境情報に基づいて動作してもよい。キャラクタCは、ユーザU1,U2,U3の状態に応じて移動してもよい。図27のタイプBに示されるように、キャラクタCは、キャップCPを被っていてもよい。この構成では、キャラクタCが移動する場合には、キャラクタCの移動方向に応じて、キャップCPのつばの向きが変化してもよい。図27のタイプCに示されるように、キャラクタCは、空飛ぶ絨毯FC等の乗り物に乗っていてもよい。空飛ぶ絨毯FCは、ボディBの周囲に、ボディBに付随するように表示される。図27のタイプCに示す例では、空飛ぶ絨毯FCは、ボディBの下方に表示される。空飛ぶ絨毯FCの角部には、タッセルTRが設けられている。タッセルTRは、ユーザの状態の変化に応じて動作してもよい。また、空飛ぶ絨毯FCは、ユーザの基本生体存在情報に基づいて動作してもよい。なお、ボディBの周囲には、空飛ぶ絨毯FC以外の物が付随して表示されてもよい。また、空飛ぶ絨毯FC等の付随物は、ボディBの上方又は側方に表示されてもよい。図27のタイプDに示されるように、キャラクタCは、ハットHTを被っていてもよい。ハットHTには、羽根Wが設けられている。羽根Wは、ユーザの基本生体存在情報に基づいて動作してもよい。
 上記実施形態では、図25に示されるように、キャラクタC1,C2,C3が、テーブルTを囲んで向かい合うように表示される形態を一例に説明した。しかし、図28に示されるように、複数のキャラクタCが、ホワイトボードWBを囲うように表示されてもよい。ホワイトボードWBは、各ユーザがテキスト(例えば、「1,2,3…」、「A,B,C,D…」等)を書き込んだり、画像等を表示させたりすることができる。ホワイトボードWBに対するキャラクタCの位置及び大きさは、自由に変更することができる。
 また、図29に示されるように、複数のキャラクタCのうちの1つのキャラクタCのボディBをディスプレイとして使用し、当該キャラクタCを拡大表示させ、その他のキャラクタCが上記キャラクタCの前に配置されるように表示されてもよい。ディスプレイには、テキスト(例えば、「1,2,3…」、「A,B,C,D…」等)を表示させたり、画像等を表示させたりすることができる。拡大表示されたキャラクタC以外のキャラクタCの向きはユーザが任意に設定できる。例えば、キャラクタCは、ディスプレイを見る向きとなるように背後が表示されてもよいし、ディスプレイを背にして正面を向くように表示されてもよいし、キャラクタ同士が向き合うように表示されてもよい。
 また、図30に示されるように、例えば空飛ぶ絨毯FCに乗った複数のキャラクタCがオブジェクトOを囲うように表示されてもよい。オブジェクトOは、例えば、会議の議題となる対象(例えば、車等)である。オブジェクトOの向きは、各ユーザが任意に変更できるようにしてもよい。この場合、オブジェクトOの向きを変更したユーザに表示されるオブジェクトOの向きのみが変更されてもよいし、一のユーザがオブジェクトOの向きを変更すると全てのユーザに表示されるオブジェクトOの向きが変更されてもよい。また、決まったユーザのみがオブジェクトOの向きを変更できるようにしてもよい。また、キャラクタCの位置の変更に伴い、各ユーザに表示されるオブジェクトOに対する視点が変更されてもよい。
 上記実施形態では、状態アニメーションが、アイコンBの表示領域の外側に表示領域から突出するように表示される、又は、ボディBの周囲にボディBに付随するように表示される形態を一例に説明した。しかし、状態アニメーションは、識別情報と一体的に表示されればおい。図31に示されるように、キャラクタCは、雲を模したものであってもよい。キャラクタCは、アイコンB及び状態アニメーションSAを含んで構成されている。図31のタイプAに示されるように、アイコンBは、例えば、状態アニメーションSA内に表示される。キャラクタCの状態アニメーションSAは、ユーザの状態の変化(感情、動作)、ユーザの操作等に応じて動作する。例えば、図31のタイプBに示されるように、ユーザの状態が「怒り」である場合には、キャラクタCの状態アニメーションSAの一部が突出する。キャラクタCは、雲を模したものに限定されず、有体物、無体物に限られず様々な物を模したものとすることができる。
 キャラクタC,C1,C2,C3のデザイン、耳アニメーションE、腕アニメーションA及び足アニメーションFの動作は、ユーザU1,U2,U3によって設定(変更)可能である。キャラクタは、二次元と三次元との組合せによるコンピュータグラフィックによって描画されてもよい。また、キャラクタのデザインは、データの更新等によって、アップデート(変更、追加等)を行うことができる。
 上記実施形態では、図2又は図25に示されるように、コミュニケーションに参加する全てのユーザU1.U2.U3のキャラクタC1,C2,C3が通話画面Gに表示される形態を一例に説明した。しかし、コミュニケーション対象であるユーザのキャラクタのみが通話画面に表示されてもよい。例えば、ユーザU1の端末10の通話画面Gには、ユーザU2のキャラクタC2及びユーザU3のキャラクタC3のみが表示されてもよい。
・第2実施形態
 続いて、第2実施形態について説明する。第2実施形態に係るコミュニケーション支援システムでは、コミュニケーション対象がAI(Artificial Intelligence:人工知能)アシスタントである。AIアシスタントは、例えば、Siri(登録商標)、Googoleアシスタント(登録商標)、Alexa(登録商標)、Cortana(登録商標)等である。第2実施形態に係るシステムのコミュニケーションの例は、AIアシスタントとのやり取りを含むものである。
 システムは、端末(端末装置)50を含む。端末50は、ラップトップ型のパーソナルコンピュータ(PC)、携帯電話機(スマートフォン等)、デスクトップ型のPCであってもよいし、タブレット端末、ウェアラブル端末、ヘッドマウントディスプレイ(HMD)端末、ディスプレイ付きスマートスピーカー、その他さまざまな端末が用いられてよい。端末50は、図1に示されるように、ネットワークNを介してサーバ40と互いに通信可能である。端末50は、端末10と同様の構成を有している。
 図32に示されるように、コミュニケーションは、コンピュータによって表現される画面G1(出力部15)で行われる。画面G1は、端末50に表示されることで、ユーザに提示される。図32に示す例では、AIアシスタントのキャラクタCAが画面G1に現れている。キャラクタCAは、画面G1においてAIアシスタントを示すものである。キャラクタCは、ダイナミックなキャラクタである。キャラクタCAは二次元又は三次元のコンピュータグラフィック(CG)によって描画されてもよい。キャラクタCAは、アイコンB及び耳アニメーションEを含んで構成される。キャラクタCAでは、アイコンBと耳アニメーションEとが画面G1において、一体的に表示される。
 アイコンBは、コミュニケーション対象であるAIアシスタントを識別可能な識別情報である。アイコンBは、AIアシスタントを示す画像及びユーザを示すテキストの少なくとも一方を含む。図32に示す例では、アイコンBは、円形状を呈しており、ユーザを識別可能なテキスト(例えば、「XXX」)を含んでいる。耳アニメーションEは、AIアシスタントの状態を示す状態アニメーションである。耳アニメーションEは、AIアシスタントの感情及び動作の少なくとも一方、及び、AIアシスタントを使用するユーザの音声データに応じて動作する。
 制御部12は、AIの制御データを生成する部分である。制御部12は、AIの音声データ(言語データ)及びAIの態様を示す態様データの少なくともいずれか一方、及び、AIアシスタントを使用するユーザの音声及び行動に基づいて、キャラクタCAの制御データを生成する。AIアシスタントを使用するユーザの行動には、ユーザの動作が含まれ得る。制御部12は、例えば、以下の動作をトリガーとしてAIアシスタントの状態を推定し、制御データを生成する。
・AIアシスタントの発したキーワード(分かりません、もう一度言って下さい等)
・ユーザの発したキーワード(AIアシスタントの名称、ヘイ、ハイ等)
・ユーザの動作(端末50に近づく、端末50から離れる等)
 制御部12は、学習済みモデル13Lを用いてAIアシスタントの状態を推定する。制御部12は、AIアシスタント音声データ(テキスト)及びユーザの行動データ(音声データ等)を学習済みモデル13Lに入力することで、データに基づく推定結果を得る。制御部12は、学習済みモデルの推定結果に基づいて、AIアシスタントの状態を推定する。
 制御部12は、推定したAIアシスタントの状態に基づいて、耳アニメーションEの動作を制御するための制御データを生成する。制御部12は、例えば、AIアシスタントが「分かりません」と発した場合には、キャラクタCAの耳アニメーションEにおいて、耳を左右の一方に傾かせる制御データを生成する。制御部12は、例えば、ユーザからの質問に対しての回答に、「反対、禁止」等の内容が含まれる場合には、耳を交差させた状態を一定時間維持させる制御データを生成する。
 制御部12は、例えば、ユーザが「AIアシスタントの名称(例えば、「XXX」)」を発した場合には、キャラクタCAの耳アニメーションEにおいて、耳を立てる制御データを生成する。制御部12は、ユーザが発言(質問等)している場合には、AIアシスタントが聞き取りの状態であるため、耳の上部1/3部分における前後の折り曲げを繰り返し実施させる制御データを生成する。制御部12は、例えば、ユーザが端末50に近づいてきた場合、又は、ユーザが端末50から離れる場合には、キャラクタCAの耳アニメーションEにおいて、耳を左右に揺動させる制御データを生成する。また、制御部12は、AIアシスタントが待機の状態である場合には、耳アニメーションEにおいて耳を左右に揺動させる制御データを生成したり、耳の色を変化させる制御データを生成したりしてもよい。
 従来、AIアシスタントは、音声のみであったり、抽象的な映像が表示されていたりする。この場合、AIアシスタントの感情がユーザに伝わり難いため、対話の臨場感が乏しかった。また、AIアシスタントから「分かりません」といったように、機械的な回答の場合には人工的な会話だと感じ得る。一方で、AIアシスタントに何らかの特定のキャラクタ(アニメ、アバター等)を設定すると、違和感が生じることがある。また、アニメ等のキャラクタは、年齢、性差等によって受け取り方が異なるため、信頼性に欠けたり、親近感が乏しくなったりする。
 そこで、端末50の制御部12は、アイコンBと、AIアシスタントの状態を示す耳アニメーションEと、を含むキャラクタCAを画面G1に表示させる。耳アニメーションEは、年齢、性差においてニュートラルな印象を与え得る。また、耳アニメーションEによってAIアシスタントの状態を認識することができる。したがって、AIアシスタントとユーザとの円滑なコミュニケーションを実現できる。
 本開示は、以下の態様にも適用することができる。
(1)電話での応用
 従来の電話では、非言語情報が表示されていなかった。本開示を適用することにより、電話の声から、非言語情報を視覚的に生成できる。コミュニケーション対象(他のユーザ)及び自分の状態アニメーションを識別情報と一体的に表示できるため、電話音声に視覚効果が加わり、より豊かなコミュニケーションができる。状態アニメーションに加えて、資料情報、共同書き込みのホワイトボード機能も同時に提供できるため、従来の「聞く電話」から、感情・情報等、「観る電話」とすることができる。また、電話会議に対して、非言語情報を加味した視覚会議に変換できる。
(2)音声チャットでの応用
 電話と同様に、複数人の音声チャットを、音声認識によって、それぞれの人物の識別情報と状態アニメーションとを一体的に表示できる。識別情報及び状態アニメーションは、標準で用意されたデザインを使用してもよいし、独自のデザインをインストールして使用してもよい。言葉だけでなく、歌に関しても、動作レンダリングとして提供できる。識別情報と状態アニメーションとを一体的に表示することにより、音声チャットの参加者、発話者の人物認知、及び、発話者、参加者の非言語情報の認知も可能となり、音声だけのチャットより、より豊かなコミュニケーションが実現できる。また、顔の個人情報が、秘匿できる。
 また、リアリティのある顔表情を有するアバターに比べて、処理負荷の軽いソフトウェアとすることができ、かつ、伝送容量を小さくすることができる。アバターの顔表情に関しては、似せると「不気味の谷」問題が発生する。また、アニメ顔にすると、年齢等が秘匿され、誤解情報を誘起し易くなる。その結果、操作的な情報となり得る。このような、本開示では、独自デザインのアニメ顔から生ずる問題を回避できる。
(3)サイバー空間、VR空間、AR空間、MR空間での対話での応用
 従来から、HMDやスマートグラスによるVR空間での遠隔対話参加は、人型アバターが用いられている。しかし、多くの場合、感情情報等の非言語情報が十分伝達できていない。アバターにおいて、一人ひとりの顔表情の滑らかな制御は、処理負荷が増大する。顔自体、顔の表情等を自在に設計することができるが、デザインが自由であるが故に、本来の伝えたい印象を過度に操作できてしまう。これにより、実態とはかけ離れた情報として伝えてしまうなどの弊害が発生し得る。ゲーム等のエンターテイメントでは、自在設計性が楽しい効果を生み出すケースもあるが、仕事等の面談や会議では、逆に操作的な表現できてしまうことが課題となる。例えば、年齢等、実態とかけ離れた表現もできてしまう。本開示では、これらの操作的デザインを排除できると共に、非言語情報を分かり易く伝達できる。特に、識別情報の上部に突出した、耳を模した耳アニメーションEで非言語表現をすることで、対象者の背部や遠方からも、感情、非言語情報を認知し易く、臨場感の高いコミュニケーション空間を生成できる。例えば、耳アニメーションEにおいて両耳による拍手喝采を受けると、プレゼンターの高揚感、充実感、達成感にも繋がる。また、出会いに繋がったり、雑談に移行したり、対話が活性化したりする。特に、ユーザの音声情報、動作情報等から、状態アニメーションが自動で生成されるようにすることにより、手間をかけずに非言語情報を表現できる。更に、VR空間において、3Dのキャラクタの配置を自在に変更(移動)できる場合に、キャラクタと絨毯等の空中浮揚感のある付随物とを一体的に表示したりすることで、VR空間内での空中存在の自然感を創出できる。
 本開示は、別の観点では、音声データ、画像データ、映像データ、音楽データ、センシングデータ及び操作入力データの少なくとも一つのデータを入力するステップと、データを非言語表現としてのアニメーションに変換するステップと、データに係る対象を示す識別情報とアニメーションとを一体的に表示させるステップと、をコンピュータに実行させる、非言語表現プログラムである。
 上記非言語表現プログラムは、データに基づいて、対象の状態を推定するステップと、対象の状態に基づいて、アニメーションの動作を制御するための制御データを生成するステップと、をコンピュータに実行させる。
 上記アニメーションは、識別情報の表示領域の外側に当該表示領域から突出するように表示される、又は、識別情報の表示領域の周囲に当該表示領域に付随するように表示され得る。また、上記アニメーションは、動的に変化する顔表情を含まない。
 非言語表現プログラムでは、入力されたデータをアニメーション(例えば、耳アニメーション)にレンダリングさせる。入力されるデータとしては、音声データ(音楽を含む)、画像データ、映像データ、センシングデータ及び操作入力データの少なくとも一つである。センシングデータは、例えば、ウェアラブルセンサ(加速度センサ、筋電センサ等)によって検出されたデータである。操作入力データは、端末等の機器においてユーザの操作によって入力されたデータである。
 非言語表現プログラムでは、例えば、ラジオの音声データが入力されると、ラジオの内容を、動的に変化する顔表情を含まないアニメーションにレンダリングさせる。具体的には、非言語表現プログラムでは、音声データに基づいて、対象の状態を推定する。対象とは、ラジオである場合、パーソナリティ等である。非言語表現プログラムでは、対象の状態に基づいて、アニメーションの動作を制御するための制御データ(コード)を生成する。また、非言語表現プログラムでは、音声データに基づいて音声データを解析し、音声データに係る対象を示す識別情報を生成する。例えば、ラジオにおいて二人のパーソナリティによって対談が行われている場合には、二人のパーソナリティを識別してそれぞれの識別情報を生成する。非言語表現プログラムでは、識別情報とアニメーションとを一体的に表示させる。
 アニメーションは、識別情報の表示領域の外側に当該表示領域から突出するように表示されてもよいし(図4、図19等参照)、識別情報の表示領域の周囲に当該表示領域に付随するように表示されてもよい(図27のタイプC参照)。これにより、例えば、ラジオにおいて二人のパーソナリティによって対談が行われている場合には、二人のキャラクタの耳アニメーションが、音声(音声認識も動作)と連動して表示されるようにすることができる。ラジオの他に、YouTube(登録商標)等の映像データを入力させることもできる。
 また、非言語表現プログラムでは、音楽データが入力されると、音楽の内容(歌詞、リズム)をアニメーションにレンダリングさせる。具体的には、非言語表現プログラムでは、音声データに基づいて、対象の状態を推定する。ここで言う対象とは、音楽のリズム、テンポ、歌詞等である。すなわち、音楽における状態としては、楽しい、悲しい、明るい、暗い等を推定することができる。非言語表現プログラムでは、推定した状態に基づいて、アニメーションの動作を制御するための制御データ(コード)を生成する。また、非言語表現プログラムでは、音声データに基づいて識別情報を生成する。識別情報は、例えば、音楽のタイトル等とすることができる。非言語表現プログラムでは、識別情報とアニメーションとを一体的に表示させる。これにより、音楽の内容に基づいて、耳アニメーションにパフォーマンスさせることができる。レンダリングについて、AIによる、サイバーでのイメージ創成でもよいし、実際の歌い手、ダンサー等の対象の両手首に加速度センサ等を取り付けて、その動き、手首の変化に耳アニメーションの動きを連動させもよい。連動させる場合、識別情報を歌い手やダンサーの名前等とすることができる。加速度センサ以外にも、手首の筋電、脳波等、他の変化を様々な手段でセンシングして、レンダリングさせるとよい。
10…端末(端末装置)
11…入力部(センサ)
12…制御部
13…記憶部
13L…学習済みモデル
13P…端末プログラム(コミュニケーション支援プログラム)
14…通信部
15…出力部
20…端末(端末装置)
30…端末(端末装置)
40…サーバ
42…制御部
43…記憶部
43P…サーバプログラム
43S…受信データ
44…通信部
50…端末(端末装置)
100…コミュニケーション支援システム
A…腕アニメーション
B…アイコン、ボディ
AP…アクセスポイント
BS…基地局
C…キャラクタ
C1…キャラクタ
C2…キャラクタ
C3…キャラクタ
CA…キャラクタ
CP…キャップ
E…耳アニメーション(状態アニメーション)
F…足アニメーション
FC…空飛ぶ絨毯
G…通話画面
G1…画面
GC…視線一致情報
GR…視線受信情報
GT…視線送信情報
H…発話アニメーション
HT…ハット
N…ネットワーク
O…オブジェクト
S1…ステップ
S2…ステップ
S3…ステップ
S4…ステップ
S5…ステップ
S6…ステップ
S7…ステップ
S8…ステップ
S9…ステップ
S10…ステップ
S11…ステップ
S12…ステップ
S13…ステップ
S21…ステップ
S22…ステップ
S23…ステップ
S24…ステップ
S25…ステップ
S26…ステップ
S27…ステップ
SA…状態アニメーション
T…テーブル
TR…タッセル
U1…ユーザ
U2…ユーザ
U3…ユーザ
W…羽根
WB…ホワイトボード

Claims (50)

  1.  ユーザのコミュニケーションを支援するコミュニケーション支援プログラムであって、
     一又は複数のコミュニケーション対象を識別可能な識別情報と、前記コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを、コンピュータに実行させる、コミュニケーション支援プログラム。
  2.  前記状態アニメーションは、前記コミュニケーション対象の状態を、前記コミュニケーション対象の実際の動作部位とは異なる形態で表現したアニメーションである、請求項1に記載のコミュニケーション支援プログラム。
  3.  前記状態アニメーションは、前記識別情報の表示領域の外側に当該表示領域から突出するように表示される、請求項1又は2に記載のコミュニケーション支援プログラム。
  4.  前記状態アニメーションは、前記識別情報の表示領域の周囲に当該表示領域に付随するように表示される、請求項1から請求項3のいずれか一項に記載のコミュニケーション支援プログラム。
  5.  前記コミュニケーション対象の状態に応じて、前記状態アニメーションの表示形態を変形させる、請求項1から請求項4のいずれか一項に記載のコミュニケーション支援プログラム。
  6.  前記状態アニメーションは、耳を模したアニメーションであり、前記コミュニケーション対象の状態の変化に応じて動作する、請求項1から請求項5のいずれか一項に記載のコミュニケーション支援プログラム。
  7.  前記識別情報と、前記状態アニメーションと、前記コミュニケーション対象の状態の変化に応じて動作すると共に腕、手及び足の少なくとも一つを模したアニメーションと、を一体的に表示させる、請求項1から請求項6のいずれか一項に記載のコミュニケーション支援プログラム。
  8.  前記コミュニケーション対象の属性に応じて、前記状態アニメーションの動作を変更させる、請求項1から請求項7のいずれか一項に記載のコミュニケーション支援プログラム。
  9.  設定された動作強度及び動作速度の少なくとも一方に基づいて、前記状態アニメーションを動作させる、請求項1から請求項8のいずれか一項に記載のコミュニケーション支援プログラム。
  10.  前記識別情報は、前記コミュニケーション対象を示す画像及び前記コミュニケーション対象を示すテキストの少なくとも一方を含む、請求項1から請求項9のいずれか一項に記載のコミュニケーション支援プログラム。
  11.  前記状態アニメーションは、前記ユーザの感情、前記ユーザの動作、前記ユーザの音声、前記コミュニケーション対象の感情、前記コミュニケーション対象の動作及び前記コミュニケーション対象の音声の少なくとも一つに応じて動作する、請求項1から請求項10のいずれか一項に記載のコミュニケーション支援プログラム。
  12.  前記状態アニメーションは、前記ユーザと前記コミュニケーション対象との対話状態に応じて動作する、請求項1から請求項11のいずれか一項に記載のコミュニケーション支援プログラム。
  13.  所定の言葉と前記状態アニメーションの動作パターンとが対応付けられており、
     前記所定の言葉が発せられた場合、前記所定の言葉に対応する前記動作パターンに基づいて前記状態アニメーションを動作させる、請求項1から請求項12のいずれか一項に記載のコミュニケーション支援プログラム。
  14.  前記動作パターンは、予め設定されている標準動作パターン、及び、予め作成された作成パターンの少なくとも一方から選択されて前記所定の言葉と対応付けられる、請求項13に記載のコミュニケーション支援プログラム。
  15.  前記状態アニメーションは、前記コミュニケーション対象からの入力に応じて動作する、請求項1から請求項14のいずれか一項に記載のコミュニケーション支援プログラム。
  16.  前記入力は、ウェアラブルセンサの検出結果を含む、請求項15に記載のコミュニケーション支援プログラム。
  17.  前記入力は、前記コミュニケーション対象によって操作される機器に対する操作結果を含み、
     前記機器における操作時間に応じて、前記状態アニメーションの動作を変化させる、請求項15又は請求項16に記載のコミュニケーション支援プログラム。
  18.  絵文字、予め設定された画像及びテキストの少なくとも一つを、前記状態アニメーションと一体的に表示させる、請求項1から請求項17いずれか一項に記載のコミュニケーション支援プログラム。
  19.  前記識別情報が表示されるボディと前記状態アニメーションとによってキャラクタが構成されており、
     三次元のコンピュータグラフィックによって描画された前記キャラクタを表示させる、請求項1から請求項18のいずれか一項に記載のコミュニケーション支援プログラム。
  20.  前記キャラクタに影を表示させ、
     前記コミュニケーション対象の状態に応じて、前記キャラクタに表示される前記影を変化させる、請求項19に記載のコミュニケーション支援プログラム。
  21.  前記ユーザの操作に応じて、前記キャラクタが表示される空間の観察視点を変更させる、請求項19又は請求項20に記載のコミュニケーション支援プログラム。
  22.  前記ユーザの操作及び前記ユーザの音声の少なくとも一方に応じて、前記キャラクタの位置及び大きさの少なくとも一方を変更させる、請求項19から請求項21のいずれか一項に記載のコミュニケーション支援プログラム。
  23.  センサによって検出された前記ユーザ及び前記コミュニケーション対象の少なくとも一方の視線に係る情報と、前記識別情報と、前記状態アニメーションと、を一体的に表示させる、請求項1から請求項22のいずれか一項に記載のコミュニケーション支援プログラム。
  24.  前記視線に係る情報は、前記識別情報及び前記状態アニメーションを含む所定の領域上に前記ユーザの視線が存在していることを示す視線送信情報を含み、
     前記視線送信情報と、前記識別情報と、前記状態アニメーションと、を一体的に表示させる、請求項23に記載のコミュニケーション支援プログラム。
  25.  前記視線に係る情報は、前記コミュニケーション対象が前記ユーザの識別情報及び状態アニメーションを含む所定の領域上に前記コミュニケーション対象の視線が存在していることを示す視線受信情報を含み、
     前記視線受信情報と、前記識別情報と、前記状態アニメーションと、を一体的に表示させる、請求項23又は請求項24に記載のコミュニケーション支援プログラム。
  26.  センサによって検出された前記コミュニケーション対象の音声データ及びセンサによって検出された前記コミュニケーション対象の態様を示す態様データの少なくともいずれか一方に基づいて、前記コミュニケーション対象の状態を推定するステップと、
     前記コミュニケーション対象の状態に基づいて、前記状態アニメーションの動作を制御するための制御データを生成するステップと、
     前記制御データを出力するステップと、を前記コンピュータに実行させる、請求項1から請求項25のいずれか一項に記載のコミュニケーション支援プログラム。
  27.  センサによって検出された前記コミュニケーション対象の音声データ及びセンサによって検出された前記コミュニケーション対象の態様を示す態様データの少なくともいずれか一方に基づいて、前記コミュニケーション対象の状態を推定するステップと、
     推定した前記コミュニケーション対象の状態に係る状態データを出力するステップと、を前記コンピュータに実行させる、請求項1から請求項25のいずれか一項に記載のコミュニケーション支援プログラム。
  28.  前記状態アニメーションの動作の形態を、前記音声データ及び前記態様データの少なくとも一方に基づいて設定する、請求項26又は請求項27に記載のコミュニケーション支援プログラム。
  29.  前記状態アニメーションの動作の速度を、前記音声データ及び前記態様データの少なくとも一方に基づいて設定する、請求項26から請求項28のいずれか一項に記載のコミュニケーション支援プログラム。
  30.  前記コミュニケーション対象の状態を推定するステップでは、学習済みモデルを用いて前記ユーザの状態を推定し、
     前記学習済みモデルは、前記音声データ及び前記態様データの少なくともいずれか一方が入力されると、前記コミュニケーション対象の状態を出力する、請求項26から請求項29のいずれか一項に記載のコミュニケーション支援プログラム。
  31.  発話者の音声データに基づく発話アニメーションであって前記状態アニメーションとは異なる当該発話アニメーションを、前記発話者の前記識別情報と一体的に表示させるステップを、前記コンピュータに実行させ、
     前記発話アニメーションは、前記発話者の発話の態様に応じて動作する、請求項1から請求項30のいずれか一項に記載のコミュニケーション支援プログラム。
  32.  前記ユーザを識別可能な識別情報と、当該ユーザの状態を示す状態アニメーションと、を一体的に表示させるステップを、前記コンピュータに実行させる、請求項1から請求項31のいずれか一項に記載のコミュニケーション支援プログラム。
  33.  前記コミュニケーション対象の前記識別情報及び当該コミュニケーション対象の前記状態アニメーションと、前記ユーザの前記識別情報及び当該ユーザの前記状態アニメーションと、を同じサイズで表示させる、請求項32に記載のコミュニケーション支援プログラム。
  34.  前記識別情報が表示されるボディと前記状態アニメーションとによって構成され、三次元のコンピュータグラフィックによって描画されたキャラクタを表示させ、
     前記コミュニケーション対象が複数存在する場合、前記ユーザの前記キャラクタが背後となるように表示させる、請求項32又は請求項33に記載のコミュニケーション支援プログラム。
  35.  前記識別情報が表示されるボディと前記状態アニメーションとによって構成され、三次元のコンピュータグラフィックによって描画されたキャラクタを表示させ、
     センサによって検出された前記ユーザ及び前記コミュニケーション対象の視線に係る情報、前記ユーザ及び前記コミュニケーション対象の音声、及び、前記ユーザによる操作に基づいて、前記キャラクタを動作させる、請求項32から請求項34のいずれか一項に記載のコミュニケーション支援プログラム。
  36.  前記ユーザの前記キャラクタと前記コミュニケーション対象の前記キャラクタとが向き合うように動作させる、請求項35に記載のコミュニケーション支援プログラム。
  37.  サイバー空間において、前記識別情報及び前記状態アニメーションを表示させる、請求項1から請求項36のいずれか一項に記載のコミュニケーション支援プログラム。
  38.  前記コミュニケーション対象の基本生体存在情報として、前記状態アニメーショを動作させる、請求項1から請求項37のいずれか一項に記載のコミュニケーション支援プログラム。
  39.  前記コミュニケーション対象は、人工知能によって動作するAIアシスタントである、請求項1から請求項38のいずれか一項に記載のコミュニケーション支援プログラム。
  40.  前記状態アニメーションは、動的に変化する顔表情を含まない、請求項1から請求項38のいずれか一項に記載のコミュニケーション支援プログラム。
  41.  前記コミュニケーション対象が沈黙している場合には、前記状態アニメーションにおいて色を変化させる、請求項1から請求項40のいずれか一項に記載のコミュニケーション支援プログラム。
  42.  所定のタイミングで、前記状態アニメーションにおいて使用された動作パターンの使用状況を表示させる、請求項1から請求項41のいずれか一項に記載のコミュニケーション支援プログラム。
  43.  前記使用状況として、前記ユーザ及び前記コミュニケーション対象における前記動作パターンの使用割合、及び、時間軸に対応した前記動作パターンの使用頻度の変化の少なくとも一方を表示させる、請求項42に記載のコミュニケーション支援プログラム。
  44.  ユーザのコミュニケーションを支援するコミュニケーション支援方法であって、
     コミュニケーション対象を識別可能な識別情報と、前記コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させるステップを含む、コミュニケーション支援方法。
  45.  ユーザのコミュニケーションを支援するコミュニケーション支援システムであって、
     コミュニケーション対象を識別可能な識別情報と、当該コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる制御部を備える、コミュニケーション支援システム。
  46.  ユーザのコミュニケーションを支援する端末装置であって、
     コミュニケーション対象を識別可能な識別情報と、当該コミュニケーション対象の状態を示す状態アニメーションと、を一体的に表示させる制御部を備える、端末装置。
  47.  音声データ、画像データ、映像データ、音楽データ、センシングデータ及び操作入力データの少なくとも一つのデータを入力するステップと、
     前記データを非言語表現としてのアニメーションに変換するステップと、
     前記データに係る対象を示す識別情報と前記アニメーションとを一体的に表示させるステップと、をコンピュータに実行させる、非言語表現プログラム。
  48.  前記データに基づいて、前記対象の状態を推定するステップと、
     前記対象の状態に基づいて、前記アニメーションの動作を制御するための制御データを生成するステップと、を前記コンピュータに実行させる、請求項47に記載の非言語表現プログラム。
  49.  前記アニメーションは、前記識別情報の表示領域の外側に当該表示領域から突出するように表示される、又は、前記識別情報の表示領域の周囲に当該表示領域に付随するように表示される、請求項47又は請求項48に記載の非言語表現プログラム。
  50.  前記アニメーションは、動的に変化する顔表情を含まない、請求項47から請求項49のいずれか一項に記載の非言語表現プログラム。
PCT/JP2021/010187 2020-10-14 2021-03-12 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム WO2022079933A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2021574939A JP7193015B2 (ja) 2020-10-14 2021-03-12 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US17/630,944 US11960792B2 (en) 2020-10-14 2021-03-12 Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
CN202180004742.XA CN114787759B (zh) 2020-10-14 2021-03-12 交流支持方法、交流支持系统、终端装置以及存储介质
JP2022194014A JP7517390B2 (ja) 2020-10-14 2022-12-05 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US18/597,974 US20240211208A1 (en) 2020-10-14 2024-03-07 Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020173201 2020-10-14
JP2020-173201 2020-10-14

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/630,944 A-371-Of-International US11960792B2 (en) 2020-10-14 2021-03-12 Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
US18/597,974 Continuation US20240211208A1 (en) 2020-10-14 2024-03-07 Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program

Publications (1)

Publication Number Publication Date
WO2022079933A1 true WO2022079933A1 (ja) 2022-04-21

Family

ID=81209107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010187 WO2022079933A1 (ja) 2020-10-14 2021-03-12 コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム

Country Status (4)

Country Link
US (2) US11960792B2 (ja)
JP (2) JP7193015B2 (ja)
CN (1) CN114787759B (ja)
WO (1) WO2022079933A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7329209B1 (ja) 2022-06-17 2023-08-18 グリー株式会社 情報処理システム、情報処理方法およびコンピュータプログラム
JP7347725B1 (ja) * 2022-08-04 2023-09-20 住友電気工業株式会社 表示プログラム、表示方法及び表示システム
JP7371820B1 (ja) * 2022-04-26 2023-10-31 住友電気工業株式会社 アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
WO2023210164A1 (ja) * 2022-04-26 2023-11-02 住友電気工業株式会社 アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
WO2024029135A1 (ja) * 2022-08-04 2024-02-08 住友電気工業株式会社 表示プログラム、表示方法及び表示システム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP1727779S (ja) * 2021-11-18 2022-10-20 ユーザーの情報及び状態表示用画像
USD1042530S1 (en) * 2021-11-24 2024-09-17 Nike, Inc. Display screen with icon
TWI824453B (zh) * 2022-03-24 2023-12-01 華碩電腦股份有限公司 影像剪輯方法及其系統

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び方法及び情報伝送システム
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2002358146A (ja) * 2001-05-31 2002-12-13 Nippon Telegraph & Telephone East Corp インターフェースエージェントシステム及びその制御方法
JP2003323628A (ja) * 2002-05-02 2003-11-14 Nippon Hoso Kyokai <Nhk> 発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法
JP2005216149A (ja) * 2004-01-30 2005-08-11 Ntt Docomo Inc 携帯通信端末及びプログラム
JP2007272533A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
JP2012181704A (ja) * 2011-03-01 2012-09-20 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2015092347A (ja) * 2014-11-19 2015-05-14 Necプラットフォームズ株式会社 感情表現アニメーション顔表示システム、方法及びプログラム
WO2018158852A1 (ja) * 2017-02-28 2018-09-07 サン電子株式会社 通話システム及びコミュニケーションシステム
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2020144712A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091642A (ja) 2000-09-11 2002-03-29 Canon Inc 表示制御装置、表示制御方法、表示制御システム、及び媒体
JP2003106846A (ja) 2001-09-28 2003-04-09 Equos Research Co Ltd エージェント装置
DE60224776T2 (de) * 2001-12-20 2009-01-22 Matsushita Electric Industrial Co., Ltd., Kadoma-shi Virtuelles Bildtelefon
US8232989B2 (en) * 2008-12-28 2012-07-31 Avaya Inc. Method and apparatus for enhancing control of an avatar in a three dimensional computer-generated virtual environment
KR101274471B1 (ko) * 2009-08-31 2013-06-13 에스케이플래닛 주식회사 영상통화 중 감정 전달 시스템 및 방법
CN101883339A (zh) * 2010-06-22 2010-11-10 宇龙计算机通信科技(深圳)有限公司 一种短消息通信方法、装置及移动终端
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
CN107257403A (zh) * 2012-04-09 2017-10-17 英特尔公司 使用交互化身的通信
US9191619B2 (en) * 2012-08-01 2015-11-17 Google Inc. Using an avatar in a videoconferencing system
JP2015038725A (ja) 2013-07-18 2015-02-26 国立大学法人北陸先端科学技術大学院大学 発話アニメーション生成装置、方法、及びプログラム
US20180157388A1 (en) 2016-12-02 2018-06-07 Google Inc. Emotion expression in virtual environment
KR102435337B1 (ko) 2017-05-16 2022-08-22 애플 인크. 이모지 레코딩 및 전송
CN110490093B (zh) 2017-05-16 2020-10-16 苹果公司 表情符号录制和发送
EP3724855A4 (en) * 2017-12-14 2022-01-12 Magic Leap, Inc. CONTEXT-BASED REPRESENTATION OF VIRTUAL AVATARS
US10726603B1 (en) * 2018-02-28 2020-07-28 Snap Inc. Animated expressive icon
US20220124140A1 (en) 2019-04-01 2022-04-21 Sumitomo Electric Industries, Ltd. Communication assistance system, communication assistance method, and image control program
CN110531860B (zh) * 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
CN111596985B (zh) * 2020-04-24 2023-03-14 腾讯科技(深圳)有限公司 多媒体会议场景下的界面显示方法、装置、终端及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び方法及び情報伝送システム
JP2000184345A (ja) * 1998-12-14 2000-06-30 Nec Corp マルチモーダルコミュニケーション支援装置
JP2002358146A (ja) * 2001-05-31 2002-12-13 Nippon Telegraph & Telephone East Corp インターフェースエージェントシステム及びその制御方法
JP2003323628A (ja) * 2002-05-02 2003-11-14 Nippon Hoso Kyokai <Nhk> 発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法
JP2005216149A (ja) * 2004-01-30 2005-08-11 Ntt Docomo Inc 携帯通信端末及びプログラム
JP2007272533A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
JP2012181704A (ja) * 2011-03-01 2012-09-20 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2015092347A (ja) * 2014-11-19 2015-05-14 Necプラットフォームズ株式会社 感情表現アニメーション顔表示システム、方法及びプログラム
WO2018158852A1 (ja) * 2017-02-28 2018-09-07 サン電子株式会社 通話システム及びコミュニケーションシステム
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2020144712A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7371820B1 (ja) * 2022-04-26 2023-10-31 住友電気工業株式会社 アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
WO2023210164A1 (ja) * 2022-04-26 2023-11-02 住友電気工業株式会社 アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
CN117980875A (zh) * 2022-04-26 2024-05-03 住友电气工业株式会社 动画操作方法、动画操作程序以及动画操作系统
JP7329209B1 (ja) 2022-06-17 2023-08-18 グリー株式会社 情報処理システム、情報処理方法およびコンピュータプログラム
JP2023184000A (ja) * 2022-06-17 2023-12-28 グリー株式会社 情報処理システム、情報処理方法およびコンピュータプログラム
JP7347725B1 (ja) * 2022-08-04 2023-09-20 住友電気工業株式会社 表示プログラム、表示方法及び表示システム
WO2024029135A1 (ja) * 2022-08-04 2024-02-08 住友電気工業株式会社 表示プログラム、表示方法及び表示システム

Also Published As

Publication number Publication date
US11960792B2 (en) 2024-04-16
JPWO2022079933A1 (ja) 2022-04-21
JP7193015B2 (ja) 2022-12-20
JP7517390B2 (ja) 2024-07-17
US20240211208A1 (en) 2024-06-27
JP2023026448A (ja) 2023-02-24
CN114787759B (zh) 2024-08-06
CN114787759A (zh) 2022-07-22
US20230315382A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
WO2022079933A1 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法、コミュニケーション支援システム、端末装置及び非言語表現プログラム
US20220284896A1 (en) Electronic personal interactive device
US20220254343A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN108886532B (zh) 用于操作个人代理的装置和方法
US11468894B2 (en) System and method for personalizing dialogue based on user&#39;s appearances
WO2020204000A1 (ja) コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム
CN1326400C (zh) 虚拟电视通话装置
US11017551B2 (en) System and method for identifying a point of interest based on intersecting visual trajectories
US20220215678A1 (en) System and method for reconstructing unoccupied 3d space
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
US20190251350A1 (en) System and method for inferring scenes based on visual context-free grammar model
CN110162598B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
JP2003108502A (ja) 身体性メディア通信システム
CN110166844B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
JP7371820B1 (ja) アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
US20240323332A1 (en) System and method for generating and interacting with conversational three-dimensional subjects
JP7505666B1 (ja) コミュニケーション支援プログラム、コミュニケーション支援方法及びコミュニケーション支援システム
WO2023210164A1 (ja) アニメーション操作方法、アニメーション操作プログラム及びアニメーション操作システム
JP7347725B1 (ja) 表示プログラム、表示方法及び表示システム
WO2024029135A1 (ja) 表示プログラム、表示方法及び表示システム
US20230230293A1 (en) Method and system for virtual intelligence user interaction

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021574939

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21879681

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21879681

Country of ref document: EP

Kind code of ref document: A1