WO2020204000A1 - コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム - Google Patents
コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム Download PDFInfo
- Publication number
- WO2020204000A1 WO2020204000A1 PCT/JP2020/014674 JP2020014674W WO2020204000A1 WO 2020204000 A1 WO2020204000 A1 WO 2020204000A1 JP 2020014674 W JP2020014674 W JP 2020014674W WO 2020204000 A1 WO2020204000 A1 WO 2020204000A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- terminal
- avatar
- data
- communication support
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims description 44
- 230000033001 locomotion Effects 0.000 claims abstract description 94
- 230000006399 behavior Effects 0.000 claims description 88
- 230000001755 vocal effect Effects 0.000 claims description 68
- 230000008921 facial expression Effects 0.000 claims description 24
- 230000036544 posture Effects 0.000 claims description 22
- 230000009471 action Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 61
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 238000003384 imaging method Methods 0.000 description 16
- 239000000463 material Substances 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 235000002673 Dioscorea communis Nutrition 0.000 description 2
- 241000544230 Dioscorea communis Species 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 208000035753 Periorbital contusion Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005057 finger movement Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
- H04L65/1089—In-session procedures by adding media; by removing media
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/011—Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Definitions
- One aspect of this disclosure relates to communication support systems, communication support methods, communication support programs, and image control programs.
- Patent Document 1 describes a line-of-sight matching image generator that matches the lines of sight of members who interact remotely.
- Patent Document 2 describes an image processing device for a dialogue device used for a videophone, a video conference, or the like.
- Patent Document 3 describes a method of synthesizing a line-of-sight matching face image in a video conferencing system.
- the communication support system supports communication between the first user corresponding to the first terminal and the second user corresponding to the second terminal.
- the communication support system includes at least one processor. At least one processor receives the video data showing the first user from the first terminal, analyzes the video data, and from the avatar's motion pattern group, the motion pattern corresponding to the non-verbal behavior of the first user. Is selected, and in order to operate the avatar corresponding to the first user in the virtual space displayed on the second terminal based on the selected operation pattern, control data indicating the selected operation pattern is displayed. Send to the second terminal.
- FIG. 1 is a diagram showing an example of an outline of a communication support system according to an embodiment.
- FIG. 2 is a diagram showing an example of line-of-sight deviation.
- FIG. 3 is a diagram showing an example of a virtual space and an avatar.
- FIG. 4 is another diagram showing an example of a virtual space and an avatar, and more specifically, a diagram for explaining joint attention.
- FIG. 5 is yet another diagram showing an example of a virtual space and an avatar, and more specifically, a diagram illustrating some examples of avatar motion patterns.
- FIG. 6 is a diagram showing an example of a hardware configuration related to the communication support system according to the embodiment.
- FIG. 7 is a diagram showing an example of the functional configuration of the terminal according to the embodiment.
- FIG. 8 is a diagram showing an example of the functional configuration of the server according to the embodiment.
- FIG. 9 is a sequence diagram showing an example of the operation of the communication support system according to the embodiment as a processing flow S1.
- FIG. 10 is another sequence diagram showing an example of the operation of the communication support system according to the embodiment as the processing flow S2.
- FIG. 11 is yet another sequence diagram showing an example of the operation of the communication support system according to the embodiment as the processing flow S3.
- Embodiments of the present disclosure will be listed and described. At least a part of the embodiments described below may be arbitrarily combined.
- the communication support system supports communication between the first user corresponding to the first terminal and the second user corresponding to the second terminal.
- the communication support system includes at least one processor. At least one processor receives the video data showing the first user from the first terminal, analyzes the video data, and from the avatar's motion pattern group, the motion pattern corresponding to the non-verbal behavior of the first user. Is selected, and in order to operate the avatar corresponding to the first user in the virtual space displayed on the second terminal based on the selected operation pattern, the control data indicating the selected operation pattern is generated. 2 Send to the terminal.
- the communication support method is a communication support system that supports communication between a first user corresponding to a first terminal and a second user corresponding to a second terminal, and includes at least one processor. Is executed by.
- the communication support method includes a step of receiving video data showing the first user from the first terminal and an operation corresponding to the non-verbal behavior of the first user from the avatar's motion pattern group by analyzing the video data.
- the communication support program causes the computer to function as a communication support system that supports communication between the first user corresponding to the first terminal and the second user corresponding to the second terminal.
- the communication support program includes a step of receiving video data showing the first user from the first terminal and an operation corresponding to the non-verbal behavior of the first user from the avatar's movement pattern group by analyzing the video data.
- the image control program causes the computer to function as a second terminal that can be connected to the first terminal via a communication network.
- the image control program corresponds to the step of receiving the control data indicating the operation pattern corresponding to the non-verbal behavior of the first user corresponding to the first terminal and the first user in the virtual space displayed on the second terminal.
- the computer is made to perform a step of operating the avatar to be operated based on the operation pattern indicated by the received control data.
- the motion pattern is selected from the motion pattern group of the avatar as the motion pattern corresponding to the non-verbal behavior by analyzing the video data of the first user taken by the first terminal.
- the second user can naturally communicate with the first user through the avatar.
- At least one processor uses a learning model to select an action pattern corresponding to the non-verbal behavior of the first user and the voice information of the first user, and the learning model is the user.
- the training is performed so as to output information indicating the non-verbal behavior of the user and the operation pattern corresponding to the voice information of the user. It may be a trained model generated using the data. In this way, using the learning model, not only the non-verbal behavior of the first user but also the voice information of the first user can be reflected in the movement of the avatar.
- the voice information of the first user includes the voice and language of the first user
- the video data of the user or the data based on the video data includes the image data and voice information of the user. It's fine. As a result, the voice and language of the first user can be reflected in the operation of the avatar.
- At least one processor may select an operation pattern so that the avatar's line of sight is directed to the second user. As a result, the line of sight of the avatar and the line of sight of the second user can be matched.
- At least one processor may generate control data by expressing the selected operation pattern in text.
- the operation pattern for operating the avatar with text (that is, a character string)
- the size of the data transmitted to the second terminal can be greatly suppressed. Therefore, the processing load on the communication network and the terminal can be reduced, and the avatar can be operated in real time according to the behavior of the first user.
- At least one processor may generate control data by describing the selected operation pattern in JSON format.
- the data size indicating the operation pattern is further suppressed. Therefore, the processing load on the communication network and the terminal can be reduced, and the avatar can be operated in real time according to the behavior of the first user.
- the nonverbal behavior may include at least the line of sight of the first user, and each action pattern included in the action pattern group may at least indicate the line of sight of the avatar.
- At least one processor may select an operation pattern that indicates the line of sight of the avatar corresponding to the line of sight of the first user.
- the nonverbal behavior further includes at least one of the posture, movement, and facial expression of the first user, and each movement pattern included in the movement pattern group is the posture of the avatar. At least one of movement and facial expression may be further indicated. At least one processor may select a motion pattern indicating at least one of the avatar's postures, movements, and facial expressions corresponding to at least one of the first user's postures, movements, and facial expressions. By reflecting at least one of the posture, movement, and facial expression in the movement of the avatar, natural communication using images can be realized.
- the movement pattern group is at least one of the rotation of the upper body of the avatar, the rotation of the neck of the avatar, and the movement of the black eyes of the avatar, which are performed in response to the change of the line of sight of the avatar. It may include an operation pattern indicating. By expressing such non-verbal behavior in response to changes in the avatar's line of sight, smooth communication or creative dialogue between users can be realized.
- the video data may include image data and audio data.
- At least one processor separates the video data into image data and audio data, analyzes the image data, selects an action pattern corresponding to the non-verbal behavior of the first user, and indicates the selected action pattern.
- the combination of the language behavior data and the voice data may be transmitted to the second terminal as control data.
- the non-verbal behavior of the first user is reflected in the movement of the avatar, and the voice of the first user is provided to the second terminal.
- the second user can communicate naturally with the first user by recognizing the movement of the avatar and its voice.
- At least one processor transmits the shared item data indicating the shared item to each of the first terminal and the second terminal, so that the virtual space including the shared item is transmitted to the first terminal. And may be displayed on each of the second terminals.
- FIG. 1 is a diagram showing an example of an outline of the communication support system 100 according to the embodiment.
- the communication support system 100 is a computer system that supports communication between users.
- the purpose of use of the communication support system 100 is not limited.
- the communication support system 100 can be used for various purposes such as video conferencing, chat, medical examination, counseling, interview (personal evaluation), and telework.
- the communication support system 100 includes a server 2 that establishes a call session between a plurality of terminals 1.
- a plurality of terminals 1 can establish a call session with another terminal 1 by communicating with the server 2 via the communication network N.
- the communication support system 100 is configured by using the server 2, the communication support is a kind of cloud service.
- FIG. 1 shows two terminals 1, the number of terminals 1 connected to the communication support system 100 (in other words, the number of terminals 1 participating in one call session) is not limited.
- the terminal 1 is a computer used by the user of the communication support system 100.
- the type of terminal 1 is not limited.
- the terminal 1 may be a mobile phone, a high-performance mobile phone (smartphone), a tablet terminal, a desktop personal computer, a laptop personal computer, or a wearable terminal.
- the terminal 1 includes an imaging unit 13, a display unit 14, an operation unit 15, and an audio input / output unit 16.
- the user operates the operation unit 15 to take a picture of himself / herself with the image pickup unit 13, and while checking various information (avatar, document, etc. of the other party) displayed on the display unit 14, the other party via the voice input / output unit 16.
- the terminal 1 generates video data by encoding and multiplexing data between the image captured by the imaging unit 13 and the audio obtained by the audio input / output unit 16, and transmits the video data via a call session. To do.
- the terminal 1 receives the video data transmitted from another terminal 1 and outputs the image and the sound based on the video data from the display unit 14 and the audio input / output unit 16.
- FIG. 2 is a diagram showing an example of the deviation of the line of sight.
- the deviation of the line of sight is caused by the parallax angle ⁇ , which is the difference between the line of sight of the user looking at the display unit 14 and the optical axis of the imaging unit 13 for photographing the user. If this parallax angle ⁇ is large, it becomes difficult for the users to match their lines of sight, and the user feels frustrated in communication.
- the communication support system 100 displays the avatar corresponding to the first user on the terminal 1 (second terminal) of the second user. Then, the communication support system 100 operates the avatar based on the video data from the terminal 1 (first terminal) of the first user so that the nonverbal behavior of the first user is naturally expressed on the second terminal. Let me. That is, the communication support system 100 operates the avatar corresponding to the first user and displayed on the second terminal so as to perform an operation corresponding to the non-verbal behavior of the first user. For example, the communication support system 100 executes control such as directing the line of sight of the avatar to the other party (a person who is looking at the avatar through the display unit 14) or directing the body of the avatar to a natural direction.
- the communication support system 100 does not display the first user imaged by the first terminal as it is on the second terminal, but displays an avatar on the second terminal instead of the first user, and the non-language of the avatar. Control behavior. Since the parallax angle ⁇ is finally corrected or eliminated by this processing, each user can experience a natural dialogue.
- An avatar is a user's alter ego represented in a virtual space represented by a computer.
- the avatar is displayed not by the user itself photographed by the imaging unit 13 (that is, not by the user itself indicated by the video data), but by an image material independent of the video data.
- the expression method of the avatar is not limited, and for example, the avatar may show an animated character, or may be represented by a more realistic user image created in advance based on the user's photograph.
- the avatar may be drawn by two-dimensional or three-dimensional computer graphics (CG).
- CG three-dimensional computer graphics
- the virtual space refers to the space represented by the display unit 14 of the terminal 1.
- the avatar is represented as an object that exists in this virtual space.
- the method of expressing the virtual space is not limited, and for example, the virtual space may be drawn by two-dimensional or three-dimensional CG, may be represented by an image (moving image or still image) reflecting the real world, or may be represented. It may be represented by both the image and CG.
- the virtual space (background screen) may be freely selected by the user.
- the avatar may be placed at any position in the virtual space by the user.
- the communication support system 100 expresses a virtual space in which a plurality of users can recognize a common scene.
- the common scene is sufficient as long as it is possible to give a common recognition to a plurality of users.
- the common scene does not require that the positional relationship between objects in the virtual space (for example, the positional relationship between avatars) is the same among the plurality of terminals 1.
- Non-verbal behavior refers to human behavior that does not use language.
- Nonverbal behavior includes at least one of gaze, posture, movement (including gestures), and facial expression, and may further include other elements.
- elements constituting non-verbal behavior such as line of sight, posture, movement, and facial expression are also referred to as "non-verbal behavior elements".
- the user's non-verbal behavior represented by the avatar is not limited in any way.
- examples of facial postures or movements include squeezing, swinging, and tilting.
- Examples of upper body postures or movements include torso orientation, shoulder twisting, elbow bending, and hand raising and lowering.
- finger movements include extension, flexion, abduction, and adduction.
- facial expressions include neutrality, joy, contempt, disgust, fear, surprise, sadness, and anger.
- 3 to 5 are diagrams showing an example of a virtual space and an avatar provided by the communication support system 100.
- the three terminals 1 are the terminal Ta of the user Ua, the terminal Tb of the user Ub, and the terminal Tc of the user Uc. Distinguish between.
- the avatars corresponding to the users Ua, Ub, and Uc be the avatars Va, Vb, and Vc, respectively.
- the virtual space 300 provided to the three users imitates the discussion in the conference room.
- the virtual space displayed on the display unit 14 of each terminal includes the avatar of the other party. That is, the virtual space 300 in the terminal Ta includes avatars Vb and Vc, the virtual space 300 in the terminal Tb includes avatars Va and Vc, and the virtual space 300 in the terminal Tc includes avatars Va and Vb.
- FIG. 3 corresponds to a situation in which the user Ua is viewing the avatar Vc on the terminal Ta, the user Ub is viewing the avatar Vc on the terminal Tb, and the user Uc is viewing the avatar Vb on the terminal Tc.
- the communication support system 100 displays the virtual space 300 on each terminal as follows. That is, on the terminal Ta, a scene in which the avatar Vb and the avatar Vc face each other is displayed.
- a scene in which the avatar Va is looking at the avatar Vc and the avatar Vc is looking at the user Ub through the display unit 14 of the terminal Tb is displayed.
- a scene in which both the avatars Va and Vb are viewing the user Uc through the display unit 14 of the terminal Tb is displayed.
- the user Ua is looking at the user Uc
- the user Ub is looking at the user Uc
- the user Uc is looking at the user Ub (thus, the users Ub and Uc are looking at each other). It is represented by the virtual space 300.
- the virtual space 300 in the terminal Ta expresses the line-of-sight matching between the users Ub and Uc, which are strangers to the user Ua.
- the virtual space 300 in the terminal Tb represents a state in which the user Ub is directed by the user Uc
- the virtual space 300 in the terminal Tc represents a state in which the user Uc is directed by the users Ua and Ub. That is, the virtual space 300 in the terminals Tb and Tc both express line-of-sight recognition.
- the communication support system 100 may further display an auxiliary expression 310 indicating an area (area of interest) actually viewed by the user of the terminal.
- the example of FIG. 4 corresponds to a situation in which each user is viewing a common presentation material 301 through each terminal.
- the display method of the presentation material 301 on each terminal is not limited.
- each terminal may display the virtual space including the presentation material 301, or display the presentation material 301 in a display area different from the virtual space. You may. Replacing that situation with the real world, users Ua, Ub, and Uc are looking at the same presentation material 301.
- the communication support system 100 displays the virtual space 300 on each terminal as follows. That is, on the terminal Ta, the scene where the avatars Vb and Vc are looking at the presentation material 301 is displayed. On the terminal Tb, a scene in which the avatars Va and Vc are viewing the presentation material 301 is displayed.
- a scene in which the avatars Va and Vb are viewing the presentation material 301 is displayed.
- a scene in which three people are looking at the same presentation material 301 is represented by the virtual space 300, which indicates joint attention (sense of sympathy).
- the communication support system 100 may express at least one movement of upper body rotation, neck rotation, and black eye movement for the avatar.
- FIG. 5 shows some examples of avatar movement patterns that can be represented in the virtual space 300.
- the communication support system 100 performs various user non-verbal behaviors such as smile, surprise, question, anger, confusion, conviction, approval, joy, contemplation, eye contact, etc. of avatar movements (for example, line of sight, posture, movement). , Expression, etc.) to express.
- the movement of the avatar may be expressed by including a symbol such as a question mark.
- the communication support system 100 operates the avatar in various modes, the avatar expresses line-of-sight matching, line-of-sight recognition, joint attention, eye contact, and the like. This enables each user to communicate naturally and smoothly with the other party.
- the user can communicate without having the other party recognize the actual image of his / her face and his / her whereabouts. This can contribute to improving the security of the user (for example, protection of personal information).
- the introduction of avatars also helps protect the privacy of the user himself / herself. For example, there is no need to change clothes or make up, which must be taken into consideration when using an actual image. In addition, the user does not have to worry excessively about shooting conditions such as a shooting position and light when setting the imaging unit 13.
- FIG. 6 is a diagram showing an example of the hardware configuration related to the communication support system 100.
- the terminal 1 includes a processing unit 10, a storage unit 11, a communication unit 12, an imaging unit 13, a display unit 14, an operation unit 15, and an audio input / output unit 16.
- the storage unit 11, the imaging unit 13, the display unit 14, the operation unit 15, and the audio input / output unit 16 may be an external device connected to the terminal 1.
- the processing unit 10 can be configured by using a processor such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), a clock, and a built-in memory.
- the processing unit 10 may be configured as one piece of hardware (SoC: System on a Chip) in which a processor, a clock, a built-in memory, a storage unit 11, and a communication unit 12 are integrated.
- SoC System on a Chip
- the processing unit 10 operates based on the terminal program 1P (image control program) stored in the storage unit 11 to cause the general-purpose computer to function as the terminal 1.
- the storage unit 11 may be configured by using a non-volatile storage medium such as a flash memory, a hard disk, or an SSD (Solid State Disk).
- the storage unit 11 stores the terminal program 1P and the information referred to by the processing unit 10.
- the storage unit 11 may store a user image or a feature amount (vectorized feature amount group) obtained from the user image in order to determine (authenticate) the validity of the user of the terminal 1.
- the storage unit 11 may store one or more avatar images, or each feature amount of one or more avatar images.
- the communication unit 12 is configured by using a network card or a wireless communication device, and realizes a communication connection to the communication network N.
- the imaging unit 13 outputs a video signal obtained by using the camera module.
- the imaging unit 13 includes an internal memory, captures a frame image from a video signal output from the camera module at a predetermined frame rate, and stores the frame image in the internal memory.
- the processing unit 10 can sequentially acquire frame images from the internal memory of the imaging unit 13.
- the display unit 14 is configured by using a display device such as a liquid crystal panel or an organic EL display.
- the display unit 14 processes the image data generated by the processing unit 10 and outputs an image.
- the operation unit 15 is an interface that accepts user operations, and is configured by using physical buttons, a touch panel, a microphone 16b of the voice input / output unit 16, and the like.
- the operation unit 15 may accept operations via physical buttons or an interface displayed on the touch panel.
- the operation unit 15 may recognize the operation content by processing the input voice with the microphone 16b, or may accept the operation in an interactive manner using the voice output from the speaker 16a.
- the voice input / output unit 16 is configured by using the speaker 16a and the microphone 16b.
- the audio input / output unit 16 outputs audio based on the video data from the speaker 16a, and digitally converts the audio obtained by using the microphone 16b into audio data.
- Server 2 is configured using one or more server computers.
- the server 2 may be realized by logically a plurality of virtual machines operating on one server computer. When a plurality of server computers are physically used, the server 2 is configured by connecting these server computers to each other via a communication network.
- the server 2 includes a processing unit 20, a storage unit 21, and a communication unit 22.
- the processing unit 20 is configured by using a processor such as a CPU or GPU.
- the processing unit 20 operates based on the server program 2P (communication support program) stored in the storage unit 21 to cause the general-purpose computer to function as the server 2.
- server program 2P communication support program
- the storage unit 21 is configured by using a non-volatile storage medium such as a hard disk or a flash memory.
- the database which is an external storage device, may function as the storage unit 21.
- the storage unit 21 stores the server program 2P and the information referred to by the processing unit 20.
- the communication unit 22 is configured by using a network card or a wireless communication device, and realizes a communication connection to the communication network N.
- the server 2 establishes a communication session between two or more arbitrary numbers of terminals 1 by realizing a communication connection via the communication network N by the communication unit 22. Data communication for a call session may be performed more securely by encryption processing or the like.
- the configuration of the communication network N is not limited.
- the communication network N may be constructed by using the Internet (public network), the communication carrier network, the business network of the business operator that realizes the communication support system 100, the base station BS, the access point AP, and the like.
- the server 2 may be connected from the operator network to the communication network N.
- FIG. 7 is a diagram showing an example of the functional configuration of the processing unit 10 of the terminal 1.
- the processing unit 10 includes a video transmission unit 101 and a screen control unit 102 as functional elements. These functional elements are realized by the processing unit 10 operating according to the terminal program 1P.
- the video transmission unit 101 is a functional element that transmits video data showing the user of the terminal 1 to the server 2.
- the video transmission unit 101 multiplexes image data indicating a series of frame images input from the imaging unit 13 (hereinafter referred to as “frame image data”) and audio data input from the microphone 16b to obtain video data. To generate.
- the video transmission unit 101 synchronizes between the frame image data and the audio data based on the time stamp.
- the video transmission unit 101 encodes the video data, controls the communication unit 12, and transmits the encoded video data to the server 2.
- the technique used for encoding video data is not limited.
- the video transmission unit 101 has an H.
- Video compression technology such as 265 may be used, or voice coding such as AAC (Advanced Audio Coding) may be used.
- the screen control unit 102 is a functional element that controls the screen corresponding to the call session.
- the screen control unit 102 displays the screen on the display unit 14 in response to the start of the call session.
- This screen shows a virtual space containing at least the avatar corresponding to the other party.
- the configuration of the virtual space is not limited and may be designed according to any policy.
- the virtual space may mimic a conference scene or conference room.
- the virtual space may include an item shared between terminals 1 (items displayed on each terminal 1) provided by the server 2. In this disclosure, this item is referred to as a "shared item".
- the types of shared items are not limited.
- the shared item may represent furniture such as a desk or whiteboard, or may represent shared material that can be viewed by each user.
- the screen control unit 102 includes an avatar control unit 103 that controls an avatar in the screen.
- the avatar control unit 103 operates the avatar on the screen based on the control data transmitted from the server 2 and received by the communication unit 12.
- the control data includes non-verbal behavior data for reflecting the non-verbal behavior of the first user who is the other party on the avatar, and voice data indicating the voice of the user.
- the avatar control unit 103 controls the operation of the avatar displayed on the display unit 14 based on the non-verbal behavior data. Further, the avatar control unit 103 processes the voice data and outputs the voice from the speaker 16a so that the operation of the avatar and the voice of the user are synchronized.
- FIG. 8 is a diagram showing an example of the functional configuration of the processing unit 20 of the server 2.
- the processing unit 20 includes a shared item management unit 201 and a video processing unit 202 as functional elements. These functional elements are realized by the processing unit 20 operating according to the server program 2P.
- the shared item management unit 201 is a functional element that manages shared items.
- the shared item management unit 201 transmits shared item data indicating a shared item to each terminal 1 in response to the start of a call session or in response to a request signal from any terminal 1.
- the shared item management unit 201 causes each terminal 1 to display a virtual space including the shared item by this transmission.
- the shared item data may be stored in the storage unit 21 in advance, or may be included in the request signal from the specific terminal 1.
- the video processing unit 202 is a functional element that generates control data based on the video data transmitted from the first terminal and transmits the control data to the second terminal.
- the video processing unit 202 separates the video data into frame image data and audio data, and identifies an operation pattern corresponding to the non-verbal behavior of the first user from the frame image data.
- the motion pattern refers to the type or type of motion of the avatar expressed by systematizing or simplifying the user's non-verbal behavior indicated by the video data.
- a person's specific nonverbal behavior can exist indefinitely based on gaze, facial expression, torso orientation, hand movements, or any combination of two or more of these.
- the video processing unit 202 systematizes or simplifies this infinite non-verbal behavior into a finite number of motion patterns.
- the video processing unit 202 transmits the combination of the non-verbal behavior data indicating the selected operation pattern and the audio data separated from the video data to the second terminal as control data.
- the non-verbal behavior data is used to reflect the non-verbal behavior of the first user on the avatar.
- the video processing unit 202 includes a pattern selection unit 203 and a control data generation unit 204.
- the pattern selection unit 203 analyzes the frame image data separated from the video data and selects an operation pattern corresponding to the non-verbal behavior of the first user from the avatar's operation pattern group.
- the infinite nonverbal behaviors are grouped into a finite number of motion patterns, and information indicating each motion pattern is stored in advance in the storage unit 21.
- the pattern selection unit 203 refers to the storage unit 21 and reads out an operation pattern corresponding to the non-verbal behavior of the first user.
- the control data generation unit 204 transmits a combination of the non-verbal behavior data indicating the selected operation pattern and the audio data separated from the video data to the second terminal as control data.
- FIGS. 9 to 11 are sequence diagrams showing an example of the operation of the communication support system 100. All of the processes shown in FIGS. 9 to 11 are based on the premise that three users have logged in to the communication support system 100 and a call session has been established between the three terminals 1.
- the three terminals 1 are distinguished into the terminal Ta of the user Ua, the terminal Tb of the user Ub, and the terminal Tc of the user Uc, if necessary.
- the avatars corresponding to the users Ua, Ub, and Uc are called avatars Va, Vb, and Vc, respectively.
- FIG. 9 shows a process of operating the avatar Va displayed on the terminals Tb and Tc (second terminal) based on the video data from the terminal Ta (first terminal) that captured the user Ua (first user). It is shown as a processing flow S1.
- FIG. 10 shows a process of operating the avatar Vb displayed on the terminals Ta and Tc (second terminal) based on the video data from the terminal Tb (first terminal) that captured the user Ub (first user). It is shown as a processing flow S2.
- FIG. 11 shows a process of operating the avatar Vc displayed on the terminals Ta and Tb (second terminal) based on the video data from the terminal Tc (first terminal) that captured the user Uc (first user). It is shown as a processing flow S3.
- the state (posture) of the avatar in the virtual space immediately after the call session is established may be arbitrarily designed.
- the avatar control unit 103 of each terminal 1 may display the avatar so that each of the one or more avatars sits at an angle to the display unit 14 (screen) and faces downward. ..
- the screen control unit 102 or the avatar control unit 103 of each terminal 1 may display the name of each avatar on the display unit 14.
- step S101 the video transmission unit 101 of the terminal Ta transmits the video data showing the user Ua to the server 2.
- the video processing unit 202 receives the video data.
- step S102 the video processing unit 202 separates the video data into frame image data and audio data.
- the pattern selection unit 203 analyzes the frame image data and selects an operation pattern corresponding to the non-verbal behavior of the user Ua from the avatar's operation pattern group.
- the individual behavioral patterns that may be selected correspond to at least one nonverbal behavioral element.
- the motion pattern corresponding to the line of sight indicates the line of sight of the avatar.
- the motion pattern corresponding to the posture indicates the orientation of the avatar (eg, the orientation of at least one of the face and torso) and at least one of the movements.
- the motion pattern corresponding to the motion indicates, for example, waving a hand, waving a head, tilting a face, nodding, and the like.
- the pattern corresponding to the facial expression indicates the facial expression of the avatar (smile, troubled facial expression, angry facial expression, etc.).
- Each motion pattern included in the motion pattern group may indicate a non-verbal behavior represented by a combination of one or more non-verbal behavior elements.
- each movement pattern may indicate a nonverbal behavior represented by a combination of gaze and posture, or may indicate a nonverbal behavior represented by a combination of gaze, posture, movement, and facial expression.
- a finite number of given behavior patterns may be prepared for each nonverbal behavioral element. For example, a movement pattern group for the line of sight and a movement pattern group for the posture may be prepared.
- the pattern selection unit 203 selects one action pattern for one or more non-verbal action elements.
- the number of operation patterns included in the operation pattern group is not limited. For example, in order to express the user's non-verbal behavior with an avatar a little exaggeratedly, about 10 levels of motion patterns may be prepared in advance for each non-verbal behavior element.
- the pattern selection unit 203 sets the line of sight of the avatar Va so that the line of sight of the avatar Va in the virtual space corresponds to the line of sight of the user Ua indicated by the frame image data. Select the operation pattern to be shown.
- the pattern selection unit 203 selects an operation pattern in which the line of sight of the avatar Va faces the avatar Vb (user Ub).
- the avatar Va is displayed so as to face the user Ub through the display unit 14, and on the terminal Tc, the avatar Va is displayed so as to face the avatar Vb in the virtual space. ..
- the motion pattern group may include motion patterns indicating non-verbal behavior performed in response to a change in the line of sight of the avatar.
- the motion pattern group may include motion patterns indicating at least one of rotation of the avatar's upper body, rotation of the avatar's neck, and movement of the avatar's black eyes, which are performed in response to changes in the avatar's line of sight. ..
- the pattern selection unit 203 may select an operation pattern using artificial intelligence (AI), or may select an operation pattern using machine learning, which is a type of AI, for example.
- AI artificial intelligence
- Machine learning is a method of autonomously finding a law or rule by iteratively learning based on given information.
- Deep learning is an example of machine learning. Deep learning is machine learning using a multi-layered neural network (deep neural network (DNN)).
- DNN deep neural network
- a neural network is a model of information processing that imitates the mechanism of the human cranial nerve system.
- the type of machine learning is not limited to deep learning, and the pattern selection unit 203 may use any learning method.
- Machine learning uses a learning model.
- This learning model is an algorithm that processes vector data indicating image data as an input vector and outputs vector data indicating non-verbal behavior as an output vector.
- This learning model is the best computational model estimated to have the highest prediction accuracy, and can therefore be called the "best learning model”. However, keep in mind that this best learning model is not always the “best in reality”.
- the best learning model is generated by a given computer processing training data that includes a series of images of a person and numerous combinations of motion patterns of nonverbal behavior. The set of motion patterns of non-verbal behavior shown in the training data corresponds to the motion pattern group.
- a given computer calculates an output vector indicating non-verbal behavior by inputting an input vector indicating a person image into a learning model, and the error between this output vector and the non-verbal behavior shown in the training data (that is, , The difference between the estimated result and the correct answer).
- the computer then updates a given operating parameter in the training model based on that error.
- the computer generates the best learning model by repeating such learning, and this learning model is stored in the storage unit 21.
- the computer that generates the best learning model is not limited, and may be, for example, a server 2 or a computer system other than the server 2.
- the process of generating the best learning model can be called the learning phase.
- the pattern selection unit 203 selects an operation pattern using the best learning model stored in the storage unit 21. In contrast to the learning phase, the use of the learning model by the pattern selection unit 203 can be said to be the operation phase.
- the pattern selection unit 203 obtains an output vector showing a pattern corresponding to the non-verbal behavior of the user Ua.
- the pattern selection unit 203 may obtain an output vector by extracting a region of the user Ua from the frame image data and inputting the extracted region as an input vector into the learning model. In any case, the output vector represents a pattern selected from a finite number of given patterns.
- the pattern selection unit 203 may select an operation pattern without using machine learning. Specifically, the pattern selection unit 203 extracts a region of the user Ua from each of the series of frame images, and identifies the movement of the upper body including the face from the extracted region. For example, the pattern selection unit 203 may specify at least one non-verbal behavior element of the user Ua based on the change of the feature amount in the series of extracted regions. The pattern selection unit 203 selects an operation pattern corresponding to at least one non-verbal action element from the operation pattern group.
- a given specific operation pattern for example, an operation pattern indicating the initial state of the avatar Va
- the control data generation unit 204 generates a combination of non-verbal behavior data indicating the selected operation pattern and voice data as control data.
- the control data generation unit 204 generates non-verbal behavior data in which the selected motion pattern is expressed in text (that is, a character string) without using an image.
- the control data generation unit 204 may generate non-verbal behavior data by describing the selected operation pattern in a JSON (JavaScript Object Notation) format.
- the control data generation unit 204 may generate non-verbal behavior data by describing an operation pattern in another format such as XML (XML (Extension Markup Language)).
- the control data generation unit 204 may generate control data in which non-verbal behavior data and voice data are integrated, or may treat a combination of non-verbal behavior data and voice data that exist separately as control data. Good. Therefore, the physical structure of the control data is not limited. In any case, the control data generation unit 204 synchronizes the frame image data and the audio data based on the time stamp.
- step S105 the control data generation unit 204 transmits the control data to the terminals Tb and Tc.
- the method of transmitting control data is also not limited.
- the control data generation unit 204 may transmit control data in which non-verbal behavior data and voice data are integrated.
- the control data generation unit 204 may transmit the control data to the terminals Tb and Tc by transmitting a combination of non-verbal behavior data and voice data that are physically independent of each other.
- the screen control unit 102 receives the control data.
- step S106 the avatar control unit 103 of the terminal Tb controls the operation (display) of the avatar Va corresponding to the user Ua based on the non-verbal behavior data.
- the avatar control unit 103 operates the avatar Va displayed on the display unit 14 of the terminal Tb according to the operation pattern indicated by the non-verbal behavior data.
- the avatar control unit 103 executes animation control that changes at least one of the line of sight, posture, movement, and facial expression of the avatar Va from the current state to the next state indicated by the motion pattern. Operate Avatar Va.
- the avatar Va uses such control to align the line of sight with the user Ub while performing at least one of the rotation of the upper body, the rotation of the neck, and the movement of the black eye.
- the avatar control unit 103 changes the facial expression of the avatar Va in relation to the line-of-sight matching. You may direct it.
- the avatar control unit 103 produces the facial expression of avatar Va by enlarging the eyes for a certain period of time (for example, 0.5 to 1 second), raising the eyebrows, raising the corners of the mouth, and the like.
- the line-of-sight alignment ie, eye contact
- eye contact may be emphasized.
- step S107 the avatar control unit 103 of the terminal Tb processes the voice data so as to synchronize with the operation (display) of the avatar Va, and outputs the voice from the speaker 16a.
- the avatar control unit 103 may further operate the avatar Va based on the output voice.
- the avatar control unit 103 may change the mouth of the avatar Va, change the face in response to the facial expression or emotion of the user Ua, or move the arm or hand.
- the user Ub listens to the user Ua's utterance and performs the user Ua's current nonverbal behavior (for example, at least one of the line of sight, posture, movement, and facial expression) on the avatar Va. Can be recognized through.
- the user Ua's current nonverbal behavior for example, at least one of the line of sight, posture, movement, and facial expression
- the screen control unit 102 of the terminal Tb may further display the area (attention area) actually viewed by the user Ub on the display unit 14.
- the screen control unit 102 estimates the line of sight of the user Ub by analyzing the frame image data obtained from the imaging unit 13, and displays the auxiliary expression 310 shown in FIG. 3 on the display unit 14 based on the estimation result. You may.
- steps S108 and S109 which are the same as those of steps S106 and S107, are executed.
- the user Uc listens to the user Ua's utterance and performs the user Ua's current nonverbal behavior (for example, at least one of the line of sight, posture, movement, and facial expression) via the avatar Va. Can be recognized.
- the communication support system 100 executes the processing flows S2 and S3 in parallel with the processing flow S1.
- the processing flow S2 shown in FIG. 10 includes steps S201 to S209 corresponding to steps S101 to S109.
- the processing flow S3 shown in FIG. 11 includes steps S301 to S309 corresponding to steps S101 to S109.
- the communication support system 100 is configured by using the server 2, but the communication support system may be applied to a peer-to-peer call session between terminals that do not use the server 2.
- each functional element of the server 2 may be mounted on either the first terminal or the second terminal, or may be separately mounted on the first terminal and the second terminal. Therefore, at least one processor of the communication support system may be located in the server or in the terminal.
- the expression "at least one processor executes the first process, executes the second process, ... executes the nth process” is the expression from the first process to the nth process.
- This is a concept including a case where the execution subject (that is, the processor) of n processes up to the process changes in the middle. That is, this expression is a concept that includes both a case where all n processes are executed by the same processor and a case where the processor changes according to an arbitrary policy in the n processes.
- the video data and control data do not have to include audio data. That is, the communication support system may be used to support communication without voice (for example, sign language).
- Each device in the communication support system 100 includes a computer including a storage unit such as a microprocessor, ROM, and RAM.
- a processing unit such as a microprocessor reads a program including a part or all of each of the above steps from the storage unit and executes the program.
- the program can be installed on each computer from an external server device or the like.
- the program of each device may be distributed in a state of being stored in a recording medium such as a CD-ROM, a DVD-ROM, or a semiconductor memory, or may be distributed via a communication network.
- the processing procedure of the method executed by at least one processor is not limited to the example in the above embodiment. For example, some of the steps (processes) described above may be omitted, or each step may be executed in a different order. Any two or more of the steps described above may be combined, or some of the steps may be modified or deleted. Alternatively, other steps may be performed in addition to each of the above steps.
- the pattern selection unit 203 of the video processing unit 202 not only analyzes the frame image data separated from the video data as described above, but also the audio data separated from the video data, more specifically. Also analyzes the voice and language of the first user.
- the voice of the first user is information on the sound uttered by the first user, and may be the voice data itself.
- the language of the first user is the meaning and content of the voice of the first user, and is obtained by, for example, executing a voice recognition process on the voice data.
- the pattern selection unit 203 selects an operation pattern corresponding to the non-verbal behavior and voice information of the first user by analyzing not only the frame image data but also the voice and the language.
- the learning model stored in the storage unit 21 corresponds to the user's non-verbal behavior and voice information when the user's video data or the user's video data and data based on the video data are input. It may be a trained model generated using the training data so as to output information indicating the pattern to be performed.
- the video data is frame image data and audio data included in the video data.
- the data based on the video data is data corresponding to the above-mentioned "language", and is, for example, a voice recognition result of the voice data included in the video data.
- the pattern selection unit 203 executes a preprocessing of obtaining a speech recognition processing result of the speech data before using the learning model.
- Various known methods speech recognition processing engine, etc.
- the voice recognition processing function may be provided in the pattern selection unit 203 or the learning model, or may be used by the pattern selection unit 203 or the learning model in another part of the server 2 or outside the server 2 (another server or the like). It may be provided if possible.
- the above-mentioned example of training data corresponds to, for example, the user's video data, or the user's video data and data based on the video data, and information indicating an operation pattern corresponding to the user's non-verbal behavior and voice information. It may be a group of teacher data attached and stored.
- the input data (user's video data, etc.) in the training data may be acquired by monitoring the user's usual communication state using a camera, a microphone, or the like.
- the output data (information indicating the pattern) in the training data may be, for example, selected by the user, the person concerned with the user, an expert, or the like, or is automatically selected by using a known classification process or the like. It may be.
- the learning model may be stored in the storage unit 21 (FIG. 6) as a part of the server program 2P as one aspect of the program or equivalent to the program.
- the learning model stored in the storage unit 21 may be updated in a timely manner.
- the pattern selection unit 203 may select a pattern without using a learning model. If it is the user's voice, for example, the voice volume, tone, speed, etc. may be reflected in the pattern selection. If it is the user's language, for example, the word type, context, etc. may be reflected in the pattern selection.
- the emotions, movements, etc. of the first user can be reproduced more accurately and more smoothly. Communication can be realized. This effect is further enhanced by preparing the training data used to generate the learning model by big data analysis. If a learning model is generated (customized) for each user, the emotions and movements of that user can be reproduced more appropriately.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本開示の一側面に係るコミュニケーション支援システムは、第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援する。コミュニケーション支援システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、第1ユーザを映した映像データを第1端末から受信し、映像データを解析して、アバターの動作パターン群の中から、第1ユーザの非言語行動に対応する動作パターンを選択し、第2端末上に表示された仮想空間内の、第1ユーザに対応するアバターを、選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを第2端末に送信する。
Description
本開示の一側面は、コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラムに関する。
本出願は、2019年4月1日出願の日本出願2019-070095号、2019年6月14日出願の日本出願2019-110923号および2019年9月30日出願の日本出願第2019-179883号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。
第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援するコミュニケーション支援システムが知られている。例えば、特許文献1には、遠隔対話するメンバー同士の視線を一致させる視線一致画像生成装置が記載されている。特許文献2には、テレビ電話またはテレビ会議などに利用される対話装置のための画像処理装置が記載されている。特許文献3は、テレビ会議システムにおける視線一致顔画像合成方法が記載されている。
本開示の一側面に係るコミュニケーション支援システムは、第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援する。コミュニケーション支援システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、第1ユーザを映した映像データを第1端末から受信し、映像データを解析して、アバターの動作パターン群の中から、第1ユーザの非言語行動に対応する動作パターンを選択し、第2端末上に表示された仮想空間内の、第1ユーザに対応するアバターを、選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを第2端末に送信する。
[本開示が解決しようとする課題]
画像を用いたコミュニケーション支援では、自然なコミュニケーションを実現することが望まれている。
画像を用いたコミュニケーション支援では、自然なコミュニケーションを実現することが望まれている。
[本開示の効果]
本開示の一側面によれば、画像を用いた自然なコミュニケーションを実現することができる。
本開示の一側面によれば、画像を用いた自然なコミュニケーションを実現することができる。
[本開示の実施形態の説明]
本開示の実施態様を列記して説明する。以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
本開示の実施態様を列記して説明する。以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。
本開示の一側面に係るコミュニケーション支援システムは、第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援する。コミュニケーション支援システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、第1ユーザを映した映像データを第1端末から受信し、映像データを解析して、アバターの動作パターン群の中から、第1ユーザの非言語行動に対応する動作パターンを選択し、第2端末に表示された仮想空間内の、第1ユーザに対応するアバターを、選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを第2端末に送信する。
本開示の一側面に係るコミュニケーション支援方法は、第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援し、且つ少なくとも一つのプロセッサを備えるコミュニケーション支援システムにより実行される。コミュニケーション支援方法は、第1ユーザを映した映像データを第1端末から受信するステップと、映像データを解析して、アバターの動作パターン群の中から、第1ユーザの非言語行動に対応する動作パターンを選択するステップと、第2端末に表示された仮想空間内の、第1ユーザに対応するアバターを、選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを第2端末に送信するステップとを含む。
本開示の一側面に係るコミュニケーション支援プログラムは、第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援するコミュニケーション支援システムとしてコンピュータを機能させる。コミュニケーション支援プログラムは、第1ユーザを映した映像データを第1端末から受信するステップと、映像データを解析して、アバターの動作パターン群の中から、第1ユーザの非言語行動に対応する動作パターンを選択するステップと、第2端末に表示された仮想空間内の、第1ユーザに対応するアバターを、選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを第2端末に送信するステップとをコンピュータに実行させる。
本開示の一側面に係る画像制御プログラムは、第1端末と通信ネットワークを介して接続可能な第2端末としてコンピュータを機能させる。画像制御プログラムは、第1端末に対応する第1ユーザの非言語行動に対応する動作パターンを示す制御データを受信するステップと、第2端末に表示された仮想空間内の、第1ユーザに対応するアバターを、受信された制御データで示される動作パターンに基づいて動作させるステップとをコンピュータに実行させる。その動作パターンは、第1端末で撮影された第1ユーザの映像データを解析して、アバターの動作パターン群の中から該非言語行動に対応する動作パターンとして選択されたものである。
このような側面においては、第1ユーザの非言語行動がアバターの動作に反映されるので、第2ユーザはそのアバターを介して第1ユーザと自然なコミュニケーションを取ることができる。
他の側面に係るコミュニケーション支援システムでは、少なくとも一つのプロセッサは、学習モデルを用いて、第1ユーザの非言語行動および第1ユーザの音声情報に対応する動作パターンを選択し、学習モデルは、ユーザの映像データ、または、ユーザの映像データおよび当該映像データに基づくデータが入力されると、当該ユーザの非言語行動および当該ユーザの音声情報に対応する動作パターンを示す情報を出力するように、訓練データを用いて生成された学習済みモデルであってよい。このように学習モデルを利用して、第1ユーザの非言語行動だけでなく、第1ユーザの音声情報もアバターの動作に反映させることができる。
他の側面に係るコミュニケーション支援システムでは、第1ユーザの音声情報は、第1ユーザの音声および言語を含み、ユーザの映像データまたは当該映像データに基づくデータは、ユーザの画像データおよび音声情報を含んでよい。これにより、第1ユーザの音声および言語をアバターの動作に反映させることができる。
他の側面に係るコミュニケーション支援システムでは、少なくとも一つのプロセッサは、アバターの視線が第2ユーザに向けられるように、動作パターンを選択してよい。これにより、アバターの視線と第2ユーザの視線とを一致させることができる。
他の側面に係るコミュニケーション支援システムでは、少なくとも一つのプロセッサが、選択された動作パターンをテキストで表現することで制御データを生成してもよい。アバターを動作させるための動作パターンをテキスト(すなわち文字列)で表現することで、第2端末に送信するデータサイズが大きく抑えられる。したがって、通信ネットワークおよび端末に掛かる処理の負荷を低減できると共に、アバターを第1ユーザの行動に合わせてリアルタイムに動作させることが可能になる。
他の側面に係るコミュニケーション支援システムでは、少なくとも一つのプロセッサが、選択された動作パターンをJSON形式で記述することで制御データを生成してもよい。JSON形式を採用することで、動作パターンを示すデータサイズがさらに抑制される。したがって、通信ネットワークおよび端末に掛かる処理の負荷を低減できると共に、アバターを第1ユーザの行動に合わせてリアルタイムに動作させることが可能になる。
他の側面に係るコミュニケーション支援システムでは、非言語行動が第1ユーザの視線を少なくとも含み、動作パターン群に含まれるそれぞれの動作パターンがアバターの視線を少なくとも示してもよい。少なくとも一つのプロセッサは、第1ユーザの視線に対応するアバターの視線を示す動作パターンを選択してもよい。一般にコミュニケーションで重要な役割を果たす視線をアバターの動作に反映させることで、画像を用いた自然なコミュニケーションを実現することができる。その結果、ユーザ間の創造的な対話を実現することができる。
他の側面に係るコミュニケーション支援システムでは、非言語行動が第1ユーザの姿勢、動き、および表情のうちの少なくとも一つをさらに含み、動作パターン群に含まれるそれぞれの動作パターンが、アバターの姿勢、動き、および表情のうちの少なくとも一つをさらに示してもよい。少なくとも一つのプロセッサは、第1ユーザの姿勢、動き、および表情のうちの少なくとも一つに対応するアバターの姿勢、動き、および表情のうちの少なくとも一つを示す動作パターンを選択してもよい。姿勢、動き、および表情のうちの少なくとも一つをアバターの動作に反映させることで、画像を用いた自然なコミュニケーションを実現することができる。
他の側面に係るコミュニケーション支援システムでは、動作パターン群が、アバターの視線の変化に応じて行われる、アバターの上半身の回転、アバターの首の回転、およびアバターの黒目の移動のうちの少なくとも一つを示す動作パターンを含んでもよい。アバターの視線の変化に応じてこのような非言語行動を表現することで、ユーザ間の円滑なコミュニケーションまたは創造的な対話を実現することができる。
他の側面に係るコミュニケーション支援システムでは、映像データが画像データおよび音声データを含んでもよい。少なくとも一つのプロセッサは、映像データを画像データと音声データとに分離し、画像データを解析して、第1ユーザの非言語行動に対応する動作パターンを選択し、選択された動作パターンを示す非言語行動データと音声データとの組合せを制御データとして第2端末に送信してもよい。第1ユーザの非言語行動がアバターの動作に反映されると共に該第1ユーザの音声が第2端末に提供される。第2ユーザはアバターの動きとその音声とを認識することで、第1ユーザと自然なコミュニケーションを取ることができる。
他の側面に係るコミュニケーション支援システムでは、少なくとも一つのプロセッサが、共有アイテムを示す共有アイテムデータを第1端末および第2端末のそれぞれに送信することで、該共有アイテムを含む仮想空間を第1端末および第2端末のそれぞれに表示してもよい。共有アイテムが各ユーザに提供されることで、第2ユーザはそのアイテムを第1ユーザと共有しながら該第1ユーザと自然なコミュニケーションを取ることができる。
[本開示の実施形態の詳細]
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
(システムの構成)
図1は実施形態に係るコミュニケーション支援システム100の概要の一例を示す図である。コミュニケーション支援システム100は、ユーザ間のコミュニケーションを支援するコンピュータシステムである。コミュニケーション支援システム100の利用目的は限定されない。例えば、コミュニケーション支援システム100はテレビ会議、チャット、診察、カウンセリング、面接(人物評価)、テレワークなどの様々な目的で利用され得る。
図1は実施形態に係るコミュニケーション支援システム100の概要の一例を示す図である。コミュニケーション支援システム100は、ユーザ間のコミュニケーションを支援するコンピュータシステムである。コミュニケーション支援システム100の利用目的は限定されない。例えば、コミュニケーション支援システム100はテレビ会議、チャット、診察、カウンセリング、面接(人物評価)、テレワークなどの様々な目的で利用され得る。
コミュニケーション支援システム100は、複数の端末1間の通話セッションを確立するサーバ2を含む。複数の端末1は通信ネットワークNを介してサーバ2と通信接続することで、他の端末1と通話セッションを確立することができる。コミュニケーション支援システム100がサーバ2を用いて構成される場合には、コミュニケーション支援はクラウドサービスの一種である。図1では2台の端末1を示すが、コミュニケーション支援システム100に接続される端末1の個数(言い換えると、一つの通話セッションに参加する端末1の個数)は限定されない。
端末1は、コミュニケーション支援システム100のユーザによって用いられるコンピュータである。端末1の種類は限定されない。例えば、端末1は携帯電話機、高機能携帯電話機(スマートフォン)、タブレット端末、デスクトップ型パーソナルコンピュータ、ラップトップ型パーソナルコンピュータ、またはウェアラブル端末でもよい。図1に示すように、端末1は撮像部13、表示部14、操作部15、および音声入出力部16を備える。
ユーザは操作部15を操作して撮像部13で自身を撮影し、表示部14に表示された各種の情報(相手のアバター、文書など)を確認しながら、音声入出力部16を介して相手と会話する。端末1は、撮像部13によって撮影された画像と音声入出力部16によって得られた音声とのデータを符号化および多重化することで映像データを生成し、その映像データを通話セッション経由で送信する。端末1は、別の端末1から送信された映像データを受信して、該映像データに基づく画像および音声を表示部14および音声入出力部16から出力する。
図1に示すように、撮像部13の設置箇所は様々である。しかし、撮像部13を表示部14内に設けること(すなわち、相手の画像が表示される箇所に撮像部13を設けること)は困難である。撮影された人物像をそのまま相手の端末1の表示部14に表示させた場合には、人物画像の視線が相手に向かわずに少しずれる。図2はその視線のずれの例を示す図である。図2に示すように、視線のずれは、表示部14を見るユーザの視線と、ユーザを撮影する撮像部13の光軸との差である視差角φによって生ずる。この視差角φが大きいと、ユーザ間で視線を一致させることが困難になるので、ユーザはコミュニケーションにフラストレーションを感じることになる。
このような状況を解消または緩和して自然なコミュニケーションを支援するために、コミュニケーション支援システム100は、第1ユーザに対応するアバターを第2ユーザの端末1(第2端末)に表示させる。そして、コミュニケーション支援システム100は第1ユーザの端末1(第1端末)からの映像データに基づいて、該第1ユーザの非言語行動が第2端末で自然に表現されるようにそのアバターを動作させる。すなわち、コミュニケーション支援システム100は、第1ユーザに対応し且つ第2端末に表示されたアバターが、該第1ユーザの非言語行動に対応する動作を行うように、そのアバターを動作させる。例えば、コミュニケーション支援システム100は、アバターの視線を相手(表示部14を介してアバターを見ている人)に向けたり、アバターの体の向きを自然な方向に向けたりするなどの制御を実行する。現実には図2に示すような視差角φが存在する。しかし、コミュニケーション支援システム100は、第1端末で撮像された第1ユーザをそのまま第2端末に表示させるのではなく、第1ユーザの代わりにアバターを第2端末に表示させ、そのアバターの非言語行動を制御する。この処理によってその視差角φが最終的に補正または解消されるので、各ユーザは自然な対話を体験することができる。
アバターとは、コンピュータによって表現される仮想空間内で表現されるユーザの分身である。アバターは、撮像部13によって撮影されたユーザそのものではなく(すなわち、映像データで示されるユーザそのものではなく)、映像データとは独立した画像素材によって表示される。アバターの表現方法は限定されず、例えば、アバターはアニメーションのキャラクタを示してもよいし、ユーザの写真に基づいて予め作成された、より本物に近いユーザ画像で表されてもよい。アバターは2次元または3次元のコンピュータグラフィック(CG)によって描画されてもよい。アバターはユーザによって自由に選択されてもよい。
仮想空間とは、端末1の表示部14で表現される空間のことをいう。アバターはこの仮想空間内に存在するオブジェクトとして表現される。仮想空間の表現方法は限定されず、例えば、仮想空間は2次元または3次元のCGによって描画されてもよいし、現実世界を映した画像(動画または静止画)で表現されてもよいし、該画像およびCGの双方によって表現されてもよい。アバターと同様に、仮想空間(背景画面)もユーザによって自由に選択されてもよい。アバターはユーザによって仮想空間内の任意の位置に配置可能であってもよい。コミュニケーション支援システム100は、複数のユーザに共通の場面を認識させることが可能な仮想空間を表現する。ここで、共通の場面は、複数のユーザに共通の認識を持たせることが可能な場面であれば十分であることに留意されたい。例えば、共通の場面は、仮想空間内でのオブジェクト間の位置関係(例えばアバター同士の位置関係)が複数の端末1間で同じであることまで要求するものではない。
非言語行動とは、人の行動のうち、言語を用いない行動のことをいう。非言語行動は、視線、姿勢、動き(ジェスチャを含む)、および表情のうちの少なくとも一つを含み、他の要素をさらに含んでもよい。本開示では、視線、姿勢、動き、表情などの、非言語行動を構成する要素を「非言語行動要素」ともいう。アバターによって表現されるユーザの非言語行動は何ら限定されない。例えば、顔の姿勢または動作の例として、領き、首振り、首傾げなどが挙げられる。上半身の姿勢または動作の例として、胴体の向き、肩のねじり、肘の曲げ、手の上げ下げなどが挙げられる。指の動きの例として、伸展、屈曲、外転、内転などが挙げられる。表情の例として、中立、喜び、軽蔑、嫌悪、恐怖、驚き、悲しみ、怒りなどが挙げられる。
図3~図5は、コミュニケーション支援システム100によって提供される仮想空間およびアバターの例を示す図である。これらの例では、3台の端末1の間で通話セッションが確立されているものとし、3台の端末1を、ユーザUaの端末Taと、ユーザUbの端末Tbと、ユーザUcの端末Tcとに区別する。ユーザUa,Ub,Ucに対応するアバターをそれぞれアバターVa,Vb,Vcとする。3人のユーザに提供される仮想空間300は会議室での話し合いを模したものであるとする。各端末の表示部14に表示される仮想空間は相手のアバターを含む。すなわち、端末Taにおける仮想空間300はアバターVb,Vcを含み、端末Tbにおける仮想空間300はアバターVa,Vcを含み、端末Tcにおける仮想空間300はアバターVa,Vbを含む。
図3の例は、ユーザUaが端末TaでアバターVcを見ており、ユーザUbが端末TbでアバターVcを見ており、ユーザUcが端末TcでアバターVbを見ている状況に対応する。この状況を現実世界(ユーザUa,Ub,Ucが現実に存在する世界)に置き換えると、ユーザUaがユーザUcを見ており、ユーザUbがユーザUcを見ており、ユーザUcがユーザUbを見ていることになる。したがって、ユーザUb,Ucは互いを見ている。コミュニケーション支援システム100によって各端末では次のように仮想空間300が表示される。すなわち、端末Taでは、アバターVbとアバターVcとが向き合う場面が表示される。端末Tbでは、アバターVaがアバターVcを見ており、アバターVcが、端末Tbが有する表示部14をとおしてユーザUbを見ている場面が表示される。端末Tcでは、アバターVa,Vbの双方が、端末Tbが有する表示部14をとおしてユーザUcを見ている場面が表示される。いずれの端末も、ユーザUaがユーザUcを見ており、ユーザUbがユーザUcを見ており、ユーザUcがユーザUbを見ている(したがって、ユーザUb,Ucは互いを見ている)場面を仮想空間300で表現している。
図3の例において、端末Taにおける仮想空間300は、ユーザUaにとっての他人であるユーザUb,Uc同士の視線一致を表現する。端末Tbにおける仮想空間300はユーザUbがユーザUcから視線を向けられた状態を表し、端末Tcにおける仮想空間300はユーザUcがユーザUa,Ubから視線を向けられた状態を表す。すなわち、端末Tb,Tcにおける仮想空間300はいずれも視線認知を表現する。
図3に示すように、コミュニケーション支援システム100は、端末のユーザが実際に見ている領域(注目領域)を示す補助表現310をさらに表示してもよい。
図4の例は、各ユーザが各端末を通して共通のプレゼンテーション資料301を見ている状況に対応する。各端末でのプレゼンテーション資料301の表示方法は限定されず、例えば、各端末はプレゼンテーション資料301を含む仮想空間を表示してもよいし、仮想空間とは別の表示領域にプレゼンテーション資料301を表示してもよい。その状況を現実世界に置き換えると、ユーザUa,Ub,Ucが同じプレゼンテーション資料301を見ていることになる。コミュニケーション支援システム100によって各端末では次のように仮想空間300が表示される。すなわち、端末Taでは、アバターVb,Vcがプレゼンテーション資料301を見ている場面が表示される。端末Tbでは、アバターVa,Vcがプレゼンテーション資料301を見ている場面が表示される。端末Tcでは、アバターVa,Vbがプレゼンテーション資料301を見ている場面が表示される。いずれの端末も、3人が同じプレゼンテーション資料301を見ている場面を仮想空間300で表現しており、これは共同注意(共視感覚)を示す。
視線一致、視線認知、または共同注意を表現する際に、コミュニケーション支援システム100は、アバターについて上半身の回転、首の回転、黒目の移動のうちの少なくとも一つの動作を表現してもよい。アバターを用いて視線一致、視線認知、共同注意を表現することで、感情を交流させる対話が実現され、円滑なコミュニケーション、創造的な対話などにつなげることができる。
図5は、仮想空間300で表現され得るアバターの動作パターンのいくつかの例を示す。例えば、コミュニケーション支援システム100は、笑顔、驚き、疑問、怒り、困惑、納得、承認、喜び、熟考、アイコンタクトなどの様々なユーザの非言語行動を、アバターの動作(例えば、視線、姿勢、動き、表情など)に変換して表現する。図5に示すように、アバターの動作は疑問符などの記号を含んで表現されてもよい。コミュニケーション支援システム100がアバターを様々な態様で動作させることで、視線一致、視線認知、共同注意、アイコンタクトなどが該アバターによって表現される。これにより、各ユーザは自然で円滑なコミュニケーションを相手と取ることが可能になる。
さらに、アバターを導入することで、ユーザは自分の顔および自分の居場所が映った実際の映像を相手に認識させることなくコミュニケーションを取ることができる。これは、ユーザのセキュリティ(例えば個人情報の保護)の向上に寄与し得る。アバターの導入は、ユーザ本人のプライバシーの保護にも役立つ。例えば、実際の画像を用いる際には考慮する必要がある着替え、化粧などが不要になる。加えて、ユーザは撮像部13を設定する際に撮影位置、光などの撮影条件を過度に気にする必要が無くなる。
図6はコミュニケーション支援システム100に関連するハードウェア構成の一例を示す図である。端末1は、処理部10、記憶部11、通信部12、撮像部13、表示部14、操作部15、および音声入出力部16を備える。記憶部11、撮像部13、表示部14、操作部15、および音声入出力部16は、端末1に接続される外付けの装置でもよい。
処理部10は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサと、クロックと、内蔵メモリとを用いて構成され得る。処理部10は、プロセッサ、クロック、内蔵メモリ、記憶部11、および通信部12を集積した一つのハードウェア(SoC:System On a Chip)として構成されてもよい。処理部10は、記憶部11に記憶されている端末プログラム1P(画像制御プログラム)に基づいて動作することで汎用コンピュータを端末1として機能させる。
記憶部11はフラッシュメモリ、ハードディスク、SSD(Solid State Disk)などの不揮発性記憶媒体を用いて構成され得る。記憶部11は、端末プログラム1Pと、処理部10によって参照される情報とを記憶する。記憶部11は、端末1のユーザの正当性を判定(認証)するために、ユーザ画像、またはユーザ画像から得られる特徴量(ベクトル化された特徴量群)を記憶してもよい。記憶部11は、一または複数のアバター画像、または一または複数のアバター画像のそれぞれの特徴量を記憶してもよい。
通信部12は、ネットワークカードまたは無線通信デバイスを用いて構成され、通信ネットワークNへの通信接続を実現する。
撮像部13は、カメラモジュールを用いて得られる映像信号を出力する。撮像部13は内部メモリを備え、カメラモジュールから出力された映像信号からフレーム画像を所定のフレームレートでキャプチャして該フレーム画像を該内部メモリに記憶する。処理部10は、撮像部13の内部メモリからフレーム画像を順に取得することができる。
表示部14は液晶パネル、有機ELディスプレイなどのディスプレイ装置を用いて構成される。表示部14は、処理部10によって生成された画像データを処理して画像を出力する。
操作部15はユーザの操作を受け付けるインタフェースであり、物理ボタン、タッチパネル、音声入出力部16のマイクロフォン16bなどを用いて構成される。操作部15は、物理ボタン、またはタッチパネル上に表示されたインタフェースを介して操作を受け付けてもよい。あるいは、操作部15は、マイクロフォン16bにて入力音声を処理することで操作内容を認識してもよいし、スピーカ16aから出力される音声を用いた対話形式で操作を受け付けてもよい。
音声入出力部16はスピーカ16aおよびマイクロフォン16bを用いて構成される。音声入出力部16は映像データに基づく音声をスピーカ16aから出力し、マイクロフォン16bを用いて得られた音声を音声データへデジタル変換する。
サーバ2は一または複数のサーバコンピュータを用いて構成される。サーバ2は1台のサーバコンピュータで動作する論理的に複数の仮想マシンにより実現されてもよい。物理的に複数のサーバコンピュータが用いられる場合には、通信ネットワークを介してこれらのサーバコンピュータが互いに接続されることでサーバ2が構成される。サーバ2は処理部20、記憶部21、および通信部22を備える。
処理部20はCPU、GPUなどのプロセッサを用いて構成される。処理部20は、記憶部21に記憶されているサーバプログラム2P(コミュニケーション支援プログラム)に基づいて動作することで汎用コンピュータをサーバ2として機能させる。
記憶部21は、ハードディスク、フラッシュメモリなどの不揮発性記憶媒体を用いて構成される。あるいは、外部記憶装置であるデータベースが記憶部21として機能してもよい。記憶部21は、サーバプログラム2Pと、処理部20によって参照される情報とを記憶する。
通信部22は、ネットワークカードまたは無線通信デバイスを用いて構成され、通信ネットワークNへの通信接続を実現する。サーバ2は通信ネットワークNを介した通信接続を通信部22により実現することで、2以上の任意の個数の端末1間で通話セッションを確立させる。通話セッションのためのデータ通信は暗号化処理などによってさらに安全に実行されてもよい。
通信ネットワークNの構成は限定されない。例えば、通信ネットワークNは、インターネット(公衆網)、通信キャリアネットワーク、コミュニケーション支援システム100を実現する事業者の事業者ネットワーク、基地局BS、アクセスポイントAPなどを用いて構築されてもよい。サーバ2は事業者ネットワークから通信ネットワークNへ接続してもよい。
図7は、端末1の処理部10の機能構成の一例を示す図である。処理部10は機能要素として映像送信部101および画面制御部102を備える。これらの機能要素は、処理部10が端末プログラム1Pに従って動作することで実現される。
映像送信部101は、端末1のユーザを映した映像データをサーバ2に送信する機能要素である。映像送信部101は、撮像部13から入力された一連のフレーム画像を示す画像データ(以下、「フレーム画像データ」と称す)とマイクロフォン16bから入力された音声データとを多重化することで映像データを生成する。映像送信部101は、フレーム画像データと音声データとの間の同期をタイムスタンプに基づいて取る。そして、映像送信部101は映像データを符号化し、通信部12を制御してその符号化された映像データをサーバ2に送信する。映像データの符号化に用いられる技術は限定されない。例えば、映像送信部101はH.265などの動画圧縮技術を用いてもよいし、AAC(Advanced Audio Coding)などの音声符号化を用いてもよい。
画面制御部102は、通話セッションに対応する画面を制御する機能要素である。画面制御部102は通話セッションの開始に応答してその画面を表示部14に表示する。この画面は、相手に対応するアバターを少なくとも含む仮想空間を示す。仮想空間の構成は限定されず、任意の方針でデザインされてよい。例えば、仮想空間は会議の場面または会議室を模してもよい。仮想空間は、サーバ2から提供される、端末1間で共有されるアイテム(それぞれの端末1で表示されるアイテム)を含んでもよい。本開示ではこのアイテムを「共有アイテム」という。共有アイテムの種類は限定されない。例えば、共有アイテムは、机、ホワイトボードなどの什器を表してもよいし、各ユーザが閲覧可能な共有資料を表してもよい。
画面制御部102は、画面内のアバターを制御するアバター制御部103を含む。アバター制御部103は、サーバ2から送信され通信部12によって受信された制御データに基づいて画面内のアバターを動作させる。その制御データは、相手である第1ユーザの非言語行動をアバターに反映させるための非言語行動データと、該ユーザの音声を示す音声データとを含む。アバター制御部103は非言語行動データに基づいて、表示部14に表示されているアバターの動作を制御する。さらに、アバター制御部103は、アバターの動作とユーザの音声とが同期するように、音声データを処理してスピーカ16aからその音声を出力させる。
図8は、サーバ2の処理部20の機能構成の一例を示す図である。処理部20は機能要素として共有アイテム管理部201および映像処理部202を備える。これらの機能要素は、処理部20がサーバプログラム2Pに従って動作することで実現される。
共有アイテム管理部201は、共有アイテムを管理する機能要素である。共有アイテム管理部201は、通話セッションの開始に応答して、または任意の端末1からの要求信号に応答して、共有アイテムを示す共有アイテムデータを各端末1に送信する。共有アイテム管理部201はこの送信によって、共有アイテムを含む仮想空間を各端末1に表示させる。共有アイテムデータは、記憶部21に予め格納されていてもよいし、特定の端末1からの要求信号に含まれていてもよい。
映像処理部202は、第1端末から送信されてきた映像データに基づいて制御データを生成し、この制御データを第2端末に送信する機能要素である。映像処理部202は映像データをフレーム画像データと音声データとに分離し、そのフレーム画像データから第1ユーザの非言語行動に対応する動作パターンを特定する。動作パターンとは、映像データで示されるユーザの非言語行動を体系化または単純化することで表現される、アバターの動作の型または種類のことをいう。人の具体的な非言語行動は、視線、表情、胴体の向き、手の動き、またはこれらのうちの任意の2以上の組合せに基づいて無限に存在し得る。映像処理部202はこの無限の非言語行動を有限個の動作パターンに体系化または単純化する。そして、映像処理部202は、選択された動作パターンを示す非言語行動データと、映像データから分離された音声データとの組合せを制御データとして第2端末に送信する。非言語行動データは、第1ユーザの非言語行動をアバターに反映させるために用いられる。
映像処理部202はパターン選択部203および制御データ生成部204を備える。パターン選択部203は、映像データから分離されたフレーム画像データを解析して、第1ユーザの非言語行動に対応する動作パターンを、アバターの動作パターン群の中から選択する。コミュニケーション支援システム100では、その無限の非言語行動が有限個の動作パターンにまとめられ、個々の動作パターンを示す情報が記憶部21に予め記憶される。アバターの動作をパターン化することで、アバターを制御するためのデータ量が抑制されるので、通信量を大きく低減することができる。パターン選択部203は記憶部21を参照して、第1ユーザの非言語行動に対応する動作パターンを読み出す。制御データ生成部204は、選択された動作パターンを示す非言語行動データと、映像データから分離された音声データとの組合せを制御データとして第2端末に送信する。
(システムの動作)
図9~図11を参照しながら、コミュニケーション支援システム100の動作を説明するとともに、本実施形態に係るコミュニケーション支援方法を説明する。図9~図11はいずれも、コミュニケーション支援システム100の動作の一例を示すシーケンス図である。図9~図11に示す処理はいずれも、3人のユーザがコミュニケーション支援システム100にログインして3台の端末1の間で通話セッションが確立されていることを前提とする。3台の端末1を必要に応じて、ユーザUaの端末Taと、ユーザUbの端末Tbと、ユーザUcの端末Tcとに区別する。ユーザUa,Ub,Ucに対応するアバターをそれぞれアバターVa,Vb,Vcという。図9は、ユーザUa(第1ユーザ)を撮影した端末Ta(第1端末)からの映像データに基づいて、端末Tb,Tc(第2端末)で表示されているアバターVaを動作させる処理を処理フローS1として示す。図10は、ユーザUb(第1ユーザ)を撮影した端末Tb(第1端末)からの映像データに基づいて、端末Ta,Tc(第2端末)で表示されているアバターVbを動作させる処理を処理フローS2として示す。図11は、ユーザUc(第1ユーザ)を撮影した端末Tc(第1端末)からの映像データに基づいて、端末Ta,Tb(第2端末)で表示されているアバターVcを動作させる処理を処理フローS3として示す。
図9~図11を参照しながら、コミュニケーション支援システム100の動作を説明するとともに、本実施形態に係るコミュニケーション支援方法を説明する。図9~図11はいずれも、コミュニケーション支援システム100の動作の一例を示すシーケンス図である。図9~図11に示す処理はいずれも、3人のユーザがコミュニケーション支援システム100にログインして3台の端末1の間で通話セッションが確立されていることを前提とする。3台の端末1を必要に応じて、ユーザUaの端末Taと、ユーザUbの端末Tbと、ユーザUcの端末Tcとに区別する。ユーザUa,Ub,Ucに対応するアバターをそれぞれアバターVa,Vb,Vcという。図9は、ユーザUa(第1ユーザ)を撮影した端末Ta(第1端末)からの映像データに基づいて、端末Tb,Tc(第2端末)で表示されているアバターVaを動作させる処理を処理フローS1として示す。図10は、ユーザUb(第1ユーザ)を撮影した端末Tb(第1端末)からの映像データに基づいて、端末Ta,Tc(第2端末)で表示されているアバターVbを動作させる処理を処理フローS2として示す。図11は、ユーザUc(第1ユーザ)を撮影した端末Tc(第1端末)からの映像データに基づいて、端末Ta,Tb(第2端末)で表示されているアバターVcを動作させる処理を処理フローS3として示す。
通話セッションが確立された直後の仮想空間におけるアバターの状態(姿勢)は任意に設計されてよい。例えば、各端末1のアバター制御部103は、1以上のアバターのそれぞれが表示部14(画面)に対して斜めに座って且つ下を向いた状態を示すように、アバターを表示してもよい。各端末1の画面制御部102またはアバター制御部103は各アバターの名前を表示部14に表示してもよい。
図9を参照しながら処理フローS1を説明する。ステップS101では、端末Taの映像送信部101が、ユーザUaを映した映像データをサーバ2に送信する。サーバ2では映像処理部202がその映像データを受信する。
ステップS102では、映像処理部202が映像データをフレーム画像データと音声データとに分離する。
ステップS103では、パターン選択部203がフレーム画像データを解析して、ユーザUaの非言語行動に対応する動作パターンを、アバターの動作パターン群の中から選択する。選択される可能性がある個々の動作パターンは少なくとも一つの非言語行動要素に対応する。例えば、視線に対応する動作パターンはアバターの視線を示す。姿勢に対応する動作パターンはアバターの向き(例えば、顔および胴体のうちの少なくとも一つの向き)および動きの少なくとも一方を示す。動きに対応する動作パターンは、例えば、手を振る、首を振る、顔を傾ける、頷くなどを示す。表情に対応するパターンはアバターの表情(笑顔、困った表情、怒った表情など)を示す。動作パターン群に含まれるそれぞれの動作パターンは、1以上の非言語行動要素の組合せによって表される非言語行動を示してもよい。例えば、各動作パターンは、視線および姿勢の組合せで表される非言語行動を示してもよいし、視線、姿勢、動き、および表情の組合せで表される非言語行動を示してもよい。あるいは、それぞれの非言語行動要素について有限個の所与の動作パターンが用意されてもよい。例えば、視線についての動作パターン群と、姿勢についての動作パターン群とが用意されてもよい。それぞれの非言語行動要素について複数の動作パターンが用意される場合には、パターン選択部203は1以上の非言語行動要素について一つの動作パターンを選択する。動作パターン群に含まれる動作パターンの個数は限定されない。例えば、ユーザの非言語行動を少し大げさにアバターで表現するために、個々の非言語行動要素について10段階前後の動作パターンが予め用意されてもよい。
視線に対応する動作パターンを選択する場合には、パターン選択部203は、仮想空間内のアバターVaの視線が、フレーム画像データで示されるユーザUaの視線に対応するように、アバターVaの視線を示す動作パターンを選択する。ユーザUaが端末Taの表示部14を介して仮想空間内のアバターVbを見ている場合には、パターン選択部203はアバターVaの視線がアバターVb(ユーザUb)を向く動作パターンを選択する。この場合、端末Tbでは、アバターVaは表示部14を通してユーザUbを向くように表示されることになり、端末Tcでは、アバターVaは仮想空間内のアバターVbを向くように表示されることになる。
動作パターン群は、アバターの視線の変化に応じて行われる非言語行動を示す動作パターンを含んでもよい。例えば、動作パターン群は、アバターの視線の変化に応じて行われる、アバターの上半身の回転、アバターの首の回転、およびアバターの黒目の移動のうちの少なくとも一つを示す動作パターンを含んでもよい。
フレーム画像データの解析と動作パターンの選択とに関する技術は限定されない。例えばパターン選択部203は人工知能(AI)を用いて動作パターンを選択してもよく、例えば、AIの一種である機械学習を用いて動作パターンを選択してもよい。機械学習とは、与えられた情報に基づいて反復的に学習することで、法則またはルールを自律的に見つけ出す手法である。機械学習の例として深層学習が挙げられる。深層学習とは、多層構造のニューラルネットワーク(深層ニューラルネットワーク(DNN))を用いた機械学習である。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルである。もっとも、機械学習の種類は深層学習に限定されず、パターン選択部203は任意の学習手法を用いてよい。
機械学習では学習モデルを用いる。この学習モデルは、画像データを示すベクトルデータを入力ベクトルとして処理して、非言語行動を示すベクトルデータを出力ベクトルとして出力するアルゴリズムである。この学習モデルは、最も予測精度が高いと推定される最良の計算モデルであり、したがって「最良の学習モデル」ということができる。しかし、この最良の学習モデルは“現実に最良である”とは限らないことに留意されたい。最良の学習モデルは、人物を映した一連の画像と非言語行動の動作パターンとの多数の組合せを含む訓練データを所与のコンピュータが処理することで生成される。訓練データで示される非言語行動の動作パターンの集合が、動作パターン群に対応する。所与のコンピュータは、人物画像を示す入力ベクトルを学習モデルに入力することで、非言語行動を示す出力ベクトルを算出し、この出力ベクトルと、訓練データで示される非言語行動との誤差(すなわち、推定結果と正解との差)を求める。そして、コンピュータはその誤差に基づいて学習モデル内の所与の動作パラメータを更新する。コンピュータはこのような学習を繰り返すことで最良の学習モデルを生成し、この学習モデルが記憶部21に格納される。最良の学習モデルを生成するコンピュータは限定されず、例えばサーバ2でもよいし、サーバ2以外のコンピュータシステムでもよい。最良の学習モデルを生成する処理は学習フェーズということができる。
パターン選択部203は記憶部21に記憶されている最良の学習モデルを用いて動作パターンを選択する。学習フェーズに対して、パターン選択部203による学習モデルの利用は運用フェーズということができる。パターン選択部203は、フレーム画像データを入力ベクトルとしてその学習モデルに入力することで、ユーザUaの非言語行動に対応するパターンを示す出力ベクトルを得る。パターン選択部203はフレーム画像データからユーザUaの領域を抽出し、その被抽出領域を入力ベクトルとして学習モデルに入力することで出力ベクトルを得てもよい。いずれにしても、出力ベクトルは、有限個の所与のパターンの中から選択されたパターンを示す。
あるいは、パターン選択部203は、機械学習を用いることなく動作パターンを選択してもよい。具体的には、パターン選択部203は一連のフレーム画像のそれぞれからユーザUaの領域を抽出し、顔を含む上半身の動きをその被抽出領域から特定する。例えば、パターン選択部203は一連の被抽出領域における特徴量の変化に基づいてユーザUaの少なくとも一つの非言語行動要素を特定してもよい。パターン選択部203は動作パターン群の中から、少なくとも一つの非言語行動要素に対応する動作パターンを選択する。
パターン選択部203は、フレーム画像データに基づいて動作パターンを選択できない場合には、所与の特定の動作パターン(例えば、アバターVaの初期状態を示す動作パターン)を選択してもよい。
ステップS104では、制御データ生成部204が、選択された動作パターンを示す非言語行動データと音声データとの組合せを制御データとして生成する。制御データ生成部204は選択された動作パターンを、画像を用いることなくテキスト(すなわち文字列)で表現した非言語行動データを生成する。例えば、制御データ生成部204は選択された動作パターンをJSON(JavaScript Object Notation)形式で記述することで非言語行動データを生成してもよい。あるいは、制御データ生成部204はXML(Extensible Markup Language)などの他の形式で動作パターンを記述することで非言語行動データを生成してもよい。制御データ生成部204は、非言語行動データと音声データとが一体化された制御データを生成してもよいし、別々に存在する非言語行動データおよび音声データの組合せを制御データとして扱ってもよい。したがって、制御データの物理的な構造は限定されない。いずれにしても、制御データ生成部204はタイムスタンプに基づいてフレーム画像データと音声データとの間の同期を取る。
ステップS105では、制御データ生成部204が制御データを端末Tb,Tcに送信する。制御データの物理的な構造は限定されないことに対応して、制御データの送信方法も限定されない。例えば、制御データ生成部204は非言語行動データと音声データとが一体化された制御データを送信してもよい。あるいは、制御データ生成部204は物理的に互いに独立した非言語行動データおよび音声データの組合せを送信することで、制御データを端末Tb,Tcに送信してもよい。端末Tb,Tcのそれぞれでは画面制御部102がその制御データを受信する。
端末TbではステップS106,S107の処理が実行される。ステップS106では、端末Tbのアバター制御部103が、非言語行動データに基づいて、ユーザUaに対応するアバターVaの動作(表示)を制御する。アバター制御部103は非言語行動データで示される動作パターンに従って、端末Tbの表示部14に表示されているアバターVaを動作させる。例えば、アバター制御部103はアバターVaの視線、姿勢、動き、および表情のうちの少なくとも一つを現在の状態から該動作パターンで示される次の状態へと変化させるアニメーション制御を実行することで、アバターVaを動作させる。一例では、アバターVaはこのような制御によって、上半身の回転、首の回転、黒目の移動のうちの少なくとも一つの動作をとりながら、ユーザUbと視線を一致させる。アバターVaが表示部14を介してユーザUbを見ている場面(すなわち、アバターVaの視線をユーザUbと一致させる場面)において、アバター制御部103はその視線一致に関連してアバターVaの表情を演出してもよい。例えば、アバター制御部103は、一定時間(例えば0.5~1秒)だけ瞳を大きくしたり、眉を吊り上げたり、口角を上げたりするなどの手法でアバターVaの表情を演出することで、視線の一致(すなわち、アイコンタクト)を強調してもよい。
ステップS107では、端末Tbのアバター制御部103が、アバターVaの動作(表示)と同期するように音声データを処理してスピーカ16aから音声を出力する。アバター制御部103は、出力された音声に基づいてアバターVaをさらに動作させてもよい。例えば、アバター制御部103はアバターVaの口を変化させたり、ユーザUaの表情または感情に対応させて顔を変化させたり、腕または手を動かしてもよい。
ステップS106,S107の処理により、ユーザUbはユーザUaの発話を聴くと共に、ユーザUaの現在の非言語行動(例えば、視線、姿勢、動き、および表情のうちの少なくとも一つ)を、アバターVaを介して認識することができる。
ステップS106,S107の処理に加えて、端末Tbの画面制御部102は、ユーザUbが実際に見ている領域(注目領域)を表示部14にさらに表示してもよい。例えば、画面制御部102は撮像部13から得られるフレーム画像データを解析することでユーザUbの視線を推定し、その推定結果に基づいて、図3に示す補助表現310を表示部14に表示してもよい。
端末Tcでは、ステップS106,S107と同様であるステップS108,S109の処理が実行される。この一連の処理により、ユーザUcはユーザUaの発話を聴くと共に、ユーザUaの現在の非言語行動(例えば、視線、姿勢、動き、および表情のうちの少なくとも一つ)を、アバターVaを介して認識することができる。
コミュニケーション支援システム100は処理フローS1と並行して処理フローS2,S3を実行する。図10に示す処理フローS2は、ステップS101~S109に対応するステップS201~S209を含む。図11に示す処理フローS3は、ステップS101~S109に対応するステップS301~S309を含む。処理フローS1~S3が並行して処理されることで、各端末1で各ユーザの発話および非言語行動が各アバターによってリアルタイムに表現される。
[変形例]
以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。
以上、本開示の実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。
上記実施形態ではコミュニケーション支援システム100がサーバ2を用いて構成されたが、コミュニケーション支援システムは、サーバ2を用いない端末同士のピアツーピアでの通話セッションに適用されてもよい。この場合には、サーバ2の各機能要素は、第1端末および第2端末のいずれか一方に実装されてもよく、第1端末と第2端末とに分かれて実装されてもよい。したがって、コミュニケーション支援システムの少なくとも一つのプロセッサはサーバ内に位置してもよいし端末内に位置してもよい。
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現は、第1の処理から第nの処理までのn個の処理の実行主体(すなわちプロセッサ)が途中で変わる場合を含む概念である。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念である。
映像データおよび制御データは音声データを含まなくてもよい。すなわち、コミュニケーション支援システムは音声を伴わないコミュニケーション(例えば手話)を支援するために用いられてもよい。
コミュニケーション支援システム100における各装置は、マイクロプロセッサ、ROM、RAMなどの記憶部を含んで構成されるコンピュータを備える。マイクロプロセッサなどの処理部は、上記の各ステップの一部または全部を含むプログラムを該記憶部から読み出して実行する。プログラムは外部のサーバ装置などから各コンピュータにインストールすることができる。各装置のプログラムはCD-ROM、DVD-ROM、半導体メモリなどの記録媒体に格納された状態で配布されてもよいし、通信ネットワークを介して配布されてもよい。
少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
上記実施形態では、ユーザの非言語行動に対応して選択されたパターンに基づいてアバターを動作させる例について説明した。ただし、非言語行動以外の情報、例えばユーザの音声情報も、パターン選択に用いられてよい。ユーザの音声情報の例は、ユーザの音声およびユーザの言語である。このようなパターン選択を実施する場合、コミュニケーション支援システム100においては、例えば以下のような処理が行われる。
サーバ2において、映像処理部202のパターン選択部203が、先に説明したように映像データから分離されたフレーム画像データを解析するだけでなく、映像データから分離された音声データ、より具体的には第1ユーザの音声および言語も解析する。第1ユーザの音声は、第1ユーザが発声した音の情報であり、音声データそのものであってよい。第1ユーザの言語は、第1ユーザの音声の意味内容であり、例えば音声データに対して音声認識処理を実行することによって得られる。パターン選択部203は、フレーム画像データの解析だけでなく、音声および言語も解析することによって、第1ユーザの非言語行動および音声情報に対応する動作パターンを選択する。
上述のパターン選択にも、先に説明したように、人工知能(AI)が用いられてよい。この場合、記憶部21に記憶されている学習モデルは、ユーザの映像データ、または、ユーザの映像データおよび当該映像データに基づくデータが入力されると、当該ユーザの非言語行動および音声情報に対応するパターンを示す情報を出力するように、訓練データを用いて生成された学習済みモデルであってよい。映像データは、映像データに含まれるフレーム画像データおよび音声データである。映像データに基づくデータは、上述の「言語」に相当するデータであり、例えば映像データに含まれる音声データの音声認識結果である。学習モデル内で音声認識処理が実行される場合、学習モデルには、フレーム画像データおよび音声データが入力されてよい。学習モデル外で音声認識処理が実行される場合、学習モデルには、フレーム画像データ、音声データおよびこれの音声認識処理結果が入力されてよい。後者の場合、パターン選択部203は、学習モデルを用いる前に、音声データの音声認識処理結果を得るという前処理を実行する。音声認識処理には、種々の公知の手法(音声認識処理エンジン等)が用いられてよい。音声認識処理の機能は、パターン選択部203あるいは学習モデルが備えていてもよいし、サーバ2の他の部分またはサーバ2の外部(別のサーバ等)に、パターン選択部203あるいは学習モデルによって利用可能に設けられていてもよい。
上述の訓練データの例は、例えば、ユーザの映像データ、または、ユーザの映像データおよび当該映像データに基づくデータと、当該ユーザの非言語行動および音声情報に対応する動作パターンを示す情報とを対応付けて記憶した教師データの群であってよい。訓練データにおける入力データ(ユーザの映像データ等)は、ユーザの普段のコミュニケーションの様子をカメラ、マイクロフォン等を用いてモニタリングすることによって取得されてよい。訓練データにおける出力データ(パターンを示す情報)は、例えば、そのユーザ、ユーザの関係者、専門家等によって選択されたものでもよいし、公知の分類処理等を用いて自動的に選択されたものでもよい。
学習モデルは、プログラムの一態様又はプログラムに準ずるものとして、サーバプログラム2Pの一部として記憶部21(図6)に記憶されていてよい。記憶部21に記憶されている学習モデルは、適時アップデートされてよい。
パターン選択部203は、学習モデルを用いることなくパターンを選択してもよい。ユーザの音声であれば、例えば、声量、トーン、速さ等がパターン選択に反映されてよい。ユーザの言語であれば、例えば、単語の種別、文脈等がパターン選択に反映されてよい。
以上のように第1ユーザの非言語行動だけでなく、第1ユーザの音声情報をもアバターの動作に反映させることで、第1ユーザの感情、動き等をより的確に再生し、より円滑なコミュニケーションを実現することができる。この効果は、学習モデルの生成に用いる訓練データをビッグデータ解析によって準備することで、さらに高められる。ユーザごとに学習モデルを生成すれば(カスタマイズすれば)、そのユーザの感情、動きをより適切に再生することができる。
100…コミュニケーション支援システム、1…端末、10…処理部、11…記憶部、12…通信部、13…撮像部、14…表示部、15…操作部、16…音声入出力部、16b…マイクロフォン、16a…スピーカ、101…映像送信部、102…画面制御部、103…アバター制御部、2…サーバ、20…処理部、21…記憶部、22…通信部、201…共有アイテム管理部、202…映像処理部、203…パターン選択部、204…制御データ生成部、Ua,Ub,Uc…ユーザ、Ta,Tb,Tc…端末、Va,Vb,Vc…アバター、300…仮想空間、301…プレゼンテーション資料、1P…端末プログラム、2P…サーバプログラム、BS…基地局、AP…アクセスポイント、N…通信ネットワーク。
Claims (14)
- 第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援するコミュニケーション支援システムであって、
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
前記第1ユーザを映した映像データを前記第1端末から受信し、
前記映像データを解析して、アバターの動作パターン群の中から、前記第1ユーザの非言語行動に対応する動作パターンを選択し、
前記第2端末に表示された仮想空間内の、前記第1ユーザに対応するアバターを、前記選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを前記第2端末に送信する、
コミュニケーション支援システム。 - 前記少なくとも一つのプロセッサは、学習モデルを用いて、前記第1ユーザの非言語行動および前記第1ユーザの音声情報に対応する動作パターンを選択し、
前記学習モデルは、ユーザの映像データ、または、ユーザの映像データおよび当該映像データに基づくデータが入力されると、当該ユーザの非言語行動および当該ユーザの音声情報に対応する動作パターンを示す情報を出力するように、訓練データを用いて生成された学習済みモデルである、
請求項1に記載のコミュニケーション支援システム。 - 前記第1ユーザの音声情報は、前記第1ユーザの音声および言語を含み、
前記ユーザの映像データまたは当該映像データに基づくデータは、前記ユーザの画像データおよび音声情報を含む、
請求項2に記載のコミュニケーション支援システム。 - 前記少なくとも一つのプロセッサは、前記アバターの視線が前記第2ユーザに向けられるように、前記動作パターンを選択する、
請求項1から請求項3のいずれか一項に記載のコミュニケーション支援システム。 - 前記少なくとも一つのプロセッサが、前記選択された動作パターンをテキストで表現することで前記制御データを生成する、
請求項1から請求項4のいずれか一項に記載のコミュニケーション支援システム。 - 前記少なくとも一つのプロセッサが、前記選択された動作パターンをJSON形式で記述することで前記制御データを生成する、
請求項5に記載のコミュニケーション支援システム。 - 前記非言語行動が前記第1ユーザの視線を少なくとも含み、
前記動作パターン群に含まれるそれぞれの動作パターンが前記アバターの視線を少なくとも示し、
前記少なくとも一つのプロセッサが、前記第1ユーザの視線に対応する前記アバターの視線を示す前記動作パターンを選択する、
請求項1から請求項6のいずれか一項に記載のコミュニケーション支援システム。 - 前記非言語行動が前記第1ユーザの姿勢、動き、および表情のうちの少なくとも一つをさらに含み、
前記動作パターン群に含まれるそれぞれの動作パターンが、前記アバターの姿勢、動き、および表情のうちの少なくとも一つをさらに示し、
前記少なくとも一つのプロセッサが、前記第1ユーザの姿勢、動き、および表情のうちの少なくとも一つに対応する前記アバターの姿勢、動き、および表情のうちの少なくとも一つを示す前記動作パターンを選択する、
請求項7に記載のコミュニケーション支援システム。 - 前記動作パターン群が、前記アバターの視線の変化に応じて行われる、前記アバターの上半身の回転、前記アバターの首の回転、および前記アバターの黒目の移動のうちの少なくとも一つを示す動作パターンを含む、
請求項7または請求項8に記載のコミュニケーション支援システム。 - 前記映像データが画像データおよび音声データを含み、
前記少なくとも一つのプロセッサが、
前記映像データを前記画像データと前記音声データとに分離し、
前記画像データを解析して、前記第1ユーザの非言語行動に対応する前記動作パターンを選択し、
前記選択された動作パターンを示す非言語行動データと前記音声データとの組合せを前記制御データとして前記第2端末に送信する、
請求項1から請求項9のいずれか一項に記載のコミュニケーション支援システム。 - 前記少なくとも一つのプロセッサが、共有アイテムを示す共有アイテムデータを第1端末および第2端末のそれぞれに送信することで、該共有アイテムを含む仮想空間を前記第1端末および前記第2端末のそれぞれに表示させる、
請求項1から請求項10のいずれか一項に記載のコミュニケーション支援システム。 - 第1端末に対応する第1ユーザと第2端末に対応する第2ユーザとの間のコミュニケーションを支援し、且つ少なくとも一つのプロセッサを備えるコミュニケーション支援システムにより実行されるコミュニケーション支援方法であって、
前記第1ユーザを映した映像データを前記第1端末から受信するステップと、
前記映像データを解析して、アバターの動作パターン群の中から、前記第1ユーザの非言語行動に対応する動作パターンを選択するステップと、
前記第2端末に表示された仮想空間内の、前記第1ユーザに対応するアバターを、前記選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを前記第2端末に送信するステップと、
を含むコミュニケーション支援方法。 - 請求項1に記載のコミュニケーション支援システムとしてコンピュータを機能させるコミュニケーション支援プログラムであって、
前記第1ユーザを映した映像データを前記第1端末から受信するステップと、
前記映像データを解析して、アバターの動作パターン群の中から、前記第1ユーザの非言語行動に対応する動作パターンを選択するステップと、
前記第2端末に表示された仮想空間内の、前記第1ユーザに対応するアバターを、前記選択された動作パターンに基づいて動作させるために、該選択された動作パターンを示す制御データを前記第2端末に送信するステップと、
を前記コンピュータに実行させるコミュニケーション支援プログラム。 - 第1端末と通信ネットワークを介して接続可能な第2端末としてコンピュータを機能させる画像制御プログラムであって、
前記第1端末に対応する第1ユーザの非言語行動に対応する動作パターンを示す制御データを受信するステップであって、該動作パターンが、前記第1端末で撮影された前記第1ユーザの映像データを解析して、アバターの動作パターン群の中から該非言語行動に対応する動作パターンとして選択されたものである、該ステップと、
前記第2端末上に表示された仮想空間内の、前記第1ユーザに対応するアバターを、前記受信された制御データで示される動作パターンに基づいて動作させるステップと、
を前記コンピュータに実行させる画像制御プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20785115.5A EP3951604A4 (en) | 2019-04-01 | 2020-03-30 | COMMUNICATIONS ASSISTANCE SYSTEM, COMMUNICATIONS ASSISTANCE METHOD, COMMUNICATIONS ASSISTANCE PROGRAM AND IMAGE CONTROL PROGRAM |
JP2021512135A JPWO2020204000A1 (ja) | 2019-04-01 | 2020-03-30 | |
US17/431,721 US20220150285A1 (en) | 2019-04-01 | 2020-03-30 | Communication assistance system, communication assistance method, communication assistance program, and image control program |
CN202080018126.5A CN113508369A (zh) | 2019-04-01 | 2020-03-30 | 交流支持系统、交流支持方法、交流支持程序以及图像控制程序 |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-070095 | 2019-04-01 | ||
JP2019070095 | 2019-04-01 | ||
JP2019110923 | 2019-06-14 | ||
JP2019-110923 | 2019-06-14 | ||
JP2019179883 | 2019-09-30 | ||
JP2019-179883 | 2019-09-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020204000A1 true WO2020204000A1 (ja) | 2020-10-08 |
Family
ID=72668494
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/014674 WO2020204000A1 (ja) | 2019-04-01 | 2020-03-30 | コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム |
PCT/JP2020/014673 WO2020203999A1 (ja) | 2019-04-01 | 2020-03-30 | コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/014673 WO2020203999A1 (ja) | 2019-04-01 | 2020-03-30 | コミュニケーション支援システム、コミュニケーション支援方法、および画像制御プログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US20220124140A1 (ja) |
EP (1) | EP3951604A4 (ja) |
JP (2) | JPWO2020204000A1 (ja) |
CN (2) | CN113508423A (ja) |
WO (2) | WO2020204000A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114787759A (zh) * | 2020-10-14 | 2022-07-22 | 住友电气工业株式会社 | 交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序 |
EP4059673A1 (en) * | 2021-03-18 | 2022-09-21 | Ricoh Company, Ltd. | Information processing apparatus, nonverbal information conversion system, information processing method, and carrier means |
WO2023090419A1 (ja) * | 2021-11-19 | 2023-05-25 | 凸版印刷株式会社 | コンテンツ生成装置、コンテンツ生成方法、及びプログラム |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7367632B2 (ja) * | 2020-07-31 | 2023-10-24 | トヨタ自動車株式会社 | レッスンシステム、レッスン方法、及びプログラム |
CN113012490A (zh) * | 2021-03-09 | 2021-06-22 | 沙艾霖 | 一种基于虚拟场景的语言学习系统及装置 |
US11776190B2 (en) * | 2021-06-04 | 2023-10-03 | Apple Inc. | Techniques for managing an avatar on a lock screen |
US11694419B2 (en) | 2021-09-06 | 2023-07-04 | Kickback Space Inc. | Image analysis and gaze redirection using characteristics of the eye |
JP2023056109A (ja) * | 2021-10-07 | 2023-04-19 | トヨタ自動車株式会社 | 仮想空間制御システム、その制御方法、及び、制御プログラム |
US20240096033A1 (en) * | 2021-10-11 | 2024-03-21 | Meta Platforms Technologies, Llc | Technology for creating, replicating and/or controlling avatars in extended reality |
JP7138997B1 (ja) * | 2021-10-14 | 2022-09-20 | 株式会社I’mbesideyou | ビデオミーティング評価端末 |
JP7062126B1 (ja) * | 2021-11-01 | 2022-05-02 | 株式会社バーチャルキャスト | 端末、情報処理方法、プログラム、および記録媒体 |
US11727131B2 (en) * | 2021-12-29 | 2023-08-15 | Salesforce, Inc. | Referencing a document in a virtual space |
US20240012922A1 (en) * | 2022-07-11 | 2024-01-11 | Dell Products L.P. | Virtual representation of individual in computing environment |
CN117980872A (zh) * | 2022-08-04 | 2024-05-03 | 住友电气工业株式会社 | 显示程序、显示方法以及显示系统 |
WO2024029135A1 (ja) * | 2022-08-04 | 2024-02-08 | 住友電気工業株式会社 | 表示プログラム、表示方法及び表示システム |
WO2024085084A1 (ja) * | 2022-10-21 | 2024-04-25 | 株式会社Nttドコモ | アバター制御装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015191537A (ja) | 2014-03-28 | 2015-11-02 | Kddi株式会社 | 視線一致画像生成方法、装置およびプログラム |
JP2016085579A (ja) | 2014-10-24 | 2016-05-19 | 大学共同利用機関法人情報・システム研究機構 | 対話装置のための画像処理装置及び方法、並びに対話装置 |
JP2017130046A (ja) | 2016-01-20 | 2017-07-27 | 日本電信電話株式会社 | 視線一致顔画像合成方法、テレビ会議システム、及びプログラム |
WO2018186031A1 (ja) * | 2017-04-03 | 2018-10-11 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP6487585B1 (ja) * | 2018-04-12 | 2019-03-20 | 株式会社バーチャルキャスト | コンテンツ配信サーバ、仮想キャラクタ提供サーバ、コンテンツ配信システム、コンテンツ配信方法及びプログラム |
JP2019070095A (ja) | 2017-10-11 | 2019-05-09 | 株式会社ブリヂストン | 止水材 |
JP2019110923A (ja) | 2016-09-30 | 2019-07-11 | 大日本印刷株式会社 | 細胞取扱容器 |
JP2019179883A (ja) | 2018-03-30 | 2019-10-17 | キヤノン株式会社 | 型を用いて基板上の組成物を成形する成形装置、成形方法、および物品の製造方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1021215A (ja) * | 1996-06-28 | 1998-01-23 | Ritsumeikan | サイバースペースの作成方法及びその作成装置 |
WO2003058518A2 (en) * | 2002-01-07 | 2003-07-17 | Stephen James Crampton | Method and apparatus for an avatar user interface system |
US9652809B1 (en) * | 2004-12-21 | 2017-05-16 | Aol Inc. | Using user profile information to determine an avatar and/or avatar characteristics |
US8243116B2 (en) * | 2007-09-24 | 2012-08-14 | Fuji Xerox Co., Ltd. | Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
JP5209101B2 (ja) * | 2011-09-27 | 2013-06-12 | 株式会社 ディー・エヌ・エー | メッセージ送受信システム、メッセージ送受信方法、及びプログラム |
CN107257403A (zh) * | 2012-04-09 | 2017-10-17 | 英特尔公司 | 使用交互化身的通信 |
WO2014036708A1 (en) * | 2012-09-06 | 2014-03-13 | Intel Corporation | System and method for avatar creation and synchronization |
US10708545B2 (en) * | 2018-01-17 | 2020-07-07 | Duelight Llc | System, method, and computer program for transmitting face models based on face data points |
US9690784B1 (en) * | 2013-03-15 | 2017-06-27 | University Of Central Florida Research Foundation, Inc. | Culturally adaptive avatar simulator |
US9706040B2 (en) * | 2013-10-31 | 2017-07-11 | Udayakumar Kadirvel | System and method for facilitating communication via interaction with an avatar |
KR101756504B1 (ko) * | 2014-03-12 | 2017-07-11 | 엔에이치엔엔터테인먼트 주식회사 | 리그전을 위한 게임 방법 및 게임 시스템 |
US9672416B2 (en) * | 2014-04-29 | 2017-06-06 | Microsoft Technology Licensing, Llc | Facial expression tracking |
US20160134840A1 (en) * | 2014-07-28 | 2016-05-12 | Alexa Margaret McCulloch | Avatar-Mediated Telepresence Systems with Enhanced Filtering |
WO2016090605A1 (en) * | 2014-12-11 | 2016-06-16 | Intel Corporation | Avatar selection mechanism |
WO2016145129A1 (en) * | 2015-03-09 | 2016-09-15 | Ventana 3D, Llc | Avatar control system |
WO2016161553A1 (en) * | 2015-04-07 | 2016-10-13 | Intel Corporation | Avatar generation and animations |
US10063604B2 (en) * | 2016-02-17 | 2018-08-28 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Systems and methods for facilitating video communication using virtual avatars |
US20180089880A1 (en) * | 2016-09-23 | 2018-03-29 | Apple Inc. | Transmission of avatar data |
US10685466B2 (en) * | 2017-05-23 | 2020-06-16 | Dell Products L.P. | System and method of utilizing video systems with available bandwidth |
US10244208B1 (en) * | 2017-12-12 | 2019-03-26 | Facebook, Inc. | Systems and methods for visually representing users in communication applications |
-
2020
- 2020-03-30 US US17/431,715 patent/US20220124140A1/en not_active Abandoned
- 2020-03-30 CN CN202080018106.8A patent/CN113508423A/zh active Pending
- 2020-03-30 WO PCT/JP2020/014674 patent/WO2020204000A1/ja unknown
- 2020-03-30 CN CN202080018126.5A patent/CN113508369A/zh active Pending
- 2020-03-30 US US17/431,721 patent/US20220150285A1/en not_active Abandoned
- 2020-03-30 WO PCT/JP2020/014673 patent/WO2020203999A1/ja active Application Filing
- 2020-03-30 JP JP2021512135A patent/JPWO2020204000A1/ja active Pending
- 2020-03-30 EP EP20785115.5A patent/EP3951604A4/en not_active Withdrawn
- 2020-03-30 JP JP2021512134A patent/JPWO2020203999A1/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015191537A (ja) | 2014-03-28 | 2015-11-02 | Kddi株式会社 | 視線一致画像生成方法、装置およびプログラム |
JP2016085579A (ja) | 2014-10-24 | 2016-05-19 | 大学共同利用機関法人情報・システム研究機構 | 対話装置のための画像処理装置及び方法、並びに対話装置 |
JP2017130046A (ja) | 2016-01-20 | 2017-07-27 | 日本電信電話株式会社 | 視線一致顔画像合成方法、テレビ会議システム、及びプログラム |
JP2019110923A (ja) | 2016-09-30 | 2019-07-11 | 大日本印刷株式会社 | 細胞取扱容器 |
WO2018186031A1 (ja) * | 2017-04-03 | 2018-10-11 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2019070095A (ja) | 2017-10-11 | 2019-05-09 | 株式会社ブリヂストン | 止水材 |
JP2019179883A (ja) | 2018-03-30 | 2019-10-17 | キヤノン株式会社 | 型を用いて基板上の組成物を成形する成形装置、成形方法、および物品の製造方法 |
JP6487585B1 (ja) * | 2018-04-12 | 2019-03-20 | 株式会社バーチャルキャスト | コンテンツ配信サーバ、仮想キャラクタ提供サーバ、コンテンツ配信システム、コンテンツ配信方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
DAISAKU ARITA, HISATO YOSHIMATSU, DAISUKE HAYAMA, RIN-ICHIRO TANIGUCHI: "Real-time Human Proxy: Distant Communication via Virtual Space", PAPERS OF TECHNICAL MEETING, IEE JAPAN, 27 May 2005 (2005-05-27), pages 1 - 6, XP055850710 * |
See also references of EP3951604A4 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114787759A (zh) * | 2020-10-14 | 2022-07-22 | 住友电气工业株式会社 | 交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序 |
US11960792B2 (en) | 2020-10-14 | 2024-04-16 | Sumitomo Electric Industries, Ltd. | Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program |
CN114787759B (zh) * | 2020-10-14 | 2024-08-06 | 住友电气工业株式会社 | 交流支持方法、交流支持系统、终端装置以及存储介质 |
EP4059673A1 (en) * | 2021-03-18 | 2022-09-21 | Ricoh Company, Ltd. | Information processing apparatus, nonverbal information conversion system, information processing method, and carrier means |
US12026979B2 (en) | 2021-03-18 | 2024-07-02 | Ricoh Company, Ltd. | Information processing apparatus, nonverbal information conversion system, and information processing method |
WO2023090419A1 (ja) * | 2021-11-19 | 2023-05-25 | 凸版印刷株式会社 | コンテンツ生成装置、コンテンツ生成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220150285A1 (en) | 2022-05-12 |
EP3951604A4 (en) | 2022-06-01 |
EP3951604A1 (en) | 2022-02-09 |
US20220124140A1 (en) | 2022-04-21 |
WO2020203999A1 (ja) | 2020-10-08 |
JPWO2020203999A1 (ja) | 2020-10-08 |
CN113508369A (zh) | 2021-10-15 |
JPWO2020204000A1 (ja) | 2020-10-08 |
CN113508423A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020204000A1 (ja) | コミュニケーション支援システム、コミュニケーション支援方法、コミュニケーション支援プログラム、および画像制御プログラム | |
US11736756B2 (en) | Producing realistic body movement using body images | |
KR102503413B1 (ko) | 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체 | |
US11783524B2 (en) | Producing realistic talking face with expression using images text and voice | |
JP5208810B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、およびネットワーク会議システム | |
EP3889912B1 (en) | Method and apparatus for generating video | |
Le et al. | Live speech driven head-and-eye motion generators | |
US11960792B2 (en) | Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program | |
US20160134840A1 (en) | Avatar-Mediated Telepresence Systems with Enhanced Filtering | |
KR102098734B1 (ko) | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 | |
KR102148151B1 (ko) | 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅 | |
WO2021140799A1 (ja) | コミュニケーション支援システムおよびコミュニケーション支援プログラム | |
JP2019128683A (ja) | オフィス用バーチャルリアリティシステム、及びオフィス用バーチャルリアリティプログラム | |
JP2021086415A (ja) | 仮想人物対話システム、映像生成方法、映像生成プログラム | |
JP2020136921A (ja) | ビデオ通話システム、およびコンピュータプログラム | |
CN112669846A (zh) | 交互系统、方法、装置、电子设备及存储介质 | |
Lee et al. | Designing a multi-modal communication system for the deaf and hard-of-hearing users | |
JP7496128B2 (ja) | 仮想人物対話システム、映像生成方法、映像生成プログラム | |
US12118148B1 (en) | EMG-based speech detection and communication | |
Paleari et al. | Toward environment-to-environment (E2E) affective sensitive communication systems | |
CN117437335A (zh) | 表情转移到风格化化身 | |
CN118012270A (zh) | 基于全息显示设备的交互方法、装置、存储介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20785115 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021512135 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2020785115 Country of ref document: EP Effective date: 20211102 |