WO2018174088A1 - コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置 - Google Patents

コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置 Download PDF

Info

Publication number
WO2018174088A1
WO2018174088A1 PCT/JP2018/011173 JP2018011173W WO2018174088A1 WO 2018174088 A1 WO2018174088 A1 WO 2018174088A1 JP 2018011173 W JP2018011173 W JP 2018011173W WO 2018174088 A1 WO2018174088 A1 WO 2018174088A1
Authority
WO
WIPO (PCT)
Prior art keywords
feedback
participants
communication
unit
rhythm
Prior art date
Application number
PCT/JP2018/011173
Other languages
English (en)
French (fr)
Inventor
三宅 美博
宏樹 大良
Original Assignee
国立大学法人東京工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京工業大学 filed Critical 国立大学法人東京工業大学
Priority to JP2019507706A priority Critical patent/JP7002143B2/ja
Priority to US16/496,677 priority patent/US20210110844A1/en
Priority to EP18771449.8A priority patent/EP3605421A4/en
Publication of WO2018174088A1 publication Critical patent/WO2018174088A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Definitions

  • the present invention relates to a technique for analyzing communication.
  • Patent Document 1 discloses a television camera device using a fish-eye or super wide-angle lens and a variable directivity microphone. This TV camera device stably tracks a person even when no audio is generated during a video conference, generates a video of an active video conference, reduces noise and echoes, and has a high quality realistic TV. Realize the meeting.
  • the conventional apparatus only passively monitors or records the communication, and the apparatus does not actively intervene or influence the communication.
  • the present invention has been made in such a situation, and one of exemplary purposes of an aspect thereof is to provide a communication analysis apparatus that intervenes in communication. Another aspect of the present invention is to provide a measurement / feedback device for measuring communication and feeding back an evaluation result.
  • An aspect of the present invention relates to a communication analysis apparatus that analyzes communication by a plurality of participants.
  • the communication analysis device includes a microphone that acquires speech of a plurality of participants as audio data, a camera that acquires image data of the plurality of participants, an analysis evaluation unit that evaluates communication based on the audio data and the image data, A feedback unit that provides a plurality of participants with evaluation results by the analysis evaluation unit or feedback based thereon in real time.
  • communication can be analyzed in real time and the result can be fed back to the participant in real time. Thereby, the quality of communication can be improved.
  • the feedback unit may present a rhythm shared by multiple participants. Such rhythm is buried in face-to-face communication, and it is difficult for individual participants to perceive it visually or audibly. This rhythm is extracted from the field of face-to-face communication, and the extracted rhythm is emphasized and re-presented in the field of communication as visual, auditory, and somatosensory stimuli. Other participants who are not sharing can be encouraged to tune in to the rhythm.
  • the feedback unit is a robot type, and the rhythm may be presented by at least one of whispering, gesturing or hand gesture.
  • the feedback unit may present a rhythm to a participant whose participation degree is low by the analysis and evaluation unit.
  • the feedback unit may present a rhythm to the participant selected based on the evaluation result of the mental state by the analysis evaluation unit.
  • co-sensitivity, sense of unity, degree of agreement, etc. can be referred to as mental states.
  • the co-sensitivity / sense of unity / degree of agreement can be changed to a positive state.
  • low co-sensitivity / coincidence / agreement is referred to as a negative state
  • high co-sensitivity / co-sense / agreement is referred to as a positive state.
  • the analysis / evaluation unit may evaluate the synchronization state among a plurality of participants. Since the synchronization state has a correlation with the mental state of the participant, the mental state can be evaluated using the synchronization state after evaluating the physical state of the synchronization state. Alternatively, the analysis / evaluation unit does not necessarily evaluate to the mental state, and may evaluate only the physical quantity of the synchronized state and feed it back.
  • the feedback unit may visualize and present the evaluation result by the analysis evaluation unit.
  • the analysis / evaluation unit may monitor the movement of each of a plurality of participants.
  • Body movements may include gestures, gestures, postures, whispers and the like.
  • the analysis / evaluation unit may monitor the movement of each of the plurality of participants.
  • the analysis evaluation unit may monitor facial expressions, facial expression movements, facial orientations, and the like.
  • the measurement / feedback device transmits the voice data and the image data to the external computer, the microphone that acquires the utterances of the plurality of participants as voice data, the camera that acquires the image data of the plurality of participants, and from the computer
  • An interface unit that receives feedback data based on a communication evaluation result and a feedback unit that presents information based on the feedback data to a plurality of participants.
  • the camera may be an omnidirectional camera.
  • the measurement / feedback device may further include a distance measuring sensor that measures distances to a plurality of participants.
  • FIG. 1 is a block diagram of a communication analysis device according to an embodiment. It is a figure which shows the measurement and feedback apparatus which comprises a communication analyzer. It is a specific functional block diagram of a communication analyzer. It is a figure which shows another example of a feedback part. It is a figure which shows the image data of 1 frame image
  • FIG. 6 (a) is a diagram showing the results of a preliminary experiment conducted on two subjects.
  • FIGS. 7A and 7B are diagrams showing the results under the synchronous condition and the asynchronous condition.
  • FIGS. 8A to 8C are diagrams showing the relationship between co-sensitivity and physical movement in face-to-face communication.
  • FIGS. 9A and 9B are diagrams illustrating the relationship between co-sensitivity and line-of-sight movement in face-to-face communication. It is a figure which shows the mode of the experiment using a robot. 11A and 11B are diagrams showing the experimental results of FIG.
  • FIG. 1 is a block diagram of a communication analysis apparatus 2 according to the embodiment.
  • the communication analysis device 2 analyzes a conference, discussion, lecture, etc. (hereinafter referred to as communication) by a plurality of participants, and feeds back the analysis results to the participants.
  • communication a conference, discussion, lecture, etc.
  • the communication analysis device 2 includes a microphone 10, a camera 20, an analysis evaluation unit 30, and a feedback unit 40.
  • Microphone 10 acquires a plurality of utterances of participants 4 as audio data S 1. In FIG. 1, only one microphone 10 and camera 20 are shown, but a plurality of microphones 10 and cameras 20 may be provided.
  • Camera 20 acquires the appearance of a plurality of participants 4 as image data S 2.
  • Analytical evaluation unit 30 analyzes the audio data S 1 and the image data S 2, to evaluate the communication made by the plurality of participants 4, to generate an index indicating the evaluation result.
  • the format of the index is not particularly limited, and may be a binary value of 1, 0, multi-value data, or a vector quantity.
  • the feedback unit 40 feeds back the evaluation result S 3 obtained by the analysis evaluation unit 30 to the plurality of participants 4.
  • auditory stimulation, visual stimulation, or somatosensory stimulation can be used in combination, and is not particularly limited.
  • an auditory stimulus a beep sound, an alarm sound, a predetermined voice sampled in advance may be used, or a character string may be converted into an acoustic signal (synthesized voice) using a speech synthesizer (voice synthesis).
  • visual stimuli light emission states (brightness, color, blinking, etc.) such as LEDs and lighting, image / text display by a display device, and mechanical means can be used.
  • tactile stimulation such as vibration or pressurization, stimulation by wind, stimulation by temperature, and the like can be used.
  • the feedback method and mode may be selected according to the communication aspect to be evaluated.
  • the communication aspect and feedback combination to be evaluated are not particularly limited, but the following are exemplified.
  • Participant Degree is a degree of participation in communication and can be analyzed based on linguistic information or non-linguistic information.
  • the voice data S 1 acquired by the microphone 10 measures the frequency or number of speech of each participant, the measurement results may be quantified.
  • analyzing the content of speech and distinguishing meaningful speech, speech unrelated to the conference and private language based on linguistic information (meaning content) is significant in generating participation.
  • Participation can be analyzed using non-linguistic information.
  • specific examples of the non-linguistic information include matching, blinking, gaze dwell time, gesture, hand gesture, head swing, trunk swing, gaze movement, and the like. These are those that can be visually grasped from external participants 4 may be analyzes image data S 2 to be acquired by the camera 20. A snooze or a job is a specific example that can be visually grasped.
  • conversation turn-taking As yet another non-linguistic information, conversation turn-taking, sighing, voice tone, etc. can be used.
  • feedback includes the following. For example, a predetermined beep sound that encourages participation or speech may be uttered toward a participant with a low participation degree.
  • an indicator such as a lamp may be allocated and provided for each participant, and an indicator associated with a participant having a low participation degree (or, conversely, a high participation degree) may be lit.
  • each participant may display it in a form in which the value of the participation degree of each participant (and other participants) can be grasped. For example, the brightness and color may be changed according to the value of participation.
  • Participants who are suspected of falling asleep or working in the office may be stimulated by using voices or indicators and warned to that effect.
  • the communication analysis device 2 evaluates the degree of participation and feeds back the result to the participant, such a problem can be solved.
  • the communication analysis device 2 since participation is promoted by the device (machine), there is no human relationship there. People who are encouraged to participate are more likely to be convinced if they are encouraged to participate by objective machines than humans. Also from this viewpoint, the communication analysis apparatus 2 is advantageous.
  • Participant's mental state refers to empathy, trust, sense of unity, whereabouts, live feeling, consensus and consent, persuasion, high level of interest, etc. It is an indicator of mental state, and is an indicator that is higher than the degree of participation. These can be quantified using the technique described in the international patent application (PCT / JP2013 / 007352) already filed by the present applicant. Specifically, an index representing a mental state can be generated from linguistic information or non-linguistic information.
  • consent degree such as empathy degree
  • the degree of interest to the remarks of some participants may be detected from the operation of such back-channel feedback and nod, it can be analyzed by using the voice data S 1 and the image data S 2.
  • the co-sensitivity, the degree of interest, and the degree of consent can be quantified based on the degree of synchronization (degree of synchronization) between the speaker (speaker) and other participants (listeners).
  • the degree of interest, the degree of consent, and the co-sensitivity may be quantified based on the degree of synchronization between the speaker and other participants' whisper, gesture, hand gesture, posture, and facial expression.
  • the co-sensitivity can be detected based on the relationship between the timings (phases) of firing.
  • the co-sensitivity can be detected based on the eye movement of each participant.
  • feedback includes the following.
  • a numerical value of a mental state index (interest level, consent level, etc.) of a plurality of participants may be presented to the speaker.
  • the average value of all members may be presented to the speaker.
  • the speaker can know the interest level and co-sensitivity of the participants based on the presented numerical values and reflect them in future speeches and presentations, improving the quality of communication. .
  • the feedback mode is not limited to the presentation of numerical values.
  • a visual stimulus may be used for feedback.
  • the visual stimulus may represent the co-sensitivity by the type of color or the color intensity, or may be represented by a change in the lighting state of the light (cycle of lighting, extinguishing, and blinking).
  • auditory stimuli may be used for feedback.
  • the auditory stimulus may represent the co-sensitivity by the pitch or the loudness of the sound, or by a periodic sound rhythm.
  • comfortable music and sound may be played when the sensitivity is high, and unpleasant music and sound may be played when the sensitivity is low.
  • somatosensory stimulation may be used for feedback.
  • the somatosensory stimulus may represent co-sensitivity by the magnitude or intensity of vibration, or may be represented by a periodic vibration rhythm.
  • the feedback unit 40 is provided to feed back the mental state of the participant so far, and the feedback unit 40 can be used to improve the future empathy state of the participant. For example, it has been found that synchronizing physical movement among multiple participants improves co-sensitivity. Therefore, the feedback unit 40 may provide a rhythm to a plurality of participants by any one of visual stimulation, auditory stimulation, somatosensory stimulation, or a combination thereof. Thereby, the synchronized state of a some participant can be raised, and by extension, a sympathetic state can be raised.
  • rhythm provided here is extracted from a plurality of participants and shared among many of them. This rhythm is rarely manifested in the field of communication, and it is difficult for humans to perceive it. However, such a rhythm is extracted by the communication analyzer 2 and is then used as a visual stimulus, auditory sense. By explicitly or emphasizing and presenting as a somatic or somatosensory stimulus to other participants, other participants who do not share that rhythm will be synchronized with the presented rhythm, It is possible to increase the tuning state.
  • the “rhythm shared by a plurality of participants” may be a rhythm in which a plurality of participants are simply physically synchronized.
  • a rhythm shared by multiple participants is not limited to the physical tune of the participants, but the mental state of the tuned participants is positive. A rhythm like that.
  • one-on-one synchrony may be evaluated for all combinations of participants. With this evaluation, a matrix of the degree of tuning can be generated. From this matrix, it is possible to estimate a cluster (group) of a plurality of participants that are linked with a high degree of synchronization. In this case, a common rhythm to which the participants included in the cluster are synchronized may be extracted, and the rhythm may be presented to the participants not included in the cluster.
  • a mental state matrix can be generated. From this matrix, a cluster (group) of a plurality of participants who are connected in a positive mental state can be estimated. In this case, a common rhythm to which the participants included in the cluster are synchronized may be extracted, and the rhythm may be presented to the participants not included in the cluster.
  • the analysis / evaluation unit 30 may analyze and evaluate emotions such as emotions of participants.
  • the communication analysis device 2 may evaluate a plurality of items. Further, feedback may be performed for each item.
  • the above is the basic configuration of the communication analysis device 2.
  • the present invention is understood as the block diagram of FIG. 1 or extends to various devices and circuits derived from the above description, and is not limited to a specific configuration. In the following, more specific configuration examples and examples will be described in order not to narrow the scope of the present invention but to help understanding and clarify the essence and circuit operation of the present invention.
  • FIG. 2 is a diagram showing the measurement / feedback device 100 constituting the communication analysis device 2.
  • the measurement / feedback apparatus 100 is a device (module) in which the interface unit 50 and the signal processing unit 60 are packaged in one housing in addition to the microphone 10, the camera 20, and the feedback unit 40 of FIG.
  • the measurement / feedback device 100 is a table top size and is placed at the center of a plurality of participants participating in communication such as a conference.
  • the measurement / feedback device 100 includes a housing 104 having a dome-shaped transparent portion 102 and a base 106 provided at a lower portion of the housing 104.
  • a camera 20 is provided inside the dome-shaped portion 102.
  • the camera 20 is an omnidirectional (omnidirectional) camera and captures images of all participants surrounding the measurement / feedback device 100.
  • the housing 104 is provided with a plurality of microphones 10 arranged in a radial manner, and converts the utterances of a plurality of participants into electrical signals.
  • the signal processing unit 60 is, for example, a microcomputer, a CPU (Central Processing Unit), an FPGA (Field Programmable Gate Array) or the like, and controls the measurement / feedback device 100 in an integrated manner.
  • the signal processing unit 60 converts an audio signal acquired by the microphone 10 into a digital signal and compresses it as necessary. Further, the signal processing unit 60 compresses the image data acquired by the camera 20 as necessary.
  • the interface unit 50 is connected to the external computer 200 by wire or wireless.
  • the computer 200 corresponds to the analysis / evaluation unit 30 in FIG. 1 and may be a desktop or laptop computer, or may be a network server or a cloud computer.
  • the interface unit 50 may be a Bluetooth (registered trademark) module, a WLAN module, or a USB module.
  • the interface unit 50 transmits audio data S 1 and image data S 2 to the external computer 200.
  • the measurement / feedback apparatus 100 is provided with one or more speakers 42 and one or more indicator lamps 44 as the feedback unit 40 of FIG.
  • the feedback unit 40 may include a vibration generating device such as a vibration motor.
  • the interface unit 50 receives feedback data S 3 based on the communication evaluation result from the computer 200.
  • the signal processing unit 60 based on the feedback data S 3, drives a speaker 42, controls to output the beep sound or voice in accordance with the feedback data S 3.
  • the measurement / feedback device 100 is further provided with a distance measuring sensor 70 for measuring the distance between the measurement / feedback device 100 and each participant.
  • a distance measuring sensor 70 for measuring the distance between the measurement / feedback device 100 and each participant.
  • an optical type laser type
  • an ultrasonic type or the like can be used.
  • the distance information S 4 between the measured participant and the measurement / feedback device 100 is transmitted from the interface unit 50 to the computer 200 together with the image data S 2 .
  • Distance information S 4 as described later, is used to correct the distortion of the image acquired by the omnidirectional camera.
  • parts other than the analysis evaluation unit 30 are packaged or modularized in one measurement / feedback apparatus 100, thereby allowing the measurement / feedback apparatus 100 to be portable. Installation is greatly improved. If the camera (or microphone) is fixedly installed in the conference room as equipment, the communication analysis device 2 cannot be used when the conference room cannot be used. If the measurement / feedback device 100 is used, the place restrictions and the time restrictions are greatly relaxed, so that the use opportunities of the communication analysis device 2 can be increased.
  • FIG. 3 is a specific functional block diagram of the communication analysis device 2.
  • a thick frame corresponds to hardware, and a thin frame indicates a processing block by software installed in the analysis evaluation unit 30.
  • the distortion correction unit 400 extracts the image data of each participant and corrects the distortion of the image data of each participant based on the distance information to each participant measured by the distance measuring sensor 70.
  • the distortion-corrected image data is provided to subsequent processing means.
  • the facial expression recognition unit 402 recognizes each participant's facial expression.
  • the face authentication unit 404 identifies an individual from the image data of each participant.
  • the signal source separation unit 300 applies blind sound source separation to the sound signals from the plurality of microphones 10 and extracts each speech sound.
  • the voiceprint recognition unit 302 compares the voice signal from the microphone with the voiceprint of each participant acquired in advance (pattern matching), and identifies the participant.
  • the voice recognition unit 304 converts the utterance content from voice into text information or the like.
  • the participant identification unit 500 identifies a speaker from the authentication result by the face authentication unit 404, the identification result by the voiceprint recognition unit 302, the movement of the lips, and the position estimation result of the speaker.
  • the emotion estimation unit 502 estimates the emotion of each participant based on the facial expression recognized by the facial expression recognition unit 402 and the recognition result by the voice recognition unit 304.
  • the skeleton model estimation unit 504 estimates the posture and gesture of the participant based on the skeleton model.
  • the line-of-sight estimation unit 506 estimates in which direction the participant is looking.
  • the communication evaluation unit 508 is one of utterance contents from the speech recognition unit 304, emotion information from the emotion estimation unit 502, skeleton information (motion) from the skeleton model estimation unit 504, and gaze information from the gaze estimation unit 506, or Based on a plurality of combinations, communication evaluation indexes (for example, the above-described participation degree, interest degree, mental state) and the like are evaluated.
  • the evaluation result is output to the feedback unit 40.
  • the minutes generation unit 510 generates a minutes that records what and who said what based on the text information from the voice recognition unit 304 and the participants specified by the participant identification unit 500. .
  • videos of a plurality of participants are acquired with a single omnidirectional camera.
  • the present invention is not limited thereto, and a plurality of cameras may be used.
  • the measurement / feedback device 100 is provided with a plurality of radially arranged cameras, and the distance measuring sensor may be omitted when the distortion of the image acquired by the cameras is small.
  • Modification 2 The configuration of the measurement / feedback apparatus 100 shown in FIG. 2 is an example, and the present invention is not limited to this.
  • the arrangement of the plurality of microphones 10, the plurality of distance measuring sensors 70, the plurality of speakers 42, and the plurality of indicator lamps 44 is not limited.
  • one or a plurality of variable directivity microphones may be used.
  • the feedback unit 40 may be a wearable device that can be attached to an individual participant. In this case, feedback can be given to a specific participant so that other participants are not aware of it.
  • a vibrator that provides feedback by vibration As a device that can be attached to a participant, a vibrator that provides feedback by vibration, an earphone that provides feedback by sound, a head-mounted display that provides feedback by video, and the like are exemplified.
  • the microphone 10, the camera 20, and the feedback unit 40 of the communication analysis device 2 are preferably modularized into one measurement / feedback device 100, but this is not a limitation.
  • the feedback unit 40 only the microphone 10 and the camera 20 may be mounted on the measurement / feedback apparatus 100.
  • the microphone 10 may be integrated with the wearable device. In this case, it is easy to separate the voices, and voiceprint determination is not necessary.
  • FIG. 4 is a diagram illustrating another example of the feedback unit 40.
  • the feedback unit 40 is a humanoid robot and is configured to allow gestures and hand gestures.
  • the humanoid robot may be able to perform a whirling motion (arrow i) or an arm swinging motion (arrow ii), and may present a rhythm to the participant by a whispering or arm swinging motion. Co-sensitivity can be improved by the participants synchronizing with the rhythm presented by the humanoid robot.
  • the omnidirectional camera 20 may be mounted on the head of the humanoid robot.
  • the indicator lamp 44 and the speaker 42 shown in FIG. 2 are also provided at appropriate locations.
  • the humanoid robot can change the direction of the body or face (arrow iii) and may be controlled to face the direction of the speaker. Moreover, when giving a warning to a certain participant, it may be controlled to face the participant.
  • the quality of communication can be further improved by making the feedback unit 40 humanoid as compared with the case of an inorganic appearance as shown in FIG.
  • FIG. 5 is a diagram illustrating one frame of image data captured by a 360 degree camera.
  • the divided frame preferably includes the chest from the participant 4's head.
  • the luminance values of the divided frames are integrated, and a time waveform of the obtained integrated value is acquired.
  • the time waveform is preferably subjected to a filtering process using a low-pass filter as necessary.
  • the cut-off frequency may be about 4 Hz.
  • FIG. 6A is a diagram showing the results of a preliminary experiment performed on two subjects.
  • FIG. 6A shows a time waveform of the luminance integrated value of two corresponding divided frames measured under different conditions.
  • Roles A and B are assigned to the two subjects and face each other, and intentional physical movement is measured for each of three conditions using a 360-degree camera.
  • Role A nods 100 times at 40 intervals per minute in all measurements.
  • Role B nods at the same timing as Condition 1: Role A.
  • Condition 2 Nod once every two times at the same timing as the nod of role A.
  • Condition 3 There is no longer nostalgia.
  • FIG. 6 (b) shows the Z value obtained by applying the Barlet correction using Fisher's Z conversion for the correlation coefficient of the brightness change amount of the role A and the role B for each of the conditions 1 to 3. From FIG. 6, the operation when intentionally nodding appears as a waveform of the luminance change amount. From this, it is shown that the body movement can be sufficiently evaluated by the measurement by the 360 degree camera and the analysis by the proposed method.
  • FIGS. 7A and 7B are diagrams showing the results under the synchronous condition and the asynchronous condition.
  • the impression tends to improve under the synchronous condition, and as shown in FIG. 7 (b), the impression does not affect the impression under the asynchronous condition.
  • This behavioral experiment confirms that the presentation of the rhythm by the feedback unit 40 described above allows the participant who received the presentation to synchronize with the rhythm, and as a result, increase the sensitivity of the participant. .
  • FIGS. 8A to 8C are diagrams showing the relationship between co-sensitivity and physical movement in face-to-face communication.
  • Body movement is measured by an acceleration sensor.
  • FIG. 8A shows a non-sympathetic state
  • FIG. 8B shows a sympathetic state.
  • the body movements shown in FIGS. 8A to 8C include laughter as well as whispering movements, which can be distinguished based on the frequency. In this example, a component of 1 to 4 Hz is whispered, and a component of 4 Hz or more represents laughter.
  • the vertical axis represents the phase difference between the two people's physical movements.
  • a negative phase means that the speaker's phase has advanced, and a positive phase means that the listener's phase has advanced.
  • the horizontal axis shows the frequency of whispering motion.
  • FIG. 8C is a plot of the difference between FIG. 8A and FIG. 8B. In FIG. 8C, focusing on 2 to 4 Hz representing the whirling motion, the difference is large in the region where the phase is positive. That is, when the two people are in a state of empathy, the two people's whispering movements synchronize, and it can be seen that the listener's phase advances more than the speaking phase.
  • the state of empathy between two or more face-to-face communications can be evaluated, digitized, or visualized based on physical movement (the whirling movement included in it).
  • FIGS. 9A and 9B are diagrams illustrating the relationship between co-sensitivity and line-of-sight movement in face-to-face communication.
  • FIG. 9A is a waveform diagram showing the occurrence of mutual gaze in a non-sympathetic state and a sympathetic state.
  • FIG. 9B shows the ratio of mutual gaze in a non-sympathetic state and a sympathetic state.
  • This experiment suggests that the empathy state and mutual gaze have a correlation. Based on this knowledge, the state of empathy between two or more face-to-face communications can be evaluated, quantified, or visualized based on eye movement.
  • FIG. 10 is a diagram showing a state of an experiment using a robot.
  • the subject and the robot meet and the subject speaks to the robot.
  • the robot can be switched between (i) a state where it does not move at all (no response mode) and (ii) a state where it moves (crawls) in synchronization with the subject (interaction mode).
  • the two states were 5 minutes each, with a 5 minute interval between them.
  • This experiment was conducted with five participants whose mother tongue was Japanese as subjects.
  • the movement of the robot is controlled by feedback in frequency and phase so as to synchronize with the movement of the subject.
  • FIGS. 11A and 11B are diagrams showing the experimental results of FIG. FIG. 11A shows the result of the questionnaire.
  • Five participants were answered on two topics: Naturalness and Consensus Building.
  • Naturalness and Consensus Building In terms of nature, in the interaction mode, three participants answered “Somewhat Nuaural” and two participants answered “Somewhat Unnuaural”. In no response mode, two participants responded “Somewhat Unnuaural” and three respondents answered “Unnuaural”.
  • consensus building in the interaction mode, three participants answered “Somewhat Consensual” and two participants answered “somewhat nonconsensual”. . In no response mode, one participant responded “somewhat non-consensual” and three respondents answered “non-consensus”.
  • Fig. 11 (b) shows the weighted average score for each of the two items of Naturalness and consensus building in two modes.
  • the weighting coefficients of “natural”, “somewhat natural”, “somewhat unnatural”, and “unnatural” are 4, 3, 2, and 1, respectively.
  • the weighting factors of “consensus”, “somewhat consensus”, “somewhat nonconsensus”, and “nonconsensus” are 4, 3, 2, and 1, respectively.
  • the interaction mode in which the response from the robot returns, a higher score is obtained than in the no response mode. From this experiment, it can be seen that introducing humanoid robots in the face-to-face communication field will help improve the co-sensitivity of participants.
  • communication via a potential channel is the basis for communication via an explicit channel.
  • posture, whisper, facial expression, line of sight, surrounding language, physical distance from the opponent, and artifacts [7].
  • These non-verbal behaviors are said to contribute about 65% in face-to-face communication between humans [8].
  • Nonverbal behavior appears unconsciously and is said to be related to internal states such as emotions and emotions [9,10].
  • the relationship between fear and surrounding language, the left frontal area of the brain [11], and the relationship between pain sympathetic ability and brain activity have been reported [12].
  • Ramseyer F, Tschacher W. "Synchrony: a core concept for a constructivist approach to psychotherapy. Constructivism in the Human Sciences", Constructivism in the Human Sciences, 2006; 11: 150-171. 19. Ramsyer F, Tschacher W., “Nonverbal synchrony of head- and body-movement in psychotherapy: different signals have different associations with outcome” Front Psychol, 2014; 5: 1-9. 20. Komori M, Nagaoka C. "The relationship between body movements of clients and counsellors in psychotherapeutic counseling: a study using the video-based quantification method", Jap J of Cog Psychol. 2010; 8: 1-9. 21.
  • DESCRIPTION OF SYMBOLS 2 ... Communication analyzer, 4 ... Participant, 10 ... Microphone, 20 ... Camera, 30 ... Analysis evaluation part, 40 ... Feedback part, 42 ... Speaker, 44 ... Indicator lamp, 50 ... Interface unit, 60 ... Signal processing part, DESCRIPTION OF SYMBOLS 70 ... Distance sensor, 100 ... Measurement / feedback device, 102 ... Dome-shaped part, 104 ... Housing, 106 ... Base, 300 ... Signal source separation part, 302 ... Voiceprint recognition part, 304 ... Voice recognition part, 400 ... Distortion correction unit 402 ... Expression recognition unit 404 ... Face authentication unit 500 ... Participant identification unit 502 ... Emotion estimation unit 504 ... Skeletal model estimation unit 506 ... Gaze estimation unit 508 ... Communication evaluation unit 510 ... Minutes generation part.
  • the present invention relates to a technique for analyzing communication.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

コミュニケーション解析装置2は、複数の参加者によるコミュニケーションを解析する。マイク10は、複数の参加者の発声を音声データS1として取得する。カメラ20は複数の参加者の画像データS2を取得する。解析評価部30は、音声データS1および画像データS2にもとづき、コミュニケーションを評価する。フィードバック部40は、解析評価部30による評価結果を、複数の参加者4にフィードバックする。

Description

コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置
 本発明は、コミュニケーションを解析する技術に関する。
 会議等の対面コミュニケーションにおいては、言語および非言語情報からなる重層化されたコミュニケーションチャネルが重要な役割を担っている。これまでもカメラおよびマイクをテーブルに設置又は会議室等に据え置くことによってコミュニケーションをモニタリングするシステムが提案されてきたが、従来方法では映像や音声等を記録するものが主流であった。
 たとえば特許文献1には、魚眼または超広角レンズおよび可変指向性マイクを用いたテレビカメラ装置が開示される。このテレビカメラ装置は、テレビ会議中に音声が発生されない場合でも人物の追尾を安定して行い、アクティビティのあるテレビ会議の映像を生成し、雑音やエコーを低減した高品質の臨場感のあるテレビ会議を実現する。
特開平11-331827号公報
 このように従来の装置は、コミュニケーションを受動的に監視し、あるいは記録するのにとどまっており、装置がコミュニケーションに積極的に介入し、あるいは影響を及ぼすことはなかった。
 本発明は係る状況においてなされたものであり、そのある態様の例示的な目的のひとつは、コミュニケーションに介入するコミュニケーション解析装置の提供にある。また本発明の別の態様のひとつは、コミュニケーションを測定し、評価結果をフィードバックする測定・フィードバック装置の提供にある。
 本発明のある態様は、複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置に関する。コミュニケーション解析装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、音声データおよび画像データにもとづき、コミュニケーションを評価する解析評価部と、解析評価部による評価結果またはそれにもとづくフィードバックを複数の参加者にリアルタイムで提供するフィードバック部と、を備える。
 この態様によると、コミュニケーションをリアルタイムで解析し、その結果をリアルタイムで参加者にフィードバックすることができる。これにより、コミュニケーションの質を高めることができる。
 フィードバック部は、複数の参加者で共有されるリズムを提示してもよい。このようなリズムは、対面コミュニケーションの場に埋もれており、個々の参加者が視覚的あるいは聴感的にそれを知覚することは難しい。このリズムを、対面コミュニケーションの場から抽出し、抽出したリズムを、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激としてコミュニケーションの場に強調して再提示することにより、そのリズムを共有していない他の参加者に、そのリズムに同調することを促すことができる。
 フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示してもよい。
 フィードバック部は、解析評価部により参加度が低いとされる参加者に対して、リズムを提示してもよい。
 フィードバック部は、解析評価部による心的状態の評価結果にもとづいて選択される参加者に対してリズムを提示してもよい。たとえば心的状態として、共感度、一体感、合意度などを参照することができる。心的状態が否定的な参加者にリズムを提示することで、共感度/一体感/合意度を肯定的な状態に変化させることができる。なお本明細書において、共感度/一体感/合意度が低いことを、否定的状態、共感度/一体感/合意度が高いことを、肯定的状態という。
 解析評価部は、複数の参加者間の同調状態を評価してもよい。同調状態は、参加者の心的状態と相関を有するため、物理量である同調状態を評価した上で、同調状態を利用して、心的状態を評価することができる。あるいは、解析評価部は、必ずしも心的状態まで評価する必要はなく、同調状態という物理量のみを評価し、それをフィードバックしてもよい。
 フィードバック部は、解析評価部による評価結果を可視化して提示してもよい。
 解析評価部は、複数の参加者それぞれの体の動きを監視してもよい。体の動きは、身振り、仕草、姿勢、頷きなどを含んでもよい。
 解析評価部は、複数の参加者それぞれの視線の動きを監視してもよい。解析評価部は、顔の表情や表情の動き、顔の向きなどを監視してもよい。
 本発明の別の態様は、複数の参加者によるコミュニケーションを測定する測定・フィードバック装置に関する。測定・フィードバック装置は、複数の参加者の発声を音声データとして取得するマイクと、複数の参加者の画像データを取得するカメラと、外部のコンピュータに音声データおよび画像データを送信するとともに、コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、フィードバックデータにもとづく情報を複数の参加者に提示するフィードバック部と、を備える。
 カメラは全方位カメラであってもよい。測定・フィードバック装置は、複数の参加者までの距離を測定する測距センサをさらに備えてもよい。
 なお、以上の構成要素を任意に組み合わせたもの、あるいは本発明の表現を、方法、装置などの間で変換したものもまた、本発明の態様として有効である。
 本発明のある態様によれば、コミュニケーションに介入し、コミュニケーションの質を高めることができる。
実施の形態に係るコミュニケーション解析装置のブロック図である。 コミュニケーション解析装置を構成する測定・フィードバック装置を示す図である。 コミュニケーション解析装置の具体的な機能ブロック図である。 フィードバック部の別の一例を示す図である。 360度カメラによって撮影した1フレームの画像データを示す図である。 図6(a)は、2人の被験者について行った予備実験の結果を示す図であり、図6(b)は、条件1~3ごとに、役割Aと役割Bの輝度変化量の相関係数をFisherのZ変換を用い、さらにバートレット補正をかけることで得られたZ値を示す図である。 図7(a)、(b)は、同期条件、非同期条件における結果を示す図である。 図8(a)~(c)は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。 図9(a)、(b)は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。 ロボットを用いた実験の様子を示す図である。 図11(a)、(b)は、図10の実験結果を示す図である。
 以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、実施の形態は、発明を限定するものではなく例示であって、実施の形態に記述されるすべての特徴やその組み合わせは、必ずしも発明の本質的なものであるとは限らない。
 図1は、実施の形態に係るコミュニケーション解析装置2のブロック図である。コミュニケーション解析装置2は、複数の参加者による会議やディスカッション、レクチャーなど(以下、コミュニケーションという)を解析し、解析結果を参加者にフィードバックする。
 コミュニケーション解析装置2は、マイク10、カメラ20、解析評価部30、フィードバック部40を備える。マイク10は、複数の参加者4の発声を音声データSとして取得する。図1では、マイク10、カメラ20は1個のみが示されるが、複数設けられてもよい。カメラ20は、複数の参加者4の姿を画像データSとして取得する。解析評価部30は、音声データSおよび画像データSを解析し、複数の参加者4によりなされるコミュニケーションを評価し、評価結果を示す指標を生成する。指標の形式は特に限定されず、1、0の2値、あるいは多値データとしてもよいし、あるいはベクトル量としてもよい。
 フィードバック部40は、解析評価部30による評価結果Sを、複数の参加者4にフィードバックする。フィードバックには、聴覚刺激、視覚刺激、体性感覚刺激それらの組み合わせを用いることができ、特に限定されない。たとえば聴覚刺激としては、ビープ音やアラーム音、予めサンプリングされた所定の音声を用いてもよいし、スピーチシンセサイザ(音声合成)を使用して文字列を音響信号(合成音声)に変換してもよい。視覚刺激としては、LEDや照明などの発光状態(明るさ、色、点滅などのパターン)、ディスプレイ装置による画像/テキスト表示、機械的手段を用いることができる。体性感覚刺激としては、振動や加圧などの触覚刺激、風による刺激、温度による刺激などを用いることができる。フィードバックの方法、態様は、評価対象としたコミュニケーションの側面に応じて選択すればよい。
 評価対象とするコミュニケーションの側面およびフィードバックの組み合わせは特に限定されないが、以下のものが例示される。
(1)参加者の参加度
 参加度は、コミュニケーションへの関与度であり、言語情報、あるいは非言語情報にもとづいて解析することができる。
 最も簡易には、マイク10により取得される音声データSを用い、参加者ごとの発言の頻度あるいは回数を測定し、測定結果を定量化してもよい。より高度には、発言の内容を解析し、言語情報(意味内容)にもとづいて、有意義な発言、会議と関係の無い発言や私語を区別することは、参加度の生成に有意義である。
 参加度は、非言語情報を利用して解析することも可能である。非言語情報としては具体的に、相づち、まばたき、視線の滞留時間、身振り、手振り、首振り、体幹の揺れ、視線の動き、などが例示される。これらは、参加者4の外部から視覚的に把握できるものであり、カメラ20により取得される画像データSを解析すればよい。居眠りや内職などは、視覚的に把握できる具体例である。
 当業者によれば、事前の実験、検証から得られた経験則、学習にもとづいて、いずれの非言語情報に参加者のどのような心的状態が反映されるかを把握することができることが理解され、したがって、言語情報、非言語情報から、参加度を表す指標を生成可能であることが理解される。
 さらに別の非言語情報としては、会話のターンテーキング、ため息、声の調子などを用いることができる。
 参加度を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、参加度が低い参加者に向けて、参加や発言を促す所定のビープ音を発声してもよい。あるいは参加者ごとにランプなどのインジケータを割り当てて設けておき、参加度が低い(あるいは反対に、参加度が高い)参加者に対応付けられるインジケータを点灯させてもよい。
 参加者ごとの参加度が数値化されている場合、各参加者が、自身の(さらには他の参加者の)参加度の値を把握できる態様で表示してもよい。たとえば参加度の値に応じて明るさや色を変化させてもよい。
 居眠りや内職の疑いがある参加者については、音声やインジケータを利用して刺激を与え、その旨を警告してもよい。
 会議をはじめとする多くのコミュニケーションでは、発言が一部の参加者に集中したりすることは良く起こる。従来においては、全員が参加するように配慮し、時には参加者に発言を促したりする役割が、司会進行役に委ねられる場合が多い。しかしながら司会進行役にそのような役割を担わせることは、本来の司会進行業務の妨げになるおそれもある。また、各参加者がコミュニケーションに関与しているか否かの判断が司会進行役の主観に委ねられることとなる。
 実施の形態に係るコミュニケーション解析装置2では、参加度を評価し、その結果を参加者にフィードバックするため、このような問題を解決できる。
 また従来では、積極的にコミュニケーションに関与していない参加者が、司会進行役の上司や年上である場合、そのことが、参加を促す行動を躊躇させるかもしれないし、また部下や年下に参加を促された上司や年上は気分を害すかもしれない。つまり人間関係がコミュニケーションの質の改善を阻害する。
 実施の形態に係るコミュニケーション解析装置2では、装置(機械)によって参加が促されることになるため、そこに人間関係は介在しない。参加を促された人間も、人間よりも客観的な機械によって参加を促された方が、納得しやすい。この観点においても、コミュニケーション解析装置2は有利である。
(2)参加者の心的状態
 ここでいう心的状態とは、共感、信頼感、一体感、居場所感、ライブ感、合意や同意、納得感、関心の高さなどの、個人の間の心的状態の指標であり、参加度よりもさらに高度な指標である。これらについては本出願人が既出願した国際特許出願(PCT/JP2013/007352)に記載の技術を用いて定量化することができる。具体的には、言語情報あるいは非言語情報から、心的状態を表す指標を生成することができる。
 たとえば、ある参加者の発言に対する関心度、同意度、共感度などは、相槌や頷きなどの動作から検出してもよく、音声データSや画像データSを利用して解析できる。
 一例として、発言者(話し手)と他の参加者(聞き手)の動きの同期の程度(シンクロ度)にもとづいて、共感度、関心度や同意度を数値化することができる。たとえば、発言者と他の参加者の頷き、身振り、手振り、姿勢、表情の同期の程度にもとづいて関心度、同意度、共感度を数値化してもよい。
 話し手と聞き手がいる場合に、両者の頷きを測定すると、共感的な状態では聞き手の方が話し手よりも少し先(数百ms)に頷く傾向があり、非共感的な状態では、聞き手が話し手に遅れて頷く傾向がある。したがって、一例として、頷きのタイミング(位相)の関係にもとづいて、共感度を検出できる。
 また対面コミュニケーションの2名の参加者の視線に着目すると、共感的でない状態と共感的な状態とでは、双方の視線運動に有意な差異が生ずることという知見が得られた(図9)。したがって、一実施例において、各参加者の視線運動にもとづいて、共感度を検出できる。
 心的状態を評価した場合、フィードバックとしては、以下のものが挙げられる。たとえば、発言者に対して、複数の参加者の心的状態の指標(関心度、同意度など)の数値を提示してもよい。発言者には、全員の平均値を提示してもよい。あるいは各個人の数値を、参加者と紐付けた形で提示してもよい。
 これにより、発言者は、提示された数値にもとづいて、参加者の関心度や共感度等を知ることができ、今後の発言やプレゼンテーションに反映させることができ、コミュニケーションの質の改善が図られる。
 フィードバックの態様は、数値の提示には限定されない。たとえばフィードバックには、視覚的な刺激を用いてもよい。視覚的な刺激は、共感度を色の種類や色の濃さで表したものでもよいし、光の点灯状態の変化(点灯、消灯、点滅の周期)で表してもよい。
 またフィードバックには、聴覚的な刺激を用いてもよい。聴覚的な刺激は、共感度を、音の高さや音の大きさで表したものでもよいし、周期的な音のリズムで表してもよい。あるいは共感度が高い状態では心地よい音楽や音を流し、共感度が低い状態では不快な音楽や音を流してもよい。
 またフィードバックには体性感覚的な刺激を用いてもよい。体性感覚的な刺激は、共感度を、振動の大きさあるいは強さで表したものであってもよいし、周期的な振動のリズムで表してもよい。
 フィードバック部40は、参加者のこれまでの心的状態等を、フィードバックするために設けられるが、このフィードバック部40を、参加者の将来の共感状態の改善に利用することができる。たとえば、複数の参加者の間で、身体運動を同調させると、共感度が改善することが分かっている。そこで、フィードバック部40は、視覚的な刺激、聴覚的な刺激、体性感覚的な刺激のいずれかあるいはそれらの組み合わせによって、複数の参加者にリズムを提供してもよい。これにより、複数の参加者の同調状態を高めることができ、ひいては共感状態を高めることができる。
 ここで提供するリズムは、複数の参加者から抽出され、それらの多数の間で共有されるリズムとすることが望ましい。このリズムは、コミュニケーションの場において顕在化していることは希であり、人間がそれを知覚することは難しいが、コミュニケーション解析装置2によってそのようなリズムを抽出し、それを視覚的な刺激、聴覚的な刺激、体性感覚的な刺激として、明示的にあるいは強調して、参加者に提示することで、そのリズムを共有していない他の参加者が、提示されたリズムに同調し、ひいては同調状態を高めることが可能となる。
 一実施例において「複数の参加者に共有されるリズム」とは、複数の参加者が単に物理的に同調しているリズムであってもよい。別の実施例において、「複数の参加者に共有されるリズム」とは、単に複数の参加者が物理的に同調していることに留まらず、それに同調する参加者の心的状態が肯定的であるようなリズムをいう。
 多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、1対1の同調度を評価してもよい。この評価により、同調度のマトリクスを生成することができる。そしてこのマトリクスから、高い同調度で結びつく複数の参加者のクラスター(グループ)を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。
 あるいは多くの参加者が存在するコミュニケーションの場においては、参加者すべての組み合わせについて、1対1の心的状態(共感度、一体感、合意度のいずれか、あるいはその組み合わせ)を評価してもよい。この評価により、心的状態のマトリクスを生成することができる。そして、このマトリクスから、肯定的な心的状態で結びつく複数の参加者のクラスター(グループ)を推定することができる。この場合において、このクラスターに含まれる参加者が同調する共通のリズムを抽出し、そのリズムを、このクラスターに含まれない参加者に提示してもよい。
 解析評価部30は、参加者の喜怒哀楽などの情動を解析し、評価してもよい。
 コミュニケーション解析装置2は、複数の項目を評価してもよい。また、項目ごとにフィードバックを行ってもよい。
 以上がコミュニケーション解析装置2の基本構成である。
 本発明は、図1のブロック図として把握され、あるいは上述の説明から導かれるさまざまな装置、回路に及ぶものであり、特定の構成に限定されるものではない。以下、本発明の範囲を狭めるためではなく、発明の本質や回路動作の理解を助け、またそれらを明確化するために、より具体的な構成例や実施例を説明する。
 図2は、コミュニケーション解析装置2を構成する測定・フィードバック装置100を示す図である。測定・フィードバック装置100は、図1のマイク10、カメラ20、フィードバック部40に加えて、インタフェースユニット50、信号処理部60をひとつの筐体にパッケージ化したデバイス(モジュール)である。測定・フィードバック装置100はテーブルトップサイズであり、会議などのコミュニケーションに参加する複数の参加者の中央に置かれる。
 測定・フィードバック装置100は、ドーム状の透明部分102を有する筐体104と、筐体104の下部に設けられたベース106を備える。ドーム状の部分102の内側には、カメラ20が設けられる。カメラ20は、全方位(全天球)カメラであり、測定・フィードバック装置100を取り囲むすべての参加者の画像を撮影する。
 また筐体104には、放射状に配置された複数のマイク10が設けられており、複数の参加者の発話を電気信号に変換する。
 信号処理部60はたとえばマイコンやCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などであり、測定・フィードバック装置100を統合的に制御する。たとえば信号処理部60は、マイク10が取得したオーディオ信号をデジタル信号に変換し、必要に応じて圧縮する。また信号処理部60は、カメラ20が取得した画像データを必要に応じて圧縮する。
 インタフェースユニット50は、有線あるいは無線で外部のコンピュータ200と接続されている。コンピュータ200は、図1の解析評価部30に対応しており、デスクトップあるいはラップトップコンピュータであってもよいし、ネットワークサーバーやクラウドコンピュータであってもよい。
 インタフェースユニット50は、ブルートゥース(登録商標)モジュールやWLANモジュール、USBモジュールであってもよい。インタフェースユニット50は、外部のコンピュータ200に音声データSおよび画像データSを送信する。
 測定・フィードバック装置100には、図1のフィードバック部40として、ひとつまたは複数のスピーカ42と、ひとつまたは複数のインジケータランプ44が設けられる。またフィードバック部40は、振動モータなどの振動発生装置を備えてもよい。
 インタフェースユニット50は、コンピュータ200からコミュニケーションの評価結果にもとづくフィードバックデータSを受信する。信号処理部60は、フィードバックデータSにもとづいて、スピーカ42を駆動、制御し、フィードバックデータSに応じたビープ音や音声を出力させる。また信号処理部60は、フィードバックデータSにもとづいて、インジケータランプ44を駆動、制御する。
 好ましくは測定・フィードバック装置100にはさらに、測定・フィードバック装置100と各参加者との距離を測定する測距センサ70が設けられる。測距センサ70は、光学式(レーザ式)、超音波式などを用いることができる。測定された参加者と測定・フィードバック装置100との間の距離情報Sは、画像データSとともにインタフェースユニット50からコンピュータ200に送信される。後述するように距離情報Sは、全方位カメラによって取得された画像の歪みを補正するために使用される。
 図1に示したコミュニケーション解析装置2の構成要素の内、解析評価部30以外の部分を、ひとつの測定・フィードバック装置100にパッケージ化あるいはモジュール化することにより、測定・フィードバック装置100の可搬性、設置性が大幅に高まる。カメラ(あるいはマイク)を会議室に設備として固定的に設置すると、その会議室が使えない場合に、コミュニケーション解析装置2を利用できなくなる。測定・フィードバック装置100を利用すれば、場所的制約、時間的制約が大幅に緩和されるため、コミュニケーション解析装置2の使用機会を増やすことができる。
 図3は、コミュニケーション解析装置2の具体的な機能ブロック図である。太枠は、ハードウェアに対応し、細枠は解析評価部30に実装されるソフトウェアによる処理ブロックを示す。
 歪み補正部400は、各参加者の画像データを抽出し、測距センサ70が測定した各参加者までの距離情報にもとづいて、各参加者の画像データの歪みを補正する。歪みの補正された画像データは、後段の処理手段に提供される。
 表情認識部402は、各参加者の表情を認識する。顔認証部404は、各参加者の画像データから、個人を特定する。
 信号源分離部300は、複数のマイク10からの音声信号にブラインド音源分離を適用して各々の発話音声を抽出する。声紋認識部302は、マイクからの音声信号を、予め取得された各参加者の声紋と照合(パターンマッチング)し、参加者を識別する。
 音声認識部304は、音声から発話内容をテキスト情報等に変換する。
 参加者識別部500は、顔認証部404による認証結果、声紋認識部302による識別結果、口唇の動き、発話者の位置推定結果から発話者を同定する。
 情動推定部502は、表情認識部402が認識した表情および音声認識部304による認識結果にもとづいて、各参加者の情動を推定する。
 骨格モデル推定部504は、骨格モデルにもとづいて、参加者の姿勢やしぐさを推定する。視線推定部506は、参加者がどの方向に視線を向けているかを推定する。
 コミュニケーション評価部508は、音声認識部304からの発話内容、情動推定部502からの情動情報、骨格モデル推定部504からの骨格情報(動き)、視線推定部506からの視線情報のいずれか、あるいは複数の組み合わせにもとづいて、コミュニケーションの評価指標(たとえば上述の参加度、関心度、心的状態)などを評価する。評価結果はフィードバック部40に出力される。
 議事録生成部510は、音声認識部304からのテキスト情報と、参加者識別部500が特定した参加者とに基づいて、どの参加者がいつ何を発言したかを記録した議事録を生成する。この議事録には、各発言や会話と対応付けて、時々刻々と変化するコミュニケーション評価部508による評価結果を記録することが望ましい。これにより、後から議事録を読み直す際に、どのような議題や発言に、各参加者の関心や注意が集まっていたのかを知ることができ、次のコミュニケーションの場に反映させることができる。
 以上、本発明について、実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、こうした変形例について説明する。
(変形例1)
 実施の形態では、全方位型の単一のカメラで複数の参加者の映像を取得したがその限りではなく、複数のカメラを用いてもよい。この場合、測定・フィードバック装置100には放射状に配置された複数のカメラが設けられ、カメラが取得した画像の歪みが小さい場合、測距センサは省略してもよい。
(変形例2)
 図2に示した測定・フィードバック装置100の構成は一例であり、それに限定されない。たとえば複数のマイク10、複数の測距センサ70、複数のスピーカ42や複数のインジケータランプ44の配置は限定されない。また複数のマイク10に換えて、ひとつあるいは複数の可変指向性のマイクを用いてもよい。
(変形例3)
 フィードバック部40は、個々の参加者に取り付け可能なウェアラブルデバイスであってもよい。この場合、他の参加者に気づかれないように、特定の参加者にフィードバックを与えることができる。たとえば参加者に取り付け可能なデバイスとしては、振動によるフィードバックを与えるバイブレータや、音声によるフィードバックを与えるイヤホン、映像によるフィードバックを与えるヘッドマウントディスプレイなどが例示される。
(変形例4)
 また、コミュニケーション解析装置2のマイク10、カメラ20、フィードバック部40は、ひとつの測定・フィードバック装置100にモジュール化することが望ましいがその限りではない。たとえばフィードバック部40として、ウェアラブルデバイスを用いる場合、マイク10とカメラ20のみを測定・フィードバック装置100に実装してもよい。
(変形例5)
 またフィードバック部40にウェアラブルデバイスを用いる場合、マイク10をウェアラブルデバイスと一体化してもよい。この場合、音声の分離が容易となり、声紋判定も不要となる。
(変形例6)
 図4は、フィードバック部40の別の一例を示す図である。フィードバック部40は、ヒューマノイドロボットであり、身振りや手振りが可能に構成されている。ヒューマノイドロボットは、頷き運動(矢印i)や腕振り運動(矢印ii)が可能であってもよく、頷きや腕振り運動によって、参加者にリズムを提示してもよい。ヒューマノイドロボットが提示するリズムに参加者が同調することにより、共感度を改善することができる。ヒューマノイドロボットの頭部に、全方位カメラ20を搭載してもよい。また、図2に示したインジケータランプ44やスピーカ42も適切な箇所に設けられる。
 さらにヒューマノイドロボットは、体もしくは顔の向きを変化させることができ(矢印iii)、発話者の方向に向くように制御されてもよい。また、ある参加者に警告を与える場合、その参加者の方を向くように制御されてもよい。
 フィードバック部40を人型とすることで、図2のような無機的な外観とした場合よりも、よりコミュニケーションの質を高められることが期待される。
 フィードバック部40を自走可能とし、共感度が低い参加者の前にフィードバック部40を移動させ、その参加者にリズム等を提示するとよい。
(変形例7)
 複数の参加者の身体運動は、以下のように取得してもよい。カメラ20によって撮像した画像フレームを、参加者4ごとの分割フレームに切り分ける。図5は、360度カメラによって撮影した1フレームの画像データを示す図である。分割フレームには、参加者4の頭から胸部が含まれることが望ましい。そして分割フレームの輝度値を積算し、得られる積算値の時間波形を取得する。時間波形は必要に応じてローパスフィルタによるフィルタリング処理を行うことが好ましい。カットオフ周波数は4Hz程度としてもよい。
 図6(a)は、2人の被験者について行った予備実験の結果を示す図である。図6(a)には、異なる条件で測定された、対応する2つの分割フレームの輝度積算値の時間波形が示される。被験者2名にはそれぞれ役割Aと役割Bが割り振られ対面し、360度カメラを用いて意図的な身体運動を3つの条件毎に計測する。役割Aは全ての計測において、1分間に40回の間隔で100回うなずく。役割Bは
 条件1:役割Aと全て同じタイミングでうなずく。
 条件2:役割Aのうなずきと同じタイミングで、2回に1回うなずく。
 条件3:一度もうなずかない。
という条件に従う。
 図6(b)は、条件1~3ごとに、役割Aと役割Bの輝度変化量の相関係数をFisherのZ変換を用い、さらにバートレット補正をかけることで得られたZ値を示す。図6から、意図的にうなずいたときの動作が、輝度変化量の波形として現れている。このことから、360度カメラによる計測と提案手法による解析で、身体運動は十分に評価することができるということを示している。
(行動実験について)
 行動実験では、被験者AとサクラB(あるいはC)が机を挟んで向いあって座り、お互いの顔を見ながら自身の顔の前で手を叩く。実験条件、同期条件と非同期条件の2つあり、それぞれ、「AとB」のペア、「AとC」のペアで行われる。
 同期条件では、被験者AはサクラBの顔を見ながら顔の前で手を1秒間に1回程度の頻度で叩く。この際、サクラBは被験者Aに合わせて手を叩く。非同期条件では、被験者AはサクラCの顔を見ながら顔の前で手を1秒間に1回程度の頻度で叩く。この際、サクラCは被験者に合わせないで手を叩く。
 実験後、被験者Aに質問紙を配布し、サクラBとCに対する印象を回答させ、AがBに対しては好感を持ち、C対しては嫌悪感を抱いているかどうかを確認した。図7(a)、(b)は、同期条件、非同期条件における結果を示す図である。
 図7(a)に示すように同期条件では印象が改善する傾向が見られ、図7(b)に示すように、非同期条件では印象に影響を与えない傾向が見られた。
 この行動実験は、上述したフィードバック部40によるリズムの提示が、その提示を受けた参加者がそのリズムに同調し、その結果、当該参加者の共感度を高めたりしうることを裏付けるものである。
 <頷きについての実験>
 頷きと共感度の関係について発明者らが行った実験について説明する。図8(a)~(c)は、対面コミュニケーションにおける、共感度と身体運動の関係を示す図である。身体運動は、加速度センサによって測定したものである。図8(a)は共感的でない状態を、図8(b)は共感的な状態を示す。図8(a)~(c)に示す身体運動には、頷き運動の他、笑いなどが含まれるが、それらは振動数にもとづいて区別することができる。この例では、1~4Hzの成分は頷き、4Hz以上の成分は笑いを表している。
 縦軸は2人の身体運動の位相差を表しており、負の位相は、話し手の位相が進んだ状態を、正の位相は、聞き手の位相が進んだ状態を意味する。横軸には頷き運動の振動数をとっている。図8(c)は、図8(a)と図8(b)の差分をプロットしたものである。図8(c)において、頷き運動を表す2~4Hzに着目すると、位相が正の領域の領域において差分が大きくなっている。すなわち、2人が共感的な状態となると、2人の頷き運動が同調し、さらに聞き手の方の位相が、話しての位相よりも進むことが分かる。
 この知見にもとづいて、2人の、あるいはより多くの対面コミュニケーションにおける共感状態を、身体運動(それに含まれる頷き運動)にもとづいて評価し、数値化し、あるいは可視化することができる。
 <視線についての実験>
 視線と共感度の関係について発明者らが行った実験について説明する。図9(a)、(b)は、対面コミュニケーションにおける、共感度と視線運動の関係を示す図である。図9(a)は、共感的でない状態と共感的な状態における相互凝視の発生を示す波形図である。図9(b)は、共感的でない状態と共感的な状態における相互凝視の割合を示す。この実験から、共感状態と相互凝視が相関を有することが示唆される。この知見にもとづいて、2人の、あるいはより多くの対面コミュニケーションにおける共感状態を、視線運動にもとづいて評価し、数値化し、あるいは可視化することができる。
 <ロボットを用いた共感度の改善の実験>
 図10は、ロボットを用いた実験の様子を示す図である。被験者とロボットが対面し、被験者はロボットに対して話しかける。ロボットは、(i)全く動かない状態(応答なしモード)と、(ii)被験者に同調して動く(頷く)状態(相互作用モード)が切替可能である。2つの状態は各5分であり、それらの間には5分のインターバルを挟んだ。この実験は日本語を母国語とする5人の参加者を被験者として行った。ロボットの運動は、被験者の運動に同調するように、周波数と位相がフィードバックにより制御される。
 図11(a)、(b)は、図10の実験結果を示す図である。図11(a)はアンケートの集計結果を示す。5人の参加者に、自然さ(Naturalness)と合意形成(Consensus Building)の2項目について回答を得た。自然さに関して、相互作用モードでは、3名の参加者が、「いくぶん自然(Somewhat Nuaural)」と回答し、2名の参加者が、「いくぶん不自然(Somewhat Unnuaural)」と回答した。応答なしモードでは、2名の参加者が、「いくぶん不自然(Somewhat Unnuaural)」と回答し、3名の回答者が「不自然(Unnuaural)」と回答した。合意形成に関して、相互作用モードでは、3名の参加者が、「いくぶん合意的(Somewhat Consensual)」と回答し、2名の参加者が、「いくぶん非合意的(Somewhat Not Consensual)」と回答した。応答なしモードでは、1名の参加者が、「いくぶん非合意的」と回答し、3名の回答者が「非合意的」と回答した。
 図11(b)は、2つのモードで、Naturalnessと合意形成の2項目それぞれについて重み付け平均値をスコアリングしたものである。「自然」、「いくぶん自然」、「いくぶん不自然」、「不自然」の重み付けの係数は、順に4,3,2,1である。同様に「合意的」、「いくぶん合意的」、「いくぶん非合意的」、「非合意的」の重み付け係数は順に4,3,2,1である。ロボットからの反応が返ってくる相互作用モードでは、応答なしモードに比べて、高いスコアが得られている。この実験から、対面コミュニケーションの場に、ヒューマノイドロボットを導入することにより、参加者の共感度の改善に役立つことがわかる。
(補遺)
 コミュニケーションは人々が社会生活を営む上で必須な要素の一つである。近年、ウェアラブルデバイス製造技術や人工知能技術、IoT技術等の進展により、人間のコミュニケーションに対する支援技術への関心が高まりつつある[1,2,3]。
 人間のコミュニケーションは大きく分けて二つのチャネルを用いて行われることが知られている。それは顕在的なチャネルと潜在的なチャネルである[4]。顕在的なチャネルを介したコミュニケーションは主として言語であり、その特徴については多方面から研究されている。例えば、脳の作動記憶のモデルを利用すると言語的複雑さによって文章理解に制限が生じること[5]、言語的特徴から感情の推定を行う方法が提案されていること[6]等である。
 一方、潜在的なチャネルを介したコミュニケーションは顕在的なチャネルを介したコミュニケーションの基盤となるものである。例えば姿勢、頷き、顔の表情、視線、周辺言語、相手との物理的な距離のとり方、人工物などが挙げられる[7]。これらの非言語的な行動は、人間同士の対面コミュニケーションでは65%ほど寄与するとも言われている[8]。非言語的行動は無意識に現れ、感情や情動といった内的状態と関係があると言われている[9,10]。例えば、恐怖感と周辺言語、脳の左前頭野との関連性[11]や、痛覚の共感能力と脳活動との関連性が報告されている [12]。
 非言語コミュニケーションの特徴として、人間同士の様々な社会的コミュニケーションの際に、身体動作や周辺言語が同調するという現象が報告されている。例えば、母親と幼児[13,14]、内科医と患者[15]、教師と生徒[16,17]、心理カウンセラーとクライアント[18]などである。
 このような同調現象は、心理作用にも関連性がある事が近年示唆されている。例えば、身体同調と心理カウンセリングの満足度に関する報告や[19,20]、経済ゲームの参加者同士の協調性と共感に関する脳の反応に関する報告[21]、チーム内の雰囲気や協調性が生産性へ関連するという報告[22]がある。
 一方で、同調現象の脳神経科学的裏付けも明らかとなりつつある。例えば、対面コミュニケーション中の参与者の脳活動が同調すること[23]や、身体運動の同調と脳活動の同調の関連性が報告されている[24]。このように、様々な社会的文脈や環境で言語・非言語コミュニケーションが交わされる中では、コミュニケーション参与者の状況や意図、伝達内容がお互いに理解され、共感しあうことと、同調現象が生じることには、なにがしかの関係性が存在すると推察される。
 その中で、通信デバイスを用いた遠隔コミュニケーションでは身体同調の仕方が対面コミュニケーションの時と変化することや[25]、身体同調の種類とタイミングの研究[26]、映像解析を用いて被験者の運動エネルギーを解析する事で身体同調の程度を探ろうとする研究[27]など、より多面的な身体同調現象の観測が少しずつ進んできている。
[文献リスト]
1. the World Economic Forum's Meta-Council on Emerging Technologies, "Top 10 Emerging Technologies of 2016", World Economic Forum, 2016; 13 p.
2. D. Lazer, Alex (Sandy) Pentland, "Life in the network: the coming age of computational social" Science 2009; 323(5915):721-723.
3. A. Barrat, C. Cattuto, "Measuring contact patterns with wearable sensors: methods, data characteristics and applications to data-driven simulations of infectious diseases", Clinical Microbiology and Infection, 2014: 20: 10-16.
4. Tickle-Degnen L, Rosenthal R, "The nature of rapport and its nonverbal correlates" Psychol Inq. 1990;1: 285-293.
5. R. L. Lewis, S. Vasishth, "Computational principles of working memory in sentence comprehension, "Trends in Cognitive Sciences, 2006; 10(10): 447-454.
6. S. Wu, T. H. Falk "Automatic speech emotion recognition using modulation spectral features", Speech Communication, 2011; 53: 768-785.
7. M. Vargus, "Louder than Words - An Introduction to Nonverbal Communication-", Iowa state University Press, 1987; 32 p.
8. R.L. Birdwhistell, "Kinesics and context: Essays on body motion communication", University of Pennsylvania Press 1970; 86-87 p.
9. V.P. Richmond et al., "Nonverbal Behavior in Interpersonal Relations", Allyn and Bacon, Boston: Pearson Education, 2008; 366 p. 
10. J.L. Lakin, "Automatic Cognitive Progress and Nonverbal Communication", The SAGE Handbook of Nonverbal Communication, 2006, 59-77.
11. J.S. Morris, S.K. Scott, R.J. Dolan "Saying it with feeling: neural responses to emotional vocalizations", Neuro psychologia 1999; 37, 1155-1163.
12. P. L. Jackson, A. N. Meltzoff, J. Decety "How do we perceive the pain of others? A window into the neural processes involved in empathy", NeuroImage, 2005, 24,771-779.
13. Meltzoff, Moore MK., "Newborn infants imitate adult facial gestures", Child Dev. 1983; 54: 702-709.
14. Bernieri FJ, Reznick S, Rosenthal R. "Synchrony, pseudosynchrony, and dissynchrony: measuring the entrain ment process in mother-infant interaction", Journal of Personality and Social Psychology, 1988; 54: 243-253.
15. Koss T, Rosenthal R, "Interactional synchrony, positivity and patient satisfaction in the physician-patient relationship", Med Care, 1997; 35: 1158-1163.
16. Bernieri FJ, "Coorinated movement and rapport in teacher-student interactions", J Nonverbal Behav, 1988; 12: 120-138.
17. Lafrance M, Broadbent M. "Group Rapport: posture sharing as a nonverbal indicator", Group Organization Studies, 1988; 1: 328-333.
18. Ramseyer F, Tschacher W., "Synchrony: a core concept for a constructivist approach to psychotherapy. Constructivism in the Human Sciences", Constructivism in the Human Sciences, 2006; 11: 150-171. 
19. Ramsyer F, Tschacher W., "Nonverbal synchrony of head- and body-movement in psychotherapy: different signals have different associations with outcome" Front Psychol , 2014; 5: 1-9.
20. Komori M, Nagaoka C. "The relationship between body movements of clients and counsellors in psychotherapeutic counselling: a study using the video-based quantification method", Jap J of Cog Psychol. 2010; 8: 1-9.
21. Tania Singer, "Empathic neural responses are modulated by the perceived fairness of others", Nature 2006; 439(26): 466-469.
22. Barsade, SG "The ripple effect: Emotional contagion and its influence on group behavior", Administrative Science Quality, 2002; 47: 644-675.
23. G. J. Stephen, "Speaker-listener neural coupling underlies successful communication", PNAS, 2010; 107(32): 14425-14430.
24. K. Yun, "Interpersonal body and neural synchronization as a marker of implicit social interaction", Scientific Reports 2012; 2: 959.
25. J. Kwon, "Detection of Nonverbal Synchronization through Phase Difference in Human Communication", PLos One, 2015; 10; 1371.
26. M. M. Louwerse, "Behavior Matching in Multimodal Communication Is Synchronized", Cognitive Science, 2012;36: 1404-1426.
27. Y. Hart, "Automated Video Analysis of Non-Verbal Communication in a Medical Setting", frontiers in Psychology, 2016;7: 1130.
 実施の形態にもとづき、具体的な語句を用いて本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎず、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が認められる。
2…コミュニケーション解析装置、4…参加者、10…マイク、20…カメラ、30…解析評価部、40…フィードバック部、42…スピーカ、44…インジケータランプ、50…インタフェースユニット、60…信号処理部、70…測距センサ、100…測定・フィードバック装置、102…ドーム状の部分、104…筐体、106…ベース、300…信号源分離部、302…声紋認識部、304…音声認識部、400…歪み補正部、402…表情認識部、404…顔認証部、500…参加者識別部、502…情動推定部、504…骨格モデル推定部、506…視線推定部、508…コミュニケーション評価部、510…議事録生成部。
 本発明は、コミュニケーションを解析する技術に関する。

Claims (17)

  1.  複数の参加者によるコミュニケーションを解析するコミュニケーション解析装置であって、
     複数の参加者の発声を音声データとして取得するマイクと、
     複数の参加者の画像データを取得するカメラと、
     前記音声データおよび前記画像データにもとづき、コミュニケーションを評価する解析評価部と、
     前記解析評価部による評価結果またはそれにもとづくフィードバックを前記複数の参加者にリアルタイムで提供するフィードバック部と、
     を備えることを特徴とするコミュニケーション解析装置。
  2.  前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項1に記載のコミュニケーション解析装置。
  3.  前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、リズムを提示することを特徴とする請求項2に記載のコミュニケーション解析装置。
  4.  前記フィードバック部は、前記解析評価部により参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項2または3に記載のコミュニケーション解析装置。
  5.  前記フィードバック部は、前記解析評価部による心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項2または3に記載のコミュニケーション解析装置。
  6.  前記解析評価部は、前記複数の参加者間の同調状態を評価することを特徴とする請求項1から5のいずれかに記載のコミュニケーション解析装置。
  7.  前記フィードバック部は、前記解析評価部による評価結果を可視化して提示することを特徴とする請求項1から6のいずれかに記載のコミュニケーション解析装置。
  8.  前記解析評価部は、前記複数の参加者それぞれの体の動きを監視することを特徴とする請求項1から7のいずれかに記載のコミュニケーション解析装置。
  9.  前記解析評価部は、前記複数の参加者それぞれの顔の状態を監視することを特徴とする請求項1から8のいずれかに記載のコミュニケーション解析装置。
  10.  複数の参加者によるコミュニケーションの場に設置される測定・フィードバック装置であって、
     複数の参加者の発声を音声データとして取得するマイクと、
     複数の参加者の画像データを取得するカメラと、
     外部のコンピュータに前記音声データおよび前記画像データを送信するとともに、前記コンピュータからコミュニケーションの評価結果にもとづくフィードバックデータを受信するインタフェース部と、
     前記フィードバックデータにもとづく情報あるいは刺激を複数の参加者にリアルタイムで提示するフィードバック部と、
     を備えることを特徴とする測定・フィードバック装置。
  11.  前記フィードバック部は、前記複数の参加者で共有されるリズムを提示することを特徴とする請求項10に記載の測定・フィードバック装置。
  12.  前記フィードバック部はロボット型であり、頷き、身振りもしくは手振りの少なくともひとつにより、前記リズムを提示することを特徴とする請求項11に記載の測定・フィードバック装置。
  13.  前記フィードバック部は、前記コンピュータにより参加度が低いとされる参加者に対して、前記リズムを提示することを特徴とする請求項11または12に記載の測定・フィードバック装置。
  14.  前記フィードバック部は、前記コンピュータによる心的状態の評価結果にもとづいて選択される参加者に対して前記リズムを提示することを特徴とする請求項11または12に記載の測定・フィードバック装置。
  15.  前記カメラは全方位カメラであることを特徴とする請求項10から14のいずれかに記載の測定・フィードバック装置。
  16.  前記測定・フィードバック装置は、前記複数の参加者までの距離を測定する測距センサをさらに備えることを特徴とする請求項15に記載の測定・フィードバック装置。
  17.  複数の参加者によるコミュニケーションの場に設置されるインタラクション装置であって、
     複数の参加者の音声データおよび/または画像データを取得する入力装置と、
     前記入力装置が測定した音声データおよび/または画像データにもとづき、前記複数の参加者で共有されるリズムを抽出する解析評価部と、
     前記リズムを前記複数の参加者の少なくともひとりにリアルタイムで提示するフィードバック部と、
     を備えることを特徴とするインタラクション装置。
PCT/JP2018/011173 2017-03-21 2018-03-20 コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置 WO2018174088A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019507706A JP7002143B2 (ja) 2017-03-21 2018-03-20 コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置
US16/496,677 US20210110844A1 (en) 2017-03-21 2018-03-20 Communication analysis apparatus
EP18771449.8A EP3605421A4 (en) 2017-03-21 2018-03-20 COMMUNICATION ANALYSIS DEVICE, MEASUREMENT / FEEDBACK DEVICE USED FOR THIS PURPOSE AND INTERACTION DEVICE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017054727 2017-03-21
JP2017-054727 2017-03-21

Publications (1)

Publication Number Publication Date
WO2018174088A1 true WO2018174088A1 (ja) 2018-09-27

Family

ID=63585401

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/011173 WO2018174088A1 (ja) 2017-03-21 2018-03-20 コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置

Country Status (4)

Country Link
US (1) US20210110844A1 (ja)
EP (1) EP3605421A4 (ja)
JP (1) JP7002143B2 (ja)
WO (1) WO2018174088A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022004567A1 (ja) * 2020-07-02 2022-01-06
JP2022068903A (ja) * 2020-10-23 2022-05-11 本田技研工業株式会社 会議支援装置、会議支援方法および会議支援プログラム
WO2023276701A1 (ja) * 2021-06-28 2023-01-05 パナソニックIpマネジメント株式会社 話者ダイアライゼーションシステム、コミュニケーション解析システム、及び、発話量推定方法
WO2023062767A1 (ja) * 2021-10-14 2023-04-20 日本電信電話株式会社 反応提示制御装置、方法およびプログラム
EP4250700A1 (en) 2022-03-22 2023-09-27 Ricoh Company, Ltd. Information processing apparatus, information processing system, communication support system, and information processing method
WO2023189553A1 (ja) * 2022-03-31 2023-10-05 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
EP4283547A1 (en) 2022-05-27 2023-11-29 Ricoh Company, Ltd. Information processing apparatus, information processing system, support system, method for providing rythm, and carrier means

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386899B2 (en) * 2020-08-04 2022-07-12 Honeywell International Inc. System and method for providing real-time feedback of remote collaborative communication
EP3975181B1 (en) * 2020-09-29 2023-02-22 Bull Sas Assessment of the quality of a communication session over a telecommunication network
JP2023000288A (ja) * 2021-06-17 2023-01-04 キヤノン株式会社 情報処理システム、その制御方法、および、プログラム
US20230169966A1 (en) * 2021-11-30 2023-06-01 Motorola Solutions, Inc. System and method for encouraging group discussion participation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2008262046A (ja) * 2007-04-12 2008-10-30 Hitachi Ltd 会議可視化システム、会議可視化方法、及び集計処理サーバ
WO2014091766A1 (ja) * 2012-12-15 2014-06-19 国立大学法人東京工業大学 人間の心的状態の評価装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US9639770B2 (en) * 2015-03-26 2017-05-02 Konica Minolta Laboratory U.S.A., Inc. System and method for improving communication productivity

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2008262046A (ja) * 2007-04-12 2008-10-30 Hitachi Ltd 会議可視化システム、会議可視化方法、及び集計処理サーバ
WO2014091766A1 (ja) * 2012-12-15 2014-06-19 国立大学法人東京工業大学 人間の心的状態の評価装置

Non-Patent Citations (30)

* Cited by examiner, † Cited by third party
Title
"The World Economic Forum's Meta-Council on Emerging Technologies", 2016, WORLD ECONOMIC FORUM, article "Top 10 Emerging Technologies of 2016", pages: 13
A. BARRATC. CATTUTO: "Measuring contact patterns with wearable sensors: methods, data characteristics and applications to data-driven simulations of infectious diseases", CLINICAL MICROBIOLOGY AND INFECTION, vol. 20, 2014, pages 10 - 16
BARSADE, SG: "The ripple effect: Emotional contagion and its influence on group behavior", ADMINISTRATIVE SCIENCE QUALITY, vol. 47, 2002, pages 644 - 675
BERNIERI FJ: "Coorinated movement and rapport in teacher-student interactions", J NONVERBAL BEHAV, vol. 12, 1988, pages 120 - 138
BERNIERI FJREZNICK SROSENTHAL R: "Synchrony, pseudosynchrony, and dissyn-chrony: measuring the entrain ment process in mother-infant interaction", JOURNAL OF PERSONALITY AND SOCIAL PSYCHOLOGY, vol. 54, 1988, pages 243 - 253
D. LAZERALEX (SANDY) PENTLAND: "Life in the network: the coming age of computational social", SCIENCE, vol. 323, no. 5915, 2009, pages 721 - 723
G. J. STEPHEN: "Speaker-listener neural coupling underlies successful communication", PNAS, vol. 107, no. 32, 2010, pages 14425 - 14430
J. KWON: "Detection of Nonverbal Synchronization through Phase Difference in Human Communication", PLOS ONE, vol. 10, 2015, pages 1371
J.L. LAKIN: "The SAGE Handbook of Nonverbal Communication", 2006, article "Automatic Cognitive Progress and Nonverbal Communication", pages: 59 - 77
J.S. MORRISS.K. SCOTTR.J. DOLAN: "Saying it with feeling: neural responses to emotional vocalizations", NEURO PSYCHOLOGIA, vol. 37, 1999, pages 1155 - 1163
K. YUN: "Interpersonal body and neural synchronization as a marker of implicit social interaction", SCIENTIFIC REPORTS, vol. 2, 2012, pages 959
KIHARA, HAYATO: "Analysis of Human Nodding Behavior for Designing Nodding Robots", HUMAN INTERFACE: PROCEEDINGS OF THE HUMAN INTERFACE SYMPOSIUM 2016, 6 September 2016 (2016-09-06), pages 251 - 254, XP009516770, ISSN: 1345-0794 *
KOMORI MNAGAOKA C: "The relationship between body movements of clients and counsellors in psychotherapeutic counselling: a study using the video-based quantification method", JAP J OF COG PSYCHOL., vol. 8, 2010, pages 1 - 9
KOSS TROSENTHAL R: "Interactional synchrony, positivity and patient satisfaction in the physician-patient relationship", MED CARE, vol. 35, 1997, pages 1158 - 1163
LAFRANCE MBROADBENT M: "Group Rapport: posture sharing as a nonverbal indicator", GROUP ORGANIZATION STUDIES, vol. 1, 1988, pages 328 - 333
M. M. LOUWERSE: "Behavior Matching in Multimodal Communication Is Synchronized", COGNITIVE SCIENCE, vol. 36, 2012, pages 1404 - 1426
M. VARGUS: "Louder than Words - An Introduction to Nonverbal Communication", 1987, IOWA STATE UNIVERSITY PRESS, pages: 32
MELTZOFF, MOORE MK.: "Newborn infants imitate adult facial gestures", CHILD DEV., vol. 54, 1983, pages 702 - 709
P. L. JACKSONA. N. MELTZOFFJ. DECETY: "How do we perceive the pain of others? A window into the neural processes involved in empathy", NEUROLMAGE, vol. 24, 2005, pages 771 - 779, XP004709229, doi:10.1016/j.neuroimage.2004.09.006
PRIMA, O.D.A.: "SIG-SLUD-69-B302 Automated behavior analysis software during conversation", SPECIAL INTEREST GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE , vol. 69, 16 December 2013 (2013-12-16), pages 61 - 66, XP009516790, ISSN: 0918-5682 *
R. L. LEWISS. VASISHTH: "Computational principles of working memory in sentence comprehension", TRENDS IN COGNITIVE SCIENCES, vol. 10, no. 10, 2006, pages 447 - 454
R.L. BIRDWHISTELL: "Kinesics and context: Essays on body motion communication", 1970, UNIVERSITY OF PENNSYLVANIA PRESS, pages: 86 - 87
RAMSEYER FTSCHACHER W.: "Synchrony: a core concept for a constructivist approach to psychotherapy. Constructivism in the Human Sciences", CONSTRUCTIVISM IN THE HUMAN SCIENCES, vol. 11, 2006, pages 150 - 171
RAMSYER FTSCHACHER W.: "Nonverbal synchrony of head- and body-movement in psychotherapy: different signals have different associations with outcome", FRONT PSYCHOL, vol. 5, 2014, pages 1 - 9
S. WUT. H. FALK: "Automatic speech emotion recognition using modulation spectral features", SPEECH COMMUNICATION, vol. 53, 2011, pages 768 - 785
See also references of EP3605421A4
TANIA SINGER: "Empathic neural responses are modulated by the perceived fairness of others", NATURE, vol. 439, no. 26, 2006, pages 466 - 469
TICKLE-DEGNEN LROSENTHAL R: "The nature of rapport and its nonverbal correlates", PSYCHOL INQ., vol. 1, 1990, pages 285 - 293
V.P. RICHMOND ET AL.: "Nonverbal Behavior in Interpersonal Relations", 2008, ALLYN AND BACON, pages: 366
Y. HART: "Automated Video Analysis of Non-Verbal Communication in a Medical Setting", FRONTIERS IN PSYCHOLOGY, vol. 7, 2016, pages 1130

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022004567A1 (ja) * 2020-07-02 2022-01-06
WO2022004567A1 (ja) * 2020-07-02 2022-01-06 パナソニックIpマネジメント株式会社 コミュニケーション解析システム、及び、コミュニケーション解析方法
JP7369942B2 (ja) 2020-07-02 2023-10-27 パナソニックIpマネジメント株式会社 コミュニケーション解析システム、及び、コミュニケーション解析方法
JP2022068903A (ja) * 2020-10-23 2022-05-11 本田技研工業株式会社 会議支援装置、会議支援方法および会議支援プログラム
JP7213857B2 (ja) 2020-10-23 2023-01-27 本田技研工業株式会社 会議支援装置、会議支援方法および会議支援プログラム
WO2023276701A1 (ja) * 2021-06-28 2023-01-05 パナソニックIpマネジメント株式会社 話者ダイアライゼーションシステム、コミュニケーション解析システム、及び、発話量推定方法
WO2023062767A1 (ja) * 2021-10-14 2023-04-20 日本電信電話株式会社 反応提示制御装置、方法およびプログラム
EP4250700A1 (en) 2022-03-22 2023-09-27 Ricoh Company, Ltd. Information processing apparatus, information processing system, communication support system, and information processing method
WO2023189553A1 (ja) * 2022-03-31 2023-10-05 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
EP4283547A1 (en) 2022-05-27 2023-11-29 Ricoh Company, Ltd. Information processing apparatus, information processing system, support system, method for providing rythm, and carrier means
US20230388140A1 (en) * 2022-05-27 2023-11-30 Ricoh Company, Ltd. Information processing apparatus, information processing system, method for providing rhythm, and non-transitory recording medium

Also Published As

Publication number Publication date
JPWO2018174088A1 (ja) 2020-01-23
EP3605421A4 (en) 2020-08-19
EP3605421A1 (en) 2020-02-05
JP7002143B2 (ja) 2022-01-20
US20210110844A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
JP7002143B2 (ja) コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置
US11890748B2 (en) Socially assistive robot
Benssassi et al. Wearable assistive technologies for autism: opportunities and challenges
US20160042648A1 (en) Emotion feedback based training and personalization system for aiding user performance in interactive presentations
Tsiourti et al. A virtual assistive companion for older adults: design implications for a real-world application
Semertzidis et al. Neo-noumena: Augmenting emotion communication
Broz et al. Mutual gaze, personality, and familiarity: Dual eye-tracking during conversation
Emmorey et al. Visual feedback and self-monitoring of sign language
JP2016126500A (ja) ウェアラブル端末装置およびプログラム
WO2020148920A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Valente et al. Empathic aurea: Exploring the effects of an augmented reality cue for emotional sharing across three face-to-face tasks
Mishra et al. Nadine robot in elderly care simulation recreational activity: using computer vision and observations for analysis
KR102122021B1 (ko) 가상현실을 이용한 인지 개선 장치 및 방법
Valzolgher et al. Reaching to sounds in virtual reality: A multisensory-motor approach to re-learn sound localisation
Tajadura-Jiménez Embodied psychoacoustics: Spatial and multisensory determinants of auditory-induced emotion
Klamroth-Marganska et al. Telerehabilitation technology
Hansen et al. Active listening and expressive communication for children with hearing loss using getatable environments for creativity
Artiran et al. Analysis of Gaze, Head Orientation and Joint Attention in Autism with Triadic VR Interviews
Cozma Using a NAO robot during speech audiometry for hearing-impaired children: developing a video protocol to detect non-verbal cues during child-robot interactions
Solano Bridging communication deficits in preschool children diagnosed with autism spectrum disorder, a review of literature in technology aided instruction and intervention
US20230388140A1 (en) Information processing apparatus, information processing system, method for providing rhythm, and non-transitory recording medium
JP2023174524A (ja) 情報処理装置、情報処理システム、支援システム、方法、及びプログラム
Hassib Designing communication technologies based on physiological sensing
Kashino et al. Critical roles of implicit interpersonal information in communication
Rutkowski Student teaching and research laboratory focusing on brain-computer interface paradigms-A creative environment for computer science students

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18771449

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019507706

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018771449

Country of ref document: EP

Effective date: 20191021