WO2022091970A1 - オンライン会議サポートシステムおよびオンライン会議サポートプログラム - Google Patents

オンライン会議サポートシステムおよびオンライン会議サポートプログラム Download PDF

Info

Publication number
WO2022091970A1
WO2022091970A1 PCT/JP2021/039102 JP2021039102W WO2022091970A1 WO 2022091970 A1 WO2022091970 A1 WO 2022091970A1 JP 2021039102 W JP2021039102 W JP 2021039102W WO 2022091970 A1 WO2022091970 A1 WO 2022091970A1
Authority
WO
WIPO (PCT)
Prior art keywords
advice
user
voice
analysis unit
image
Prior art date
Application number
PCT/JP2021/039102
Other languages
English (en)
French (fr)
Inventor
圭司 田谷
Original Assignee
圭司 田谷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 圭司 田谷 filed Critical 圭司 田谷
Priority to JP2022519156A priority Critical patent/JP7231301B2/ja
Publication of WO2022091970A1 publication Critical patent/WO2022091970A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to an online conference support system and an online conference support program that provide various types of support to users of an online conference system based on video and audio during a conference.
  • Patent Document 1 discloses a conference quality evaluation device that can evaluate not only the attendees who speak but also the attitudes of other attendees who participate in the conference.
  • Patent Document 2 discloses a system that supports an evaluation based on nonverbal information for an interviewee in an interview.
  • Makoto Shokai (Asahi Kasei Corporation), "Realization of an easy-to-use voice interface", Information Processing Vol. 51 No. 11 Nov. 2010, p. 1401-1409 ITmedia NEWS, "Measure the concentration of online lessons with AI, analyze the eyes and facial expressions of students, streamline remote instruction", [online], June 25, 2020, 15:24, open to the public, (October 5, 2020) Search), Internet URL ⁇ https://www.itmedia.co.jp/news/articles/2006/25/news104.html>
  • the online conference system is very convenient because it allows you to hold a conference anywhere.
  • video and audio are transmitted over the network and output from the screen and speakers, system users need to pay different attention than face-to-face meetings.
  • One aspect of the present invention is an online conference support system that supports a user in an online conference system that uses an information processing device having a camera, a microphone, a speaker, and a display, and analyzes an image of the user captured by the camera.
  • An image analysis unit a voice analysis unit that analyzes the user's voice captured by a microphone, and an advice generation unit that generates advice to the user based on the results of analysis by at least one of the image analysis unit and the voice analysis unit.
  • An online conference support system equipped with an advice output unit that outputs the advice generated by the advice generation unit to the user's display.
  • Another aspect of the present invention is an online conference support program that supports a user in an online conference system using an information processing device having a camera, a microphone, a speaker, and a display, and the use captured by a camera in a computer. Generates advice to the user based on the results of analysis in at least one of the image analysis step that analyzes the image of the person, the voice analysis step that analyzes the user's voice captured by the microphone, and the image analysis step and the voice analysis step. It is an online conference support program that executes an advice generation step and an advice output step that outputs the advice generated in the advice generation step to the user's display.
  • an online conference support system and an online conference support program that can give advice based on precautions and advantages peculiar to an online conference to a user of the online conference system.
  • FIG. 1 It is a figure which illustrates the information processing apparatus to which the online conference support system which concerns on 1st Embodiment is applied. It is a block diagram of the online conference support system which concerns on 1st Embodiment. It is a flowchart which illustrates the operation (information processing method) of the online conference support system which concerns on 1st Embodiment. It is a schematic diagram which shows the state when a user is looking at the front. It is a schematic diagram which shows the state when a user is facing down. It is a flowchart which illustrates the operation (information processing method) of the online conference support system which concerns on 2nd Embodiment.
  • FIG. 1A and 1B are diagrams illustrating the configuration of the online conference support system according to the first embodiment.
  • FIG. 1A shows an example of the information processing apparatus 100 to which the online conference support system 1 is applied
  • FIG. 1B shows a block diagram of the online conference support system 1.
  • the online conference support system 1 is a system that provides support to users in an online conference system that uses the information processing device 100.
  • the information processing apparatus 100 applied in an online conference system includes a camera 101, a microphone 102, a speaker 103, and a display 104.
  • the information processing device 100 includes a notebook computer, a desktop computer, a tablet terminal, and a mobile phone.
  • the information processing device 100 may have a device configuration in which a camera 101, a microphone 102, a speaker 103, and a display 104 are individually prepared. Further, the microphone 102 and the speaker 103 may be an integrated headset. Further, the speaker 103 may be incorporated in the housing of the display 104.
  • the information processing device 100 on the user side and the information processing device 100 on the other side are connected by network N, and both sides send and receive voice and images to hold a conference.
  • the online conference system may have three or more participants.
  • the online conferencing system can handle still images and moving images as images.
  • a moving image indicates that an image changes a specific number of times within a specific time. For example, it refers to information in which an image changes once every 10 seconds (0.1 times per second) to 120 times per second.
  • the user of the online conference support system 1 according to the present embodiment is at least one of the participants of the online conference system.
  • the person who uses the online conference support system 1 according to the present embodiment is referred to as "user” or “self”, and the person who holds an online conference with “user” is referred to as "the other party”.
  • the image of the user acquired by the camera 101 includes an image of the background of the user (an image on the user side).
  • Mr. A first opponent
  • Mr. B second opponent
  • Mr. C third opponent
  • oneself user
  • An information processing device 100 having a camera 101, a microphone 102, a speaker 103, and a display 104 is possessed, and images and sounds are transmitted and received via a network N such as the Internet and an intranet.
  • a network N such as the Internet and an intranet.
  • Each participant advances an online conference while transmitting and receiving information in real time to each other using the information processing device 100 connected to the network N.
  • the images of all the participants do not necessarily have to be projected on the display 104, and the voices of all the participants do not necessarily have to be input by the microphone 102.
  • the online conference support system 1 automatically generates and outputs various advices to the user when proceeding with an online conference in such an online conference system, thereby performing an online conference. We will support you to proceed smoothly.
  • the online conference support system 1 includes an image analysis unit 10, a voice analysis unit 20, an advice generation unit 30, and an advice output unit 40.
  • the image analysis unit 10 is a part that analyzes the image of the user captured by the camera 101 of the information processing apparatus 100.
  • a plurality of cameras 101 may be connected to the image analysis unit 10.
  • the voice analysis unit 20 is a part that analyzes the user's voice captured by the microphone 102 of the information processing device 100.
  • a plurality of microphones 102 may be connected to the voice analysis unit 20.
  • the image analysis unit 10 and the voice analysis unit 20 may be provided as an information analysis unit that analyzes at least one of the image and the sound.
  • the advice generation unit 30 is a part that generates advice to the user based on the results analyzed by the image analysis unit 10 and the voice analysis unit 20.
  • the advice output unit 40 is a unit that outputs the advice generated by the advice generation unit 30 to the display 104 of the user (self).
  • a plurality of displays 104 may be connected to the advice output unit 40.
  • the orientation and line of sight of the user's face projected on the display 104 by using the image information acquired by the camera 101 of the information processing apparatus 100 of the user during the online conference.
  • the image analysis unit 10 determines the direction of the line of sight. For example, if the line of sight is not facing the front, the advice generation unit 30 provides text or illustrations regarding the direction of the face and the line of sight (such as raising or lowering the face or line of sight, or looking toward the camera 101). , It is generated as a message by a photograph or the like, and the advice is displayed on the user's display 104 by the advice output unit 40. The advice is displayed in the advice window 104W of the display 104. At this time, the advice may be conveyed to the user by sound, voice, vibration, or the like. With sound, voice, and vibration advice, it is possible to recognize that there is advice even when the user is not looking at the display 104.
  • FIG. 2 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the first embodiment.
  • Imaging processing is performed by the camera 101. That is, the image of the user is captured by the camera 101 attached to the information processing device (computer or the like) of the user (user), the terminal such as USB (Universal Serial Bus), or wirelessly connected.
  • the information processing device computer or the like
  • the terminal such as USB (Universal Serial Bus), or wirelessly connected.
  • the image analysis unit 10 performs a process of detecting the direction of the line of sight or the direction of the face.
  • the image analysis unit 10 detects the direction of the user's line of sight or face from the image of the user captured by the camera 101, and then detects the direction of the line of sight from the detected line of sight or face direction.
  • the method of detecting the direction of the line of sight is performed, for example, in the following flow. (1) Detect the face of the subject. (2) Detect facial parts such as eyes, nose, mouth, and facial contours. (3) Detect the center point of the face. (4) Detect the orientation of the face toward the center. (5) Detect eyes and eyes, eyelids, and outer corners of the eyes.
  • the plot destination of the line of sight is detected.
  • the plot destination of the line of sight according to (7) is the line of sight information (direction of line of sight and face).
  • the direction of the line of sight and the direction of the face may be detected as separate information, or may be detected in the same manner.
  • processes such as AI (artificial intelligence), machine learning, and deep learning may be used.
  • step S102 Another example of the method of detecting the direction of the line of sight in step S102 will be shown.
  • (1) Detect the face of the subject.
  • (2) Detect facial parts such as eyes, nose, mouth, and facial contours.
  • (3) Detect the center point of the face.
  • (4) Detect the orientation of the face toward the center.
  • (5) Detect eyes and eyes, eyelids, and outer corners of the eyes.
  • (6) Using this information, the angle of the line of sight is detected.
  • the angle is the angle ⁇ 1 in the vertical and horizontal directions (the angle in the screen plane of the display 104) and the angle ⁇ 2 in the depth direction with respect to the vertical and horizontal directions (the method of the screen plane of the display 104) centered on the time when facing the front. Angle with respect to the line).
  • the angle of the line of sight according to (6) becomes the line of sight information (direction of the line of sight and the face).
  • the direction of the line of sight and the direction of the face may be detected as separate information, or may be detected in the same manner.
  • processes such as AI (artificial intelligence), machine learning, and deep learning may be used.
  • a reference image may be prepared (stored) in advance when plotting the line of sight or determining the angle of the line of sight.
  • the following method can be considered.
  • the face and eyes are aligned with the guideline GL (see FIG. 11) displayed in the center of the display 104 in advance, and the image information obtained by the camera 101 at this time is viewed in the center of the display 104.
  • Use as a standard. -The camera 101 is turned to face, and the information of the image information obtained by the camera 101 at this time is used as a reference.
  • the four corners of the screen of the display 104 are viewed in order, and the information of the image obtained by the camera 101 when looking at each corner is used as a reference when looking at the edge of the display 104.
  • the face and the line of sight are intentionally turned up, down, left and right, and the information of the orientation of the face and the reference of the movable range of the face are obtained from the information of the image captured by the camera 101 at that time. And so on. These may be performed by one or a combination of a plurality. Further, the information such as looking at the edge of the display 104 may be used as the information of the place where the advice window 104W is generated.
  • a sensor capable of measuring the distance between the display 104 and the user's face may be used. By using the sensor, the exact distance between the display 104 and the user's face can be known. Even if there is no sensor for measuring the distance, the distance between the display 104 and the user's face may be calculated from the size of the projected face. If the distance between the display 104 and the user's face is known, it is possible to accurately determine which position on the display 104 is being viewed from the plot destination and angle of the line of sight.
  • a method of using an image before the signal output from the camera 101 is input to the online conference system.
  • a method in which a signal output from the camera 101 is input to an online conference system and an image handled on the online conference system is used.
  • a method of using an image to be displayed on the display 104 can be mentioned.
  • -How to use images from image processing software eg Snap Camera). Any one of these may be used, or a plurality of these may be used.
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 determines whether or not the user is facing the camera 101 or whether the user is facing the front based on the line-of-sight information of the user analyzed by the image analysis unit 10, and if the user is facing the camera 101. Generate advice if you are not facing or facing the front. For example, when the plot destination of the line of sight detected in (7) above deviates beyond the threshold value from the plot destination of the line of sight which is a preset reference, the advice generation unit 30 automatically generates advice.
  • the advice generation unit 30 generates a message as advice to the user by using text, an illustration, a photograph, or the like so as to face the camera 101 or the front.
  • step S102 to step S103 a specific example of the processing from step S102 to step S103 is shown below.
  • (1) Detect the plot destination of the line of sight.
  • (2) The plot destination of the detected line of sight is compared with the camera image in which one is shown (the screen of the display 104 in which one is shown).
  • the information of the image as the reference shown above may be used.
  • the position of the line of sight on the display 104 corresponding to the plot destination of the line of sight is measured from the reference image when facing the center of the display 104 and the reference image when looking at the corner of the display 104. ..
  • the measurement of the distance from the center of the screen of the display 104 may be calculated as a percentage of the entire angle of view of the screen, or may be defined as a number of pixels (pixels) depending on the resolution. Further, it may be calculated as a percentage from the center with respect to the assumed line-of-sight range. (5) If the line-of-sight plot destination is in the center of the screen, no advice will be given. (6) Similarly, if it is 20% or less of the entire screen from the center of the angle of view, it is agreed not to give advice. Conversely, for example, if the distance is 20% or more, advice is generated to direct the line of sight toward the camera. This ratio of 20% can be arbitrarily determined in advance.
  • a number of 100% or more may be output.
  • the time when the plot destination of the line of sight is away from a certain distance of the angle of view is measured, and the advice is displayed only when it is longer than a certain time. For example, if it is 5 seconds or more and 20% or more away from the center of the angle of view, it is judged to generate advice, and even if it is 20% or more away from the center of the angle of view but less than 5 seconds, no advice is given.
  • the setting of this time can be arbitrarily determined in advance.
  • step S102 when the center of the display 104 is viewed without measuring the distance of the line-of-sight deviation on the display 104 from the plot destination of the line-of-sight as described above.
  • advice is generated when the direction of the line of sight or the direction of the face is deviated from the reference image for a certain period of time or longer.
  • the advice output unit 40 outputs the advice to the user's display 104. That is, the advice output unit 40 outputs the advice (message such as text or illustration) generated by the advice generation unit 30 to the user's display 104.
  • the advice generation unit 30 When the advice generation unit 30 repeatedly generates advice, the advice may not be generated or displayed for a certain period of time in consideration of the situation that the advice may be distracting or the consciousness may not be suitable for an interview or a matchmaking. You may try not to do it. For example, once an advice is output, the advice may be generated and displayed for 10 seconds, and then a period in which the advice is not displayed may be provided for 30 seconds. Further, while the voice exchange continues, the advice may not be generated or displayed, but the advice may be generated or displayed at the timing when the voice exchange is interrupted.
  • FIG. 3 is a schematic view showing a state when the user is looking at the front.
  • FIG. 4 is a schematic diagram showing a state when the user is facing down. In the state shown in FIG. 3, the line-of-sight vector faces the front. On the other hand, in the state shown in FIG. 4, the line-of-sight vector points downward.
  • the image analysis unit 10 analyzes the direction of the user's line of sight with respect to the center of the angle of view of the camera 101 from the image of the user acquired by the camera 101. That is, the image analysis unit 10 detects the line-of-sight vector from the image of the user's face captured by the camera 101 as shown in FIGS. 3 and 4, and analyzes the direction of the line of sight with respect to the center of the angle of view of the user.
  • the advice generation unit 30 generates advice for directing the line of sight to the camera 101 when the direction of the line of sight of the user analyzed by the image analysis unit 10 deviates beyond a preset range with respect to the center of the angle of view. In addition, advice may be generated when the time when the line of sight is off exceeds a certain period of time.
  • the advice output unit 40 displays the advice generated by the advice generation unit 30 on the user's display 104.
  • a text message such as "Look at the camera!” Is displayed in the advice window 104W of the display 104.
  • the user can recognize that the direction of the line of sight of the image of his / her face is deviated from the camera 101, and can correct the line of sight so as to look in the direction of the camera 101.
  • the image analysis unit 10 may analyze the orientation of the user's face with respect to the center of the angle of view of the camera 101 from the image of the user acquired by the camera 101. For example, the process of step S102 in FIG. 2 detects the vector of the face orientation, and detects the deviation of the vector of the user's face orientation with respect to the center of the angle of view of the camera 101.
  • the advice generation unit 30 generates advice for pointing the face toward the camera 101 when the orientation of the user's face analyzed by the image analysis unit 10 deviates beyond a preset range with respect to the center of the angle of view. In addition, advice may be generated when the time when the face is misaligned exceeds a certain period of time.
  • the advice output unit 40 displays the advice generated by the advice generation unit 30 on the user's display 104.
  • a text message such as "Raise your face!” Is displayed on the advice window 104W of the display 104.
  • the face can be corrected to be directed to the camera 101.
  • the advice output unit 40 may output the advice to the position of the display 104 near the extension of the line of sight analyzed by the image analysis unit 10. For example, when the direction of the line of sight analyzed by the image analysis unit 10 is the lower left in the direction of the user, the advice window 104W is displayed near the lower left of the display 104 and the advice is output there. As a result, the advice is displayed at the position of the display 104 near the direction in which the user is looking (on the extension of the line of sight), and the user can be quickly noticed.
  • one factor for the problem that the impression of the person with whom the dialogue is held cannot be improved is that the center of the display 104 and the position of the camera 101 are separated from each other. Looking at the face and materials of the person with whom the dialogue is held on the display 104, although it faces the direction of the display 104, it does not face the camera 101, so it does not look like it is facing the front. It can appear prone or give the impression of looking up from above. In addition, the situation may be such that there is no actual person in front of the person, the facial expression becomes stiff in the situation of an unfamiliar video conference, and the impression becomes bad.
  • the direction of the line of sight and the face is analyzed from the image captured by the camera 101, and the advice is automatically displayed on the display 104, so that the user is informed that the direction of the line of sight and the face is deviated.
  • the content displayed on the screen of the display 104 on the user side may be shared with the other party during the online conference.
  • the advice output unit 40 may perform a process of not displaying the advice on the display 104 of the information processing apparatus 100 of the other party. Specifically, when the screen is shared, the process of displaying the advice window 104W outside the shared screen (outside the shared window) can be mentioned.
  • the advice output unit 40 may temporarily stop the output of the advice when the screen sharing state is set in the online conference system, and restart the advice output when the screen sharing state is canceled. As a result, the advice is displayed only to the user who needs the advice even in the screen sharing state.
  • the advice output unit 40 may perform a process of transmitting (storing) the output advice to a storage device (file server or the like) via the network N.
  • a storage device file server or the like
  • the user can read the contents of the online conference from the storage device and look back on the situation when the advice was displayed.
  • the advice may be generated when the user is facing the camera 101 or the front. For example, when the user is facing the camera 101 or facing the front, a message such as "facing the front. Please leave it as it is.” Is displayed on the advice window 104W, or an icon is displayed at a predetermined position on the display 104 instead of the message. (For example, a blue circle display or a blue frame display) may be output to indicate that there is no problem with the orientation of the user's face. Further, the user may output advice corresponding to each of the case where the user is facing the camera 101 or the front, and the case where the user is not facing the camera 101.
  • the user uses the image information of the user acquired by the image analysis unit 10 with the camera 101. Analyze the facial expression of. For facial expression analysis, for example, Face API provided by Microsoft may be used. Based on the information, the image analysis unit 10 determines the facial expression of the user, the advice generation unit 30 generates advice for prompting the correction of the facial expression when necessary, and the advice output unit 40 outputs the advice.
  • Face API provided by Microsoft
  • FIG. 5 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the second embodiment.
  • Imaging processing is performed by the camera 101. That is, the image of the user is captured by the camera 101 attached to the information processing device (computer or the like) of oneself (user), a terminal such as USB, or wirelessly connected.
  • the image analysis unit 10 performs facial expression detection processing.
  • the image analysis unit 10 detects the facial expression of the user from the image of the user captured by the camera 101.
  • the action unit (AU) is called action unit (AU).
  • Deep learning or AI mechanisms may be used for these methods.
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 generates advice when it is determined that it is better to give advice on facial expressions based on the information on the facial expression of the user analyzed by the image analysis unit 10.
  • the advice generation unit 30 generates a message regarding facial expressions to the user with text, an illustration, a photograph, or the like, based on the analysis result of the image analysis unit 10.
  • a specific example of facial expression recognition and judgment made by the advice generation unit 30 is shown below.
  • the flow of using the service of Amazon Rekognition is shown. (Refer to the following URL for Amazon Rekognition) https://aws.amazon.com/jp/about-aws/whats-new/2019/08/amazon-rekognition-improves-face-analysis/ https://ledge.ai/2019-05-30-12904310615cefa2e89a156/
  • SMILING smile
  • HAPPY happy
  • ANGRY anger
  • SURPRISED surprise
  • SAD sad
  • CALM calm
  • CONFUSED Information such as confusion is output.
  • the SMILING smile number is less than or equal to a preset percentage and lasts for more than a preset amount of time
  • advice is generated.
  • the time is 50% or less for 5 minutes
  • advice that makes you smile is generated.
  • the ANGRY anger value exceeds a preset value, it will generate advice to restore normality.
  • the advice output unit 40 outputs the advice to the user's display 104. That is, the advice output unit 40 outputs the advice (message such as text or illustration) generated by the advice generation unit 30 to the user's display 104. For example, when it is determined that the facial expression of the user is hard, advice for softening the facial expression is displayed on the user's display 104.
  • the advice generation unit 30 When the advice generation unit 30 repeatedly generates advice, the advice may not be generated or displayed for a certain period of time in consideration of the fact that the advice may be distracting or the consciousness may not be suitable for an interview or matchmaking. You may try not to do it. For example, once an advice is output, the advice may be generated and displayed for 10 seconds, and then a period in which the advice is not displayed may be provided for 30 seconds. Further, while the voice exchange continues, the advice may not be generated or displayed, but the advice may be generated or displayed at the timing when the voice exchange is interrupted.
  • the number of smiles that are considered desirable to appear within a period of 1 to 30 minutes is specified as 1 to 100 times, and the specified number of facial expressions is specified within that period. If does not appear, you may encourage them to make a specific facial expression such as a smile with an illustration or text.
  • the advice may be generated when the facial expression of the user is smiling or calm. For example, when the user's facial expression is a smile, the message "It's a good facial expression.” Is displayed on the advice window 104W, or an icon (for example, a blue circle display or a blue frame display) is displayed at a predetermined position on the display 104 instead of the message. May be output to inform the user that there is no problem with the facial expression.
  • advice corresponding to each of the cases where the user's facial expression is preferable and the user's facial expression may be unfavorable may be output.
  • the advice output as in this embodiment is effective because it is difficult to confirm how one is reflected, especially when the window size of one's image displayed on the display 104 is small.
  • the user uses the image information of the user acquired by the image analysis unit 10 with the camera 101.
  • the image analysis unit 10 of the information processing apparatus 100 of the user analyzes the facial expression of the other party by using the image information of the other party acquired by the camera 101 of the information processing apparatus 100 of the other party.
  • Face API provided by Microsoft may be used.
  • advice is output to the display 104 of the information processing apparatus 100 of the user based on the analysis result of the facial expression of the user and the analysis result of the facial expression of the other party.
  • the advice to return the smile to the user is output.
  • the other party has a serious facial expression
  • he / she outputs advice to return the serious facial expression to the user.
  • advice is output to encourage the user to stop smiling.
  • FIG. 6 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the third embodiment. Hereinafter, each step will be described.
  • Imaging processing is performed by the camera 101. That is, the image of the user is captured by the camera 101 attached to the information processing device (computer or the like) of oneself (user), a terminal such as USB, or wirelessly connected.
  • the image analysis unit 10 performs a process of detecting the user's facial expression.
  • the image analysis unit 10 detects the facial expression of the user from the image of the user captured by the camera 101.
  • the facial expression detection process is the same as that of the second embodiment.
  • Step S303> The image pickup process is performed by the camera 101 of the information processing apparatus 100 of the other party.
  • the image of the other party captured by the camera 101 of the other party is sent to the information processing apparatus 100 of the user via the network.
  • the image analysis unit 10 performs a facial expression detection process of the other party.
  • the image analysis unit 10 detects the facial expression of the other party from the image of the other party sent from the information processing device 100 of the other party via the network N.
  • the facial expression detection process is the same as that of the second embodiment.
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 generates advice when it is determined that it is better to give advice on facial expressions based on the facial expression information of the user analyzed by the image analysis unit 10 and the facial expression information of the other party.
  • the advice generation unit 30 generates a message regarding facial expressions to the user with text, an illustration, a photograph, or the like, based on the analysis result of the image analysis unit 10.
  • facial expression recognition and judgment made by the advice generation unit 30 is shown below.
  • Information such as SMILING: smile, HAPPY: happiness, ANGRY: anger, SURPRISED: surprise, SAD: sad, CALM: calm, CONFUSED: confusion is identified in the same manner as in the second embodiment.
  • This facial expression is recognized on both images, and the facial expressions are combined.
  • This combination also includes the so-called "expressionless" state, in which all facial expressions are low. For example, if one is smiling and the other is expressionless for a certain period of time, advice is generated to encourage the expressionless side to smile. In this case, for example, advice is generated when the ratio of SMILING: smile on one side is 60% or more and the expressionlessness on the other side is 30% or less for 30 seconds. do.
  • the advice output unit 40 outputs the advice to the user's display 104. That is, the advice output unit 40 outputs the advice (message such as text or illustration) generated by the advice generation unit 30 to the user's display 104.
  • the advice generation unit 30 When the advice generation unit 30 repeatedly generates advice, the advice may not be generated or displayed for a certain period of time in consideration of the situation that the advice may be distracting or the consciousness may not be suitable for an interview or a matchmaking. You may try not to do it. For example, once an advice is output, the advice is generated and displayed for 10 seconds, and then a period during which the advice is not displayed may be provided for 30 seconds. Further, while the voice exchange continues, the advice may not be generated or displayed, but the advice may be generated or displayed at the timing when the voice exchange is interrupted.
  • the image analysis unit 10 of the information processing apparatus 100 of the user reads the expression of the other party from the image of the other party, and outputs advice suitable for the situation to the display 104 of the information processing apparatus 100 of the user. For example, a message such as asking the user if there is any question or prompting the user to correct his / her remark may be displayed.
  • the image analysis unit 10 compares the number of smiles of the other party with the number of smiles of oneself (user), and if there is a certain ratio difference such as 1.2 times or more, advice is generated.
  • the unit 30 may generate an illustration or message that encourages oneself (user) to smile, and the advice output unit 40 may display it on the display 104.
  • facial expressions such as anger, disgust, fear, sadness, and surprise, as well as voice tones, squeezing, nodding, and raising eyebrows, can be used to understand mutual understanding and emotional deviations.
  • advice may be generated to facilitate communication.
  • the image information of the other party acquired by the image analysis unit 10 by the camera 101 of the information processing apparatus 100 of the other party. Is used to analyze the facial expression of the other party.
  • the facial expression analysis is the same as in the second embodiment.
  • the image analysis unit 10 determines the facial expression of the other party, and outputs advice to the display 104 of the information processing apparatus 100 of the user according to the determination result.
  • a message indicating that the other person has a good impression is sent by the user. It is displayed on the display 104 of the information processing apparatus 100. Also, if the other party's facial expression is cloudy or if he or she is angry, a message calling attention to the display 104 of the user's information processing device 100 ("maybe you do not understand” or “do you understand?" "Ask me” etc.) is displayed.
  • FIG. 7 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the fourth embodiment. Hereinafter, each step will be described.
  • Step S401> The image pickup process is performed by the camera 101 of the information processing apparatus 100 of the other party.
  • the image of the other party captured by the camera 101 of the other party is sent to the information processing apparatus 100 of the user via the network.
  • the image analysis unit 10 performs a facial expression detection process of the other party.
  • the image analysis unit 10 detects the facial expression of the other party from the image of the other party sent from the information processing device 100 of the other party via the network.
  • the facial expression detection process is the same as that of the second embodiment.
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 generates advice when it is determined that it is better to give advice on facial expressions based on the facial expression information of the other party analyzed by the image analysis unit 10.
  • the advice generation unit 30 generates a message regarding facial expressions to the user with text, an illustration, a photograph, or the like, based on the analysis result of the image analysis unit 10.
  • the same action unit as in the second embodiment is combined with the following processing. For example, with respect to an act such as nodding, it is determined by determining that a specific position of the face, for example, the position of the chin or eyes, has swayed up and down within a specific time such as 0.1 seconds to 5 seconds. Also, for example, regarding the act of bending the neck, after grasping the outline of the face, determine the center line of the face, and if it tilts at a specific angle such as 1 ° to 30 ° from the start of the meeting, bend the neck. Judge that there is.
  • facial expression recognition and judgment made by the advice generation unit 30 is shown below.
  • Information such as SMILING: smile, HAPPY: happiness, ANGRY: anger, SURPRISED: surprise, SAD: sad, CALM: calm, CONFUSED: confusion is identified in the same manner as in the second embodiment.
  • the other party has been expressionless for a certain period of time, he / she will generate advice that encourages him / her to change the topic of the story.
  • the facial expression of the other party generates advice when the value of which value is 30% or less continues for 30 seconds.
  • the voice analysis unit 20 uses the voice information of the user acquired by the microphone 102 to speak. To analyze. Then, based on the analysis result of the user's voice, the advice is output to the display 104 of the user's information processing apparatus 100.
  • the advice is displayed on the display 104 as a message such as text, illustration, or photo ("Speak more slowly”, “Speak more politely”, “Slightly speed up”, etc.).
  • it also includes discriminating intonation, tongue, etc. and presenting a message to correct it. To determine whether the tongue / speed / intonation is good or bad, the accuracy of software that converts speech into text may be used.
  • FIG. 8 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the fifth embodiment.
  • Sound collection processing is performed by the microphone 102. That is, voice (voice information on the user side including the voice of the user and noise components) is provided by the microphone 102 attached to the information processing device (computer, etc.) of oneself (user), a terminal such as USB, or wirelessly connected. ).
  • the voice analysis unit 20 performs analysis processing of the user's voice.
  • the voice analysis unit 20 detects user voice information such as speaking speed, intonation, and smooth tongue from the user's voice captured by the microphone 102. Then, the voice analysis unit 20 compares the user voice information obtained by analyzing the user's voice with the preset reference voice information to obtain the voice comparison information.
  • voice comparison information For user voice information such as speaking speed, intonation, and tongue, and voice comparison information, for example, the following is detected.
  • the smooth tongue the distance between the five vowels is determined, and if the distance is closer than a certain level, the smooth tongue is considered to be bad (voice comparison information).
  • speed there is a method based on the number of mora per unit time (sound segment unit with a certain time length).
  • the intonation for example, the magnitude and frequency are read from the voice waveform (user voice information), and it is determined whether or not the inflection is within a certain value (voice comparison information).
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 generates advice when it is determined that it is better to give advice on how to speak based on the user voice information analyzed by the voice analysis unit 20.
  • the advice generation unit 30 generates a message regarding how to speak to the user with text, an illustration, a photograph, or the like, based on the analysis result of the image analysis unit 10.
  • step S502 Taking the smooth tongue as an example, (1) Determine the distance between the five vowels. (2) Compare the predetermined distance between the five vowels and the obtained distance between the five vowels. For example, if it is determined in advance that it is 1 second, it is determined that it is less than 1 second or 1 second or more. (3) If it is less than or equal to the predetermined distance between 5 vowels, advice is generated. At this time, although the distance is expressed as time in this example, a frequency or the like may be used. In addition, when comparing the distance between the obtained 5 vowels with a predetermined distance, the average for a certain period of time is used, or advice is generated only when the distance is short multiple times in a row. May be good.
  • the number of mora that corresponds to the speaking speed and the volume and frequency of the sound regarding intonation are the same, and advice is generated while comparing the predetermined number with the average or the number of consecutive times. Can be mentioned.
  • the advice output unit 40 outputs the advice to the user's display 104. That is, the advice output unit 40 outputs the advice (message such as text or illustration) generated by the advice generation unit 30 to the user's display 104.
  • the advice generation unit 30 When the advice generation unit 30 repeatedly generates advice, the advice may not be generated or displayed for a certain period of time in consideration of the situation that the advice may be distracting or the consciousness may not be suitable for an interview or a matchmaking. You may try not to do it. For example, once an advice is output, the advice may be generated and displayed for 10 seconds, and then a period in which the advice is not displayed may be provided for 30 seconds. Further, while the voice exchange continues, the advice may not be generated or displayed, but the advice may be generated or displayed at the timing when the voice exchange is interrupted.
  • the fifth embodiment for example, it is determined whether it is a specified speed range, a specified tongue range, or a specified intonation range input in advance, and if it is not within the specified range, a message prompting correction is generated. At that time, instead of continuing to send messages, the period from one message to the next may be determined.
  • advice may be generated when the user's voice information such as the speed, intonation, and tongue of the user's speech is within the appropriate range for the voice comparison information. .. For example, if the user speaks at an appropriate speed, a message such as "It is easy to hear" is displayed on the advice window 104W, or an icon (for example, a blue circle is displayed) at a predetermined position on the display 104 instead of the message. And blue frame display) may be output to let the user know that there is no problem in speaking. In addition, advice may be output corresponding to each of the cases where the user's way of speaking is preferable and the user's way of speaking is not preferable.
  • the voice information of the other party acquired by the voice analysis unit 20 with the microphone 102 of the information processing device 100 of the other party. Is used to convert the voice information into text, and the advice generation unit 30 generates the text as advice.
  • the advice output unit 40 outputs the text to the display 104 of the information processing apparatus 100 of the user.
  • advice for highlighting the extracted terms based on a preset database for example, a database in which technical terms and the like are registered in a dictionary
  • the extracted terms may be searched on the Internet to generate and display the meanings of the terms as advice, or related terms may be displayed at the same time from the search results.
  • FIG. 9 is a flowchart illustrating the operation (information processing method) of the online conference support system according to the sixth embodiment. Hereinafter, each step will be described.
  • Step S601> The voice acquisition process is performed by the microphone 102 of the information processing apparatus 100 of the other party. That is, the voice of the other party is obtained from the microphone 102 attached to the other party's personal computer or the like, a terminal such as USB, or wirelessly connected.
  • the voice analysis unit 20 performs detection processing of the voice information of the other party.
  • the voice analysis unit 20 converts the voice information of the other party sent from the information processing device 100 of the other party via the network into text. At this time, all of the voice information may be converted into text, or words as keywords may be extracted from the voice information and converted into text.
  • acoustic analysis various features such as sound intensity and frequency of input audio data, sound-to-sound interval, and time series are extracted and handled easily by an acoustic model (easy to be recognized by a computer). Convert to data.
  • the matching rate is calculated by comparing the feature quantity extracted by the acoustic analysis with the learned pattern of which symbol (phoneme or word) and how close it is. For example, when the voice "Thank you” is input, the voice is matched with the correct character so that the phoneme is "A-R-I-G-A-T-O-U" using the features extracted by voice analysis.
  • word connections are predicted and judged from a huge amount of data, more accurate sentences are assembled, the appearance rate of words to be used is calculated from the data accumulated in advance, and the words are written in a language model.
  • the model mainly used is the "Hidden Markov Model”. This patterns the likelihood of appearance of characters immediately after a certain character string and defines their probability of appearance. From a huge amount of data, the probability of concatenating words is calculated, and the words are written so that the context is correct.
  • the pronunciation dictionary a combination of sounds is picked up from a huge database modeled for each "phoneme", which is the smallest unit of speech, and recognized as a "word”. These may use techniques such as deep learning and AI.
  • the advice generation unit 30 determines whether or not to generate advice.
  • the advice generation unit 30 determines to generate the text as advice based on the voice information converted into text by the voice analysis unit 20.
  • the advice generation unit 30 displays the full text
  • the content spoken by the other party is displayed in a designated place on the screen of the display 104 or in a place where some software or application such as a document or an image of the other party is not displayed. It is preferable to go. At that time, it is also possible to display the image in a place close to the camera part or in a place where one's line of sight faces the center of one's camera image.
  • the following method can be considered. (1) Collect technical terminology dictionaries and technical terminology in advance, or make them available by designating services on the Internet. (2) Compare with the information and display the text if applicable. At that time, the words before and after that may be memorized and displayed together with the words before and after that, or in units of phrases or sentences.
  • Another method for extracting only keywords by the advice generation unit 30 is as follows. (1) In advance, extract information that may not correspond to the commonly used technical terms such as "I” and "your company”. (2) It is judged that the advice is generated by comparing with this information, removing the words that may not apply to the above technical terms, and using the remaining part as the technical terms. At that time, the words before and after the technical term may be memorized and displayed together with the words before and after the term, or in the phrase or sentence unit.
  • an example of extracting an interrogative form is given.
  • (1) Always convert the voice into text, and always memorize, for example, the last 5 minutes.
  • (2) Read the intonation of voice (frequency and magnitude of voice signal).
  • (3) Judge whether it is an interrogative sentence from the inflection of the voice and the state of the word at the end of the voice.
  • (4) If it is an interrogative sentence, go back to the question sentence and look for a break in the sentence.
  • Information from the break to the end of the interrogative sentence is displayed in the text as advice generation. At this time, if the answer to the question sentence is searchable, it may be searched and displayed, or a model answer may be collected and displayed at the same time.
  • the advice output unit 40 outputs the advice to the user's display 104. That is, the advice output unit 40 outputs the advice (textualized information) generated by the advice generation unit 30 to the user's display 104.
  • the voice-recognized text data of the other party's voice may be displayed as it is, or words used in general conversation (for example, "Nice to meet you", “Your company", “Well”, etc.) are registered in advance. You may set aside and display only the technical terms excluding it. In addition, it is possible to recognize an interrogative form (for example, a word whose ending is raised, "is it?", Etc.) and display only the interrogative sentence. Further, for technical terms and the like, the advice generation unit 30 may automatically search the words on the Internet, and the advice output unit 40 may display the search results on the display 104.
  • the voice information of the other party acquired by the voice analysis unit 20 with the microphone 102 of the information processing device 100 of the other party. Use to extract the part that corresponds to the question.
  • the advice generation unit 30 generates the response to the question extracted by the voice analysis unit 20 as advice.
  • the response to the other party's question may be pre-registered or may be an example of an answer on the network (model answer, general answer, etc.).
  • the advice output unit 40 outputs the advice (answer to the question) generated by the advice generation unit 30 to the user's display 104.
  • the user can respond to the question asked by the other party during the progress of the online conference by referring to the advice displayed on the display 104.
  • the voice information of the other party acquired by the voice analysis unit 20 by the microphone 102 of the information processing device 100 of the other party. Is used to detect information about time.
  • the advice generation unit 30 generates advice based on the information regarding the time detected by the voice analysis unit 20.
  • the advice output unit 40 outputs the advice generated by the advice generation unit 30 to the user's display 104.
  • the time-related information is the voice of the other party analyzed by the voice analysis unit 20, including time-related content such as "speak in 10 minutes” and "speak in 5 or 6 minutes”. Information.
  • the advice generation unit 30 generates time information for counting down or counting up as advice based on the information regarding the time read by the voice analysis unit 20.
  • the advice output unit 40 displays the time information for counting down or counting up on the display 104.
  • the advice output unit 40 may output time information by sound or voice.
  • an arrangement example such as the height of a personal computer is displayed on the display.
  • Examples of arrangement are the height and orientation of the camera, the sitting position, the distance from the camera and the personal computer, and the like.
  • the optimum height and orientation of the camera 101 are the range in which the face is reflected by analyzing the image captured by the camera 101, and the directionality of the height and orientation of the camera 101 derived from the line of sight (for example, "raise the position of the camera a little more”. ”,“ A little more away from the camera ”, etc.) can be shown.
  • the guideline GL and one's own image captured by the camera are superimposed on the display 104.
  • the layout that meets the guideline GL is recommended. Not only the guide of the contour of the face and body, but also the positions of eyes, nose and mouth may be shown. (3) Messages, illustrations, photographs, etc. that optimize the overall brightness and contrast, such as the brightness of the surroundings and the brightness of the face, are displayed. (4) Adjust the image to optimize the overall brightness and contrast, such as the brightness of the surroundings and the brightness of the face.
  • an interview and information on the other party are input as preparations for an online conference using the online conference system shown in FIG. 1A.
  • the company name what the other person likes, likes, dislikes, dislikes, name, origin, current residence, interests, etc.
  • the information is displayed on the display 104 in advance or during a meeting, an interview, a matchmaking, or the like.
  • information on the progress is input in advance as a preparation for an online conference using the online conference system shown in FIG. 1A.
  • the information on the progress is, for example, time information on how many minutes the meeting is scheduled to be held, and information on the procedure in which order and at what minute.
  • FIG. 12 is a schematic diagram showing an example of displaying information regarding progress.
  • the time information of the information processing apparatus 100 or the time information via the Internet is compared, and the remaining time and information on what to do next are displayed on the advice window 104W of the display 104.
  • the advice window 104W displays time information (for example, the remaining time of the meeting, the procedure of the meeting, and the remaining time thereof).
  • the line of sight may go to that person and the thought or conversation may be interrupted.
  • the result of voice analysis by the voice analysis unit 20 is used, and the advice generation unit 30 generates more advice compared to the period during which the conversation is occurring, that is, during the period when there is little conversation. Then, the advice output unit 40 outputs the advice. This allows you to see the advice on the display 104 without interrupting the conversation.
  • the text displayed on the display 104 is displayed in a preset language. That is, at least one of the text to be displayed and the translated text thereof is displayed on the display 104.
  • the voice analysis unit 20 shown in FIG. 1B recognizes the voice of the user captured by the microphone 102 and the voice of the other party sent via the network N and converts it into text. do.
  • the textualized voice is automatically translated into a language preset in the advice generation unit 30. There may be one translation language or a plurality of translation languages.
  • the language translated by the advice generation unit 30 is displayed on the display 104 by the advice output unit 40.
  • the advice output unit 40 may display only the translated language on the display 104, or may display both the untranslated language and the translated language on the display 104.
  • FIG. 13 is a schematic diagram illustrating the case where a plurality of displays are used.
  • the user may construct a multi-display by arranging a plurality of displays 104 in parallel or connecting the display 104 to a notebook computer (information processing apparatus 100).
  • the image analysis unit 10 shown in FIG. 1B detects the direction of the user's line of sight from the image of the user captured by the camera 101.
  • the advice generation unit 30 generates predetermined advice and performs a process of selecting a display 104 suitable for the direction of the line of sight from the relationship between the direction of the line of sight and the position of the display 104 set in advance.
  • the ad ice output unit 40 outputs the advice window 104W to the display 104 selected by the advice generation unit 30. As a result, even when a multi-display is constructed, the advice window 104W can be displayed on the display 104 that matches the direction of the user's line of sight.
  • the image analysis unit 10 shown in FIG. 1B detects the direction of the user's line of sight from each of the images of the user captured by the plurality of cameras 101.
  • the advice generation unit 30 performs a process of selecting a camera 101 that matches the direction of the detected user's line of sight (the direction of the line of sight is closest to the front).
  • the online conference support system 1 transmits the image of the camera 101 selected by the advice generation unit 30 to the other party via the network N.
  • the camera 101 when the camera 101 is provided on the center of each display 104, the user sees the material displayed on the display 104 of the notebook computer (information processing apparatus 100).
  • the image taken by the camera 101 of the notebook computer (information processing device 100) is automatically selected, and the user looks at another display 104 connected to the notebook computer (information processing device 100).
  • the image taken by the camera 101 provided on the display 104 is automatically selected.
  • the online conference support system 1 when a user wants to explain a part indicated by a whiteboard, a blackboard, or a sticky note of a material, he / she may want to take an image of the part with a camera 101 and send it to the other party.
  • the image analysis unit 10 shown in FIG. 1B detects a specific preset operation, the image pickup area of the camera 101 is controlled.
  • the camera 101 when the user's pointing motion is detected from the user's image captured by the camera 101, the camera 101 is zoomed, panned, or focused on the pointing position. Zooming and panning may be performed electrically or mechanically. Further, the orientation of the user's face may be detected from the image of the user captured by the camera 101, and the camera 101 may be panned to the detected orientation of the face.
  • the imaging area of the camera 101 is automatically set according to the direction of the user's face or the pointing motion. It is controlled to the position where you pay attention to.
  • the specific operation of the user is not limited to pointing, and various controls (control of image pickup of the camera 101, operation control of the online conference support system 1, etc.) may be performed by a specific preset gesture. ..
  • a noise component is extracted from the voice information captured by the microphone 102, and when a noise component of a certain level or higher continues for a certain period of time or longer, a message such as "Noise sound is included" is output.
  • the online conference support system 1 described above can be applied as an online conference support program.
  • the online conferencing support program causes the computer to perform the following steps: (1) Image analysis step for analyzing the user's image captured by the camera 101 (2) Voice analysis step for analyzing the user's voice captured by the microphone 102 (3) Results analyzed in the image analysis step and the voice analysis step Advice generation step to generate advice to the user based on (4) Advice output step to output the advice generated in the advice generation step to the user's display 104
  • the online conference support program can be configured as application software executed by various information processing devices (computers, tablet terminals, mobile phones, etc.).
  • the online conference support program may be stored on a medium or delivered over a network.
  • the online conference support program may be incorporated into the application software for conducting the online conference, or may be additionally incorporated later by a plug-in or the like.
  • the online conference support system 1 and the online conference support program that can give advice based on the precautions and advantages peculiar to the online conference to the user of the online conference system are provided. It will be possible to do.
  • the present invention is not limited to these examples.
  • at least one of the image analysis unit 10, the voice analysis unit 20, the advice generation unit 30, and the advice output unit 40 constituting the online conference support system 1 according to the present embodiment is provided outside the information processing apparatus 100 and is a network. It may be configured to be connected to the information processing apparatus 100 via N.
  • those skilled in the art appropriately adding, deleting, and design-changing components to each of the above-described embodiments or application examples thereof, and those in which the features of each embodiment are appropriately combined are also included in the present invention. As long as it has a gist, it is included in the scope of the present invention.
  • the online conference support system 1 and the online conference support program according to the present invention are systems for transmitting and receiving information online by both the user and the other party, such as online conferences, online interviews, online seminars, online classes, and online business negotiations. It is suitably available.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明の目的は、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することである。 本発明の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、カメラで取り込んだ使用者の画像を解析する画像解析部と、マイクで取り込んだ使用者の音声を解析する音声解析部と、画像解析部および音声解析部の少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成部と、アドバイス生成部で生成されたアドバイスを使用者のディスプレイに出力するアドバイス出力部と、を備えたオンライン会議サポートシステムである。

Description

オンライン会議サポートシステムおよびオンライン会議サポートプログラム
 本発明は、オンライン会議システムの使用者に対して会議中の映像や音声に基づき種々のサポートを行うオンライン会議サポートシステムおよびオンライン会議サポートプログラムに関するものである。
 近年、インターネット等のネットワークを利用したオンライン会議システムが多く利用されている。オンライン会議システムでは、各利用者はカメラやマイクを用いて映像や音声を双方に送受信して画面上での会議を行うことができる。このようなオンライン会議システムは、会議のみならず、セミナー、面接、お見合いなど、対面に代わるツールとして広く利用される。
 オンライン会議システムでは、画面上の映像や音声だけでは把握しにくい部分も生じ得る。特許文献1には、発言する出席者に対する評価ばかりでなく、会議に参加する他の出席者の態度をも含めて評価することができる会議品質評価装置が開示される。特許文献2には、面接において面接志望者に対する非言語情報に基づく評価を支援するシステムが開示される。
特開2013-008114号公報 特開2018-060374号公報
庄境 誠(旭化成株式会社),"使い勝手の良い音声インターフェイスの実現",情報処理 Vol.51 No.11 Nov. 2010,p.1401-1409 ITmedia NEWS,"オンライン授業の集中度をAIで測定 生徒の視線や表情を解析 リモート指導を効率化",[online],2020年6月25日 15時24分 公開,(2020年10月5日検索),インターネットURL<https://www.itmedia.co.jp/news/articles/2006/25/news104.html>
 オンライン会議システムは、場所を問わずに会議を行うことができるため、非常に利便性が高い。その一方、映像や音声をネットワークで送信して画面やスピーカから出力するため、システムの使用者は対面での会議とは異なる注意を払う必要がある。
 本発明は、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することを目的とする。
 本発明の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、カメラで取り込んだ使用者の画像を解析する画像解析部と、マイクで取り込んだ使用者の音声を解析する音声解析部と、画像解析部および音声解析部の少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成部と、アドバイス生成部で生成されたアドバイスを使用者のディスプレイに出力するアドバイス出力部と、を備えたオンライン会議サポートシステムである。
 本発明の他の一態様は、カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、コンピュータに、カメラで取り込んだ使用者の画像を解析する画像解析ステップと、マイクで取り込んだ使用者の音声を解析する音声解析ステップと、画像解析ステップおよび音声解析ステップの少なくともいずれかで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップと、アドバイス生成ステップで生成したアドバイスを使用者のディスプレイに出力するアドバイス出力ステップと、を実行させるオンライン会議サポートプログラムである。
 このようなオンライン会議システムおよびオンライン会議サポートプログラムの構成によれば、オンライン会議システムの使用者は、対面とは異なりオンライン会議システムを利用する上で必要な情報に関するアドバイスを自動的に得られるようになる。
 本発明によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステムおよびオンライン会議サポートプログラムを提供することが可能になる。
第1実施形態に係るオンライン会議サポートシステムが適用される情報処理装置を例示する図である。 第1実施形態に係るオンライン会議サポートシステムのブロック図である。 第1実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 使用者が正面を見ているときの状態を示す模式図である。 使用者が下を向いているときの状態を示す模式図である。 第2実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第3実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第4実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第5実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 第6実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。 カメラの高さおよび座る位置のアドバイスを例示する模式図である。 ディスプレイに表示するガイドラインを例示する模式図である。 進行に関する情報の表示例を示す模式図である。 複数のディスプレイを用いた場合を例示する模式図である。
 以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明では、同一の部材には同一の符号を付し、一度説明した部材については適宜その説明を省略する。
(第1実施形態)
 図1Aおよび図1Bは、第1実施形態に係るオンライン会議サポートシステムの構成を例示する図である。図1Aにはオンライン会議サポートシステム1が適用される情報処理装置100の例が示され、図1Bにはオンライン会議サポートシステム1のブロック図が示される。
 本実施形態に係るオンライン会議サポートシステム1は、情報処理装置100を使用するオンライン会議システムにおいて、使用者に対するサポートを行うシステムである。図1Aに示すように、オンライン会議システムで適用される情報処理装置100は、カメラ101、マイク102、スピーカ103およびディスプレイ104を有する。
 情報処理装置100としては、ノート型コンピュータ、デスクトップ型コンピュータ、タブレット端末および携帯電話である。なお、情報処理装置100として、カメラ101、マイク102、スピーカ103およびディスプレイ104を個別に用意した装置構成であってもよい。また、マイク102およびスピーカ103は一体型のヘッドセットであってもよい。また、スピーカ103はディスプレイ104の筐体に組み込まれていてもよい。
 オンライン会議システムでは、使用者側の情報処理装置100と、相手側の情報処理装置100とをネットワークNで接続し、双方で音声および画像を送受して会議を行う。オンライン会議システムの参加者は3人以上であってもよい。オンライン会議システムでは、画像として静止画および動画を取り扱うことができる。動画とは、特定時間内に特定回数の画像が変化することを示す。例えば、10秒に1回(1秒間に0.1回)~1秒間に120回画像が変化していく情報のことをいう。
 本実施形態に係るオンライン会議サポートシステム1の利用者は、オンライン会議システムの参加者のうち少なくとも1人である。説明の便宜上、本実施形態に係るオンライン会議サポートシステム1を利用する者を「使用者」または「自分」と称し、「使用者」とオンラインで会議を行う者を「相手方」と称することにする。また、カメラ101で取得する使用者の画像には、使用者の背景の画像(使用者側の画像)を含むものとする。
 オンライン会議を行っている状態では、情報処理装置100のディスプレイ104に自分(使用者)の画像と相手方の画像とが映し出され、それぞれの音声がオンライン会議の参加者の情報処理装置100へ送られる。また、所定の操作によって画面の共有やファイルの送受信を行うことができる。
 例えば、図1Aに示す例では、Aさん(第1の相手方)、Bさん(第2の相手方)、Cさん(第3の相手方)と自分(使用者)がそれぞれ異なる場所にいて、各自がカメラ101、マイク102、スピーカ103およびディスプレイ104を有した情報処理装置100を所持し、インターネットやイントラネット等のネットワークNを介して、画像や音声が送受信される。各参加者はネットワークNに接続された情報処理装置100を用いて互いにリアルタイムで情報を送受信しながらオンライン会議を進めていく。なお、オンライン会議においては、必ずしも参加者全員の画像がディスプレイ104に映し出される必要はないし、必ずしも参加者全員の音声がマイク102で入力される必要もない。
 本実施形態に係るオンライン会議サポートシステム1は、このようなオンライン会議システムにおいてオンライン会議を進めていく際に、使用者に対して各種のアドバイスを自動的に生成し、出力することで、オンライン会議を円滑に進めていくサポートを行う。
 図1Bに示すように、本実施形態に係るオンライン会議サポートシステム1は、画像解析部10、音声解析部20、アドバイス生成部30およびアドバイス出力部40を備える。画像解析部10は、情報処理装置100のカメラ101で取り込んだ使用者の画像を解析する部分である。画像解析部10には複数のカメラ101が接続されていてもよい。
 音声解析部20は、情報処理装置100のマイク102で取り込んだ使用者の音声を解析する部分である。音声解析部20には複数のマイク102が接続されていてもよい。なお、画像解析部10および音声解析部20は、画像および音声の少なくとものいずれかを解析する情報解析部として設けられていてもよい。
 アドバイス生成部30は、画像解析部10および音声解析部20で解析した結果に基づき使用者に対するアドバイスを生成する部分である。アドバイス出力部40は、アドバイス生成部30で生成されたアドバイスを使用者(自分)のディスプレイ104に出力する部分である。アドバイス出力部40には複数のディスプレイ104が接続されていてもよい。
 第1実施形態に係るオンライン会議サポートシステム1では、オンライン会議中に使用者の情報処理装置100のカメラ101で取得した画像情報を用いて、ディスプレイ104に映し出される使用者の顔の向きや視線、目線の向きを画像解析部10で判別する。例えば視線が正面を向いていなければ、アドバイス生成部30において顔の向きや視線に関するアドバイス(顔や目線を上げるように、下げるように、カメラ101の方を見るように、など)をテキストやイラスト、写真などによるメッセージとして生成し、アドバイス出力部40によってそのアドバイスを使用者のディスプレイ104に表示する。アドバイスはディスプレイ104のアドバイスウインドウ104Wに表示される。この際、音や音声、振動などによりアドバイスを使用者に伝えるようにしてもよい。音や音声、振動によるアドバイスでは、使用者がディスプレイ104を見ていない場合でもアドバイスがあることを認識させることができる。
(情報処理方法)
 図2は、第1実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS101>
 カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB(Universal Serial Bus)等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS102>
 画像解析部10による目線または顔の向きの検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の目線または顔の向きを検出し、その後、検出した目線や顔の向きから視線の向きを検出する。視線の向きを検出する方法は、例えば下記のような流れで行われる。
 (1)対象者の顔を検出する。
 (2)目、鼻、口、顔の輪郭などの顔の部位を検出する。
 (3)顔の中心点を検出する。
 (4)顔の中心方向の向きを検出する。
 (5)目と瞳、まぶた、目尻を検出する。
 (6)これらの情報を用いて、顔と目の向きのベクトルを検出する。
 (7)視線のプロット先を検出する。
 この(7)による視線のプロット先が視線情報(目線と顔の向き)となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
 これらの処理は、AI(人工知能)、マシンラーニング、ディープラーニングなどの処理を用いてもよい。
 ステップS102における視線の向きの検出方法の別の例について示す。
 (1)対象者の顔を検出する。
 (2)目、鼻、口、顔の輪郭などの顔の部位を検出する。
 (3)顔の中心点を検出する。
 (4)顔の中心方向の向きを検出する。
 (5)目と瞳、まぶた、目尻を検出する。
 (6)これらの情報を用いて、視線の角度を検出する。角度は正面を向いている時を中心として、上下左右方向の角度θ1(ディスプレイ104の画面平面内での角度)と、その上下左右に対して奥行き方向の角度θ2(ディスプレイ104の画面平面の法線に対する角度)とを持つ。角度θ1、θ2の表し方を図4に示す。また、角度は立体角の考え方を用いることもできる。
 この(6)による視線の角度が視線情報(目線と顔の向き)となる。なお、目線の向きと顔の向きとは別々の情報として検出されてもよいし、同一に検出されてもよい。
 これらの処理は、AI(人工知能)、マシンラーニング、ディープラーニングなどの処理を用いてもよい。
 また、上記視線のプロットや視線の角度を割り出す際にあらかじめ基準となる画像を用意(記憶)してもよい。その場合は、下記のような方法が考えられる。
・予めディスプレイ104の中央に表示されたガイドラインGL(図11参照)に顔や目の位置をあわせ、このときにカメラ101で得られた画像の情報を、ディスプレイ104の中央を見ている場合の基準とする。
・カメラ101のほうを向いてもらい、このときにカメラ101で得られた画像の情報の情報を基準とする。
・ディスプレイ104の画面の四隅を順番に見てもらい、それぞれの隅を見た際にカメラ101で得られた画像の情報をディスプレイ104の端を見ている場合の基準とする。
・顔や視線を意図的に上下左右にむけさせ、その際にカメラ101で取り込まれた画像の情報から、顔の向きの基準や顔の可動範囲の基準の情報を得る。
などである。
 これらは、1つで行ってもよいし、複数を組み合わせてもよい。
 また、ディスプレイ104の端を見るなどの情報はアドバイスウインドウ104Wを生成する場所の情報に用いてもよい。
 また、一定時間における視線の角度の値の統計(視線の角度の変化の分布)を求め、その統計から視線の中心および視線の端を想定して視線範囲の基準として利用するようにしてもよい。この場合、想定された視線範囲において利用者の視線の角度がどの位置にあるのかを計測すればよい。
 また、ディスプレイ104と使用者の顔との距離を測定できるセンサを用いてもよい。センサを用いるとより、ディスプレイ104と使用者の顔との正確な距離がわかる。
 距離を測定するセンサがなくとも、映し出される顔の大きさからディスプレイ104と使用者の顔との距離を割り出してもよい。
 ディスプレイ104と使用者の顔との距離が分かると、視線のプロット先や角度からディスプレイ104上のどの位置を見ているかを正確に求めることができる。
 上記に示した視線の先のプロットや角度を割り出す際は、カメラ101で取り込んだ画像の情報をベースに行うことになる。使用するカメラ101からの画像にはいくつかの方法がある。その方法を下記に挙げる。
・カメラ101から出力された信号が、オンライン会議システムに入力される前の画像を用いる方法。
・カメラ101から出力された信号がオンライン会議システムに入力され、オンライン会議システム上で扱われる画像を使用する方法。例えば、ディスプレイ104に表示するための画像を使用する方法が挙げられる。
・画像処理ソフトウエア(例:Snap Camera)の画像を使用する方法。
 これらはどれか1つを用いてもよいし、複数を用いてもよい。
<ステップS103>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の視線情報に基づき、使用者がカメラ101の方を向いているかどうかや、正面を向いているかを判断し、もし使用者がカメラ101の方や正面を向いていない場合にはアドバイスを生成する。例えば、上記(7)で検出した視線のプロット先が、予め設定された基準となる視線のプロット先から閾値を超えてずれている場合、アドバイス生成部30によってアドバイスを自動的に生成する。アドバイス生成部30は、アドバイスとしてテキストやイラスト、写真などで使用者にカメラ101の方や正面を向くようなメッセージを生成する。
 ここで、ステップS102からステップS103までの処理の具体例を以下に示す。
 (1)視線のプロット先を検出する。
 (2)検出した視線のプロット先と、自分が映っているカメラ映像(自分が映っているディスプレイ104の画面)とを比較する。
 (3)プロット先を自分が映っているディスプレイ104の画面の中で画面中央からどの程度離れているかを計測する。この計測は、先に示した基準とする画像の情報を利用すればよい。例えば、ディスプレイ104の中央を向いている場合の基準の画像と、ディスプレイ104の隅を見ている場合の基準の画像とから、視線のプロット先に対応したディスプレイ104上の視線の位置を計測する。
 (4)ディスプレイ104の画面中央からの距離の計測は、画面の画角全体の何%と計算してもよいし、解像度に応じて何画素(何ピクセル)分と定義してもよい。また、想定された視線範囲に対して中央から何%と計算してもよい。
 (5)仮に視線のプロット先が画面中央にあった場合はアドバイスを出さない。
 (6)同じように画角中央から画面全体の例えば20%以下ならアドバイスを出さないなどを取り決める。逆に、例えば20%以上の距離が離れていた場合は、カメラの方に視線を向けるようアドバイスを生成する。この20%という割合は予め任意に決めることができる。また、ディスプレイ104の画面の外に視線がある場合は100%以上の数字をだすこともある。
 (7)アドバイスを出す際、視線のプロット先が画角の一定距離から離れている時間を計測し、ある一定時間以上の場合のみアドバイスを表示する。例えば5秒以上、画角中央から20%以上離れている場合はアドバイスを生成する判断をし、画角中央から20%以上離れていても5秒未満であればアドバイスを出さないようにする。この時間の設定は予め任意に決めることができる。
 なお、ステップS102からステップS103までの処理の具体例として、上記のように視線のプロット先からディスプレイ104上の視線のずれの距離を計測しなくても、ディスプレイ104の中央を見ている場合の画像や、カメラ101を見ている場合の画像を基準として、その基準の画像から視線や顔の向きがずれていることを一定時間以上継続した場合にアドバイスを生成すると判断してもよい。
<ステップS104>
 アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
 アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
 また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
 図3は、使用者が正面を見ているときの状態を示す模式図である。
 図4は、使用者が下を向いているときの状態を示す模式図である。
 図3に示す状態では、視線のベクトルは正面を向いている。一方、図4に示す状態では、視線のベクトルは下を向いている。
 画像解析部10は、カメラ101で取得した使用者の画像からカメラ101の画角中心に対する使用者の視線の方向を解析する。すなわち、画像解析部10は、図3および図4に示すようにカメラ101で取り込んだ使用者の顔の画像から視線のベクトルを検出し、使用者の画角中心に対する視線の方向を解析する。
 アドバイス生成部30は、画像解析部10で解析した使用者の視線の方向が画角中心に対して予め設定した範囲を超えてずれている場合に、視線をカメラ101に向けるアドバイスを生成する。また、視線がずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部40は、アドバイス生成部30で生成したアドバイスを使用者のディスプレイ104に表示する。
 例えば、図1に示すように、ディスプレイ104のアドバイスウインドウ104Wに「カメラを見て!」のようなテキストメッセージを表示する。これにより、使用者は、自分の顔の画像の視線の方向がカメラ101からずれていることを認識でき、カメラ101の方向を見るように視線を修正することができる。
 画像解析部10は、カメラ101で取得した使用者の画像からカメラ101の画角中心に対する使用者の顔の向き解析してもよい。例えば、図2のステップS102の処理で顔の向きのベクトルを検出し、カメラ101の画角中心に対する使用者の顔の向きのベクトルのずれを検出する。
 アドバイス生成部30は、画像解析部10で解析した使用者の顔の向きが画角中心に対して予め設定した範囲を超えてずれている場合に、顔をカメラ101に向けるアドバイスを生成する。また、顔の向きがずれている時間が一定時間を越えている場合にアドバイスを生成するようにしてもよい。アドバイス出力部40は、アドバイス生成部30で生成したアドバイスを使用者のディスプレイ104に表示する。
 例えば、ディスプレイ104のアドバイスウインドウ104Wに、「顔を上げて!」のようなテキストメッセージを表示する。これにより、例えば視線はカメラ101に向いていても、顔がカメラ101に向けられていない場合、顔をカメラ101の方向に向けるよう修正することができる。
 ディスプレイ104にアドバイスを表示する際、アドバイス出力部40は、画像解析部10で解析した視線の延長上付近となるディスプレイ104の位置にアドバイスを出力するようにしてもよい。例えば、画像解析部10で解析した視線の方向が使用者の向きで左下であった場合、ディスプレイ104の左下付近にアドバイスウインドウ104Wを表示して、そこにアドバイスを出力する。これにより、使用者が見ている方向(視線の延長上)に近いディスプレイ104の位置にアドバイスが表示され、使用者に迅速に気付かせることができる。
 オンライン会議において、対話を行う相手への印象を良くすることができない課題に対する一つの要因は、ディスプレイ104の中心とカメラ101の位置とが離れていることである。ディスプレイ104で対話を行う相手の顔や資料をみていると、ディスプレイ104の方向には向いているもののカメラ101の方を向いていないため、正面を向いているようにならず、目線や顔を伏せたような状態に映ったり、上から見上げるような印象を与えるよう映ったりすることが起こり得る。また、正面に実際の人がいない状況であったり、慣れないテレビ会議の状況に表情が硬くなったり、印象が悪くなるということもおこる。
 本実施形態によれば、視線や顔の向きをカメラ101で取り込んだ画像から解析し、アドバイスをディスプレイ104に自動的に表示することから、使用者に視線や顔の向きがずれていることを迅速に指摘することができる。これにより、オンライン会議システムなどの映像や音声の対話装置を使い、面接やお見合い、会議、セミナーなどの際に、視線や顔の向きのずれといったオンライン会議で生じやすい課題をいち早く修正でき、対話を行う相手への印象を良くすることができる。
 なお、オンライン会議中に使用者側のディスプレイ104の画面に表示される内容を相手方と共有する場合もある。このような画面共有の状態になった場合、アドバイス出力部40はアドバイスを相手方の情報処理装置100のディスプレイ104には表示させない処理を行ってもよい。具体的には、画面共有の状態になった場合、アドバイスウインドウ104Wを共有された画面の外(共有ウインドウの外)に表示する処理が挙げられる。アドバイス出力部40は、オンライン会議システムで画面共有の状態が設定された段階でアドバイスの出力を一旦停止し、画面共有の状態が解除された段階でアドバイスの出力を再開するようにしてもよい。これにより、画面共有の状態であってもアドバイスが必要な使用者のみにアドバイスが表示されることになる。
 また、アドバイス出力部40は、出力したアドバイスをネットワークNを介して記憶装置(ファイルサーバなど)に送信(保存)する処理を行ってもよい。これにより、オンライン会議が終了したあとで、使用者がオンライン会議の内容を記憶装置から読み出し、どのような状況のときにアドバイスが表示されたのかを振り返ることが可能となる。
 また、ステップS103の判断において、使用者がカメラ101の方や正面を向いている場合にアドバイスを生成するようにしてもよい。例えば、使用者がカメラ101の方や正面を向いている場合、「正面を向いています。そのままどうぞ。」などのメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の顔の向きに問題がない状態であることを知らせるようにしてもよい。
 また、使用者がカメラ101の方や正面を向いている場合、向いていない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
(第2実施形態)
 第2実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10がカメラ101で取得した使用者の画像情報を用いて、使用者の表情を解析する。表情の解析には、例えば、Microsoft社から提供されるFace APIなどを用いてもよい。その情報を元に、画像解析部10で使用者の表情の判断を行い、必要な時には表情の修正を促すようなアドバイスをアドバイス生成部30で生成し、アドバイス出力部40によってアドバイスを出力する。
 例えば、オンラインでの面接やお見合いの際、笑顔ではない期間が長ければ、笑顔になるように促す。会議中に怒りの表情がみられたら、平常な顔にもどるようにうながす。交渉などの時には驚きの表情をださないように促すなどである。その場が、面接や、お見合い、会議、交渉など、どのような場であるかといった情報を事前に入力しておいてもよいし、会話の内容から音声解析部20で判断してもよい。
(情報処理方法)
 図5は、第2実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS201>
 カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS202>
 画像解析部10による表情の検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の表情を検出する。
 表情の検出処理に関しては、アクションユニット(AU)と呼ばれる眉を下げる、眉の内側を上げる、眉の外側を上げる、上瞼を上げる、瞼を緊張させる、頬を上げる、瞼を閉じる、まばたく、ウインクする、鼻にしわを寄せる、上唇を上げる、下唇を上げる、唇端を下げる、唇を開く(は下げない)、顎を下げて唇を開く、口を大きく開く、下唇を下げる、唇を横に引っ張る、えくぼを作る、鼻唇溝を深める、唇端を引っ張りあげる、唇端を鋭く上げて頬を膨らます、唇をすぼめる、唇を突き出す、唇を固く閉じる、唇を押さえつける、唇を噛むなどの動作を検出し、その上で、例えば、頬をあげて、唇端を引っ張りあげるの組みあわせであれば、笑顔(喜び)を表すといった方法で検出していく。これらの手法には、ディープラーニングやAIの仕組みを用いてもよい。
<ステップS203>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
 表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
 ここでは、例えば、Amazon Rekognitionのサービスを利用した流れを示す。
(Amazon Rekognitionに関しては以下のURLを参照)
 https://aws.amazon.com/jp/about-aws/whats-new/2019/08/amazon-rekognition-improves-face-analysis/
 https://ledge.ai/2019-05-30-12904310615cefa2e89a156/
 上記のアクションユニット(AU)を用いたAIが組み込まれたAmazon Rekognitionのサービスを用いると、画像より、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱などの情報が出力される。
 この情報を元に、例えば、SMILING:笑顔の数字が予め設定された一定割合以下であって、予め設定された時間以上続いた場合には、アドバイスを生成する。数字の一例をあげると50%以下である時間が5分続いた場合には、笑顔になるようなアドバイスを生成する、などである。
 他にも、ANGRY:怒りの数値が予め設定された一定数値を超えた場合は、平常心を取り戻すようなアドバイスを生成する。
<ステップS204>
 アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。例えば、使用者の表情が硬いと判断した場合には表情を和らげるようなアドバイスを使用者のディスプレイ104に表示する。
 アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になる得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
 また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
 また、例えば、1分~30分といった時間の期間内に、現れることが望ましいと考えられる例えば笑顔の回数などを1回~100回などと規定しておき、その期間内に規定の回数の表情が現れなければ、笑顔など特定の表情をするように、イラストやテキストなどで促すようにしてもよい。
 また、ステップS203の判断において、使用者の表情が笑顔や穏やかな場合にアドバイスを生成するようにしてもよい。例えば、使用者の表情が笑顔である場合、「良い表情です。」のメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の表情に問題がない状態であることを知らせるようにしてもよい。
 また、使用者の表情が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
 本実施形態のようなアドバイス出力は、特にディスプレイ104に表示される自分の画像のウィンドウサイズが小さい場合、自分の映り方の確認し難いために有効である。
(第3実施形態)
 第3実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10がカメラ101で取得した使用者の画像情報を用いて、使用者の表情を解析するとともに、相手方の情報処理装置100のカメラ101で取得した相手方の画像情報を用いて、使用者の情報処理装置100の画像解析部10が相手方の表情を解析する。表情の解析には、例えば、Microsoft社から提供されるFace APIなどを用いてもよい。第3実施形態では、使用者の表情の解析結果と、相手方の表情の解析結果とに基づき、使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
 例えば、相手方の表情に笑顔が多く、使用者の表情に笑顔が少ない場合には、使用者に笑顔を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときは、使用者にも真剣な表情を返すようなアドバイスを出力する。また、相手方が真剣な表情をしているときに使用者に笑顔が見受けられる場合には、笑顔をやめるように促すアドバイスを出力する。
(情報処理方法)
 図6は、第3実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS301>
 カメラ101による撮像処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、または、USB等の端子、もしくは無線によって接続されたカメラ101によって使用者の画像を取り込む。
<ステップS302>
 画像解析部10による使用者の表情の検出処理を行う。画像解析部10は、カメラ101で取り込んだ使用者の画像から、使用者の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS303>
 相手方の情報処理装置100のカメラ101による撮像処理を行う。相手方のカメラ101で撮像した相手方の画像はネットワークを介して使用者の情報処理装置100に送られる。
<ステップS304>
 画像解析部10による相手方の表情の検出処理を行う。画像解析部10は、相手方の情報処理装置100からネットワークNを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS305>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した使用者の表情の情報および相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
 表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
 第2実施形態と同様の方法で、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
 この表情の認識を双方の画像で行い、表情の組み合わせが行われる。この組み合わせの中には、表情のどの数字も低い、いわゆる「無表情」の状態も含まれる。
 例えば、一方が笑顔であり、他方が無表情の時間が一定時間続いた場合には無表情の側に笑顔になることを促すアドバイスを生成する。この場合、一例を挙げると、一方の側はSMILING:笑顔の割合が60%以上であり、他方の側の無表情はどの数値も30%以下である状態が30秒続いた場合にアドバイスを生成する。
<ステップS306>
 アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
 アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイス生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
 また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
 オンライン会議を行っている状態で、例えば、相手方が嫌悪や怒り、疑問などの表情を表したときには、使用者の発言が相手の意図にそぐわない可能性や、意図が伝わっていない可能性があると考えられる。使用者の情報処理装置100の画像解析部10は、相手方の画像から相手方の表情を読み取り、使用者の情報処理装置100のディスプレイ104に状況に適したアドバイスを出力する。例えば、使用者に疑問点がないかを聞いてみる、発言の訂正を促すなどのメッセージを表示してもよい。
 また、画像解析部10は、相手方の笑顔の回数と、自分(使用者)の笑顔の回数とを比較し、例えば1.2倍以上などある一定以上の比率差がある場合には、アドバイス生成部30によって自分(使用者)に笑顔を促すイラストやメッセージを生成し、アドバイス出力部40によってディスプレイ104に表示するようにしてもよい。逆に、自分の側に笑顔が多く、相手に笑顔が少ないときは、自分の笑顔も押さえて、真剣な会話になるように促すアドバイスを表示するようにしてもよい。
 また、笑顔だけではなく、怒りや嫌悪、恐怖、悲しみ、驚きなどの表情や、声のトーン、くびをかしげる、頷く、眉をつり上げるなどの動作から、相互の理解度や感情のずれを把握し、コミュニケーションが円滑になるようなアドバイスを生成してもよい。
(第4実施形態)
 第4実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、画像解析部10が相手方の情報処理装置100のカメラ101で取得した相手方の画像情報を用いて、相手方の表情を解析する。表情の解析は第2実施形態と同様である。その情報を元に、画像解析部10で相手方の表情の判断を行い、その判断結果に応じて使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
 例えば、相手方の表情に笑顔がある場合や、うなずいているなどの場合は、相手方に対して良い印象を与えていることを示すメッセージ(「その調子」「このままつづけて」など)を使用者の情報処理装置100のディスプレイ104に表示する。また、相手方の表情が曇っている場合や、首をかしげている場合は、使用者の情報処理装置100のディスプレイ104に注意を促すメッセージ(「理解してもらえていないかも」「理解できているか聞いてみて」など)を表示する。
(情報処理方法)
 図7は、第4実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS401>
 相手方の情報処理装置100のカメラ101による撮像処理を行う。相手方のカメラ101で撮像した相手方の画像はネットワークを介して使用者の情報処理装置100に送られる。
<ステップS402>
 画像解析部10による相手方の表情の検出処理を行う。画像解析部10は、相手方の情報処理装置100からネットワークを介して送られた相手方の画像から、相手方の表情を検出する。表情の検出処理は第2実施形態と同様である。
<ステップS403>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、画像解析部10で解析した相手方の表情の情報に基づき、表情に関するアドバイスを与えたほうがよと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に表情に関するメッセージを生成する。
 相手方の表情の検出に関しては、第2実施形態と同様なアクションユニットと、以下の処理とを組み合わせる。例えば、頷くなどの行為に関しては、顔の特定の位置、例えば顎や目の位置が、0.1秒から5秒などといった特定時間内に上下にゆれたことを判別することにより判断する。また、例えば、首をかしげる行為に関しては、顔の輪郭をとらえた上で、顔の中心線を決め、それが会議開始時より1°~30°など特定の角度傾いた場合に首をかげていると判断する。
 表情の認識とアドバイス生成部30が行う判断の具体例を以下に示す。
 第2実施形態と同様の方法で、SMILING:笑顔、HAPPY:幸せ、ANGRY:怒り、SURPRISED:驚き、SAD:悲しい、CALM:穏やか、CONFUSED:混乱といった情報が識別される。
 例えば、相手方が無表情の時間が一定時間続いた場合には、話の話題を変えることを促すようなアドバイスを生成する。この場合、一例を挙げると、相手方の表情はどの数値が30%以下である状態が30秒続いた場合にアドバイスを生成する。
 このような表情の検出を行った上で、相手方がうなずいている場合には、こちらの意見に同意を示している、または理解を示していると判断し、良い印象を与えているメッセージ(「その調子」「このままつづけて」など)をアドバイス生成部30で生成し、アドバイス出力部40によってディスプレイ104に表示する。また、首をかしげている場合は、疑問を持っている、または同意していないと判断し、注意を促すメッセージ(「理解してもらえていないかも」「理解できているか聞いてみて」など)を表示するようにしてもよい。
(第5実施形態)
 第5実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20がマイク102で取得した使用者の音声情報を用いて、話すスピードを解析する。そして、使用者の音声の解析結果に基づき、使用者の情報処理装置100のディスプレイ104にアドバイスを出力する。
 例えば、使用者の話すスピードが速すぎる、または遅すぎるなどを解析し、その解析結果に基づいて話すスピードをコントロールするためのアドバイスを出力する。アドバイスは、テキストやイラスト、写真などのメッセージとしてディスプレイ104に表示される(「もっとゆっくり話して」「もっと丁寧に話して」「もう少しスピードアップ」など)。話のスピード以外にも抑揚、滑舌などを判別して、それを修正するメッセージを提示することも含む。滑舌/スピード/抑揚の善し悪しを判別するには、音声をテキストに変換するソフトウエアの精度を用いてもよい。
(情報処理方法)
 図8は、第5実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS501>
 マイク102による集音処理を行う。すなわち、自分(使用者)の情報処理装置(コンピュータ等)に付属、またはUSB等の端子、もしくは無線によって接続されたマイク102により音声(使用者の声やノイズ成分を含む使用者側の音声情報)を入手する。
<ステップS502>
 音声解析部20による使用者の音声の解析処理を行う。音声解析部20は、マイク102で取り込んだ使用者の音声から、話し方のスピード、抑揚、滑舌などの使用者音声情報を検出する。そして、音声解析部20は、使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求める。
 話し方のスピード、抑揚、滑舌などの使用者音声情報および音声比較情報に関しては、例えば次のように検出する。例えば、滑舌に関しては5母音間の距離を判定し、その距離が一定以上近ければ、滑舌が悪い(音声比較情報)とする。また。スピードに関しては単位時間あたりのモーラ数(一定の時間的長さをもった音の分節単位)などを基準にする方法などがある。また、抑揚に関しては、例えば、音声の波形(使用者音声情報)から、その大きさと周波数を読み取り、一定値内かどうか(音声比較情報)で判断していく。
<ステップS503>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、音声解析部20で解析した使用者音声情報に基づき、話し方に関するアドバイスを与えたほうがよいと判断した場合にはアドバイスを生成する。アドバイス生成部30は、画像解析部10の解析結果に基づき、テキストやイラスト、写真などで使用者に話し方に関するメッセージを生成する。
 ここで、ステップS502からステップS503までの処理の具体例を以下に示す。
 滑舌を例にした場合には、
(1)5母音間の距離を判定する。
(2)予め決められた5母音間の距離と、得られた5母音間の距離を比較する。
 例えば、予め1秒と決められていれば、1秒未満か、1秒以上を判定する。
(3)予め決められた5母音間の距離以下であれば、アドバイスを生成する。
 このとき、今回の例では距離を時間として表したが、周波数などを使用してもよい。
 また、得られた5母音間の距離を予め決められた距離と比較する場合、一定時間の平均を利用したり、連続して複数回距離が短い場合のみアドバイスを生成したりするなどを行ってもよい。
 また、話すスピードにあたるモーラ数や、抑揚に関して音の大きさと周波数の場合も同じで、予め決められた規定の数字と、平均や連続する回数との比較を行いながら、アドバイスを生成していくことが挙げられる。
<ステップS504>
 アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキストやイラストなどのメッセージ)を使用者のディスプレイ104に出力する。
 アドバイス生成部30がアドバイスを繰り返し生成する場合は、そのアドバイスによって気が散る、意識が面接やお見合いに向かない、という状況になり得ることを考慮し、一定時間はアドバイスを生成しない、または表示しないなどを行うようにしてもよい。例えば、一度アドバイスを出力した場合、そのアドバイスの生成と表示は10秒間行われ、その後30秒間はアドバイスを表示しない期間を設けるようにしてもよい。
 また、音声のやりとりが続いている間は、アドバイスの生成や表示をせず、音声のやりとりが途切れたタイミングでアドバイスの生成や表示を行うようにしてもよい。
 第5実施形態では、例えば、事前にインプットした、規定のスピード範囲、規定の滑舌範囲、規定の抑揚範囲かを判断して、規定の範囲内でない場合は、修正を促すメッセージを生成する。その際、メッセージを出し続けるのではなく、1回のメッセージから次のメッセージまでの期間を決めておいてもよい。
 また、既存の音声認識システムでは、言葉を音素に分けて、その音素がどの言葉に近いかを判別し、一番近い音素を、正しい音素と判断するシステムが用いられている。例えば、「か」と発音したときに、「か」50%、「あ」30%、「さ」20%であれば、「か」と認識したと見なすなどである。ある音素を判別する際、確率を表すパーセントが、複数近かったり、多くの候補がでたりする状況であれば、相手も聞き取れないと判断して、修正を促すメッセージを生成するようにしてもよい。
 また、ステップS503の判断において、使用者の話し方のスピード、抑揚、滑舌などの使用者音声情報が音声比較情報に対して適正は範囲に入っている場合にアドバイスを生成するようにしてもよい。例えば、使用者の話し方が適切なスピードであった場合、「聞き取りやすい話し方です。」などのメッセージをアドバイスウインドウ104Wに表示したり、メッセージではなくディスプレイ104の所定位置にアイコン(例えば、青丸表示や青枠表示)を出力したりして、使用者の話し方に問題がない状態であることを知らせるようにしてもよい。
 また、使用者の話し方が好ましい場合、好ましくない場合のそれぞれに対応したアドバイスを出力するようにしてもよい。
(第6実施形態)
 第6実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて、その音声情報をテキストに変換し、アドバイス生成部30がそのテキストをアドバイスとして生成する。アドバイス出力部40は、テキストを使用者の情報処理装置100のディスプレイ104に出力する。これにより、オンライン会議において相手方との会話や質問の聞き逃しを抑制することができる。
 また、このときに相手方が話した内容を全てテキスト化しては表示するのではなく、一部の情報のみテキスト化してもよい。例えば、専門用語や重要となるキーワードのみをテキスト化して表示するなどである。また、予め設定されたデータベース(例えば、専門用語などを辞書登録したデータベース)に基づき抽出された用語を強調表示するアドバイスを生成してもよい。さらに、抽出された用語をインターネット検索して、用語の意味をアドバイスとして生成、表示したり、検索結果から関連する用語などを同時に表示したりしてもよい。
(情報処理方法)
 図9は、第6実施形態に係るオンライン会議サポートシステムの動作(情報処理方法)を例示するフローチャートである。以下、ステップごとに説明する。
<ステップS601>
 相手方の情報処理装置100のマイク102による音声の取得処理を行う。すなわち、相手方のパーソナルコンピュータ等に付属、またはUSB等の端子、もしくは無線を用いて接続されたマイク102により相手方の音声を入手する。
<ステップS602>
 音声解析部20による相手方の音声情報の検出処理を行う。音声解析部20は、相手方の情報処理装置100からネットワークを介して送られた相手方の音声情報をテキスト化する。この際、音声情報の全てをテキスト化してもよいし、音声情報からキーワードとなる言葉を抽出してテキスト化してもよい。
 音声認識に関しては、音響分析において、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさまざまな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換する。次に、音響モデルでは、音響分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算する。たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせる。さらに、言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立て、あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化する言語モデルで主に利用されるモデルが「隠れマルコフモデル」である。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義している。膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化する。さらに、発音辞書では、音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから、音の組み合わせをピックアップし、「単語」として認識させる。これらは、ディープラーニングやAIなどの技術を用いても良い。
<ステップS603>
 アドバイス生成部30は、アドバイスを生成するか否かの判断を行う。アドバイス生成部30は、音声解析部20でテキスト化した音声情報に基づき、そのテキストをアドバイスとして生成する判断を行う。
 アドバイス生成部30でテキスト全文を表示する場合、ディスプレイ104の画面上の指定の場所や、資料や相手の画像など何らかのソフトウエアやアプリケーションを表示していない場所に相手方の話した内容を表示していくことが好ましい。その際、カメラ部分に近い場所や、自分の視線が自分のカメラ画像中央を向くような場所に表示させるなども可能である。
 また、アドバイス生成部30でキーワードのみ抽出する場合は下記のような方法が考えられる。
 (1)専門用語辞典や専門用語集などを事前に収集、もしくはインターネット上のサービスを指定することにより得ることができる状態にしていく。
 (2)それらの情報と比較し、当てはまる場合には、テキスト表示をする。
 その際に、その前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。
 アドバイス生成部30でキーワードのみ抽出する場合のもう一つの方法は下記のようなものが挙げられる。
 (1)予め、一般的に使われる「私」や「御社」などの専門用語に当たらないであろう情報を抽出しておく。
 (2)この情報と比較し、上記専門用語に当てはまらないであろう単語を除去し、残った部分を専門用語として、アドバイス生成すると判断する。
 その際に、その専門用語にあたる前後の言葉を記憶しておき、その前後の言葉と一緒に、もしくは、その文節や文章単位で表示してもよい。
 さらに、専門用語だけではなく、会話をなり立たせる上で重要な言葉や文節を抽出することもできる。例えば、疑問形であると考えられる「~ですか?」という言葉や、文章の終わりの抑揚などを抽出する。
 相手方からの疑問形は、自分が答える必要があると考えられるため、その前後の言葉を記憶しておき、アドバイスの生成が必要であると判断してもよい。
 一例として、疑問形を抽出する例を挙げる。
 (1)音声を常にテキスト変換しておき、常に例えば直近5分間分を記憶しておく。
 (2)音声の抑揚(音声信号の周波数や大きさ)を読み取る。
 (3)音声の抑揚や、音声の語尾の言葉の状態から疑問文かどうかを判断する。
 (4)疑問文であった場合は、その疑問文の前にさかのぼり、文章の切れ目を探す。
 (5)その切れ目から、疑問文の語尾までの情報をテキストにアドバイス生成として表示する。
 このとき、その疑問文に対する答えが検索可能なのであれば、検索して表示してもよいし、模範解答を集めておき、それを同時に表示してもよい。
<ステップS604>
 アドバイス出力部40は、アドバイスを使用者のディスプレイ104に出力する。すなわち、アドバイス出力部40は、アドバイス生成部30で生成したアドバイス(テキスト化された情報)を使用者のディスプレイ104に出力する。
 例えば、相手方の音声ついて音声認識されたテキストデータをそのまま表示してもよいし、事前に一般的な会話で使われる言葉(たとえば、「はじめまして」や「御社」、「さて」など)を登録しておき、それをのぞいた専門用語のみを表示してもよい。また、疑問形(たとえば、語尾があがる、「~ですか?」などの言葉)を認識し、その疑問文のみを表示しても良い。
 また、専門用語などは、アドバイス生成部30がその言葉をインターネットで自動的に検索し、アドバイス出力部40がその検索結果をディスプレイ104に表示するようにしてもよい。
(第7実施形態)
 第7実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて、質問にあたる部分を抽出する。アドバイス生成部30は、音声解析部20で抽出された質問に対する応答をアドバイスとして生成する。相手方の質問に対する応答は、事前に登録されたものであってもよいし、ネットワーク上にある答えの例(模範解答、一般解答など)であってもよい。アドバイス出力部40は、アドバイス生成部30によって生成されたアドバイス(質問に対する応答)を使用者のディスプレイ104に出力する。これにより、オンライン会議の進行中に相手方から出された質問に対して、使用者はディスプレイ104に表示されたアドバイスを参照して応答することができる。
 処理の流れの一例を以下に挙げる。
 (1)前記の方法で、質問に当たる部分を抽出する。(例えば「志望動機は何ですか?」など)
 (2)その質問に対する単語や文脈から質問内容を把握する。(志望動機を聞かれていると把握する)
 (3)予め志望動機と紐付けて入力された言葉をアドバイスとして表示する。
 処理の流れの別の一例を以下に挙げる。
 (1)前記の方法で、質問に当たる部分を抽出する。(例えば「量子コンピュータの仕組みはどんなものですか?」など)
 (2)それに対して、インターネット上で、全文もしくは、単語を検索する。(例えば、「量子コンピュータ」と「仕組み」を検索する)
 (3)その結果をテキスト、またはWebサイトのリンクで表示する。
 オンライン会議において、対話相手からの質問に的確に答えることができないことや、相手の質問の意味が理解できない、でてくる単語が理解できない、といったことが起こりえる。本実施形態によれば、相手方との会話を解析して質問や用語に対するアドバイスを自動的に表示でき、円滑な会議を行うことができる。
(第8実施形態)
 第8実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、音声解析部20が相手方の情報処理装置100のマイク102で取得した相手方の音声情報を用いて時間に関する情報を検出する。アドバイス生成部30は、音声解析部20で検出した時間に関する情報に基づくアドバイスを生成する。アドバイス出力部40は、アドバイス生成部30によって生成されたアドバイスを使用者のディスプレイ104に出力する。
 時間に関する情報は、音声解析部20で解析された相手方の音声に時間に関する内容、例えば、「10分で話してください」「5、6分で話してください」などの時間に関する内容を含む音声の情報である。アドバイス生成部30は、音声解析部20で読み取った時間に関する情報をもとに、カウントダウンまたはカウントアップする時間情報をアドバイスとして生成する。アドバイス出力部40は、カウントダウンまたはカウントアップする時間情報をディスプレイ104に表示する。アドバイス出力部40は、時間情報を音や音声で出力してもよい。
 処理の流れの一例を以下に挙げる。
 (1)相手側の音声からを分析して、時間の情報を抽出する。(例えば、「5分で話してください」から、「5分」という情報を抽出する。)
 (2)その時間を、ディスプレイ104の画面上に表示する。
 (3)その時間から、例えば、1秒ごとにカウントダウンしてディスプレイ104に表示していく。(4分59秒、4分58秒、…など)
 (4)0秒になった時点でディスプレイ104に表示されるカウントダウンの表示の色を変えるなどによって知らせる。
 これにより、指定された時間内に話を終えることを意識させることができる。
(第9実施形態)
 第9実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、カメラ101によって取得した画像を用いて最適なセッティングの指導を行う。
 事前のセッティングを行う方法としては下記が挙げられる。
 (1)図10に示すように、ディスプレイ上にパソコンの高さなどの配置例が表示される。
 配置例はカメラの高さや向き、座る位置、カメラやパソコンからの距離などである。最適なカメラ101の高さや向きなどは、カメラ101で取り込んだ画像を解析して顔の映る範囲、視線から導き出したカメラ101の高さや向きの方向性(例えば、「もう少しカメラの位置を高くして」や「もう少しカメラを離して」など)を示すことができる。
 (2)図11に示すように、ディスプレイ104にガイドラインGLと、カメラに映った自分の画像を重ね合わせる。そのガイドラインGLにあった配置が推奨される配置となる。顔や体の輪郭のガイドだけではなく、目や鼻、口の位置が示されてもよい。
 (3)周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするようなメッセージやイラスト、写真などが表示される。
 (4)周囲の明るさや、顔の明るさなど、全体の明るさやコントラストを最適にするよう画像を調整する。
(第10実施形態)
 第10実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、面接や相手の情報を入力する。例えば、企業名や、相手の好きなもの、好きなこと、嫌いなこと、嫌いなもの、氏名、出身値、今の住まい、興味のあることなどである。その情報を元に事前もしくは、会議や面接、お見合いなどの実行中に情報がディスプレイ104に表示される。
 例えば、面接の際、企業名を入力しておけば、よくその企業がする質問や、業務内容などが表示される。また、お見合いの際に相手のすきなものを入力しておけば、それに関する情報がディスプレイ104の画面に表示されていくなどである。
 オンライン会議においては、対話相手に考えているとおりに話を伝えることができない場合や、当初予定していた話が思い出せなかったり、緊張のために言葉に出てこなかったりといったことが起こり得る。本実施形態によれば、事前準備した情報がディスプレイ104に適宜のタイミングで表示されるため、このような問題を解消してオンライン会議を円滑に進めることができるようになる。
(第11実施形態)
 第11実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、オンラインでの会話中に行う予定の質問をあらかじめ入力しておき、実際の会話中にその情報が表示される。
 表示されるタイミングは、はじめから表示されていてもよいし、本人がディスプレイ104の画面上をクリックしたタイミングで表示させてもよい。また、予め時間を入力しておき、その時間になったタイミングで表示させてもよい。また、別の方法としては相手の質問を促す音声を認識して、認識した結果に応じて表示させてもよい。
(第12実施形態)
 第12実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムを用いたオンライン会議の事前準備として、予め進行に関する情報を入力しておく。進行に関する情報としては、例えば、何分の予定で会議を行うという時間情報や、どの順番で何分頃に行うという手順に関する情報である。
 図12は、進行に関する情報の表示例を示す模式図である。
 実際のオンラインでの会話中に、情報処理装置100の時間情報、またはインターネットを介した時間情報を照らし合わせて、残り時間や次に行うことの情報がディスプレイ104のアドバイスウインドウ104Wに表示される。例えば、アドバイスウインドウ104Wには、時間情報(例えば、会議の残り時間や会議の手順およびその残り時間など)が表示される。
(第13実施形態)
 第13実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、使用者の情報処理装置100のディスプレイ104にアドバイスを表示するタイミングを調整する。
 例えば、会話中に使用者のディスプレイ104にテキストやイラスト等でアドバイス表示されると、そちらの方に視線が行き、考えや会話が中断してしまう恐れがある。これを防ぐために、音声解析部20によって音声を解析した結果を利用し、音声のやりとり、つまり会話が少ない期間に、会話をしている期間と比較して多くのアドバイスをアドバイス生成部30で生成し、アドバイス出力部40によってそのアドバイスを出力する。これにより、会話を中断させることなく、ディスプレイ104のアドバイスを見ることができるようになる。
 音声のやりとりの少ない期間に関しては、ノイズレベルの音声信号を除去した上で、例えば、0.5秒から1分といったある特定期間閾値を超える音声信号がない、または数が少ない場合に音声のやりとりが少ないと判断することができる。
(第14実施形態)
 第14実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、ディスプレイ104に表示されるテキストを、予め設定された言語で表示する。すなわち、ディスプレイ104には、表示すべきテキストとその翻訳文との少なくともいずれかが表示される。
 第14実施形態に係るオンライン会議サポートシステム1において、図1Bに示す音声解析部20は、マイク102で取り込んだ使用者の音声や、ネットワークNを介して送られる相手方の音声を認識してテキスト化する。テキスト化された音声は、アドバイス生成部30において予め設定された言語に自動的に翻訳される。翻訳言語は1つであってもよいし、複数であってもよい。
 アドバイス生成部30で翻訳された言語は、アドバイス出力部40によってディスプレイ104に表示される。アドバイス出力部40は、翻訳された言語のみをディスプレイ104に表示してもよいし、翻訳前の言語と翻訳された言語との両方をディスプレイ104に表示してもよい。
(第15実施形態)
 第15実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、複数のディスプレイ104を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のディスプレイ104にテキストなどのアドバイスを出力する。
 図13は、複数のディスプレイを用いた場合を例示する模式図である。
 使用者は、複数のディスプレイ104を並列に配置したり、ノート型コンピュータ(情報処理装置100)にディスプレイ104を接続したりして、マルチディスプレイを構築することがある。この場合、第15実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、カメラ101で取り込んだ使用者の画像から、使用者の視線の向きを検出する。
 アドバイス生成部30は、所定のアドバイスを生成するとともに、予め設定された視線の向きとディスプレイ104の位置との関係から、視線の向きに合ったディスプレイ104を選択する処理を行う。アドアイス出力部40は、アドバイス生成部30で選択されたディスプレイ104にアドバイスウインドウ104Wを出力する。これにより、マルチディスプレイを構築した場合であっても、使用者の視線の向きに合ったディスプレイ104にアドバイスウインドウ104Wを表示させることができる。
(第16実施形態)
 第16実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、複数のカメラ101を接続して使う場合、使用者の視線の位置に合わせて、その視線の先のカメラ101での撮像に自動的に切り換える処理を行う。
 第16実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、複数のカメラ101で取り込んだ使用者の画像のそれぞれから使用者の視線の向き検出する。
 アドバイス生成部30は、検出した使用者の視線の向きに合った(視線の向きが最も正面に近い)カメラ101を選択する処理を行う。オンライン会議サポートシステム1は、アドバイス生成部30で選択されたカメラ101の映像を、ネットワークNを介して相手先に送信する。
 例えば、図13に示すマルチディスプレイ構成において、それぞれのディスプレイ104の中央上にカメラ101が設けられている場合、使用者がノート型コンピュータ(情報処理装置100)のディスプレイ104に表示された資料を見ているときはノート型コンピュータ(情報処理装置100)のカメラ101で撮影された画像が自動的に選択され、使用者がノート型コンピュータ(情報処理装置100)に接続された別のディスプレイ104を見ているときはこのディスプレイ104に設けられたカメラ101で撮影された画像が自動的に選択される。このようなカメラ101の自動切り替えによって、複数のカメラ101を用いた場合であっても、使用者の視線の向きに合ったカメラ104が自動的に選択されて、常に正面を向いた映像を相手方に送ることができる。
(第17実施形態)
 第17実施形態に係るオンライン会議サポートシステム1では、図1Aに示すオンライン会議システムおよび図1Bに示すブロック構成において、使用者がその方向に指さす、顔を向ける、といった特定の動作(ジェスチャーなど)をすることで、その特定の動作に応じてカメラ101の撮像領域をズームしたり、パンしたり、フォーカスを合わせたりする動作を行う。
 例えば、使用者はホワイトボード、黒板、資料の付箋で示された箇所などを説明したい場合、カメラ101でその箇所を撮像して相手方に送りたいことがある。この場合、第17実施形態に係るオンライン会議サポートシステム1では、図1Bに示す画像解析部10において、予め設定された特定の動作を検出すると、カメラ101の撮像領域を制御する。
 例えば、カメラ101で取り込んだ使用者の画像から、使用者が指さす動作を検知した場合、その指さす位置にカメラ101をズームしたり、パンしたり、フォーカスを合わせたりする。ズームやパンは電式的に行ってもよいし、機械的に行ってもよい。また、カメラ101で取り込んだ使用者の画像から、使用者の顔の向きを検出し、検出した顔の向きにカメラ101をパンしてもよい。
 これにより、例えば、使用者の背景にホワイトボードが配置され、そこに使用者が説明書きなどを書き込んだ場合、使用者の顔の向きや、指さしの動作によって、カメラ101の撮像領域が自動的に注目させた位置に制御される。使用者の特定の動作は、指さしに限定されず、予め設定された特定のジェスチャーによって各種の制御(カメラ101の撮像の制御、オンライン会議サポートシステム1の動作制御など)を行うようにしてもよい。
 また、カメラ101で取り込んだ使用者の特定の動作に加え、マイク102で取り込んだ使用者の音声から特定のキーワード(例えば、「ここをズーム」、「ここにパン」、「ここにフォーカス」という言葉)を認識した場合、カメラ101の撮像領域の制御を行うようにしてもよい。
(付加機能)
 前述の各実施形態に係るオンライン会議サポートシステム1においては、下記のような機能の少なくともいずれかを付加してもよい。
 (1)テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、表情や音声が認識された直後(例えば、30秒以内)に行われる。
 (2)テキストやイラストなどの表示、音声や振動による通知は、オンラインでの会議/面接/面談/お見合いの途中で、かつ、会話や会議の妨げにならない、会話がなされていない、または、画像が動いていない期間に行われる(例えば、0.1秒から10分)。
 (3)会議の事前準備として、会議開催前(オンラインで相手と繋がる前)に、音声や顔の位置、表情を認識してアドバイスを与える。
 (4)会議の振り返りや反省として、会議開催後(オンラインで相手との通信が途切れた後)にアドバイスを与える。
 (5)カメラ101で取り込んだ画像から背景に映っている物を抽出し、会議に適さないと思われる物が映っている場合にアドバイスを与える。例えば、背景の画像から文字を抽出した場合、「背景に○○の文字が映っています。」などのメッセージを出力する。また、背景の画像から動きのある物を抽出した場合、「背景に動いているものが映っています。」などのメッセージを出力する。例えば、会議中に部屋にペットが入り込んで背景に映り込んだ場合、このようなメッセージを出力して使用者に認識させることができる。
 (6)マイク102で取り込んだ音声情報からノイズ成分を抽出し、ある一定レベル以上のノイズ成分が一定時間以上続く場合、「ノイズ音が含まれています。」などのメッセージを出力する。
(オンライン会議サポートプログラム)
 上記説明したオンライン会議サポートシステム1は、オンライン会議サポートプログラムとして適用可能である。オンライン会議サポートプログラムは、コンピュータに以下のステップを実行させる。
 (1)カメラ101で取り込んだ使用者の画像を解析する画像解析ステップ
 (2)マイク102で取り込んだ使用者の音声を解析する音声解析ステップ
 (3)画像解析ステップおよび音声解析ステップで解析した結果に基づき使用者に対するアドバイスを生成するアドバイス生成ステップ
 (4)アドバイス生成ステップで生成したアドバイスを使用者のディスプレイ104に出力するアドバイス出力ステップ
 オンライン会議サポートプログラムは、各種の情報処理装置(コンピュータ、タブレット端末、携帯電話等)で実行されるアプリケーションソフトウェアとして構成することができる。オンライン会議サポートプログラムは、媒体に記憶されていてもよいし、ネットワークを介して配信されてもよい。オンライン会議サポートプログラムは、オンライン会議を行うアプリケーションソフトウェアに組み込まれてもよいし、プラグインなどで後から追加で組み込むことができるようになっていてもよい。
 以上説明したように、本実施形態によれば、オンライン会議システムの使用者に対してオンライン会議特有の注意点や利点に基づくアドバイスを与えることができるオンライン会議サポートシステム1およびオンライン会議サポートプログラムを提供することが可能になる。
 なお、上記に本実施形態およびその適用例を説明したが、本発明はこれらの例に限定されるものではない。例えば、本実施形態に係るオンライン会議サポートシステム1を構成する画像解析部10、音声解析部20、アドバイス生成部30およびアドバイス出力部40の少なくともいずれかは情報処理装置100の外部に設けられ、ネットワークNを介して情報処理装置100と接続される構成になっていてもよい。また、前述の各実施形態またはその適用例に対して、当業者が適宜、構成要素の追加、削除、設計変更を行ったものや、各実施形態の特徴を適宜組み合わせたものも、本発明の要旨を備えている限り、本発明の範囲に包含される。
 本発明に係るオンライン会議サポートシステム1およびオンライン会議サポートプログラムは、オンライン会議のほか、オンライン面接、オンラインセミナー、オンライン授業、オンライン商談など、オンラインで使用者および相手方の双方で情報の送受信を行うシステムに好適に利用可能である。
1…オンライン会議サポートシステム
10…画像解析部
20…音声解析部
30…アドバイス生成部
40…アドバイス出力部
100…情報処理装置
101…カメラ
102…マイク
103…スピーカ
104…ディスプレイ
104W…アドバイスウインドウ
GL…ガイドライン
N…ネットワーク
 

Claims (19)

  1.  カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートシステムであって、
     前記カメラで取り込んだ前記使用者の画像を解析する画像解析部と、
     前記マイクで取り込んだ前記使用者の音声を解析する音声解析部と、
     前記画像解析部および前記音声解析部の少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成部と、
     前記アドバイス生成部で生成された前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力部と、
     を備えたことを特徴とするオンライン会議サポートシステム。
  2.  前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の顔の向き解析し、
     前記アドバイス生成部は、前記画像解析部で解析した前記顔の向きが一定時間を越えて基準の向きから外れている場合に顔を前記カメラに向けるアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  3.  前記画像解析部は、前記使用者の前記画像から前記カメラの画角中心に対する前記使用者の視線の方向を解析し、
     前記アドバイス生成部は、前記画像解析部で解析した前記視線の方向が一定時間を越えて基準の方向から外れている場合に視線を前記カメラに向けるアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  4.  前記アドバイス出力部は、前記画像解析部で解析した前記視線の延長上付近となる前記ディスプレイの位置に前記アドバイスを出力する、請求項3記載のオンライン会議サポートシステム。
  5.  前記画像解析部は、前記使用者の前記画像から前記使用者の表情を解析し、
     前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情に基づくアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  6.  前記画像解析部は、オンラインで送信される相手方の画像から前記相手方の表情を解析し、
     前記アドバイス生成部は、前記画像解析部で解析した前記使用者の表情と、前記相手方の表情との相違に基づくアドバイスを生成する、請求項5記載のオンライン会議サポートシステム。
  7.  前記音声解析部は、前記使用者の音声を解析した使用者音声情報と、予め設定された基準音声情報とを比較して音声比較情報を求め、
     前記アドバイス生成部は、前記音声解析部で求めた前記音声比較情報に基づくアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  8.  前記音声解析部は、オンラインで送信される相手方の音声から前記音声に対応したテキストデータを解析し、
     前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータを前記アドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  9.  前記アドバイス生成部は、前記音声解析部で解析した前記テキストデータから予め設定されたデータベースに基づき抽出された用語を強調表示するアドバイスを生成する、請求項8記載のオンライン会議サポートシステム。
  10.  前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
     前記アドバイス生成部は、前記入力手段で入力された前記用語の意味をインターネットで検索して、検索結果をアドバイスとして生成する、請求項9記載のオンライン会議サポートシステム。
  11.  前記音声解析部は、前記使用者の音声から話している内容が質問であるか否かを解析し、
     前記アドバイス生成部は、前記音声解析部で解析した音声の内容が質問であった場合、前記質問に対する回答をインターネット検索して、検索結果をアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  12.  前記音声解析部は、前記使用者の音声から前記使用者の会話時間を解析し、
     前記アドバイス生成部は、前記会話時間に基づくカウントアップ時間またはカウントダウン時間をアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  13.  前記アドバイス出力部は、前記音声解析部によって解析した前記使用者と相手方との音声のやりとりが少ない期間または音声のやりとりが途絶えた期間に、アドバイス出力をする、請求項1記載のオンライン会議サポートシステム。
  14.  前記画像解析部は、オンライン会議における前記カメラの最適な撮影領域と撮影位置とを示すガイドを前記ディスプレイに表示し、
     前記アドバイス生成部は、前記カメラで取得した前記使用者の画像の領域および位置と前記ガイドとの比較結果に基づき前記使用者に対するアドバイスを生成する、請求項1記載のオンライン会議サポートシステム。
  15.  前記画像解析部は、前記カメラで取得した前記使用者の画像に基づき画質を解析する、請求項1記載のオンライン会議サポートシステム。
  16.  前記情報処理装置は、前記使用者からの入力を受け付ける入力手段を有し、
     前記アドバイス生成部は、前記入力手段で受け付けた前記使用者の会議に使用する事前の情報を、会議における所定のタイミングでアドバイスとして生成する、請求項1記載のオンライン会議サポートシステム。
  17.  オンライン会議中に前記使用者の前記ディスプレイに表示される内容を相手方と共有した際、前記アドバイス出力部は前記アドバイスを前記相手方のディスプレイに表示させない処理を行う、請求項1記載のオンライン会議サポートシステム。
  18.  前記アドバイス出力部は、出力した前記アドバイスをネットワークを介して記憶装置に送信する処理を行う、請求項1記載のオンライン会議サポートシステム。
  19.  カメラ、マイク、スピーカおよびディスプレイを有する情報処理装置を使用するオンライン会議システムにおいて使用者のサポートを行うオンライン会議サポートプログラムであって、
     コンピュータに、
     前記カメラで取り込んだ前記使用者の画像を解析する画像解析ステップと、
     前記マイクで取り込んだ前記使用者の音声を解析する音声解析ステップと、
     前記画像解析ステップおよび前記音声解析ステップの少なくともいずれかで解析した結果に基づき前記使用者に対するアドバイスを生成するアドバイス生成ステップと、
     前記アドバイス生成ステップで生成した前記アドバイスを前記使用者の前記ディスプレイに出力するアドバイス出力ステップと、
     を実行させることを特徴とするオンライン会議サポートプログラム。
     
PCT/JP2021/039102 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム WO2022091970A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022519156A JP7231301B2 (ja) 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020180257 2020-10-28
JP2020-180257 2020-10-28

Publications (1)

Publication Number Publication Date
WO2022091970A1 true WO2022091970A1 (ja) 2022-05-05

Family

ID=81383874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/039102 WO2022091970A1 (ja) 2020-10-28 2021-10-22 オンライン会議サポートシステムおよびオンライン会議サポートプログラム

Country Status (2)

Country Link
JP (1) JP7231301B2 (ja)
WO (1) WO2022091970A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185393A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2006186933A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2012054897A (ja) * 2010-09-03 2012-03-15 Sharp Corp 会議システム、情報処理装置、及び情報処理方法
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5888370B2 (ja) * 2014-07-04 2016-03-22 沖電気工業株式会社 情報処理装置、情報処理方法、プログラムおよび情報処理システム
JP7180228B2 (ja) * 2018-09-20 2022-11-30 いすゞ自動車株式会社 車両用監視装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185393A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2006186933A (ja) * 2004-12-28 2006-07-13 Oki Electric Ind Co Ltd 情報端末装置
JP2012054897A (ja) * 2010-09-03 2012-03-15 Sharp Corp 会議システム、情報処理装置、及び情報処理方法
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム

Also Published As

Publication number Publication date
JP7231301B2 (ja) 2023-03-01
JPWO2022091970A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
CN115413348B (zh) 用于自动验证和量化面试问题回答的系统和方法
JP5195106B2 (ja) 画像修正方法、画像修正システム、及び画像修正プログラム
US20140129207A1 (en) Augmented Reality Language Translation
JP2018124604A (ja) 接客支援システム、接客支援装置及び接客支援方法
JP7279494B2 (ja) 会議支援装置、および会議支援システム
US20050131744A1 (en) Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
CN113052085A (zh) 视频剪辑方法、装置、电子设备以及存储介质
JP2020173714A (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
KR102412823B1 (ko) 번역 기능을 제공하는 실시간 양방향 온라인 회의 시스템
JP4077656B2 (ja) 発言者特定映像装置
US20050131697A1 (en) Speech improving apparatus, system and method
WO2022091970A1 (ja) オンライン会議サポートシステムおよびオンライン会議サポートプログラム
JP7096626B2 (ja) 情報抽出装置
JP7197957B2 (ja) 反応解析システムおよび反応解析装置
KR20160122869A (ko) 로봇 팔을 이용한 언어 변환이 가능한 장치
KR102278162B1 (ko) 사용자와 상호작용하는 스피치 보조 로봇의 동작 방법
JP2023097789A (ja) ビデオ会議分析システムおよびビデオ会議分析プログラム
JP2022075661A (ja) 情報抽出装置
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
JP2019086858A (ja) 顧客応対システム及び顧客応対方法
JP6285377B2 (ja) コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム
JP2003228449A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
WO2023095474A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022519156

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21886088

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21886088

Country of ref document: EP

Kind code of ref document: A1