WO2022145038A1 - ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム - Google Patents

ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム Download PDF

Info

Publication number
WO2022145038A1
WO2022145038A1 PCT/JP2020/049293 JP2020049293W WO2022145038A1 WO 2022145038 A1 WO2022145038 A1 WO 2022145038A1 JP 2020049293 W JP2020049293 W JP 2020049293W WO 2022145038 A1 WO2022145038 A1 WO 2022145038A1
Authority
WO
WIPO (PCT)
Prior art keywords
evaluation
video meeting
moving image
emotion
voice
Prior art date
Application number
PCT/JP2020/049293
Other languages
English (en)
French (fr)
Inventor
渉三 神谷
Original Assignee
株式会社I’mbesideyou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社I’mbesideyou filed Critical 株式会社I’mbesideyou
Priority to PCT/JP2020/049293 priority Critical patent/WO2022145038A1/ja
Priority to JP2022517918A priority patent/JPWO2022145038A1/ja
Publication of WO2022145038A1 publication Critical patent/WO2022145038A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]

Definitions

  • This disclosure relates to a video meeting evaluation terminal, a video meeting evaluation system, and a video meeting evaluation program.
  • Patent Document 1 a system for teaching some knowledge online or giving explanations is known (see, for example, Patent Document 1).
  • the method of measuring the effect by the above-mentioned questionnaire tends to be subjective, and it is insufficient as a method of objectively measuring the effect of the content of the video meeting.
  • an object of the present invention is to objectively evaluate the content of a video meeting in particular.
  • An acquisition method for acquiring moving images of video meetings held with other terminals A face recognition means for recognizing at least a face image of a target person included in the moving image for each predetermined frame unit.
  • An evaluation means for calculating an evaluation value from a plurality of viewpoints based on both the voice recognition means for recognizing at least the voice of the target person included in the moving image and the recognized face image and the voice, and an evaluation means.
  • a graph output means that outputs the evaluation value for each viewpoint as graph information along a time series.
  • a video meeting evaluation terminal is obtained.
  • the acquired moving image since it is assumed that the acquired moving image is stored in the terminal, it is analyzed and evaluated on the terminal, and the result is provided to the user of the terminal. Therefore, for example, even if it is a video meeting containing personal information or a video meeting containing confidential information, the video itself can be analyzed and evaluated without providing it to an external evaluation company or the like.
  • the present disclosure comprises the following configurations.
  • An acquisition method for acquiring moving images of video meetings held with other terminals A face recognition means for recognizing at least a face image of a target person included in the moving image for each predetermined frame unit.
  • An evaluation means for calculating an evaluation value from a plurality of viewpoints based on both the voice recognition means for recognizing at least the voice of the target person included in the moving image and the recognized face image and the voice, and an evaluation means.
  • a graph output means that outputs the evaluation value for each viewpoint as graph information along a time series.
  • Video meeting evaluation terminal [Item 2] The video meeting evaluation terminal according to claim 1.
  • the graph output means outputs the evaluation value of the subject recognized in the moving image.
  • Video meeting evaluation terminal [Item 3] The video meeting evaluation terminal according to claim 1 or 2. Further, it is provided with a target person extraction means for extracting one or more target person moving images including the target person from a plurality of the moving images by using at least one of the face recognition means or the voice recognition means.
  • the graph output means outputs the evaluation values calculated for each object moving image in a listable manner.
  • Video meeting evaluation terminal [Item 4] The video meeting evaluation terminal according to any one of claims 1 to 3.
  • the graph output means outputs as a line graph for each viewpoint.
  • Video meeting evaluation terminal [Item 5] The video meeting evaluation terminal according to any one of claims 1 to 4.
  • the graph output means is a video meeting evaluation terminal that displays the graph information displayed as different colors for each viewpoint.
  • the video meeting evaluation terminal according to any one of claims 1 to 5.
  • the evaluation means evaluates the degree of emotion of the subject according to the evaluation criteria leveled among the plurality of subjects, and evaluates the degree of emotion of the subject.
  • the graph output means outputs the degree of emotion for each type of emotion.
  • the evaluation means is the degree of emotion based on the magnitude of the difference in the current biological reaction with respect to the biological reaction in normal times, and the degree of emotion adjusted according to the likelihood of the same emotion being generated by the subject. Evaluate and The graph output means outputs the adjusted emotional degree for each emotion type.
  • Video meeting evaluation terminal [Item 8] The video meeting evaluation terminal according to claim 6.
  • the evaluation means calculates an emotional response absolute value, which is a value adjusted according to the likelihood of the same emotion being generated by the subject.
  • the graph output means outputs the absolute emotional response value for each type of emotion.
  • Video meeting evaluation terminal. [Item 9] Computer, An acquisition method for acquiring moving images of video meetings held with other terminals, A face recognition means that recognizes at least a face image of a target person included in the moving image for each predetermined frame unit. A voice recognition means for recognizing at least the voice of the subject included in the moving image An evaluation means for calculating an evaluation value from a plurality of viewpoints based on both the recognized face image and the voice.
  • a video meeting evaluation program that functions as a graph output means that outputs the evaluation values for each viewpoint as graph information along a time series.
  • the video meeting evaluation system of the present embodiment (hereinafter, may be simply referred to as “this system”) is used in an environment where a video meeting (hereinafter, referred to as an online session including one-way and two-way) is held by a plurality of people. It is a system that analyzes and evaluates specific emotions (feelings that occur for oneself or others' words and actions, such as comfort / discomfort or the degree thereof) of the person to be analyzed in a person.
  • An online session is, for example, an online conference, an online class, an online chat, etc., in which terminals installed in multiple locations are connected to a server via a communication network such as the Internet, and moving images are transmitted between the terminals through the server. It is designed to be able to communicate.
  • the moving images handled in the online session include the face image and voice of the user who uses the terminal.
  • the moving image also includes an image such as a material shared and viewed by a plurality of users. It is possible to switch between the face image and the material image on the screen of each terminal to display only one of them, or to divide the display area and display the face image and the material image at the same time. Further, it is possible to display the image of one of a plurality of people on the full screen, or to display the image of a part or all of the users on a small screen.
  • the leader, facilitator, or administrator of an online session designates any user as the analysis target.
  • Organizers of online sessions include, for example, instructors of online classes, chairs and facilitators of online conferences, and coaches of sessions for coaching purposes.
  • the organizer of an online session is usually one of a plurality of users who participate in the online session, but may be another person who does not participate in the online session.
  • all the participants may be the analysis target without designating the analysis target person.
  • the leader, facilitator, or administrator of the online session (hereinafter collectively referred to as the organizer) to specify any user as the analysis target.
  • Organizers of online sessions include, for example, instructors of online classes, chairs and facilitators of online conferences, and coaches of sessions for coaching purposes.
  • the organizer of an online session is usually one of a plurality of users who participate in the online session, but may be another person who does not participate in the online session.
  • the video meeting evaluation system displays at least a moving image acquired from the video meeting when the video meeting session is established between a plurality of terminals.
  • the displayed moving image is acquired by the terminal, and at least the facial image contained in the moving image is identified for each predetermined frame unit. After that, the evaluation value for the identified facial image is calculated.
  • the evaluation value is shared as necessary.
  • the acquired moving image is stored in the terminal, analyzed and evaluated on the terminal, and the result is provided to the user of the terminal. Therefore, for example, even a video meeting containing personal information or a video meeting containing confidential information can be analyzed and evaluated without providing the video itself to an external evaluation organization or the like. Further, by providing only the evaluation result (evaluation value) to the external terminal as needed, the result can be visualized, cross analysis, or the like can be performed.
  • the video meeting evaluation system has user terminals 10 and 20 having at least an input unit such as a camera unit and a microphone unit, a display unit such as a display unit, and an output unit such as a speaker. It also includes a video meeting service terminal 30 that provides bidirectional video meetings to user terminals 10 and 20, and an evaluation terminal 40 that performs a part of evaluation related to the video meeting.
  • FIG. 2 is a diagram showing a hardware configuration example of a computer that realizes each of the terminals 10 to 40 according to the present embodiment.
  • the computer includes at least a control unit 110, a memory 120, a storage 130, a communication unit 140, an input / output unit 150, and the like. These are electrically connected to each other through the bus 160.
  • the control unit 110 is an arithmetic unit that controls the operation of each terminal as a whole, controls the transmission and reception of data between each element, and performs information processing necessary for application execution and authentication processing.
  • the control unit 110 is a processor such as a CPU, and executes each information processing by executing a program or the like stored in the storage 130 and expanded in the memory 120.
  • the memory 120 includes a main storage configured by a volatile storage device such as a DRAM and an auxiliary storage configured by a non-volatile storage device such as a flash memory or an HDD.
  • the memory 120 is used as a work area or the like of the control unit 110, and also stores a BIOS executed when each terminal is started, various setting information, and the like.
  • the storage 130 stores various programs such as application programs.
  • a database storing data used for each process may be built in the storage 130.
  • the moving image in the online session is not recorded in the storage 130 of the video meeting service terminal 30, but is stored in the storage 130 of the user terminal 10.
  • the evaluation terminal 40 stores applications and other programs necessary for evaluating the moving image acquired on the user terminal 10, and provides the user terminal 10 as appropriate so that it can be used.
  • the storage 13 managed by the evaluation terminal 40 may share, for example, only the evaluation result as a result of analysis by the user terminal 10.
  • the communication unit 140 connects the terminal to the network.
  • the communication unit 140 connects directly to an external device or a network access point by, for example, a wired LAN, a wireless LAN, Wi-Fi (registered trademark), infrared communication, Bluetooth (registered trademark), short-range or non-contact communication, or the like. Communicate via.
  • the input / output unit 150 is, for example, an information input device such as a keyboard, a mouse, and a touch panel, and an output device such as a display.
  • the bus 160 is commonly connected to each of the above elements and transmits, for example, an address signal, a data signal, and various control signals.
  • the evaluation terminal acquires a moving image from the video meeting service terminal, identifies at least the facial image contained in the moving image for each predetermined frame unit, and calculates the evaluation value for the facial image.
  • the video meeting service provided by the video meeting service terminal (hereinafter, may be simply referred to as “the service”) is bidirectionally imaged and voiced with respect to the user terminals 10 and 20. Communication is possible.
  • This service displays a moving image acquired by the camera unit of the other user terminal on the display of the user terminal, and can output the sound acquired by the microphone unit of the other user terminal from the speaker.
  • this service may record (record) moving images and audio (collectively referred to as “moving images, etc.”) in a storage unit on at least one of the user terminals by either or both user terminals. It is configured to be possible.
  • the recorded moving image information Vs (hereinafter referred to as “recording information”) is cached in the user terminal that started recording and is recorded only locally in one of the user terminals. If necessary, the user can view the recorded information by himself / herself within the scope of using this service, share it with others, and so on.
  • the user terminal 10 evaluates the moving image acquired as described above by the following analysis.
  • FIG. 4 is a block diagram showing a configuration example according to the present embodiment.
  • the video meeting evaluation system of the present embodiment is realized as a functional configuration of the user terminal 10. That is, the user terminal 10 includes a moving image acquisition unit 11, a biological reaction analysis unit 12, a peculiarity determination unit 13, a related event identification unit 14, a clustering unit 15, and an analysis result notification unit 16 as its functions.
  • Each of the above functional blocks 11 to 16 can be configured by any of hardware, DSP (Digital Signal Processor), and software provided in the user terminal 10, for example.
  • DSP Digital Signal Processor
  • each of the above functional blocks 11 to 16 is actually configured to include a computer CPU, RAM, ROM, etc., and is a program stored in a recording medium such as RAM, ROM, a hard disk, or a semiconductor memory. Is realized by the operation of.
  • the moving image acquisition unit 11 acquires a moving image obtained by shooting a plurality of people (multiple users) with a camera provided in each terminal during an online session. It does not matter whether the moving image acquired from each terminal is set to be displayed on the screen of each terminal. That is, the moving image acquisition unit 11 acquires the moving image from each terminal, including the moving image being displayed on each terminal and the moving image being hidden.
  • the biological reaction analysis unit 12 analyzes changes in the biological reaction of each of a plurality of people based on the moving image (whether or not it is displayed on the screen) acquired by the moving image acquisition unit 11.
  • the biological reaction analysis unit 12 separates the moving image acquired by the moving image acquisition unit 11 into a set of images (a collection of frame images) and a voice, and analyzes changes in the biological reaction from each.
  • the biological reaction analysis unit 12 analyzes the user's face image using the frame image separated from the moving image acquired by the moving image acquisition unit 11, and thereby at least one of the facial expression, the line of sight, the pulse, and the movement of the face. Analyze changes in biological reactions related to one. In addition, the biological reaction analysis unit 12 analyzes changes in the biological reaction regarding at least one of the user's speech content and voice quality by analyzing the voice separated from the moving image acquired by the moving image acquisition unit 11.
  • the biological reaction analysis unit 12 calculates the biological reaction index value reflecting the content of the change in the biological reaction by quantifying the change in the biological reaction according to a predetermined standard.
  • Analysis of changes in facial expressions is performed, for example, as follows. That is, for each frame image, a facial area is specified from the frame image, and the specified facial expressions are classified into a plurality of types according to an image analysis model trained in advance by machine learning. Then, based on the classification result, it is analyzed whether a positive facial expression change occurs between consecutive frame images, a negative facial expression change occurs, and how large the facial expression change occurs. The facial expression change index value according to the analysis result is output.
  • Analysis of changes in the line of sight is performed, for example, as follows. That is, for each frame image, the area of the eyes is specified from the frame image, and the orientation of both eyes is analyzed to analyze where the user is looking. For example, it analyzes whether the speaker's face being displayed, the shared material being displayed, or the outside of the screen is being viewed. In addition, it may be possible to analyze whether the movement of the line of sight is large or small, and whether the movement is frequent or infrequent. The change in the line of sight is also related to the degree of concentration of the user.
  • the biological reaction analysis unit 12 outputs the line-of-sight change index value according to the analysis result of the line-of-sight change.
  • Analysis of pulse changes is performed, for example, as follows. That is, for each frame image, the face area is specified from the frame image. Then, using a trained image analysis model that captures the numerical value of the face color information (G in RGB), the change in the G color on the face surface is analyzed. By arranging the results along the time axis, a waveform showing the change in color information is formed, and the pulse is specified from this waveform. When a person is nervous, the pulse becomes faster, and when he / she feels calm, the pulse becomes slower.
  • the biological reaction analysis unit 12 outputs a pulse change index value according to the analysis result of the pulse change.
  • Analysis of changes in facial movement is performed, for example, as follows. That is, for each frame image, the area of the face is specified from the frame image, and the orientation of the face is analyzed to analyze where the user is looking. For example, it analyzes whether the speaker's face being displayed, the shared material being displayed, or the outside of the screen is being viewed. In addition, it may be possible to analyze whether the movement of the face is large or small, and whether the movement is frequent or infrequent. The movement of the face and the movement of the line of sight may be combined and analyzed. For example, it may be possible to analyze whether the speaker's face being displayed is viewed straight, whether the speaker is viewed with the upper or lower eye, or whether the speaker is viewed from an angle.
  • the biological reaction analysis unit 12 outputs a face orientation change index value according to the analysis result of the face orientation change.
  • the content of the statement is analyzed as follows, for example. That is, the biological reaction analysis unit 12 converts the voice into a character string by performing a known voice recognition process on the voice for a specified time (for example, a time of about 30 to 150 seconds), and performs morphological analysis of the character string. By doing so, words that are unnecessary for expressing conversation such as auxiliary words and acronyms are removed. Then, the remaining words are vectorized, and whether a positive emotional change is occurring, a negative emotional change is occurring, and how large the emotional change is occurring is analyzed, and the analysis result is used. Outputs the statement content index value.
  • Voice quality analysis is performed as follows, for example. That is, the biological reaction analysis unit 12 identifies the acoustic characteristics of the voice by performing a known voice analysis process on the voice for a specified time (for example, a time of about 30 to 150 seconds). Then, based on the acoustic characteristics, it is analyzed whether a positive voice quality change is occurring, a negative voice quality change is occurring, and how loud the voice quality change is occurring, and according to the analysis result. Outputs the voice quality change index value.
  • the biological reaction analysis unit 12 uses at least one of the facial expression change index value, the line-of-sight change index value, the pulse change index value, the face orientation change index value, the speech content index value, and the voice quality change index value calculated as described above.
  • the biological reaction index value is calculated.
  • the biological reaction index value is calculated by weighting the facial expression change index value, the line-of-sight change index value, the pulse change index value, the face orientation change index value, the speech content index value, and the voice quality change index value.
  • the peculiarity determination unit 13 determines whether or not the change in the biological reaction analyzed for the person to be analyzed is specific to the change in the biological reaction analyzed for a person other than the person to be analyzed. In the present embodiment, the peculiarity determination unit 13 compares the changes in the biological reaction analyzed for the analysis target person with those of others based on the biological reaction index values calculated for each of the plurality of users by the biological reaction analysis unit 12. To determine whether it is specific or not.
  • the peculiarity determination unit 13 calculates the variance of the biological reaction index value calculated for each of a plurality of persons by the biological reaction analysis unit 12, and compares the biological reaction index value calculated for the analysis target person with the variance. It is determined whether or not the change in the biological reaction analyzed for the person to be analyzed is specific compared to the other person.
  • the following three patterns can be considered as cases where the changes in the biological reaction analyzed for the person to be analyzed are more specific than those of others.
  • the first is the case where a particularly large change in the biological reaction has not occurred in the other person, but a relatively large change in the biological reaction has occurred in the person to be analyzed.
  • the second is the case where a particularly large change in the biological reaction has not occurred in the subject to be analyzed, but a relatively large change in the biological reaction has occurred in the other person.
  • the third is the case where a relatively large change in the biological reaction occurs in both the analysis target person and the other person, but the content of the change differs between the analysis target person and the other person.
  • the related event identification unit 14 identifies an event occurring with respect to at least one of the analysis subject, another person, and the environment when a change in the biological reaction determined to be specific by the peculiarity determination unit 13 occurs. .. For example, the related event identification unit 14 identifies the behavior of the analysis target person himself / herself from the moving image when a specific change in the biological reaction occurs for the analysis target person. In addition, the related event identification unit 14 identifies the behavior of another person from the moving image when a specific change in the biological reaction occurs for the analysis target person. In addition, the related event identification unit 14 identifies the environment when a specific change in the biological reaction occurs for the analysis target person from the moving image. The environment is, for example, a shared material displayed on the screen, an environment reflected in the background of the person to be analyzed, and the like.
  • the clustering unit 15 includes changes in biological reactions determined to be specific by the peculiarity determination unit 13 (for example, one or a combination of eyes, pulse, facial movement, speech content, and voice quality) and the peculiarity.
  • the degree of correlation with the event (event specified by the related event identification unit 14) that occurs when a change in the biological reaction occurs is analyzed, and it is determined that the correlation is above a certain level.
  • the clustering unit 15 clusters the analysis target person or the event in any of a plurality of pre-segmented classifications according to the content of the event, the degree of negativeness, the magnitude of the correlation, and the like.
  • the clustering unit 15 clusters the analysis target person or the event in any of a plurality of pre-segmented classifications according to the content of the event, the degree of positiveness, the magnitude of the correlation, and the like.
  • the analysis result notification unit 16 determines at least one of the changes in the biological reaction determined to be specific by the peculiarity determination unit 13, the event specified by the related event identification unit 14, and the classification clustered by the clustering unit 15. , Notify the designated person of the analysis target (analysis target person or the organizer of the online session).
  • the analysis result notification unit 16 analyzes the analysis target as an event that occurs when a specific change in biological reaction occurs in the analysis target person (any of the above-mentioned three patterns; the same applies hereinafter). Notify the person to be analyzed of the person's own words and actions. As a result, the person to be analyzed can grasp that he / she has different emotions from others when he / she makes a certain word or action. At this time, the change of the specific biological reaction specified for the analysis target person may also be notified to the analysis target person. Further, the change in the biological reaction of the other person to be compared may be further notified to the analysis target person.
  • the analysis result notification unit 16 organizes the online session of the events occurring when the specific biological reaction of the analysis target person is different from that of others, together with the specific change of the biological reaction. Notify to. This allows the organizer of the online session to know what kind of phenomenon influences what kind of emotional change as a phenomenon peculiar to the designated analysis target person. Then, it becomes possible to take appropriate measures for the analysis target person according to the grasped contents.
  • the analysis result notification unit 16 notifies the organizer of the online session of the event occurring when the analysis target person has a specific change in biological reaction different from that of others or the clustering result of the analysis target person. do.
  • the organizer of the online session can grasp the tendency of the behavior peculiar to the analysis target person and predict the behavior or state that may occur in the future, depending on which classification the specified analysis target person is clustered into. be able to. Then, it becomes possible to take appropriate measures for the analysis target person.
  • the biological reaction index value is calculated by quantifying the change in the biological reaction according to a predetermined standard, and the analysis target person is analyzed based on the biological reaction index value calculated for each of the plurality of persons.
  • An example of determining whether or not a change in a biological reaction has been made is specific compared to another person has been described, but the present invention is not limited to this example. For example, it may be as follows.
  • the biological reaction analysis unit 12 analyzes the movement of the line of sight for each of a plurality of people and generates a heat map showing the direction of the line of sight.
  • the peculiarity determination unit 13 compares the heat map generated for the analysis target person with the heat map generated for the other person by the biological reaction analysis unit 12, and the change in the biological reaction analyzed for the analysis target person is the change of the biological reaction of the other person. It is determined whether or not it is specific by comparing with the change in the biological reaction analyzed for.
  • the moving image of the video meeting is stored in the local storage of the user terminal 10, and the above-mentioned analysis is performed on the user terminal 10. Although it may depend on the machine specifications of the user terminal 10, it is possible to analyze the moving image information without providing it to the outside.
  • the biological reaction analysis unit 12 has an emotion evaluation unit that evaluates the degree of emotion of the subject according to an evaluation standard leveled among a plurality of subjects based on the change in the biological reaction analyzed for the subject. You may.
  • the emotion evaluation unit is based on the change in the biological reaction (biological reaction index value) analyzed for the subject by the biological reaction analysis unit 12, and the emotional response absolute based on the evaluation criteria leveled among the plurality of subjects. Calculate the value.
  • the emotional response absolute value calculated by the emotional evaluation unit is, for example, a value obtained by adjusting the biological reaction index value calculated by the biological reaction analysis unit 12 according to the likelihood of the same emotion occurring by the subject.
  • the emotion evaluation unit calculates the absolute emotional response value by multiplying the biological reaction index value calculated by the biological reaction analysis unit 12 by a weight value according to the frequency of causing the same emotion.
  • the emotion evaluation unit calculates the absolute emotional response value according to a function such that the weight value becomes smaller as the same emotion is more likely to occur, and the weight value becomes larger as the same emotion is less likely to occur.
  • the emotion evaluation unit is the degree of emotion based on the magnitude of the difference in the current biological reaction to the biological reaction in normal times, and the degree of emotion adjusted according to the likelihood of the same emotion being generated by the subject. May be evaluated.
  • the emotion evaluation unit determines the biological reaction index value calculated by the biological reaction analysis unit 12 according to the magnitude of the difference in the current biological reaction to the biological reaction in normal times and the susceptibility of the subject to the same emotion.
  • the absolute value of emotional response is calculated by adjusting.
  • the absolute emotional response value calculated in this way is a value representing the degree of emotion based on the magnitude of the difference in the current biological response to the biological response in normal times, and the subject is likely to generate the same emotion or occurs. It is a value adjusted according to the degree of difficulty.
  • the frequency of generating the same emotion is used as a measure for expressing the susceptibility to the same emotion
  • the present invention is not limited to this.
  • the nature or personality of the subject may be used in place of or in addition to the frequency with which the same emotions occur.
  • the reaction information presentation unit 13a presents information indicating changes in the biological reaction to the leader, facilitator, or manager of the online session (hereinafter collectively referred to as the organizer).
  • Organizers of online sessions include, for example, instructors of online classes, chairs and facilitators of online conferences, and coaches of sessions for coaching purposes.
  • the organizer of an online session is usually one of a plurality of users who participate in the online session, but may be another person who does not participate in the online session.
  • the organizer of the online session can also grasp the state of the participants who are not displayed on the screen in the environment where the online session is held by multiple people.
  • a first embodiment of the present system based on the above-described configuration will be described with reference to FIGS. 6 to 8.
  • the face image of the target person included in the moving image is recognized for each predetermined frame unit, and the voice of the target person is recognized.
  • Recognition may be performed for a plurality of subjects.
  • the emotions from the plurality of viewpoints of the subject are quantified and evaluated based on both the recognized facial image and the voice.
  • the evaluated emotions are plotted in a graph along with their degree.
  • the graph is plotted along the time series of the video.
  • a numerical value evaluated from one viewpoint of happiness (Happy Score) may be plotted for one subject in the moving image of the position.
  • the degree of emotion from a plurality of viewpoints may be plotted for each subject.
  • a plurality of moving images including a certain target person for example, moving images of a plurality of classes taken online by a user, moving images of a plurality of online meetings in which a user participates, etc.
  • the degree of the average value (the highest value, the lowest value, the mode value, etc.) of the emotions in the above may be plotted by plotting the title of the moving image on the horizontal axis and the degree of emotions on the vertical axis. This makes it possible to visualize how the subject's emotions have changed as he / she has participated in multiple video meetings.
  • the illustrated graph is a line graph, but it may be any kind such as a bar graph or a heat map. In addition, it may be displayed in different colors for each type of emotion.
  • each graph may be, for example, plotting the degree of emotion of the subject for each type of emotion according to the evaluation criteria leveled among a plurality of subjects. This makes it possible to make an objective evaluation even with a scale of the same axis (for example, 0 to 100).
  • the degree of emotion based on the magnitude of the difference in the current biological reaction to the normal biological reaction of the subject is evaluated, and the degree of emotion adjusted according to the likelihood of the same emotion occurring is evaluated. , The same effect can be obtained by plotting the adjusted emotional degree for each emotion type.
  • a search word box for accepting search words is displayed on the screen according to the present embodiment.
  • a word is input in the search word box (for example, when "base" is input)
  • a predetermined range in the moving image including the sound corresponding to the input search word is extracted and displayed.
  • the system according to the present embodiment is a face recognition means for recognizing at least a face image of a target person included in a moving image for each predetermined frame unit, and voice recognition for recognizing at least a voice of a target person included in the moving image. It is provided with a means and a search receiving means for accepting the input of a search word. According to such a configuration, as shown in the figure, it is possible to display a part of the moving image corresponding to the range spoken as "base” from the moving image file "20201230_Biology_Tanaka" and text information. Become.
  • the word "base” is extracted in three places in the illustrated screen example. Selecting a displayed search word (eg, the very first "base”) will (partially) play a moving image containing the frame when the word was spoken.
  • a digest moving image may be generated by connecting a plurality of partial moving images including the search word. As a result, it is possible to confirm the moving image around the word that has been efficiently searched in a short time.
  • the registration of the search word is accepted in advance, and an alert is issued when the registered search word is extracted in the moving image, or a digest in which a plurality of partial moving images including the search word are connected.
  • a moving image may be automatically generated.
  • a word as shown in the alert value column may be registered and associated with information indicating the location of the moving image information in which the word appears.
  • a playback link to the point in the moving image may be generated.
  • Registered words can be easily managed by tagging them with some kind of tag (alert pattern) in advance.
  • ⁇ Third embodiment> A system according to a third embodiment of the present invention will be described with reference to FIG.
  • the user is within the range of the camera with respect to the other side (a state in which the visual information obtained from the camera is not provided). That is, it is possible to provide the presence in front of the computer) and the facial expression at that time.
  • the host cannot see the other person's face, so it is not possible to confirm whether or not he / she is properly attending the lecture or conference. In this way, the host wants to know if the guest is properly participating in front of the camera, while the guest wants to tell that they are participating properly, but does not want to turn on the camera. Can occur.
  • the guest user's terminal acquires the moving image of the guest user's camera, identifies at least the facial image contained in the moving image for each predetermined frame unit, and identifies the identified facial image. It is converted into face information and provided to the host user terminal.
  • Examples of face information include, but are not limited to, whether or not the person is in front of the camera, the orientation of the face, the emotion obtained from the facial expression captured by the camera, and the object information generated based on the feeling. ..
  • the guest is detected by the camera and the guest is looking straight at the screen without sharing the private information (visual information obtained by the camera) of the guest user to the host side.
  • Facial expressions and other information can be provided.
  • the system according to this embodiment outputs a text in association with an evaluation value related to emotions. For example, as shown in FIG. 12, the content spoken with a voice louder than a predetermined value is displayed by increasing the font size, and the words spoken by looking at the camera are underlined. ..
  • the present embodiment it is possible to add predetermined processing to the text based on the user's direct words and actions obtained from the moving image, the result of analyzing the words and actions, and the like.
  • voice intonation size, height, speed, etc.
  • voice intonation size, height, speed, etc.
  • the processing to be added to the text can be exemplified by changing the font size, changing the thickness, changing to italics, changing the character color, adding a shadow, changing the font type, and the like.
  • the latent emotion is analyzed by the contradiction (dissociation of the evaluation value) between the analysis and evaluation information from each of the plurality of viewpoints acquired from the moving image.
  • this system calculates evaluation values from multiple viewpoints based on both facial images and sounds.
  • the notification means is notified.
  • the evaluation values obtained from the face image and the voice deviate by a certain amount or more
  • the evaluation values obtained from the facial movement and the voice obtained from the face image deviate by a certain amount or more. If so, the case where the degree of emotion evaluated from the facial image and the evaluation value obtained from the voice deviate from each other by a certain amount or more can be exemplified.
  • the discrepancy may be determined based on a predetermined correlation, or may be a machine learning determination.
  • This system associates a display means that displays a list of moving images obtained from the cameras of multiple users who are participating in a video meeting at the same time, and an object associated with an evaluation value for each of the multiple moving images. It has an association means to display.
  • the associating means may generate a heat map according to the evaluation value and display the corresponding color as an overlay on each of the moving images. As shown in FIG. 14, users with a high degree of anger may be grayed out.
  • association means may generate emotional and emotional icons according to the evaluation value, and display the corresponding icons together with each of the moving images.
  • the above-mentioned peculiarity determination unit 13 provides a notification means for issuing an alert to a predetermined terminal (screen or the like) when a specific reaction different from the previous one is analyzed for the same determined user. ing.
  • the notification means notifies when the reaction exceeds the threshold range. For example, a notification may be given when the anger frequency of a user who does not normally get angry becomes extremely higher than before, or a notification may be given when a user who does not usually laugh laughs. It is possible to register in advance what kind of notification will be given under what conditions.
  • the notification means shall give the above notification when the specific reaction of the user exceeds a predetermined number of times in the online meeting held in the same time zone (one meeting, one lesson, etc.). May be.
  • the series of processes by the apparatus described herein may be implemented using software, hardware, or any combination of software and hardware. It is possible to create a computer program for realizing each function of the information sharing support device 10 according to the present embodiment and implement it on a PC or the like. It is also possible to provide a computer-readable recording medium in which such a computer program is stored.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like. Further, the above computer program may be distributed, for example, via a network without using a recording medium.

Abstract

【課題】ビデオミーティングにおいて取得された動画像を評価することにより、ビデオミーティング自体の評価を行うこと。 【解決手段】本開示のビデオミーティング評価システムは、他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段を備えている。

Description

ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
 本開示は、ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラムに関する。
 従来、オンラインで何らかの知識を教授したり、説明等を行うためのシステムが知られている(例えば、特許文献1参照)。
 また、このようなオンラインで行われるビデオミーティングの効果測定の方法として、例えば、ビデオミーティング後にアンケート等を行う方法も提案されている(例えば、特許文献2参照)。
特開2019-58625号公報
 上述したアンケートによる効果測定の方法は、主観的になりがちであり、ビデオミーティングの内容に関して客観的な効果測定を行う方法としては不十分である。
 また、第三者によってビデオミーティングを監視し、第三者による客観的な評価を取得する方法も考えられるが、手間と時間がかかりすぎて現実的ではない。
 そこで、本発明は、ビデオミーティングの特に内容に関する評価を客観的に行うことを目的とする。
 本発明によれば、
 他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
 前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
 前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
 認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
 前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
ビデオミーティング評価端末が得られる。
 本開示によれば、ビデオミーティングの動画像を評価することにより、特に内容に関する評価を客観的に行うことができる。
 特に、本発明によれば、取得した動画像は当該端末に保存されることを前提としていることから、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価事業者等に提供することなく分析評価できる
 また、分析・評価した結果をリアルタイムで又は事後的に動画像に重畳して表示することとすれば、より利便性が向上できる。
本発明の実施の形態によるシステム全体図を示す図である。 本発明の実施の形態による端末の構成例を示す図である。 本発明の第1の実施の形態による評価端末の機能ブロック図の一例である。 本発明の第1の実施の形態による機能ブロック図である。 本発明の第1の実施の形態による機能ブロック図である。 本発明の第1の実施の形態による機能ブロック図である。 本発明の第1の実施の形態による機能ブロック図である。 本発明の第1の実施の形態による機能ブロック図である。 本発明の第2の実施の形態による機能ブロック図である。 本発明の第2の実施の形態による機能ブロック図である。 本発明の第3の実施の形態による実装例である。 本発明の第4の実施の形態による実装例である。 本発明の第5の実施の形態による実装例である。 本発明の第6の実施の形態による実装例である。
 本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
[項目1]
 他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
 前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
 前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
 認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
 前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
ビデオミーティング評価端末。
[項目2]
 請求項1に記載のビデオミーティング評価端末であって、
 前記グラフ出力手段は、一の前記動画像内において認識した前記対象者の前記評価値を出力する、
ビデオミーティング評価端末。
[項目3]
 請求項1又は2に記載のビデオミーティング評価端末であって、
 複数の前記動画像から前記対象者が含まれる一以上の対象者動画像を前記顔認識手段又は前記音声認識手段の少なくともいずれかを利用して抽出する対象者抽出手段を更に備えており、
 前記グラフ出力手段は、前記対象者動画像毎に算出された前記評価値を一覧可能に出力する、
ビデオミーティング評価端末。
[項目4]
 請求項1乃至請求項3のいずれかに記載のビデオミーティング評価端末であって、
 前記グラフ出力手段は、前記観点毎の折れ線グラフとして出力する、
ビデオミーティング評価端末。
[項目5]
 請求項1乃至請求項4のいずれかに記載のビデオミーティング評価端末であって、
 前記グラフ出力手段は、前記観点毎に異なる色として表示される前記グラフ情報を表示する
ビデオミーティング評価端末。
[項目6]
 請求項1乃至請求項5のいずれかに記載のビデオミーティング評価端末であって、
 前記評価手段は、複数の対象者間で平準化された評価基準に従って前記対象者の感情の度合いを評価し、
 前記グラフ出力手段は、前記感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
[項目7]
 請求項6に記載のビデオミーティング評価端末であって、
 前記評価手段は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、前記対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価し、
 前記グラフ出力手段は、前記調整された感情の度合いを、感情の種類毎に出力する、
ビデオミーティング評価端末。
[項目8]
 請求項6に記載のビデオミーティング評価端末であって、
 前記評価手段は、前記対象者による同じ感情の生起しやすさに応じて調整した値である感情反応絶対値を算出し、
 前記グラフ出力手段は、前記感情反応絶対値を、感情の種類毎に出力する、
ビデオミーティング評価端末。
[項目9]
 コンピュータを、
 他の端末との間で行われるビデオミーティングの動画像を取得する取得手段、
 前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段、
 前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段
 認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段、
 前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、として機能させる
ビデオミーティング評価プログラム。
[項目10]
 他の端末との間で行われるビデオミーティングの動画像を取得する取得ステップ、
 前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識ステップ、
 前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識ステップ、
 認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価ステップ、
 前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力ステップ、を含む、
ビデオミーティング評価方法。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 <基本機能>
 本実施形態のビデオミーティング評価システム(以下、単に「本システム」という場合がある)は、複数人でビデオミーティング(以下、一方向及び双方向含めてオンラインセッションという)が行われる環境において、当該複数人の中の解析対象者について他者とは異なる特異的な感情(自分または他人の言動に対して起こる気持ち。快・不快またはその程度など)を解析し評価するシステムである。
 オンラインセッションは、例えばオンライン会議、オンライン授業、オンラインチャットなどであり、複数の場所に設置された端末をインターネットなどの通信ネットワークを介してサーバに接続し、当該サーバを通じて複数の端末間で動画像をやり取りできるようにしたものである。
 オンラインセッションで扱う動画像には、端末を使用するユーザの顔画像や音声が含まれる。また、動画像には、複数のユーザが共有して閲覧する資料などの画像も含まれる。各端末の画面上に顔画像と資料画像とを切り替えて何れか一方のみを表示させたり、表示領域を分けて顔画像と資料画像とを同時に表示させたりすることが可能である。また、複数人のうち1人の画像を全画面表示させたり、一部または全部のユーザの画像を小画面に分割して表示させたりすることが可能である。
 端末を使用してオンラインセッションに参加する複数のユーザのうち、何れか1人または複数人を解析対象者として指定することが可能である。例えば、オンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)が何れかのユーザを解析対象者として指定する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。なお、解析対象者を指定せず全ての参加者を解析対象としてもよい。
 また、オンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)が何れかのユーザを解析対象者として指定することも可能である。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。
 本実施の形態によるビデオミーティング評価システムは、複数の端末間においてビデオミーティングセッションが確立された場合に、当該ビデオミーティングから取得される少なくとも動画像を表示される。表示された動画像は、端末によって取得され、動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別される。その後、識別された顔画像に関する評価値が算出される。当該評価値は必要に応じて共有される。
 特に、本実施の形態においては、取得した動画像は当該端末に保存され、端末上で分析評価され、その結果が当該端末のユーザに提供される。従って、例えば個人情報を含むビデオミーティングや機密情報を含むビデオミーティングであっても、その動画自体を外部の評価機関等に提供することなく分析評価できる。また、必要に応じて、当該評価結果(評価値)だけを外部端末に提供することによって、結果を可視化したり、クロス分析等行うことができる。
 図1に示されるように、本実施の形態によるビデオミーティング評価システムは、少なくともカメラ部及びマイク部等の入力部と、ディスプレイ等の表示部とスピーカー等の出力部とを有するユーザ端末10、20と、ユーザ端末10、20に双方向のビデオミーティングを提供するビデオミーティングサービス端末30と、ビデオミーティングに関する評価の一部を行う評価端末40とを備えている。
<ハードウェア構成例>
 図2は、本実施形態に係る各端末10乃至40を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、制御部110、メモリ120、ストレージ130、通信部140および入出力部150等を備える。これらはバス160を通じて相互に電気的に接続される。
 制御部110は、各端末全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部110は、CPU等のプロセッサであり、ストレージ130に格納されメモリ120に展開されたプログラム等を実行して各情報処理を実施する。
 メモリ120は、DRAM等の揮発性記憶装置で構成される主記憶と、フラッシュメモリまたはHDD等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ120は、制御部110のワークエリア等として使用され、また、各端末の起動時に実行されるBIOS、及び各種設定情報等を格納する。
 ストレージ130は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ130に構築されていてもよい。特に本実施の形態においては、ビデオミーティングサービス端末30のストレージ130にはオンラインセッションにおける動画像は記録されず、ユーザ端末10のストレージ130に格納される。また、評価端末40は、ユーザ端末10上において取得された動画像を評価するために必要なアプリケーションその他のプログラムを格納し、ユーザ端末10が利用可能に適宜提供する。なお、評価端末40の管理するストレージ13には、例えば、ユーザ端末10によって解析された結果、評価された結果のみが共有されることとしてもよい。
 通信部140は、端末をネットワークに接続する。通信部140は、例えば、有線LAN、無線LAN、Wi-Fi(登録商標)、赤外線通信、Bluetooth(登録商標)、近距離または非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。
 入出力部150は、例えば、キーボード、マウス、タッチパネル等の情報入力機器、及びディスプレイ等の出力機器である。
 バス160は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
 特に、本実施の形態による評価端末は、ビデオミーティングサービス端末から動画像を取得し、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別すると共に、顔画像に関する評価値を算出する(詳しくは後述する)。
<動画の取得方法>
 図3に示されるように、ビデオミーティングサービス端末が提供するビデオミーティングサービス(以下、単に「本サービス」と言うことがある」)は、ユーザ端末10、20に対して双方向に画像および音声によって通信が可能となるものである。本サービスは、ユーザ端末のディスプレイに相手のユーザ端末のカメラ部で取得した動画像を表示し、相手のユーザ端末のマイク部で取得した音声をスピーカーから出力可能となっている。
 また、本サービスは双方の又はいずれかのユーザ端末によって、動画像及び音声(これらを合わせて「動画像等」という)を少なくともいずれかのユーザ端末上の記憶部に記録(レコーディング)することが可能に構成されている。記録された動画像情報Vs(以下「記録情報」という)は、記録を開始したユーザ端末にキャッシュされつついずれかのユーザ端末のローカルのみに記録されることとなる。ユーザは、必要があれば当該記録情報を本サービスの利用の範囲内で自分で視聴、他者に共有等行うこともできる。
 ユーザ端末10は、以上のようにして取得した動画を以下のような分析によって評価を行う。
 以下、本発明の一実施形態を図面に基づいて説明する。図4は、本実施形態による構成例を示すブロック図である。図4に示すように、本実施形態のビデオミーティング評価システムは、ユーザ端末10が有する機能構成として実現される。すなわち、ユーザ端末10はその機能として、動画像取得部11、生体反応解析部12、特異判定部13、関連事象特定部14、クラスタリング部15および解析結果通知部16を備えている。
 上記各機能ブロック11~16は、例えばユーザ端末10に備えられたハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11~16は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
 動画像取得部11は、オンラインセッション中に各端末が備えるカメラにより複数人(複数のユーザ)を撮影することによって得られる動画像を各端末から取得する。各端末から取得する動画像は、各端末の画面上に表示されるように設定されているものか否かは問わない。すなわち、動画像取得部11は、各端末に表示中の動画像および非表示中の動画像を含めて、動画像を各端末から取得する。
 生体反応解析部12は、動画像取得部11により取得された動画像(画面上に表示中のものか否かは問わない)に基づいて、複数人のそれぞれについて生体反応の変化を解析する。本実施形態において生体反応解析部12は、動画像取得部11により取得された動画像を画像のセット(フレーム画像の集まり)と音声とに分離し、それぞれから生体反応の変化を解析する。
 例えば、生体反応解析部12は、動画像取得部11により取得された動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも1つに関する生体反応の変化を解析する。また、生体反応解析部12は、動画像取得部11により取得された動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも1つに関する生体反応の変化を解析する。
 人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快/不快の程度である。本実施形態において生体反応解析部12は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出する。
 表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を出力する。
 目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。生体反応解析部12は、目線の変化の解析結果に応じた目線変化指標値を出力する。
 脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報(RGBのG)の数値を捉える学習済みの画像解析モデルを用いて、顔表面のG色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部12は、脈拍の変化の解析結果に応じた脈拍変化指標値を出力する。
 顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。生体反応解析部12は、顔の向きの変化の解析結果に応じた顔向き変化指標値を出力する。
 発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部12は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を出力する。
 声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部12は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を出力する。
 生体反応解析部12は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも1つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出する。
 特異判定部13は、解析対象者について解析された生体反応の変化が、解析対象者以外の他者について解析された生体反応の変化と比べて特異的か否かを判定する。本実施形態において、特異判定部13は、生体反応解析部12により複数のユーザのそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。
 例えば、特異判定部13は、生体反応解析部12により複数人のそれぞれについて算出された生体反応指標値の分散を算出し、解析対象者について算出された生体反応指標値と分散との対比により、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する。
 解析対象者について解析された生体反応の変化が他者と比べて特異的である場合として、次の3パターンが考えられる。1つ目は、他者については特に大きな生体反応の変化が起きていないが、解析対象者について比較的大きな生体反応の変化が起きた場合である。2つ目は、解析対象者については特に大きな生体反応の変化が起きていないが、他者について比較的大きな生体反応の変化が起きた場合である。3つ目は、解析対象者についても他者についても比較的大きな生体反応の変化が起きているが、変化の内容が解析対象者と他者とで異なる場合である。
 関連事象特定部14は、特異判定部13により特異的であると判定された生体反応の変化が起きたときに解析対象者、他者および環境の少なくとも1つに関して発生している事象を特定する。例えば、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける解析対象者自身の言動を動画像から特定する。また、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける他者の言動を動画像から特定する。また、関連事象特定部14は、解析対象者について特異的な生体反応の変化が起きたときにおける環境を動画像から特定する。環境は、例えば画面に表示中の共有資料、解析対象者の背景に写っているものなどである。
 クラスタリング部15は、特異判定部13により特異的であると判定された生体反応の変化(例えば、目線、脈拍、顔の動き、発言内容、声質のうち1つまたは複数の組み合わせ)と、当該特異的な生体反応の変化が起きたときに発生している事象(関連事象特定部14により特定された事象)との相関の程度を解析し、相関が一定レベル以上であると判定された場合に、その相関の解析結果に基づいて解析対象者または事象をクラスタリングする。
 例えば、特異的な生体反応の変化がネガティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もネガティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部15は、その事象の内容やネガティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。
 同様に、特異的な生体反応の変化がポジティブな感情変化に相当するものであり、当該特異的な生体反応の変化が起きたときに発生している事象もポジティブな事象である場合には一定レベル以上の相関が検出される。クラスタリング部15は、その事象の内容やポジティブな度合い、相関の大きさなどに応じて、あらかじめセグメント化した複数の分類の何れかに解析対象者または事象をクラスタリングする。
 解析結果通知部16は、特異判定部13により特異的であると判定された生体反応の変化、関連事象特定部14により特定された事象、およびクラスタリング部15によりクラスタリングされた分類の少なくとも1つを、解析対象者の指定者(解析対象者またはオンラインセッションの主催者)に通知する。
 例えば、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたとき(上述した3パターンの何れか。以下同様)に発生している事象として解析対象者自身の言動を解析対象者自身に通知する。これにより、解析対象者は、自分がある言動を行ったときに他者とは違う感情を持っていることを把握することができる。このとき、解析対象者について特定された特異的な生体反応の変化も併せて解析対象者に通知するようにしてもよい。さらに、対比される他者の生体反応の変化を更に解析対象者に通知するようにしてもよい。
 例えば、解析対象者が普段どおりの感情で特に意識せずに行った言動、または、解析対象者がある感情を伴って特に意識して行った言動に対して他者が受けた感情と、言動の際に解析対象者自身が抱いていた感情とが相違している場合に、そのときの解析対象者自身の言動が解析対象者に通知される。これにより、自分の意識に反して他者の受けが良い言動や他者の受けが良くない言動などを発見することも可能である。
 また、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象を、特異的な生体反応の変化と共にオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者に特有の現象として、どのような事象がどのような感情の変化に影響を与えているのかを知ることができる。そして、その把握した内容に応じて適切な処置を解析対象者に対して行うことが可能となる。
 また、解析結果通知部16は、解析対象者について他者とは異なる特異的な生体反応の変化が起きたときに発生している事象または解析対象者のクラスタリング結果をオンラインセッションの主催者に通知する。これにより、オンラインセッションの主催者は、指定した解析対象者がどの分類にクラスタリングされたかによって、解析対象者に特有の行動の傾向を把握したり、今後起こり得る行動や状態などを予測したりすることができる。そして、それに対して適切な処置を解析対象者に対して行うことが可能となる。
 なお、上記実施形態では、生体反応の変化を所定の基準に従って数値化することによって生体反応指標値を算出し、複数人のそれぞれについて算出された生体反応指標値に基づいて、解析対象者について解析された生体反応の変化が他者と比べて特異的か否かを判定する例について説明したが、この例に限定されない。例えば、以下のようにしてもよい。
 すなわち、生体反応解析部12は、複数人のそれぞれについて目線の動きを解析して目線の方向を示すヒートマップを生成する。特異判定部13は、生体反応解析部12により解析対象者について生成されたヒートマップと他者について生成されたヒートマップとの対比により、解析対象者について解析された生体反応の変化が、他者について解析された生体反応の変化と比べて特異的か否かを判定する。
 このように、本実施の形態においては、ビデオミーティングの動画像をユーザ端末10のローカルストレージに保存し、ユーザ端末10上で上述した分析を行うこととしている。ユーザ端末10のマシンスペックに依存する可能性があるとはいえ、動画像の情報を外部に提供することなく分析することが可能となる。
 生体反応解析部12は、対象者について解析された生体反応の変化に基づいて、複数の対象者間で平準化された評価基準に従って対象者の感情の度合いを評価する感情評価部を有していてもよい。例えば、感情評価部は、生体反応解析部12により対象者について解析された生体反応の変化(生体反応指標値)に基づいて、複数の対象者間で平準化された評価基準に基づく感情反応絶対値を算出する。
 感情評価部が算出する感情反応絶対値は、例えば、生体反応解析部12により算出された生体反応指標値を、対象者による同じ感情の生起しやすさに応じて調整した値である。例えば、感情評価部は、生体反応解析部12により算出された生体反応指標値に対し、同じ感情を生起する頻度に応じた重み値を乗算することによって感情反応絶対値を算出する。
 例えば、対象者Aについて算出された生体反応指標値と対象者Bについて算出された生体反応指標値とが同じ値であった場合としても、同じ感情の生起しやすさ(同じ感情を生起する頻度)が対象者Aと対象者Bとで異なる場合、感情評価部により算出される感情反応絶対値は対象者Aと対象者Bとで異なる値となる。一例として、感情評価部は、同じ感情を生起しやすいほど重み値が小さくなり、同じ感情を生起しにくいほど重み値が大きくなるような関数に従って感情反応絶対値を算出する。
 このように算出した感情反応絶対値を用いることにより、対象者に関する真の意味での感情の度合いを評価することが可能となり、異なる対象者間で感情の度合いを客観的に対比することができる。
 なお、感情評価部は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価するようにしてもよい。例えば、感情評価部は、生体反応解析部12により算出された生体反応指標値を、平常時の生体反応に対する現在の生体反応の違いの大きさと、対象者による同じ感情の生起しやすさとに応じて調整することによって感情反応絶対値を算出する。このように算出される感情反応絶対値は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度を表す値であって、対象者が同じ感情を生起しやすいまたは生起しにくい度合いに応じて調整された値である。
 また、上記実施形態では、同じ感情の生起しやすさを表す尺度として、同じ感情を生起する頻度を用いる例について説明したが、これに限定されない。例えば、同じ感情を生起する頻度に代えてまたは加えて、対象者の性質または性格を用いるようにしてもよい。
 なお、図5に示されるように、画面に表示されていない参加者を含めて生体反応解析部12aにより解析された生体反応の変化を示す情報を提示する反応情報提示部13aを備えていてもよい。例えば、反応情報提示部13aは、生体反応の変化を示す情報をオンラインセッションの主導者、進行者または管理者(以下、まとめて主催者という)に提示する。オンラインセッションの主催者は、例えばオンライン授業の講師、オンライン会議の議長やファシリテータ、コーチングを目的としたセッションのコーチなどである。オンラインセッションの主催者は、オンラインセッションに参加する複数のユーザの中の一人であるのが普通であるが、オンラインセッションに参加しない別人であってもよい。
 このようにすることにより、オンラインセッションの主催者は、複数人でオンラインセッションが行われる環境において、画面に表示されていない参加者の様子も把握することができる。
<第1の実施の形態>
 図6乃至図8を参照して、上述した構成に基づく本システムの第1の実施の形態を説明する。本実施の形態においては、動画像内に含まれる対象者の顔画像を所定のフレーム単位ごとに認識するとともに、対象者の音声を認識する。認識は複数の対象者に対して行うこととしてもよい。
 続いて、認識されたた顔画像及び音声の双方に基づいて、前記対象者の複数の観点による感情が数値化され評価される。評価された感情はその度合いとともにグラフにプロットされる。
 グラフは動画の時系列に沿ってプロットされる。図6に示されるように、位置の動画像内における一の対象者について、幸福度(Happy Score)という一の観点で評価された数値をプロットすることとしてもよい。また、図7に示されるように、同一の動画像内における複数の対象者について、対象者ごとに複数の観点による感情の度合いをプロットすることとしてもよい。
 更には、図8に示されるように、ある対象者が含まれる複数の動画像(例えばユーザがオンラインで受講した複数の授業の動画像や、ユーザが参加した複数のオンライン会議の動画像等)における感情の平均値(最高値、最低値、最頻値等でもよい)の度合いについて、横軸に動画像のタイトル、縦軸に感情の度合いをとってプロットすることとしてもよい。これにより、当該対象者が複数のビデオミーティングへの参加経験に伴って感情がどのように変化したのかにいてが可視化可能となる。
 図示されたグラフは、折れ線グラフであるが、棒グラフやヒートマップ等どのようものであってもよい。また、感情の種類毎に色分けして表示することとしてもよい。
 各グラフの縦軸は、例えば、複数の対象者間で平準化された評価基準に従って対象者の感情の度合いを感情の種類毎にプロットすることとしてもよい。これにより、同一の軸の尺度(例えば0~100)でも客観的な評価を行うことが可能になる。また、当該対象者の平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、同じ感情の生起しやすさに応じて調整された感情の度合いを評価して、当該調整された感情の度合いを、感情の種類毎にプロットすることとしても同様の効果を得られる。
<第2の実施の形態>
 図9及び図10を参照して本発明の第2の実施の形態を説明する。図に示されるように本実施の形態による画面には、検索ワードを受け付ける検索ワードボックスが表示されている。検索ワードボックスにワードが入力されると(例えば、「塩基」と入力されると)入力された検索ワードに対応する音声が含まれる動画像内の所定範囲が抽出され表示される。
 本実施の形態によるシステムは、動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、動画像内に含まれる対象者の少なくとも音声を認識する音声認識手段と、検索ワードの入力を受け付ける検索受付手段とを備えている。かかる構成によれば、図示されているように、動画像ファイル「20201230_Biology_Tanaka」の中から「塩基」と話されている範囲に対応する動画像の一部と、テキスト情報を表示することが可能となる。
 抽出された動画像と対応するテキスト情報を同一画面内に表示することにより、当該ワードを話していた際にどのような状況・表情をしていたのかの確認を容易に行うことができる。
 また、図示される画面例には「塩基」というワードが3か所に抽出されている。表示されている検索ワード(例えば、一番最初の「塩基」)を選択すると、当該ワードを話していたときのフレームを含む動画像が(部分的に)再生される。
 なお、動画像内に検索ワードが複数抽出されていた場合に、当該検索ワードを含む複数の部分的動画像をつなぎ合わせたダイジェスト動画像を生成することとしてもよい。これにより、短時間で効率的に検索したワード周囲の動画像を確認することができる。
 また、あらかじめ検索ワードの登録を受け付けておき、動画像内に、登録された検索ワードが抽出されていた場合にアラートを発したり、当該検索ワードを含む複数の部分的動画像をつなぎ合わせたダイジェスト動画像を自動生成することとしてもよい。
 例えば図10に示されるように、alert valueの列に示されるような単語を登録しておき、当該単語が登場する動画像の情報の所在を示す情報を関連付けることとしてもよい。
 更には、ビデオミーティング中に当該単語が発された場合に動画像内の当該地点への再生リンクを生成することとしてもよい。
 登録された単語は事前に何らかのタグ付け(alert pattern)をしておくことにより管理が容易にしやすくなる。
 動画中に当該単語が何回発生したかをカウントすることとしてもよい。例えば、認識された音声の中(又は変換されたテキスト情報)の中における単語の登場回数をカウントすることとすればよい。
<第3の実施の形態>
 図11を参照して本発明の第3の実施の形態によるシステムを説明する。本実施の形態においては、特に、相手側がカメラをOFF(カメラから得られた視覚的な情報が提供されない状態)にした際であっても、他方に対して、当該ユーザがカメラの範囲内(即ち、コンピュータの正面)に存在していることやその時の表情を提供することが可能になる。
 授業や会議のように複数の参加者によりビデオミーティングがされると、カメラから取得された情報を悪意を持って利用されることが想定される。例えば、他人の顔をスクリーンショットで記録したり、背景に映りこんだ部屋等のプライベート空間を見られたりすることがある。このため、参加者の中にはカメラ機能をOFFにして参加するものも少なくない。
 しかしながら、カメラをOFFにした場合、ホスト側からは、相手の顔が見えないことから、講義や会議にきちんと参加しているのかどうかを確かめることができない。このように、ホスト側からは、カメラの正面にゲストがきちんと参加しているのかどうかが知りたい一方、ゲスト側からは、きちんと参加していることを伝えたくてもカメラをONにしたくない状況が生じ得る。
 そこで本実施の形態においては、ゲストユーザの端末は、ゲストユーザのカメラの動画像を取得、当該動画像内に含まれる少なくとも顔画像を所定のフレーム単位ごとに識別するとともに、識別した顔画像を顔情報に変換してホストユーザ端末に提供する。
 顔情報を例示すれば、カメラの正面にいるかいないか、顔の向き、カメラでとらえた表情から得られる感情、当該感じ用に基づいて生成されたオブジェクト情報などが挙げられるがこれに限られない。
 このような構成によれば、ゲストユーザのプライベートな情報(カメラで得られる視覚的情報)はホスト側に共有することなく、ゲストがカメラで検出されていることや、画面を正視していること、表情などの情報を提供することができる。
<第4の実施の形態>
 図12を参照して本発明の第4の実施の形態によるシステムを説明する。本実施の形態においては、動画像から取得されたテキスト情報に感情に関する情報を付加するものである。
 本実施の形態によるシステムは、テキストに感情に関する評価値を関連付けて出力する。例えば、図12に示されるように、所定以上の大きさの声で話された内容はフォントサイズを大きくしたり、カメラ目線で話された単語にはアンダーラインが引かれたりして表示される。
 すなわち、本実施の形態によれば、動画像から得られるユーザの直接的な言動や、当該言動を分析した結果等に基づいて、テキストに所定の加工を加えることが可能になる。
 ユーザの言動としては、身振り、手ぶり、ジェスチャー、顔の向き、顔の動き等の他、音声の抑揚、大きさ、高低、速さ等を事前に登録することができる。また、テキストへ加える加工は、フォントサイズの変更、太さの変更、斜体に変更、文字色の変更、影の付加、フォント種類の変更等などが例示できる。
 また、例えば、音声に関する条件(例えば、一定以上の大きさ)の登録を受け付けておき、登録された条件を満たす音声に対応するテキストを所定の表示形式に変更(大きく表示)することとしてもよい。
<第5の実施の形態>
 図13を参照して本発明の第5の実施の形態によるシステムを説明する。本実施の形態においては、動画像から取得された複数の観点による分析評価情報それぞれの間における矛盾(評価値の乖離)によって、潜在的な感情の分析を行うものである。
 具体的には、本システムは、顔画像及び音声の双方に基づいて複数の観点による評価値を算出する。複数の観点による評価値の相対的な乖離が一定以上になった場合に通知手段による通知が行われる。
 乖離のパターンとしては、例えば、顔画像及び音声の夫々から得られる評価値が一定以上乖離していた場合、顔画像から取得できる顔の動き及び音声の夫々から得られる評価値が一定以上乖離していた場合、顔画像から評価される感情の度合いと、音声とから得られる評価値が一定以上乖離していた場合などが例示できる。
 例えば、図13示されるように、ある地点において、幸福度を表すグラフの点(H01)と、怒り度を表すグラフの点(A01)とを比較すると、幸福度の方が優位に高い値を示しており、当該ユーザの感情としては幸福である(よいコミュニケーションである)と感じていることが推定される。一方、別の地点における幸福度を表すグラフの点(H02)と、怒り度を表すグラフの点(A02)とを比較すると、いずれも同じ程度の値を示しており、感情的には矛盾することとなる。このような場合、例えば、顔は笑っているけれども、内心は疑っていたり、不審に思っていたりすることなどが考えられる。
 本実施の形態によれば、評価値の乖離に基づく真の感情を推定することが可能となる。乖離の判断としては、所定の相関関係に基づいて判断すればよく、機械学習的な判断を行うこととしてもよい。
<第6の実施の形態>
 図14を参照して本発明の第6の実施の形態によるシステムを説明する。本実施の形態においては、同時に参加している多数のユーザによる動画像から分析評価された評価値を当該動画像のそれぞれに関連付けて表示する。これにより、参加者全体の状態が、ヒートマップのように一括して理解できるようになる。
 本システムは、同時にビデオミーティングに参加している複数のユーザのカメラから得られた動画像を一覧に表示する表示手段と、複数の動画像の夫々について、評価値に関連付けられたオブジェクトを関連付けて表示する関連付け手段を備えている。
 例えば、関連付け手段は、評価値に応じたヒートマップを生成し、対応する色を動画像の夫々にオーバーレイして表示することとしてもよい。図14に示されるように、怒り度が高いユーザをグレーアウトしたりすることとしてもよい。
 また、関連付け手段は、評価値に応じた喜怒哀楽アイコンを生成し、対応するアイコンを動画像の夫々に併記して表示することとしてもよい。
<第7の実施の形態>
 再度図4を参照して、本発明の第7の実施の形態を説明する。本実施の形態においては、上述した特異判定部13によって、判定された同一のユーザについて以前とは異なる特異的な反応を解析した場合に所定の端末(画面等)にアラートを出す通知手段を備えている。
 通知手段は、反応が閾値の範囲を超えた場合に通知を行う。例えば、普段は怒らないユーザの怒り度数が以前よりも極めて高くなった場合などに通知を行うこととしてもよいし、普段なかなか笑わないユーザが笑った際に通知を行うこととしてもよい。どのような条件のときにどのような通知を行うかはあらかじめ登録することができる。
 また、通知手段は、同一の時間帯(1度の会議、1度の授業等)に行われたオンラインミーティング内において、ユーザの特定の反応が所定の回数を超えた場合に前記通知を行うこととしてもよい。
<ハードウェア構成の補足>
 本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る情報共有支援装置10の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することが可能である。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 10、20   ユーザ端末
 30   ビデオミーティングサービス端末
 40   評価端末

 

Claims (10)

  1.  他の端末との間で行われるビデオミーティングの動画像を取得する取得手段と、
     前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段と、
     前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段と
     認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段と、
     前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、
    ビデオミーティング評価端末。
  2.  請求項1に記載のビデオミーティング評価端末であって、
     前記グラフ出力手段は、一の前記動画像内において認識した前記対象者の前記評価値を出力する、
    ビデオミーティング評価端末。
  3.  請求項1又は2に記載のビデオミーティング評価端末であって、
     複数の前記動画像から前記対象者が含まれる一以上の対象者動画像を前記顔認識手段又は前記音声認識手段の少なくともいずれかを利用して抽出する対象者抽出手段を更に備えており、
     前記グラフ出力手段は、前記対象者動画像毎に算出された前記評価値を一覧可能に出力する、
    ビデオミーティング評価端末。
  4.  請求項1乃至請求項3のいずれかに記載のビデオミーティング評価端末であって、
     前記グラフ出力手段は、前記観点毎の折れ線グラフとして出力する、
    ビデオミーティング評価端末。
  5.  請求項1乃至請求項4のいずれかに記載のビデオミーティング評価端末であって、
     前記グラフ出力手段は、前記観点毎に異なる色として表示される前記グラフ情報を表示する
    ビデオミーティング評価端末。
  6.  請求項1乃至請求項5のいずれかに記載のビデオミーティング評価端末であって、
     前記評価手段は、複数の対象者間で平準化された評価基準に従って前記対象者の感情の度合いを評価し、
     前記グラフ出力手段は、前記感情の度合いを、感情の種類毎に出力する、
    ビデオミーティング評価端末。
  7.  請求項6に記載のビデオミーティング評価端末であって、
     前記評価手段は、平常時の生体反応に対する現在の生体反応の違いの大きさに基づく感情の程度であって、前記対象者による同じ感情の生起しやすさに応じて調整された感情の度合いを評価し、
     前記グラフ出力手段は、前記調整された感情の度合いを、感情の種類毎に出力する、
    ビデオミーティング評価端末。
  8.  請求項6に記載のビデオミーティング評価端末であって、
     前記評価手段は、前記対象者による同じ感情の生起しやすさに応じて調整した値である感情反応絶対値を算出し、
     前記グラフ出力手段は、前記感情反応絶対値を、感情の種類毎に出力する、
    ビデオミーティング評価端末。
  9.  コンピュータを、
     他の端末との間で行われるビデオミーティングの動画像を取得する取得手段、
     前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識手段、
     前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識手段
     認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価手段、
     前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力手段、として機能させる
    ビデオミーティング評価プログラム。
  10.  他の端末との間で行われるビデオミーティングの動画像を取得する取得ステップ、
     前記動画像内に含まれる対象者の少なくとも顔画像を所定のフレーム単位ごとに認識する顔認識ステップ、
     前記動画像内に含まれる前記対象者の少なくとも音声を認識する音声認識ステップ、
     認識した前記顔画像及び前記音声の双方に基づいて複数の観点による評価値を算出する評価ステップ、
     前記観点毎の前記評価値を時系列に沿ったグラフ情報として出力するグラフ出力ステップ、を含む、
    ビデオミーティング評価方法。

     
PCT/JP2020/049293 2020-12-31 2020-12-31 ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム WO2022145038A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/049293 WO2022145038A1 (ja) 2020-12-31 2020-12-31 ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
JP2022517918A JPWO2022145038A1 (ja) 2020-12-31 2020-12-31

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/049293 WO2022145038A1 (ja) 2020-12-31 2020-12-31 ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Publications (1)

Publication Number Publication Date
WO2022145038A1 true WO2022145038A1 (ja) 2022-07-07

Family

ID=82259215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/049293 WO2022145038A1 (ja) 2020-12-31 2020-12-31 ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム

Country Status (2)

Country Link
JP (1) JPWO2022145038A1 (ja)
WO (1) WO2022145038A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015075908A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 感情情報表示制御装置、その方法及びプログラム
JP2017215468A (ja) * 2016-05-31 2017-12-07 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP2018068618A (ja) * 2016-10-28 2018-05-10 株式会社東芝 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム
JP2019005551A (ja) * 2017-06-21 2019-01-17 パナソニックIpマネジメント株式会社 アトラクション装置の制御方法およびアトラクションシステム
JP2019058625A (ja) * 2017-09-26 2019-04-18 株式会社エモスタ 感情読み取り装置及び感情解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015075908A (ja) * 2013-10-09 2015-04-20 日本電信電話株式会社 感情情報表示制御装置、その方法及びプログラム
JP2017215468A (ja) * 2016-05-31 2017-12-07 トヨタ自動車株式会社 音声対話装置および音声対話方法
JP2018068618A (ja) * 2016-10-28 2018-05-10 株式会社東芝 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム
JP2019005551A (ja) * 2017-06-21 2019-01-17 パナソニックIpマネジメント株式会社 アトラクション装置の制御方法およびアトラクションシステム
JP2019058625A (ja) * 2017-09-26 2019-04-18 株式会社エモスタ 感情読み取り装置及び感情解析方法

Also Published As

Publication number Publication date
JPWO2022145038A1 (ja) 2022-07-07

Similar Documents

Publication Publication Date Title
WO2022064621A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022168180A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022145038A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022168185A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022024956A1 (ja) 感情解析システムおよび感情解析装置
WO2022145043A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145039A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145040A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145042A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145041A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145044A1 (ja) 反応通知システム
WO2022180860A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022137502A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022113248A1 (ja) ビデオミーティング評価端末及びビデオミーティング評価方法
WO2022074785A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022064620A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064617A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064618A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
WO2022064619A1 (ja) ビデオミーティング評価システム及びビデオミーティング評価サーバ
JP7100938B1 (ja) 動画像分析プログラム
JP7138998B1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
JP7477909B2 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2023032058A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022168182A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022168177A1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022517918

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20968041

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20968041

Country of ref document: EP

Kind code of ref document: A1