WO2022079767A1 - 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 - Google Patents
分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 Download PDFInfo
- Publication number
- WO2022079767A1 WO2022079767A1 PCT/JP2020/038511 JP2020038511W WO2022079767A1 WO 2022079767 A1 WO2022079767 A1 WO 2022079767A1 JP 2020038511 W JP2020038511 W JP 2020038511W WO 2022079767 A1 WO2022079767 A1 WO 2022079767A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- conference
- time
- screen
- image data
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims description 30
- 230000008451 emotion Effects 0.000 claims description 120
- 230000002996 emotional effect Effects 0.000 claims description 32
- 230000001815 facial effect Effects 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
Definitions
- the present invention relates to an analyzer, a system, a method and a program.
- Patent Document 1 discloses a technique for detecting the emotion of a person included in an image displayed on a screen.
- Patent Document 1 the emotions of participants in a conference in which a plurality of participants exist cannot be detected. Therefore, there is a problem that it is difficult to grasp the emotions of the participants in the online conference.
- This disclosure has been made in view of such issues, and an object of the present disclosure is to provide an analyzer, a system, a method, and a program capable of grasping the emotions of participants in an online conference.
- the analyzer of the present disclosure includes an emotion data acquisition means for acquiring emotion data accompanied by time data generated based on the face image data of a participant in an online conference, and a conference including image data accompanied by time data in the conference.
- the method of the present disclosure acquires emotional data accompanied by time data generated based on the facial image data of participants in an online meeting, and obtains meeting data including image data accompanied by time data in the meeting. That, the analysis data for the conference is generated based on the emotion data, and the seek bar for specifying the time and the reproduction screen including the analysis data and the image data corresponding to the specified time are generated. And to output the reproduction screen.
- the non-temporary computer-readable medium of the present disclosure causes the computer to perform the following steps.
- the computer has a process of acquiring emotion data accompanied by time data generated based on the face image data of participants in an online conference, a process of acquiring conference data including image data accompanied by time data in the conference, and a process of acquiring conference data.
- an analysis device an analysis method, an analysis system and a program capable of grasping the emotions of participants in an online conference.
- the online conference means a conference held by using a plurality of conference terminals connected to each other so as to be able to communicate with each other via a communication line.
- the conference terminal connected to the online conference is, for example, a personal computer, a smartphone, a tablet terminal, a mobile phone with a camera, or the like.
- the conference terminal is not limited to the above as long as it is a device having a camera for photographing a participant, a microphone for picking up a participant's utterance, and a communication function for transmitting and receiving image data and voice data.
- an online conference may be simply referred to as a "meeting".
- the participants of the online conference indicate a person who is connected to the online conference through the conference terminal, and include the conference organizer, the conference presenter, the presenter, and the conference listener. For example, when a plurality of persons are participating in a conference through one conference terminal, each of the plurality of persons is a participant. In the present embodiment, the participants shall participate in the conference in a state where the face image can be taken by the camera built in the conference terminal or connected to the conference terminal.
- FIG. 1 is a block diagram showing a configuration of an analyzer according to the first embodiment.
- the analyzer 100 acquires emotion data of participants participating in the online conference, generates analysis data related to the online conference from the acquired emotion data, and outputs the generated analysis data to a predetermined terminal or the like.
- the analysis device 100 is communicably connected to the emotion data generation device 300 (described later) that generates emotion data of participants in an online conference and the conference management device 400 (described later) that operates the conference. Further, the analyzer 100 is communicably connected to a terminal (user terminal) owned by a user who uses the analyzer 100.
- the analysis device 100 includes an emotion data acquisition unit 111, a conference data acquisition unit 112, an analysis data generation unit 113, a screen generation unit 114, and an output unit 115.
- the emotion data acquisition unit 111 acquires emotion data accompanied by time data from the emotion data generation device 300.
- the emotion data generation device 300 generates emotion data from the facial image data of the participants of the conference in the online conference, and supplies the generated emotion data to the analyzer 100.
- Emotion data is data showing the emotions of each participant in the conference.
- Emotional data includes at least one index (first index) such as attention, confusion, happiness and surprise. That is, the emotional data shows how much the participants feel these emotions (state of emotion) for each of the above-mentioned indexes. Emotional data numerically indicates at least one indicator.
- first index such as attention, confusion, happiness and surprise. That is, the emotional data shows how much the participants feel these emotions (state of emotion) for each of the above-mentioned indexes.
- Emotional data numerically indicates at least one indicator.
- the emotion data generation device 300 generates emotion data every predetermined period (for example, 1 second).
- the emotion data acquisition unit 111 acquires emotion data at predetermined time intervals according to the progress time of the meeting.
- the emotion data acquisition unit 111 acquires the emotion data
- the acquired emotion data is supplied to the analysis data generation unit 113.
- the conference data acquisition unit 112 acquires conference data from the conference management device 400.
- the conference management device 400 is, for example, a server device to which each of the participants of the conference can communicate with each other.
- the conference management device 400 may be included in the conference terminal 900 (described later) used by the participants of the conference.
- the conference data includes image data with time data of participants in the conference.
- the image data may be data of a speaker screen in a conference, a non-speaker screen in a conference, and a screen shared in a conference. Then, the conference data acquisition unit 112 supplies the conference data to the analysis data generation unit 113.
- the analysis data generation unit 113 generates analysis data for the meeting based on the emotion data acquired by the emotion data acquisition unit 111.
- the analytical data includes at least one index (second index) indicating the reaction of the participants to the conference, such as attention, empathy and comprehension.
- the analytical data generation unit 113 numerically indicates at least one second index indicating the reaction of the participants to the conference based on the emotional data.
- the analysis data generation unit 113 generates, for example, a time-series graph showing the temporal transition of the numerical value in the second index as the analysis data. By doing so, it is possible to show detailed changes in the reaction of participants to the conference.
- the analysis data generation unit 113 supplies the generated analysis data to the screen generation unit 114.
- the screen generation unit 114 generates a seek bar for designating a time and a playback screen including analysis data and image data at the time specified by the seek bar.
- the screen generation unit 114 extracts the image data at the time specified by the seek bar based on the image data and the time data accompanying the image data, and includes the extracted image data in the playback screen. Further, the screen generation unit 114 generates a reproduction screen including a display for identifying a numerical value in the second index corresponding to the time specified by the seek bar on the time series graph. For example, the screen generation unit 114 generates an axis corresponding to the time specified in the seek bar on the time series graph. The axis generated on the time series graph points to the second index at the specified time.
- the output unit 115 outputs the playback screen generated by the screen generation unit 114 to the user terminal 990 (described later).
- the user who uses the analyzer 100 visually recognizes the reproduction screen output to the user terminal 990.
- the user simultaneously perceives the analysis data shown on the playback screen and the conference image. Therefore, the user can recognize the situation of the meeting and the feelings of the participants in the situation.
- FIG. 2 is a flowchart showing the operation of the analyzer 100 according to the first embodiment.
- the flowchart shown in FIG. 2 starts, for example, when the analyzer 100 receives a signal indicating the start of a conference from the conference operating device 400.
- the emotion data acquisition unit 111 acquires emotion data accompanied by time data generated based on the facial image data of the participants in the online conference (step S11).
- the conference data acquisition unit 112 acquires conference data including image data accompanied by time data in the conference (step S12).
- the analysis data generation unit 113 generates analysis data for the meeting based on the emotion data (step S13).
- the screen generation unit 114 generates a playback screen including a seek bar for designating the time and analysis data and image data at the time designated by the seek bar (step S14).
- the output unit 115 outputs the generated playback screen (step S15).
- steps S11 and S12 may be in any order. Further, step S11 and step S12 may be executed in parallel. Alternatively, step S11 and step S12 may be executed alternately at predetermined intervals.
- FIG. 3 is a diagram showing an example of a reproduction screen according to the first embodiment.
- the image data G1 is the image data in the conference, and is the image data at the time specified by the seek bar G2 described later.
- a seek bar is superimposed on the image data G1.
- the seek bar G2 is an interface for designating and displaying an arbitrary time in a conference.
- the seek bar G2 is a strip-shaped image extending in the left-right direction, and is superimposed on, for example, a conference screen.
- the seek bar G2 includes the slider G2a.
- the slider G2a is a rectangular image arranged on the seek bar G2, and is for designating an arbitrary position in the seek bar.
- the user can specify the position of the slider G2a by selecting an arbitrary position of the seek bar G2.
- the image data G1 displays the image at the time corresponding to the position designated by the slider G2a.
- the user can also specify the position of the slider G2a by moving the slider G2a in the left-right direction with the slider G2a selected.
- Graph G11 is a time series graph showing the temporal transition of the second index.
- the horizontal axis indicates the time
- the vertical axis indicates the numerical value (score) in the second index.
- the left end is the time T10
- the right end is the time T15.
- Time T10 is the start time of the conference
- time T15 is the end time of the conference.
- the first analysis data L11 shown by the solid line, the second analysis data L12 shown by the dotted line, and the third analysis data L13 shown by the two-dot chain line are plotted.
- the second index is, for example, attention, empathy or comprehension.
- the first analysis data L11 shows the degree of attention.
- the second analysis data L12 shows sympathy.
- the third analysis data L13 shows the degree of understanding.
- the axis G11a is a linear display that intersects the horizontal axis of the graph G11 and extends in the vertical direction, and indicates an arbitrary time of the graph G11.
- the axis G11a moves on the horizontal axis of the graph G11 and indicates the time TX specified by the seek bar G2. That is, the position of the seek bar G2 and the position of the axis G11a are linked.
- the seek bar G2 and the axis G11a may be displayed in a color tone corresponding to the value of the analysis data at the designated position.
- the analyzer 100 can qualitatively show the emotional state at the time specified in the conference image. This allows the user to intuitively grasp the emotional state at any time.
- the leftmost position S10 of the seek bar G2 corresponds to the time T11
- the rightmost position S15 corresponds to the time T15
- the relative left-right position of the slider G2a on the seek bar G2 is set to correspond to the relative left-right position of the axis G11a on the graph G11.
- the axis G11a intersects the time TX on the horizontal axis in the graph G11.
- the ratio of the length from the position SX to the position S10 and the length from the position S15 to the position SX is the same as the ratio of the length from the time TX to the time T10 and the length from the time T15 to the time TX.
- the position of the axis G11a is also interlocked correspondingly.
- the position of the slider G2a may be interlocked correspondingly.
- the user can move the position of the slider G2a on the playback screen output by the output unit 115.
- the analyzer 100 detects the movement of the position of the slider G2a
- the analyzer 100 detects the time specified by the seek bar G2 based on the relative left-right position of the slider G2a after the movement.
- the screen generation unit 114 generates a reproduction screen including the image data G1 based on the detected time.
- the screen generation unit 114 generates a reproduction screen including the axis G11a whose relative left-right position is determined on the graph G11 based on the detected time.
- the output unit 115 outputs the generated playback screen.
- the user can move the position of the axis G11a in the graph G11.
- the analyzer 100 detects the time specified by the axis G11a based on the relative left-right position of the axis G11a after the movement.
- the screen generation unit 114 generates a reproduction screen including the image data G1 based on the detected time.
- the screen generation unit 114 generates a reproduction screen including the seek bar G2 in which the relative left-right position of the slider G2a is determined based on the detected time.
- the output unit 115 outputs the generated playback screen.
- the user can confirm the image data at an arbitrary timing of the conference by moving the slider G2a of the seek bar G3 on the reproduction screen.
- the position of the axis G11a on the horizontal axis of the graph G11 corresponds to the time specified by the seek bar G3. Therefore, by confirming the position of the axis G11a on the graph G11, the user can instantly grasp the emotional tendency of the participants in the conference at the timing when the image data during the conference is confirmed. Therefore, the analyzer 100 can grasp the emotions of the participants in the conference.
- FIG. 4 is a block diagram showing a configuration of the analysis system 10 according to the second embodiment.
- the analysis system 10 includes an analysis device 200 and an emotion data generation device 300.
- the analyzer 200 and the emotion data generation device 300 are communicably connected to each other via the network N.
- the analysis system 10 is communicably connected to the conference management device 400 via the network N.
- the conference management device 400 connects to the conference terminal group 90 via the network N to operate an online conference.
- the conference terminal group 90 includes a plurality of conference terminals (900A, 900B, ..., 900N) and a user terminal 990.
- FIG. 5 is a block diagram showing the configuration of the analyzer according to the second embodiment.
- the analyzer 200 includes an emotion data acquisition unit 111, a conference data acquisition unit 112, an analysis data generation unit 113, a screen generation unit 114, an output unit 115, a chapter generation unit 116, a person identification unit 117, and a storage unit.
- a unit 120 is provided.
- the emotion data acquisition unit 111 acquires emotion data accompanied by time data from the emotion data generation device 300.
- the emotion data generation device 300 generates emotion data from the facial image data of the participants of the conference in the online conference, and supplies the generated emotion data to the analyzer 100.
- Emotion data is data showing the emotions of each participant in the conference.
- Emotional data includes at least one index (first index) such as attention, confusion, happiness and surprise. That is, the emotional data shows how much the participants feel these emotions (state of emotion) for each of the above-mentioned indexes. Emotional data numerically indicates at least one indicator.
- first index such as attention, confusion, happiness and surprise. That is, the emotional data shows how much the participants feel these emotions (state of emotion) for each of the above-mentioned indexes.
- Emotional data numerically indicates at least one indicator.
- the emotion data generation device 300 generates emotion data every predetermined period (for example, 1 second).
- the emotion data acquisition unit 111 acquires emotion data at predetermined time intervals according to the progress time of the meeting.
- the emotion data acquisition unit 111 acquires the emotion data
- the acquired emotion data is supplied to the analysis data generation unit 113.
- the conference data acquisition unit 112 acquires conference data from the conference management device 400.
- the conference management device 400 is, for example, a server device to which each of the participants of the conference can communicate with each other.
- the conference management device 400 may be included in the conference terminal 900 used by the participants of the conference.
- the conference data includes image data with time data of participants in the conference.
- the image data may be data of a speaker screen in a conference, a non-speaker screen in a conference, and a screen shared in a conference.
- the conference data includes the start time and end time of the conference.
- the meeting data also includes the time of breaks taken during the meeting.
- the conference data may include, for example, a switching time of the authority to operate the shared screen shared by the participants (owner of the shared screen) and a switching time of the utterances of the participants.
- the conference data may include times such as page turning and changes in the displayed image in the shared screen.
- the conference data may include what each of the above-mentioned times indicates.
- the conference data acquisition unit 112 supplies the acquired conference data to the analysis data generation unit 113 and the chapter generation unit 116.
- the chapter generation unit 116 generates chapters for the conference from the conference data received from the conference data acquisition unit 112.
- the chapter generation unit 116 detects, for example, the time from the start of the conference to the end of the conference, further detects the time that matches the preset conditions, and generates data indicating the chapter with each time as a delimiter. do.
- the chapters of a meeting in the present disclosure are defined by whether the state of meeting the predetermined conditions is maintained at the meeting or whether the predetermined conditions have changed.
- the chapter generation unit 116 may generate chapters based on, for example, data related to screen sharing. More specifically, the chapter generation unit 116 may generate chapters according to the switching timing of screen sharing. Further, the chapter generation unit 116 may generate chapters according to the switching time of the owner of the shared screen related to screen sharing.
- the chapter generation unit 116 supplies data indicating the generated chapters to the analysis data generation unit 113.
- the person identification unit 117 may have a function of extracting facial feature information of a person from image data and estimating a division to which the person belongs according to the extracted information.
- the classification to which a person belongs indicates the characteristics or attributes of the person, such as the age or gender of the person.
- the person identification unit 117 uses the above-mentioned function to specify the category to which the participants of the conference belong based on the image data received from the conference data acquisition unit 112.
- the person identification unit 117 supplies data regarding the classification of the person to the analysis data generation unit 113.
- the person identification unit 117 may specify the category to which the specified participant belongs by using the person attribute data stored in the storage unit 120.
- the person identification unit 117 associates the face feature information extracted from the face image with the person attribute information stored in the storage unit 120, and specifies the classification of the participants corresponding to the face feature information.
- the classification of the participants is, for example, the corporation to which the participants belong, the department within the corporation, or the occupation of the participants.
- the analyzer 200 can extract data that can be used for the analysis data while considering the privacy of the participants.
- the person identification unit 117 may specify the person related to the image from the image data received from the conference data acquisition unit 112. In this case, the person identification unit 117 associates the face feature information extracted from the face image with the person attribute information stored in the storage unit 120, and identifies the participant corresponding to the face feature information. As a result, the person identification unit 117 can identify each participant of the conference. By identifying the participants in the conference, the analyzer 200 can generate analytical data associated with the identified participants. Therefore, the analyzer 200 can perform a detailed analysis for the specified participant.
- the analysis data generation unit 113 generates analysis data for the meeting based on the emotion data acquired by the emotion data acquisition unit 111.
- the analytical data includes at least one index (second index) indicating the reaction of the participants to the conference, such as attention, empathy and comprehension.
- the analytical data generation unit 113 numerically indicates at least one second index indicating the reaction of the participants to the conference based on the emotional data.
- the analysis data generation unit 113 generates, for example, a time-series graph showing the temporal transition of the numerical value in the second index as the analysis data. By doing so, it is possible to show detailed changes in the reaction of participants to the conference.
- the analysis data generation unit 113 supplies the generated analysis data to the screen generation unit 114.
- the analysis data generation unit 113 generates analysis data obtained by calculating statistical values (for example, average values) of the numerical values in the second index in a predetermined period from the received emotion data, conference data, and data indicating chapters.
- the predetermined period is for each chapter.
- the analysis data generation unit 113 supplies the generated analysis data to the screen generation unit 114.
- the screen generation unit 114 generates a playback screen to be output by the output unit 115.
- the playback screen includes a seek bar for designating a time and analysis data and image data at the time specified by the seek bar.
- the screen generation unit 114 extracts the image data at the time specified by the seek bar based on the image data and the time data accompanying the image data, and includes the extracted image data in the playback screen. Further, the screen generation unit 114 generates a reproduction screen including a display for identifying a numerical value in the second index corresponding to the time specified by the seek bar on the time series graph. For example, the screen generation unit 114 generates an axis corresponding to the time specified in the seek bar on the time series graph. The axis generated on the time series graph points to the second index at the specified time.
- the output unit 115 outputs the playback screen generated by the screen generation unit 114 to the user terminal 990.
- the user who uses the analyzer 100 visually recognizes the reproduction screen output to the user terminal 990.
- the user simultaneously perceives the analysis data shown on the playback screen and the conference image. Therefore, the user can recognize the situation of the meeting and the feelings of the participants in the situation.
- the storage unit 120 is a storage device including a non-volatile memory such as an SSD or a flash memory.
- the storage unit 120 stores the person attribute data and the analysis history data.
- the person attribute data is data in which the face feature information of a person is associated with information on the classification and attributes of the person. Information on the classification and attributes of a person is, for example, the person's name, gender, age, occupation, corporation to which the person belongs, or department to which the person belongs, but is not limited thereto.
- the analysis history data is analysis data related to the analysis performed in the past by the analyzer 200.
- the storage unit 120 stores, for example, a program for executing the analysis method according to the present embodiment.
- FIG. 6 is a diagram showing an example of data processed by the analysis data generation unit according to the second embodiment.
- FIG. 6 shows an input data group received by the analysis data generation unit 113 and an output data group output by the analysis data generation unit 113.
- the analysis data generation unit 113 receives emotion data as an input data group from the emotion data generation device 300.
- the input data set includes, for example, first indicators of attention, confusion, contempt, disgust, fear, happiness, empathy, surprise, and presence. These indicators are, for example, indicated by numerical values from 0 to 100 for each indicator.
- the emotional data of the input data group may be acquired from the facial image data by using an existing video processing technique, or may be generated and acquired by another method.
- the analysis data generation unit 113 When the analysis data generation unit 113 receives the above-mentioned input data group, it performs a preset process and generates an output data group using the input data group.
- the output data group is data that the user who uses the analysis system 10 refers to in order to efficiently hold the conference.
- the output data set includes, for example, a second indicator of attention, empathy and comprehension. Further, the analysis data generation unit 113 performs preset arithmetic processing on the value related to the second index. Then, the analysis data generation unit 113 generates the above-mentioned output data group.
- the degree of attention shown as the output data group may be the same as or different from the degree of attention included in the input data group.
- the sympathy shown as the output data group may be the same as or different from the sympathy included in the input data group.
- FIG. 7 is a block diagram showing the configuration of the emotion data generation device according to the second embodiment.
- the emotion data generation device 300 includes a participant data acquisition unit 311, an emotion data generation unit 312, and an emotion data output unit 313.
- Participant data acquisition unit 311 acquires data related to participants from the conference management device 400.
- the data about the participants is the face image data of the participants taken by the conference terminal.
- the emotion data generation unit 312 generates emotion data from the face image data received by the emotion data generation device 300.
- the emotion data output unit 313 outputs the emotion data generated by the emotion data generation unit 312 to the analyzer 200 via the network N.
- the emotion data generation device 300 generates emotion data by performing predetermined image processing on the face image data of the participants. Predetermined image processing includes, for example, extraction of feature points (or feature quantities), matching with reference data for the extracted feature points, convolution processing of image data, processing using machine-learned teacher data, and teacher data by deep learning. It is a process that utilizes.
- the method by which the emotion data generation device 300 generates emotion data is not limited to the above-mentioned processing.
- the emotional data may be a numerical value indicating emotions, or may include image data used when generating emotional data.
- FIG. 8 is a flowchart showing the operation of the analyzer according to the second embodiment.
- the analyzer 200 determines whether or not the online conference has been started (step S21).
- the analyzer 200 determines the start of the conference by receiving a signal from the conference management device 400 indicating that the conference has started. If it is not determined that the online conference has started (step S21: NO), the analyzer 200 repeats step S21. If it is determined that the online conference has started (step S21: YES), the analyzer 200 proceeds to step S22.
- the emotion data acquisition unit 111 acquires emotion data from the emotion data generation device 300 (step S22).
- the emotion data acquisition unit 111 may acquire the generated emotion data each time the emotion data generation device generates the emotion data, or may collectively acquire the generated emotion data at a plurality of different times.
- the conference data acquisition unit 112 acquires the conference data (step S23).
- the conference data includes image data with time data of participants in the conference.
- the conference data also includes the start time and end time of the conference.
- the conference data acquisition unit 112 may receive the conference data at predetermined intervals (for example, one minute), or may sequentially receive the conference data when there is information to be updated.
- the analyzer 200 determines whether or not a new chapter can be generated (step S24). Specifically, the analyzer 200 determines whether or not a new chapter can be generated based on the received conference data. If a new chapter can be generated (step S24 NO), the analyzer 200 returns to step S22. On the other hand, if a new chapter can be generated (YES in step S24), the analyzer 200 proceeds to step S25.
- step S25 the chapter generation unit 116 generates chapters based on the conference data (step S25). Specifically, the chapter generation unit 116 generates chapters based on the conference data.
- the analysis data generation unit 113 generates analysis data (step S26). Specifically, the analysis data generation unit 113 includes emotion data received from the emotion data acquisition unit 111, conference data received from the conference data acquisition unit 112, data indicating chapters received from the chapter generation unit 116, and a person. From the data received from the specific unit 117, the analysis data for the newly generated chapter is generated. Then, when the analysis data generation unit 113 generates the analysis data for each chapter, the generated analysis data is supplied to the screen generation unit 114.
- the screen generation unit 114 generates a playback screen based on the analysis data (step S27).
- the output unit 115 outputs the generated playback screen to the user terminal 990 (step S28).
- the analyzer 200 determines whether or not the conference has ended (step S29). The analyzer 200 determines the end of the conference by receiving a signal from the conference management device 400 indicating that the conference has ended. If it is not determined that the meeting has ended (step S29 NO), the analyzer 200 returns to step S22 and continues the process. On the other hand, when it is determined that the online conference has ended (YES in step S29), the analyzer 200 ends a series of processes.
- FIG. 9 is a diagram showing a first example of the reproduction screen according to the second embodiment.
- the reproduction screen includes image data G1, seek bar G2, graph G11, conference data G12, and analysis data G13 showing analysis data in chronological order.
- the image data G1 is the image data in the conference, and is the image data at the time specified by the seek bar G2 described later.
- a seek bar is superimposed on the image data G1.
- the seek bar G2 is an interface for designating and displaying an arbitrary time in a conference.
- the seek bar G2 is a strip-shaped image extending in the left-right direction, and is superimposed on, for example, a conference screen.
- the seek bar G2 includes the slider G2a.
- the slider G2a is a rectangular image arranged on the seek bar G2, and is for designating an arbitrary position in the seek bar.
- the user can specify the position of the slider G2a by selecting an arbitrary position of the seek bar G2.
- the image data G1 displays the image at the time corresponding to the position designated by the slider G2a.
- the user can also specify the position of the slider G2a by moving the slider G2a in the left-right direction with the slider G2a selected.
- Graph G11 is a time series graph showing the temporal transition of the second index.
- the horizontal axis indicates the time
- the vertical axis indicates the numerical value (score) in the second index.
- the left end is the time T10
- the right end is the time T15.
- Time T10 is the start time of the conference
- time T15 is the end time of the conference.
- Times T11, T12, T13 and T14 between time T10 and time T15 indicate times corresponding to chapters described later.
- the first analysis data L11 shown by the solid line, the second analysis data L12 shown by the dotted line, and the third analysis data L13 shown by the two-dot chain line are plotted.
- the second index is, for example, attention, empathy or comprehension.
- the first analysis data L11 shows the degree of attention.
- the second analysis data L12 shows sympathy.
- the third analysis data L13 shows the degree of understanding.
- the axis G11a is a linear display that intersects the horizontal axis of the graph G11 and extends in the vertical direction, and indicates an arbitrary time of the graph G11.
- the axis G11a moves on the horizontal axis of the graph G11 and indicates the time TX specified by the seek bar G2. That is, the position of the seek bar G2 and the position of the axis G11a are linked.
- the seek bar G2 and the axis G11a may be displayed in a color tone corresponding to the value of the analysis data at the designated position.
- the analyzer 100 can qualitatively show the emotional state at the time specified in the conference image. This allows the user to intuitively grasp the emotional state at any time.
- the leftmost position S10 of the seek bar G2 corresponds to the time T11
- the rightmost position S15 corresponds to the time T15
- the relative left-right position of the slider G2a on the seek bar G2 is set to correspond to the relative left-right position of the axis G11a on the graph G11.
- the axis G11a intersects the time TX on the horizontal axis in the graph G11.
- the ratio of the length from the position SX to the position S10 and the length from the position S15 to the position SX is the same as the ratio of the length from the time TX to the time T10 and the length from the time T15 to the time TX.
- the position of the axis G11a is also interlocked correspondingly.
- the position of the slider G2a may be interlocked correspondingly.
- the user can move the position of the slider G2a on the playback screen output by the output unit 115.
- the analyzer 100 detects the movement of the position of the slider G2a
- the analyzer 100 detects the time specified by the seek bar G2 based on the relative left-right position of the slider G2a after the movement.
- the screen generation unit 114 generates a reproduction screen including the image data G1 based on the detected time.
- the screen generation unit 114 generates a reproduction screen including the axis G11a whose relative left-right position is determined on the graph G11 based on the detected time.
- the output unit 115 outputs the generated playback screen.
- the user can move the position of the axis G11a in the graph G11.
- the analyzer 100 detects the time specified by the axis G11a based on the relative left-right position of the axis G11a after the movement.
- the screen generation unit 114 generates a reproduction screen including the image data G1 based on the detected time.
- the screen generation unit 114 generates a reproduction screen including the seek bar G2 in which the relative left-right position of the slider G2a is determined based on the detected time.
- the output unit 115 outputs the generated playback screen.
- the data related to the shared screen of the conference and the data related to the presenter are shown in chronological order. That is, the data relating to the display screen indicates that the shared screen from the time T10 to the time T11 was the screen D1. Further, the data related to the display screen indicates that the shared screen from the time T11 to the time T12 was the screen D2.
- the shared screen in the conference is screen D3 from time T12 to time T13, screen D4 from time T13 to time T14, and screen D5 from time T14 to time T15. It is shown that.
- the data regarding the presenter indicates that the presenter W1 was from time T10 to time T12.
- the data about the presenter shows that the presenter W2 was from time T12 to time T14, and the presenter W1 was again from time T14 to time T15.
- the relationship between the shared screen and the presenter in the above-mentioned conference data G12 will be explained in chronological order.
- the presenter W1 is proceeding with the conference from the time T10 to the time T12 when the conference is started, and the presenter W1 displays the screen D1 as a shared screen from the time T10 to the time T11. (That is, the screen D1 is shared).
- the presenter W1 continued the presentation by switching the front screen from the screen D1 to the screen D2 from the time T11 to the time T12.
- the presenter changed from presenter W1 to presenter W2.
- the presenter W2 shared the screen D3 from the time T12 to the time T13, and shared the screen D4 from the time T13 to the time T14. From time T14 to time T15, the presenter W1 who was replaced by the presenter W2 shared the screen D5.
- the conference data shown in FIG. 9 includes data on the period during which the screen data on the shared screen was displayed and data on who the presenter was.
- the chapter generation unit 116 can generate chapters according to the data related to the shared screen among the above-mentioned conference data.
- the data indicating the chapter corresponding to the above-mentioned conference data and the analysis data corresponding to the chapter are shown in chronological order.
- the data indicating the chapter corresponds to the data related to the shared screen in the conference data. That is, the first chapter C11 is from the time T10 to the time T11 when the screen D1 was shared. Similarly, the second chapter C12 is from the time T11 to the time T12 when the screen D2 was shared. The third chapter C13 is from the time T12 to the time T13 when the screen D3 was shared. The fourth chapter C14 is from the time T13 to the time T14 when the screen D4 was shared. The fifth chapter C15 is from the time T14 to the time T15 when the screen D5 was shared.
- the analysis data G13 includes statistical values for each chapter of the numerical values in the second index.
- the analytical data shows statistics in a second index (attention, empathy or comprehension) for each chapter and a total score of these.
- the attention level is 65
- the empathy level is 50
- the comprehension level is 43
- the total score is shown as 158 as a total of these.
- the attention level is 61
- the empathy level is 45
- the comprehension level is 32
- the total score is 138.
- the analysis data G13 corresponds to the data plotted in the graph G11, respectively. That is, the analysis data shown as the analysis data G13 is an average value of the analysis data calculated for each predetermined period (for example, 1 minute) in the corresponding chapter period.
- the timing at which the shared screen is switched in the conference data is set as the chapter switching timing, but the timing at which the presenter (W1, W2 or W3) is switched in the conference data is set as the chapter switching timing. You may. Thereby, the analyzer 200 can provide the statistical value for each presenter.
- the user can confirm the image data at an arbitrary timing of the conference by moving the slider G2a of the seek bar G3 on the reproduction screen.
- the position of the axis G11a on the horizontal axis of the graph G11 corresponds to the time specified by the seek bar G3. Therefore, by confirming the position of the axis G11a on the graph G11, the user can instantly grasp the emotional tendency of the participants in the conference at the timing when the image data during the conference is confirmed. Therefore, the analyzer 100 can grasp the emotions of the participants in the conference.
- the statistical value for each chapter of the numerical value in the second index is included in the reproduction screen. Therefore, the user can quantitatively and instantly grasp the emotions of the participants in the conference at the timing when the image data during the conference is confirmed based on the position of the axis G11a.
- FIG. 10 is a diagram showing a second example of the reproduction screen according to the second embodiment.
- the image data G1, the graph G11, the conference data G12, and the analysis data G13 are the same as those shown in FIG.
- the seek bar G3 displays the timing at which the score of the analysis data in the graph G11 fluctuates by a predetermined value so that the user can identify it.
- the seek bar G2 corresponds to the position S12 and the time T16 corresponding to the time T12.
- the mark M1 is displayed between the positions S16.
- the mark M1 is displayed between the position S12 and the position S16 of the seek bar G3, but may be displayed at a predetermined position between the position S12 and the position S16 of the seek bar G3.
- the user can move the slider G2a using the mark M1 of the seek bar G3 as a mark on the playback screen. Then, the image data corresponding to the mark M1 (that is, the timing when the emotions of the participants fluctuate greatly) can be confirmed. Further, by confirming the position of the axis G11a in the graph G11, that is, the emotional tendency in the meeting at the timing when the emotions of the participants fluctuate greatly can be grasped instantly.
- the seek bar G3 displays the timing at which each chapter in the analysis data G13 is switched so that the user can identify it.
- the timing at which each chapter is switched is time T11, time T12, time T13, and time T14.
- the position S11, the position S12, the position S13, and the position S14 of the seek bar G3 correspond to the time T11, the time T12, the time T13, and the time T14, respectively.
- the seek bar G3 displays the mark M2 at the position S11, the position S12, the position S13, and the position S14.
- the mark M2 is displayed at each position (position S11, position S12, position S13, position S14) of the seek bar G3, but may be displayed at any position.
- the user can move the slider G2a using the mark M2 of the seek bar G3 as a mark on the playback screen. Then, the image data corresponding to the mark M2 (that is, the timing at which the chapter is switched) can be confirmed. Further, by confirming the position of the axis G11a in the graph G11, it is possible to instantly grasp the tendency of emotions in the meeting at the timing when the chapters are switched.
- Each functional component of the analyzer 100, the analyzer 200, the emotion data generation device 300, and the conference management device 400 (hereinafter referred to as each device) is hardware (eg, hard-wired electronic) that realizes each functional component. It may be realized by a combination of hardware and software (eg, a combination of an electronic circuit and a program that controls it).
- hardware eg, hard-wired electronic
- software eg, a combination of an electronic circuit and a program that controls it.
- FIG. 13 is a block diagram illustrating a computer hardware configuration. Each device can be realized by the computer 500 having the hardware configuration shown in FIG.
- the computer 500 is a portable computer such as a smartphone or a tablet terminal.
- the computer 500 may be a portable computer or a stationary computer such as a PC.
- the computer 500 may be a dedicated computer designed to realize each device, or may be a general-purpose computer. Further, the computer 500 may be a stationary computer such as a PC (Personal Computer).
- the computer 500 can have a desired function.
- each function of each device is realized in the computer 500.
- the computer 500 has a bus 502, a processor 504, a memory 506, a storage device 508, an input / output interface (I / F) 510, and a network interface (I / F) 512.
- the bus 502 is a data transmission path for the processor 504, the memory 506, the storage device 508, the input / output interface 510, and the network interface 512 to transmit and receive data to and from each other.
- the method of connecting the processors 504 and the like to each other is not limited to the bus connection.
- the processor 504 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or an FPGA (Field-Programmable Gate Array).
- the memory 506 is a main storage device realized by using RAM (RandomAccessMemory) or the like.
- the storage device 508 is an auxiliary storage device realized by using a hard disk, an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
- the input / output interface 510 is an interface for connecting the computer 500 and the input / output device.
- an input device such as a keyboard and an output device such as a display device are connected to the input / output interface 510.
- the network interface 512 is an interface for connecting the computer 500 to the network.
- This network may be a LAN (Local Area Network) or a WAN (Wide Area Network).
- the storage device 508 stores a program for realizing a desired function.
- the processor 504 reads this program into the memory 506 and executes it to realize each functional component of each device.
- the analysis system 10 may include a conference management device 400.
- the analyzer 200, the emotion data generation device 300, and the conference management device 400 may exist separately, or a part or all of them may be integrated.
- the function of the emotion data generation device 300 is configured as a program and may be included in the analysis device 200 or the conference management device 400.
- the layout of the playback screen according to the above embodiment is not limited to the example shown in the above embodiment.
- the graph G11 on the reproduction screen shown in FIG. 3 may be arranged at the lower part of the image data G1.
- the seek bar G2 on the reproduction screen shown in FIG. 3 may be arranged in another place instead of being arranged on the image data G1.
- Non-temporary computer-readable media include various types of tangible recording media.
- Examples of non-temporary computer-readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks), CD-ROM (Read Only Memory) CD-R, CDs. -R / W, including semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (RandomAccessMemory)).
- the program may also be supplied to the computer by various types of temporary computer-readable media. Examples of temporary computer readable media include electrical, optical, and electromagnetic waves.
- the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
- Appendix 2 The analyzer according to Appendix 1, wherein the emotion data acquisition means acquires a first index in which the emotional state based on the facial image data is indicated by at least one numerical value as the emotion data.
- Appendix 3 Based on the emotional data, the analytical data generation means numerically indicates one second index without the reaction of the participant to the conference.
- the analyzer according to Appendix 1 or 2 which generates a time-series graph showing a time-series transition of the second index as the analysis data.
- Appendix 4 The analyzer according to Appendix 3, wherein the screen generation means generates the reproduction screen including a display indicating the second index corresponding to the time specified by the seek bar on the time series graph.
- the conference data acquisition means acquires conference data including data related to screen sharing in the conference.
- the chapter generation means generates the chapter based on the data related to the screen sharing.
- the chapter generation means generates the chapter according to the switching timing of the screen sharing.
- the analyzer according to Appendix 11. (Appendix 13)
- the chapter generation means generates the chapter according to the switching time of the owner of the shared screen related to the screen sharing.
- the analyzer according to Appendix 11. (Appendix 14) Further equipped with a person identification means for identifying a person based on face image data,
- the conference data acquisition means acquires the face image data of the participant and obtains the face image data of the participant.
- the person identification means identifies the category to which the participant belongs from the face image data, and then The analysis data generation means generates the analysis data in consideration of the classification.
- the analyzer according to any one of Supplementary note 1 to 13.
- the conference data acquisition means acquires the face image data of the participant and obtains the face image data of the participant.
- the person identification means identifies the participant from the face image data and obtains the participant.
- the analysis data generation means generates the analysis data of the participant related to the identification.
- the analyzer according to any one of Supplementary note 1 to 14.
- An emotion data generator that generates the emotion data and provides the emotion data to the analyzer.
- Analytical system with (Appendix 17) Acquiring emotional data with time data generated based on the facial image data of participants in an online conference, Acquiring conference data including image data accompanied by time data in the conference, To generate analytical data for the meeting based on the emotional data, To generate a playback screen including a seek bar that specifies a time, the analysis data corresponding to the specified time, and the image data.
- a method including outputting the playback screen.
- Analysis system 90 Conference terminal group 100 Analysis device 111 Emotion data acquisition unit 112 Conference data acquisition unit 113 Analysis data generation unit 114 Screen generation unit 115 Output unit 116 Chapter generation unit 117 Person identification unit 120 Storage unit 200 Analysis device 300 Emotion data generation Device 311 Participant data acquisition unit 312 Emotion data generation unit 313 Emotion data output unit 400 Conference management device 500 Computer 502 Bus 504 Processor 506 Memory 508 Storage device 510 Input / output interface (I / F) 512 Network Interface (I / F) 900, 900A, 900B Conference terminal 990 User terminal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
分析装置(100)は、オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する感情データ取得手段(111)と、会議における時刻データを伴う画像データを含む会議データを取得する会議データ取得手段(112)と、感情データに基づいて会議に対する分析データを生成する分析データ生成手段(113)と、時刻を指定するためのシークバーと指定された時刻に対応する分析データと画像データとを含む再生画面を生成する画面生成手段(114)と、再生画面を出力する出力手段(115)と、を備える。
Description
本発明は分析装置、システム、方法及びプログラムに関する。
オンライン会議において会議の雰囲気を把握することが難しい。特許文献1では、画面に表示する画像に対して当該画像に含まれる人物の感情を検出する技術が開示されている。
しかしながら、特許文献1では、複数の参加者が存在する会議における参加者の感情を検出できない。したがって、オンライン会議における参加者の感情を把握することが難しいという問題点があった。
本開示はこのような課題を鑑みてなされたものであり、オンライン会議における参加者の感情を把握することができる分析装置、システム、方法及びプログラムを提供することを目的とする。
本開示の分析装置は、オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する感情データ取得手段と、前記会議における時刻データを伴う画像データを含む会議データを取得する会議データ取得手段と、前記感情データに基づいて前記会議に対する分析データを生成する分析データ生成手段と、時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する画面生成手段と、前記再生画面を出力する出力手段と、を備える。
本開示の方法は、オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得することと、前記会議における時刻データを伴う画像データを含む会議データを取得することと、前記感情データに基づいて前記会議に対する分析データを生成することと、時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成することと、前記再生画面を出力することと、を含む。
本開示の非一時的なコンピュータ可読媒体は、コンピュータに、以下のステップを実行させるものである。コンピュータは、オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する処理と、前記会議における時刻データを伴う画像データを含む会議データを取得する処理と、前記感情データに基づいて前記会議に対する分析データを生成する処理と、時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する処理と、前記再生画面を出力する処理と、をコンピュータに実行させるプログラムを格納する。
本開示によれば、オンライン会議における参加者の感情を把握することができる分析装置、分析方法、分析システムおよびプログラムを提供することができる。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
なお、以下の実施形態にいて、オンライン会議とは、通信回線を介して互いに通信可能に接続された複数の会議端末を利用して開催される会議をいう。オンライン会議に接続する会議端末は、例えばパソコン、スマートフォン、タブレット端末、カメラ付き携帯電話等である。また会議端末は、参加者を撮影するカメラ、参加者の発話を収音するマイクおよび画像データや音声データを送受信する通信機能を有する装置であれば上記のものに限られない。また以降の説明においてオンライン会議を、単に「会議」と称する場合がある。
以下の実施形態においてオンライン会議の参加者とは、会議端末を通じてオンライン会議に接続している人物を示すものであって、会議の主催者、会議の発表者、プレゼンタおよび会議の傍聴者を含む。例えば1つの会議端末を通じて複数の人物が会議に参加している場合には複数の人物それぞれが参加者である。本実施形態において参加者は会議端末が内蔵するまたは会議端末に接続されたカメラにより顔画像が撮影可能な状態で会議に参加するものとする。
<第1の実施形態>
まず、図1を用いて第1の実施形態に係る分析装置100の構成について説明する。図1は、第1の実施形態に係る分析装置の構成を示すブロック図である。分析装置100は、オンライン会議に参加する参加者の感情データを取得し、取得した感情データから当該オンライン会議にかかる分析データを生成して、生成した分析データを所定の端末等に出力する。
まず、図1を用いて第1の実施形態に係る分析装置100の構成について説明する。図1は、第1の実施形態に係る分析装置の構成を示すブロック図である。分析装置100は、オンライン会議に参加する参加者の感情データを取得し、取得した感情データから当該オンライン会議にかかる分析データを生成して、生成した分析データを所定の端末等に出力する。
分析装置100は、オンライン会議における参加者の感情データを生成する感情データ生成装置300(後述)および会議を運営する会議運営装置400(後述)と通信可能にそれぞれ接続する。また分析装置100は、分析装置100を利用するユーザが有する端末(ユーザ端末)と通信可能に接続する。分析装置100は、感情データ取得部111、会議データ取得部112、分析データ生成部113、画面生成部114および出力部115を備える。
感情データ取得部111は、感情データ生成装置300から時刻データを伴う感情データを取得する。感情データ生成装置300は、オンライン会議における会議の参加者の顔画像データから感情データを生成し、生成した感情データを分析装置100に供給する。感情データは、会議の参加者がそれぞれ有する感情を示すデータである。
感情データは、例えば注目度、困惑度、幸福度および驚きなど少なくとも1つの指標(第1の指標)を含む。すなわち感情データは、上述の指標ごとに、参加者がどの程度これらの感情を感じているか(感情の状態)を示すものである。感情データは、少なくとも1つの指標を数値により示している。
感情データ生成装置300は、所定期間(例えば1秒間)毎の感情データを生成する。感情データ取得部111は、会議の進行時刻に沿った所定時間ごとの感情データを取得する。感情データ取得部111は、感情データを取得すると、取得した感情データを、分析データ生成部113に供給する。
会議データ取得部112は、会議運営装置400から会議データを取得する。会議運営装置400は、例えば会議の参加者のそれぞれが通信可能に接続するサーバ装置である。会議運営装置400は、会議の参加者が利用する会議端末900(後述)に含まれるものであってもよい。会議データは、会議における参加者の時刻データを伴う画像データを含む。画像データは、会議における発話者の画面、会議における非発話者の画面、会議において共有された画面のデータであってもよい。そして、会議データ取得部112は、会議データを分析データ生成部113に供給する。
分析データ生成部113は、感情データ取得部111が取得した感情データに基づいて会議に対する分析データを生成する。分析データは、例えば注目度、共感度及び理解度など会議への参加者の反応を示す少なくとも1つの指標(第2の指標)を含む。分析データ生成部113は、感情データに基づいて、会議への参加者の反応を示す少なくとも1つの第2の指標を数値により示す。分析データ生成部113は、例えば、第2の指標における数値の時間的推移を示した時系列グラフを分析データとして生成する。そうすることによって、会議への参加者の反応の詳細な変化を示すことができる。分析データ生成部113は生成した分析データを画面生成部114に供給する。
画面生成部114は、時刻を指定するためのシークバーとシークバーで指定された時刻における分析データと画像データとを含む再生画面を生成する。画面生成部114は、画像データと当該画像データに伴う時刻データに基づいて、シークバーで指定された時刻の画像データを抽出し、抽出された画像データを再生画面に含める。また、画面生成部114は、シークバーで指定される時刻に対応する第2の指標における数値を識別するための表示を時系列グラフ上に含む再生画面を生成する。例えば、画面生成部114は、シークバーにおいて指定される時刻に対応する軸を時系列グラフ上に生成する。時系列グラフ上に生成される軸は、指定される時刻における第2の指標を指し示す。
出力部115は、画面生成部114が生成した再生画面をユーザ端末990(後述)に出力する。分析装置100を利用するユーザは、ユーザ端末990に出力された再生画面を視認する。これによりユーザは再生画面に示された分析データと、会議画像とを同時に知覚する。そのためユーザは会議の状況と当該状況における参加者の感情を認識できる。
次に、図2を用いて、第1の実施形態に係る分析装置100の動作について説明する。図2は、第1の実施形態に係る分析装置100の動作を示すフローチャートである。図2に示すフローチャートは、例えば分析装置100が会議運営装置400から会議の開始を示す信号を受け取ることにより開始する。
まず、感情データ取得部111は、オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する(ステップS11)。次に、会議データ取得部112は、会議における時刻データを伴う画像データを含む会議データを取得する(ステップS12)。分析データ生成部113は、感情データに基づいて会議に対する分析データを生成する(ステップS13)。画面生成部114は、時刻を指定するためのシークバーとシークバーで指定された時刻における分析データと画像データとを含む再生画面を生成する(ステップS14)。次に、出力部115は、生成した再生画面を出力する(ステップS15)。
なお、上述の処理のうち、ステップS11とステップS12とは、順序を問わない。またステップS11とステップS12とは平行して実行されてもよい。あるいは、ステップS11とステップS12とは、所定期間ごとに交互に実行されてもよい。
続いて、図3を用いて、第1の実施形態に係る再生画面の一例を説明する。図3は、第1の実施形態に係る再生画面の一例を示す図である。
画像データG1は、会議における画像データであり、後述するシークバーG2で指定された時刻における画像データである。画像データG1にはシークバーが重畳される。
シークバーG2は、会議における任意の時刻を指定して表示するためのインタフェースである。シークバーG2は左右方向に延伸する帯状の画像であって、例えば会議画面上に重畳される。
シークバーG2は、スライダG2aを含む。スライダG2aは、シークバーG2上に配置された矩形状の画像であって、シークバー内の任意の位置を指定するためのものである。ユーザは、シークバーG2の任意の位置を選択することにより、スライダG2aの位置を指定できる。これにより、画像データG1には、スライダG2aにより指定された位置に対応する時刻の画像が表示される。ユーザは、スライダG2aを選択した状態で左右方向に移動させることによりスライダG2aの位置を指定することもできる。
グラフG11は、第2の指標の時間的推移を示した時系列グラフである。グラフG11は、横軸が時刻を示し、縦軸が第2の指標における数値(スコア)を示している。横軸は左端が時刻T10であり、右に進むほど時間が経過し、右端が時刻T15となっている。時刻T10は、会議の開始時刻であり、時刻T15は会議の終了時刻である。
また、グラフG11は、実線により示された第1分析データL11と、点線により示された第2分析データL12と、二点鎖線により示された第3分析データL13とがプロットされている。第2の指標は、例えば注目度、共感度又は理解度である。第1分析データL11は、注目度を示している。第2分析データL12は、共感度を示している。第3分析データL13は、理解度を示している。
軸G11aは、グラフG11横軸に交差して縦方向に延びる線状の表示であって、グラフG11の任意の時刻を示すものである。ここで、軸G11aは、グラフG11の横軸上を移動し、シークバーG2で指定された時刻TXを示す。つまり、シークバーG2の位置と軸G11aの位置とは連動する。なお、シークバーG2および軸G11aは、指定された位置における分析データの値に応じた色調により表示されるものであってもよい。これにより、分析装置100は、会議画像において指定された時刻における感情の状態を定性的に示すことができる。ユーザはこれにより任意の時刻における感情の状態を直観的に把握できる。
本実施例では、シークバーG2の左端の位置S10が時刻T11、右端の位置S15が時刻T15と対応する。シークバーG2におけるスライダG2aの相対的な左右方向の位置は、グラフG11における軸G11aの相対的な左右方向の位置に対応するように設定されている。例えばスライダG2aが位置SXに存在している場合、軸G11aはグラフG11における横軸の時刻TXに交差する。このとき、位置SXから位置S10までの長さと位置S15から位置SXまでの長さの比は、時刻TXから時刻T10までの長さと時刻T15から時刻TXまでの長さの比と同じである。ここで、ユーザがスライダG2aの位置を動かすと、これに対応して軸G11aの位置も連動する。ユーザが軸G11aの位置を動かすと、これに対応してスライダG2aの位置も連動してもよい。
出力部115が出力した再生画面において、ユーザはスライダG2aの位置を動かすことができる。分析装置100は、スライダG2aの位置の移動を検出すると、移動後のスライダG2aの相対的な左右方向の位置に基づいて、シークバーG2が指定する時刻を検出する。画面生成部114は、検出された時刻に基づく画像データG1を含む再生画面を生成する。そして、画面生成部114は、検出された時刻に基づいてグラフG11上に相対的な左右方向の位置を決めた軸G11aを含む再生画面を生成する。そして、出力部115は、生成された再生画面を出力する。
また、出力部115が出力した再生画面において、ユーザはグラフG11における軸G11aの位置を動かすことができる。分析装置100は、軸G11aの位置の移動を検出すると、移動後の軸G11aの相対的な左右方向の位置に基づいて、軸G11aが指定する時刻を検出する。画面生成部114は、検出された時刻に基づく画像データG1を含む再生画面を生成する。そして、画面生成部114は、検出された時刻に基づいてスライダG2aの相対的な左右方向の位置を決めたシークバーG2を含む再生画面を生成する。そして、出力部115は、生成された再生画面を出力する。
第1の実施形態にかかる分析装置100では、ユーザは、再生画面においてシークバーG3のスライダG2aを移動することで、会議の任意のタイミングにおける画像データを確認できる。ここで、グラフG11の横軸における軸G11aの位置は、シークバーG3が指定する時刻と対応する。そのため、ユーザは、グラフG11において軸G11aの位置を確認することで、会議中の画像データを確認したタイミングにおける会議の参加者の感情の傾向を瞬時に把握できる。したがって、分析装置100では、会議における参加者の感情を把握することができる。
<第2の実施形態>
まず、図4を用いて第2の実施形態に係る分析システム10の構成について説明する。図4は、第2の実施形態に係る分析システム10の構成を示すブロック図である。
まず、図4を用いて第2の実施形態に係る分析システム10の構成について説明する。図4は、第2の実施形態に係る分析システム10の構成を示すブロック図である。
図4に示すように、分析システム10は、分析装置200と感情データ生成装置300とを含む。分析装置200と感情データ生成装置300とは、ネットワークNを介して互いに通信可能に接続している。また分析システム10は、ネットワークNを介して会議運営装置400と通信可能に接続している。会議運営装置400は、ネットワークNを介して会議端末群90に接続してオンライン会議を運営する。会議端末群90は、複数の会議端末(900A、900B、・・・、900N)およびユーザ端末990を含む。
続いて、図5を用いて第2の実施形態に係る分析装置200の構成について説明する。図5は、第2の実施形態に係る分析装置の構成を示すブロック図である。
図5に示すように、分析装置200は、感情データ取得部111、会議データ取得部112、分析データ生成部113、画面生成部114、出力部115、チャプタ生成部116、人物特定部117及び記憶部120を備える。
図5に示すように、分析装置200は、感情データ取得部111、会議データ取得部112、分析データ生成部113、画面生成部114、出力部115、チャプタ生成部116、人物特定部117及び記憶部120を備える。
感情データ取得部111は、感情データ生成装置300から時刻データを伴う感情データを取得する。感情データ生成装置300は、オンライン会議における会議の参加者の顔画像データから感情データを生成し、生成した感情データを分析装置100に供給する。感情データは、会議の参加者がそれぞれ有する感情を示すデータである。
感情データは、例えば注目度、困惑度、幸福度および驚きなど少なくとも1つの指標(第1の指標)を含む。すなわち感情データは、上述のそれぞれの指標ごとに、参加者がどの程度これらの感情を感じているか(感情の状態)を示すものである。感情データは、少なくとも1つの指標を数値により示している。
感情データ生成装置300は、所定期間(例えば1秒間)毎の感情データを生成する。感情データ取得部111は、会議の進行時刻に沿った所定時間ごとの感情データを取得する。感情データ取得部111は、感情データを取得すると、取得した感情データを、分析データ生成部113に供給する。
会議データ取得部112は、会議運営装置400から会議データを取得する。会議運営装置400は、例えば会議の参加者のそれぞれが通信可能に接続するサーバ装置である。会議運営装置400は、会議の参加者が利用する会議端末900に含まれるものであってもよい。会議データは、会議における参加者の時刻データを伴う画像データを含む。画像データは、会議における発話者の画面、会議における非話者の画面、会議において共有された画面のデータであってもよい。
また、会議データは、会議の開始時刻および終了時刻を含む。また、会議データは、会議中に取られた休憩の時刻を含む。また、会議データは、例えば参加者に共有される共有画面を操作する権限(共有画面のオーナー)の切替え時刻や、参加者の発話の切替え時刻を含み得る。この場合、会議データは、共有画面中のページ送りや表示画像の変化などの時刻を含み得る。さらに会議データは、上述した時刻が、それぞれ何を示すものであるかを含み得る。会議データ取得部112は、取得した会議データを、分析データ生成部113及びチャプタ生成部116に供給する。
チャプタ生成部116は、会議データ取得部112から受け取った会議データから、会議に対するチャプタを生成する。チャプタ生成部116は、例えば会議の開始から会議の終了までの時刻を検出し、さらに、予め設定された条件に合致する時刻を検出して、それぞれの時刻を区切りとして、チャプタを示すデータを生成する。本開示における会議のチャプタは、会議において所定の条件に合致する状態が維持されているか、あるいは所定の条件が変化したかにより定義される。チャプタ生成部116は、例えば画面共有に関するデータに基づいてチャプタを生成してもよい。より具体的には、チャプタ生成部116は、画面共有の切替えタイミングに応じてチャプタを生成してもよい。またチャプタ生成部116は、画面共有にかかる共有画面のオーナーの切替え時刻に応じてチャプタを生成してもよい。チャプタ生成部116は、生成したチャプタを示すデータを、分析データ生成部113に供給する。
人物特定部117は、画像データから人物の顔特徴情報を抽出し、抽出した情報に応じて、人物の属する区分を推定する機能を有し得る。人物の属する区分とは、例えば人物の年齢または性別など、人物の特徴ないし属性を示すものである。人物特定部117は、上述の機能を使って、会議データ取得部112から受け取った画像データに基づいて、会議の参加者が属する区分を特定する。人物特定部117は、人物の区分に関するデータを、分析データ生成部113に供給する。
また人物特定部117は、記憶部120が記憶する人物属性データを利用して、特定した参加者が属する区分を特定してもよい。この場合、人物特定部117は、顔画像から抽出した顔特徴情報と、記憶部120が記憶する人物属性情報とを紐づけ、顔特徴情報に対応する参加者の区分を特定する。この場合における参加者の区分は、例えば参加者の所属する法人、当該法人内の部署または参加者の職種などである。このような構成により、分析装置200は、参加者のプライバシーに配慮しつつ、分析データに利用可能なデータを抽出できる。
また人物特定部117は、会議データ取得部112から受け取った画像データから画像にかかる人物を特定するものであってもよい。この場合、人物特定部117は、顔画像から抽出した顔特徴情報と、記憶部120が記憶する人物属性情報とを紐づけ、顔特徴情報に対応する参加者を特定する。これにより人物特定部117は会議の参加者をそれぞれ特定できる。会議の参加者を特定することにより、分析装置200は特定された参加者に紐づいた分析データを生成できる。よって、分析装置200は、特定された参加者におえる詳細な分析を行うことができる。
分析データ生成部113は、感情データ取得部111が取得した感情データに基づいて会議に対する分析データを生成する。分析データは、例えば注目度、共感度及び理解度など会議への参加者の反応を示す少なくとも1つの指標(第2の指標)を含む。分析データ生成部113は、感情データに基づいて、会議への参加者の反応を示す少なくとも1つの第2の指標を数値により示す。分析データ生成部113は、例えば、第2の指標における数値の時間的推移を示した時系列グラフを分析データとして生成する。そうすることによって、会議への参加者の反応の詳細な変化を示すことができる。分析データ生成部113は生成した分析データを画面生成部114に供給する。
また、分析データ生成部113は、受け取った感情データ、会議データおよびチャプタを示すデータから、第2の指標における数値の所定期間における統計値(例えば平均値)を算出した分析データを生成する。所定期間とは、チャプタごとである。
分析データ生成部113は、生成した分析データを画面生成部114に供給する。
分析データ生成部113は、生成した分析データを画面生成部114に供給する。
画面生成部114は、出力部115で出力する再生画面を生成する。再生画面は、時刻を指定するためのシークバーとシークバーで指定された時刻における分析データと画像データとを含む。画面生成部114は、画像データと当該画像データに伴う時刻データに基づいて、シークバーで指定された時刻の画像データを抽出し、抽出された画像データを再生画面に含める。また、画面生成部114は、シークバーで指定される時刻に対応する第2の指標における数値を識別するための表示を時系列グラフ上に含む再生画面を生成する。例えば、画面生成部114は、シークバーにおいて指定される時刻に対応する軸を時系列グラフ上に生成する。時系列グラフ上に生成される軸は、指定される時刻における第2の指標を指し示す。
出力部115は、画面生成部114が生成した再生画面をユーザ端末990に出力する。分析装置100を利用するユーザは、ユーザ端末990に出力された再生画面を視認する。これによりユーザは再生画面に示された分析データと、会議画像とを同時に知覚する。そのためユーザは会議の状況と当該状況における参加者の感情を認識できる。
記憶部120は、SSDまたはフラッシュメモリ等の不揮発メモリを含む記憶装置である。記憶部120は、人物属性データおよび分析履歴データを記憶する。人物属性データは、人物の顔特徴情報と、人物の区分や属性に関する情報とが紐づけられたデータである。人物の区分や属性に関する情報とは、例えば人物の氏名、性別、年齢、職種、所属する法人または所属する部署であるが、これらに限定されない。分析履歴データは、分析装置200が過去に実行した分析にかかる分析データである。なお、記憶部120は、上述のデータの他に、例えば本実施形態にかかる分析方法を実行させるためのプログラムなどを記憶する。
続いて、図6を用いて、第2の実施形態に係る分析データ生成部113についてさらに説明する。図6は、第2の実施形態に係る分析データ生成部が処理するデータの例を示す図である。図6は、分析データ生成部113が受け取る入力データ群と、分析データ生成部113が出力する出力データ群とが示されている。分析データ生成部113は、感情データ生成装置300から、入力データ群としての感情データを受け取る。入力データ群は例えば、注目度、困惑度、軽蔑度、嫌悪感、恐怖感、幸福度、共感度、驚き、および存在感に関するそれぞれの第1の指標を含む。これらの指標は例えばそれぞれの指標が0から100までの数値により示される。入力データ群の感情データは、顔画像データから既存の映像処理技術を用いて生成されたものが取得されてもよく、その他の方法により生成、取得されてもよい。
分析データ生成部113は、上述の入力データ群を受け取ると、予め設定された処理を行い、入力データ群を用いて出力データ群を生成する。出力データ群は、分析システム10を利用するユーザが会議を効率良く行うために参照するデータである。出力データ群は例えば、注目度、共感度および理解度に関する第2の指標を含む。また分析データ生成部113は、第2の指標にかかる値に対して予め設定された演算処理を行う。そして分析データ生成部113は、上述の出力データ群を生成する。なお、出力データ群として示す注目度は、入力データ群に含まれる注目度と同じものであってもよいし、異なるものであってもよい。同様に、出力データ群として示す共感度は、入力データ群に含まれる共感度と同じものであってもよいし、異なるものであってもよい。
続いて、図7を用いて第2の実施形態に係る感情データ生成装置300について説明する。図7は、第2の実施形態に係る感情データ生成装置の構成を示すブロック図である。感情データ生成装置300は、参加者データ取得部311、感情データ生成部312および感情データ出力部313を備える。
参加者データ取得部311は、会議運営装置400から参加者に関するデータを取得する。参加者に関するデータとは、会議端末が撮影した参加者の顔画像データである。感情データ生成部312は、感情データ生成装置300が受け取った顔画像データから感情データを生成する。感情データ出力部313は、感情データ生成部312が生成した感情データを、ネットワークNを介して分析装置200に出力する。なお、感情データ生成装置300は、参加者の顔画像データに対して所定の画像処理を施すことにより感情データを生成する。所定の画像処理とは例えば、特徴点(または特徴量)の抽出、抽出した特徴点に対する参照データとの照合、画像データの畳み込み処理および機械学習した教師データを利用した処理、ディープラーニングによる教師データを活用した処理等である。ただし、感情データ生成装置300が感情データを生成する手法は、上述の処理に限られない。感情データは、感情を示す指標である数値であってもよいし、感情データを生成する際に利用した画像データを含むものであってもよい。
続いて、図8を用いて第2の実施形態に係る分析装置200の動作を説明する。図8は、第2の実施形態に係る分析装置の動作を示すフローチャートである。
まず、分析装置200は、オンライン会議が開始されたか否かを判定する(ステップS21)。分析装置200は、会議運営装置400から会議が開始されたことを示す信号を受け取ることにより、会議の開始を判定する。オンライン会議が開始されたと判定しない場合(ステップS21:NO)、分析装置200は、ステップS21を繰り返す。オンライン会議が開始されたと判定した場合(ステップS21:YES)、分析装置200は、ステップS22に進む。
ステップS22において、感情データ取得部111は、感情データ生成装置300から感情データの取得する(ステップS22)。感情データ取得部111は、感情データ生成装置が感情データを生成する都度、生成された感情データを取得してもよいし、複数の異なる時刻における感情データをまとめて取得してもよい。
次に、会議データ取得部112は、会議データを取得する(ステップS23)。会議データは、会議における参加者の時刻データを伴う画像データを含む。また、会議データは、会議の開始時刻および終了時刻を含む。会議データ取得部112はかかる会議データを、所定期間(例えば1分間)毎に受け取ってもよいし、会議データに更新すべき情報がある場合に逐次受け取ってもよい。
次に、分析装置200は、新しいチャプタが生成可能か否か判定する(ステップS24)。具体的には、分析装置200は、受け取った会議データに基づいて新しいチャプタを生成可能か否か判定する。新しいチャプタが生成可能な場合(ステップS24 NO)、分析装置200は、ステップS22に戻る。一方、新しいチャプタが生成可能な場合(ステップS24 YES)、分析装置200は、ステップS25に進む。
ステップS25において、チャプタ生成部116は、会議データに基づいてチャプタを生成する(ステップS25)。具体的には、チャプタ生成部116は、会議データに基づいてチャプタを生成する。
次に、分析データ生成部113は、分析データを生成する(ステップS26)。具体的には、分析データ生成部113は、感情データ取得部111から受け取った感情データと、会議データ取得部112から受け取った会議データと、チャプタ生成部116から受け取ったチャプタを示すデータと、人物特定部117から受け取ったデータとから、新しく生成したチャプタに対する分析データを生成する。そして、分析データ生成部113は、チャプタごとの分析データを生成すると、生成した分析データを画面生成部114に供給する。
次に、画面生成部114は、分析データに基づいて再生画面を生成する(ステップS27)。次に、出力部115は、生成した再生画面をユーザ端末990に出力する(ステップS28)。さらに分析装置200は、会議が終了したか否かを判定する(ステップS29)。分析装置200は、会議運営装置400から会議が終了したことを示す信号を受け取ることにより、会議の終了を判定する。会議が終了したと判定しない場合(ステップS29 NO)、分析装置200は、ステップS22に戻り、処理を続ける。一方、オンライン会議が終了したと判定した場合(ステップS29 YES)、分析装置200は、一連の処理を終了する。
次に、図9及び図10を用いて、第2の実施形態に係る再生画面の例について説明する。
図9は、第2の実施形態に係る再生画面の第1例を示す図である。図9は、再生画面は、分析データを時系列に沿って示した画像データG1、シークバーG2、グラフG11、会議データG12、分析データG13を含む。
図9は、第2の実施形態に係る再生画面の第1例を示す図である。図9は、再生画面は、分析データを時系列に沿って示した画像データG1、シークバーG2、グラフG11、会議データG12、分析データG13を含む。
画像データG1は、会議における画像データであり、後述するシークバーG2で指定された時刻における画像データである。画像データG1にはシークバーが重畳される。
シークバーG2は、会議における任意の時刻を指定して表示するためのインタフェースである。シークバーG2は左右方向に延伸する帯状の画像であって、例えば会議画面上に重畳される。
シークバーG2は、スライダG2aを含む。スライダG2aは、シークバーG2上に配置された矩形状の画像であって、シークバー内の任意の位置を指定するためのものである。ユーザは、シークバーG2の任意の位置を選択することにより、スライダG2aの位置を指定できる。これにより、画像データG1には、スライダG2aにより指定された位置に対応する時刻の画像が表示される。ユーザは、スライダG2aを選択した状態で左右方向に移動させることによりスライダG2aの位置を指定することもできる。
グラフG11は、第2の指標の時間的推移を示した時系列グラフである。グラフG11は、横軸が時刻を示し、縦軸が第2の指標における数値(スコア)を示している。横軸は左端が時刻T10であり、右に進むほど時間が経過し、右端が時刻T15となっている。時刻T10は、会議の開始時刻であり、時刻T15は会議の終了時刻である。時刻T10と時刻T15の間の時刻T11、T12、T13およびT14は、後述するチャプタに対応する時刻を示している。
また、グラフG11は、実線により示された第1分析データL11と、点線により示された第2分析データL12と、二点鎖線により示された第3分析データL13とがプロットされている。第2の指標は、例えば注目度、共感度又は理解度である。第1分析データL11は、注目度を示している。第2分析データL12は、共感度を示している。第3分析データL13は、理解度を示している。
軸G11aは、グラフG11横軸に交差して縦方向に延びる線状の表示であって、グラフG11の任意の時刻を示すものである。ここで、軸G11aは、グラフG11の横軸上を移動し、シークバーG2で指定された時刻TXを示す。つまり、シークバーG2の位置と軸G11aの位置とは連動する。なお、シークバーG2および軸G11aは、指定された位置における分析データの値に応じた色調により表示されるものであってもよい。これにより、分析装置100は、会議画像において指定された時刻における感情の状態を定性的に示すことができる。ユーザはこれにより任意の時刻における感情の状態を直観的に把握できる。
本実施例では、シークバーG2の左端の位置S10が時刻T11、右端の位置S15が時刻T15と対応する。シークバーG2におけるスライダG2aの相対的な左右方向の位置は、グラフG11における軸G11aの相対的な左右方向の位置に対応するように設定されている。例えばスライダG2aが位置SXに存在している場合、軸G11aはグラフG11における横軸の時刻TXに交差する。このとき、位置SXから位置S10までの長さと位置S15から位置SXまでの長さの比は、時刻TXから時刻T10までの長さと時刻T15から時刻TXまでの長さの比と同じである。ここで、ユーザがスライダG2aの位置を動かすと、これに対応して軸G11aの位置も連動する。ユーザが軸G11aの位置を動かすと、これに対応してスライダG2aの位置も連動してもよい。
出力部115が出力した再生画面において、ユーザはスライダG2aの位置を動かすことができる。分析装置100は、スライダG2aの位置の移動を検出すると、移動後のスライダG2aの相対的な左右方向の位置に基づいて、シークバーG2が指定する時刻を検出する。画面生成部114は、検出された時刻に基づく画像データG1を含む再生画面を生成する。そして、画面生成部114は、検出された時刻に基づいてグラフG11上に相対的な左右方向の位置を決めた軸G11aを含む再生画面を生成する。そして、出力部115は、生成された再生画面を出力する。
また、出力部115が出力した再生画面において、ユーザはグラフG11における軸G11aの位置を動かすことができる。分析装置100は、軸G11aの位置の移動を検出すると、移動後の軸G11aの相対的な左右方向の位置に基づいて、軸G11aが指定する時刻を検出する。画面生成部114は、検出された時刻に基づく画像データG1を含む再生画面を生成する。そして、画面生成部114は、検出された時刻に基づいてスライダG2aの相対的な左右方向の位置を決めたシークバーG2を含む再生画面を生成する。そして、出力部115は、生成された再生画面を出力する。
会議データG12は、会議の共有画面に関するデータと、発表者(プレゼンタ)に関するデータとが時系列に沿って示されている。すなわち、表示画面に関するデータには、時刻T10から時刻T11までの共有画面が画面D1であったことが示されている。また表示画面に関するデータには、時刻T11から時刻T12までの共有画面が画面D2であったことが示されている。以下同様に、会議データG12によれば、会議における共有画面は、時刻T12から時刻T13までが画面D3、時刻T13から時刻T14までが画面D4、そして時刻T14から時刻T15までが画面D5であったことが示されている。
また会議データG12において、発表者に関するデータには、時刻T10から時刻T12までが発表者W1であったことが示されている。同様に、発表者に関するデータには、時刻T12から時刻T14までが発表者W2、そして時刻T14から時刻T15までが再び発表者W1であったことが示されている。
上述の会議データG12における共有画面と発表者との関係について、時系列に沿って説明する。会議が開始された時刻T10から時刻T12までの間は、発表者W1が会議の進行を行っており、時刻T10から時刻T11までの間、発表者W1は共有画面として画面D1を共有画面として表示(すなわち画面D1を共有)させていた。次に発表者W1は、時刻T11から時刻T12までの間、表有画面を画面D1から画面D2に切り替えて発表を続けた。次に、時刻T12に、発表者が発表者W1から発表者W2に交代した。発表者W2は、時刻T12から時刻T13までの間、画面D3を共有させ、時刻T13から時刻T14までの間は、画面D4を共有させた。時刻T14から時刻T15までの間は、発表者W2から交代した発表者W1が、画面D5を共有させていた。
以上、会議データG12における共有画面と発表者との関係について、時系列に沿って説明した。上述のように、図9に示す会議データは、共有画面における画面データが表示されていた期間についてのデータと、発表者が誰であったかについてのデータが含まれる。チャプタ生成部116は、上述の会議データの内、共有画面に関するデータに応じてチャプタを生成できる。
分析データG13は、上述の会議データに対応するチャプタを示すデータと、チャプタに対応する分析データとが時系列に沿って示されている。図9に示す例において、チャプタを示すデータは、会議データの内の共有画面に関するデータに対応している。すなわち、第1チャプタC11は、画面D1が共有されていた時刻T10から時刻T11である。同様に、第2チャプタC12は、画面D2が共有されていた時刻T11から時刻T12である。第3チャプタC13は、画面D3が共有されていた時刻T12から時刻T13である。第4チャプタC14は、画面D4が共有されていた時刻T13から時刻T14である。第5チャプタC15は、画面D5が共有されていた時刻T14から時刻T15である。
分析データG13には、第2の指標における数値のそれぞれのチャプタごとの統計値が含まれる。例えば、分析データは、チャプタごとの第2の指標(注目度、共感度又は理解度)における統計値およびこれらを合計した総合スコアが示されている。分析データG13において、例えば、チャプタC11では、注目度が65、共感度が50、理解度が43と示されている。また総合スコアはこれらの合計として158と示されている。同様に、例えばチャプタC12では、注目度が61、共感度が45、理解度が32そして総合スコアが138と示されている。
分析データG13は、グラフG11においてそれぞれプロットされているデータに対応したものである。すなわち、分析データG13として示されている分析データは、対応するチャプタの期間において所定期間(例えば1分間)毎に算出された分析データの平均値である。
なお、分析装置200では、会議データのうち共有画面が切り替わるタイミングを、チャプタの切替えタイミングとしたが、会議データのうち発表者(W1,W2又はW3)が切り替わるタイミングを、チャプタの切替えタイミングに設定してもよい。これにより、分析装置200は、発表者ごとの統計値を提供できる。
第2の実施形態にかかる分析装置200では、ユーザは、再生画面においてシークバーG3のスライダG2aを移動することで、会議の任意のタイミングにおける画像データを確認できる。ここで、グラフG11の横軸における軸G11aの位置は、シークバーG3が指定する時刻と対応する。そのため、ユーザは、グラフG11において軸G11aの位置を確認することで、会議中の画像データを確認したタイミングにおける会議の参加者の感情の傾向を瞬時に把握できる。したがって、分析装置100では、会議における参加者の感情を把握することができる。
また、分析装置200では、第2の指標における数値のそれぞれのチャプタごとの統計値が再生画面に含まれる。したがって、ユーザは、軸G11aの位置に基づき、会議中の画像データを確認したタイミングにおける会議の参加者の感情を定量的、かつ瞬時に把握できる。
次に、図10を用いて、第2の実施形態に係る再生画面の第2の例について説明する。図10は、第2の実施形態に係る再生画面の第2例を示す図である。図10において、画像データG1、グラフG11、会議データG12、分析データG13は、図9に示すものと同じである。
シークバーG3は、グラフG11における分析データのスコアが所定の値変動したタイミングをユーザが識別可能に表示する。本実施例では、分析データL11のスコアが時刻T12(点P1)から時刻T16(点P1)の間で所定の値変動した場合、シークバーG2は、時刻T12と対応する位置S12と時刻T16と対応する位置S16の間にマークM1を表示する。なお、本実施例において、マークM1は、シークバーG3の位置S12と位置S16との間に表示されるが、シークバーG3の位置S12と位置S16との間における所定の位置に表示されてもよい。
したがって、ユーザは、再生画面においてシークバーG3のマークM1を目印としてスライダG2aを移動できる。そうすると、マークM1と対応する(すなわち参加者の感情が大きく変動したタイミング)における画像データを確認することができる。また、グラフG11において、軸G11aの位置を確認することで、すなわち参加者の感情が大きく変動したタイミングでの会議における感情の傾向を瞬時に把握できる。
また、シークバーG3は、分析データG13における各チャプタが切り替わるタイミングをユーザが識別可能に表示する。本実施例では、各チャプタが切り替わるタイミングは、時刻T11、時刻T12、時刻T13、時刻T14である。ここで、シークバーG3の位置S11、位置S12、位置S13、位置S14、それぞれ時刻T11、時刻T12、時刻T13、時刻T14に対応する。そして、シークバーG3は、位置S11、位置S12、位置S13、位置S14にマークM2を表示する。なお、本実施例において、マークM2は、シークバーG3の各位置(位置S11、位置S12、位置S13、位置S14)に表示されるが、いずれかの位置に表示されてもよい。
したがって、ユーザは、再生画面においてシークバーG3のマークM2を目印としてスライダG2aを移動できる。そうすると、マークM2と対応する(すなわちチャプタが切り替わるタイミング)における画像データを確認することができる。また、グラフG11において、軸G11aの位置を確認することで、チャプタが切り替わるタイミングでの会議における感情の傾向を瞬時に把握できる。
<ハードウエア構成の例>
分析装置100、分析装置200、感情データ生成装置300、会議運営装置400(以下、各装置と称する)の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、各装置の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
分析装置100、分析装置200、感情データ生成装置300、会議運営装置400(以下、各装置と称する)の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、各装置の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図13は、コンピュータのハードウエア構成を例示するブロック図である。各装置はいずれも、図13に示すハードウエア構成を持つコンピュータ500で実現することができる。コンピュータ500は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。一方、コンピュータ500は、可搬型のコンピュータであってもよいし、PCなどの据え置き型のコンピュータであってもよい。コンピュータ500は、各装置を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。また、コンピュータ500は、PC(Personal Computer)などの据え置き型のコンピュータであってもよい。
例えば、コンピュータ500に対して所定のアプリケーションをインストールすることにより、コンピュータ500に所望の機能を持たせることができる。例えば、各装置の各機能を実現するアプリケーションをコンピュータ500にインストールすることにより、コンピュータ500で、各装置の各機能が実現される。
コンピュータ500は、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース(I/F)510、及びネットワークインタフェース(I/F)512を有する。バス502は、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ504などを互いに接続する方法は、バス接続に限定されない。
プロセッサ504は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ506は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス508は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース510は、コンピュータ500と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース510には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
ネットワークインタフェース512は、コンピュータ500をネットワークに接続するためのインタフェースである。このネットワークは、LAN(Local Area Network)であってもよいし、WAN(Wide Area Network)であってもよい。
ストレージデバイス508は、所望の機能を実現するためのプログラムが格納されている。プロセッサ504は、このプログラムをメモリ506に読み出して実行することで、各装置の各機能構成部を実現する。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
例えば、分析システム10は、会議運営装置400を含んでもよい。その場合、分析装置200、感情データ生成装置300および会議運営装置400は、それぞれ別個に存在してもよいし、これらのうち一部または全部が一体となった構成であってもよい。また例えば感情データ生成装置300が有する機能は、プログラムとして構成されており、分析装置200または会議運営装置400に含まれるものであってもよい。
また、上記実施形態に係る再生画面のレイアウトは、上記実施形態で示した例に限られない。例えば、図3に示す再生画面におけるグラフG11を画像データG1の下部に配置してもよい。また、図3に示す再生画面におけるシークバーG2を画像データG1に重ねて配置するのではなく、別の場所に配置してもよい。
なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する感情データ取得手段と、
前記会議における時刻データを伴う画像データを含む会議データを取得する会議データ取得手段と、
前記感情データに基づいて前記会議に対する分析データを生成する分析データ生成手段と、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する画面生成手段と、
前記再生画面を出力する出力手段と、を備える
分析装置。
(付記2)
前記感情データ取得手段は、前記顔画像データに基づく感情の状態が少なくとも1つの数値により示された第1の指標を前記感情データとして取得する
付記1に記載の分析装置。
(付記3)
前記分析データ生成手段は、前記感情データに基づいて、前記会議への前記参加者の反応をなくとも1つの第2の指標を数値により示し、
前記第2の指標の時間的推移を示した時系列グラフを前記分析データとして生成する
付記1又は2に記載の分析装置。
(付記4)
前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標を示す表示を前記時系列グラフ上に含む前記再生画面を生成する
付記3に記載の分析装置。
(付記5)
前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標における数値を識別するための軸を前記時系列グラフ上に含む前記再生画面を生成する
付記4に記載の分析装置。
(付記6)
前記画面生成手段は、
前記シークバーにおける相対的な位置に基づいて時刻を指定するためのスライダを生成し、
前記スライダは、前記時系列グラフ上における前記軸の相対的な位置と連動する、
付記5に記載の分析装置。
(付記7)
前記画面生成手段は、所定の範囲かつ所定の期間において前記第2の指標が変動した時刻を示す前記シークバーを含む前記再生画面を生成する
付記3乃至6のいずれか1項に記載の分析装置。
(付記8)
前記分析データ生成手段は、前記第2の指標における数値の所定期間における統計値を算出することにより、前記分析データを生成する
付記3乃至7のいずれか一項に記載の分析装置。
(付記9)
前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
前記画面生成手段は、前記チャプタが切り替わる時刻を示す前記シークバーを含む前記再生画面を生成する
付記1乃至8のいずれか1項に記載の分析装置。
(付記10)
前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
分析データ生成手段は、前記感情データに基づいて前記分析データを前記チャプタごとに生成する
付記1乃至9のいずれか1項に記載の分析装置。
(付記11)
前記会議データ取得手段は、前記会議における画面共有に関するデータを含む会議データを取得し、
前記チャプタ生成手段は、前記画面共有に関するデータに基づいて前記チャプタを生成する、
付記9又は10に記載の分析装置。
(付記12)
前記チャプタ生成手段は、前記画面共有の切替えタイミングに応じて前記チャプタを生成する、
付記11に記載の分析装置。
(付記13)
前記チャプタ生成手段は、前記画面共有にかかる共有画面のオーナーの切替え時刻に応じて前記チャプタを生成する、
付記11に記載の分析装置。
(付記14)
顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者が属する区分を特定し、
前記分析データ生成手段は、前記区分を加味して前記分析データを生成する、
付記1乃至13のいずれか一項に記載の分析装置。
(付記15)
顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者を特定し、
前記分析データ生成手段は、前記特定にかかる前記参加者の前記分析データを生成する、
付記1乃至14のいずれか一項に記載の分析装置。
(付記16)
付記1乃至15のいずれか一項に記載の分析装置と、
前記感情データを生成して前記分析装置に前記感情データを提供する感情データ生成装置と、
を備える
分析システム。
(付記17)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得することと、
前記会議における時刻データを伴う画像データを含む会議データを取得することと、
前記感情データに基づいて前記会議に対する分析データを生成することと、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成することと、
前記再生画面を出力することと、を含む
方法。
(付記18)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する処理と、
前記会議における時刻データを伴う画像データを含む会議データを取得する処理と、
前記感情データに基づいて前記会議に対する分析データを生成する処理と、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する処理と、
前記再生画面を出力する処理と、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
(付記1)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する感情データ取得手段と、
前記会議における時刻データを伴う画像データを含む会議データを取得する会議データ取得手段と、
前記感情データに基づいて前記会議に対する分析データを生成する分析データ生成手段と、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する画面生成手段と、
前記再生画面を出力する出力手段と、を備える
分析装置。
(付記2)
前記感情データ取得手段は、前記顔画像データに基づく感情の状態が少なくとも1つの数値により示された第1の指標を前記感情データとして取得する
付記1に記載の分析装置。
(付記3)
前記分析データ生成手段は、前記感情データに基づいて、前記会議への前記参加者の反応をなくとも1つの第2の指標を数値により示し、
前記第2の指標の時間的推移を示した時系列グラフを前記分析データとして生成する
付記1又は2に記載の分析装置。
(付記4)
前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標を示す表示を前記時系列グラフ上に含む前記再生画面を生成する
付記3に記載の分析装置。
(付記5)
前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標における数値を識別するための軸を前記時系列グラフ上に含む前記再生画面を生成する
付記4に記載の分析装置。
(付記6)
前記画面生成手段は、
前記シークバーにおける相対的な位置に基づいて時刻を指定するためのスライダを生成し、
前記スライダは、前記時系列グラフ上における前記軸の相対的な位置と連動する、
付記5に記載の分析装置。
(付記7)
前記画面生成手段は、所定の範囲かつ所定の期間において前記第2の指標が変動した時刻を示す前記シークバーを含む前記再生画面を生成する
付記3乃至6のいずれか1項に記載の分析装置。
(付記8)
前記分析データ生成手段は、前記第2の指標における数値の所定期間における統計値を算出することにより、前記分析データを生成する
付記3乃至7のいずれか一項に記載の分析装置。
(付記9)
前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
前記画面生成手段は、前記チャプタが切り替わる時刻を示す前記シークバーを含む前記再生画面を生成する
付記1乃至8のいずれか1項に記載の分析装置。
(付記10)
前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
分析データ生成手段は、前記感情データに基づいて前記分析データを前記チャプタごとに生成する
付記1乃至9のいずれか1項に記載の分析装置。
(付記11)
前記会議データ取得手段は、前記会議における画面共有に関するデータを含む会議データを取得し、
前記チャプタ生成手段は、前記画面共有に関するデータに基づいて前記チャプタを生成する、
付記9又は10に記載の分析装置。
(付記12)
前記チャプタ生成手段は、前記画面共有の切替えタイミングに応じて前記チャプタを生成する、
付記11に記載の分析装置。
(付記13)
前記チャプタ生成手段は、前記画面共有にかかる共有画面のオーナーの切替え時刻に応じて前記チャプタを生成する、
付記11に記載の分析装置。
(付記14)
顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者が属する区分を特定し、
前記分析データ生成手段は、前記区分を加味して前記分析データを生成する、
付記1乃至13のいずれか一項に記載の分析装置。
(付記15)
顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者を特定し、
前記分析データ生成手段は、前記特定にかかる前記参加者の前記分析データを生成する、
付記1乃至14のいずれか一項に記載の分析装置。
(付記16)
付記1乃至15のいずれか一項に記載の分析装置と、
前記感情データを生成して前記分析装置に前記感情データを提供する感情データ生成装置と、
を備える
分析システム。
(付記17)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得することと、
前記会議における時刻データを伴う画像データを含む会議データを取得することと、
前記感情データに基づいて前記会議に対する分析データを生成することと、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成することと、
前記再生画面を出力することと、を含む
方法。
(付記18)
オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する処理と、
前記会議における時刻データを伴う画像データを含む会議データを取得する処理と、
前記感情データに基づいて前記会議に対する分析データを生成する処理と、
時刻を指定するシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する処理と、
前記再生画面を出力する処理と、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
10 分析システム
90 会議端末群
100 分析装置
111 感情データ取得部
112 会議データ取得部
113 分析データ生成部
114 画面生成部
115 出力部
116 チャプタ生成部
117 人物特定部
120 記憶部
200 分析装置
300 感情データ生成装置
311 参加者データ取得部
312 感情データ生成部
313 感情データ出力部
400 会議運営装置
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース(I/F)
512 ネットワークインタフェース(I/F)
900,900A,900B 会議端末
990 ユーザ端末
90 会議端末群
100 分析装置
111 感情データ取得部
112 会議データ取得部
113 分析データ生成部
114 画面生成部
115 出力部
116 チャプタ生成部
117 人物特定部
120 記憶部
200 分析装置
300 感情データ生成装置
311 参加者データ取得部
312 感情データ生成部
313 感情データ出力部
400 会議運営装置
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース(I/F)
512 ネットワークインタフェース(I/F)
900,900A,900B 会議端末
990 ユーザ端末
Claims (18)
- オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する感情データ取得手段と、
前記会議における時刻データを伴う画像データを含む会議データを取得する会議データ取得手段と、
前記感情データに基づいて前記会議に対する分析データを生成する分析データ生成手段と、
時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する画面生成手段と、
前記再生画面を出力する出力手段と、を備える
分析装置。 - 前記感情データ取得手段は、前記顔画像データに基づく感情の状態が少なくとも1つの数値により示された第1の指標を前記感情データとして取得する
請求項1に記載の分析装置。 - 前記分析データ生成手段は、前記感情データに基づいて、前記会議への前記参加者の反応を少なくとも1つの第2の指標を数値により示し、
前記第2の指標の時間的推移を示した時系列グラフを前記分析データとして生成する
請求項1又は2に記載の分析装置。 - 前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標を示す表示を前記時系列グラフに含む前記再生画面を生成する
請求項3に記載の分析装置。 - 前記画面生成手段は、前記シークバーで指定される時刻に対応する前記第2の指標における数値を識別するための軸を前記時系列グラフに含む前記再生画面を生成する
請求項4に記載の分析装置。 - 前記画面生成手段は、
前記シークバーにおける相対的な位置に基づいて時刻を指定するためのスライダを生成し、
前記スライダは、前記時系列グラフ上における前記軸の相対的な位置と連動する、
請求項5に記載の分析装置。 - 前記画面生成手段は、所定の範囲かつ所定の期間において前記第2の指標が変動した時刻を示す前記シークバーを含む前記再生画面を生成する
請求項3乃至6のいずれか1項に記載の分析装置。 - 前記分析データ生成手段は、前記第2の指標における数値の所定期間における統計値を算出することにより、前記分析データを生成する
請求項3乃至7のいずれか一項に記載の分析装置。 - 前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
前記画面生成手段は、前記チャプタが切り替わる時刻を示す前記シークバーを含む前記再生画面を生成する
請求項1乃至8のいずれか1項に記載の分析装置。 - 前記会議データに基づいて前記会議に対してチャプタを生成するチャプタ生成手段をさらに備え、
分析データ生成手段は、前記感情データに基づいて前記分析データを前記チャプタごとに生成する
請求項1乃至9のいずれか1項に記載の分析装置。 - 前記会議データ取得手段は、前記会議における画面共有に関するデータを含む会議データを取得し、
前記チャプタ生成手段は、前記画面共有に関するデータに基づいて前記チャプタを生成する、
請求項9又は10に記載の分析装置。 - 前記チャプタ生成手段は、前記画面共有の切替えタイミングに応じて前記チャプタを生成する、
請求項11に記載の分析装置。 - 前記チャプタ生成手段は、前記画面共有にかかる共有画面のオーナーの切替え時刻に応じて前記チャプタを生成する、
請求項11に記載の分析装置。 - 顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者が属する区分を特定し、
前記分析データ生成手段は、前記区分を加味して前記分析データを生成する、
請求項1乃至13のいずれか一項に記載の分析装置。 - 顔画像データに基づいて人物を特定する人物特定手段をさらに備え、
前記会議データ取得手段は、前記参加者の顔画像データを取得し、
前記人物特定手段は、前記顔画像データから前記参加者を特定し、
前記分析データ生成手段は、前記特定にかかる前記参加者の前記分析データを生成する、
請求項1乃至14のいずれか一項に記載の分析装置。 - 請求項1乃至15のいずれか一項に記載の分析装置と、
前記感情データを生成して前記分析装置に前記感情データを提供する感情データ生成装置と、
を備える
分析システム。 - オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得することと、
前記会議における時刻データを伴う画像データを含む会議データを取得することと、
前記感情データに基づいて前記会議に対する分析データを生成することと、
時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成することと、
前記再生画面を出力することと、を含む
方法。 - オンライン会議における参加者の顔画像データに基づいて生成された、時刻データを伴う感情データを取得する処理と、
前記会議における時刻データを伴う画像データを含む会議データを取得する処理と、
前記感情データに基づいて前記会議に対する分析データを生成する処理と、
時刻を指定するためのシークバーと前記指定された時刻に対応する前記分析データと前記画像データとを含む再生画面を生成する処理と、
前記再生画面を出力する処理と、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/030,422 US20230410506A1 (en) | 2020-10-12 | 2020-10-12 | Analysis apparatus, system, method, and non-transitory computer readable medium storing program |
JP2022557239A JP7563474B2 (ja) | 2020-10-12 | 2020-10-12 | 分析装置、方法及びプログラム |
PCT/JP2020/038511 WO2022079767A1 (ja) | 2020-10-12 | 2020-10-12 | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/038511 WO2022079767A1 (ja) | 2020-10-12 | 2020-10-12 | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022079767A1 true WO2022079767A1 (ja) | 2022-04-21 |
Family
ID=81207809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/038511 WO2022079767A1 (ja) | 2020-10-12 | 2020-10-12 | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230410506A1 (ja) |
JP (1) | JP7563474B2 (ja) |
WO (1) | WO2022079767A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014511620A (ja) * | 2011-02-27 | 2014-05-15 | アフェクティヴァ,インコーポレイテッド | 感情に基づく映像推薦 |
JP2019061594A (ja) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | 会議支援システムおよび会議支援プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
-
2020
- 2020-10-12 WO PCT/JP2020/038511 patent/WO2022079767A1/ja active Application Filing
- 2020-10-12 US US18/030,422 patent/US20230410506A1/en active Pending
- 2020-10-12 JP JP2022557239A patent/JP7563474B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014511620A (ja) * | 2011-02-27 | 2014-05-15 | アフェクティヴァ,インコーポレイテッド | 感情に基づく映像推薦 |
JP2019061594A (ja) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | 会議支援システムおよび会議支援プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230410506A1 (en) | 2023-12-21 |
JPWO2022079767A1 (ja) | 2022-04-21 |
JP7563474B2 (ja) | 2024-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11462213B2 (en) | Information processing apparatus, information processing method, and program | |
JP2015028625A (ja) | 情報処理装置、情報処理装置の制御方法、およびプログラム | |
US20150199171A1 (en) | Handwritten document processing apparatus and method | |
CN112102836B (zh) | 语音控制屏幕显示方法、装置、电子设备和介质 | |
JP2018005011A (ja) | プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
WO2019142230A1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
WO2022079767A1 (ja) | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
WO2022079768A1 (ja) | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
WO2022079777A1 (ja) | 分析装置、分析システム、分析方法、およびプログラムが格納された非一時的なコンピュータ可読媒体 | |
US20230093298A1 (en) | Voice conference apparatus, voice conference system and voice conference method | |
JP7529135B2 (ja) | 分析装置、分析方法及びプログラム | |
CN115994266A (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
WO2022079773A1 (ja) | 分析装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
CN109102556A (zh) | 编辑工具的配置方法和配置参数的生成方法 | |
US20210383813A1 (en) | Storage medium, editing support method, and editing support device | |
JP7533607B2 (ja) | 分析装置、分析方法、および分析プログラム | |
JP6589040B1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
US20200075025A1 (en) | Information processing apparatus and facilitation support method | |
US20240029474A1 (en) | Person evaluation information generation method | |
WO2022181287A1 (ja) | 画像蓄積装置、方法及び非一時的なコンピュータ可読媒体 | |
JP7465012B2 (ja) | ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム | |
JP7465013B2 (ja) | ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム | |
JP7471683B2 (ja) | 反応通知システム | |
JP2019148849A (ja) | 理解度判定システムおよび理解度判定プログラム | |
EP4040359A1 (en) | Equipment management device, equipment management method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20957596 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022557239 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20957596 Country of ref document: EP Kind code of ref document: A1 |