WO2018097177A1 - エンゲージメント測定システム - Google Patents

エンゲージメント測定システム Download PDF

Info

Publication number
WO2018097177A1
WO2018097177A1 PCT/JP2017/042003 JP2017042003W WO2018097177A1 WO 2018097177 A1 WO2018097177 A1 WO 2018097177A1 JP 2017042003 W JP2017042003 W JP 2017042003W WO 2018097177 A1 WO2018097177 A1 WO 2018097177A1
Authority
WO
WIPO (PCT)
Prior art keywords
engagement
face
value
unit
image data
Prior art date
Application number
PCT/JP2017/042003
Other languages
English (en)
French (fr)
Inventor
▲隆▼一 平出
幹夫 岡崎
村山 正美
祥一 八谷
Original Assignee
株式会社ガイア・システム・ソリューション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ガイア・システム・ソリューション filed Critical 株式会社ガイア・システム・ソリューション
Priority to CN201780072255.0A priority Critical patent/CN109983779A/zh
Priority to KR1020197015125A priority patent/KR20190088478A/ko
Priority to JP2018552614A priority patent/JPWO2018097177A1/ja
Priority to US16/462,487 priority patent/US20190371189A1/en
Publication of WO2018097177A1 publication Critical patent/WO2018097177A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present invention relates to an engagement measurement system particularly suitable for a cram school.
  • TV broadcasting television broadcasting
  • the household audience rating in TV broadcasting is measured by installing a device for measuring the audience rating in a sample home, and the device is a channel that is displayed when a television receiver (hereinafter “TV”) is on.
  • Information about the information is sent to the aggregation base in near real time.
  • the household audience rating is a result of totaling information on viewing time and viewing channel, and it is not known from what information the household audience rating the program (video content) is viewed by the viewer.
  • CM commercial
  • Patent Document 1 discloses a technique for defining how much a viewer is concentrated on a TV program as a “concentration” and acquiring and using the concentration.
  • the inventors have so far developed a device for measuring the degree of concentration.
  • the situation where a person concentrates on an event is not only an active factor but also a passive factor.
  • the act of confronting a person and concentrating to solve the problem is an active factor. That is, the action is attributed to the feeling that “we must concentrate on the event”.
  • the act of attracting interest by seeing events such as things that are interesting or fun is a passive factor in a sense. In other words, the act is attributed to the feeling that “the event is unintentionally attracted”.
  • the inventors decided to define the state of interest of a certain event as “engagement” regardless of whether it is an active or passive factor for an event. .
  • the inventors have defined the device that has been developed so far as a device that measures engagement, not a device that measures concentration.
  • the system developed by the inventors described herein is a system for measuring this engagement.
  • Engagement measurement is assumed to be applied to the TV broadcast described above, but various other applications are conceivable. Recently, the inventors considered applying the measurement of engagement to educational sites such as cram schools. In other words, if students can measure in real time how much they are interested in class and aggregate them, it can contribute to improving customer satisfaction and improving business performance of the school. Until now, all the systems for measuring the degree of concentration have been expensive, and there has been a problem that it is difficult to spread to learning cram schools where a large number of devices need to be introduced.
  • the present invention has been made in view of such a problem, and an object of the present invention is to measure the degree of interest of a student or an audience in a class or a lecture in real time, and can perform an aggregation measurement. To provide a system.
  • an engagement measurement system includes an imaging device capable of capturing a plurality of subjects' faces, and receiving a moving image data stream from the imaging devices, and engaging the plurality of subjects. It consists of an engagement measuring device that measures values.
  • the engagement measurement device detects the presence of a plurality of subjects' faces from a frame buffer that stores image data for one screen from an image data stream output from the imaging device, and image data stored in the frame buffer.
  • a face detection processing unit that outputs face detection address information for extracting only the faces of the plurality of subjects, and image data and face detection address information stored in the frame buffer.
  • a feature point extraction unit that outputs feature point data that is a collection of feature points having coordinate information in the two-dimensional space.
  • a vector analysis unit that generates a face direction vector indicating the orientation of the face of the subject from the feature point data, and where in the three-dimensional space the subject is looking at by calculating the face direction vector
  • An engagement calculation unit that calculates a gaze direction vector indicating the gaze direction, determines whether or not the gaze direction vector is suitable for a predetermined event, calculates a moving average of the determination result, and outputs an engagement value; and face detection address information
  • the engagement calculation unit is operated to calculate the engagement value for each of a plurality of subjects included in the image data, and the shooting date / time information or current date / time information of the image data and the plurality of subjects are imaged.
  • an input / output control unit for recording in the log table together with ID information uniquely identified therein.
  • an engagement average value calculation unit that calculates an average value of the engagement values and a display unit that displays the average value of the engagement values of a plurality of subjects.
  • FIG. 1 is an external view of an engagement measuring device including a notebook personal computer and a small single board computer.
  • FIG. It is a block diagram which shows the hardware constitutions of the engagement measuring apparatus comprised with a single board computer.
  • FIG. 1 is a block diagram which shows the software function of the engagement measurement system which concerns on 1st embodiment of this invention. Schematic diagram showing an example of an image data stream output from the imaging device, schematic diagram showing an example of face extraction image data output by the face detection processing unit, and an example of feature point data output by the feature point extraction unit FIG.
  • the concentration processing system in this first patent application captures the user's face with a camera, detects the orientation of the user's face and line of sight, and measures how much the orientation is directed to the display that displays the content. By doing so, the user's degree of concentration on the content is calculated.
  • the first embodiment to be described below relates to an engagement measurement system and an engagement measurement device constructed as an application for a learning school and the like by improving the concentration processing system disclosed in the first patent application.
  • an engagement measurement device incorporating a camera is installed in the vicinity of a student, the student's engagement value is measured, and the average value is totaled. Further, the engagement measuring device measures the engagement value of one student reflected in the built-in camera.
  • the second embodiment described next to the first embodiment relates to an engagement measurement system constructed to further improve the engagement measurement system in the first embodiment and to realize a simpler system configuration. That is, instead of arranging one camera for each student or audience, a single high-resolution camera for photographing the entire classroom or auditorium is provided, and the engagement value of a plurality of people is measured with one camera.
  • FIG. 1 is a schematic diagram showing a state in which an engagement measurement system 101 according to the first embodiment of the present invention is installed and operated in a predetermined learning cram school.
  • the instructor 103 gives a lesson to the student 104.
  • an engagement measuring device 106 which is a notebook personal computer, is installed on the desk 105 of the student 104 to display predetermined teaching materials and the like and measure the engagement.
  • a camera is mounted or embedded in the frame of the LCD display of the engagement measuring device 106 so that the camera can photograph the face of the student 104.
  • the engagement measurement device 106 has an engagement measurement program that will be described later, measures the engagement value of the student 104 in real time, and transmits the measured engagement value to the server 108 via the wireless LAN.
  • the engagement value of each student 104 is logged by a server 108 connected to the wireless LAN router 107.
  • the server 108 is configured by a notebook personal computer.
  • the monitor terminal 109 which is a tablet PC, constantly accesses the server 108 via the wireless LAN, receives the engagement value and the total value of each student 104, and displays them on the liquid crystal display.
  • the instructor 103 can check the engagement in real time during the class by looking at the monitor terminal 109.
  • the monitor terminal 109 and the server 108 can be combined. In other words, both the function as the server 108 and the function as the monitor terminal 109 can be installed and operated in the notebook personal computer.
  • the engagement measurement system 101 can be implemented in the same manner as the above-described learning cram school 102 even in a satellite class developed through the Internet. .
  • FIG. 2 is a schematic diagram showing the overall configuration of the engagement measurement system 101 according to the first embodiment of the present invention.
  • the engagement measurement device 106, the server 108, and the monitor terminal 109 are connected via a wireless LAN router 107.
  • the wireless LAN router 107 constitutes a small LAN.
  • a switching hub or the like may be used to connect all of the engagement measurement device 106, the server 108, and the monitor terminal 109 with a wired LAN.
  • the engagement measuring device 106 and the server 108 are connected via the Internet instead of the LAN.
  • An engagement measurement program which will be described later, is running on the notebook computer that constitutes the engagement measurement device 106, measures the engagement of the student 104 in real time, and transmits the measured engagement to the server 108 via the wireless LAN.
  • the server 108 logs the engagement value received from the engagement measurement device 106.
  • the monitor terminal 109 accesses the server 108, receives the engagement value output from the predetermined engagement measuring device 106, calculates the total value, and displays it on the liquid crystal display in real time.
  • the engagement measuring device 106 is not necessarily composed of a notebook personal computer, and can be composed of, for example, a single board computer that has been rapidly spread in recent years.
  • FIG. 3A is an external view of the engagement measuring device 106 constituted by the notebook personal computer 301.
  • the notebook personal computer 301 is installed with a network OS and a program for operating the notebook personal computer 301 as the engagement measuring device 106.
  • a web camera 303 used for video chat or the like is mounted or embedded in the frame of the LCD display 302 of the notebook personal computer 301. When the notebook computer 301 is installed on the desk 105 of the student 104, the web camera 303 shoots the face of the student 104, whereby the engagement value of the student 104 can be measured.
  • FIG. 3B is an external view of the engagement measuring device 106 constituted by a small single board computer 304.
  • the single board computer 304 is installed with a network OS and a program for operating the single board computer 304 as the engagement measuring device 106.
  • the camera 305 attached to the casing of the single board computer 304 takes a picture of the face of the student 104, whereby the engagement of the student 104 can be measured.
  • the single board computer 304 for example, “Raspberry Pi” developed by the Raspberry Pi Foundation (http://www.raspberrypi.org/) in the UK can be used.
  • the arithmetic processing capability of the single board computer 304 only needs to be such that a network OS such as Linux (registered trademark) can be operated at a practical speed.
  • FIG. 4 is a block diagram showing a hardware configuration of the engagement measuring device 106 constituted by the single board computer 304.
  • the engagement measuring apparatus 106 includes a CPU 401, a ROM 402, a RAM 403, a nonvolatile storage 404, a real-time clock (hereinafter “RTC”) 405 for outputting current date and time information, a wireless LAN interface 406 and a NIC (NIC) for connecting to the wireless LAN router 107 and the like.
  • RTC real-time clock
  • NIC NIC
  • Network Interface Card Network Interface Card
  • An imaging device 409 web camera 303, camera 305) having an important role in the engagement measuring device 106 is also connected to the bus 408.
  • the nonvolatile storage 404 stores a network OS including a TCP / IP protocol stack for connecting the single board computer 304 to the network, and a program for operating as the engagement measuring device 106.
  • a display unit that is a liquid crystal display and an operation unit that is a pointing device such as a keyboard and a mouse are further connected to the bus 408 in FIG. .
  • FIG. 5 is a block diagram showing software functions of the engagement measuring apparatus 106 according to the first embodiment of the present invention.
  • the image data stream output from the imaging device 409 is supplied to the face detection processing unit 501.
  • the face detection processing unit 501 regards the image data stream output from the imaging device 409 as a still image continuous on the time axis, and performs, for example, a Viola-Jones method on each image data of the still image continuous on the time axis.
  • the presence of the face of the student 104 is detected using a known algorithm such as. Then, face extraction image data obtained by extracting only the face of the student 104 is output.
  • the face extraction image data output from the face detection processing unit 501 is supplied to the feature point extraction unit 502.
  • the feature point extraction unit 502 performs processing such as polygon analysis on the face image of the student 104 included in the face extraction image data. Then, feature point data including the entire face of the student 104, the contours of the eyebrows, eyes, nose, mouth, and the like and the feature points of the face indicating the pupil is generated. Details of the feature point data will be described later with reference to FIG.
  • the feature point data output from the feature point extraction unit 502 is supplied to the vector analysis unit 503.
  • the vector analysis unit 503 obtains a vector indicating the orientation of the face of the student 104 (hereinafter, “face direction vector”) from the feature point data based on the two consecutive face extraction image data, and the direction of the line of sight on the face of the student 104. (Hereinafter referred to as “gaze direction vector”).
  • the face direction vector and the line-of-sight direction vector are supplied to the engagement calculation unit 504.
  • the engagement calculation unit 504 adds the face direction vector and the line-of-sight direction vector, and indicates a gaze direction vector indicating where the student 104 is gazing in the three-dimensional space including the display that displays the content and the imaging device 409. Is calculated to determine whether the gaze direction of the student 104 is facing the display.
  • This determination result is a binary value indicating whether the gaze direction of the student 104 is facing the display (logical “true”) or not (logical “false”).
  • the engagement calculation unit 504 calculates the gaze direction determination result every 100 msec, for example. Then, for example, the moving average of the gaze direction determination results for the latest one second is calculated. By calculating in this way, a binary gaze direction determination result can be acquired as a pseudo-analog value.
  • the moving average value of the gaze direction determination result is the engagement value.
  • the engagement value output from the engagement calculation unit 504 is supplied to the input / output control unit 505.
  • the input / output control unit 505 adds the current date and time information output by the RTC 405 and the ID information 506 to the engagement value, and generates a transmission packet.
  • the transmission packet is transmitted through the interface selection unit 507 to the server 108 connected to the network of the wireless LAN interface 406 or the NIC 407 using HTTP (Hyper Text Transfer Protocol). That is, the input / output control unit 505 has a function as a web client.
  • the entity of the interface selection unit 507 is a TCP / IP protocol stack and a DHCP (Dynamic Host Configuration Protocol) client provided in the OS. That is, the interface selection unit 507 selects a network interface connected to the IP reachable network, and transmits the transmission packet to the server 108.
  • the simplest and easy-to-handle HTTP is exemplified as the protocol used for communication in the network, but the protocol for transmitting the data stream is limited to this. It is not a thing.
  • the transmission packet includes current date and time information output by the RTC 405 and ID information 506.
  • the engagement values output from the plurality of engagement measuring devices 106 and the average value thereof are displayed in real time. Since there is a delay in the network, it is possible to align the time axis of the engagement values output from the plurality of engagement measuring devices 106 by adding the current date and time information to the measured engagement values. For this purpose, it is preferable to maintain the RTC 405 accurately by installing and executing a program having a date / time information calibration function such as an NTP (Network Time Protocol) client in the engagement measuring device 106.
  • NTP Network Time Protocol
  • a plurality of engagement measuring devices 106 are installed according to the number of students 104. Since the server 108 receives the engagement values from the plurality of engagement measuring devices 106 at the same time, information that uniquely identifies each of the engagement measuring devices 106 is necessary. For this reason, ID information 506 that uniquely identifies the engagement measuring device 106 and / or the student 104 is provided. In the case of using the engagement measuring system 101 according to the first embodiment of the present invention in the learning cram school 102 or the like, only when the identification of the student 104 who is a user is not required, the ID information 506 is replaced.
  • the dynamic IP address assigned by the DHCP server to the NIC 407 or the wireless LAN interface 406 of the engagement measurement device 106 can be used as information for uniquely identifying the engagement measurement device 106.
  • the IP address is included in the header of the IP packet, so the payload of the transmission packet includes only current date / time information and an engagement value.
  • FIG. 6A is a schematic diagram illustrating an example of an image data stream output from the imaging device 409.
  • FIG. 6B is a schematic diagram illustrating an example of face extraction image data output by the face detection processing unit 501.
  • FIG. 6C is a schematic diagram illustrating an example of feature point data output by the feature point extraction unit 502.
  • an image data stream including the subject 601 is output from the imaging device 409 in real time. This is the image data P602 in FIG. 6A.
  • the face detection processing unit 501 detects the presence of the face of the subject 601 from the image data P602 output from the imaging device 409 using a known algorithm such as the Viola-Jones method. Then, face extraction image data obtained by extracting only the face of the subject 601 is output. This is the face extraction image data P603 in FIG. 6B. Then, the feature point extraction unit 502 performs processing such as polygon analysis on the face image of the subject 601 included in the face extraction image data P603. Then, feature point data including the entire face of the subject 601, the contours of the eyebrows, eyes, nose, mouth, and the like and the feature points of the face indicating the pupil is generated. This is the feature point data P604 in FIG. 6C. This feature point data P604 is composed of a collection of feature points having coordinate information in a two-dimensional space.
  • the feature point data output from the feature point extraction unit 502 is only two-dimensional coordinate information. Since the image data stream output from the imaging device 409 that is a monocular camera is only two-dimensional image data, the orientation of the face of the subject 601 that is a three-dimensional solid cannot be detected as it is. However, assuming that a two-dimensional image data in which feature points are plotted is obtained by photographing a feature point plotted on a standard 3D model of the face, the orientation of the face and the camera photographed are calculated. Can be estimated. Such a technique for estimating a three-dimensional solid from a two-dimensional image is known as a PnP (Perspective n Points) problem.
  • PnP Perspective n Points
  • a calculation method for solving the PnP problem is also known by a DLT (Direct Linear Transform) method or the like.
  • DLT Direct Linear Transform
  • the face direction of the subject 601 (see FIG. 6A) can be calculated. This is the face direction vector.
  • the approximate line-of-sight direction with respect to the face of the subject 601 can be calculated from the position of the pupil with respect to the outline of the eye. This is the gaze direction vector.
  • the vector analysis unit 503 generates a face direction vector and a line-of-sight direction vector from the feature point data by the processing as described above.
  • FIG. 7 is a block diagram illustrating a hardware configuration of the server 108.
  • a CPU 701, ROM 702, RAM 703, display unit 704, operation unit 705, nonvolatile storage 706, RTC 707 and NIC 708 are connected to a bus 709.
  • a notebook personal computer as shown in FIGS. 1 and 2 or a desktop personal computer (not shown) can be used. If a large-capacity hard disk device can be used as the nonvolatile storage 706, the above-described single board computer can also be used.
  • the non-volatile storage 706 stores a network OS including a TCP / IP protocol stack for connecting the server 108 to the network, and a program for operating the server 108.
  • a network OS including a TCP / IP protocol stack for connecting the server 108 to the network
  • a program for operating the server 108 When the server 108 is realized by a notebook personal computer, a wireless LAN interface is often connected to the bus 709.
  • the display unit 704 and the operation unit 705 are not necessarily required. However, the display unit 704 and the operation unit 705 are required when the server 108 and the monitor terminal 109 are used as a notebook personal computer.
  • FIG. 8A is a block diagram illustrating software functions of the server 108a.
  • the server 108a has a function as a web server and a function as a database server.
  • the entity of the input / output control unit 801 is a web server program, which receives a request from the engagement measuring device 106 or the monitor terminal 109 which is an HTTP client, and returns response data corresponding to the request.
  • Information including an engagement value transmitted from the engagement measuring device 106 is recorded in a log table 802 provided in the nonvolatile storage 706 via the input / output control unit 801.
  • the input / output control unit 801 returns the engagement values of all the engagement measurement devices 106 together with the date / time information and the ID information 506 in response to the request for the engagement values of all the engagement measurement devices 106 received from the monitor terminal 109.
  • FIG. 8B is a block diagram illustrating software functions of the server 108 b that also functions as the monitor terminal 109.
  • the difference between the server 108b shown in FIG. 8B and the server 108a shown in FIG. 8A is that the input / output control unit 803 includes the function of the display processing unit 804 that generates the content to be displayed on the display unit 704.
  • the tally processing unit 805 and the display unit 704 are connected to the input / output control unit 803.
  • the entity of the input / output control unit 803 is a web server program, and receives a transmission packet transmitted by the engagement measuring device 106 that is an HTTP client.
  • Engagement value, date / time information, and ID information 506 included in the transmission packet transmitted from the engagement measuring device 106 are recorded in the log table 802 via the input / output control unit 803. Also, the aggregation processing unit 805 calculates an average value of a plurality of engagement values with the same time axis. The display processing unit 804 generates display contents based on the engagement values and average values of all the engagement measurement devices 106 and displays the display contents on the display unit 704.
  • FIG. 9 is a block diagram illustrating a hardware configuration of the monitor terminal 109.
  • a CPU 901, ROM 902, RAM 903, display unit 904, operation unit 905, nonvolatile storage 906, RTC 907 and wireless LAN interface 908 are connected to a bus 909.
  • the nonvolatile storage 906 stores a network OS including a TCP / IP protocol stack for connecting the server 108 to the network and a program for operating as the monitor terminal 109.
  • the only difference in the hardware configuration of the monitor terminal 109, which is a tablet PC, from the server 108 shown in FIG. 7 is that the NIC 708 is replaced by the wireless LAN interface 908. If a notebook personal computer is used instead of the tablet PC, the configuration is the same as in FIG.
  • FIG. 10 is a block diagram showing software functions of the monitor terminal 109.
  • the entity of the input / output control unit 1001 is a web server client, and transmits a request for returning the engagement values of all the engagement measuring devices 106 to the server 108 which is a web server. Then, the engagement values of all the engagement measuring devices 106 returned from the server 108 are received.
  • the aggregation processing unit 1002 calculates the average value after aligning the time axes of the plurality of received engagement values, as with the aggregation processing unit 805 of FIG. 8B. Similar to the display processing unit 804 in FIG. 8B, the display processing unit 1003 generates display contents based on the engagement values and average values of all the engagement measurement devices 106 and causes the display unit 704 to display them.
  • FIG. 11 is a display example of a monitor screen displayed on the display unit 704 of the monitor terminal 109.
  • the display area A1101 in the lower half of the screen is a bar graph of the engagement values output from all the engagement measuring devices 106.
  • the bar graph is refreshed, for example, every 1 second or every 0.5 seconds, and the latest engagement value at that time is displayed as a bar graph.
  • the engagement value is 66.6% or more
  • the bar graph is displayed in green (color P1101a)
  • the engagement value is 33.3% or more and less than 66.6%
  • the bar graph is displayed in orange (color P1101b).
  • the engagement value is less than 33.3%, the bar graph is displayed in red (color P1101c).
  • the number displayed below the bar graph is a number that uniquely identifies the engagement measuring device 106. Numbers are also displayed in the same color as the bar graph.
  • the number of the engagement measuring device 106 in which the student 104 is absent and cannot measure the engagement value is displayed in gray (color P1101d). For example, when all the students 104 are interested in the class, all the bar graphs are dyed in green all at once except for the column of the absence measurement device 106. For example, when many of the students 104 have lost concentration in the class, many bar graphs are dyed orange or red.
  • a display area A1102 in the upper left of the screen is a numerical display of an average value of the engagement values output from all the engagement measuring devices 106. This numerical value is also displayed in the same color as the line graph.
  • the display area A1103 at the upper right of the screen is a line graph showing the transition of the average value of the engagement values output by all the engagement measuring devices 106.
  • the horizontal axis is time, and the vertical axis is the engagement value.
  • the engagement time recorded in the server 108 includes absolute time information, it can be reproduced later on the monitor terminal 109.
  • a class is separately recorded with a video camera and the date and time information of recording start is added to the video data, synchronized playback with the engagement value recorded in the log table 802 is also possible.
  • the engagement measurement system 101 is disclosed.
  • the engagement measuring device 106 measures an engagement value indicating how much the student 104 who is the subject is interested in the lesson, and transmits it to the server 108.
  • the server 108 receives a transmission packet including an engagement value, date / time information, and ID information 506 transmitted from the plurality of engagement measuring devices 106, and records it in the log table 802.
  • the monitor terminal 109 graphically displays the engagement values transmitted from the plurality of engagement measuring devices 106 and the average values thereof in real time.
  • the calculation processing of the engagement measuring device 106 in the first embodiment of the present invention is extremely light compared to the conventional one.
  • the data transmitted by the engagement measurement system 101 is an engagement value, date / time information, and ID information 506 with a very small data capacity. Therefore, the amount of data that the engagement measurement system 101 sends to the LAN and / or the Internet is extremely small.
  • FIG. 12 is a schematic diagram showing an overall configuration of an engagement measurement system 1201 according to the second embodiment of the present invention and a state in which the engagement measurement system 1201 is installed and operated in a predetermined learning school.
  • the engagement measurement system 1201 includes an imaging device 1202 and an engagement measurement device 1203.
  • the imaging device 1202 and the engagement measurement device 1203 are connected by a cable 1204 such as a USB or a network.
  • the instructor 1206 gives a lesson to the student 1207.
  • An imaging device 1202 is installed on the ceiling of the classroom 1205.
  • the imaging device 1202 can photograph the faces of a plurality of students 1207 sitting in the classroom 1205 according to the angle of view and the resolution of the imaging device 1202.
  • the engagement measurement device 1203 operates an engagement measurement program described later, measures the engagement values of a plurality of students 1207 in real time, and displays the measured engagement values on the display unit 1208.
  • the engagement measuring device 1203 is configured by a notebook computer.
  • FIG. 13 is a block diagram showing a hardware configuration of the engagement measuring device 1203.
  • the engagement measuring device 1203 includes a CPU 1301, ROM 1302, RAM 1303, display unit 1208, operation unit 1304, nonvolatile storage 1305, a real-time clock (hereinafter “RTC”) 1306 that outputs current date and time information, and a NIC (Network). Interface Card) 1307 is provided.
  • RTC real-time clock
  • NIC Network
  • Interface Card Network. Interface Card
  • the nonvolatile storage 1305 stores a network OS including a TCP / IP protocol stack for connecting the engagement measurement device 1203 to the network and a program for operating the engagement measurement device 1203.
  • An imaging device 1202 having an important role in the engagement measuring device 1203 is also connected to the bus 1308.
  • the imaging device 1202 is equipped with a single board computer, and the engagement measurement device 1203 and the single board computer are connected via a network. Then, the moving image data stream output from the imaging device 1202 is transmitted to the engagement measurement device 1203 via the network. This makes it possible to realize a state in which the length of the cable is extended.
  • the network function is not necessarily required for the engagement measurement device 1203, but it may be necessary for the reasons described above.
  • FIG. 14 is a block diagram showing software functions of the engagement measuring apparatus 1203 according to the second embodiment of the present invention.
  • the image data stream output from the imaging device 1202 temporarily stores image data for one screen in the frame buffer 1401.
  • the face detection processing unit 1402 uses, for example, a well-known algorithm such as the Viola-Jones method for one screen of image data stored in the frame buffer 1401, and all students appear in the one screen of image data. The presence of the face 1207 is detected. Then, face detection address information for extracting only the face of the student 1207 is output.
  • the face detection address information is supplied to the feature point extraction unit 1403 and the input / output control unit 1404.
  • the feature point extraction unit 1403 reads face extraction image data obtained by extracting only the face of the student 1207 from the frame buffer 1401 based on the face detection address information obtained from the face detection processing unit 1402. Then, processing such as polygon analysis is performed on the face image of the student 1207 included in the face extraction image data.
  • This polygon analysis process is a process for generating feature point data including the entire face of the student 1207, the contours of the eyebrows, eyes, nose, mouth, and the like, and the feature points of the face indicating the pupil.
  • the feature point data output from the feature point extraction unit 1403 is supplied to the vector analysis unit 1405.
  • the vector analysis unit 1405 obtains a vector indicating the orientation of the face of the student 1207 (hereinafter referred to as “face direction vector”) and a vector indicating the orientation of the line of sight of the face of the student 1207 from the feature point data based on the face extracted image data (hereinafter referred to as “face direction vector”). “Gaze direction vector”).
  • the feature point data output by the feature point extraction unit 1403 is only two-dimensional coordinate information. Since the image data stream output from the imaging device 1202 that is a monocular camera is only two-dimensional image data, the orientation of the face of the student 1207 that is a three-dimensional solid cannot be detected as it is. However, assuming that a two-dimensional image data in which feature points are plotted is obtained by photographing a feature point plotted on a standard 3D model of the face, the orientation of the face and the camera photographed are calculated. Can be estimated. Such a technique for estimating a three-dimensional solid from a two-dimensional image is known as a PnP (Perspective n Points) problem.
  • PnP Perspective n Points
  • a calculation method for solving the PnP problem is also known by a DLT (Direct Linear Transform) method or the like.
  • DLT Direct Linear Transform
  • the face direction of the subject 1501 (see FIG. 15A) can be calculated. This is the face direction vector.
  • an approximate line-of-sight direction with respect to the face of the subject 1501 can be calculated from the position of the pupil with respect to the outline of the eye. This is the gaze direction vector.
  • the vector analysis unit 1405 generates a face direction vector and a line-of-sight direction vector from the feature point data by the processing as described above.
  • FIG. 15A is a schematic diagram illustrating an example of image data for one screen output from the imaging device 1202 and stored in the frame buffer 1401.
  • FIG. 15B is a schematic diagram illustrating an example of face detection address information output by the face detection processing unit 1402.
  • FIG. 15C is a schematic diagram illustrating an example of feature point data output by the feature point extraction unit 1403.
  • an image data stream including the subject 1501 is output from the imaging device 1202 in real time and stored in the frame buffer 1401. This is the image data P1502 in FIG. 15A.
  • the face detection processing unit 1402 detects the presence of the face of the subject 1501 from the image data P1502 stored in the frame buffer 1401, using a known algorithm such as the Viola-Jones method. Then, face detection address information P1503 for extracting only the face of the subject 1501 is output.
  • the face detection address information P1503 is a rectangular area surrounding the face of the subject 1501.
  • the start point address P1503a is address information of the upper left vertex of the rectangular area
  • the end point address P1503b is address information of the lower right vertex of the rectangular area.
  • the feature point extraction unit 1403 performs processing such as polygon analysis on the face image of the subject 1501 included in the partial image data specified by the face detection address information P1503.
  • feature point data including the entire face of the subject 1501, the contours of the eyebrows, eyes, nose, mouth, and the like and the feature points of the face indicating the pupil is generated.
  • This feature point data P1504 in FIG. 15C is composed of a collection of feature points having coordinate information in a two-dimensional space.
  • the feature point data P1504 is included in the range of the face detection address information P1503.
  • FIG. 16A is an image diagram showing a state in which the face detection processing unit 1402 generates face detection address information P1503 for the image data stored in the frame buffer 1401.
  • FIG. 16B is an image diagram showing a state in which the face detection processing unit 1402 generates face detection address information P1503 for the image data stored in the frame buffer 1401.
  • the face detection processing unit 1402 detects all the existence of image areas that appear to be human faces included in the image data as long as the resolution of the image data permits, and surrounds the plurality of image areas in a rectangular shape.
  • the address information of the upper left vertex and the lower right vertex of the rectangular area becomes face detection address information P1503.
  • An engagement calculation unit 1406 described later performs a moving average calculation process in the engagement value calculation process.
  • To calculate the moving average it is necessary to continuously add a value that is a basis of the engagement value calculated from a certain subject for a certain time width. That is, it is necessary to specify the presence of a plurality of faces included in the image data stored in the frame buffer 1401 using the face detection address information P1503 or other information. Therefore, the face detection address information P1503 is supplied to the address information processing unit 1407 included in the input / output control unit 1404.
  • the address information processing unit 1407 calculates the center point of the information shape area, that is, the center point of the face detection address information P1503, from the face detection address information P1503 output from the face detection processing unit 1402.
  • this center point is referred to as a face detection center point.
  • This face detection center point is a point indicating the center of a person's face shown in the imaging device 1202 in a class, lecture, lecture or the like.
  • the face detection center point output from the address information processing unit 1407 is supplied to an engagement calculation unit 1406 included in the input / output control unit 1404.
  • the engagement calculation unit 1406 handles the face detection center point as an individual identifier in an engagement calculation process described later.
  • FIG. 17 is a functional block diagram of the engagement calculation unit 1406.
  • the face direction vector and the line-of-sight direction vector output from the vector analysis unit 1405 are input to the vector addition unit 1701.
  • the vector addition unit 1701 calculates the gaze direction vector by adding the face direction vector and the line-of-sight direction vector.
  • This gaze direction vector is a vector that indicates where the student 1207 is gazing in the three-dimensional space including the display unit 1208 that displays the content and the imaging device 1202.
  • the gaze direction vector calculated by the vector addition unit 1701 is input to the gaze direction determination unit 1702.
  • the gaze direction determination unit 1702 outputs a binary gaze direction determination result that determines whether or not the gaze direction vector indicating the object to be watched by the student 1207 is directed to the display unit 1208.
  • correction is added to the determination processing of the gaze direction determination unit 1702 by the initial correction value 1703 stored in the nonvolatile storage 1305. It is done.
  • the initial correction value 1703 in order to detect whether or not the face and line of sight of the student 1207 are correctly directed to the display unit 1208, imaging is performed when the face and line of sight of the student 1207 is correctly directed to the display unit 1208 in advance. Information on the face and line-of-sight direction of the student 1207 viewed from the device 1202 is stored in the nonvolatile storage 1305.
  • the binary gaze direction determination result output from the gaze direction determination unit 1702 is input to the first smoothing processing unit 1704.
  • the first smoothing processing unit 1704 suppresses the influence of noise and obtains a “live engagement value” indicating a state that is very close to the behavior of the student 1207.
  • the first smoothing processing unit 1704 calculates, for example, a moving average of several samples including the current gaze direction determination result, and outputs a live engagement value.
  • the live engagement value output from the first smoothing processing unit 1704 is input to the second smoothing processing unit 1705.
  • the second smoothing processing unit 1705 performs a smoothing process on the input live engagement value based on the number of samples 1706 designated in advance, and outputs an “engagement basic value”. For example, if “5” is described in the number of samples 1706, a moving average is calculated for five live engagement values. In the smoothing process, another algorithm such as a weighted moving average or an exponential weighted moving average may be used.
  • the number of samples 1706 and the smoothing algorithm are appropriately set according to the application to which the engagement measurement system 1201 according to the second embodiment of the present invention is applied.
  • the engagement basic value output from the second smoothing processing unit 1705 is input to the engagement calculation processing unit 1707.
  • the face direction vector is also input to the look away determination unit 1708.
  • the looking-away determination unit 1708 determines whether or not the face direction vector indicating the orientation of the face of the student 1207 is directed to the display unit 1208, and generates a binary looking determination result. Then, the look-ahead determination result is counted by two counters (not shown) built in the look-ahead determination unit 1708 according to the sampling rate of the face direction vector and the line-of-sight direction vector output from the vector analysis unit 1405.
  • the first counter counts the determination result that the student 1207 is looking away
  • the second counter counts the determination result that the student 1207 is not looking away.
  • the first counter is reset when the second counter reaches a predetermined count value.
  • the second counter is reset when the first counter reaches a predetermined count value.
  • the logical values of the first counter and the second counter are output as a determination result indicating whether or not the student 1207 is looking away. Also, by having a plurality of first counters for each direction, it may be determined that taking notes at hand, for example, is not looking away, depending on the application.
  • the line-of-sight direction vector is also input to the eye meditation determination unit 1709.
  • the eye meditation determination unit 1709 generates a binary eye meditation determination result that determines whether or not a gaze direction vector indicating the direction of the gaze of the student 1207 has been detected.
  • the line-of-sight vector is detected only when the eyes of the student 1207 are open. That is, when the student 1207 is meditating on the eyes, the gaze direction vector cannot be detected. Therefore, the eye meditation determination unit 1709 generates a binary eye meditation determination result indicating whether or not the student 1207 is meditating.
  • the eye-meditation determination unit 1709 also includes two counters (not shown).
  • the result of the eye-meditation determination by the eye-meditation determination unit 1709 is the face direction vector output by the vector analysis unit 1405. Counting is performed by two counters according to the sampling rate of the line-of-sight direction vector.
  • the first counter counts the determination result that the student 1207 has closed the eyes
  • the second counter counts the determination result that the student 1207 has opened the eyes (not closed the eyes).
  • the first counter is reset when the second counter reaches a predetermined count value.
  • the second counter is reset when the first counter reaches a predetermined count value.
  • the logical values of the first counter and the second counter are output as a determination result indicating whether or not the student 1207 has closed his eyes.
  • the engagement basic value output from the second smoothing processing unit 1705, the look-off determination result output from the look-off determination unit 1708, and the eye-meditation determination result output from the eye-meditation determination unit 1709 are input to the engagement calculation processing unit 1707. .
  • the engagement calculation processing unit 1707 multiplies the engagement basic value, the look-off determination result, and the eye meditation determination result by a weighting coefficient 1710 corresponding to the application, and outputs a final engagement value.
  • the engagement measurement system 1201 can be adapted to various applications. For example, if the number of samples 1706 is set to “0” and the weighting coefficient 1710 for the looking-away determination unit 1708 and the eye meditation determination unit 1709 is also set to “0”, the live engagement itself output by the first smoothing processing unit 1704 itself. Is directly output from the engagement calculation processing unit 1707 as an engagement value.
  • the second smoothing processing unit 1705 can be invalidated by setting the number of samples 1706. Therefore, the first smoothing processing unit 1704 and the second smoothing processing unit 1705 can be regarded as a single smoothing processing unit in a superordinate concept.
  • the input / output control unit 1404 uses the face detection address information P1503 and the log table in order to individually calculate an engagement value for a plurality of students 1207 or an audience. 1408 is used to calculate an individual engagement value while maintaining anonymity of the subject.
  • FIG. 18 is a table showing the field configuration of the log table 1408.
  • the log table 1408 includes a subject ID field, a date / time information field, a face detection address information field, a face detection center point field, a feature point data field, a face direction vector field, a gaze direction vector field, and an engagement value field.
  • the subject ID field stores a subject ID that is ID information for uniquely identifying a person who is the subject in the image data. This subject ID is used not to confuse a person who is simply reflected in the image data when calculating the engagement value, and is not intended to strictly identify an individual.
  • the date and time information field stores the date and time when the image data stored in the frame buffer 1401 was captured. The date and time when the image data was captured can be calculated from the current date and time information output by the RTC 1306 in consideration of the data transfer speed between the imaging device 1202 and the frame buffer 1401.
  • the imaging apparatus 1202 includes a single board computer
  • shooting date / time information output from an RTC built in the single board computer can be used. Note that the current date / time information output by the RTC 1306 is not a problem in place of the date / time when the image data was taken.
  • face detection address information P1503 output by the face detection processing unit 1402 is stored.
  • the face detection center point field stores the face detection center point calculated by the address information processing unit 1407 based on the face detection address information P1503. This face detection center point is the basis for the subject ID.
  • Feature point data generated by the feature point extraction unit 1403 is stored in the feature point data field.
  • the face direction vector field the face direction vector output by the vector analysis unit 1405 is stored.
  • the line-of-sight vector field the line-of-sight vector output from the vector analysis unit 1405 is stored.
  • an engagement value calculated by the engagement calculation unit 1406 based on the face direction vector and the line-of-sight direction vector is stored.
  • the address information processing unit 1407 of the input / output control unit 1404 associates the face detection center point calculated based on the face detection address information P1503 with the subject ID.
  • the input / output control unit 1404 predetermines a range in which the face detection center point moves while the subject is listening as a threshold. If the face detection center point is within the threshold range, the input / output control unit 1404 determines that the face detection center point belongs to the same subject ID.
  • the face detection address information P1503 that is the basis of the face detection center point
  • the feature point data existing within the range of the face detection address information P1503 and the feature point data Since the calculated face direction vector and line-of-sight direction vector are uniquely associated, they are recorded in the same record of the log table 1408.
  • the face direction vector and the line-of-sight direction vector for a certain subject ID recorded in the log table 1408 are read into the engagement calculation unit 1406, the engagement value is calculated, and recorded in the same record of the log table 1408.
  • the engagement average value calculation unit 1409 calculates the average value of the engagement values of a plurality of records belonging to the same date / time information recorded in the date / time information field of the log table 1408.
  • the input / output control unit 1404 performs predetermined processing on the average value of the engagement values output by the engagement average value calculation unit 1409 and displays the processed value on the display unit 1208.
  • FIG. 19 is a display example of a monitor screen displayed on the display unit 1208 by the input / output control unit 1404 of the engagement measuring apparatus 1203.
  • a display area A1901 in the lower half of the screen is a bar graph of the engagement value of each individual.
  • the bar graph is refreshed, for example, every 1 second or every 0.5 seconds, and the latest engagement value at that time is displayed as a bar graph.
  • the engagement value is 66.6% or more
  • the bar graph is displayed in green (color P1901a)
  • the engagement value is 33.3% or more and less than 66.6%
  • the bar graph is displayed in orange (color P1901b).
  • the engagement value is less than 33.3%, the bar graph is displayed in red (color P1901c).
  • the number displayed below the bar graph is a number that uniquely identifies the student 1207 in the image data.
  • the number may be the subject ID itself. Numbers are also displayed in the same color as the bar graph.
  • the number of the engagement measuring device 1203 that cannot measure the engagement value is displayed in gray (color P1901d).
  • gray color P1901d
  • all the bar graphs are dyed in green all at once except for the column of the absence measurement device 1203.
  • many bar graphs are dyed orange or red.
  • a display area A1902 in the upper left of the screen is a numerical display of an average value of all the engagement values. This numerical value is also displayed in the same color as the line graph.
  • a display area A1903 at the upper right of the screen is a line graph showing the transition of the average value of all the engagement values.
  • the horizontal axis is time, and the vertical axis is the engagement value.
  • the engagement value recorded in the log table 1408 of the engagement measuring device 1203 includes date and time information, that is, absolute time information, it can be reproduced later by the engagement measuring device 1203 or another information processing device. is there.
  • date and time information that is, absolute time information
  • the imaging device 1202 used in the engagement measurement system 1201 captures a plurality of subjects and extracts facial feature point data. For this reason, it is desirable that the imaging device 1202 has as high a resolution as possible. Depending on the distance between the imaging device 1202 and the subject, facial feature point data may not be acquired. Therefore, in a classroom or an auditorium where the engagement measurement system 1201 is installed, a plurality of imaging devices 1202 are arranged in consideration of the angle of view and the range that the imaging device 1202 can capture. Then, the same image data streams output from the plurality of imaging devices 1202 are appropriately combined or trimmed. Thereafter, if the synthesized image data is stored in the frame buffer 1401, the engagement values of a plurality of subjects can be measured over a wide range.
  • the engagement average value calculation unit 1409 and the display unit 1208 of the input / output control unit 1404 are mounted on another device such as a tablet PC, and connected to each other via a network such as a wireless LAN, and the log table is transmitted through the network.
  • the engagement measuring device 1203 can be displayed even in a remote place. If data is sent to a plurality of display devices, display at a plurality of points can be performed. Further, the sent data may be recorded on the server and reproduced later. As a result, the location and time are different from the classroom 1205 where the engagement measurement is performed. For example, the results of the engagement measurement can be confirmed even in the office or remote headquarters or at a later date.
  • the number of samples that can measure the engagement value with the resolution of the imaging device 1202 only needs to be a sufficient number of samples to calculate the average value.
  • an engagement measurement system 1201 is disclosed.
  • the engagement measuring device 1203 uses a single or a small number of imaging devices 1202 to photograph a number of students 1207 and measures an engagement value indicating how much the students 1207 are interested in the class.
  • the engagement measuring device 1203 records the subject ID, date / time information, and the engagement value in the log table 1408.
  • the engagement measuring device 1203 graphically displays the average value of the engagement values in real time.
  • Feature point extraction section 503 ... Vector analysis section, 504 ... Engagement calculation section, 505 ... Input / output control section, 506 ... ID information, 507 ... Interface selection unit, 6 DESCRIPTION OF SYMBOLS 1 ... Subject, 701 ... CPU, 702 ... ROM, 703 ... RAM, 704 ... Display part, 705 ... Operation part, 706 ... Nonvolatile storage, 707 ... RTC, 708 ... NIC, 709 ... Bus, 801 ... I / O Control unit 802 ... Log table 803 ... Input / output control unit 804 ... Display processing unit 805 ... Total processing unit 901 ... CPU, 902 ... ROM, 903 ...

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Computer Graphics (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

生徒や聴衆が授業あるいは講演にどの程度興味を持っているのかをリアルタイムで測定し、集計することができる、エンゲージメント測定システムを提供する。エンゲージメント測定装置は、単一あるいは少数の撮像装置を用いて多数の被写体である生徒を撮影し、生徒が授業にどの程度興味を持っているかを示すエンゲージメント値を測定する。エンゲージメント測定装置は被写体IDと日時情報とエンゲージメント値をログテーブルに記録する。

Description

エンゲージメント測定システム
 本発明は、特に学習塾等に好適な、エンゲージメント測定システムに関する。
 テレビジョン放送(以下「TV放送」)において放送される映像コンテンツが、どれだけ視聴者に視聴されているのかを示す指標として、従来から「世帯視聴率」が用いられている。TV放送における世帯視聴率の計測は、サンプルとなる家庭に視聴率を測定するための機器を設置し、その機器が、テレビジョン受像機(以下「TV」)がオン状態で表示しているチャンネルに関する情報をほぼリアルタイムで集計拠点へ送信する。すなわち世帯視聴率とは、視聴時間と視聴チャンネルに関する情報を集計した結果であり、世帯視聴率という情報からは視聴者がどのような状態で番組(映像コンテンツ)を視聴したのかはわからない。
 例えば、視聴者がTV番組に対し、画面を注視せずラジオのように聞き流すような視聴形態である場合には、当該番組は視聴者にとって集中した状態で視聴されていないこととなる。このような視聴形態では、TV番組に挟まれるコマーシャル(以下「CM」)の宣伝効果はあまり期待できない。
 視聴者がTV番組をどの程度集中して視聴しているのかを知るための技術が、幾つか検討されている。
 特許文献1には、TV番組に対し、視聴者がどの程度集中しているのかを「集中度」と定義し、その集中度を取得して利用する技術が開示されている。
特開2003-111106号公報
 発明者等は、これまで集中度を測定する機器を開発してきた。その機器の開発の過程において、人がある事象に対して集中するという状態は、能動的な要因のみならず、受動的な要因もあるということに気付いた。
 例えば、人がある課題に直面して、その課題を解決するために集中するという行為は、能動的な要因である。つまり、当該行為は「当該事象に集中しなければならない」という感情に起因する。これに対し、人が面白いことや楽しいこと等の事象を見て、興味を惹かれるという行為は、ある意味で受動的な要因である。つまり、当該行為は「当該事象に思わず惹かれてしまう」という感情に起因する。
 発明者等は、このように相反する感情に起因する行動を「集中度」という言葉で表現することが必ずしも適切ではないと考えた。そこで発明者等は、ある対象者が、ある事象に対し、能動的または受動的な要因の如何にかかわらず、注目している状態を、「エンゲージメント(Engagement)」という言葉として定義することとした。そして、発明者等は、これまで開発してきた機器を、集中度を測定する機器ではなく、エンゲージメントを測定する機器と定義することとした。
 本明細書で説明する発明者等が開発したシステムは、このエンゲージメントを測定するシステムである。
 エンゲージメントの測定は、前述のTV放送に適用されることが想定されるが、これ以外にも様々な応用が考えられる。今般、発明者等は、エンゲージメントの測定を学習塾等の教育現場に適用することを考えた。すなわち、生徒が授業にどの程度興味を持っているのかをリアルタイムで測定し、集計することができれば、学習塾の顧客満足度向上や業績向上に寄与することができる。
 これまで集中度を計測するシステムは何れも高額であり、しかも多数の機器を導入する必要がある学習塾等には普及し難いという問題があった。
 本発明はかかる課題に鑑みてなされたものであり、本発明の目的は、生徒や聴衆が授業あるいは講演にどの程度興味を持っているのかをリアルタイムで測定し、集計することができる、エンゲージメント測定システムを提供することにある。
 上記課題を解決するために、本発明のエンゲージメント測定システムは、複数の被撮影者の顔を撮影可能な撮像装置と、撮像装置から動画像データストリームを受信して、複数の被撮影者のエンゲージメント値を測定するエンゲージメント測定装置とよりなる。
 エンゲージメント測定装置は、撮像装置から出力される画像データストリームから1画面分の画像データを格納するフレームバッファと、フレームバッファに格納されている画像データから複数の被撮影者の顔の存在を検出し、複数の被撮影者の顔だけを抽出するための顔検出アドレス情報を出力する顔検出処理部と、フレームバッファに格納されている画像データと顔検出アドレス情報から、複数の被撮影者の顔の二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部とを具備する。更に、特徴点データから、被撮影者の顔の向きを示す顔方向ベクトルを生成するベクトル解析部と、顔方向ベクトルを演算して被撮影者が3次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出し、注視方向ベクトルが所定の事象に向いているのか否かを判定し、判定結果の移動平均を算出してエンゲージメント値を出力するエンゲージメント算出部と、顔検出アドレス情報に基いて、画像データに含まれる複数の被撮影者毎にエンゲージメント値を算出させるべくエンゲージメント算出部を稼働させて、画像データの撮影日時情報または現在日時情報と、複数の被撮影者を画像データ内において一意に識別するID情報と共にログテーブルに記録する入出力制御部とを具備する。更に、エンゲージメント値の平均値を算出するエンゲージメント平均値算出部と、複数の被撮影者のエンゲージメント値の平均値を表示する表示部とを具備する。
 本発明によれば、生徒や聴衆が授業あるいは講演にどの程度興味を持っているのかをリアルタイムで測定し、集計することができる、エンゲージメント測定システムを提供することができる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の第一の実施形態に係るエンゲージメント測定システムを所定の学習塾に設置し稼働させた状態を示す概略図である。 本発明の第一の実施形態に係るエンゲージメント測定システムの全体構成を示す概略図である。 ノートパソコン及び小型のシングルボードコンピュータで構成されるエンゲージメント測定装置の外観図である。 シングルボードコンピュータで構成されるエンゲージメント測定装置の、ハードウェア構成を示すブロック図である。 本発明の第一の実施形態に係るエンゲージメント測定システムのソフトウェア機能を示すブロック図である。 撮像装置から出力される画像データストリームの一例を示す概略図と、顔検出処理部が出力する顔抽出画像データの一例を示す概略図と、特徴点抽出部が出力する特徴点データの一例を示す概略図である。 サーバのハードウェア構成を示すブロック図である。 サーバのソフトウェア機能を示すブロック図である。 モニタ端末のハードウェア構成を示すブロック図である。 モニタ端末のソフトウェア機能を示すブロック図である。 モニタ端末の表示部に表示されるモニタ画面の表示例である。 本発明の第二の実施形態に係るエンゲージメント測定システムの全体構成を示すと共に、エンゲージメント測定システムを所定の学習塾に設置し稼働させた状態を示す概略図である。 エンゲージメント測定装置のハードウェア構成を示すブロック図である。 本発明の第二の実施形態に係るエンゲージメント測定装置のソフトウェア機能を示すブロック図である。 撮像装置から出力され、フレームバッファに格納される1画面分の画像データの一例を示す概略図と、顔検出処理部が出力する顔検出アドレス情報の一例を示す概略図と、特徴点抽出部が出力する特徴点データの一例を示す概略図である。 フレームバッファに格納されている画像データに対し、顔検出処理部が顔検出アドレス情報を生成する状態と、顔検出処理部が顔検出アドレス情報を生成した状態を示すイメージ図である。 エンゲージメント算出部の機能ブロック図である。 ログテーブルのフィールド構成を示す表である。 エンゲージメント測定装置の入出力制御部によって表示部に表示されるモニタ画面の表示例である。
 出願人は、コンテンツを視聴するユーザをカメラで撮影し、ユーザの顔の向き及び視線の向きから集中度を算出する集中度処理システムについて、先に特許出願した(特願2016-124611、以下「第一の特許出願」)。この第一の特許出願における集中度処理システムは、ユーザの顔をカメラで撮影し、ユーザの顔と視線の向きを検出し、それらの向きがコンテンツを表示するディスプレイにどの程度向いているかを測定することで、ユーザのコンテンツに対する集中度を算出している。
 これより説明する第一の実施形態は、第一の特許出願に開示した集中度処理システムを改良し、学習塾等に向けたアプリケーションとして構築したエンゲージメント測定システム及びエンゲージメント測定装置に係る。
 この第一の実施形態におけるエンゲージメント測定システムは、カメラを内蔵するエンゲージメント測定装置を生徒の近傍に設置して、生徒のエンゲージメント値を測定し、その平均値を集計する。また、エンゲージメント測定装置は、内蔵カメラに映る生徒一人のエンゲージメント値を測定する。
 そして、第一の実施形態の次に説明する第二の実施形態は、第一の実施形態におけるエンゲージメント測定システムを更に改良し、より簡易なシステム構成を実現すべく構築したエンゲージメント測定システムに係る。すなわち、生徒あるいは聴衆の一人に一台ずつカメラを配置するのではなく、教室あるいは講堂全体を撮影する高解像度カメラを一台設けて、一台のカメラで複数人のエンゲージメント値を測定する。
 [第一の実施形態:設置稼働例]
 図1は、本発明の第一の実施形態に係るエンゲージメント測定システム101を所定の学習塾に設置し稼働させた状態を示す概略図である。
 学習塾102において、講師103は生徒104に対して授業を行っている。この時、生徒104の机105には所定の教材等を表示すると共にエンゲージメントを測定する、ノートパソコンであるエンゲージメント測定装置106が設置されている。
 エンゲージメント測定装置106のLCDディスプレイの枠には、カメラが装着あるいは埋設されており、カメラは生徒104の顔を撮影することが可能になっている。
 エンゲージメント測定装置106には、後述するエンゲージメント測定プログラムが稼働しており、リアルタイムで生徒104のエンゲージメント値を測定し、測定したエンゲージメント値を無線LAN経由でサーバ108に送信する。各生徒104のエンゲージメント値は無線LANルータ107に接続されているサーバ108にてログ記録される。図1では、ノートパソコンでサーバ108を構成している。
 更に、タブレットPCであるモニタ端末109は、無線LAN経由でサーバ108に常時アクセスして、各生徒104のエンゲージメントの値と集計値を受信して、液晶ディスプレイに表示する。講師103はモニタ端末109を見ることで、授業中にリアルタイムでエンゲージメントを確認することができる。
 図8にて後述するが、モニタ端末109とサーバ108は兼用することが可能である。すなわち、ノートパソコンに、サーバ108としての機能と、モニタ端末109としての機能の両方を搭載して稼働させることができる。
 なお、図1では図示していないが、本発明の第一の実施形態に係るエンゲージメント測定システム101は、インターネットを通じて展開されるサテライト授業においても、前述の学習塾102と同様の実施が可能である。
 [全体構成]
 図2は、本発明の第一の実施形態に係るエンゲージメント測定システム101の全体構成を示す概略図である。
 エンゲージメント測定装置106と、サーバ108と、モニタ端末109は、無線LANルータ107を介して接続されている。ここで、無線LANルータ107は小規模なLANを構成する。無線LANルータ107の代わりにスイッチングハブ等を用いて、エンゲージメント測定装置106と、サーバ108と、モニタ端末109の全てを有線LANで接続してもよい。
 サテライト授業や通信講座等の場合は、エンゲージメント測定装置106とサーバ108が、LANの代わりにインターネットで接続されることとなる。
 エンゲージメント測定装置106を構成するノートパソコンには、後述するエンゲージメント測定プログラムが稼働しており、リアルタイムで生徒104のエンゲージメントを測定し、測定したエンゲージメントを無線LAN経由でサーバ108に送信する。
 サーバ108は、エンゲージメント測定装置106から受信したエンゲージメント値をログ記録する。
 モニタ端末109は、サーバ108にアクセスし、所定のエンゲージメント測定装置106が出力するエンゲージメント値を受信して、集計値を算出し、リアルタイムで液晶ディスプレイに表示する。
 [エンゲージメント測定装置106:外観]
 エンゲージメント測定装置106は、必ずしもノートパソコンで構成されるものではなく、例えば近年急速に普及しているシングルボードコンピュータでも構成することが可能である。
 図3Aは、ノートパソコン301で構成されるエンゲージメント測定装置106の外観図である。
 ノートパソコン301には、ネットワークOSと、ノートパソコン301をエンゲージメント測定装置106として稼働させるためのプログラムがインストールされている。
 ノートパソコン301のLCDディスプレイ302の枠には、ビデオチャット等に使用されるwebカメラ303が装着あるいは埋設されている。ノートパソコン301を生徒104の机105に設置すると、このwebカメラ303が生徒104の顔を撮影することで、生徒104のエンゲージメント値の測定が可能になる。
 図3Bは、小型のシングルボードコンピュータ304で構成されるエンゲージメント測定装置106の外観図である。
 シングルボードコンピュータ304には、ネットワークOSと、シングルボードコンピュータ304をエンゲージメント測定装置106として稼働させるためのプログラムがインストールされている。
 シングルボードコンピュータ304を生徒104の机上に設置すると、シングルボードコンピュータ304の筐体に装着されたカメラ305が生徒104の顔を撮影することで、生徒104のエンゲージメントの測定が可能になる。
 シングルボードコンピュータ304は、例えば英国ラズベリーパイ財団(http://www.raspberrypi.org/)が開発する「Raspberry Pi」等が利用可能である。シングルボードコンピュータ304の演算処理能力は、例えばLinux(登録商標)等のネットワークOSが実用的な速度で稼働可能な程度であればよい。
 [エンゲージメント測定装置106:ハードウェア構成]
 図4は、シングルボードコンピュータ304で構成されるエンゲージメント測定装置106の、ハードウェア構成を示すブロック図である。
 エンゲージメント測定装置106は、CPU401、ROM402、RAM403、不揮発性ストレージ404、現在日時情報を出力するリアルタイムクロック(以下「RTC」)405、無線LANルータ107等に接続するための無線LANインターフェース406とNIC(Network Interface Card)407がバス408に接続されている。 そして、エンゲージメント測定装置106において重要な役割を持つ撮像装置409(webカメラ303、カメラ305)もバス408に接続されている。
 不揮発性ストレージ404には、シングルボードコンピュータ304をネットワークに接続するための、TCP/IPプロトコルスタックを含むネットワークOSと、エンゲージメント測定装置106として稼働させるためのプログラムが格納されている。
 なお、エンゲージメント測定装置106をノートパソコン301で構成する場合は、図4のバス408に、更に液晶ディスプレイである表示部と、キーボードやマウス等のポインティングデバイスである操作部が接続される構成となる。
 [エンゲージメント測定装置106:ソフトウェア機能]
 図5は、本発明の第一の実施形態に係るエンゲージメント測定装置106の、ソフトウェア機能を示すブロック図である。
 撮像装置409から出力される画像データストリームは、顔検出処理部501に供給される。
 顔検出処理部501は、撮像装置409から出力される画像データストリームを時間軸上で連続する静止画として捉え、この時間軸上で連続する静止画の各画像データに対し、例えばViola-Jones法等の周知のアルゴリズムを用いて、生徒104の顔の存在を検出する。そして、生徒104の顔だけを抽出した顔抽出画像データを出力する。
 顔検出処理部501が出力する顔抽出画像データは、特徴点抽出部502に供給される。
 特徴点抽出部502は、顔抽出画像データに含まれる生徒104の顔の画像に、ポリゴン解析等の処理を施す。そして、生徒104の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する。特徴点データの詳細については図6で後述する。
 特徴点抽出部502が出力する特徴点データは、ベクトル解析部503に供給される。 ベクトル解析部503は、連続する2枚の顔抽出画像データに基づく特徴点データから、生徒104の顔の向きを示すベクトル(以下「顔方向ベクトル」)と、生徒104の顔における、視線の向きを示すベクトル(以下「視線方向ベクトル」)を生成する。
 顔方向ベクトルと視線方向ベクトルは、エンゲージメント算出部504に供給される。 エンゲージメント算出部504は、顔方向ベクトルと視線方向ベクトルを加算して、生徒104がコンテンツを表示するディスプレイと撮像装置409を含む3次元空間内の何処を注視しているのかを示す、注視方向ベクトルを算出して、生徒104の注視方向がディスプレイに向いているのか否かを判定する。この判定結果は、生徒104の注視方向がディスプレイに向いているのか(論理の「真」)否か(論理の「偽」)を示す、2値である。
 エンゲージメント算出部504は、この注視方向判定結果を例えば100msec毎に算出する。そして、例えば直近1秒間の注視方向判定結果の移動平均を算出する。このように演算することで、2値の注視方向判定結果を疑似アナログ的な値として取得することが可能になる。この、注視方向判定結果の移動平均値が、エンゲージメント値である。
 エンゲージメント算出部504が出力するエンゲージメント値は、入出力制御部505に供給される。
 入出力制御部505は、エンゲージメント値にRTC405が出力する現在日時情報とID情報506を付加して、送信パケットを生成する。
 送信パケットは、インターフェース選択部507を通じて、無線LANインターフェース406またはNIC407の、ネットワークに接続されているサーバ108へ、HTTP(Hyper Text Transfer Protocol)を用いて送信される。すなわち、入出力制御部505には、webクライアントとしての機能を有する。
 インターフェース選択部507の実体は、OSに備わっているTCP/IPプロトコルスタックとDHCP(Dynamic Host Configuration Protocol)クライアントである。すなわち、インターフェース選択部507は、IPリーチャブルなネットワークに接続されているネットワークインターフェースを選択して、送信パケットをサーバ108へ送信する。
 なお、本発明の第一の実施形態に係るエンゲージメント測定装置106では、ネットワークにおける通信に使用するプロトコルに、最も簡素で扱い易いHTTPを例示しているが、データストリームを送信するプロトコルはこれに限るものではない。
 [送信データについて]
 送信パケットには、100msec毎に測定されるエンゲージメント値の他、RTC405が出力する現在日時情報とID情報506が含まれる。
 後述するモニタ端末109の表示画面にて、複数のエンゲージメント測定装置106が出力するエンゲージメント値と、その平均値をリアルタイムで表示される。ネットワークには遅延が伴うので、測定したエンゲージメント値に現在日時情報を付加することで、複数のエンゲージメント測定装置106が出力するエンゲージメント値の時間軸を揃えることが可能になる。また、このためにはエンゲージメント測定装置106にNTP(Network Time Protocol)クライアント等の日時情報較正機能を有するプログラムがインストールされ、実行されることで、RTC405を正確に保つことが好ましい。
 また、エンゲージメント測定装置106は生徒104の人数に応じて複数設置される。サーバ108は、複数のエンゲージメント測定装置106から同時にエンゲージメント値を受信するため、各々のエンゲージメント測定装置106について一意に識別する情報が必要である。このため、エンゲージメント測定装置106及び/または生徒104を一意に識別するID情報506が設けられている。なお、本発明の第一の実施形態に係るエンゲージメント測定システム101の学習塾102等における利用に際し、利用者である生徒104の識別を全く必要としない場合に限って、ID情報506に代えて、エンゲージメント測定装置106のNIC407または無線LANインターフェース406に、DHCPサーバによって付与される動的IPアドレスを、エンゲージメント測定装置106を一意に識別する情報として利用することが可能である。ID情報506の代わりにIPアドレスを使用する場合、IPアドレスはIPパケットのヘッダに含まれるので、送信パケットのペイロードには現在日時情報とエンゲージメント値のみとなる。
 [特徴点データについて]
 以下、顔検出処理部501、特徴点抽出部502、そしてベクトル解析部503の動作について説明する。
 図6Aは、撮像装置409から出力される画像データストリームの一例を示す概略図である。図6Bは、顔検出処理部501が出力する顔抽出画像データの一例を示す概略図である。図6Cは、特徴点抽出部502が出力する特徴点データの一例を示す概略図である。
 先ず、撮像装置409から被撮影者601を含む画像データストリームがリアルタイムで出力される。これが図6Aの画像データP602である。
 次に、顔検出処理部501は、撮像装置409から出力される画像データP602から、例えばViola-Jones法等の周知のアルゴリズムを用いて、被撮影者601の顔の存在を検出する。そして、被撮影者601の顔だけを抽出した顔抽出画像データを出力する。これが図6Bの顔抽出画像データP603である。
 そして、特徴点抽出部502は、顔抽出画像データP603に含まれる被撮影者601の顔の画像に、ポリゴン解析等の処理を施す。そして、被撮影者601の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する。これが図6Cの特徴点データP604である。この特徴点データP604は、二次元空間内における座標情報を有する特徴点の集合体で構成される。
 前述の通り、特徴点抽出部502が出力する特徴点データは、あくまで2次元の座標情報である。単眼のカメラである撮像装置409が出力する画像データストリームはあくまでも2次元の画像データであるため、このままでは3次元の立体である被撮影者601の顔の向きを検出することはできない。
 しかし、標準的な顔の3Dモデル上に特徴点をプロットしたものを撮影して、特徴点が写った2次元の画像データが得られたと仮定すると、計算により撮影された顔の向きやカメラまでの距離を推定することができる。
 このような、2次元の画像から3次元の立体を推定する技術は、PnP(Perspective n Points)問題として既知である。そして、PnP問題を解くための計算方法も、DLT(Direct Linear Transform)法等で既知である。
 PnP問題を解くことにより、被撮影者601(図6A参照)の顔の方向を算出することができる。これが顔方向ベクトルである。
 また、目の輪郭に対する瞳の位置から、被撮影者601の顔に対するおおよその視線の方向を算出することができる。これが視線方向ベクトルである。
 ベクトル解析部503は、以上のような処理にて、特徴点データから顔方向ベクトルと視線方向ベクトルを生成する。
 [サーバ108:ハードウェア構成]
 図7は、サーバ108のハードウェア構成を示すブロック図である。
 サーバ108は、CPU701、ROM702、RAM703、表示部704、操作部705、不揮発性ストレージ706、RTC707とNIC708がバス709に接続されている。サーバ108には、図1、図2に示すようなノートパソコンや、図示はしていないがデスクトップパソコン等を利用することができる。また、不揮発性ストレージ706として大容量のハードディスク装置を利用可能であれば、前述のシングルボードコンピュータも利用可能である。
 不揮発性ストレージ706には、サーバ108をネットワークに接続するための、TCP/IPプロトコルスタックを含むネットワークOSと、サーバ108として稼働させるためのプログラムが格納されている。
 なお、ノートパソコンでサーバ108を実現する場合、バス709には無線LANインターフェースが接続されていることが多い。
 サーバ108をサーバとしての機能に特化する場合は、表示部704と操作部705は必ずしも必要ではない。但し、ノートパソコンにサーバ108とモニタ端末109とを兼用する場合は、表示部704と操作部705が必要になる。
 [サーバ108:ソフトウェア機能]
 図8Aは、サーバ108aのソフトウェア機能を示すブロック図である。
 サーバ108aは、webサーバとしての機能と、データベースサーバとしての機能を有する。
 入出力制御部801の実体はwebサーバプログラムであり、HTTPクライアントであるエンゲージメント測定装置106やモニタ端末109の要求を受信し、要求に応じた応答データを返信する。
 エンゲージメント測定装置106から送信されるエンゲージメント値を含む情報は、入出力制御部801を経て、不揮発性ストレージ706に設けられるログテーブル802に記録される。
 入出力制御部801は、モニタ端末109から受信する、全てのエンゲージメント測定装置106のエンゲージメント値の要求に対し、全てのエンゲージメント測定装置106のエンゲージメント値を、日時情報とID情報506と共に返信する。
 図8Bは、モニタ端末109の機能を兼用するサーバ108bのソフトウェア機能を示すブロック図である。
 図8Bに示すサーバ108bの、図8Aに示したサーバ108aとの相違点は、入出力制御部803に表示部704に表示する内容を生成する表示処理部804の機能が含まれていることと、入出力制御部803に集計処理部805と表示部704が接続されていることである。
 入出力制御部803の実体はwebサーバプログラムであり、HTTPクライアントであるエンゲージメント測定装置106が送信する送信パケットを受信する。
 エンゲージメント測定装置106から送信される送信パケットに含まれる、エンゲージメント値、日時情報及びID情報506は、入出力制御部803を経てログテーブル802に記録される。また、集計処理部805は時間軸を揃えた複数のエンゲージメント値の平均値を算出する。
 表示処理部804は、全てのエンゲージメント測定装置106のエンゲージメント値と平均値に基づいて表示内容を生成し、表示部704に表示させる。
 [モニタ端末109:ハードウェア構成]
 図9は、モニタ端末109のハードウェア構成を示すブロック図である。
 モニタ端末109は、CPU901、ROM902、RAM903、表示部904、操作部905、不揮発性ストレージ906、RTC907と無線LANインターフェース908がバス909に接続されている。
 不揮発性ストレージ906には、サーバ108をネットワークに接続するための、TCP/IPプロトコルスタックを含むネットワークOSと、モニタ端末109として稼働させるためのプログラムが格納されている。
 タブレットPCであるモニタ端末109の、図7に示したサーバ108とのハードウェア構成の相違点は、NIC708が無線LANインターフェース908に代わっている点のみである。もし、タブレットPCの代わりにノートパソコンを用いる場合、図7と同一の構成になる。
 [モニタ端末109:ソフトウェア機能]
 図10は、モニタ端末109のソフトウェア機能を示すブロック図である。
 入出力制御部1001の実体はwebサーバクライアントであり、webサーバであるサーバ108に対し、全てのエンゲージメント測定装置106のエンゲージメント値を返信する要求を送信する。そして、サーバ108から返信される、全てのエンゲージメント測定装置106のエンゲージメント値を受信する。
 集計処理部1002は、図8Bの集計処理部805と同様に、受信した複数のエンゲージメント値の時間軸を揃えた上で、その平均値を算出する。
 表示処理部1003は、図8Bの表示処理部804と同様に、全てのエンゲージメント測定装置106のエンゲージメント値と平均値に基づいて表示内容を生成し、表示部704に表示させる。
 [モニタ端末109:表示例]
 図11は、モニタ端末109の表示部704に表示されるモニタ画面の表示例である。
 画面下半分の表示領域A1101は、全てのエンゲージメント測定装置106が出力するエンゲージメント値の棒グラフである。棒グラフは、例えば1秒毎、あるいは0.5秒毎にリフレッシュされ、その時点での最新のエンゲージメント値を棒グラフで表示する。そして、エンゲージメント値が66.6%以上の時は棒グラフを緑色に表示し(色P1101a)、エンゲージメント値が33.3%以上66.6%未満の時は棒グラフをオレンジ色に表示し(色P1101b)、エンゲージメント値が33.3%未満の時は棒グラフを赤色に表示する(色P1101c)。この様に、エンゲージメント値を色分けして表示することで、生徒104のエンゲージメント値の状態を瞬時に把握することが可能になる。
 棒グラフの下に表示される数字は、エンゲージメント測定装置106を一意に識別する番号である。数字も棒グラフと同じ色で表示される。生徒104が欠席していて、エンゲージメント値を測定できないエンゲージメント測定装置106の番号は、灰色で表示される(色P1101d)。
 例えば、全ての生徒104が授業に興味を持っている場合、欠席のエンゲージメント測定装置106の欄を除き、全ての棒グラフが一斉に緑色に染まる。
 例えば、生徒104の多くが授業に対する集中力を失っている場合、多くの棒グラフがオレンジ色や赤色に染まる。
 画面左上の表示領域A1102は、全てのエンゲージメント測定装置106が出力するエンゲージメント値の平均値の数値表示である。この数値も、折れ線グラフと同様の色分け表示を行う。
 画面右上の表示領域A1103は、全てのエンゲージメント測定装置106が出力するエンゲージメント値の平均値の推移を示す折れ線グラフである。横軸は時間であり、縦軸はエンゲージメント値である。折れ線グラフを設けることで、エンゲージメント値の現在値のみならず、エンゲージメント値の推移も把握できるので、講師103は現在の講義が生徒104達にどの程度興味を惹かれているのか、どの話題で生徒104達の興味が惹かれたり、あるいは削がれたのかを把握することができる。
 サーバ108にログ記録されたエンゲージメント値には絶対時間情報が含まれているので、後からモニタ端末109で再生することが可能である。また、別途動画カメラで授業を録画しておき、動画データに録画を開始した日時情報を付加しておけば、ログテーブル802に記録されているエンゲージメント値との同期再生も可能である。
 本発明の第一の実施形態においては、エンゲージメント測定システム101を開示した。
 エンゲージメント測定装置106は、被写体である生徒104が授業にどの程度興味を持っているかを示すエンゲージメント値を測定し、サーバ108に送信する。サーバ108は複数のエンゲージメント測定装置106から送信される、エンゲージメント値と日時情報とID情報506を含む送信パケットを受信し、ログテーブル802に記録する。モニタ端末109は、複数のエンゲージメント測定装置106から送信されるエンゲージメント値とその平均値をリアルタイムでグラフィカルに表示する。
 本発明の第一の実施形態におけるエンゲージメント測定装置106の演算処理は従来と比べて極めて軽い。更に、エンゲージメント測定システム101が送信するデータは、極めてデータ容量が少ないエンゲージメント値と日時情報とID情報506である。したがって、エンゲージメント測定システム101がLAN及び/またはインターネットに流すデータ量は極めて少ない。
 [第二の実施形態:エンゲージメント測定システム1201:全体構成及び設置稼働例]
 図12は、本発明の第二の実施形態に係るエンゲージメント測定システム1201の全体構成を示すと共に、エンゲージメント測定システム1201を所定の学習塾に設置し稼働させた状態を示す概略図である。
 エンゲージメント測定システム1201は、撮像装置1202とエンゲージメント測定装置1203よりなる。撮像装置1202とエンゲージメント測定装置1203は、USBまたはネットワーク等のケーブル1204で接続されている。
 学習塾の教室1205において、講師1206は生徒1207に対して授業を行っている。教室1205の天井には、撮像装置1202が設置されている。この撮像装置1202は教室1205に着席する複数の生徒1207の顔を、撮像装置1202の画角及び解像度に応じて撮影することが可能である。
 エンゲージメント測定装置1203には、後述するエンゲージメント測定プログラムが稼働しており、リアルタイムで複数の生徒1207のエンゲージメント値を測定し、測定したエンゲージメント値を表示部1208に表示する。図12では、ノートパソコンでエンゲージメント測定装置1203を構成している。
 [エンゲージメント測定装置1203:ハードウェア構成]
 図13は、エンゲージメント測定装置1203のハードウェア構成を示すブロック図である。
 エンゲージメント測定装置1203は、バス1308に接続されたCPU1301、ROM1302、RAM1303、表示部1208、操作部1304、不揮発性ストレージ1305、現在日時情報を出力するリアルタイムクロック(以下「RTC」)1306とNIC(Network Interface Card)1307を備える。エンゲージメント測定装置1203には、図12に示すようなノートパソコンや、図示はしていないがデスクトップパソコン等を利用することができる。
 不揮発性ストレージ1305には、エンゲージメント測定装置1203をネットワークに接続するための、TCP/IPプロトコルスタックを含むネットワークOSと、エンゲージメント測定装置1203として稼働させるためのプログラムが格納されている。
 そして、エンゲージメント測定装置1203において重要な役割を持つ撮像装置1202もバス1308に接続されている。
 なお、撮像装置1202とエンゲージメント測定装置1203との距離が離れている場合、周知のUSBインターフェースはケーブルの長さが最大5mであり、エンゲージメント測定装置1203の設置場所が制約を受ける可能性が高い。そのような場合には、撮像装置1202にシングルボードコンピュータを装備し、エンゲージメント測定装置1203とシングルボードコンピュータとをネットワークで接続する。
 そして、撮像装置1202が出力する動画像データストリームをネットワーク経由でエンゲージメント測定装置1203に送信する。これにより、ケーブルの長さを延長した状態を実現することが可能になる。
 本発明のエンゲージメント測定システム1201では、エンゲージメント測定装置1203にネットワークの機能は必ずしも必要ではないが、上述のような理由で必要になる場合もある。
 [エンゲージメント測定装置1203:ソフトウェア機能]
 図14は、本発明の第二の実施形態に係るエンゲージメント測定装置1203のソフトウェア機能を示すブロック図である。
 撮像装置1202から出力される画像データストリームは、一旦1画面分の画像データがフレームバッファ1401に格納される。
 顔検出処理部1402は、フレームバッファ1401に格納された1画面分の画像データに対し、例えばViola-Jones法等の周知のアルゴリズムを用いて、1画面分の画像データに写っている全ての生徒1207の顔の存在を検出する。そして、生徒1207の顔だけを抽出するための、顔検出アドレス情報を出力する。
 顔検出アドレス情報は、特徴点抽出部1403と入出力制御部1404に供給される。
 特徴点抽出部1403は、顔検出処理部1402から得られた顔検出アドレス情報に基づいてフレームバッファ1401から生徒1207の顔だけを抽出した顔抽出画像データを読み出す。そして、顔抽出画像データに含まれる生徒1207の顔の画像に、ポリゴン解析等の処理を施す。このポリゴン解析処理は、生徒1207の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する処理である。
 特徴点抽出部1403が出力する特徴点データは、ベクトル解析部1405に供給される。
 ベクトル解析部1405は、顔抽出画像データに基づく特徴点データから、生徒1207の顔の向きを示すベクトル(以下「顔方向ベクトル」)と、生徒1207の顔における、視線の向きを示すベクトル(以下「視線方向ベクトル」)を生成する。
 前述の通り、特徴点抽出部1403が出力する特徴点データは、あくまで2次元の座標情報である。単眼のカメラである撮像装置1202が出力する画像データストリームはあくまでも2次元の画像データであるため、このままでは3次元の立体である生徒1207の顔の向きを検出することはできない。
 しかし、標準的な顔の3Dモデル上に特徴点をプロットしたものを撮影して、特徴点が写った2次元の画像データが得られたと仮定すると、計算により撮影された顔の向きやカメラまでの距離を推定することができる。
 このような、2次元の画像から3次元の立体を推定する技術は、PnP(Perspective n Points)問題として既知である。そして、PnP問題を解くための計算方法も、DLT(Direct Linear Transform)法等で既知である。
 PnP問題を解くことにより、被撮影者1501(図15A参照)の顔の方向を算出することができる。これが顔方向ベクトルである。
 また、目の輪郭に対する瞳の位置から、被撮影者1501の顔に対するおおよその視線の方向を算出することができる。これが視線方向ベクトルである。
 ベクトル解析部1405は、以上のような処理にて、特徴点データから顔方向ベクトルと視線方向ベクトルを生成する。
 [特徴点データについて]
 以下、顔検出処理部1402、特徴点抽出部1403、そしてベクトル解析部1405の動作について説明する。
 図15Aは、撮像装置1202から出力され、フレームバッファ1401に格納される1画面分の画像データの一例を示す概略図である。図15Bは、顔検出処理部1402が出力する顔検出アドレス情報の一例を示す概略図である。図15Cは、特徴点抽出部1403が出力する特徴点データの一例を示す概略図である。
 先ず、撮像装置1202から被撮影者1501を含む画像データストリームがリアルタイムで出力され、フレームバッファ1401に格納される。これが図15Aの画像データP1502である。
 次に、顔検出処理部1402は、フレームバッファ1401に格納されている画像データP1502から、例えばViola-Jones法等の周知のアルゴリズムを用いて、被撮影者1501の顔の存在を検出する。そして、被撮影者1501の顔だけを抽出するための顔検出アドレス情報P1503を出力する。
 顔検出アドレス情報P1503は、被撮影者1501の顔を取り囲む長方形状の領域である。始点アドレスP1503aは長方形状の領域の左上の頂点のアドレス情報であり、終点アドレスP1503bは長方形状の領域の右下の頂点のアドレス情報である。
 そして、特徴点抽出部1403は、顔検出アドレス情報P1503で特定される部分画像データに含まれる被撮影者1501の顔の画像に、ポリゴン解析等の処理を施す。そして、被撮影者1501の顔全体、眉、目、鼻、口等の輪郭と、瞳を示す顔の特徴点よりなる特徴点データを生成する。これが図15Cの特徴点データP1504である。この特徴点データP1504は、二次元空間内における座標情報を有する特徴点の集合体で構成される。そして、この特徴点データP1504は、顔検出アドレス情報P1503の範囲に含まれている。
 [顔検出アドレス情報P1503について]
 図16Aは、フレームバッファ1401に格納されている画像データに対し、顔検出処理部1402が顔検出アドレス情報P1503を生成する状態を示すイメージ図である。
 図16Bは、フレームバッファ1401に格納されている画像データに対し、顔検出処理部1402が顔検出アドレス情報P1503を生成した状態を示すイメージ図である。
 顔検出処理部1402は、画像データに含まれている人の顔と思しき画像領域の存在全てを、画像データの解像度が許す限り検出し、それら複数の画像領域をそれぞれ長方形状に囲む。この長方形状の領域の、長方形の左上の頂点と右下の頂点のアドレス情報が、顔検出アドレス情報P1503になる。
 図14に戻って、ブロック図の説明を続ける。
 後述するエンゲージメント算出部1406では、エンゲージメント値の算出処理の中で、移動平均の演算処理を行う。移動平均を計算するということは、ある被験者から算出したエンゲージメント値の基となる値を、ある時間幅だけ、継続して加算する必要がある。すなわち、顔検出アドレス情報P1503か、あるいは別の情報を用いて、フレームバッファ1401に格納されている画像データに含まれる複数の顔の存在を特定する必要がある。
 そこで、顔検出アドレス情報P1503は入出力制御部1404に含まれるアドレス情報処理部1407に供給される。
 アドレス情報処理部1407は、顔検出処理部1402から出力された顔検出アドレス情報P1503から、情報形状の領域の中心点、すなわち顔検出アドレス情報P1503の中心点を算出する。これ以降、この中心点を顔検出中心点と呼ぶ。この顔検出中心点は、授業や講義、講演等において、撮像装置1202に写る人の顔の中心を示す点である。
 アドレス情報処理部1407が出力する顔検出中心点は、入出力制御部1404に含まれるエンゲージメント算出部1406に供給される。エンゲージメント算出部1406は、後述するエンゲージメント算出処理に際し、顔検出中心点を個々人の識別子として取り扱う。
 [エンゲージメント値算出処理について]
 ベクトル解析部1405が出力する顔方向ベクトルと視線方向ベクトルは、入出力制御部1404に含まれるエンゲージメント算出部1406に供給される。エンゲージメント算出部1406は、顔方向ベクトルと視線方向ベクトルから、エンゲージメント値を算出する。
 図17は、エンゲージメント算出部1406の機能ブロック図である。
 ベクトル解析部1405が出力する顔方向ベクトルと視線方向ベクトルは、ベクトル加算部1701に入力される。ベクトル加算部1701は、顔方向ベクトルと視線方向ベクトルを加算して、注視方向ベクトルを算出する。この注視方向ベクトルは、生徒1207がコンテンツを表示する表示部1208と撮像装置1202を含む3次元空間内の何処を注視しているのかを示すベクトルである。
 ベクトル加算部1701が算出した注視方向ベクトルは、注視方向判定部1702に入力される。注視方向判定部1702は、生徒1207が注視する対象を指し示す注視方向ベクトルが表示部1208に向いているか否かを判定する、2値の注視方向判定結果を出力する。
 なお、撮像装置1202が表示部1208の近傍から離れた場所に設置されている場合は、不揮発性ストレージ1305に記憶されている初期補正値1703によって、注視方向判定部1702の判定処理に補正が加えられる。初期補正値1703には、生徒1207の顔と視線が表示部1208に正しく向かっているか否かを検出するために、予め生徒1207の顔と視線が表示部1208に正しく向かっている時の、撮像装置1202から見た生徒1207の顔と視線の向きの情報が、不揮発性ストレージ1305に記憶されている。
 注視方向判定部1702が出力する2値の注視方向判定結果は、第一平滑化処理部1704に入力される。注視方向判定部1702が出力する注視方向判定結果には、特徴点抽出部1403が生成する特徴点データに含まれるノイズに由来する外乱がしばしば発生する。このため、第一平滑化処理部1704によってノイズの影響を抑え、生徒1207の挙動に極めて近い状態を示す「ライブエンゲージメント値」を得る。
 第一平滑化処理部1704は、例えば現在の注視方向判定結果を含む数サンプルの移動平均を算出し、ライブエンゲージメント値を出力する。
 第一平滑化処理部1704が出力するライブエンゲージメント値は、第二平滑化処理部1705に入力される。
 第二平滑化処理部1705は、入力されたライブエンゲージメント値に対し、予め指定されたサンプル数1706の数に基づく平滑化処理を行い、「エンゲージメント基礎値」を出力する。例えば、サンプル数1706に「5」と記述されていれば、5個のライブエンゲージメント値に対して移動平均を算出する。また、平滑化処理では、加重移動平均、指数加重移動平均等の別のアルゴリズムを使用してもよい。このサンプル数1706及び平滑化処理のアルゴリズムは、本発明の第二の実施形態に係るエンゲージメント測定システム1201が適用されるアプリケーションに応じて、適切に設定される。
 第二平滑化処理部1705が出力するエンゲージメント基礎値は、エンゲージメント演算処理部1707に入力される。
 一方、顔方向ベクトルはよそ見判定部1708にも入力される。よそ見判定部1708は、生徒1207の顔の向きを示す顔方向ベクトルが表示部1208に向いているか否かを判定し、2値のよそ見判定結果を生成する。そして、このよそ見判定結果を、ベクトル解析部1405が出力する顔方向ベクトルと視線方向ベクトルのサンプリングレートにしたがって、よそ見判定部1708に内蔵される不図示の2個のカウンタで計数する。
 すなわち、第一のカウンタは、生徒1207がよそ見をしている判定結果を計数し、第二のカウンタは、生徒1207がよそ見をしていない判定結果を計数する。第一のカウンタは、第二のカウンタが所定の計数値に至るとリセットされる。第二のカウンタは、第一のカウンタが所定の計数値に至るとリセットされる。第一のカウンタと第二のカウンタの論理値が、生徒1207がよそ見をしているか否かを示す判定結果として出力される。
 また、方向別に第一のカウンタを複数持つ事で、アプリケーションに応じて、例えば手元でノートを取ることはよそ見と判定しないようにすることもできる。
 また、視線方向ベクトルは目瞑り判定部1709にも入力される。目瞑り判定部1709は、生徒1207の視線の向きを示す視線方向ベクトルが検出できているか否かを判定する、2値の目瞑り判定結果を生成する。
 視線方向ベクトルは生徒1207の目が開いている状態のときだけ検出される。つまり、生徒1207が目を瞑っていると、視線方向ベクトルは検出できなくなる。そこで、目瞑り判定部1709は、生徒1207が目を瞑っているか否かを示す、2値の目瞑り判定結果を生成する。
 目瞑り判定部1709もよそ見判定部1708と同様に不図示の2個のカウンタを内蔵しており、この目瞑り判定部1709による目瞑り判定結果を、ベクトル解析部1405が出力する顔方向ベクトルと視線方向ベクトルのサンプリングレートにしたがって、2個のカウンタで計数する。
 第一のカウンタは、生徒1207が目を瞑っている判定結果を計数し、第二のカウンタは、生徒1207が目を開いている(目を瞑っていない)判定結果を計数する。第一のカウンタは、第二のカウンタが所定の計数値に至るとリセットされる。第二のカウンタは、第一のカウンタが所定の計数値に至るとリセットされる。第一のカウンタと第二のカウンタの論理値が、生徒1207が目を瞑っているか否かを示す判定結果として出力される。
 第二平滑化処理部1705が出力するエンゲージメント基礎値と、よそ見判定部1708が出力するよそ見判定結果と、目瞑り判定部1709が出力する目瞑り判定結果は、エンゲージメント演算処理部1707に入力される。
 エンゲージメント演算処理部1707は、エンゲージメント基礎値と、よそ見判定結果と、目瞑り判定結果に対し、アプリケーションに応じた重み付け係数1710を乗算した上で加算して、最終的なエンゲージメント値を出力する。
 サンプル数1706及び重み付け係数1710を調整することで、エンゲージメント測定システム1201を様々なアプリケーションに対応することができる。例えば、サンプル数1706を「0」に設定し、よそ見判定部1708及び目瞑り判定部1709に対する重み付け係数1710もそれぞれ「0」に設定すれば、第一平滑化処理部1704が出力するライブエンゲージメントそのものがそのままエンゲージメント値としてエンゲージメント演算処理部1707から出力される。
 特に、第二平滑化処理部1705は、サンプル数1706の設定によって無効化することもできる。そこで、第一平滑化処理部1704と第二平滑化処理部1705は、単一の平滑化処理部として上位概念でみなすことができる。
 [ログテーブル1408について]
 本発明の第二の実施形態に係るエンゲージメント測定装置1203は、複数の生徒1207あるいは聴衆等に対し、個別にエンゲージメント値を算出するために、入出力制御部1404が顔検出アドレス情報P1503とログテーブル1408を用いて、被写体の匿名性を維持しつつ個別のエンゲージメント値の算出を実現する。
 図18は、ログテーブル1408のフィールド構成を示す表である。
 ログテーブル1408は、被写体IDフィールド、日時情報フィールド、顔検出アドレス情報フィールド、顔検出中心点フィールド、特徴点データフィールド、顔方向ベクトルフィールド、視線方向ベクトルフィールド、エンゲージメント値フィールドを有する。
 被写体IDフィールドには、被写体である人を画像データ内において一意に識別するID情報である被写体IDが格納される。この被写体IDは、単に画像データ内に写っている人を、エンゲージメント値算出の際に混同しないために用いられるものであり、個人を厳密に特定する目的のものではない。
 日時情報フィールドには、フレームバッファ1401に格納されている画像データが撮影された日時が格納される。画像データが撮影された日時は、RTC1306が出力する現在日時情報から撮像装置1202とフレームバッファ1401との間のデータ転送速度等を考慮して算出することができる。また、撮像装置1202がシングルボードコンピュータを有する場合、シングルボードコンピュータが内蔵するRTCが出力する撮影日時情報を用いることができる。なお、画像データが撮影された日時に代わり、RTC1306が出力する現在日時情報でも実質的には問題ない。
 顔検出アドレス情報フィールドには、顔検出処理部1402が出力した顔検出アドレス情報P1503が格納される。
 顔検出中心点フィールドには、アドレス情報処理部1407が顔検出アドレス情報P1503を基に算出した顔検出中心点が格納される。この顔検出中心点が、被写体IDの根拠となる。
 特徴点データフィールドには、特徴点抽出部1403が生成する特徴点データが格納される。
 顔方向ベクトルフィールドには、ベクトル解析部1405が出力する顔方向ベクトルが格納される。
 視線方向ベクトルフィールドには、ベクトル解析部1405が出力する視線方向ベクトルが格納される。
 エンゲージメント値フィールドには、顔方向ベクトルと視線方向ベクトルに基づいてエンゲージメント算出部1406が算出するエンゲージメント値が格納される。
 入出力制御部1404のアドレス情報処理部1407は、顔検出アドレス情報P1503を基に算出した顔検出中心点と被写体IDを紐付ける。
 授業中あるいは講演中、被写体である生徒1207や受講者は着席しており、顔の位置が大きく動くことはあまりない。そこで入出力制御部1404は、被写体が聴講中において顔検出中心点が移動する範囲を閾値として予め定めておく。そして、顔検出中心点がその閾値の範囲内に存在するのであれば、入出力制御部1404は当該顔検出中心点を同一の被写体IDに属するものと判断する。
 顔検出中心点と被写体IDが紐付けられたら、顔検出中心点の基になった顔検出アドレス情報P1503、顔検出アドレス情報P1503の範囲内に存在する特徴点データ、その特徴点データに基づいて算出された顔方向ベクトル及び視線方向ベクトルが一意に紐付けられるので、これらをログテーブル1408の同一レコードに記録する。
 ログテーブル1408に記録された、ある被写体IDにおける顔方向ベクトル及び視線方向ベクトルは、エンゲージメント算出部1406に読み込まれ、エンゲージメント値が算出され、ログテーブル1408の同一レコードに記録される。
 エンゲージメント平均値算出部1409は、ログテーブル1408の日時情報フィールドに記録されている同一の日時情報に属する、複数のレコードのエンゲージメント値の平均値を算出する。
 入出力制御部1404は、エンゲージメント平均値算出部1409が出力したエンゲージメント値の平均値に所定の加工処理を施して、表示部1208に表示する。
 [エンゲージメント測定装置1203:表示例]
 図19は、エンゲージメント測定装置1203の入出力制御部1404によって表示部1208に表示されるモニタ画面の表示例である。
 画面下半分の表示領域A1901は、個々人のエンゲージメント値の棒グラフである。棒グラフは、例えば1秒毎、あるいは0.5秒毎にリフレッシュされ、その時点での最新のエンゲージメント値を棒グラフで表示する。そして、エンゲージメント値が66.6%以上の時は棒グラフを緑色に表示し(色P1901a)、エンゲージメント値が33.3%以上66.6%未満の時は棒グラフをオレンジ色に表示し(色P1901b)、エンゲージメント値が33.3%未満の時は棒グラフを赤色に表示する(色P1901c)。この様に、エンゲージメント値を色分けして表示することで、生徒1207のエンゲージメント値の状態を瞬時に把握することが可能になる。
 棒グラフの下に表示される数字は、生徒1207を画像データ内において一意に識別する番号である。番号は被写体IDそのものであってもよい。数字も棒グラフと同じ色で表示される。生徒1207が途中退席した場合、エンゲージメント値を測定できないエンゲージメント測定装置1203の番号は、灰色で表示される(色P1901d)。
 例えば、全ての生徒1207が授業に興味を持っている場合、欠席のエンゲージメント測定装置1203の欄を除き、全ての棒グラフが一斉に緑色に染まる。
 例えば、生徒1207の多くが授業に対する集中力を失っている場合、多くの棒グラフがオレンジ色や赤色に染まる。
 画面左上の表示領域A1902は、全てのエンゲージメント値の平均値の数値表示である。この数値も、折れ線グラフと同様の色分け表示を行う。
 画面右上の表示領域A1903は、全てのエンゲージメント値の平均値の推移を示す折れ線グラフである。横軸は時間であり、縦軸はエンゲージメント値である。折れ線グラフを設けることで、エンゲージメント値の現在値のみならず、エンゲージメント値の推移も把握できるので、講師1206は現在の講義が生徒1207達にどの程度興味を惹かれているのか、どの話題で生徒1207達の興味が惹かれたり、あるいは削がれたのかを把握することができる。
 エンゲージメント測定装置1203のログテーブル1408にログ記録されたエンゲージメント値には日時情報、すなわち絶対時間情報が含まれているので、後からエンゲージメント測定装置1203や他の情報処理装置で再生することが可能である。また、別途動画撮像装置で授業を録画しておき、動画データに録画を開始した日時情報を付加しておけば、ログテーブル1408に記録されているエンゲージメント値との同期再生も可能である。
 以上に説明した本発明の第二の実施形態は、以下のような変形例が可能である。
 (1)エンゲージメント測定システム1201に使用する撮像装置1202は、複数の被写体を撮影し、顔の特徴点データを抽出する。このため、撮像装置1202はできる限り高解像度であることが望ましく、また、撮像装置1202と被写体との距離によっては、顔の特徴点データを取得できない場合もある。そこで、エンゲージメント測定システム1201を設置する教室あるいは講堂には、撮像装置1202が撮影可能な画角及び範囲を考慮して、複数の撮像装置1202を配置する。そして、それら複数の撮像装置1202が出力する同画像データストリームを、適宜合成したり、あるいはトリミング処理を施す。その後、フレームバッファ1401に合成した画像データを格納すれば、広範囲で複数の被写体のエンゲージメント値を測定することが可能になる。
 (2)フレームバッファ1401に格納されている画像データと顔検出アドレス情報P1503を、公知の顔認識処理に処理させることで、より精緻な個人の特定が可能になる。個人の特定が精緻にできる、ということは、エンゲージメント値の算出精度も向上することが期待できる。
 (3)入出力制御部1404のエンゲージメント平均値算出部1409と表示部1208とを、例えばタブレットPC等の別の装置に実装して、相互を無線LAN等のネットワークで接続し、ネットワークを通してログテーブル1408に記録されるデータを送ることで、遠隔地でもエンゲージメント測定装置1203の表示を行うことができる。複数の表示装置にデータを送れば、複数地点での表示を行うこともできる。また、送られたデータをサーバに記録して、後から再生しても良い。これらによって、エンゲージメント測定が行われている教室1205と場所や時間が異なる、例えば事務室や遠隔地の本部や、後日でもエンゲージメント測定の結果を確認できる。
 (4)図19に示したエンゲージメント測定値の平均値は、あくまで平均値である。つまり、必ずしも撮像装置1202が教室や講堂に着席している生徒1207や聴衆の全員を撮影する必要はない。撮像装置1202の解像度でエンゲージメント値を測定可能な人数が、平均値を算出するに十分なサンプル数であればよい。
 本発明の第二の実施形態においては、エンゲージメント測定システム1201を開示した。
 エンゲージメント測定装置1203は、単一あるいは少数の撮像装置1202を用いて多数の被写体である生徒1207を撮影し、生徒1207が授業にどの程度興味を持っているかを示すエンゲージメント値を測定する。エンゲージメント測定装置1203は被写体IDと日時情報とエンゲージメント値をログテーブル1408に記録する。エンゲージメント測定装置1203は、エンゲージメント値の平均値をリアルタイムでグラフィカルに表示する。
 以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、他の変形例、応用例を含む。
 101…エンゲージメント測定システム、102…学習塾、103…講師、104…生徒、105…机、106…エンゲージメント測定装置、107…無線LANルータ、108…サーバ、109…モニタ端末、301…ノートパソコン、302…LCDディスプレイ、303…webカメラ、304…シングルボードコンピュータ、305…カメラ、401…CPU、402…ROM、403…RAM、404…不揮発性ストレージ、405…RTC、406…無線LANインターフェース、407…NIC、408…バス、409…撮像装置、501…顔検出処理部、502…特徴点抽出部、503…ベクトル解析部、504…エンゲージメント算出部、505…入出力制御部、506…ID情報、507…インターフェース選択部、601…被撮影者、701…CPU、702…ROM、703…RAM、704…表示部、705…操作部、706…不揮発性ストレージ、707…RTC、708…NIC、709…バス、801…入出力制御部、802…ログテーブル、803…入出力制御部、804…表示処理部、805…集計処理部、901…CPU、902…ROM、903…RAM、904…表示部、905…操作部、906…不揮発性ストレージ、907…RTC、908…無線LANインターフェース、909…バス、1001…入出力制御部、1002…集計処理部、1003…表示処理部、1201…エンゲージメント測定システム、1202…撮像装置、1203…エンゲージメント測定装置、1204…ケーブル、1205…教室、1206…講師、1207…生徒、1208…表示部、1301…CPU、1302…ROM、1303…RAM、1304…操作部、1305…不揮発性ストレージ、1306…RTC、1307…NIC、1308…バス、1401…フレームバッファ、1402…顔検出処理部、1403…特徴点抽出部、1404…入出力制御部、1405…ベクトル解析部、1406…エンゲージメント算出部、1407…アドレス情報処理部、1408…ログテーブル、1409…エンゲージメント平均値算出部、1501…被撮影者、1701…ベクトル加算部、1702…注視方向判定部、1703…初期補正値、1704…第一平滑化処理部、1705…第二平滑化処理部、1706…サンプル数、1707…エンゲージメント演算処理部、1708…よそ見判定部、1709…目瞑り判定部、1710…重み付け係数
 

Claims (5)

  1.  複数の被撮影者の顔を撮影可能な撮像装置と、
     前記撮像装置から動画像データストリームを受信して、前記複数の被撮影者のエンゲージメント値を測定するエンゲージメント測定装置と
    よりなるエンゲージメント測定システムであり、
     前記エンゲージメント測定装置は、
     前記撮像装置から出力される画像データストリームから1画面分の画像データを格納するフレームバッファと、
     前記フレームバッファに格納されている前記画像データから前記複数の被撮影者の顔の存在を検出し、前記複数の被撮影者の顔だけを抽出するための顔検出アドレス情報を出力する顔検出処理部と、
     前記フレームバッファに格納されている前記画像データと前記顔検出アドレス情報から、前記複数の被撮影者の顔の二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部と、
     前記特徴点データから、前記被撮影者の顔の向きを示す顔方向ベクトルを生成するベクトル解析部と、
     前記顔方向ベクトルを演算して前記被撮影者が3次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出し、前記注視方向ベクトルが所定の事象に向いているのか否かを判定し、判定結果の移動平均を算出してエンゲージメント値を出力するエンゲージメント算出部と、
     前記顔検出アドレス情報に基いて、前記画像データに含まれる前記複数の被撮影者毎に前記エンゲージメント値を算出させるべく前記エンゲージメント算出部を稼働させて、前記画像データの撮影日時情報または現在日時情報と、前記複数の被撮影者を画像データ内において一意に識別するID情報と共にログテーブルに記録する入出力制御部と、
     前記エンゲージメント値の平均値を算出するエンゲージメント平均値算出部と、
     前記複数の被撮影者の前記エンゲージメント値の平均値を表示する表示部と
    を具備する、エンゲージメント測定システム。
  2.  前記ベクトル解析部は、前記特徴点データから、前記被撮影者の顔の向きを示す顔方向ベクトルに加え、前記被撮影者の顔における視線の向きを示す視線方向ベクトルを生成するものであり、
     前記エンゲージメント算出部は、前記顔方向ベクトルに加え、前記視線方向ベクトルを加算して、前記被撮影者が3次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出するものである、
    請求項1に記載のエンゲージメント測定システム。
  3.  前記入出力制御部は、前記複数の被撮影者の前記エンゲージメント値及び前記平均値を、所定の閾値に基づいて色分け表示する、
    請求項2に記載のエンゲージメント測定システム。
  4.  複数の被撮影者のエンゲージメント値を測定する複数のエンゲージメント測定装置と、
     前記エンゲージメント測定装置から送信パケットを受信してログ記録を行うサーバと、
     前記エンゲージメント測定装置が出力する前記エンゲージメント値をリアルタイムで表示するモニタ端末と
    よりなるエンゲージメント測定システムであり、
     前記エンゲージメント測定装置は、
     被撮影者の顔を撮影可能な撮像装置と、
     前記撮像装置から出力される画像データストリームから前記被撮影者の顔の存在を検出し、前記被撮影者の顔を抽出した顔抽出画像データを出力する顔検出処理部と、
     前記顔抽出画像データから、前記被撮影者の顔の二次元空間内における座標情報を有する特徴点の集合体である特徴点データを出力する特徴点抽出部と、
     前記特徴点データから、前記被撮影者の顔の向きを示す顔方向ベクトルと、前記被撮影者の顔における視線の向きを示す視線方向ベクトルを生成する、ベクトル解析部と、
     前記顔方向ベクトルと前記視線方向ベクトルを加算して、前記被撮影者が3次元空間内の何処を注視しているのかを示す注視方向ベクトルを算出し、前記注視方向ベクトルが所定の事象に向いているのか否かを判定し、判定結果の移動平均を算出してエンゲージメント値を出力する、エンゲージメント算出部と、
     現在日時情報を出力するリアルタイムクロックと、
     前記エンゲージメント算出部が出力する前記エンゲージメント値と、前記リアルタイムクロックが出力する前記現在日時情報と、被撮影者または他のエンゲージメント測定装置との個体を一意に識別するID情報をまとめて送信パケットを生成し、前記サーバに送信する入出力制御部と
    を具備し、
     前記サーバは、
     複数の前記エンゲージメント測定装置から送信される前記送信パケットがログ記録されるログテーブルと、
     複数の前記エンゲージメント測定装置から送信される前記送信パケットを受信して、前記ログテーブルにログ記録する入出力制御部と
    を具備し、
     前記モニタ端末は、
     複数の前記エンゲージメント測定装置または前記サーバから複数の前記エンゲージメント測定装置によって生成された前記送信パケットを受信する入出力制御部と、
     前記サーバが複数の前記エンゲージメント測定装置から受信した前記送信パケットに含まれる前記エンゲージメント値の平均値を算出する集計処理部と、
     前記エンゲージメント値と前記平均値を表示する表示部と、
     前記表示部に表示する、前記エンゲージメント値と前記平均値の表示画面を形成する表示処理部と
    を具備する、エンゲージメント測定システム。
  5.  前記モニタ端末の前記表示処理部は、前記エンゲージメント値及び前記平均値を、所定の閾値に基づいて色分け表示する、
    請求項4に記載のエンゲージメント測定システム。
     
PCT/JP2017/042003 2016-11-24 2017-11-22 エンゲージメント測定システム WO2018097177A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780072255.0A CN109983779A (zh) 2016-11-24 2017-11-22 参与度测定系统
KR1020197015125A KR20190088478A (ko) 2016-11-24 2017-11-22 인게이지먼트 측정 시스템
JP2018552614A JPWO2018097177A1 (ja) 2016-11-24 2017-11-22 エンゲージメント測定システム
US16/462,487 US20190371189A1 (en) 2016-11-24 2017-11-22 Engagement measurement system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016227698 2016-11-24
JP2016-227698 2016-11-24
JP2017205034 2017-10-24
JP2017-205034 2017-10-24

Publications (1)

Publication Number Publication Date
WO2018097177A1 true WO2018097177A1 (ja) 2018-05-31

Family

ID=62195248

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/042003 WO2018097177A1 (ja) 2016-11-24 2017-11-22 エンゲージメント測定システム

Country Status (5)

Country Link
US (1) US20190371189A1 (ja)
JP (1) JPWO2018097177A1 (ja)
KR (1) KR20190088478A (ja)
CN (1) CN109983779A (ja)
WO (1) WO2018097177A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021018408A (ja) * 2019-10-18 2021-02-15 株式会社フォーサイト 学習システム、学習講義提供方法、およびプログラム
JP2022537475A (ja) * 2020-05-22 2022-08-26 ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド ビデオ処理方法及び装置、電子デバイスと記憶媒体
JP7138998B1 (ja) * 2021-08-31 2022-09-20 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11721228B2 (en) * 2018-02-28 2023-08-08 Centurylink Intellectual Property Llc Method and system for implementing AI-powered augmented reality learning devices
JP7020215B2 (ja) * 2018-03-19 2022-02-16 日本電気株式会社 余所見判定装置、余所見判定システム、余所見判定方法、プログラム
JP6844568B2 (ja) * 2018-03-27 2021-03-17 日本電気株式会社 余所見判定装置、余所見判定システム、余所見判定方法、プログラム
CN110020581B (zh) * 2018-12-03 2020-06-09 阿里巴巴集团控股有限公司 一种基于多帧脸部图像的比对方法、装置和电子设备
US11514805B2 (en) * 2019-03-12 2022-11-29 International Business Machines Corporation Education and training sessions

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013039062A1 (ja) * 2011-09-15 2013-03-21 国立大学法人大阪教育大学 顔分析装置、顔分析方法、及び記録媒体
JP2016063525A (ja) * 2014-09-22 2016-04-25 シャープ株式会社 映像表示装置及び視聴制御装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003111106A (ja) 2001-09-28 2003-04-11 Toshiba Corp 集中度取得装置並びに集中度を利用した装置及びシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013039062A1 (ja) * 2011-09-15 2013-03-21 国立大学法人大阪教育大学 顔分析装置、顔分析方法、及び記録媒体
JP2016063525A (ja) * 2014-09-22 2016-04-25 シャープ株式会社 映像表示装置及び視聴制御装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021018408A (ja) * 2019-10-18 2021-02-15 株式会社フォーサイト 学習システム、学習講義提供方法、およびプログラム
JP2022537475A (ja) * 2020-05-22 2022-08-26 ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド ビデオ処理方法及び装置、電子デバイスと記憶媒体
JP7138998B1 (ja) * 2021-08-31 2022-09-20 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2023032057A1 (ja) * 2021-08-31 2023-03-09 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム

Also Published As

Publication number Publication date
JPWO2018097177A1 (ja) 2019-10-17
CN109983779A (zh) 2019-07-05
KR20190088478A (ko) 2019-07-26
US20190371189A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
WO2018097177A1 (ja) エンゲージメント測定システム
JP6519370B2 (ja) ユーザ注意判定システム、方法及びプログラム
JP6282769B2 (ja) エンゲージメント値処理システム及びエンゲージメント値処理装置
KR101766347B1 (ko) 집중도 평가시스템
CN107851324B (zh) 信息处理系统、信息处理方法和记录介质
US9491507B2 (en) Content providing program, content providing method, and content providing apparatus
US10013889B2 (en) Method and system for enhancing interactions between teachers and students
KR101835578B1 (ko) 집중도 평가시스템
WO2018135334A1 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
KR101838792B1 (ko) 콘텐츠에 대한 사용자의 감정을 공유하는 방법 및 장치
CN111163280B (zh) 非对称性视频会议系统及其方法
US20200229699A1 (en) System Integrating Video Communication and Physical Sign Analysis
Wolff et al. Communicating eye gaze across a distance without rooting participants to the spot
TW201041383A (en) Audio/video signal control box and multimedia audio/video processing system
KR102318661B1 (ko) 현장 공간에서의 동작 인식을 통한 만족도 조사 시스템
TW201935925A (zh) 吸引度測定系統
WO2018136063A1 (en) Eye gaze angle feedback in a remote meeting
TW201826086A (zh) 互動測定系統
JP7001429B2 (ja) 関心度計測システムおよび方法
Leroy et al. 3d head pose estimation for tv setups
JP7497093B1 (ja) 情報処理装置及びプログラム
JP2021167994A (ja) 視聴効果計測装置、視聴効果計測方法及びコンピュータプログラム
WO2022248671A1 (en) Video-conference endpoint

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17873870

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018552614

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20197015125

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 17873870

Country of ref document: EP

Kind code of ref document: A1