WO2021171538A1 - 表情認識装置及び表情認識方法 - Google Patents

表情認識装置及び表情認識方法 Download PDF

Info

Publication number
WO2021171538A1
WO2021171538A1 PCT/JP2020/008247 JP2020008247W WO2021171538A1 WO 2021171538 A1 WO2021171538 A1 WO 2021171538A1 JP 2020008247 W JP2020008247 W JP 2020008247W WO 2021171538 A1 WO2021171538 A1 WO 2021171538A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
facial expression
facial
muscle
subject
Prior art date
Application number
PCT/JP2020/008247
Other languages
English (en)
French (fr)
Inventor
篤 松本
信太郎 渡邉
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2020/008247 priority Critical patent/WO2021171538A1/ja
Publication of WO2021171538A1 publication Critical patent/WO2021171538A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • This disclosure relates to a facial expression recognition device and a facial expression recognition method.
  • the facial expression recognition device described in Patent Document 1 provides time-series data for reference when each facial expression category such as anger and surprise is changed from a reference facial expression in which no particular facial expression is expressed to the relevant facial expression category. Based on this, the classifier that identifies whether or not the facial expression category is used is trained. Then, this facial expression recognition device identifies the facial expression category of the subject by inputting time-series data indicating the change of the facial expression from the reference facial expression of the subject into the classifier of each facial expression category.
  • the subject data input to the classifier is within the threshold value calculated from the average reference facial expression data used for learning the classifier. If so, it was determined that the subject had a reference facial expression. That is, conventionally, it has been determined whether or not the subject has a reference facial expression based on whether or not the subject's facial expression is close to the average reference facial expression.
  • the conventional method of recognizing the facial expression of the subject using average data has a problem of erroneously recognizing the facial expression of the subject.
  • the facial expression of a person who usually tends to wrinkle between the eyebrows and squint is mistakenly recognized as an angry facial expression.
  • a person whose facial expression is difficult to show is not recognized as a laughing facial expression because there is no difference from the average standard facial expression even if he / she thinks he / she is laughing.
  • This disclosure was made to solve the above problems, and aims to recognize facial expressions in consideration of individual differences.
  • the facial expression recognition device is based on a face detection unit that detects the facial region and each part of the face of the subject from the captured image, and the facial region and each part of the face detected by the face detection unit, for each facial muscle.
  • a facial muscle identification unit that identifies the presence or absence of movement for each facial muscle by comparing the feature extraction unit that extracts the feature amount with the feature amount for each facial muscle extracted by the feature extraction unit and each identification data, and the facial expression.
  • the identification data for facial expression muscle identification is calibrated using the feature amount when the subject has a reference facial expression, the facial expression can be recognized in consideration of individual differences.
  • FIG. It is a block diagram which shows the structural example of the facial expression recognition apparatus which concerns on Embodiment 1.
  • FIG. It is a graph which shows an example of SVM (Support Vector Machine) in the case of two-dimensional.
  • SVM Small Vector Machine
  • FIG. It is a flowchart which shows the operation example of the facial expression recognition apparatus which concerns on Embodiment 1.
  • FIG. It is a block diagram which shows the structural example of the facial expression recognition apparatus which concerns on Embodiment 2.
  • FIG. 1 is a block diagram showing a configuration example of the facial expression recognition device 10 according to the first embodiment.
  • the facial expression recognition device 10 recognizes the facial expression of the subject.
  • a vehicle occupant for example, a driver
  • This vehicle is equipped with a facial expression recognition device 10, a camera 1, an arousal level estimation device 2, and a warning device 3.
  • Camera 1 captures the inside of the vehicle including the face of the target person (hereinafter, the target person is the driver) in chronological order.
  • the camera 1 is installed on the dashboard and between the driver's seat and the passenger seat, and the optical axis of the camera 1 is set in the direction of the driver's seat.
  • the optical axis of the camera 1 may be oriented between the driver's seat and the passenger seat so that the camera 1 can capture both the driver and the passenger seat occupant.
  • the camera 1 may be installed near the steering column to capture the driver from the front.
  • the image captured by the camera 1 is input to the face detection unit 11.
  • the facial expression recognition device 10 includes a face detection unit 11, a feature extraction unit 12, a facial muscle identification unit 13, a facial expression recognition unit 14, identification data 15, calibration unit 16, and calibration data 17.
  • FACS Fluorescence Action Coding System
  • the face detection unit 11 acquires an captured image from the camera 1 and performs image processing on the captured image to detect the driver's face region and each part such as eyes, nose, and mouth.
  • the face detection unit 11 outputs the detected image of the face region and the position of each part in the image to the feature extraction unit 12.
  • the feature extraction unit 12 should be noted for identifying the presence or absence of movement of the facial muscles from the image of the face region detected by the face detection unit 11 based on the position of each part of the face detected by the face detection unit 11.
  • the area is specified, and the feature amount of the specified area is extracted.
  • the feature extraction unit 12 specifies each region corresponding to each AU, and extracts the feature amount for each of the specified regions. For example, with respect to "AU1", the feature extraction unit 12 identifies a region around the eyes from the face region based on the position of each part of the face, and from an image of the identified region, an LBP (Local Binary Pattern) feature amount or the like is obtained. Extract features.
  • LBP Local Binary Pattern
  • the feature extraction unit 12 specifies a region corresponding to the AU for each of the remaining AUs, and extracts a feature amount from the image of the specified region. Then, the feature extraction unit 12 outputs the feature amount for each AU, that is, the feature amount for each facial muscle to the facial muscle identification unit 13.
  • the facial muscle identification unit 13 identifies the presence or absence of movement for each facial muscle by comparing the feature amount for each facial muscle extracted by the feature extraction unit 12 with the identification data 15a for each facial muscle (see FIG. 2). do. Details will be described later.
  • the facial muscle identification unit 13 outputs the identification result of the presence or absence of movement for each facial muscle to the facial expression recognition unit 14.
  • the facial expression recognition device 10 holds the identification data 15 for each AU.
  • the learning of the identification data 15 and the identification of the presence or absence of the operation of the AU are performed by using a method such as SVM (Support Vector Machine).
  • FIG. 2 is a graph showing an example of SVM in the case of two dimensions.
  • "AU1" will be described by taking a two-dimensional space as an example for the sake of simplicity.
  • the vertical and horizontal axes of the graph are different types of features.
  • identification data 15 learned using feature quantities (white circles ( ⁇ ) and black circles ( ⁇ )) extracted from facial images of a plurality of subjects is set.
  • White circles ( ⁇ ) are features extracted from the face image when "AU1" is operating
  • black circles ( ⁇ ) are extracted from the face image when "AU1" is not operating and have a basic facial expression. It is a feature quantity.
  • the white triangle ( ⁇ ) and the black triangle ( ⁇ ) are the feature quantities of the driver “AU1”, which is the target person, extracted by the feature extraction unit 12.
  • the white triangle ( ⁇ ) is the feature amount when “AU1” is operating
  • the black triangle ( ⁇ ) is the feature amount when “AU1” is not operating.
  • the driver's reference facial expression and "AU1" movement are different from the average basic facial expression and "AU1" movement based on a plurality of subjects.
  • the facial muscle identification unit 13 determines that the "AU1" is operating even though the "AU1" is operating. It may be misidentified as no operation.
  • the calibration unit 16 uses the calibration data 17 which is a feature amount of the “AU1” when the driver who is the target person has a reference facial expression.
  • the identification data 15 of the "AU1” is calibrated to the identification data 15a (see FIG. 2) for identifying the presence or absence of the "AU1" operation of the driver.
  • the calibration data 17 is the time of the feature amount of the driver's "AU1” extracted from the time-series image group captured by the camera 1 when the driver who is the target person has a reference facial expression. It is series data.
  • the calibration unit 16 obtains statistical values such as an average value and a standard deviation from the time-series data of the feature amount of the driver's "AU1”, and uses the obtained statistical values to identify the average "AU1" data. By calibrating 15, the driver's "AU1" identification data 15a is obtained. For AUs other than "AU1", the calibration unit 16 calibrates the identification data 15 of each AU using the calibration data 17 of each AU, and obtains the identification data 15a of each AU.
  • the facial muscle identification unit 13 identifies the presence or absence of operation of the AU by comparing the feature amount of the AU with the identification data 15 of the AU for each of the AUs extracted by the feature extraction unit 12. In the example of FIG. 2, the facial muscle identification unit 13 compares the identification data 15a of the “AU1” calibrated by the calibration unit 16 with the feature amount of the “AU1” extracted by the feature extraction unit 12. Identify the presence or absence of the driver's "AU1" operation. For AUs other than "AU1", the facial muscle identification unit 13 compares the identification data 15a of each AU calibrated by the calibration unit 16 with the feature amount of each AU extracted by the feature extraction unit 12. Identify the presence or absence of operation of each AU of the driver. The facial muscle identification unit 13 outputs to the facial expression recognition unit 14 whether or not there is an operation for each AU, that is, whether or not there is an operation for each facial expression muscle.
  • the facial expression recognition unit 14 recognizes the driver's facial expression based on the combination of facial muscles that the facial muscle identification unit 13 has identified as operating. In FACS, the facial expression recognition unit 14 recognizes the driver's facial expression based on the combination of the AUs identified by the facial muscle identification unit 13 as operating among all the AUs. The facial expression recognition unit 14 outputs the recognized facial expression information to the alertness estimation device 2.
  • the arousal level estimation device 2 estimates the arousal level of the driver based on the facial expression of the driver recognized by the facial expression recognition unit 14.
  • the warning device 3 warns the driver based on the driver's alertness estimated by the alertness estimation device 2. For example, the warning device 3 warns the driver by sound or at least one of the displays when the driver's alertness is lower than the predetermined alertness.
  • the facial expression of the subject recognized by the facial expression recognition device 10 was used for determining the necessity of warning, but the application of the facial expression recognition device 10 is not limited to this example.
  • FIG. 3 is a flowchart showing an operation example of the facial expression recognition device 10 according to the first embodiment.
  • the facial expression recognition device 10 starts the operation shown in the flowchart of FIG. 3 when the power is supplied, and ends the operation shown in the flowchart of FIG. 3 when the power supply is stopped.
  • step ST1 the calibration unit 16 calibrates the average identification data 15 for each facial muscle using the calibration data 17, which is a feature amount for each facial muscle when the subject has a reference facial expression. .. It is assumed that the identification data 15 and the calibration data 17 are given to the facial expression recognition device 10 in advance.
  • step ST2 the face detection unit 11 detects the face region of the target person and each part of the face from the image captured by the camera 1.
  • step ST3 the feature extraction unit 12 extracts the feature amount for each facial muscle of the subject based on the face region of the subject and each part of the face detected by the face detection unit 11.
  • step ST4 the facial muscle identification unit 13 compares the feature amount for each facial muscle of the subject extracted by the feature extraction unit 12 with the identification data 15a for each facial muscle calibrated by the calibration unit 16 in step ST1. By doing so, it is possible to identify the presence or absence of movement for each facial muscle of the subject.
  • step ST5 the facial expression recognition unit 14 recognizes the facial expression of the subject based on the combination of facial expression muscles identified by the facial expression muscle identification unit 13 as operating, and transfers the recognized facial expression information to the alertness estimation device 2. Output.
  • the facial expression recognition device 10 includes a face detection unit 11, a feature extraction unit 12, a facial muscle identification unit 13, a facial expression recognition unit 14, and a calibration unit 16.
  • the face detection unit 11 detects the face region of the subject and each part of the face from the captured image.
  • the feature extraction unit 12 extracts the feature amount for each facial muscle based on the face region and each part of the face detected by the face detection unit 11.
  • the facial muscle identification unit 13 identifies the presence or absence of movement for each facial muscle by comparing the feature amount for each facial muscle extracted by the feature extraction unit 12 with the identification data 15.
  • the facial expression recognition unit 14 recognizes the facial expression of the subject based on the combination of facial muscles that the facial muscle identification unit 13 has identified as operating.
  • the calibration unit 16 calibrates each identification data 15 by using the feature amount (calibration data 17) for each facial muscle when the subject has a reference facial expression.
  • the facial expression recognition device 10 calibrates the identification data 15 for facial expression muscle identification using the feature amount when the subject has a reference facial expression, so that individual differences are taken into consideration. Can recognize facial expressions.
  • the facial expression recognition device 10 is provided with calibration data 17 for each facial muscle when the subject has a reference facial expression in advance.
  • the facial expression recognition device 10 acquires and accumulates calibration data 17 for each facial muscle at the timing when the subject has a reference facial expression.
  • FIG. 4 is a block diagram showing a configuration example of the facial expression recognition device 10 according to the second embodiment.
  • the facial expression recognition device 10 according to the second embodiment has a storage unit 18, a storage timing adjustment unit 19, an external light determination unit 20, and an eye opening degree acquisition with respect to the facial expression recognition device 10 of the first embodiment shown in FIG.
  • the configuration is such that a unit 21, a conversation determination unit 22, a stress determination unit 23, and a vehicle information acquisition unit 24 are added.
  • the facial expression recognition device 10 recognizes the facial expression of the occupant (for example, the driver) of the vehicle will be described as in the first embodiment.
  • the vehicle is equipped with a microphone 31, a navigation device 32, an external camera 33, and an on-board unit 34.
  • a microphone 31 the same or corresponding parts as those in FIG. 1 are designated by the same reference numerals, and the description thereof will be omitted.
  • the target person will be the driver of the vehicle.
  • the storage unit 18 stores the feature amount for each facial muscle when the driver has a reference facial expression as calibration data 17 for each facial muscle.
  • the accumulation timing adjustment unit 19 adjusts the accumulation timing for accumulating the feature amount for each facial muscle of the driver extracted by the feature extraction unit 12 in the accumulation unit 18 as calibration data 17.
  • the accumulation timing adjusting unit 19 determines whether or not the accumulation timing is at least one of the external light determination unit 20, the eye opening degree acquisition unit 21, the conversation determination unit 22, the stress determination unit 23, and the vehicle information acquisition unit 24. Judgment is based on the information from.
  • the microphone 31 acquires the voice emitted by the target person.
  • the voice information acquired by the microphone 31 is input to the conversation determination unit 22.
  • the navigation device 32 inputs traffic congestion information around the vehicle into the stress determination unit 23.
  • the vehicle outside camera 33 images the surroundings of the vehicle and inputs the captured image to the stress determination unit 23.
  • the vehicle-mounted device 34 inputs information on the vehicle being driven by the driver, such as steering angle, vehicle speed, acceleration, brake, and horn, to the vehicle information acquisition unit 24 as vehicle information.
  • the external light determination unit 20 acquires an image of the face region from the face detection unit 11, and determines the presence or absence of external light irradiating the driver's face based on the brightness information of the acquired image.
  • the outside light is direct sunlight, a high beam of an oncoming vehicle, or the like.
  • the external light determination unit 20 outputs the determination result of the presence or absence of external light to the accumulation timing adjustment unit 19.
  • the eye opening degree acquisition unit 21 acquires an image of the face region from the face detection unit 11, and acquires the eye opening degree indicating the degree of opening of the driver's eyes from the acquired image.
  • the eye opening degree acquisition unit 21 outputs the acquired eye opening degree to the accumulation timing adjusting unit 19.
  • the conversation determination unit 22 determines whether or not the driver is talking by the following method.
  • the conversation determination unit 22 outputs the determination result of the presence or absence of conversation to the accumulation timing adjustment unit 19.
  • the conversation determination unit 22 acquires an image of the face region from the face detection unit 11, acquires the degree of opening of the driver's mouth from the acquired image, and the driver talks based on the degree of opening of the mouth. Judge whether or not.
  • the conversation determination unit 22 acquires voice information from the microphone 31 and determines whether or not the driver is talking based on the acquired voice information.
  • the conversation determination unit 22 may determine the presence or absence of conversation using either the degree of mouth opening or voice information, or determine the presence or absence of conversation using both the degree of mouth opening and voice information. You may.
  • the stress determination unit 23 determines whether or not the driver is in a stress state by the following method.
  • the stress determination unit 23 outputs the stress state determination result to the accumulation timing adjustment unit 19.
  • the stress determination unit 23 acquires traffic congestion information around the vehicle from the navigation device 32, and determines that the driver is under stress when the vehicle is involved in the traffic congestion.
  • the stress determination unit 23 may acquire an image of the surroundings of the vehicle from the camera outside the vehicle 33 and determine whether or not the vehicle is involved in a traffic jam based on the acquired image.
  • the stress determination unit 23 acquires vehicle information from the vehicle information acquisition unit 24, and is based on at least one of the horn operation information, the steering angle information, and the brake operation information included in the acquired vehicle information.
  • the stress determination unit 23 determines that it is difficult for the driver to drive the vehicle, for example, when the horn is operated, when the steering angle changes significantly in a short time, or when the brake is frequently operated. judge. Then, when the stress determination unit 23 determines that the traffic condition is difficult for the driver to drive the vehicle, the stress determination unit 23 determines that the driver is under stress.
  • the stress determination unit 23 may determine the presence or absence of stress generation using any one of the traffic jam information, the captured image, and the vehicle information, and all of the traffic jam information, the captured image, and the vehicle information. May be used to determine the presence or absence of stress generation.
  • the vehicle information acquisition unit 24 acquires vehicle information from the on-board unit 34 and outputs the acquired vehicle information to the accumulation timing adjustment unit 19 and the stress determination unit 23.
  • FIG. 5 is a flowchart showing an operation example of the facial expression recognition device 10 according to the second embodiment.
  • step ST11 the accumulation timing adjusting unit 19 determines whether or not it is the accumulation timing.
  • the accumulation timing adjusting unit 19 sets the accumulation timing from the time when the face detection unit 11 starts detecting the face region to the time when a predetermined time (for example, 20 seconds) has elapsed.
  • the time when the face detection unit 11 starts detecting the face area is the time when the driver who is the target person gets on the vehicle, and there is a high possibility that the driver has a reference facial expression before the start of driving.
  • the accumulation timing adjusting unit 19 is within a predetermined range of the acceleration of the vehicle based on the vehicle information acquired from the vehicle information acquisition unit 24.
  • the accumulation timing is defined as at least one of the cases or the case where the steering angle is within a predetermined range.
  • the vehicle is traveling straight at a legal speed, it is highly possible that the driver has a standard facial expression because the traffic condition is such that the driver can easily drive the vehicle.
  • the vehicle is changing lanes, or if the vehicle is suddenly accelerating or decelerating, it is possible that the driver does not have a standard expression because it is difficult for the driver to drive the vehicle. Is high.
  • the accumulation timing adjusting unit 19 excludes the case where the driver's face is irradiated with the external light from the accumulation timing based on the determination result of the presence or absence of the external light acquired from the external light determination unit 20.
  • the driver's face is exposed to direct sunlight or the high beam of an oncoming vehicle, it is highly possible that the driver does not have a standard facial expression by squinting.
  • the accumulation timing adjusting unit 19 excludes the case where the driver closes the eyes from the accumulation timing based on the eye opening degree acquired from the eye opening degree acquisition unit 21. If the driver has his eyes closed, it is highly possible that the driver does not have a standard facial expression, such as feeling drowsy.
  • the accumulation timing adjustment unit 19 excludes the case where the driver is having a conversation from the accumulation timing based on the determination result of the presence or absence of conversation acquired from the conversation determination unit 22. It is highly likely that the driver does not have a standard facial expression during the conversation.
  • the accumulation timing adjusting unit 19 excludes the case where the driver is in the stress state from the accumulation timing based on the stress state determination result acquired from the stress determination unit 23. It is highly likely that the driver does not have a standard facial expression while feeling stressed.
  • the accumulation timing adjusting unit 19 determines the presence or absence of a passenger from the image captured by the camera 1, and excludes the case where there is a passenger from the accumulation timing. If there is a passenger in the car, it is highly possible that the driver does not have a standard facial expression, such as talking with the passenger.
  • step ST11 “YES”) the accumulation timing adjusting unit 19 stores the feature amount for each facial muscle extracted by the feature extraction unit 12 in step ST3 in the flowchart of FIG. 3 as calibration data 17. It is accumulated in 18 (step ST12). On the other hand, when it is not the accumulation timing (step ST11 “NO”), the accumulation timing adjusting unit 19 repeats the operation of step ST11.
  • step ST1 shown in the flowchart of FIG. 3 the calibration unit 16 of the second embodiment uses the calibration data 17 stored in the storage unit 18 to use the predetermined identification data 15 for the driver. Calibrate to the identification data 15a.
  • the accumulation timing adjusting unit 19 extracts the feature extraction unit 12 at the accumulation timing each time the driver gets on the vehicle, regardless of whether or not the calibration data 17 is accumulated in the accumulation unit 18.
  • the feature amount for each facial muscle may be stored in the storage unit 18 as calibration data 17 when the driver has a reference facial expression.
  • the calibration unit 16 uses the calibration data 17 accumulated in the storage unit 18 when the driver has previously boarded the vehicle to display the identification data 15 immediately after the driver gets on the vehicle. Can be calibrated. Therefore, the facial muscle identification unit 13 can identify whether or not the facial muscle is operating using the calibrated identification data 15a immediately after the driver gets into the vehicle. Further, since the calibration unit 16 can calibrate the identification data 15 using a large amount of calibration data 17 accumulated in the storage unit 18, the identification accuracy of the facial muscle identification unit 13 is improved.
  • the facial expression recognition device 10 includes a storage unit 18 and a storage timing adjusting unit 19.
  • the accumulating unit 18 accumulates the feature amount for each facial muscle when the subject has a reference facial expression.
  • the accumulation timing adjusting unit 19 uses the feature amount for each facial muscle extracted by the feature extraction unit 12 as a feature amount for each facial muscle (calibration data 17) when the subject has a reference facial expression in the storage unit 18. Adjust the accumulation timing to accumulate.
  • the facial expression recognition device 10 can accumulate calibration data 17 for each facial muscle when performing a reference facial expression, and it is not necessary to prepare calibration data 17 in advance.
  • the facial expression recognition device 10 assumes that there are a plurality of facial expression recognition targets, and accumulates calibration data 17 for each target person.
  • there are multiple people to be recognized for facial expressions there are multiple occupants sitting in the driver's seat of the vehicle, such as when a family member shares one vehicle, and occupants in the driver's seat and passenger's seat. For example, when recognizing the facial expressions of two people at once.
  • FIG. 6 is a block diagram showing a configuration example of the facial expression recognition device 10 according to the third embodiment.
  • the facial expression recognition device 10 according to the third embodiment has a configuration in which the personal recognition unit 25 is added to the facial expression recognition device 10 of the second embodiment shown in FIG.
  • the same or corresponding parts as those in FIG. 4 are designated by the same reference numerals, and the description thereof will be omitted.
  • the personal recognition unit 25 acquires an image of the face area from the face detection unit 11 and recognizes the target person from the acquired image.
  • the individual recognition unit 25 outputs the recognized target person information to the calibration unit 16 and the accumulation timing adjustment unit 19.
  • the accumulation timing adjusting unit 19 links the calibration data 17, which is the feature amount for each facial muscle extracted by the feature extraction unit 12 at the accumulation timing, with the information of the target person recognized by the personal recognition unit 25, and the accumulation unit 18 Accumulate in.
  • the calibration unit 16 acquires the calibration data 17 associated with the target person's information that matches the target person's information recognized by the personal recognition unit 25 from the storage unit 18, and acquires the calibration data 17 from the storage unit 18.
  • the identification data 15 is calibrated using the data 17.
  • the facial expression recognition device 10 includes an individual recognition unit 25 that recognizes the target person.
  • the storage unit 18 accumulates the feature amount (calibration data 17) for each facial muscle when the target person has a reference facial expression for each target person recognized by the individual recognition unit 25.
  • the facial expression recognition device 10 can recognize the facial expression of the target person in consideration of individual differences even when there are a plurality of target persons for facial expression recognition.
  • FIG. 7 and 8 are diagrams showing a hardware configuration example of the facial expression recognition device 10 according to each embodiment.
  • the identification data 15 and the calibration data 17 in the facial expression recognition device 10 are stored in the memory 102.
  • the function of the storage unit 18 in the facial expression recognition device 10 is realized by the memory 102.
  • the functions of the unit 22, the stress determination unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25 are realized by the processing circuit. That is, the facial expression recognition device 10 includes a processing circuit for realizing the above functions.
  • the processing circuit may be a processing circuit 100 as dedicated hardware, or may be a processor 101 that executes a program stored in the memory 102.
  • the processing circuit 100 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). ), FPGA (Field Processor Gate Array), or a combination thereof. Face detection unit 11, feature extraction unit 12, facial expression muscle identification unit 13, facial expression recognition unit 14, calibration unit 16, accumulation timing adjustment unit 19, external light determination unit 20, eye opening degree acquisition unit 21, conversation determination unit 22, stress determination The functions of the unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25 may be realized by a plurality of processing circuits 100, or the functions of each unit may be collectively realized by one processing circuit 100. Further, the identification data 15 and the calibration data 17 may be stored in the processing circuit 100 instead of the memory 102.
  • the processing circuit is the processor 101
  • the functions of the determination unit 20, the eye opening degree acquisition unit 21, the conversation determination unit 22, the stress determination unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25 are realized by software, firmware, or a combination of software and firmware. ..
  • the software or firmware is described as a program and stored in the memory 102.
  • the processor 101 realizes the functions of each part by reading and executing the program stored in the memory 102. That is, the facial expression recognition device 10 includes a memory 102 for storing a program in which the step shown in the flowchart of FIG.
  • this program includes face detection unit 11, feature extraction unit 12, facial expression muscle identification unit 13, facial expression recognition unit 14, calibration unit 16, accumulation timing adjustment unit 19, external light determination unit 20, eye opening degree acquisition unit 21, and conversation. It can also be said that the computer is made to execute the procedure or method of the determination unit 22, the stress determination unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25.
  • the processor 101 is a CPU (Central Processing Unit), a processing device, an arithmetic unit, a microprocessor, or the like.
  • the memory 102 may be a non-volatile or volatile semiconductor memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), an EPROM (Erasable Program ROM), or a flash memory, and may be a non-volatile or volatile semiconductor memory such as a hard disk or a flexible disk. It may be an optical disc such as a CD (Compact Disc) or a DVD (Digital Versaille Disc).
  • Some of the functions of the stress determination unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25 may be realized by dedicated hardware, and some may be realized by software or firmware.
  • the processing circuit in the facial expression recognition device 10 can realize the above-mentioned functions by hardware, software, firmware, or a combination thereof.
  • the functions of the external light determination unit 20, the eye opening degree acquisition unit 21, the conversation determination unit 22, the stress determination unit 23, the vehicle information acquisition unit 24, and the personal recognition unit 25 are integrated into the facial expression recognition device 10 mounted on the vehicle.
  • the configuration may be distributed among server devices on the network, mobile terminals such as smartphones, and in-vehicle devices.
  • the in-vehicle device when a facial expression recognition system is constructed by an in-vehicle device and a server device that perform wireless communication, the in-vehicle device includes a face detection unit 11, a feature extraction unit 12, an accumulation timing adjustment unit 19, an external light determination unit 20, and an eye opening.
  • a degree acquisition unit 21, a conversation determination unit 22, a stress determination unit 23, a vehicle information acquisition unit 24, and an individual recognition unit 25 are provided, and a server device includes a facial muscle identification unit 13, a facial expression recognition unit 14, identification data 15, and calibration.
  • a unit 16, calibration data 17, and a storage unit 18 are provided.
  • the use of the facial expression recognition device 10 for recognizing the facial expression of the occupant of the vehicle has been described, but the use is not limited to this use.
  • FACS is used for facial expression recognition of the subject, but other methods may be used.
  • the facial expression recognition device takes into consideration individual differences in facial expression expression, it is suitable for use in a facial expression recognition device that recognizes the facial expression of a subject.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Traffic Control Systems (AREA)

Abstract

顔検出部(11)は、撮像画像から対象者の顔領域及び顔の各部位を検出する。特徴抽出部(12)は、顔検出部(11)が検出した顔領域及び顔の各部位に基づき、表情筋ごとの特徴量を抽出する。表情筋識別部(13)は、特徴抽出部(12)が抽出した表情筋ごとの特徴量と各識別用データ(15)とを比較することによって、表情筋ごとの動作有無を識別する。表情認識部(14)は、表情筋識別部(13)が動作していると識別した表情筋の組み合わせに基づいて対象者の表情を認識する。較正部(16)は、対象者が基準表情をしているときの表情筋ごとの特徴量である各較正用データ(17)を用いて、各識別用データ(15)を較正する。

Description

表情認識装置及び表情認識方法
 本開示は、表情認識装置及び表情認識方法に関するものである。
 従来、対象者の表情を認識する技術が提案されている。例えば特許文献1に記載されている表情認識装置は、怒り及び驚き等の各表情カテゴリについて、特段の表情が表出していない基準表情から当該表情カテゴリへ変化したときの参照用の時系列データに基づいて、当該表情カテゴリであるか否かを識別する識別器を学習させる。そして、この表情認識装置は、対象者の基準表情からの表情の変化を示す時系列データを、各表情カテゴリの識別器に入力することによって、当該対象者の表情カテゴリを識別する。
 特許文献1に記載されているような従来の表情認識装置は、識別器に入力された対象者のデータが、識別器の学習に使用された平均的な基準表情のデータから算出された閾値以内であれば、当該対象者が基準表情をしていると判定していた。つまり、従来は、対象者の表情が平均的な基準表情に近いかどうかで、対象者が基準表情をしているか否かを判定していた。
特開2013-3706号公報
 基準表情及び表情表出の仕方には個人差があるため、平均的なデータを使って対象者の表情を認識する従来の方法では、対象者の表情を誤認識するという課題があった。例えば、通常眉間にしわをよせて目を細める傾向のある人(言い換えると基準表情が怖い顔の人)の表情は、怒っている表情であると誤認識されてしまう。逆に、表情が表に出にくい人は、本人が笑っているつもりでも、平均的な基準表情との差がないために笑っている表情と認識されない。
 本開示は、上記のような課題を解決するためになされたもので、個人差を考慮して表情を認識することを目的とする。
 本開示に係る表情認識装置は、撮像画像から対象者の顔領域及び顔の各部位を検出する顔検出部と、顔検出部が検出した顔領域及び顔の各部位に基づき、表情筋ごとの特徴量を抽出する特徴抽出部と、特徴抽出部が抽出した表情筋ごとの特徴量と各識別用データとを比較することによって、表情筋ごとの動作有無を識別する表情筋識別部と、表情筋識別部が動作していると識別した表情筋の組み合わせに基づいて対象者の表情を認識する表情認識部と、対象者が基準表情をしているときの表情筋ごとの特徴量を用いて各識別用データを較正する較正部とを備えるものである。
 本開示によれば、対象者が基準表情をしているときの特徴量を用いて、表情筋識別用の識別用データを較正するようにしたので、個人差を考慮して表情を認識できる。
実施の形態1に係る表情認識装置の構成例を示すブロック図である。 2次元の場合のSVM(Support Vector Machine)の一例を示すグラフである。 実施の形態1に係る表情認識装置の動作例を示すフローチャートである。 実施の形態2に係る表情認識装置の構成例を示すブロック図である。 実施の形態2に係る表情認識装置の動作例を示すフローチャートである。 実施の形態3に係る表情認識装置の構成例を示すブロック図である。 各実施の形態に係る表情認識装置のハードウェア構成の一例を示す図である。 各実施の形態に係る表情認識装置のハードウェア構成の別の例を示す図である。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る表情認識装置10の構成例を示すブロック図である。表情認識装置10は、対象者の表情を認識するものである。実施の形態1では、表情認識装置10が車両の乗員(例えば、運転者)の表情を認識する例を説明する。この車両には、表情認識装置10、カメラ1、覚醒度推定装置2、及び警告装置3が搭載されている。
 カメラ1は、対象者(以下、対象者を運転者とする)の顔を含む車内を、時系列で撮像する。例えば、ダッシュボード上かつ運転席と助手席との間にカメラ1が設置され、カメラ1の光軸が運転席の方向に設定されている。または、カメラ1が運転者と助手席乗員の両方を撮像できるように、カメラ1の光軸が運転席と助手席との間に向いていてもよい。または、カメラ1がステアリングコラム付近に設置され、運転者を正面から撮像する構成でもよい。カメラ1が撮像した画像は、顔検出部11に入力される。
 表情認識装置10は、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、識別用データ15、較正部16、及び較正用データ17を備える。
 ここでは、表情認識装置10がFACS(Facial Action Coding System)を用いて対象者の表情を認識する例を説明する。FACSとは、表情が表出するときに作用する表情筋の動きをAU(Action Unit)として体系的に分類したものであり、AUを組み合わせることで様々な表情を表現するものである。例えば、「AU1」は「内眉が上がる」という表情筋の動作であり、「AU2」は「外眉が上がる」という表情筋の動作である。動作していると識別されたAUの組み合わせが、例えば「AU1」、「AU2」、「AU5」、及び「AU26」である場合、この組み合わせに対応する表情は「驚き」である。
 顔検出部11は、撮像画像をカメラ1から取得し、撮像画像に対する画像処理を行って運転者の顔領域、並びに、目、鼻及び口等の各部位を検出する。顔検出部11は、検出した顔領域の画像と、当該画像における各部位の位置とを、特徴抽出部12へ出力する。
 特徴抽出部12は、顔検出部11が検出した顔の各部位の位置に基づいて、顔検出部11が検出した顔領域の画像の中から、表情筋の動作有無識別のために注目すべき領域を特定し、特定した領域の特徴量を抽出する。FACSにおいては、特徴抽出部12は、各AUに対応する各領域を特定し、特定した領域それぞれについての特徴量を抽出する。例えば「AU1」に関して、特徴抽出部12は、顔の各部位の位置に基づいて顔領域の中から目周辺の領域を特定し、特定した領域の画像からLBP(Local Binary Pattern)特徴量等の特徴量を抽出する。特徴抽出部12は、「AU1」と同様に、残りのAUそれぞれに関しても、AUに対応する領域を特定し、特定した領域の画像から特徴量を抽出する。そして、特徴抽出部12は、AUごとの特徴量、つまり表情筋ごとの特徴量を、表情筋識別部13へ出力する。
 表情筋識別部13は、特徴抽出部12が抽出した表情筋ごとの特徴量と、表情筋ごとの識別用データ15a(図2参照)とを比較することによって、表情筋ごとの動作有無を識別する。詳細は後述する。表情筋識別部13は、表情筋ごとの動作有無の識別結果を表情認識部14へ出力する。
 FACSにおいては、表情認識装置10は、AUごとの識別用データ15を保持している。識別用データ15の学習及びAUの動作有無の識別は、SVM(Support Vector Machine)等の方法を用いて行われる。
 図2は、2次元の場合のSVMの一例を示すグラフである。ここでは、「AU1」について、説明を簡単にするために2次元空間を例に挙げて説明する。グラフの縦軸及び横軸は、種類の異なる特徴量である。図2の2次元空間には、複数の被験者の顔画像から抽出された特徴量(白丸(○)及び黒丸(●))を用いて学習された識別用データ15が、設定されている。白丸(〇)は「AU1」が動作しているときの顔画像から抽出された特徴量であり、黒丸(●)は「AU1」が動作していない基本表情のときの顔画像から抽出された特徴量である。
 先立って説明したように、基準表情及び表情表出の仕方には個人差があり、基準表情が無表情の人もいれば怒っているような表情の人等もいる。図2において、白三角(△)及び黒三角(▲)は、特徴抽出部12が抽出した、対象者である運転者の「AU1」の特徴量である。白三角(△)は「AU1」が動作しているときの特徴量であり、黒三角(▲)は「AU1」が動作していない基本表情のときの特徴量である。図2に示されるように、運転者の基準表情及び「AU1」動作の仕方は、複数の被験者に基づく平均的な基本表情及び「AU1」動作の仕方と異なっている。そのため、表情筋識別部13は、平均的な識別用データ15を用いてこの運転者の「AU1」の動作有無を識別すると、「AU1」が動作しているにもかかわらず、「AU1」の動作無しと誤識別する場合がある。
 そこで、実施の形態1の表情認識装置10においては、較正部16が、対象者である運転者が基準表情をしているときの「AU1」の特徴量である較正用データ17を用いて、「AU1」の識別用データ15を、この運転者の「AU1」動作有無を識別するための識別用データ15a(図2参照)に較正する。例えば、較正用データ17は、対象者である運転者が基準表情をしているときにカメラ1により撮像された時系列の画像群から抽出された、運転者の「AU1」の特徴量の時系列データである。較正部16は、この運転者の「AU1」の特徴量の時系列データについて平均値及び標準偏差等の統計値を求め、求めた統計値を用いて、平均的な「AU1」の識別用データ15を較正することによって、運転者の「AU1」の識別用データ15aを得る。較正部16は、「AU1」以外のAUについても、各AUの較正用データ17を用いて各AUの識別用データ15を較正し、各AUの識別用データ15aを得る。
 表情筋識別部13は、特徴抽出部12が抽出したAUのそれぞれについて、AUの特徴量とこのAUの識別用データ15とを比較することによってこのAUの動作有無を識別する。図2の例においては、表情筋識別部13は、較正部16が較正した「AU1」の識別用データ15aと、特徴抽出部12が抽出した「AU1」の特徴量とを比較することによって、運転者の「AU1」の動作有無を識別する。表情筋識別部13は、「AU1」以外のAUについても、較正部16が較正した各AUの識別用データ15aと、特徴抽出部12が抽出した各AUの特徴量とを比較することによって、運転者の各AUの動作有無を識別する。表情筋識別部13は、AUごとの動作有無、つまり表情筋ごとの動作有無を、表情認識部14へ出力する。
 表情認識部14は、表情筋識別部13が動作していると識別した表情筋の組み合わせに基づいて、運転者の表情を認識する。FACSにおいては、表情認識部14は、全AUのうち、表情筋識別部13が動作していると識別したAUの組み合わせに基づいて、運転者の表情を認識する。表情認識部14は、認識した表情の情報を、覚醒度推定装置2へ出力する。
 覚醒度推定装置2は、表情認識部14が認識した運転者の表情に基づき、運転者の覚醒度を推定する。警告装置3は、覚醒度推定装置2が推定した運転者の覚醒度に基づき、運転者に対して警告を行う。例えば、警告装置3は、運転者の覚醒度が予め定められた覚醒度より低い場合、音又は表示の少なくとも一方により、運転者に対して警告を行う。
 なお、図1の例では、表情認識装置10が認識した対象者の表情を警告の要否判定に用いたが、表情認識装置10の用途はこの例に限定されない。
 図3は、実施の形態1に係る表情認識装置10の動作例を示すフローチャートである。表情認識装置10は、例えば、電源が供給されると図3のフローチャートに示される動作を開始し、電源供給が停止されると図3のフローチャートに示される動作を終了する。
 ステップST1において、較正部16は、対象者が基準表情をしているときの表情筋ごとの特徴量である較正用データ17を用いて、表情筋ごとの平均的な識別用データ15を較正する。識別用データ15及び較正用データ17は、表情認識装置10に対して予め与えられているものとする。
 ステップST2において、顔検出部11は、カメラ1が撮像した画像から、対象者の顔領域及び顔の各部位を検出する。ステップST3において、特徴抽出部12は、顔検出部11が検出した対象者の顔領域及び顔の各部位に基づき、対象者の表情筋ごとの特徴量を抽出する。
 ステップST4において、表情筋識別部13は、特徴抽出部12が抽出した対象者の表情筋ごとの特徴量と、較正部16がステップST1で較正した表情筋ごとの識別用データ15aとを比較することによって、対象者の表情筋ごとの動作有無を識別する。ステップST5において、表情認識部14は、表情筋識別部13が動作していると識別した表情筋の組み合わせに基づいて対象者の表情を認識し、認識した表情の情報を覚醒度推定装置2へ出力する。
 以上のように、実施の形態1に係る表情認識装置10は、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、及び較正部16を備える。顔検出部11は、撮像画像から対象者の顔領域及び顔の各部位を検出する。特徴抽出部12は、顔検出部11が検出した顔領域及び顔の各部位に基づき、表情筋ごとの特徴量を抽出する。表情筋識別部13は、特徴抽出部12が抽出した表情筋ごとの特徴量と各識別用データ15とを比較することによって、表情筋ごとの動作有無を識別する。表情認識部14は、表情筋識別部13が動作していると識別した表情筋の組み合わせに基づいて対象者の表情を認識する。較正部16は、対象者が基準表情をしているときの表情筋ごとの特徴量(較正用データ17)を用いて、各識別用データ15を較正する。このように、表情認識装置10は、対象者が基準表情をしているときの特徴量を用いて、表情筋識別用の識別用データ15を較正するようにしたので、個人差を考慮して表情を認識できる。
実施の形態2.
 実施の形態1では、表情認識装置10に対して、対象者が基準表情をしているときの表情筋ごとの較正用データ17が予め与えられていた。実施の形態2では、表情認識装置10が、対象者が基準表情をしているタイミングで、表情筋ごとの較正用データ17を取得して蓄積する。
 図4は、実施の形態2に係る表情認識装置10の構成例を示すブロック図である。実施の形態2に係る表情認識装置10は、図1に示された実施の形態1の表情認識装置10に対して、蓄積部18、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、及び車両情報取得部24が追加された構成である。また、実施の形態2でも、実施の形態1と同様に、表情認識装置10が車両の乗員(例えば、運転者)の表情を認識する例を説明する。車両には、覚醒度推定装置2、及び警告装置3に加え、マイク31、ナビゲーション装置32、車外カメラ33、及び車載器34が搭載されている。図4において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。以下では、対象者を、車両の運転者とする。
 蓄積部18は、運転者が基準表情をしているときの表情筋ごとの特徴量を、表情筋ごとの較正用データ17として蓄積する。
 蓄積タイミング調整部19は、特徴抽出部12が抽出した運転者の表情筋ごとの特徴量を、較正用データ17として蓄積部18に蓄積させる蓄積タイミングを調整する。蓄積タイミング調整部19は、蓄積タイミングであるか否かを、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、及び車両情報取得部24のうちの少なくとも1つからの情報に基づいて判定する。
 マイク31は、対象者が発する音声を取得する。マイク31が取得した音声情報は、会話判定部22に入力される。
 ナビゲーション装置32は、車両周辺の渋滞情報をストレス判定部23に入力する。
 車外カメラ33は、車両周辺を撮像し、撮像した画像をストレス判定部23に入力する。
 車載器34は、操舵角、車速、加速度、ブレーキ、及びクラクション等の運転者が運転している車両の情報を、車両情報として車両情報取得部24へ入力する。
 外光判定部20は、顔検出部11から顔領域の画像を取得し、取得した画像の輝度情報に基づいて、運転者の顔に照射される外光の有無を判定する。車両の場合、外光は、直射日光及び対向車のハイビーム等である。外光判定部20は、外光の有無の判定結果を蓄積タイミング調整部19へ出力する。
 開眼度取得部21は、顔検出部11から顔領域の画像を取得し、取得した画像から、運転者の目の開き度合を示す開眼度を取得する。開眼度取得部21は、取得した開眼度を蓄積タイミング調整部19へ出力する。
 会話判定部22は、下記の方法によって運転者が会話しているか否かを判定する。会話判定部22は、会話の有無の判定結果を蓄積タイミング調整部19へ出力する。
 例えば、会話判定部22は、顔検出部11から顔領域の画像を取得し、取得した画像から、運転者の口の開き度合を取得し、口の開き度合に基づいて運転者が会話しているか否かを判定する。
 また、例えば、会話判定部22は、マイク31から音声情報を取得し、取得した音声情報に基づいて、運転者が会話しているか否かを判定する。
 なお、会話判定部22は、口の開き度合又は音声情報のいずれか一方を用いて会話の有無を判定してもよいし、口の開き度合及び音声情報の両方を用いて会話の有無を判定してもよい。
 ストレス判定部23は、下記の方法によって運転者がストレス状態であるか否かを判定する。ストレス判定部23は、ストレス状態の判定結果を蓄積タイミング調整部19へ出力する。
 例えば、ストレス判定部23は、ナビゲーション装置32から車両周辺の渋滞情報を取得し、車両が渋滞に巻き込まれている場合に運転者にストレスが発生していると判定する。ストレス判定部23は、車外カメラ33から車両周辺の撮像画像を取得し、取得した撮像画像に基づいて車両が渋滞に巻き込まれているか否かを判定してもよい。
 また、例えば、ストレス判定部23は、車両情報取得部24から車両情報を取得し、取得した車両情報に含まれるクラクション操作情報、操舵角情報、又はブレーキ操作情報のうちの少なくとも1つの情報に基づいて運転者が車両を運転しにくい交通状況であるか否かを判定する。ストレス判定部23は、例えば、クラクションが操作された場合、操舵角が短時間に大きく変化した場合、又はブレーキが頻繁に操作された場合に、運転者が車両を運転しにくい交通状況であると判定する。そして、ストレス判定部23は、運転者が車両を運転しにくい交通状況であると判定した場合、運転者にストレスが発生していると判定する。
 なお、ストレス判定部23は、渋滞情報、撮像画像、又は車両情報のうちのいずれか1つを用いてストレス発生の有無を判定してもよいし、渋滞情報、撮像画像、及び車両情報の全てを用いてストレス発生の有無を判定してもよい。
 車両情報取得部24は、車載器34から車両情報を取得し、取得した車両情報を蓄積タイミング調整部19及びストレス判定部23へ出力する。
 図5は、実施の形態2に係る表情認識装置10の動作例を示すフローチャートである。
 ステップST11において、蓄積タイミング調整部19は、蓄積タイミングであるか否かを判定する。
 例えば、蓄積タイミング調整部19は、顔検出部11が顔領域の検出を開始した時点から予め定められた時間(例えば、20秒)が経過した時点までを、蓄積タイミングとする。顔検出部11が顔領域の検出を開始した時点は、対象者である運転者が車両に搭乗した時点であり、運転開始前は運転者が基準表情をしている可能性が高い。
 また、例えば、蓄積タイミング調整部19は、車両情報取得部24から取得した車両情報に基づき、車両の速度が予め定められた範囲内である場合、車両の加速度が予め定められた範囲内である場合、又は操舵角が予め定められた範囲内である場合のうちの少なくとも1つを、蓄積タイミングとする。例えば、車両が法定速度でまっすぐ走行している場合、運転者が車両を運転しやすい交通状況であるため、運転者が基準表情をしている可能性が高い。一方、車両が車線変更等している場合、又は車両が急加速若しくは急減速している場合、運転者が車両を運転しにくい交通状況であるため、運転者が基準表情をしていない可能性が高い。
 また、例えば、蓄積タイミング調整部19は、外光判定部20から取得した外光の有無の判定結果に基づき、運転者の顔に外光が照射されている場合を、蓄積タイミングから除外する。運転者の顔に直射日光又は対向車のハイビーム等が照射されている場合、運転者は目を細める等して基準表情をしていない可能性が高い。
 また、例えば、蓄積タイミング調整部19は、開眼度取得部21から取得した開眼度に基づき、運転者が閉眼している場合を、蓄積タイミングから除外する。運転者が閉眼している場合、運転者が眠気を感じている等して基準表情をしていない可能性が高い。
 また、例えば、蓄積タイミング調整部19は、会話判定部22から取得した会話の有無の判定結果に基づき、運転者が会話している場合を、蓄積タイミングから除外する。運転者は、会話している最中は基準表情をしていない可能性が高い。
 また、例えば、蓄積タイミング調整部19は、ストレス判定部23から取得したストレス状態の判定結果に基づき、運転者がストレス状態にある場合を、蓄積タイミングから除外する。運転者は、ストレスを感じている最中は基準表情をしていない可能性が高い。
 また、例えば、蓄積タイミング調整部19は、カメラ1が撮像した画像から同乗者の有無を判定し、同乗者がいる場合を、蓄積タイミングから除外する。車内に同乗者がいる場合、運転者は、同乗者と会話している等して基準表情をしていない可能性が高い。
 蓄積タイミングである場合(ステップST11“YES”)、蓄積タイミング調整部19は、図3のフローチャートにおけるステップST3で特徴抽出部12が抽出する表情筋ごとの特徴量を、較正用データ17として蓄積部18に蓄積させる(ステップST12)。一方、蓄積タイミングでない場合(ステップST11“NO”)、蓄積タイミング調整部19は、ステップST11の動作を繰り返す。
 実施の形態2の較正部16は、図3のフローチャートに示されるステップST1において、蓄積部18に蓄積されている較正用データ17を用いて、予め定められている識別用データ15を運転者用の識別用データ15aに較正する。
 なお、蓄積タイミング調整部19は、蓄積部18に較正用データ17が蓄積されているか否かにかかわらず、運転者が車両に乗車する都度、乗車中つねに、蓄積タイミングにおいて特徴抽出部12が抽出した表情筋ごとの特徴量を、運転者が基準表情をしているときの較正用データ17として蓄積部18に蓄積させてもよい。これにより、較正部16は、運転者が車両に乗車してすぐに、運転者が過去に車両に乗車したときに蓄積部18に蓄積された較正用データ17を用いて、識別用データ15を較正することができる。したがって、表情筋識別部13は、運転者が車両に乗車してすぐに、較正後の識別用データ15aを用いて表情筋の動作有無を識別することができる。また、較正部16は、蓄積部18に蓄積された大量の較正用データ17を用いて、識別用データ15を較正することができるため、表情筋識別部13の識別精度が向上する。
 以上のように、実施の形態2に係る表情認識装置10は、蓄積部18と、蓄積タイミング調整部19とを備える。蓄積部18は、対象者が基準表情をしているときの表情筋ごとの特徴量を蓄積する。蓄積タイミング調整部19は、特徴抽出部12が抽出した表情筋ごとの特徴量を、対象者が基準表情をしているときの表情筋ごとの特徴量(較正用データ17)として蓄積部18に蓄積させる蓄積タイミングを調整する。これにより、表情認識装置10は、基準表情をしているときの表情筋ごとの較正用データ17を蓄積することができ、事前に較正用データ17を用意する必要がない。
実施の形態3.
 実施の形態3に係る表情認識装置10は、表情認識の対象者が複数存在する場合を想定し、対象者ごとに較正用データ17を蓄積する。表情認識の対象者が複数存在する場合とは、家族で1台の車両を共有する場合のように車両の運転席に座る乗員が複数人いる場合、及び、運転席の乗員と助手席の乗員の2人の表情を一度に認識する場合等である。
 図6は、実施の形態3に係る表情認識装置10の構成例を示すブロック図である。実施の形態3に係る表情認識装置10は、図4に示された実施の形態2の表情認識装置10に対して個人認識部25が追加された構成である。図6において図4と同一又は相当する部分は、同一の符号を付し説明を省略する。
 個人認識部25は、顔検出部11から顔領域の画像を取得し、取得した画像から対象者を認識する。個人認識部25は、認識した対象者の情報を、較正部16及び蓄積タイミング調整部19へ出力する。
 蓄積タイミング調整部19は、蓄積タイミングにおいて特徴抽出部12が抽出する表情筋ごとの特徴量である較正用データ17を、個人認識部25が認識した対象者の情報と紐付けて、蓄積部18に蓄積させる。
 較正部16は、個人認識部25が認識した対象者の情報に一致する対象者の情報が紐付けられている較正用データ17を、蓄積部18から取得し、蓄積部18から取得した較正用データ17を用いて識別用データ15を較正する。
 以上のように、実施の形態3に係る表情認識装置10は、対象者を認識する個人認識部25を備える。蓄積部18は、個人認識部25が認識した対象者ごとに、対象者が基準表情をしているときの表情筋ごとの特徴量(較正用データ17)を蓄積する。これにより、表情認識装置10は、表情認識の対象者が複数存在する場合にも、個人差を考慮して対象者の表情を認識することができる。
 最後に、各実施の形態に係る表情認識装置10のハードウェア構成を説明する。
 図7及び図8は、各実施の形態に係る表情認識装置10のハードウェア構成例を示す図である。表情認識装置10における識別用データ15及び較正用データ17は、メモリ102に記憶されている。表情認識装置10における蓄積部18の機能は、メモリ102により実現される。表情認識装置10における顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、較正部16、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の機能は、処理回路により実現される。即ち、表情認識装置10は、上記機能を実現するための処理回路を備える。処理回路は、専用のハードウェアとしての処理回路100であってもよいし、メモリ102に格納されるプログラムを実行するプロセッサ101であってもよい。
 図7に示されるように、処理回路が専用のハードウェアである場合、処理回路100は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、又はこれらを組み合わせたものが該当する。顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、較正部16、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の機能を複数の処理回路100で実現してもよいし、各部の機能をまとめて1つの処理回路100で実現してもよい。また、識別用データ15及び較正用データ17が、メモリ102ではなく、処理回路100に記憶されていてもよい。
 図8に示されるように、処理回路がプロセッサ101である場合、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、較正部16、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、表情認識装置10は、プロセッサ101により実行されるときに、図3等のフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、較正部16、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の手順又は方法をコンピュータに実行させるものであるとも言える。
 ここで、プロセッサ101とは、CPU(Central Processing Unit)、処理装置、演算装置、又はマイクロプロセッサ等のことである。
 メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital Versatile Disc)等の光ディスクであってもよい。
 なお、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、較正部16、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、表情認識装置10における処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって、上述の機能を実現することができる。
 なお、上記例では、顔検出部11、特徴抽出部12、表情筋識別部13、表情認識部14、識別用データ15、較正部16、較正用データ17、蓄積部18、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25の機能が、車両に搭載される表情認識装置10に集約された構成であったが、ネットワーク上のサーバ装置、スマートフォン等の携帯端末、及び車載装置等に分散されていてもよい。例えば、無線通信を行う車載装置とサーバ装置とにより表情認識システムが構築される場合に、車載装置が、顔検出部11、特徴抽出部12、蓄積タイミング調整部19、外光判定部20、開眼度取得部21、会話判定部22、ストレス判定部23、車両情報取得部24、及び個人認識部25を備え、サーバ装置が、表情筋識別部13、表情認識部14、識別用データ15、較正部16、較正用データ17、及び蓄積部18を備える。
 また、上記例では、表情認識装置10が車両の乗員の表情を認識する用途を説明したが、この用途に限定されない。
 また、上記例では、対象者の表情認識のためにFACSを用いたが、他の方法を用いてもよい。
 なお、本開示はその開示の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。
 本開示に係る表情認識装置は、表情表出の個人差を考慮するようにしたので、対象者の表情を認識する表情認識装置に用いるのに適している。
 1 カメラ、2 覚醒度推定装置、3 警告装置、10 表情認識装置、11 顔検出部、12 特徴抽出部、13 表情筋識別部、14 表情認識部、15,15a 識別用データ、16 較正部、17 較正用データ、18 蓄積部、19 蓄積タイミング調整部、20 外光判定部、21 開眼度取得部、22 会話判定部、23 ストレス判定部、24 車両情報取得部、25 個人認識部、31 マイク、32 ナビゲーション装置、33 車外カメラ、34 車載器、100 処理回路、101 プロセッサ、102 メモリ。

Claims (11)

  1.  撮像画像から対象者の顔領域及び顔の各部位を検出する顔検出部と、
     前記顔検出部が検出した前記顔領域及び顔の各部位に基づき、表情筋ごとの特徴量を抽出する特徴抽出部と、
     前記特徴抽出部が抽出した前記表情筋ごとの特徴量と各識別用データとを比較することによって、前記表情筋ごとの動作有無を識別する表情筋識別部と、
     前記表情筋識別部が動作していると識別した表情筋の組み合わせに基づいて前記対象者の表情を認識する表情認識部と、
     前記対象者が基準表情をしているときの表情筋ごとの特徴量を用いて前記各識別用データを較正する較正部とを備える表情認識装置。
  2.  前記対象者が基準表情をしているときの表情筋ごとの特徴量を蓄積する蓄積部と、
     前記特徴抽出部が抽出した前記表情筋ごとの特徴量を前記対象者が基準表情をしているときの表情筋ごとの特徴量として前記蓄積部に蓄積させる蓄積タイミングを調整する蓄積タイミング調整部とを備えることを特徴とする請求項1記載の表情認識装置。
  3.  前記蓄積タイミング調整部は、前記顔検出部が前記顔領域の検出を開始した時点から予め定められた時間が経過した時点までを、前記蓄積タイミングとすることを特徴とする請求項2記載の表情認識装置。
  4.  前記対象者が運転している車両の情報を取得する車両情報取得部を備え、
     前記蓄積タイミング調整部は、前記車両情報取得部が取得した前記車両の情報に基づき、前記車両の速度が予め定められた範囲内である場合、前記車両の加速度が予め定められた範囲内である場合、又は操舵角が予め定められた範囲内である場合のうちの少なくとも1つを、前記蓄積タイミングとすることを特徴とする請求項2記載の表情認識装置。
  5.  前記対象者の顔に照射される外光の有無を判定する外光判定部を備え、
     前記蓄積タイミング調整部は、前記対象者の顔に外光が照射されている場合を、前記蓄積タイミングから除外することを特徴とする請求項2記載の表情認識装置。
  6.  前記対象者の開眼度を取得する開眼度取得部を備え、
     前記蓄積タイミング調整部は、前記開眼度取得部が取得した前記開眼度に基づいて、前記対象者が閉眼している場合を、前記蓄積タイミングから除外することを特徴とする請求項2記載の表情認識装置。
  7.  前記対象者が会話しているか否かを判定する会話判定部を備え、
     前記蓄積タイミング調整部は、前記対象者が会話している場合を、前記蓄積タイミングから除外することを特徴とする請求項2記載の表情認識装置。
  8.  前記対象者のストレス状態であるか否かを判定するストレス判定部を備え、
     前記蓄積タイミング調整部は、前記対象者がストレス状態にある場合を、前記蓄積タイミングから除外することを特徴とする請求項2記載の表情認識装置。
  9.  前記蓄積タイミング調整部は、前記対象者が車両に乗車する都度、前記蓄積タイミングにおいて前記特徴抽出部が抽出した前記表情筋ごとの特徴量を、前記対象者が基準表情をしているときの表情筋ごとの特徴量として前記蓄積部に蓄積させることを特徴とする請求項2記載の表情認識装置。
  10.  前記対象者を認識する個人認識部を備え、
     前記蓄積部は、前記個人認識部が認識した対象者ごとに、対象者が基準表情をしているときの表情筋ごとの特徴量を蓄積することを特徴とする請求項9記載の表情認識装置。
  11.  顔検出部が、撮像画像から対象者の顔領域及び顔の各部位を検出し、
     特徴抽出部が、前記顔検出部が検出した前記顔領域及び顔の各部位に基づき、表情筋ごとの特徴量を抽出し、
     表情筋識別部が、前記特徴抽出部が抽出した前記表情筋ごとの特徴量と各識別用データとを比較することによって、前記表情筋ごとの動作有無を識別し、
     表情認識部が、前記表情筋識別部が動作していると識別した前記表情筋の組み合わせに基づいて前記対象者の表情を認識する表情認識方法であって、
     較正部が、前記対象者が基準表情をしているときの表情筋ごとの特徴量を用いて前記各識別用データを較正することを特徴とする表情認識方法。
PCT/JP2020/008247 2020-02-28 2020-02-28 表情認識装置及び表情認識方法 WO2021171538A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/008247 WO2021171538A1 (ja) 2020-02-28 2020-02-28 表情認識装置及び表情認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/008247 WO2021171538A1 (ja) 2020-02-28 2020-02-28 表情認識装置及び表情認識方法

Publications (1)

Publication Number Publication Date
WO2021171538A1 true WO2021171538A1 (ja) 2021-09-02

Family

ID=77491206

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/008247 WO2021171538A1 (ja) 2020-02-28 2020-02-28 表情認識装置及び表情認識方法

Country Status (1)

Country Link
WO (1) WO2021171538A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259831A (ja) * 1999-03-05 2000-09-22 Atr Media Integration & Communications Res Lab 表情検出装置
JP2003108980A (ja) * 2001-09-28 2003-04-11 Mitsubishi Electric Corp 頭部領域抽出装置およびリアルタイム表情追跡装置
JP2010271872A (ja) * 2009-05-20 2010-12-02 Canon Inc 画像認識装置、撮像装置及び画像認識方法
JP2011128966A (ja) * 2009-12-18 2011-06-30 Denso Corp 顔特徴点検出装置および眠気検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259831A (ja) * 1999-03-05 2000-09-22 Atr Media Integration & Communications Res Lab 表情検出装置
JP2003108980A (ja) * 2001-09-28 2003-04-11 Mitsubishi Electric Corp 頭部領域抽出装置およびリアルタイム表情追跡装置
JP2010271872A (ja) * 2009-05-20 2010-12-02 Canon Inc 画像認識装置、撮像装置及び画像認識方法
JP2011128966A (ja) * 2009-12-18 2011-06-30 Denso Corp 顔特徴点検出装置および眠気検出装置

Similar Documents

Publication Publication Date Title
US11485284B2 (en) System and method for driver distraction determination
Abouelnaga et al. Real-time distracted driver posture classification
Seshadri et al. Driver cell phone usage detection on strategic highway research program (SHRP2) face view videos
JP6655036B2 (ja) 車両の表示システム及び車両の表示システムの制御方法
JP6613290B2 (ja) 運転アドバイス装置及び運転アドバイス方法
CN110395260B (zh) 车辆、安全驾驶方法和装置
KR102429822B1 (ko) 운전자의 감정상태 인식 장치 및 방법
US9105172B2 (en) Drowsiness-estimating device and drowsiness-estimating method
US20180304806A1 (en) Driver state sensing system, driver state sensing method, and vehicle including the same
US20220130155A1 (en) Adaptive monitoring of a vehicle using a camera
US10604063B2 (en) Control device for vehicle headlight
KR20170051197A (ko) 운전 패턴 분석을 통한 운전자 상태 감시 방법 및 장치
CN110765807A (zh) 驾驶行为分析、处理方法、装置、设备和存储介质
CN108698606A (zh) 用于分类驾驶员运动的方法
EP2060993A1 (en) An awareness detection system and method
WO2021044566A1 (ja) 体格判定装置および体格判定方法
JP2019098780A (ja) 運転アドバイス装置及び運転アドバイス方法
JP2004334786A (ja) 状態検出装置及び状態検出システム
WO2021171538A1 (ja) 表情認識装置及び表情認識方法
JP5935759B2 (ja) ドライバ状態判定システム
WO2021024905A1 (ja) 画像処理装置、モニタリング装置、制御システム、画像処理方法、コンピュータプログラム、及び記憶媒体
KR20160056189A (ko) 보행자 검출 경보 장치 및 방법
CN112348718A (zh) 智能辅助驾驶指导方法、装置和计算机存储介质
JP4719605B2 (ja) 対象物検出用データ生成装置、方法及びプログラム並びに対象物検出装置、方法及びプログラム
WO2020261832A1 (ja) 画像処理装置、モニタリング装置、制御システム、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921416

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 20921416

Country of ref document: EP

Kind code of ref document: A1