WO2021256289A1 - 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム - Google Patents

顔構造推定装置、顔構造推定方法、および顔構造推定プログラム Download PDF

Info

Publication number
WO2021256289A1
WO2021256289A1 PCT/JP2021/021274 JP2021021274W WO2021256289A1 WO 2021256289 A1 WO2021256289 A1 WO 2021256289A1 JP 2021021274 W JP2021021274 W JP 2021021274W WO 2021256289 A1 WO2021256289 A1 WO 2021256289A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
face
face image
estimation
face structure
Prior art date
Application number
PCT/JP2021/021274
Other languages
English (en)
French (fr)
Inventor
ジェチョル キム
陽平 船津
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Priority to EP21825288.0A priority Critical patent/EP4170584A4/en
Priority to CN202180043264.3A priority patent/CN115699106A/zh
Priority to US18/000,795 priority patent/US20230222815A1/en
Publication of WO2021256289A1 publication Critical patent/WO2021256289A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • the present invention relates to a face structure estimation device, a face structure estimation method, and a face structure estimation program.
  • the face structure estimation device from the first viewpoint is The acquisition part that acquires the face image and A control unit that outputs the face structure of the face image is provided.
  • the control unit An identification unit that identifies an individual of the face image based on the face image acquired by the acquisition unit, an estimation unit that estimates the face structure of the face image based on the face image acquired by the acquisition unit, and an estimation unit that estimates the face image. It functions as an evaluation unit that calculates the validity of the face structure to be performed and applies the face structure and the face image whose validity is equal to or higher than the threshold value to the learning of the estimation unit.
  • the application of the face structure whose validity is equal to or higher than the threshold value and the face image to the learning of the estimation unit is based on the identification result of the individual by the identification unit.
  • the face structure estimation method from the second viewpoint is The acquisition process to acquire the face image and The output process for outputting the face structure of the face image is provided.
  • the output process is An identification step of identifying an individual of the face image based on the face image acquired in the acquisition step, and An estimation step of estimating the face structure of the face image based on the face image acquired in the acquisition step, and an estimation step.
  • the present invention includes an application step of making the application of the face structure whose validity is equal to or higher than a threshold value and the face image to learning of the estimation step based on the identification result of the individual by the identification step.
  • the face structure estimation program from the third viewpoint is Computer,
  • the acquisition part that acquires the face image and It functions as a control unit that outputs the face structure of the face image.
  • the control unit An identification unit that identifies an individual of the face image based on the face image acquired by the acquisition unit, an estimation unit that estimates the face structure of the face image based on the face image acquired by the acquisition unit, and an estimation unit that estimates the face image. It functions as an evaluation unit that calculates the validity of the face structure to be performed and applies the face structure and the face image whose validity is equal to or higher than the threshold value to the learning of the estimation unit.
  • the application of the face structure whose validity is equal to or higher than the threshold value and the face image to the learning of the estimation unit is based on the identification result of the individual by the identification unit.
  • FIG. 1 It is a block diagram which shows the schematic structure of the face structure estimation apparatus which concerns on this embodiment. It is a conceptual diagram explaining learning for constructing the general-purpose estimation part of FIG. 1 temporarily. It is a conceptual diagram explaining the calculation method of the validity which becomes a correct answer based on the face structure and the labeled face structure by the general-purpose estimation part of FIG. It is a conceptual diagram explaining learning for constructing the evaluation part of FIG. 1 temporarily. It is a conceptual diagram explaining the generation of the set of the face image and the pseudo-labeled face structure for constructing the general-purpose estimation part of FIG. 1 secondarily. It is a conceptual diagram explaining learning for constructing the general-purpose estimation part of FIG. 1 secondarily.
  • the face structure estimation device is provided, for example, in a moving body.
  • the moving body may include, for example, a vehicle, a ship, an aircraft, and the like.
  • Vehicles may include, for example, automobiles, industrial vehicles, rail vehicles, living vehicles, fixed-wing aircraft traveling on runways, and the like.
  • Automobiles may include, for example, passenger cars, trucks, buses, motorcycles, trolley buses and the like.
  • Industrial vehicles may include, for example, industrial vehicles for agriculture and construction.
  • Industrial vehicles may include, for example, forklifts and golf carts.
  • Industrial vehicles for agriculture may include, for example, tractors, cultivators, porting machines, binders, combines, lawnmowers and the like.
  • Industrial vehicles for construction may include, for example, bulldozers, scrapers, excavators, cranes, dump trucks, road rollers and the like.
  • the vehicle may include a vehicle that travels manually.
  • the classification of vehicles is not limited to the above examples.
  • an automobile may include an industrial vehicle capable of traveling on a road.
  • the same vehicle may be included in multiple categories.
  • Vessels may include, for example, marine jets, boats, tankers and the like.
  • Aircraft may include, for example, fixed-wing aircraft, rotary-wing aircraft, and the like.
  • the face structure estimation device 10 includes an acquisition unit 11, a memory 12, and a control unit 13.
  • the acquisition unit 11 acquires, for example, a face image which is an image of the occupant's face captured by the camera 14.
  • the camera 14 is attached, for example, to a position where an image can be taken around the face of an occupant at a specific position of a moving body such as a driver's seat. Further, the camera 14 captures a face image at, for example, 30 fps.
  • the memory 12 includes any storage device such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
  • the memory 12 stores various programs for functioning the control unit 13 and various information used by the control unit 13.
  • the control unit 13 includes one or more processors and a memory.
  • the processor may include a general-purpose processor that loads a specific program and performs a specific function, and a dedicated processor specialized for a specific process.
  • the dedicated processor may include an application specific integrated circuit (ASIC).
  • the processor may include a programmable logic device (PLD; Programmable Logic Device).
  • the PLD may include an FPGA (Field-Programmable Gate Array).
  • the control unit 13 may be either a System (System-on-a-Chip) in which one or a plurality of processors cooperate, or a SiP (System In a Package).
  • the control unit 13 controls the operation of each component of the face structure estimation device 10.
  • the control unit 13 outputs the face structure of the face image acquired by the acquisition unit 11 to the external device 20.
  • the facial structure is a feature that identifies facial expressions that change according to a person's condition, such as a collection of points defined on the contour of the face, such as the tip of the nose, and the eyes, such as the inner and outer corners of the eyes.
  • the output of the face structure by the control unit 13 will be described in detail below.
  • the control unit 13 functions as an identification unit 15, an estimation unit 16, and an evaluation unit 17.
  • the identification unit 15 identifies the individual of the face image based on the image acquired by the acquisition unit 11.
  • the identification unit 15 is composed of, for example, a multi-layered neural network.
  • the identification unit 15 is constructed by performing supervised learning as described later.
  • the estimation unit 16 estimates the structure of the face image based on the face image acquired by the acquisition unit 11.
  • the estimation unit 16 includes, for example, a general-purpose estimation unit 18 and a personal estimation unit 19.
  • the general-purpose estimation unit 18 estimates the facial structure based on the facial image of an unspecified individual that the identification unit 15 cannot identify.
  • the personal estimation unit 19 is selected to correspond to the individual identified by the identification unit 15, and estimates the facial structure of the individual based on the facial image of the individual identified by the identification unit 15.
  • the face structure estimated by the personal estimation unit 19 is output from the control unit 13.
  • the general-purpose estimation unit 18 and the personal estimation unit 19 are composed of, for example, a multi-layered neural network.
  • the general-purpose estimation unit 18 and the personal estimation unit 19 are constructed by performing supervised learning as described later.
  • the evaluation unit 17 determines the validity of the face structure estimated by the estimation unit 16.
  • the evaluation unit 17 applies the face structure and the face image whose validity is equal to or higher than the threshold value to the learning of the estimation unit 16.
  • the application of the face structure and face image estimation unit 16 whose validity is equal to or higher than the threshold value to learning is based on the individual identification result by the identification unit 15.
  • the evaluation unit 17 is composed of, for example, a multi-layered neural network.
  • the evaluation unit 17 is constructed by performing supervised learning.
  • the supervised learning of the identification unit 15, the estimation unit 16, and the evaluation unit 17 will be described below.
  • supervised learning is executed at the time of manufacturing the face structure estimation device 10. Therefore, when the face structure estimation device 10 is used, the general-purpose estimation unit 18 and the evaluation unit 17 have already been learned.
  • supervised learning is performed while the face structure estimation device 10 is being used.
  • a face image and a plurality of sets of labeled face structures for the face image are used for constructing the general-purpose estimation unit 18 and the evaluation unit 17 by machine learning.
  • the labeled face structure is a face structure that is the correct answer for the face image.
  • the labeled face structure is, for example, created at the discretion of a person based on the definition as described above.
  • the primary general-purpose estimation unit 18a is constructed by supervised learning using the labeled face structure lFS as the correct answer to the face image FI. As shown in FIG. 3, the constructed primary general-purpose estimation unit 18 estimates the face structure gFS from the face image FI included in the plurality of sets CB1.
  • the control unit 13 calculates the validity of the estimated face structure gFS using the labeled face structure lFS corresponding to the face image FI used for estimating the face structure gGS.
  • the validity is the consistency of the estimated face structure gFS with the labeled face structure lFS, for example, the distance between the points constituting the estimated face structure gFS and the points constituting the labeled face structure lFS is large. It is calculated so that it is as low as it is and becomes higher as it approaches zero.
  • a face image FI, a labeled face structure lFS, and a plurality of valid sets of CB2 are used to construct the primary evaluation unit 17a.
  • a primary evaluation unit 17a is constructed by performing supervised learning using validity as the correct answer for the face image FI and the labeled face structure lFS.
  • Machine learning may be further advanced for the primary general-purpose estimation unit 18a.
  • a mere face image FI without a labeled face structure lFS is used.
  • the primary general-purpose estimation unit 18a estimates the face structure gFS of the face image FI based on the face image FI.
  • the evaluation unit 17 calculates the validity of the estimated face structure gFS based on the face image FI and the estimated face structure gFS. If the calculated validity is greater than or equal to the threshold, the estimated facial structure gFS is combined with the facial image FI as a pseudo-labeled facial structure blFS.
  • the face structure gFS is estimated using more face image FIs than the face image FI with the true labeled face structure lFS, and a set CB3 of the pseudo-labeled face structure blFS and the face image FI is generated. ..
  • supervised learning is advanced for the primary general-purpose estimation unit 18a using a plurality of sets CB3 of the face image FI and the pseudo-labeled face structure blFS, and the secondary general-purpose The estimation unit 18b is constructed.
  • the secondary general-purpose estimation unit 18b When the secondary general-purpose estimation unit 18b is constructed, data for constituting the secondary general-purpose estimation unit 18b is generated, and the control unit 13 functions as the general-purpose estimation unit 18 based on the data.
  • the control unit 13 functions as the general-purpose estimation unit 18 based on the data.
  • Machine learning may be further advanced for the primary evaluation unit 17a.
  • the face image FI and the set CB3 of the pseudo-labeled face structure blFS are used.
  • the secondary general purpose estimation unit 18b is based on the face image FI combined with the pseudo-labeled face structure blFS, and the face structure of the face image FI.
  • Estimate gFS The validity of the estimated face structure gFS is calculated using the pseudo-labeled face structure blFS corresponding to the face image FI.
  • supervised learning is advanced for the primary evaluation unit 17a using a face image FI, a pseudo-labeled face structure blFS, and a plurality of sets of validity CB4, and secondary.
  • Evaluation unit 17b is constructed.
  • the secondary evaluation unit 17b When the secondary evaluation unit 17b is constructed, data for constituting the secondary evaluation unit 17b is generated, and the control unit 13 functions as the evaluation unit 17 based on the data.
  • the control unit 13 functions as the evaluation unit 17 based on the data.
  • the identification unit 15 when a new occupant is imaged by the camera 14, machine learning is performed to construct the identification unit 15.
  • the control unit 13 detects a face imaged by the camera 14 when the identification unit 15 cannot identify an individual from the face image FI, or when the input unit of the face structure estimation device 10 detects an input that the input unit is a new occupant. It is determined that the image FI is a new occupant, and machine learning is performed.
  • the identification unit 15 performs machine learning using the identification name newly created for a plurality of facial images sFI of a specific individual captured by the camera 14 at, for example, 30 fps as the correct answer, thereby performing machine learning on the individual. Is constructed as an identifiable identification unit 15.
  • the identification unit 15 is constructed so that supervised learning is advanced and a plurality of learned individuals can be identified. Every time the identification unit 15 is constructed, data for forming the identification unit 15 is generated, and the control unit 13 functions as the identification unit 15 based on the data.
  • the personal estimation unit 19 will be described below. As described above, after the identification unit 15 capable of identifying an individual who is a new occupant is constructed, a new construction of the personal estimation unit 19 corresponding to the individual is started. As shown in FIG. 10, for the construction of the personal estimation unit 19, the general-purpose estimation unit 18 estimates the face structure gFS of the face image sFI based on the face image sFI of the individual. The evaluation unit 17 calculates the validity of the estimated face structure gFS based on the face image sFI of the individual and the estimated face structure fFS.
  • the evaluation unit 17 learns to construct the personal estimation unit 19 corresponding to the individual whose face image sFI and face structure gFS can be identified by the identification unit 15. Applies to. In other words, the face structure gFS and the face image sFI whose validity is equal to or higher than the threshold value are applied to the learning of the estimation unit 16 based on the individual identification result by the identification unit 15.
  • the evaluation unit 17 generates a plurality of sets CB5 of the face structure gFS and the face image sFI whose validity is equal to or higher than the threshold value as the pseudo-labeled face structure blFS. As shown in FIG.
  • the personal estimation unit 19 is constructed by performing supervised learning using the face structure blFS as the correct answer for the face image sFI.
  • the personal estimation unit 19 corresponding to a specific individual is constructed, data for constituting the personal estimation unit 19 is generated, and the control unit 13 functions as the personal estimation unit 19 based on the data. ..
  • the construction process starts when a new occupant is imaged by the camera 14 as described above.
  • step S100 the control unit 13 executes supervised learning of the face image sFI of a specific individual with the identification name of the new occupant as the correct answer. After performing supervised learning, the process proceeds to step S101.
  • step S101 the control unit 13 stores in the memory 12 the data for forming the identification unit 15 that can identify a new individual, which is constructed by the supervised learning in step S100. After storage, the process proceeds to step S102.
  • step S102 the control unit 13 causes the general-purpose estimation unit 18 to estimate the face structure gFS of the individual based on the face image sFI of the specific individual in one frame. After the estimation, the process proceeds to step S103.
  • step S103 the control unit 13 causes the evaluation unit 17 to calculate the validity of the face structure gFS estimated in step S102. After the calculation, the process proceeds to step S104.
  • step S104 the control unit 13 determines whether or not the validity calculated in step S103 is equal to or greater than the threshold value. If it is greater than or equal to the threshold, the process proceeds to step S105. If not greater than or equal to the threshold, the process proceeds to step S106.
  • step S105 the control unit 13 combines the face image sFI of a specific individual used for estimating the face structure gFS in step S102 with the face structure gFS. After the combination, the process proceeds to step S107.
  • step S106 the control unit 13 discards one frame of a specific individual face image sFI and the face structure gFS used for specifying the face structure gFS in step S102. After disposal, the process proceeds to step S107.
  • step S107 the control unit 13 determines whether or not the face image sFI of a specific individual and the set CB4 of the face structure gFS are sufficiently accumulated. Whether or not it is sufficiently accumulated may be determined, for example, by whether or not the number of sets CB4 exceeds the threshold value. If not sufficient, the process returns to step S102. If sufficient, the process proceeds to step S108. In this embodiment, the process may proceed to step S108 without executing step S107.
  • step S108 the control unit 13 executes supervised learning of the face image sFI of a specific individual as a correct answer in which the face structure gFS in the set CB4 is a pseudo-labeled face structure blFS. After performing supervised learning, the process proceeds to step S109.
  • step S109 the control unit 13 stores in the memory 12 the data for configuring the personal estimation unit 19 corresponding to the new individual, which is constructed by the supervised learning in step S108. After storage, the construction process ends.
  • the estimation process starts when a non-new occupant is imaged by the camera 14.
  • step S200 the control unit 13 causes the identification unit 15 to identify an individual based on the face image FI captured by the camera 14. After identification, the process proceeds to step S201.
  • step S201 the control unit 13 selects the personal estimation unit 19 corresponding to the individual identified in step S200. After selection, the process proceeds to step S202.
  • step S202 the control unit 13 causes the personal estimation unit 19 selected in step S201 to estimate the face structure gFS based on the face image FI used for identifying the individual in step S200. After the estimation, the process proceeds to step S203.
  • step S203 the control unit 13 outputs the face structure gFS estimated in step S202 to the external device 20. After output, the estimation process ends.
  • the face structure estimation device 10 of the present embodiment applies the application of the face structure gFS and the face image FI to the estimation unit 16 whose validity is equal to or higher than the threshold value, and the individual identification result by the identification unit 15. Based on. With such a configuration, the face structure estimation device 10 can select the face image sFI and the face structure gFS suitable for learning and train the estimation unit 16, so that the estimation accuracy of the face structure gFS based on the face image FI can be improved. Can be improved. Further, since the face structure estimation device 10 is based on the validity calculated by the evaluation unit 17 for selecting the face image sFI and the face structure gFS suitable for learning, it is not necessary to assign a correct answer label to each of a large number of learning data. Therefore, the increase in annotation cost can be reduced.
  • the personal estimation unit 19 is independently constructed by learning using a face image sFI of a specific individual and a pseudo-labeled face structure blFS. Not limited. The personal estimation unit 19 may be constructed based on the personal estimation unit 19 corresponding to another individual.
  • the personal estimation unit 19 may include a feature extraction unit and an inference unit.
  • the feature extraction unit is, for example, a CNN (Convolutional Neural Network), and features are extracted from the acquired face image sFI.
  • the feature extraction unit extracts features based on, for example, the brightness of the face image sFI.
  • the feature to be extracted is, for example, a feature map.
  • the feature extraction unit performs feature extraction based on, for example, the brightness of the face image sFI.
  • the inference unit estimates the face structure gFS based on the features extracted by the feature extraction unit.
  • the feature extraction unit (hereinafter referred to as “specific extraction unit”) 21 corresponding to a specific individual is for personal use corresponding to an individual other than the specific individual corresponding to the specific extraction unit 21.
  • Features may be acquired from the feature extraction unit (hereinafter referred to as “non-specific extraction unit”) 22 of the estimation unit 19.
  • the non-specific extraction unit 22 imparts the feature F to be extracted based on the face image sFI of a specific individual corresponding to the specific extraction unit 21 to the specific extraction unit 21.
  • the specific extraction unit 21 may generate a secondary feature for output based on the feature temporarily extracted by the specific extraction unit 21 and the feature F acquired from the non-specific extraction unit 22.
  • the inference unit 23 may estimate the facial structure gFS of a specific individual based on the characteristics for output.
  • the specific extraction unit 21 generates secondary features by, for example, averaging.
  • the non-specific extraction unit 22 may impart the feature F generated for each layer of the non-specific extraction unit 22 to the specific extraction unit 21.
  • the specific extraction unit 22 may generate a feature to be used in the next layer of the specific extraction unit 21 based on the feature F acquired for each layer and the feature generated in the corresponding layer of the specific extraction unit 21.
  • the specific extraction unit 21 is a feature extraction unit (hereinafter, referred to as “unspecified extraction unit”) 24 of the personal estimation unit 19 or the general-purpose estimation unit 18 corresponding to an unspecified individual. Features may be obtained from.
  • the unspecified extraction unit 24 imparts the feature F to be extracted based on the face image sFI of a specific individual corresponding to the specific extraction unit 21 to the specific extraction unit 21.
  • the specific extraction unit 21 may generate a secondary feature for output based on the feature temporarily extracted by the specific extraction unit 21 and the feature F acquired from the unspecified extraction unit 24.
  • the inference unit 23 may estimate the facial structure gFS of a specific individual based on the feature map for output.
  • the specific extraction unit 21 generates secondary features by, for example, averaging.
  • the unspecified extraction unit 24 may impart the feature F generated for each layer of the unspecified extraction unit 24 to the specific extraction unit 21.
  • the specific extraction unit 22 may generate a feature to be used in the next layer of the specific extraction unit 21 based on the feature F acquired for each layer and the feature generated in the corresponding layer of the specific extraction unit 21.
  • the specific extraction unit 21 is learned based on the extraction result of the non-specific extraction unit 22 that has already been constructed.
  • the learning of the feature extraction unit will be described in detail below.
  • the specific extraction unit 21 and the inference unit 23 have a face structure gFS and a face image sFI whose validity is equal to or higher than the threshold as a pseudo-labeled face structure blFS for a specific individual. It is constructed by learning using a plurality of sets CB5 with.
  • the personal estimation unit 19 which has been constructed for an individual other than the corresponding specific individual has a face in a plurality of sets CB5 for the specific individual.
  • the face structure gFS is estimated based on the image sFI.
  • the feature extraction unit of the personal estimation unit 19, that is, the non-specific extraction unit 22, generates the feature F based on the face image sFI.
  • the non-specific extraction unit 22 may generate the feature F for each layer.
  • the specific extraction unit 25 during learning is for output based on the feature that the specific extraction unit 25 during learning primary extracts based on the face image sFI and the feature F acquired from the non-specific extraction unit 22. Generate the following features.
  • the specific extraction unit 25 during learning generates secondary features by, for example, averaging.
  • the inference unit 26 during learning estimates the face structure tgFS during learning based on the features acquired from the specific extraction unit 25 during learning.
  • the control unit 13 calculates the first difference loss target between the face structure tgFS under learning and the pseudo-labeled face structure blFS in the plurality of sets CB5.
  • the control unit 13 calculates the facial structure tgFS in learning, a second differential loss assistance with the facial structure gFS each personal estimator 19 is already constructed estimated.
  • the control unit 13 calculates the total difference loss final shown in the equation (1) by summing the first difference loss target and the second difference loss assistance weighted to each.
  • ⁇ and ⁇ are weighting coefficients. ⁇ and ⁇ may be less than 1, further may be 0.5 or less, and further, the total value of the weighting coefficients may be 0.5 or less.
  • the control unit 13 constructs the specific extraction unit 21 and the inference unit 23 by learning so that the total difference loss final is minimized.
  • the specific identification unit 21 Face images of non-individuals sFI and pseudo-labeled face structures blFS may also be used for learning.
  • the specific extraction unit 21 is learned based on the extraction result of the unspecified extraction unit 24 that has already been constructed.
  • the learning of the feature extraction unit will be described in detail below.
  • the specific extraction unit 21 and the inference unit 23 have a face structure gFS and a face image sFI whose validity is equal to or higher than the threshold as a pseudo-labeled face structure blFS for a specific individual. It is constructed by learning using a plurality of sets CB5 with.
  • the personal estimation unit 19 or the general-purpose estimation unit 18 that has already been constructed for an unspecified individual is included in a plurality of sets CB5 for the specific individual.
  • the face structure gFS is estimated based on the face image sFI.
  • the feature extraction unit of the personal estimation unit 19 or the general-purpose estimation unit 18, that is, the unspecified extraction unit 24 generates the feature F based on the face image sFI.
  • the unspecified extraction unit 24 may generate the feature F for each layer.
  • the specific extraction unit 25 during learning is for output based on the feature that the specific extraction unit 25 during learning primary extracts based on the face image sFI and the feature F acquired from the unspecified extraction unit 24. Generate the following features.
  • the specific extraction unit 25 during learning generates secondary features by, for example, averaging.
  • the inference unit 26 during learning estimates the face structure tgFS during learning based on the features acquired from the specific extraction unit 25 during learning.
  • the control unit 13 calculates the first difference loss target between the face structure tgFS under learning and the pseudo-labeled face structure blFS in the plurality of sets CB5.
  • the control unit 13 calculates the facial structure tgFS in learning, a second differential loss assistance with the facial structure gFS the personal estimating unit 19 or the universal estimator 18 is already constructed estimated.
  • is a weighting coefficient. ⁇ may be less than 1 and further may be 0.5 or less.
  • the control unit 13 constructs the specific extraction unit 21 and the inference unit 23 by learning so that the total difference loss final is minimized.
  • the personal estimation unit 19 corresponding to an unspecified individual may be constructed by learning using a publicly available face image and a plurality of sets of labeled face structures for the face image.
  • the personal estimation unit 19 corresponding to an unspecified individual may be constructed separately from the general-purpose estimation unit 18.
  • the personal estimation unit 19 corresponding to an unspecified individual, which is constructed separately from the general-purpose estimation unit 18, has a face structure gFS whose validity is equal to or higher than the threshold as a pseudo-labeled face structure blFS for a specific individual. Further learning may be advanced by using a plurality of sets CB5 with the face image sFI.
  • the estimation accuracy of the face structure gFS is further improved.
  • Face structure estimation device 11 Acquisition unit 12 Memory 13 Control unit 14 Camera 15 Identification unit 16 Estimator unit 17 Evaluation unit 18 General-purpose estimation unit 18a Primary general-purpose estimation unit 19 Personal estimation unit 20 External equipment 21 Specific extraction unit 22 Other than specific Extraction unit 23 Reasoning unit 24 Unspecified extraction unit 25 Specific extraction unit during learning 26 Reasoning unit during learning CB1 Face image and labeled face structure set CB2 Face image, labeled face structure, and validity set CB3 Face image And a set of pseudo-labeled face structures CB4 a set of face images, a pseudo-labeled face structure, and a set of validity CB5 a set of a specific individual's face image and a set of pseudo-labeled face structures F Features FI face image gFS Estimated face structure lFS labeled face structure sFI Face image of a specific individual tgFS Face structure during learning lvFS Pseudo-labeled face structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

顔構造推定装置10は取得部11と制御部13とを有する。取得部11は顔画像を取得する。制御部13は識別部15と推定部16と評価部17ととして機能する。識別部15は顔画像に基づき個人を識別する。推定部16は顔画像に基づき顔構造を推定する。評価部17は推定部16が推定する顔構造の妥当性を算出する。評価部17は妥当性が閾値以上である顔構造および顔画像を推定部16の学習に適用させる。制御部13は妥当性が閾値以上である顔構造および顔画像の推定部16の学習への適用を識別部15による個人の識別結果に基づかせる。

Description

顔構造推定装置、顔構造推定方法、および顔構造推定プログラム 関連出願の相互参照
 本出願は、2020年6月19日に日本国に特許出願された特願2020-106443の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。
 本発明は、顔構造推定装置、顔構造推定方法、および顔構造推定プログラムに関するものである。
 例えば、眠気のある乗員に対して休息を促したり、自動運転に移行するなど、車内の運転手の状態に応じて、多様な機能を実行させる装置などが検討されている。このような装置においては、乗員の状態を簡易に認識することが求められている。乗員のように人の状態は、状態に応じた顔構造を推定することにより把握することが検討されている。例えば、深層学習により、顔画像から顔構造を推定することが知られている(特許文献1参照)。
国際公開2019-176994号公報
 上述した諸課題を解決すべく、第1の観点による顔構造推定装置は、
 顔画像を取得する取得部と、
 前記顔画像の顔構造を出力する制御部と、を備え、
 前記制御部は、
 前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
 前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。
 第2の観点による顔構造推定方法は、
 顔画像を取得する取得工程と、
 前記顔画像の顔構造を出力する出力工程と、を備え、
 前記出力工程は、
 前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
 前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
 前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
 前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む。
 第3の観点による顔構造推定プログラムは、
 コンピュータを、
 顔画像を取得する取得部と、
 前記顔画像の顔構造を出力する制御部と、として機能させ、
 前記制御部は、
 前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
 前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。
本実施形態に係る顔構造推定装置の概略構成を示すブロック図である。 図1の汎用推定部を一次的に構築するための学習を説明する概念図である。 図1の汎用推定部による顔構造とラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。 図1の評価部を一次的に構築するための学習を説明する概念図である。 図1の汎用推定部を二次的に構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。 図1の汎用推定部を二次的に構築するための学習を説明する概念図である。 図1の汎用推定部による顔構造と疑似的なラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。 図1の評価部を二次的に構築するための学習を説明する概念図である。 図1の識別部を構築するための学習を説明する概念図である。 図1の個人用推定部を構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。 図1の個人用推定部を構築するための学習を説明する概念図である。 図1の制御部が実行する構築処理を説明するためのフローチャートである。 図1の制御部が実行する推定処理を説明するためのフローチャートである。 特定以外抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。 不特定抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。 特定以外抽出部を用いた特定抽出部の学習を説明する概念図である。 不特定抽出部を用いた特定抽出部の学習を説明する概念図である。
 以下、本開示を適用した顔構造推定装置の実施形態について、図面を参照して説明する。なお、以下の本開示を適用した顔構造推定装置の実施形態の説明は、本開示を適用した、顔構造推定方法、および顔構造推定プログラムの実施形態の説明を兼ねる。
 本開示の一実施形態に係る顔構造推定装置は、例えば、移動体に設けられる。移動体は、例えば車両、船舶、および航空機等を含んでよい。車両は、例えば自動車、産業車両、鉄道車両、生活車両、および滑走路を走行する固定翼機等を含んでよい。自動車は、例えば乗用車、トラック、バス、二輪車、およびトロリーバス等を含んでよい。産業車両は、例えば農業および建設向けの産業車両等を含んでよい。産業車両は、例えばフォークリフトおよびゴルフカート等を含んでよい。農業向けの産業車両は、例えばトラクター、耕耘機、移植機、バインダー、コンバイン、および芝刈り機等を含んでよい。建設向けの産業車両は、例えばブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー、およびロードローラ等を含んでよい。車両は、人力で走行するものを含んでよい。車両の分類は、上述した例に限られない。例えば、自動車は、道路を走行可能な産業車両を含んでよい。複数の分類に同じ車両が含まれてよい。船舶は、例えばマリンジェット、ボート、およびタンカー等を含んでよい。航空機は、例えば固定翼機および回転翼機等を含んでよい。
 図1に示すように、本開示の一実施形態に係る顔構造推定装置10は、取得部11、メモリ12、および制御部13を含んで構成される。
 取得部11は、例えば、カメラ14が撮像した乗員の顔の画像である顔画像を取得する。なお、カメラ14は、例えば、運転席などの移動体の特定の位置にいる乗員の顔周辺を撮像可能な位置に取付けられる。また、カメラ14は、例えば、30fpsで顔画像を撮像する。
 メモリ12は、例えば、RAM(Random Access Memory)およびROM(Read Only Memory)など、任意の記憶デバイスを含む。メモリ12は、制御部13を機能させる多様なプログラム、および制御部13が用いる多様な情報を記憶する。
 制御部13は、1以上のプロセッサおよびメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部13は、1つまたは複数のプロセッサが協働するSoC(System-on-a-Chip)、およびSiP(System In a Package)のいずれかであってもよい。制御部13は、顔構造推定装置10の各構成要素の動作を制御する。
 制御部13は、取得部11が取得した顔画像の顔構造を外部機器20に出力する。顔構造は、人の状態に応じて変化する表情などを特定する特徴であって、例えば、顎先などのように顔の輪郭上において定義づけられる点の集合体、目頭および目じりのように目の輪郭上において定義づけられる点の集合体、鼻尖から鼻根までの鼻梁において定義づけられる点の集合体などである。制御部13による顔構造の出力について、以下に詳細に説明する。制御部13は、識別部15、推定部16、および評価部17として機能する。
 識別部15は、取得部11が取得した画像に基づき当該顔画像の個人を識別する。識別部15は、例えば、多層構造のニューラルネットワークにより構成されている。識別部15は、後述するように、教師あり学習を実施することにより構築される。
 推定部16は、取得部11が取得した顔画像に基づき、当該顔画像の構造を推定する。推定部16は、例えば、汎用推定部18および個人用推定部19を含む。汎用推定部18は、識別部15が識別できない不特定の個人の顔画像に基づいて、顔構造を推定する。個人用推定部19は、識別部15が識別した個人に対応するように選択され、識別部15が識別した当該個人の顔画像に基づいて、当該個人の顔構造を推定する。個人用推定部19が推定した顔構造が、制御部13から出力される。汎用推定部18および個人用推定部19は、例えば、多層構造のニューラルネットワークにより構成されている。汎用推定部18および個人用推定部19は、後述するように、教師あり学習を実施することにより構築される。
 評価部17は、推定部16が推定する顔構造の妥当性を判別する。評価部17は、妥当性が閾値以上である顔構造および顔画像を推定部16の学習に適用させる。後述するように、妥当性が閾値以上である顔構造および顔画像の推定部16の学習への適用は、識別部15による個人の識別結果に基づく。評価部17は、例えば、多層構造のニューラルネットワークにより構成されている。評価部17は、教師あり学習を実施することにより構築される。
 以下に、識別部15、推定部16、および評価部17の教師あり学習について説明する。汎用推定部18および評価部17の構築には、顔構造推定装置10の製造時に、教師あり学習が実行される。したがって、顔構造推定装置10の使用時に、汎用推定部18および評価部17は学習済みである。識別部15および個人用推定部19の構築には、顔構造推定装置10の使用中に、教師あり学習が実行される。
 汎用推定部18および評価部17の構築について、以下に説明する。機械学習による汎用推定部18および評価部17の構築には、顔画像、および当該顔画像に対するラベル付き顔構造の複数の組が用いられる。ラベル付き顔構造は、顔画像に対する正解である顔構造である。ラベル付き顔構造は、例えば、前述のような定義に基づいて、人の判断により作成される。
 図2に示すように、一次的な汎用推定部18aは、ラベル付き顔構造lFSを顔画像FIに対する正解として用いて、教師あり学習を行うことにより構築される。図3に示すように、構築された一次的な汎用推定部18は、当該複数の組CB1に含まれる顔画像FIから顔構造gFSを推定する。
 制御部13は、推定された顔構造gFSの妥当性を、顔構造gGSの推定に用いた顔画像FIに対応するラベル付き顔構造lFSを用いて算出する。妥当性は、推定された顔構造gFSのラベル付き顔構造lFSとの一致性であり、例えば、推定された顔構造gFSを構成する点とラベル付き顔構造lFSを構成する点との距離が大きくなるほど低く、ゼロに近づくほど高くなるように算出される。
 図4に示すように、顔画像FI、ラベル付き顔構造lFS、および妥当性の複数の組CB2が一次的な評価部17aの構築に用いられる。妥当性を顔画像FIおよびラベル付き顔構造lFSの正解として用いて、教師あり学習を行うことにより一次的な評価部17aが構築される。
 一次的な汎用推定部18aに対してさらに機械学習が進められてもよい。一次的な汎用推定部18aのさらなる機械学習には、ラベル付き顔構造lFSのない、単なる顔画像FIが用いられる。
 図5に示すように、さらなる機械学習のために、一次的な汎用推定部18aは、顔画像FIに基づいて、当該顔画像FIの顔構造gFSを推定する。評価部17は、顔画像FIおよび推定された顔構造gFSに基づいて、推定された顔構造gFSの妥当性を算出する。算出された妥当性が閾値以上である場合、推定された顔構造gFSは疑似的なラベル付き顔構造vlFSとして、顔画像FIと組合せられる。真のラベル付き顔構造lFSのある顔画像FIよりも多数の顔画像FIを用いて顔構造gFSの推定が行われ、疑似的なラベル付き顔構造vlFSと顔画像FIの組CB3が生成される。
 図6に示すように、顔画像FIおよび疑似的なラベル付き顔構造vlFSの複数の組CB3を用いて、一次的な汎用推定部18aに対して教師あり学習が進められ、二次的な汎用推定部18bが構築される。二次的な汎用推定部18bが構築された場合、当該二次的な汎用推定部18bを構成するためのデータが生成され、制御部13は当該データに基づいて汎用推定部18として機能する。二次的な汎用推定部18bが構築されない場合、一次的な汎用推定部18aを構成するためのデータが生成され、制御部13は当該データに基づいて汎用推定部18として機能する。
 一次的な評価部17aに対してさらに機械学習が進められてもよい。一次的な評価部17aのさらなる機械学習には、顔画像FIおよび疑似的なラベル付き顔構造vlFSの組CB3が用いられる。図7に示すように、さらなる機械学習のために、二次的な汎用推定部18bは、疑似的なラベル付き顔構造vlFSと組合された顔画像FIに基づいて、当該顔画像FIの顔構造gFSを推定する。推定された顔構造gFSの妥当性が、顔画像FIに対応する疑似的なラベル付き顔構造vlFSを用いて算出される。
 図8に示すように、顔画像FI、疑似的なラベル付き顔構造vlFS、および妥当性の複数の組CB4を用いて、一次的な評価部17aに対して教師あり学習が進められ、二次的な評価部17bが構築される。二次的な評価部17bが構築された場合、当該二次的な評価部17bを構成するためのデータが生成され、制御部13は当該データに基づいて評価部17として機能する。二次的な評価部17bが構築されない場合、一次的な評価部17aを構成するためのデータが生成され、制御部13は当該データに基づいて評価部17として機能する。
 識別部15の構築について、以下に説明する。例えば、新規な乗員がカメラ14により撮像される場合、識別部15を構築するための機械学習が行われる。制御部13は、識別部15が顔画像FIから個人を特定できないとき、または顔構造推定装置10の入力部が新規な乗員であることの入力を検出するときに、カメラ14により撮像された顔画像FIが新規な乗員であると判別して、機械学習を行う。図9に示すように、識別部15は、カメラ14が例えば30fpsで撮像する特定の個人の複数の顔画像sFIに対して新規に作成する識別名を正解として機械学習を行うことにより、当該個人を識別可能な識別部15として構築される。識別部15は、新規な乗員がカメラ14により撮像される度に、教師あり学習が進められ、学習済みの複数の個人を特定可能に構築される。識別部15が構築されるたびに、識別部15を構成するためのデータが生成され、制御部13は当該データに基づいて識別部15として機能する。
 個人用推定部19の構築について、以下に説明する。前述のように、新規な乗員である個人を特定可能な識別部15が構築された後、当該個人に対応する個人用推定部19の新規な構築が開始される。図10に示すように、個人用推定部19の構築のために、汎用推定部18は、当該個人の顔画像sFIに基づいて、当該顔画像sFIの顔構造gFSを推定する。評価部17は、当該個人の顔画像sFIおよび推定された顔構造fFSに基づいて、推定された顔構造gFSの妥当性を算出する。算出された妥当性が閾値以上である場合、評価部17は、顔画像sFIおよび顔構造gFSを、識別部15が識別可能となった個人に対応する個人用推定部19を構築するための学習に適用する。言い換えると、識別部15による個人の識別結果に基づいて、妥当性が閾値以上である顔構造gFSおよび顔画像sFIが推定部16の学習に適用される。評価部17は、疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を生成する。図11に示すように、生成された複数の組CB5それぞれにおいて、顔構造vlFSを顔画像sFIに対する正解として用いて教師あり学習を行うことにより、個人用推定部19が構築される。特定の個人に対応した個人用推定部19が構築される場合、当該個人用推定部19を構成するためのデータが生成され、制御部13は当該データに基づいて個人用推定部19として機能する。
 次に、本実施形態において制御部13が実行する、構築処理について、図12のフローチャートを用いて説明する。構築処理は、上述のように新規な乗員がカメラ14により撮像されるときに開始する。
 ステップS100において、制御部13は、新規な乗員の識別名を正解として特定の個人の顔画像sFIの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップS101に進む。
 ステップS101では、制御部13は、ステップS100における教師あり学習により構築される、新規な個人を識別可能な識別部15を構成するためのデータをメモリ12に格納する。格納後、プロセスはステップS102に進む。
 ステップS102では、制御部13は、1フレームの特定の個人の顔画像sFIに基づく当該個人の顔構造gFSの推定を汎用推定部18に実行させる。推定後、プロセスはステップS103に進む。
 ステップS103では、制御部13は、ステップS102において推定した顔構造gFSの妥当性の算出を、評価部17に実行させる。算出後、プロセスはステップS104に進む。
 ステップS104では、制御部13は、ステップS103において算出した妥当性が閾値以上であるか否かを判別する。閾値以上である場合、プロセスはステップS105に進む。閾値以上でない場合、プロセスはステップS106に進む。
 ステップS105では、制御部13は、ステップS102において顔構造gFSの推定に用いた特定の個人の顔画像sFIと当該顔構造gFSとを組合せる。組合せ後、プロセスはステップS107に進む。
 ステップS106では、制御部13は、ステップS102において顔構造gFSの特定に用いた、1フレームの特定の個人の顔画像sFIおよび当該顔構造gFSを廃棄する。廃棄後、プロセスはステップS107に進む。
 ステップS107では、制御部13は、特定の個人の顔画像sFIおよび顔構造gFSの組CB4が十分に蓄積されているか否かを判別する。十分に蓄積されているか否かは、例えば、組CB4の数が閾値を超えるか否かによって判別されてよい。十分に蓄積されていない場合、プロセスはステップS102に戻る。十分に蓄積されている場合、プロセスはステップS108に進む。なお、本実施形態において、ステップS107を実行することなく、ステップS108に進んでもよい。
 ステップS108では、制御部13は、組CB4における顔構造gFSを疑似的なラベル付き顔構造vlFSとする正解として、特定の個人の顔画像sFIの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップS109に進む。
 ステップS109では、制御部13は、ステップS108における教師あり学習により構築される、新規な個人に対応する個人用推定部19を構成するためのデータをメモリ12に格納する。格納後、構築処理は終了する。
 次に、本実施形態において制御部13が実行する、推定処理について、図13のフローチャートを用いて説明する。推定処理は、新規でない乗員がカメラ14により撮像されるときに開始する。
 ステップS200において、制御部13は、カメラ14により撮像された顔画像FIに基づいた個人の識別を、識別部15に実行させる。識別後、プロセスはステップS201に進む。
 ステップS201では、制御部13は、ステップS200で識別した個人に対応する個人用推定部19を選択する。選択後、プロセスはステップS202に進む。
 ステップS202では、制御部13は、ステップS200において個人の識別に用いた顔画像FIに基づいた顔構造gFSの推定を、ステップS201において選択した個人用推定部19に実行させる。推定後、プロセスはステップS203に進む。
 ステップS203では、制御部13は、ステップS202において推定した顔構造gFSを外部機器20に出力する。出力後、推定処理は終了する。
 以上のような構成の本実施形態の顔構造推定装置10は、妥当性が閾値以上である顔構造gFSおよび顔画像FIの推定部16への学習への適用を識別部15による個人の識別結果に基づかせる。このような構成により、顔構造推定装置10は、学習に適した顔画像sFIおよび顔構造gFSを選別して、推定部16を学習させ得るので、顔画像FIに基づく顔構造gFSの推定精度を向上し得る。また、顔構造推定装置10は、学習に適した顔画像sFIおよび顔構造gFSの選別を、評価部17が算出する妥当性に基づくので、多数の学習データそれぞれに正解ラベルの付与が不要となるのでアノテーションコストの増加を低減し得る。
 本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。
 例えば、本実施形態において、個人用推定部19は、特定の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSを用いて学習することにより独立して構築されるが、このような構成に限定されない。個人用推定部19は、他の個人に対応する個人用推定部19に基づいて構築されてよい。
 例えば、個人用推定部19は、特徴抽出部および推論部を含んでよい。特徴抽出部は、例えば、CNN(Convolutional Neural Network)であり、取得した顔画像sFIにおいて、特徴抽出を行う。特徴抽出部は、例えば、顔画像sFIの輝度に基づいて、特徴を抽出する。抽出する特徴は、例えば、特徴マップである。特徴抽出部は、例えば、顔画像sFIの輝度に基づいて特徴抽出を行う。推論部は特徴抽出部が抽出した特徴に基づいて、顔構造gFSを推定する。
 図14に示すように、特定の個人に対応する特徴抽出部(以後、「特定抽出部」と呼ぶ。)21は、当該特定抽出部21に対応する特定の個人以外の個人に対応する個人用推定部19の特徴抽出部(以後、「特定以外抽出部」と呼ぶ。)22から特徴を取得してよい。特定以外抽出部22は、特定抽出部21に対応する特定の個人の顔画像sFIに基づいて抽出する特徴Fを、特定抽出部21に付与する。特定抽出部21は、当該特定抽出部21が一次的に抽出する特徴、および特定以外抽出部22から取得した特徴Fに基づいて、出力用の二次的な特徴を生成してよい。推論部23は、出力用の特徴に基づいて、特定の個人の顔構造gFSを推定してよい。
 特定抽出部21は、例えば、平均化などにより、二次的な特徴を生成する。特定以外抽出部22は、特定以外抽出部22のlayer毎に生成する特徴Fを、特定抽出部21に付与してよい。特定抽出部22は、layer毎に取得する特徴Fと、特定抽出部21の対応するlayerにおいて生成する特徴とに基づいて、特定抽出部21の次のlayerで用いる特徴を生成してよい。
 または、図15に示すように、特定抽出部21は、不特定の個人に対応する個人用推定部19または汎用推定部18の特徴抽出部(以下、「不特定抽出部」と呼ぶ。)24から特徴を取得してよい。不特定抽出部24は、特定抽出部21に対応する特定の個人の顔画像sFIに基づいて抽出する特徴Fを、特定抽出部21に付与する。特定抽出部21は、当該特定抽出部21が一次的に抽出する特徴、および不特定抽出部24から取得した特徴Fに基づいて、出力用の二次的な特徴を生成してよい。推論部23は、出力用の特徴マップに基づいて、特定の個人の顔構造gFSを推定してよい。
 特定抽出部21は、例えば、平均化などにより二次的な特徴を生成する。不特定抽出部24は、不特定抽出部24のlayer毎に生成する特徴Fを、特定抽出部21に付与してよい。特定抽出部22は、layer毎に取得する特徴Fと、特定抽出部21の対応するlayerにおいて生成する特徴とに基づいて、特定抽出部21の次のlayerで用いる特徴を生成してよい。
 新規に個人用推定部19を構築する場合、特定抽出部21は、既に構築済みの特定以外抽出部22の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。
 前述の個人用推定部19の構築時と同じく、特定抽出部21および推論部23は、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、学習することにより構築される。
 図16に示すように、特定抽出部21を構築する際に、対応する特定の個人以外の個人用に構築済みである個人用推定部19は、当該特定の個人に対する複数の組CB5中の顔画像sFIに基づいて、顔構造gFSを推定する。また、当該個人用推定部19の特徴抽出部、すなわち特定以外抽出部22は、当該顔画像sFIに基づいて特徴Fを生成する。特定以外抽出部22は、layer毎に特徴Fを生成してよい。
 学習中の特定抽出部25は、当該学習中の特定抽出部25が顔画像sFIに基づいて一次的に抽出する特徴、および特定以外抽出部22から取得した特徴Fに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部25は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部26は、学習中の特定抽出部25から取得する特徴に基づいて、学習中の顔構造tgFSを推定する。
 制御部13は、学習中の顔構造tgFSと、複数の組CB5中の疑似的なラベル付き顔構造vlFSとの第1の差分losstargetを算出する。また、制御部13は、学習中の顔構造tgFSと、構築済みである個人用推定部19それぞれが推定した顔構造gFSとの第2の差分lossassistanceを算出する。制御部13は、第1の差分losstargetと、それぞれに重みづけをした第2の差分lossassistanceとを合計することにより、(1)式に示す、全体差分lossfinalを算出する。
Figure JPOXMLDOC01-appb-M000001
(1)式において、γ、βは重みづけ係数である。γ、βは、1未満であってよく、さらには、0.5以下であってよく、さらには、重みづけ係数の合計値が0.5以下であってよい。
 制御部13は、全体差分lossfinalが最小化するように、学習することにより、特定抽出部21および推論部23を構築する。なお、上述の特定抽出部21および推論部23の構築において、特定抽出部21に対応する特定の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSの複数の組CB5に加えて、当該特定の個人以外の個人の顔画像sFIおよび疑似的なラベル付き顔構造vlFSも学習に用いられてよい。
 または、新規に個人用推定部19を構築する場合、特定抽出部21は、既に構築済みの不特定抽出部24の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。
 前述の個人用推定部19の構築時と同じく、特定抽出部21および推論部23は、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、学習することにより構築される。
 図17に示すように、特定抽出部21を構築する際に、不特定の個人用に構築済みである個人用推定部19、または汎用推定部18は、当該特定の個人に対する複数の組CB5中の顔画像sFIに基づいて、顔構造gFSを推定する。また、当該個人用推定部19または汎用推定部18の特徴抽出部、すなわち不特定抽出部24は、当該顔画像sFIに基づいて特徴Fを生成する。不特定抽出部24は、layer毎に特徴Fを生成してよい。
 学習中の特定抽出部25は、当該学習中の特定抽出部25が顔画像sFIに基づいて一次的に抽出する特徴、および不特定抽出部24から取得した特徴Fに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部25は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部26は、学習中の特定抽出部25から取得する特徴に基づいて、学習中の顔構造tgFSを推定する。
 制御部13は、学習中の顔構造tgFSと、複数の組CB5中の疑似的なラベル付き顔構造vlFSとの第1の差分losstargetを算出する。また、制御部13は、学習中の顔構造tgFSと、構築済みである個人用推定部19または汎用推定部18が推定した顔構造gFSとの第2の差分lossassistanceを算出する。制御部13は、第1の差分losstargetと、重みづけをした第2の差分lossassistanceとを合計することにより、(2)式に示す、全体差分lossfinalを算出する。
Figure JPOXMLDOC01-appb-M000002
(2)式において、γは重みづけ係数である。γは、1未満であってよく、さらには、0.5以下であってよい。
 制御部13は、全体差分lossfinalが最小化するように、学習することにより、特定抽出部21および推論部23を構築する。
 なお、不特定の個人に対応する個人用推定部19は、公開されている顔画像および当該顔画像に対するラベル付き顔構造の複数の組を用いた学習により構築されていてよい。不特定の個人に対応する個人用推定部19は、汎用推定部18とは別に構築されていてよい。汎用推定部18とは別に構築されている不特定の個人に対応する個人用推定部19には、特定の個人に対する疑似的なラベル付き顔構造vlFSとして妥当性が閾値以上である顔構造gFSと顔画像sFIとの複数の組CB5を用いて、さらに学習が進められてよい。
 以上のような、個人用推定部19が、他の個人に対応する個人用推定部19に基づいて構築されることにより、顔構造gFSの推定精度がさらに向上する。
 10 顔構造推定装置
 11 取得部
 12 メモリ
 13 制御部
 14 カメラ
 15 識別部
 16 推定部
 17 評価部
 18 汎用推定部
 18a 一次的な汎用推定部
 19 個人用推定部
 20 外部機器
 21 特定抽出部
 22 特定以外抽出部
 23 推論部
 24 不特定抽出部
 25 学習中の特定抽出部
 26 学習中の推論部
 CB1 顔画像およびラベル付き顔構造の組
 CB2 顔画像、ラベル付き顔構造、および妥当性の組
 CB3 顔画像および疑似的なラベル付き顔構造の組
 CB4 顔画像、疑似的なラベル付き顔構造、および妥当性の組
 CB5 特定の個人の顔画像および疑似的なラベル付き顔構造の組
 F 特徴
 FI 顔画像 gFS 推定された顔構造
 lFS ラベル付き顔構造
 sFI 特定の個人の顔画像
 tgFS 学習中の顔構造
 vlFS 疑似的なラベル付き顔構造

Claims (6)

  1.  顔画像を取得する取得部と、
     前記顔画像の顔構造を出力する制御部と、を備え、
     前記制御部は、
     前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
     前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
     顔構造推定装置。
  2.  請求項1に記載の顔構造推定装置において、
     前記推定部は、複数の個人用推定部を有し、
     前記取得部が取得した顔画像に対して、前記識別部により識別された個人に対して学習された前記個人用推定部により顔構造が推定される
     顔構造推定装置。
  3.  請求項2に記載の顔構造推定装置において、
     前記推定部は、学習済みの汎用推定部を有し、
     前記個人用推定部は、前記汎用推定部が推定する顔構造に対する評価部による妥当性が閾値以上である顔構造および顔画像を用いて学習する
     顔構造推定装置。
  4.  請求項2または3に記載の顔構造推定装置において、
     前記個人用推定部は特徴抽出部を有し、該特徴抽出部は該個人用推定部に対応する個人以外の人に対応する特徴抽出部の抽出結果に基づいて前記顔画像の特徴点を抽出する
     顔構造推定装置。
  5.  顔画像を取得する取得工程と、
     前記顔画像の顔構造を出力する出力工程と、を備え、
     前記出力工程は、
     前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
     前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
     前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
     前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む
     顔構造推定方法。
  6.  コンピュータを、
     顔画像を取得する取得部と、
     前記顔画像の顔構造を出力する制御部と、として機能させ、
     前記制御部は、
     前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
     前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
     顔構造推定プログラム。
     
PCT/JP2021/021274 2020-06-19 2021-06-03 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム WO2021256289A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21825288.0A EP4170584A4 (en) 2020-06-19 2021-06-03 FACIAL STRUCTURE ESTIMATION DEVICE, FACIAL STRUCTURE ESTIMATION METHOD, AND FACIAL STRUCTURE ESTIMATION PROGRAM
CN202180043264.3A CN115699106A (zh) 2020-06-19 2021-06-03 脸部构造推定装置、脸部构造推定方法以及脸部构造推定程序
US18/000,795 US20230222815A1 (en) 2020-06-19 2021-06-03 Facial structure estimating device, facial structure estimating method, and facial structure estimating program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-106443 2020-06-19
JP2020106443A JP7345436B2 (ja) 2020-06-19 2020-06-19 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

Publications (1)

Publication Number Publication Date
WO2021256289A1 true WO2021256289A1 (ja) 2021-12-23

Family

ID=79244739

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/021274 WO2021256289A1 (ja) 2020-06-19 2021-06-03 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

Country Status (5)

Country Link
US (1) US20230222815A1 (ja)
EP (1) EP4170584A4 (ja)
JP (1) JP7345436B2 (ja)
CN (1) CN115699106A (ja)
WO (1) WO2021256289A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232934A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 顔画像登録装置及びその方法
JP2018156451A (ja) * 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム
WO2019176994A1 (ja) 2018-03-14 2019-09-19 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
JP2020106443A (ja) 2018-12-28 2020-07-09 スタンレー電気株式会社 路面状態検知システム及び路面状態検知方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232934A (ja) * 1997-02-18 1998-09-02 Toshiba Corp 顔画像登録装置及びその方法
JP2018156451A (ja) * 2017-03-17 2018-10-04 株式会社東芝 ネットワーク学習装置、ネットワーク学習システム、ネットワーク学習方法およびプログラム
WO2019176994A1 (ja) 2018-03-14 2019-09-19 オムロン株式会社 顔画像識別システム、識別器生成装置、識別装置、画像識別システム、及び識別システム
JP2020106443A (ja) 2018-12-28 2020-07-09 スタンレー電気株式会社 路面状態検知システム及び路面状態検知方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4170584A4

Also Published As

Publication number Publication date
JP2022002004A (ja) 2022-01-06
CN115699106A (zh) 2023-02-03
EP4170584A4 (en) 2024-03-27
JP7345436B2 (ja) 2023-09-15
EP4170584A1 (en) 2023-04-26
US20230222815A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
CN110588653B (zh) 自主车辆的控制系统、控制方法以及控制器
Habenicht et al. A maneuver-based lane change assistance system
US20210004966A1 (en) Method for the Assessment of Possible Trajectories
WO2021256289A1 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
CN113382908A (zh) 用于获取车辆动作预测的系统及相应方法
CN113139567B (zh) 信息处理装置及其控制方法、车辆、记录介质、信息处理服务器、信息处理方法
US11345354B2 (en) Vehicle control device, vehicle control method and computer-readable medium containing program
WO2022044210A1 (ja) 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム
JP7224550B2 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
CN109614843A (zh) 色彩学习
US11354784B2 (en) Systems and methods for training a non-blind image deblurring module
WO2021256288A1 (ja) 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム
US20200143181A1 (en) Automated Vehicle Occupancy Detection
Xu et al. Roadside estimation of a vehicle’s center of gravity height based on an improved single-stage detection algorithm and regression prediction technology
JP7160867B2 (ja) 電子機器、情報処理装置、推定方法、および推定プログラム
JP2022088962A (ja) 電子機器、情報処理装置、集中度算出プログラム、及び集中度算出方法
DE102020201851A1 (de) Verfahren zum Betreiben eines Assistenzsystems, sowie Assistenzsystem
CN114639125B (zh) 基于视频图像的行人意图预测方法、装置及电子设备
CN111357011A (zh) 环境感知方法、装置以及控制方法、装置和车辆
JP2018200579A (ja) 画像処理装置、画像処理システム、カメラ装置、移動体、画像処理方法、および画像処理用プログラム
JP7502051B2 (ja) 情報処理装置
EP4332885A1 (en) Electronic device, control method for electronic device, and program
US20240062550A1 (en) Method for Providing a Neural Network for Directly Validating an Environment Map in a Vehicle by Means of Sensor Data
DE102017201603A1 (de) Verfahren und Steuereinheit zur Ermittlung der Position eines Gesichtspunktes
CN115578720A (zh) 人体动作识别的方法、装置、存储介质和车辆

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21825288

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021825288

Country of ref document: EP

Effective date: 20230119

NENP Non-entry into the national phase

Ref country code: DE