WO2021256289A1

WO2021256289A1 - 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

Info

Publication number: WO2021256289A1
Application number: PCT/JP2021/021274
Authority: WO
Inventors: ジェチョルキム; 陽平船津
Original assignee: 京セラ株式会社
Priority date: 2020-06-19
Filing date: 2021-06-03
Publication date: 2021-12-23
Also published as: JP2022002004A; CN115699106A; EP4170584A4; JP7345436B2; EP4170584A1; US20230222815A1

Abstract

顔構造推定装置１０は取得部１１と制御部１３とを有する。取得部１１は顔画像を取得する。制御部１３は識別部１５と推定部１６と評価部１７ととして機能する。識別部１５は顔画像に基づき個人を識別する。推定部１６は顔画像に基づき顔構造を推定する。評価部１７は推定部１６が推定する顔構造の妥当性を算出する。評価部１７は妥当性が閾値以上である顔構造および顔画像を推定部１６の学習に適用させる。制御部１３は妥当性が閾値以上である顔構造および顔画像の推定部１６の学習への適用を識別部１５による個人の識別結果に基づかせる。

Description

顔構造推定装置、顔構造推定方法、および顔構造推定プログラム

関連出願の相互参照

　本出願は、２０２０年６月１９日に日本国に特許出願された特願２０２０－１０６４４３の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。

　本発明は、顔構造推定装置、顔構造推定方法、および顔構造推定プログラムに関するものである。

　例えば、眠気のある乗員に対して休息を促したり、自動運転に移行するなど、車内の運転手の状態に応じて、多様な機能を実行させる装置などが検討されている。このような装置においては、乗員の状態を簡易に認識することが求められている。乗員のように人の状態は、状態に応じた顔構造を推定することにより把握することが検討されている。例えば、深層学習により、顔画像から顔構造を推定することが知られている（特許文献１参照）。

国際公開２０１９－１７６９９４号公報

　上述した諸課題を解決すべく、第１の観点による顔構造推定装置は、
　顔画像を取得する取得部と、
　前記顔画像の顔構造を出力する制御部と、を備え、
　前記制御部は、
　前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。

　第２の観点による顔構造推定方法は、
　顔画像を取得する取得工程と、
　前記顔画像の顔構造を出力する出力工程と、を備え、
　前記出力工程は、
　前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
　前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
　前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む。

　第３の観点による顔構造推定プログラムは、
　コンピュータを、
　顔画像を取得する取得部と、
　前記顔画像の顔構造を出力する制御部と、として機能させ、
　前記制御部は、
　前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる。

本実施形態に係る顔構造推定装置の概略構成を示すブロック図である。図１の汎用推定部を一次的に構築するための学習を説明する概念図である。図１の汎用推定部による顔構造とラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。図１の評価部を一次的に構築するための学習を説明する概念図である。図１の汎用推定部を二次的に構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。図１の汎用推定部を二次的に構築するための学習を説明する概念図である。図１の汎用推定部による顔構造と疑似的なラベル付き顔構造に基づく、正解となる妥当性の算出方法を説明する概念図である。図１の評価部を二次的に構築するための学習を説明する概念図である。図１の識別部を構築するための学習を説明する概念図である。図１の個人用推定部を構築するための顔画像と疑似的なラベル付き顔構造の組の生成を説明する概念図である。図１の個人用推定部を構築するための学習を説明する概念図である。図１の制御部が実行する構築処理を説明するためのフローチャートである。図１の制御部が実行する推定処理を説明するためのフローチャートである。特定以外抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。不特定抽出部の生成する特徴を用いた特定抽出部による二次的な特徴の生成を説明する概念図である。特定以外抽出部を用いた特定抽出部の学習を説明する概念図である。不特定抽出部を用いた特定抽出部の学習を説明する概念図である。

　以下、本開示を適用した顔構造推定装置の実施形態について、図面を参照して説明する。なお、以下の本開示を適用した顔構造推定装置の実施形態の説明は、本開示を適用した、顔構造推定方法、および顔構造推定プログラムの実施形態の説明を兼ねる。

　本開示の一実施形態に係る顔構造推定装置は、例えば、移動体に設けられる。移動体は、例えば車両、船舶、および航空機等を含んでよい。車両は、例えば自動車、産業車両、鉄道車両、生活車両、および滑走路を走行する固定翼機等を含んでよい。自動車は、例えば乗用車、トラック、バス、二輪車、およびトロリーバス等を含んでよい。産業車両は、例えば農業および建設向けの産業車両等を含んでよい。産業車両は、例えばフォークリフトおよびゴルフカート等を含んでよい。農業向けの産業車両は、例えばトラクター、耕耘機、移植機、バインダー、コンバイン、および芝刈り機等を含んでよい。建設向けの産業車両は、例えばブルドーザー、スクレーバー、ショベルカー、クレーン車、ダンプカー、およびロードローラ等を含んでよい。車両は、人力で走行するものを含んでよい。車両の分類は、上述した例に限られない。例えば、自動車は、道路を走行可能な産業車両を含んでよい。複数の分類に同じ車両が含まれてよい。船舶は、例えばマリンジェット、ボート、およびタンカー等を含んでよい。航空機は、例えば固定翼機および回転翼機等を含んでよい。

　図１に示すように、本開示の一実施形態に係る顔構造推定装置１０は、取得部１１、メモリ１２、および制御部１３を含んで構成される。

　取得部１１は、例えば、カメラ１４が撮像した乗員の顔の画像である顔画像を取得する。なお、カメラ１４は、例えば、運転席などの移動体の特定の位置にいる乗員の顔周辺を撮像可能な位置に取付けられる。また、カメラ１４は、例えば、３０ｆｐｓで顔画像を撮像する。

　メモリ１２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）およびＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）など、任意の記憶デバイスを含む。メモリ１２は、制御部１３を機能させる多様なプログラム、および制御部１３が用いる多様な情報を記憶する。

　制御部１３は、１以上のプロセッサおよびメモリを含む。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、および特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けＩＣ（ＡＳＩＣ；Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）を含んでよい。プロセッサは、プログラマブルロジックデバイス（ＰＬＤ；Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）を含んでよい。ＰＬＤは、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）を含んでよい。制御部１３は、１つまたは複数のプロセッサが協働するＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）、およびＳｉＰ（Ｓｙｓｔｅｍ　Ｉｎ　ａ　Ｐａｃｋａｇｅ）のいずれかであってもよい。制御部１３は、顔構造推定装置１０の各構成要素の動作を制御する。

　制御部１３は、取得部１１が取得した顔画像の顔構造を外部機器２０に出力する。顔構造は、人の状態に応じて変化する表情などを特定する特徴であって、例えば、顎先などのように顔の輪郭上において定義づけられる点の集合体、目頭および目じりのように目の輪郭上において定義づけられる点の集合体、鼻尖から鼻根までの鼻梁において定義づけられる点の集合体などである。制御部１３による顔構造の出力について、以下に詳細に説明する。制御部１３は、識別部１５、推定部１６、および評価部１７として機能する。

　識別部１５は、取得部１１が取得した画像に基づき当該顔画像の個人を識別する。識別部１５は、例えば、多層構造のニューラルネットワークにより構成されている。識別部１５は、後述するように、教師あり学習を実施することにより構築される。

　推定部１６は、取得部１１が取得した顔画像に基づき、当該顔画像の構造を推定する。推定部１６は、例えば、汎用推定部１８および個人用推定部１９を含む。汎用推定部１８は、識別部１５が識別できない不特定の個人の顔画像に基づいて、顔構造を推定する。個人用推定部１９は、識別部１５が識別した個人に対応するように選択され、識別部１５が識別した当該個人の顔画像に基づいて、当該個人の顔構造を推定する。個人用推定部１９が推定した顔構造が、制御部１３から出力される。汎用推定部１８および個人用推定部１９は、例えば、多層構造のニューラルネットワークにより構成されている。汎用推定部１８および個人用推定部１９は、後述するように、教師あり学習を実施することにより構築される。

　評価部１７は、推定部１６が推定する顔構造の妥当性を判別する。評価部１７は、妥当性が閾値以上である顔構造および顔画像を推定部１６の学習に適用させる。後述するように、妥当性が閾値以上である顔構造および顔画像の推定部１６の学習への適用は、識別部１５による個人の識別結果に基づく。評価部１７は、例えば、多層構造のニューラルネットワークにより構成されている。評価部１７は、教師あり学習を実施することにより構築される。

　以下に、識別部１５、推定部１６、および評価部１７の教師あり学習について説明する。汎用推定部１８および評価部１７の構築には、顔構造推定装置１０の製造時に、教師あり学習が実行される。したがって、顔構造推定装置１０の使用時に、汎用推定部１８および評価部１７は学習済みである。識別部１５および個人用推定部１９の構築には、顔構造推定装置１０の使用中に、教師あり学習が実行される。

　汎用推定部１８および評価部１７の構築について、以下に説明する。機械学習による汎用推定部１８および評価部１７の構築には、顔画像、および当該顔画像に対するラベル付き顔構造の複数の組が用いられる。ラベル付き顔構造は、顔画像に対する正解である顔構造である。ラベル付き顔構造は、例えば、前述のような定義に基づいて、人の判断により作成される。

　図２に示すように、一次的な汎用推定部１８ａは、ラベル付き顔構造ｌＦＳを顔画像ＦＩに対する正解として用いて、教師あり学習を行うことにより構築される。図３に示すように、構築された一次的な汎用推定部１８は、当該複数の組ＣＢ１に含まれる顔画像ＦＩから顔構造ｇＦＳを推定する。

　制御部１３は、推定された顔構造ｇＦＳの妥当性を、顔構造ｇＧＳの推定に用いた顔画像ＦＩに対応するラベル付き顔構造ｌＦＳを用いて算出する。妥当性は、推定された顔構造ｇＦＳのラベル付き顔構造ｌＦＳとの一致性であり、例えば、推定された顔構造ｇＦＳを構成する点とラベル付き顔構造ｌＦＳを構成する点との距離が大きくなるほど低く、ゼロに近づくほど高くなるように算出される。

　図４に示すように、顔画像ＦＩ、ラベル付き顔構造ｌＦＳ、および妥当性の複数の組ＣＢ２が一次的な評価部１７ａの構築に用いられる。妥当性を顔画像ＦＩおよびラベル付き顔構造ｌＦＳの正解として用いて、教師あり学習を行うことにより一次的な評価部１７ａが構築される。

　一次的な汎用推定部１８ａに対してさらに機械学習が進められてもよい。一次的な汎用推定部１８ａのさらなる機械学習には、ラベル付き顔構造ｌＦＳのない、単なる顔画像ＦＩが用いられる。

　図５に示すように、さらなる機械学習のために、一次的な汎用推定部１８ａは、顔画像ＦＩに基づいて、当該顔画像ＦＩの顔構造ｇＦＳを推定する。評価部１７は、顔画像ＦＩおよび推定された顔構造ｇＦＳに基づいて、推定された顔構造ｇＦＳの妥当性を算出する。算出された妥当性が閾値以上である場合、推定された顔構造ｇＦＳは疑似的なラベル付き顔構造ｖｌＦＳとして、顔画像ＦＩと組合せられる。真のラベル付き顔構造ｌＦＳのある顔画像ＦＩよりも多数の顔画像ＦＩを用いて顔構造ｇＦＳの推定が行われ、疑似的なラベル付き顔構造ｖｌＦＳと顔画像ＦＩの組ＣＢ３が生成される。

　図６に示すように、顔画像ＦＩおよび疑似的なラベル付き顔構造ｖｌＦＳの複数の組ＣＢ３を用いて、一次的な汎用推定部１８ａに対して教師あり学習が進められ、二次的な汎用推定部１８ｂが構築される。二次的な汎用推定部１８ｂが構築された場合、当該二次的な汎用推定部１８ｂを構成するためのデータが生成され、制御部１３は当該データに基づいて汎用推定部１８として機能する。二次的な汎用推定部１８ｂが構築されない場合、一次的な汎用推定部１８ａを構成するためのデータが生成され、制御部１３は当該データに基づいて汎用推定部１８として機能する。

　一次的な評価部１７ａに対してさらに機械学習が進められてもよい。一次的な評価部１７ａのさらなる機械学習には、顔画像ＦＩおよび疑似的なラベル付き顔構造ｖｌＦＳの組ＣＢ３が用いられる。図７に示すように、さらなる機械学習のために、二次的な汎用推定部１８ｂは、疑似的なラベル付き顔構造ｖｌＦＳと組合された顔画像ＦＩに基づいて、当該顔画像ＦＩの顔構造ｇＦＳを推定する。推定された顔構造ｇＦＳの妥当性が、顔画像ＦＩに対応する疑似的なラベル付き顔構造ｖｌＦＳを用いて算出される。

　図８に示すように、顔画像ＦＩ、疑似的なラベル付き顔構造ｖｌＦＳ、および妥当性の複数の組ＣＢ４を用いて、一次的な評価部１７ａに対して教師あり学習が進められ、二次的な評価部１７ｂが構築される。二次的な評価部１７ｂが構築された場合、当該二次的な評価部１７ｂを構成するためのデータが生成され、制御部１３は当該データに基づいて評価部１７として機能する。二次的な評価部１７ｂが構築されない場合、一次的な評価部１７ａを構成するためのデータが生成され、制御部１３は当該データに基づいて評価部１７として機能する。

　識別部１５の構築について、以下に説明する。例えば、新規な乗員がカメラ１４により撮像される場合、識別部１５を構築するための機械学習が行われる。制御部１３は、識別部１５が顔画像ＦＩから個人を特定できないとき、または顔構造推定装置１０の入力部が新規な乗員であることの入力を検出するときに、カメラ１４により撮像された顔画像ＦＩが新規な乗員であると判別して、機械学習を行う。図９に示すように、識別部１５は、カメラ１４が例えば３０ｆｐｓで撮像する特定の個人の複数の顔画像ｓＦＩに対して新規に作成する識別名を正解として機械学習を行うことにより、当該個人を識別可能な識別部１５として構築される。識別部１５は、新規な乗員がカメラ１４により撮像される度に、教師あり学習が進められ、学習済みの複数の個人を特定可能に構築される。識別部１５が構築されるたびに、識別部１５を構成するためのデータが生成され、制御部１３は当該データに基づいて識別部１５として機能する。

　個人用推定部１９の構築について、以下に説明する。前述のように、新規な乗員である個人を特定可能な識別部１５が構築された後、当該個人に対応する個人用推定部１９の新規な構築が開始される。図１０に示すように、個人用推定部１９の構築のために、汎用推定部１８は、当該個人の顔画像ｓＦＩに基づいて、当該顔画像ｓＦＩの顔構造ｇＦＳを推定する。評価部１７は、当該個人の顔画像ｓＦＩおよび推定された顔構造ｆＦＳに基づいて、推定された顔構造ｇＦＳの妥当性を算出する。算出された妥当性が閾値以上である場合、評価部１７は、顔画像ｓＦＩおよび顔構造ｇＦＳを、識別部１５が識別可能となった個人に対応する個人用推定部１９を構築するための学習に適用する。言い換えると、識別部１５による個人の識別結果に基づいて、妥当性が閾値以上である顔構造ｇＦＳおよび顔画像ｓＦＩが推定部１６の学習に適用される。評価部１７は、疑似的なラベル付き顔構造ｖｌＦＳとして妥当性が閾値以上である顔構造ｇＦＳと顔画像ｓＦＩとの複数の組ＣＢ５を生成する。図１１に示すように、生成された複数の組ＣＢ５それぞれにおいて、顔構造ｖｌＦＳを顔画像ｓＦＩに対する正解として用いて教師あり学習を行うことにより、個人用推定部１９が構築される。特定の個人に対応した個人用推定部１９が構築される場合、当該個人用推定部１９を構成するためのデータが生成され、制御部１３は当該データに基づいて個人用推定部１９として機能する。

　次に、本実施形態において制御部１３が実行する、構築処理について、図１２のフローチャートを用いて説明する。構築処理は、上述のように新規な乗員がカメラ１４により撮像されるときに開始する。

　ステップＳ１００において、制御部１３は、新規な乗員の識別名を正解として特定の個人の顔画像ｓＦＩの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップＳ１０１に進む。

　ステップＳ１０１では、制御部１３は、ステップＳ１００における教師あり学習により構築される、新規な個人を識別可能な識別部１５を構成するためのデータをメモリ１２に格納する。格納後、プロセスはステップＳ１０２に進む。

　ステップＳ１０２では、制御部１３は、１フレームの特定の個人の顔画像ｓＦＩに基づく当該個人の顔構造ｇＦＳの推定を汎用推定部１８に実行させる。推定後、プロセスはステップＳ１０３に進む。

　ステップＳ１０３では、制御部１３は、ステップＳ１０２において推定した顔構造ｇＦＳの妥当性の算出を、評価部１７に実行させる。算出後、プロセスはステップＳ１０４に進む。

　ステップＳ１０４では、制御部１３は、ステップＳ１０３において算出した妥当性が閾値以上であるか否かを判別する。閾値以上である場合、プロセスはステップＳ１０５に進む。閾値以上でない場合、プロセスはステップＳ１０６に進む。

　ステップＳ１０５では、制御部１３は、ステップＳ１０２において顔構造ｇＦＳの推定に用いた特定の個人の顔画像ｓＦＩと当該顔構造ｇＦＳとを組合せる。組合せ後、プロセスはステップＳ１０７に進む。

　ステップＳ１０６では、制御部１３は、ステップＳ１０２において顔構造ｇＦＳの特定に用いた、１フレームの特定の個人の顔画像ｓＦＩおよび当該顔構造ｇＦＳを廃棄する。廃棄後、プロセスはステップＳ１０７に進む。

　ステップＳ１０７では、制御部１３は、特定の個人の顔画像ｓＦＩおよび顔構造ｇＦＳの組ＣＢ４が十分に蓄積されているか否かを判別する。十分に蓄積されているか否かは、例えば、組ＣＢ４の数が閾値を超えるか否かによって判別されてよい。十分に蓄積されていない場合、プロセスはステップＳ１０２に戻る。十分に蓄積されている場合、プロセスはステップＳ１０８に進む。なお、本実施形態において、ステップＳ１０７を実行することなく、ステップＳ１０８に進んでもよい。

　ステップＳ１０８では、制御部１３は、組ＣＢ４における顔構造ｇＦＳを疑似的なラベル付き顔構造ｖｌＦＳとする正解として、特定の個人の顔画像ｓＦＩの教師あり学習を実行する。教師あり学習の実行後、プロセスはステップＳ１０９に進む。

　ステップＳ１０９では、制御部１３は、ステップＳ１０８における教師あり学習により構築される、新規な個人に対応する個人用推定部１９を構成するためのデータをメモリ１２に格納する。格納後、構築処理は終了する。

　次に、本実施形態において制御部１３が実行する、推定処理について、図１３のフローチャートを用いて説明する。推定処理は、新規でない乗員がカメラ１４により撮像されるときに開始する。

　ステップＳ２００において、制御部１３は、カメラ１４により撮像された顔画像ＦＩに基づいた個人の識別を、識別部１５に実行させる。識別後、プロセスはステップＳ２０１に進む。

　ステップＳ２０１では、制御部１３は、ステップＳ２００で識別した個人に対応する個人用推定部１９を選択する。選択後、プロセスはステップＳ２０２に進む。

　ステップＳ２０２では、制御部１３は、ステップＳ２００において個人の識別に用いた顔画像ＦＩに基づいた顔構造ｇＦＳの推定を、ステップＳ２０１において選択した個人用推定部１９に実行させる。推定後、プロセスはステップＳ２０３に進む。

　ステップＳ２０３では、制御部１３は、ステップＳ２０２において推定した顔構造ｇＦＳを外部機器２０に出力する。出力後、推定処理は終了する。

　以上のような構成の本実施形態の顔構造推定装置１０は、妥当性が閾値以上である顔構造ｇＦＳおよび顔画像ＦＩの推定部１６への学習への適用を識別部１５による個人の識別結果に基づかせる。このような構成により、顔構造推定装置１０は、学習に適した顔画像ｓＦＩおよび顔構造ｇＦＳを選別して、推定部１６を学習させ得るので、顔画像ＦＩに基づく顔構造ｇＦＳの推定精度を向上し得る。また、顔構造推定装置１０は、学習に適した顔画像ｓＦＩおよび顔構造ｇＦＳの選別を、評価部１７が算出する妥当性に基づくので、多数の学習データそれぞれに正解ラベルの付与が不要となるのでアノテーションコストの増加を低減し得る。

　本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。

　例えば、本実施形態において、個人用推定部１９は、特定の個人の顔画像ｓＦＩおよび疑似的なラベル付き顔構造ｖｌＦＳを用いて学習することにより独立して構築されるが、このような構成に限定されない。個人用推定部１９は、他の個人に対応する個人用推定部１９に基づいて構築されてよい。

　例えば、個人用推定部１９は、特徴抽出部および推論部を含んでよい。特徴抽出部は、例えば、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）であり、取得した顔画像ｓＦＩにおいて、特徴抽出を行う。特徴抽出部は、例えば、顔画像ｓＦＩの輝度に基づいて、特徴を抽出する。抽出する特徴は、例えば、特徴マップである。特徴抽出部は、例えば、顔画像ｓＦＩの輝度に基づいて特徴抽出を行う。推論部は特徴抽出部が抽出した特徴に基づいて、顔構造ｇＦＳを推定する。

　図１４に示すように、特定の個人に対応する特徴抽出部（以後、「特定抽出部」と呼ぶ。）２１は、当該特定抽出部２１に対応する特定の個人以外の個人に対応する個人用推定部１９の特徴抽出部（以後、「特定以外抽出部」と呼ぶ。）２２から特徴を取得してよい。特定以外抽出部２２は、特定抽出部２１に対応する特定の個人の顔画像ｓＦＩに基づいて抽出する特徴Ｆを、特定抽出部２１に付与する。特定抽出部２１は、当該特定抽出部２１が一次的に抽出する特徴、および特定以外抽出部２２から取得した特徴Ｆに基づいて、出力用の二次的な特徴を生成してよい。推論部２３は、出力用の特徴に基づいて、特定の個人の顔構造ｇＦＳを推定してよい。

　特定抽出部２１は、例えば、平均化などにより、二次的な特徴を生成する。特定以外抽出部２２は、特定以外抽出部２２のｌａｙｅｒ毎に生成する特徴Ｆを、特定抽出部２１に付与してよい。特定抽出部２２は、ｌａｙｅｒ毎に取得する特徴Ｆと、特定抽出部２１の対応するｌａｙｅｒにおいて生成する特徴とに基づいて、特定抽出部２１の次のｌａｙｅｒで用いる特徴を生成してよい。

　または、図１５に示すように、特定抽出部２１は、不特定の個人に対応する個人用推定部１９または汎用推定部１８の特徴抽出部（以下、「不特定抽出部」と呼ぶ。）２４から特徴を取得してよい。不特定抽出部２４は、特定抽出部２１に対応する特定の個人の顔画像ｓＦＩに基づいて抽出する特徴Ｆを、特定抽出部２１に付与する。特定抽出部２１は、当該特定抽出部２１が一次的に抽出する特徴、および不特定抽出部２４から取得した特徴Ｆに基づいて、出力用の二次的な特徴を生成してよい。推論部２３は、出力用の特徴マップに基づいて、特定の個人の顔構造ｇＦＳを推定してよい。

　特定抽出部２１は、例えば、平均化などにより二次的な特徴を生成する。不特定抽出部２４は、不特定抽出部２４のｌａｙｅｒ毎に生成する特徴Ｆを、特定抽出部２１に付与してよい。特定抽出部２２は、ｌａｙｅｒ毎に取得する特徴Ｆと、特定抽出部２１の対応するｌａｙｅｒにおいて生成する特徴とに基づいて、特定抽出部２１の次のｌａｙｅｒで用いる特徴を生成してよい。

　新規に個人用推定部１９を構築する場合、特定抽出部２１は、既に構築済みの特定以外抽出部２２の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。

　前述の個人用推定部１９の構築時と同じく、特定抽出部２１および推論部２３は、特定の個人に対する疑似的なラベル付き顔構造ｖｌＦＳとして妥当性が閾値以上である顔構造ｇＦＳと顔画像ｓＦＩとの複数の組ＣＢ５を用いて、学習することにより構築される。

　図１６に示すように、特定抽出部２１を構築する際に、対応する特定の個人以外の個人用に構築済みである個人用推定部１９は、当該特定の個人に対する複数の組ＣＢ５中の顔画像ｓＦＩに基づいて、顔構造ｇＦＳを推定する。また、当該個人用推定部１９の特徴抽出部、すなわち特定以外抽出部２２は、当該顔画像ｓＦＩに基づいて特徴Ｆを生成する。特定以外抽出部２２は、ｌａｙｅｒ毎に特徴Ｆを生成してよい。

　学習中の特定抽出部２５は、当該学習中の特定抽出部２５が顔画像ｓＦＩに基づいて一次的に抽出する特徴、および特定以外抽出部２２から取得した特徴Ｆに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部２５は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部２６は、学習中の特定抽出部２５から取得する特徴に基づいて、学習中の顔構造ｔｇＦＳを推定する。

　制御部１３は、学習中の顔構造ｔｇＦＳと、複数の組ＣＢ５中の疑似的なラベル付き顔構造ｖｌＦＳとの第１の差分ｌｏｓｓ_{ｔａｒｇｅｔ}を算出する。また、制御部１３は、学習中の顔構造ｔｇＦＳと、構築済みである個人用推定部１９それぞれが推定した顔構造ｇＦＳとの第２の差分ｌｏｓｓ_{ａｓｓｉｓｔａｎｃｅ}を算出する。制御部１３は、第１の差分ｌｏｓｓ_{ｔａｒｇｅｔ}と、それぞれに重みづけをした第２の差分ｌｏｓｓ_{ａｓｓｉｓｔａｎｃｅ}とを合計することにより、（１）式に示す、全体差分ｌｏｓｓ_{ｆｉｎａｌ}を算出する。

（１）式において、γ、βは重みづけ係数である。γ、βは、１未満であってよく、さらには、０．５以下であってよく、さらには、重みづけ係数の合計値が０．５以下であってよい。

　制御部１３は、全体差分ｌｏｓｓ_{ｆｉｎａｌ}が最小化するように、学習することにより、特定抽出部２１および推論部２３を構築する。なお、上述の特定抽出部２１および推論部２３の構築において、特定抽出部２１に対応する特定の個人の顔画像ｓＦＩおよび疑似的なラベル付き顔構造ｖｌＦＳの複数の組ＣＢ５に加えて、当該特定の個人以外の個人の顔画像ｓＦＩおよび疑似的なラベル付き顔構造ｖｌＦＳも学習に用いられてよい。

　または、新規に個人用推定部１９を構築する場合、特定抽出部２１は、既に構築済みの不特定抽出部２４の抽出結果に基づいて学習される。特徴抽出部の学習について、以下に詳細に説明する。

　図１７に示すように、特定抽出部２１を構築する際に、不特定の個人用に構築済みである個人用推定部１９、または汎用推定部１８は、当該特定の個人に対する複数の組ＣＢ５中の顔画像ｓＦＩに基づいて、顔構造ｇＦＳを推定する。また、当該個人用推定部１９または汎用推定部１８の特徴抽出部、すなわち不特定抽出部２４は、当該顔画像ｓＦＩに基づいて特徴Ｆを生成する。不特定抽出部２４は、ｌａｙｅｒ毎に特徴Ｆを生成してよい。

　学習中の特定抽出部２５は、当該学習中の特定抽出部２５が顔画像ｓＦＩに基づいて一次的に抽出する特徴、および不特定抽出部２４から取得した特徴Ｆに基づいて、出力用の二次的な特徴を生成する。学習中の特定抽出部２５は、例えば、平均化などにより、二次的な特徴を生成する。学習中の推論部２６は、学習中の特定抽出部２５から取得する特徴に基づいて、学習中の顔構造ｔｇＦＳを推定する。

　制御部１３は、学習中の顔構造ｔｇＦＳと、複数の組ＣＢ５中の疑似的なラベル付き顔構造ｖｌＦＳとの第１の差分ｌｏｓｓ_{ｔａｒｇｅｔ}を算出する。また、制御部１３は、学習中の顔構造ｔｇＦＳと、構築済みである個人用推定部１９または汎用推定部１８が推定した顔構造ｇＦＳとの第２の差分ｌｏｓｓ_{ａｓｓｉｓｔａｎｃｅ}を算出する。制御部１３は、第１の差分ｌｏｓｓ_{ｔａｒｇｅｔ}と、重みづけをした第２の差分ｌｏｓｓ_{ａｓｓｉｓｔａｎｃｅ}とを合計することにより、（２）式に示す、全体差分ｌｏｓｓ_{ｆｉｎａｌ}を算出する。

（２）式において、γは重みづけ係数である。γは、１未満であってよく、さらには、０．５以下であってよい。

　制御部１３は、全体差分ｌｏｓｓ_{ｆｉｎａｌ}が最小化するように、学習することにより、特定抽出部２１および推論部２３を構築する。

　なお、不特定の個人に対応する個人用推定部１９は、公開されている顔画像および当該顔画像に対するラベル付き顔構造の複数の組を用いた学習により構築されていてよい。不特定の個人に対応する個人用推定部１９は、汎用推定部１８とは別に構築されていてよい。汎用推定部１８とは別に構築されている不特定の個人に対応する個人用推定部１９には、特定の個人に対する疑似的なラベル付き顔構造ｖｌＦＳとして妥当性が閾値以上である顔構造ｇＦＳと顔画像ｓＦＩとの複数の組ＣＢ５を用いて、さらに学習が進められてよい。

　以上のような、個人用推定部１９が、他の個人に対応する個人用推定部１９に基づいて構築されることにより、顔構造ｇＦＳの推定精度がさらに向上する。

　１０　顔構造推定装置
　１１　取得部
　１２　メモリ
　１３　制御部
　１４　カメラ
　１５　識別部
　１６　推定部
　１７　評価部
　１８　汎用推定部
　１８ａ　一次的な汎用推定部
　１９　個人用推定部
　２０　外部機器
　２１　特定抽出部
　２２　特定以外抽出部
　２３　推論部
　２４　不特定抽出部
　２５　学習中の特定抽出部
　２６　学習中の推論部
　ＣＢ１　顔画像およびラベル付き顔構造の組
　ＣＢ２　顔画像、ラベル付き顔構造、および妥当性の組
　ＣＢ３　顔画像および疑似的なラベル付き顔構造の組
　ＣＢ４　顔画像、疑似的なラベル付き顔構造、および妥当性の組
　ＣＢ５　特定の個人の顔画像および疑似的なラベル付き顔構造の組
　Ｆ　特徴
　ＦＩ　顔画像　ｇＦＳ　推定された顔構造
　ｌＦＳ　ラベル付き顔構造
　ｓＦＩ　特定の個人の顔画像
　ｔｇＦＳ　学習中の顔構造
　ｖｌＦＳ　疑似的なラベル付き顔構造

Claims

　顔画像を取得する取得部と、
　前記顔画像の顔構造を出力する制御部と、を備え、
　前記制御部は、
　前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
　顔構造推定装置。
　請求項１に記載の顔構造推定装置において、
　前記推定部は、複数の個人用推定部を有し、
　前記取得部が取得した顔画像に対して、前記識別部により識別された個人に対して学習された前記個人用推定部により顔構造が推定される
　顔構造推定装置。
　請求項２に記載の顔構造推定装置において、
　前記推定部は、学習済みの汎用推定部を有し、
　前記個人用推定部は、前記汎用推定部が推定する顔構造に対する評価部による妥当性が閾値以上である顔構造および顔画像を用いて学習する
　顔構造推定装置。
　請求項２または３に記載の顔構造推定装置において、
　前記個人用推定部は特徴抽出部を有し、該特徴抽出部は該個人用推定部に対応する個人以外の人に対応する特徴抽出部の抽出結果に基づいて前記顔画像の特徴点を抽出する
　顔構造推定装置。
　顔画像を取得する取得工程と、
　前記顔画像の顔構造を出力する出力工程と、を備え、
　前記出力工程は、
　前記取得工程において取得した顔画像に基づき該顔画像の個人を識別する識別工程と、
　前記取得工程において取得した顔画像に基づき該顔画像の顔構造を推定する推定工程と、
　前記推定工程において推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定工程の学習に適用させる評価工程と、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定工程の学習への適用を前記識別工程による前記個人の識別結果に基づかせる適用工程と、を含む
　顔構造推定方法。
　コンピュータを、
　顔画像を取得する取得部と、
　前記顔画像の顔構造を出力する制御部と、として機能させ、
　前記制御部は、
　前記取得部が取得した顔画像に基づき該顔画像の個人を識別する識別部と、前記取得部が取得した顔画像に基づき該顔画像の顔構造を推定する推定部と、前記推定部が推定する顔構造の妥当性を算出し且つ該妥当性が閾値以上である前記顔構造および前記顔画像を前記推定部の学習に適用させる評価部と、して機能し、
　前記妥当性が閾値以上である顔構造および前記顔画像の前記推定部の学習への適用を、前記識別部による前記個人の識別結果に基づかせる
　顔構造推定プログラム。