WO2023013081A1

WO2023013081A1 - 学習装置、推定装置、学習方法及び学習プログラム

Info

Publication number: WO2023013081A1
Application number: PCT/JP2021/029451
Authority: WO
Inventors: 直弘俵; 厚徳小川; 佑樹北岸; 歩相名神山
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-02-09
Also published as: JPWO2023013081A1

Abstract

学習装置（１０）は、同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部（１１）と、第１のＮＮ（１２１１）を用いて、複数のデータを特徴量ベクトルにそれぞれ変換する特徴量変換部（１２１）と、第２のＮＮ（１２２１）を用いて、特徴量変換部（１２１）によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する年齢推定部（１２２）と、特徴量変換部（１２１）によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部（１２２）によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第１のＮＮ（１２１１）及び第２のＮＮ（１２２１）の各パラメータを更新する更新部（１３）と、を有する。

Description

学習装置、推定装置、学習方法及び学習プログラム

　本発明は、学習装置、推定装置、学習方法及び学習プログラムに関する。

　人物の年齢を顔画像データや音声データから推定する年齢推定技術が、コールセンターやマーケティング分野において求められている。これに対し、近年、音声処理及び画像処理分野において、ニューラルネットワーク（ＮＮ）を用いた人物年齢推定手法（例えば、非特許文献１，２）が知られている。

　非特許文献１では、音声データを特徴量ベクトルに変換するＮＮと、特徴量ベクトルから年齢ラベルの事後確率を推定するＮＮとを連結し、正解の年齢値に対する事後確率を最大とするように、これらのＮＮを同時に学習させることで、高い精度で年齢を推定できることが記載されている。

　同様に、非特許文献２では、顔画像データを特徴量ベクトルに変換するＮＮと、特徴量ベクトルから年齢ラベルの事後確率を推定するＮＮとを連結し、正解の年齢値に対する事後確率を最大とするように、これらのＮＮを同時に学習させることで、高い精度で年齢を推定できることが記載されている。

P.Ghahremani,　et　al.　"End-to-End　Deep　Neural　Network　Age　Estimation",　Proc.　Interspeech,　pp.　277-281,　2018.,　［online］，［令和３年６月１９日検索］，インターネット＜ＵＲＬ：https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2015.pdf＞ R.　Rothe,　et　al.　"Deep　Expectation　of　Real　and　Apparent　Age　from　a　Single　Image　Without　Facial　Landmarks",　in　　International　Journal　of　Computer　Vision,　vol.　126,　no.　2-4,　pp.　144-157,　Springer,　2018.,　［online］，［令和３年６月１９日検索］，インターネット＜ＵＲＬ：　https://www.research-collection.ethz.ch/bitstream/20.500.11850/204027/1/eth-50296-01.pdf%20%3E＞

　ここで、非特許文献１，２に記載の年齢推定技術において、顔の向きや発話内容の違い等に起因する見え方や聞こえ方の変化により、同じ人物の顔画像データや音声データであっても、ＮＮによる年齢推定結果が変わってしまうという問題がある。

　この問題を解決するため、例えば非特許文献１には、学習用の音声データに対し、雑音付与や複数の残響特性を畳み込み、見かけのデータ量を増やすことで、モデルの頑健性を向上させる手法が記載されている。

　また、例えば非特許文献２には、学習用の顔画像データに対し縮小、拡大、回転などの幾何学的処理を行い、見かけのデータ量を増やすことで、モデルの頑健性を向上させる手法が記載されている。

　このように、非特許文献１，２に記載の手法を用いて、学習データのバリエーションを増やしてモデルを学習することで、モデルの頑健性は向上する。

　しかしながら、非特許文献１，２に記載の手法では、同一人物のデータに対して同一の出力をするように、ＮＮの学習に制約を与えることはしない。このため、非特許文献１，２に記載の手法では、同一人物のデータを入力した際にＮＮが同じ挙動を行うことが保証されないおそれがある、すなわち、同一人物のデータを入力しても、各データに対し、ＮＮが大きく異なる結果を返すおそれがあるという問題があった。

　本発明は、上記に鑑みてなされたものであって、同一人物の異なるデータが入力された場合に、高い精度で、近い年齢推定結果を出力する推定器を取得することができる学習装置、推定装置、学習方法及び学習プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部と、第１のニューラルネットワークを用いて、複数のデータを特徴量ベクトルにそれぞれ変換する変換部と、第２のニューラルネットワークを用いて、変換部によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する推定部と、変換部によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、推定部によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第１のニューラルネットワーク及び第２のニューラルネットワークの各パラメータを更新する更新部と、を有することを特徴とする。

　また、本発明かかる推定装置は、第１のニューラルネットワークを用いて、顔画像データ或いは音声データを特徴量ベクトルに変換する変換部と、第２のニューラルネットワークを用いて、変換部によって変換された特徴量ベクトルから対象人物の年齢を推定する推定部と、を有し、第１のニューラルネットワーク及び第２のニューラルネットワークは、第１のニューラルネットワークが変換した同一の人物の見え方或いは聞こえ方の異なる複数のデータに基づく複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、第２のニューラルネットワークが同一の人物に対する各特徴量ベクトルから推定した人物の年齢と人物の真の年齢との誤差が小さくなるように、学習されたことを特徴とする。

　本発明によれば、同一人物の異なるデータが入力された場合に、高い精度で、近い年齢推定結果を出力する推定器を取得することができる。

図１は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。図２は、図２は、図１に示す学習装置における処理の流れを説明する図である。図３は、第１のＮＮの構成の一例を説明する図である。図４は、第１のＮＮの構成の一例を説明する図である。図５は、第２のＮＮの構成の一例を説明する図である。図６は、実施の形態に係る学習処理の処理手順を示すフローチャートである。図７は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。図８は、図７に示す推定装置が実行する推定処理手順を示すフローチャートである。図９は、プログラムが実行されることにより、学習装置及び推定装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルであるＡに対し、“~Ａ”と記載する場合は「“Ａ”の直上に“~”が記された記号」と同等であるとする。

［実施の形態］
　本実施の形態では、入力の顔画像データ或いは音声データから、ニューラルネットワーク（ＮＮ）を用いて人物の年齢を推定する推定モデルに対する学習について説明する。本実施の形態では、推定器に対する学習時に、推定器の前段のＮＮで得られる入力データの特徴量が、同一人物に対応するものほど近い値を示すような学習基準を用いることによって、同一人物の見え方や聞こえ方の異なるデータが入力された場合に、高精度で近い年齢推定結果を出力する推定器の取得を実現した。

［学習装置］
　次に、実施の形態に係る学習装置について説明する。図１は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。図２は、図１に示す学習装置における処理の流れを説明する図である。

　実施の形態に係る学習装置１０は、例えば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置１０は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

　図１及び図２に示すように、学習装置１０は、データ加工部１１、推定部１２、更新部１３及び制御処理部１４を有する。学習用データは、対象人物の真の年齢が正解年齢として付与された顔画像データ或いは音声データである。

　データ加工部１１は、学習用データである顔画像データ或いは音声データに対し、見え方或いは聞こえ方の変化を与える。データ加工部１１は、学習用データである顔画像データ或いは音声データに対して人工的な加工を行うことで、同一人物の顔画像データ或いは音声データから、見え方や聞こえ方の異なる複数のデータを作成する。

　例えば、データ加工部１１は、音声データを加工対象とする場合、事前に収録した複数の雑音を付加する、異なる残響環境で収録したインパルス応答を畳み込む、音声信号の一部を削除する、及び／または、音声信号の一部のみを切出することにより、同一人物の音声データから、聞こえ方の異なる複数のデータを作成する。

　例えば、データ加工部１１は、顔画像データを対象とする場合、顔画像データに対しノイズを付与する、拡大縮小や回転などの幾何的変換を行う、及び／または画像データの一部を隠すことにより、同一人物の顔画像データから、見え方の異なる複数のデータを作成する。

　推定部１２は、データ加工部１１によって作成された、同一人物の顔画像データ或いは音声データに基づく複数の顔画像データ或いは複数の音声データを基に、対象人物の年齢を推定する。推定部１２は、特徴量変換部１２１（変換部）及び年齢推定部１２２（推定部）を有する。

　特徴量変換部１２１は、第１のＮＮ１２１１を用いて、複数の顔画像データ或いは音声データを、固定次元の特徴量ベクトルにそれぞれ変換する。第１のＮＮ１２１１は、データ加工部１１が生成した、人物の複数の顔画像データ或いは複数の音声データを、特徴量ベクトルに変換するＮＮである。

　顔画像データを対象とする場合、第１のＮＮ１２１１は、例えば、非特許文献２に記載の技術を用いて、顔画像データを特徴ベクトルに変換するＮＮにより実現される。図３は、第１のＮＮ１２１１の構成の一例を説明する図である。この場合、第１のＮＮ１２１１は、例えば、図３に示すような構造を持つＮＮにより実現される。一例を挙げると、第１のＮＮ１２１１は、Squeeze-and-Excitationを採用した複数のResidual　blockからなる畳み込みＮＮにより実現される。

　音声データを対象とする場合、第１のＮＮ１２１１は、例えば、非特許文献１に記載の技術を用いて、音声データを特徴ベクトルに変換するＮＮにより実現される。図４は、第１のＮＮ１２１１の構成の一例を説明する図である。この場合、第１のＮＮ１２１１は、例えば、図４に示すような構造を持つＮＮにより実現される。一例を挙げると、第１のＮＮ１２１１は、複数のtime-delay　層とstatistical　pooling層なる畳み込みＮＮにより実現される。

　年齢推定部１２２は、第２のＮＮ１２２１を用いて、特徴量変換部１２１によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する。第２のＮＮ１２２１は、第１のＮＮ１２１１により変換された一連の特徴量ベクトルから、対象人物の年齢をそれぞれ推定するＮＮである。

　第２のＮＮ１２２１は、例えば、非特許文献１に記載の技術を用いて、特徴量ベクトルから対象人物の年齢値を推定するＮＮにより実現される。図５は、第２のＮＮ１２２１の構成の一例を説明する図である。この第２のＮＮ１２２１は、例えば、図５に示すような構造を持つＮＮにより実現される。一例を挙げると、第２のＮＮ１２２１は、複数の512次元の全結合層と、１次元の全結合層からなる全接続ＮＮにより実現される。

　更新部１３は、特徴量変換部１２１が変換した、複数の顔画像データ或いは音声データに基づく各特徴量ベクトルと、年齢推定部１２２が推定した対象人物の年齢推定結果と、学習用データに付与された正解年齢とを基に、第１のＮＮ１２１１及び第２のＮＮ１２２１の各パラメータを更新する。

　更新部１３は、特徴量変換部１２１によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部１２２によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第１のＮＮ１２１１及び第２のＮＮ１２２１の各パラメータを更新する。

　例えば、更新部１３は、データ加工部１１から得られたＮ個の加工済みデータに対し、第１のＮＮ１２１１を適用し得られた特徴量ベクトルをそれぞれｘ_１，ｘ_２，・・・，ｘ_ｎとし、各特徴量ベクトルに対し第２のＮＮ１２２１を適用しそれぞれ得られた年齢推定結果を~ｙ_１，~ｙ_２，・・・，~ｙ_ｎとし、当該人物の真の年齢をｙとし、損失をＬとし、更新対象のパラメータをθとして、式（１）によりパラメータ（第１のＮＮ１２１１、第２のＮＮ１２２１の各パラメータ）を更新する。

　式（１）式の第一項は、特徴量ベクトル間距離（図２参照）であり、第１のＮＮ１２１１の出力より得ることができる。式（１）の第二項は、対象人物の推定年齢と真の年齢（正解年齢）との推定誤差（図２参照）であり、学習用データに付与された正解年齢と、第２のＮＮ１２２１の出力とにより取得できる。なお、式（１）におけるλおよびμは予め設定される学習重みであり、いずれも正の定数である。

　制御処理部１４は、所定の条件を満たすまで、データ加工部１１、特徴量変換部１２１、年齢推定部１２２及び更新部１３による処理を繰り返し実行させる。制御処理部１４は、所定の条件を満たすまで、更新部１２５による第１のＮＮ１２１１と第２のＮＮ１２２１とのパラメータの更新を繰り返し実行させる。所定の条件とは、例えば、所定の繰り返し回数に達すること、第１のＮＮ１２１１と第２のＮＮ１２２１のパラメータとの更新量が所定の閾値未満となること等、第１のＮＮ１２１１と第２のＮＮ１２２１との学習が充分に行われた状態となる条件である。

［学習処理の処理手順］
　次に、学習装置１０が実行する学習処理について説明する。図６は、実施の形態に係る学習処理の処理手順を示すフローチャートである。

　図６に示すように、学習装置１０では、データ加工部１１が、学習用データのうち、同一人物の顔画像データ或いは音声データから、ノイズ付与やランダムな領域の抽出などのデータ加工を行うことで、見え方或いは聞こえ方の異なる複数のデータを生成する（ステップＳ１）。

　そして、特徴量変換部１２１が、第１のＮＮ１２１１を用いて、ステップＳ１において生成された複数のデータを特徴量ベクトルにそれぞれ変換する（ステップＳ２）。年齢推定部１２２は、第２のＮＮ１２２１を用いて、特徴量変換部１２１によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する（ステップＳ３）。

　更新部１３は、特徴量変換部１２１によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部１２２によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第１のＮＮ１２１１及び第２のＮＮ１２２１の各パラメータを更新する（ステップＳ４）。

　制御処理部１４は、所定の条件を満たすか否かを判定する（ステップＳ５）。所定の条件を満たしていない場合（ステップＳ５：Ｎｏ）、学習装置１０は、ステップＳ１に戻り、データ加工、特徴量変換、年齢推定、パラメータ更新の各処理を行う。一方、所定の条件を満たした場合（ステップＳ５：Ｙｅｓ）、学習装置１０は、学習処理を終了する。

［推定装置］
　次に、実施の形態に係る推定装置について説明する。図７は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。図８は、図７に示す推定装置が実行する推定処理手順を示すフローチャートである。

　図７に示す推定装置２０は、第１のＮＮ１２１１を有する特徴量変換部２２１（変換部）と、第２のＮＮ１２２１を有する年齢推定部２２２（推定部）とを有する。第１のＮＮ１２１１及び第２のＮＮ１２２１は、学習装置１０によって学習済みのＮＮである。

　特徴量変換部２２１は、顔画像データ或いは音声データの入力を受け付けると（図８のステップＳ１１）、第１のＮＮ１２１１を用いて、顔画像データ或いは音声データを特徴量にそれぞれ変換する（図８のステップＳ１２）。

　年齢推定部２２２は、第２のＮＮ１２２１を用いて、特徴量変換部２２１によって変換された特徴量ベクトルから対象人物の年齢を推定し（図８のステップＳ１３）、推定年齢を出力する（図８のステップＳ１４）。

［評価実験］
　次に、学習装置１０によって、式（１）を基に学習された第１のＮＮ１２１１及び第２のＮＮ１２２１について評価実験を行った。ここでは、スマートフォン搭載のマイクロフォンで収録した375話者の3750発話を学習データとして用いて、第１のＮＮ１２１１及び第２のＮＮ１２２１を学習した。その後、推定装置２０は、同じく120話者の1300発話に対し、第１のＮＮ１２１１及び第２のＮＮ１２２１を用いて、話者の年齢の推定を行った。

　その結果、正解年齢値と、第１のＮＮ１２１１及び第２のＮＮ１２２１を用いた話者の年齢の推定結果との平均絶対誤差は5.87歳であった。また、正解年齢値と話者の年齢の推定結果との相関係数は0.92であった。

　参考として、式（１）の第二項のみを用いて第１のＮＮ及び第２のＮＮを学習した場合、正解年齢値と、話者の年齢の推定結果との絶対誤差は6.72歳で、その相関係数は0.88であった。

［実施の形態の効果］
　したがって、本実施の形態のように、異なる見え方や聞こえ方のする同一人物のデータに対し、特徴ベクトルが陽に近づくように制約を与えて、第１のＮＮ１２１１及び第２のＮＮ１２２１を学習することで、同一人物の異なるデータが入力された場合、高い精度で、近い年齢推定結果を出力することが分かり、有効に機能することが確認できた。

　このように、本実施の形態によれば、異なる見え方や聞こえ方のする入力データに対し、これら変動に不変な特徴抽出器（第１のＮＮ１２１１）と、これらの変動の影響に頑健な年齢推定器（第２のＮＮ１２２１）とを得ることができる。言い換えると、本実施の形態では、顔画像データ或いは音声データから年齢推定を行うＮＮを学習する場合に、「同一人物の異なるデータ」が与えられた際に、ＮＮの内部の中間特徴量が互いに同じような値になるような制約を与えることで、発話内容や顔の角度の違いの変化に関わらず同じような年齢推定結果を出力できるＮＮを実現することができた。

　なお、学習装置１０は、入力データに何らかの加工を加えたものを学習データとして用いるという点に置いて、非特許文献１、非特許文献２に記載の技術と類似しているが、以下の点において相違する。

　非特許文献１では音声、非特許文献２では画像に対して、本実施の形態におけるデータ加工部と同様の加工を行い、学習用データとして用いる。しかしながら、非特許文献１，２のいずれの技術においても、これら加工されたデータは通常の学習データとしてのみ用いられる。すなわち、非特許文献１，２記載の技術においては、式（１）の損失Ｌの第二項のみを用いる。

　これに対し、本実施の形態では、異なる加工が施された同一人物の複数のデータに対し、式（１）の損失Ｌの第一項により、特徴量ベクトル空間においても陽に近くなるように制約を与えることで、見え方或いは聞こえ方の違いに対し、より頑健に年齢を推定することが可能である。言い換えると、非特許文献１，２記載の技術では、単に学習データのバリエーションを増やすだけであるが、本実施の形態では、これに加えて更に各変動に対してＮＮの挙動が不変になるように陽に制約を与えることで、これらの変動に対し、より頑健なＮＮを実現する。

　なお、本実施の形態は、画像データ、音声データ等の入力の違いに関わらず適用可能である。具体的には、第１のＮＮ１２１１を各入力データの種別に適したものに変えればよい。

［実施の形態のシステム構成について］
　学習装置１０及び推定装置２０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置１０及び推定装置２０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、学習装置１０及び推定装置２０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics　Processing　Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、学習装置１０及び推定装置２０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図９は、プログラムが実行されることにより、学習装置１０及び推定装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０及び推定装置２０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０及び推定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　学習装置
　１１　データ加工部
　１２　推定部
　１３　更新部
　１４　制御処理部
　１２１，２２１　特徴量変換部
　１２２，２２２　年齢推定部
　１２１１　第１のＮＮ
　１２２１　第２のＮＮ

Claims

　同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部と、
　第１のニューラルネットワークを用いて、前記複数のデータを特徴量ベクトルにそれぞれ変換する変換部と、
　第２のニューラルネットワークを用いて、前記変換部によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する推定部と、
　前記変換部によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記推定部によって前記同一の人物に対する各特徴量ベクトルから推定された前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの各パラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　所定の条件を満たすまで、前記データ加工部、前記変換部、前記推定部及び前記更新部による処理を繰り返し実行させる制御処理部をさらに有することを特徴とする請求項１に記載の学習装置。
　前記データ加工部は、前記同一人物の顔画像データ或いは音声データに対し、ノイズ付与、または、ランダムな領域の抽出を行うことで、前記同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成することを特徴とする請求項１または２に記載の学習装置。
　第１のニューラルネットワークを用いて、顔画像データ或いは音声データを特徴量ベクトルに変換する変換部と、
　第２のニューラルネットワークを用いて、前記変換部によって変換された特徴量ベクトルから対象人物の年齢を推定する推定部と、
　を有し、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、前記第１のニューラルネットワークが変換した同一の人物の見え方或いは聞こえ方の異なる複数のデータに基づく複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記第２のニューラルネットワークが前記同一の人物に対する各特徴量ベクトルから推定した前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、学習されたことを特徴とする推定装置。
　学習装置が実行する学習方法であって、
　同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成する工程と、
　第１のニューラルネットワークを用いて、前記複数のデータを特徴量ベクトルにそれぞれ変換する工程と、
　第２のニューラルネットワークを用いて、前記変換する工程によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する工程と、
　前記変換する工程によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記推定する工程によって前記同一の人物に対する各特徴量ベクトルから推定された前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの各パラメータを更新する工程と、
　を含んだことを特徴とする学習方法。
　コンピュータを請求項１～３のいずれか一つに記載の学習装置として機能させるための学習プログラム。