WO2022249241A1

WO2022249241A1 - 学習装置、学習方法、および、学習プログラム

Info

Publication number: WO2022249241A1
Application number: PCT/JP2021/019615
Authority: WO
Inventors: 直弘俵; 厚徳小川; 歩相名神山; 佑樹北岸
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-12-01
Also published as: JPWO2022249241A1

Abstract

学習装置（１０）は、Web上から音声付の動画を収集し、収集した動画中から、人物の一連の顔画像および音声を抽出する。そして、学習装置（１０）は、顔画像の人物の年齢を推定する第１のＮＮ（１２３）を用いて、抽出した一連の顔画像の人物の年齢を推定する。また、学習装置（１０）は、音声により人物の年齢を推定する第２のＮＮ（１２４）を用いて、抽出した音声の人物の年齢を推定する。次に、学習装置（１０）は、第１のＮＮ（１２３）により推定した人物の年齢と、第２のＮＮ（１２４）により推定した当該人物の年齢との差が小さくなるように、第１のＮＮ（１２３）または第２のＮＮ（１２４）の各パラメータを更新する。学習装置（１０）は、所定の条件を満たすまで、上記の処理を繰り返し実行することにより、第１のＮＮ（１２３）または第２のＮＮ（１２４）の学習を行う。

Description

学習装置、学習方法、および、学習プログラム

　本発明は、人物の年齢を推定する推定器を学習するための、学習装置、学習方法、および、学習プログラムに関する。

　音声や顔画像から人物の年齢を推定する年齢推定技術は、コールセンターやマーケティング分野において応用が期待される。

　音声分野においては、近年、ニューラルネットワーク（ＮＮ）を用いた年齢推定技術として、音声波形から話者の年齢を直接推定する手法（非特許文献１参照）が知られている。例えば、非特許文献１には、音声信号を特徴量ベクトルに変換するＮＮと年齢を推定するＮＮとを連結し、同時に学習させることで、話者の年齢を推定する技術が開示されている。

　一方、画像分野においても、ＮＮを用いて顔画像から年齢を直接推定する手法（非特許文献２、非特許文献３参照）が知られている。例えば、非特許文献２、３には、顔画像を特徴量ベクトルに変換するＮＮと年齢を推定するＮＮとを連結し、同時に学習させることで、話者の年齢を推定する技術が開示されている。

　また、顔情報と音声情報を同時に用いて年齢を推定する技術も知られている（非特許文献４参照）。例えば、非特許文献４には、顔情報と音声情報とを連結し、multi-way回帰により年齢を推定することで、どちらか一方の情報（モダリティ）を用いた場合よりも高い精度で話者の年齢を推定する技術が開示されている。

P.Ghahremani,　et　al.　"End-to-End　Deep　Neural　Network　Age　Estimation",　Proc.　Interspeech,　pp.　277-281,　2018.［2021年5月11日検索］、インターネット＜https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2015.pdf＞ A.Fariza,　et　al.　"Age　Estimation　System　Using　Deep　Residual　Network　Classification　Method",　in　Proc.　IES,　2019,　pp.　607-611、［2021年5月11日検索］、インターネット＜https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8901521＞ R.　Rothe,　et　al.　"Deep　Expectation　of　Real　and　Apparent　Age　from　a　Single　Image　Without　Facial　Landmarks",　in　　International　Journal　of　Computer　Vision,　vol.　126,　no.　2-4,　pp.　144-157,　Springer,　2018. E.Pantraki,　C.Kotropoulos,　"Multi-Way　Regression　for　Age　Prediction　Exploiting　Speech　and　Face　Image　Information",　in　Proc.　In　EUSIPCO,　2017,　pp.　2196-2200.,［2021年5月11日検索］、インターネット＜https://www.eurasip.org/Proceedings/Eusipco/Eusipco2017/papers/1570348322.pdf＞

　ここで、話者の顔情報や音声情報には話者の加齢が影響を与えるが、加齢には個人差がある。このため、未知の人物に対しても頑健に動作するＮＮを構築するためには、大量の教師データが必要となる。特に多数のパラメータの学習が必要な大規模なＮＮを用いる場合、充分な量の学習データがないと、過学習により未知の人物に対する年齢の推定精度が著しく低下してしまうという問題がある。

　この問題を解決するため、例えば、非特許文献３に記載の技術では、芸能人等の顔画像とその芸能人の年令情報をWeb上より多数収集し、ＮＮの学習に用いている。また、非特許文献１に記載の技術では、１０００人程度の話者推定用に公開されている英語音声コーパスを用いてＮＮの学習を行っている。

　しかし、顔データと比べて音声データは利用可能なデータ数が少ない。また、利用可能な音声コーパスの多くは狭帯域の英語音声に限定されている。このため、上記の音声コーパスで学習したＮＮを、広帯域音声や日本語音声にそのまま適用すると、年齢の推定精度が低下するという問題がある。そのため、音声情報による年齢の推定は、顔情報による年齢の推定よりも困難であることが知られている。

　そこで、本発明は、前記した問題を解決し、大量の学習データを用いなくても、人物の年齢を精度よく推定する推定器を得ることを課題とする。

　前記した課題を解決するため、本発明は、Web上から音声付の動画を収集する動画収集部と、前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出部と、前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第１のＮＮと、前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第２のＮＮと、前記第１のＮＮにより推定された人物の年齢と、前記第２のＮＮにより推定された当該人物の年齢との差が小さくなるように、前記第１のＮＮまたは前記第２のＮＮの各パラメータを更新する更新部と、所定の条件を満たすまで、前記動画収集部、前記データ抽出部、前記第１のＮＮ、前記第２のＮＮ、および、前記更新部による処理を繰り返し実行させる制御処理部と、を備えることを特徴とする。

　本発明によれば、大量の学習データを用いなくても、人物の年齢を精度よく推定する推定器を得ることができる。

図１は、学習装置の構成例を示す図である。図２は、図１の第１のＮＮの例を示す図である。図３は、図１の第２のＮＮの例を示す図である。図４は、図１の学習装置の処理手順の例を示すフローチャートである。図５は、学習装置により学習された第２のＮＮを用いて、年齢の推定を行う推定装置を説明するための図である。図６は、学習プログラムを実行するコンピュータの例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［概要］
　図１を参照しながら、本実施形態の学習装置１０の概要を説明する。学習装置１０は、顔情報を用いて人物の年齢を推定するＮＮ（第１のＮＮ１２３）と、音声情報を用いて人物の年齢を推定するＮＮ（第２のＮＮ１２４）とを備える。学習装置１０は、Webアーカイブ等から人物の音声付きの動画を収集すると、収集した動画の顔情報を用いて第１のＮＮ１２３により人物の年齢を推定する。また、学習装置１０は、動画の音声情報を用いて第２のＮＮ１２４により当該人物の年齢を推定する。そして、学習装置１０は、例えば、第２のＮＮ１２４による人物の年齢の推定結果が、第１のＮＮ１２３による当該人物の年齢の推定結果に近づくように、第２のＮＮ１２４の各パラメータを更新する。

［構成例］
　引き続き、図１を用いて学習装置１０の構成例を説明する。学習装置１０は、入出力部１１と、制御部１２とを備える。入出力部１１は、各種データの入出力を司る。入出力部１１は、例えば、Webアーカイブから、人物の音声付きの動画の入力を受け付ける。

　制御部１２は、学習装置１０全体の制御を司る。例えば、制御部１２は、動画収集部１２１と、データ抽出部１２２と、第１のＮＮ１２３と、第２のＮＮ１２４と、更新部１２５と、制御処理部１２６とを備える。

　動画収集部１２１は、Web上にアーカイブされている音声付の動画を収集する。例えば、動画収集部１２１は、Webアーカイブから、人物のインタビュー動画等を収集する。

　データ抽出部１２２は、動画収集部１２１により収集された動画から、人物の一連の顔画像とその人物の音声とを抽出する。

　第１のＮＮ１２３は、データ抽出部１２２により抽出された人物の一連の顔画像を用いて、当該人物の年齢を推定するＮＮである。第１のＮＮ１２３は、例えば、非特許文献２に記載の技術を用いて、顔画像を特徴ベクトルに変換するＮＮに、年齢を推定するＮＮを連結することにより実現される。この第１のＮＮ１２３は、例えば、図２に示すような構造を持つＮＮにより実現される。

　一例を挙げると、第１のＮＮ１２３は、Squeeze-and-Excitationを採用した複数のResidual　blockからなる畳み込みＮＮにより実現される。このＮＮは、例えば、ImageNetで事前学習したモデルの最終層を年齢101クラスに対する事後確率と年齢値とをそれぞれ出力する２つの全接続層に置き換え、softmax　cross　entropyおよび２乗誤差最小化基準からなるマルチタスク基準で、モデル全体をファインチューニングしたクラス分類器である。

　第２のＮＮ１２４は、データ抽出部１２２により抽出された人物の音声を用いて、当該人物の年齢を推定するＮＮである。第２のＮＮ１２４は、例えば、非特許文献１に記載の技術を用いて、音声信号を特徴ベクトルに変換するＮＮに、年齢を推定するＮＮを連結することにより実現される。この第２のＮＮ１２４は、例えば、図３に示すような構造を持つＮＮにより実現される。

　一例を挙げると、第２のＮＮ１２４は、x-vectorに基づき、年齢を推定するＮＮである。なお、x-vectorの抽出器として、例えば、Kaldi　SRE16　レシピからSRE10を除き学習したものを用いる。第２のＮＮ１２４は、抽出器により抽出されたx-vectorに対し、2層の512次元の全接続層および年齢値を出力する1次元の全接続層からなるＮＮを適用することにより、年齢を推定する。

　更新部１２５は、第１のＮＮ１２３により推定された人物の年齢と、第２のＮＮ１２４により推定された当該人物の年齢との差が小さくなるように、第２のＮＮ１２４の各パラメータを更新する。

　例えば、第１のＮＮ１２３による人物の年齢の推定値をy₁、第２のＮＮ１２４による人物の年齢の推定値をy₂と、y₁とy₂との間の損失をL、更新対象のパラメータをθとして、更新部１２５は、以下の式（１）によりパラメータ（第２のＮＮ１２４の各パラメータ）を更新する。

　なお、式（１）におけるμは予め設定される学習重みで正の定数である。更新部１２５が上記のようにして第２のＮＮ１２４のパラメータを更新することにより、第１のＮＮ１２３を模倣するように第２のＮＮ１２４のパラメータが更新されることになる。

　制御処理部１２６は、所定の条件を満たすまで、動画収集部１２１、データ抽出部１２２、第１のＮＮ１２３、第２のＮＮ１２４、および、更新部１２５による処理を繰り返し実行させる。つまり、制御処理部１２６は、所定の条件を満たすまで、更新部１２５による第２のＮＮ１２４のパラメータの更新を繰り返し実行させる。所定の条件とは、例えば、所定の繰り返し回数に達する、第２のＮＮ１２４のパラメータの更新量が所定の閾値未満となる等、第２のＮＮ１２４の学習が充分に行われた状態となる条件である。

　このような学習装置１０によれば、大量の学習データを用いなくても、音声情報から人物の年齢を精度よく推定する推定器（第２のＮＮ１２４）を得ることができる。

[処理手順の例]
　次に、図４を用いて、学習装置１０の処理手順の例を説明する。まず、学習装置１０の動画収集部１２１は、例えば、Web上にアーカイブされている音声付の動画を収集する（Ｓ１）。次に、データ抽出部１２２は、動画収集部１２１により収集された動画中から、人物の一連の顔画像とその人物の音声とを抽出する（Ｓ２）。

　Ｓ２の後、第１のＮＮ１２３は、Ｓ２で抽出された一連の顔画像を用いて、一連の顔画像の人物の年齢を推定する（Ｓ３）。また、第２のＮＮ１２４は、Ｓ２で抽出された音声を用いて、当該人物の年齢を推定する（Ｓ４）。そして、更新部１２５は、Ｓ３で第１のＮＮ１２３により推定された人物の年齢と、第２のＮＮ１２４により推定された当該人物の年齢との差が小さくなるように、第２のＮＮ１２４の各パラメータを更新する（Ｓ５）。

　Ｓ５の後、制御処理部１２６は、例えば、Ｓ１～Ｓ５の処理回数が所定の回数に達した、または、第２のＮＮ１２４のパラメータの更新量が所定の閾値未満となった等、所定の条件を満たすと判定した場合（Ｓ６でＹｅｓ）、処理を終了する。一方、制御処理部１２６が、例えば、Ｓ１～Ｓ５の処理回数が所定の回数に達していない、または、第２のＮＮ１２４のパラメータの更新量が所定の閾値以上である等、所定の条件を満たしていないとした場合（Ｓ６でＮｏ）、Ｓ１へ戻り、動画収集部１２１、データ抽出部１２２、第１のＮＮ１２３、第２のＮＮ１２４、および、更新部１２５による処理を再度実行させる。

　なお、学習装置１０は音声と顔画像の両方を用いるという点において非特許文献４に開示される技術と類似しているが、以下の点において相違する。

　第１に、非特許文献４に開示される技術は音声情報と顔情報を連結して年齢推定器を学習するが、学習装置１０は、音声から人物の年齢推定を行う第２のＮＮ１２４が、顔画像から人物の年齢推定を行う第１のＮＮ１２３を模倣するように、第２のＮＮ１２４を学習する点において異なる。

　また、非特許文献４に開示される技術では、すべてのデータに年齢ラベルが付与された場合にのみ適用できるのに対し、学習装置１０は第１のＮＮ１２３により、動画における一連の顔画像に年齢ラベルを自動的に付与する。このため、学習装置１０は、年齢ラベルが付与されていないデータからでも学習が可能であるという利点がある。

　第２に、非特許文献４に開示される技術では、年齢推定器として、multi-way回帰を用いるため、中間特徴量の抽出が必要である。しかし、学習装置１０においては、年齢推定器として、ＮＮを用いることで、音声や顔画像から高い精度で人物の年齢を直接推定することができる。

［その他の実施形態］
　なお、学習装置１０の第１のＮＮ１２３と第２のＮＮ１２４の役割を交換することもできる。例えば、第１のＮＮ１２３よりも、第２のＮＮ１２４の方が年齢の推定精度が高い場合、学習装置１０は、第１のＮＮ１２３が第２のＮＮ１２４を模倣するように、第１のＮＮ１２３の各パラメータを更新してもよい。つまり、学習装置１０は、第１のＮＮ１２３で顔画像から推定した人物の年齢と、第２のＮＮ１２４で音声から推定した人物の年齢との誤差を小さくなるように、第１のＮＮ１２３の各パラメータを更新してもよい。

　また、学習装置１０は、第２のＮＮ１２４の学習後、学習された第２のＮＮ１２４を用いて、入力された音声（音声情報）から人物の年齢を推定してももちろんよい。また、学習装置１０により学習された第２のＮＮ１２４は、外部装置により用いられてもよい。例えば、図５に示すように、学習装置１０の外部に設置される推定装置２０が、学習装置１０により学習された第２のＮＮ１２４を用いて、音声情報から人物の年齢を推定してもよい。

［実験結果］
　以下に、学習装置１０を用いて学習された第２のＮＮ１２４の実験結果を示す。ここでは、学習装置１０が、YouTube（登録商標）から収集した4479話者の約15万動画を学習データとして用いて、第２のＮＮ１２４（音声年齢推定器）を学習した。その後、学習装置１０は、同じくYouTubeから収集した497話者の16000動画に対し、上記の第２のＮＮ１２４を用いて、話者の年齢の推定を行った。その結果、正解年齢値と、上記の第２のＮＮ１２４による話者の年齢の推定結果との絶対誤差は8.59歳であった。また、正解年齢値と話者の年齢の推定結果との相関係数は0.70であった。

　一方、参考として、学習データに付与された真の年齢値を用いて第２のＮＮ１２４を学習した場合は、上記の第２のＮＮ１２４による話者の年齢の推定結果との絶対誤差は7.43歳で、その相関係数は0.74であった。このことから、学習装置１０のように、第１のＮＮ１２３（顔年齢推定器）を模倣するように第２のＮＮ１２４（音声年齢推定器）を学習する枠組みは、有効に機能することが確認できた。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal　Handyphone　System）等の移動体通信端末、さらには、PDA（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図８は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ROM（Read　Only　Memory）１０１１及びRAM（Random　Access　Memory）１０１２を含む。ROM１０１１は、例えば、BIOS（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の学習装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSD（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local　Area　Network）、WAN（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０　学習装置
２０　推定装置
１１　入出力部
１２　制御部
１２１　動画収集部
１２２　データ抽出部
１２３　第１のＮＮ
１２４　第２のＮＮ
１２５　更新部
１２６　制御処理部

Claims

　Web上から音声付の動画を収集する動画収集部と、
　前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出部と、
　前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第１のＮＮと、
　前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第２のＮＮと、
　前記第１のＮＮにより推定された人物の年齢と、前記第２のＮＮにより推定された当該人物の年齢との差が小さくなるように、前記第１のＮＮまたは前記第２のＮＮの各パラメータを更新する更新部と、
　所定の条件を満たすまで、前記動画収集部、前記データ抽出部、前記第１のＮＮ、前記第２のＮＮ、および、前記更新部による処理を繰り返し実行させる制御処理部と、
　を備えることを特徴とする学習装置。
　前記所定の条件は、
　前記動画収集部、前記データ抽出部、前記第１のＮＮ、前記第２のＮＮ、および、前記更新部による処理の繰り返し回数が所定回数に達すること、
　または、
　前記更新部による前記第１のＮＮまたは前記第２のＮＮのパラメータの更新量が所定の閾値未満となること
　であることを特徴とする請求項１に記載の学習装置。
　前記更新部は、
　前記第１のＮＮにより推定された人物の年齢と、前記第２のＮＮにより推定された当該人物の年齢との差が小さくなるように、前記第２のＮＮの各パラメータを更新する
　ことを特徴とする請求項１に記載の学習装置。
　前記更新部は、
　前記第１のＮＮにより推定された人物の年齢と、前記第２のＮＮにより推定された当該人物の年齢との差が小さくなるように、前記第１のＮＮの各パラメータを更新する
　ことを特徴とする請求項１に記載の学習装置。
　学習装置により実行される学習方法であって、
　Web上から音声付の動画を収集する動画収集工程と、
　前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出工程と、
　顔画像を用いて、前記顔画像の人物の年齢を推定する第１のＮＮにより、前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第１の年齢推定工程と、
　人物の音声を用いて、前記人物の年齢を推定する第２のＮＮにより、前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第２の年齢推定工程と
　前記第１のＮＮにより推定された人物の年齢と、前記第２のＮＮにより推定された当該人物の年齢との差が小さくなるように、前記第１のＮＮまたは前記第２のＮＮの各パラメータを更新する更新工程と、
　所定の条件を満たすまで、前記動画収集工程、前記データ抽出工程、前記第１の年齢推定工程、前記第２の年齢推定工程、および、前記更新工程による処理を繰り返し実行させる制御工程と、
　を含むことを特徴とする学習方法。
　請求項１から請求項４のいずれか１項に記載の学習装置として、コンピュータを機能させることを特徴とする学習プログラム。