WO2023281606A1

WO2023281606A1 - 学習装置、学習方法および学習プログラム

Info

Publication number: WO2023281606A1
Application number: PCT/JP2021/025361
Authority: WO
Inventors: 佑樹北岸; 歩相名神山; 岳至森; 厚徳小川; 直弘俵
Original assignee: 日本電信電話株式会社
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-01-12
Also published as: JPWO2023281606A1

Abstract

学習装置（１０）は、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部（１５ａ）と、弱教師あり学習用データに含まれる音声データの話者の年齢を推定する推定部（１５ｂ）と、年齢の範囲を示す正解ラベルおよび推定された年齢から、第１の損失関数を用いて第１の損失を計算する計算部（１５ｃ）と、第１の損失を最小化するように、モデルパラメタを更新する更新部（１５ｄ）と、を備える。

Description

学習装置、学習方法および学習プログラム

　本発明は、学習装置、学習方法および学習プログラムに関する。

　従来、人間の音声から年齢を自動推定する技術（以下、「話者年齢推定技術」と表記）が取り組まれてきた。例えば、コールセンタでの利用として、顧客の年齢に応じて自動応対システムの合成音声再生速度を最適化する、といったことが期待される。ここで、話者年齢推定技術は、音声（もしくはそこから抽出された音響特徴量）から年齢を推定する教師あり学習と定義される。機械学習のモデルを学習するためには、年齢情報の紐づいた音声が大量に必要で、モデルの精度はどれだけ幅広い年代でバランスよく大量の話者を集められるかによる。

伊藤克亘　他、"大語彙連続音声認識研究用日本語コーパス：JNAS"、1999． P.　Ghahremani　他、"End-to-End　Deep　Neural　Network　Age　Estimation"、2018． R.　Zazo　他、"Age　Estimation　in　Short　Speech　Utterances　Based　on　LSTM　Recurrent　Neural　Networks"、2018．

　しかしながら、上述した従来技術では、音声から話者の年齢をより高い精度で推定することができない。なぜならば、上述した従来技術には、以下のような課題があるからである。

　まず、年齢はプライバシ性が強い情報で、データセットによっては２５歳といった具体的な年齢ではなく、低粒度（例：２０代、１８～３５歳）の情報しか付与されていないことがある（例えば、非特許文献１参照）。また、近年盛んに取り組まれている話者年齢を直接推定するようなタスク（例えば、非特許文献２、３参照）では、話者年齢の実数値が付与されたデータセットが必要で、上記の例のような低粒度で年齢情報が付与された学習データはそのまま利用できない。このようなデータを有効活用するためには、一般的な手法としては半教師あり学習の枠組みとして年齢ラベルが存在しないデータとして扱う手法が考えられるが、それでは低粒度ながらも付与された年齢情報を有効活用することはできない。

　上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部と、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定部と、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算部と、前記第１の損失を最小化するように、モデルパラメタを更新する更新部と、を備えることを特徴とする。

　また、本発明に係る学習方法は、学習装置によって実行される学習方法であって、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得工程と、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定工程と、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算工程と、前記第１の損失を最小化するように、モデルパラメタを更新する更新工程と、を含むことを特徴とする。

　また、本発明に係る学習プログラムは、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得ステップと、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定ステップと、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算ステップと、前記第１の損失を最小化するように、モデルパラメタを更新する更新ステップと、をコンピュータに実行させることを特徴とする。

　本発明では、音声から話者の年齢をより高い精度で推定することができる。

図１は、実施形態に係る学習システムの一例を示す図である。図２は、実施形態に係る学習装置の構成例を示すブロック図である。図３は、実施形態に係る教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。図４は、実施形態に係る弱教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。図５は、実施形態に係る損失関数計算処理の一例を示す図である。図６は、実施形態に係る損失関数計算処理の一例を示す図である。図７は、実施形態に係る損失関数計算処理の一例を示す図である。図８は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。図９は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。図１０は、実施形態に係る学習処理全体の流れの一例を示すフローチャートである。図１１は、プログラムを実行するコンピュータを示す図である。

　以下に、本発明に係る学習装置、学習方法および学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

〔実施形態〕
　以下に、実施形態（適宜、本実施形態）に係る学習システム１００の処理、学習装置１０の構成、処理の詳細、処理の流れを順に説明し、最後に本実施形態の効果を説明する。

［学習システム１００の処理］
　以下に、本実施形態に係る学習システム（適宜、本システム）１００の処理を説明する。図１は、実施形態に係る学習システムの一例を示す図である。以下では、本システム１００の構成例、本システム１００の処理、従来技術の課題、本システム１００の効果の順に説明する。

（１．システム１００の構成例）
　図１に示した本システム１００は、学習装置１０を有する。なお、本システム１００には、複数台の学習装置１０が含まれてもよい。また、本システム１００では、学習装置１０が取得するデータとして、教師あり学習用データ２０、弱教師あり学習用データ３０および音声データ４０が関与する。ここで、教師あり学習用データ２０は、話者の音声データと当該話者の年齢を示す正解ラベルとを含む学習用データである。また、弱教師あり学習用データ３０は、話者の音声データと当該話者の年齢の範囲を示す正解ラベルとを含む学習用データである。また、音声データ４０は、学習装置１０によって年齢を推定する話者の音声データである。

（２．システム１００の処理）
　本システム１００において、まず、学習装置１０は、学習用データを取得する（ステップＳ１）。ここで、学習装置１０が取得する学習用データは、教師あり学習用データ２０および弱教師あり学習用データ３０を混在させた学習データであってもよいし、教師あり学習用データ２０、弱教師あり学習用データ３０をそれぞれ個別に取得してもよい。

　次に、学習装置１０は、取得した学習用データに含まれる音声データから特徴量を抽出し、ＬＳＴＭ（Long　Short　Term　Memory）ネットワーク等を利用して年齢を推定する（ステップＳ２）。このとき、学習装置１０によって実行される話者年齢推定技術は、特に限定されない。

　続いて、学習装置１０は、推定した年齢から損失関数を用いて損失を計算し（ステップＳ３）、計算した損失を最小化するようにモデルパラメタを更新し（ステップＳ４）、更新したモデルパラメタを用いて評価する（ステップＳ５）。上記ステップＳ１～Ｓ５の処理は、学習装置１０の学習過程、評価過程に該当する。

　そして、学習装置１０は、音声データ４０を取得し（ステップＳ６）、更新したモデルパラメタを用いて音声データ４０の話者の年齢を推定する（ステップＳ７）。上記ステップＳ６、Ｓ７の処理は、学習装置１０の年齢推定過程に該当する。

（３．従来技術の課題）
　ここで、従来の話者年齢推定技術の課題について説明する。話者年齢推定技術で使用する学習用データには、プライバシの問題からある程度の範囲での年齢情報しか付与されていない音声が存在する。このとき、より高精度に年齢を直接推定可能なモデル学習には、このような粒度の荒い年齢情報が付与されたデータも活用できるとよい。しかし、粒度の荒い年齢ラベルを詳細にするには、（１）公開データセットの場合は不可能である可能性が高い、（２）独自に収録したデータセットであっても、プライバシ、実験倫理、コスト等の観点から困難である可能性が高い。従来技術では、上記のようなデータを活用することができないことより、粒度の荒い年齢情報が付与されたデータも活用し、高精度に年齢を直接推定可能な技術が求められている。

（４．システム１００の効果）
　上述したように、本システム１００では、学習装置１０は、教師あり学習用データ２０および弱教師あり学習用データ３０を取得し、取得した学習用データに含まれる音声データから話者の年齢を推定し、推定した年齢から損失関数を計算し、計算した損失を最小化するようにモデルパラメタを更新する。このため、本システム１００は、これまで年齢を直接推定する学習には使えなかった粒度の荒い年齢情報をもつデータを学習用データとして使えるようにすることで、より高いモデル精度を実現する。すなわち、本システム１００は、これまで用いることができなかったリソースを効果的に用いる学習手法を実現し、特に、年齢というプライバシ問題の高い情報がゆえに曖昧なラベルしか付与されてこなかったデータを有効活用することができる。

［学習装置１０の構成］
　図２を用いて、本実施形態に係る学習装置１０の構成を詳細に説明する。図２は、実施形態に係る学習装置の構成例を示すブロック図である。学習装置１０は、入力部１１、出力部１２、通信部１３、記憶部１４および制御部１５を有する。

（１．入力部１１）
　入力部１１は、当該学習装置１０への各種情報の入力を司る。例えば、入力部１１は、マウスやキーボード等で実現され、当該学習装置１０への設定情報等の入力を受け付ける。

（２．出力部１２）
　出力部１２は、当該学習装置１０からの各種情報の出力を司る。例えば、出力部１２は、ディスプレイ等で実現され、当該学習装置１０に記憶された設定情報等を出力する。

（３．通信部１３）
　通信部１３は、他の装置との間でのデータ通信を司る。例えば、通信部１３は、各通信装置との間でデータ通信を行う。また、通信部１３は、図示しないオペレータの端末との間でデータ通信を行うことができる。

（４．記憶部１４）
　記憶部１４は、制御部１５が動作する際に参照する各種情報や、制御部１５が動作した際に取得した各種情報を記憶する。記憶部１４は、教師あり学習用データ記憶部１４ａ、弱教師あり学習用データ記憶部１４ｂおよびモデルパラメタ記憶部１４ｃを有する。ここで、記憶部１４は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現され得る。なお、図２の例では、記憶部１４は、学習装置１０の内部に設置されているが、学習装置１０の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。

（４－１．教師あり学習用データ記憶部１４ａ）
　図３を用いて、教師あり学習用データ記憶部１４ａに記憶される学習用データの例を説明する。図３は、実施形態に係る教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。なお、図３では、教師あり学習用データ記憶部１４ａは、Ｓ_ｘ人、Ｎ個の音声を記憶している。

　教師あり学習用データ記憶部１４ａは、モデル学習に用いる学習用音声データであって、話者年齢（実数値）が正解ラベルとして付与されている教師あり学習用データ２０を記憶する。例えば、教師あり学習用データ記憶部１４ａは、学習用データとして、「音声ＩＤ」、「話者ＩＤ」、「話者年齢」（実数値）、「話者性別」、「音声」を記憶する。図３では、教師あり学習用データ記憶部１４ａは、教師あり学習のための年齢が実数値（例：２５歳）で付与された音声を記憶する。

（４－２．弱教師あり学習用データ記憶部１４ｂ）
　図４を用いて、弱教師あり学習用データ記憶部１４ｂに記憶される学習用データの例を説明する。図４は、実施形態に係る弱教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。なお、図４では、弱教師あり学習用データ記憶部１４ｂは、Ｓ_ｗ人、Ｍ個の音声を記憶している。

　弱教師あり学習用データ記憶部１４ｂは、モデル学習に用いる学習用音声データであって、話者年齢（年齢範囲）が正解ラベルとして付与されている弱教師あり学習用データ３０を記憶する。例えば、弱教師あり学習用データ記憶部１４ｂは、学習用データとして、「音声ＩＤ」、「話者ＩＤ」、「話者年齢」（年齢範囲）、「話者性別」、「音声」を記憶する。図４では、弱教師あり学習用データ記憶部１４ｂは、弱教師あり学習のための年齢が任意の範囲（例：２０代）で付与された音声を記憶する。

　ここで、弱教師あり学習用データ記憶部１４ｂにおいて、上記の年齢範囲として付与された正解ラベルは、すべて同じ粒度でもよいし、異なる粒度の音声が混在していてもよい。また、上記の弱教師あり学習用データ３０は、必要に応じてデータ拡張や、学習・開発・評価セットへの分割を行われたものであってもよい。

（４－３．データの規格）
　上記の教師あり学習用データ記憶部１４ａ、弱教師あり学習用データ記憶部１４ｂにおいて、記憶される音声データの規格は、特に限定されない。例えば、記憶される音声データは、周波数帯域１６ｋＨｚ・１６ｂｉｔ符号付整数、１チャンネルのリニア（linear）ＰＣＭ（Pulse　Code　Modulation）形式でもよいし、周波数帯域８ｋＨｚ・１６ｂｉｔ符号付整数、１チャンネルのＧ．７１１圧縮形式でもよい。なお、図３および図４に示した音声データは、音声波形を時間経過と音声信号強度との関係として表したものであり、符号あり１６ｂｉｔ整数で表現されている。

（４－４．モデルパラメタ記憶部１４ｃ）
　モデルパラメタ記憶部１４ｃは、後述する制御部１５の推定部１５ｂ、計算部１５ｃおよび更新部１５ｄによって、学習、最適化されたパラメタ集合Θ'（学習済みパラメタ）を記憶する。ここで、パラメタ集合Θ'は、評価データや実利用時において入力された音声から年齢を推定するために用いられる。

（５．制御部１５）
　制御部１５は、当該学習装置１０全体の制御を司る。制御部１５は、図２に示すように、取得部１５ａ、推定部１５ｂ、計算部１５ｃおよび更新部１５ｄを有する。ここで、制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等の電子回路やＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

（５－１．取得部１５ａ）
　取得部１５ａは、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データ３０を取得する。例えば、取得部１５ａは、話者の音声データ、話者の年齢範囲、話者の性別等を含む弱教師あり学習用データ３０を取得する。また、取得部１５ａは、話者の音声データおよび話者の年齢を示す正解ラベルを含む教師あり学習用データ２０を取得する。例えば、取得部１５ａは、話者の音声データ、話者の年齢の実数値、話者の性別等を含む教師あり学習用データ２０を取得する。

　一方、取得部１５ａは、弱教師あり学習用データ３０を弱教師あり学習用データ記憶部１４ｂから取得する。また、取得部１５ａは、教師あり学習用データ２０を教師あり学習用データ記憶部１４ａから取得する。さらに、取得部１５ａは、学習用データを入力部１１経由で取得してもよいし、学習用データを通信部１３経由で他の端末やデータベースから取得してもよい。

（５－２．推定部１５ｂ）
　推定部１５ｂは、弱教師あり学習用データ３０に含まれる音声データの話者の年齢を推定する。また、推定部１５ｂは、教師あり学習用データ２０に含まれる音声データの話者の年齢を推定する。例えば、推定部１５ｂは、別途用意された大量の話者の存在するデータセットを用いて学習された話者表現ベクトルを入力として、ＳＶＲ（Support　Vector　Regression）やニューラルネットワークといった、話者表現ベクトルを年齢に射影変換可能なモデルで推定する。

　また、推定部１５ｂは、ＦＢＡＮＫ（Log　Mel-filter　bank　channel　output）やＭＦＣＣ（Mel-Frequency　Cepstral　Coefficient）といった任意の時系列音響特徴量を、ＲＮＮやトランスフォーマー（transformer）といった時系列特徴量を取り扱うことができるニューラルネットワークへのモデル入力として話者年齢を推定する。さらに、推定部１５ｂは、特徴量の正規化、バッチ正規化、Ｌ１／Ｌ２正則化等の任意の技術を用いて精度を向上させ、話者年齢を推定する。

　推定部１５ｂは、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。また、推定部１５ｂは、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。なお、学習用データの年齢推定処理の詳細については、［処理の詳細］（１．学習用データ年齢推定処理）にて後述する。

　一方、推定部１５ｂは、推定結果を計算部１５ｃに出力する。なお、推定部１５ｂは、推定結果を記憶部１４に格納してもよい。

（５－３．計算部１５ｃ）
　計算部１５ｃは、年齢の範囲を示す正解ラベルおよび推定された年齢から、第１の損失関数を用いて第１の損失を計算する。また、計算部１５ｃは、年齢を示す正解ラベルおよび推定された年齢から、第２の損失関数を用いて第２の損失を計算する。さらに、計算部１５ｃは、話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データ３０と判定するとともに第１の損失関数を用いて第１の損失を計算し、話者の年齢を示す正解ラベルを含むデータを教師あり学習用データ２０と判定するとともに第２の損失関数を用いて第２の損失を計算する。なお、学習用データの年齢推定処理の詳細については、［処理の詳細］（２．損失関数計算処理）にて後述する。

　一方、計算部１５ｃは、計算結果を更新部１５ｄに出力する。なお、計算部１５ｄは、計算結果を記憶部１４に格納してもよい。

（５－４．更新部１５ｄ）
　更新部１５ｄは、第１の損失を最小化するように、モデルパラメタを更新する。また、更新部１５ｄは、第２の損失を最小化するように、モデルパラメタを更新する。例えば、更新部１５ｄは、計算部１５ｃによって計算された損失を最小化するように、確率的勾配降下法を用いてモデルパラメタを更新する。また、更新部１５ｄは、更新したモデルパラメタを記憶部１４のモデルパラメタ記憶部１４ｃに格納する。

［処理の詳細］
　図５～図９や数式等を用いて、本実施形態に係る処理の詳細を説明する。以下では、学習用データ年齢推定処理、損失関数計算処理、学習アプリケーションの処理について詳細に説明する。

（１．学習用データ年齢推定処理）
　以下では、学習用データ年齢推定処理について詳細に説明する。学習装置１０の推定部１５ｂは、以下の話者年齢推定技術を用いて話者年齢を推定する。例えば、推定部１５ｂは、別途用意された大量の話者の存在するデータセットを用いて学習された話者表現ベクトルを入力として、ＳＶＲやニューラルネットワークといった、話者表現ベクトルを年齢に射影変換可能なモデルで推定する。

　また、推定部１５ｂは、ＦＢＡＮＫやＭＦＣＣといった任意の時系列音響特徴量を、ＲＮＮやトランスフォーマーといった時系列特徴量を取り扱うことができるニューラルネットワークへのモデル入力として話者年齢を推定してもよい。さらに、推定部１５ｂは、特徴量の正規化、バッチ正規化、Ｌ１／Ｌ２正則化等の任意の技術を用いて精度を向上させる取り組みを導入し、話者年齢を推定してもよい。

　推定部１５ｂは、学習時には、例えば適切な乱数や別タスクにて事前学習されたモデルパラメタ集合Θを用いて入力音声から年齢を推定する。このとき、推定部１５ｂは、教師あり学習用データ２０と弱教師あり学習用データ３０との組み合わせについても指定はしない。例えば、推定部１５ｂは、同じバッチの中に教師あり学習用データ２０と弱教師あり学習用データ３０を任意の比率で混在させてマルチタスク学習のような形式をとってもよいし、任意のイテレーション／エポックごとの教師あり学習用データ２０と弱教師あり学習用データ３０の学習を切り替えてもよいし、その他任意の方法を取ってもよい。また、推定部１５ｂは、評価時には、学習済みのパラメタ集合Θ'を用いて入力音声から推定年齢を計算する。

（２．損失関数計算処理）
　図５～図７や数式等を用いて、本実施形態に係る損失関数計算処理の詳細を説明する。図５～図７は、実施形態に係る損失関数計算処理の一例を示す図である。以下では、話者年齢推定処理の概要、分類問題の損失関数計算処理、回帰問題の損失関数計算処理の順に説明する。

（２－１．概要）
　学習装置１０の計算部１５ｃは、推定された話者年齢からモデルパラメタ更新のために損失を計算する。以下では、上記の計算処理の前提となる話者年齢推定処理の概要について説明する。ここで、話者年齢の直接推定は、回帰問題もしくは分類問題のどちらでも定義できる。

　回帰問題であれば、年齢値を直接推定するようにモデルｆおよびパラメタ集合Θが定義され、推定年齢ｙ＾は、下記（１）式のように定義される。ここで、下記（１）式中のｘは、入力音声を示す。

　分類問題であれば、１クラス１年齢となるような分類問題としてモデルｆおよびパラメタ集合Θが定義され、入力音声ｘから各年齢ｙ_ｎに対する、下記（２）式に示される事後確率が推定される。

　ここで、推定年齢ｙ＾は、各年齢ｙ_ｎに対する事後確率の最大値が示す年齢を、下記（３）式のように推定結果としてもよいし、事後確率から求められる期待値を、下記（４）式のように推定結果としてもよい。

（２－２．分類問題）
　以下では、分類問題の損失関数計算処理について、教師あり学習用データ２０の損失関数（第２の損失関数）による損失（第２の損失）の計算処理、弱教師あり学習用データ３０の損失関数（第１の損失関数）による損失（第１の損失）の計算処理の順に説明する。

（２－２－１．教師あり学習用データ２０）
　計算部１５ｃは、教師あり学習用の音声ｘによるモデル学習時は、損失関数として例えば下記（５）式に示すクロスエントロピー損失を用いて計算する。また、計算部１５ｃは、ＫＬ（Kullback-Leibler）ダイバージェンス損失等の他の損失関数を用いてもよい。

　このとき、計算部１５ｃは、下記（６）式に示す正解年齢のみを正解とするハードターゲット（hard　target）を正解ターゲットとしてもよいし、下記（７）式に示す正解年齢を平均とする正規分布を近似したソフトターゲット（soft　target）を正解ターゲットとしてもよい。

　なお、上記（５）式～（７）式において、Ｔ（ｙ_ｎ）は各年齢ｙ_ｎに対するターゲットの値を、Ｎは正解として定義された全年齢の集合を、σは事前にハイパーパラメタとして設定する正規分布の標準偏差を示す。

（２－２－２．弱教師あり学習用データ３０）
　計算部１５ｃは、弱教師あり学習用の音声ｗによるモデル学習時は、例えば正解ラベルが示す年齢の範囲の中に推定結果が入れば正解とするように損失関数を定義する。このとき、計算部１５ｃは、クロスエントロピー損失等の正解ターゲットとして正解ラベルが示す年齢の範囲が等しく正解である、といったような下記（８）式に示すソフトターゲットを定義してもよいし、分布を仮定せずに事後確率の合計値から損失関数を計算してもよい。

　また、計算部１５ｃは、マルチラベル学習のようにその範囲すべてを正解と定義してもよい。また、計算部１５ｃは、事後確率の合計値を用いる場合はマージンを設けて多少の推定誤りを許容するように学習させてもよい。ここで、計算部１５ｃは、マージンは一意に決定してもよいし、正解の範囲の幅に合わせて流動的に決定してもよい。下記（９）式に、正解ラベルが示す年齢に対する事後確率の合計値を「１．０」とするような損失関数の一例を示す。

　ここでは、上記（９）式は、ＭＳＥ（Mean　Square　Error）を損失として用いたが、ＭＡＥ（Mean　Absolute　Error）やバイナリクロスエントロピー損失を用いてもよい。また、必要に応じて損失関数に重みを掛けてもよい。

　なお、上記（８）式および（９）式において、Ｙ［ｗ］は弱教師あり学習用の音声ｗの正解ラベルが示す年齢の集合を示す。例えば、「２０代」という正解ラベルの場合、Ｙ［ｗ］∈（２０，２１，２２，２３，２４，２５，２６，２７，２８，２９）となる。

　ここで、図５および図６を用いて、正解ラベルが「３０代」の場合に、上記（８）式および（９）式によって与えられる損失について説明する。図５および図６は、実施形態に係る損失関数計算処理の一例を示す図である。

　図５（１）は、「ｗ：正解年齢ラベル＝３０代」の場合の、各年齢に対する予測事後確率を示す。また、図５（２）は、３０～３９歳を等しく正解とする確率分布を示す。そして、上記（８）式に基づき、事後確率と正解の確率分布でクロスエントロピー損失を計算すると、Ｌ＝４．４１と算出される。

　図６（１）は、「ｗ：正解年齢ラベル＝３０代」の場合の、各年齢に対する予測事後確率を示す。そして、上記（９）式に基づき、図６（２）の破線で囲んだ事後確率の合計値とマージンの和が１．０となるように損失を計算する。このとき、ｍ＝０．２とすると、Ｌ＝０．４１と算出される。

（２－３．回帰問題）
　以下では、回帰問題としての損失関数計算処理について、教師あり学習用データ２０の損失関数による計算処理、弱教師あり学習用データ３０の損失関数による計算処理の順に説明する。

（２－３－１．教師あり学習用データ）
　計算部１５ｃは、実数値としての話者年齢ラベルをもつデータについては、下記（１０）式で示すＭＳＥや、下記（１１）式で示すＭＡＥを損失として計算する。また、計算部１５ｃは、下記（１２）式で示すε感度損失（ε－insensitive　loss）を用いて、一定値（ε）以下の推定誤差を正解とみなすような手法を用いて計算してもよい。

（２－３－２．弱教師あり学習用データ）
　計算部１５ｃは、範囲としての話者年齢ラベルをもつデータについては、その範囲の中に推定結果が入れば等しく正解とみなすようにする。例えば、計算部１５ｃは、下記（１３）式のように正解の範囲の中に推定結果が入るような損失関数を用いて計算してもよいし、他の任意の損失関数を用いて計算してもよい。また、計算部１５ｃは、必要に応じて、損失関数に重みをかけてもよい。

　ここで、図７を用いて、正解ラベルが「３０代」の場合に、上記（１３）式によって与えられる損失について説明する。図７は、実施形態に係る損失関数計算処理の一例を示す図である。図７は、横軸に推定年齢の数値を、縦軸に損失の数値を示したグラフであり、上記（１３）式によって与えられる損失が、推定年齢「３０代」（３０～３９歳）において最小化されている。

（３．学習アプリケーションの処理）
　図８および図９を用いて、本実施形態に係る学習アプリケーションの処理の詳細を説明する。図８および図９は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。以下では、学習アプリケーションの設定画面の概要、学習アプリケーションの設定画面の詳細の順に説明する。

（３－１．設定画面の概要）
　図８を用いて、学習アプリケーションの設定画面の概要について説明する。図８（１）で示す入力欄には、例えば、ユーザの操作により任意の値（文字、数値）を記入する。また、上記入力欄には、デフォルト値が入っていることもある。図８（２）で示す入力欄には、ユーザの操作により事前に定められた選択肢からプルダウン等で選択して入力する。図８（３）で示すボタンは、ファイルを探す際に用い、ユーザの操作により「Ｂｒｏｗｓｅ」ボタンでファイル管理アプリケーション等を用いて検索する。

（３－２．設定画面の詳細）
　図９を用いて、学習アプリケーションの設定画面の詳細について説明する。以下では、教師あり学習用データ２０の指定、モデルパラメタの指定、弱教師あり学習用データ３０の指定、ミニバッチ化の手法の指定、損失関数の指定、マージンの指定、学習のタイミングの指定の順に説明する。

（３－２－１．教師あり学習用データ２０の指定）
　図９（１）では、ユーザの操作により通常の教師あり学習用データ２０を指定する。ここで、データは任意の方法で指定し、学習プログラムが読み込めるのであれば形式は問わない。例えば、データのパスが記入されたテキストやファイルを読み込んでもいいし、データが配置されたディレクトリを指定して、その配下のデータすべて読み込むようにしてもよい。また、「Ｌａｂｅｌ　ｄａｔａ」には各ファイルの正解が記入されているものとしているが、別のファイルとして読み込まなくても、データパスが記載されたファイルに一緒に正解が記載されていてもよいし、データ名に正解が含まれていてもよい。

（３－２－２．モデルパラメタの指定）
　図９（２）では、ユーザの操作により一般的なニューラルネットワークの学習に必要なパラメタ（バッチサイズ、最適化手法、モデル構造、損失関数の設定等）を指定する。ここでは、通常の教師ありラベルによる学習に必要なパラメタ（損失関数の設計）も指定する。この他にも、例えばＬ１／Ｌ２正則化や、バッチノーマライゼーション（batch　normalization）、特徴量の正規化等の技術を取り入れるか指定してもよい。

（３－２－３．弱教師あり学習用データ３０の指定）
　図９（３）では、ユーザの操作により弱教師あり教師用データ３０を指定する。ここで、学習用・評価用・正解情報について、上述した教師あり学習用データ２０と同様にプログラムがデータを読み込めるように指定する。

（３－２－４．ミニバッチ化の手法の指定）
　図９（４）では、ユーザの操作により弱教師あり学習用データ３０をミニバッチ化する際の手法を選択する。例えば、プルダウン「ｖａｌｕｅ」の場合、バッチサイズを直接指定する。図９（４）では、デフォルトで「６４」が入力されている。また、プルダウン「ｒａｔｅ」の場合、「Ｍｉｎｉ－Ｂａｔｃｈ　ｓｉｚｅ」に対する割合を指定する。例えば、上記の割合を「０．５」とすると、デフォルト設定なら「ｖａｌｕｅ：３２」と等しい。さらに、その他、自由な形式でバッチサイズを指定することもできる。

（３－２－５．損失関数の指定）
　図９（５）では、ユーザの操作により弱教師あり学習のための損失関数およびその重み係数を指定する。例えば、｛ＣＥ，ＭＳＥ，ＢＣＥ，ＭＡＥ，ＭＬ｝を選択可能とする。なお、上記の「ＣＥ」はクロスエントロピー損失、「ＢＣＥ」はバイナリクロスエントロピー損失、「ＭＬ」はマルチラベル学習のためのＢＣＥを表わす。また、損失関数計算処理では、損失関数にはここで指定した重み係数を掛けてから誤差逆伝搬に移行する。図９（５）の例では、ＭＳＥを損失として、重み係数＝１．０で誤差逆伝搬する。

（３－２－６．マージンの指定）
　図９（６）では、ユーザの操作により損失計算時のマージンを指定する。例えば、「ｏｒｄｅｒ」の場合、データの年齢幅に関係なく定数として指定する。また、「ｃｈａｎｃｅ　ｒａｔｅ」の場合、年齢の範囲に応じて変動させ、倍率を指定する。

（３－２－７．学習のタイミングの指定）
　図９（７）では、ユーザの操作により弱教師あり学習用データ３０の学習時のタイミングを指定する。例えば、「ｓａｍｅ」の場合、通常の教師あり学習用データ２０と弱教師あり学習用データ３０のミニバッチを結合する。図９（７）の例では、６４＋６４＝１２８となる。また、「ｉｔｅｒ」の場合、ｘイテレーションごとに、教師ありの学習→弱教師ありの学習→教師ありの学習・・・と交互に学習する。また、「ｅｐｏｃｈ」の場合、ｘエポックごとに、教師ありの学習→弱教師ありの学習→教師ありの学習・・・と交互に学習する。さらに、「ｉｔｅｒ」と「ｅｐｏｃｈ」の場合には，「ｘ」は任意の数を指定するとよい。なお、図９（７）の例では、デフォルト＝１としている。

［処理の流れ］
　図１０を用いて、学習処理全体の流れを説明する。図１０は、本実施形態に係る学習処理全体の流れを示すフローチャートである。以下では、処理全体の流れを説明した上で、各処理の概要を説明する。

（１．処理全体の流れ）
　まず、学習装置１０の取得部１５ａは、学習用データ取得処理を実行する（ステップＳ１０１）。次に、学習装置１０の推定部１５ｂは、学習用データ年齢推定処理を実行する（ステップＳ１０２）。そして、学習装置１０の計算部１５ｃは、損失関数計算処理を実行する（ステップＳ１０３）。最後に、学習装置１０の更新部１５ｄは、モデルパラメタ更新処理を実行し（ステップＳ１０４）、処理を終了する。なお、上記のステップＳ１０１～Ｓ１０４は、異なる順序で実行することもできる。また、上記のステップＳ１０１～Ｓ１０４のうち、省略される処理があってもよい。

（２．各処理の流れ）
　第１に、取得部１５ａによる学習用データ取得処理について説明する。学習用データ取得処理では、取得部１５ａは、記憶部１４から教師あり学習用データ２０や弱教師あり学習用データ３０を取得する。このとき、取得部１５ａは、記憶部１４から教師あり学習用データ２０や弱教師あり学習用データ３０を、記憶部１４を参照せず入力部１１や通信部１３経由で取得してもよい。

　第２に、推定部１５ｂによる学習用データ年齢推定処理について説明する。学習用データ年齢推定処理では、推定部１５ｂは、取得した学習用データに含まれる音声データから特徴量を抽出し、ＳＶＲやニューラルネットワーク等の学習モデルを用いて年齢を推定する。なお、学習用データ年齢推定処理の詳細については、上述の［処理の詳細］（１．学習用データ年齢推定処理）において説明している。

　第３に、計算部１５ｃによる損失関数計算処理について説明する。損失関数計算処理では、計算部１５ｃは、学習用データとして、教師あり学習用データ２０または弱教師あり学習用データ３０を判定し、推定手法として、分類問題または回帰問題を判定し、それぞれの学習用データ、推定手法に適した損失関数を用いて損失を計算する。なお、学習用データ年齢推定処理の詳細については、上述の［処理の詳細］（２．損失関数計算処理）において説明している。

　第４に、更新部１５ｄによるモデルパラメタ更新処理について説明する。モデルパラメタ更新処理では、更新部１５ｄは、計算部１５ｃによって計算された損失を最小化するように、確率的勾配降下法等を用いてモデルパラメタを更新する。

［実施形態の効果］
　第１に、上述した本実施形態に係る学習処理では、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データ３０を取得し、弱教師あり学習用データ３０に含まれる音声データの話者の年齢を推定し、年齢の範囲を示す正解ラベルおよび推定された年齢から、第１の損失関数を用いて第１の損失を計算し、第１の損失を最小化するように、モデルパラメタを更新する。このため、本処理では、音声から話者の年齢をより高い精度で推定することができる。

　第２に、上述した本実施形態に係る学習処理では、話者の音声データおよび話者の年齢を示す正解ラベルを含む教師あり学習用データ２０を取得し、教師あり学習用データ２０に含まれる音声データの話者の年齢を推定し、年齢を示す正解ラベルおよび推定した年齢から、第２の損失関数を用いて第２の損失を計算し、第２の損失を最小化するように、モデルパラメタを更新する。このため、本処理では、より多くの学習用データを利用することにより、音声から話者の年齢をより高い精度で推定することができる。

　第３に、上述した本実施形態に係る学習処理では、話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データ３０と判定するとともに第１の損失関数を用いて第１の損失を計算し、話者の年齢を示す正解ラベルを含むデータを教師あり学習用データ２０と判定するとともに第２の損失関数を用いて第２の損失を計算する。このため、本処理では、より多くの学習用データを効果的に利用することにより、音声から話者の年齢をより高い精度で推定することができる。

　第４に、上述した本実施形態に係る学習処理では、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。このため、本処理では、より多くの学習用データを効果的に利用することにより、回帰モデルに基づいて音声から話者の年齢をより高い精度で推定することができる。

　第５に、上述した本実施形態に係る学習処理では、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。このため、本処理では、より多くの学習用データを効果的に利用することにより、分類モデルに基づいて音声から話者の年齢をより高い精度で推定することができる。

〔システム構成等〕
　上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメタを含む情報については、特記する場合を除いて任意に変更することができる。

〔プログラム〕
　また、上記実施形態において説明した学習装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

　図１１は、プログラムを実行するコンピュータを示す図である。図１１に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図１１に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１１に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図１１に例示するように、ディスクドライブ１１００に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図１１に例示するように、例えば、マウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図１１に例示するように、例えばディスプレイ１１３０に接続される。

　ここで、図１１に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ１０９０に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

　なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。

　１０　学習装置
　１１　入力部
　１２　出力部
　１３　通信部
　１４　記憶部
　１４ａ　教師あり学習用データ記憶部
　１４ｂ　弱教師あり学習用データ記憶部
　１５　制御部
　１５ａ　取得部
　１５ｂ　推定部
　１５ｃ　計算部
　１５ｄ　更新部
　２０　教師あり学習用データ
　３０　弱教師あり学習用データ
　４０　音声データ
　１００　学習システム

Claims

　話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部と、
　前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定部と、
　前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算部と、
　前記第１の損失を最小化するように、モデルパラメタを更新する更新部と、
　を備えることを特徴とする学習装置。
　前記取得部は、話者の音声データおよび前記話者の年齢を示す正解ラベルを含む教師あり学習用データを取得し、
　前記推定部は、前記教師あり学習用データに含まれる前記音声データの話者の年齢を推定し、
　前記計算部は、前記年齢を示す正解ラベルおよび推定された前記年齢から、第２の損失関数を用いて第２の損失を計算し、
　前記更新部は、前記第２の損失を最小化するように、前記モデルパラメタを更新する、
　ことを特徴とする請求項１に記載の学習装置。
　前記計算部は、前記話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データと判定するとともに前記第１の損失関数を用いて前記第１の損失を計算し、前記話者の年齢を示す正解ラベルを含むデータを教師あり学習用データと判定するとともに前記第２の損失関数を用いて前記第２の損失を計算する、
　ことを特徴とする請求項２に記載の学習装置。
　前記推定部は、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する、
　ことを特徴とする請求項３に記載の学習装置。
　前記推定部は、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する、
　ことを特徴とする請求項３に記載の学習装置。
　学習装置によって実行される学習方法であって、
　話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得工程と、
　前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定工程と、
　前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算工程と、
　前記第１の損失を最小化するように、モデルパラメタを更新する更新工程と、
　を含むことを特徴とする学習方法。
　話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得ステップと、
　前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定ステップと、
　前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第１の損失関数を用いて第１の損失を計算する計算ステップと、
　前記第１の損失を最小化するように、モデルパラメタを更新する更新ステップと、
　をコンピュータに実行させることを特徴とする学習プログラム。