WO2024038560A1

WO2024038560A1 - 学習装置、推定装置、学習方法、及びプログラム

Info

Publication number: WO2024038560A1
Application number: PCT/JP2022/031263
Authority: WO
Inventors: 佑樹北岸; 健一森本; 厚徳小川; 直弘俵
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2024-02-22

Abstract

音声から年齢を推定するためのモデルを学習する学習装置において、変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部とを備える。

Description

学習装置、推定装置、学習方法、及びプログラム

　本発明は、音声から年齢を自動的に推定する技術に関するものである。

　従来から、人間の音声から性別や年齢などの身体的な非言語情報を自動推定しようとする技術の研究開発が行われてきた。年齢の自動推定には例えばＤＮＮ（Deep Neural Network）が使用される。

　ＤＮＮのモデル学習時にはデータ拡張が行われることがある。データ拡張により、様々な収録環境を疑似的に再現することで収録環境に依存しない推定を実現する、大量の学習データが必要なＤＮＮのモデル学習において学習データ数を水増しする、といった役割が期待されている。例えば音声では雑音の重畳や残響の付与によって多種多様な収録環境をシミュレーションし、モデルが多種多様な環境で頑健に動作することを期待してデータ拡張が行われる。

　音声から話者が話した言語情報を文字起こしする音声認識においては、話者の特徴（話者性）や収録環境に関係なく、同じ発話内容に対しては同じ文字を認識する必要があるため、前述の雑音や残響を用いたデータ拡張に加えて話速などを変化させることがある（非特許文献１）。

　しかし、話者認識技術や話者年齢推定技術においては、このようなデータ拡張は"誰（どんな人）が話したのか"という情報（話者性・年齢性）を変化させる可能性があるために、データ拡張時に正解ラベル（話者ＩＤや話者年齢）をそのままで用いることはできない。

　話者認識技術ではＤＮＮの学習において話者を分類するようなモデル学習を行うために、音声変換により話者性をあえて変化させて別の話者による音声としてデータ拡張する方法がある（非特許文献２）。

"Audio Augmentation for Speech Recognition" by T. Ko, V. Peddinti, D. Povey and S. Khudanpur, in INTERSPEECH (2015). doi: 10.21437/Interspeech.2015-711 "Speaker Augmentation and Bandwidth Extension for Deep Speaker Embedding" by H. Yamamoto, K. A. Lee, K. Okabe and T. Koshinaka, in INTERSPEECH (2019). doi: 10.21437/Interspeech.2019-1508 "音声は何を伝えているか - 感情・パラ言語情報・個人性の音声科学 -"，日本音響学会（編），2014．

　話者年齢推定技術において、非特許文献２に開示された音声変換の方法でデータ拡張を行うことが考えられる。しかし、話者年齢は話速やピッチといった様々な音響特徴量が関与し（非特許文献３）、かつ、このような音声変換を実施した場合に年齢性がどのように変化するのか（つまり、何歳の音声となるのか）は定かではない。よって、話者年齢推定技術において、非特許文献２に開示されたデータ拡張法を用いることは難しい。

　本発明は上記の点に鑑みてなされたものであり、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現するための技術を提供することを目的とする。

　開示の技術によれば、音声から年齢を推定するためのモデルを学習する学習装置であって、
　変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、
　前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、
　前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部と
　を備える学習装置が提供される。

　開示の技術によれば、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現できる。

推定装置１００の構成例を示す図である。推定装置１００の動作例を説明するためのフローチャートである。データベース部１１０に格納される学習用データの例を示す図である。学習のフローを示す図である。学習のフローを示す図である。対照的な学習における損失関数の値の例を示す図である。学習のフローを示す図である。学習装置２００の構成例を示す図である。推定装置３００の構成例を示す図である。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　（実施の形態の概要）
　本実施の形態では、音声から年齢を推定するモデルの学習において、年齢性が変化するような音声変換を実施し、新たに正解年齢を再定義すること（つまり、正解年齢を設定すること）でデータ拡張を行う。

　一般的には加齢によって音声の高さや話速が変化することが知られている（非特許文献３）。本実施の形態ではデータ拡張としてこういった年齢性を変化させる音声変換を実施し、その音声に紐づく正解年齢も同時に変化させることでデータ拡張を実現する。具体的には、後述する「対照的な学習」あるいは「自己ラベル付与による学習」により、データ拡張に基づく学習を行う。これによりモデル精度を向上させることが期待できる。

　（装置構成）
　図１に、本実施の形態における推定装置１００の構成例を示す。図１に示すように、推定装置１００は、データベース部１１０、年齢性変換部１２０、特徴抽出部１３０、パラメタ学習部１４０、パラメタ保持部１５０、及び音声評価部１６０を備える。

　なお、年齢性変換部１２０、特徴抽出部１３０、パラメタ学習部１４０をそれぞれ、変換部、抽出部、学習部と呼んでもよい。また、図１に示す推定装置１００は、モデルを学習する装置でもあるので、「学習装置」と呼んでもよい。また、データベース部１１０は推定装置１００の外部にあってもよい。

　（推定装置１００の動作）
　上記構成を備える推定装置１００の動作例を図２のフローチャートの手順に沿って説明する。

　＜Ｓ１０１：学習用音声データの準備＞
　Ｓ１０１において、データベース部１１０に、モデル学習に用いる学習用データを格納する。図３に、データベース部１１０に格納される学習用データの例を示す。

　学習用データには最低限の情報として、データＩＤ（音声ＩＤ）と正解年齢（ラベル）が付与されている必要がある。図３の例では、学習用データとして、音声ＩＤ、話者年齢（正解年齢）、及び音声のデータが、データベース部１１０に格納される。

　上記の他にも、話者ＩＤやその他の言語情報あるいは非言語情報がデータベース部１１０に保持されていてもよい。また、必要に応じて年齢性を損なわないデータ拡張（雑音重畳、残響付与など）を実施してもよい。

　より具体的には、図３に示す例において、Ｉ個の音声データ（サンプリング周波数１６ｋＨｚ、１６ｂｉｔ量子化、１ｃｈのｌｉｎｅａｒ　ＰＣＭのＩ名の話者による発話音声）があり、各音声ｓ_ｉにはデータＩＤとしてインデックス番号ｉが付与されている。各音声にはその音声の話者の実年齢ｙ_ｉが実数値として付与されている。

　＜Ｓ１０２：データ拡張＞
　Ｓ１０２において、年齢性変換部１２０が、データベース部１１０に保持された音声とその正解年齢それぞれに対して変換を行うことによりデータ拡張を実施する。

　音声変換には市中の任意の技術を用いることとしてよい。例えば、音声波形の直接操作により、音圧の平均や分散の変換、時間長（ピッチ調整有／無も含めて）の変換、などを実施する。また、音声合成技術を用いてピッチの平均や標準偏差の変換を実施してもよい。なお、音声変換の方法についてはこれらに限定されない。

　音声変換後の音声のラベル（つまり、正解年齢）については、例えば後述する「対照的な学習」において説明するように、変換後の音声のラベルが変換前の音声のラベルと比べて若いか／老いたかだけを判定する場合、元の音声のラベルに１を加算／減算することとしてもよいし、極端に０歳もしくは１００歳などとしてもよいし、若いか／老いたかを示すものであればこれら以外であってもよい。

　変換後の音声のラベルが変換前の音声のラベルと比べて若いか／老いたかの判定（仮定）については、人が行ってもよいし、学習済みモデルを用いて自動的に行ってもよい。

　また、後述する「自己ラベル付与による学習」において説明するように、学習済モデルを用いて新たにラベルを付けなおす場合は、ここではラベルは値無しとしてもよい。

　ここでは、例として、音声ｓ_ｉに対して任意の変換を実施した音声をｓ´_ｉとし、そのラベルをｙ´_ｉとする。

　＜Ｓ１０３：特徴抽出＞
　Ｓ１０３において、特徴抽出部１３０は、データベース部１１０に保持された音声及び年齢性変換部１２０で生成された音声から、市中技術により任意の音響特徴量を取得する。例えばlog-mel spectrogramやmel-frequency cepstrum coefficient（MFCC）、基本周波数といった時系列の音響特徴量を取得してもよいし、複数の音響特徴量の任意の組み合わせを取得してもよい。また、話者認識ベクトルなどの、年齢推定に用いることが可能、かつ、時系列情報を圧縮した特徴量を取得してもよいし、音声波形そのものを特徴量として利用してもよい。

　ここでは、例として、音声ｓ_ｉから８０次元のlog-mel spectrogramを抽出し、学習データ全体の平均および分散を用いて標準化されたものを特徴量ｘ_ｉとする。また、年齢性変換部１２０にて変換された音声ｓ´_ｉからｘ_ｉと同様の手順で抽出したものを特徴量ｘ´_ｉとする。

　＜Ｓ１０４：モデル学習＞
　Ｓ１０４において、パラメタ学習部１４０が、年齢推定のためのモデルの学習を行う。モデル学習については、（１）基礎部分、（２）年齢性変換済音声に対するモデル学習、（２－１）対照的な学習、及び、（２－２）自己ラベル付与による学習、に分けて説明する。（２－１）と（２－２）は（２）の具体例である。

　（１）基礎部分
　パラメタ学習部１４０では、データベース部１１０にもともと保持されている音声から抽出された特徴量、及び、年齢性変換部１２０で生成された音声から抽出された特徴量を用いてモデルを学習する。

　例えば、年齢推定のためのモデル（年齢推定器と呼んでもよい）としてニューラルネットワークのモデル（例：ＤＮＮモデル）を使用することができる。ただし、年齢推定のためのモデルはニューラルネットワークのモデルに限定されない。

　ＤＮＮモデルを用いる場合において、log-mel spectrogramのような時系列特徴量を用いる場合はrecurrent neural network（RNN）やtime delay neural network（TDNN）、transformerといった時系列特徴量を扱えるモデル構造に加えて、平均などによるPoolingと全結合層を用いる。また、話者表現ベクトルのような既に時間方向の情報が削減された特徴量を用いる場合には、モデル構造として全結合層などを用いる。ただし、これらは例であり、これら以外のモデル構造のＤＮＮを使用してもよい。

　モデルの出力は回帰問題として年齢を直接推定する方法としてもよいし、１歳１クラスとする分類問題（例：０－１００歳までの１０１クラスの分類問題）として、事後確率が最大となったクラス（年齢）や事後確率の期待値を推定年齢とする方法を用いてもよい。

　分類問題としてモデルを定義する場合、例えば、予測事後確率と正解確率を近づけるように、交差エントロピーやＫＬダイバージェンスなどの任意の損失関数を用いてモデルを学習する。この時、正解ラベルは一般的に分類問題で用いられる１－ｈｏｔターゲットを用いて、ある１歳のみを正解とするようにしてもよいし、平均値を正解年齢として任意の値の標準偏差によって生成される正規分布を正解ターゲットとしてもよい。

　また、回帰問題としてモデルを定義する場合、例えば、正解年齢と予測年齢の誤差をＬ１損失関数やＬ２損失関数などの任意の損失関数を用いてモデルを学習する。

　なお、分類問題としてモデルを定義する場合でも、事後確率分布ではなくて事後確率の最大値や期待値に基づく年齢を直接正解年齢と比較して、回帰問題の場合と同様にＬ１、Ｌ２損失を用いてモデルを学習してもよい。

　モデルパラメタについては、これら損失関数を用いて一般的な学習法、例えば確率的勾配降下法によって、例えば任意の大きさのミニバッチごとに最適化する。その他、市中の学習において有効とされている技術（例えばバッチノーマライゼーション、Ｌ１／Ｌ２正則化、ドロップアウトなど）を用いたモデル学習を実施してもよい。

　ここでは、例として、０歳から１００歳の１クラス１分類の１０１クラスの分類問題としてモデルの出力を定義し、事後確率の期待値を推定年齢とする。パラメタ学習部１４０は、学習時には正解年齢ｙ_ｍを平均とした、任意の標準偏差σによる正規分布を近似した正解ターゲットＮ（ｙ_ｍ，σ^２）を生成し、下記の式に示す交差エントロピーＬ_ＣＥを損失関数として用いる。

　上記の式において、Ｍはミニバッチサイズ、ｍはミニバッチ内のインデックス番号、Ｃは年齢の最大値（１００）、ｃはクラスのインデックス番号、Ｐ（ｘ_ｍ，Ω）は事後確率、ΩはＤＮＮのパラメタ集合である。

　図４に、パラメタ学習部１４０が実行する学習のフローを示す。図４に示すとおり、パラタ学習部１２０は、特徴量ｘ_ｍをモデル（ＤＮＮ）に入力することで、モデルから事後確率Ｐ（ｘ_ｍ，Ω）を取得し、ｙ_ｍから生成した正解ターゲットＮ（ｙ_ｍ，σ^２）を用いて損失を計算し、損失が小さくなるようにパラメタを更新する。

　正解ターゲットの合計

および事後確率の合計

は１．０となるようにｓｏｆｔｍａｘ関数など任意の手法で正規化されている。また、予測年齢＾ｙは事後確率の最大値が対応する年齢ではなく、事後確率の期待値として以下のように求めるものとする。なお、明細書のテキストでは、文字の頭に記載する記号を文字の前に記載している。「＾ｙ」はその例である。

　（２）年齢性変換済音声に対するモデル学習
　年齢性変換部１２０で年齢性（話者性）が変化するような音声変換を受けた音声から抽出された特徴量に対しては、年齢性の変化により元の音声に対応する正解年齢がそのまま使えないという課題がある。

　それに対して本実施の形態では年齢性が変化したことを踏まえて、パラメタ学習部１４０により、正解年齢を新たに再定義する。つまり、パラメタ学習部１４０により、正解年齢を新たに設定する。

　ここでは具体例として、下記の２種類の手法（第１手法、第２手法）のそれぞれについて説明する。本実施の形態では話者年齢推定に限って記載するが、話者の個人性（話者認識）・性別・身長や音声認識など任意のタスクとのマルチタスク学習としてもよい。なお、「／」は、「又は」を意味する。

　第１手法：元の音声より若い／老いた音声に変換したという仮定を設定し、その仮定通りの推定（学習）が行われるように学習を行う手法。

　第２手法：年齢性が変化した音声に対して学習済のモデルパラメタを用いて正解を新たに定義する手法。

　以下、第１手法を「（２－１）対照的な学習」として説明し、第２手法を「（２－２）自己ラベル付与による学習」として説明する。

　（２－１）対照的な学習
　パラメタ変換部１４０は、学習対象のモデルに対して常に変換前音声の特徴量と変換後音声の特徴量の２つ以上１組の組み合わせを与え、当該モデルによりそれぞれの年齢を推定する。例えば、変換前音声と比べて変換後音声の年齢が若い／老いたと仮定される場合に、その仮定を満たすような以下の損失関数Ｌ_ｃｔｒを用いる。以下に示すように、年齢幅を示すｍａｒｇｉｎを使用する。

　ｍａｒｇｉｎを設けなかった場合、＾ｙ_ｍと＾ｙ´_ｍが同一値となった時にＬ_ｃｔｒ＝０となり、元の音声より変換後の音声を若く／老いて推定するような仮定をおけない。

　したがって、ｍａｒｇｉｎによって最低でも±ｍａｒｇｉｎ歳は元の音声から変化させる、という制約を設ける（ただし、ｍａｒｇｉｎ＞０とする）。

　図５にＬ_ｃｔｒを用いた学習フローを示し、図６にｙ_ｍ＝２０、ｍａｒｇｉｎ＝０．５とした時の損失関数の値を示す。

　図５に示すように、特徴量ｘ_ｍ、及び、変換後音声の特徴量ｘ´_ｍがモデルに入力され、モデルから出力されるそれぞれの事後確率と、変換前音声の年齢ｙ_ｍ、及び、変換後音声の仮定年齢ｙ´_ｍを用いて上述の式で損失を計算し、損失が小さくなるようにパラメタを更新する。

　図６に示すように、変換後音声の仮定年齢がｙ_ｍよりも大きい場合は、変換後音声の予測年齢がｙ_ｍ＋０．５よりも小さい場合に損失が大きくなり、変換後音声の予測年齢がｙ_ｍ＋０．５よりも大きい場合に損失が０になる。

　変換後音声の仮定年齢がｙ_ｍよりも小さい場合は、変換後音声の予測年齢がｙ_ｍ－０．５よりも大きい場合に損失が大きくなり、変換後音声の予測年齢がｙ_ｍ－０．５よりも小さい場合に損失が０になる。

　すなわち、「対照的な学習」においては、変換前音声に対して変換後音声が若いか老いたかの仮定に合致する範囲の年齢（ｍａｒｇｉｎを加味した年齢）が、変換後音声の正解年齢として新たに設定（定義）されたことになる。

　上述したＬ_ｃｔｒでは年齢の絶対誤差を損失としているが、絶対誤差に代えて二乗誤差などを損失としてもよい。また、上記の例では変換後の音声を１つのみ用意したが、変換後の音声を２つ以上用意してもよい。例えば、２つの変換後音声を用いる場合に、２つの変換後音声を、変換後音声１、変換後音声２とすると、変換前音声と変換後音声１との間、変換前音声と変換後音声２との間、及び、変換後音声１と変換後音声２との間でそれぞれ、上述した損失を求めて学習を行ってもよい。この時、ｍａｒｇｉｎは固定でもよいし、変動させてもよい。

　パラメタ学習部１４０は、このような対照的な学習と通常の年齢推定学習を任意の組み合わせで実行する。例えばマルチタスク学習のように任意の重み係数（０＜λ＜１）を用いた加重和（λＬ_ＣＥ＋（１－λ）Ｌ_ｃｔｒ１）を用いて学習してもよいし、１エポックごとあるいは１イテレーションごとなど任意の間隔ごとに片方ずつの損失を用いてもよい。また、この対照的な学習を事前学習として用いてもよい。

　これらの損失関数はあくまでも一例であり、音声変換前後で、音声が若く／老いて推定されると仮定でき、その仮定に従った推定が行われると損失が下がるような損失関数であればどのような損失関数を用いてもよい。

　（２－２）自己ラベル付与による学習
　自己ラベル付与による学習では、「対照的な学習」とは異なり、自由な組み合わせで学習のための音声が与えられることとしてよい。パラメタ学習部１４０は、変換後の音声の音響特徴量にラベルを付与するため、市中の任意の技術で学習済みのモデルパラメタ集合Θを利用する。

　パラメタ学習部１４０は、例えば、以下に示す損失関数Ｌ_ｓｌｆを計算する。この損失関数Ｌ_ｓｌｆでは、変換前の音声の音響特徴量ｘ_ｍに対しては正解年齢ｙ_ｍを用いたターゲットを正解ターゲットとし、変換後の音声の音響特徴量ｘ´_ｍに対してはΘを適用したモデルによる推定結果Ｐ（ｃ｜ｘ´_ｍ，Θ）を正解ターゲットとしている。

　図７に変換後の音声のみを用いる場合の学習フローを示す。変換前音声の学習フローについては図４と同一である。図７に示すとおり、学習済みのモデルパラメタ集合Θを使用したモデルによるｘ´_ｍからの推定結果を正解ターゲットとし、当該正解ターゲットと、学習対象のモデルにより得られる事後確率とを用いて損失を計算し、損失が小さくなるように学習対象のモデルのパラメタを更新する。

　上記の学習方法は一例であり、任意の手法で信頼性のおける正解ラベルを生成してモデルを学習できればどのような手法を用いてもよい。

　＜Ｓ１０５：パラメタ格納＞
　パラメタ学習部１２０は、学習済パラメタ集合Ω´をモデルパラメタ保持部１５０に格納する。

　＜Ｓ１０６：年齢推定＞
　音声評価部１６０は、モデルパラメタ保持部１５０にて保存されているΩ´を適用したモデルを用いて、未知の音声についての話者の年齢を推定する。年齢推定の際には、未知の音声はまず特徴抽出部１３０に入力され、特徴抽出部１３０から音響特徴量が出力され、それが音声評価部１６０に入力される。

　一例として、音声評価部１６０は、未知話者ｕｎｋの音声の音響特徴量ｘ_ｕｎｋから、学習済パラメタΩ´を適用したモデルを用いて、下記の式により年齢を推定することができる。

　（その他の装置構成例）
　図１に示した推定装置１００は、学習機能と推定機能の両方を含むものであるが、このような構成は一例である。モデルを学習する学習装置２００と、学習装置２００により学習されたモデルを利用して音声から年齢を推定する推定装置３００とが別々に備えられてもよい。

　図８に、学習装置２００の構成例を示す。図８に示すように、学習装置２００は、データベース部１１０、年齢性変換部１２０、特徴抽出部１３０、パラメタ学習部１４０を有する。データベース部１１０は学習装置２００の外部にあってもよい。

　図９に、推定装置３００の構成例を示す。図９に示すように、推定装置３００は、特徴抽出部１３０、パラメタ保持部１５０、音声評価部１６０を有する。

　図８，図９における各部の機能は既に説明したとおりである。学習装置２００により学習されたパラメタが、推定装置３００のパラメタ保持部１５０に格納される。推定装置３００の音声評価部１６０は、当該パラメタを適用したモデルを用いて音声から年齢を推定する。

　（ハードウェア構成例）
　本実施の形態で説明したいずれの装置（推定装置、学習装置）も、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

　すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図１０は、上記コンピュータのハードウェア構成例を示す図である。図１０のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、当該コンピュータは、更にＧＰＵを備えてもよい。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（実施の形態のまとめ、効果等）
　以上説明したとおり、本実施の形態で説明した技術により、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現できる。

　具体的には、年齢性を変化させる音声変換を実施し、音声に紐づく正解年齢も変換に応じて変化させる。これにより、年齢性が変化するために話者年齢推定におけるデータ拡張として従来技術では使えなかったデータ拡張法でも、正解ラベルを再定義することで利用可能となる。結果として、学習データ量が増え、モデルの精度向上を図ることができる。

　以上の実施形態に関し、更に以下の付記を開示する。

　＜付記＞
（付記項１）
　音声から年齢を推定するためのモデルを学習する学習装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　変換前音声に対して音声変換処理を施すことにより変換後音声を取得し、
　前記変換前音声の特徴量と前記変換後音声の特徴量を抽出し、
　前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する
　学習装置。
（付記項２）
　前記変換後音声は前記変換前音声よりも若い又は老いているという仮定がなされており、前記プロセッサは、その仮定に従った推定が行われるように前記モデルのパラメタを学習する
　付記項１に記載の学習装置。
（付記項３）
　前記プロセッサは、学習済みモデルを用いて前記変換後音声の年齢を推定し、その推定結果を前記変換後音声の正解年齢として使用することにより、前記モデルのパラメタを学習する
　付記項１に記載の学習装置。
（付記項４）
　付記項１ないし３のうちいずれか１項に記載の前記学習装置により学習されたモデルを用いて、音声から年齢を推定する推定装置。
（付記項５）
　音声から年齢を推定するためのモデルを学習するコンピュータが実行する学習方法であって、
　変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換ステップと、
　前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出ステップと、
　前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習ステップと
　を備える学習方法。
（付記項６）
　コンピュータを、付記項１ないし３のうちいずれか１項に記載の学習装置として機能させるためのプログラムを記憶した非一時的記憶媒体。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００、３００　推定装置
１１０　データベース部
１２０　年齢性変換部
１３０　特徴抽出部
１４０　パラメタ学習部
１５０　パラメタ保持部
１６０　音声評価部
２００　学習装置
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　音声から年齢を推定するためのモデルを学習する学習装置であって、
　変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、
　前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、
　前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部と
　を備える学習装置。
　前記変換後音声は前記変換前音声よりも若い又は老いているという仮定がなされており、前記学習部は、その仮定に従った推定が行われるように前記モデルのパラメタを学習する
　請求項１に記載の学習装置。
　前記学習部は、学習済みモデルを用いて前記変換後音声の年齢を推定し、その推定結果を前記変換後音声の正解年齢として使用することにより、前記モデルのパラメタを学習する
　請求項１に記載の学習装置。
　請求項１ないし３のうちいずれか１項に記載の前記学習装置により学習されたモデルを用いて、音声から年齢を推定する音声評価部を備える推定装置。
　音声から年齢を推定するためのモデルを学習する学習装置が実行する学習方法であって、
　変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換ステップと、
　前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出ステップと、
　前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習ステップと
　を備える学習方法。
　コンピュータを、請求項１ないし３のうちいずれか１項に記載の学習装置における各部として機能させるためのプログラム。