JPWO2019102884A1 - ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 - Google Patents

ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JPWO2019102884A1
JPWO2019102884A1 JP2019555260A JP2019555260A JPWO2019102884A1 JP WO2019102884 A1 JPWO2019102884 A1 JP WO2019102884A1 JP 2019555260 A JP2019555260 A JP 2019555260A JP 2019555260 A JP2019555260 A JP 2019555260A JP WO2019102884 A1 JPWO2019102884 A1 JP WO2019102884A1
Authority
JP
Japan
Prior art keywords
emotion
utterance
correct
learning
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019555260A
Other languages
English (en)
Other versions
JP6933264B2 (ja
Inventor
厚志 安藤
厚志 安藤
歩相名 神山
歩相名 神山
哲 小橋川
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019102884A1 publication Critical patent/JPWO2019102884A1/ja
Application granted granted Critical
Publication of JP6933264B2 publication Critical patent/JP6933264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

第1発話を聴取した聴取者が複数の感情クラスC1,…,CKから第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスCiが選択された回数niを得、回数n1,…,nKの総和に対する回数nkの割合または当該割合の平滑化値を、第1発話に対応する正解感情ソフトラベルtk(s)として得る。

Description

本発明は、発話者の感情を認識する技術に関する。
発話からの発話者の感情の認識は重要な技術である。例えば、カウンセリング時に発話者の感情の認識を行うことで、患者の不安や悲しみの感情を可視化でき、カウンセラーの理解の深化や指導の質の向上が期待できる。また人間と機械の対話において人間の感情を認識することで、人間が喜んでいれば共に喜ぶ、悲しんでいれば励ますなど、より親しみやすい対話システムの構築が可能となる。以降では、ある発話を入力とし、その発話に含まれる発話者の感情が感情クラス(クラス分けされた感情、例えば、平常、怒り、喜び、悲しみ、など)のいずれに当たるかを推定する技術を感情認識と呼ぶ。
非特許文献1には、従来の感情認識技術(以降、従来技術)が開示されている。従来技術では、発話から短時間ごとの音響特徴(例えば、Mel-Frequency Cepstral Coefficient: MFCCなど)を抽出し、音響特徴系列から深層学習に基づく時系列モデルであるLong Short-Term Memory Recurrent Neural Network(LSTM-RNN)を用いて感情クラスの推定を行う。LSTM-RNNモデルの学習時には、発話と、人間の聴取結果により決められた当該発話の正解感情ラベルの組の集合を利用する。このとき、正解感情ラベルは、当該発話を複数名が聴取し、聴取者の各々が正解と感じた感情クラス(以降、聴取者ごとの正解感情クラスと呼ぶ)の多数決により決められる。なお、多数決で正解感情ラベルが決められなかった場合(例えば、全員が異なる感情クラスを付与した場合など)、その発話は正解感情ラベルなしとみなされるため、モデル学習には利用できない。
Che-Wei Huang, Shrikanth Narayanan, "Attention Assisted Discovery of Sub-Utterance Structure in Speech Emotion Recognition,"in Interspeech 2016.
従来技術では、感情認識精度を向上させることが困難であった。例えば、LSTM-RNNモデルなどの深層学習に基づく時系列モデルは高い推定精度を出すことができる一方で、高い推定精度を発揮するためには数万発話といった大量の学習データが必要であるとされる。しかし感情認識の学習データを大量に集めることは非常に困難である。これは、正解感情ラベルの決定には聴取者ごとの正解感情クラスを複数名分集める必要があり、この作業に非常に大きなコストが掛かるためである。このことから、実用上は数百から数千発話の限られた学習データを利用せざるを得ない。さらに、従来技術では学習データのうち多数決で正解感情ラベルが決められた発話しか学習には利用できないため、学習データの一部しかモデル学習に利用できないことがある。この結果、モデル学習に利用できる学習データがさらに少なくなってしまい、深層学習に基づく時系列モデルの識別性能が十分に発揮されず、感情認識精度が低下する。
本発明はこのような点に鑑みてなされたものであり、限られた学習データを用いて感情認識精度を向上させることを目的とする。
第1発話を聴取した聴取者が複数の感情クラスC,…,Cから第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスCが選択された回数nを得、回数n,…,nの総和に対する回数nの割合または割合の平滑化値を、第1発話に対応する正解感情ソフトラベルt (s)として得る。
正解感情ソフトラベルを利用することで、限られた学習データを用いて感情認識精度を向上させることができる。
図1は第1実施形態のラベル生成装置の機能構成を例示するブロック図である。 図2は実施形態の正解感情ソフトラベルを説明するための概念図である。 図3は第2実施形態のラベル生成装置の機能構成を例示するブロック図である。 図4は第3実施形態のラベル生成装置の機能構成を例示するブロック図である。
以下、本発明の実施形態を説明する。
[原理]
実施形態で説明する手法のポイントは、多数決で正解感情ラベルを決められない発話(発話音声)も含めて全ての学習データをモデル学習に利用することを目的とし、感情認識モデルの学習において、複数の正解感情クラスに正解確率を割り当てることができる正解感情ラベル(以降、正解感情ソフトラベルと呼ぶ)を作成する点にある(図2)。
従来技術の深層学習に基づく時系列モデルは正解感情ラベルとして、ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるようなラベルを与える。この場合、ある感情クラスのみを正解、別の感情クラスを完全に不正解であるとみなして学習を行う。例えば、図2に例示するように、ある発話に対して5名の聴取者A〜Eが平常、喜び、喜び、平常、喜びという聴取者ごとの正解感情クラスを与えた場合、喜びの正解確率が1、他の感情クラスの正解確率が0となるようなラベルが与えられる。この方法では、多数決により正解感情クラスが決められない発話はどの感情クラスの正解確率を1とするかを決められないため、学習には利用されない。
一方で、実施形態で説明する手法では、複数の感情クラスにおいて正解確率が0より大きいような正解感情ソフトラベルを与える。例えば、図2の例の場合には、喜びの正解確率が0.6、平常の正解確率が0.4となるような正解感情ソフトラベルを与える。この場合、当該発話は喜びの可能性が高いが、平常の可能性もあり、その他の感情クラスの可能性はないとして学習を行う。このように複数の感情クラスに正解確率を割り当てることで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することが可能となる。
例えば、聴取者が4名、各聴取者が平常、平常、喜び、喜びという聴取者ごとの正解感情クラスを与えた場合、その発話は多数決により正解感情クラスを決めることができないため、従来の技術ではモデル学習に利用できなかった。一方で、今回の枠組みでは当該発話が喜びと平常の可能性があり、他の感情が表れていないものとしてモデル学習に利用することができる。この結果、モデル学習に利用できるデータが増加するため、従来技術に比べて頑健なモデルが構築できる。
さらに、実施形態で説明する手法の別の利点として、感情クラス間の類似性をモデルに学習させることができる点が挙げられる。正解感情ソフトラベルは複数の感情クラスの正解確率に対応するため、発話に対する複数の感情クラスの類似性を表す。上記の例では、ある発話に対して喜びという感情クラスを与えた聴取者と平常という感情クラスを与えた聴取者とが存在するため、喜びと平常はある程度の類似性があるといえる。一方、この発話に対して悲しみという感情クラスを与えた聴取者は存在しないため、喜びと悲しみの類似性は低いといえる。この例では、喜びと平常はある程度の類似性があるが、喜びと悲しみの類似性が低いことをモデルに学習させることができる。感情クラス間の類似性を学習させることで特定の感情クラス間で情報が共有され(上記の例では、喜びの感情クラスの学習を行うことで平常の感情クラスも学習が進む)、その結果、学習データが少ない状況において従来技術よりも高精度な感情認識モデルを構築することができると考えられる。
上記の感情正解ソフトラベルは、人間であればどの感情と感じるか、の度合いを表現するベクトルである必要がある。実施形態では、感情正解ソフトラベルは、聴取者が与えた聴取者ごとの正解感情クラスの集合から決定する。まず、発話を聴取した聴取者が複数の感情クラスC,…,Cから当該発話の発話者の感情の正解値として選択した正解感情クラスを用い、正解感情クラスとして感情クラスCが選択された回数nを求める。ここでiは感情クラスの番号を表す添え字であり、i=1,…,KでありKが感情クラスの総数を表す2以上の整数である。以降、kも同様に感情クラスの番号を表す添え字であり、k=1,…,Kとする。図2の例ではK=4であり、例えば、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”である。次に、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、当該発話に対応する正解感情ソフトラベルt (s)として得る。例えば、以下の式(1)に基づいて正解感情ソフトラベルt (s)が与えられる。
Figure 2019102884

α=0の場合、各感情クラスC,…,Cの出現回数nを聴取者が与えた聴取者ごとの正解感情クラスの出現回数n,…,nの総数で割った値(回数n,…,nの総和に対する回数nの割合)となる(式(2))。例えば、図2の例の発話の正解感情ソフトラベルt (s)は、t (s)=0.4、t (s)=0.6、t (s)=0、t (s)=0となる。
Figure 2019102884

α>0の場合、各感情クラスでの出現回数を(実際の出現回数+α)回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値となる。すなわち、α>0の場合には、回数n,…,nの総和に対する回数nの割合の平滑化値が正解感情ソフトラベルt (s)となる。例えば、α=1の場合には以下の式(3)のようになる。
Figure 2019102884


聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある(例えば、上記の例では実際には悲しみも微量含まれている可能性がある)。α>0とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い感情正解ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がM人の場合にα=αとし、聴取者の人数がM人の場合にα=αとする。ただし、M>Mおよび0<α<αを満たす。
発話に対応する正解感情ソフトラベルt (s)と当該発話の音響特徴系列との組を含む集合を学習データとして用いた学習処理を行うことにより、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルが得られる。この感情認識モデルに入力発話の音響特徴系列を適用することで、当該入力発話の発話者の感情を精度よく推定できる。以上のように、実施形態の手法では、限られた学習データを用いて感情認識精度を向上させることができる。
[第1実施形態]
第1実施形態を説明する。まず、第1実施形態の概要を示す。
<正解感情ソフトラベル算出時>
1.学習データとして収集した発話において、複数の聴取者が各発話を聴取し、各発話に対して聴取者ごとの正解感情クラスを与える。すなわち、発話を聴取した各聴取者が、複数の感情クラスC,…,Cから、当該発話の発話者の感情の正解値として正解感情クラス(聴取者ごとの正解感情クラス)を選択する。1名の聴取者が1発話に対して1個の正解感情クラスのみを選択することにしてもよい。あるいは、1名の聴取者が1発話に対して1個または2個以上の正解感情クラスを選択することにしてもよい。これは、ある発話を聴取した際に、複数の感情が含まれると感じる(例えば、嫌悪と怒りが含まれる、など)場合があるためである。
2.発話ごとに得られた聴取者ごとの正解感情クラスを用い、正解感情クラスとして感情クラスCが選択された回数n(ただし、i=1,…,K)を得る。回数n,…,nは発話ごとに得られる。
3.回数n(ただし、i=1,…,K)を用いて正解感情ソフトラベルt (s)を算出する。すなわち、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、発話に対応する正解感情ソフトラベルt (s)として得る。正解感情ソフトラベルt (s)は、例えば、式(1)に基づいて得られる。正解感情ソフトラベルt (s)は発話ごとに得られる。
<モデル学習時>
発話に対応する正解感情ソフトラベルt (s)と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルt (s)を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の感情正解ラベルではなく感情正解ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値y (s)は、正解感情ソフトラベルt (s)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。出力値y (s)の関数値の例はy (s)に対する非減少関数値(例えば、y (s)に対する単調増加関数値)であり、p (s)の関数値の例はp (s)に対する非減少関数値(例えば、p (s)に対する単調増加関数値)である。例えば、以下の式(4)(5)に基づいて損失関数Lが計算される。
Figure 2019102884

すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル(ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるラベル)を用いるのではなく、各感情クラスCにおいて0から1までの範囲をとる正解感情ソフトラベルt (s)を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Lに対して誤差逆伝搬法を適用することで実施する。
<感情認識時>
学習によって得られた感情認識モデルに入力発話の音響特徴系列を入力し、入力発話の発話者の感情の推定情報を得る。感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、出力値yに基づいて感情の推定情報が得られる。例えば、出力値y,…,yが感情の推定情報であってもよいし、出力値y,…,yの関数値が感情の推定情報であってもよいし、出力値yによって表される事後確率が最大になる感情クラスCを表す情報が推定情報であってもよい。出力値yの関数値の例は、y,…,yを値の大きな順序に並び替えて得られる列、y,…,yから値の大きな順に選択した2個以上K個未満の出力値、y,…,yのうち閾値以上または閾値を超える出力値などである。
次に、図面を用いて第1実施形態の詳細を説明する。
<構成および処理>
図1に例示するように、本形態の感情認識装置1は、モデル学習装置120、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置120は、ラベル生成装置110、音響特徴系列抽出部121、学習部122、および記憶部123を有する。ラベル生成装置110は、回数算出部111および正解感情ソフトラベル算出部112を有する。
<回数算出部111>
回数算出部111は、学習データの発話(学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該聴取者ごとの正解感情クラスとして感情クラスCが選択された回数nを得て出力する。すなわち、回数算出部111は、学習データ発話(第1発話)を聴取した複数の聴取者が複数の感情クラスC,…,Cから当該発話の発話者の感情の正解値として選択した正解感情クラス(聴取者ごとの正解感情クラス)を入力とし、当該正解感情クラスとして感情クラスCが選択された回数n(ただし、i=1,…,K)を得て出力する。本実施形態では2名分以上の聴取者ごとの正解感情クラスを利用するが、より多くの聴取者分の聴取者ごとの正解感情クラスを利用するほど、人間が感じている感情クラス間の類似性が数値として表現される。そのため、できるだけ多くの聴取者ごとの正解感情クラスを回数算出部111に入力することが望ましい。また学習データ発話は複数存在する。回数nは学習データ発話ごとに得られ、各学習データ発話に対応する回数nは正解感情ソフトラベル算出部112に送られる(ステップS111)。
<正解感情ソフトラベル算出部112>
正解感情ソフトラベル算出部112は、学習データ発話に対応する回数nを入力とし、当該回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、当該学習データ発話に対応する正解感情ソフトラベルt (s)として算出して出力する。正解感情ソフトラベル算出部112は、例えば、前述の式(1)に基づいて正解感情ソフトラベルt (s)を得て出力する。式(1)においてα=0の場合、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値(回数n,…,nの総和に対する回数nの割合)となる(式(2))。例えば、K=4、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルt (s)はt (s)=0.75、t (s)=0.25、t (s)=0、t (s)=0となる。式(1)においてα=1の場合、各感情クラスの出現回数nに1を足した値を新しい各感情クラスの出現回数としたときの、新しい各感情クラスの出現回数n+1を新しい各感情クラスの出現回数n+1の総数で割った値となる(式(3))。例えば、K=4、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルt (s)はt (s)=0.5、t (s)=0.125、t (s)=0.25、t (s)=0.125となる。正解感情ソフトラベルt (s)は学習データ発話ごとに得られる(ステップS112)。
<音響特徴系列抽出部121>
音響特徴系列抽出部121は、学習データ発話を入力とし、当該学習データ発話の音響特徴系列を抽出して出力する。本実施形態の音響特徴系列とは、学習データ発話を短時間窓で時分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。本実施形態の音響特徴は、例えば、MFCC、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は例えば事前学習した音声/非音声のGMMモデルの尤度比により求められる。HNRは例えばケプストラムに基づく手法により求められる(参考文献1:Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,”Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005)。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある(ステップS121)。
<学習部122>
学習部122は、学習データ発話に対応する正解感情ソフトラベルt (s)と当該学習データ発話の音響特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第1感情認識モデル)を得て出力する。ここでは従来技術と同様の感情認識モデル構造を採用する例を示す。すなわち、双方向LSTM-RNNとattention layerと呼ばれる全結合層との組合せにより構成される感情認識モデルを採用する。従来技術と異なる点は感情認識モデルの損失関数である。本実施形態でも従来技術と同様にソフトマックス関数を損失関数として利用するが、この際に正解感情ソフトラベルt (s)を利用する。すなわち、学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合をp (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数とする。学習部122は、例えば、前述の式(4)(5)に基づいて損失関数Lを計算し、当該損失関数Lに基づいて学習過程の感情認識モデルのモデルパラメータを更新する。すなわち、学習部122は、損失関数Lが最小化されるように学習過程の感情認識モデルのモデルパラメータを更新する。例えば、学習部122は、損失関数Lに対して誤差逆伝搬法を適用することでモデルパラメータを更新する(ステップS122)。得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部123に格納される(ステップS123)。
<音響特徴系列抽出部131>
音響特徴系列抽出部131は、感情の推定対象となる発話者が発した入力発話を入力とし、当該入力発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部131の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS131)。
<感情認識部132>
感情認識部132は、記憶部123から読み込んだ情報で特定される感情認識モデルに入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する。前述のように、感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、感情認識部132は、入力発話の音響特徴系列を入力として出力値yを得、当該出力値yに基づく感情の推定情報を得て出力する。出力値yに基づく感情の推定情報の例は、出力値y、出力値yの関数値、または、出力値yによって表される事後確率が最大になる感情クラスCを表す情報である。本実施形態の感情認識モデルの構造は従来技術と同様であるため、感情認識部132は、入力発話の音響特徴系列を入力として感情認識モデルの順伝搬を行うことで、入力発話の発話者の感情の事後確率に関する感情認識モデルの出力ベクトル(y,…,y)を得ることができる(ステップS132)。
[第2実施形態]
第2実施形態を説明する。本実施形態では、従来技術によって感情認識モデルを学習した後、正解感情ソフトラベルを用いて感情認識モデルの追加学習を行う。正解感情ソフトラベルを用いた学習処理は従来技術の感情認識モデルの学習処理と同じ構造(正解感情ソフトラベルのみが相違)の損失関数を利用することから、感情クラスCの総数Kが同じであれば、従来技術により学習した感情認識モデルからの追加学習が可能である。本実施形態により、従来技術の感情認識モデルを元に、さらに精度を向上させた感情認識モデルを構築できる。本実施形態では、従来技術の感情認識モデルを元にすることで、第1実施形態に比べて高精度な感情認識モデルの構築が期待できる。以下では第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
図面を用いて第2実施形態の詳細を説明する。
<構成および処理>
図3に例示するように、本形態の感情認識装置2は、モデル学習装置220、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置220は、正解感情ラベル算出部201、学習部202、記憶部203,223、音響特徴系列抽出部221,121、ラベル生成装置110、および追加学習部222を有する。
<正解感情ラベル算出部201>
正解感情ラベル算出部201は、学習データの発話(第2学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該第2学習データ発話(第2発話)に対応する正解感情ラベルt (h)を得て出力する。ただし、第2学習データ発話に対応する正解感情ラベルt (h)は、i’,i”は、感情クラスの番号を表す添え字とすると、当該第2学習データ発話を聴取した聴取者によって複数の感情クラスC,…,Cから当該第2学習データ発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’∈{C,…,C}に対応する正解感情ラベルti’ (h)を正の定数(例えば1)とし、感情クラスC,…,Cのうち感情クラスCi’以外の感情クラスCi”∈{C,…,C}に対応する正解感情ラベルti” (h)を零としたものである。ただし、正解値として選択された回数が最大の感情クラスCi’が1個に定まらない場合、当該第2学習データ発話に対応する正解感情ラベルt (h)は生成されない。例えば、正解感情ラベル算出部201は、従来技術と同じ方法で正解感情ラベルt (h)を算出する。すなわち、発話ごとの複数名分の聴取者ごとの正解感情クラスに対し、最も多く出現した感情クラスCi’に対応する正解感情ラベルti’ (h)を1とし、それ以外の正解感情ラベルti” (h)を0とする(式(6))。最も多く出現した感情クラスが二つ以上存在する場合、当該第2学習データ発話には正解感情ラベルt (h)が生成されない。
Figure 2019102884

ただし、nは、第2学習データ発話に対し、正解感情クラスとして感情クラスCが選択された回数を表す。ni’は、第2学習データ発話に対し、正解感情クラスとして感情クラスCi’が選択された回数を表す。正解感情ラベル算出部201に入力される第2学習データ発話(第2発話)は、前述のラベル生成装置110に入力される学習データ発話(第1発話)と同一であってもよいし、同一でなくてもよい(ステップS201)。
<音響特徴系列抽出部221>
音響特徴系列抽出部221は、第2学習データ発話を入力とし、当該第2学習データ発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部221の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS221)。
<学習部202>
学習部202は、第2学習データ発話に対応する正解感情ラベルt (h)と、当該第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第2感情認識モデル)を得て出力する。このとき、正解感情ラベルt (h)が生成されていない第2学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、例えば、学習部202は、第2学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)を得、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を各感情クラスCの事後確率p (h)とし、k=1,…,Kについてのp (h)の関数値と正解感情ラベルt (h)との積の総和を損失関数として学習処理を行う。出力値y (h)の関数値の例はy (h)に対する非減少関数値(例えば、y (h)に対する単調増加関数値)であり、p (h)の関数値の例はp (h)に対する非減少関数値(例えば、p (h)に対する単調増加関数値)である。例えば、学習部202は、損失関数Lとして以下のソフトマックス関数を利用して学習処理を行う。
Figure 2019102884

なお、出力値y (h)は、正解感情ラベルt (h)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。学習部202は、例えば、前述の式(7)(8)に基づいて損失関数Lを計算し、当該損失関数Lに基づいて学習過程の感情認識モデルのモデルパラメータを更新する(ステップS202)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部203に格納される(ステップS203)。
<追加学習部222>
追加学習部222には、記憶部203から読み出した感情認識モデル、ラベル生成装置110から出力された学習データ発話に対応する正解感情ソフトラベルt (s)、および音響特徴系列抽出部121から出力された当該学習データ発話の音響特徴系列が入力される。追加学習部222は、学習データ発話(第1発話)に対応する正解感情ソフトラベルt (s)と当該学習データ発話の音声特徴系列との組の集合を学習データとした追加学習処理によって、記憶部203から読み出した感情認識モデル(第2感情認識モデル)を更新し、入力発話の音響特徴系列から入力発話の発話者の感情を推定する再学習済み感情認識モデル(第1感情認識モデル)を得て出力する。例えば、感情認識モデル(第2感情認識モデル)が、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得るモデルである場合、追加学習処理は、当該感情認識モデル(第2感情認識モデル)を学習過程の感情認識モデルの初期値(初期モデル)とし、学習データ発話(第1発話)の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数として学習過程の感情認識モデルを更新し、再学習済み感情認識モデル(第1感情認識モデル)を得る処理を含む。例えば、追加学習部222は、前述の式(4)(5)に基づいて損失関数Lを計算し、当該損失関数Lに誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータ更新し、再学習済み感情認識モデルを得て出力する(ステップS222)。得られた再学習済み感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部223に格納される(ステップS223)。
<感情認識部132>
感情認識部132は、記憶部223から読み込んだ情報で特定される再学習済み感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
[第3実施形態]
第3実施形態を説明する。本実施形態では、正解感情ラベルt (h)と正解感情ソフトラベルt (s)とを同時に用いてモデル学習を行う。二つの種類の異なるラベルを同時に学習することで、正解感情ラベルt (h)の設定基準(多数決基準)と正解感情ソフトラベルt (s)の設定基準(ソフトラベル基準)の二つの観点からモデルを最適化することができる。結果として、選択される確率が最大の感情クラスの推定確率を高くしつつ、選択される確率は最大ではないものの正解感情ソフトラベルt (s)に正の確率で表れている感情クラスの推定確率も高くする感情認識モデルが構築できる。この結果、感情認識の精度が向上する。以下では第1,2実施形態との相違点を中心に説明し、第1,2実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
図面を用いて第2実施形態の詳細を説明する。
<構成および処理>
図4に例示するように、本形態の感情認識装置3は、モデル学習装置320、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置320は、正解感情ラベル算出部201、ラベル生成装置110、音響特徴系列抽出部221,121、学習部303、および記憶部323を有する。
学習部303は、ラベル生成装置110から出力された学習データ発話(第1発話)に対応する正解感情ソフトラベルt (s)と、音響特徴系列抽出部121から出力された当該学習データ発話の音響特徴系列と、正解感情ラベル算出部201から出力された第2学習データ発話(第2発話)に対応する正解感情ラベルt (h)と、音響特徴系列抽出部221から出力された当該第2学習データ発話の音響特徴系列とを入力とし、これらの組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第1感情認識モデル)を得て出力する。学習部303は、例えば、従来手法の損失関数Lと正解感情ソフトラベルt (s)を用いて得られる損失関数Lとの重み付け和を新たな損失関数Lとして扱って感情認識モデルを学習する。例えば感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得るモデルである場合、当該学習処理は、前記第2学習データ発話(第2発話)の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)を得、学習データ発話(第1発話)の音声特徴系列を当該学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を第2学習データ発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を学習データ発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数Lとして、感情認識モデルを学習する処理を含む。学習部303は、例えば、以下の式(9)に従って損失関数Lを計算する。
Figure 2019102884

ただし、γは0から1までの値をとる重みパラメータであり、γが大きいほど正解感情ラベルt (h)の影響が強くなり、γが小さいほど正解感情ソフトラベルt (s)の影響が強くなるように感情認識モデルが学習される。学習部303は、例えば、この重み付け和である損失関数Lを利用し、誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータを更新し、モデル学習を行う(ステップS303)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部323に格納される(ステップS323)。
<感情認識部132>
感情認識部132は、記憶部323から読み込んだ情報で特定される感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
[その他の変形例等]
なお、本発明は上述の実施形態に限定されるものではない。例えば、深層学習に基づく時系列モデル以外のモデルを感情認識モデルとしてもよい。例えば、サポートベクターマシーン(SVM)、隠れマルコフモデル(HMM)等を感情認識モデルとして用いてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、回数n,…,nの総和に対する回数nの割合の平滑化値として式(1)のα>0の場合を例示した。しかし、当該割合を別の方法で平滑化してもよい。例えば、式(1)のαが正解感情クラスに依存するαに置換され、αKがα+・・・+αに置換されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
1〜3 感情認識装置
110 ラベル生成装置
120,220,320 モデル学習装置
上記の正解感情ソフトラベルは、人間であればどの感情と感じるか、の度合いを表現するベクトルである必要がある。実施形態では、正解感情ソフトラベルは、聴取者が与えた聴取者ごとの正解感情クラスの集合から決定する。まず、発話を聴取した聴取者が複数の感情クラスC,…,Cから当該発話の発話者の感情の正解値として選択した正解感情クラスを用い、正解感情クラスとして感情クラスCが選択された回数nを求める。ここでiは感情クラスの番号を表す添え字であり、i=1,…,KでありKが感情クラスの総数を表す2以上の整数である。以降、kも同様に感情クラスの番号を表す添え字であり、k=1,…,Kとする。図2の例ではK=4であり、例えば、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”である。次に、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、当該発話に対応する正解感情ソフトラベルt (s)として得る。例えば、以下の式(1)に基づいて正解感情ソフトラベルt (s)が与えられる。
Figure 2019102884

α=0の場合、各感情クラスC,…,Cの出現回数nを聴取者が与えた聴取者ごとの正解感情クラスの出現回数n,…,nの総数で割った値(回数n,…,nの総和に対する回数nの割合)となる(式(2))。例えば、図2の例の発話の正解感情ソフトラベルt (s)は、t (s)=0.4、t (s)=0.6、t (s)=0、t (s)=0となる。
Figure 2019102884

α>0の場合、各感情クラスでの出現回数を(実際の出現回数+α)回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総
数で割った値となる。すなわち、α>0の場合には、回数n,…,nの総和に対する回数nの割合の平滑化値が正解感情ソフトラベルt (s)となる。例えば、α=1の場合には以下の式(3)のようになる。
Figure 2019102884

聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある(例えば、上記の例では実際には悲しみも微量含まれている可能性がある)。α>0とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い正解感情ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がM人の場合にα=αとし、聴取者の人数がM人の場合にα=αとする。ただし、M>Mおよび0<α<αを満たす。
<モデル学習時>
発話に対応する正解感情ソフトラベルt (s)と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルt (s)を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の正解感情ラベルではなく正解感情ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値y (s)は、正解感情ソフトラベルt (s)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。出力値y (s)の関数値の例はy (s)に対する非減少関数値(例えば、y (s)に対する単調増加関数値)であり、p (s)の関数値の例はp (s)に対する非減少関数値(例えば、p (s)に対する単調増加関数値)である。例えば、以下の式(4)(5)に基づいて損失関数Lが計算される。
Figure 2019102884

すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル(ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるラベル)を用いるのではなく、各感情クラスCにおいて0から1までの範囲をとる正解感情ソフトラベルt (s)を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Lに対して誤差逆伝搬法を適用することで実施する。
<学習部202>
学習部202は、第2学習データ発話に対応する正解感情ラベルt (h)と、当該第2学習データ発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第2感情認識モデル)を得て出力する。このとき、正解感情ラベルt (h)が生成されていない第2学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、例えば、学習部202は、第2学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)を得、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を各感情クラスCの事後確率p (h)とし、k=1,…,Kについてのp (h)の関数値と正解感情ラベルt (h)との積の総和を損失関数として学習処理を行う。出力値y (h)の関数値の例はy (h)に対する非減少関数値(例えば、y (h)に対する単調増加関数値)であり、p (h)の関数値の例はp (h)に対する非減少関数値(例えば、p (h)に対する単調増加関数値)である。例えば、学習部202は、損失関数Lとして以下のソフトマックス関数を利用して学習処理を行う。
Figure 2019102884

なお、出力値y (h)は、正解感情ラベルt (h)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。学習部202は、例えば、前述の式(7)(8)に基づいて損失関数Lを計算し、当該損失関数Lに基づいて学習過程の感情認識モデルのモデルパラメータを更新する(ステップS202)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部203に格納される(ステップS203)。
図面を用いて第実施形態の詳細を説明する。
<構成および処理>
図4に例示するように、本形態の感情認識装置3は、モデル学習装置320、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置320は、正解感情ラベル算出部201、ラベル生成装置110、音響特徴系列抽出部221,121、学習部303、および記憶部323を有する。

Claims (15)

  1. Kが2以上の整数であり、
    第1発話を聴取した聴取者が複数の感情クラスC,…,Cから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCが選択された回数nを得る回数算出部と、
    回数n,…,nの総和に対する回数nの割合または前記割合の平滑化値を、k=1,…,Kであり、前記第1発話に対応する正解感情ソフトラベルt (s)として得る正解感情ソフトラベル算出部と、
    を有するラベル生成装置。
  2. 請求項1のラベル生成装置であって、
    Figure 2019102884

    であり、前記聴取者の人数がM人の場合にα=αであり、前記聴取者の人数がM人の場合にα=αであり、M>Mおよび0<α<αを満たす、ラベル生成装置。
  3. 請求項1または2のラベル生成装置と、
    前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有するモデル学習装置。
  4. 請求項3のモデル学習装置であって、
    前記第1発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
    前記学習処理は、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  5. 請求項1または2のラベル生成装置と、
    第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習部と、
    前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習部と、を有し、
    前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習装置。
  6. 請求項5のモデル学習装置であって、
    前記第2感情認識モデルが学習過程の感情認識モデルとされ、
    前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
    前記追加学習処理は、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  7. 請求項1または2のラベル生成装置と、
    前記第1発話に対応する前記正解感情ソフトラベルt (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有し、
    前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
    前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
    前記学習処理は、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を前記第2発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を前記第1発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と前記正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  8. 請求項3から7のいずれかのモデル学習装置と、
    前記入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値y、前記出力値yの関数値、または、前記出力値yによって表される前記事後確率が最大になる感情クラスCを表す情報を出力する感情認識部と、
    を有する感情認識装置。
  9. Kが2以上の整数であり、
    回数算出部が、第1発話を聴取した聴取者が複数の感情クラスC,…,Cから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCが選択された回数nを得る回数算出ステップと、
    正解感情ソフトラベル算出部が、k=1,…,Kであり、回数n,…,nの総和に対する回数nの割合または前記割合の平滑化値を、前記第1発話に対応する正解感情ソフトラベルt (s)として得る正解感情ソフトラベル算出ステップと、
    を有するラベル生成方法。
  10. 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
    学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、
    を有するモデル学習方法。
  11. 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
    学習部が、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習ステップと、
    追加学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習ステップと、を有し、
    前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習方法。
  12. 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
    学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、を有し、
    前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
    前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
    前記学習処理は、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を前記第2発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を前記第1発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と前記正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習方法。
  13. 請求項10から12のいずれかのモデル学習方法の各ステップと、
    感情認識部が、前記入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値y、前記出力値yの関数値、または、前記出力値yによって表される前記事後確率が最大になる感情クラスCを表す情報を出力する感情認識ステップと、
    を有する感情認識方法。
  14. 請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラム。
  15. 請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
JP2019555260A 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 Active JP6933264B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017223840 2017-11-21
JP2017223840 2017-11-21
PCT/JP2018/041803 WO2019102884A1 (ja) 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019102884A1 true JPWO2019102884A1 (ja) 2020-11-19
JP6933264B2 JP6933264B2 (ja) 2021-09-08

Family

ID=66630930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019555260A Active JP6933264B2 (ja) 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Country Status (3)

Country Link
US (1) US11551708B2 (ja)
JP (1) JP6933264B2 (ja)
WO (1) WO2019102884A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998725B (zh) * 2018-04-19 2024-04-12 微软技术许可有限责任公司 在对话中生成响应
US11087170B2 (en) * 2018-12-03 2021-08-10 Advanced Micro Devices, Inc. Deliberate conditional poison training for generative models
US11854538B1 (en) * 2019-02-15 2023-12-26 Amazon Technologies, Inc. Sentiment detection in audio data
CN110379441B (zh) * 2019-07-01 2020-07-17 特斯联(北京)科技有限公司 一种基于对抗型人工智能网络的语音服务方法与系统
US20220413480A1 (en) * 2019-12-25 2022-12-29 Nec Corporation Time series data processing method
JP7413055B2 (ja) * 2020-02-06 2024-01-15 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
JP7420211B2 (ja) * 2020-02-28 2024-01-23 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
CN112185389B (zh) * 2020-09-22 2024-06-18 北京小米松果电子有限公司 语音生成方法、装置、存储介质和电子设备
JP7508333B2 (ja) 2020-10-15 2024-07-01 株式会社日立製作所 計算機システム及び学習方法
CN112489625A (zh) * 2020-10-19 2021-03-12 厦门快商通科技股份有限公司 语音情绪识别方法、系统、移动终端及存储介质
US20220138534A1 (en) * 2020-11-03 2022-05-05 Adobe Inc. Extracting entity relationships from digital documents utilizing multi-view neural networks
CN112347258B (zh) * 2020-11-16 2022-09-13 合肥工业大学 一种短文本方面级情感分类方法
US11508396B2 (en) * 2020-12-15 2022-11-22 TQINTELLIGENCE, Inc. Acquiring speech features for predicting emotional severity of adverse events on individuals
CN112579745B (zh) * 2021-02-22 2021-06-08 中国科学院自动化研究所 基于图神经网络的对话情感纠错系统
CN113380271B (zh) * 2021-08-12 2021-12-21 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
WO2023032016A1 (ja) * 2021-08-30 2023-03-09 日本電信電話株式会社 推定方法、推定装置および推定プログラム
CN115862675B (zh) * 2023-02-10 2023-05-05 之江实验室 一种情感识别方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems

Also Published As

Publication number Publication date
US11551708B2 (en) 2023-01-10
JP6933264B2 (ja) 2021-09-08
WO2019102884A1 (ja) 2019-05-31
US20200302953A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
JP6933264B2 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Gharavian et al. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network
Nakashika et al. Voice conversion in high-order eigen space using deep belief nets.
Al-Dujaili et al. Speech emotion recognition: a comprehensive survey
Sigtia et al. A hybrid recurrent neural network for music transcription
Das et al. A hybrid meta-heuristic feature selection method for identification of Indian spoken languages from audio signals
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
Tu et al. Investigating the role of L1 in automatic pronunciation evaluation of L2 speech
Guha et al. Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Wu et al. Speech emotion recognition using sequential capsule networks
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
Kumari et al. An efficient adaptive artificial neural network based text to speech synthesizer for Hindi language
Zheng et al. An improved speech emotion recognition algorithm based on deep belief network
Xia et al. Learning salient segments for speech emotion recognition using attentive temporal pooling
Shah et al. Articulation constrained learning with application to speech emotion recognition
Elbarougy Speech emotion recognition based on voiced emotion unit
Kumar et al. Zero-shot normalization driven multi-speaker text to speech synthesis
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
Přibil et al. GMM-based evaluation of emotional style transformation in czech and slovak
Kokkinidis et al. An empirical comparison of machine learning techniques for chant classification
Li et al. Confidence estimation for speech emotion recognition based on the relationship between emotion categories and primitives
Ahmed Speech emotion recognition
Bakheet Improving speech recognition for arabic language using low amounts of labeled data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200514

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A527

Effective date: 20200514

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210802

R150 Certificate of patent or registration of utility model

Ref document number: 6933264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150