JPWO2019102884A1 - ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 - Google Patents
ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JPWO2019102884A1 JPWO2019102884A1 JP2019555260A JP2019555260A JPWO2019102884A1 JP WO2019102884 A1 JPWO2019102884 A1 JP WO2019102884A1 JP 2019555260 A JP2019555260 A JP 2019555260A JP 2019555260 A JP2019555260 A JP 2019555260A JP WO2019102884 A1 JPWO2019102884 A1 JP WO2019102884A1
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- utterance
- correct
- learning
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims description 155
- 238000000034 method Methods 0.000 title claims description 87
- 230000008451 emotion Effects 0.000 claims abstract description 331
- 230000006870 function Effects 0.000 claims description 128
- 230000002996 emotional effect Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 23
- 238000009499 grossing Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 23
- 238000007796 conventional method Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 11
- 230000003247 decreasing effect Effects 0.000 description 10
- 230000015654 memory Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
[原理]
実施形態で説明する手法のポイントは、多数決で正解感情ラベルを決められない発話(発話音声)も含めて全ての学習データをモデル学習に利用することを目的とし、感情認識モデルの学習において、複数の正解感情クラスに正解確率を割り当てることができる正解感情ラベル(以降、正解感情ソフトラベルと呼ぶ)を作成する点にある(図2)。
α=0の場合、各感情クラスC1,…,CKの出現回数nkを聴取者が与えた聴取者ごとの正解感情クラスの出現回数n1,…,nKの総数で割った値(回数n1,…,nKの総和に対する回数nkの割合)となる(式(2))。例えば、図2の例の発話の正解感情ソフトラベルtk (s)は、t1 (s)=0.4、t2 (s)=0.6、t3 (s)=0、t4 (s)=0となる。
α>0の場合、各感情クラスでの出現回数を(実際の出現回数+α)回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値となる。すなわち、α>0の場合には、回数n1,…,nKの総和に対する回数nkの割合の平滑化値が正解感情ソフトラベルtk (s)となる。例えば、α=1の場合には以下の式(3)のようになる。
聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある(例えば、上記の例では実際には悲しみも微量含まれている可能性がある)。α>0とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い感情正解ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がM1人の場合にα=α1とし、聴取者の人数がM2人の場合にα=α2とする。ただし、M1>M2および0<α1<α2を満たす。
第1実施形態を説明する。まず、第1実施形態の概要を示す。
<正解感情ソフトラベル算出時>
1.学習データとして収集した発話において、複数の聴取者が各発話を聴取し、各発話に対して聴取者ごとの正解感情クラスを与える。すなわち、発話を聴取した各聴取者が、複数の感情クラスC1,…,CKから、当該発話の発話者の感情の正解値として正解感情クラス(聴取者ごとの正解感情クラス)を選択する。1名の聴取者が1発話に対して1個の正解感情クラスのみを選択することにしてもよい。あるいは、1名の聴取者が1発話に対して1個または2個以上の正解感情クラスを選択することにしてもよい。これは、ある発話を聴取した際に、複数の感情が含まれると感じる(例えば、嫌悪と怒りが含まれる、など)場合があるためである。
2.発話ごとに得られた聴取者ごとの正解感情クラスを用い、正解感情クラスとして感情クラスCiが選択された回数ni(ただし、i=1,…,K)を得る。回数n1,…,nKは発話ごとに得られる。
3.回数ni(ただし、i=1,…,K)を用いて正解感情ソフトラベルtk (s)を算出する。すなわち、回数n1,…,nKの総和に対する回数nkの割合または当該割合の平滑化値を、発話に対応する正解感情ソフトラベルtk (s)として得る。正解感情ソフトラベルtk (s)は、例えば、式(1)に基づいて得られる。正解感情ソフトラベルtk (s)は発話ごとに得られる。
発話に対応する正解感情ソフトラベルtk (s)と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルtk (s)を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の感情正解ラベルではなく感情正解ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)を得、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (s)の関数値と正解感情ソフトラベルtk (s)との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値yk (s)は、正解感情ソフトラベルtk (s)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ykである。出力値yk (s)の関数値の例はyk (s)に対する非減少関数値(例えば、yk (s)に対する単調増加関数値)であり、pk (s)の関数値の例はpk (s)に対する非減少関数値(例えば、pk (s)に対する単調増加関数値)である。例えば、以下の式(4)(5)に基づいて損失関数Lsが計算される。
すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル(ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるラベル)を用いるのではなく、各感情クラスCkにおいて0から1までの範囲をとる正解感情ソフトラベルtk (s)を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Lsに対して誤差逆伝搬法を適用することで実施する。
学習によって得られた感情認識モデルに入力発話の音響特徴系列を入力し、入力発話の発話者の感情の推定情報を得る。感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである場合、出力値ykに基づいて感情の推定情報が得られる。例えば、出力値y1,…,yKが感情の推定情報であってもよいし、出力値y1,…,yKの関数値が感情の推定情報であってもよいし、出力値ykによって表される事後確率が最大になる感情クラスCkを表す情報が推定情報であってもよい。出力値ykの関数値の例は、y1,…,yKを値の大きな順序に並び替えて得られる列、y1,…,yKから値の大きな順に選択した2個以上K個未満の出力値、y1,…,yKのうち閾値以上または閾値を超える出力値などである。
<構成および処理>
図1に例示するように、本形態の感情認識装置1は、モデル学習装置120、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置120は、ラベル生成装置110、音響特徴系列抽出部121、学習部122、および記憶部123を有する。ラベル生成装置110は、回数算出部111および正解感情ソフトラベル算出部112を有する。
回数算出部111は、学習データの発話(学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該聴取者ごとの正解感情クラスとして感情クラスCiが選択された回数niを得て出力する。すなわち、回数算出部111は、学習データ発話(第1発話)を聴取した複数の聴取者が複数の感情クラスC1,…,CKから当該発話の発話者の感情の正解値として選択した正解感情クラス(聴取者ごとの正解感情クラス)を入力とし、当該正解感情クラスとして感情クラスCiが選択された回数ni(ただし、i=1,…,K)を得て出力する。本実施形態では2名分以上の聴取者ごとの正解感情クラスを利用するが、より多くの聴取者分の聴取者ごとの正解感情クラスを利用するほど、人間が感じている感情クラス間の類似性が数値として表現される。そのため、できるだけ多くの聴取者ごとの正解感情クラスを回数算出部111に入力することが望ましい。また学習データ発話は複数存在する。回数niは学習データ発話ごとに得られ、各学習データ発話に対応する回数niは正解感情ソフトラベル算出部112に送られる(ステップS111)。
正解感情ソフトラベル算出部112は、学習データ発話に対応する回数nkを入力とし、当該回数n1,…,nKの総和に対する回数nkの割合または当該割合の平滑化値を、当該学習データ発話に対応する正解感情ソフトラベルtk (s)として算出して出力する。正解感情ソフトラベル算出部112は、例えば、前述の式(1)に基づいて正解感情ソフトラベルtk (s)を得て出力する。式(1)においてα=0の場合、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値(回数n1,…,nKの総和に対する回数nkの割合)となる(式(2))。例えば、K=4、C1=“平常”、C2=“喜び”、C3=“悲しみ”、C4=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルtk (s)はt1 (s)=0.75、t2 (s)=0.25、t3 (s)=0、t4 (s)=0となる。式(1)においてα=1の場合、各感情クラスの出現回数nkに1を足した値を新しい各感情クラスの出現回数としたときの、新しい各感情クラスの出現回数nk+1を新しい各感情クラスの出現回数ni+1の総数で割った値となる(式(3))。例えば、K=4、C1=“平常”、C2=“喜び”、C3=“悲しみ”、C4=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルtk (s)はt1 (s)=0.5、t2 (s)=0.125、t3 (s)=0.25、t4 (s)=0.125となる。正解感情ソフトラベルtk (s)は学習データ発話ごとに得られる(ステップS112)。
音響特徴系列抽出部121は、学習データ発話を入力とし、当該学習データ発話の音響特徴系列を抽出して出力する。本実施形態の音響特徴系列とは、学習データ発話を短時間窓で時分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。本実施形態の音響特徴は、例えば、MFCC、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は例えば事前学習した音声/非音声のGMMモデルの尤度比により求められる。HNRは例えばケプストラムに基づく手法により求められる(参考文献1:Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,”Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005)。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある(ステップS121)。
学習部122は、学習データ発話に対応する正解感情ソフトラベルtk (s)と当該学習データ発話の音響特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第1感情認識モデル)を得て出力する。ここでは従来技術と同様の感情認識モデル構造を採用する例を示す。すなわち、双方向LSTM-RNNとattention layerと呼ばれる全結合層との組合せにより構成される感情認識モデルを採用する。従来技術と異なる点は感情認識モデルの損失関数である。本実施形態でも従来技術と同様にソフトマックス関数を損失関数として利用するが、この際に正解感情ソフトラベルtk (s)を利用する。すなわち、学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)を得、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合をpk (s)とし、k=1,…,Kについてのpk (s)の関数値と正解感情ソフトラベルtk (s)との積の総和を損失関数とする。学習部122は、例えば、前述の式(4)(5)に基づいて損失関数Lsを計算し、当該損失関数Lsに基づいて学習過程の感情認識モデルのモデルパラメータを更新する。すなわち、学習部122は、損失関数Lsが最小化されるように学習過程の感情認識モデルのモデルパラメータを更新する。例えば、学習部122は、損失関数Lsに対して誤差逆伝搬法を適用することでモデルパラメータを更新する(ステップS122)。得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部123に格納される(ステップS123)。
音響特徴系列抽出部131は、感情の推定対象となる発話者が発した入力発話を入力とし、当該入力発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部131の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS131)。
感情認識部132は、記憶部123から読み込んだ情報で特定される感情認識モデルに入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する。前述のように、感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである場合、感情認識部132は、入力発話の音響特徴系列を入力として出力値ykを得、当該出力値ykに基づく感情の推定情報を得て出力する。出力値ykに基づく感情の推定情報の例は、出力値yk、出力値ykの関数値、または、出力値ykによって表される事後確率が最大になる感情クラスCkを表す情報である。本実施形態の感情認識モデルの構造は従来技術と同様であるため、感情認識部132は、入力発話の音響特徴系列を入力として感情認識モデルの順伝搬を行うことで、入力発話の発話者の感情の事後確率に関する感情認識モデルの出力ベクトル(y1,…,yK)を得ることができる(ステップS132)。
第2実施形態を説明する。本実施形態では、従来技術によって感情認識モデルを学習した後、正解感情ソフトラベルを用いて感情認識モデルの追加学習を行う。正解感情ソフトラベルを用いた学習処理は従来技術の感情認識モデルの学習処理と同じ構造(正解感情ソフトラベルのみが相違)の損失関数を利用することから、感情クラスCiの総数Kが同じであれば、従来技術により学習した感情認識モデルからの追加学習が可能である。本実施形態により、従来技術の感情認識モデルを元に、さらに精度を向上させた感情認識モデルを構築できる。本実施形態では、従来技術の感情認識モデルを元にすることで、第1実施形態に比べて高精度な感情認識モデルの構築が期待できる。以下では第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
<構成および処理>
図3に例示するように、本形態の感情認識装置2は、モデル学習装置220、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置220は、正解感情ラベル算出部201、学習部202、記憶部203,223、音響特徴系列抽出部221,121、ラベル生成装置110、および追加学習部222を有する。
正解感情ラベル算出部201は、学習データの発話(第2学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該第2学習データ発話(第2発話)に対応する正解感情ラベルtk (h)を得て出力する。ただし、第2学習データ発話に対応する正解感情ラベルtk (h)は、i’,i”は、感情クラスの番号を表す添え字とすると、当該第2学習データ発話を聴取した聴取者によって複数の感情クラスC1,…,CKから当該第2学習データ発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’∈{C1,…,CK}に対応する正解感情ラベルti’ (h)を正の定数(例えば1)とし、感情クラスC1,…,CKのうち感情クラスCi’以外の感情クラスCi”∈{C1,…,CK}に対応する正解感情ラベルti” (h)を零としたものである。ただし、正解値として選択された回数が最大の感情クラスCi’が1個に定まらない場合、当該第2学習データ発話に対応する正解感情ラベルtk (h)は生成されない。例えば、正解感情ラベル算出部201は、従来技術と同じ方法で正解感情ラベルtk (h)を算出する。すなわち、発話ごとの複数名分の聴取者ごとの正解感情クラスに対し、最も多く出現した感情クラスCi’に対応する正解感情ラベルti’ (h)を1とし、それ以外の正解感情ラベルti” (h)を0とする(式(6))。最も多く出現した感情クラスが二つ以上存在する場合、当該第2学習データ発話には正解感情ラベルtk (h)が生成されない。
ただし、niは、第2学習データ発話に対し、正解感情クラスとして感情クラスCiが選択された回数を表す。ni’は、第2学習データ発話に対し、正解感情クラスとして感情クラスCi’が選択された回数を表す。正解感情ラベル算出部201に入力される第2学習データ発話(第2発話)は、前述のラベル生成装置110に入力される学習データ発話(第1発話)と同一であってもよいし、同一でなくてもよい(ステップS201)。
音響特徴系列抽出部221は、第2学習データ発話を入力とし、当該第2学習データ発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部221の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS221)。
学習部202は、第2学習データ発話に対応する正解感情ラベルtk (h)と、当該第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第2感情認識モデル)を得て出力する。このとき、正解感情ラベルtk (h)が生成されていない第2学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである場合、例えば、学習部202は、第2学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (h)を得、出力値y1 (h),…,yK (h)それぞれの関数値の総和に対する出力値yk (h)の関数値の割合を各感情クラスCkの事後確率pk (h)とし、k=1,…,Kについてのpk (h)の関数値と正解感情ラベルtk (h)との積の総和を損失関数として学習処理を行う。出力値yk (h)の関数値の例はyk (h)に対する非減少関数値(例えば、yk (h)に対する単調増加関数値)であり、pk (h)の関数値の例はpk (h)に対する非減少関数値(例えば、pk (h)に対する単調増加関数値)である。例えば、学習部202は、損失関数Lhとして以下のソフトマックス関数を利用して学習処理を行う。
なお、出力値yk (h)は、正解感情ラベルtk (h)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ykである。学習部202は、例えば、前述の式(7)(8)に基づいて損失関数Lhを計算し、当該損失関数Lhに基づいて学習過程の感情認識モデルのモデルパラメータを更新する(ステップS202)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部203に格納される(ステップS203)。
追加学習部222には、記憶部203から読み出した感情認識モデル、ラベル生成装置110から出力された学習データ発話に対応する正解感情ソフトラベルtk (s)、および音響特徴系列抽出部121から出力された当該学習データ発話の音響特徴系列が入力される。追加学習部222は、学習データ発話(第1発話)に対応する正解感情ソフトラベルtk (s)と当該学習データ発話の音声特徴系列との組の集合を学習データとした追加学習処理によって、記憶部203から読み出した感情認識モデル(第2感情認識モデル)を更新し、入力発話の音響特徴系列から入力発話の発話者の感情を推定する再学習済み感情認識モデル(第1感情認識モデル)を得て出力する。例えば、感情認識モデル(第2感情認識モデル)が、入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得るモデルである場合、追加学習処理は、当該感情認識モデル(第2感情認識モデル)を学習過程の感情認識モデルの初期値(初期モデル)とし、学習データ発話(第1発話)の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)を得、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (s)の関数値と正解感情ソフトラベルtk (s)との積の総和を損失関数として学習過程の感情認識モデルを更新し、再学習済み感情認識モデル(第1感情認識モデル)を得る処理を含む。例えば、追加学習部222は、前述の式(4)(5)に基づいて損失関数Lsを計算し、当該損失関数Lsに誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータ更新し、再学習済み感情認識モデルを得て出力する(ステップS222)。得られた再学習済み感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部223に格納される(ステップS223)。
感情認識部132は、記憶部223から読み込んだ情報で特定される再学習済み感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
第3実施形態を説明する。本実施形態では、正解感情ラベルtk (h)と正解感情ソフトラベルtk (s)とを同時に用いてモデル学習を行う。二つの種類の異なるラベルを同時に学習することで、正解感情ラベルtk (h)の設定基準(多数決基準)と正解感情ソフトラベルtk (s)の設定基準(ソフトラベル基準)の二つの観点からモデルを最適化することができる。結果として、選択される確率が最大の感情クラスの推定確率を高くしつつ、選択される確率は最大ではないものの正解感情ソフトラベルtk (s)に正の確率で表れている感情クラスの推定確率も高くする感情認識モデルが構築できる。この結果、感情認識の精度が向上する。以下では第1,2実施形態との相違点を中心に説明し、第1,2実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
<構成および処理>
図4に例示するように、本形態の感情認識装置3は、モデル学習装置320、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置320は、正解感情ラベル算出部201、ラベル生成装置110、音響特徴系列抽出部221,121、学習部303、および記憶部323を有する。
ただし、γは0から1までの値をとる重みパラメータであり、γが大きいほど正解感情ラベルtk (h)の影響が強くなり、γが小さいほど正解感情ソフトラベルtk (s)の影響が強くなるように感情認識モデルが学習される。学習部303は、例えば、この重み付け和である損失関数Lを利用し、誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータを更新し、モデル学習を行う(ステップS303)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部323に格納される(ステップS323)。
感情認識部132は、記憶部323から読み込んだ情報で特定される感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
なお、本発明は上述の実施形態に限定されるものではない。例えば、深層学習に基づく時系列モデル以外のモデルを感情認識モデルとしてもよい。例えば、サポートベクターマシーン(SVM)、隠れマルコフモデル(HMM)等を感情認識モデルとして用いてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、回数n1,…,nKの総和に対する回数nkの割合の平滑化値として式(1)のα>0の場合を例示した。しかし、当該割合を別の方法で平滑化してもよい。例えば、式(1)のαが正解感情クラスに依存するαiに置換され、αKがα1+・・・+αKに置換されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
110 ラベル生成装置
120,220,320 モデル学習装置
α=0の場合、各感情クラスC1,…,CKの出現回数nkを聴取者が与えた聴取者ごとの正解感情クラスの出現回数n1,…,nKの総数で割った値(回数n1,…,nKの総和に対する回数nkの割合)となる(式(2))。例えば、図2の例の発話の正解感情ソフトラベルtk (s)は、t1 (s)=0.4、t2 (s)=0.6、t3 (s)=0、t4 (s)=0となる。
α>0の場合、各感情クラスでの出現回数を(実際の出現回数+α)回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総
数で割った値となる。すなわち、α>0の場合には、回数n1,…,nKの総和に対する回数nkの割合の平滑化値が正解感情ソフトラベルtk (s)となる。例えば、α=1の場合には以下の式(3)のようになる。
聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある(例えば、上記の例では実際には悲しみも微量含まれている可能性がある)。α>0とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い正解感情ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がM1人の場合にα=α1とし、聴取者の人数がM2人の場合にα=α2とする。ただし、M1>M2および0<α1<α2を満たす。
発話に対応する正解感情ソフトラベルtk (s)と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルtk (s)を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の正解感情ラベルではなく正解感情ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)を得、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (s)の関数値と正解感情ソフトラベルtk (s)との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値yk (s)は、正解感情ソフトラベルtk (s)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ykである。出力値yk (s)の関数値の例はyk (s)に対する非減少関数値(例えば、yk (s)に対する単調増加関数値)であり、pk (s)の関数値の例はpk (s)に対する非減少関数値(例えば、pk (s)に対する単調増加関数値)である。例えば、以下の式(4)(5)に基づいて損失関数Lsが計算される。
すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル(ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるラベル)を用いるのではなく、各感情クラスCkにおいて0から1までの範囲をとる正解感情ソフトラベルtk (s)を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Lsに対して誤差逆伝搬法を適用することで実施する。
学習部202は、第2学習データ発話に対応する正解感情ラベルtk (h)と、当該第2学習データ発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第2感情認識モデル)を得て出力する。このとき、正解感情ラベルtk (h)が生成されていない第2学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る確率モデルである場合、例えば、学習部202は、第2学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (h)を得、出力値y1 (h),…,yK (h)それぞれの関数値の総和に対する出力値yk (h)の関数値の割合を各感情クラスCkの事後確率pk (h)とし、k=1,…,Kについてのpk (h)の関数値と正解感情ラベルtk (h)との積の総和を損失関数として学習処理を行う。出力値yk (h)の関数値の例はyk (h)に対する非減少関数値(例えば、yk (h)に対する単調増加関数値)であり、pk (h)の関数値の例はpk (h)に対する非減少関数値(例えば、pk (h)に対する単調増加関数値)である。例えば、学習部202は、損失関数Lhとして以下のソフトマックス関数を利用して学習処理を行う。
なお、出力値yk (h)は、正解感情ラベルtk (h)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ykである。学習部202は、例えば、前述の式(7)(8)に基づいて損失関数Lhを計算し、当該損失関数Lhに基づいて学習過程の感情認識モデルのモデルパラメータを更新する(ステップS202)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部203に格納される(ステップS203)。
<構成および処理>
図4に例示するように、本形態の感情認識装置3は、モデル学習装置320、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置320は、正解感情ラベル算出部201、ラベル生成装置110、音響特徴系列抽出部221,121、学習部303、および記憶部323を有する。
Claims (15)
- Kが2以上の整数であり、
第1発話を聴取した聴取者が複数の感情クラスC1,…,CKから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCiが選択された回数niを得る回数算出部と、
回数n1,…,nKの総和に対する回数nkの割合または前記割合の平滑化値を、k=1,…,Kであり、前記第1発話に対応する正解感情ソフトラベルtk (s)として得る正解感情ソフトラベル算出部と、
を有するラベル生成装置。 - 請求項1または2のラベル生成装置と、
前記第1発話に対応する前記正解感情ソフトラベルtk (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有するモデル学習装置。 - 請求項3のモデル学習装置であって、
前記第1発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)が得られ、
前記学習処理は、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (s)の関数値と前記正解感情ソフトラベルtk (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。 - 請求項1または2のラベル生成装置と、
第2発話に対応する正解感情ラベルtk (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習部と、
前記第1発話に対応する前記正解感情ソフトラベルtk (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習部と、を有し、
前記第2発話に対応する正解感情ラベルtk (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC1,…,CKから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC1,…,CKのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習装置。 - 請求項5のモデル学習装置であって、
前記第2感情認識モデルが学習過程の感情認識モデルとされ、
前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)が得られ、
前記追加学習処理は、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (s)の関数値と前記正解感情ソフトラベルtk (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。 - 請求項1または2のラベル生成装置と、
前記第1発話に対応する前記正解感情ソフトラベルtk (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルtk (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有し、
前記第2発話に対応する正解感情ラベルtk (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC1,…,CKから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC1,…,CKのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)が得られ、
前記学習処理は、出力値y1 (h),…,yK (h)それぞれの関数値の総和に対する出力値yk (h)の関数値の割合を前記第2発話における各感情クラスCkの事後確率pk (h)とし、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を前記第1発話における各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (h)の関数値と前記正解感情ラベルtk (h)との積の総和と、k=1,…,Kについてのpk (s)の関数値と前記正解感情ソフトラベルtk (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。 - 請求項3から7のいずれかのモデル学習装置と、
前記入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値yk、前記出力値ykの関数値、または、前記出力値ykによって表される前記事後確率が最大になる感情クラスCkを表す情報を出力する感情認識部と、
を有する感情認識装置。 - Kが2以上の整数であり、
回数算出部が、第1発話を聴取した聴取者が複数の感情クラスC1,…,CKから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCiが選択された回数niを得る回数算出ステップと、
正解感情ソフトラベル算出部が、k=1,…,Kであり、回数n1,…,nKの総和に対する回数nkの割合または前記割合の平滑化値を、前記第1発話に対応する正解感情ソフトラベルtk (s)として得る正解感情ソフトラベル算出ステップと、
を有するラベル生成方法。 - 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
学習部が、前記第1発話に対応する前記正解感情ソフトラベルtk (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、
を有するモデル学習方法。 - 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
学習部が、第2発話に対応する正解感情ラベルtk (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習ステップと、
追加学習部が、前記第1発話に対応する前記正解感情ソフトラベルtk (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習ステップと、を有し、
前記第2発話に対応する正解感情ラベルtk (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC1,…,CKから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC1,…,CKのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習方法。 - 請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
学習部が、前記第1発話に対応する前記正解感情ソフトラベルtk (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルtk (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、を有し、
前記第2発話に対応する正解感情ラベルtk (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC1,…,CKから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC1,…,CKのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCkの事後確率に関する出力値yk (s)が得られ、
前記学習処理は、出力値y1 (h),…,yK (h)それぞれの関数値の総和に対する出力値yk (h)の関数値の割合を前記第2発話における各感情クラスCkの事後確率pk (h)とし、出力値y1 (s),…,yK (s)それぞれの関数値の総和に対する出力値yk (s)の関数値の割合を前記第1発話における各感情クラスCkの事後確率pk (s)とし、k=1,…,Kについてのpk (h)の関数値と前記正解感情ラベルtk (h)との積の総和と、k=1,…,Kについてのpk (s)の関数値と前記正解感情ソフトラベルtk (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習方法。 - 請求項10から12のいずれかのモデル学習方法の各ステップと、
感情認識部が、前記入力発話の音響特徴系列に対する各感情クラスCkの事後確率に関する出力値ykを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値yk、前記出力値ykの関数値、または、前記出力値ykによって表される前記事後確率が最大になる感情クラスCkを表す情報を出力する感情認識ステップと、
を有する感情認識方法。 - 請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラム。
- 請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017223840 | 2017-11-21 | ||
JP2017223840 | 2017-11-21 | ||
PCT/JP2018/041803 WO2019102884A1 (ja) | 2017-11-21 | 2018-11-12 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019102884A1 true JPWO2019102884A1 (ja) | 2020-11-19 |
JP6933264B2 JP6933264B2 (ja) | 2021-09-08 |
Family
ID=66630930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019555260A Active JP6933264B2 (ja) | 2017-11-21 | 2018-11-12 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11551708B2 (ja) |
JP (1) | JP6933264B2 (ja) |
WO (1) | WO2019102884A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110998725B (zh) * | 2018-04-19 | 2024-04-12 | 微软技术许可有限责任公司 | 在对话中生成响应 |
US11087170B2 (en) * | 2018-12-03 | 2021-08-10 | Advanced Micro Devices, Inc. | Deliberate conditional poison training for generative models |
US11854538B1 (en) * | 2019-02-15 | 2023-12-26 | Amazon Technologies, Inc. | Sentiment detection in audio data |
CN110379441B (zh) * | 2019-07-01 | 2020-07-17 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
US20220413480A1 (en) * | 2019-12-25 | 2022-12-29 | Nec Corporation | Time series data processing method |
JP7413055B2 (ja) * | 2020-02-06 | 2024-01-15 | 本田技研工業株式会社 | 情報処理装置、車両、プログラム、及び情報処理方法 |
JP7420211B2 (ja) * | 2020-02-28 | 2024-01-23 | 日本電信電話株式会社 | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム |
CN112185389B (zh) * | 2020-09-22 | 2024-06-18 | 北京小米松果电子有限公司 | 语音生成方法、装置、存储介质和电子设备 |
JP7508333B2 (ja) | 2020-10-15 | 2024-07-01 | 株式会社日立製作所 | 計算機システム及び学習方法 |
CN112489625A (zh) * | 2020-10-19 | 2021-03-12 | 厦门快商通科技股份有限公司 | 语音情绪识别方法、系统、移动终端及存储介质 |
US20220138534A1 (en) * | 2020-11-03 | 2022-05-05 | Adobe Inc. | Extracting entity relationships from digital documents utilizing multi-view neural networks |
CN112347258B (zh) * | 2020-11-16 | 2022-09-13 | 合肥工业大学 | 一种短文本方面级情感分类方法 |
US11508396B2 (en) * | 2020-12-15 | 2022-11-22 | TQINTELLIGENCE, Inc. | Acquiring speech features for predicting emotional severity of adverse events on individuals |
CN112579745B (zh) * | 2021-02-22 | 2021-06-08 | 中国科学院自动化研究所 | 基于图神经网络的对话情感纠错系统 |
CN113380271B (zh) * | 2021-08-12 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 情绪识别方法、系统、设备及介质 |
WO2023032016A1 (ja) * | 2021-08-30 | 2023-03-09 | 日本電信電話株式会社 | 推定方法、推定装置および推定プログラム |
CN115862675B (zh) * | 2023-02-10 | 2023-05-05 | 之江实验室 | 一种情感识别方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005199403A (ja) * | 2004-01-16 | 2005-07-28 | Sony Corp | 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置 |
WO2010148141A2 (en) * | 2009-06-16 | 2010-12-23 | University Of Florida Research Foundation, Inc. | Apparatus and method for speech analysis |
US20160162807A1 (en) * | 2014-12-04 | 2016-06-09 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems |
-
2018
- 2018-11-12 JP JP2019555260A patent/JP6933264B2/ja active Active
- 2018-11-12 WO PCT/JP2018/041803 patent/WO2019102884A1/ja active Application Filing
- 2018-11-12 US US16/763,360 patent/US11551708B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11551708B2 (en) | 2023-01-10 |
JP6933264B2 (ja) | 2021-09-08 |
WO2019102884A1 (ja) | 2019-05-31 |
US20200302953A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
Gharavian et al. | Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network | |
Nakashika et al. | Voice conversion in high-order eigen space using deep belief nets. | |
Al-Dujaili et al. | Speech emotion recognition: a comprehensive survey | |
Sigtia et al. | A hybrid recurrent neural network for music transcription | |
Das et al. | A hybrid meta-heuristic feature selection method for identification of Indian spoken languages from audio signals | |
CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
Tu et al. | Investigating the role of L1 in automatic pronunciation evaluation of L2 speech | |
Guha et al. | Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
Wu et al. | Speech emotion recognition using sequential capsule networks | |
JP7420211B2 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
JP7332024B2 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
Kumari et al. | An efficient adaptive artificial neural network based text to speech synthesizer for Hindi language | |
Zheng et al. | An improved speech emotion recognition algorithm based on deep belief network | |
Xia et al. | Learning salient segments for speech emotion recognition using attentive temporal pooling | |
Shah et al. | Articulation constrained learning with application to speech emotion recognition | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
Kumar et al. | Zero-shot normalization driven multi-speaker text to speech synthesis | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
Přibil et al. | GMM-based evaluation of emotional style transformation in czech and slovak | |
Kokkinidis et al. | An empirical comparison of machine learning techniques for chant classification | |
Li et al. | Confidence estimation for speech emotion recognition based on the relationship between emotion categories and primitives | |
Ahmed | Speech emotion recognition | |
Bakheet | Improving speech recognition for arabic language using low amounts of labeled data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200514 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A527 Effective date: 20200514 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210720 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6933264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |