WO2021171956A1

WO2021171956A1 - 話者識別装置、話者識別方法、及び、プログラム

Info

Publication number: WO2021171956A1
Application number: PCT/JP2021/004224
Authority: WO
Inventors: 勝統大毛
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2020-02-25
Filing date: 2021-02-05
Publication date: 2021-09-02
Also published as: US20220383880A1; CN115104152A; JPWO2021171956A1

Abstract

本開示の話者識別装置は、識別対象の発話の音声を示す発話データの話者を識別する話者識別装置（１１）であって、学習済のＤＮＮ（Deep Neural Network）を用いて、発話データから算出された音響特徴量から、発話データが示す発話の音声に含まれる感情を推定する感情推定器（１２）と、感情推定器（１２）の推定結果を用いて、発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する話者識別処理部（１３）とを備える。

Description

話者識別装置、話者識別方法、及び、プログラム

　本開示は、話者識別装置、話者識別方法、及び、プログラムに関する。

　話者識別技術は、登録対象の話者ごとの発話である登録発話から算出した特徴量と、識別対象の未知の話者の発話である評価発話から算出した特徴量との類似度に基づいて、評価発話がどの話者の登録発話であるかを推定する技術である（例えば特許文献１）。

　例えば、特許文献１には、話者識別技術として、登録話者ごとの登録発話における話者特徴ベクトルと評価発話における話者特徴ベクトルとのベクトル類似度を用いて、評価発話の話者を識別する技術が開示されている。

特開２０１７－１８７６４２号公報

　しかしながら、笑い声や怒鳴り声などの感情音声を評価音声とした場合には、識別精度に影響を与えてしまう。具体的には、登録発話に含まれる感情と評価発話に含まれる感情とが異なると、評価発話に含まれる感情に伴う抑揚変動によって、話者識別の精度が低下する。

　つまり、特許文献１に開示されるような従来の話者識別技術では、評価発話に含まれる感情を考慮しないで、登録発話と評価発話との話者特徴ベクトルの類似度を計算して、評価発話の話者を識別する。このため、従来の話者識別技術では、評価発話の話者を識別する精度が十分ではない場合がある。

　本開示は、上述の事情を鑑みてなされたもので、評価発話すなわち識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる話者識別装置、話者識別方法、及び、プログラムを提供することを目的とする。

　本開示の一態様に係る話者識別装置は、識別対象の発話の音声を示す発話データの話者を識別する話者識別装置であって、学習済のＤＮＮ（Deep Neural Network）を用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定器と、前記感情推定器の推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理部とを備える。

　なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示の話者識別装置等によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

図１は、実施の形態に係る話者識別システムの構成の一例を示すブロック図である。図２は、実施の形態に係る話者識別システムの構成の別の一例を示すブロック図である。図３は、実施の形態に係る前処理部の詳細構成の一例を示すブロック図である。図４は、実施の形態に係る話者識別装置の詳細構成の一例を示すブロック図である。図５は、実施の形態に係る感情推定器の構成の一例を示す図である。図６は、実施の形態に係る話者識別器の構成の一例を示す図である。図７は、実施の形態に係る話者識別器が有する話者特徴量抽出部の構成の一例を示す図である。図８は、実施の形態に係る話者識別装置の動作の概要を示すフローチャートである。図９は、実施の形態の変形例１に係る話者識別装置の詳細構成の一例を示すブロック図である。図１０は、実施の形態の変形例２に係る話者識別装置の詳細構成の一例を示すブロック図である。図１１は、実施の形態の変形例２に係る話者識別装置の処理の一例を示す図である。図１２は、実施の形態の変形例３に係る話者識別装置の詳細構成の一例を示すブロック図である。

　（本開示の概要）
　本開示の一形態の概要は、以下の通りである。

　本態様によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

　また、例えば、前記話者識別処理部は、それぞれ、前記音響特徴量が入力された場合に、入力された前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量抽出部が抽出した前記第１話者特徴量、及び、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量の類似度を計算する類似度計算部とを有する複数の話者識別器と、前記複数の話者識別器のうちの一の話者識別器であって前記推定結果により示される感情に応じた前記登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を前記記憶部に記憶している話者識別器を選択する識別器選択部とを備え、前記識別器選択部により選択された話者識別器は、前記発話データから算出された音響特徴量が入力されることで、前記類似度を計算し、前記スコアとして出力してもよい。

　また、例えば、前記話者識別処理部は、前記音響特徴量から、前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を、前記推定結果により示される感情に応じた前記一の感情が含まれた音声それぞれを特定できる第３話者特徴量に補正する補正部と、抽出した前記第１話者特徴量と、前記補正部により補正された第３話者特徴量との類似度を計算し、前記スコアとして、計算した類似度を出力する類似度計算部とを備えてもよい。

　また、例えば、前記話者識別処理部は、前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、抽出した前記第１話者特徴量と、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量との類似度を計算する類似度計算部と、計算された前記類似度に、前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する信頼性付与部とを備え、前記信頼性付与部は、前記一の感情と前記推定結果により示される感情とが一致する場合に計算された前記類似度に、最も大きい重み付けを付与してもよい。

　また、例えば、前記音響特徴量は、前処理部により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで取得された複数の発話データのそれぞれから算出され、前記信頼性付与部は、前記類似度計算部により計算された、前記複数の発話データそれぞれに対する前記類似度に、前記感情推定器により推定された、前記複数の発話データそれぞれに対する前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力してもよい。

　また、例えば、前記話者識別装置は、さらに、前記信頼性付与部により出力された、前記複数の発話データそれぞれに対する前記スコアを算術平均したスコアである全体スコアを用いて、前記全体発話データの話者を識別する話者識別部とを備え、前記話者識別部は、前記全体スコアのうち閾値以上の全体スコアを用いて、前記全体発話の話者を識別してもよい。

　また、例えば、前記話者識別処理部は、前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、抽出した前記第１話者特徴量と、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量との類似度を計算する類似度計算部と、計算された前記類似度に、前記推定結果により示される感情に応じた信頼度を付与し、前記スコアとして出力する信頼度付与部とを備えてもよい。

　また、例えば、前記話者識別装置は、さらに、前記信頼度が閾値以上の前記スコアを用いて、前記発話データの話者を識別する話者識別部をさらに備えてもよい。

　また、例えば、前記話者特徴量抽出部は、学習済のＤＮＮを用いて、前記音響特徴量から前記第１話者特徴量を抽出してもよい。

　本開示の一態様に係る話者識別方法は、識別対象の発話の音声を示す発話データの話者を識別する話者識別方法であって、学習済のＤＮＮを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップとを含む。

　また、本開示の一態様に係るプログラムは、識別対象の発話の音声を示す発話データの話者を識別する話者識別方法をコンピュータに実行させるプログラムであって、学習済のＤＮＮを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップと、をコンピュータに実行させる。

　なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　以下、本開示の実施の形態について、図面を参照しながら説明する。以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態）
　以下では、図面を参照しながら、本実施の形態に係る話者識別装置等の説明を行う。

　［話者識別システム１］
　図１は、本実施の形態に係る話者識別システム１の構成の一例を示すブロック図である。図２は、本実施の形態に係る話者識別システム１の構成の別の一例を示すブロック図である。

　本実施の形態に係る話者識別システム１は、識別対象の発話であって話者の感情が含まれた発話の音声を示す発話データの話者を識別するために用いられる。

　話者識別システム１は、図１に示すように、前処理部１０と、話者識別装置１１とを備える。なお、話者識別システム１は、図２に示すように、話者識別部１４をさらに備えるとしてもよいが、必須の構成でない。以下、各構成要素について説明する。

　［１．　前処理部１０］
　図３は、本実施の形態に係る前処理部１０の詳細構成の一例を示すブロック図である。

　前処理部１０は、識別対象の発話の音声を示す発話データを取得し、取得した発話データから算出された音響特徴量を、話者識別装置１１に出力する。本実施の形態では、前処理部１０は、図３に示すように、音声取得部１０１と、音響特徴量算出部１０２とを備える。

　［１．１　音声取得部１０１］
　音声取得部１０１は、例えばマイクロフォンからなり、話者の発話の音声を取得する。音声取得部１０１は、取得した音声を音声信号に変換して、発話された区間である発話区間を検出し、発話区間を切り出して得た発話の音声を示す発話データを音響特徴量算出部１０２に出力する。

　なお、音声取得部１０１は、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで複数の発話データを取得し、音響特徴量算出部１０２に出力してもよい。識別単位は、例えば３～４秒間であり、上記の発話区間であってもよい。

　［１．２　音響特徴量算出部１０２］
　音響特徴量算出部１０２は、音声取得部１０１により出力された発話区間の音声信号すなわち発話データから、発話の音声についての音響特徴量を計算する。本実施の形態では、音響特徴量算出部１０２は、音声取得部１０１により出力された発話データから、発話の音声の特徴量であるＭＦＣＣ（Mel Frequency Cepstral Coefficient）を、音響特徴量として算出する。ＭＦＣＣは、発話者の声道特性を表す特徴量であり、音声認識でも一般的に使用される。より具体的には、ＭＦＣＣは、音声の周波数スペクトルを人間の聴覚特性に基づいて分析した音響特徴量である。なお、音響特徴量算出部１０２は、発話データから音響特徴量として、ＭＦＣＣを算出する場合に限らず、発話の音声信号にメルフィルタバンクをかけたものを音響特徴量として算出してもよいし、発話の音声信号のスペクトログラムを音響特徴量として算出してもよい。

　［２．　話者識別装置１１］
　話者識別装置１１は、例えば、プロセッサ（マイクロプロセッサ）、メモリ、通信インタフェース等を備えるコンピュータで実現される。話者識別装置１１は、サーバに含まれて動作するとしてもよいし、話者識別装置１１の一部構成がクラウドサーバに含まれて動作するとしてもよい。話者識別装置１１は、評価発話すなわち識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置１１は、評価発話の第１話者特徴量と登録話者ごとの登録発話の第２話者特徴量との類似度を表すスコアを、識別結果として出力する。本実施の形態に係る評価発話すなわち識別対象の発話には、話者の感情が含まれる。

　図４は、本実施の形態に係る話者識別装置１１の詳細構成の一例を示すブロック図である。

　話者識別装置１１は、図１及び図４に示すように感情推定器１２と、話者識別処理部１３とを備える。

　［２．１　感情推定器１２］
　感情推定器１２は、学習済のＤＮＮ（Deep Neural Network）を用いて、発話データから算出された音響特徴量から、当該発話データが示す発話の音声に含まれる感情を推定する。なお、ＤＮＮには、例えばＣＮＮ（Convolution Neural Networks）が用いられてもよいし、全結合型のＮＮ（Neural Network）が用いられてもよいし、ＴＤＮＮ（Time Delay Neural Network）が用いられてもよい。

　ここで、感情推定器１２の構成の一例について、図５を用いて説明する。

　図５は、本実施の形態に係る感情推定器１２の構成の一例を示す図である。

　感情推定器１２は、例えば図５に示すように、フレーム接続処理部１２１と、ＤＮＮ１２２とを備える。

　［２．１．１　フレーム接続処理部１２１］
　フレーム接続処理部１２１は、前処理部１０から出力された音響特徴量であるＭＦＣＣの複数フレームを接続して、ＤＮＮ１２２の入力層に出力する。ＭＦＣＣは、１つのフレームについてｘ（ｘは正の整数）次元の特徴量を持つような複数フレームで構成される。図５に示す例では、フレーム接続処理部１２１は、２４次元／フレームの特徴量からなるＭＦＣＣパラメータを５０フレーム接続して１２００次元のベクトルを生成し、ＤＮＮ１２２の入力層に出力する。

　［２．１．２　ＤＮＮ１２２］
　ＤＮＮ１２２は、接続されたＭＦＣＣの複数フレームが入力されると、最も確率が高い感情ラベルを、感情推定器１２の推定結果として出力する。図５に示す例では、ＤＮＮ１２２は、入力層と、複数の中間層と、出力層とからなるニューラルネットワークであり、記憶部１２３に記憶された教師データすなわち推定対象の感情を含む教師音声データを用いて学習されている。入力層は、例えば１２００ノードからなり、２４次元／フレームの特徴量からなるＭＦＣＣパラメータを５０フレーム接続して生成された１２００次元のベクトルが入力される。出力層は、例えば平静、怒り、笑い、悲しみといった感情ラベルを出力するノードからなり、最も確率が高い感情ラベルを出力する。なお、複数の中間層は、例えば２～３層の中間層からなる。

　［２．２　話者識別処理部１３］
　話者識別処理部１３は、感情推定器１２の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。

　本実施の形態では、話者識別処理部１３は、図４に示すように、識別器選択部１３１と、複数の話者識別器１３２とを備える。

　［２．２．１　複数の話者識別器１３２］
　複数の話者識別器１３２のそれぞれは、一の感情に対応した話者識別器１３２ｋ（ｋは自然数）である。一の感情とは、例えば平静、怒り、笑い、悲しみ、…、のうちの一つである。図４に示す例では、複数の話者識別器１３２は、話者識別器１３２ａと、話者識別器１３２ｂと、・・・で構成される。例えば話者識別器１３２ａは、一の感情として平静に対応しており、話者識別器１３２ｂは、一の感情として笑いに対応している。なお、話者識別器１３２ａと、話者識別器１３２ｂと、・・・と、のうちの一つを話者識別器１３２ｋと表現している。

　複数の話者識別器１３２のうち、識別器選択部１３１により選択された話者識別器１３２ｋは、発話データから算出された音響特徴量が入力されることで、類似度を計算し、スコアとして出力する。なお、複数の話者識別器１３２のいずれも識別器選択部１３１により選択されない場合もあり、図４では、識別器選択部１３１により「選択なし」が選択された場合があるとして表現されている。

　ここで、話者識別器１３２ｋの構成の一例として、笑いに対応している話者識別器１３２ｂについて、図６を用いて説明する。

　図６は、本実施の形態に係る話者識別器１３２ｂの構成の一例を示す図である。図７は、本実施の形態に係る話者識別器１３２ｂが有する話者特徴量抽出部１３３ｂの構成の一例を示す図である。

　話者識別器１３２ｂは、例えば図６に示すように、話者特徴量抽出部１３３ｂと、記憶部１３４ｂと、類似度計算部１３５ｂとを備える。

　［２．２．１．１　話者特徴量抽出部１３３ｂ］
　話者特徴量抽出部１３３ｂは、発話データから算出された音響特徴量が入力された場合に、入力された音響特徴量から当該発話データが示す発話の音声の話者を特定できる第１話者特徴量を抽出する。より具体的には、話者特徴量抽出部１３３ｂは、学習済のＤＮＮを用いて、音響特徴量から第１話者特徴量を抽出する。

　本実施の形態では、話者特徴量抽出部１３３ｂは、例えば、ｘ－ｖｅｃｔｏｒ方式を用いて第１話者特徴量を抽出する。ここで、ｘ－Ｖｅｃｔｏｒ方式とは、ｘ－Ｖｅｃｔｏｒと呼ばれる話者固有の特徴である話者特徴量を算出する方法である。より具体的には、話者特徴量抽出部１３３ｂは、例えば図７に示すように、フレーム接続処理部１３３１と、ＤＮＮ１３３２ｂとを備える。

　［２．２．１．１－１　フレーム接続処理部１３３１］
　フレーム接続処理部１３３１は、フレーム接続処理部１２１と同様の処理を行う。すなわち、フレーム接続処理部１３３１は、前処理部１０から出力された音響特徴量であるＭＦＣＣの複数フレームを接続して、ＤＮＮ１３３２ｂの入力層に出力する。図７に示す例では、フレーム接続処理部１３３１は、２４次元／フレームの特徴量からなるＭＦＣＣパラメータを５０フレーム接続して１２００次元のベクトルを生成し、ＤＮＮ１３３２ｂの入力層に出力する。

　［２．２．１．１－２　ＤＮＮ１３３２ｂ］
　ＤＮＮ１３３２ｂは、フレーム接続処理部１３３１から複数フレームが入力されると、第１話者特徴量を出力する。図７に示す例では、ＤＮＮ１３３２ｂは、入力層と、複数の中間層と、出力層とからなるニューラルネットワークであり、記憶部１３３３ｂに格納された教師データである教師音声データを用いて学習されている。図７に示す例では、記憶部１３３３ｂには、一の感情としての笑いが含まれた複数の話者それぞれの音声で構成された教師音声データが記憶されている。

　図７に示す例では、入力層は、例えば１２００ノードからなり、２４次元／フレームの特徴量からなるＭＦＣＣパラメータを５０フレーム接続して生成された１２００次元のベクトルが入力される。出力層は、教師データに含まれる話者数分の話者ラベルを出力するノードからなる。なお、複数の中間層は、例えば２～３層の中間層からなり、第１話者特徴量を算出する中間層を有する。第１話者特徴量を算出する中間層は、ＤＮＮ１３３２ｂの出力として、算出した第１話者特徴量を出力する。

　［２．２．１．２　記憶部１３４ｂ］
　記憶部１３４ｂは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、事前登録された登録話者の固有の特徴量である第２話者特徴量であって登録話者の登録発話から算出された第２話者特徴量を記憶する。換言すると、記憶部１３４ｂは、第２話者特徴量であって登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を記憶する。より具体的には、記憶部１３４ｂは、図６に示すように、登録話者の笑いの感情が含まれた登録発話の第２話者特徴量を記憶する。

　［２．２．１．３　類似度計算部１３５ｂ］
　類似度計算部１３５ｂは、話者特徴量抽出部１３３ｂが抽出した第１話者特徴量と、記憶部１３４ｂに記憶されている事前登録された第２話者特徴量との類似度を計算する。

　本実施の形態では、類似度計算部１３５ｂは、話者特徴量抽出部１３３ｂにより抽出された第１話者特徴量と、記憶部１３４ｂに記憶されている１以上の登録話者の第２話者特徴量それぞれとの類似度を計算する。類似度計算部１３５ｂは、計算した類似度を表すスコアを出力する。

　例えば、類似度計算部１３５ｂは、ベクトル空間モデルにおいて内積を使って余弦を計算することで、第１話者特徴量と第２話者特徴量とのベクトル間角度を示すコサイン距離（コサイン類似度とも称される）を、類似度として計算してもよい。この場合、ベクトル間角度の数値が大きくなるほど類似度が低いことを示す。なお、類似度計算部１３５ｂは、類似度として、第１話者特徴量を示すベクトルと第２話者特徴量を示すベクトルとの内積を用いて－１から１までの値をとるコサイン距離を計算してもよい。この場合、コサイン距離を示す数値が大きくなるほど類似度が高いことを示す。

　なお、平静に対応している話者識別器１３２ａ等も、笑いに対応している話者識別器１３２ｂと同様であるので、説明を省略する。

　［２．２．２　識別器選択部１３１］
　識別器選択部１３１は、感情推定器１２の推定結果により示される感情に応じて、複数の話者識別器１３２のうち一の話者識別器１３２ｋを選択する。より具体的には、識別器選択部１３１は、感情推定器１２の推定結果により示される感情に応じた登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を記憶部に保存している話者識別器１３２ｋを選択する。なお、識別器選択部１３１は、感情推定器１２の推定結果により示される感情に対応する話者識別器１３２がない場合には、いずれの話者識別器１３２も用いない（選択なし）としてもよい。

　このように、識別器選択部１３１は、感情推定器１２の推定結果に応じて、話者識別器１３２を切り替えることができる。

　［３．　話者識別部１４］
　話者識別部１４は、例えば図２に示されているように話者識別システム１に備えられる場合、話者識別装置１１により出力されたスコアを用いて、発話データの話者を識別する。

　本実施の形態では、話者識別部１４は、類似度計算部１３５ｂにより計算された類似度を表すスコアに基づいて、発話データの話者を識別する。例えば、話者識別部１４は、このようなスコアを用いることで、第１話者特徴量に最も近いとされる第２話者特徴量に対応する登録話者を識別結果として出力する。

　［話者識別システム１の動作］
　次に、以上のように構成された話者識別システム１の動作について説明する。以下では、話者識別システム１の動作として、特徴的な動作である話者識別装置１１の動作について説明する。

　図８は、本実施の形態に係る話者識別装置１１の動作の概要を示すフローチャートである。

　まず、話者識別装置１１は、学習済のＤＮＮを用いて、発話データから算出された音響特徴量から、当該発話データが示す発話の音声に含まれる感情を推定する（Ｓ１１）。

　次に、話者識別装置１１は、ステップＳ１１において推定された推定結果を用いて、発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する（Ｓ１２）。

　［効果等］
　以上のように、本実施の形態に係る話者識別装置１１によれば、評価発話の感情を推定する感情推定器１２を、それぞれ一の感情に対応した複数の話者識別器１３２の前段に配置し、感情推定器１２の推定結果に示される感情に応じて、話者識別器１３２を切り替える。

　これにより、評価発話の感情に対応した話者識別器１３２を用いることができるので、登録発話に含まれる感情と評価発話に含まれる感情とが一致した状態で評価発話の話者を識別することができる。

　したがって、本実施の形態に係る話者識別装置１１によれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

　また、本実施の形態の話者識別装置１１を備える話者識別システム１によれば、会議議事録システム、コミュニケーション可視化システムなど、自由発話すなわち文章の朗読などではない会話などの発話を対象にして、当該発話の発話者を識別することができる。

　（変形例１）
　なお、識別対象の発話であって話者の感情が含まれた発話の音声を示す発話データの話者を識別する方法は、上記の実施の形態で説明した方法、すなわち感情推定器１２の後段に、複数の話者識別器１３２を構成する方法に限らない。以下、上記の実施の形態で説明した方法とは別の方法の一例を変形例１として、上記の実施の形態と異なる点を中心に説明する。

　［４．　話者識別装置１１Ａ］
　図９は、本実施の形態の変形例１に係る話者識別装置１１Ａの詳細構成の一例を示すブロック図である。なお、図４等と同様の要素には同一の符号を付しており、詳細な説明は省略する。

　話者識別装置１１Ａは、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置１１Ａは、評価発話の第１話者特徴量と、登録話者ごとの登録発話の第２話者特徴量が補正された第３話者特徴量との類似度を表すスコアを、識別結果として出力する。

　図９に示すように、本変形例に係る話者識別装置１１Ａは、図４に示す話者識別装置１１に対して、話者識別処理部１３Ａの構成が異なる。

　［４．１　話者識別処理部１３Ａ］
　話者識別処理部１３Ａは、感情推定器１２の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。

　本変形例では、話者識別処理部１３Ａは、図９に示すように、話者特徴量抽出部１３３Ａと、記憶部１３４Ａと、類似度計算部１３５Ａと、記憶部１３６Ａと、補正部１３７Ａとを備える。

　［４．１．１　話者特徴量抽出部１３３Ａ］
　話者特徴量抽出部１３３Ａは、発話データから算出された音響特徴量から、当該発話データが示す発話の音声の話者を特定できる第１話者特徴量を抽出する。

　本変形例でも、話者特徴量抽出部１３３Ａは、例えば、ｘ－ｖｅｃｔｏｒ方式を用いて第１話者特徴量を抽出する。このため、話者特徴量抽出部１３３Ａは、話者特徴量抽出部１３３ｂと同様に、フレーム接続処理部と、ＤＮＮとを備えればよい。本変形例では、一の感情として例えば平静が含まれた識別対象の複数の話者それぞれの音声で構成された教師音声データを用いて学習されている。なお、平静は、一の感情の一例であり、笑いなどその他の感情であってもよい。その他については、上記の実施の形態で説明した通りであるので、ここでの説明は省略する。

　［４．１．２　記憶部１３４Ａ］
　記憶部１３４Ａは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、事前登録された第２話者特徴量であって登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を記憶する。本変形例では、記憶部１３４Ａには、図９に示すように、登録話者の平静の感情が含まれた登録発話の第２話者特徴量を記憶する。なお、平静の感情は、一例であり、笑いなどその他の感情であってもよい。

　［４．１．３　記憶部１３６Ａ］
　記憶部１３６Ａは、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成され、登録発話に含まれる感情を補正するための学習データを記憶する。本変形例では、記憶部１３６Ａに記憶される学習データは、記憶部１３４Ａに記憶される平静の感情における第２話者特徴量を、感情推定器１２の推定結果により示される感情に応じた感情の発話の話者特徴量である第３話者特徴量に補正するために用いられる。

　［４．１．４　補正部１３７Ａ］
　補正部１３７Ａは、記憶部１３４Ａに記憶されている第２話者特徴量を、感情推定器１２の推定結果により示される感情に応じた一の感情が含まれた音声それぞれを特定できる第３話者特徴量に補正する。

　例えば、感情推定器１２の推定結果により示される感情が「笑い」であるとする。この場合、補正部１３７Ａは、記憶部１３６Ａに記憶される学習データを用いて、記憶部１３４Ａに記憶されている登録話者の「平静」の感情が含まれた登録発話の第２話者特徴量を、例えば「笑い」の感情が含まれた音声それぞれを特定できる第３話者特徴量に補正する。つまり、補正部１３７Ａは、記憶部１３６Ａに記憶される学習データを用いて、記憶部１３４Ａに記憶されている「平静」の感情における第２話者特徴量を、感情推定器１２の推定結果により示される感情における第３話者特徴量に補正する。

　［４．１．５　類似度計算部１３５Ａ］
　類似度計算部１３５Ａは、話者特徴量抽出部１３３Ａが抽出した第１話者特徴量と、補正部１３７Ａにより補正された第３話者特徴量との類似度を計算し、スコアとして、計算した類似度を出力する。

　本変形例では、類似度計算部１３５Ａは、話者特徴量抽出部１３３Ａにより抽出された第１話者特徴量と、記憶部１３４Ａに記憶されている１以上の登録話者の第２話者特徴量が補正された第３話者特徴量それぞれとの類似度を計算する。類似度計算部１３５Ａは、計算した類似度を表すスコアを出力する。

　［５．　話者識別部１４］
　話者識別部１４は、話者識別装置１１Ａにより出力されたスコアを用いて、発話データの話者を識別する。

　本変形例では、話者識別部１４は、類似度計算部１３５Ａにより計算された類似度で示されるスコアに基づいて、発話データの話者を識別する。例えば、話者識別部１４は、スコアを用いて、第１話者特徴量に最も近いとされる第３話者特徴量に対応する第２話者特徴量の登録話者を識別結果として出力する。

　［効果等］
　以上のように、本変形例に係る話者識別装置１１Ａによれば、前段に配置した感情推定器１２の推定結果に応じて、後段に配置した話者識別処理部１３Ａに、登録発話の感情を評価発話の感情に補正させた上で評価発話の話者を識別させる。

　これにより、登録発話に含まれる感情と評価発話に含まれる感情とを一致させた状態で、すなわち、登録発話と評価発話との感情すなわち抑揚の違いを補正して一致させた状態で、評価発話の話者を識別することができる。

　したがって、本変形例に係る話者識別装置１１Ａによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

　（変形例２）
　上記の実施の形態で説明した方法は、実施の形態及び変形例１で説明した場合に限らない。以下、実施の形態及び変形例１で説明した話者識別装置と異なる構成の場合について説明する。

　［６．　話者識別装置１１Ｂ］
　図１０は、本実施の形態の変形例２に係る話者識別装置１１Ｂの詳細構成の一例を示すブロック図である。なお、図４及び図９等と同様の要素には同一の符号を付しており、詳細な説明は省略する。

　話者識別装置１１Ｂは、話者識別装置１１と同様に、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置１１Ｂは、評価発話の第１話者特徴量と登録話者ごとの登録発話の第２話者特徴量との類似度を計算する。そして、話者識別装置１１Ｂは、計算した類似度に信頼性を付与させて得たスコアを、識別結果として出力する。本変形例では、信頼性として、重み付けを付与する場合について説明する。

　図１０に示すように、本変形例に係る話者識別装置１１Ｂは、図４に示す話者識別装置１１に対して、話者識別処理部１３Ｂの構成が異なる。また、本変形例に係る話者識別装置１１Ｂは、図９に示す話者識別装置１１Ａに対して、話者識別処理部１３Ｂの構成が異なる。

　［６．１　話者識別処理部１３Ｂ］
　話者識別処理部１３Ｂは、感情推定器１２の推定結果を用いて、当該発話データから算出された音響特徴量から、当該発話データの話者を識別するためのスコアを出力する。

　ここで、話者識別処理部１３Ｂが取得する音響特徴量は、前処理部１０により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで得た複数の発話データのそれぞれから算出されている。

　本変形例では、話者識別処理部１３Ｂは、図１０に示すように、話者特徴量抽出部１３３Ａと、記憶部１３４Ａと、類似度計算部１３５Ｂと、信頼性付与部１３８Ｂとを備える。

　［６．１．１　類似度計算部１３５Ｂ］
　類似度計算部１３５Ｂは、話者特徴量抽出部１３３Ａが抽出した第１話者特徴量と、記憶部１３４Ａに記憶されている事前登録された第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量との類似度を計算する。

　本変形例では、類似度計算部１３５Ｂは、話者特徴量抽出部１３３Ａにより抽出された第１話者特徴量と、記憶部１３４Ａに記憶されている１以上の登録話者の「平静」の感情が含まれた登録発話における第２話者特徴量との類似度を計算する。

　［６．１．２　信頼性付与部１３８Ｂ］
　信頼性付与部１３８Ｂは、類似度計算部１３５Ｂにより計算された類似度に、感情推定器１２の推定結果により示される感情に応じた重み付けを付与して、スコアとして出力する。ここで、信頼性付与部１３８Ｂは、一の感情と推定結果により示される感情とが一致する場合、計算された類似度に、最も大きい重み付けを付与する。

　本変形例では、信頼性付与部１３８Ｂは、類似度計算部１３５Ｂにより計算された、複数の発話データそれぞれに対する類似度に、感情推定器１２により推定された、複数の発話データそれぞれに対する推定結果により示される感情に応じた重み付けを付与する。信頼性付与部１３８Ｂは、複数の発話データそれぞれにおける重み付けが付与された類似度を、複数の発話データそれぞれに対するスコアとして、話者識別部１４に出力する。

　［７．　話者識別部１４］
　話者識別部１４は、例えば図２に示されているように話者識別システム１に備えられる場合、話者識別装置１１Ｂにより出力されたスコアを用いて、発話データの話者を識別する。

　本変形例では、話者識別部１４は、類似度計算部１３５Ｂにより出力された、重みが付与された類似度を表すスコアに基づいて、発話データの話者を識別する。より詳細には、話者識別部１４は、信頼性付与部１３８Ｂにより出力された、複数の発話データそれぞれに対するスコアを算術平均したスコアである全体スコアを用いて、全体発話データの話者を識別する。ここで、話者識別部１４は、全体スコアのうち閾値以上の全体スコアを用いて、全体発話の話者を識別する。そして、話者識別部１４は、識別した全体発話の話者を識別結果として出力する。これにより、話者識別部１４は、信頼性の高い全体スコアのみを用いて、全体スコアに対応する全体発話データの話者を精度よく識別することができる。

　［話者識別装置１１Ｂの処理例］
　次に、以上のように構成された話者識別装置１１Ｂの処理の一例について図１１を用いて説明する。

　図１１は、本実施の形態の変形例２に係る話者識別装置１１Ｂの処理の一例を示す図である。図１１の最上段には、話者識別装置１１Ｂが取得する全体発話データが示されている。なお、全体発話データは、上述したように、所定期間における一の話者の発話の音声が変換された音声信号であり、識別単位ごとに分割された発話データで構成される。図１１に示す例では、識別単位は、例えば３～４秒間隔であり、全体発話データは、１２～１６秒間の音声の音声信号であり、４つの識別単位の音声信号に分割されている。全体発話データを識別単位ごと分割したものが、上述した発話データに該当する。

　図１１の２段目には、複数の発話データそれぞれにおける重み付与前のスコアと推定結果とが示されている。重み付与前のスコアは、話者識別装置１１Ｂにより計算される、複数の発話データそれぞれにおける類似度を表している。推定結果は、話者識別装置１１Ｂが全体発話データを構成する複数の発話データそれぞれに対して推定した、当該発話データが示す発話の音声に含まれる感情である。図１１に示す例では、発話全体データの識別単位ごと（発話データごと）に、（スコア、感情）が（５０、平静）、（５０、怒り）、（５０、ささやき声）、（５０、怒り）と示されている。

　また、図１１の３段目には、推定結果に基づき重み付与されたスコアが示されている。このスコアは、複数の発話データそれぞれにおける推定結果に基づき重み付与された類似度であって複数の発話データそれぞれにおける類似度を表している。図１１に示す例では、推定結果により示される感情が平静のときに、最も大きな重み付けが付与されており、発話全体データの識別単位ごと（発話データごと）に、７５、２５、５、２５となっている。なお、推定結果により示される感情が「平静」のときに、最も大きな重み付けが付与されている。これは、話者識別装置１１Ｂが、登録話者の「平静」の感情が含まれた登録発話の第２話者特徴量を用いて複数の発話データそれぞれにおける類似度を計算しているからである。つまり、話者識別装置１１Ｂが類似度を計算する際に用いる第２話者特徴量を得るために用いた登録発話に含まれ得る感情と一致するほど、計算した類似度に対する信頼性が高いとして、大きな重み付けが付与される。

　図１１の４段目には、全体スコアが示されている。全体スコアは、発話全体データに対するスコアであり、上述したように複数の発話データそれぞれに対するスコアを算術平均したものである。図１１に示す例では、３２．５と算出されている。

　［効果等］
　以上のように、本変形例に係る話者識別装置１１Ｂでは、話者識別処理部１３Ｂは、評価発話と登録発話とに対して計算した類似度に、評価発話の感情の推定結果に基づく重みを付与させることで得たスコアを出力する。なお、話者識別処理部１３Ｂは、推定結果により示される評価発話に含まれる感情が、登録発話に含まれる感情と一致するほど、計算した類似度に対する信頼性が高いとして、大きな重み付けを付与する。

　これにより、信頼性の高いスコアを用いることで、登録発話に含まれる感情と評価発話に含まれる感情とが近い（類似する）状態で評価発話の話者を識別することができる。

　したがって、本変形例に係る話者識別装置１１Ｂによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

　なお、スコアの信頼性を確認することで、話者識別の結果の信頼性を確認してもよい。

　（変形例３）
　変形例２では、話者識別装置１１Ｂは、計算した類似度に、評価発話に含まれる感情の推定結果に基づき重みを信頼性として付与させることで得たスコアを出力させる場合について説明した。変形例３では、話者識別装置１１Ｃが、計算した類似度に、評価発話に含まれる感情の推定結果に基づく信頼度（具体的には信頼度を表す付加情報）を付与させて出力させる場合について説明する。以下、変形例３に係る話者識別装置１１Ｃについて、変形例２で説明した話者識別装置１１Ｂと異なる点を中心に説明する。

　［８．　話者識別装置１１Ｃ］
　図１２は、本実施の形態の変形例３に係る話者識別装置１１Ｃの詳細構成の一例を示すブロック図である。なお、図４、図９及び図１０等と同様の要素には同一の符号を付しており、詳細な説明は省略する。

　話者識別装置１１Ｃは、話者識別装置１１Ｂと同様に、識別対象の発話の音声を示す発話データの話者を識別するための処理を行う。より具体的には、話者識別装置１１Ｃは、評価発話の第１話者特徴量と登録話者ごとの登録発話の第２話者特徴量との類似度を表すスコアを計算する。そして、話者識別装置１１Ｂは、計算した類似度に信頼度（信頼度を表す付加情報でもよい）を付与させて得たスコアを、識別結果として出力する。

　図１２に示すように、本変形例に係る話者識別装置１１Ｃは、図１０に示す話者識別装置１１Ｂに対して、話者識別処理部１３Ｃの構成が異なる。より具体的には、本変形例に係る話者識別装置１１Ｃは、図１０に示す話者識別装置１１Ｂに対して、信頼性付与部１３８Ｂがなく、信頼度付与部１３８Ｃを備える点で構成が異なる。

　［８．１　信頼度付与部１３８Ｃ］
　信頼度付与部１３８Ｃは、類似度計算部１３５Ｂにより計算された類似度に、感情推定器１２の推定結果により示される感情に応じた信頼度を付与し、スコアとして出力する。ここで、信頼度付与部１３８Ｃは、一の感情と推定結果により示される感情とが一致する場合、計算された類似度に、最も高い信頼度を付与する。

　［９．　話者識別部１４］
　話者識別部１４は、話者識別装置１１Ｃにより出力されたスコアを用いて、発話データの話者を識別する。

　本変形例では、話者識別部１４は、類似度計算部１３５Ｂにより出力された、信頼度が付与された類似度を示すスコアに基づいて、発話データの話者を識別する。例えば、話者識別部１４は、閾値以上の信頼度が付与されたスコアを用いて、発話データの話者を識別する。そして、話者識別部１４は、識別した発話の話者を識別結果として出力する。これにより、話者識別部１４は、信頼性の高いスコアのみを用いて、スコアに対応する発話データの話者を精度よく識別することができる。

　［効果等］
　以上のように、本変形例に係る話者識別装置１１Ｃでは、話者識別処理部１３Ｃは、評価発話と登録発話とに対して計算した類似度に、評価発話の感情の推定結果に基づく信頼度を表す付加情報を付与させることで得たスコアを出力する。例えば、話者識別処理部１３Ｃは、推定結果により示される評価発話に含まれる感情が、登録発話に含まれる感情と一致するほど、計算した類似度に対する信頼度が高くなるような付加情報を付与する。

　したがって、本変形例に係る話者識別装置１１Ｃによれば、識別対象の発話に話者の感情が含まれていても話者識別の精度を向上することができる。

　なお、スコアの信頼度を確認することで、話者識別の結果の信頼性を確認してもよい。

　（他の実施態様の可能性）
　以上、実施の形態及び変形例等に係る話者識別装置について説明したが、本開示は、この実施の形態に限定されるものではない。

　例えば、上記実施の形態及び変形例等に係る話者識別装置に含まれる各処理部は典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。

　また、集積回路化はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、またはＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　また、本開示は、話者識別装置により実行される話者識別方法として実現されてもよい。

　また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

　また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　以上、一つまたは複数の態様に係る話者識別装置について、実施の形態及び変形例等に基づいて説明したが、本開示は、この実施の形態及び変形例等に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例等に施したものや、異なる実施の形態及び変形例等における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本開示は、話者識別装置、話者識別方法、及び、プログラムに利用でき、例えば、会議議事録システム、コミュニケーション可視化システムなど、感情を含む自由発話を対象にして、当該自由発話の発話者を識別する話者識別装置、話者識別方法、及び、プログラムに利用できる。

　１　話者識別システム
　１０　前処理部
　１１、１１Ａ、１１Ｂ、１１Ｃ　話者識別装置
　１２　感情推定器
　１３、１３Ａ、１３Ｂ、１３Ｃ　話者識別処理部
　１４　話者識別部
　１０１　音声取得部
　１０２　音響特徴量算出部
　１２１、１３３１　フレーム接続処理部
　１２２、１３３２ｂ　ＤＮＮ
　１２３、１３４Ａ、１３４ｂ、１３６Ａ、１３３３ｂ　記憶部
　１３１　識別器選択部
　１３２、１３２ａ、１３２ｂ　話者識別器
　１３３Ａ、１３３ｂ　話者特徴量抽出部
　１３５Ａ、１３５Ｂ、１３５ｂ　類似度計算部
　１３７Ａ　補正部
　１３８Ｂ、１３８Ｃ　信頼性付与部

Claims

　識別対象の発話の音声を示す発話データの話者を識別する話者識別装置であって、
　学習済のＤＮＮ（Deep Neural Network）を用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定器と、
　前記感情推定器の推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理部とを備える、
　話者識別装置。
　前記話者識別処理部は、
　それぞれ、前記音響特徴量が入力された場合に、入力された前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、前記話者特徴量抽出部が抽出した前記第１話者特徴量、及び、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量の類似度を計算する類似度計算部とを有する複数の話者識別器と、
　前記複数の話者識別器のうちの一の話者識別器であって前記推定結果により示される感情に応じた前記登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を前記記憶部に記憶している話者識別器を選択する識別器選択部とを備え、
　前記識別器選択部により選択された話者識別器は、前記発話データから算出された音響特徴量が入力されることで、前記類似度を計算し、前記スコアとして出力する、
　請求項１に記載の話者識別装置。
　前記話者識別処理部は、
　前記音響特徴量から、前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、
　記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量を、前記推定結果により示される感情に応じた前記一の感情が含まれた音声それぞれを特定できる第３話者特徴量に補正する補正部と、
　抽出した前記第１話者特徴量と、前記補正部により補正された第３話者特徴量との類似度を計算し、前記スコアとして、計算した類似度を出力する類似度計算部とを備える、
　請求項１に記載の話者識別装置。
　前記話者識別処理部は、
　前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、
　抽出した前記第１話者特徴量と、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量との類似度を計算する類似度計算部と、
　計算された前記類似度に、前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する信頼性付与部とを備え、
　前記信頼性付与部は、前記一の感情と前記推定結果により示される感情とが一致する場合に計算された前記類似度に、最も大きい重み付けを付与する、
　請求項１に記載の話者識別装置。
　前記音響特徴量は、前処理部により、所定期間における一の話者の発話の音声を示す全体発話データを時系列に識別単位ごとに分割することで取得された複数の発話データのそれぞれから算出され、
　前記信頼性付与部は、前記類似度計算部により計算された、前記複数の発話データそれぞれに対する前記類似度に、前記感情推定器により推定された、前記複数の発話データそれぞれに対する前記推定結果により示される感情に応じた重み付けを付与して、前記スコアとして出力する、
　請求項４に記載の話者識別装置。
　前記話者識別装置は、さらに、
　前記信頼性付与部により出力された、前記複数の発話データそれぞれに対する前記スコアを算術平均したスコアである全体スコアを用いて、前記全体発話データの話者を識別する話者識別部とを備え、
　前記話者識別部は、前記全体スコアのうち閾値以上の全体スコアを用いて、前記全体発話の話者を識別する、
　請求項５に記載の話者識別装置。
　前記話者識別処理部は、
　前記音響特徴量から前記発話データが示す前記発話の音声の話者を特定できる第１話者特徴量を抽出する話者特徴量抽出部と、
　抽出した前記第１話者特徴量と、記憶部に記憶されている第２話者特徴量であって識別対象である登録話者の一の感情が含まれた音声それぞれを特定できる第２話者特徴量との類似度を計算する類似度計算部と、
　計算された前記類似度に、前記推定結果により示される感情に応じた信頼度を付与し、前記スコアとして出力する信頼度付与部とを備える、
　請求項１に記載の話者識別装置。
　前記話者識別装置は、さらに、
　前記信頼度が閾値以上の前記スコアを用いて、前記発話データの話者を識別する話者識別部をさらに備える、
　請求項７に記載の話者識別装置。
　前記話者特徴量抽出部は、学習済のＤＮＮを用いて、前記音響特徴量から前記第１話者特徴量を抽出する、
　請求項２～８のいずれか１項に記載の話者識別装置。
　識別対象の発話の音声を示す発話データの話者を識別する話者識別方法であって、
　学習済のＤＮＮを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、
　前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップとを含む、
　話者識別方法。
　識別対象の発話の音声を示す発話データの話者を識別する話者識別方法をコンピュータに実行させるプログラムであって、
　学習済のＤＮＮを用いて、前記発話データから算出された音響特徴量から、前記発話データが示す前記発話の音声に含まれる感情を推定する感情推定ステップと、
　前記感情推定ステップにおける推定結果を用いて、前記発話データから算出された前記音響特徴量から、前記発話データの話者を識別するためのスコアを出力する話者識別処理ステップと、をコンピュータに実行させる、
　プログラム。