WO2023189173A1

WO2023189173A1 - 話者識別方法、話者識別装置及び話者識別プログラム

Info

Publication number: WO2023189173A1
Application number: PCT/JP2023/007820
Authority: WO
Inventors: 美沙貴土井
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-03-29
Filing date: 2023-03-02
Publication date: 2023-10-05

Abstract

話者識別装置は、識別対象音声データを取得し、予め登録されている複数の登録音声データを取得し、識別対象音声データと複数の登録音声データそれぞれとの類似度を算出し、算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、算出した複数の類似度に基づいて、識別対象音声データが話者識別に適しているか否かを判定し、識別対象音声データが話者識別に適していると判定した場合、最も高い類似度に基づいて、選出した登録話者を識別対象音声データの識別対象話者として識別するか否かを判定し、識別結果を出力する。

Description

話者識別方法、話者識別装置及び話者識別プログラム

　本開示は、話者を識別する技術に関する。

　例えば、特許文献１には、入力音声からフレーム単位で音響特徴量を抽出し、入力音声の音声区間を検出し、雑音の種類ごとの雑音区間を検出し、雑音抑圧手法を選択し、選択した雑音抑圧手法で雑音の音響特徴量を抑圧した音響特徴量を生成し、生成した音響特徴量により音声認識を行う雑音抑圧音声認識装置が開示されている。

　しかしながら、上記従来の技術のように信号処理により入力音声の雑音を抑圧する場合、話者の個人的な特徴を歪ませてしまうおそれがあり、その結果、話者認識の精度が低下するおそれがある。そのため、上記従来の技術では、更なる改善が必要とされていた。

特開２０１６－１８０８３９号公報

　本開示は、上記の問題を解決するためになされたもので、計算量を増加させることなく、識別対象の話者が予め登録されている複数の話者のいずれであるかを識別する精度を向上させることができる技術を提供することを目的とするものである。

　本開示に係る話者識別方法は、コンピュータにおける話者識別方法であって、識別対象音声データを取得し、予め登録されている複数の登録音声データを取得し、前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、識別結果を出力する。

　本開示によれば、計算量を増加させることなく、識別対象の話者が予め登録されている複数の話者のいずれであるかを識別する精度を向上させることができる。

本開示の実施の形態１における話者識別システムの構成を示す図である。本実施の形態１における話者識別装置の話者識別処理の動作について説明するための第１のフローチャートである。本実施の形態１における話者識別装置の話者識別処理の動作について説明するための第２のフローチャートである。本開示の実施の形態２における話者識別システムの構成を示す図である。本実施の形態２における話者識別装置の話者識別処理の動作について説明するための第１のフローチャートである。本実施の形態２における話者識別装置の話者識別処理の動作について説明するための第２のフローチャートである。本開示の実施の形態３における話者識別システムの構成を示す図である。本実施の形態３における話者識別装置の話者識別処理の動作について説明するための第１のフローチャートである。本実施の形態３における話者識別装置の話者識別処理の動作について説明するための第２のフローチャートである。

　（本開示の基礎となった知見）
　従来、識別対象話者の入力音声データを取得し、取得した入力音声データと予め登録されている複数の登録音声データとに基づいて、識別対象話者が予め登録されている複数の話者のいずれであるかを識別する話者識別が知られている。従来の話者識別では、識別対象話者の入力音声データの特徴量と、複数の登録話者の登録音声データの特徴量との類似度スコアがそれぞれ算出される。そして、算出された複数の類似度スコアのうち最も高い類似度スコアに対応する登録音声データの登録話者が識別対象話者として識別される。

　しかしながら、従来の話者識別では、識別対象話者の入力音声データに雑音が含まれている場合、又は入力音声データに識別対象話者の音声が含まれていない場合であっても、話者識別結果が出力されるが、雑音が含まれる入力音声データ又は識別対象話者の音声が含まれていない入力音声データを用いた話者識別の精度は低くなる。

　これに対し、上記の特許文献１の雑音抑圧音声認識装置によれば、入力音声の音声区間を検出し、音声区間の雑音を抑圧して音声認識を行っている。

　しかしながら、上記従来の技術のように信号処理により入力音声の雑音を抑圧する場合、話者の個人的な特徴を歪ませてしまうおそれがあり、その結果、話者認識の精度が低下するおそれがある。また、入力音声の雑音を抑圧するための信号処理は計算量が多くなる。

　以上の課題を解決するために、下記の技術が開示される。

　（１）本開示の一態様に係る話者識別方法は、コンピュータにおける話者識別方法であって、識別対象音声データを取得し、予め登録されている複数の登録音声データを取得し、前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、識別結果を出力する。

　この構成によれば、識別対象音声データと複数の登録音声データそれぞれとの類似度が算出され、算出された複数の類似度に基づいて、識別対象音声データが話者識別に適しているか否かが判定される。そして、識別対象音声データが話者識別に適していると判定された場合、最も高い類似度に基づいて、選出された登録話者を識別対象音声データの識別対象話者として識別するか否かが判定される。

　複数の類似度を算出する処理の計算量は、識別対象音声データに含まれる雑音を抑圧する信号処理の計算量よりも少ない。また、算出された複数の類似度に基づいて、識別対象音声データが話者識別に適しているか否かが判定されるので、話者の個人的な特徴を歪ませおそれのある雑音を抑圧する信号処理が識別対象音声データに対して行われない。したがって、計算量を増加させることなく、識別対象の話者が予め登録されている複数の話者のいずれであるかを識別する精度を向上させることができる。

　（２）上記（１）記載の話者識別方法において、前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の類似度のうちの最も高い類似度が第１閾値より高いか否かを判定し、最も高い前記類似度が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定してもよい。

　この構成によれば、算出された複数の類似度のうちの最も高い類似度が第１閾値と比較されることにより、識別対象音声データが話者識別に適しているか否かを容易に判定することができる。

　（３）上記（１）記載の話者識別方法において、前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の類似度の分散値を算出し、算出した前記分散値が第１閾値より高いか否かを判定し、前記分散値が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定してもよい。

　識別対象音声データが話者識別に適していない場合、算出された複数の類似度の分散値は低くなる。そのため、算出された複数の類似度の分散値が第１閾値と比較されることにより、識別対象音声データが話者識別に適しているか否かを容易に判定することができる。

　（４）上記（２）又は（３）記載の話者識別方法において、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かの判定において、算出した前記複数の類似度のうちの最も高い類似度が、前記第１閾値より高い第２閾値より高いか否かを判定し、最も高い前記類似度が前記第２閾値より高いと判定した場合、選出した前記登録話者を前記識別対象音声データの前記識別対象話者として識別してもよい。

　この構成によれば、算出された複数の類似度のうちの最も高い類似度が、第１閾値より高い第２閾値と比較されることにより、選出された登録話者が識別対象音声データの識別対象話者であるか否かを容易に識別することができる。

　（５）上記（１）記載の話者識別方法において、前記複数の登録音声データは、識別対象の複数の登録話者が発話した音声を予め登録した複数の第１登録音声データと、前記識別対象の前記複数の登録話者以外の複数の他の登録話者が発話した音声を予め登録した複数の第２登録音声データとを含み、前記類似度の算出において、前記識別対象音声データと前記複数の第１登録音声データそれぞれとの第１類似度を算出するとともに、前記識別対象音声データと前記複数の第２登録音声データそれぞれとの第２類似度を算出し、前記登録話者の選出において、算出した複数の第１類似度のうちの最も高い第１類似度に対応する第１登録音声データの登録話者を選出し、前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の第１類似度及び前記複数の第２類似度のうちの最も高い第１類似度又は第２類似度が第１閾値より高いか否かを判定し、最も高い前記第１類似度又は前記第２類似度が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定してもよい。

　識別対象音声データが話者識別可能である場合、複数の登録音声データの数が増えることにより、識別対象音声データが複数の登録音声データのいずれかと類似する可能性が高くなる。そこで、識別対象の複数の登録話者が発話した音声を予め登録した複数の第１登録音声データから算出された複数の第１類似度だけでなく、識別対象の複数の登録話者以外の複数の他の登録話者が発話した音声を予め登録した複数の第２登録音声データ算出された複数の第２類似度も用いることにより、識別対象音声データが話者識別に適しているか否かを確実に判定することができる。

　（６）上記（５）記載の話者識別方法において、前記複数の第２登録音声データは、雑音を含まず、前記他の登録話者が発話した前記音声のみを含んでもよい。

　この構成によれば、雑音を含まないクリーンな音声のみを含む複数の第２登録音声データが用いられることにより、識別対象音声データと複数の第２登録音声データそれぞれとの第２類似度を安定して算出することができる。

　（７）上記（５）又は（６）記載の話者識別方法において、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かの判定において、算出した前記複数の第１類似度のうちの最も高い第１類似度が、前記第１閾値より高い第２閾値より高いか否かを判定し、最も高い前記第１類似度が前記第２閾値より高いと判定した場合、選出した前記登録話者を前記識別対象音声データの前記識別対象話者として識別してもよい。

　この構成によれば、算出された複数の第１類似度のうちの最も高い第１類似度が、第１閾値より高い第２閾値と比較されることにより、選出された登録話者が識別対象音声データの識別対象話者であるか否かを容易に識別することができる。

　（８）上記（１）～（７）のいずれか１つに記載の話者識別方法において、さらに、前記識別対象音声データが前記話者識別に適していないと判定した場合、前記識別対象音声データの再入力を前記識別対象話者に促すエラーメッセージを出力してもよい。

　この構成によれば、識別対象音声データが話者識別に適していない場合、識別対象音声データの再入力を識別対象話者に促すことができ、再入力された識別対象音声データを用いて話者識別を行うことができる。

　（９）上記（１）～（７）のいずれか１つに記載の話者識別方法において、前記識別対象音声データの取得において、前記識別対象話者が発話した音声データから所定の区間を切り出した前記識別対象音声データを取得し、さらに、前記識別対象音声データが前記話者識別に適していないと判定した場合、前記音声データから前記所定の区間とは異なる区間を切り出した別の識別対象音声データを取得してもよい。

　例えば、最初に切り出した区間の識別対象音声データに識別対象話者の音声が含まれていなかった場合、識別対象音声データが話者識別に適していないと判定される。その場合、音声データから最初の区間とは異なる区間を切り出した別の識別対象音声データが取得される。したがって、識別対象音声データが話者識別に適していないと判定された場合に、別の識別対象音声データを用いて話者識別を行うことができる。

　また、本開示は、以上のような特徴的な処理を実行する話者識別方法として実現することができるだけでなく、話者識別方法が実行する特徴的な方法に対応する特徴的な構成を備える話者識別装置などとして実現することもできる。また、このような話者識別方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の話者識別方法と同様の効果を奏することができる。

　（１０）本開示の他の態様に係る話者識別装置は、識別対象音声データを取得する識別対象音声データ取得部と、予め登録されている複数の登録音声データを取得する登録音声データ取得部と、前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出する算出部と、算出された複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出する選出部と、算出された前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定する類似度判定部と、前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定する話者判定部と、識別結果を出力する出力部と、を備える。

　（１１）本開示の他の態様に係る話者識別プログラムは、識別対象音声データを取得し、予め登録されている複数の登録音声データを取得し、前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、識別結果を出力するようにコンピュータを機能させる。

　（１２）本開示の他の態様に係る非一時的なコンピュータ読み取り可能な記録媒体は、話者識別プログラムを記録しており、前記話者識別プログラムは、識別対象音声データを取得し、予め登録されている複数の登録音声データを取得し、前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、識別結果を出力するようにコンピュータを機能させる。

　以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

　（実施の形態１）
　図１は、本開示の実施の形態１における話者識別システムの構成を示す図である。

　図１に示す話者識別システムは、マイクロホン１及び話者識別装置２を備える。なお、話者識別装置２は、マイクロホン１を備えていなくてもよいし、備えてもよい。

　マイクロホン１は、話者が発話した音声を収音し、音声データに変換し、話者識別装置２へ出力する。マイクロホン１は、話者を識別する際に、話者が発話した識別対象音声データを話者識別装置２へ出力する。また、マイクロホン１は、音声データを予め登録する際に、話者が発話した登録対象音声データを話者識別装置２へ出力してもよい。マイクロホン１は、識別対象話者がいる空間内に固定されていてもよいし、移動可能であってもよい。

　話者識別装置２は、識別対象音声データ取得部２１、第１特徴量算出部２２、登録音声データ記憶部２３、登録音声データ取得部２４、第２特徴量算出部２５、類似度スコア算出部２６、話者選出部２７、類似度スコア判定部２８、話者判定部２９、識別結果出力部３０及びエラー処理部３１を備える。

　なお、識別対象音声データ取得部２１、第１特徴量算出部２２、登録音声データ取得部２４、第２特徴量算出部２５、類似度スコア算出部２６、話者選出部２７、類似度スコア判定部２８、話者判定部２９、識別結果出力部３０及びエラー処理部３１は、プロセッサにより実現される。プロセッサは、例えば、中央演算処理装置（ＣＰＵ）などから構成される。

　登録音声データ記憶部２３は、メモリにより実現される。メモリは、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）又はＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などから構成される。

　なお、話者識別装置２は、例えば、コンピュータ、スマートフォン、タブレット型コンピュータ又はサーバであってもよい。

　識別対象音声データ取得部２１は、マイクロホン１から出力された識別対象音声データを取得する。

　なお、話者識別装置２がサーバである場合、マイクロホン１は、識別対象話者が使用するスマートフォンなどの端末に組み込まれていてもよい。この場合、端末は、識別対象音声データを話者識別装置２に送信してもよい。登録音声データ取得部２４は、例えば通信部であってもよく、端末によって送信された識別対象音声データを受信してもよい。

　第１特徴量算出部２２は、識別対象音声データ取得部２１によって取得された識別対象音声データの特徴量を算出する。特徴量は、例えばｉ－ｖｅｃｔｏｒである。ｉ－ｖｅｃｔｏｒは、ＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）スーパーベクトルに因子分析を用いることで音声データから算出される低次元ベクトルの特徴量である。なお、ｉ－ｖｅｃｔｏｒの算出方法については従来技術であるため、詳細な説明は省略する。また、特徴量は、ｉ－ｖｅｃｔｏｒに限定されず、例えばｘ－ｖｅｃｔｏｒなどの他の特徴量であってもよい。

　登録音声データ記憶部２３は、話者に関する情報が対応付けられた複数の登録音声データを予め記憶する。話者に関する情報は、例えば、話者を識別するための話者ＩＤ又は話者の名前である。

　なお、話者識別装置２は、マイクロホン１から出力された登録対象音声データを登録音声データとして登録音声データ記憶部２３に登録する登録部と、登録音声データの話者に関する情報の入力を受け付ける入力受付部とをさらに備えてもよい。そして、登録部は、入力受付部によって受け付けた話者に関する情報に対応付けて登録音声データを登録音声データ記憶部２３に登録してもよい。

　また、識別対象音声データ及び登録音声データの発話内容は、何であってもよい。また、識別対象音声データ及び登録音声データは、特定の単語又は文言であってもよい。

　登録音声データ取得部２４は、登録音声データ記憶部２３に予め登録されている複数の登録音声データを取得する。登録音声データ取得部２４は、予め登録されている複数の登録音声データを登録音声データ記憶部２３から読み出す。

　第２特徴量算出部２５は、登録音声データ取得部２４によって取得された複数の登録音声データの特徴量を算出する。特徴量は、例えばｉ－ｖｅｃｔｏｒである。

　類似度スコア算出部２６は、識別対象音声データの特徴量と複数の登録音声データの特徴量それぞれとの類似度スコアを算出する。類似度スコアは、識別対象音声データの特徴量と登録音声データの特徴量とがどの程度類似しているかを数値化したものである。類似度スコアは、識別対象音声データの特徴量と登録音声データの特徴量との類似度を示す。

　類似度スコア算出部２６は、確率的線形判別分析（Ｐｒｏｂａｂｉｌｉｓｔｉｃ　Ｌｉｎｅａｒ　Ｄｉｓｃｒｉｍｉｎａｎｔ　Ａｎａｌｙｓｉｓ：ＰＬＤＡ）を用いて類似度スコアを算出する。類似度スコアは、発話の特徴量を確率的なモデルから生成されたものとみなして、２つの発話が、同じ生成モデル（同じ話者）から生成されたものかどうかを対数尤度比で表したものである。類似度スコアは、下記の式に基づいて算出される。

　類似度スコア＝ｌｏｇ（同じ話者発話である尤度／異なる話者発話である尤度）
　類似度スコア算出部２６は、４００次元のｉ－ｖｅｃｔｏｒ特徴量から話者の識別に有効な特徴量を自動的に選択し、対数尤度比を類似度スコアとして算出する。識別対象音声データの話者と登録音声データの話者とが同じである場合に算出される類似度スコアは、識別対象音声データの話者と登録音声データの話者とが異なる場合に算出される類似度スコアよりも高くなる。また、所定の音量より大きい雑音を含む話者識別に適していない識別対象音声データから算出される類似度スコアは、所定の音量より小さい雑音を含む話者識別に適している識別対象音声データから算出される類似度スコアよりも低くなる。

　なお、ＰＬＤＡを用いた類似度スコアの算出は既知であるので、詳細な説明は省略する。また、本実施の形態１において、類似度スコア算出部２６は、識別対象音声データと複数の登録音声データそれぞれとの類似度スコアを算出してもよい。

　話者選出部２７は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアに対応する登録音声データの登録話者を選出する。

　類似度スコア判定部２８は、類似度スコア算出部２６によって算出された複数の類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かを判定する。ここで、類似度スコア判定部２８は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアが第１閾値より高いか否かを判定する。類似度スコア判定部２８は、最も高い類似度スコアが第１閾値より高いと判定した場合、識別対象音声データが話者識別に適していると判定する。一方、類似度スコア判定部２８は、最も高い類似度スコアが第１閾値以下であると判定した場合、識別対象音声データが話者識別に適していないと判定する。

　話者判定部２９は、類似度スコア判定部２８によって識別対象音声データが話者識別に適していると判定された場合、最も高い類似度スコアに基づいて、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別するか否かを判定する。ここで、話者判定部２９は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアが、第１閾値より高い第２閾値より高いか否かを判定する。話者判定部２９は、最も高い類似度スコアが第２閾値より高いと判定した場合、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別すると判定する。一方、話者判定部２９は、最も高い類似度スコアが第２閾値以下であると判定した場合、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別しないと判定する。

　なお、本実施の形態１において、話者判定部２９は、類似度スコア判定部２８によって識別対象音声データが話者識別に適していると判定された場合、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別してもよい。この場合、話者判定部２９は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアが第２閾値より高いか否かを判定せずに、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別してもよい。

　識別結果出力部３０は、話者判定部２９による識別結果を出力する。識別結果出力部３０は、選出された登録話者が識別対象音声データの識別対象話者として識別された場合、選出された登録話者の名前又は話者ＩＤを含む識別結果を出力する。また、識別結果は、類似度スコアを含んでもよい。また、識別結果出力部３０は、選出された登録話者が識別対象音声データの識別対象話者として識別されなかった場合、識別対象音声データの識別対象話者が予め登録されている複数の登録話者のいずれにも識別されなかったことを示す識別結果を出力する。

　識別結果出力部３０は、例えばディスプレイ又はスピーカであり、選出された登録話者が識別対象音声データの識別対象話者として識別された場合、識別対象音声データの識別対象話者が、選出された登録話者であることを示すメッセージをディスプレイ又はスピーカから出力する。一方、識別結果出力部３０は、選出された登録話者が識別対象音声データの識別対象話者として識別されなかった場合、識別対象音声データの識別対象話者が予め登録されている複数の登録話者のいずれでもないことを示すメッセージをディスプレイ又はスピーカから出力する。

　なお、識別結果出力部３０は、話者判定部２９による識別結果を、話者識別装置２以外の他の装置へ出力してもよい。話者識別装置２がサーバである場合、識別結果出力部３０は、例えば通信部を含んでもよく、識別対象話者が使用するスマートフォンなどの端末に識別結果を送信してもよい。端末は、ディスプレイ又はスピーカを備えてもよい。端末のディスプレイ又はスピーカは、受信した識別結果を出力してもよい。

　エラー処理部３１は、類似度スコア判定部２８によって識別対象音声データが話者識別に適していないと判定された場合、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを出力する。エラー処理部３１は、例えば、「マイクロホンに近づくか、静かな場所で発話してください。」というエラーメッセージを出力する。

　エラー処理部３１は、例えばディスプレイ又はスピーカであり、類似度スコア判定部２８によって識別対象音声データが話者識別に適していないと判定された場合、識別対象音声データの再入力を識別対象話者に促すエラーメッセージをディスプレイ又はスピーカから出力する。

　なお、エラー処理部３１は、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを、話者識別装置２以外の他の装置へ出力してもよい。話者識別装置２がサーバである場合、エラー処理部３１は、例えば通信部を含んでもよく、識別対象話者が使用するスマートフォンなどの端末にエラーメッセージを送信してもよい。端末は、ディスプレイ又はスピーカを備えてもよい。端末のディスプレイ又はスピーカは、受信したエラーメッセージを出力してもよい。

　続いて、本開示の実施の形態１における話者識別装置２の話者識別処理の動作について説明する。

　図２は、本実施の形態１における話者識別装置２の話者識別処理の動作について説明するための第１のフローチャートであり、図３は、本実施の形態１における話者識別装置２の話者識別処理の動作について説明するための第２のフローチャートである。

　まず、ステップＳ１において、識別対象音声データ取得部２１は、マイクロホン１から出力された識別対象音声データを取得する。識別対象話者は、マイクロホン１に向かって発話する。マイクロホン１は、識別対象話者によって発話された音声を収集し、識別対象音声データを出力する。

　次に、ステップＳ２において、第１特徴量算出部２２は、識別対象音声データ取得部２１によって取得された識別対象音声データの特徴量を算出する。

　次に、ステップＳ３において、登録音声データ取得部２４は、登録音声データを登録音声データ記憶部２３から取得する。このとき、登録音声データ取得部２４は、登録音声データ記憶部２３に登録されている複数の登録音声データの中から、１の登録音声データを取得する。

　次に、ステップＳ４において、第２特徴量算出部２５は、登録音声データ取得部２４によって取得された登録音声データの特徴量を算出する。

　次に、ステップＳ５において、類似度スコア算出部２６は、識別対象音声データの特徴量と登録音声データの特徴量との類似度スコアを算出する。

　次に、ステップＳ６において、類似度スコア算出部２６は、識別対象音声データの特徴量と、登録音声データ記憶部２３に記憶されている全ての登録音声データの特徴量との類似度スコアが算出されたか否かを判定する。ここで、識別対象音声データの特徴量と全ての登録音声データの特徴量との類似度スコアが算出されていないと判定された場合（ステップＳ６でＮＯ）、ステップＳ３に処理が戻る。そして、登録音声データ取得部２４は、登録音声データ記憶部２３に記憶されている複数の登録音声データの中から、類似度スコアが算出されていない登録音声データを取得する。

　一方、識別対象音声データの特徴量と全ての登録音声データの特徴量との類似度スコアが算出されたと判定された場合（ステップＳ６でＹＥＳ）、ステップＳ７において、話者選出部２７は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアに対応する登録音声データの登録話者を選出する。

　次に、ステップＳ８において、類似度スコア判定部２８は、最も高い類似度スコアが第１閾値より高いか否かを判定する。

　ここで、最も高い類似度スコアが第１閾値以下であると判定された場合（ステップＳ８でＮＯ）、ステップＳ９において、エラー処理部３１は、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを出力する。

　一方、最も高い類似度スコアが第１閾値より高いと判定された場合（ステップＳ８でＹＥＳ）、ステップＳ１０において、話者判定部２９は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアが、第１閾値より高い第２閾値より高いか否かを判定する。

　ここで、最も高い類似度スコアが第２閾値より高いと判定された場合（ステップＳ１０でＹＥＳ）、ステップＳ１１において、話者判定部２９は、話者選出部２７によって選出された登録話者を識別対象音声データの識別対象話者として識別する。

　一方、最も高い類似度スコアが第２閾値以下であると判定された場合（ステップＳ１０でＮＯ）、ステップＳ１２において、話者判定部２９は、話者選出部２７によって選出された登録話者が識別対象音声データの識別対象話者ではないと判定する。

　次に、ステップＳ１３において、識別結果出力部３０は、話者判定部２９による識別結果を出力する。識別結果出力部３０は、選出された登録話者が識別対象音声データの識別対象話者として識別された場合、識別対象音声データの識別対象話者が、選出された登録話者であることを示すメッセージを出力する。一方、識別結果出力部３０は、選出された登録話者が識別対象音声データの識別対象話者ではないと判定された場合、識別対象音声データの識別対象話者が予め登録されている複数の登録話者のいずれでもないことを示すメッセージを出力する。

　このように、識別対象音声データと複数の登録音声データそれぞれとの類似度スコアが算出され、算出された複数の類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かが判定される。そして、識別対象音声データが話者識別に適していると判定された場合、最も高い類似度スコアに基づいて、選出された登録話者を識別対象音声データの識別対象話者として識別するか否かが判定される。

　複数の類似度スコアを算出する処理の計算量は、識別対象音声データに含まれる雑音を抑圧する信号処理の計算量よりも少ない。また、算出された複数の類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かが判定されるので、話者の個人的な特徴を歪ませおそれのある雑音を抑圧する信号処理が識別対象音声データに対して行われない。したがって、計算量を増加させることなく、識別対象の話者が予め登録されている複数の話者のいずれであるかを識別する精度を向上させることができる。

　なお、本実施の形態１において、エラー処理部３１は、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを出力しているが、本開示は特にこれに限定されない。識別対象音声データ取得部２１は、識別対象話者が発話した音声データから所定の区間を切り出した識別対象音声データを取得してもよい。このとき、所定の区間を切り出した識別対象音声データには、識別対象話者の音声が含まれていない可能性がある。この場合、類似度スコア判定部２８によって識別対象音声データが話者識別に適していないと判定される。そこで、エラー処理部３１は、類似度スコア判定部２８によって識別対象音声データが話者識別に適していないと判定された場合、音声データから所定の区間とは異なる区間を切り出した別の識別対象音声データを取得してもよい。そして、ステップＳ２に処理が戻り、第１特徴量算出部２２は、エラー処理部３１によって取得された別の識別対象音声データの特徴量を算出してもよい。その後、ステップＳ３以降の処理が行われてもよい。

　このように、例えば、最初に切り出した区間の識別対象音声データに識別対象話者の音声が含まれていなかった場合、識別対象音声データが話者識別に適していないと判定される。その場合、音声データから最初の区間とは異なる区間を切り出した別の識別対象音声データが取得される。したがって、識別対象音声データが話者識別に適していないと判定された場合に、別の識別対象音声データを用いて話者識別を行うことができる。

　（実施の形態２）
　上記の実施の形態１では、算出された複数の類似度スコアのうちの最も高い類似度スコアが第１閾値より高いか否かが判定され、最も高い類似度スコアが第１閾値より高いと判定された場合、識別対象音声データが話者識別に適していると判定される。これに対し、実施の形態２では、算出された複数の類似度スコアの分散値が算出され、算出された分散値が第１閾値より高いか否かが判定され、分散値が第１閾値より高いと判定された場合、識別対象音声データが話者識別に適していると判定される。

　図４は、本開示の実施の形態２における話者識別システムの構成を示す図である。

　図４に示す話者識別システムは、マイクロホン１及び話者識別装置２Ａを備える。なお、話者識別装置２Ａは、マイクロホン１を備えていなくてもよいし、備えてもよい。

　なお、本実施の形態２において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　話者識別装置２Ａは、識別対象音声データ取得部２１、第１特徴量算出部２２、登録音声データ記憶部２３、登録音声データ取得部２４、第２特徴量算出部２５、類似度スコア算出部２６、話者選出部２７、類似度スコア判定部２８Ａ、話者判定部２９、識別結果出力部３０及びエラー処理部３１を備える。

　類似度スコア判定部２８Ａは、類似度スコア算出部２６によって算出された複数の類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かを判定する。ここで、類似度スコア判定部２８Ａは、類似度スコア算出部２６によって算出された複数の類似度スコアの分散値を算出する。類似度スコア判定部２８Ａは、算出した分散値が第１閾値より高いか否かを判定する。類似度スコア判定部２８Ａは、分散値が第１閾値より高いと判定した場合、識別対象音声データが話者識別に適していると判定する。一方、類似度スコア判定部２８Ａは、分散値が第１閾値以下であると判定した場合、識別対象音声データが話者識別に適していないと判定する。

　識別対象音声データに雑音が含まれており、当該識別対象音声データが話者識別に適していない場合、識別対象音声データと複数の登録音声データとの類似度スコアは、いずれも低い値となる。そのため、複数の類似度スコアの分散値が低ければ、識別対象音声データが話者識別に適していないと判定することが可能となる。

　続いて、本開示の実施の形態２における話者識別装置２Ａの話者識別処理の動作について説明する。

　図５は、本実施の形態２における話者識別装置２Ａの話者識別処理の動作について説明するための第１のフローチャートであり、図６は、本実施の形態２における話者識別装置２Ａの話者識別処理の動作について説明するための第２のフローチャートである。

　なお、ステップＳ２１～ステップＳ２７の処理は、図２のステップＳ１～ステップＳ７の処理と同じであるので、説明を省略する。

　次に、ステップＳ２８において、類似度スコア判定部２８Ａは、類似度スコア算出部２６によって算出された複数の類似度スコアの分散値を算出する。

　次に、ステップＳ２９において、類似度スコア判定部２８Ａは、算出した分散値が第１閾値より高いか否かを判定する。

　ここで、分散値が第１閾値以下であると判定された場合（ステップＳ２９でＮＯ）、ステップＳ３０において、エラー処理部３１は、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを出力する。

　一方、分散値が第１閾値より高いと判定された場合（ステップＳ２９でＹＥＳ）、ステップＳ３１において、話者判定部２９は、類似度スコア算出部２６によって算出された複数の類似度スコアのうちの最も高い類似度スコアが、第１閾値より高い第２閾値より高いか否かを判定する。

　なお、ステップＳ３１～ステップＳ３４の処理は、図３のステップＳ９～ステップＳ１２の処理と同じであるので、説明を省略する。

　識別対象音声データが話者識別に適していない場合、算出された複数の類似度スコアの分散値は低くなる。そのため、算出された複数の類似度スコアの分散値が第１閾値と比較されることにより、識別対象音声データが話者識別に適しているか否かを容易に判定することができる。

　なお、実施の形態１及び実施の形態２において、類似度スコア算出部２６は、識別対象音声データの特徴量と複数の登録音声データの特徴量それぞれとの類似度スコアを算出しているが、本開示は特にこれに限定されない。類似度スコア算出部２６は、識別対象音声データと複数の登録音声データそれぞれとの類似度スコアを算出してもよい。この場合、識別対象音声データの特徴量と複数の登録音声データの特徴量との算出が不要となる。

　（実施の形態３）
　上記の実施の形態１では、識別対象音声データと、識別対象の複数の登録話者が発話した音声を予め登録した複数の第１登録音声データそれぞれとの第１類似度スコアが算出され、算出された複数の第１類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かが判定される。これに対し、実施の形態３では、さらに、識別対象音声データと、識別対象の複数の登録話者以外の複数の他の登録話者が発話した音声を予め登録した複数の第２登録音声データそれぞれとの第２類似度スコアが算出され、算出された複数の第１類似度スコア及び複数の第２類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かが判定される。

　図７は、本開示の実施の形態３における話者識別システムの構成を示す図である。

　図７に示す話者識別システムは、マイクロホン１及び話者識別装置２Ｂを備える。なお、話者識別装置２Ｂは、マイクロホン１を備えていなくてもよいし、備えてもよい。

　なお、本実施の形態３において、実施の形態１と同じ構成については同じ符号を付し、説明を省略する。

　話者識別装置２Ｂは、識別対象音声データ取得部２１、第１特徴量算出部２２、第１登録音声データ記憶部２３Ｂ、第１登録音声データ取得部２４Ｂ、第２特徴量算出部２５Ｂ、類似度スコア算出部２６Ｂ、話者選出部２７Ｂ、類似度スコア判定部２８Ｂ、話者判定部２９Ｂ、識別結果出力部３０、エラー処理部３１、第２登録音声データ記憶部３２、第２登録音声データ取得部３３及び第３特徴量算出部３４を備える。

　なお、識別対象音声データ取得部２１、第１特徴量算出部２２、第１登録音声データ取得部２４Ｂ、第２特徴量算出部２５Ｂ、類似度スコア算出部２６Ｂ、話者選出部２７Ｂ、類似度スコア判定部２８Ｂ、話者判定部２９Ｂ、識別結果出力部３０、エラー処理部３１、第２登録音声データ取得部３３及び第３特徴量算出部３４は、プロセッサにより実現される。第１登録音声データ記憶部２３Ｂ及び第２登録音声データ記憶部３２は、メモリにより実現される。

　第１登録音声データ記憶部２３Ｂは、話者に関する情報が対応付けられた複数の第１登録音声データを予め記憶する。複数の第１登録音声データは、識別対象の複数の登録話者が発話した音声を示す。複数の第１登録音声データは、実施の形態１における複数の登録音声データと同じである。

　第１登録音声データ取得部２４Ｂは、第１登録音声データ記憶部２３Ｂに予め登録されている複数の第１登録音声データを取得する。

　第２特徴量算出部２５Ｂは、第１登録音声データ取得部２４Ｂによって取得された複数の第１登録音声データの特徴量を算出する。特徴量は、例えばｉ－ｖｅｃｔｏｒである。

　第２登録音声データ記憶部３２は、複数の第２登録音声データを予め記憶する。複数の第２登録音声データは、識別対象の複数の登録話者以外の複数の他の登録話者が発話した音声を示す。複数の第２登録音声データは、雑音を含まず、音声のみを含む。

　第２登録音声データ取得部３３は、第２登録音声データ記憶部３２に予め登録されている複数の第２登録音声データを取得する。

　第３特徴量算出部３４は、第２登録音声データ取得部３３によって取得された複数の第２登録音声データの特徴量を算出する。特徴量は、例えばｉ－ｖｅｃｔｏｒである。

　類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と複数の第１登録音声データの特徴量それぞれとの第１類似度スコアを算出するとともに、識別対象音声データの特徴量と複数の第２登録音声データの特徴量それぞれとの第２類似度スコアを算出する。

　話者選出部２７Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコアのうちの最も高い第１類似度スコアに対応する第１登録音声データの登録話者を選出する。

　類似度スコア判定部２８Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコア及び複数の第２類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かを判定する。ここで、類似度スコア判定部２８Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコア及び複数の第２類似度スコアのうちの最も高い第１類似度スコア又は第２類似度スコアが第１閾値より高いか否かを判定する。類似度スコア判定部２８Ｂは、最も高い第１類似度スコア又は第２類似度スコアが第１閾値より高いと判定した場合、識別対象音声データが話者識別に適していると判定する。一方、類似度スコア判定部２８Ｂは、最も高い第１類似度スコア又は第２類似度スコアが第１閾値以下であると判定した場合、識別対象音声データが話者識別に適していないと判定する。

　識別対象音声データが話者識別可能である場合、当該識別対象音声データは、多数の登録音声データのうちのいずれかの登録音声データと類似する可能性が高い。そこで、本実施の形態３における第２登録音声データ記憶部３２は、雑音を含まず、識別対象の複数の登録話者以外の複数の他の登録話者が発話したクリーンな音声を含む複数の第２登録音声データを予め記憶する。複数の他の登録話者の人数は、例えば、１００人であり、複数の第２登録音声データの数は、例えば、１００個である。複数の第２登録音声データの中に、識別対象音声データと類似する第２登録音声データがあれば、識別対象音声データが話者識別可能であると判定することができる。

　話者判定部２９Ｂは、類似度スコア判定部２８Ｂによって識別対象音声データが話者識別に適していると判定された場合、最も高い第１類似度スコアに基づいて、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別するか否かを判定する。ここで、話者判定部２９Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコアのうちの最も高い第１類似度スコアが、第１閾値より高い第２閾値より高いか否かを判定する。話者判定部２９Ｂは、最も高い第１類似度スコアが第２閾値より高いと判定した場合、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別すると判定する。一方、話者判定部２９Ｂは、最も高い第１類似度スコアが第２閾値以下であると判定した場合、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別しないと判定する。

　なお、本実施の形態３において、話者判定部２９Ｂは、類似度スコア判定部２８Ｂによって識別対象音声データが話者識別に適していると判定された場合、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別してもよい。この場合、話者判定部２９は、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコアのうちの最も高い第１類似度スコアが第２閾値より高いか否かを判定せずに、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別してもよい。

　続いて、本開示の実施の形態３における話者識別装置２Ｂの話者識別処理の動作について説明する。

　図８は、本実施の形態３における話者識別装置２Ｂの話者識別処理の動作について説明するための第１のフローチャートであり、図９は、本実施の形態３における話者識別装置２Ｂの話者識別処理の動作について説明するための第２のフローチャートである。

　なお、ステップＳ４１及びステップＳ４２の処理は、図２のステップＳ１及びステップＳ２の処理と同じであるので、説明を省略する。

　次に、ステップＳ４３において、第１登録音声データ取得部２４Ｂは、第１登録音声データを第１登録音声データ記憶部２３Ｂから取得する。このとき、第１登録音声データ取得部２４Ｂは、第１登録音声データ記憶部２３Ｂに登録されている複数の第１登録音声データの中から、１の第１登録音声データを取得する。

　次に、ステップＳ４４において、第２特徴量算出部２５Ｂは、第１登録音声データ取得部２４Ｂによって取得された第１登録音声データの特徴量を算出する。

　次に、ステップＳ４５において、類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と第１登録音声データの特徴量との第１類似度スコアを算出する。

　次に、ステップＳ４６において、類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と、第１登録音声データ記憶部２３Ｂに記憶されている全ての第１登録音声データの特徴量との第１類似度スコアが算出されたか否かを判定する。ここで、識別対象音声データの特徴量と全ての第１登録音声データの特徴量との第１類似度スコアが算出されていないと判定された場合（ステップＳ４６でＮＯ）、ステップＳ４３に処理が戻る。そして、第１登録音声データ取得部２４Ｂは、第１登録音声データ記憶部２３Ｂに記憶されている複数の第１登録音声データの中から、第１類似度スコアが算出されていない第１登録音声データを取得する。

　一方、識別対象音声データの特徴量と全ての第１登録音声データの特徴量との第１類似度スコアが算出されたと判定された場合（ステップＳ４６でＹＥＳ）、ステップＳ４７において、第２登録音声データ取得部３３は、第２登録音声データを第２登録音声データ記憶部３２から取得する。このとき、第２登録音声データ取得部３３は、第２登録音声データ記憶部３２に登録されている複数の第２登録音声データの中から、１の第２登録音声データを取得する。

　次に、ステップＳ４８において、第３特徴量算出部３４は、第２登録音声データ取得部３３によって取得された第２登録音声データの特徴量を算出する。

　次に、ステップＳ４９において、類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と第２登録音声データの特徴量との第２類似度スコアを算出する。

　次に、ステップＳ５０において、類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と、第２登録音声データ記憶部３２に記憶されている全ての第２登録音声データの特徴量との第２類似度スコアが算出されたか否かを判定する。ここで、識別対象音声データの特徴量と全ての第２登録音声データの特徴量との第２類似度スコアが算出されていないと判定された場合（ステップＳ５０でＮＯ）、ステップＳ４７に処理が戻る。そして、第２登録音声データ取得部３３は、第２登録音声データ記憶部３２に記憶されている複数の第２登録音声データの中から、第２類似度スコアが算出されていない第２登録音声データを取得する。

　一方、識別対象音声データの特徴量と全ての第２登録音声データの特徴量との第２類似度スコアが算出されたと判定された場合（ステップＳ５０でＹＥＳ）、ステップＳ５１において、話者選出部２７Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコアのうちの最も高い第１類似度スコアに対応する第１登録音声データの登録話者を選出する。

　次に、ステップＳ５２において、類似度スコア判定部２８Ｂは、最も高い第１類似度スコア又は第２類似度スコアが第１閾値より高いか否かを判定する。

　ここで、最も高い第１類似度スコア又は第２類似度スコアが第１閾値以下であると判定された場合（ステップＳ５２でＮＯ）、ステップＳ５３において、エラー処理部３１は、識別対象音声データの再入力を識別対象話者に促すエラーメッセージを出力する。

　一方、最も高い第１類似度スコア又は第２類似度スコアが第１閾値より高いと判定された場合（ステップＳ５２でＹＥＳ）、ステップＳ５４において、話者判定部２９Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコアのうちの最も高い第１類似度スコアが、第１閾値より高い第２閾値より高いか否かを判定する。

　ここで、最も高い第１類似度スコアが第２閾値より高いと判定された場合（ステップＳ５４でＹＥＳ）、ステップＳ５５において、話者判定部２９Ｂは、話者選出部２７Ｂによって選出された登録話者を識別対象音声データの識別対象話者として識別する。

　一方、最も高い第１類似度スコアが第２閾値以下であると判定された場合（ステップＳ５４でＮＯ）、ステップＳ５６において、話者判定部２９Ｂは、話者選出部２７Ｂによって選出された登録話者が識別対象音声データの識別対象話者ではないと判定する。

　なお、ステップＳ５７の処理は、図３のステップＳ１２の処理と同じであるので、説明を省略する。

　識別対象音声データが話者識別可能である場合、複数の登録音声データの数が増えることにより、識別対象音声データが複数の登録音声データのいずれかと類似する可能性が高くなる。そこで、識別対象の複数の登録話者が発話した音声を予め登録した複数の第１登録音声データから算出された複数の第１類似度スコアだけでなく、識別対象の複数の登録話者以外の複数の他の登録話者が発話した音声を予め登録した複数の第２登録音声データ算出された複数の第２類似度スコアも用いることにより、識別対象音声データが話者識別に適しているか否かを確実に判定することができる。

　なお、本実施の形態３において、類似度スコア判定部２８Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第１類似度スコア及び複数の第２類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かを判定しているが、本開示は特にこれに限定されない。類似度スコア判定部２８Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第２類似度スコアに基づいて、識別対象音声データが話者識別に適しているか否かを判定してもよい。このとき、類似度スコア判定部２８Ｂは、類似度スコア算出部２６Ｂによって算出された複数の第２類似度スコアのうちの最も高い第２類似度スコアが第１閾値より高いか否かを判定してもよい。類似度スコア判定部２８Ｂは、最も高い第２類似度スコアが第１閾値より高いと判定した場合、識別対象音声データが話者識別に適していると判定してもよい。一方、類似度スコア判定部２８Ｂは、最も高い第２類似度スコアが第１閾値以下であると判定した場合、識別対象音声データが話者識別に適していないと判定してもよい。

　なお、実施の形態３において、類似度スコア算出部２６Ｂは、識別対象音声データの特徴量と複数の第１登録音声データの特徴量それぞれとの第１類似度スコアを算出するとともに、識別対象音声データの特徴量と複数の第２登録音声データの特徴量それぞれとの第２類似度スコアを算出しているが、本開示は特にこれに限定されない。類似度スコア算出部２６Ｂは、識別対象音声データと複数の第１登録音声データそれぞれとの第１類似度スコアを算出するとともに、識別対象音声データと複数の第２登録音声データそれぞれとの第２類似度スコアを算出してもよい。この場合、識別対象音声データの特徴量と複数の第１登録音声データの特徴量と複数の第２登録音声データの特徴量との算出が不要となる。

　なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。

　本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

　また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

　また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　本開示に係る技術は、計算量を増加させることなく、識別対象の話者が予め登録されている複数の話者のいずれであるかを識別する精度を向上させることができるので、話者を識別する技術として有用である。

Claims

　コンピュータにおける話者識別方法であって、
　識別対象音声データを取得し、
　予め登録されている複数の登録音声データを取得し、
　前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、
　算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、
　算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、
　前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、
　識別結果を出力する、
　話者識別方法。
　前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の類似度のうちの最も高い類似度が第１閾値より高いか否かを判定し、最も高い前記類似度が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定する、
　請求項１記載の話者識別方法。
　前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の類似度の分散値を算出し、算出した前記分散値が第１閾値より高いか否かを判定し、前記分散値が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定する、
　請求項１記載の話者識別方法。
　選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かの判定において、算出した前記複数の類似度のうちの最も高い類似度が、前記第１閾値より高い第２閾値より高いか否かを判定し、最も高い前記類似度が前記第２閾値より高いと判定した場合、選出した前記登録話者を前記識別対象音声データの前記識別対象話者として識別する、
　請求項２又は３記載の話者識別方法。
　前記複数の登録音声データは、識別対象の複数の登録話者が発話した音声を予め登録した複数の第１登録音声データと、前記識別対象の前記複数の登録話者以外の複数の他の登録話者が発話した音声を予め登録した複数の第２登録音声データとを含み、
　前記類似度の算出において、前記識別対象音声データと前記複数の第１登録音声データそれぞれとの第１類似度を算出するとともに、前記識別対象音声データと前記複数の第２登録音声データそれぞれとの第２類似度を算出し、
　前記登録話者の選出において、算出した複数の第１類似度のうちの最も高い第１類似度に対応する第１登録音声データの登録話者を選出し、
　前記識別対象音声データが前記話者識別に適しているか否かの判定において、算出した前記複数の第１類似度及び前記複数の第２類似度のうちの最も高い第１類似度又は第２類似度が第１閾値より高いか否かを判定し、最も高い前記第１類似度又は前記第２類似度が前記第１閾値より高いと判定した場合、前記識別対象音声データが前記話者識別に適していると判定する、
　請求項１記載の話者識別方法。
　前記複数の第２登録音声データは、雑音を含まず、前記他の登録話者が発話した前記音声のみを含む、
　請求項５記載の話者識別方法。
　選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かの判定において、算出した前記複数の第１類似度のうちの最も高い第１類似度が、前記第１閾値より高い第２閾値より高いか否かを判定し、最も高い前記第１類似度が前記第２閾値より高いと判定した場合、選出した前記登録話者を前記識別対象音声データの前記識別対象話者として識別する、
　請求項５又は６記載の話者識別方法。
　さらに、前記識別対象音声データが前記話者識別に適していないと判定した場合、前記識別対象音声データの再入力を前記識別対象話者に促すエラーメッセージを出力する、
　請求項１～３のいずれか１項に記載の話者識別方法。
　前記識別対象音声データの取得において、前記識別対象話者が発話した音声データから所定の区間を切り出した前記識別対象音声データを取得し、
　さらに、前記識別対象音声データが前記話者識別に適していないと判定した場合、前記音声データから前記所定の区間とは異なる区間を切り出した別の識別対象音声データを取得する、
　請求項１～３のいずれか１項に記載の話者識別方法。
　識別対象音声データを取得する識別対象音声データ取得部と、
　予め登録されている複数の登録音声データを取得する登録音声データ取得部と、
　前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出する算出部と、
　算出された複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出する選出部と、
　算出された前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定する類似度判定部と、
　前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定する話者判定部と、
　識別結果を出力する出力部と、
　を備える話者識別装置。
　識別対象音声データを取得し、
　予め登録されている複数の登録音声データを取得し、
　前記識別対象音声データと前記複数の登録音声データそれぞれとの類似度を算出し、
　算出した複数の類似度のうちの最も高い類似度に対応する登録音声データの登録話者を選出し、
　算出した前記複数の類似度に基づいて、前記識別対象音声データが話者識別に適しているか否かを判定し、
　前記識別対象音声データが前記話者識別に適していると判定した場合、最も高い前記類似度に基づいて、選出した前記登録話者を前記識別対象音声データの識別対象話者として識別するか否かを判定し、
　識別結果を出力するようにコンピュータを機能させる、
　話者識別プログラム。