WO2021075012A1

WO2021075012A1 - 話者認証システム、方法およびプログラム

Info

Publication number: WO2021075012A1
Application number: PCT/JP2019/040805
Authority: WO
Inventors: 悟至籾山
Original assignee: 日本電気株式会社
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2021-04-22
Also published as: JPWO2021075012A1; JP7259981B2; US20220375476A1

Abstract

敵対的サンプルに対する頑強性を実現することができる話者認証システムを提供する。データ記憶部１１２は、話者の音声に関するデータを記憶する。複数の音声処理部１１はそれぞれ、入力された音声と、データ記憶部１１２に記憶されたデータとに基づいて、話者認証を行う。後処理部１１６は、複数の音声処理部１１のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する。そして、各音声処理部１１において音声に対して施される前処理の方式またはパラメータは、音声処理部１１毎に異なる。

Description

話者認証システム、方法およびプログラム

　本発明は、話者認証システム、話者認証方法および話者認証プログラムに関する。

　人間の音声は、生体情報の一種であり、個人に特有のものである。そのため、音声は、個人を特定する生体認証に用いることができる。音声を用いた生体認証は、話者認証と呼ばれる。

　図１１は、一般的な話者認証システムの例を示すブロック図である。図１１に示す一般的な話者認証システム４０は、音声情報記憶装置４２０と、前処理装置４１０と、特徴量抽出装置４３０と、類似度算出装置４４０と、認証装置４５０とを備える。

　音声情報記憶装置４２０は、一人以上の話者の音声情報を予め登録しておくための記憶装置である。ここでは、音声情報記憶装置４２０には、各話者の音声情報として、入力される音声に対して前処理装置４１０が行う前処理と同じ前処理を各話者の音声に対して行うことで得られた音声情報が登録されているものとする。

　前処理装置４１０は、マイクロホン等を介して入力された音声に前処理を行う。前処理装置４１０は、この前処理において、特徴量抽出装置４３０が音声の特徴量を抽出しやすい形式に、入力された音声を変換する。

　特徴量抽出装置４３０は、前処理によって得られた音声情報から、音声の特徴量を抽出する。この特徴量は、話者の音声の特徴を表現していると言える。また、特徴量抽出装置４３０は、音声情報記憶装置４２０に登録されている各話者の音声情報からも特徴量を抽出する。

　類似度算出装置４４０は、音声情報記憶装置４２０に登録されている各音声情報から抽出された各話者の特徴量と、認証対象の音声（入力された音声）の特徴量との類似度を、話者毎に算出する。

　認証装置４５０は、話者毎に算出されたそれぞれの類似度と、予め定められた閾値とを比較することによって、入力された音声が、音声情報が音声情報記憶装置４２０に登録されている話者のうちどの話者の音声であるのかを判定する。

　図１１に示す話者認証システムの一例が非特許文献１に記載されている。非特許文献１に記載されている話者認証システムの動作について説明する。予め、音声情報記憶装置４２０には、前処理装置４１０が行う前処理と同じ前処理を各話者の音声に対して行うことで得られた各話者の音声情報が登録されているものとする。

　マイクロホン等の入力装置を介して、話者認証システム４０に、認証対象の音声が入力される。入力される音声は、特定の単語や文章を読み上げた音声に限定される場合もある。前処理装置４１０は、その音声を、特徴量抽出装置４３０が音声の特徴量を抽出しやすい形式に変換する。

　次に、特徴量抽出装置４３０は、前処理によって得られた音声情報から特徴量を抽出する。同様に、特徴量抽出装置４３０は、話者毎に、音声情報記憶装置４２０に登録されている音声情報から特徴量を抽出する。

　次に、類似度算出装置４４０は、各話者の特徴量と、認証対象の音声の特徴量との類似度を、話者毎に算出する。この結果、話者毎に、特徴量が求まる。

　次に、認証装置４５０は、話者毎に得られたそれぞれの類似度と、閾値とを比較することによって、入力された音声がどの話者の音声であるのかを判定する。そして、認証装置４５０は、その判定結果（話者認証結果）を出力装置（図示略）に出力する。

　上記の一般的な話者認証システムをはじめとする生体認証システムは、個人の認証に利用されるため、他のシステムのセキュリティを担保する役割を担うことがある。その際、生体認証システムを誤認証させるような敵対的な攻撃があり得る。

　このような敵対的な攻撃に対して頑強な生体認証システムの実現するための技術の一例が、非特許文献２に記載されている。非特許文献２に記載された技術は、特定の話者になりすます攻撃に対する防御技術である。具体的には、非特許文献２に記載された技術は、複数の異なる話者認証装置およびなりすまし攻撃検知装置を並列に動作させ、その結果を統合することで、入力された音声が成りすまし攻撃であるのか、正常な音声であるのかを判定する。

　図１２は、非特許文献２に記載されているなりすまし攻撃防御システムを示す模式図である。非特許文献２に記載されているなりすまし攻撃の防御システムは、複数の話者認証装置５１１－１，５１１－２，・・・，５１１－ｉと、複数のなりすまし攻撃検知装置５１２－１，５１２－２，・・・，５１２－ｊと、認証結果統合装置５１３と、検知結果統合装置５１４と、話者認証装置５１５とを備える。話者認証装置を特に区別しない場合には、単に符号“５１１”で表す場合がある。同様に、なりすまし攻撃検知装置を特に区別しない場合には、単に符号“５１２”で表す場合がある。図１２では、話者認証装置５１１の数がｉ個であり、なりすまし攻撃検知装置５１２の数がｊ個である場合を例示している。

　話者認証装置５１１－１，５１１－２，・・・，５１１－ｉは、それぞれ、単体で話者認証装置として動作する。同様に、なりすまし攻撃検知装置５１２－１，５１２－２，・・・，５１２－ｊは、それぞれ、単体でなりすまし攻撃検知装置として動作する。

　認証結果統合装置５１３は、複数の話者認証装置５１１における認証結果を統合する。また、検知結果統合装置５１４は、複数のなりすまし攻撃検知装置５１２における出力結果を統合する。認証装置５１５は、検知結果統合装置５１４による結果と、検知結果統合装置５１４による結果とをさらに統合して、入力音声が成りすまし攻撃であるか否かを判定する。

　非特許文献２に記載されているなりすまし攻撃防御システムの動作について説明する。認証対象の音声が、複数の話者認証装置５１１および複数のなりすまし攻撃検知装置５１２の全てに並列に入力される。

　話者認証装置５１１には、複数の話者の音声が登録されている。そして、話者認証装置５１１は、音声が登録されている話者毎に、入力された音声に対して認証スコアを算出し、最終的に認証した話者の認証スコアを出力する。従って、各話者認証装置５１１から１つずつ認証スコアが出力される。認証スコアは、入力音声が話者に由来するかを判定するためのスコアである。

　なりすまし攻撃検知装置５１２は、それぞれ検知スコアを出力する。検知スコアは、入力された音声が、なりすまし攻撃であるか、自然な音声であるかを判定するためのスコアである。

　認証結果統合装置５１３は、各話者認証装置５１１から出力された全ての認証スコアを統合する演算を行うことによって、統合認証スコアを算出し、統合認証スコアを出力する。検知結果統合装置５１４は、各なりすまし攻撃検知装置５１２から出力された全ての検知スコアを統合する演算を行うことによって、統合検知スコアを算出し、統合検知スコアを出力する。

　認証装置５１５は、統合認証スコアと統合検知スコアとを統合する演算を行い、最終的なスコアを求める。そして、認証装置５１５は、その最終的なスコアと閾値とを比較することによって、入力された音声が、なりすまし攻撃であるか否かを判定し、入力された音声が自然な音声である場合には、その音声が、話者認証装置５１１に登録されているどの話者に由来する音声であるのかを判定する。

　また、不正な音声入力に対抗するための技術は、特許文献１にも記載されている。

　また、話者認証方法の例は、特許文献２にも記載されている。

　また、特許文献３には、音声認識システムが記載されている。特許文献３には、固有の認識方式で音声認識を行う音声認識処理部を２つ備えた音声認識システムが記載されている。

特開２０１６－１９７２００号公報特開２０１９－２８４６４号公報特開２００３－３２３１９６号公報

Georg Heigold et al., "End-to-End Text-Dependent Speaker Verification", 2016 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Md Sahidullah et al., "Integrated Spoofing Countermeasures and Automatic Speaker Verification: an Evaluation on ASV spoof 2015", INTERSPEECH, 2016

　近年、話者認証システムには機械学習によって学習されたモデル（以下、単にモデルと記す。）が利用されることが増えてきている。このようなモデルに対するセキュリティ上の課題として、敵対的サンプル（adversarial examples）が挙げられる。敵対的サンプルは、モデルにより誤判定が導出されるように計算された摂動が意図的に加えられたデータである。

　非特許文献２に記載されたなりすまし攻撃防御システムは、なりすまし攻撃に対する防御に有効なシステムであるが、敵対的サンプルによる攻撃に関しては考慮されていない。

　また、特許文献１に記載された技術は、不正な音声入力に対抗するための技術であるが、敵対的サンプルによる攻撃に関しては考慮されていない。

　そこで、本発明は、敵対的サンプルに対する頑強性を実現することができる話者認証システム、話者認証方法および話者認証プログラムを提供することを目的とする。

　本発明による話者認証システムは、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声と、データ記憶部に記憶されたデータとに基づいて、話者認証を行う複数の音声処理部と、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する後処理部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部と、類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なることを特徴とする。

　本発明による話者認証システムは、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声から得られる特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する複数の音声処理部と、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なることを特徴とする。

　本発明による話者認証方法は、複数の音声処理部がそれぞれ、入力された音声と、話者の音声に関するデータを記憶するデータ記憶部に記憶されたデータとに基づいて、話者認証を行い、後処理部が、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定し、各音声処理部がそれぞれ、音声に対して前処理を行い、前処理によって得られた音声データから特徴量を抽出し、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、算出した類似度に基づいて、話者認証を行い、前処理の方式またはパラメータが、音声処理部毎に異なることを特徴とする。

　本発明による話者認証方法は、複数の音声処理部がそれぞれ、入力された音声から得られる特徴量と、話者の音声に関するデータを記憶するデータ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、認証部が、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行い、各音声処理部がそれぞれ、音声に対して前処理を行い、前処理によって得られた音声データから特徴量を抽出し、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出し、前処理の方式またはパラメータが、音声処理部毎に異なることを特徴とする。

　本発明による話者認証プログラムは、コンピュータを、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声と、データ記憶部に記憶されたデータとに基づいて、話者認証を行う複数の音声処理部と、複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する後処理部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部と、類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なる話者認証システムとして機能させることを特徴とする。

　本発明による話者認証プログラムは、コンピュータを、話者の音声に関するデータを記憶するデータ記憶部と、入力された音声から得られる特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する複数の音声処理部と、複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、各音声処理部がそれぞれ、音声に対して前処理を行う前処理部と、前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、その特徴量と、データ記憶部に記憶されたデータから得られる特徴量との類似度を算出する類似度算出部とを含み、前処理の方式またはパラメータが、各音声処理部に含まれる前処理部毎に異なる話者認証システムとして機能させることを特徴とする。

　本発明によれば、敵対的サンプルに対する頑強性を実現することができる。

前処理でのメルフィルタの次元数が異なる複数の話者認証システムにおける敵対的サンプルの攻撃成功率を確認する実験の実験結果を示すグラフである。本発明の第１の実施形態の話者認証システムの構成例を示すブロック図である。第１の実施形態の処理経過の例を示すフローチャートである。各音声処理部、データ記憶部、および、後処理部を備える話者認証システムを実現する１台のコンピュータの構成例を示す概略ブロック図である。本発明の第２の実施形態の話者認証システムの構成例を示すブロック図である。第２の実施形態の処理経過の例を示すフローチャートである。第１の実施形態の話者認証システムの構成の具体例を示すブロック図である。図７に示す具体例における処理経過の例を示すフローチャートである。本発明の話者認証システムの概要の例を示すブロック図である。本発明の話者認証システムの概要の他の例を示すブロック図である。一般的な話者認証システムの例を示すブロック図である。非特許文献２に記載されているなりすまし攻撃防御システムを示す模式図である。

　まず、本発明の発明者（以下、単に発明者と記す。）が行った検討について説明する。

　前述のように、近年、話者認証システムには機械学習によって学習されたモデルが利用されることが増えてきている。このようなモデルに対するセキュリティ上の課題として、敵対的サンプルが挙げられる。既に説明したように、敵対的サンプルは、モデルにより誤判定が導出されるように計算された摂動が意図的に加えられたデータである。敵対的サンプルは、機械学習によって学習される任意のモデルで生じ得る問題であり、現在までのところ、敵対的サンプルの影響を受けないモデルは提案されていない。そのため、特に画像ドメインで、非特許文献２に記載された技術に類似した敵対的サンプルに対する防御技術を付加することで、敵対的サンプルに対する頑強性を確保する手法が提案されている。しかし、防御技術において、敵対的サンプルの生成手法等に関する経験的な知識を利用した場合、別の生成手法で生成された敵対的サンプルには容易に攻撃を成功させてしまう例が報告されている。このため、敵対的サンプルに対する防御技術では、敵対的サンプルに関する経験的な知識を利用しないことが強く望まれる。

　敵対的サンプルが持つ性質の一つとして、転移攻撃可能性（transferability ）が挙げられる。転移攻撃可能性とは、あるモデルを攻撃対象として生成した敵対的サンプルが、そのモデルと同一のタスクを担う別種のモデルも攻撃できるという性質である。転移攻撃可能性を利用すると、攻撃者は、攻撃対象のモデルを直接入手したり、操作したりできなくても、そのモデルと同一のタスクを担う別のモデルを用意し、そのモデルに対する敵対的サンプルを生成することで、攻撃対象のモデルを攻撃できるようになる。

　ここで、話者認証システムでは、認証対象の音声を、音声波形のまま扱わず、音声に対する前処理において、短時間フーリエ変換等の処理を行い、周波数領域に変換されたデータの形式で扱うことが多い。さらに、各種フィルタが適用されることが多い。フィルタの一種にメルフィルタがある。発明者は、別々の話者認証システムに含まれる別々の前処理装置が、それぞれ異なる次元数のメルフィルタを音声に適用する場合に、ある話者認証システムで敵対的サンプルの攻撃成功率が高くても、メルフィルタの次元数が異なる別の話者認証システムでは、その敵対的サンプルの攻撃成功率を大幅に低下させることができることを実験的に明らかにした。すなわち、発明者は、前処理におけるメルフィルタの次元数が異なる場合に、転移攻撃可能性が有意に低下することを実験的に明らかにした。

　図１は、前処理でのメルフィルタの次元数が異なる複数の話者認証システムにおける敵対的サンプルの攻撃成功率を確認する実験の実験結果を示すグラフである。この実験では、３つの話者認証システムを用いた。この３つの話者認証システムの構成は同一であるが、前処理におけるメルフィルタの次元数は４０，６５，９０と異なっている。

　この３つの話者認証システムのうち、メルフィルタの次元数が９０である話者認証システムを用いて敵対的サンプルを生成し、上記の３つの話者認証システムに対して、その敵対的サンプルで攻撃を行った場合の攻撃成功率の変化を、図１では実線で示している。メルフィルタの次元数が９０である話者認証システムへのこの敵対的サンプルによる攻撃成功率は高いが、次元数が９０から離れ、６５、４０と減少するにつれて、攻撃成功率が低下することが、図１から分かる。

　また、この３つの話者認証システムのうち、メルフィルタの次元数が４０である話者認証システムを用いて敵対的サンプルを生成し、その３つの話者認証システムに対して、その敵対的サンプルで攻撃を行った場合の攻撃成功率の変化を、図１では破線で示している。メルフィルタの次元数が４０である話者認証システムへのこの敵対的サンプルによる攻撃成功率は高いが、次元数が４０から離れ、６５、９０と増加するにつれて、攻撃成功率が低下することが、図１から分かる。

　発明者は、このような知見に基づいて、以下に示す発明をした。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図２は、本発明の第１の実施形態の話者認証システムの構成例を示すブロック図である。第１の実施形態の話者認証システムは、複数の音声処理部１１－１～１１－ｎと、データ記憶部１１２と、後処理部１１６とを備える。なお、個々の音声処理部を特に区別しない場合には、“－１”、“－２”、・・・、“－ｎ”を記載せずに、単に符号“１１”で音声処理部を表わす。音声処理部１１に含まれる各要素を表わす符号についても同様である。

　本例では、音声処理部１１の数は、ｎ個である（図２参照）。

　各音声処理部１１には共通の音声が入力され、各音声処理部１１は、それぞれ、その音声に対して話者認証を行う。具体的には、各音声処理部１１は、その音声を発した話者を判定する処理を行う。

　個々の音声処理部１１はそれぞれ、前処理部１１１と、特徴量抽出部１１３と、類似度算出部１１４と、認証部１１５とを備える。例えば、音声処理部１１－１は、前処理部１１１－１と、特徴量抽出部１１３－１と、類似度算出部１１４－１と、認証部１１５－１とを備える。

　本例では、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６がそれぞれ、別々のコンピュータによって実現されているものとする。そして、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６は、通信可能に接続されている。ただし、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６の態様は、そのような例に限定されるわけではない。

　音声処理部１１－１～１１－ｎそれぞれに設けられている前処理部１１１－１～１１１－ｎは、音声に対して前処理を実行する。ただし、それぞれの前処理部１１１－１～１１１－ｎにおいて、前処理の方式またはパラメータが異なる。すなわち、個々の前処理部１１１毎に、前処理の方式またはパラメータが異なる。従って、本例では、ｎ種類の前処理が存在することになる。

　例えば、各前処理部１１１は、マイクロホンを介して入力される音声（より具体的には音声波形データ）に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する前処理を実行する。このとき、前処理部１１１毎にメルフィルタの次元数が異なる。前処理部１１１毎にメルフィルタの次元数が異なることで、前処理部１１１毎に、音声に対して行われる前処理が異なる。

　前処理部１１１毎に前処理の方式またはパラメータを異ならせる態様は、上記の例に限定されない。他の態様で、前処理部１１１毎に前処理の方式またはパラメータを異ならせてもよい。

　データ記憶部１１２は、一人以上の話者について、話者毎に、音声に関するデータを記憶する。ここで、音声に関するデータとは、話者の音声の特徴を表現した特徴量を導出可能なデータである。

　データ記憶部１１２は、話者毎に、マイクロホンを介して入力された音声（より具体的には音声波形データ）を記憶していてもよい。あるいは、データ記憶部１１２は、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶していてもよい。あるいは、データ記憶部１１２は、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものや、特徴量に演算を施した形式のデータを記憶していてもよい。

　前述のように、ｎ種類の前処理が存在する。従って、音声波形データに対する前処理以降に得られるデータを記憶させる場合には、データ記憶部１１２には、一人の話者当たり、ｎ種類のデータを記憶させておく。すなわち、データ記憶部１１２に、話者毎に、ｎ種類のデータを記憶させておく。

　前処理が行われる前の音声（音声波形データ）をデータ記憶部１１２に記憶させておく場合には、前処理に依存しないデータを記憶させることになる。従って、この場合には、データ記憶部１１２に、話者毎に１種類の音声波形データを記憶させておけばよい。以下の説明では、説明を簡単にするために、まず、データ記憶部１１２に、話者毎に１種類の音声波形データを記憶させておく場合を例にして説明する。図２では、この場合において、各前処理部１１１が、データ記憶部１１２からデータを取得する場合を図示している。音声波形データに対する前処理以降に得られるデータをデータ記憶部１１２に記憶させる場合については後述する。

　前述のように、各音声処理部１１には共通の音声が入力され、各音声処理部１１は、それぞれ、その音声に対して話者認証を行う。すなわち、各音声処理部１１は、その音声が、データがデータ記憶部１１２に記憶されている話者のうちどの話者の音声であるのかを判定する。

　それぞれの前処理部１１１－１～１１１－ｎは、前処理として、特徴量抽出部１１３が音声の特徴量を抽出しやすい形式に、入力された音声を変換する処理を実行する。この前処理の例として、例えば、音声（音声波形データ）に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する処理が挙げられる。ただし、本実施形態では、前処理部１１１－１～１１１－ｎにおけるメルフィルタの次元数はそれぞれ異なる。すなわち、前処理部１１１毎にメルフィルタの次元数が異なる。

　前処理の例は上記の例に限定されない。また、既に説明したように、前処理部１１１毎に前処理の方式またはパラメータを異ならせる態様も、上記の例に限定されない。

　また、各前処理部１１１は、入力された音声（音声波形データ）に対して前処理を行うときに、データ記憶部１１２に記憶されている各話者の音声（音声波形データ）に対しても前処理を行う。この結果、１つの音声処理部１１において、入力された音声波形データに対する前処理の結果と、話者毎の音声波形データそれぞれに対する前処理の結果とが得られる。他の各音声処理部１１においても同様である。

　各特徴量抽出部１１３は、入力された音声波形データに対する前処理の結果から、音声の特徴量を抽出する。同様に、各特徴量抽出部１１３は、データがデータ記憶部１１２に記憶された話者（以下、登録された話者と記す。）毎に実行された前処理部１１１による前処理の結果から、音声の特徴量を抽出する。この結果、１つの音声処理部１１において、入力された音声の特徴量と、登録された話者毎のそれぞれの音声の特徴量とが得られる。他の各音声処理部１１においても同様である。

　各特徴量抽出部１１３は、例えば、機械学習によって得られたモデルを用いて特徴量を抽出してもよく、また、統計的な演算処理を行うことによって特徴量を抽出してもよい。ただし、前処理の結果から特徴量を抽出する方法は、これらの方法に限定されず、他の方法であってもよい。

　各類似度算出部１１４は、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する。この結果、１つの音声処理部１１において、登録された話者毎に類似度が得られる。他の各音声処理部１１においても同様である。

　各類似度算出部１１４は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量とのコサイン類似度を算出してもよい。また、各類似度算出部１１４は、類似度として、入力された音声の特徴量と、登録された話者の音声の特徴量との距離の逆数を算出してもよい。ただし、類似度の算出方法は、これらの方法に限定されず、他の方法であってもよい。

　各認証部１１５は、登録された話者毎に算出された類似度に基づいて、話者認証を行う。すなわち、各認証部１１５は、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。

　各認証部１１５は、例えば、登録された話者毎に算出された類似度と、閾値とを比較し、類似度が閾値よりも大きい話者を、入力された音声を発した話者として特定してもよい。各認証部１１５は、類似度が閾値よりも大きい話者が複数存在する場合、その話者の中で類似度が最も大きい話者を、入力された音声を発した話者として特定してもよい。

　また、上記の閾値は、固定値であっても、所定の計算法に従って変動する変動値であってもよい。

　それぞれの音声処理部１１－１～１１－ｎにおいて、認証部１１５－１～１１５－ｎが話者認証を行うことによって、音声処理部１１毎に、入力された音声を発した話者の判定結果が得られる。ここで、音声処理部１１毎に前処理が異なっているので、音声処理部１１毎に得られる話者の判定結果が共通になるとは限らない。

　後処理部１１６は、認証部１１５－１～１１５－ｎから話者認証の結果を取得し、認証部１１５－１～１１５－ｎのそれぞれで得られた話者認証の結果に基づいて、１つの話者認証の結果を特定する。なお、後処理部１１６は、特定した話者認証の結果を、出力装置（図２において図示略）に出力する。

　例えば、後処理部１１６は、認証部１１５－１～１１５－ｎのそれぞれで得られた話者認証の結果に基づいて多数決によって、入力された音声を発した話者を決定してもよい。すなわち、後処理部１１６は、認証部１１５－１～１１５－ｎのそれぞれで話者認証の結果として選ばれた話者のうち、選ばれた数が最も多い話者を、入力された音声を発した話者として決定してよい。ただし、後処理部１１６が１つの話者認証の結果を特定する方法は多数決に限定されず、他の方法であってもよい。

　本例では、認証部１１５－１～１１５－ｎがそれぞれ話者認証を行い、後処理部１１６が、認証部１１５－１～１１５－ｎのそれぞれで得られた話者認証の結果に基づいて、１つの話者認証の結果を特定する。この例では、話者認証システムが、話者認証を行う要素（音声処理部１１）を複数個含み、話者認証システム全体として、１つの話者認証の結果を特定する。

　また、本発明の実施形態の話者認証システムを、前処理部１１１－１～１１１－ｎの違いを利用した、敵対的サンプルの検知システムとして用いることもできる。換言すれば、本発明の実施形態の話者認証システムを、入力された音声が敵対的音声か、自然な音声であるのかを判定するシステムとして用いることもできる。この場合、後処理部１１６は、例えば、全ての音声処理部１１－１～１１－ｎでの話者認証の結果が一致しなければ、入力された音声が敵対的サンプルであると判定してもよい。ただし、入力された音声が敵対的サンプルであると判定する基準は上記の例に限定されない。

　本例では、各音声処理部１１はそれぞれ、コンピュータによって実現されている。この場合、個々の音声処理部１１において、前処理部１１１、特徴量抽出部１１３、類似度算出部１１４および認証部１１５は、例えば、音声処理プログラムに従って動作するコンピュータのＣＰＵ（Central Processing Unit ）によって実現される。この場合、ＣＰＵは、コンピュータのプログラム記憶装置等のプログラム記録媒体から音声処理プログラムを読み込み、そのプログラムに従って、前処理部１１１、特徴量抽出部１１３、類似度算出部１１４および認証部１１５として動作すればよい。

　次に、第１の実施形態の処理経過について説明する。図３は、第１の実施形態の処理経過の例を示すフローチャートである。なお、既に説明した事項については、適宜、説明を省略する。

　まず、前処理部１１１－１～１１１－ｎに、共通の音声（音声波形データ）が入力される（ステップＳ１）。

　次に、前処理部１１１－１～１１１－ｎはそれぞれ、入力された音声波形データに前処理を行う（ステップＳ２）。また、ステップＳ２において、前処理部１１１－１～１１１－ｎはそれぞれ、登録された話者毎に、データ記憶部１１２に記憶されている音声波形データを取得し、取得した音声波形データに前処理を行う。

　前述のように、個々の前処理部１１１毎に、前処理の方式またはパラメータが異なる。例えば、前処理部１１１毎に、前処理で用いるメルフィルタの次元数が異なる。

　ステップＳ２の次に、特徴量抽出部１１３－１～１１３－ｎはそれぞれ、対応する前処理部１１１における前処理の結果から、音声の特徴量を抽出する（ステップＳ３）。

　例えば、特徴量抽出部１１３－１は、入力された音声波形データに対して前処理部１１１－１が行った前処理の結果から、入力された音声の特徴量を抽出する。また、特徴量抽出部１１３－１は、前処理部１１１－１が、登録された話者毎に、データ記憶部１１２に記憶されている音声波形データに対して行った前処理の結果からも、それぞれ、音声の特徴量を抽出する。他のそれぞれの特徴量抽出部１１３も同様に動作する。

　ステップＳ３の次に、類似度算出部１１４－１～１１４－ｎはそれぞれ、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する（ステップＳ４）。

　次に、認証部１１５－１～１１５－ｎはそれぞれ、登録された話者毎に算出された類似度に基づいて、話者認証を行う（ステップＳ５）。すなわち、認証部１１５－１～１１５－ｎはそれぞれ、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。

　次に、後処理部１１６は、認証部１１５－１～１１５－ｎから話者認証の結果を取得し、認証部１１５－１～１１５－ｎのそれぞれで得られた話者認証の結果に基づいて、１つの話者認証の結果を特定する（ステップＳ６）。例えば、後処理部１１６は、認証部１１５－１～１１５－ｎのそれぞれで話者認証の結果として選ばれた話者のうち、選ばれた数が最も多い話者を、入力された音声を発した話者として決定してよい。

　次に、後処理部１１６は、ステップＳ６で特定した話者認証の結果を出力装置（図２において図示略）に出力する（ステップＳ７）。ステップＳ７での出力態様は、特に限定されない。例えば、後処理部１１６は、ステップＳ６で特定した話者認証の結果を、ディスプレイ装置（図２において図示略）に表示させてもよい。

　第１の実施形態では、それぞれの音声処理部１１に含まれている前処理部１１１毎に、前処理の方式またはパラメータが異なっている。そのため、ある音声処理部１１において、敵対的サンプルの攻撃成功率が高くても、他の音声処理部１１では、その敵対的サンプルの攻撃成功率は低下する。従って、その敵対的サンプルの攻撃成功率が高い音声処理部１１で得られた音声認証の結果は、最終的に、後処理部１１６では選ばれない。従って、敵対的サンプルに対する頑強性を実現することができる。また、本実施形態では、前処理部１１１毎に、前処理における方式またはパラメータを変えることによって、複数の音声処理部１１に対する攻撃成功率に差を生じさせている。そして、そのことによって、敵対的サンプルに対する頑強性を高めている。従って、敵対的サンプルに対する頑強性を高めるために、既知の敵対的サンプルに関する経験的な知識は一切用いていない。よって、本実施形態によれば、未知の敵対的サンプルに対しても頑強性を確保することができる。

　また、前述のように、本実施形態の話者認証システムを、前処理部１１１－１～１１１－ｎの違いを利用した敵対的サンプルの検知システムとして用いることもできる。例えば、後処理部１１６が、全ての音声処理部１１－１～１１－ｎでの話者認証の結果が一致しなければ、入力された音声が敵対的サンプルであると判定することによって、そのような検知システムとして用いることもできる。既に説明したように、入力された音声が敵対的サンプルであると判定する基準は上記の例に限定されない。

　上記の説明では、データ記憶部１１２が、話者毎に、マイクロホンを介して入力された音声（音声波形データ）を記憶する場合を例にして説明した。既に説明したように、データ記憶部１１２は、音声波形データに対する前処理以降に得られるデータを記憶してもよい。以下、この場合について説明する。

　データ記憶部１１２が、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶する場合について説明する。前処理部１１１毎に、前処理の方式またはパラメータが異なる。すなわち、ｎ種類の前処理が存在する。そのため、一人の話者に着目した場合、その一人の話者（ｐとする）の音声波形データに、そのｎ種類の前処理をそれぞれ施すことによって得られるデータを用意しておく。具体的には、「話者ｐの音声波形データに、前処理部１１１－１の前処理を施すことで得られたデータ」、「話者ｐの音声波形データに、前処理部１１１－２の前処理を施すことで得られたデータ」、・・・、「話者ｐの音声波形データに、前処理部１１１－ｎの前処理を施すことで得られたデータ」を用意しておく。この結果、話者ｐのデータとしてｎ種類のデータが得られる。話者ｐ以外の話者についても同様に、一人当たりｎ種類のデータを用意しておく。このように、話者毎に、ｎ種類のデータを用意しておき、個々の話者のｎ種類のデータをそれぞれデータ記憶部１１２に記憶させておけばよい。

　また、上記の例では、音声処理部１１がデータ記憶部１１２に記憶されたデータを取得する場合、特徴量抽出部１１３が、登録された話者毎に、その特徴量抽出部１１３に対応する前処理部１１１の前処理を施すことで得られたデータをデータ記憶部１１２から取得し、そのデータから特徴量を抽出すればよい。

　例えば、音声処理部１１－１がデータ記憶部１１２に記憶されたデータを取得する場合、特徴量抽出部１１３－１が、登録された話者毎に、前処理部１１１－１の前処理を施すことで得られたデータをデータ記憶部１１２から取得し、そのデータから特徴量を抽出すればよい。他の音声処理部１１がデータ記憶部１１２に記憶されたデータを取得する場合も同様である。

　次に、データ記憶部１１２が、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものを記憶する場合について説明する。この場合にも、一人当たりｎ種類のデータ（特徴量）を用意しておき、個々の話者のｎ種類のデータをそれぞれデータ記憶部１１２に記憶させておけばよい。例えば、話者ｐのｎ種類のデータとして、「話者ｐの音声波形データに前処理部１１１－１の前処理を施した結果から抽出した特徴量」、「話者ｐの音声波形データに前処理部１１１－２の前処理を施した結果から抽出した特徴量」、・・・、「話者ｐの音声波形データに前処理部１１１－ｎの前処理を施した結果から抽出した特徴量」を用意しておく。話者ｐ以外の話者についても同様に、一人当たりｎ種類のデータ（特徴量）を用意しておく。このように、話者毎に、ｎ種類のデータ（特徴量）を用意しておき、個々の話者のｎ種類の特徴量をそれぞれデータ記憶部１１２に記憶させておけばよい。

　上記の例では、データ記憶部１１２は、音声に関するデータを、特徴量の形式で記憶している。そのため、音声処理部１１がデータ記憶部１１２に記憶されたデータを取得する場合、類似度算出部１１４が、登録された話者毎に、その特徴量抽出部１１３に対応する前処理部１１１の前処理に応じた特徴量をデータ記憶部１１２から取得すればよい。そして、その類似度算出部１１４は、その特徴量と、音声処理部１１に入力された音声の特徴量との類似度を算出すればよい。

　例えば、音声処理部１１－１がデータ記憶部１１２に記憶された特徴量を取得する場合、類似度算出部１１４－１が、登録された話者毎に、「話者の音声波形データに前処理部１１１－１の前処理を施した結果から抽出した特徴量」をデータ記憶部１１２から取得すればよい。そして、類似度算出部１１４－１は、その特徴量と、声処理部１１－１に入力された音声の特徴量との類似度を算出すればよい。他の音声処理部１１がデータ記憶部１１２に記憶された特徴量を取得する場合も同様である。

　上記の第１の実施形態では、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６がそれぞれ、別々のコンピュータによって実現されている場合を例にして説明した。以下では、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６を備える話者認証システムが１台のコンピュータによって実現される場合を例にして説明する。

　図４は、各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６を備える話者認証システムを実現する１台のコンピュータの構成例を示す概略ブロック図である。このコンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４と、マイクロホン１００５と、ディスプレイ装置１００６とを備える。

　マイクロホン１００５は、音声の入力に用いられる入力デバイスである。音声の入力に用いられる入力デバイスは、マイクロホン１００５以外のデバイスであってもよい。

　ディスプレイ装置１００６は、前述のステップＳ６（図３参照）で特定した話者認証の結果を表示するために用いられる。ただし、前述のように、ステップＳ７（図３参照）での出力態様は、特に限定されない。

　各音声処理部１１－１～１１－ｎ、データ記憶部１１２、および、後処理部１１６を備える話者認証システムの動作は、プログラムの形式で、補助記憶装置１００３に記憶されている。以下、このプログラムを話者認証プログラムと記す。ＣＰＵ１００１は、話者認証プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、話者認証プログラムに従って、第１の実施形態における複数の音声処理部１１－１～１１－ｎ、および、後処理部１１６として動作する。また、データ記憶部１１２は、補助記憶装置１００３によって実現されてもよく、あるいは、コンピュータ１０００が備える他の記憶装置によって実現されてもよい。

　補助記憶装置１００３は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、話者認証プログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が話者認証プログラムを主記憶装置１００２に展開し、その話者認証プログラムに従って、ＣＰＵ１００１が、第１の実施形態における複数の音声処理部１１－１～１１－ｎ、および、後処理部１１６として動作してもよい。

実施形態２．
　図５は、本発明の第２の実施形態の話者認証システムの構成例を示すブロック図である。第１の実施形態と同様の要素については、図２と同一の符号を付し、詳細な説明を省略する。第２の実施形態の話者認証システムは、複数の音声処理部２１－１～２１－ｎと、データ記憶部１１２と、認証部２１５とを備える。なお、個々の音声処理部を特に区別しない場合には、“－１”、“－２”、・・・、“－ｎ”を記載せずに、単に符号“２１”で音声処理部を表わす。音声処理部２１に含まれる各要素を表わす符号についても同様である。

　本例では、音声処理部２１の数は、ｎ個である（図５参照）。

　各音声処理部２１には共通の音声が入力され、各音声処理部２１は、それぞれ、入力された音声の特徴量と、登録された各話者の特徴量（データ記憶部１１２に記憶された各話者のデータから得られる特徴量）との類似度を算出する。

　後述するように、各音声処理部２１はそれぞれ、前処理部１１１を備える。そして、個々の前処理部１１１毎に、前処理の方式またはパラメータが異なる。

　データ記憶部１１２は、第１の実施形態におけるデータ記憶部１１２と同様に、一人以上の話者について、話者毎に、音声に関するデータを記憶する。

　データ記憶部１１２が、話者毎に、音声波形データに前処理を施すことによって得られたデータを記憶する場合、話者毎に、ｎ種類のデータを用意しておき、個々の話者のｎ種類のデータをそれぞれデータ記憶部１１２に記憶させておけばよい。

　また、データ記憶部１１２が、話者毎に、音声波形データに前処理を施すことによって得られたデータから抽出した特徴量そのものを記憶する場合、話者毎に、ｎ種類のデータ（特徴量）を用意しておき、個々の話者のｎ種類の特徴量をそれぞれデータ記憶部１１２に記憶させておけばよい。

　また、データ記憶部１１２が、前処理が行われる前の音声（音声波形データ）を記憶する場合には、データ記憶部１１２に、話者毎に１種類の音声波形データを記憶させておけばよい。

　これらのデータ記憶部１１２に関する事項については、第１の実施形態で説明したので、ここでは詳細な説明を省略する。

　以下、データ記憶部１１２が、前処理が行われる前の音声（音声波形データ）を記憶する場合を例にして説明する。

　個々の音声処理部２１はそれぞれ、前処理部１１１と、特徴量抽出部１１３と、類似度算出部１１４とを備える。例えば、音声処理部２１－１は、前処理部１１１－１と、特徴量抽出部１１３－１と、類似度算出部１１４－１とを備える。

　また、本例では、各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５がそれぞれ、別々のコンピュータによって実現されているものとする。そして、各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５は、通信可能に接続されている。ただし、各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５の態様は、そのような例に限定されるわけではない。

　前処理部１１１－１～１１１－ｎは、第１の実施形態における前処理部１１１－１～１１１－ｎと同様である。第１の実施形態で説明したように、それぞれの前処理部１１１－１～１１１－ｎは、前処理として、特徴量抽出部１１３が音声の特徴量を抽出しやすい形式に、入力された音声を変換する処理を実行する。この前処理の例として、例えば、音声（音声波形データ）に対して、短時間フーリエ変換を適用し、その結果に対して、メルフィルタを適用する処理が挙げられる。ここで、前処理部１１１毎に、前処理の方式またはパラメータが異なる。本例では、前処理部１１１－１～１１１－ｎにおけるメルフィルタの次元数はそれぞれ異なるものとする。すなわち、前処理部１１１毎にメルフィルタの次元数が異なるものとする。

　前処理の例は上記の例に限定されない。また、前処理部１１１毎に前処理の方式またはパラメータを異ならせる態様も、上記の例に限定されない。

　また、各前処理部１１１は、入力された音声（音声波形データ）に対して前処理を行うときに、データ記憶部１１２に記憶されている各話者の音声（音声波形データ）に対しても前処理を行う。

　各特徴量抽出部１１３は、第１の実施形態における各特徴量抽出部１１３と同様である。各特徴量抽出部１１３は、入力された音声波形データに対する前処理の結果から、音声の特徴量を抽出する。同様に、各特徴量抽出部１１３は、登録された話者毎に実行された前処理部１１１による前処理の結果から、音声の特徴量を抽出する。

　各類似度算出部１１４は、登録された話者毎に、入力された音声の特徴量と、登録された話者の音声の特徴量との類似度を算出する。

　認証部２１５は、各音声処理部２１－１～２１－ｎ（より具体的には、各類似度算出部１１４－１～１１４－ｎ）によって話者毎に算出された類似度に基づいて、話者認証を行う。すなわち、認証部２１５は、各類似度算出部１１４－１～１１４－ｎそれぞれにおいて登録された話者毎に算出された類似度に基づいて、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。なお、認証部２１５は、話者認証の結果（入力された音声がどの話者の音声であるか）を、出力装置（図５において図示略）に出力する。

　以下、認証部２１５が行う話者認証動作の例を説明する。

　認証部２１５は、ｎ個の類似度算出部１１４－１～１１４－ｎそれぞれから、登録された話者毎の類似度を取得する。例えば、登録された話者がｘ人であるとする。この場合、認証部２１５は、類似度算出部１１４－１からｘ人分の類似度を取得する。同様に、認証部２１５は、類似度算出部１１４－２～１１４－ｎからもそれぞれ、ｘ人分の類似度を取得する。

　認証部２１５は、個々の前処理部１１１－１～１１１－ｎ毎に個別の閾値を保持する。すなわち、認証部２１５は、前処理部１１１－１に対応する閾値（Ｔｈ１と記す。）、前処理部１１１－２に対応する閾値（Ｔｈ２と記す。）、・・・、前処理部１１１－ｎに対応する閾値（Ｔｈｎと記す。）を保持する。

　そして、認証部２１５は、音声処理部２１毎に、音声処理部２１内の類似度算出部１１４から取得したｘ人分の類似度のそれぞれと、その音声処理部２１内の前処理部１１１に対応する閾値とを比較する。この結果、一人の話者に関して、類似度と閾値との比較結果がｎ個得られる。認証部２１５は、登録された話者毎に、類似度が閾値よりも大きいという比較結果の数を特定し、その数が最大となる話者を、話者認証の結果とすればよい。すなわち、認証部２１５は、入力音声が、その数が最大となる話者の音声であると判定すればよい。

　例えば、登録された複数の話者のうち、話者ｐに着目するものとする。認証部２１５は、類似度算出部１１４－１から取得した、話者ｐに対して算出された類似度と、前処理部１１１－１に対応する閾値Ｔｈ１との大小関係を比較する。同様に、認証部２１５は、類似度算出部１１４－２から取得した、話者ｐに対して算出された類似度と、前処理部１１１－２に対応する閾値Ｔｈ２との大小関係を比較する。認証部２１５は、同様の処理を、類似度算出部１１４－３～１１４－ｎそれぞれから取得した、話者ｐに対して算出された類似度に対しても行う。この結果、話者ｐに関して、類似度と閾値との比較結果がｎ個得られる。

　ここでは、話者ｐに着目した場合について説明したが、認証部２１５は、登録された話者毎に、同様に、類似度と閾値との比較結果をｎ個導出する。

　そして、認証部２１５は、話者毎に、類似度が閾値よりも大きいという比較結果の数を特定する。さらに、認証部２１５は、入力音声が、その数が最大となる話者の音声であると判定する。

　認証部２１５の話者認証動作は、上記の例に限定されない。例えば、上記の例では、認証部２１５が、個々の前処理部１１１－１～１１１－ｎ毎に個別の閾値を保持する場合を例にして説明した。認証部２１５は、前処理部１１１－１～１１１－ｎに依存しない１種類の閾値を保持していてもよい。以下、認証部２１５が１種類の閾値を保持する場合における認証部２１５の動作例を示す。

　認証部２１５は、ｎ個の類似度算出部１１４－１～１１４－ｎそれぞれから、登録された話者毎の類似度を取得する。この点は、前述の場合と同様である。

　そして、認証部２１５は、登録された話者毎に、ｎ個の類似度算出部１１４－１～１１４－ｎそれぞれから取得した類似度の算術平均を算出する。例えば、登録された複数の話者のうち、話者ｐに着目するものとする。認証部２１５は、「類似度算出部１１４－１から取得した、話者ｐに対して算出された類似度」、「類似度算出部１１４－２から取得した、話者ｐに対して算出された類似度」、・・・、「類似度算出部１１４－ｎから取得した、話者ｐに対して算出された類似度」の算術平均を算出する。この結果、話者ｐに関する類似度の算術平均が得られる。

　認証部２１５は、同様に、登録された話者毎に、類似度の算術平均を算出する。

　そして、認証部２１５は、例えば、登録された話者毎に算出された類似度の算術平均と、保持している閾値とを比較し、類似度の算術平均が閾値よりも大きい話者を、入力された音声を発した話者として判定してもよい。また、類似度の算術平均が閾値よりも大きい話者が複数存在する場合、認証部２１５は、その話者の中で類似度の算術平均が最も大きい話者を、入力された音声を発した話者として判定してもよい。

　ここでは、認証部２１５がｎ種類の閾値を保持する場合の話者認証の動作、および、認証部２１５が１種類の閾値を保持する場合の話者認証の動作を説明した。第２の実施形態において、認証部２１５は、各類似度算出部１１４から取得した話者毎の類似度に基づいて、より複雑な演算によって、入力された音声を発した話者を特定してもよい。

　本例では、各音声処理部２１はそれぞれ、コンピュータによって実現されている。この場合、個々の音声処理部２１において、前処理部１１１、特徴量抽出部１１３および類似度算出部１１４は、例えば、音声処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、コンピュータのプログラム記憶装置等のプログラム記録媒体から音声処理プログラムを読み込み、そのプログラムに従って、前処理部１１１、特徴量抽出部１１３および類似度算出部１１４として動作すればよい。

　次に、第２の実施形態の処理経過について説明する。図６は、第２の実施形態の処理経過の例を示すフローチャートである。なお、既に説明した事項については、適宜、説明を省略する。また、第１の実施形態と同様の処理についても、説明を省略する。

　ステップＳ１～Ｓ４は、第１の実施形態におけるステップＳ１～Ｓ４と同様であり、説明を省略する。

　ステップＳ４の後、認証部２１５は、各類似度算出部１１４－１～１１４－ｎによって話者毎に算出された類似度に基づいて、話者認証を行う（ステップＳ１１）。ステップＳ１１において、認証部２１５は、ｎ個の類似度算出部１１４－１～１１４－ｎそれぞれから、登録された話者毎の類似度を取得する。そして、認証部２１５は、その類似度に基づいて、入力された音声が、登録された話者のうちどの話者の音声であるのかを判定する。

　この認証部２１５の動作の例については、既に説明したので、ここでは説明を省略する。

　次に、認証部２１５は、ステップＳ１１における話者認証の結果を出力装置（図５において図示略）に出力する（ステップＳ１２）。ステップＳ１２での出力態様は、特に限定されない。例えば、認証部２１５は、ステップＳ１１における話者認証の結果を、ディスプレイ装置（図５において図示略）に表示させてもよい。

　第２の実施形態においても、第１の実施形態と同様に、敵対的サンプルに対して頑強な話者認証システムを実現することができる。また、第１の実施形態では、各音声処理部１１が認証部１１５を備えている（図２参照）が、第２の実施形態では、各音声処理部２１は、そのような認証部を備えていない。よって、第２の実施形態では、各音声処理部２１を簡素化することができる。

　また、認証部２１５は、各類似度算出部１１４から取得した話者毎の類似度に基づいて、第１の実施形態とは異なる方法で、話者認証を実現することが可能となる。

　上記の第２の実施形態では、各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５がそれぞれ、別々のコンピュータによって実現されている場合を例にして説明した。以下では、各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５を備える話者認証システムが１台のコンピュータによって実現される場合を例にして説明する。このコンピュータは、図４と同様に表すことができるので、図４を参照して説明する。

　ディスプレイ装置１００６は、前述のステップ１１における話者認証の結果を表示するために用いられる。ただし、前述のように、ステップＳ１２（図６参照）での出力態様は、特に限定されない。

　各音声処理部２１－１～２１－ｎ、データ記憶部１１２、および、認証部２１５を備える話者認証システムの動作は、プログラムの形式で、補助記憶装置１００３に記憶されている。本例では、このプログラムを話者認証プログラムと記す。ＣＰＵ１００１は、話者認証プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、話者認証プログラムに従って、第２の実施形態における複数の音声処理部２１－１～２１－ｎ、および、認証部２１５として動作する。また、データ記憶部１１２は、補助記憶装置１００３によって実現されてもよく、あるいは、コンピュータ１０００が備える他の記憶装置によって実現されてもよい。

［具体例］
　次に、話者認証システムの構成の具体例を、第１の実施形態を例にして説明する。ただし、第１の実施形態で説明した事項については、適宜、説明を省略する。図７は、第１の実施形態の話者認証システムの構成の具体例を示すブロック図である。図７に示す例では、話者認証システムは、複数の音声処理装置３１－１～３１－ｎと、データ記憶装置３１２と、後処理装置３１６とを備える。なお、個々の音声処理装置を特に区別しない場合には、“－１”、“－２”、・・・、“－ｎ”を記載せずに、単に符号“３１”で音声処理装置を表わす。音声処理装置３１に含まれる演算装置を表わす符号“３１７”についても同様である。

　本例では、複数の音声処理装置３１－１～３１－ｎ、および、後処理装置３１６がそれぞれ、別々のコンピュータによって実現されているものとする。これらのコンピュータは、ＣＰＵと、メモリと、ネットワークインタフェースと、磁気記憶装置とを備える。例えば、音声処理装置３１－１～３１－ｎは、それぞれ、ＣＤ－ＲＯＭ等のコンピュータで読み取り可能な記録媒体からデータを読み取るための読み取り装置を備えていてもよい。

　音声処理装置３１はそれぞれ、演算装置３１７を備える。演算装置３１７は、例えば、ＣＰＵに相当する。個々の演算装置３１７は、音声処理装置３１の磁気記憶装置に記憶された音声処理プログラム、または、ネットワークインタフェースを介して外部から受信した音声処理プログラムをメモリ上に展開する。そして、個々の演算装置３１７は、その音声処理プログラムに従って、第１の実施形態における前処理部１１１、特徴量抽出部１１３、類似度算出部１１４および認証部１１５（図２参照）としての動作を実現する。ただし、演算部３１７毎に（換言すれば、音声処理装置３１毎に）、前処理の方式またはパラメータが異なる。

　後処理装置３１６のＣＰＵは、後処理装置３１６の磁気記憶装置に記憶されたプログラム、または、ネットワークインタフェースを介して外部から受信したプログラムをメモリ上に展開する。そして、そのＣＰＵは、そのプログラムに従って、第１の実施形態における後処理部１１６（図２参照）としての動作を実現する。

　データ記憶装置３１２は、例えば、一人以上の話者について、話者毎に、音声に関するデータを記憶する磁気記憶装置等であり、各演算装置３１７－１～３１７－ｎにデータを提供する。また、データ記憶装置３１２は、フレキシブルディスクやＣＤ－ＲＯＭのコンピュータで読み取り可能な記録媒体からデータを読み取るための読み取り装置を含むコンピュータで実現されていてもよい。そして、その記録媒体が、話者毎に、音声に関するデータを記憶していてもよい。

　図８は、図７に示す具体例における処理経過の例を示すフローチャートである。まず、演算装置３１７－１～３１７－ｎに、共通の音声が入力される（ステップＳ３１）。ステップＳ３１は、第１の実施形態におけるステップＳ１（図３参照）に相当する。

　そして、演算装置３１７－１～３１７－ｎが、第１の実施形態におけるステップＳ２～Ｓ５に該当する処理を実行する（ステップＳ３２）。

　後処理装置３１６は、演算装置３１７－１～３１７－ｎのそれぞれで得られた話者認証の結果に基づいて、１つの話者認証の結果を特定する（ステップＳ３３）。

　そして、後処理装置３１６は、ステップＳ３３で特定した話者認証の結果を出力装置（図７において図示略）に出力する（ステップＳ３４）。ステップＳ３４での出力態様は、特に限定されない。

　ステップＳ３３，Ｓ３４は、第１の実施形態におけるステップＳ６，Ｓ７に相当する。

　次に、本発明の概要を説明する。図９は、本発明の話者認証システムの概要の例を示すブロック図である。

　本発明の話者認証システムは、データ記憶部１１２と、複数の音声処理部１１と、後処理部１１６とを備える。

　データ記憶部１１２は、話者の音声に関するデータを記憶する。

　複数の音声処理部１１はそれぞれ、入力された音声と、データ記憶部１１２に記憶されたデータとに基づいて、話者認証を行う。

　後処理部１１６は、複数の音声処理部１１のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する。

　各音声処理部１１はそれぞれ、前処理部１１１と、特徴量抽出部１１３と、類似度算出部１１４と、認証部１１５とを備える。

　前処理部１１１は、音声に対して前処理を行う。

　特徴量抽出部１１３は、前処理によって得られた音声データから特徴量を抽出する。

　類似度算出部１１４は、その特徴量と、データ記憶部１１２に記憶されたデータから得られる特徴量との類似度を算出する。

　認証部１１５は、類似度算出部１１４によって算出された類似度に基づいて、話者認証を行う。

　そして、前処理の方式またはパラメータは、各音声処理部１１に含まれる前処理部１１１毎に異なる。

　そのような構成によって、敵対的サンプルに対する頑強性を実現することができる。

　図１０は、本発明の話者認証システムの概要の他の例を示すブロック図である。

　本発明の話者認証システムは、データ記憶部１１２と、複数の音声処理部２１と、認証部２１５とを備える。

　複数の音声処理部２１はそれぞれ、入力された音声から得られる特徴量と、データ記憶部１１２に記憶されたデータから得られる特徴量との類似度を算出する。

　認証部２１５は、複数の音声処理部２１のそれぞれで得られた類似度に基づいて、話者認証を行う。

　各音声処理部２１はそれぞれ、前処理部１１１と、特徴量抽出部１１３と、類似度算出部１１４とを備える。

　前処理部１１１は、音声に対して前処理を行う。

　そして、前処理の方式またはパラメータは、各音声処理部２１に含まれる前処理部１１１毎に異なる。

　そのような構成によっても、敵対的サンプルに対する頑強性を実現することができる。

　また、図９や図１０に概要を示した話者認証システムにおいて、各前処理部が、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、メルフィルタの次元数が、前処理部毎に異なっていてもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、話者認証システムに好適に適用される。

　１１－１～１１－ｎ　音声処理部
　１１１－１～１１１－ｎ　前処理部
　１１２　データ記憶部
　１１３－１～１１３－ｎ　特徴量抽出部
　１１４－１～１１４－ｎ　類似度算出部
　１１５－１～１１５－ｎ　認証部
　１１６　後処理部
　２１－１～２１－ｎ　音声処理部
　２１５　認証部

Claims

　話者の音声に関するデータを記憶するデータ記憶部と、
　入力された音声と、前記データ記憶部に記憶された前記データとに基づいて、話者認証を行う複数の音声処理部と、
　前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する後処理部とを備え、
　各音声処理部はそれぞれ、
　音声に対して前処理を行う前処理部と、
　前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部と、
　前記類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、
　前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
　ことを特徴とする話者認証システム。
　話者の音声に関するデータを記憶するデータ記憶部と、
　入力された音声から得られる特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する複数の音声処理部と、
　前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、
　各音声処理部はそれぞれ、
　音声に対して前処理を行う前処理部と、
　前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部とを含み、
　前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
　ことを特徴とする話者認証システム。
　各前処理部は、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、
　メルフィルタの次元数が、前処理部毎に異なる
　請求項１または請求項２に記載の話者認証システム。
　複数の音声処理部がそれぞれ、入力された音声と、話者の音声に関するデータを記憶するデータ記憶部に記憶された前記データとに基づいて、話者認証を行い、
　後処理部が、前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定し、
　各音声処理部がそれぞれ、
　音声に対して前処理を行い、
　前記前処理によって得られた音声データから特徴量を抽出し、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
　算出した類似度に基づいて、話者認証を行い、
　前記前処理の方式またはパラメータが、音声処理部毎に異なる
　ことを特徴とする話者認証方法。
　複数の音声処理部がそれぞれ、入力された音声から得られる特徴量と、話者の音声に関するデータを記憶するデータ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
　認証部が、前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行い、
　各音声処理部がそれぞれ、
　音声に対して前処理を行い、
　前記前処理によって得られた音声データから特徴量を抽出し、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出し、
　前記前処理の方式またはパラメータが、音声処理部毎に異なる
　ことを特徴とする話者認証方法。
　各音声処理部が、
　前処理として、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する処理を実行し、
　メルフィルタの次元数が、音声処理部毎に異なる
　請求項４または請求項５に記載の話者認証方法。
　コンピュータを、
　話者の音声に関するデータを記憶するデータ記憶部と、
　入力された音声と、前記データ記憶部に記憶された前記データとに基づいて、話者認証を行う複数の音声処理部と、
　前記複数の音声処理部のそれぞれで得られた話者認証結果に基づいて、１つの話者認証結果を特定する後処理部とを備え、
　各音声処理部はそれぞれ、
　音声に対して前処理を行う前処理部と、
　前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部と、
　前記類似度算出部によって算出された類似度に基づいて、話者認証を行う認証部とを含み、
　前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
　話者認証システムとして機能させるための話者認証プログラム。
　コンピュータを、
　話者の音声に関するデータを記憶するデータ記憶部と、
　入力された音声から得られる特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する複数の音声処理部と、
　前記複数の音声処理部のそれぞれで得られた類似度に基づいて、話者認証を行う認証部とを備え、
　各音声処理部はそれぞれ、
　音声に対して前処理を行う前処理部と、
　前記前処理によって得られた音声データから特徴量を抽出する特徴量抽出部と、
　前記特徴量と、前記データ記憶部に記憶された前記データから得られる特徴量との類似度を算出する類似度算出部とを含み、
　前記前処理の方式またはパラメータは、各音声処理部に含まれる前記前処理部毎に異なる
　話者認証システムとして機能させるための話者認証プログラム。
　コンピュータを、
　各前処理部が、入力された音声に短時間フーリエ変換を適用した後、メルフィルタを適用する前処理を実行し、
　メルフィルタの次元数が、前処理部毎に異なる
　話者認証システムとして機能させる請求項７または請求項８に記載の話者認証プログラム。