WO2014112375A1

WO2014112375A1 - 話者識別装置、話者識別方法、および話者識別用プログラム

Info

Publication number: WO2014112375A1
Application number: PCT/JP2014/000183
Authority: WO
Inventors: 真宏谷; 孝文越仲; 祥史大西; 茂澤田
Original assignee: 日本電気株式会社
Priority date: 2013-01-17
Filing date: 2014-01-16
Publication date: 2014-07-24
Also published as: US20150356974A1; JPWO2014112375A1; US10249306B2; JP6424628B2

Abstract

　話者識別装置は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを登録話者毎に算出する一次話者識別部１と、スコアの高さに応じて複数の登録話者を類似話者として選択する類似話者選択部２と、類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として類似話者毎の識別器を作成する学習部３と、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する二次話者識別部４とを備える。

Description

話者識別装置、話者識別方法、および話者識別用プログラム

　本発明は、話者識別装置、話者識別方法、および話者識別用プログラムに関し、特に、入力音声が予め登録された話者の誰によるものかを判定する、話者識別装置、話者識別方法、および話者識別用プログラムに関する。

　図６は、一般的な話者認識技術の概要を示す模式図である。一般的に、話者認識は、図６に示すように、話者識別と話者照合とに大別される。話者識別は、音声を入力し、入力音声が予め登録された話者の誰によるものかを判定し、話者のＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を出力する。ＩＤは、話者を一意に特定する識別子であり登録の際に話者に付与される。一方、話者照合は、音声およびＩＤを入力し、入力音声が入力ＩＤによるものか否か、つまり本人か否かを判定し、受理（Ａｃｃｅｐｔ）または拒否（Ｒｅｊｅｃｔ）を出力する。

　非特許文献１には、一般的な話者識別装置の一例が記載されている。図７は、一般的な話者識別装置の概略構成を示すブロック図である。図７に示すように、一般的な話者識別装置は、登録部１０と、識別部２０とを備える。登録部１０は、特徴抽出部１０１と学習部１０２とを含む。

　特徴抽出部１０１は、入力音声から話者識別に必要な特徴量を算出する。特徴量には、非特許文献２に記載されているメルケプストラム係数（ＭＦＣＣ；Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔ）が用いられる。

　学習部１０２は、算出された特徴量から話者モデルを作成する。話者モデルは、話者の音声の特徴を表現する確率モデルである。話者モデルとして、公知の混合ガウス分布モデル（ＧＭＭ；Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）が用いられる。話者モデルは、登録話者のＩＤに対応付けられて記憶される。

　識別部２０は、特徴抽出部２０１とスコア算出部２０２とを含む。特徴抽出部２０１の機能は、登録部１０の特徴抽出部１０１の機能と同じであり、入力音声から話者識別に必要な特徴量を算出する。スコア算出部２０２は、算出された特徴量と、予め登録された話者の話者モデルとを比較し、最もスコアの高い話者モデルに対応する話者ＩＤを、識別結果として出力する。スコアは、特徴量に対するモデルの尤度であり、尤度が高いほど入力音声と登録話者の音声が類似していることを意味する。

　非特許文献３には、一般的な話者照合装置の一例が記載されている。図８は、一般的な話者照合装置の概略構成を示すブロック図である。図８に示すように、一般的な話者照合装置は、登録部３０と、照合部４０とを備える。

　登録部３０は、特徴抽出部３０１と、特徴抽出部３０２と、学習部３０３とを含む。特徴抽出部３０１の機能と特徴抽出部３０２の機能は同じであり、入力音声から話者照合に必要な特徴量を算出する。特徴抽出部３０１は、登録する話者の音声を入力し、登録する話者の音声特徴量を出力する。一方、特徴抽出部３０２は、登録する話者以外の多数の話者の音声を入力し、登録する話者以外の多数の話者の音声特徴量を出力する。特徴量として、ＧＭＭスーパーベクトル（ＧＳＶ；ＧＭＭ　Ｓｕｐｅｒｖｅｃｔｏｒ）が用いられる。非特許文献３に記載されているように、ＧＳＶはＧＭＭで表現される話者モデルの平均ベクトルのみを抜き出して連結したスーパーベクトルである。つまり、ＧＳＶを算出するには、まず、音声から話者モデルを作成する必要がある。

　学習部３０３は、登録する話者の特徴量を正例、多数の話者の特徴量を負例として、識別器を学習する。識別器の学習には、公知のサポートベクトルマシン（ＳＶＭ；Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）が用いられる。ＳＶＭは、正例の特徴点と負例の特徴点を分離する平面（識別平面）を求める手法である。識別平面と特徴点との最短距離はマージンと呼ばれ、このマージンを最大化するように識別平面のパラメータが学習される。非特許文献４に、ＳＶＭのマージン最大化基準について記載されている。

　照合部４０は、特徴抽出部４０１と、スコア算出部４０２とを含む。特徴抽出部４０１の機能は、登録部３０の特徴抽出部３０１，特徴抽出部３０２の機能と同じであり、入力音声から特徴量であるＧＳＶを算出する。スコア算出部４０２は、算出された特徴量と、入力されたＩＤに対応する識別器とを用いて、２値のスコア（１または－１）を照合結果として出力する。この場合、スコア１は、入力音声と入力ＩＤは同一話者（本人）であることを意味し、スコア－１は、異なる話者（詐称者）であることを意味する。

　非特許文献１に記載されているＧＭＭで話者の音声をモデル化する方式は、話者識別だけでなく、話者照合にも用いることができる。非特許文献３では、ＧＭＭに基づく方式と、前述のＳＶＭに基づく方式の照合精度が比較されており、後者の方が高い精度が得られている。一方、話者識別にＳＶＭを用いる効果的な方式はなく、ＧＭＭに基づく方式が主流となっている。

D. A. Reynolds and R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,"IEEE Trans. Speech Audio Processing, 1995, Vol. 3，No. 1, pp.72-83 鹿野清宏, 伊藤克亘, 河原達也, 武田一哉, 山本幹雄著, "音声認識システム,"株式会社オーム社, 2001, pp.13-15 W. M. Campbell, D. E. Sturim and D. A. Reynolds, "Support Vector Machines Using GMM Supervectors for Speaker Verification," IEEE Signal Processing Letters, 2006 , Vol. 13, No. 5, pp.308-311 Nello Cristianini, John Shawe-Taylor著, "サポートベクターマシン入門," 共立出版, 2005, pp.130-149

　上記のような一般的な話者識別装置の問題点は、音声の特徴が類似した話者が複数名登録されている場合、これら類似した話者の識別精度が低いことである。その理由は、登録する話者の音声の特徴のみに基づいて話者識別するためである。

　本発明は、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる、話者識別装置、話者識別方法および話者識別プログラムを提供することを目的とする。

　本発明による話者識別装置は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別部と、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択部と、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習部と、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別部とを備えたことを特徴とする。

　本発明による話者識別方法は、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出し、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択し、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成し、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力することを特徴とする。

　本発明による話者識別プログラムは、コンピュータに、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別処理と、前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択処理と、前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習処理と、前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別処理とを実行させることを特徴とする。

　本発明によれば、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる。

本発明による話者識別装置の第１の実施形態および第２の実施形態の構成を示すブロック図である。本発明による話者識別装置の第１の実施形態の動作の具体例を示す説明図である。ＳＶＭによる識別器学習の具体例を示す説明図である。本発明による話者識別装置の第１の実施形態の動作を示すフローチャートである。本発明による話者識別装置の第２の実施形態の動作を示すフローチャートである。一般的な話者認識技術の概要を示す模式図である。一般的な話者識別装置の概略構成を示すブロック図である。一般的な話者照合装置の概略構成を示すブロック図である。本発明による話者識別装置の主要部の構成を示すブロック図である。

実施形態１．
　次に、本発明の第１の実施形態（実施形態１）を、図面を参照して説明する。図１は、本実施形態の話者識別装置の構成を示すブロック図である。図２は、本実施形態の話者識別装置の動作の具体例を示す説明図である。

　図１に示すように、本実施形態の話者識別装置は、一次話者識別部１と、類似話者選択部２と、学習部３と、二次話者識別部４と、登録話者ＤＢ（ＤａｔａＢａｓｅ：データベース）５とを備える。一次話者識別部１、類似話者選択部２、学習部３、および二次話者識別部４は、例えば、特定の演算処理等を行うよう設計されたハードウェア、またはプログラムに従って動作するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の情報処理装置によって実現される。図２に示す動作の具体例では、一次話者識別にＧＭＭに基づく方式を用い、二次話者識別にＳＶＭに基づく方式を用いる。

　一次話者識別部１は、入力音声と登録話者ＤＢ５に予め記憶された登録話者の音声とを比較し、入力音声との類似度を表すスコアを登録話者毎に算出する。スコアは、具体的には、入力音声（特徴量）に対する話者モデルの尤度である。

　登録話者ＤＢ５は、登録話者の音声の特徴をモデル化した話者モデルを、登録話者の数だけ記憶している。図２に示す例では、非特許文献１に記載された方法で、登録話者の音声の特徴がＧＭＭによりモデル化されている。ただし、話者モデルはＧＭＭでなくてもよい。話者の音声の特徴を表現することができれば、例えば、話者モデルは、公知の隠れマルコフモデル（ＨＭＭ；Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）でもよい。

　なお、一次話者識別部１は、多段階で識別処理するように構成されていてもよい。例えば、二段階処理の場合、登録話者ＤＢ５は、軽量版と通常版の話者モデルを記憶している。この場合、一次話者識別部１は、まず入力音声と軽量版の話者モデルとを比較しスコアを登録話者毎に計算する。そして、一次話者識別部１は、スコアの高い話者を絞り込み、入力音声と絞り込んだ話者に対応する通常版の話者モデルとを比較しスコアを計算する。軽量版と通常版の違いは、例えば、話者モデルがＧＭＭである場合、ＧＭＭの混合数の違いである。一次話者識別部１は、比較的混合数の少ないＧＭＭを軽量版（例えば、混合数８）として用いて話者識別した後、比較的混合数の多いＧＭＭ（例えば、混合数５１２）を通常版として用いて、軽量版で絞り込んだ話者を識別する。このように、二段階で識別処理することにより（三段階以上の多段階も同様）、一次話者識別部１の処理を高速化することができる。

　類似話者選択部２は、一次話者識別部１が出力した、登録話者とスコアの組から、スコアの高い上位Ｎ人を類似話者として選択する。図２に示す例では、類似話者選択部２は、尤度１位（＃１）の話者Ｂから尤度Ｎ位（＃Ｎ）の話者Ｖまでを類似話者として選択する。Ｎの値は、事前に設定される。

　学習部３は、サポートベクトルマシン（ＳＶＭ）を用いた手法により、類似話者毎の識別器を作成する。学習部３は、具体的には、類似話者選択部２が出力した類似話者Ｎ人に対応する登録話者データＮ個を用いて、類似話者のうち、ある１人の話者データを正例、残りのＮ－１人の話者データを負例として、類似話者毎にＮ個の識別器を作成する。図３は、ＳＶＭによる識別器学習の具体例を示す説明図である。図３に示すように、尤度１位（＃１）の話者Ｂについての識別器を作成する場合、Ｂに対応する話者モデル（ＧＭＭ）から得られる特徴量（ＧＳＶ）を正例、Ｂ以外の類似話者（Ａ，…，Ｖ）に対応する話者モデル（ＧＭＭ）から得られる特徴量（ＧＳＶ）を負例とする。そして、学習部３は、非特許文献４に記載されているＳＶＭのマージン最大化基準により、マージンが最大となる識別平面のパラメータを学習する。学習部３は、尤度２位～Ｎ位の話者Ａ～Ｖについても、前述の話者Ｂと同様の手順で、話者毎に識別器を作成する。ただし、識別器は、ＳＶＭでなくてもよく、例えば、公知のニューラルネットワークを用いたものでもよい。

　なお、学習部３は、Ｎ－１人の話者データを負例として用いなくてもよく、一次話者識別部１のスコア上位Ｍ人の話者データを負例として用いてもよい。例えば、学習部３は、Ｎが小さい場合、上位Ｍ（Ｍ＞Ｎ－１）人の話者データを負例として用い、Ｎが大きい場合、上位Ｍ（Ｍ＜Ｎ－１）人を負例として用いるようにしてもよい。前者の方法は、学習データ不足による後段（二次話者識別部４）の識別精度の劣化を抑制し、後者の方法は、学習処理を高速化することができる。

　さらに、学習部３は、過去に本実施形態の話者識別装置を使用した履歴として、類似話者ＩＤが列挙された類似話者ＩＤリストと識別器の組を保存しておいてもよい。そして、類似話者選択部２が選択した類似話者ＩＤリストと、履歴の類似話者ＩＤリストとに差分が出た場合にのみ、学習部３が、識別器を作成するようにしてもよい。そして、差分がない場合は、学習部３は、履歴における識別器を出力する。学習部３は、履歴と差分が出た場合にのみ識別器を作成することにより、学習処理を高速化（スキップ）することができる。

　二次話者識別部４は、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する。二次話者識別部４は、具体的には、入力音声を学習部３が出力したＮ個の識別器に入力し、最も高いスコアを示した識別器に対応する登録話者ＩＤを最終的な識別結果として出力する。このスコアは、例えば、入力音声の特徴点から識別平面までの距離である。図２に示す例では、まず、二次話者識別部４は、登録時と同様の手続きで入力音声を用いて、話者モデル（ＧＭＭ）を１つ作成し、特徴量（ＧＳＶ）を得る。そして、二次話者識別部４は、識別器毎に、入力音声から抽出した特徴点（ＧＳＶ）から識別平面までの距離を計算し、最も距離が大きい特徴点に対応する登録話者のＩＤを最終識別結果として出力する。特徴点が式（１）のように表され（Ｒは実数集合、ｋは特徴量の次元数）、識別平面が式（２）のように表されるとき（ｗは重みベクトル、ｂはバイアス）、特徴点から識別平面までの距離は、式（３）により求められる。

　次に、本実施形態の話者識別装置の全体の動作を説明する。図４は、本実施形態の話者識別装置の動作を示すフローチャートである。

　まず、一次話者識別部１は、入力音声と登録話者ＤＢ５に記憶された音声とを比較し、入力音声との類似度を表すスコアを登録話者毎に計算する（ステップＡ１）。登録話者ＤＢ５には、登録話者の話者モデルが記憶されている。スコアは、入力音声に対する話者モデルの尤度である。

　次に、類似話者選択部２は、ステップＡ１の処理で得られた、登録話者とスコアの組から、スコアの高い上位Ｎ人を類似話者として選択する（ステップＡ２）。

　次に、学習部３は、ステップＡ２の処理で得られた、類似話者Ｎ人に対応する登録話者データＮ個を用いて、類似話者の内、ある１人の話者データを正例、残りのＮ－１人の話者データを負例として、類似話者毎にＮ個の識別器を作成する（ステップＡ３）。登録話者データは、例えば、ＧＭＭで表現される話者モデルから抽出したＧＭＭスーパーベクトル（ＧＳＶ）である。

　最後に、二次話者識別部４は、入力音声を、ステップＡ３で得られた識別器Ｎ個それぞれに入力し、スコアを算出し、最も高いスコアを示した識別器に対応する登録話者ＩＤを最終的な話者識別の結果として出力する（ステップＡ４）。スコアは、例えば、識別器がＳＶＭによるものである場合、入力音声から抽出した特徴点から識別平面までの距離である。

　次に、本実施形態の効果を説明する。本実施形態の話者識別装置は、識別器を用いて入力音声を識別するため、音声の特徴が類似した話者が複数名登録されている場合でも、高精度な話者識別を実現できる。また、本実施形態の話者識別装置は、入力音声と所定の類似度を有する登録話者の音声に関してのみ識別器を作成するので、識別処理を効率良く行うことができる。

　また、識別器を事前に作成せず、本実施形態の話者識別装置のようにオンザフライで作成することによる効果を詳細に説明する。オンザフライでの作成は、事前に作成する場合と比較して、新たに話者を登録する際の計算リソースが少ないという効果がある。事前に識別器を作成する場合、例えば、登録された話者数が１万人のとき、ある話者１人を正例、残りの９９９９人を負例として学習した識別器を１万個作成しておく。ここで、新規話者１人（１万１人目）を登録する場合、既に作成した１万個の識別器を一から再作成する必要がある。特徴量に前述のＧＳＶ、識別器に前述のＳＶＭを用いる場合、一般にＧＳＶは高次元であるため（例えば、話者モデルが混合数５１２、次元数４０のＧＭＭの場合、ＧＳＶは５１２×４０＝２０４８０次元）、１万個の識別器の再作成は非常に時間が掛かり、非現実的である。オンザフライで作成する場合は、新規話者が登録される度に、多量の識別器を一から再作成する必要はない。本実施形態の話者識別装置のように、類似話者のみ（例えば、類似話者２０人のみ）で識別器をオンザフライで作成することにより、はじめて話者識別装置が現実的なものとなる。

実施形態２．
　次に、第２の実施形態（実施形態２）を、図面を参照して説明する。本実施形態の話者識別装置の構成は、図１に示す第１の実施形態の話者識別装置の構成と同じであるため、図１に示す構成を用いて説明する。本実施形態の話者識別装置は、類似話者選択部２の機能のみが、第１の実施形態の話者識別装置と異なるため、類似話者選択部２以外の構成に関しては説明を省略する。

　類似話者選択部２は、一次話者識別部１が出力した登録話者と入力音声との類似度を表すスコアの組を入力し、登録話者に対応するスコアと、あらかじめ設定したスコアの閾値とを比較する。そして、類似話者選択部２は、閾値以上のスコアに対応する登録話者を類似話者として選択する。つまり、類似話者数は、入力音声によって動的に変更される。

　次に、本実施形態の話者識別装置の動作を説明する。図５は、本実施形態の話者識別装置の動作を示すフローチャートである。

　図５に示すステップＡ１１、Ａ１３、Ａ１４は、図４に示した第１の実施形態におけるステップＡ１、Ａ３、Ａ４と同一のステップであるため説明を省略する。

　類似話者選択部２は、ステップＡ１１の処理で得られた、登録話者とスコアの組から、登録話者に対応するスコアと、あらかじめ設定したスコアの閾値とを比較し、閾値以上のスコアに対応する登録話者を類似話者として選択する（ステップＡ１２）。

　次に、本実施形態の話者識別装置の効果を説明する。本実施形態では、類似話者選択部２が、あらかじめ設定したスコア閾値以上のスコアに対応する登録話者を類似話者として選択する。したがって、類似話者数を固定する方法と比較して、類似度が高い話者の選択漏れや、類似度が低い話者の選択を抑制できる。前者が抑制できれば識別精度を向上できる。後者が抑制できれば識別速度を向上できる。

　図９は、本発明による話者識別装置の主要部の構成を示すブロック図である。図９に示すように、本発明による話者識別装置は、主要な構成として、入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを登録話者毎に算出する一次話者識別部１と、スコアの高さに応じて複数の登録話者を類似話者として選択する類似話者選択部２と、類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として類似話者毎の識別器を作成する学習部３と、入力音声に対する識別器のスコアを識別器毎に算出し、識別結果を出力する二次話者識別部４とを備える。

　また、上記の実施形態には、以下の（１）～（４）に記載された話者識別装置も開示されている。

（１）学習部（例えば、学習部３）は、類似話者選択部（例えば、類似話者選択部２）が過去に選択した類似話者と、学習部が過去に作成した識別器との組を履歴として予め保存し、履歴における類似話者と類似話者選択部が選択した類似話者とに差分がある場合にのみ、識別器を作成する話者識別装置。このような話者識別装置によれば、履歴と差分が出た場合にのみ識別器を作成することで、学習処理を高速化（スキップ）することができる。

（２）話者識別装置は、類似話者選択部が、予め設定された数の類似話者を選択するように構成されていてもよい。

（３）話者識別装置は、類似話者選択部が、予め設定されたスコアの閾値を基準に類似話者を選択するように構成されていてもよい。学習データ不足による後段（二次話者識別部４）の識別精度の劣化を抑制し、または、学習処理を高速化することができる。

（４）話者識別装置は、識別器が、ＳＶＭであり、識別器のスコアは、入力音声の特徴点から識別平面までの距離であるように構成されていてもよい。

　この出願は、２０１３年１月１７日に出願された日本出願特願２０１３－００６３５０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、入力音声から人物を特定する話者識別装置や、話者識別装置をコンピュータで実現するためのプログラム等の用途に適用できる。また、指紋、顔、筆跡、虹彩による人物特定と同様に、或いは組み合わせて、人物を特定する人物検索装置等の用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与する装置、コンテンツを検索するコンテンツ検索装置等の用途にも適用できる。

　１　一次話者識別部
　２　類似話者選択部
　３　学習部
　４　二次話者識別部
　５　登録話者ＤＢ

Claims

　入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別部と、
　前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択部と、
　前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習部と、
　前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別部とを備えた
　ことを特徴とする話者識別装置。
　学習部は、
　類似話者選択部が過去に選択した類似話者と、前記学習部が過去に作成した識別器との組を履歴として予め保存し、前記履歴における類似話者と前記類似話者選択部が選択した類似話者とに差分がある場合にのみ、識別器を作成する
　請求項１記載の話者識別装置。
　類似話者選択部は、予め設定された数の類似話者を選択する
　請求項１または請求項２記載の話者識別装置。
　類似話者選択部は、予め設定されたスコアの閾値を基準に類似話者を選択する
　請求項１または請求項２記載の話者識別装置。
　識別器は、ＳＶＭであり、前記識別器のスコアは、入力音声の特徴点から識別平面までの距離である
　請求項１から請求項４のうちのいずれか１項に記載の話者識別装置。
　入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出し、
　前記スコアの高さに応じて複数の前記登録話者を類似話者として選択し、
　前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成し、
　前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する
　ことを特徴とする話者識別方法。
　コンピュータに、
　入力音声と予め記憶されている登録話者の音声との類似度を示すスコアを前記登録話者毎に算出する一次話者識別処理と、
　前記スコアの高さに応じて複数の前記登録話者を類似話者として選択する類似話者選択処理と、
　前記類似話者のうち、ある類似話者の音声を正例とし、他の類似話者の音声を負例として前記類似話者毎の識別器を作成する学習処理と、
　前記入力音声に対する前記識別器のスコアを前記識別器毎に算出し、識別結果を出力する二次話者識別処理と
　を実行させるための話者識別プログラム。