JPWO2007111169A1

JPWO2007111169A1 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Info

Publication number: JPWO2007111169A1
Application number: JP2008507435A
Authority: JP
Inventors: 外山　聡一; 聡一外山
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2006-03-24
Filing date: 2007-03-16
Publication date: 2009-08-13
Anticipated expiration: 2027-03-16
Also published as: US20090106025A1; JP4854732B2; WO2007111169A1

Abstract

話者認識システム（１）における話者モデル登録装置（１０）は、話者認識システムにおいて話者認識用の話者モデルを登録する。話者モデル登録装置は、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段（１３）と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段（２０）と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段（３０）と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段（４０）とを備える。

Description

本発明は、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムの技術分野に関し、特に該システムにおける話者モデル登録装置及び方法、並びにコンピュータをそのような話者モデル登録装置として機能させるコンピュータプログラムの技術分野に関する。

この種の話者認識システムには、認識に用いられる発話されたテキストが予め登録されているテキスト固定型或いはテキスト依存型と、このような登録が不要であり任意のテキストについて認識を行うテキスト独立型或いは非テキスト依存型と、認識の際或いは都度に認識にテキストが指定されるテキスト指定型の三種類がある。これらのうちテキスト依存型については実用化の域に達しており、各種の提案がなされている（特許文献１参照）。

特開２００４−２９４７５５号公報

しかしながら、例えば前述の特許文献１に開示されている技術によれば、登録の際に、登録用の発話に係るテキストをキーボード等により入力しなければならず、使い勝手が良いとはいえない。更に、登録の都度に、新たに登録しようとする発話情報と、何らかの照合情報とを照合して、それら両者間の類似性の高低に応じて、再度発話させるか、その発話を登録するかを選択的に実行することを要する。このため、その処理は複雑化し、ユーザによる操作も煩雑化してしまうという技術的問題点がある。

加えて、いずれの従来技術においても、登録の段階で、発話に外部の雑音が混入したり、話者が意図に反して再現性なく発話（例えば声が裏返ったり震えたり）してしまった際に、登録された発話モデルが信頼性のないものとなり、最終的な話者認識の精度も無視し得ない程に落ちてしまう。或いは、これを回避するために登録動作において多数回のやり直しが求められたることで、登録自体が実践的に困難となるという問題点もある。

本発明は、例えば上述した問題点に鑑みてなされたものであり、話者認識に係るテキストを登録する際における、コンピュータ上の処理及びユーザによる操作が比較的簡単である話者認識システムにおける話者モデル登録装置及び方法、このような話者モデル登録装置を備えた話者認識システム、並びにコンピュータをこのような話者モデル登録装置として機能させるコンピュータプログラムを提供することを課題とする。

（話者認識システムにおける話者モデル登録装置）
本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備える。

本発明に係る、話者認識システムにおける話者モデル登録装置によれば、話者認識システムにおける話者モデルの登録段階で、次のように登録がなされる。

即ちその動作時には、先ず、例えばマイクロホン、プロセッサ、メモリ等を有してなる取得手段によって、例えばマイクロホンからの音声信号のうち話者に係る音声部分を抽出する音声抽出や更にその中からの特徴量の算出など、発話の取得が行われる。ここで特に、典型的には話者に同一テキストを繰り返し発話させるなどによって、このような発話の取得がｎ＋α回行われる。ここに「発話」とは、話者認識の全過程を通じていずれかの段階で用いられる、ユーザたる話者により発話されたテキストに係る音声或いは音声情報を意味する。

すると、例えばプロセッサ、メモリ等を有してなる算出手段によって、該取得されたｎ回の発話が登録用発話として選ばれた上で、話者モデルの算出が行われる。ここに「登録用発話」とは、発話のうち登録に用いられるものを意味する。登録用発話は、少なくとも登録用に用いられていれば足り、結果的に有効な登録が行われた際に用いられたものには限られない。

続いて、例えばプロセッサ、メモリ等を有してなる照合手段によって、取得手段により取得されたα回の発話が照合用発話として選ばれた上で、このように算出が行われた話者モデルの照合が行われる。ここに「照合用発話」とは、発話のうち照合に基準として、即ち比較対象或いは比較基準として、用いられるものを意味する。照合用発話は、少なくとも照合用に用いられていれば足り、結果的に有効な照合が行われた際に用いられたものには限られない。特に本発明では、従来、実際の話者認識の際に用いられるのではなく、ここでの照合用発話は登録の段階で用いられている。

尚、算出手段は、取得されたｎ回の発話を、登録用発話として、受動的又は能動的に選び、照合手段は、取得されたα回の発話を、照合用発話として、受動的又は能動的に選ぶ。ここに「受動的」とは、予め決められた規則に従って、例えば最初からｎ回目までの（例えば、最初の３回の）発話を登録用発話として選択し、例えばｎ回目以降最後までをα回として、その（例えば、４回目のみの）発話を照合用発話として選択するといった、特に、算出手段や照合手段がどれを選ぶかについて何ら能動的に作用しない場合を意味する。逆に「能動的」とは、例えば結果として相対的に良い照合の結果が得られる際のｎ回やα回などの発話を登録用発話や照合用発話として選択するといった、算出手段や照合手段がどれを選ぶかについて能動的に作用する場合、言い換えれば、系統立った或いは試行錯誤的な動作を含む何らかの選択動作を伴って選択を行う場合を意味する。

その後、例えばプロセッサ、メモリ、データベース等を有してなる登録手段によって、照合手段による照合の結果が所定基準を満たす話者モデルが、話者認識用の話者モデルとして登録される。言い換えれば、該照合の結果が所定基準を満たさない話者モデルについては、話者認識用の話者モデルとして登録されることはない。

以上の結果、本発明によれば、実践的にはよくあるように、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザたる話者による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極めて信頼性の高い話者認識が可能となる。

本発明に係る、話者認識システムにおける話者モデル登録装置の一態様では、前記登録手段は、前記所定基準として、前記α回のうちにβ（但し、βは１以上α以下の整数）回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録する。

この態様によれば、α回のうちにβ回以上、話者本人として受け入れることが可能な場合に、登録手段によって、話者認識用の話者モデルとして登録される。逆に、α回のうちにβ回以上、話者本人として受け入れることが不可能な場合に、登録手段によって、話者認識用の話者モデルとして登録されることはない。ここでの照合の結果が所定基準を満たすか否かの判断は、登録手段が行ってもよいし、照合手段が行ってもよい。従って、登録手段によって、信頼性の高い話者モデルの登録を確実に行える。

本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合が行われた話者モデルを破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備える。

この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、例えば表示装置、音声出力装置、コントローラ或いはプロセッサ、メモリ等を有してなる催促手段によって、照合が行われた話者モデルが破棄された上で、取得手段による発話の取得が催促される。例えば、表示画面上における表示出力や話者モデル登録装置前の音場における音声出力を通じて、ユーザである話者に対して、再度の発話が促される。従って、信頼性の低い話者モデルの登録を回避しつつ、登録手段によって、信頼性の高い話者モデルの登録を確実に行える。

或いは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記ｎ＋α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う。

この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、算出手段によって、ｎ＋α回取得された、即ちｎ＋α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、再度話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方を変えて話者モデルの算出からやり直すことで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

或いは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記ｎ＋α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を再度行う。

この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、照合手段によって、ｎ＋α回取得された、即ちｎ＋α個存在する発話の中から、照合用発話として選ばれるものが変えられた上で、再度照合が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、照合用発話の選び方を変えて発話の照合からやり直すことで、該雑音等による照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

或いは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記算出手段は、前記ｎ＋α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録する。

この態様によれば、登録の成否や照合の結果の如何を問わずに、算出手段によって、ｎ＋α回取得された、即ちｎ＋α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、複数通りの話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方を変えて話者モデルの算出が問題なく実行された場合を採用することで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

或いは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記照合手段は、前記ｎ＋α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を複数通り行い、前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録する。

この態様によれば、登録の成否や照合の結果の如何を問わずに、照合手段によって、ｎ＋α回取得された、即ちｎ＋α個存在する発話の中から、照合用発話として選ばれるものが変えられた上で、複数通りの照合が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、照合用発話の選び方を変えて照合が問題なく実行された場合を採用することで、該雑音等による照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

（話者認識システム）
本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置（但し、その各種態様を含む）と、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段とを備える。

本発明に係る、一の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。

本発明に係る、他の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置（但し、その各種態様を含む）を備え、前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能する。

本発明に係る、他の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。しかも、登録の際に用いられる照合手段は、認識の際に用いられる認識手段を兼ねるので、システム構成の単純化を図ることができ極めて有利である。

本発明に係る、一又は他の話者認識システムの一態様では、前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行う。

この態様によれば、類似度に基いての各種認識技術を利用しての認識を行うことによって、信頼性の高い話者認識が可能となる。

（話者認識システムにおける話者モデル登録方法）
本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得工程と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出工程と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程とを備える。

本発明に係る、話者認識システムにおける話者モデル登録方法によれば、上述した本発明に係る話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。

尚、本発明の話者モデル登録方法においても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

（コンピュータプログラム）
上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納するＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の記録媒体から、当該コンピュータプログラムを、話者モデル登録装置に備えられたコンピュータに読み込んで実行させれば、或いは、当該コンピュータプログラムを通信手段を介してダウンロードさせた後に実行させれば、上述した本発明の話者モデル登録装置を比較的簡単に構築できる。これにより、上述した本発明の話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。

尚、本発明のコンピュータプログラムにおいても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

上記課題を解決するために、コンピュータ読取可能な媒体内のコンピュータプログラム製品は、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納するＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウンロードすれば、上述した本発明の話者モデル登録装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の話者モデル登録装置として機能させるコンピュータ読取可能なコード（或いはコンピュータ読取可能な命令）から構成されてよい。

以上詳細に説明したように、本発明の話者モデル登録装置によれば、算出手段、照合手段及び登録手段を備え、本発明の話者モデル登録方法によれば、算出工程、照合工程及び登録工程を備えるので、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。本発明の話者認識システムによれば、本発明の話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。更に、本発明のコンピュータプログラムによれば、コンピュータを算出手段、照合手段及び登録手段として機能させるので、上述した本発明の話者モデル登録装置を、比較的容易に構築できる。

本発明の作用及び他の利得は次に説明する実施例から明らかにされよう。

本発明の第１実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。第２実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。第２実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。第３実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。第４実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。第５実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。第６実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。

符号の説明

１話者認識システム
１０話者モデル登録装置
１３取得部
２０算出部
３０照合部
４０登録部
５０催促部
１３２マイクロホン
１４２音声部分抽出部
２０１特徴量算出部
２０２話者モデル算出部
３０照合部
４１検証・登録部
４５話者モデルデータベース
５２表示画面

以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。

（１）第１実施例
第１実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図１を参照して説明する。ここに、図１は、本発明の第１実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。

図１において、本実施例に係る話者認識システム１における話者モデル登録装置１０は、本発明に係る「取得手段」の一例としての取得部１３と、本発明に係る「算出手段」の一例としての算出部２０と、本発明に係る「照合手段」及び「認識手段」の一例としての照合部３０と、本発明に係る「登録手段」の一例としての登録部４０と、本発明に係る「催促手段」の一例としての催促部５０とを備える。

取得部１３は、例えばマイクロホンのような音声入力機器を含んで成り、話者の登録を行う際、話者であるユーザ１２（例えば鈴木さん）が任意に定めたキーワード（例えば「ひらけごま」）の発話（実際には、発話の波形データ１４）をｎ＋α回取得してメモリ等に保存する。ここにｎは、登録用発話の数、即ち話者モデル２５を算出して登録するにあたり必要とされる発話回数であり、αは、照合用発話の数、即ち算出された話者モデル２５が適切か否かを照合するために必要とされる発話の回数である。例えば図１においてはｎ＝３、即ち３回の発話に基いて話者モデル２５（例えば、鈴木モデル）が算出され、α＝１、即ち１回の照合用発話に基いて話者モデル２５が照合される。

算出部２０は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、取得部１３によって取得された発話のうちｎ回の発話に基いて、ユーザ１２（鈴木さん）がキーワードを発話したときの特徴をとらえた話者モデル２５を算出する。

照合部３０は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、ユーザ１２（鈴木さん）が余分に発話したα回の発話を照合用発話とし、該照合用発話と算出された話者モデル２５との照合を行う。例えば、ユーザ１２（鈴木さん）本人の１回の照合用発話と算出された話者モデル２５との照合を行う。加えて、当該照合部３０は、認識手段として機能してもよい。

登録部４０は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、算出部２０によって算出された話者モデル２５のうち、照合部３０による照合の結果、所定基準を満たすものを、話者認識用の話者モデル２５として、例えばコンピュータが備えるハードディスク装置、光ディスク装置等の大規模記憶装置内に構築された話者モデルデータベース４５に正式に登録する。例えば、予めユーザ１２（鈴木さん）本人の発話と分かっている１回の照合用発話と、算出された話者モデル２５との照合を行い、鈴木さん本人であることが正しく認識されれば、この話者モデル２５は適切である或いは正常に機能するという検証がなされ、話者モデルデータベース４５に登録される。この照合の際、ネガティブコントロールとして、本人以外の人間、例えば鈴木さんに代えて佐藤さんの発話を照合用発話とし、本人でないことも認識されれば、一層適切な話者モデル２５を登録できる。

催促部５０は、算出部２０によって算出された話者モデル２５のうち、照合部３０による照合の結果、所定基準を満たすものがない場合、算出部２０によって算出された話者モデル２５或いは該話者モデル２５の元となる発話に問題がある或いは不適切であるとして、ユーザ１２に再度登録用の発話を催促する。例えば、ディスプレイに「再度発話をして下さい」等の催促用メッセージを表示したり、音声出力したりする。そして、この催促部５０により催促されることがなくなるまで、換言すれば、話者認識用の話者モデル２５が登録されるまで、上記構成に基づく処理が行われる。

加えて、上記話者モデル登録装置１０を備える話者認識システム１が話者認識を行う際は、以下の認識部３０を更に備えるとよい。

認識部３０は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、話者認識時には、認識を求める任意の話者（ここでの話者つまりユーザ１２は、話者モデル２５を登録した本人に限られない。例えば、鈴木さんに成りすまそうとする第三者が含まれる）の発話と、登録された話者モデル２５とを照合することで、認識を求める任意の話者が、登録された話者モデル２５の話者本人であるか否かを認識する。具体的には、照合の結果、類似度等が所定基準を満たす場合には、認識を求める任意の話者は登録された話者モデル２５の話者であると認識し、満たさない場合には、話者でないと認識する。

以上、図１に示すように構成された話者認識システム１における話者モデル登録装置１０によると、話者認識用の話者モデル２５が好適に登録されることとなる。この際特に、実践的にはよくあるように、ユーザ１２による発話に混入した雑音や、ユーザ１２による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザ１２による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極めて信頼性の高い話者認識が可能となる。

（２）第２実施例
続いて、第２実施例に係る話者認識システム１における話者モデル登録装置１０の構成及び基本的な動作を、図２及び図３を参照して説明する。ここに、図２は、第２実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。尚、図２及び図３において、上記図１に示した第１実施例に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。

図２において、マイクロホン１３２は、ユーザ２がキーワードの発話をｎ回行う際、該発話を夫々電気信号に変換して話者認識システム１に入力する機器である。

音声部分抽出部１４２は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、背景雑音と音声発話区間とのパワー差を利用する一般的な音声区間検出方法等により、変換された発話の電気信号からキーワードが発話されている発話音声部分を切り出す演算装置である。

特徴量算出部２０１は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、入力された発話音声部分を特徴量に変換する。かかる特徴量は、MFCC（Mel Frequency Cepstrum Coefficient：ＭＦＣＣ）、LPC（Linear Predictive Coding：ＬＰＣ）ケプストラム等によって変換される演算装置である。そして、特徴量が複数ある場合には、その一部（例えば、ｎ回分）を話者モデル算出部２０２へ、他の一部（例えば、α回分）を検証・登録部４１へ送信する。

話者モデル算出部２０２は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、特徴量算出部２０１で算出された特徴量のうちｎ回分を用いて、照合に用いる話者モデルを算出し学習する演算装置である。ここに、話者モデルは、話者ＨＭＭ（Hidden Markov Model：ＨＭＭ）やＤＰ（Dynamic Programming：ＤＰ）マッチング等の各種音声認識アルゴリズムにおける話者テンプレートとして表される。

照合部３０は、第１実施例の場合と同様に、話者モデル算出部２０２で算出された話者モデルと照合用の特徴量との照合を行い類似度を算出する演算装置である。尚、類似度としては、尤度又は距離尺度の逆数が用いられる。類似度として距離尺度の逆数が用いられる場合、逆数であるが故に制御方法を適宜変更する必要がある。具体的には、検証・登録部４１で所定閾値と比較する際の不等号の向きを逆にする。

検証・登録部４１は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、照合部３０で算出された類似度と所定の閾値と比較することで、算出された話者モデルを用いてα回分の各照合用の特徴量が本人と認識されるか否か、言い換えれば算出された話者モデルを話者モデルデータベース４５に登録してもよいか否かを検証する演算装置及び記録装置である。そして、登録してもよいと検証された話者モデルを検証・登録部４１は、話者モデルデータベース４５に登録する。

表示画面５２は、例えば液晶ディスプレイ等であり、検証結果或いは催促通知のメッセージを表示する表示機器である。

以上、図２のように構成される話者モデル登録装置１０により、話者認識用の話者モデルを登録する際の処理を図３を用いて説明する。ここに、図３は、第２実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

図３において先ず、例えばユーザが開始ボタンを押す等して登録が開始されると、このユーザに対し、マイクロホン１３２に向かってキーワードをｎ＋α回発話することを促す旨の通知が、表示画面１０２上等で行われる。これに応じて、ｎ＋α回の発話が、マイクロホン１３２を介して話者モデル登録装置１０に入力される（ステップＳ１０１）。尚、登録開始に先立ち、“えーと”などのキーワード以外の発話は、画面への文字表示やガイダンス音声等によって教示することで回避するとよい。

入力されたｎ＋α回の発話の発話音声部分が音声部分抽出部１４２によって夫々抽出される（ステップＳ１０２）。

このｎ＋α回の発話に係る発話音声部分を用いて、ユーザの話者モデルが算出され、学習される（ステップＳ１０３）。具体的には、送信されたｎ＋α回の発話に係る発話音声部分が特徴量算出部２０１によって各々の特徴量に変換され、このｎ＋α回の発話に係る特徴量のうち、ｎ回の発話（登録用発話）に係る特徴量が話者モデル算出部２０２へ送信されてユーザの発話モデルが算出される。残りのα回の発話（照合用発話）に係る特徴量は照合部３０へ照合用として送信される。

そして、算出されたユーザの話者モデルが、照合部３０によって、α回の照合用発話に係る特徴量と夫々照合される（ステップＳ１０４）。例えば、算出されたユーザの話者モデルとα回の照合用発話に係る特徴量との類似度が夫々算出される。

このようにして算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部４１によって集計され（ステップＳ１０５）、この集計結果が登録判断基準を満たすか否か、換言すれば算出されたユーザの話者モデルを登録してもよいか否かが判断される（ステップＳ１０６）。例えばα回の照合用発話のうち、算出されたユーザの話者モデルによって本人として受理されたものの回数がβ回以上(βは１以上α以下)であるか否かが判断される。具体的には、α回の照合用発話のうち、算出されたユーザの話者モデルとの類似度が所定類似度閾値を超えるものの回数がβ回以上であるか否かが判断される。ここで「所定類似度閾値」は、夫々登録判断基準に相当する類似度であり、その値にはマージンを持たせてもよい。但し、マージンの幅が大きすぎるとユーザ以外の人間もユーザ本人であると認識してしまうことになり、逆にマージンの幅が小さすぎるとユーザ本人であっても体調如何によっては認識されない事態を生じ得る。従って、「所定類似度閾値」は、上記事項に留意し、実践上ユーザの発話とユーザ以外の発話とを実践上十分に区別可能な類似度として、実験或いはシミュレーションによって求めるとよい。

ここで、上記集計結果が登録判断基を満たすと判断される場合（ステップＳ１０６：Ｙｅｓ）、検証・登録部４１は、算出されたユーザの話者モデルを話者モデルデータベース４５に登録し（ステップＳ１０７１）、その旨が表示画面５２を介してユーザに通知され（ステップＳ１０８１）、登録が終了する。

他方、上記集計結果が登録判断基を満たすと判断されない場合（ステップＳ１０６：Ｎｏ）、催促部５０が算出されたユーザの話者モデルを破棄し（ステップＳ１０７２）、表示画面５２を介してユーザに再登録を促す通知を行う（ステップＳ１０８２）。そして、話者モデルが登録されるまで以上の処理が繰り返される。

以上、図３に示したように話者認識システム１における話者モデル登録装置１０が動作するので、話者モデルが適切に登録されることになる。特に、登録用発話・照合用発話が最初に取得され、登録用発話でモデルを学習した後に照合用発話で学習した話者モデルの話者認識性能が検証されるので、音声を発話する以外にキーワードテキストを入力するといった余計な操作をユーザに強いることもなく、加えて一発話目に雑音が混在したとしても、ユーザや管理者が確認する等の人的な作業を介さずに検出可能であるため、実践上大変便利である。

（３）第３実施例
続いて、第３実施例に係る話者認識システム１における話者モデル登録装置１０の基本的な動作を、図２及び図３に加えて図４を参照して説明する。ここに、図４は、第３実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図４において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

図４のフローチャートが図３のフローチャートと異なるのは主に、話者モデルが破棄されて（ステップＳ１０７２）からの処理である。

具体的には、話者モデルが破棄されると（ステップＳ１０７２）、すぐ再発話を催促せず、ｎ発話・α発話の選び方は尽きたか否かを確認する（ステップＳ３０７３）。例えば、予め選び方を複数通り決めておき、総当りで全ての選び方について既に試行したか否かをチェックしておくとよい。

ここで、選び方が尽きた場合（ステップＳ３０７３：Ｙｅｓ）、表示画面５２を介してユーザに再登録を促す通知を行う（ステップＳ１０８２）。但し、全ての選び方を試さずとも、ある段階で登録判断の基準をクリアするものが全くなければ、そもそもの入力された発話が適当でないとして、発話を催促してもよい。

他方で、選び方が尽きていない場合（ステップＳ３０７３：Ｎｏ）、ｎ回の登録用発話の選び方を変えて、或いはα回の照合用発話の選び方を変えて、再度話者モデルを学習する（ステップＳ３０７４）。

以上、図２及び図３に加えて図４を用いて説明したように、本実施例に係る、話者認識システム１における話者モデル登録装置１０によると、話者モデルが適切に登録されることは勿論、既に入力された発話を再利用するので、ユーザの負担が軽減され、実践上大変有利である。

（４）第４実施例
続いて、第４実施例に係る話者認識システム１における話者モデル登録装置１０の基本的な動作を、図２及び図３に加えて図５を参照して説明する。ここに、図５は、第４実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図５において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

図５のフローチャートが図３のフローチャートと異なるのは主に、入力された発話の発話音声部分が抽出されて（ステップＳ１０２）から登録判断基準をクリアしているか判断される（ステップＳ１０６）までの処理である。

具体的には、先ずこのｎ＋α回の発話に係る発話音声部分を用いて、ユーザの話者モデルが複数通り算出され、学習される（ステップＳ４０３）。

そして、算出されたユーザの複数通りの話者モデルが、照合部３０によって、α回の照合用発話に係る特徴量と夫々照合される（ステップＳ４０４）。

このようにして算出されたユーザの複数通りの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部４１によって夫々集計され（ステップＳ４０５）、複数通りの話者モデルのうち照合結果が最も良いものが選択される（ステップＳ４０６）。例えば、本人であると認識できた照合用発話の各々との類似度の平均値が最も大きかった話者モデルを照合結果が最も良いものとして選択する。この際、平均値に代えて、最大値、最小値或いは中央値のような別の尺度を予め決めておき、採用してもよい。

そして、照合結果が最も良い話者モデルに係る集計結果が登録判断基準を満たすか否かが判断される（ステップＳ１０６）。

以上、図２及び図３に加えて図５を用いて説明したように、本実施例に係る、話者認識システムにおける話者モデル登録装置によると、複数通りの話者モデルの中から最良のものを選択するので、例えば、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、検証・登録部４１によって、信頼性の高い話者モデルの選択及び登録を行える。

（５）第５実施例
続いて、第５実施例に係る話者認識システム１における話者モデル登録装置１０の基本的な動作を、図２及び図３に加えて図６を参照して説明する。ここに、図６は、第５実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図６において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

図６のフローチャートが図３のフローチャートと異なるのは主に、話者モデルの検証を行い、該話者モデルが登録判断基準を満たしたとき、話者モデルに基づき本人として認識されたγ回の発話に代えて、ｎ＋γ回の登録用発話に基いて再度話者モデルを学習してから登録する点である。

具体的には、ｎ回の登録用発話に基づき話者モデルが算出された後、該話者モデルをα回の照合用発話と照合し、そのうちγ回の発話が本人のものであると認識されるとする（ステップＳ５０４）。

更に、算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部４１によって集計され（ステップＳ１０５）、この集計結果が登録判断基準を満たすと判断されるとする（ステップＳ１０６：Ｙｅｓ）。

この際、本人のものであると認識されたγ回の発話をｎ回の登録用発話に更に加えて、話者モデルが話者モデル算出部２０２で再度算出され（ステップＳ５０７１）、最終的にこのｎ＋γ回の発話に基づく話者モデルが登録されることとなる。

尚、ｎ＋γ回の発話に基づき話者モデル算出部２０２を再度算出することに代えてγ回の発話で適応処理を行ってもよい。

以上、図２及び図３に加えて図６を用いて説明したように、本実施例に係る、話者認識システム１における話者モデル登録装置１０によると、照合用発話でも本人のものであると認識されるものについては登録用話者モデルとされるので、話者モデル算出部２０２は信頼性の高い話者モデルの算出或いは適応処理を行える。

（６）第６実施例
続いて、第６実施例に係る話者認識システム１における話者認識の際の基本的な動作を、図２に加えて図７を参照して説明する。ここに、図７は、第６実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。図７において、先ず話者認識の際、ユーザ即ち話者が、キーワードをマイクロホン１３２に向かって少なくとも１回発すると、この際の発話音声がマイクロホン１３２で収録され（ステップＳ６０１）、音声部分抽出部１４２で音声発話区間が抽出される（ステップＳ６０２）。抽出された音声発話区間が特徴量算出部２０１によって特徴量に変換され照合部に送られる（ステップＳ６０３）。

照合部３０では、送られてきた特徴量と、上述した実施例に係る話者モデル登録装置１０によって登録されている各話者モデルとの照合が行われ、各話者モデルに対応して類似度が算出される（ステップＳ６０４）。その中でも最も高い類似度（以下、最高類似度とも言う）となった話者モデルに対応する話者が認識結果候補者として選択される（ステップＳ６０５）。

そして、その最高類似度と他人の発話を十分な精度で棄却できるよう予め設定された閾値とが比較され（ステップＳ６０６）、この最高類似度が閾値よりも高ければ（ステップＳ６０６：Ｙｅｓ）対応する話者本人であると判断され（ステップＳ６０７１）、その結果が表示画面５２に出力される（ステップＳ６０８１）。

他方、最高類似度が閾値よりも低ければ（ステップＳ６０６：Ｎｏ）、認識結果候補者が話者であると認識されず、この話者を棄却し（ステップＳ６０７２）、認識失敗画面が表示される（ステップＳ６０８２）。

尚、上述のように認識結果候補者を選択せずとも、予め自分が誰であるかを発話により、或いはキーボード入力により宣言して、照合する話者モデルを１つに絞った上で照合して類似度を求め、閾値と比較して話者を認識するか棄却するかを判別するようにしてもよい。

以上、図２に加えて図７を用いて説明したように、本実施例に係る、話者認識システム１によると、上述した実施例に係る話者モデル登録装置１０を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。

上記実施例に示す動作処理は、取得工程、算出工程、照合工程、及び登録工程を備える話者認識システム１における話者モデル登録方法に基いて話者認識システムを動作させることによって実現してもよい。或いは、取得手段、算出手段、照合手段、及び登録手段を備えた話者認識システム１に設けられるコンピュータにコンピュータプログラムを読み込ませることで実現してもよい。

尚、本発明は、上述した実施例に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨、或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムもまた、本発明の技術的範囲に含まれるものである。

本発明に係る話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムは、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムにおける話者モデル登録装置に利用可能である。

Claims

話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、
発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段と、
該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と
を備えることを特徴とする話者認識システムにおける話者モデル登録装置。
前記登録手段は、前記所定基準として、前記α回のうちにβ（但し、βは１以上α以下の整数）回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録する
ことを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合が行われた話者モデルを破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備えることを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記ｎ＋α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行うことを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記ｎ＋α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を再度行うことを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
前記算出手段は、前記ｎ＋α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、
前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録することを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
前記照合手段は、前記ｎ＋α回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を複数通り行い、
前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録することを特徴とする請求の範囲第１項に記載の話者認識システムにおける話者モデル登録装置。
請求の範囲第１項に記載の話者モデル登録装置と、
前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段と
を備えたことを特徴とする話者認識システム。
請求の範囲第１項に記載の話者モデル登録装置を備え、
前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能することを特徴とする話者認識システム。
前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行うことを特徴とする請求の範囲第８項に記載の話者認識システム。
話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、
発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得工程と、
該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出工程と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程と
を備えることを特徴とする話者認識システムにおける話者モデル登録方法。
話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、
発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段と、
該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段と、
該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、
該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と
として機能させることを特徴とするコンピュータプログラム。