WO2007111169A1

WO2007111169A1 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Info

Publication number: WO2007111169A1
Application number: PCT/JP2007/055433
Authority: WO
Inventors: Soichi Toyama
Original assignee: Pioneer Corporation
Priority date: 2006-03-24
Filing date: 2007-03-16
Publication date: 2007-10-04
Also published as: US20090106025A1; JP4854732B2; JPWO2007111169A1

Abstract

　話者認識システム（１）における話者モデル登録装置（１０）は、話者認識システムにおいて話者認識用の話者モデルを登録する。話者モデル登録装置は、発話をｎ＋α（但し、ｎは２以上の整数、αは１以上の整数）回取得する取得手段（１３）と、該取得されたｎ回の発話を登録用発話として、話者モデルの算出を行う算出手段（２０）と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段（３０）と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段（４０）とを備える。

Description

明細書

話者認識システムにおける話者モデル登録装置及び方法、並びにコンビユータプログラム技術分野

[0001] 本発明は、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンビュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのュ一ザである話者の発話に基!ヽて、話者認識を行う話者認識システムの技術分野に関し、特に該システムにおける話者モデル登録装置及び方法、並びにコンピュータをそのような話者モデル登録装置として機能させるコンピュータプログラムの技術分野に関する。

背景技術

[0002] この種の話者認識システムには、認識に用いられる発話されたテキストが予め登録されているテキスト固定型或いはテキスト依存型と、このような登録が不要であり任意のテキストについて認識を行うテキスト独立型或いは非テキスト依存型と、認識の際或いは都度に認識にテキストが指定されるテキスト指定型の三種類がある。これらのうちテキスト依存型については実用化の域に達しており、各種の提案がなされている (特許文献 1参照)。

[0003] 特許文献 1：特開 2004— 294755号公報

発明の開示

発明が解決しょうとする課題

[0004] し力しながら、例えば前述の特許文献 1に開示されている技術によれば、登録の際に、登録用の発話に係るテキストをキーボード等により入力しなければならず、使い勝手が良いとはいえない。更に、登録の都度に、新たに登録しょうとする発話情報と、何らかの照合情報とを照合して、それら両者間の類似性の高低に応じて、再度発話させるか、その発話を登録するかを選択的に実行することを要する。このため、その処理は複雑化し、ユーザによる操作も煩雑ィ匕してしまうという技術的問題点がある [0005] 力!]えて、いずれの従来技術においても、登録の段階で、発話に外部の雑音が混入したり、話者が意図に反して再現性なく発話 (例えば声が裏返ったり震えたり）してしまった際に、登録された発話モデルが信頼性のないものとなり、最終的な話者認識の精度も無視し得ない程に落ちてしまう。或いは、これを回避するために登録動作において多数回のやり直しが求められたることで、登録自体が実践的に困難となるという問題点もある。

[0006] 本発明は、例えば上述した問題点に鑑みてなされたものであり、話者認識に係るテキストを登録する際における、コンピュータ上の処理及びユーザによる操作が比較的簡単である話者認識システムにおける話者モデル登録装置及び方法、このような話者モデル登録装置を備えた話者認識システム、並びにコンピュータをこのような話者モデル登録装置として機能させるコンピュータプログラムを提供することを課題とする課題を解決するための手段

[0007] (話者認識システムにおける話者モデル登録装置）

本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決するために、話者認識システムにおヽて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数 )回取得する取得手段と、該取得された η回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得された a回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備える。

[0008] 本発明に係る、話者認識システムにおける話者モデル登録装置によれば、話者認識システムにおける話者モデルの登録段階で、次のように登録がなされる。

[0009] 即ちその動作時には、先ず、例えばマイクロホン、プロセッサ、メモリ等を有してなる取得手段によって、例えばマイクロホンからの音声信号のうち話者に係る音声部分を抽出する音声抽出や更にその中からの特徴量の算出など、発話の取得が行われる。ここで特に、典型的には話者に同一テキストを繰り返し発話させるなどによって、このような発話の取得が n+ a回行われる。ここに「発話」とは、話者認識の全過程を通じていずれかの段階で用いられる、ユーザたる話者により発話されたテキストに係る音声或いは音声情報を意味する。

[0010] すると、例えばプロセッサ、メモリ等を有してなる算出手段によって、該取得された n 回の発話が登録用発話として選ばれた上で、話者モデルの算出が行われる。ここ〖こ「登録用発話」とは、発話のうち登録に用いられるものを意味する。登録用発話は、少なくとも登録用に用いられていれば足り、結果的に有効な登録が行われた際に用いられたものには限られない。

[0011] 続いて、例えばプロセッサ、メモリ等を有してなる照合手段によって、取得手段により取得された a回の発話が照合用発話として選ばれた上で、このように算出が行われた話者モデルの照合が行われる。ここに「照合用発話」とは、発話のうち照合に基準として、即ち比較対象或いは比較基準として、用いられるものを意味する。照合用発話は、少なくとも照合用に用いられていれば足り、結果的に有効な照合が行われた際に用いられたものには限られない。特に本発明では、従来、実際の話者認識の際に用いられるのではなぐここでの照合用発話は登録の段階で用いられている。

[0012] 尚、算出手段は、取得された n回の発話を、登録用発話として、受動的又は能動的に選び、照合手段は、取得された α回の発話を、照合用発話として、受動的又は能動的に選ぶ。ここに「受動的」とは、予め決められた規則に従って、例えば最初から η 回目までの (例えば、最初の 3回の)発話を登録用発話として選択し、例えば η回目以降最後までを _α回として、その (例えば、 4回目のみの)発話を照合用発話として選択するといつた、特に、算出手段や照合手段がどれを選ぶかについて何ら能動的に作用しない場合を意味する。逆に「能動的」とは、例えば結果として相対的に良い照合の結果が得られる際の η回や oc回などの発話を登録用発話や照合用発話として選択するといつた、算出手段や照合手段がどれを選ぶかについて能動的に作用する場合、言い換えれば、系統立った或いは試行錯誤的な動作を含む何らかの選択動作を伴って選択を行う場合を意味する。

[0013] その後、例えばプロセッサ、メモリ、データベース等を有してなる登録手段によって、照合手段による照合の結果が所定基準を満たす話者モデルが、話者認識用の話者モデルとして登録される。言い換えれば、該照合の結果が所定基準を満たさない話者モデルにっ、ては、話者認識用の話者モデルとして登録されることはな、。

[0014] 以上の結果、本発明によれば、実践的にはよくあるように、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザたる話者による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおヽて極めて信頼性の高、話者認識が可能となる。

[0015] 本発明に係る、話者認識システムにおける話者モデル登録装置の一態様では、前記登録手段は、前記所定基準として、前記 OC回のうちに β (但し、 βは 1以上 OC以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録する。

[0016] この態様によれば、 a回のうちに j8回以上、話者本人として受け入れることが可能な場合に、登録手段によって、話者認識用の話者モデルとして登録される。逆に、 a 回のうちに ι8回以上、話者本人として受け入れることが不可能な場合に、登録手段によって、話者認識用の話者モデルとして登録されることはない。ここでの照合の結果が所定基準を満たす力否かの判断は、登録手段が行ってもよいし、照合手段が行つてもよい。従って、登録手段によって、信頼性の高い話者モデルの登録を確実に行える。

[0017] 本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しない場合に又は前記照合の結果が前記所定基準を満たさな!/ヽ場合に、前記照合が行われた話者モデルを破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備える。

[0018] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、例えば表示装置、音声出力装置、コントローラ或いはプロセッサ、メモリ等を有してなる催促手段によって、照合が行われた話者モデルが破棄された上で、取得手段による発話の取得が催促される。例えば、表示画面上における表示出力や話者モデル登録装置前の音場における音声出力を通じて、ユーザである話者に対して、再度の発話が促される。従って、信頼性の低い話者モデルの登録を回避しつつ、登録手段によって、信頼性の高い話者モデルの登録を確実に行える。

[0019] 或ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しなヽ場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う。

[0020] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、算出手段によって、 n+ a回取得された、即ち η+ α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、再度話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入して、ても、登録用発話の選び方を変えて話者モデルの算出からやり直すことで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高、話者モデルの登録を行える。

[0021] 或ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記登録手段が前記話者認識用の話者モデルとして登録しなヽ場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記 η+ a回取得された発話の中力前記照合用発話を選ぶ際の選び方を変えて、前記照合を再度行う。

[0022] この態様によれば、登録手段が話者認識用の話者モデルとして登録しない場合に又は照合の結果が所定基準を満たさない場合に、照合手段によって、 n+ a回取得された、即ち η+ α個存在する発話の中から、照合用発話として選ばれるものが変えられた上で、再度照合が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、照合用発話の選び方を変えて発話の照合力やり直すことで、該雑音等による照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高!、話者モデルの登録を行える。

[0023] 或ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録する。

[0024] この態様によれば、登録の成否や照合の結果の如何を問わずに、算出手段によつて、 n+ a回取得された、即ち η+ α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、複数通りの話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方を変えて話者モデルの算出が問題なく実行された場合を採用することで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

[0025] 或ヽは本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記照合手段は、前記 n+ a回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を複数通り行い、前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録する。

[0026] この態様によれば、登録の成否や照合の結果の如何を問わずに、照合手段によつて、 n+ a回取得された、即ち η+ α個存在する発話の中から、照合用発話として選ばれるものが変えられた上で、複数通りの照合が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、照合用発話の選び方を変えて照合が問題なく実行された場合を採用することで、該雑音等による照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。

[0027] (話者認識システム）

本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置 (但し、その各種態様を含む）と、前記登録された話者モデルに基、て、任意の話者による発話にっ、ての認識を行う認識手段とを備える。

[0028] 本発明に係る、一の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高、話者認識が可能となる。

[0029] 本発明に係る、他の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置 (但し、その各種態様を含む)を備え、前記照合手段は、前記登録された話者モデルに基、て、任意の話者による発話にっ、ての認識を行う認識手段としても機能する。

[0030] 本発明に係る、他の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。しかも、登録の際に用いられる照合手段は、認識の際に用いられる認識手段を兼ねるので、システム構成の単純ィ匕を図ることができ極めて有利である。

[0031] 本発明に係る、一又は他の話者認識システムの一態様では、前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行う。

[0032] この態様によれば、類似度に基いての各種認識技術を利用しての認識を行うことによって、信頼性の高い話者認識が可能となる。

[0033] (話者認識システムにおける話者モデル登録方法）

本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決するために、話者認識システムにおヽて話者認識用の話者モデルを登録する話者モデル登録方法であって、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数 )回取得する取得工程と、該取得された η回の発話を登録用発話として、話者モデルの算出を行う算出工程と、該算出が行われた話者モデルの照合を、前記取得された a回の発話を照合用発話として行う照合工程と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程とを備える。

[0034] 本発明に係る、話者認識システムにおける話者モデル登録方法によれば、上述した本発明に係る話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。

[0035] 尚、本発明の話者モデル登録方法にお!、ても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

[0036] (コンピュータプログラム）

上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システムにお、て話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数）回取得する取得手段と、該取得された η回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

[0037] 本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納する CD-ROM, DVD—ROM等の記録媒体から、当該コンピュータプログラムを、話者モデル登録装置に備えられたコンピュータに読み込んで実行させれば、或いは、当該コンピュータプログラムを通信手段を介してダウンロードさせた後に実行させれば、上述した本発明の話者モデル登録装置を比較的簡単に構築できる。これにより、上述した本発明の話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。

[0038] 尚、本発明のコンピュータプログラムにおいても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

[0039] 上記課題を解決するために、コンピュータ読取可能な媒体内のコンピュータプログラム製品は、話者認識システムにお!ヽて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数）回取得する取得手段と、該取得された η回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得された (X回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

[0040] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口ードすれば、上述した本発明の話者モデル登録装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の話者モデル登録装置として機能させるコンピュータ読取可能なコード (或いはコンピュータ読取可能な命令)カゝら構成されてよヽ。

[0041] 以上詳細に説明したように、本発明の話者モデル登録装置によれば、算出手段、照合手段及び登録手段を備え、本発明の話者モデル登録方法によれば、算出工程、照合工程及び登録工程を備えるので、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。本発明の話者認識システムによれば、本発明の話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。更に、本発明のコンピュータプログラムによれば、コンビユータを算出手段、照合手段及び登録手段として機能させるので、上述した本発明の話者モデル登録装置を、比較的容易に構築できる。

[0042] 本発明の作用及び他の利得は次に説明する実施例力明らかにされよう。

図面の簡単な説明

[0043] [図 1]本発明の第 1実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。

[図 2]第 2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。

[図 3]第 2実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

[図 4]第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

[図 5]第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

[図 6]第 5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

[図 7]第 6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。符号の説明

[0044] 1 話者認識システム

10 話者モデル登録装置

13 取得部

20 算出部

30 照合部 40 登録部

50 催促部

132 マイクロホン

142 音声部分抽出部

201 特徴量算出部

202 話者モデル算出部

30 照合部

41 検証 ·登録部

45 話者モデルデータベース

52 表示画面

発明を実施するための最良の形態

[0045] 以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。

[0046] (1)第 1実施例

第 1実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図 1を参照して説明する。ここに、図 1は、本発明の第 1実施例に係る

、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。

[0047] 図 1において、本実施例に係る話者認識システム 1における話者モデル登録装置 1 0は、本発明に係る「取得手段」の一例としての取得部 13と、本発明に係る「算出手段」の一例としての算出部 20と、本発明に係る「照合手段」及び「認識手段」の一例としての照合部 30と、本発明に係る「登録手段」の一例としての登録部 40と、本発明に係る「催促手段」の一例としての催促部 50とを備える。

[0048] 取得部 13は、例えばマイクロホンのような音声入力機器を含んで成り、話者の登録を行う際、話者であるユーザ 12 (例えば鈴木さん）が任意に定めたキーワード (例えば「ひらけごま」）の発話 (実際には、発話の波形データ 14)を n+ a回取得してメモリ等に保存する。ここに nは、登録用発話の数、即ち話者モデル 25を算出して登録するにあたり必要とされる発話回数であり、 αは、照合用発話の数、即ち算出された話者モデル 25が適切力否かを照合するために必要とされる発話の回数である。例えば図 1においては n= 3、即ち 3回の発話に基いて話者モデル 25 (例えば、鈴木モデル )が算出され、 α = 1、即ち 1回の照合用発話に基いて話者モデル 25が照合される。

[0049] 算出部 20は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、取得部 13によって取得された発話のうち η回の発話に基いて、ユーザ 12 (鈴木さん)がキーワードを発話したときの特徴をとらえた話者モデル 25を算出する。

[0050] 照合部 30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、ユーザ 12 (鈴木さん）が余分に発話した α回の発話を照合用発話とし、該照合用発話と算出された話者モデル 25との照合を行う。例えば、ユーザ 12 (鈴木さん)本人の 1回の照合用発話と算出された話者モデル 25 との照合を行う。カロえて、当該照合部 30は、認識手段として機能してもよい。

[0051] 登録部 40は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、算出部 20によって算出された話者モデル 25のうち、照合部 30による照合の結果、所定基準を満たすものを、話者認識用の話者モデル 25として、例えばコンピュータが備えるハードディスク装置、光ディスク装置等の大規模記憶装置内に構築された話者モデルデータベース 45に正式に登録する。例えば、予めユーザ 12 (鈴木さん)本人の発話と分力つている 1回の照合用発話と、算出された話者モデル 25との照合を行ヽ、鈴木さん本人であることが正しく認識されれば、この話者モデル 25は適切である或いは正常に機能するという検証がなされ、話者モデルデータベース 45に登録される。この照合の際、ネガティブコントロールとして、本人以外の人間、例えば鈴木さんに代えて佐藤さんの発話を照合用発話とし、本人でな!、ことも認識されれば、一層適切な話者モデル 25を登録できる。

[0052] 催促部 50は、算出部 20によって算出された話者モデル 25のうち、照合部 30による照合の結果、所定基準を満たすものがない場合、算出部 20によって算出された話者モデル 25或、は該話者モデル 25の元となる発話に問題がある或いは不適切であるとして、ユーザ 12に再度登録用の発話を催促する。例えば、ディスプレイに「再度発話をして下さい」等の催促用メッセージを表示したり、音声出力したりする。そして、この催促部 50により催促されることがなくなるまで、換言すれば、話者認識用の話者モデル 25が登録されるまで、上記構成に基づく処理が行われる。

[0053] カロえて、上記話者モデル登録装置 10を備える話者認識システム 1が話者認識を行う際は、以下の認識部 30を更に備えるとよい。

[0054] 認識部 30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、話者認識時には、認識を求める任意の話者 (ここでの話者つまりユーザ 12は、話者モデル 25を登録した本人に限られない。例えば、鈴木さんに成りすまそうとする第三者が含まれる）の発話と、登録された話者モデル 25とを照合することで、認識を求める任意の話者が、登録された話者モデル 25の話者本人であるか否かを認識する。具体的には、照合の結果、類似度等が所定基準を満たす場合には、認識を求める任意の話者は登録された話者モデル 25の話者であると認識し、満たさない場合には、話者でないと認識する。

[0055] 以上、図 1に示すように構成された話者認識システム 1における話者モデル登録装置 10〖こよると、話者認識用の話者モデル 25が好適に登録されることとなる。この際特に、実践的にはよくあるように、ユーザ 12による発話に混入した雑音や、ユーザ 12による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかな力つたとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザ 12による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極めて信頼性の高、話者認識が可能となる。

[0056] (2)第 2実施例

続ヽて、第 2実施例に係る話者認識システム 1における話者モデル登録装置 10の構成及び基本的な動作を、図 2及び図 3を参照して説明する。ここに、図 2は、第 2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。尚、図 2及び図 3において、上記図 1に示した第 1実施例に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。

[0057] 図 2において、マイクロホン 132は、ユーザ 2がキーワードの発話を n回行う際、該発話を夫々電気信号に変換して話者認識システム 1に入力する機器である。

[0058] 音声部分抽出部 142は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、背景雑音と音声発話区間とのパワー差を利用する一般的な音声区間検出方法等により、変換された発話の電気信号力もキーワードが発話されて、る発話音声部分を切り出す演算装置である。

[0059] 特徴量算出部 201は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、入力された発話音声部分を特徴量に変換する。かかる特徴量は、 MFCC (Mel Frequency Cepstrum Coefficient： MFCC) 、 LPC (Linear Predictive Coding :LPC)ケプストラム等によって変換される演算装置である。そして、特徴量が複数ある場合には、その一部（例えば、 n回分)を話者モデル算出部 202へ、他の一部（例えば、 ex回分)を検証'登録部 41へ送信する。

[0060] 話者モデル算出部 202は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、特徴量算出部 201で算出された特徴量のうち n回分を用いて、照合に用いる話者モデルを算出し学習する演算装置である。ここに、話者モデルは、話者 HMM (Hidden Markov Model:HMM)や DP (Dy namic Programming： DP)マッチング等の各種音声認識アルゴリズムにおける話者テンプレートとして表される。

[0061] 照合部 30は、第 1実施例の場合と同様に、話者モデル算出部 202で算出された話者モデルと照合用の特徴量との照合を行い類似度を算出する演算装置である。尚、類似度としては、尤度又は距離尺度の逆数が用いられる。類似度として距離尺度の逆数が用いられる場合、逆数であるが故に制御方法を適宜変更する必要がある。具体的には、検証'登録部 41で所定閾値と比較する際の不等号の向きを逆にする。

[0062] 検証'登録部 41は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプロダラムに従って論理的に構築されるものであり、照合部 30で算出された類似度と所定の閾値と比較することで、算出された話者モデルを用いて (X回分の各照合用の特徴量が本人と認識されるカゝ否か、言い換えれば算出された話者モデルを話者モデルデータベース 45に登録してもよいか否かを検証する演算装置及び記録装置である。そして、登録してもよいと検証された話者モデルを検証'登録部 41は、話者モデルデータベース 45に登録する。

[0063] 表示画面 52は、例えば液晶ディスプレイ等であり、検証結果或いは催促通知のメッセージを表示する表示機器である。

[0064] 以上、図 2のように構成される話者モデル登録装置 10により、話者認識用の話者モデルを登録する際の処理を図 3を用いて説明する。ここに、図 3は、第 2実施例に係る

、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

[0065] 図 3において先ず、例えばユーザが開始ボタンを押す等して登録が開始されると、このユーザに対し、マイクロホン 132に向力つてキーワードを n+ a回発話することを促す旨の通知力表示画面 102上等で行われる。これに応じて、 n+ a回の発話が、マイクロホン 132を介して話者モデル登録装置 10に入力される (ステップ S 101)。尚、登録開始に先立ち、 "え一ど'などのキーワード以外の発話は、画面への文字表示やガイダンス音声等によって教示することで回避するとよい。

[0066] 入力された n+ a回の発話の発話音声部分が音声部分抽出部 142によって夫々抽出される (ステップ S102)。

[0067] この n+ a回の発話に係る発話音声部分を用いて、ユーザの話者モデルが算出され、学習される (ステップ S103)。具体的には、送信された n+ a回の発話に係る発話音声部分が特徴量算出部 201によって各々の特徴量に変換され、この n+ a回の発話に係る特徴量のうち、 n回の発話 (登録用発話）に係る特徴量が話者モデル算出部 202へ送信されてユーザの発話モデルが算出される。残りの oc回の発話 (照合用発話）に係る特徴量は照合部 30へ照合用として送信される。

[0068] そして、算出されたユーザの話者モデル力照合部 30によって、 a回の照合用発話に係る特徴量と夫々照合される (ステップ S 104)。例えば、算出されたユーザの話者モデルと α回の照合用発話に係る特徴量との類似度が夫々算出される。

[0069] このようにして算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証'登録部 41によって集計され (ステップ S105)、この集計結果が登録判断基準を満たすか否か、換言すれば算出されたユーザの話者モデルを登録してもよいか否かが判断される (ステップ S 106)。例えば α回の照合用発話のうち、算出されたユーザの話者モデルによって本人として受理されたものの回数が /3回以上は 1 以上 α以下)である力否かが判断される。具体的には、 α回の照合用発話のうち、算出されたユーザの話者モデルとの類似度が所定類似度閾値を超えるものの回数が β回以上であるか否かが判断される。ここで「所定類似度閾値」は、夫々登録判断基準に相当する類似度であり、その値にはマージンを持たせてもよい。但し、マージンの幅が大きすぎるとユーザ以外の人間もユーザ本人であると認識してしまうことになり、逆にマージンの幅が小さすぎるとユーザ本人であっても体調如何によつては認識されない事態を生じ得る。従って、「所定類似度閾値」は、上記事項に留意し、実践上ユーザの発話とユーザ以外の発話とを実践上十分に区別可能な類似度として、実験或いはシミュレーションによって求めるとよ!/、。

[0070] ここで、上記集計結果が登録判断基を満たすと判断される場合 (ステップ S106 :Y es)、検証'登録部 41は、算出されたユーザの話者モデルを話者モデルデータべ一ス 45に登録し (ステップ S1071)、その旨が表示画面 52を介してユーザに通知され（ステップ S1081)、登録が終了する。

[0071] 他方、上記集計結果が登録判断基を満たすと判断されなヽ場合 (ステップ S 106： No)、催促部 50が算出されたユーザの話者モデルを破棄し (ステップ S 1072)、表示画面 52を介してユーザに再登録を促す通知を行う（ステップ S1082)。そして、話者モデルが登録されるまで以上の処理が繰り返される。

[0072] 以上、図 3に示したように話者認識システム 1における話者モデル登録装置 10が動作するので、話者モデルが適切に登録されることになる。特に、登録用発話'照合用発話が最初に取得され、登録用発話でモデルを学習した後に照合用発話で学習した話者モデルの話者認識性能が検証されるので、音声を発話する以外にキーワードテキストを入力すると、つた余計な操作をユーザに強、ることもなく、加えて一発話目に雑音が混在したとしても、ユーザや管理者が確認する等の人的な作業を介さずに検出可能であるため、実践上大変便利である。

[0073] (3)第 3実施例

続ヽて、第 3実施例に係る話者認識システム 1における話者モデル登録装置 10の基本的な動作を、図 2及び図 3に加えて図 4を参照して説明する。ここに、図 4は、第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図 4において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

[0074] 図 4のフローチャートが図 3のフローチャートと異なるのは主に、話者モデルが破棄されて (ステップ S 1072)力もの処理である。

[0075] 具体的には、話者モデルが破棄されると (ステップ S1072)、すぐ再発話を催促せず、 n発話 · α発話の選び方は尽きた力否かを確認する (ステップ S3073)。例えば、予め選び方を複数通り決めておき、総当りで全ての選び方について既に試行したか否かをチェックしておくとよ、。

[0076] ここで、選び方が尽きた場合 (ステップ S3073 : Yes)、表示画面 52を介してユーザに再登録を促す通知を行う（ステップ S1082)。但し、全ての選び方を試さずとも、ある段階で登録判断の基準をクリアするものが全くなければ、そもそもの入力された発話が適当でないとして、発話を催促してもよい。

[0077] 他方で、選び方が尽きて、な、場合 (ステップ S3073： No)、 n回の登録用発話の選び方を変えて、或いは OC回の照合用発話の選び方を変えて、再度話者モデルを学習する（ステップ S3074)。

[0078] 以上、図 2及び図 3に加えて図 4を用いて説明したように、本実施例に係る、話者認識システム 1における話者モデル登録装置 10によると、話者モデルが適切に登録されることは勿論、既に入力された発話を再利用するので、ユーザの負担が軽減され、実践上大変有利である。

[0079] (4)第 4実施例

続ヽて、第 4実施例に係る話者認識システム 1における話者モデル登録装置 10の基本的な動作を、図 2及び図 3に加えて図 5を参照して説明する。ここに、図 5は、第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図 5において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

[0080] 図 5のフローチャートが図 3のフローチャートと異なるのは主に、入力された発話の発話音声部分が抽出されて (ステップ S102)力も登録判断基準をクリアして、るか判断される（ステップ SI 06)までの処理である。

[0081] 具体的には、先ずこの n+ a回の発話に係る発話音声部分を用いて、ユーザの話者モデルが複数通り算出され、学習される (ステップ S403)。

[0082] そして、算出されたユーザの複数通りの話者モデル力照合部 30によって、 a回の照合用発話に係る特徴量と夫々照合される (ステップ S404)。

[0083] このようにして算出されたユーザの複数通りの話者モデルと各照合用発話との類似度の照合結果が、検証'登録部 41によって夫々集計され (ステップ S405)、複数通りの話者モデルのうち照合結果が最も良いものが選択される (ステップ S406)。例えば、本人であると認識できた照合用発話の各々との類似度の平均値が最も大き力つた話者モデルを照合結果が最も良いものとして選択する。この際、平均値に代えて、最大値、最小値或いは中央値のような別の尺度を予め決めておき、採用してもよい。

[0084] そして、照合結果が最も良い話者モデルに係る集計結果が登録判断基準を満たすか否かが判断される（ステップ S106)。

[0085] 以上、図 2及び図 3に加えて図 5を用いて説明したように、本実施例に係る、話者認識システムにおける話者モデル登録装置によると、複数通りの話者モデルの中から最良のものを選択するので、例えば、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、検証'登録部 41によって、信頼性の高い話者モデルの選択及び登録を行える。

[0086] (5)第 5実施例

続ヽて、第 5実施例に係る話者認識システム 1における話者モデル登録装置 10の基本的な動作を、図 2及び図 3に加えて図 6を参照して説明する。ここに、図 6は、第 5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図 6において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。

[0087] 図 6のフローチャートが図 3のフローチャートと異なるのは主に、話者モデルの検証を行い、該話者モデルが登録判断基準を満たしたとき、話者モデルに基づき本人として認識された γ回の発話に代えて、 η+ γ回の登録用発話に基いて再度話者モデルを学習して力登録する点である。

[0088] 具体的には、 n回の登録用発話に基づき話者モデルが算出された後、該話者モデルを oc回の照合用発話と照合し、そのうち γ回の発話が本人のものであると認識されるとする（ステップ S 504)。

[0089] 更に、算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証'登録部 41によって集計され (ステップ S105)、この集計結果が登録判断基準を満たすと判断されるとする (ステップ S 106 : Yes)。

[0090] この際、本人のものであると認識された y回の発話を n回の登録用発話に更に加えて、話者モデルが話者モデル算出部 202で再度算出され (ステップ S5071)、最終的にこの η+ γ回の発話に基づく話者モデルが登録されることとなる。

[0091] 尚、 η+ γ回の発話に基づき話者モデル算出部 202を再度算出することに代えて γ回の発話で適応処理を行ってもよい。

[0092] 以上、図 2及び図 3に加えて図 6を用いて説明したように、本実施例に係る、話者認識システム 1における話者モデル登録装置 10によると、照合用発話でも本人のものであると認識されるものにっヽては登録用話者モデルとされるので、話者モデル算出部 202は信頼性の高、話者モデルの算出或、は適応処理を行える。

[0093] (6)第 6実施例

続いて、第 6実施例に係る話者認識システム 1における話者認識の際の基本的な動作を、図 2に加えて図 7を参照して説明する。ここに、図 7は、第 6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。図 7 において、先ず話者認識の際、ユーザ即ち話者が、キーワードをマイクロホン 132に向力つて少なくとも 1回発すると、この際の発話音声がマイクロホン 132で収録され (ステツプ S601)、音声部分抽出部 142で音声発話区間が抽出される (ステップ S602) 。抽出された音声発話区間が特徴量算出部 201によって特徴量に変換され照合部に送られる（ステップ S603)。

[0094] 照合部 30では、送られてきた特徴量と、上述した実施例に係る話者モデル登録装置 10によって登録されている各話者モデルとの照合が行われ、各話者モデルに対応して類似度が算出される (ステップ S604)。その中でも最も高い類似度 (以下、最高類似度とも言う）となった話者モデルに対応する話者が認識結果候補者として選択される（ステップ S605)。

[0095] そして、その最高類似度と他人の発話を十分な精度で棄却できるよう予め設定された閾値とが比較され (ステップ S606)、この最高類似度が閾値よりも高ければ (ステツプ S606 :Yes)対応する話者本人であると判断され (ステップ S6071)、その結果が表示画面 52に出力される（ステップ S6081)。

[0096] 他方、最高類似度が閾値よりも低ければ (ステップ S606 :No)、認識結果候補者が話者であると認識されず、この話者を棄却し (ステップ S6072)、認識失敗画面が表示される（ステップ S6082)。

[0097] 尚、上述のように認識結果候補者を選択せずとも、予め自分が誰であるかを発話により、或いはキーボード入力により宣言して、照合する話者モデルを 1つに絞った上で照合して類似度を求め、閾値と比較して話者を認識するか棄却するかを判別するようにしてもよい。

[0098] 以上、図 2にカ卩えて図 7を用いて説明したように、本実施例に係る、話者認識システム 1によると、上述した実施例に係る話者モデル登録装置 10を備えるので、比較的簡単な登録動作或!ヽは登録操作を経て、極めて信頼性の高！、話者認識が可能となる。

[0099] 上記実施例に示す動作処理は、取得工程、算出工程、照合工程、及び登録工程を備える話者認識システム 1における話者モデル登録方法に基ヽて話者認識システムを動作させることによって実現してもよい。或いは、取得手段、算出手段、照合手段、及び登録手段を備えた話者認識システム 1に設けられるコンピュータにコンビュータプログラムを読み込ませることで実現してもよ、。

[0100] 尚、本発明は、上述した実施例に限られるものではなぐ請求の範囲及び明細書全体力も読み取れる発明の要旨、或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムもまた、本発明の技術的範囲に含まれるものである。産業上の利用可能性

[0101] 本発明に係る話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムは、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムにおける話者モデル登録装置に利用可能である。

Claims

請求の範囲

[1] 話者認識システムにおヽて話者認識用の話者モデルを登録する話者モデル登録装置であって、

発話を n+ a (但し、 nは 2以上の整数、 aは 1以上の整数）回取得する取得手段と該取得された n回の発話を登録用発話として、話者モデルの算出を行う算出手段と該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発話として行う照合手段と、

該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と

を備えることを特徴とする話者認識システムにおける話者モデル登録装置。

[2] 前記登録手段は、前記所定基準として、前記 ex回のうちに β (但し、 βは 1以上 ex 以下の整数）回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録する

ことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[3] 前記登録手段が前記話者認識用の話者モデルとして登録しな！ヽ場合に又は前記照合の結果が前記所定基準を満たさな!/ヽ場合に、前記照合が行われた話者モデルを破棄して、前記取得手段による前記発話の取得を催促する催促手段を更に備えることを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[4] 前記登録手段が前記話者認識用の話者モデルとして登録しな！ヽ場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行うことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[5] 前記登録手段が前記話者認識用の話者モデルとして登録しな！ヽ場合に又は前記照合の結果が前記所定基準を満たさない場合に、前記照合手段は、前記 n+ a回取得された発話の中力前記照合用発話を選ぶ際の選び方を変えて、前記照合を再度行うことを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[6] 前記算出手段は、前記 n+ a回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、

前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録することを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[7] 前記照合手段は、前記 n+ a回取得された発話の中から前記照合用発話を選ぶ際の選び方を変えて、前記照合を複数通り行い、

前記登録手段は、前記複数通り行われた前記照合の結果の統計値又は少なくとも一つが所定基準を満たす場合に、前記照合が行われた話者モデルを登録することを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[8] 請求の範囲第 1項に記載の話者モデル登録装置と、

前記登録された話者モデルに基、て、任意の話者による発話にっ、ての認識を行う認識手段と

を備えたことを特徴とする話者認識システム。

[9] 請求の範囲第 1項に記載の話者モデル登録装置を備え、

前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能することを特徴とする話者認識システム。

[10] 前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基ヽて、前記認識を行うことを特徴とする請求の範囲第 8 項に記載の話者認識システム。

[11] 話者認識システムにおヽて話者認識用の話者モデルを登録する話者モデル登録方法であって、

発話を n+ a (但し、 nは 2以上の整数、 αは 1以上の整数）回取得する取得工程と該取得された n回の発話を登録用発話として、話者モデルの算出を行う算出工程と該算出が行われた話者モデルの照合を、前記取得された α回の発話を照合用発話として行う照合工程と、

該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程と

を備えることを特徴とする話者認識システムにおける話者モデル登録方法。

話者認識システムにおヽて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、

として機能させることを特徴とするコンピュータプログラム。