WO2007111197A1

WO2007111197A1 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Info

Publication number: WO2007111197A1
Application number: PCT/JP2007/055676
Authority: WO
Inventors: Soichi Toyama; Ikuo Fujita; Takehiko Shioda
Original assignee: Pioneer Corporation
Priority date: 2006-03-24
Filing date: 2007-03-20
Publication date: 2007-10-04
Also published as: EP2006836A2; JPWO2007111197A1; EP2006836A4; EP2006836A9

Abstract

　話者認識システム（１）における話者モデル登録装置（１０）は、ｎ（ｎは２以上の整数）個の発話の取得を行う取得手段（１３）と、該取得されたｎ個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出手段（１５）と、ｎ個の発話のうち類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段（１６）とを備える。そして、該検証の結果として不適格発話が存在しない場合に、不適格発話を含まないｎ個の発話に基いて、話者モデルの算出を行う話者モデル算出手段（２０）と、該算出が行われた話者モデルを、話者認識用の話者モデルとして登録する登録手段（４０）とを備える。

Description

明細書

話者認識システムにおける話者モデル登録装置及び方法、並びにコンビユータプログラム

技術分野

[0001] 本発明は、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンビュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのュ一ザである話者の発話に基レ、て、話者認識を行う話者認識システムの技術分野に関し、特に該システムにおける話者モデル登録装置及び方法、並びにコンピュータをそのような話者モデル登録装置として機能させるコンピュータプログラムの技術分野に関する。

背景技術

[0002] この種の話者認識システムには、認識に用いられる発話されたテキストが予め登録されているテキスト固定型或いはテキスト依存型と、このような登録が不要であり任意のテキストについて認識を行うテキスト独立型或いは非テキスト依存型と、認識の際或いは都度に認識にテキストが指定されるテキスト指定型の三種類がある。これらのうちテキスト依存型については実用化の域に達しており、各種の提案がなされている (特許文献 1参照)。

[0003] 特許文献 1 :特開 2004— 294755号公報

発明の開示

発明が解決しょうとする課題

[0004] し力、しながら、例えば前述の特許文献 1に開示されている技術によれば、登録の際に、登録用の発話に係るテキストをキーボード等により入力しなければならず、使い勝手が良いとはいえない。更に、登録の都度に、新たに登録しょうとする発話情報と、何らかの照合情報とを照合して、それら両者間の類似性の高低に応じて、再度発話させるか、その発話を登録するかを選択的に実行することを要する。このため、その処理は複雑化し、ユーザによる操作も煩雑化してしまうという技術的問題点がある [0005] 力 Qえて、いずれの従来技術においても、登録の段階で、発話に外部の雑音が混入したり、話者が意図に反して再現性なく発話 (例えば声が裏返ったり震えたり）してしまった際に、登録された発話モデルが信頼性のないものとなり、最終的な話者認識の精度も無視し得ない程に落ちてしまう。或いは、これを回避するために登録動作において多数回のやり直しが求められたることで、登録自体が実践的に困難となるとレ、う問題点もある。

[0006] 本発明は、例えば上述した問題点に鑑みてなされたものであり、話者認識に係るテキストを登録する際における、コンピュータ上の処理及びユーザによる操作が比較的簡単である話者認識システムにおける話者モデル登録装置及び方法、このような話者モデル登録装置を備えた話者認識システム、並びにコンピュータをこのような話者モデル登録装置として機能させるコンピュータプログラムを提供することを課題とする

課題を解決するための手段

[0007] (話者認識システムにおける話者モデル登録装置）

本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、 n (但し、 nは 2以上の整数)個の発話の取得を行う取得手段と、該取得された n個の発話間における相互に類似する度合の算出を行う類似度算出手段と、前記 n個の発話のうち前記類似する度合を示す類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段と、該検証の結果として前記不適格発話が存在しない場合に、前記不適格発話を含まない n個の発話に基いて、話者モデルの算出を行う話者モデル算出手段と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録手段とを備える。

[0008] 本発明に係る、話者認識システムにおける話者モデル登録装置によれば、話者認識システムにおける話者モデルの登録段階で、次のように登録がなされる。

[0009] 即ちその動作時には、先ず、例えばマイクロホン、プロセッサ、メモリ等を有してなる取得手段によって、例えばマイクロホンからの音声信号のうち話者に係る音声部分を抽出する音声抽出や更にその中からの特徴量の算出など、発話の取得が行われる。ここで特に、典型的には話者に同一テキストを繰り返し発話させるなどによって、このような発話の取得力 ¾回行われることで、 n個の発話の取得が行われる。ここに「発話」とは、話者認識の全過程を通じていずれかの段階で用いられる、ユーザたる話者により発話されたテキストに係る音声或いは音声情報を意味する。

[0010] すると、例えばプロセッサ、メモリ等を有してなる類似度算出手段によって、このように取得された n個の発話間における類似度の算出が行われる。典型的には、 n個の発話の夫々につレ、て、自身を除く n_ 1個の発話との間での類似度が夫々算出される。尚、本発明に係る「類似度」とは、類似の度合を直接或いは間接的に示していれば足りるものであり、いわば広義の類似度である。このため、所謂「類似度」或いは「狭義の類似度」のみならず、所謂「尤度」又は「距離尺度」も、本発明に係る「類似度」の一例である。

[0011] 続いて、例えばプロセッサ、メモリ等を有してなる検証手段によって、これら n個の発話のうち、算出により得られた類似度が所定基準に達していない不適格発話が存在するか否かの検証が行われる。

[0012] この検証の結果、不適格発話が存在しない場合には、不適格発話を含まない n個の発話に基いて、例えばプロセッサ、メモリ等を有してなる話者モデル算出手段によつて、話者モデルの算出が行われる。即ち、不適格発話を含まない (即ち、所定基準下で相互に類似する) n個の発話が、適格なる登録用発話として厳正に選ばれた上で、これらの n個の登録用発話に基いて、話者モデルの算出が行われる。

[0013] その後、例えばプロセッサ、メモリ、データベース等を有してなる登録手段によって、このように算出が行われた話者モデルが、話者認識用の話者モデルとして登録される。言い換えれば、該類似度が低い不適格発話が除外された、即ち n個の適格発話に基く話者モデルが、話者認識用の話者モデルとして登録される。

[0014] 以上の結果、本発明によれば、互いの類似度が所定基準に達した発話のみに基く信頼性の高い話者認識用の話者モデルを極めて容易に登録可能となる。この際、複数回の発話の相互の類似度を考慮するので、キーワードをキーボードによって別途入力する必要もなぐ入力の手間も省かれ、実践上非常に有利である。

[0015] 本発明に係る、話者認識システムにおける話者モデル登録装置の一態様では、前記検証の結果として前記不適格発話が存在する場合に、前記不適格発話に代わる発話として、新たな発話の取得、該取得された新たな発話を含む n個の発話間における前記類似度の算出、及び前記検証を、前記不適格発話が存在しなくなるまで繰り返して行うように、前記取得手段、前記算出手段及び前記検証手段を制御する制御手段を更に備える。

[0016] この態様によれば、不適格発話が存在する場合には、例えばプロセッサ、メモリ等を有してなる制御手段による制御下で、不適格発話に代わる発話として、新たな発話の取得、該取得された新たな発話を含む n個の発話間に類似度の算出、及び検証が繰り返して行われ、最終的には、不適格発話が存在しなくなる。従って、実践的にはよくあるように、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、発話の取得が全回を通じて上手くいかなかったとしても、発話の取得及び算出動作等についての単純なる繰り返しを再度行うことで、確実に不適格発話を排除したうえで、極めて精度の高い話者モデルが算出可能となる。カロえて、発話の取得の際、登録用発話を一度全て揃えた上で各発話間の類似度が検証されるので、たとえ一発話目に雑音が混在して類似度が所定基準を満たさないとしても、この発話を、類似度に基いて自動的に検出でき、ピンポイントで訂正できるので、実践上大変便利である。

[0017] この繰り返し検証が行われる態様では、前記検証手段は、前記不適格発話が出現するのに応じて前記検証を繰り返して行う都度に、前記所定基準を前記不適格発話が出現し難レ、側に変化させてもょレ、。

[0018] この態様によれば、所定基準は不適格発話が出現し難い側に、即ち不適格との基準を緩和させる側に変化させるので、繰り返しがある程度の回数で終わるようになる。これにより、話者モデルの登録に係る一連の動作が延々と続くといった不都合を回避でき、具体的妥当性に優れた話者モデルを極めて効率的に登録可能となる。

[0019] 或いは、この繰り返し検証が行われる態様では、前記制御手段は、前記検証が繰り返して行われる中で、前記不適格発話が出現する回数が所定閾値を超える場合には、現時点で前記検証の対象となっている前記 n個の発話の全てを、前記類似度によらずに前記不適格発話として扱ってもよい。 [0020] この態様によれば、不適格発話が出現する回数が所定閾値を超える場合には、現時点で検証の対象となっている n個の発話の全てが不適格発話として扱われるので、結局、全ての発話について最初の取得から行われることになる。従って、何らかの要因によって、類似度が高い発話に揃わない場合にも、始からリセットしてやり直すことで、類似度が高い発話に揃えられる可能性が出てくる。これにより、話者モデルの登録に係る一連の動作が延々と続くといった不都合を回避でき、具体的妥当性に優れた話者モデルを極めて効率的に登録可能となる。

[0021] 或いは、この繰り返し検証が行われる態様では、前記制御手段は、前記不適格発話が出現する割合が所定閾値を超える場合には、現時点で前記検証の対象となつている前記 n個の発話の全てを、前記類似度によらずに前記不適格発話として扱つてもよい。

[0022] この態様によれば、不適格発話が出現する割合が所定閾値を超える場合には、現時点で検証の対象となっている n個の発話の全てが不適格発話として扱われるので、結局、全ての発話について取得力行われることになる。従って、何らかの要因によって、類似度が高い発話に揃わない場合にも、始からリセットしてやり直すことで、類似度が高い発話に揃えられる可能性がでてくる。これにより、話者モデルの登録に係る一連の動作が延々と続くといった不都合を回避でき、具体的妥当性に優れた話者モデルを極めて効率的に登録可能となる。

[0023] 本発明に係る、話者認識システムにおける話者モデル登録装置の他の態様では、前記検証の結果として前記不適格発話が存在する場合に、前記取得手段による前記発話の取得を催促する催促手段を更に備える。

[0024] この態様によれば、検証の結果として前記不適格発話が存在する場合に、例えば表示装置、音声出力装置、コントローラ或いはプロセッサ、メモリ等を有してなる催促手段によって、取得手段による発話の取得が催促される。例えば、表示画面上における表示出力や話者モデル登録装置前の音場における音声出力を通じて、ユーザである話者に対して、再度の発話が促される。従って、単純な繰り返しを確実に行うことができ、信頼性の高い話者モデルの登録を行える。

[0025] (話者認識システム）本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置 (但し、その各種態様を含む）と、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段とを備える。

[0026] 本発明に係る、一の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、装置側における比較的簡単な処理を通じて且つユーザたる話者による比較的簡単な操作によって、極めて信頼性の高い話者認識が可能となる。

(話者認識システムにおける話者モデル登録方法）

本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、 n (但し、 nは 2以上の整数)個の発話の取得を行う取得ェ程と、該取得された n個の発話間における相互に類似する度合の算出を行う類似度算出工程と、前記 n個の発話のうち前記類似する度合を示す類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証工程と、該検証の結果として前記不適格発話が存在しない場合に、前記不適格発話を含まない n個の発話に基いて、話者モデルの算出を行う話者モデル算出工程と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録工程とを備える。

[0027] 本発明に係る、話者認識システムにおける話者モデル登録方法によれば、上述した本発明に係る話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、発話の取得及び算出動作等についての単純なる繰り返しを行うことで、信頼性の高い話者モデルを登録可能となる。

[0028] 尚、本発明の話者モデル登録方法においても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

[0029] (コンピュータプログラム）

上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、 n (但し、 nは 2以上の整数)個の発話の取得を行う取得手段と、該取得された n個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出手段と、前記 n個の発話のうち前記類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段と、該検証の結果として前記不適格発話が存在しない場合に、前記不適格発話を含まなレ、 n個の発話に基いて、話者モデルの算出を行う話者モデル算出手段と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

[0030] 本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納する CD-ROM, DVD— ROM等の記録媒体から、当該コンピュータプログラムを、話者モデル登録装置に備えられたコンピュータに読み込んで実行させれば、或いは、当該コンピュータプログラムを通信手段を介してダウンロードさせた後に実行させれば、上述した本発明の話者モデル登録装置を比較的簡単に構築できる。これにより、上述した本発明の話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、発話の取得及び算出動作等についての単純なる繰り返しを行うことで、信頼性の高い話者モデルを登録可能となる。

[0031] 尚、本発明のコンピュータプログラムにおいても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。

[0032] 上記課題を解決するために、コンピュータ読取可能な媒体内のコンピュータプログラム製品は、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、 n (但し、 nは 2以上の整数)個の発話の取得を行う取得手段と、該取得された n個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出手段と、前記 n個の発話のうち前記類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段と、該検証の結果として前記不適格発話が存在しなレ、場合に、前記不適格発話を含まなレ、n個の発話に基いて、話者モデルの算出を行う話者モデル算出手段と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録手段として機能させる。

[0033] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口ードすれば、上述した本発明の話者モデル登録装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の話者モデル登録装置として機能させるコンピュータ読取可能なコード（或いはコンピュータ読取可能な命令）から構成されてよレ、。

[0034] 以上詳細に説明したように、本発明の話者モデル登録装置によれば、類似度算出手段、検証手段及び話者モデル算出手段を備え、本発明の話者モデル登録方法によれば、類似度算出工程、検証工程及び話者モデル算出手段を備えるので、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、発話の取得及び算出動作等についての単純なる繰り返しを行うことで、信頼性の高い話者モデルを登録可能となる。本発明の話者認識システムによれば、本発明の話者モデル登録装置を備えるので、装置側における比較的簡単な処理を通じて且つユーザたる話者による比較的簡単な操作によって、極めて信頼性の高い話者認識が可能となる。更に、本発明のコンピュータプログラムによれば、コンピュータを類似度算出手段、検証手段及び話者モデル算出手段ととして機能させるので、上述した本発明の話者モデル登録装置を、比較的容易に構築できる。

[0035] 本発明の作用及び他の利得は次に説明する実施例から明らかにされよう。

図面の簡単な説明

[0036] [図 1]本発明の第 1実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成及び動作を概念的に示すブロック図である。

[図 2]第 2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成及び動作を概念的に示すブロック図である。

[図 3]第 2実施例に係る、各発話間の類似度を算出した結果を示す対照図である。

[図 4]第 2実施例に係る、各発話間の類似度を検証する様子を示す対照図である。

[図 5]第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。 [図 6]第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

符号の説明

[0037] 1 話者認識システム

10 話者モデル登録装置

13 取得部

15 類似度算出部

16 検証部

100 制御部

20 話者モデル算出部

30 照合部

40 登録部

45 話者モデルデータベース

132 マイクロホン

142 音声部分抽出部

201 特徴量算出部

30 認証部

50 催促部

52 表示画面

発明を実施するための最良の形態

[0038] 以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。

[0039] (1)第 1実施例

第 1実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図 1を参照して説明する。ここに、図 1は、本発明の第 1実施例に係る

、話者認識システムにおける話者モデル登録装置の基本構成及び動作を概念的に示すブロック図である。

[0040] 図 1におレ、て、本実施例に係る話者認識システム 1における話者モデル登録装置 1 0は、本発明に係る「取得手段」の一例としての取得部 13と、本発明に係る「類似度算出手段」の一例としての類似度算出部 15と、本発明に係る「検証手段」の一例としての検証部 16と、本発明に係る「制御手段」の一例としての制御部 100と、本発明に係る「話者モデル算出手段」の一例としての話者モデル算出部 20と、本発明に係る「照合手段」及び「認識手段」の一例としての照合部 30と、本発明に係る「登録手段」の一例としての登録部 40と、本発明に係る「催促手段」の一例としての催促部 50とを備える。

[0041] 取得部 13は、例えばマイクロホンのような音声入力機器を含んでなり、話者の登録を行う際、話者であるユーザ 12 (例えば鈴木さん）が任意に定めたキーワード (例えば「ひらけごま」）の発話 (実際には、発話の波形データ 14)を n回取得してメモリ等に保存する。ここに nは、登録用発話の数、即ち話者モデル 25を算出して登録するにあたり必要とされる発話回数であり、話者モデル 25の精度が実用上十分に確保される回数を実験或いはシミュレーションにより予め設けるとよレ、。例えば図 1においては n= 3、即ち 3回の発話に基いて話者モデル 25 (例えば、鈴木モデル）の算出を試みる。

[0042] 類似度算出部 15は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプロダラムに従って論理的に構築されるものであり、取得部 13によって取得された n個の発話間における類似度の算出を行う。

[0043] 検証部 16は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、算出により得られた n個の発話間における類似度のうち、所定基準に達していない不適格発話が存在するか否かの検証を行う。

[0044] 制御部 100は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、検証部 16におレ、て不適格発話が存在すると検証された場合には、不適格発話を破棄し、不適格発話が存在しないことが検証されるまで、不適格発話に代わる発話として、新たな発話の取得、該取得された新たな発話を含む n個の発話間に類似度の算出、及び検証を繰り返し行うように、取得部 1 3、類似度算出部 15、及び検証部 16を制御する。

[0045] 話者モデル算出部 20は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、不適格発話を含まない、即ち互いの類似度が全て所定基準を満たす n個の発話に基いて、ユーザ 12 (鈴木さん）がキ一ワードを発話したときの特徴をとらえた話者モデル 25を算出する。

[0046] 登録部 40は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、話者モデル算出部 20によって算出された話者モデル 25のうち、照合部 30による照合の結果、所定基準を満たすものを、話者認識用の話者モデル 25として、例えばコンピュータが備えるハードディスク装置、光デイスク装置等の大規模記憶装置内に構築された話者モデルデータベース 45に正式に登録する。

[0047] 以上、図 1に示すように構成された話者モデル登録装置 10によると、特に類似度算出部 15、検証部 16、制御部 100及び話者モデル算出部 20を備えるので、制御部 1 00の制御下で、類似度算出部 15により算出され検証部 16によって検証された比較的信頼性の高い話者認識用の話者モデル 25が、話者モデル算出部 20により算出され登録可能となる。この際、発話ベースの操作に基くので、キーボードによるキーヮード入力の手間も省かれる。力 0えて、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、発話の取得及び算出動作等についての単純なる繰り返しを行うことで、確実に登録が行われる。この発話の取得の際、登録用発話を一度全て揃えた上で各発話間の類似度が検証されるので、たとえ一発話目に雑音が混在して類似度が所定基準を満たさないとしても、この発話を類似度に基いて自動的に検出してピンポイントで訂正でき、実践上大変便利である。

[0048] (2)第 2実施例

続いて、第 2実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図 2、図 3及び図 4を参照して説明する。ここに、図 2は、第 2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成及び動作を概念的に示すブロック図である。尚、図 2及び図 3において、上記図面に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。

[0049] 図 2におレ、て、本実施例に係る話者認識システム 1における話者モデル登録装置 1 0は、マイクロホン 132、音声部分抽出部 142、特徴量算出部 201、類似度算出部 15、検証部 16、話者モデル算出部 202、登録部 40、催促部 50、表示画面 52、及び認識部 30を備え、比較的信頼性の高い話者認識用の話者モデルを好適に登録する。

[0050] マイクロホン 132は、ユーザ 2がキーワードの発話を n回行う際、該発話を夫々電気信号に変換して話者認識システム 1に入力する機器である。

[0051] 音声部分抽出部 142は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、背景雑音と音声発話区間とのパワー差を利用する一般的な音声区間検出方法等により、変換された発話の電気信号からキーワードが発話されている発話音声部分を切り出す演算装置である。

[0052] 特徴量算出部 201は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、入力される発話音声部分を特徴量に変換する。かかる特徴量は、 MFCC (Mel Frequency C印 strum Coefficient： MFCC) 、 LPC (Linear Predictive Coding : LPC)ケプストラム等によって変換される演算装置である。そして、変換された特徴量は、話者登録の際には類似度算出部 15へ、話者認識の際には認識部 30へ送信される。

[0053] 類似度算出部 15は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプロダラムに従って論理的に構築されるものであり、送信されてくる n個の発話間における類似度の算出を行う。

[0054] 検証部 16は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従つて論理的に構築されるものであり、算出により得られた n個の発話間における類似度のうち、所定基準に達していない不適格発話が存在するか否かの検証を行う。

[0055] ここで、類似度の算出及び検証について、図 3及び図 4を用いて説明をカ卩える。ここに図 3は、第 2実施例に係る、各発話間の類似度を算出した結果を示す対照図であり、図 4は、第 2実施例に係る、各発話間の類似度を検証する様子を示す対照図である。

[0056] 図 3及び図 4において、行番号及び列番号は共に n個の発話の回数或いは夫々の発話に割り当てられた番号を示す。

[0057] 図 3において、行と列が交差してなるセル内の数値は、そのセルに係る行番号の発話 (発話 i)と列番号 (発話 j)の発話との間で類似度算出部 15により算出された類似度が夫々示される（但し、 i、 jは共に 0以上 n以下の整数)。類似度は例えば 0以上 1 以下の実数で表され、 0が最も類似していないことを、 1が最も類似していること（即ち同一であること）を夫々示す。発話 iと発話 jの類似度を算出する際には、例えば次の式 1を用いると処理が比較的簡単でよい。

[0058] 発話 iと発話 jの類似度 = min [発話 iの発話長 (フレーム長)，発話 jの発話長 (フレーム長)] Zmax [発話 iの発話長 (フレーム長)，発話 jの発話長 (フレーム長)] (式 1) 上式は発話長、即ち抽出された音声区間の長さがどれだけ揃っているかを類似度として算出している。このように発話データの一部の類似性のみに着目して類似度を算出してもよいし、或いは発話 i、発話 jの発話長の短い発話特徴量をテンプレートとして、もう一方の発話を DPマッチングさせたときのスコアなどのような、発話全体の類似度を算出してもよい。類似度としてはこの他にも種々の算出方法を用いてよぐそれら複数種類の類似度を同時に求めて用いてもよい。

[0059] 続いて、図 4において、図 3で示した類似度に基いて検証部 16が発話の適不適を検証する様子が示されている。具体的には、検証部 16は、類似度算出部 15が算出した類似度が所定基準に達しているか否か、換言すればこの発話が不適格発話か否かを判断する。例えば、図 4では類似度の閾値を 0. 7とし、図 3の各セルの類似度が 0. 7以上であれば〇印に、 0. 7以下であれば X印に書き換えられている。そして、各行について〇の数をカウントし、このカウント値が所定閾値 kより低い行があるか否力が検証される。ここで所定閾値 kより小さい行があればその行に対応する発話を破棄し、その分だけユーザに再発話が催促される。その結果、全ての行の〇の数が所定閾値 kを超えれば、即ち全ての発話について、自身と他の全ての発話との類似度が比較的高くなれば、これらの発話を用レ、て話者モデルを算出するべぐ特徴量が話者モデル算出部 202へと送信される。

[0060] 尚、類似度としては、尤度又は距離尺度の逆数が用いられる。類似度として距離尺度の逆数が用いられる場合、逆数であるが故に制御方法を適宜変更する必要がある。具体的には、検証 ·登録部 41で所定閾値と比較する際の不等号の向きを逆にする [0061] 再び図 2に戻り、話者モデル算出部 202は、検証部 16で所定基準に達していることが検証された n回分の特徴量用いて、話者モデルを算出し学習する演算装置である。ここに、話者モデルは、話者 HMM (Hidden Markov Model : HMM)や DP (Dyna mic Programming : DP)マッチング等の各種音声認識アルゴリズムにおける話者テンプレートとして表される。

[0062] 登録部 40は、検証済みの話者モデルを、話者認識用の話者モデルとして話者モデルデータベース 45に登録する。

[0063] 表示画面 52は、例えば液晶ディスプレイ等であり、検証結果或いは催促通知のメッセージを表示する表示機器である。

[0064] 催促部 50は、検証部 16において不適格発話が存在すると検証された場合には、ユーザ 12に再度登録用の発話を催促する。例えば、表示画面 52に「再度発話をして下さい」等の催促用メッセージを表示する。そして、この催促部 50により催促されることがなくなるまで、換言すれば、話者認識用の話者モデルが登録されるまで、上記構成に基く処理が行われる。

[0065] 力 0えて、上記話者モデル登録装置 10を備える話者認識システム 1が話者認識を行う際は、以下の認識部を更に備えるとよい。

[0066] 認識部 30は、話者認識時には、認識を求める任意の話者（ここでの話者つまりュ一ザ 12は、話者モデル 25を登録した本人に限られない。例えば、鈴木さんに成りすまそうとする第三者が含まれる）の発話と、登録された話者モデル 25とを照合することで、認識を求める任意の話者が、登録された話者モデル 25の話者本人であるか否かを認識する。具体的には、照合の結果、類似度等が所定基準を満たす場合には、認識を求める任意の話者は登録された話者モデル 25の話者であると認識し、満たさない場合には、話者でないと認識する。そして、その認証結果が表示画面 52に映し出される。

[0067] 以上図 2、図 3及び図 4を用いて詳細に説明したように、本実施例の話者認識システム 1によれば、本実施例の話者モデル登録装置 10を備えるので、装置側における比較的簡単な処理を通じて且つユーザたる話者による比較的簡単な操作によって、極めて信頼性の高い話者認識が可能となる。 [0068] (3)第 3実施例

続いて、第 3実施例に係る話者認識システムにおける話者モデル登録装置の基本的な動作を、図 2から図 4に加えて図 5を参照して説明する。ここに図 5は、第 3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。

尚、本実施例において、上記図面に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。

[0069] 図 5において、登録開始にあたり、先ず発話指示回数 pに nが代入される (ステップ

S101)。そして、 p回発話の指示がなされると (ステップ S102)、ユーザがマイクロホン 132に向かってキーワードを p回発話する。そして、この p回の発話が、マイクロホン

132を介して話者モデル登録装置 10に入力される（ステップ S 103)。

[0070] そして、入力された p回の発話の発話音声部分が音声部分抽出部 142によって夫々抽出され、抽出された発話音声部分が特徴量算出部 201によって各々の特徴量に変換される（ステップ S 104)。

[0071] この p回の発話に係る特徴量に基いて、発話間の類似度が類似度算出部 15によつて算出される（図 3参照）（ステップ S105)。

[0072] 算出された発話間の類似度が所定基準に達しているか否力を検証部 16が検証するべぐ所定基準に達していない不適格発話の数 qがカウントされる（図 4参照）（ステップ S 106)。

[0073] そして、カウントされた不適格発話の数 qが 0であるか否カ即ち不適格発話が存在しないことが検証される（ステップ S107)。

[0074] この際、不適格発話の数 qが 0でない場合、即ち不適格発話が存在する場合 (ステップ S107 : No)、この q個の不適格発話が破棄され（ステップ S1082)、 pに qが代入され (ステップ S1092)、再度 p回、即ち破棄された分の発話指示がなされる。

[0075] 他方で不適格発話の数 qが 0である場合、即ち不適格発話が、当初から存在しない場合或いは再度の発話を繰り返した結果存在しなくなった場合 (ステップ S107 : Yes )、話者モデル算出部 202は、不適格発話を含まず互いの類似度が比較的高い発話に基いて、話者モデルを算出'学習し (ステップ S1081)、この話者モデルが登録部 40によって話者モデルデータベース 45に登録され (ステップ SI 091)、話者認識用の話者モデルの登録が終了する。

[0076] 以上、図 2から図 4に加えて、図 5を参照して説明したように、本実施例の話者認識システム 1によれば、本実施例の話者モデル登録装置 10を備えるので、装置側における比較的簡単な処理を通じて且つユーザたる話者による比較的簡単な操作によつて、互いの類似度が比較的高い発話に基く極めて信頼性の高い話者認識用の話者モデルが登録可能となる。

[0077] (4)第 4実施例

続いて、第 4実施例に係る話者認識システムにおける話者モデル登録装置の基本的な動作を、図 2から図 5に加えて、図 6を参照して説明する。ここに図 6は、第 4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図 6において、上記図面に係る構成及び処理と同一の構成及び処理には同一の符号を付し、その説明は適宜省略する。

[0078] 図 6において、登録開始にあたり、先ず発話指示回数 pに nが、発話の繰り返し回数 rに 0が夫々代入される (ステップ S201)。そして、 1回目の繰り返しとして発話の繰り返し回数 rがカウントアップされて 1になり、 p回発話の指示がなされると (ステップ S20 2)、ユーザがマイクロホン 132に向かってキーワードを p回発話し、前出の実施例と同様にして、不適格発話の数 qがカウントされ（図 4参照）、カウントされた不適格発話の数 qが 0であるか否カ即ち不適格発話が存在しないことが検証される（ステップ S1 03力らステップ S107)。

[0079] ここで、不適格発話の数 qが 0でない場合 (ステップ S107 : No)、即ち不適格発話が存在する場合、次いで、発話の繰り返し回数 rが所定回数 thr以上であるか否かが判断される（ステップ S 2073)。

[0080] ここで、発話の繰り返し回数 rが、所定回数 thrより少ない場合（ステップ S2073 : No )、即ち未だ発話の繰り返しがされ過ぎてはいない場合、再発話により不適格発話を解消する余地があり得る。そこで更に、不適格発話の数 qが所定回数 thqより少ないか否かが判断される（ステップ S2072)。

[0081] ここで、不適格発話の数 qが、所定回数 thqより少ない場合 (ステップ S2072 : Yes) 、言い換えればあと僅かで不適格発話が存在しなくなる場合、この q個の不適格発話が破棄され (ステップ S1082)、 pに qが代入され (ステップ S1092)、再度 p回、即ち破棄された分の発話指示がなされる。カロえて、予め設定した基準が厳しすぎることによる破棄の可能性、ユーザの発話のばらつきが比較的大きいことに起因する破棄の可能性、或いは同様の雑音が多くの発話に混在することによる雑音が混在していない発話の破棄の可能性等を考慮し、不適格発話か否かの基準は話者モデルの信頼性を実践上満たす範囲で緩和されてもよい (ステップ S2102)。

[0082] 他方で、発話の繰り返し回数 rが、所定回数 thr以上である場合 (ステップ S2073： Yes)、或いは不適格発話の数 qが、所定回数 thq以上である場合 (ステップ S2072 : No)、これ以上の繰り返しによる挽回は困難であるとして、全発話が破棄され (ステツプ S2083)、発話指示回数 pに nが、発話の繰り返し回数 rに 0が夫々代入される（ステツプ S2093)。即ち、当該発話の登録力 Sリセットされる。このように発話の繰り返し回数 r或いは不適格発話の数 qが多過ぎる場合、発話の仕方以外に何らかの問題があると推測される。例えば、ユーザの決めたキーワードが話者モデルとして好ましくない可能性もある。そこで、リセットと共に「キーワードを変えて下さい」等のアナウンスをすると、リセットの再発を防止できる。

[0083] 他方で不適格発話の数 qが 0である場合、即ち不適格発話が当初から存在しない場合、或いは再度の発話を繰り返した結果存在しなくなった場合 (ステップ S107 : Y es)、話者モデル算出部 202は、不適格発話を含まず互いの類似度が比較的高い発話に基いて、話者モデル算出.学習し (ステップ S1081)、この話者モデルが登録部 40によって話者モデルデータベース 45に登録され (ステップ S 1091)、話者認識用の話者モデルの登録が終了する。

[0084] 以上、図 2から図 5に加えて、図 6を参照して説明したように、本実施例の話者認識システム 1によれば、本実施例の話者モデル登録装置 10を備えるので、装置側における比較的簡単な処理を通じて且つユーザたる話者による比較的簡単な操作によつて、極めて信頼性の高い話者認識が可能となる。この際、特に発話の繰り返しに関して各種配慮がなされており、登録作業が延々と繰り返され終了しないような事態を極めて効率的に回避することができる。 [0085] 上記実施例に示す動作処理は、取得工程、類似度算出工程、検証工程及び話者モデル算出工程を備える話者認識システム 1における話者モデル登録方法に基いて話者認識システムを動作させることによって実現してもよい。或いは、取得手段、類似度算出手段、検証手段及び話者モデル算出手段を備えた話者認識システム 1に設けられるコンピュータにコンピュータプログラムを読み込ませることで実現してもよい。

[0086] 尚、本発明は、上述した実施例に限られるものではなぐ請求の範囲及び明細書全体から読み取れる発明の要旨、或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムもまた、本発明の技術的範囲に含まれるものである。産業上の利用可能性

[0087] 本発明に係る話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムは、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムにおける話者モデル登録装置に利用可能である。

Claims

請求の範囲

[1] 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、

n (但し、 nは 2以上の整数)個の発話の取得を行う取得手段と、

該取得された n個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出手段と、

前記 n個の発話のうち前記類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証手段と、

該検証の結果として前記不適格発話が存在しない場合に、前記不適格発話を含まなレ、 n個の発話に基いて、話者モデルの算出を行う話者モデル算出手段と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録手段と

を備えることを特徴とする話者認識システムにおける話者モデル登録装置。

[2] 前記検証の結果として前記不適格発話が存在する場合に、前記不適格発話に代わる発話として、新たな発話の取得、該取得された新たな発話を含む n個の発話間における前記類似度の算出、及び前記検証を、前記不適格発話が存在しなくなるまで繰り返して行うように、前記取得手段、前記算出手段及び前記検証手段を制御する制御手段を更に備えることを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[3] 前記検証手段は、前記不適格発話が出現するのに応じて前記検証を繰り返して行う都度に、前記所定基準を前記不適格発話が出現し難い側に変化させることを特徴とする請求の範囲第 2項に記載の話者認識システムにおける話者モデル登録装置。

[4] 前記制御手段は、前記検証が繰り返して行われる中で、前記不適格発話が出現する回数が所定閾値を超える場合には、現時点で前記検証の対象となってレ、る前記 n 個の発話の全てを、前記類似度によらずに前記不適格発話として扱うことを特徴とする請求の範囲第 2項に記載の話者認識システムにおける話者モデル登録装置。

[5] 前記制御手段は、前記不適格発話が出現する割合が所定閾値を超える場合には、現時点で前記検証の対象となっている前記 n個の発話の全てを、前記類似度によらずに前記不適格発話として扱うことを特徴とする請求の範囲第 2項に記載の話者認識システムにおける話者モデル登録装置。

[6] 前記検証の結果として前記不適格発話が存在する場合に、前記取得手段による前記発話の取得を催促する催促手段を更に備えることを特徴とする請求の範囲第 1項に記載の話者認識システムにおける話者モデル登録装置。

[7] 請求の範囲第 1項に記載の話者モデル登録装置と、

前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段と

を備えたことを特徴とする話者認識システム。

[8] 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、

n (但し、 nは 2以上の整数)個の発話の取得を行う取得工程と、

該取得された n個の発話間における相互に類似する度合を示す類似度の算出を行う類似度算出工程と、

前記 n個の発話のうち前記類似度が所定基準に達していない不適格発話が存在するか否かの検証を行う検証工程と、

該検証の結果として前記不適格発話が存在しない場合に、前記不適格発話を含まなレ、 n個の発話に基いて、話者モデルの算出を行う話者モデル算出工程と、該算出が行われた話者モデルを、前記話者認識用の話者モデルとして登録する登録工程とを備えることを特徴とする話者認識システムにおける話者モデル登録方法。

[9] 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータを、

として機能させることを特徴とするコンピュータプログラム。