WO2006027844A1

WO2006027844A1 - 話者照合装置

Info

Publication number: WO2006027844A1
Application number: PCT/JP2004/013197
Authority: WO
Inventors: Jun Ishii
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2004-09-10
Filing date: 2004-09-10
Publication date: 2006-03-16
Also published as: JPWO2006027844A1

Abstract

課題は、従来の話者照合装置は、予め、利用者が複数の単語に対応する音声をそれぞれ発生して登録するように構成されているので、発声する内容は、利用者が登録した単語に限定されるため、利用者が当該単語を発声した音声を他人に録音された場合には、簡単に詐称されてしまう問題があった。そこで、この発明は、上記のような課題を解決するためになされたものであり、発声した内容を他人に録音されても、詐称されにくくしたものである。

Description

話者照合装置

技術分野

[0001] 本発明は、利用者の音声が、申告した本人の音声力どうかを判定することにより、利用者が正当な者力否かを判断する話者照合装置に関するものである。

背景技術

[0002] 従来の話者照合装置においては、予め、利用者が複数の単語に対応する音声をそれぞれ発声して登録するとともに、登録した複数の単語に対してインデックスをつける。照合時においては、利用者力インデックス及び個人識別子を指定し、このインデッタスに対応した単語を発声する。この発声した音声とこれに対応し予め登録された音声とを照合することにより、利用者が正当な利用者であるか否かを判断する。

[0003] 特許文献 1 :特開 2000— 181490

特許文献 2：特開 2002— 269047

特許文献 3：特開 2000— 99090

特許文献 4:特開 2000—338987

特許文献 5：特開平 11082492

特許文献 6：特開平 10— 214096

特許文献 7 :特開 2001— 331196

非特許文献 1 :「音声情報処理」古井貞熙森北出版株式会社

非特許文献 2 :中村哲、山本英里、永井論、鹿野清宏「HMMを用いた音声と唇画像の統合による音声認識と唇画像生成」音声言語情報処理研究会 P15-P17 発明の開示

発明が解決しょうとする課題

[0004] 従来の話者照合装置は、以上のように構成されているので、発声する内容は、利用者が登録した単語に限定されるため、利用者が当該単語を発声した音声を他人に録音された場合には、簡単に詐称されてしまう問題があった。

[0005] この発明は、上記のような課題を解決するためになされたものであり、発声した内容を他人に録音されても、詐称されに《したものである。

課題を解決するための手段

[0006] この発明に係る話者照合装置は、認証要求者に発声させるべき音声単位を認証要求者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示する音声単位提示手段と、この提示する音声単位と個人識別子とに対応づけて準備される音声標準パターンと、この準備された音声標準パターンと上記認証要求者が発声した音声とを比較して音声の類似度を計算する音声類似度計算手段と、この音声類似度計算手段の計算結果に基づいて上記認証要求者が正当な利用者力否かを判定する判定手段と、を備えるものである。

発明の効果

[0007] この発明に係る話者照合装置は、認証要求者に発声させるべき音声単位を認証要求者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示するようにしたので、認証要求者が前回発声した内容を他人に録音されても、その録音内容を今回は利用できなくなるため、他人による詐称を防止することができる。

発明を実施するための最良の形態

[0008] 実施の形態 1.

図 1は、本発明の実施の形態 1による話者照合装置の構成図である。図 2、図 5、図 6 は、本発明の実施の形態 1による音声単位提示手段による提示内容を示す図である。図 3は、本発明の実施の形態 1による登録データベースにおける音声標準パターン 118の格納態様の概念図である。図 4は、本発明の実施の形態 1による話者照合装置の処理内容を示すフローチャートである。

[0009] 次に、図 1乃至 3を用いて本実施の形態における話者照合装置の構成を説明する。

[0010] 図 1において、 100は、利用者登録手段である。利用者登録手段 100は、登録時において登録要求者 101が、予め登録要求者音声 102、個人識別子 103及び暗証文字列 104を登録することにより、個人識別子 103に対応させて音声標準パターン 118 (図 3参照)及び暗証文字列 104を登録データベース 106に格納する手段である。

[0011] 101は、登録要求者である。登録要求者 101は、例えば、本実施の形態に力かる話者照合装置がビルに入る際の認証に使用される場合には、このビルの居住人等、予めビルに入ることが許可されている者が該当する。

[0012] 102は、登録要求者の音声である。この登録要求者音声 102により後述する音声標準パターン 118を生成する。音声の録音の仕方は、話者照合装置が指定した文章を登録要求者 101が読み上げることで得る。なお、話者照合装置が指定する文章は多くの音節の種類が含まれるようにすることで、質の良、音声標準パターン 118を生成することができる。

[0013] ここで「音声標準パターン 118」とは、登録要求者音声 102の特徴を効率よく表現するものである。音声標準パターンは、例えば、登録要求者音声 102の音声波形を AD 変換してデジタル信号を生成し、この信号に対して特徴量分析を行って得られた音声特徴量によって学習した音節単位のサブワード HMM (Hidden Markov Model)である。 HMMに関しては非特許文献 1に詳細が記されている。音声特徴量とは、音声信号を効率よく表現するものであり、例えばケプストラムを用いる。

[0014] 103は、個人識別子である。個人識別子 103は、複数の登録要求者 101を識別するために登録要求者 101に割り当てられた符号であり、例えば英数字の組合せを用いる。個人識別子がアルファベットで構成されている場合、最初に登録した「鈴木太郎」には「AAA」、二番目に登録した「鈴木次郎」には「AAB」、三番目に登録した「鈴木三郎」には「AAC」 t 、う様に割り当てる。

[0015] 104は、暗証文字列である。暗証文字列 104は、正式な利用者であることを証明するために秘密にし、予め登録しておく符号であり、例えば英数字の組合せを用いる。暗証文字列 104が 4桁の数字列と指定されている場合、「9768」「4361」などが設定可能である。

[0016] 105は、登録手段である。登録手段 105へ登録要求者音声 102、個人識別子 103、暗証文字列 104を入力することにより、後述する登録データベース 106へ個人識別子 103に対応した音声標準パターン 118及び暗証文字列 104を登録する。登録手段 105は、マイクやキーボード等を備えており、各登録要求者 101はマイクを使用し登録要求者音声 102を登録し、キーボードを利用し暗証文字列 104を登録する。

[0017] 106は、登録データベースである。登録データベース 106は、登録手段 105により生成した音声標準パターン 118、個人識別子 103、暗証文字列 104を格納する。音声標準パターン 118は、個人識別子 103と標準パターン音声単位に対応するように格納する。標準パターン音声単位が音節カゝら構成されている場合には、個人識別子 10 3及び各音節 117に対応するように格納する。例えば、図 3に示すように個人識別子「AAB」で登録した話者の音節単位の音声標準パターン「あ (/a/)」である音声標準パターン 118のように格納する。このように格納することにより認証個人識別子 109及び音声単位提示手段 111で提示された音声単位 130 (図 2参照）に対応した音声標準パターン 118を選択することができる。

[0018] 150は、利用者認識手段である。利用者認識手段 150は、認証時にぉ、て認証要求者 107が正当な利用者力否かを判定する手段であり、認証要求者音声 108と選択された音声標準パターン 118との類似性を計算するものである。

[0019] 107は、認証要求者である。認証要求者 107は、本実施の形態に力かる話者照合装置がビルに入る際の認証に使用される場合には、このビルに入ろうとする者が該当する。例えば、登録要求者 101や詐称してビルに侵入しょうとする者が該当する。

[0020] 108は、認証要求者音声である。認証要求者音声 108は、後述する音声単位提示手段 111で提示された音声単位 130 (図 2参照）に対応して認証要求者 107が発声する音声である。

[0021] 109は、認証個人識別子である。認証個人識別子 109は、認証要求者 107が認証時に申告する話者を識別するための符号であり、登録している個人識別子 103のいずれかと一致して!/、なければならな!/、。

[0022] 110は、認証要求者 107に提示する音声単位 130を格納する音声単位データべ一スである。

[0023] 111は、音声単位提示手段である。音声単位提示手段 111は、図 2に示すように、暗証文字列構成文字 120からなる暗証文字列構成文字群 121、音声単位 130、及び両者の対応関係を提示する。ここで「暗証文字列構成文字 120」とは、暗証文字列 1 04を構成する文字である。例えば暗証文字列 104が 10進数の数字列である場合に、暗証文字列構成文字 120は「0」、「1」、「2」· · ·「9」が該当する。また、「音声単位 13 0」とは、認証要求者 107が発声させるべき文字列である。文字列が単語に該当する場合には「はちのへ（/hatinohe/)」、「けせんぬま（/keseNnuma/)」、「ゆくはし（ /yukuhasi/) J ,「さっぽろ (/saQporo/)」等がある。図 2は、単語からなる音声単位 13 0と暗証文字列構成文字群 121とを対応させた組合せを複数提示したものである。「はちのへ（/hatinohe/)」という音声単位 130に対して「0」、「2」、「6」が対応し、「けせんぬま (/keseNnuma/)」には「1」、「9」が対応し、「ゆくはし (/yukuhasi/)」には「3」、「 4」、「7」が対応し、「さっぽろ (/saQporo/)」には「5」、「8」が対応するように割り当てる。この対応表に従って、認証要求者 107は自己の暗証文字列 104の数字列に対応した音声単位 130を発声する。認証要求者 107の暗証文字列 104が「5218」であるならば、最初の数字 5に対応した音声単位 130「さっぽろ (/saQporo/)」を発声し、次に二番目の数字 2に対応した「はちのへ (/hatinohe/)」を発声する。更に三番目の数字 1に対応した「けせんぬま (/keseNnuma/)」、四番目の数字 8に対応した「さっぽろ (/saQporo/)」を連続して発声させる。

[0024] 音声単位提示手段 111は、認証要求者 107に提示する際に前回提示した音声単位 130を他の音声単位 130に切り替えて提示する。即ち、音声単位提示手段 111は、利用する毎に音声単位 130が切り替わる場合、 2回利用する毎に切り替わる場合、 3 回利用する毎に切り替わる場合、ランダムに切り替わる場合、一定の時間毎に切り替わる場合、同一の認証要求者 107が利用する毎に切り替わる場合がある。

[0025] 112は、音声類似度計算手段である。音声類似度計算手段 112は、認証個人識別子 109の入力、及び、音声単位提示手段 111の提示に基づいて登録データベース 106から音声標準パターン 118を選択する。例えば、認証要求者 107が認証個人識別子 109として「AAB」を入力し、音声単位提示手段 111では暗証文字列 104により「さっぽろ、はちのへ、けせんぬま、さっぽろ」を連続して発声することを提示された場合には、音声類似度計算手段 112は、登録データベース 106から、認証個人識別子 109「AAB」に対応した、「さ (/sa/)」、「つ（/Q/)」、「ぽ (/po/)」、「ろ (/ro/)」、「は（ / /)」…の音声標準パターン 118が選択される。この選択された音声標準パターン 118と認証要求者 107が発声した認証要求者音声 108の各音節とを比較し音声類似度を計算し類似度を出力する。音声類似度の計算は、音節ごとの音響的特徴を比較して、文章全体で判断する場合がある。類似度に関しては例えば「音声情報処理」古井貞熙 1998年 6月森北出版株式会社 (以下参考文献 1とする)の 5章に記されて、る方法によって計算する。

[0026] 113は、閾値である。閾値 113は、予め定められた基準値であって、認証要求者音声 108が正当な利用者による音声力否力の判定の基準となる。音声類似度計算手段 112での類似度がこの閾値 113より大きければ、認証要求者 107は正当な利用者と判定される。

[0027] 114は、認証要求者 107が、正当な利用者力否かを判定する判定手段である。判定手段 114は、音声類似度計算手段 112での結果を基に、認証要求者音声 108が正当な利用者による音声である力否かを判定する。類似度が閾値 113以上の場合に正当な利用者と判断し、逆に閾値 113より小さい場合には、詐称を目的とする利用者と判定する。

[0028] 115は、認証結果である。認証結果 115は、判定手段 114からの出力であり、認証要求者 107が正当な利用者と判断された場合は「受理」、詐称を目的とする利用者と判断された場合は「棄却」となる。例えば、本実施の形態にカゝかる話者照合装置がビルに入る際の認証に使用された場合、「受理」された場合にはドアのロックが解除され、「棄却」された場合にはロックがされたままとなる。

[0029] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 4はこの発明の実施の形態 1による話者照合装置の処理内容を示すフローチャートである。以下、図 4にしたがって動作を説明する。

[0030] 図 4のステップ 11は、登録要求者 101の情報を登録するステップである。すなわち登録要求者 101は登録手段 105へ自己の情報、すなわち登録要求者音声 102、個人識別子 103、暗証文字列 104を入力する。登録手段 105は、登録要求者音声 102 に基づき音声標準パターン 118を生成するとともに、この音声標準パターン及び暗証文字列を登録データベース 106へ格納する。

[0031] ステップ 12は、認証要求者 107に発声させる音声単位と認証文字 (群）との対応を認証要求者 107に提示するステップである。すなわち、認証要求者 107に認証個人識別子 109を話者照合装置に入力させる。次に、音声単位提示手段 111は、認証要求者 107に発声させる音声単位 130を提示する。音声単位提示手段 111が、図 2に示すように暗証文字列構成文字群 121と音声単位 130との両者の対応を提示する。音声単位提示手段 111は、認証要求者 107に提示する際に前回提示した音声単位 130を他の音声単位 130に切り替えて提示する。即ち、音声単位提示手段 111は、利用する毎に音声単位 130が切り替わる場合、 2回利用する毎に切り替わる場合、 3 回利用する毎に切り替わる場合、ランダムに切り替わる場合、一定の時間毎に切り替わる場合、同一の認証要求者 107が利用する毎に切り替わる場合がある。なお、当該照合装置の管理者は、新たな音声単位 130を登録したい場合には、音声単位データベース 110を更新すればよ!、。音声単位データベース 110に音声単位 130を 1 つ増やせば、当該音声単位 130を各登録要求者 101に対して提示することができるという効果を得ることができる。また、登録要求者 101は一度登録要求者音声 102を登録すれば、音声標準パターン 118が自動的に生成されるため、新たな音声単位 1 30が追加されても新たに登録要求者音声 102を録音しなくても良いという効果を得ることがでさる。

[0032] ステップ 13は、認証の際に、認証要求者 107が発声した認証要求者音声 108とこれに対応する音声標準パターン 118とを比較するステップである。

[0033] ステップ 14は、認証の際に、判定手段 114が、音声類似度計算手段 112の出力である音声類似度を、予め定められた閾値 113と比較して、音声類似度が閾値 113以上であれば正当な利用者であるとして「受理」、一方、音声類似度が閾値 113より小さければ詐称を目的とする利用者として「棄却」を認証結果 115として出力するステップである。

[0034] 以上のように、この実施の形態 1によれば、前回提示した内容を他の内容に切り替えて提示するので、録音した音声によって他人に詐称されたり、暗証文字列 104を他人に知られることで詐称されたりする可能性が低くなり安全性の高い話者照合を実現できる。

[0035] なお、登録手段 105、音声単位提示手段 111、音声類似度計算手段 112、判定手段 114をノ、一ドウエアで構成してもよいが、各手段の処理内容を記述した話者照合プログラムを作成し、コンピュータが当該話者照合プログラムを実行するようにしてもよい。

[0036] また、 1つの閾値 113によって受理か棄却を決定する場合を説明した力複数の閾値を設定してもよい。例えば閾値を A、 Bの 2種類用意して、音声類似度が閾値 Aより大きい値ならば正当な利用者であると判定し、音声類似度が Aと Bの間なら明瞭な判定不可能であると判定し、 Bより音声類似度が小さいならば詐称を目的とする者と判定するようにする。このように設定することにより、例えば、当該話者照合装置がビルに入る際の認証に使用する場合には、正当な利用者と判断すればドアのロックを解除し、判定不可能であると判断すれば再度認証要求者 107に音声単位提示手段 11 1を提示し、詐称者と判断した場合には、ドアのロックは解除しない。

[0037] また、図 5に示すように、ひらがな一文字力もなる音声単位 130と 1つの暗証文字列構成文字 120とを 1対 1に対応させた組合せを複数提示する場合がある。例えば、認証要求者 107の暗証文字列 104が「5218」であるなら認証要求者 107は、「せ」、「ゆ」、「け」、「の」と発声することになる。

[0038] また、図 6に示すように、ひらがな一文字力もなる音声単位 130と暗証文字列構成文字群 121とを対応させた組合せを複数提示する場合がある。例えば、「は」という音声単位 130に対して、「0」、「2」、「6」が対応し、「け」には、「1」、「9」が対応し、「ゆ」には「3」、「4」、「7」が対応し、「さ」には「5」、「8」が対応するように割り当てられる。この対応表にしたがって認証要求者 107は自己の暗証文字列 104の数字列に対応した音声単位 130を発声する。認証要求者 107の暗証文字列 104が「5218」であるならば、最初の数字に対応した音声単位 130「さ」を発声し、次に 2に対応した「は」を発声する。さらに 3番目の数字である 1に対応した「け」、 4番目の数字に 8対応した「さ」を連続して発声することになる。このように音声単位 130に対して複数の数字が割り当てられているので、発声した内容を他人に知られたとしても暗証文字列 104の数字列が一意に知られてしまうことはない。

実施の形態 2.

[0039] 図 7は、本発明の実施の形態 2による話者照合装置の構成図である。図 8は、本発明の実施の形態 2による話者照合装置の処理内容を示すフローチャートである。図 7を用いて本実施の形態における話者照合装置の構成を説明する。なお、実施の形態 1 と共通する部分については説明を省略する。

[0040] 図 7において、 201は、登録要求者属性である。登録要求者属性 201は、登録要求者 101の属性に関する情報であり、性別、年齢、干支、血液型、出身地等の情報である。例えば「男性、 22歳、ねずみ年、 A型、東京都出身」等の情報がある。

[0041] 202は、登録手段である。登録手段 202へ登録要求者音声 102、個人識別子 103、登録要求者属性 201を入力することにより、登録データベース 203へ音声標準バターン 118を格納する。登録手段 202はマイクやキーボード等を備えており、各登録要求者 101は自己の個人識別子 103に対応させるように、マイクを使用して登録要求者音声 102を登録し、キーボードを使用して登録要求者属性 201を登録する。

[0042] 203は、登録データベースである。登録データベース 203は、登録手段 202により生成した音声標準パターン 118及び登録要求者属性 201を格納する。

[0043] 204は、音声単位提示手段である。音声単位提示手段 204は、認証要求者 107〖こ対して、属性に関する質問を提示する。例えば「あなたの年はおいくつですか？」、「あなたの出身はどちらですか？」、「あなたの血液型はなんですか？」等がある。この質問は、認証要求者 107が答えるべき音声単位 130を前回提示した音声単位 130 力も他の音声単位 130に切り替えて提示する。例えば、ある認証要求者 107に「あなたの年はおいくつですか？」を提示し、その次にこの話者照合装置を利用する認証要求者 107に「あなたの出身はどちらですか？」を提示する場合がある。

[0044] 205は、応答時間計算手段である。応答時間計算手段 205は、認証要求者 107が認証要求者音声 108を発声するのにかかった時間を計る。例えば、音声単位提示手段 204により質問がなされて力も認証要求者 107が発声開始までの応答するのにかかった時間を計る。

[0045] 206は、判定用スコア計算手段である。判定用スコア計算手段 206は、応答時間計算手段 205の出力である応答時間と音声類似度計算手段 112の出力である音声類似度とから判定用スコア Sを計算する。判定用スコア Sは、音声類似度を L (大きければ類似度が高い）、応答時間を Trとすれば例えば数式 1で求める。

[0046] S =L- a -Tr 数式 1

数式 1において、 aは重み係数である。数式 1によれば、応答時間 Trが長ければ判定用スコアが低くなる。

[0047] 次に、以上の構成力もなる話者照合装置の動作を図 8を用いて説明をする。図 8において、ステップ 21は、登録要求者 101は登録手段 202へ自己の登録要求者音声 102、個人識別子 103、登録要求者属性 201を入力するステップである。登録要求者音声 102及び登録要求者属性 201は個人識別子 103に対応するように入力する。次に登録手段 202は、登録要求者音声 102に基づき音声標準パターン 118を生成し登録データベース 203へ格納する。

[0048] ステップ 22は、話者照合装置が認証要求者 107に、属性に関する質問をするステツプである。例えば「あなたのお年はおいくつですか？」と質問する。これらの質問は、音声単位提示手段 204により前回提示した内容力も切り替わって提示されるために、他人が認証要求者 107の発声した音声を録音して、ビルに入ろうとしても同じ音声単位 130が提示される可能性が少なくなるために詐称される可能性は低くなる。

[0049] ステップ 23は、認証要求者 107が認証要求者音声 108を発声する時間を計るステツプである。応答時間計算手段 205は、認証要求者 107が認証要求者音声 108を発声する時間を計る。正当な利用者であれば、自己の属性を把握しているため、一般的に応答時間が短くなる。また他人であれば、この質問に対する正しい答えを準備するのに時間がかかり、応答時間が長くなる。

[0050] ステップ 24は、判定用スコア計算手段 206により、応答時間計算手段 205の応答時間及び音声類似度計算手段 112の音声の類似度に基づいて、認証要求者 107が正当な利用者力否かの判定用スコアを算出するステップである。判定手段 114は、判定用スコア計算手段の出力を、予め定められた閾値 113と比較して、出力が閾値 113以上であれば本人であるとして「受理」、一方、音声類似度が閾値より小さければ他人であるとして「棄却」を認証結果 115として出力する。

[0051] 以上のように、この実施の形態 2によれば、前回提示した音声単位 130を他の音声単位 130に切り替えて提示されるので、録音した音声によって他人に詐称されにくい。また、認証要求者 107は質問に答えるという 1つの行為だけで、音声の類似度及び応答時間の 2つの観点から、認証要求者 107が正当な利用者力否かが判断されるため、認証要求者 107は面倒な手続きをすることなぐ精度の高い音声照合ができる。

[0052] 実施の形態 3.

[0053] 図 9は、本発明の実施の形態 3による話者照合装置の構成図である。図 10は、本発明の実施の形態 3による話者照合装置の処理内容を示すフローチャートである。図 9 を用いて本実施の形態における話者照合装置の構成を説明する。なお、実施の形態 1又は 2と共通する部分については説明を省略する。

[0054] 図 9において、 301は、登録要求者唇画像である。登録要求者唇画像 301は、予め、登録要求者 101に、新聞や雑誌の記事を読ませ、この時の唇の形、動きを録画すること〖こより作成する。この登録要求者唇画像 301に基づいて後述する唇画像標準パターンを生成する。

[0055] ここで「唇画像パターン」は、唇の画像を音節単位のサブワード HMM (Hidden

Markov Model)を利用して作成する。

[0056] また、「唇画像標準パターン」とは、上記パターンの画像特徴を効率よく表現したものをいう（以下、唇画像標準パターンは音節単位で構成されるとして説明する)。唇画像標準パターンは、例えば、中村哲、山本英里、永井論、鹿野清宏「HMMを用いた音声と唇画像の統合による音声認識と唇画像生成」音声言語情報処理研究会 15— 1 7、 1997年 2月（以下参考文献 2とする）で報告されている方法で作成する。参考文献 2によれば唇画像の標準パターン作成は、まず 1フレーム（1フレームは 33.3m秒）あたり横 160 X縦 150= 19200画素の画像を 256階調の濃淡画像に変換し、 256 X 256の FFT(Fast Fourier Transform)によって周波数分析を行う。そして空間周波数領域おけるパワースペクトルを計算し、対数スケールのスムージングを行う。さらにフレーム間の差分をとることで動的な特徴を求める。唇画像標準パターンはパワースベクトル 256分布、その差分に 256分布の構造を持った HMMであり、前記のように唇画像より求めたパワースペクトルと差分によって作成する。

[0057] 302は、登録手段である。登録手段 302へ登録要求者音声 102、個人識別子 103、登録要求者属性 201、登録要求者唇画像 301を入力することにより、後述する登録データベース 303へ個人識別子 103に対応するように音声標準パターン 118、唇画像標準パターン、及び登録要求者属性 201を格納する。登録手段 302はマイク及びカメラを備えており、各登録要求者 101は自己の個人識別子 103に対応させ、マイクを使用することにより登録要求者音声 102を登録し、カメラを利用することにより登録要求者唇画像 301を登録する。 [0058] 303は、登録データベースである。登録データベース 303は、登録手段 302により生成した音声標準パターン 118、唇画像標準パターン、及び登録要求者属性 201を格納する。

[0059] 304は、認証要求者唇画像である。認証要求者唇画像 304は、音声単位提示手段 2 04により提示された質問に対して答えた状態の唇画像を録画することにより得る。

[0060] 305は、音声及び唇画像類似度計算手段である。音声及び唇画像類似度計算手段 305は、認証個人識別子 109の入力、及び、音声単位提示手段 204の音声単位 13 0に基づいて登録データベース 303から音声標準パターン 118及び唇画像標準パターンを選択する。例えば、認証要求者 107が認証個人識別子 109として「AAB」を入力し、音声単位提示手段 204「あなたの出身はどこですか？」という質問に対して、登録データベース 303において認証個人識別子 109の出身地が「札幌」に対応している場合には、音声及び唇画像類似度計算手段 305は登録データベース 303から「 AAB」に対応した「さ (/sa/)」、「つ (/Q/)」、「ぽ (/po/)」、「ろ (/ro/)」の音声標準パターン 118及び唇画像標準パターンを順次選択する。そしてこの選択された音声標準パターン 118及び唇画像標準パターンに対応する認証要求者音声 108及び認証要求者唇画像 304とを比較する。

[0061] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 10はこの発明の実施の形態 3による話者照合装置の処理内容を示すフローチャートである。以下、図 10にしたがって動作を説明する。

[0062] 図 10において、ステップ 31は、登録要求者 101の情報を登録するステップである。

すなわち登録要求者 101は登録手段 302へ自己の登録要求者音声 102、個人識別子 103、登録要求者属性 201、登録要求者唇画像 301を入力する。登録手段 302 は、登録要求者音声 102に基づき音声標準パターン 118を生成し、登録要求者唇画像 301に基づき唇画像標準パターンを生成し、両者を登録データベース 303へ格納する。次に、格納の仕方は、音声標準パターン 118及び唇画像標準パターンを個人識別子 103及び音節 117に対応するように格納する。このように格納することにより認証個人識別子 109及び音声単位提示手段 204に対応した音声標準パターン 118 及び唇画像標準パターンを選択することができる。 [0063] ステップ 32は、認証要求者 107が認証個人識別子 109を話者照合装置に入力するステップである。次に、音声単位提示手段 204は、属性に関する質問をする。この質問に対して認証要求者 107は音声単位提示手段 204で要求された音声単位 130に対応する認証要求者音声 108を発声する。

[0064] ステップ 33は、認証要求者 107が発声した認証要求者音声 108とこれに対応する音声標準パターン 118とを比較するステップである。また、認証要求者 107が発声した時に撮影した認証要求者唇画像 304とこれに対応する唇画像標準パターンとを比較する。認証要求者唇画像 304と唇画像標準パターンとの比較は、例えば、認証要求者 107が「AAB」の認証個人識別子 109を入力し、音声単位提示手段 204で「あなたの出身はどちらですか？」と質問された場合には、唇画像類似度計算手段は、登録データベース 303から、認証個人識別子 109「AAB」に対応した「さ (/sa/)」、「つ（ /Q/)」、「ぽ (/po/)」、「ろ (/ro/)」にあたる唇画像標準パターンを選択する。この選択された各唇画像標準パターンとこれに対応した各認証要求者唇画像 304とを比較し唇画像類似度を計算し類似度を出力する。

[0065] ここで認証要求者唇画像 304は、認証要求者 107が認証要求者音声 108を発声した唇を撮影した画像であり、特徴量として、パワースペクトルおよびパワースペクトルの動的特徴を抽出する。この認証要求者唇画像 304と登録データベース 303から選択した唇画像標準パターンとの類似度計算は、文献 1の 5章で示される方法で尤度計算を行う。次に、音声による類似度 Lと唇画像による類似度 Mを用い、判定用の類似度を求める。判定用類似度は、例えば両者を重み付け加算した数式 2に示すスコァとする。

[0066] [数 2]

S = L + βνί 数式 2 数式 2において |8は重み付け係数であり、高い照合精度が得られるように決定する。判定手段 114は、音声と唇画像による類似度を音声及び唇画像類似度計算手段 30 5の出力である類似度 Sを入力し、予め定めた閾値 113と比較して、類似度が閾値以上であれば本人であるとして「受理」、一方類似度が閾値より小さいのであるならば他人であるとして「棄却」を認証結果 115として出力する。 [0067] ステップ 34は、話者照合装置が、認証要求者 107を正当な利用者力否かを判断するステップである。

[0068] 以上のように、この実施の形態 3によれば、前回提示した音声単位 130を他の音声単位 130に切り替えて提示され、音声とともに唇画像も入力して類似度を計算するので、テープレコーダ等で録音した音声によって他人に詐称されにくい。また、認証要求者 107は質問に答えるという 1つの行為だけで、音声及び唇画像の 2つの観点から、認証要求者 107が正当な利用者力否かが判断することができる。

実施の形態 4.

[0069] 図 11は、本発明の実施の形態 4による話者照合装置の構成図である。図 12は、本発明の実施の形態 4による話者照合装置の処理内容を示すフローチャートである。図 11を用いて本実施の形態における話者照合装置の構成を説明する。なお、実施の形態 1、 2又は 3と共通する部分については説明を省略する。

[0070] 図 11において、 401は、登録手段である。登録手段 401へ個人識別子 103、登録要求者属性 201を入力することにより、後述する登録データベース 402へ個人識別子 1 03に対応させた登録要求者属性 201を登録する。

[0071] 402は、登録データベースである。登録データベース 402は、個人識別子に対応させて登録要求者属性 201を格納する。

[0072] 403は、照合用音声標準パターン群である。照合用音声標準パターン群 403とは、属性に依存した音声標準パターンの群である。例えば、属性が年齢と性別である場合には、 10才代男性の音声標準パターンの群、 20才代男性の音声標準パターンの群…というように分別して構成する。照合用音声標準パターン群 403は、例えば、 10 才代男性の音声波形を AD変換したデジタル信号に対して特徴量分析を行って得られる音声特徴量を用いて作成する。 404は、照合用音声標準パターン群集合である。照合用音声標準パターン群集合 404は、照合用音声標準パターン群 403の集合である。

[0073] 405は、照合用音声標準パターン選択手段である。照合用音声標準パターン選択手段 405は、入力された認証個人識別子 109により登録データベース 402から登録要求者属性 201のデータを取り出し、そのデータに基づいて照合用音声標準パターン群集合 405から照合用音声標準パターン群を選択する。例えば、個人識別子 103 によって申告した認証要求者の属性が、 20代男性であったならば、 20代男性の照合用標準パターン群を選択する。

[0074] 次に、以上の構成力もなる話者照合装置の動作について説明をする。図 12はこの発明の実施の形態 1による話者照合装置の処理内容を示すフローチャートである。以下、図 12にしたがって動作を説明する。

[0075] 図 12において、ステップ 41は、登録要求者 101の情報を登録するステップである。

すなわち登録要求者 101は登録手段 401へ自己の個人識別子 103、登録要求者属性 201を入力する。登録要求者属性 201は個人識別子 103に対応するように登録する。

[0076] ステップ 42は、認証要求者 107は認証個人識別子 109を話者照合装置に入力するステップである。次に、音声単位提示手段 204は、属性に関するする質問を提示する。例えば、「あなたの出身はどこですか？」がある。この質問は、発声単位提示手段 204により前回提示した内容を切り替えて提示する。

[0077] ステップ 43は、認証要求者 107が発声した認証要求者音声 108と、これに対応する照合用音声標準パターン 118とを比較するステップである。例えば、認証要求者 107 が「AAB」の認証個人識別子 109を入力し、音声単位提示手段 204では「出身地はどこですか？」と質問した場合には、照合用音声標準パターン選択手段 405は、照合用音声標準パターン群集合 405から、認証個人識別子 109「AAB」の属性に対応した、照合用音声標準パターン群を選択し、更にその中から「さ (/sa/)」、「つ (/Q/)」、「ぽ (/po/)」、「ろ (/ro/)」の照合用音声標準パターン 118を選択する。この選択された照合用音声標準パターン 118と認証要求者音声 108の各音節とを比較し音声類似度を計算し類似度を出力する。

[0078] ステップ 44は、話者照合装置が、認証要求者 107が正当な利用者力否かを判断するステップである。

[0079] 以上のように、この実施の形態 4によれば、前回提示した音声単位 130を他の音声単位 130に切り替えて提示されるので、テープレコーダ等で録音した音声によって他人に詐称されにくい。また、属性を利用して話者照合を行うので、事前の音声登録が不要となり、登録要求者 101が音声を登録できない場合であっても話者照合を実現できる。

図面の簡単な説明

[0080] [図 1]この発明の実施の形態 1を示す話者照合装置の構成図である。

[図 2]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である

[図 3]この発明の実施の形態 1における登録データベースにおける音声標準パターンの格納態様の概念図である。

[図 4]この発明の実施の形態 1における話者照合装置の処理内容を示すフローチヤートである。

[図 5]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である

[図 6]この発明の実施の形態 1における音声単位提示手段の概念を示す一例である

[図 7]この発明の実施の形態 2を示す話者照合装置の構成図である。

[図 8]この発明の実施の形態 2における話者照合装置の処理内容を示すフローチヤートである。

[図 9]この発明の実施の形態 3を示す話者照合装置の構成図である。

[図 10]この発明の実施の形態 3における話者照合装置の処理内容を示すフローチヤートである。

[図 11]この発明の実施の形態 4を示す話者照合装置の構成図である。

[図 12]この発明の実施の形態 4における話者照合装置の処理内容を示すフローチヤートである。

符号の説明

[0081] 100 利用者登録手段

101 登録要求者

102 登録要求者音声

103 個人識別子 104 暗証文字列

105 登録手段

106 登録データベース

107 認証要求者

108 認証要求者音声

109 認証個人識別子

110 音声単位データベース

111 音声単位提示手段

112 音声類似度計算手段

113 閾値

114 判定手段

115 認証結果

117 音節

118 音声標準パターン

120 暗証文字列構成文字

121 暗証文字列構成文字群

130 音声単位

201 登録要求者属性

204 音声単位提示手段

205 応答時間計算手段

206 判定用スコア計算手段

301 登録要求者唇画像

304 認証要求者唇画像

305 音声及び唇画像類似度計算手段

403 照合用音声標準パターン群

404 照合用音声標準パターン群集合

405 照合用音声標準パターン選択手段

Claims

請求の範囲

[1] 認証要求者に発声させるべき音声単位を認証要求者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示する音声単位提示手段と、

この提示する音声単位と個人識別子とに対応づけて準備される音声標準パターンとこの準備された音声標準パターンと上記認証要求者が発声した音声とを比較して音声の類似度を計算する音声類似度計算手段と、

この音声類似度計算手段の計算結果に基づいて上記認証要求者が正当な利用者か否かを判定する判定手段と、

を備えたことを特徴とする話者照合装置。

[2] 音声単位提示手段は、画面表示により認証要求者に発声させるべき音声単位を提示するものとし、

この画面表示する内容には、

認証要求者に発声させるべき複数の音声単位により構成される音声単位群と、この音声単位群の各音声単位に対応づけて配置表示されかつ個人識別子に対応した暗証文字列を構成する文字カゝらなる文字群と、

が含まれることを特徴とする請求項 1に記載の話者照合装置。

[3] 判定手段は、

音声単位提示手段の提示内容に対して認証要求者が応答するのにかかった時間及び音声類似度計算手段の計算結果に基づいて認証要求者が正当な利用者力否かを判断する

ことを特徴とする請求項 1に記載の話者照合装置。

[4] 音声標準パターンは、

登録利用者の属性情報に基づき作成され、かつ分別された照合用音声標準パターン群を構成し、

音声類似度計算手段は、

個人識別子により特定される属性に基づいて照合用音声標準パターン群集合から選択する音声標準パターンと音声とを比較して類似度を計算する、ことを特徴とする請求項 1に記載の話者照合装置。

認証要求者に発声させるべき音声単位を認証利用者に提示する際に前回提示した音声単位を他の音声単位に切り替えて提示する音声単位提示手段と、

上記提示する音声単位と個人識別子とに対応づけて準備される唇画像標準パターンと、

この準備された唇画像標準パターンと上記認証要求者を撮影した唇画像とを比較して唇画像の類似度を計算する唇画像類似度計算手段と、

上記音声類似度計算手段の結果と上記唇画像類似度計算手段との計算結果に基づいて上記認証要求者が正当な利用者力否かを判定する判定手段と

を備えたことを特徴とする話者照合装置。