WO2006109515A1

WO2006109515A1 - 操作者認識装置、操作者認識方法、および、操作者認識プログラム

Info

Publication number: WO2006109515A1
Application number: PCT/JP2006/305939
Authority: WO
Inventors: Soichi Toyama; Ikuo Fujita; Mitsuya Komamura
Original assignee: Pioneer Corporation; Tech Experts Incorporation
Priority date: 2005-03-31
Filing date: 2006-03-24
Publication date: 2006-10-19
Also published as: JP4588069B2; JPWO2006109515A1; US20090254757A1; US7979718B2

Abstract

　操作者の認識時に誤認識を生じさせやすい特徴量を有するＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置を提供することにある。　話者認識装置１００は、認識処理を行うときに用いるＨＭＭデータを登録する際に、既に登録されたＨＭＭデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのＨＭＭデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるＨＭＭデータの登録を許可しないようになっている。

Description

明細書

操作者認識装置、操作者認識方法、および、操作者認識プログラム技術分野

[0001] 本発明は、 HMM (Hidden Markov Models)法を用いて話者認識を行う技術分野に属する。

背景技術

[0002] 現在、インターネットなどのネットワークの発達およびコンピュータの発達に伴!、、ネットワークを用いたサービスの提供、他のコンピュータへのアクセス、または、物理的な鍵の代替え品として、様々な場面で本人確認を行う種々の方法やシステムが研究 •開発されている。

[0003] このような本人確認を行う代表的なものとして、操作者の発話音声成分または指紋など操作者の生体情報を用いて本人確認を行う方法 (以下、「操作者認識方法」 t ヽう。）があり、具体的には、認識すべき操作者の発話音声成分または指紋などの生体情報の特徴量を予め登録し、当該操作者の認識を行う際に、入力された生体情報の特徴量を抽出し、当該抽出された特徴量と予め登録された特徴量とを比較して操作者の認識を行うようになって!/、る。

[0004] 例えば、操作者 (以下、「話者」ともヽぅ。）の発話音声成分を用いて本人確認を行うものとしては、 HMM (隠れマルコフモデル）と呼ばれる確率モデル（以下、「HMM」という。）を用いるものが知られており、特に、最近では、予め登録する HMMのデータ（以下、「HMMデータ」という。）を少なくして認識処理の負荷を低減し、かつ、認識力の高、テキスト依存型と呼ばれる HMMデータを用いる認識方法が知られてヽる。

[0005] 具体的には、このようなテキスト依存型の操作者の認識システム（以下、「テキスト依存型話者認識システム」という。）は、予め操作者毎に、すなわち、話者毎に任意に決めた語句（以下、「パスワード」という。）の複数回の発話力抽出した特徴量力算出された各話者の HMMを HMMデータとしてデータベースに登録するようになっており、当該話者の認識を行う際に、パスワードを話者に発話させ、当該発話された発話音声成分の特徴量と HMMデータによって示される特徴量とを比較することによって話者認識を行うようになって!ヽる（例えば、特許文献 1) o

特許文献 1：特開 2004— 294755号公報

発明の開示

発明が解決しょうとする課題

[0006] し力しながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存型認識システムに代表されるように、予め登録される HMMデータ自体が他の登録される HMMデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。

[0007] 本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を生じさせやす!/ヽ特徴量を有する HMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操作者認識方法および操作者認識プログラムを提供することにある。

課題を解決するための手段

[0008] 上記の課題を解決するために、本発明の 1つの観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段と、を備える構成を有している。

[0009] また、本願の他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づ、て前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。

[0010] また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報力求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用

Vヽて前記データベースを更新する更新手段、として機能させる構成を有して、る。図面の簡単な説明

[0011] [図 1]本願に係る操作者認識装置の第 1実施形態における話者認識装置の構成を示すブロック図である。

[図 2]第 1実施形態のシステム制御部における登録処理の動作を示すフローチャートである。

[図 3]本願に係る操作者認識装置の第 2実施形態における指紋認識装置の構成を示すブロック図である。 O

[図 4]第 2実施形態のシステム制御部における登録処理の動作を示すフローチャートで1—あ〇る。

〇

[図 5]本願に係る操作者認識装置の第 3実施形態における話者認識装置の構成を示すブロック図である。

[図 6]第 3実施形態のシステム制御部における登録処理の動作を示すフローチャートである。

符号の説明

500 … 話者認識装置

110 … マイクロホン

120 … 入力処理部

130、 320 … 特徴量抽出部

140、 330 … データベース

150、 340、 520 … 尤度算出部

160 … 登録判定部

170 … 表示部

180 … 表示制御部

190 … スピーカ

200 … 拡声制御部

210、 360、 510 … データ生成部

220、 350 … 認識処理部

230 … 操作部

240、 370、 530 … システム制御部

250 … ROM/RAM

300 … 指紋認識装置

310 … 指紋検出部

発明を実施するための最良の形態

[0013] 次に、本発明に好適な実施の形態について、図面に基づいて説明する。

[0014] 以下に説明する実施形態は、テキスト依存型話者認識装置 (以下、単に「話者認識装置」という。）または指紋認識装置に対して本願の操作者認識装置、操作者認識方法および操作者認識プログラムを適用した場合の実施形態である。また、以下の各実施形態では、尤度および各閾値については、正規ィ匕された値であることを前提に説明する。

[0015] 〔第 1実施形態〕

始めに、図 1〜図 2を用いて本願の操作者認識装置の第 1実施形態を、話者認識装置を用いて説明する。

[0016] まず、図 1を用いて本願の話者認識装置の構成について説明する。なお、図 1は、本願に係る話者認識装置の構成を示すブロック図である。

[0017] 本実施形態の話者認識装置 100は、認識の対象となる各操作者毎に、当該操作者を特定するためのパスワードを複数回発話させ、当該操作者によって発話された発話音声に基づいて生成された HMMデータを予め登録するようになっており、話者を特定して認識する処理 (以下、「認識処理」という。）を行うときに当該登録されている各 HMMデータと任意の操作者力発せされたパスワードにおける発話音声の音声成分とに基づいてパスワードを発した操作者、すなわち、話者を特定して認識するようになっている。

[0018] 特に、本実施形態の話者認識装置 100は、認識処理を行うときに用いる HMMデータを登録する際に、既に登録された HMMデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードの HMMデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想される HMMデータの登録を許可しなヽようになっている。

[0019] 具体的には、本実施形態の話者認識装置 100は、 HMMデータを登録する処理（以下、「登録処理」という。）を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置 100は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいて HMMデータを学習させつつ、生成し、当該生成された HMMデータの登録を行うようになっている。

[0020] この話者認識装置 100は、図 1に示すように、話者のパスワードにおける発話音声が入力されるマイクロホン 110と、入力されたパスワードの発話音声の音声信号に対して所定の処理を行う入力処理部 120と、パスワードの発話音声の音声信号に基づいて当該発話音声における音声成分 (以下、「発話音声成分」という。）の特徴量を抽出する特徴量抽出部 130と、話者が予め定めたパスワードの HMMデータが予め複数登録されてヽるデータベース 140と、データベース 140に登録された各 HMMデータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部 1 50と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録されて、る各 HMMデータとに基づ、て後述するように、尤度を算出するようになってヽる。

[0021] また、この話者認識装置 100は、登録処理を行う際に、算出された各尤度に基づいて話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可否を判定する登録判定部 160と、当該登録判定部 160の判定結果を表示する表示部 170と、表示部 170を制御する表示制御部 180と、登録判定部 160の判定結果を告知するスピーカ 190と、当該スピーカ 190を制御する拡声制御部 200と、パスヮードとして当該話者が定めたパスワードを HMMデータとして登録することが許可された場合に、 HMMデータを学習させつつ生成するデータ生成部 210と、を備えている。

[0022] さらに、この話者認識装置 100は、抽出されたパスワードの特徴量とデータベース 1 40に既に登録された HMMデータに基づいて認識処理を行う認識処理部 220と、各種操作を行うために用いられる操作部 230と、装置全体を制御するとともに、 HMM データを登録する際に、または、認識処理を実行する際に各部を制御するシステム制御部 240と、各部を制御する際に用いられる ROMZRAM250と、を備えている。

[0023] なお、例えば、本実施形態のマイクロホン 110は、本発明の入力手段を構成するとともに、入力手段は、本発明の比較対象情報生成手段を構成し、特徴量抽出部 130 は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース 140は、本発明のデータベース 140を構成し、尤度算出部 150は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部 170 およびスピーカ 190は、本発明の告知手段を構成し、データ生成部 210は、本発明の更新手段および第 2更新手段を構成する。

[0024] マイクロホン 110には、認識処理を行う際に、または、登録処理を行う際に、操作者、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになっており、このマイクロホン 110は、入力されたパスワードの発話音声を電気的な音声信号に変換し、入力処理部 120に出力するようになっている。

[0025] 入力処理部 120には、マイクロホン 110から出力された音声信号が入力されるようになっており、この入力処理部 120は、入力された音声信号に対して、所定の信号レベルに増幅させるとともに、デジタル信号に変換するようになっている。

[0026] また、この入力処理部 120は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴量抽出部 130に出力するようになっている。

[0027] 特徴量抽出部 130には、パスワードの発話音声がマイクロホン 110に入力される毎に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽出部 130は、システム制御部 240の制御の下、入力された各フレーム毎に音声信号を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特徴量を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部 15 0または後述するように当該パスワードの登録が許可された場合にデータ生成部 210 に出力するようになっている。

[0028] 具体的には、特徴量抽出部 130は、入力された各フレームの音声信号に基づいて、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとつて逆フーリエ変換したものケプストラムの情報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部 150またはデータ生成部 210に出力するようになって、る。

[0029] なお、本実施形態の特徴量抽出部 130は、データ生成部 210において HMMデータを学習させつつ生成する場合に、各フレーム毎に分割された音声信号が入力される毎に、当該入力された音声信号に基づいて発話音声成分の特徴量を抽出し、データ生成部 210に出力するようになって、る。

[0030] データベース 140には、操作者を特定するためのパスワードの当該操作者における発話音声成分に基づいて生成された HMMデータが各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。

[0031] なお、この HMMは、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとつて逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになつている。具体的には、この HMMは、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル (フレーム毎の特徴量ベクトル)の確率を出力する出力確率の 2つのパラメータを有するとともに、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表わす統計的信号源モデルである。

[0032] 尤度算出部 150には、パスワード一発話分の全フレームのベクトル特徴量の時系列データが特徴量データとして入力されるようになっており、この尤度算出部 150は、システム制御部 240の制御の下、入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース 140に格納されている各 HMMデータに基づき尤度を算出するようになって、る。

[0033] 具体的には、尤度算出部 150は、 HMMが初期状態から時間の進行と共に状態を遷移する毎にベクトルを出力し、最終状態に達したときに入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量データが出力される確率を計算するようになっている。そして、この尤度算出部 150は、当該算出された確率を尤度として算出するようになっている。

[0034] 一方、この尤度算出部 150は、上述のように算出された各話者の HMM毎の尤度において最も高い尤度（以下、「最大尤度」という。）を検索し、この最大尤度を尤度データとして登録判定部 160または認識処理部 220の何れかに出力するようになつている。

[0035] なお、この尤度算出部 150は、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部 160に出力するとともに、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部 220に出力するようになっている。

[0036] 登録判定部 160には、登録処理を行っている際に、尤度算出部 150から出力された操作者が登録を希望するパスワードの尤度データが入力されるようになっており、この登録判定部 160は、入力された尤度データに基づいて、当該尤度データの算出の基になったパスワードのデータベース 140への登録の可否を判定し、当該判定結果をシステム制御部 240に通知するようになって、る。

[0037] 具体的には、この登録判定部 160は、予め設定された登録判定用の閾値 (以下、「登録判定用閾値」という。）と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値以下の場合には、データベース 140に類似するパスワードが登録されていないものと判断して、当該尤度データの算出の基になったパスワードのデータベース 140への登録を許可する判定（以下、単に、「登録許可の判定」という。）を行うようになっている。

[0038] 一方、この登録判定部 160は、予め設定された閾値と入力された尤度データによつて示される尤度とを比較し、当該尤度が閾値より大きい場合には、データベース 140 に類似するパスワードが登録されているものと判断して、当該尤度データの算出の基になったパスワードのデータベース 140への登録を許可しない不許可の旨の判定（以下、単に、「登録不許可の判定」という。）を行うようになっている。

[0039] なお、システム制御部 240は、後述するように、登録許可の判定が通知された場合には、当該登録許可の旨を表示部 170およびスピーカ 190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおける HMMデータを生成する処理を実行するようになっている。また、このシステム制御部 240は、登録不許可の判定が通知された場合には、当該登録許可の旨を表示部 170およびスピーカ 190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。 [0040] データ生成部 210には、登録処理を行っている際に操作者が登録を希望するパスワードの登録が許可された場合に、パスワードの登録の可否の判断前に特徴量抽出部 130にて抽出された当該パスワードの特徴量データと、当該パスワードの登録が許可された後に、複数回パスワードが入力され、特徴量抽出部 130にて当該パスヮードが入力される毎に抽出されたノスワードの特徴量データが入力されるようになつている。また、このデータ生成部 210は、入力された各特徴量データに基づいて、 H MMデータを学習させつつ生成し、当該生成された HMMデータを操作者の名称に関連づけてデータベース 140に登録するようになって!/、る。

[0041] 具体的には、本実施形態のデータ生成部 210は、入力された複数の特徴量データに基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとつて逆フーリエ変換したケプストラムのデータを有する確率モデルを学習させつつ生成し、当該生成された確率モデルを HMM データとしてデータベース 140に登録するようになって!/、る。

[0042] 表示部 170は、例えば、 CRT、液晶表示素子または EL (Electro Luminescence)素子によって構成され、表示制御部 180の制御にしたがって種々の表示を行うようになつており、特に、本実施形態の表示部 170は、操作者が入力した登録を希望するパスワードの登録の可否などの種々の表示を行うようになって!/、る。

[0043] 表示制御部 180は、システム制御部 240の制御の下、表示部 170の表示制御を行うようになっており、特に、本実施形態の表示制御部 180は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための表示データを生成し、当該生成された表示データを表示部 170 に表示出力するようになって!/、る。

[0044] スピーカ 190は、拡声制御部 200の制御にしたがって種々の告知を行う際に所定の音声が拡声させるようになっており、特に、本実施形態のスピーカ 190は、操作者が入力した登録を希望するパスワードの登録の可否を行う際に用いられるようになつている。

[0045] 拡声制御部 200は、システム制御部 240の制御の下、スピーカ 190の拡声制御を行うようになっており、特に、本実施形態の拡声制御部 200は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための音声データを生成し、当該生成された音声データをスピーカ

190から拡声出力するようになって、る。

[0046] 認識処理部 220には、認識処理を行っている際に、尤度算出部 150において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部 2 20は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。

[0047] 例えば、本実施形態の認識処理部 220は、入力された尤度データにおける最大尤度が予め設定された認識処理用の閾値 (以下、「認識処理用閾値」という。）以上である力否かを判定し、当該最大尤度が認識処理用閾値以上の場合には、当該尤度を算出する際に用、た HMMデータに対応付けて登録されて、る操作者を、当該認識処理においてパスワードを発話した操作者、すなわち、話者であると認識し、当該認識結果をシステム制御部 240に出力するようになって、る。

[0048] なお、本実施形態の認識処理部 220は、当該最大尤度が認識処理用閾値より小さい場合には、当該認識処理においてパスワードを発話した操作者がデータベース 1 40に登録されている何れの操作者にも該当しないとしてその旨をシステム制御部 24 0に出力するようになっている。また、この認識処理用閾値は、登録判定用閾値より大き、値が用いられるようになって、る。

[0049] 操作部 230は、各種確認ボタン及び数字キー等の多数のキーを含むキーボード、または、タツチパネル等の入力インターフェースにより構成されており、特に、本実施形態では、登録処理を行う際に、または、認識処理を行う際に、所定の操作を行うようになっている。

[0050] システム制御部 240は、主に中央演算処理装置 (CPU)によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、登録処理および認識処理のための全般的な機能を総括的に制御するようになっている。

[0051] このシステム制御部 240は、登録処理および認識処理を行う際に、 ROM/RAM2 50に格納される制御プログラムを読み出して各処理を実行し、当該 ROMZRAM2 50に処理中のデータを一時的に保持するようになっている。 [0052] なお、本実施形態のシステム制御部 240における登録処理の動作の詳細については後述する。

[0053] ROMZRAM250には、所定の動作を行う際の制御プログラムが記憶されているとともに、各部を制御する際に用いられるデータが一時的に記憶されるようになっている。

[0054] 次に、図 2を用いて本実施形態のシステム制御部 240における登録処理の動作について説明する。

[0055] なお、図 2は、本実施形態のシステム制御部 240における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース 140には、複数の操作者の HMMデータが予め登録されて!、るものとする。

[0056] まず、操作部 230を介して操作者によってパスワードの HMMデータを登録する登録処理を実行する指示が入力され、システム制御部 240が当該登録処理の実行指示を検出すると (ステップ S 11)、当該システム制御部 240は、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスワードの入力を促すための告知（以下、「入力指示の告知」という。）をさせる (ステップ S 12)。

[0057] 次いで、システム制御部 240は、特徴量抽出部 130に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップ S 13)。

[0058] このとき、特徴量抽出部 130は、当該ステップ S13の指示が為されると、マイクロホン 110に操作者のパスワードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスヮ一ドー発話分の全フレームの特徴量の時系列データを特徴量データとして尤度算出部 150に出力する。

[0059] 次いで、システム制御部 240は、尤度算出部 150に入力された各フレーム毎の特徴量とデータベース 140に格納されている各 HMMデータを比較して入力されたパスワードの発話音声成分全体の特徴量と各 HMMデータの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部 160に出力させる (ステップ S 14)。 [0060] 次、で、システム制御部 240は、登録判定部 160に最大尤度と登録判定用閾値とを比較させ、入力されたパスワードの登録の可否を判定し (ステップ S15)、登録判定部 160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部 180およぎ拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録するパスワード、すなわち、登録するパスワードの変更を促すための告知（以下、「変更指示の告知」という。）をさせ (ステップ S16)、ステップ S13の処理に移行する

[0061] 一方、登録判定部 160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部 240は、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録可能の告知を行わせる（ステップ S 17)。

[0062] 次いで、システム制御部 240は、データ生成部 210に特徴量抽出部 130から入力されたノスワードの特徴量を取得させて当該パスワードにおける HMMデータを生成させるとともに (ステップ S18)、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録するパスワードの入力を促すための告知（以下、「再入力指示の告知」という。）を行わせる (ステップ S 19)。

[0063] 次いで、システム制御部 240は、ステップ S13の処理と同様に、特徴量抽出部 130 に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う (ステップ S 20)。

[0064] このとき、特徴量抽出部 130は、上述の処理と同様に、マイクロホン 110に操作者のパスワードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部 210に出力する。

[0065] このとき、システム制御部 240が未だ予め定められた回数のパスワードの入力がないと判断すると、当該システム制御部 240は、ステップ S20の処理に移行し、システム制御部 240が未だ予め定められた回数のパスワードの入力があつたと判断すると、当該システム制御部 240は、データ生成部 210に HMMデータの学習を指示する。

[0066] 次いで、システム制御部 240は、データ生成部 210に入力された特徴量データに基づいて生成された HMMデータを学習させ (ステップ S21)、生成された HMMデータを、パスワードを入力した操作者に対応付けてデータベース 140に登録させ (ステツプ S23)、本動作を終了させる。

[0067] 以上のように本実施形態の話者認識装置 100は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量力学習した HMMデータが予め登録されたデータベース 140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該 HMMデータとを比較することによって操作者を認識する話者認識装置 100であって、パスワードの音声成分における特徴量から学習する HMM データをデータベース 140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン 110と、入力されたパスワードの音声成分カゝら特徴量を抽出する特徴量抽出部 130と、抽出された特徴量と照合用の各操作者のパスワードの発話音声成分の特徴量から学習された HMMデータとを比較し、当該抽出された特徴量と当該照合用の各操作者のパスワードの発話音声成分における特徴量から学習された HMMデータとの尤度をそれぞれ算出する尤度算出部 150と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出されたパスワードの発話音声における音声成分の特徴量に基づいて生成される HMMデータを用いてデータベース 140を更新するデータ生成部 210と、を備える構成を有している。

[0068] この構成により、本実施形態の話者認識装置 100は、操作者が希望するパスワードの発話音声に基づく HMMデータを登録する際に、入力されたパスワードの発話音声成分力も抽出された特徴量とデータベース 140に登録された各 HMMデータの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量に基づいて生成される HMMデータを用いてデータベース 140を更新する。

[0069] したがって、本実施形態の話者認識装置 100は、操作者の認識時に誤認識を生じさせやす、特徴量に基づく HMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

[0070] また、本実施形態の話者認識装置 100は、尤度算出部 150が、初回に入力されたパスワードの音声成分における特徴量に基づいて照合用の各パスワードの音声成分における特徴量との各尤度を算出するとともに、算出された初回に入力されたパスヮードの音声成分における特徴量に基づく各尤度が登録判定用閾値以下の場合に、データ生成部 210が、抽出された全登録用パスワード発話の特徴量に基づいて一つの HMMデータを生成し、当該生成された HMMデータを用いてデータベース 14 0を更新する構成を有して、る。

[0071] この構成により、複数回行わなければならない登録発話のうち初回の発話のみで登録可否の判定がなされるので、パスワードの再入力が生じた場合であっても、操作者における負荷を軽減させることができる。

[0072] なお、本実施形態では、データ生成部 210は、パスワードの登録が許可された後に、複数回入力されたパスワードの発話音声成分における特徴量に基づいて、 HMM を学習させるようになっているが、複数回のパスワード発話の任意の複数の発話に対して登録可否の判定を行うようにしても良い。この場合には、登録不可の判定が尤度の算出に用いない入力された複数回の発話音声における特徴量データは、例えば、 ROMZRAM250に一時的に記憶されるようになって!/、る。

[0073] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部 160において許可が為されない限り、登録を希望するノスワードの再入力が指示されるようになって、るが、当該ノスワードの再入力に回数の制限を設けるようにしてもよい。

[0074] この場合には、システム制御部 240は、パスワードの変更指示を行う毎に、算出された最大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行つても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該 ROMZRAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部 210に、当該選択されたパスヮードにおける HMMデータを、入力された発話音声の特徴量に基づいて、学習させつつ生成させ、生成させた HMMデータをデータベース 140に登録させるようになつている。また、この場合には、上述と同様に、システム制御部 240は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部 170 およびスピーカ 190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大き、値を有する最大尤度に基づ、て、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部 240は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部 220に格納するようになって、る。

[0075] また、上述のように、ノスワードの発話音声における入力を制限する点に変えて、算出された最大尤度を ROMZRAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいて HMMデータを学習させつつ生成するようにしてよい。このように、パスワードの再入力を所定の基準にて制限することによって、上述と同様に、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、上述と同様に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大き、値を有する最大尤度に基づ、て、認識処理用閾値を変更するようになつている。例えば、この場合は、システム制御部 240は、最大尤度より所定の値大き、認識処理用閾値を算出し、認識処理部 220に格納するようになって、る。

[0076] なお、ここでは照合用生体情報として HMMデータを用いて尤度として信号生成確率を用いた例を示したが、照合用生体情報として GMM (Gaussian Mixture Model)を用いて尤度として信号生成確率を用いる方法、動的計画法を用いる場合照合用生体情報として照合用パターンを用い尤度としてパターン間距離の逆数を用いる方法や、ニューラルネットを用いる場合照合用生体情報として-ユーラルネットワークを用 V、尤度としてネットワーク出力を用いる方法など様々な方法も本構成で実現できる。

[0077] また近年、携帯電話やインターネット等のデータ通信を応用した分散型音声認識が開発研究されている。これは、端末側でマイクと CPUなどの演算器を持ち、発話音声を特徴量に変換してデータ通信によりサーバに伝送する。サーバでは受信した特徴量に対し音声認識処理を行う結果を求めたり、求めた結果でデータ検索を行うなどする。そして求めた結果やデータ検索結果等を再度データ通信を利用して端末に伝送し、端末側でユーザに音声や画像で通知するなど利用する、というものである。このような構成を本発明にも用いることができる。この場合、入力処理部'特徴量抽出部 ·表示部'スピーカを端末側で受け持ち、データ生成 ·データベース ·尤度算出部 · 登録判定部 ·認識処理部をサーバ側で受け持つような構成とすることも可能である。

[0078] また、本実施形態では、システム制御部 240によって、登録処理を行うようになって V、るが、操作者毎の HMMデータが複数登録されるデータベース 140を有する話者認識装置 100にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもょ、。

[0079] 〔第 2実施形態〕

次に、図 3および図 4を用いて本願の操作者認識装置の第 2実施形態を、指紋認識装置を用いて説明する。

[0080] 本実施形態の指紋認識装置は、第 1実施形態の話者認識装置にお！ヽてパスワードの発話音声における特徴量を用いて認識処理を行う点に代えて、操作者の指紋の特徴量を用いる点に特徴がある。

[0081] すなわち、各操作者にお!、て指紋は、指の数だけ存在するため、各操作者にぉヽて変更可能な生体情報の一つである。また、この指紋は、指紋の画像 (以下、「指紋画像」という。）として取り込み、当該指紋画像に基づいて指紋隆線の分岐点および端点の位置などの特徴点を解析することによって当該指紋画像の特徴量を抽出することができる。したがって、本実施形態の指紋認識装置は、指紋画像を取得し、当該取得された指紋画像を解析することによって特徴量を抽出することができるとともに、当該特徴量をデータベース 140に予め登録すれば、第 1実施形態と同様に、尤度を算出することができ、かつ、認識処理を行うことができるようになつている。

[0082] なお、本実施形態においては、上述の構成以外の構成は第 1実施形態と同様の構成を有しており、同一の部材には同一の符号を付してその説明を省略する。

[0083] まず、図 3を用いて本願の指紋認識装置 300の構成について説明する。なお、図 3 は、本願に係る指紋認識装置 300の構成を示すブロック図である。

[0084] 本実施形態の指紋認識装置 300は、図 3に示すように、操作者の指紋を画像として検出する指紋検出部 310と、入力された指紋画像に基づいて当該指紋の特徴量を抽出する特徴量抽出部 320と、操作者の指紋の特徴量を示す指紋データが予め複数登録されているデータベース 330と、データベース 330に登録された各指紋データと抽出された指紋画像における特徴量との尤度を算出する尤度算出部 340と、抽出された指紋画像の特徴量とデータベース 330に既に登録された指紋データに基づいて認識処理を行う認識処理部 350と、パスワードとして当該操作者が定めた指紋を指紋データとして登録することが許可された場合に、指紋データを生成するデータ生成部 360と、を備えている。

[0085] また、この指紋認識部は、第 1実施形態と同様に、登録判定部 160と、表示部 170 と、表示制御部 180と、スピーカ 190と、拡声制御部 200と、操作部 230と、システム制御部 370と、 ROMZRAM250と、を備えている。

[0086] なお、例えば、本実施形態の指紋検出部 310は、本発明の入力手段を構成するとともに、特徴量抽出部 320は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース 330は、本発明のデータべ一ス 330を構成し、尤度算出部 340は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部 170およびスピーカ 190は、本発明の告知手段を構成し、データ生成部 360は、本発明の登録手段および第 2登録手段を構成する。

[0087] 指紋検出部 310は、操作者の指を接触させる接触部を有し、登録処理時または認識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像データとして特徴量抽出部 320に出力するようになって、る。

[0088] 特徴量抽出部 320には、入力された操作者の指における指紋画像データが入力されるようになっており、この特徴量抽出部 320は、入力された指紋画像データに基づいて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するようになっている。そして、この特徴量抽出部 320は、抽出された特徴量を特徴量データとして尤度算出部 340またはデータ生成部 360に出力するようになっている。 [0089] データベース 330には、操作者を特定するためのパスワードとして当該操作者の指紋画像に基づいて生成された指紋データが、各操作者毎に、当該各操作者の名称に対応付けて予め登録されて、る。

[0090] 尤度算出部 340には、特徴量抽出部 320にて抽出された特徴量データが入力されるようになっており、この尤度算出部 340は、システム制御部 370の制御の下、特徴量データの各特徴量とデータベース 330に格納されている各指紋データによって示される特徴量とを比較し、入力された特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、この算出された各尤度において最も高い最大尤度を尤度データとして認識処理部 350または登録判定部 160の何れかに出力するようになっている。

[0091] なお、この尤度算出部 340は、第 1実施形態と同様に、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部 350に出力するとともに、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部 160に出力するようになっている。

[0092] 認識処理部 350には、認識処理を行っている際に、尤度算出部 340において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部 3 50は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。

[0093] データ生成部 210は、登録処理を行っている際に操作者が登録を希望するパスヮードとしての指紋の登録が許可された場合に、特徴量抽出部 320にて抽出された当該指紋画像の特徴量データを取得し、取得された特徴量データに基づいて、指紋データを生成するようになっており、生成された指紋データを操作者の名称に関連づけてデータベース 330に登録するようになって!/、る。

[0094] 次に、図 4を用いて本実施形態のシステム制御部 370における登録処理の動作について説明する。

[0095] なお、図 4は、本実施形態のシステム制御部 370における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース 330には、複数の操作者の指紋データが予め登録されてヽるものとする。

[0096] まず、操作部 230を介して操作者によってノスワードとしての指紋データを登録する登録処理を実行する指示が入力され、システム制御部 370が当該登録処理の実行指示を検出すると (ステップ S31)、当該システム制御部 370は、表示制御部 180 および拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスヮードを入力する旨、すなわち、指紋の検出を促すための告知（以下、「検出指示の告知」と、う。 )をさせる（ステップ S32)。

[0097] 次、で、システム制御部 370は、指紋検出部 310に接触部に接触された指の指紋の画像を撮像させる (ステップ S33)。

[0098] 次、で、システム制御部 370は、特徴量抽出部 320に、撮像された指紋画像データに基づいて特徴量を抽出させ、当該抽出された特徴量を特徴量データとして尤度算出部 340に出力させる (ステップ S34)。

[0099] 次いで、システム制御部 370は、尤度算出部 340に入力された特徴量データとデータベース 330に格納されている各指紋データの各特徴量とを比較して入力された指紋画像データにおける特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部 160に出力させる (ステップ S35)。

[0100] 次いで、システム制御部 370は、登録判定部 160に最大尤度と登録判定用閾値とを比較させ、入力された指紋の登録の可否を判定し (ステップ S36)、登録判定部 16 0によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部 180およぎ拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録する指紋の変更を告知させ (ステップ S37)、ステップ S33の処理に移行する。

[0101] 一方、登録判定部 160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部 370は、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録可能である旨の告知を行わせる (ステップ S38)。

[0102] 次いで、システム制御部 370は、データ生成部 360に特徴量抽出部 320から撮像された指紋画像データの特徴量を取得させて指紋データを生成させるとともに (ステップ S39)、当該生成された指紋データを入力した操作者に対応付けてデータべ一ス 330に登録させ (ステップ S40)、本動作を終了させる。 [0103] 以上のように本実施形態の指紋認識装置 300は、認識の対象となる操作者毎に登録変更可能な指紋の特徴量が指紋データとして予め登録されたデータベース 330を有し、特定すべき操作者の指紋の特徴量と当該指紋データとを比較することによって操作者を認識する指紋認識装置 300であって、操作者の指の指紋の特徴量を指紋データとしてデータベース 330に登録する際に、登録すべき指紋を画像データとして検出する指紋検出部 310と、検出された指紋画像データから特徴量を抽出する特徴量抽出部 320と、抽出された指紋画像データの特徴量と照合用の各指紋データの特徴量とを比較し、当該抽出された特徴量と当該照合用の各指紋データの特徴量との特性が類似する割合を示す尤度をそれぞれ算出する尤度算出部 340と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出された指紋画像データの特徴量に基づいて生成される指紋データを用いてデータベース 330を更新するデータ生成部 360と、を備える構成を有している。

[0104] この構成により、本実施形態の指紋認識装置 300は、操作者が希望する指紋に基づく指紋データを登録する際に、検出された指紋画像データから抽出された特徴量とデータベース 330に登録された各指紋データにおける特徴量との特性が類似する割合を示す尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望する指紋の特徴量に基づいて生成される指紋データを用いてデータベース 330を更新する。

[0105] したがって、本実施形態の指紋認識装置 300は、第 1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量を有する指紋データなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

[0106] また、本実施形態の指紋認識装置 300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する表示部 170およびスピーカ 190を更に備える構成を有して、る。

[0107] この構成により、本実施形態の指紋認識装置 300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する。

[0108] したがって、本実施形態の指紋認識装置 300は、第 1実施形態と同様に、操作者のパスワードとして登録すべき指紋画像データの再入力を操作者に告知することができるので、当該ノスワードを必ず登録させることができる。

[0109] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードとしての指紋画像データが検出されるようになっており、当該登録判定部 160において許可が為されない限り、登録を希望する指紋画像データの再検出が指示されるようになってヽるが、当該指紋画像データの再検出に回数の制限を設けるようにしてもよ!、。

[0110] この場合には、システム制御部 370は、指紋の変更指示を行う毎に、算出された最大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望する指紋の登録が許可されない場合には、例えば本発明の記憶手段として機能する当該 ROMZRAM250に記憶された最大尤度うち、最小となる最大尤度の指紋画像データを選択し、データ生成部 360に、当該選択された指紋画像データに基づ、て指紋データ生成させ、生成させた指紋データを用いてデータベース 330を更新させるようになつている。

[0111] また、本実施形態では、システム制御部 370によって、登録処理を行うようになっているが、操作者毎の指紋データが複数登録されるデータベース 330を有する指紋認識装置 300にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプロダラムを読み込むことによって上述と同様の登録処理を行うようにしてもょ、。

[0112] 〔第 3実施形態〕

次に、図 5及び図 6を用いて本願の操作者認識装置の第 3実施形態を、話者認識装置を用いて説明する。

[0113] 本実施形態の話者認識装置は、第 1実施形態の話者認識装置が HMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するのに対し、 HMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量から生成する HMMデータと既に登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断する点に特徴がある。

[0114] まず、図 5を用いて本願の話者認識装置 500の構成について説明する。図 5は、本願に係る話者認識装置 500の構成を示すブロック図である。

[0115] なお、本実施形態の話者認識装置は、上述の構成以外の構成は第 1実施形態の話者認識装置と同様の構成を有しており、同一の部材及び動作については同一の符号を付してその説明を省略する。

[0116] 本実施形態の話者認識装置 500は、特に、登録処理を行う際に、操作者の登録を希望するパスワードの発話音声を複数回取得し、当該取得された複数回のパスヮードの発話音声における特徴量に基づいて学習しつつ生成した HMMデータと、既に登録されている各 HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置 500は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該生成された HMMデータの登録を行うようになって！/ヽる。

[0117] この話者認識装置 500は、図 5に示すように、特徴抽出部 130によって抽出された話者のパスワードにおける発話音声成分の特徴量力 HMMデータを学習しつつ生成するデータ生成部 510と、データ生成部 510によって学習しつつ生成された HM Mデータとデータベース 140に登録された各 HMMデータとの尤度を算出する尤度算出部 520と、を備えている。

[0118] また、この話者認識装置 500は、第 1実施形態と同様に、マイクロホン 110と、入力処理部 120と、特徴量抽出部 130と、データベース 140と、登録判定部 160と、表示部 170と、表示制御部 180と、スピーカ 190と、拡声制御部 200と、認識処理部 220 と、操作部 230と、システム制御部 530と、 ROMZRAM250と、を備えている。

[0119] なお、例えば、尤度算出部 520は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部 170およびスピーカ 190は、本発明の告知手段を構成し、データ生成部 510は、本発明の比較対象情報生成手段、更新手段および第 2更新手段を構成する。

[0120] データ生成部 510には、登録処理を行っている際に、特徴量抽出部 130にて抽出された当該ノスワードの特徴量データが入力され、データ生成部 510は、入力された各特徴量データに基づいて、 HMMデータを学習させつつ生成して、当該生成された HMMデータを尤度算出部 520に出力するようになって、る。

[0121] 尤度算出部 520は、登録処理を行っている際に、データ生成部 510より入力された HMMデータとデータベース 140に格納されて!、る各 HMMデータに基づ!/、て、尤度を算出して、算出した各話者の HMM毎の尤度における最大尤度を検索し、この最大尤度を尤度データとして登録判定部 160に出力するようになっている。

[0122] HMMデータ間の尤度として、例えば HMMデータ間の距離の逆数を用いることができる。 HMMデータ間の距離を比較する尺度 (以下、「距離尺度」と称することがある）としては、例えば、 Kullbackの情報量によるものを用いることができる（文献 (信学技法 SP94-16『クラスタリングによる HMM間の距離尺度の研究』（15頁〜 20頁)参照)。以下、当該文献を参考に説明を行う。

[0123] 例えば、登録処理の際にデータ生成部 510で生成された HMMデータをえとし、

0 λ 算出時に用いた発話音声の特徴量系列を Xとし、データベース 140に登録され

0 Τ

ている ΗΜΜデータをえとすると、下記（1)式、（2)式を用いることにより発話音声毎のえとえの距離値 Dを算出することができる。さらに、当該算出した発話音声毎の距

0

離値 Dの平均を算出することにより、操作者が希望するパスワードの発話音声に基づく ΗΜΜデータとデータベース 140に登録された各 ΗΜΜデータとの距離値を求めることができる。

[0124] [数 1] θ(λ₀, λ) = Η(Χ_τ, λ₀)- Η(Χ_τ, λ)

[0125] [数 2]

1

(Χ_Τ , λ) - lim一 log Ρ\Χ_Τ λ) 2

τ→∞ τ

[0126] また、比較する ΗΜΜデータが共に同じ状態数である場合には、同じく上記文献に挙げられている下記（5)式、（6)式、（7)式より算出される距離尺度を用いることもできる。この場合には、時間の進行と共に遷移する状態毎に分布間の距離値を算出して、全状態の距離値を平均することにより ΗΜΜデータ間の距離値を求めることができる。このとき、第 i番目の状態の Ν次元ガウス分布の平均、分散をそれぞれ下記（3) 式、（4)式とし、登録処理の際にデータ生成部 510で生成された HMMデータの i番目の状態を m、データベース 140に登録されている HMMデータの i番目の状態を mとする。

[0127] [数 3]

[0128] [数 4] f ヽ

び

びび- 二 (4)

σ.

V

Vび Nノ

[0129] [数 5] m, —mつ (5)

[0130] [数 6] 2^≡ΣΣ

6

びび

丄 i ム

[0131] [数 7]

,び ₂ ² +Δ² ₁₂,

丄 y び 1, ^{+ Δ}12,

d3 7)

2 z 》 ² L + ·

2 2 (

び

i J びつ

[0132] さらに、上記 (5)式、（6)式、（7)式を用いて混合分布における距離値を算出する場合には、例えば、各状態において最も混合比の大きい分布をその状態を代表とする分布として選択することにより、単一分布と同様に上記（5)式、（6)式、（7)式から距離値を算出することができる。例えば、混合数を Μとして、比較する一方の ΗΜΜ データ 1の状態お、混合 kの分布の平均を下記 (8)式、混合 kの分布の分散を下記（ 9)式、混合比を下記（10)式とする。また、比較する他方の HMMデータ 2の状態を i 、混合 kの分布の平均を下記（11)式、混合 kの分布の分散を下記（12)式、混合比を下記（13)式とする。この場合において、下記（14)式、（15)式とすると、下記（16) 式、（17)式、（18)式より距離値を算出することができる。

[0133] [数 8] 二い ^m …, ）

[0134] [数 9] び ={« …，び (⁹)

[0135] [数 10] a^k (10)

[0136] [数 11] 二 ^mk ,^m …, J "

[0137] [数 12]

び二 1びび 2 ，'■ '，び 2z'"f (1 ^{2 )}

[0138] [数 13]

O₂ ^k _i ( 1 3) [0139] [数 14]

お ⁴)

[0140] [数 15]

^-argmax,_=lto a₂ ^k _i (l 5

[0141] [数 16]

[0142] [数 17]

[0143] [数 18] k\i kli k2i

-- m - 777.

+ つ- ij

-2 (1 8： k\i kli

σ,

、び 1(

[0144] なお、認識処理の方式として DPマッチングを用レ、る場合には、比較する 2つの標準パターンの内一方をテンプレートとし、他方を照合パラメータとしてマッチングを行うことにより、 HMMを用いた場合の HMMデータ間の距離に相当する標準パターン間の距離を算出することができる。また、他の様々な HMMデータ間の尤度を算出する方法を本発明に適用することができる。 [0145] 一方、この尤度算出部 520は、登録処理を行っている際には、上記のように登録処理の際にデータ生成部 510で生成された HMMデータとデータベース 140に登録されて、る各 HMMデータとの尤度を計算し当該最も高、尤度を尤度データとして登録判定部 160に出力するとともに、認識処理を行っている際には、実施例 1で示したように入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース 140に格納されている各 HMMデータに基づき算出された各尤度のうち最も高、尤度を尤度データとして認識処理部 220に出力するようになって、る。

[0146] なお、システム制御部 530は、登録判定部 160より登録許可の判定が通知された場合には、当該登録許可の旨を表示部 170およびスピーカ 190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおける HMMデータをデータベース 140に登録させる。また、このシステム制御部 530は、登録判定部 160より登録不許可の判定が通知された場合には、当該登録許可の旨を表示部 170およびスピー力 190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。

[0147] 次に、図 6を用いて本実施形態のシステム制御部 530における登録処理の動作について説明する。

[0148] なお、図 6は、本実施形態のシステム制御部 530における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース 140には、複数の操作者の HMMデータが予め登録されて!、るものとする。

[0149] まず、操作部 230を介して操作者によってパスワードの HMMデータを登録する登録処理を実行する指示が入力され、システム制御部 530が当該登録処理の実行指示を検出すると (ステップ S 11)、当該システム制御部 530は、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190によってパスワードの入力指示の告知をさせる (ステップ S 12)。

[0150] 次いで、システム制御部 530は、特徴量抽出部 130に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップ S 13)。

[0151] このとき、特徴量抽出部 130は、当該ステップ S13の指示が為されると、マイクロホン 110に操作者のパスワードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部 510に出力する。

[0152] 次いで、システム制御部 530は、データ生成部 510に、特徴量抽出部 130から入力されたパスワードの特徴量データを取得させて当該パスワードにおける HMMデータを生成させる（ステップ S51)。

[0153] 次いで、システム制御部 530は、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にてパスワードの再入力指示の告知を行わせる（ステップ S 52)。

[0154] 次いで、システム制御部 530は、ステップ S13の処理と同様に、特徴量抽出部 130 に、マイクロホン 110および入力処理部 120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う (ステップ S53)。特徴量抽出部 130は、当該ステップ S53の指示が為されると、マイクロホン 110に操作者のパスヮードの音声が入力され、入力処理部 120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたノスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部 510に出力する。

[0155] 次いで、システム制御部 530は、データ生成部 510に特徴量抽出部 130から入力されたパスワードの特徴量データを取得させて HMMデータの学習を指示する（ステップ S54)。

[0156] 次いで、システム制御部 530は、予め定められた回数のパスワードの入力がされたか否かを判断する (ステップ S55)。このとき、システム制御部 530は、予め定められた回数のパスワードの入力がされていないと判断すると、ステップ S52の処理に移行して、以降、予め定められた回数のノスワードの入力がされるまでステップ S52〜ステップ S 54の処理を繰り返す。

[0157] 一方、システム制御部 530は、データ生成部 510に学習させた HMMデータを尤度算出部 520に出力させ、次いで、尤度算出部 520に対して尤度算出部 520に入力された HMMデータとデータベース 140に格納されている各 HMMデータとのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部 160に出力させる (ステップ S56)。

[0158] 次いで、システム制御部 530は、登録判定部 160に対して当該最大尤度と登録判定用閾値とを比較させて、入力されたノスワードの登録の可否を判定させる (ステツプ S57)。このとき、システム制御部 530は、登録判定部 160によって最大尤度が登録判定用閾値より大きいと判断された場合には、データ生成部 510に学習させつつ生成させた HMMデータを破棄させて (ステップ S 58)、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録するノスワードの変更指示の告知をさせ (ステップ S59)、ステップ S 13の処理に移行する。

[0159] 一方、システム制御部 530は、登録判定部 160によって最大尤度が登録判定用閾値以下と判断された場合には、表示制御部 180および拡声制御部 200を制御して、表示部 170およびスピーカ 190にて登録可能の告知を行わせる（ステップ S60)。

[0160] 次いで、システム制御部 530は、データ生成部 510に対して学習させつつ生成させた当該パスワードにおける HMMデータを、パスワードを入力した操作者に対応付けてデータベース 140に登録させて (ステップ S61)、本動作を終了させる。

[0161] 以上のように本実施形態の話者認識装置 500は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量力学習した HMMデータが予め登録されたデータベース 140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該 HMMデータとを比較することによって操作者を認識する話者認識装置 500であって、パスワードの音声成分における特徴量から学習した HMM データをデータベース 140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン 110と、入力されたパスワードの音声成分カゝら特徴量を抽出する特徴量抽出部 130と、抽出された特徴量より学習して生成された HMMデータにおける特徴量と照合用の各 HMMデータにおける特徴量とを比較し、当該抽出された特徴量より学習して生成された登録すべき HMMデータと当該照合用の各 HMMデータとの尤度をそれぞれ算出する尤度算出部 520と、算出された各尤度が基準となる登録判定用閾値以下の場合に、生成された HMM データを用いてデータベース 140を更新するデータ生成部 510と、を備える構成を有している。

[0162] この構成により、本実施形態の話者認識装置 500は、操作者が希望するパスワードの発話音声に基づく HMMデータを登録する際に、入力されたパスワードの発話音声成分力抽出された特徴量より学習して生成された HMMデータとデータベース 1 40に登録されている各 HMMデータとの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量より生成された HMMデータを用、てデータベース 140を更新する。

[0163] したがって、本実施形態の話者認識装置 500は、第 1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量に基づく HMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

[0164] また、本実施形態では、登録判定部 160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部 160において許可が為されない限り、登録を希望するノスワードの再入力が指示されるようになって、るが、当該ノスワードの再入力に回数の制限を設けるようにしてもよい。

[0165] この場合には、システム制御部 530は、パスワードの変更指示を行う毎に、算出された最大尤度を ROMZRAM250に記憶し、予め定められた回数の再入力を行つても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該 ROMZRAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部 510に、入力された発話音声の特徴量に基づいて生成させた当該選択されたパスワードにおける HMMデータを用いてデータベース 140を更新させるようになつている。また、この場合には、システム制御部 530は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部 170およびスピーカ 190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部 530は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部 220に格納するようになっている。

[0166] また、上述のように、ノスワードの発話音声における入力を制限する点に代えて、算出された最大尤度を ROMZRAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいて生成した HM Mデータを用いてデータベース 140を更新させるようにしてもよい。このように、パスヮ一ドの再入力を所定の基準にて制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスヮードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部 530は、最大尤度より所定の値大き、認識処理用閾値を算出し、認識処理部 220に格納するようになって、る。

[0167] なお、上記実施形態にお!、ては、生体情報を音声成分情報及び指紋情報として説明したが、生体情報とは、顔画像、掌形画像、指画像、虹彩情報、静脈情報などの生体から取得可能な個人を特定するために用いられる情報を含むものである。

[0168] なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

[0169] また、 2005年 3月 31日に出願された明細書、特許請求の範囲、図面、要約を含む日本の特許出願（No.2005-101369)の全ての開示は、その全てを参照することよって、ここに組み込まれる。

Claims

請求の範囲

[1] 認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、

前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、

前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段と、

を備えることを特徴とする操作者認識装置。

[2] 請求項 1に記載の操作者認識装置にぉ、て、

前記比較対象情報生成手段が、前記入力手段に入力された生体情報から前記比較対象情報である特徴量を抽出して、

前記算出手段が、前記抽出された特徴量と各前記照合用生体情報における特徴量とを比較し、当該抽出された特徴量と各前記照合用生体情報における特徴量との尤度をそれぞれ算出して、

前記更新手段が、前記比較対象情報に基づいて前記照合用生体情報を生成し、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。

[3] 請求項 2に記載の操作者認識装置にぉ、て、

前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段を更に備えることを特徴とする操作者認識装置。

[4] 請求項 3に記載の操作者認識装置にお、て、

前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、

予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報の特徴量力生成された前記照合用生体情報を用いて前記データベースを更新する第 2更新手段と、を更に備えることを特徴とする操作者認識装置。

[5] 請求項 3に記載の操作者認識装置にぉ、て、

前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報の特徴量から生成された前記照合用生体情報を用いて前記データベースを更新する第 2更新手段と、を更に備えることを特徴とする操作者認識装置。

[6] 請求項 2乃至 5の何れか一項に記載の操作者認識装置にぉ、て、

前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用

V、られて前記データベースが更新される場合に、

前記更新手段及び前記第 2更新手段が、前記入力された複数の同一の生体情報力抽出される各特徴量に基づいて一の前記照合用生体情報を生成し、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。

[7] 請求項 6に記載の操作者認識装置にぉ、て、

前記比較対象情報生成手段が、前記入力手段に初回に入力された生体情報から前記比較対象情報である特徴量を抽出して、

前記算出手段が、前記初回に入力された生体情報から抽出された特徴量と各前記照合用生体情報における特徴量との各尤度をそれぞれ算出するとともに、

前記算出された初回に入力された生体情報に基づく各尤度が基準尤度以下の場合に、

前記更新手段及び前記第 2更新手段が、前記初回に入力された生体情報と同一の生体情報力抽出される各特徴量に基づいて一の前記照合用生体情報を生成して、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。

[8] 請求項 1に記載の操作者認識装置にぉ、て、

前記入力手段に入力された生体情報から特徴量を抽出する抽出手段を更に備え前記比較対象情報生成手段が、前記抽出された特徴量に基づいて、前記比較対象情報として前記照合用生体情報を生成して、

前記算出手段が、前記生成された照合用生体情報における特徴量と各前記照合用生体情報における特徴量とを比較し、当該生成された照合用生体情報における特徴量と各当該照合用生体情報における特徴量との尤度をそれぞれ算出して、前記更新手段が、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記生成された照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。

[9] 請求項 8に記載の操作者認識装置にぉ、て、

前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前記操作者に対して、前記照合用生体情報を生成するために入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段を更に備えることを特徴とする操作者認識装置。

[10] 請求項 9に記載の操作者認識装置にぉ、て、

前記入力された各生体情報に基づいて生成された各前記照合用生体情報を一時的に記憶するとともに、当該照合用生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、

予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各前記照合用生体情報における最大尤度のうち、最小となる最大尤度を有する前記照合用生体情報を用いて前記データベースを更新する第 2更新手段と、を更に備えることを特徴とする操作者認識装置。

[11] 請求項 9に記載の操作者認識装置において、

前記生体情報の再入力が行われた場合であって、前回に生成した前記照合用生体情報における最大尤度より今回に生成した前記照合用生体情報における最大尤度が大きい場合に、当該前回に生成した前記照合用生体情報を用いて前記データベースを更新する第 2更新手段と、を更に備えることを特徴とする操作者認識装置。

[12] 請求項 8乃至 11の何れか一項に記載の操作者認識装置において、

前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用 V、られて前記データベースが更新される場合に、

前記抽出手段が、前記入力された複数の同一の生体情報における各特徴量を抽出するとともに、

前記比較対象情報生成手段が、前記抽出された各特徴量に基づいて、一の前記照合用生体情報を生成することを特徴とする操作者認識装置。

[13] 請求項 1乃至 12の何れか一項に記載の操作者認識装置において、

前記データベースには、前記操作者毎に所定のパスワードにおける音声成分の情報を示す音声成分情報が前記照合用生体情報として登録されているとともに、前記入力手段には、前記操作者が特定のパスワードを発話した際の音声成分情報が前記生体情報として入力されることを特徴とする操作者認識装置。

[14] 請求項 1乃至 13の何れか一項に記載の操作者認識装置において、前記データベースには、前記操作者毎に前記操作者の特定の指紋の情報を示す指紋情報が前記照合用生体情報として複数登録されているとともに、

前記入力手段には、前記操作者の指紋情報が前記生体情報として入力されることを特徴とする操作者認識装置。

[15] 認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、

前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づ!、て前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、

前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新工程と、

を備えることを特徴とする操作者認識方法。

[16] コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、

前記コンピュータを、

前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づ!、て前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、

前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させることを特徴とする操作者認識プログラム。