JPS645320B2 - - Google Patents

Info

Publication number
JPS645320B2
JPS645320B2 JP55086604A JP8660480A JPS645320B2 JP S645320 B2 JPS645320 B2 JP S645320B2 JP 55086604 A JP55086604 A JP 55086604A JP 8660480 A JP8660480 A JP 8660480A JP S645320 B2 JPS645320 B2 JP S645320B2
Authority
JP
Japan
Prior art keywords
voice
contents
speaker
test pattern
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55086604A
Other languages
English (en)
Other versions
JPS5713493A (en
Inventor
Ryoichi Ito
Toshihiro Kimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8660480A priority Critical patent/JPS5713493A/ja
Publication of JPS5713493A publication Critical patent/JPS5713493A/ja
Publication of JPS645320B2 publication Critical patent/JPS645320B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は話者が発声した音声と、あらかじめ登
録された音声の特徴パラメータを比較して、同一
人の音声であるか否かを判定する話者認識装置に
閣するものである。
従来の話者認識装置は、あらかじめ登録された
音声の特徴パラメータと、話者が発声した音声の
特徴パラメータを比較して、同一人の音声か否か
を判定するのであるが、前記登録された音声は、
登録時の音声であり、その後長期間を経ると話者
の音声がだんだん変質し、従つて特徴パラメータ
が変化してくると、同一人の音声あつても“否”
であると誤判定する場合が生じるという欠点があ
つた。すなわち、認識率が低下するという欠点が
あつた。この欠点を除くためには、短期間内に再
登録させることを繰り返さなければならなかつ
た。再登録するためには、認識モードから登録モ
ードに切替え、その都度登録操作を必要とするか
ら、非常に煩わしく、登録話者数が多くなると、
その手続には大変な手数を要することになる。ま
た、特開昭52−67501号公報などに示されるよう
に、話者の同一性を判定したときに、登録された
標準参照パターンを新たに入力された音声パター
ンに自動的に置き替える方法がある。このような
方法では、登録操作が簡略化されるが、一回の音
声入力毎に登録モードが変更される可能性がある
ため、その時々の話者の声の調子によつて登録標
準パターンが大きく変わることもある。特に、1
回の音声入力では、話者が緊張することもあつ
て、本来の話者の標準参照パターンと異なつてく
る恐れがある。それにより、次回以降の音声入力
と標準パターンとの照合がとれないという問題が
起こつてくる。
本発明の目的は、上記した従来の問題点をなく
し、登録操作が簡単で、かつ登録される参照パタ
ーンの信頼性が高く、期間の経過による認識率の
低下を生じさせない話者認識装置を提供すること
にある。
本発明による話者認識装置は、かかる目的を達
成するために、話者に認識対象になる音声を所定
回数入力するように指示する手段と、この指示手
段により入力された音声の特徴パラメータを夫々
抽出する音声特徴抽出手段と、この音声特徴抽出
手段からの各出力音声特徴データを蓄積するため
の複数個のテストパターンメモリと、前記テスト
パターンメモリの内容をあらかじめ登録された音
声の特徴データを記憶している参照パターンメモ
リの内容と比較して、その類似性を定量化して出
力する認識回路と、該認識回路の出力データを記
憶する複数のスコアレジスタと、該複数のスコア
レジスタの内容を比較して前記参照パターンメモ
リの内容に最も近いものを選択送出する比較回路
とを備えて、該比較回路が選定した前記複数のス
コアレジスタ中の一個の内容を、類否判定の基準
点を記憶している照合点レジスタの内容と判定回
路によつて比較して、話者の同一性を判定し、か
つ話者同一と判定したときは、前記テストパター
ンメモリと前記参照パターンメモリとの間に設け
たデータ線を介して、前記比較回路が最も近いも
のとして判定した前記スコアレジスタに対応する
テストパターンメモリの内容を、前記参照パター
ンメモリに転送させて、その内容を書き替えさせ
るように構成された制御部を有することを特徴と
する。
次に本発明の一実施例について図に基づいて詳
細に説明する。第1図は本発明の一実施例を示す
ブロツク図であり、一点鎖線内に記された部分が
本発明により従来の装置に新しく付加された部分
である。マイクロフオン1の出力は前処理部2で
増巾され、かつ高周波成分を除去されて特徴抽出
部3に送られる。特徴抽出部3は、入力音声信号
の一音声区間内の特徴パラメータを遂次計算して
出力し、後記テストパターンメモリ6に送る。一
方、音声区間検出回路4は、音声の始端と終端を
検出して、音声の始端ごとに音声入力カウンタ5
を1数字ずつカウントアツプする。テストパター
ンメモリ6は、前記音声特徴抽出部3から送られ
た一音声区間内の分析結果のデータを記憶してお
く、本実施例ではテストパターンメモリはn個設
けられ、前記テストパターンメモリ6は第1テス
トパターンメモリとされ、m番目のテストパター
ンメモリ7は第mテストパターンメモリとされ、
n番目のテストパターンメモリ8は第nテストパ
ターンメモリとされる。そして前記マイクロフオ
ン1にはn回音声が吹き込まれて、それぞれ一音
声区間とされ、前記テストパターンメモリ6〜8
にはそれぞれ一音声区間ごとの音声の特徴データ
が入れられる。そして、まず、第1テストパター
ンメモリ6の内容が、あらかじめ登録記録された
音声の特徴データが記憶されている参照パターン
メモリ9の内容と認識回路10によつて比較さ
れ、類似性が定量化されて出力される。本実施例
では、該認識回路10の出力は、まず第1スコア
レジスタ11に入れられる。スコアレジスタはn
個設けられ、第mスコアレジスタ12、第nスコ
アレジスタ13を備える。次に前記テストパター
ンメモリ7の内容は遂次前記参照パターンメモリ
9の内容と前記認識回路10によつて比較され、
その結果が前記スコアレジスタ12に入れられ、
最後に前記第nテストパターンメモリ8の認識結
果が前記第nスコアレジスタ13に入れられる。
n個のスコアレジスタ11〜13全部に認識結果
が入力されると、比較器14はその大小関係を比
較して、最も整合の度合が高い値を選び出し、こ
れを判定回路15に送る。判定回路15は、これ
を、あらかじめ類似判断基準として定めた値を格
納している照合点レジスタ16の値と比較して、
同一人の音声か否かを判定する。同一人の音声で
あると判定すると、図示されないコンソールによ
つてその旨を表示させると同時に図示されない制
御部に信号を送る。制御部は、前記比較器14が
最も整合度が高いとして選んだスコアレジスタに
対応する前記テストパターンメモリ6〜8内の一
個の内容を、別に設けたデータ線を介して前記参
照パターンメモリ9に転送させ、参照パターンメ
モリ9の内容を書き替えさせる。外部メモリ17
を設けておけば、前記書き替えた参照パターンメ
モリ9の内容を該外部メモリ17の所定アドレス
に転送させて記憶させておくことが可能である。
これにより多数の音声の参照パターンを外部メモ
リ17の各アドレスに記憶させておくことができ
るから、必要の都度、前記参照パターンメモリに
読み出して上述の話者認識を行わせることができ
る。
次に第2図に上述の実施例のテストパターンメ
モリ6〜8およびスコアレジスタ11〜13の数
nを3個とした場合を示し、本実施例の動作につ
いて第2図を参照して説明する。本実施例では音
声の認識更新を3回の発声によつて行なう。ま
ず、あらかじめ音声データを登録するため、コン
ソール18からコマンドを送り話者認識装置を話
者登録モードに設定し、次に自分の登録コードで
ある任意の4桁の数字を入力して登録する。その
際、その数字が既に他人によつて登録されている
場合には、前記コンソール18上に登録不能と表
示する。そして他の任意の4桁の数字をもう一度
入力して登録する。この4桁の数字が、登録され
ると、この数字が固有の暗証番号とされ、話者一
人ずつに割り当てられる。後に、話者認識に際し
ては、この暗証番号によつて、登録音声データが
外部記憶装置17から参照パターンメモリ9に呼
び込まれることになる。
暗証番号が入力され、登録可能となると、制御
部19は、音声入力カウンタ5をクリアさせ、ス
イツチSを閉じ、また、インジケータPを点灯さ
せて発声のタイミングを知らせる。話者はマイク
ロフオン1から任意の言葉を話す。このときの言
葉が、以後の話者認識におけるキーワードとして
扱われる。入力音声は、スイツチSを介してアン
プ2−1で適当なレベルに増巾され、遮断周波数
4KHzの低域波器2−2で認識に不必要な高周
波成分が除去されて前処理がなされ、特徴抽出部
3に送られる。同時に音声区間検出回路4は、音
声の始端と終端を検出して、音声終端の検出によ
り前記スイツチSを開いて、その後の雑音等の入
ることを防止し、かつ前記インジケータPを滅灯
させて発話者に確かに音声が入力されたことを知
らせる。前記特徴抽出部3は、入力音声を10ms
ごとに分割して、音声の特徴データを抽出し、前
記音声区間検出回路4が決定する音声区間の間の
前記音声の特徴データを順次送出して第1テスト
パターンメモリ6に送り、第1テストパターンメ
モリ6はこれを記憶する。このとき前記音声入力
カウンタ5は数字“1”をカウントしていて、こ
の数字“1”が第1テストパターンメモリ6と対
応づけられている。第1テストパターンメモリ6
の内容は、前記登録した4桁の暗証番号に対応さ
せられた外部記憶装置17の該当番地へ転送され
格納される。以上の動作によつて登録を終了す
る。
次に話者認識に際しては、前記コンソール18
からコマンドを入力して話者認識・更新モードを
設定する。続いて、前記4桁の暗証番号を入力す
ると、前記外部記憶装置17の該当番地から登録
された音声の特徴データが参照パターンメモリ9
に呼び出される。同時に音声入力カウンタ5の内
容はクリアされる。次に本実施例では3回の発声
が要求される。以上の動作で話者認識・更新モー
ドの準備が完了すると、インジケータPが点灯
し、またスイツチSが閉じて、音声の入力を待
つ。インジケータPが点灯すると話者は前記登録
時に話した言葉、すなわちキーワードを発声し入
力させる。前記音声の特徴抽出部は音声区間のデ
ータを10msごとに抽出計算して、第1テストパ
ターンメモリ6に送る。このとき音声入力カウン
タ5のカウント数は“1”である。前記音声区間
検出回路4が音声の終端を検出すると、前記スイ
ツチSを開き、かつ入力インジケータPを滅灯さ
せる。前記第1テストパターンメモリ6の内容
は、認識回路10によつて、前記参照パターンメ
モリ9の内容と比較され類似性を定量化されて第
1スコアレジスタ11に送られる。認識回路10
は音声の時間的に非線形な伸縮を取り除きながら
前記両パターン間のマツチングを計算するため非
線形マツチング法(N−Lマツチング)を用いて
いる。そしてこの時に得られた距離をもつて両パ
ターン間の類似性の尺度とし、この値が小さい程
両パターンは類似しているとされる。前記第1ス
コアレジスタ11に認識回路10からの認識結果
が入力されると(第1音声区間に対する分析が終
了したことになり)、次の音声の入力を促すため
に前記インジケータPを点灯させ、かつ前記スイ
ツチSを閉じる。次いで二回目のキーワードが発
声されると上記同様な動作を繰り返し、音声入力
カウンタをカウントアツプし、第2テストパター
ンメモリ7に音声の特徴データが入れられ、第2
スコアレジスタ12に認識結果が入れられる。三
回目のキーワードについても同様に動作する。三
回目の音声分析が終了すると、前記第1,第2,
第3スコアレジスタ11〜13の内容は比較回路
14−1によつて大小が比較され、最も小さい値
がスコアレジスタの番号と共に判定データレジス
タ14−2に送られる。比較回路14−1と判定
データレジスタ14−2とで比較器を構成する。
前記判定データレジスタ14−2の内容は、判定
回路15によつて、あらかじめ類似判断の基準と
して設定した照合点レジスト16の内容と比較さ
れて、発声者の同一性が判定される。同一性が判
定されたときは、前記コンソール18上に
“OK”を表示させる。同時に前記判定データレ
ジスタ14−2の内容の中のスコアレジスタの番
号に相当する前記テストパターンメモリ6〜8の
中の一個の内容を、前記参照パターンメモリ9に
転送させてその内容を書き替えさせ、更に前記外
部記憶レジスタ17の該当番地へ再転送して、そ
の内容を書き替えさせる。これらの動作は制御部
19の制御によつて自動的に行われる。上記の転
送書替えによつて登録内容が自動的に更新され、
最も最近の発声によるデータが登録されているこ
とになる。前記判定回路15の判定結果が
“NO”であるときはこの書き替えを行なわない
ことは勿論である。以上の動作により音声の認識
および更新が同時に行なわれるから、登録内容は
話者認識の度ごとに更新され、発話者の長期間中
の音質変化によつて認識を誤まることはない。ま
た誤認識を防ぐために再登録を人為的に繰り返す
必要がない。登録者が多いときに、再登録に要す
る膨大な手続きを省き、また再登録忘れによる誤
認識の発生を生ずるおそれがない。
次に本発明の別の実施例について第3図を参照
して説明する。図において、前述の符号と同じ符
号は、同じ構成要素を表わす。そして3−1は、
マイクロフオン1から前処理部2を通つて出力さ
れた音声の振巾をデジタル符号に変換するA/D
変換器であり、3−2は前記デジタル符号の数値
の時系列を、偏自己相関分析して、その結果を音
声の特徴データとして出力する音声分析部であ
る。音声分析部3−2の出力データはn語分のテ
ストパターンメモリ6〜8に、音声区間ごとにそ
れぞれ送られ記憶される。その他の構成は前述し
た第1図の構成と同じである。
次にこの場合における動作を、n=3とした場
合について第4図に基づいて説明する。図におい
てA/D変換器3−1は入力音声の振巾を10ビツ
トのデジタル信号に変換し、第5図に示す如く、
10msごとに、フレーム長20ms分のデジタルデー
タを送出する。A/D変換器3−1の出力データ
はデータフレームの両端部分の波形の急変による
不要周波数成分のために分析精度が劣化すること
を防ぐために、各フレームにハミング窓をかける
(急変部分を消去する)窓掛け回路3−3を通し
て偏自己相関回路3−4に送られる。偏自己相関
回路3−4は、入力データの系列から、線形予測
係数を直交化したKパラメータを1次から10次ま
で計算し、その計算結果をそれぞれK1〜K10とし
てテストパターンメモリ6に送る。Kパラメータ
は声道反射係数、ホルマント周波数等と同様に音
声の特徴を表わし、発声者を特定することができ
る。テストパターンメモリ6には、10msごとに
求められた10次分のKパラメータK1〜K10が、一
音声区間分順次入れられる。一方区間抽出回路4
は前記第1次のKパラメータK1とパワー情報と
によつて音声の始端と終点を決定する。この音声
の始端と終点の間を一音声区間とする。前記テス
トパターンメモリ6は一音声区間の特徴データが
全部格納されると、登録モードのときは外部フア
イル17の該当番地へその内容が転送され、記憶
される。話者認識・更新モードであるときは、あ
らかじめ参照パターンメモリに読み出されている
登録音声データと、前記テストパターンメモリ6
の内容は認識回路10で時間的非線形を取り除き
ながら比較され類似性が定量化される。その結果
は、スコアレジスタ11に入れられ、その後は前
記第2図の場合と同様に、3回分のキーワードの
発声に対する特徴データが前記テストパターンメ
モリ6〜8に入れられ、認識の結果はスコアレジ
スタ11〜13に入れられて、最小スコアが照合
点レジスタの内容と比較され、“OK”であれば、
該当するテストパターンメモリの内容を、参照パ
ターンメモリ9に転送し、外部メモリ17に再転
送して、登録内容を更新させる。同時にコンソー
ル18に“OK”表示がなされる。“NO”であれ
ば“NO”の表示がなされ、前記登録内容の更新
はされないことは勿論である。従つてこの場合に
おいても前述の実施例と同様の効果を奏する。
以上説明したように、本発明によれば、話者に
所定回数の音声を入力させ、その中で最も参照パ
ターンと類似度の高いものを選んで同一性の判定
を行うと共に参照パターンを更新させるため、登
録される参照パターンの信頼性が高い。また、話
者の声の調子によつて、本来のパターンから除々
に変化してしまうことで話者の同一性判定が損な
われることもなくなる。特に、複数回、同じ言葉
を入力させることで、話者の緊張感をほぐし、自
然な音声入力による同一性判定を可能にさせると
共に、自然な音声による登録を可能にする利点が
ある。
【図面の簡単な説明】
第1図および第2図は本発明の一実施を示すブ
ロツク図であり、第3図および第4図は本発明の
別の実施例を示すブロツク図、第5図は音声の振
巾データをフレームに区分することを説明するた
めのタイムチヤートである。 1……マイクロフオン、2……前処理部、3…
…特徴抽出部、4……音声区間検出回路、5……
音声入力カウンタ、6……第1テストパターンメ
モリ、7……第mテストパターンメモリ、8……
第nテストパターンメモリ、10……認識回路、
11……第1レジスタ、12……第mスコアレジ
スタ、13……第nスコアレジスタ、14……比
較器、15……判定回路、16……照合点レジス
タ、17……外部メモリ、18……コンソール、
19……制御部、S……スイツチ、2−1……ア
ンプ、2−2……低域波器、14−1……比較
回路、14−2……判定データレジスタ、3−1
……A/D変換器、3−2……音声分析部、3−
3……窓掛け回路、3−4……相関回路。

Claims (1)

  1. 【特許請求の範囲】 1 話者に認識対象になる音声を所定回数入力す
    るように指示する手段と、 該指示手段により入力された音声の特徴パラメ
    ータを夫々抽出する音声特徴抽出手段と、 前記音声特徴抽出手段からの各出力データを記
    憶する複数個のテストパターン記憶手段と、 あらかじめ特定話者の音声の特徴パラメータを
    登録しておく参照パターン記憶手段と、 前記複数個のテストパターン記憶手段のデータ
    と前記参照パターン記憶手段のデータとを夫々比
    較し、それらの類似性を定量化して夫々出力する
    認識手段と、 該認識手段の出力データを記憶する複数のスコ
    アレジスタと、 該複数のスコアレジスタの内容を比較して最も
    前記参照パターン記憶手段の内容に近いものを選
    択する比較手段と、 該比較手段によつて選択されたスコアレジスタ
    の内容を類否判定の基準値と比較して、話者の同
    一性を判定する判定手段と、 該判定手段によつて同一人の音声と判定された
    ときに、前記選択されたスコアレジスタに対応す
    るテストパターン記憶手段の内容を、前記参照パ
    ターン記憶手段に転送させて、その内容を書き替
    えさせる手段とを有することを特徴とする話者認
    識装置。
JP8660480A 1980-06-27 1980-06-27 Speaker recognizing device Granted JPS5713493A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8660480A JPS5713493A (en) 1980-06-27 1980-06-27 Speaker recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8660480A JPS5713493A (en) 1980-06-27 1980-06-27 Speaker recognizing device

Publications (2)

Publication Number Publication Date
JPS5713493A JPS5713493A (en) 1982-01-23
JPS645320B2 true JPS645320B2 (ja) 1989-01-30

Family

ID=13891611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8660480A Granted JPS5713493A (en) 1980-06-27 1980-06-27 Speaker recognizing device

Country Status (1)

Country Link
JP (1) JPS5713493A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306094A (ja) * 2000-04-25 2001-11-02 Animo:Kk 音声認証システム及び方法
JP4244524B2 (ja) * 2001-02-16 2009-03-25 カシオ計算機株式会社 音声認証装置、音声認証方法、及びプログラム
US7440900B2 (en) * 2002-03-15 2008-10-21 Microsoft Corporation Voice message processing system and method
JP5436951B2 (ja) * 2009-06-25 2014-03-05 株式会社クローバー・ネットワーク・コム 本人認証装置および本人認証方法
CN105340003B (zh) 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法

Also Published As

Publication number Publication date
JPS5713493A (en) 1982-01-23

Similar Documents

Publication Publication Date Title
JP4867804B2 (ja) 音声認識装置及び会議システム
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JPS645320B2 (ja)
JP2996019B2 (ja) 音声認識装置
KR20200032935A (ko) 음성인식장치 및 음성인식방법
JPH06266386A (ja) ワードスポッティング方法
JP2864511B2 (ja) 話者識別方式と装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3357752B2 (ja) パターンマッチング装置
JPS59111699A (ja) 話者認識方式
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
KR20240060961A (ko) 음성 데이터 생성 방법, 음성 데이터 생성 장치 및 컴퓨터로 판독 가능한 기록 매체
JPS6011897A (ja) 音声認識装置
JPH01290000A (ja) 音声認識方式
JPS6247100A (ja) 音声認識装置
JPS6227398B2 (ja)
KR19990081664A (ko) 음성 인식 전화기의 음성 인식 방법
JPS6312000A (ja) 音声認識装置
JP2002372989A (ja) 数字音声入力方法、その装置、そのプログラム及びその記録媒体
JPH01154097A (ja) 音声認識装置
JPH03269500A (ja) 音声認識装置
JPS608898A (ja) 音声認識装置
JPS6053998A (ja) 音声認識装置
JPS59124394A (ja) 単音節音声認識方式
JPS61165796A (ja) 音声認識装置