JPS6227399B2 - - Google Patents

Info

Publication number
JPS6227399B2
JPS6227399B2 JP59007129A JP712984A JPS6227399B2 JP S6227399 B2 JPS6227399 B2 JP S6227399B2 JP 59007129 A JP59007129 A JP 59007129A JP 712984 A JP712984 A JP 712984A JP S6227399 B2 JPS6227399 B2 JP S6227399B2
Authority
JP
Japan
Prior art keywords
recognition
standard pattern
speakers
speech
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59007129A
Other languages
English (en)
Other versions
JPS59140500A (ja
Inventor
Kazuo Nakada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59007129A priority Critical patent/JPS59140500A/ja
Publication of JPS59140500A publication Critical patent/JPS59140500A/ja
Publication of JPS6227399B2 publication Critical patent/JPS6227399B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、不特定の話者を対象とした音声認識
装置に関するものである。
音声認識方式には、その認識の対象とする語の
発生形態と発生個体(話者)とによつて第1図に
示すように分類される。音声認識の現状技術レベ
ルは、分類すなわち特定話者の(限定)単独単
語認識がようやく実用化の段階をむかえたところ
といえよう。研究段階では話者を不特定に拡大す
る方向(−)と、語を連続(任意)音声に拡
大する方向(−)に研究がすゝめられてい
る。
特定話者/不特定話者の音声認識についていえ
ば、限定単独の単語認識において、特定話者によ
る認識率は98%以上達成可能であるが、不特定話
者による認識では90〜95%の認識がやつとであ
り、これを特定話者なみにすることはむづかし
く、この状況が改善されることは仲々望めそうに
ない。
したがつて、不特定話者認識において、その認
識率を実用可能なレベル(たとえば97%以上)に
まで高める必要がある。
この解決策として、第2図に示すように、予じ
め多数の話者の音声を分析し比較して、それらを
複数の標準パタン系列#1〜#nに分類してお
き、使用に先立つて内容が既知のテスト音声を未
知話者に発声してもらい、それを分析することに
よつて、どの標準パタン系列に属するかを判断
し、特定の標準パタン系列を選定し、認識を行な
うことが考えられている。
この場合、限定語の単語認識では全語が一度に
特定化されるという利点を有する反面、通常標準
パタン系列の数はそれほど多くとれないので特定
化の効果は充分とは言えず、高い認識率を保つこ
とは難かしいという問題があつた。
本発明の目的は、誤認識の可能性を少なくし、
極めて高い認識率を実現した音声認識装置を提供
することにある。
このような目的を達成するために、本発明では
複数の話者に平均的な標準パタンを初期条件とし
て認識をスタートさせ、未知話者の音声パタンが
入力され認識されるにしたがつて、その入力パタ
ンと標準パタンを順次置き換え、標準パタンを特
定化して認識率を高めるようにしたことに特徴が
ある。
第3図は本発明による音声認識装置の原理を示
すものである。
本発明では、予じめ多数の話者の音声を分析し
それらから平均的な標準パタンを作成しておき、
それを初期条件に認識をスタートする。話者の未
知の音声入力を認識し、その結果が確認され、正
しく認識された場合には、その単語について、平
均的な標準パタンをその時に話者の音声入力パタ
ンでおきかえる。また、誤認識の時は何らかの手
段によつて、正しい単語番号が外部から指示され
れば、その単語のパタンとして入力パタンをおき
かえる。
平均的な標準パタンは不特定話者に応じられる
よう一般的にひろがつており、標準パタン間相互
の分離が悪く誤りをおこしやすい。これに対して
特定話者のパタンはその話者個有の特性によつて
歪んではいるが、拡がりは狭く、パタン相互の分
離は良く認識率は高い。この方法によれば使用頻
度の高いものが順次特定話者パタンにおきかえら
れてゆき、誤認識を急激にへらすことができる。
本発明によれば、不特定話者用の平均的な標準
パタンからスタートし、すみやかに特定話者の標
準パタンにおきかわることにより、高い認識率を
確保することができる。
第4図は本発明による音声認識装置の一実施例
の構成を示すものである。
図において、1は入力音声波形の分析部、2は
分析1で得られた特徴パラメータを格納するレジ
スタ、3は標準パタンを格納するメモリ、4は入
力音声パタンと標準パタンとの整合部、5は認識
結果を得る判定部、6は認識結果の確認部、7は
メモリ3の書き換え制御を行なう書き込み制御
部、8は標準パタンを予備的に格納するメモリで
ある。
そしてメモリ3,8には、予じめ、多数の話者
に平均的な標準パタンがパラメータの系列として
記憶されている。
このような構成において、入力音声波形S1は
分析部1によつて分析され、特徴パラメータの系
列S2に変換される。例えば20ミリ秒毎に20ミリ
秒間を一区間とする分析(たとえば、良く知られ
ているような、帯域分析フイルタ群によるスペク
トル分析とか偏自己相関係数を求める偏自己相関
分析とか)が行なわれ、パラメータの系列
{kij}、i=1、〜n(分析フレーム番号)、j=
1、〜P(分析パラメータの次元数)に変換され
る。このパラメータ値はレジスタ2に分析先頭区
間から順次記憶されるとともに整合部4に送りこ
まれる。
整合部4では、分析部1で未知入力音声波形に
施したのと同じ分析を施して、あらかじめ特徴値
の系列に変換されて記憶されているメモリ3内の
標準パタンの各単語と順次整合が計量される。こ
のとき、たとえば時間軸の非線形変換整合のため
にDP(ダイナミツクプログラミング)手法を使
うとか、時間軸方向に情報圧縮を行うために特徴
系列の安定点や変化点が抽出されるなどの処理が
必要に応じてとられることはいうまでもない。
整合の結果は判定部5に送られ、全標準パタン
との接合が終つた時点で、その最小値(あるいは
最大値)が検出され、認識結果として確認部6に
おくられる。確認部6では認識結果S3が人間に
与えられ、その確認結果S4が入力される。S3
とS4が一致しているときは正しい認識が行なわ
れたわけで書き込み制御部7により、レジスタ2
に貯えられている分析情報はメモリ3内の認識結
果に対応する標準パタンにおきかえられ、特定化
が行なわれる。
誤認識の場合、確認結果S4として正しい入力
の指示が与えられれば、それにしたがつてレジス
タ2に貯えられている分析情報はメモリ3内の指
示された標準パタンにおきかえられる。
これらのおきかえの制御は、上述した書き込み
制御部7で制御される。なお、この制御部7では
すでにおきかえが行なわれているときは、認識結
果が誤つたときのみにおきかえを行なう。
話者が特定のAからBに変るとき、標準パタン
はほとんどAのものに特定化されており、そのま
まスタートしたのでは誤認識率が大きくなる恐れ
があるので、リセツトスイツチによる指令S5で
保存用の標準パタンメモリ8から、平均的な標準
パタンが再び標準パタンメモリ3に書き込まれ、
平均標準パタンを初期条件としてスタートする。
このことによつて最初の誤認識率のふえるのを防
ぐ。以下話者Aの場合と同じようにして、話者B
の使用につれて標準パタンは話者Bのパタンに特
定化されていく。
以上のべたように本発明によれば、平均標準パ
タンを初期条件とすることによつて、不特定話者
に対する初期誤りを低いレベルに保ちながら、標
準パタンを順次特定話者のものにおきかえていく
ことによつて特定化し、高い認識率を保つことが
でき、その効果は大きい。
なお、本実施例では単語認識について説明した
が、単音節やVCV音韻連鎖を単位とする認識に
おいても同様に実施できることはいうまでもな
い。
【図面の簡単な説明】
第1図は音声認識方式の説明図、第2図は従来
の音声認識装置の原理図、第3図は本発明による
音声認識装置の原理図、第4図は本発明による音
声認識装置の一実施例の構成図を示す。 1……分析部、2……レジスタ、3,8……標
準パタンメモリ、4……整合部、5……判定部。

Claims (1)

    【特許請求の範囲】
  1. 1 話者の入力音声パタンから特徴パラメータを
    抽出する分析手段と、複数の話者の平均的な標準
    パターンの特徴パラメータを予じめ格納した第1
    の標準パターンメモリと、前記話者が変る毎に該
    第1の標準パターンメモリに格納された特徴パラ
    メータを入力し格納する第2の標準パターンメモ
    リと、前記分析手段からの特徴パラメータと前記
    第2の標準パターンメモリからの特徴パラメータ
    との整合状態を調べ、前記入力音声パターンの認
    識を行なう認識手段と、前記認識結果に基づい
    て、前記第2の標準パターンメモリに格納されて
    いる特徴パラメータを前記分析手段からの入力音
    声パターンの特徴パラメータにおきかえる制御手
    段とを有し、該制御手段はすでにおきかえが行な
    われているときは認識結果が誤つたときのみおき
    かえをすることを特徴とする音声認識装置。
JP59007129A 1984-01-20 1984-01-20 音声認識装置 Granted JPS59140500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59007129A JPS59140500A (ja) 1984-01-20 1984-01-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59007129A JPS59140500A (ja) 1984-01-20 1984-01-20 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59140500A JPS59140500A (ja) 1984-08-11
JPS6227399B2 true JPS6227399B2 (ja) 1987-06-15

Family

ID=11657466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59007129A Granted JPS59140500A (ja) 1984-01-20 1984-01-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59140500A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05199840A (ja) * 1991-10-18 1993-08-10 Airemu Kk 食品およびその製造方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5267501A (en) * 1975-12-02 1977-06-04 Fuji Xerox Co Ltd System for recognizing difference by audio
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5267501A (en) * 1975-12-02 1977-06-04 Fuji Xerox Co Ltd System for recognizing difference by audio
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system

Also Published As

Publication number Publication date
JPS59140500A (ja) 1984-08-11

Similar Documents

Publication Publication Date Title
US4813074A (en) Method of and device for segmenting an electric signal derived from an acoustic signal
JPH02195400A (ja) 音声認識装置
JPH02163819A (ja) テキスト処理装置
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JPS60158498A (ja) パターン照合装置
JPS6227399B2 (ja)
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JPS645320B2 (ja)
JPS58149099A (ja) パタ−ン認識方式
JPH01193800A (ja) 連続音声認識装置
JPS599080B2 (ja) 音声認識方法
JPS6115440B2 (ja)
JPS6131476B2 (ja)
JPS63292199A (ja) 音声認識装置
JPS59143200A (ja) 連続音声認識装置
KR20240060961A (ko) 음성 데이터 생성 방법, 음성 데이터 생성 장치 및 컴퓨터로 판독 가능한 기록 매체
JPH02173699A (ja) 音声認識装置
JPS62172398A (ja) 音声認識装置
JPS6069695A (ja) 語頭子音のセグメンテ−ション法
JPS63221399A (ja) 音声分析方法
JPH02118698A (ja) 音声認識装置
JPS58224396A (ja) 音声認識装置
JPS6070496A (ja) 音声認識処理方式
JPH01209499A (ja) パターン照合方式
JPS62119600A (ja) 単語音声認識装置