JPS6123560B2 - - Google Patents

Info

Publication number
JPS6123560B2
JPS6123560B2 JP55081098A JP8109880A JPS6123560B2 JP S6123560 B2 JPS6123560 B2 JP S6123560B2 JP 55081098 A JP55081098 A JP 55081098A JP 8109880 A JP8109880 A JP 8109880A JP S6123560 B2 JPS6123560 B2 JP S6123560B2
Authority
JP
Japan
Prior art keywords
recognition
secondary classification
speech
classification
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55081098A
Other languages
English (en)
Other versions
JPS576900A (en
Inventor
Naoki Ishii
Ryohei Nakatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8109880A priority Critical patent/JPS576900A/ja
Publication of JPS576900A publication Critical patent/JPS576900A/ja
Publication of JPS6123560B2 publication Critical patent/JPS6123560B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 この発明は区切つて発声された単語音声を自動
的に認識する方式に関するものである。
単語音声認識を行う方法として従来はフレーム
に同期して認識処理を行う同期方式と、入力音声
をいつたんバツフアに貯え入力音声が終了した後
に認識処理を行つて認識結果を得る非同期方式と
の2種類があつた。同期方式はフレームごとに必
要な処理をすべて行うので入力音声が終了すると
同時に処理結果が得られるいわゆる実時間処理が
可能であるが、フレームごとに処理できる量に上
限があるため認識できる語いに上限があるという
欠点があつた。
一方非同期方式は入力音声が終つてから必要な
認識処理を行うため認識できる語いには制限を受
けず大量の語いに対し正確に認識することができ
るが、入力音声が終了してから認識結果が得られ
るまである程度の時間がかかるためデータ等を入
力する場合、入力速度が遅くなるという欠点があ
つた。
この発明はこれらの欠点を除去するため認識を
行う際、まず複数個の候補を求める一次分類とさ
らに一次分類した結果から最終的な認識結果を求
める二次分類との二段階の処理を行うと共に一次
分類は入力音声のフレームに同期して行い、入力
音声の終端候補が検出された時点で二次分類を開
始するという処理手順をとることにより入力音声
終了後、短時間で認識結果を得ることを目的とし
たものである。以下図面について詳細に説明す
る。
第1図はこの発明による音声パターン認識方式
の一実施例を示し、特徴抽出部11と、制御部1
2と、一次分類部13と、バツフア14と、二次
分類部15とから構成されている。特徴抽出部1
1は区切つて発声された単語音声を入力音声と
し、その入力音声を短かい時間間隔ごとの区分、
いわゆるフレームに区切りその各フレームごとに
音声の特徴をあらわすパラメータを求めて入力音
声を特徴パラメータの時系列に変換する。一次分
類部13は特徴抽出部11の出力を用いて認識処
理を各フレームと同期して行い、認識対象の語い
から複数個の認識結果候補を決定する。前記特徴
パラメータの時系列はバツフア14に一時貯えら
れる。二次分類部15はバツフア14に貯えられ
た入力音声の特徴パラメータに対して、一次分類
部で得られた認識結果候補単語を認識対象として
認識処理を行う。
制御部12は次のように各部を動作させる。即
ちまず制御部12が特徴抽出部11に処理開始信
号を送ると、特徴抽出部は入力線16からの入力
音声信号の分析を開始する。分析された結果の一
部である音声パワーは入力音声の始端を検出する
ため制御部12へ送られる。制御部12ではあら
かじめ定められたしきい値以上に音声パワーが上
昇すると、入力音声の始端であると判断し、一次
分類部13へ一次分類の開始を指示する。同時に
制御部12はバツフア14へ特徴パラメータを順
次記憶することを指示する。一次分類部13はフ
レームに同期して認識処理を行う。入力音声のフ
レームに同期していわゆる実時間処理を行う方式
としては種々のものが提案されている。いずれの
方式をとつても良いが一例としては特願昭53−
009108号“単語音声認識装置”に述べられている
方式がある。
あるフレームにおいて音声パワーがしきい値以
下になると制御部12はそのフレームを音声区間
の終端候補と判断し、そのフレームにおいて得ら
れた認識結果の候補を出力するように一次分類部
13に指示する。さらに制御部12は二次分類部
15に一次分類部13から送られて来た候補単語
を送ると共に二次分類の開始を指示する。二次分
類部15はバツフア14に貯えられた特徴パラメ
ータの時系列を用いて制御部12から指示された
候補単語中から最適の認識結果を求める二次分類
処理を行う。
無声子音等を含む単語では語中に無音部が含ま
れる。即ちこのような単語が入力された場合には
音声パワーが一度しきい値以下に低下し、再びし
きい値以上に上昇するということが生じる。従つ
て制御部12では音声パワーがしきい値以下であ
る時間の長さを監視しておき、真の音声終端か単
語中に生じる無音区間かの区別をする必要があ
る。音声パワーがしきい値以下であつた時間長が
あらかじめ定められた長さ以下であつた場合は制
御部12は単語中の無音区間であると判断し、二
次分類処理を中断し、二次処理部15をリセツト
する。無音区間の長さがあらかじめ定められた長
さ以上に続くと音声の終端候補が真の終端である
と判定し、二次分類処理が終つた時点で認識結果
を出力する。
第2図は以上の処理手順をわかりやすく示した
タイムチヤートである。同図Aに示すように音声
パワー21が入力され、音声パワーがしきい値2
2を超えるとその時間点t1が音声の開始時点とさ
れてフレームパルス23(同図B)と同時して一
次分類処理24が同図Cに示すように行われる。
時間点t2に音声パワー21がしきい値22より下
り入力音声の終端候補点が検出され、その時間点
t2においてその時点において得られた一次分類の
結果を用いて同図Dに示すように二次分類25が
開始される。時間点t3において音声パワー21が
しきい値22を超えたことが検出され、時間点t2
乃至t3の長さが所定値以下で単語中の無音区間と
判定され、二次分類25が中断され、二次分類部
がリセツトされる。時間点t4で再び音声パワーが
しきい値以下になり二次分類25が開始される。
この時間点t4からの無音区間が所定値以上継続
し、時間点t5で真の音声終端と決定され、この時
間点t5に一次分類24は終了され、二次分類25
の終了した時点t6で認識結果が得られる。なおこ
の図では認識結果が得られる時点t6は真の音声終
端と判定された時点t5の後になつているが、二次
分類25が時点t5以前に終了した場合には時点t5
において認識結果が出力される。
第3図はこの発明の別の実施例である。特徴抽
出部11と、制御部12と、バツフア14と、分
類部31から構成される。この実施例では一次分
類と二次分類とを同一の装置である分類部31で
行う点が第1図の実施例と異なつている。従つて
当然分類部31は一次分類の途中結果を貯えてお
くワークメモリと二次分類の途中結果を貯えてお
くワークメモリとを別に持つている。動作は一次
分類については前の実施例に示したのと同様であ
る。
入力音声の終端候補が検出されるとその無音部
において分類部31は一次分類の空き時間を利用
して、バツフア14に貯えられている特徴パラメ
ータの時系列を用いて一次分類で得られた候補に
ついて二次分類を行う。さらに音声が終つたと判
断されると一次分類は終了しそれ以降は二次分類
のみ行う。
第4図は第3図に示した実施例の処理手順をわ
かりやすく示したタイムチヤートである。図中の
番号は第2図と同じものを意味している。時点t1
において一次分類24がフレームに同期して開始
される。時点t2においてその時点において得られ
た一次分類の結果を用いて二次分類25が開始さ
れる。一次分類24、二次分類25は同一の装置
である分類部31において行われるため、二次分
類25は一次分類の空き時間を利用して時分割的
に行われる点が特徴である。時点t3において音声
終端候補点t2が棄却されたので二次分類25が中
断され、二次分類用のワークメモリがクリアされ
る。時点t4において再び二次分類が開始される。
時点t5において一次分類は終了し、もしこの時点
で二次分類が終了していない場合はこれ以降は二
次分類のみ行われ、二次分類が終了した時点t6
認識結果が出力される。もちろん時点t5以前に二
次分類が終了していれば時点t5において認識結果
が出力される。
実施例1及び2の特徴をあげると次の通りであ
る。即ち実施例1は一次分類、二次分類を別の装
置で行つているため認識時間が短かくてすむ利点
がある。また一次分類、二次分類を異なつた方式
で行うことも可能である。例えば一次分類をパタ
ーンマツチング方式で、二次分類を樹状規則を用
いた認識方式で処理することができる。このよう
に異なつた認識方式を組合せると高い認識性能が
得られることはよく知られている。また実施例2
は一次分類と二次分類を同一の装置を用いて行つ
ているためハードウエア量が少なくてすむ利点が
ある。
以上説明したようにこの発明の音声パターン認
識方式は音声認識処理を一次分類と二次分類とに
分け、一次分類は入力音声のフレームに同期して
行い、二次分類は音声終端候補が検出された時点
で開始する方式をとつたため次の効果が得られ
る。
(1) 認識処理を一次分類、二次分類に分けて二次
分類は一次分類で得られた結果についてのみ行
うため全体としての処理量が減り、認識対象の
語いが多い場合でも少ない処理量で認識でき
る。
(2) しかも一次分類は入力音声に同期して行い、
二次分類は音声の終端候補が検出された時点で
一次分類で得られた候補についてのみ認識開始
することにより極めて短時間に能率よく認識で
きる。
なお上に述べた実施例はあくまでこの発明の例
に示したもので、この発明はこれに限定されるも
のではない。例えば音声の始端、終端を検出する
ために前記実施例では音声パワーのみを用いたが
他の情報も併用しても良いことはもちろんであ
る。またこの発明の応用面として認識対象の語い
が多い場合の他に不特定多数の話者の音声を認識
する場合等に長く用いられる同一カテゴリに対し
複数個の標準パターンを用意する方式の場合に応
用しても極めて有効である。なお制御部12は電
子計算機、例えばいわゆるマイクロコンピユータ
を用いて容易に実施することができ、その他の各
部は従来行われている構成とすることができ、そ
の場合特徴抽出部11、一次分類部13、二次分
類部15にはそれぞれ電子計算機が用いられるこ
とが多いが、これらと制御部12の全体を共通の
電子計算機で処理させることもできる。
【図面の簡単な説明】
第1図はこの発明による音声パターン認識方式
の一実施例を示すブロツク図、第2図は第1図の
認識処理の手順を示したタイムチヤート、第3図
はこの発明による音声パターン認識方式の別の実
施例を示すブロツク図、第4図は第3図の認識処
理の手順を示すタイムチヤートである。 11:特徴抽出部、12:制御部、13:一次
分類部、14:入力パターンバツフア、15:二
次分類部、16:音声信号入力線、21:音声パ
ワー、22:しきい値、23:フレームパルス、
24:一次分類処理、25:二次分類処理、3
1:分類部、t1:入力音声始端時点、t2:入力音
声終端候補時点、t3:終端候補棄却時点、t4:入
力音声終端候補時点、t5:入力音声終了判断時
点、t3:認識終了時点。

Claims (1)

    【特許請求の範囲】
  1. 1 区切つて発声された単語音声を入力音声と
    し、入力音声を短かい時間間隔ごとの区分(以下
    フレームと呼ぶ)に区切り、各フレームごとに音
    声の特徴をあらわすパラメータを求め、入力音声
    を特徴パラメータの時系列に変換する特徴抽出部
    と、その特徴抽出部の出力を用いて認識処理を行
    い、認識対象の語いから複数個の認識結果候補を
    決定する一次分類部と、前記特徴抽出部の出力で
    ある特徴パラメータの時系列を一時貯えておくバ
    ツフアと、そのバツフアに貯えられた入力音声の
    特徴パラメータに対して前記一次分類部の認識処
    理結果得られた候補単語を認識対象として認識処
    理を行つて認識結果を求める二次分類部と、全体
    の処理を制御する制御部から構成され、入力音声
    が入つてくると同時に特徴抽出部の出力を用いて
    各フレームに同期して前記一次分類部において一
    次分類操作を行い、かつ同時に特徴パラメータを
    前記バツフアに貯え、前記制御部において入力音
    声の終端の候補点が検出されると二次分類操作を
    前記二次分類部において開始し、前記終端候補点
    が棄却された場合は二次分類操作を中止すると共
    に二次分類部を初期状態にもどし、再び終端候補
    点が検出された場合には二次分類操作を開始する
    という動作をくりかえし、終端候補点が真の音声
    終端であると判断された場合にはその時点で行い
    つつある、もしくは終了した二次分類操作の最終
    結果をもつて認識結果とする音声パターン認識方
    式。
JP8109880A 1980-06-16 1980-06-16 Voice pattern recognition system Granted JPS576900A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8109880A JPS576900A (en) 1980-06-16 1980-06-16 Voice pattern recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8109880A JPS576900A (en) 1980-06-16 1980-06-16 Voice pattern recognition system

Publications (2)

Publication Number Publication Date
JPS576900A JPS576900A (en) 1982-01-13
JPS6123560B2 true JPS6123560B2 (ja) 1986-06-06

Family

ID=13736903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8109880A Granted JPS576900A (en) 1980-06-16 1980-06-16 Voice pattern recognition system

Country Status (1)

Country Link
JP (1) JPS576900A (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57191699A (en) * 1981-05-22 1982-11-25 Hitachi Ltd Pattern matching apparatus
JPS57201300A (en) * 1981-06-05 1982-12-09 Hitachi Ltd Voice recognizer
JPS58224398A (ja) * 1982-06-22 1983-12-26 三洋電機株式会社 音声認識装置
JPS59186040A (ja) * 1983-04-06 1984-10-22 Nec Corp 音声ワ−ドプロセツサ
JPS6091399A (ja) * 1983-10-26 1985-05-22 富士通株式会社 音声認識装置
JPS60201395A (ja) * 1984-03-27 1985-10-11 沖電気工業株式会社 音声認識方法
JPH0634184B2 (ja) * 1984-09-21 1994-05-02 株式会社リコー 音声認識方法
JPS6195397A (ja) * 1984-10-17 1986-05-14 株式会社リコー 音声パターン照合方法
EP0266423B1 (en) * 1986-04-16 1994-03-09 Ricoh Company, Ltd Method of collating voice pattern in voice recognizing apparatus
JPH08123480A (ja) * 1994-10-28 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置

Also Published As

Publication number Publication date
JPS576900A (en) 1982-01-13

Similar Documents

Publication Publication Date Title
US4811399A (en) Apparatus and method for automatic speech recognition
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
EP0108354A2 (en) A data processing apparatus and method for use in speech recognition
US4882755A (en) Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
JPS6123560B2 (ja)
US5799274A (en) Speech recognition system and method for properly recognizing a compound word composed of a plurality of words
US4790017A (en) Speech processing feature generation arrangement
EP0266423B1 (en) Method of collating voice pattern in voice recognizing apparatus
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH0262879B2 (ja)
JPS6344699A (ja) 音声認識装置
JPS6346496A (ja) 音声認識装置
JPS5934595A (ja) 音声認識処理方式
JPS58159598A (ja) 単音節音声認識方式
JPS6195397A (ja) 音声パターン照合方法
JPS63173100A (ja) キ−ワ−ド抽出装置
JPS59211098A (ja) 音声認識装置
JPS58159599A (ja) 単音節音声認識方式
JPH0313599B2 (ja)
JPS6347797A (ja) 単語音声予備選択方式
JPS63292199A (ja) 音声認識装置
JPS6147992A (ja) 音声認識方式
JPS6127593A (ja) 音声パタ−ン照合方式
Vysotsky Speaker-independent isolated word recognition using a one-pass analysis
JPS5915999A (ja) 単音節認識装置