JPS6123560B2

JPS6123560B2 -

Info

Publication number: JPS6123560B2
Application number: JP55081098A
Authority: JP
Inventors: Naoki Ishii; Ryohei Nakatsu
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1980-06-16
Filing date: 1980-06-16
Publication date: 1986-06-06
Also published as: JPS576900A

Description

【発明の詳細な説明】この発明は区切つて発声された単語音声を自動
的に認識する方式に関するものである。

単語音声認識を行う方法として従来はフレーム
に同期して認識処理を行う同期方式と、入力音声
をいつたんバツフアに貯え入力音声が終了した後
に認識処理を行つて認識結果を得る非同期方式と
の２種類があつた。同期方式はフレームごとに必
要な処理をすべて行うので入力音声が終了すると
同時に処理結果が得られるいわゆる実時間処理が
可能であるが、フレームごとに処理できる量に上
限があるため認識できる語いに上限があるという
欠点があつた。

一方非同期方式は入力音声が終つてから必要な
認識処理を行うため認識できる語いには制限を受
けず大量の語いに対し正確に認識することができ
るが、入力音声が終了してから認識結果が得られ
るまである程度の時間がかかるためデータ等を入
力する場合、入力速度が遅くなるという欠点があ
つた。

この発明はこれらの欠点を除去するため認識を
行う際、まず複数個の候補を求める一次分類とさ
らに一次分類した結果から最終的な認識結果を求
める二次分類との二段階の処理を行うと共に一次
分類は入力音声のフレームに同期して行い、入力
音声の終端候補が検出された時点で二次分類を開
始するという処理手順をとることにより入力音声
終了後、短時間で認識結果を得ることを目的とし
たものである。以下図面について詳細に説明す
る。

第１図はこの発明による音声パターン認識方式
の一実施例を示し、特徴抽出部１１と、制御部１
２と、一次分類部１３と、バツフア１４と、二次
分類部１５とから構成されている。特徴抽出部１
１は区切つて発声された単語音声を入力音声と
し、その入力音声を短かい時間間隔ごとの区分、
いわゆるフレームに区切りその各フレームごとに
音声の特徴をあらわすパラメータを求めて入力音
声を特徴パラメータの時系列に変換する。一次分
類部１３は特徴抽出部１１の出力を用いて認識処
理を各フレームと同期して行い、認識対象の語い
から複数個の認識結果候補を決定する。前記特徴
パラメータの時系列はバツフア１４に一時貯えら
れる。二次分類部１５はバツフア１４に貯えられ
た入力音声の特徴パラメータに対して、一次分類
部で得られた認識結果候補単語を認識対象として
認識処理を行う。

制御部１２は次のように各部を動作させる。即
ちまず制御部１２が特徴抽出部１１に処理開始信
号を送ると、特徴抽出部は入力線１６からの入力
音声信号の分析を開始する。分析された結果の一
部である音声パワーは入力音声の始端を検出する
ため制御部１２へ送られる。制御部１２ではあら
かじめ定められたしきい値以上に音声パワーが上
昇すると、入力音声の始端であると判断し、一次
分類部１３へ一次分類の開始を指示する。同時に
制御部１２はバツフア１４へ特徴パラメータを順
次記憶することを指示する。一次分類部１３はフ
レームに同期して認識処理を行う。入力音声のフ
レームに同期していわゆる実時間処理を行う方式
としては種々のものが提案されている。いずれの
方式をとつても良いが一例としては特願昭53−
009108号“単語音声認識装置”に述べられている
方式がある。

あるフレームにおいて音声パワーがしきい値以
下になると制御部１２はそのフレームを音声区間
の終端候補と判断し、そのフレームにおいて得ら
れた認識結果の候補を出力するように一次分類部
１３に指示する。さらに制御部１２は二次分類部
１５に一次分類部１３から送られて来た候補単語
を送ると共に二次分類の開始を指示する。二次分
類部１５はバツフア１４に貯えられた特徴パラメ
ータの時系列を用いて制御部１２から指示された
候補単語中から最適の認識結果を求める二次分類
処理を行う。

無声子音等を含む単語では語中に無音部が含ま
れる。即ちこのような単語が入力された場合には
音声パワーが一度しきい値以下に低下し、再びし
きい値以上に上昇するということが生じる。従つ
て制御部１２では音声パワーがしきい値以下であ
る時間の長さを監視しておき、真の音声終端か単
語中に生じる無音区間かの区別をする必要があ
る。音声パワーがしきい値以下であつた時間長が
あらかじめ定められた長さ以下であつた場合は制
御部１２は単語中の無音区間であると判断し、二
次分類処理を中断し、二次処理部１５をリセツト
する。無音区間の長さがあらかじめ定められた長
さ以上に続くと音声の終端候補が真の終端である
と判定し、二次分類処理が終つた時点で認識結果
を出力する。

第２図は以上の処理手順をわかりやすく示した
タイムチヤートである。同図Ａに示すように音声
パワー２１が入力され、音声パワーがしきい値２
２を超えるとその時間点t₁が音声の開始時点とさ
れてフレームパルス２３（同図Ｂ）と同時して一
次分類処理２４が同図Ｃに示すように行われる。
時間点t₂に音声パワー２１がしきい値２２より下
り入力音声の終端候補点が検出され、その時間点
t₂においてその時点において得られた一次分類の
結果を用いて同図Ｄに示すように二次分類２５が
開始される。時間点t₃において音声パワー２１が
しきい値２２を超えたことが検出され、時間点t₂
乃至t₃の長さが所定値以下で単語中の無音区間と
判定され、二次分類２５が中断され、二次分類部
がリセツトされる。時間点t₄で再び音声パワーが
しきい値以下になり二次分類２５が開始される。
この時間点t₄からの無音区間が所定値以上継続
し、時間点t₅で真の音声終端と決定され、この時
間点t₅に一次分類２４は終了され、二次分類２５
の終了した時点t₆で認識結果が得られる。なおこ
の図では認識結果が得られる時点t₆は真の音声終
端と判定された時点t₅の後になつているが、二次
分類２５が時点t₅以前に終了した場合には時点t₅
において認識結果が出力される。

第３図はこの発明の別の実施例である。特徴抽
出部１１と、制御部１２と、バツフア１４と、分
類部３１から構成される。この実施例では一次分
類と二次分類とを同一の装置である分類部３１で
行う点が第１図の実施例と異なつている。従つて
当然分類部３１は一次分類の途中結果を貯えてお
くワークメモリと二次分類の途中結果を貯えてお
くワークメモリとを別に持つている。動作は一次
分類については前の実施例に示したのと同様であ
る。

入力音声の終端候補が検出されるとその無音部
において分類部３１は一次分類の空き時間を利用
して、バツフア１４に貯えられている特徴パラメ
ータの時系列を用いて一次分類で得られた候補に
ついて二次分類を行う。さらに音声が終つたと判
断されると一次分類は終了しそれ以降は二次分類
のみ行う。

第４図は第３図に示した実施例の処理手順をわ
かりやすく示したタイムチヤートである。図中の
番号は第２図と同じものを意味している。時点t₁
において一次分類２４がフレームに同期して開始
される。時点t₂においてその時点において得られ
た一次分類の結果を用いて二次分類２５が開始さ
れる。一次分類２４、二次分類２５は同一の装置
である分類部３１において行われるため、二次分
類２５は一次分類の空き時間を利用して時分割的
に行われる点が特徴である。時点t₃において音声
終端候補点t₂が棄却されたので二次分類２５が中
断され、二次分類用のワークメモリがクリアされ
る。時点t₄において再び二次分類が開始される。
時点t₅において一次分類は終了し、もしこの時点
で二次分類が終了していない場合はこれ以降は二
次分類のみ行われ、二次分類が終了した時点t₆で
認識結果が出力される。もちろん時点t₅以前に二
次分類が終了していれば時点t₅において認識結果
が出力される。

実施例１及び２の特徴をあげると次の通りであ
る。即ち実施例１は一次分類、二次分類を別の装
置で行つているため認識時間が短かくてすむ利点
がある。また一次分類、二次分類を異なつた方式
で行うことも可能である。例えば一次分類をパタ
ーンマツチング方式で、二次分類を樹状規則を用
いた認識方式で処理することができる。このよう
に異なつた認識方式を組合せると高い認識性能が
得られることはよく知られている。また実施例２
は一次分類と二次分類を同一の装置を用いて行つ
ているためハードウエア量が少なくてすむ利点が
ある。

以上説明したようにこの発明の音声パターン認
識方式は音声認識処理を一次分類と二次分類とに
分け、一次分類は入力音声のフレームに同期して
行い、二次分類は音声終端候補が検出された時点
で開始する方式をとつたため次の効果が得られ
る。

(1) 認識処理を一次分類、二次分類に分けて二次
分類は一次分類で得られた結果についてのみ行
うため全体としての処理量が減り、認識対象の
語いが多い場合でも少ない処理量で認識でき
る。

(2) しかも一次分類は入力音声に同期して行い、
二次分類は音声の終端候補が検出された時点で
一次分類で得られた候補についてのみ認識開始
することにより極めて短時間に能率よく認識で
きる。

なお上に述べた実施例はあくまでこの発明の例
に示したもので、この発明はこれに限定されるも
のではない。例えば音声の始端、終端を検出する
ために前記実施例では音声パワーのみを用いたが
他の情報も併用しても良いことはもちろんであ
る。またこの発明の応用面として認識対象の語い
が多い場合の他に不特定多数の話者の音声を認識
する場合等に長く用いられる同一カテゴリに対し
複数個の標準パターンを用意する方式の場合に応
用しても極めて有効である。なお制御部１２は電
子計算機、例えばいわゆるマイクロコンピユータ
を用いて容易に実施することができ、その他の各
部は従来行われている構成とすることができ、そ
の場合特徴抽出部１１、一次分類部１３、二次分
類部１５にはそれぞれ電子計算機が用いられるこ
とが多いが、これらと制御部１２の全体を共通の
電子計算機で処理させることもできる。

【図面の簡単な説明】

第１図はこの発明による音声パターン認識方式
の一実施例を示すブロツク図、第２図は第１図の
認識処理の手順を示したタイムチヤート、第３図
はこの発明による音声パターン認識方式の別の実
施例を示すブロツク図、第４図は第３図の認識処
理の手順を示すタイムチヤートである。１１：特徴抽出部、１２：制御部、１３：一次
分類部、１４：入力パターンバツフア、１５：二
次分類部、１６：音声信号入力線、２１：音声パ
ワー、２２：しきい値、２３：フレームパルス、
２４：一次分類処理、２５：二次分類処理、３
１：分類部、t₁：入力音声始端時点、t₂：入力音
声終端候補時点、t₃：終端候補棄却時点、t₄：入
力音声終端候補時点、t₅：入力音声終了判断時
点、t₃：認識終了時点。

Claims

【特許請求の範囲】

１区切つて発声された単語音声を入力音声と
し、入力音声を短かい時間間隔ごとの区分（以下
フレームと呼ぶ）に区切り、各フレームごとに音
声の特徴をあらわすパラメータを求め、入力音声
を特徴パラメータの時系列に変換する特徴抽出部
と、その特徴抽出部の出力を用いて認識処理を行
い、認識対象の語いから複数個の認識結果候補を
決定する一次分類部と、前記特徴抽出部の出力で
ある特徴パラメータの時系列を一時貯えておくバ
ツフアと、そのバツフアに貯えられた入力音声の
特徴パラメータに対して前記一次分類部の認識処
理結果得られた候補単語を認識対象として認識処
理を行つて認識結果を求める二次分類部と、全体
の処理を制御する制御部から構成され、入力音声
が入つてくると同時に特徴抽出部の出力を用いて
各フレームに同期して前記一次分類部において一
次分類操作を行い、かつ同時に特徴パラメータを
前記バツフアに貯え、前記制御部において入力音
声の終端の候補点が検出されると二次分類操作を
前記二次分類部において開始し、前記終端候補点
が棄却された場合は二次分類操作を中止すると共
に二次分類部を初期状態にもどし、再び終端候補
点が検出された場合には二次分類操作を開始する
という動作をくりかえし、終端候補点が真の音声
終端であると判断された場合にはその時点で行い
つつある、もしくは終了した二次分類操作の最終
結果をもつて認識結果とする音声パターン認識方
式。