JPS6131879B2

JPS6131879B2 -

Info

Publication number: JPS6131879B2
Application number: JP55048083A
Authority: JP
Inventors: Isamu Nose
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1980-04-14
Filing date: 1980-04-14
Publication date: 1986-07-23
Also published as: JPS56144499A

Description

【発明の詳細な説明】

本発明は認識率の高い音声認識装置に関するも
のである。従来の音声認識装置を第１図に示す。第１図において、１はマイクロホン、２はフイ
ルタ分析部、３はパワー検出部、４はサンプルデ
ータ格納メモリ、５は音声区間切出し部、６は特
徴抽出部、７は音声特徴登録メモリー、８は識別
部の如く構成されている。一般に認識装置は話者
により特定話者と不特定話者に大別される。特定
話者の認識装置では話し手が読み取り対象語を一
度あるいは数度発声して自分の声の特徴をあらか
じめ登録する（以下これを登録モードと称す）。
不特定話者の場合はこの登録の過程がない。現在製品化されているのは殆んど特定話者であ
り、以下第１図にて説明する。入力音声はマイク
１にて電気信号に変換され、フイルタ分析部２に
て周波数成分に分けられる。フイルタ分析部２は
一般的にはバンドパスフイルタ群、全波整流器
群、ローパスフイルタ群、及びマルチプレクサ、
AD変換器等から構成されており、音声帯域200Hz
〜5KHz程度を約10〜15のフイルタ群で分けて10
〜20ｍＳ周期で各フイルタ出力を取り出している
（以下この出力をサンプルデータと称す）。この過
程は一般的方法であり本発明の直接的な要素でな
いので図示していない。なおサンプルデータは正
負極性をもつもの、あるいは一方の極性のもの絶
対値（正負のpeak−to−peak）データ等の表現
があるが以後説明の都合上絶対値表現とする。サ
ンプルデータは逐次パワー検出部３に送出され各
フイルタ出力のサンプルデータの総和あるいは最
大値等が定められた閾値以上になつたら音声区間
の始まりと考え以下サンプルデータ格納メモリ４
に順次格納する。一定時間のデータが格納された
らこのシーケンスを終了して次に音声区間切り出
し部５が動作する。音声区間切り出し部５では改
めて音声区間の始端及び終端の検出を行う。この
方法としては上記サンプルデータの格納方法と同
様に音声パワーを用いて閾値１、２を設定し始端
は閾値１を越えるサンプルデータがある一定時間
持続する先頭を又終端は閾値２以下のサンプルデ
ータがある一定時間持続する先頭あるいはその１
サンプル前の時点を終端としてその間を音声区間
とする方法等が考えられる。音声区間が決定すると特徴抽出部６では音声区
間を等分割して分割時間内で各フイルタ出力毎の
平均値を求めこれを特徴とする。登録モードでは
この特徴を登録用メモリー７に格納する。各語句
の登録が終了すると次からは新たに発声した語句
の識別が可能となる。識別部８の動作を以下説明
する。登録特徴をＴ_o（ｓ、ｆ）として識別すべき発
声語句の特徴をＲ（ｓ、ｆ）とする。但しｎはｎ
番目に登録された語句の特徴、ｓは音声区間内の
分割に対して順次付された番号でｆは各フイルタ
出力に対応して順次付された番号を示す。Ｔ_o（ｓ、ｆ）とＲ（ｓ、ｆ）間の距離Ｄ_oを次
の様に定義する。Ｄ_oは非類似度を示しており全ての登録語句に
対してＤ_oを求めてその中でＤ_oが最小となるｎに
対応する語句が識別結果となる。この識別を行う
過程を以下識別モードと称す。しかしながら発声動作においては同一人の同一
語句でも発声毎に発声時間は伸縮それも部分的に
伸縮することが多くこのような音声区間を等分割
する線形マツチングでは対処しきれない場合が多
く、又似ている語句の識別は非常に困難であると
いう欠点をもつている。本発明の目的はこれらの欠点を除去することに
あり、伸縮の大きい母音区間、無音区間等に対し
てデータをまびき、音声区間を等分して平均特徴
を求め、第１段の普通のマツチングと似かよつた
語句に対応できるよう部分マツチングの２段判定
を特徴とし以下詳細に説明する。第２図は本発明の第１の実施例であつて切り出
し部迄は本発明の直接的目的ではないので省略し
てある。１０は再サンプル回路、２０は再サンプ
ルデータ格納部、３０は特徴計算部、４０は特徴
格納部、５０は登録特徴格納部、６０は第１マツ
チング部、７０は第２マツチング部である。これを動作するには、切り出された音声区間デ
ータ（図示していない）を再サンプル回路１０で
は始端より順次参照して定常性検出（母音部に対
応）、１サンプル内の各フイルタ出力値の最大値
検出（無音部の検出）、発声パワーの正規化を行
う。第３図に再サンプル回路１０の詳細ブロツク図
を示す。１００は１サンプルデータ格納部、１０
１はMAX値検出部、１０２は最大値レジスタ、
１０３は比較器、１０４は加算回路、１０５は加
算レジスタ、１０６は正規化部、１０７は正規化
データ格納部、１０８は差分極性計算部、１０９
は現極性レジスタ、１１０は前極性レジスタ、１
１１は一致検出部、２０は再サンプルデータ格納
部、１１２は一致計算部である。１サンプルデータ格納部１００では切り出され
た音声区間内のデータを始端より順次１サンプル
分のデータを格納する。１サンプルデータが格納
されると最大値検出部１０１及び加算回路１０４
ではこれらのデータを順次調べて各々最大値及び
加算値を最大値レジスタ１０２及び加算レジスタ
１０５に格納する。比較器１０３では最大値レジ
スタ１０２の出力値とあらかじめ定められた定数
値とを比較して比較結果を正規化部１０６に出力
する。正規化部１０６では最大値の方が定数値よ
り大きい場合は１サンプルデータ格納部１００の
データと加算レジスタ１０５の値を用いて比率
（％）を計算する。又最大値が定数値より小さい
場合は比率計算は行わず“０”を出力する。出力
値は正規化データ格納部１０７に格納される。即
ち１サンプルデータ格納部１００に格納された各
フイルタの出力値をＦ_o(M)とする。ｎはフイルタ
に付された番号でｋは音声区間データのサンプル
番号である。加算値は

【式】 MAX値は MAX(M)＝MAX｛F₁(M)F₂(M)……Ｆ_l(M)｝である。但しフイルタ個数をｌ個とする。 (1) MAX(M)定数値の場合、正規化部１０６の
出力NORM_o(M)は NORM_o(M)＝Ｆ_ｏ(M)／ＡＤＤ(M)×100（％） (2) MAX(M)＜定数値の場合は NORM_o(M)＝０次に再サンプル動作について説明する。これは
サンプルデータの時系列において定常性を検出し
て（一般に音声データにおいて母音部では定常性
を示し子音部および過渡部では非定常性を示すこ
とはよく知られている）、定常部のサンプルを粗
くする動作である。差分極性計算部１０８では正規化データ格納部
１０７のデータを参照して隣接フイルタ間の出力
値の差分計算を行い差分極性を３値でもとめる。
但し、前記MAX(M)定数値の場合、即ち全ての
NORM_o(M)においてNORM_o(M)＝０が成立しない場
合において次の様に動作する。差分値Ｄ_o(M)＝NORM_o(M)−NORM_o+1(k) 但しｎ＝１、２、……、ｌ−１である。 (1) ｜Ｄ_o(M)｜Δｄの場合（但しΔｄはあらか
じめ定められた定数）Ｄ_o(M)０なら差分極性Ｓ_o(M)＝S⁺ 又Ｄ_o(M)＜０ならＳ_o(M)＝S^- (2) ｜Ｄ_o(M)｜＜Δｄの場合Ｓ_o(M)＝S⁰とする。
ここでS⁺、S⁰、S^-は２ビツト表現で例えば S⁺＝（０、１）、S⁰＝（０、０）、S^-＝（１、
０）の様に表現する。この様にして１サンプルデータの差分の符号系
列S₁(M)、S₂(M)、……、Ｓ_l-1(M)を求める。但し前
記MAX(M)＜定数値の場合、即ち全てのNORM(M)
＝０の場合は差分極性の計算は行わず、差分極性
計算で出現することのない符号系列を出力する。
例えばS^×、S^×、S^×……の様なものである。但し
S^×＝（１、１）である。差分極性の計算結果は現極性レジスタ１０９に
セツトされると同時に、それ迄現極性レジスタ１
０９の内容が前極性レジスタ１１０にセツトされ
る。前極性レジスタの初期状態（１音声の処理に
入る前の状態）は先程の例で述べたS^×、S^×、
S^×、……、の様に差分極性計算で出現しない符
号系列がセツトされているものとする。一致検出
部１１１では現極性レジスタ１０９の内容と前極
性レジスタ１１０の内容が一致するか否かを検出
する。すなわち、一致検出部１１１は時間軸で隣
接する傾斜識別符号系列（傾斜識別符号群）が互
いに完全に一致するか否かを検出する。一致しな
い場合は非定常点と見なし正規化データ格納部１
０７の１サンプル正規化データを再サンプルデー
タ格納部２０に格納する。一致する場合は一致計
数部１１２で連続して一致する回数を計数しある
計数値（あらかじめ定められた回数）に達した場
合のみ正規化データ格納部１０７の内容を再サン
プルデータ格納部２０に格納すると共に計数値を
“０”とする。この様にして正規化された再サン
プル動作を音声区間データについて全て実行す
る。再サンプル及び正規化動作が音声区間サンプル
データに対し終了すると次に特徴計算部３０にて
再サンプルデータの音声区間を等分割して各分割
内のチヤネルフイルタ出力値（正規化データ）に
対して平均値を求めこれを特徴とする。再サンプルデータの音声区間長をＩ、等分割数
をＪとすると、Ｉ／Ｊ＝ｉにより１分割内のデー
タ個数(i)が求まる。この場合余り（ｒとする）が
生じたら、最初の分割より１データづつ各分割に
対し余りがなくなる迄加えて補正する。例えばｒ
＝３とすると最初の３つの分割内データ個数はｉ
＋１であり、それ以降はｉである。平均値を求める式は平均値をＭ_j（ｎ）、正規化
値は前記NORM_o(M)とする。ｊは分割毎に付され
た番号、ｎはチヤネルフイルタに対応して付され
た番号、ｋは再サンプルデータに付された番号と
する。但しｊ＝１、２、……Ｊ、Δｉ＝k₂−k₁＋１で
分割ｊにおいてｒ＝０であればΔｉ＝ｉ、ｒ≠０
であればΔｉ＝ｉ＋１である。以上の過程を第４図にフローチヤートで、第５
図にブロツク図で示す。第５図において、１２０
は分割単位計算部、１２１は再サンプルデータ参
照アドレス制御部、１２２は加算部、１２３は加
算結果格納レジスタ、１２４は平均値計算部、２
０は再サンプルデータ格納部、４０は特徴格納部
である。格納された特徴は登録モードでは登録特
徴格納部５０に送出され保存される。保存された
特徴を以下登録特徴と称す。又、識別モードでは
この特徴（以下、入力特徴と称す。）は登録特徴
と順次比較され非類似度の小さい登録特徴に対応
する語句が識別結果となる。以下識別モードの動
作を説明する。入力特徴をＡ（ｕ、ｖ）、登録特
徴をＢ〓（ｕ、ｖ）とする。ｕはフイルタに対応
して付した番号であり、ｖは分割に対応して付し
た番号であり、ωは登録語に対応して付した番号
を示す。非類似度をＭ（ω）とする。Ｍ（ω）は次の様
に計算する。 ω＝１、２、……、ω′として全ての登録語に
関して非類似度を計算する。あらかじめ決められ
た閾値をTH₁とする。Ｍ（ω）＜TH₁なる条件を
満たすωが１個のみの場合はその番号を出力す
る。０個の場合は該当語句が無いものとして認識
不能（リジエクト）とする。２個以上の場合は次
の第２マツチング部で調べる。以上の第１マツチング部６０の詳細ブロツク図
を第６図に示す。４０は特徴格納部、５０は登録
特徴格納部、１３０は分割内マツチング計算部、
１３１及び１３３は加算部、１３２及び１３４は
加算結果格納レジスタ、１３５は比較部、１３６
は第１マツチング結果格納レジスタであり、最初
の加算部で上式Ｍ（ω）の〔〕の中を計算して
次の加算部で〔〕の外の加算を実行して１登録
語の非類似度が計算される毎に比較部１３５で閾
値（TH1）と比較しＭ（ω）＜TH1の場合は対応
番号ωをレジスタ１３６に格納する。第２マツチ
ング部７０では第１マツチング結果格納レジスタ
１３６に格納された候補数がｒ個（あらかじめ決
められた定数）以上の場合は、認識不能（リジエ
クト）とする。２個以上がｒ個より小さい場合
は、その候補語に対応する登録特徴相互間の非類
似度を調べ非類似度の大きい分割部の特徴から順
次Ｐ個（あらかじめ決められた定数）の部分的マ
ツチング場所を選び入力特徴に対しそのマツチン
グ場所に対して登録特徴との非類似度を計算す
る。即ち候補番号を例えばα、β、γとするとま
ずα、βとの登録特徴間の各分割間の非類似度ｍ
（ｖ）を次式で計算する。ｖ＝１、２、……、v′とするとｍ(1)、ｍ(2)、…
…ｍ（v′）を計算してその中で一番大きいｍ
（ｖ）より順次Ｐ個のｖを決めその各ｖに対して
のみ入力特徴とα、βの登録特徴間で部分非類似
度を再び計算する。ｖ＝v₁、v₂、……ｖ_pとする
と同様にM′（β）〓を計算して、部分非類似度の
小さい方を候補として残す。次にβ、γに対しても同様にｍ（ｖ）及び
M′（β）〓、M′（γ）〓を計算し候補を選ぶ。さ
らにα、γに対しても候補を選び全ての場合に候
補として残つた候補番号があれがその番号が認識
結果となり、それ以外はリジエクトとなる。第７図に第２マツチング部７０の詳細ブロツク
図を示す。４０は特徴格納部、５０は登録特徴格
納部、１４０，１４３，１４５，１４６，１５
０，１５２，１５３はレジスタ、１４１，１４８
は絶対値演算部、１４２，１４４，１４９，１５
１は加算部、１４７，１５４は比較部、１５５は
候補格納部、１５６は結果選出部である。本発明は、再サンプル回路、正規化回路、部分
マツチング回路を有しているので十分高い認識を
行うことができ、音声認識装置に利用できる。以上説明したように、本発明によると、定常部
を再サンプルすることにより、母音部のデータと
子音部のデータが認識に同程度関与するようにな
るので（一般に母音部の持続時間の方が子音部の
持続時間に比べて十分長いため）、バランスの取
れた特徴が抽出できる。又、母音部は時間的伸縮
が大きいがその影響を再サンプルにより押えるこ
とができ、正規化しているので発声パワーの大き
さの違いも対処できる。そして似か良つた語句は
部分的に登録特徴の差の大きい所（似かよつてい
ない部分）にのみ着目して判別することにより認
識できる利点がある。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は本発明の一実施例のブロツク図、第３図は
再サンプル回路の詳細ブロツク図、第４図は特徴
計算部の詳細フローチヤート、第５図はそのブロ
ツク図、第６図は第１マツチング部のブロツク
図、及び第７図は第２マツチング部のブロツク図
である。１……マイクロフオン、２……フイルタ分析
部、３……パワー検出部、４……サンプルデータ
格納メモリ、５……音声区間切出し部、６……特
徴抽出部、７……音声特徴登録メモリ、８……認
識部、１０……再サンプル回路、２０……再サン
プルデータ格納部、３０……特徴計算部、４０…
…特徴格納部、５０……登録特徴格納部、６０…
…第１マツチング部、７０……第２マツチング
部、１００……１サンプルデータ格納部、１０１
……MAX値検出部、１０２……MAX値レジス
タ、１０３……比較器、１０４……加算回路、１
０５……加算レジスタ、１０６……正規化部、１
０７……正規化データ格納部、１０８……差分極
性計算部、１０９……現極性レジスタ、１１０…
…前極性レジスタ、１１１……一致検出部、１１
２……一致計数部、１２０……分割単位計算部、
１２１……再サンプルデータ参照アドレス制御
部、１２２……加算部、１２３……加算結果格納
レジスタ、１２４……平均値計算部、１３０……
分割内マツチング計算部、１３１，１３３……加
算部、１３２，１３４……加算結果格納レジス
タ、１３５……比較部、１３６……第１マツチン
グ結果格納レジスタ、１４０，１４３，１４５，
１４６，１５０，１５２，１５３……レジスタ、
１４１，１４８……絶対値演算部、１４２，１４
４，１４９，１５１……加算部、１４７，１５４
……比較部、１５５……候補格納部、１５６……
結果選出部。

Claims

【特許請求の範囲】

１入力された音声信号を複数の周波数成分に分
割し、且つ一定時間間隔でサンプリングしたもの
を第１次音声データとして出力するサンプリン
グ・フイルタ手段と、各サンプリング時点におけ
る第１次音声データの最大値と予め定められる一
定値とを比較して有音時点と無音時点とを識別す
る無音検出手段と、有音時点における第１次音声
データを音声パワで正規化する正規化手段と、正
規化手段の出力に基づいて周波数軸で隣接する第
１次音声データ間の差分値を識別し且つその識別
値に応じた傾斜識別符号群を作成する傾斜符号作
成手段と、時間軸で隣接する傾斜識別符号群が互
いに完全に一致するかどうかを判定して定常時点
と非定常時点とを識別する定常検出手段と、特定
個数継続する無音時点の第１次音声データを一つ
のサンプリング時点のもので代表させ且つ非定常
時点の第１次音声データは各サンプリング時点の
ものに対応させ且つ特定個数継続する定常時点の
第１次音声データの一つをサンプリング時点のも
ので代表させて第２次音声データを出力する再サ
ンプリング手段とを備え、音声区間を特定個数で
等分割し、各周波数成分毎に且つ各分割区間毎に
第２次音声データの平均値を取り、この平均値群
を音声識別の特徴とすることを特徴とする音声認
識装置。