JPS6157995A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6157995A
JPS6157995A JP59179693A JP17969384A JPS6157995A JP S6157995 A JPS6157995 A JP S6157995A JP 59179693 A JP59179693 A JP 59179693A JP 17969384 A JP17969384 A JP 17969384A JP S6157995 A JPS6157995 A JP S6157995A
Authority
JP
Japan
Prior art keywords
pattern
standard pattern
standard
approximation
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59179693A
Other languages
English (en)
Other versions
JPH0346838B2 (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP59179693A priority Critical patent/JPS6157995A/ja
Publication of JPS6157995A publication Critical patent/JPS6157995A/ja
Publication of JPH0346838B2 publication Critical patent/JPH0346838B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識装置に関し、特に分析7レームが圧縮
された形式でトレーニング時(登録時)に登録された標
準パタンと、認識処理の都度入力される入力音声パタン
との時間正規化いわゆるパタンマツチングを特定話者単
語について実施し入力単語音声を認識する圧縮DP型の
音声認識装置に関する。
〔従来技術〕
特定された話者の発する康数の単語音声を予め定めた一
定の分析周期、すなわち分析フレームごとに分析して抽
出した特徴パラメータの分布に関する標準パタンを求め
たうえこれをDP千手法よって圧縮して入カバターンと
の時間正規化を実施し、空間ベクトルである両者間のベ
クトルである両者間のベクトル距離の最小なもの、すな
わち認識音声、の歪が最小であるものをDPバスの追跡
を介しそ求める圧縮DP型”の特定話者単独に上る音声
認識装置は近時よ、く知られている。
このような圧縮DP型の音声認識装置は、入力パタンと
の時間正規化を図るべき標準パタンを圧縮状態で利用し
ているため標準パタンをストアすべき標準パタンメモリ
を削減し得て時間正規化のための処理量も削減し従って
ハードウェア規模もこれに対応して簡素化しうるという
特徴がある。
上述した時間正規化は、入力パタンと標準パタンとが同
−者の音声パタンである場合で、かつ通常の使用環境を
想定する場合には発声速度変動が最大の変動要因となり
、これによって母音部と子音部とで発するそれぞれ異る
複雑な非常形伸縮を除去せんとするものである。この時
間正規化の目9       的は入力パタンと標準パ
タンとの間の写像関数を最適なものとして見出し、標準
パタンの時間軸を入力パタンの時間軸に揃える操作であ
って、通常はベクトル距離、換言すればパタン間距離を
評価尺度とするDP千手法実施してこれの最小とするも
のを、求めるという方法で行なわれCいる。
さて、このような圧縮1)P/lの音声、2識装■tで
は上述した如き種々の特1aを有するものの、標準パタ
ンの圧縮方法としては矩形近似が用いられているため演
算計と得られる歪緻低減との’3’J Oいわゆる圧縮
効率には限度があることが避けられないという欠点があ
る。
〔発明の目的〕
一本発明の目的は上述した欠点を除去し、特定話者単語
音声を対象とする圧縮DP2Jの音声m6R装置におい
て、標準パタンの圧縮手段としては最適台形近似を利用
してDPを図るとともに時間正規化は入力パタンを圧縮
標準パタンに対応せしめて圧縮したうえ正規化するかも
しくは標準パタンを入力パタンに合せるように伸張せし
めてDPババス求めるDPマツチング手法を備えて音声
認識処理を実行することにより圧縮効率を著しく改倶し
た音声認識処理を提供することにある。
〔発明の構成〕
本発明の装置は、分析フレームがDP千手法圧縮された
形式で登録された標準パタンと前記特定話者による単語
音声の入力パタンとの時間正規化によるパタンマツチン
グを介して特定話者単語に対する音声認識を行なう圧縮
DP型の音声認識装置において、標準パタンの圧縮をD
P千手法よる最適台形近似にもとづいて実施する標準パ
タン圧縮手段と、入力パタンを標準パタンに合はせるよ
うに圧縮したうえ標準パタン長で時間正規化するかもし
くは標準パタンを入力パタンに合わせるように延伸して
時間正規化しかつこれら時間正規化は前記標進パタンに
対する歪竜を評価尺度としてこれを最小ならしめるDP
バスを見出すことによって求める時間正規化手段とを備
えて構成される。
〔実施列〕
次に図面を参照して本発明の詳細な説明する。
第1図は本発明による音声認識装置の一実施例を示すブ
ロック図である。
第1図に示す実施例は音響分析器1、切替器2、圧縮処
理器3、標準パタンメモリ4、パタンマツチング器5、
最小距離検索器G等を備えて構成される。
特定話者単語音声の音声認識では、まず特定話者の発声
する複数の単語に関する標準パタンをあらかじめストア
しておく必要があるがこれは次のようにして実施される
すなわち音響分析器1はL P F (Low Pa5
sFi l ter)、A / D :l :yパーク
、LSP(LineSpectrum Pa1rs、 
d、x、ベクトル対)分析器等さ内蔵し、入力音声を所
属の遮断周阪数のLPFでレイルタリングしたのち所定
のサンプリング周波数でサンプリングしてディジタルデ
ータに変換したうえLSP分析器にかける。。
LSP分析器はL P C(Linear Predi
ctionCoefficient、  、II型予測
系数)分析器も有し、あらかじめ設定する分析周期の時
間フレームすなわち分析フレームごとにLPC分析器で
分析、抽出したPRRCOR(偏自己相1犯係一枚)等
のLPC係数から公知の技術、たとえばニュートン(N
ew−ton )の反復法を利用する高次方程式を解く
方法などによって分析フレームごとにあらかじめ設定す
る次数のLSP係数列を求めてこれを切替器2に送出す
る。こうして得られるLSP係数は声道の共振特性を表
わ−すパラメータであり声門を仮想的に完全開放および
完全閉塞した場合の声道フィルタの伝達関数の線スペク
トル周波数によるノくラメータであり周波数領域で扱わ
れる特徴ノく2メータであることもまたよく知られてい
る。
切替器2は、標準パタンのトレーニング時(登録時)に
あっては点線に示す接続状態に切替えられ、従って特定
話者の単語に関するLSPパラメータは圧縮処理器3に
供給される。
圧縮処理器3は次のようにしてこのL S P 、<ラ
メータの最適台形近似によるフレーム圧縮処理をDP手
法を利用して実施する。
フレーム圧縮処理には最適線形近似のほか近時は最適矩
形近似、さらには最適台形近似といったものが可変長フ
レーム型線形予測ボコーダ等の分野で利用されつつある
ことはよく知られており、これら最適近似のうち最適矩
形近似は音声認識装置における圧縮利用の基本手段とし
て多用されている。これは圧縮の結果期待しうる演算量
の減少が最適線形近似に比して著しいことによるが一方
最適矩形近似の本質から、得られる近似度には限度があ
り従って歪量も最適線形近似に比して非常、に増加して
しまう。
一方、最適台形近似は演算量の減少こそ最適矩形近似に
及ばないものの近似度ははるかに増大し、従って歪量も
最適線形近似とほぼ近似した状態まで改善し得て圧縮効
率を著しく向上することができる。
第2図(A)は最適矩形近似の、また(B)は最適台形
近似の原理を説明するための原理図である。
第2図(A)において、入力音声αは分析フレームごと
にたとえばLSPパラメータが特徴ベクトルとして抽出
される。最適矩形近似においてはこうして次次に連続し
て供給されるLSPパラメータ、ベクトルのにフレーム
分ずつをまとめて新たなひとつの処理区分として取扱い
、この処理区分ごとKあらかじめ設定する最大数M(1
<M<K)個の特徴パラメータと、M個の特徴パラメー
タのそれぞれが代表すべき分析フレームとの最適組合せ
を選択し、このような選択によって近似された分析フレ
ームの連続が第2図(A)のbに示す最適矩形近似によ
る可変長フレームとなる。
上述した処理区分ごとに設定すべき特徴ベクトルの最大
数Mは1とKとの間で圧縮効率を考慮して任意に設定し
うる。こうして各区分ごとに設定される最大数Mの特徴
ベクトル群は、DP手法を利用しつつそれぞれがどの分
析フレームを代表するどのような組合せのM 1’1f
flであるかが決定される。
この場合のDPはこうした矩形近似による歪を評価尺度
として実行され、この歪は代表とするM個の%徴ベクト
ル群がそれぞれどの分析フレームを代表するときその矩
形近似特徴ベクトル・どもこの特徴ベクトルの距離とを
最小とするかについて処理区分ごとに求めるという方法
を繰返しつつ容易に求められる。
しかしながらこのようなりP利用最適矩形近似は前述の
如き圧縮効率の限度に1↓りする問題がある。
そこで本実施例においては最適台形近似をDP手法によ
って求めこの問題性の大幅fx緩和を図っている。
Jlむd台形近似は、音声情報の変化の激しい過度部分
はほぼ一定の時間j虻、通常は約2QmSEC程度であ
ることを利用してこの過渡部分をあらかじめ設定した一
定数の分析フレーム数に相当する時間長で表現する。矩
形関数の代りに台形関数を利用する最適近似であり、本
質的に最適矩形近似よりも近似度が高くなる。このよう
な最適台形近似も原特徴ベクトルとのベクトル空間距馳
を最小とする代表特徴ベクトル群の選定をDP手法を介
して実施しつつ、これら選定代表特徴ベクトル間は前記
一定の時間長いわゆる1頃斜区間で表現するという方法
によって基本的には処理され、近時可変長フレームボコ
ーダ等の利用分分でも多用されつつあるが、本実施例に
あっては処理区分ごとに処理する、いわゆる区分的近似
ではなく標準パタンとして登録すべき各#L語の1単1
1uずつをひとつの処理区間とし、歪聡量テ目安として
台形近似による最適化を図り、従って選択されるフレー
ム数も固定数とはしていない点に特徴を有する。
第2図(B)はこのような特C改を有する最適台形近似
IJV理図であり、曲線Cは特定話者による1単語音声
、台形dは1単語音声Cを1処理区間とする近似台形で
あり、点PI 、P2 、P3 、P4等は代表特徴パ
ラメータ群を示し、これら代表特徴パラメータによって
代表される可変長フレーム区間f1〜f4 相互間はあ
らかじめ設定する一定の時間長の傾斜区間が設定される
。最適台形近似を決定することは台形dと1単語音声C
とによって形成される斜線で示す面積を最小とする台形
をDP千手法よって求めることに他ならない。またかく
して求められる最適台形近似は第2図(B)からも明ら
から如く、矩形近似よりもはるかに近似度が増大し、従
って代表特徴ベクトルの設定もはるかに少なくてすみ圧
縮効率も向上することとなる。
ふたたび第1図に戻って説明する。圧縮処8!器3はこ
のような最適台形近似処理を特定話者の発声する単語音
声ごとに分析、抽出される特徴パラメータ、LSPパラ
メータについて実施しこれらを標準パタンとして標準パ
タンメモリ4に送出しストアせしめる。
こうしてIN、%4パタンかストアされている状態で切
替器2を認識側に切替え入力端子101を介して特定話
者が標準パタンメ七り4にストアされているどの単語音
声かを発声し、これを音響分析器1にかけてLSPパラ
メータを抽出したあとパタンマツチング器5に供給する
パタンマツチング器5は、スペクトル距離計測器、補間
器等を備えスペクトル距離を評価尺反とするDP千手法
実施し標準パタンと、この標準パタンに合わせるように
圧縮した入力パタンとの間で標準パタン長での時間正規
化を次のようにして実施する。
標準パタンメモリ4から次次に読出される標準パタンは
パタンマツチング器5の内蔵する補間器によりて、DP
圧縮処理された代表特徴ベクトル間に補間値を設定した
うえ内蔵スペクトル距離計測器によって計測した。スペ
クトル距離を評価尺度とするDP千手法介して時間正規
化を標準パタン長で行なう。
DP圧縮した標準パタンと入力パタンとの時間正規化に
は2通りの方法があし、入力パタンを、圧縮した標準バ
タ7に合わせるように間引いて圧縮したうえ標準パタン
長で時間正規化する方法もしくは標準パタンを入力パタ
ンに対応して代表特徴ベクトル間隔を繰返し発生して延
伸して時間正規化を図る方法があるが本実施例において
は前者の手法によって時間正規化を図りている。圧縮さ
れた標準パタンと圧縮されない状態の入力パタンの時間
軸を合はせるため、つまり標準パタンと入力パタンとの
間の字像関数を見出して時間正規化を図るためには入力
パタンを間引きして標準パタンに合せても、また逆に標
準パタンを入力パタンに合せて延伸してもどちらでも差
支えないわけである。
第3図は第1図の実施例におけるパタンマツチング処理
の原理を示すパタンマツチング原理図である。以下に第
3図を参照しながら実施例の説明を続行する。
第3図において標準パタン1001は前述した最適台形
近似による、かつDP千手法利用して形成された標準パ
タンのひとつでhす、入力パタン1002は標準パタン
1001 とパタンマツチングすべき、すなわち時間正
規化を図るべき入力パタンとする。
いま第3図に示す如きL −j平面を考え、1方向には
標準パタン1001、j方間にはへカパタン1002を
対応させ、黒丸で示す縦勝は実計測のLSPパラメータ
とする。パタンマツチング器5は内蔵する補間器でこれ
ら実線間にX印で示す補間LSPパラメータを点線で示
す如く設定する。
また人力パタンは音響分析器1の分析周期t。
ごとにLSPパラメータベクトルがj方向に直角な実線
として得られ、これらi −4面を構成する縦、横の交
差線の交点が時間正規化を実画すべき両者の対応位置と
なり、これら各対応位置についての両パタンのLSPパ
ラメータベクトル間のスペクトル距1η1tをあらゆる
対応点の組について求め、これを評価尺匿とするDP千
手法よって両パタン間の距離全最小とするDPババス求
めればこれらが両パタン間のスペクトル距離を示すもの
となる。
ただし、このDP千手法よって両バタy間の距離を最小
とするDPババス求める場合、実際には生じないような
パタン間の極端な時間軸変動範囲は排除しDP処理は通
常整合窓と呼ばれる処!!範囲t1と22間に限定して
行なわれる。
第3図において、たとえはi−j平面上のQlにおける
標準パタンのl、SPパラメータベクトルと入力パタン
における対応LSPパラメータベクトルとの矢印で示す
スペクトル距離を計測する。
これらのスペクトル距離においてdにおけるバス、45
度のラインは最適台形近似における一定の時間長区間い
わゆる傾斜区間に相当し、これを含め直線および折線で
示されるスペクトル距斤を計測する。このスペクトル計
測は線t1とt2で限定された処理範囲内の点線を含む
すべての縦横の交差点位置に関する標準パタンと人力パ
タンとの対応ぶんについてかつ臀準パタン長で実施する
。この標準パタン畏での実ノ1m条件は標準パタンのD
P圧縮度によって異るが、本実施例の場合は第3図に示
す如く対応個数6個ずつの総組合せを対象として実施さ
れる。
こうして標準パタン1001と入力パタン1002との
間で入力パタン1002を標準パタン1001に対して
合わせるように圧縮し、かつ標準パタン長で時間正規化
したものがDPバスダとして求められ、この時間正規化
入力パタンと金枦鵠パタン間のスペクトル距離が次次に
#L小距離検索器6に供給される。
一般に二つのLSPパラメータベクトル間の距離は次の
(1)式に示すスペクトル距離D 5rによって示され
る。
(1)式はまた、通常は次の(2)式の近似式に変換さ
れて利用される。
(1)および(2)式においてa、rは分析フレームも
しくは処理区分(ブロック)の番号、S8(ωl、Sr
(ω)は周波数ωの関数としての分析フレームもしくは
ブOツクB、rの対数スペクトル、pK(s)、PK(
r)は分析フレームもしくはブロック8およびrにおけ
る分析次数に次のり、SPパラメータベクトル、WKは
に次のLSP周波数スペクトル感度である。
前述したDP千手法よる時間正規化、換言すればDPパ
タンマツチングは上述した@算根拠にもとづき入カパタ
ン′f、標準パタンに対して間引いた内容で再パタン間
の望間ベクトル距離を演舞、し、この演算を人力パタン
に対し全標準パタンの各パタンにわたって実施、その結
果はスペクトル距離データとして次次に最小距離検索器
6に標準パタンの指定番号データとともに供給する。
最小距離検索f:非6は入力した各標琳パタンごとの入
力パタンに的するスペクトル距離データをいったん内蔵
メモリにストアしたうえ相互間の大小関係を判廻し最小
1直を有するものを検索し、その最小スペクトルミル、
庸データを提供した標準パタン指定番号データから当該
標準パタン情報を認識結果として出力端子601に供給
し、かくして最適台形近似による標準パタンとのDPパ
タンマツチングを介しての音声iP!!識が実行される
なお、上述した実施ρりにおいては標準パタンとしてス
トアすべき音声単語の特徴パラメータにはLSPパラメ
ータを利用しているが、これは他の特徴パラメータ、た
とえば単語音声に関するスペクトルの対数の逆変喚で表
現されるケプストラム(Cepatrum傳を利用して
も同様に実施しうろことは明らかである。
また、本実施例では時間正規化の方法として入力パタン
を標準パタンに合わせるように圧縮し、かつ標準パタン
長での正規化を図る場合を例としているが、これは圧縮
された標準パタンを入力パタンに合わせるように延伸す
るようにしてDPによる時間正規化を図っても同じこと
であり、この場合は圧縮された標準パタンを入力パタン
に時間的に合わせるように読出しを繰返す形式で答易に
実施しうる。
〔発明の効果〕
以上説明した如く本発明によれば、分析フレームを圧縮
した形式で登録した標準パタンと、特定話者の発声した
単語音声による入力パタンとの時間正規化を介して特定
話者による単語音声を認識する音声認識装置において、
DP手法を利用して去めた圧縮DP型の最適台形近似に
よる標準パタン金偏えるとともに1入力パタンと標準パ
タンとの時間正規化においては、入力パタンを標準パタ
ンに合わせるように圧縮しかつ標準パタン長での正規化
を実行するか、もしくは標準パタンを入力パタンに合わ
せるように延伸するかのいずれかを両パタン間の特徴ベ
クトル距離を評価尺度とするDP手法にもとづいて実施
するという手段を備えることによって圧縮効率を大幅に
改善し、標準パタンのメモリ容量も大幅に削減しうる音
声認識装置を実現しうるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図(
A)は最適矩形近似の原理を示す最適矩形近似原理図、
第2図(B)は最適台形近似の原理を示す最適台形近似
原理図、第3図は第1図の実施例における時間正規化を
説明するための時間正規化説明図である。 1・・・・・・音響分析器、2・・・・・・切替器、3
・・・・・・圧縮処理器、4・・・・・・標準パタンメ
モリ、5・・・・・・パタンマツチング器、6・・・・
・・最小距離検索器。 −代理人 弁理士  内 原   晋 <A> ん (B) 牛 2 図

Claims (1)

    【特許請求の範囲】
  1. 分析フレームがダイナミックプログラミング(Dyna
    mic Programming、動的計画法、以下D
    Pと略称する)手法で圧縮された形式で登録された特定
    話者による単語音声の標準パタンと前記特定話者による
    単語音声の入力パタンとの時間正規化によるパタンマッ
    チングを介して特定話者単語に対する音声認識を行なう
    圧縮DP型の音声認識装置において、標準パタンの圧縮
    をDP手法による最適台形近似にもとづいて実施する標
    準パタン圧縮手段と、入力パタンを標準パタンに合はせ
    るように圧縮したうえ標準パタン長で時間正規化するか
    もしくは標準パタンを入力パタンに合わせるように延伸
    して時間正規化しかつこれら時間正規化は前記標準パタ
    ンに対する歪量を評価尺度としてこれを最小ならしめる
    DPバスを見出すことによって求める時間正規化手段と
    を備えて成ることを特徴とする音声認識装置。
JP59179693A 1984-08-29 1984-08-29 音声認識装置 Granted JPS6157995A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59179693A JPS6157995A (ja) 1984-08-29 1984-08-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59179693A JPS6157995A (ja) 1984-08-29 1984-08-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6157995A true JPS6157995A (ja) 1986-03-25
JPH0346838B2 JPH0346838B2 (ja) 1991-07-17

Family

ID=16070220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59179693A Granted JPS6157995A (ja) 1984-08-29 1984-08-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6157995A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177046A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177046A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
JPH0346838B2 (ja) 1991-07-17

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
EP0219712B1 (en) Method of and system for speech recognition
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US6032115A (en) Apparatus and method for correcting the difference in frequency characteristics between microphones for analyzing speech and for creating a recognition dictionary
US5144672A (en) Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JPH0638199B2 (ja) 音声認識装置
JPS6128998B2 (ja)
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP2898568B2 (ja) 声質変換音声合成装置
JPS6157995A (ja) 音声認識装置
JP2912579B2 (ja) 声質変換音声合成装置
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JPS645320B2 (ja)
JPS59131999A (ja) 音声認識装置
JPS6097400A (ja) 音声認識装置
JP3061912B2 (ja) 音声認識装置
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
JP2002372982A (ja) 音響信号分析方法及び装置
JPH0442299A (ja) 音声区間検出装置
JP3083855B2 (ja) 音声認識方法及び装置
JPH0754438B2 (ja) 音声処理装置
JP3422822B2 (ja) 音声認識装置
JPH0546558B2 (ja)
JPH054679B2 (ja)
JPH0554678B2 (ja)