JPS6131476B2 - - Google Patents
Info
- Publication number
- JPS6131476B2 JPS6131476B2 JP53053968A JP5396878A JPS6131476B2 JP S6131476 B2 JPS6131476 B2 JP S6131476B2 JP 53053968 A JP53053968 A JP 53053968A JP 5396878 A JP5396878 A JP 5396878A JP S6131476 B2 JPS6131476 B2 JP S6131476B2
- Authority
- JP
- Japan
- Prior art keywords
- time series
- series information
- feature
- circuit
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
本発明は、音声認識照合処理方法、特に不均一
サンプリング点で特徴量をサンプリングした特徴
量時系列情報を用いて、音声認識照合処理を行な
うに当つて、上記不均一サンプリング点り与えた
重みを加味して、未知入力音声の特徴量時系列情
報を構成する特徴量と予め登録されている基準特
徴量時系列情報を構成する特徴量との対応づけを
行なうようにし、不均一サンプリング点によるサ
ンプリング方式を採用した処理量軽減効果を享受
しつつ、安定な特徴量相互の対応ズレによる誤認
識を防止した音声認識照合処理方法に関するもの
である。 音声認識システムにおいては、音声信号の周波
数分析結果を利用して各音素の特徴を有効に表わ
しているパラメータを抽出し、該抽出されたパラ
メータと登録単語や登録単音枢節に対応した予め
登録されているパラメータと照合して未知入力音
声の認識を行なうようにされる。即ち上記パラメ
ータとして例えば第1ホルマント周波数および第
2ホルマント周波数などを等間隔サンプリングし
て、この時系列情報を用いて認識するようにされ
る。上記照合に当つては、例えばダイナミツク・
プログラミング法などが採用される。該照合精度
を高めるためにはサンプリング間隔を密にするこ
とが望まれるが、このためデータ処理量が大とな
り、しかも上記時系列情報を格納するための記憶
装置が大となる。 このため;上記パラメータが時間的に急変する
区間となだらかに変化する区間と存在することに
着目し、前者区間において密にサンプリングし、
後者区間において粗にサンプリングすることによ
つて、即ち不均一なサンプリング点でサンプリン
グすることによつて、より少ない標本数のもとで
認識率を高める方式が考慮されている(特願昭52
年43972号)。 このようなサンプリング方式を採用する場合、
1つの技術上の問題が生ずる。即ち、例えば未知
入力音声が「シ」であつて標準単語が「セ」であ
る如き場合、子音部分Sの区間においてサンプリ
ング点が密で、母音iやeの区間においてサンプ
リング点が粗となる。このような場合、単純に上
記ダイナミツク・プログラミング法などの照合処
理をほどこすと、上記サンプリング点が密である
区間での照合距離が大きく影響し、このためサン
プリング点が粗である区間での照合距離に違いが
あるに拘わらず、入力音声を「セ」と誤まつてし
まうことが生じかねない。 本発明は、上記の点を解決することを目的とし
ており、サンプリング点が粗である区間における
不均一サンプリング点に大きい重みを与え、上記
の点を解決することを目的としている。そしてそ
のため、本発明の音声認識照合処理方法は音声信
号の周波数分析結果を利用して、当該音声信号の
特徴量時系列情報を抽出し、予め登録されている
基準特徴量時系列情報と照合をとつて音声認識を
行なう音声認識システムにおいて、上記特徴量時
系列情報と上記基準特徴量時系列情報とを夫々特
徴量の変化が大きいほど密にサンプリングした不
均一な不均一サンプリング点に対応した時系列情
報を採用すると共に、上記照合処理に当つて、上
記特徴量時系列情報と上記基準特徴量時系列情報
との夫々の特徴量を対応づけ処理に、上記不均一
サンプリングによる削減率を重みに対応づけた重
みづけを行ない、上記特徴量時系列情報と上記基
準特徴量時系列情報との類似度に対応する距離を
抽出するようにしたことを特徴としている。以下
図面を参照しつつ説明する。 第1図および第2図はダイナミツク・プログラ
ミング法の概念を説明する説明図、第3図A,B
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第4図は本発明の一実施例構成、第5図は第4図
に示すサンプリング時刻決定回路部と重み決定回
路部との一実施例構成、第6図は第4図に示す
DPプロセツサの一実施例構成を示す。 従来から音声認識に当つては、上述の如く入力
音声特徴量時系列情報と予め登録されている基準
特徴量時系列情報とが照合される。 しかし、一般に第1図に示す如く、縦軸と横軸
とに夫々入力音声の特徴量時系列情報と基準特徴
量時系列情報とを対応づけるとき、本来共に
SANという単語を発声しているにも拘らず発声
毎に各音素の|S|、|A|、|N|の区間の幅
が異なつているので非線形の対応づけをしなけれ
ばならない。このため図示X点とY点との間を点
線で表わした如く各特徴量が対応するものとして
照合すると、必らずしも良好な照合が得られず、
類似度に対応した照合距離が大となつてしまう。
このため、第1図図示実線で表わした如く、|S
|部分相互で対応させ、|A|部分相互で対応さ
せ、|N|部分相互で対応させるようにすること
が行なわれる。このような対応づけを行ないつつ
照合する処理としてダイナミツク・プログラミン
グ法が知られている。 該ダイナミツク・プログラミング法の場合、例
えば第2図に示す如く、基準特徴量時系列情報を
構成する特徴量と入力音声特徴量時系列情報を構
成する特徴量との対応づけを行なうことが行なわ
れる。即ち、今図示特徴量相互に対応づけを行な
うに当つて、例えばダイナミツク・プログラミン
グ法の評価関数g(ij)として
サンプリング点で特徴量をサンプリングした特徴
量時系列情報を用いて、音声認識照合処理を行な
うに当つて、上記不均一サンプリング点り与えた
重みを加味して、未知入力音声の特徴量時系列情
報を構成する特徴量と予め登録されている基準特
徴量時系列情報を構成する特徴量との対応づけを
行なうようにし、不均一サンプリング点によるサ
ンプリング方式を採用した処理量軽減効果を享受
しつつ、安定な特徴量相互の対応ズレによる誤認
識を防止した音声認識照合処理方法に関するもの
である。 音声認識システムにおいては、音声信号の周波
数分析結果を利用して各音素の特徴を有効に表わ
しているパラメータを抽出し、該抽出されたパラ
メータと登録単語や登録単音枢節に対応した予め
登録されているパラメータと照合して未知入力音
声の認識を行なうようにされる。即ち上記パラメ
ータとして例えば第1ホルマント周波数および第
2ホルマント周波数などを等間隔サンプリングし
て、この時系列情報を用いて認識するようにされ
る。上記照合に当つては、例えばダイナミツク・
プログラミング法などが採用される。該照合精度
を高めるためにはサンプリング間隔を密にするこ
とが望まれるが、このためデータ処理量が大とな
り、しかも上記時系列情報を格納するための記憶
装置が大となる。 このため;上記パラメータが時間的に急変する
区間となだらかに変化する区間と存在することに
着目し、前者区間において密にサンプリングし、
後者区間において粗にサンプリングすることによ
つて、即ち不均一なサンプリング点でサンプリン
グすることによつて、より少ない標本数のもとで
認識率を高める方式が考慮されている(特願昭52
年43972号)。 このようなサンプリング方式を採用する場合、
1つの技術上の問題が生ずる。即ち、例えば未知
入力音声が「シ」であつて標準単語が「セ」であ
る如き場合、子音部分Sの区間においてサンプリ
ング点が密で、母音iやeの区間においてサンプ
リング点が粗となる。このような場合、単純に上
記ダイナミツク・プログラミング法などの照合処
理をほどこすと、上記サンプリング点が密である
区間での照合距離が大きく影響し、このためサン
プリング点が粗である区間での照合距離に違いが
あるに拘わらず、入力音声を「セ」と誤まつてし
まうことが生じかねない。 本発明は、上記の点を解決することを目的とし
ており、サンプリング点が粗である区間における
不均一サンプリング点に大きい重みを与え、上記
の点を解決することを目的としている。そしてそ
のため、本発明の音声認識照合処理方法は音声信
号の周波数分析結果を利用して、当該音声信号の
特徴量時系列情報を抽出し、予め登録されている
基準特徴量時系列情報と照合をとつて音声認識を
行なう音声認識システムにおいて、上記特徴量時
系列情報と上記基準特徴量時系列情報とを夫々特
徴量の変化が大きいほど密にサンプリングした不
均一な不均一サンプリング点に対応した時系列情
報を採用すると共に、上記照合処理に当つて、上
記特徴量時系列情報と上記基準特徴量時系列情報
との夫々の特徴量を対応づけ処理に、上記不均一
サンプリングによる削減率を重みに対応づけた重
みづけを行ない、上記特徴量時系列情報と上記基
準特徴量時系列情報との類似度に対応する距離を
抽出するようにしたことを特徴としている。以下
図面を参照しつつ説明する。 第1図および第2図はダイナミツク・プログラ
ミング法の概念を説明する説明図、第3図A,B
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第4図は本発明の一実施例構成、第5図は第4図
に示すサンプリング時刻決定回路部と重み決定回
路部との一実施例構成、第6図は第4図に示す
DPプロセツサの一実施例構成を示す。 従来から音声認識に当つては、上述の如く入力
音声特徴量時系列情報と予め登録されている基準
特徴量時系列情報とが照合される。 しかし、一般に第1図に示す如く、縦軸と横軸
とに夫々入力音声の特徴量時系列情報と基準特徴
量時系列情報とを対応づけるとき、本来共に
SANという単語を発声しているにも拘らず発声
毎に各音素の|S|、|A|、|N|の区間の幅
が異なつているので非線形の対応づけをしなけれ
ばならない。このため図示X点とY点との間を点
線で表わした如く各特徴量が対応するものとして
照合すると、必らずしも良好な照合が得られず、
類似度に対応した照合距離が大となつてしまう。
このため、第1図図示実線で表わした如く、|S
|部分相互で対応させ、|A|部分相互で対応さ
せ、|N|部分相互で対応させるようにすること
が行なわれる。このような対応づけを行ないつつ
照合する処理としてダイナミツク・プログラミン
グ法が知られている。 該ダイナミツク・プログラミング法の場合、例
えば第2図に示す如く、基準特徴量時系列情報を
構成する特徴量と入力音声特徴量時系列情報を構
成する特徴量との対応づけを行なうことが行なわ
れる。即ち、今図示特徴量相互に対応づけを行な
うに当つて、例えばダイナミツク・プログラミン
グ法の評価関数g(ij)として
【表】
点を表わす。
j(1〜j)は入力単語特徴量のサンプリング時
点を表わす。
を用い、g(i−1、j)とg(i−1、j−
1)とg(i、j−1)のうち最も小さいものを
選びつつ、特徴量相互の対応づけを行なうことが
行なわれる。 一方、本願明細書冒頭に述べた如く、不均一サ
ンプリング点によるサンプリング法を採用するこ
とが考慮されている。このサンプリング法を第3
図を参照しつつ概略説明する。 第4図を参照して後述する如く、音声認識に当
つては、入力された音声信号は一般にNチヤンネ
ルの周波数信号P1(t),P2(t),………PN
(t)に周波数分析され、例えば10msec毎の均一
なサンプリングが行なわれる。不均一サンプリン
グ点によるサンプリング法を採用する場合、後述
する如く累積変動量AV(tn)を利用し、第3図
A図示サンプリング点T0,T1………の如く不均
一なサンプリング点が抽出される。このような不
均一サンプリング点T0,T1,………においてサ
ンプリングされた特徴量の時系列情報をもつて上
記第(1)式に示す如き評価関数g(ij)を用いて照
合をとつてゆくと、本願明細書冒頭に述べた如
く、第3図A図示のサンプリング点T7,T8,
T9,T20,T21,T22,T23のように粗にサンプリ
ングされたサンプリング点に対応した特徴量にお
いて違いがあつても、該違いによる影響が無視さ
れ勝ちとなる。 このため、第3図B図示の如く、各不均一サン
プリング点T0,T1,………が上記10msecの均一
サンプリングの幾つ分を省略した結果得られたも
のであるかを示す重みを考慮せしめるようにし、
上記評価関数(1)式に該重みを加味せしめるように
し、上記の問題を解決するようにする。 即ち評価関数g(ij)として
j(1〜j)は入力単語特徴量のサンプリング時
点を表わす。
を用い、g(i−1、j)とg(i−1、j−
1)とg(i、j−1)のうち最も小さいものを
選びつつ、特徴量相互の対応づけを行なうことが
行なわれる。 一方、本願明細書冒頭に述べた如く、不均一サ
ンプリング点によるサンプリング法を採用するこ
とが考慮されている。このサンプリング法を第3
図を参照しつつ概略説明する。 第4図を参照して後述する如く、音声認識に当
つては、入力された音声信号は一般にNチヤンネ
ルの周波数信号P1(t),P2(t),………PN
(t)に周波数分析され、例えば10msec毎の均一
なサンプリングが行なわれる。不均一サンプリン
グ点によるサンプリング法を採用する場合、後述
する如く累積変動量AV(tn)を利用し、第3図
A図示サンプリング点T0,T1………の如く不均
一なサンプリング点が抽出される。このような不
均一サンプリング点T0,T1,………においてサ
ンプリングされた特徴量の時系列情報をもつて上
記第(1)式に示す如き評価関数g(ij)を用いて照
合をとつてゆくと、本願明細書冒頭に述べた如
く、第3図A図示のサンプリング点T7,T8,
T9,T20,T21,T22,T23のように粗にサンプリ
ングされたサンプリング点に対応した特徴量にお
いて違いがあつても、該違いによる影響が無視さ
れ勝ちとなる。 このため、第3図B図示の如く、各不均一サン
プリング点T0,T1,………が上記10msecの均一
サンプリングの幾つ分を省略した結果得られたも
のであるかを示す重みを考慮せしめるようにし、
上記評価関数(1)式に該重みを加味せしめるように
し、上記の問題を解決するようにする。 即ち評価関数g(ij)として
【表】
を用いる。なお上記d(ij)は2つのサンプリン
グ点間の距離を表わし例えばチエビシエフ距離を
表わしている。 また正規化のために正規化係数N(ij)とし
て、
グ点間の距離を表わし例えばチエビシエフ距離を
表わしている。 また正規化のために正規化係数N(ij)とし
て、
【表】
を用いる。なお*印部分は上記第(2A)式
{ }内min選択に対応して選択される。 そして、上記g(ij)とN(ij)とを用いて、
第1図図示X点とY点との間全体について、g
(I、J)とN(I、J)とを求め、入力音声の
特徴量時系列情報と基準特徴量時系列情報との距
離D(〓、〓)として (〓、〓)=g(I、J)/N(I、J) −(3) を演算し、両者時系列情報間の類似度を調べてゆ
くようにする。 このようにすることによつて、粗にサンプリン
グされた不均一サンプリング点T7,T8などに対
応した特徴量を重視しつつ照合するようにし、上
述の問題点を解決するようにする。 第4図は本発明の方法を実現する一実施例構成
を示す。図中、1は帯域フイツタ群であつて入力
音声をNチヤンネル例えば15チヤンネルの周波数
信号P1(t),P2(t),………,PN(t)に周
波数分析するもの、2はパラメータ抽出部であつ
て入力音声の特徴量を抽出するもの、3はサンプ
リング時刻決定回路であつて第3図A図示の不均
一サンプリング点T0,T1,………を決定するも
のを表わす。また4は不均一サンプリング回路部
であつて上記不均一サンプリング点に対応して特
徴量をサンプリングして時系列情報を得るもの、
5は重み決定回路部であつて第3図B図示の重み
を決定してゆくもの、6,7は夫々切換回路部で
あつて登録音声に対応した情報を登録する登録モ
ードと未知入力音声を認識する認識モードとを切
換えるものを表わす。更に8は重み時系列情報登
録部であつて上記重み決定回路5によつて得られ
た重みを登録モード時に時系列情報の形で格納す
るもの、9はパラメータ時系列登録部であつて上
記不均一サンプリング回路部4によつて抽出され
た特徴量時系列情報を基準特徴量時系列情報とし
て格納するものを表わしている。また10は入力
音声重み時系列情報セツト部であつて上記重み決
定回路5によつて得られた重みを認識モード時に
セツトするもの、11は入力音声パラメータ時系
列セツト部であつて上記不均一サンプリング回路
4によつて抽出された特徴量時系列情報を認識モ
ード時にセツトするものを表わしている。更に1
2はDPプロセツサであつて上記第(2)式ないし第
(3)式に関連して説明したダイナミツク・プログラ
ミング法による照合処理をとるもの、13は判定
部であつて照合処理結果によつて判定を行なうも
の、14は出力回路、15は制御部であつてシス
テム全体を制御するものを表わしている。 パラメータ抽出回路2は、公知の如く、一定周
期のクロツク・パルスが発生する毎に に示す演算に対応して第1ホルマント周波数およ
び第2ホルマント周波数などに対応した特徴量を
計算し、その結果を図示しないレジスタに記憶す
る。なお上記第(1)式において、Pi(tn)は例えば
10msec毎の時点tnにおいてサンプリングされた
第i番目のフイツタ出力、Wijはその荷重、Fiは
その中心周波数を表わしている。そして荷重Wij
は上記量M1,M2が第1および第2ホルマント周
波数に一致するよう実験的に決定されるものと考
えてよい。 サンプリング時刻決定回路部3は、 で定義される累積変動量AV(tn)の演算を、上
記第(4)式に示す特徴量M1,M2を演算する周期で
実行してゆき、上記不均一サンプリング点tokを
決定する。即ち上記累積変動量AV(tn)が予め
定められた閾値を超えたか否かを監視し、該閾値
を超えた時点tokを第k番目の不均一サンプリン
グ点として決定する。 なお上記第(5)式において、V(tn)はフイルタ
出力の変動量であり、次式で定義される。 上記によつて、不均一サンプリング点T0,
T1,………はパラメータの変化が急激である区
間で密に現われ、変化が定常的である区間で粗に
現われることが判る。 不均一サンプリング回路部4は、上記不均一サ
ンプリング点毎に上記抽出された特徴量M1,M2
をサンプリングし、登録モード時には第4図図示
パラメータ時系列登録部9に供給し、また認識モ
ード時には入力音声パラメータ時系列セツト部1
1に供給する。 重み決定回路部5は、第3図B図示の重みを決
定し、登録モード時には第4図図示の重み時系列
情報登録部8に供給し、また認識モード時には入
力音声重み時系列情報セツト部に供給する。 DPプロセツサ12は、例えば第6図に示す如
き構成をもつことができ、上記第(2)式ないし第(3)
式に関連して説明した照合処理を行なう。 未知入力音声を認識する場合、該未知入力音声
に対応した特徴量時系列情報がセツト部11にセ
ツトされ、重み時系列情報がセツト部10にセツ
トされる。この場合、各登録単語毎に基準特徴量
時系列情報が登録部9に格納されており、重み時
系列情報が登録部8に格納されている。 この状態で、制御部15は、各登録単語毎に基
準特徴量時系列情報と重み時系列情報とをDPプ
ロセツサ12に順次供給する。DPプロセツサ1
2は順次照合をとつてゆき、その結果をもつて判
定部13が最もよく照合のとれたものを判定す
る。そしてその結果を出力回路14に出力する。 第5図は第4図に示すサンプリング時刻決定回
路部3と重み決定回路部5との一実施例構成を示
している。 上記第(6)式に対応して、V計算回路16が変動
量V(tn)を計算する。一方AV計算回路17に
は初期時に零レジスタ22から選択回路21を介
して零がセツトされるが、処理が進むにつれて、
該AV計算回路17は、加算回路18の加算結果
を供給されて上記第(5)式にしたがつた累積変動量
AV(tn)を格納している。加算回路18は、上
記V計算回路16の出力と上記AV計算回路17
の出力とを加算して新しい累積変動量AV(tn)
をつくる。該累積変動量AV(tn)が閾値レジス
タ19の内容THと比較回路20によつて比較さ
れる。そして、 AV(tn)>TH となつたタイミングで、不均一サンプリング信号
Tiを発する。そして該信号Ti発生時に選択回路
21が指示され、当該タイミング時における加算
回路18の加算結果がAV計算回路17にセツト
される。 一方カウンタ23に対して、上記例えば10m
sec周期のサンプリング・パルスが供給されてお
り、上記不均一サンプリング信号Tiが発生され
たとき、カウンタ23の内容が重み情報として重
み時系列情報格納部24を書込まれ、次いでカウ
ンタ23の内容はリセツトされる。なお上記重み
時系列情報格納部24に対する書込みアドレス
は、信号Tiが発生する都度アドレス制御部25
を歩進することによつて指示される。このような
処理によつて各サンプリング信号T0,T1,……
…に書込みアドレスは、信号Tiが発生する都度
アドレス制御部25を歩進することによつて指示
される。このような処理によつて各サンプリング
信号T0,T1,………に対応した第3図B図示の
重みが不均一サンプリング信号T0,T1,………
に対応した重み時系列情報として格納部24に格
納される。 第6図は第4図に示すDPプロセツサ12の一
実施例構成を示す。図中の符号8,9,10,1
1は第4図に対応しており、26は列制御回路、
27は行制御回路、28は重み計算回路であつて
上記第(2A)式および第(2B)式に示す(Wi+
Wj)/2を計算するもの、29はd演算回路で
あつて上記第(2A)式に示すチエビシエフ距離
d(ij)を演算するもの、30は乗算回路、31
は最小値選択回路であつて第(2A)式に示すmin
{ }を抽出するもの、32は加算回路、33は
セレクタであつて最小値選択回路31からの指示
を受けて第(2B)式に示す{ }*を選択する
もの、34は加算回路、35はGレジスタであつ
て第(2A)式に示す評価関数g(ij)の値が順に
セツトされるもの、36はNレジスタであつて第
(2B)式に示す正規化係数N(ij)の値が順にセ
ツトされるもの、37は除算回路であつて1つ1
つの登録単語に対する照合が終了する毎に第(3)式
に対応した除算を行ない距離Dを出力するものを
表わしている。 列制御回路26によつて、入力音声の特徴量が
セツト部11から、また重み情報がセツト部10
から順に読出される。一方行制御回路27によつ
て、基準特徴量が登録部9から、また重み情報が
登録部8から読出される。これによつて重み計算
回路28は(Wi+Wj)/2を計算して出力す
る。一方d演算回路29は、入力音声特徴量と基
準特徴量とにもとづいてd(ij)を演算して出力
する。 乗算回路30は(Wi+Wj)・d(ij)/2をつ
くる。そして加算回路32は、最小値選択回路3
1からの出力と乗算回路30の出力とによつて評
価関数g(ij)をつくる。そして該g(ij)は、
Gレジスタ35の1つの格納位置にセツトされ、
同時に最小値選択回路31に対してmin{ }内
の1つとして供給される。最小値選択回路31に
は、Gレジスタ35から上記min{ }内の他の
2つを供給され、評価関数g(i−1、j)、g
(i−1、j−1)、g(i、j−1)のうち最小
値をもつものが選択されて出力される。 一方セレクタ33は、最小値選択回路31から
の選択結果の通知を受け、{ }*内の1つを選
択して出力する。これによつて、加算回路34
は、セレクタ33の出力と上記重み計算回路28
の出力とを加算して正規化係数N(ij)をつく
る。該係数N(ij)は、Nレジスタ36の対応格
納位置にセツトされ、同時にセレクタ33に対し
て{ }*の1つとして供給される。セレクタ3
3には、Nレジスタ36から上記{ }*内の他
の2つを供給される。即ちN(i−1、j)、N
(i−1、j−1)、N(i、j−1)が供給され
る。 制御回路26,27が歩進する間に上記処理が
繰返し実行され、g(ij)とN(ij)とがGレジ
スタ35とNレジスタ36にすべてセツトされ
る。この状態において、除算回路37が距離Dを
出力する。 以上説明した如く、本発明によれば、照合処理
に当つて、不均一サンプリング点T0,T1,……
…に対応して与えられる重みを加味せしめるよう
にしている。このため、例えば第3図A図示のサ
ンプリング点T7,T8,T9,T20,T21,………な
どを粗なサンプリングが行なわれる区間の特徴量
を重視せしめて照合をとるようにしている。この
ため、本願明細書冒頭に述べた如き「シ」と
「セ」との誤認などの問題が解決される。そし
て、不均一サンプリング点によつてサンプリング
した時系列情報を用いる利点を認識誤りを与える
ことなく享受できる。
{ }内min選択に対応して選択される。 そして、上記g(ij)とN(ij)とを用いて、
第1図図示X点とY点との間全体について、g
(I、J)とN(I、J)とを求め、入力音声の
特徴量時系列情報と基準特徴量時系列情報との距
離D(〓、〓)として (〓、〓)=g(I、J)/N(I、J) −(3) を演算し、両者時系列情報間の類似度を調べてゆ
くようにする。 このようにすることによつて、粗にサンプリン
グされた不均一サンプリング点T7,T8などに対
応した特徴量を重視しつつ照合するようにし、上
述の問題点を解決するようにする。 第4図は本発明の方法を実現する一実施例構成
を示す。図中、1は帯域フイツタ群であつて入力
音声をNチヤンネル例えば15チヤンネルの周波数
信号P1(t),P2(t),………,PN(t)に周
波数分析するもの、2はパラメータ抽出部であつ
て入力音声の特徴量を抽出するもの、3はサンプ
リング時刻決定回路であつて第3図A図示の不均
一サンプリング点T0,T1,………を決定するも
のを表わす。また4は不均一サンプリング回路部
であつて上記不均一サンプリング点に対応して特
徴量をサンプリングして時系列情報を得るもの、
5は重み決定回路部であつて第3図B図示の重み
を決定してゆくもの、6,7は夫々切換回路部で
あつて登録音声に対応した情報を登録する登録モ
ードと未知入力音声を認識する認識モードとを切
換えるものを表わす。更に8は重み時系列情報登
録部であつて上記重み決定回路5によつて得られ
た重みを登録モード時に時系列情報の形で格納す
るもの、9はパラメータ時系列登録部であつて上
記不均一サンプリング回路部4によつて抽出され
た特徴量時系列情報を基準特徴量時系列情報とし
て格納するものを表わしている。また10は入力
音声重み時系列情報セツト部であつて上記重み決
定回路5によつて得られた重みを認識モード時に
セツトするもの、11は入力音声パラメータ時系
列セツト部であつて上記不均一サンプリング回路
4によつて抽出された特徴量時系列情報を認識モ
ード時にセツトするものを表わしている。更に1
2はDPプロセツサであつて上記第(2)式ないし第
(3)式に関連して説明したダイナミツク・プログラ
ミング法による照合処理をとるもの、13は判定
部であつて照合処理結果によつて判定を行なうも
の、14は出力回路、15は制御部であつてシス
テム全体を制御するものを表わしている。 パラメータ抽出回路2は、公知の如く、一定周
期のクロツク・パルスが発生する毎に に示す演算に対応して第1ホルマント周波数およ
び第2ホルマント周波数などに対応した特徴量を
計算し、その結果を図示しないレジスタに記憶す
る。なお上記第(1)式において、Pi(tn)は例えば
10msec毎の時点tnにおいてサンプリングされた
第i番目のフイツタ出力、Wijはその荷重、Fiは
その中心周波数を表わしている。そして荷重Wij
は上記量M1,M2が第1および第2ホルマント周
波数に一致するよう実験的に決定されるものと考
えてよい。 サンプリング時刻決定回路部3は、 で定義される累積変動量AV(tn)の演算を、上
記第(4)式に示す特徴量M1,M2を演算する周期で
実行してゆき、上記不均一サンプリング点tokを
決定する。即ち上記累積変動量AV(tn)が予め
定められた閾値を超えたか否かを監視し、該閾値
を超えた時点tokを第k番目の不均一サンプリン
グ点として決定する。 なお上記第(5)式において、V(tn)はフイルタ
出力の変動量であり、次式で定義される。 上記によつて、不均一サンプリング点T0,
T1,………はパラメータの変化が急激である区
間で密に現われ、変化が定常的である区間で粗に
現われることが判る。 不均一サンプリング回路部4は、上記不均一サ
ンプリング点毎に上記抽出された特徴量M1,M2
をサンプリングし、登録モード時には第4図図示
パラメータ時系列登録部9に供給し、また認識モ
ード時には入力音声パラメータ時系列セツト部1
1に供給する。 重み決定回路部5は、第3図B図示の重みを決
定し、登録モード時には第4図図示の重み時系列
情報登録部8に供給し、また認識モード時には入
力音声重み時系列情報セツト部に供給する。 DPプロセツサ12は、例えば第6図に示す如
き構成をもつことができ、上記第(2)式ないし第(3)
式に関連して説明した照合処理を行なう。 未知入力音声を認識する場合、該未知入力音声
に対応した特徴量時系列情報がセツト部11にセ
ツトされ、重み時系列情報がセツト部10にセツ
トされる。この場合、各登録単語毎に基準特徴量
時系列情報が登録部9に格納されており、重み時
系列情報が登録部8に格納されている。 この状態で、制御部15は、各登録単語毎に基
準特徴量時系列情報と重み時系列情報とをDPプ
ロセツサ12に順次供給する。DPプロセツサ1
2は順次照合をとつてゆき、その結果をもつて判
定部13が最もよく照合のとれたものを判定す
る。そしてその結果を出力回路14に出力する。 第5図は第4図に示すサンプリング時刻決定回
路部3と重み決定回路部5との一実施例構成を示
している。 上記第(6)式に対応して、V計算回路16が変動
量V(tn)を計算する。一方AV計算回路17に
は初期時に零レジスタ22から選択回路21を介
して零がセツトされるが、処理が進むにつれて、
該AV計算回路17は、加算回路18の加算結果
を供給されて上記第(5)式にしたがつた累積変動量
AV(tn)を格納している。加算回路18は、上
記V計算回路16の出力と上記AV計算回路17
の出力とを加算して新しい累積変動量AV(tn)
をつくる。該累積変動量AV(tn)が閾値レジス
タ19の内容THと比較回路20によつて比較さ
れる。そして、 AV(tn)>TH となつたタイミングで、不均一サンプリング信号
Tiを発する。そして該信号Ti発生時に選択回路
21が指示され、当該タイミング時における加算
回路18の加算結果がAV計算回路17にセツト
される。 一方カウンタ23に対して、上記例えば10m
sec周期のサンプリング・パルスが供給されてお
り、上記不均一サンプリング信号Tiが発生され
たとき、カウンタ23の内容が重み情報として重
み時系列情報格納部24を書込まれ、次いでカウ
ンタ23の内容はリセツトされる。なお上記重み
時系列情報格納部24に対する書込みアドレス
は、信号Tiが発生する都度アドレス制御部25
を歩進することによつて指示される。このような
処理によつて各サンプリング信号T0,T1,……
…に書込みアドレスは、信号Tiが発生する都度
アドレス制御部25を歩進することによつて指示
される。このような処理によつて各サンプリング
信号T0,T1,………に対応した第3図B図示の
重みが不均一サンプリング信号T0,T1,………
に対応した重み時系列情報として格納部24に格
納される。 第6図は第4図に示すDPプロセツサ12の一
実施例構成を示す。図中の符号8,9,10,1
1は第4図に対応しており、26は列制御回路、
27は行制御回路、28は重み計算回路であつて
上記第(2A)式および第(2B)式に示す(Wi+
Wj)/2を計算するもの、29はd演算回路で
あつて上記第(2A)式に示すチエビシエフ距離
d(ij)を演算するもの、30は乗算回路、31
は最小値選択回路であつて第(2A)式に示すmin
{ }を抽出するもの、32は加算回路、33は
セレクタであつて最小値選択回路31からの指示
を受けて第(2B)式に示す{ }*を選択する
もの、34は加算回路、35はGレジスタであつ
て第(2A)式に示す評価関数g(ij)の値が順に
セツトされるもの、36はNレジスタであつて第
(2B)式に示す正規化係数N(ij)の値が順にセ
ツトされるもの、37は除算回路であつて1つ1
つの登録単語に対する照合が終了する毎に第(3)式
に対応した除算を行ない距離Dを出力するものを
表わしている。 列制御回路26によつて、入力音声の特徴量が
セツト部11から、また重み情報がセツト部10
から順に読出される。一方行制御回路27によつ
て、基準特徴量が登録部9から、また重み情報が
登録部8から読出される。これによつて重み計算
回路28は(Wi+Wj)/2を計算して出力す
る。一方d演算回路29は、入力音声特徴量と基
準特徴量とにもとづいてd(ij)を演算して出力
する。 乗算回路30は(Wi+Wj)・d(ij)/2をつ
くる。そして加算回路32は、最小値選択回路3
1からの出力と乗算回路30の出力とによつて評
価関数g(ij)をつくる。そして該g(ij)は、
Gレジスタ35の1つの格納位置にセツトされ、
同時に最小値選択回路31に対してmin{ }内
の1つとして供給される。最小値選択回路31に
は、Gレジスタ35から上記min{ }内の他の
2つを供給され、評価関数g(i−1、j)、g
(i−1、j−1)、g(i、j−1)のうち最小
値をもつものが選択されて出力される。 一方セレクタ33は、最小値選択回路31から
の選択結果の通知を受け、{ }*内の1つを選
択して出力する。これによつて、加算回路34
は、セレクタ33の出力と上記重み計算回路28
の出力とを加算して正規化係数N(ij)をつく
る。該係数N(ij)は、Nレジスタ36の対応格
納位置にセツトされ、同時にセレクタ33に対し
て{ }*の1つとして供給される。セレクタ3
3には、Nレジスタ36から上記{ }*内の他
の2つを供給される。即ちN(i−1、j)、N
(i−1、j−1)、N(i、j−1)が供給され
る。 制御回路26,27が歩進する間に上記処理が
繰返し実行され、g(ij)とN(ij)とがGレジ
スタ35とNレジスタ36にすべてセツトされ
る。この状態において、除算回路37が距離Dを
出力する。 以上説明した如く、本発明によれば、照合処理
に当つて、不均一サンプリング点T0,T1,……
…に対応して与えられる重みを加味せしめるよう
にしている。このため、例えば第3図A図示のサ
ンプリング点T7,T8,T9,T20,T21,………な
どを粗なサンプリングが行なわれる区間の特徴量
を重視せしめて照合をとるようにしている。この
ため、本願明細書冒頭に述べた如き「シ」と
「セ」との誤認などの問題が解決される。そし
て、不均一サンプリング点によつてサンプリング
した時系列情報を用いる利点を認識誤りを与える
ことなく享受できる。
第1図および第2図はダイナミツク・プログラ
ミング法の概念を説明する説明図、第3図A,B
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第4図は本発明の方法を実現する一実施例構成、
第5図は第4図に示すカンプリング時刻決定回路
部と重み決定回路部との一実施例構成、第6図は
第4図に示すDPプロセツサの一実施例構成を示
す。 図中、2はパラメータ抽出部、3はサンプリン
グ時刻決定回路、4は不均一サンプリング回路
部、5は重み決定回路部、8は重み時系列情報登
録部、9はパラメータ時系列登録部、10は入力
音声重み時系列情報セツト部、11は入力音声パ
ラメータ時系列セツト部、12はDPプロセツサ
を表わす。
ミング法の概念を説明する説明図、第3図A,B
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第4図は本発明の方法を実現する一実施例構成、
第5図は第4図に示すカンプリング時刻決定回路
部と重み決定回路部との一実施例構成、第6図は
第4図に示すDPプロセツサの一実施例構成を示
す。 図中、2はパラメータ抽出部、3はサンプリン
グ時刻決定回路、4は不均一サンプリング回路
部、5は重み決定回路部、8は重み時系列情報登
録部、9はパラメータ時系列登録部、10は入力
音声重み時系列情報セツト部、11は入力音声パ
ラメータ時系列セツト部、12はDPプロセツサ
を表わす。
Claims (1)
- 【特許請求の範囲】 1 音声信号の周波数分析結果を利用して、当該
音声信号の特徴量時系列情報を抽出し、予め登録
されている基準特徴量時系列情報と照合をとつて
音声認識を行なう音声認識システムにおいて、上
記特徴量時系列情報と上記基準特徴量時系列情報
とを夫々特徴量の変化が大きいほど密にサンプリ
ングした不均一な不均一サンプリング点に対応し
た時系列情報を採用すると共に、上記照合処理に
当つて、上記特徴量時系列情報と上記基準特徴量
時系列情報との夫々の特徴量を対応づけ処理に、
上記不均一サンプリングによる削減率を重みに対
応づけた重みづけを行ない、上記特徴量時系列情
報と上記基準特徴量時系列情報との類似度に対応
する距離を抽出するようにしたことを特徴とする
音声認識照合処理方法。 2 上記不均一サンプリング点は、入力音声の累
積変動量AV(tn)を逐次演算して累積し、該累
積変動量が予め定めた閾値に達した時点に対応し
て決定されることを特徴とする特許請求の範囲第
1項記載の音声認識照合処理方法。 3 上記照合処理は、ダイナミツク・プログラミ
ング法にしたがつて処理されることを特徴とする
特許請求の範囲第1項または第2項記載の音声認
識照合処理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5396878A JPS54145410A (en) | 1978-05-06 | 1978-05-06 | Speech recognizing collation proseccing system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5396878A JPS54145410A (en) | 1978-05-06 | 1978-05-06 | Speech recognizing collation proseccing system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS54145410A JPS54145410A (en) | 1979-11-13 |
| JPS6131476B2 true JPS6131476B2 (ja) | 1986-07-21 |
Family
ID=12957454
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP5396878A Granted JPS54145410A (en) | 1978-05-06 | 1978-05-06 | Speech recognizing collation proseccing system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS54145410A (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57185091A (en) * | 1981-05-08 | 1982-11-15 | Kyosan Electric Mfg | Recognition pattern checking system |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5720639B2 (ja) * | 1974-10-04 | 1982-04-30 | ||
| JPS5323538A (en) * | 1976-08-18 | 1978-03-04 | Agency Of Ind Science & Technol | Pattern semi-steady point detection unit |
-
1978
- 1978-05-06 JP JP5396878A patent/JPS54145410A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS54145410A (en) | 1979-11-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS5944639B2 (ja) | 音声による異同認識方式における標準パタ−ン更新方法 | |
| US4509186A (en) | Method and apparatus for speech message recognition | |
| US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
| US5751898A (en) | Speech recognition method and apparatus for use therein | |
| JPS5852696A (ja) | 音声認識装置 | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JPS6129519B2 (ja) | ||
| JPS6129518B2 (ja) | ||
| JPS6131476B2 (ja) | ||
| JPS6312312B2 (ja) | ||
| JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
| JPS6114520B2 (ja) | ||
| JP2834880B2 (ja) | 音声認識装置 | |
| JPS645320B2 (ja) | ||
| JPH0115078B2 (ja) | ||
| JPS59124392A (ja) | 音声認識方式 | |
| JPS6331798B2 (ja) | ||
| JPH01209499A (ja) | パターン照合方式 | |
| JPS59124394A (ja) | 単音節音声認識方式 | |
| JPS59124389A (ja) | 単語音声認識方式 | |
| JPS63191199A (ja) | 有声破裂子音識別装置 | |
| JPS63303398A (ja) | 音声認識装置 | |
| JPH0341839B2 (ja) | ||
| JPS61230198A (ja) | 音声認識装置 | |
| JPS6227399B2 (ja) |