JPS6131476B2

JPS6131476B2 -

Info

Publication number: JPS6131476B2
Application number: JP53053968A
Authority: JP
Inventors: Hiroya Fujisaki; Mikio Mizutani; Hiroshi Yamada; Hidekazu Shiratori; Yasuo Sato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1978-05-06
Filing date: 1978-05-06
Publication date: 1986-07-21
Also published as: JPS54145410A

Description

【発明の詳細な説明】

本発明は、音声認識照合処理方法、特に不均一
サンプリング点で特徴量をサンプリングした特徴
量時系列情報を用いて、音声認識照合処理を行な
うに当つて、上記不均一サンプリング点り与えた
重みを加味して、未知入力音声の特徴量時系列情
報を構成する特徴量と予め登録されている基準特
徴量時系列情報を構成する特徴量との対応づけを
行なうようにし、不均一サンプリング点によるサ
ンプリング方式を採用した処理量軽減効果を享受
しつつ、安定な特徴量相互の対応ズレによる誤認
識を防止した音声認識照合処理方法に関するもの
である。音声認識システムにおいては、音声信号の周波
数分析結果を利用して各音素の特徴を有効に表わ
しているパラメータを抽出し、該抽出されたパラ
メータと登録単語や登録単音枢節に対応した予め
登録されているパラメータと照合して未知入力音
声の認識を行なうようにされる。即ち上記パラメ
ータとして例えば第１ホルマント周波数および第
２ホルマント周波数などを等間隔サンプリングし
て、この時系列情報を用いて認識するようにされ
る。上記照合に当つては、例えばダイナミツク・
プログラミング法などが採用される。該照合精度
を高めるためにはサンプリング間隔を密にするこ
とが望まれるが、このためデータ処理量が大とな
り、しかも上記時系列情報を格納するための記憶
装置が大となる。このため；上記パラメータが時間的に急変する
区間となだらかに変化する区間と存在することに
着目し、前者区間において密にサンプリングし、
後者区間において粗にサンプリングすることによ
つて、即ち不均一なサンプリング点でサンプリン
グすることによつて、より少ない標本数のもとで
認識率を高める方式が考慮されている（特願昭52
年43972号）。このようなサンプリング方式を採用する場合、
１つの技術上の問題が生ずる。即ち、例えば未知
入力音声が「シ」であつて標準単語が「セ」であ
る如き場合、子音部分Ｓの区間においてサンプリ
ング点が密で、母音ｉやｅの区間においてサンプ
リング点が粗となる。このような場合、単純に上
記ダイナミツク・プログラミング法などの照合処
理をほどこすと、上記サンプリング点が密である
区間での照合距離が大きく影響し、このためサン
プリング点が粗である区間での照合距離に違いが
あるに拘わらず、入力音声を「セ」と誤まつてし
まうことが生じかねない。本発明は、上記の点を解決することを目的とし
ており、サンプリング点が粗である区間における
不均一サンプリング点に大きい重みを与え、上記
の点を解決することを目的としている。そしてそ
のため、本発明の音声認識照合処理方法は音声信
号の周波数分析結果を利用して、当該音声信号の
特徴量時系列情報を抽出し、予め登録されている
基準特徴量時系列情報と照合をとつて音声認識を
行なう音声認識システムにおいて、上記特徴量時
系列情報と上記基準特徴量時系列情報とを夫々特
徴量の変化が大きいほど密にサンプリングした不
均一な不均一サンプリング点に対応した時系列情
報を採用すると共に、上記照合処理に当つて、上
記特徴量時系列情報と上記基準特徴量時系列情報
との夫々の特徴量を対応づけ処理に、上記不均一
サンプリングによる削減率を重みに対応づけた重
みづけを行ない、上記特徴量時系列情報と上記基
準特徴量時系列情報との類似度に対応する距離を
抽出するようにしたことを特徴としている。以下
図面を参照しつつ説明する。第１図および第２図はダイナミツク・プログラ
ミング法の概念を説明する説明図、第３図Ａ，Ｂ
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第４図は本発明の一実施例構成、第５図は第４図
に示すサンプリング時刻決定回路部と重み決定回
路部との一実施例構成、第６図は第４図に示す
DPプロセツサの一実施例構成を示す。従来から音声認識に当つては、上述の如く入力
音声特徴量時系列情報と予め登録されている基準
特徴量時系列情報とが照合される。しかし、一般に第１図に示す如く、縦軸と横軸
とに夫々入力音声の特徴量時系列情報と基準特徴
量時系列情報とを対応づけるとき、本来共に
SANという単語を発声しているにも拘らず発声
毎に各音素の｜Ｓ｜、｜Ａ｜、｜Ｎ｜の区間の幅
が異なつているので非線形の対応づけをしなけれ
ばならない。このため図示Ｘ点とＹ点との間を点
線で表わした如く各特徴量が対応するものとして
照合すると、必らずしも良好な照合が得られず、
類似度に対応した照合距離が大となつてしまう。
このため、第１図図示実線で表わした如く、｜Ｓ
｜部分相互で対応させ、｜Ａ｜部分相互で対応さ
せ、｜Ｎ｜部分相互で対応させるようにすること
が行なわれる。このような対応づけを行ないつつ
照合する処理としてダイナミツク・プログラミン
グ法が知られている。該ダイナミツク・プログラミング法の場合、例
えば第２図に示す如く、基準特徴量時系列情報を
構成する特徴量と入力音声特徴量時系列情報を構
成する特徴量との対応づけを行なうことが行なわ
れる。即ち、今図示特徴量相互に対応づけを行な
うに当つて、例えばダイナミツク・プログラミン
グ法の評価関数ｇ（ij）として

【表】点を表わす。
j(1〜j)は入力単語特徴量のサンプリング時
点を表わす。
を用い、ｇ（ｉ−１、ｊ）とｇ（ｉ−１、ｊ−
１）とｇ（ｉ、ｊ−１）のうち最も小さいものを
選びつつ、特徴量相互の対応づけを行なうことが
行なわれる。一方、本願明細書冒頭に述べた如く、不均一サ
ンプリング点によるサンプリング法を採用するこ
とが考慮されている。このサンプリング法を第３
図を参照しつつ概略説明する。第４図を参照して後述する如く、音声認識に当
つては、入力された音声信号は一般にＮチヤンネ
ルの周波数信号P₁（ｔ），P₂（ｔ），………Ｐ_N
（ｔ）に周波数分析され、例えば10ｍsec毎の均一
なサンプリングが行なわれる。不均一サンプリン
グ点によるサンプリング法を採用する場合、後述
する如く累積変動量AV（tn）を利用し、第３図
Ａ図示サンプリング点T₀，T₁………の如く不均
一なサンプリング点が抽出される。このような不
均一サンプリング点T₀，T₁，………においてサ
ンプリングされた特徴量の時系列情報をもつて上
記第(1)式に示す如き評価関数ｇ（ij）を用いて照
合をとつてゆくと、本願明細書冒頭に述べた如
く、第３図Ａ図示のサンプリング点T₇，T₈，
T₉，T₂₀，T₂₁，T₂₂，T₂₃のように粗にサンプリ
ングされたサンプリング点に対応した特徴量にお
いて違いがあつても、該違いによる影響が無視さ
れ勝ちとなる。このため、第３図Ｂ図示の如く、各不均一サン
プリング点T₀，T₁，………が上記10ｍsecの均一
サンプリングの幾つ分を省略した結果得られたも
のであるかを示す重みを考慮せしめるようにし、
上記評価関数(1)式に該重みを加味せしめるように
し、上記の問題を解決するようにする。即ち評価関数ｇ（ij）として

【表】を用いる。なお上記ｄ（ij）は２つのサンプリン
グ点間の距離を表わし例えばチエビシエフ距離を
表わしている。また正規化のために正規化係数Ｎ（ij）とし
て、

【表】を用いる。なお＊印部分は上記第（2A）式
｛｝内min選択に対応して選択される。そして、上記ｇ（ij）とＮ（ij）とを用いて、
第１図図示Ｘ点とＹ点との間全体について、ｇ
（Ｉ、Ｊ）とＮ（Ｉ、Ｊ）とを求め、入力音声の
特徴量時系列情報と基準特徴量時系列情報との距
離Ｄ（〓、〓）として（〓、〓）＝ｇ（Ｉ、Ｊ）／Ｎ（Ｉ、Ｊ） −(3) を演算し、両者時系列情報間の類似度を調べてゆ
くようにする。このようにすることによつて、粗にサンプリン
グされた不均一サンプリング点T₇，T₈などに対
応した特徴量を重視しつつ照合するようにし、上
述の問題点を解決するようにする。第４図は本発明の方法を実現する一実施例構成
を示す。図中、１は帯域フイツタ群であつて入力
音声をＮチヤンネル例えば15チヤンネルの周波数
信号P₁（ｔ），P₂（ｔ），………，Ｐ_N（ｔ）に周
波数分析するもの、２はパラメータ抽出部であつ
て入力音声の特徴量を抽出するもの、３はサンプ
リング時刻決定回路であつて第３図Ａ図示の不均
一サンプリング点T₀，T₁，………を決定するも
のを表わす。また４は不均一サンプリング回路部
であつて上記不均一サンプリング点に対応して特
徴量をサンプリングして時系列情報を得るもの、
５は重み決定回路部であつて第３図Ｂ図示の重み
を決定してゆくもの、６，７は夫々切換回路部で
あつて登録音声に対応した情報を登録する登録モ
ードと未知入力音声を認識する認識モードとを切
換えるものを表わす。更に８は重み時系列情報登
録部であつて上記重み決定回路５によつて得られ
た重みを登録モード時に時系列情報の形で格納す
るもの、９はパラメータ時系列登録部であつて上
記不均一サンプリング回路部４によつて抽出され
た特徴量時系列情報を基準特徴量時系列情報とし
て格納するものを表わしている。また１０は入力
音声重み時系列情報セツト部であつて上記重み決
定回路５によつて得られた重みを認識モード時に
セツトするもの、１１は入力音声パラメータ時系
列セツト部であつて上記不均一サンプリング回路
４によつて抽出された特徴量時系列情報を認識モ
ード時にセツトするものを表わしている。更に１
２はDPプロセツサであつて上記第(2)式ないし第
(3)式に関連して説明したダイナミツク・プログラ
ミング法による照合処理をとるもの、１３は判定
部であつて照合処理結果によつて判定を行なうも
の、１４は出力回路、１５は制御部であつてシス
テム全体を制御するものを表わしている。パラメータ抽出回路２は、公知の如く、一定周
期のクロツク・パルスが発生する毎にに示す演算に対応して第１ホルマント周波数およ
び第２ホルマント周波数などに対応した特徴量を
計算し、その結果を図示しないレジスタに記憶す
る。なお上記第(1)式において、Pi（tn）は例えば
10ｍsec毎の時点tnにおいてサンプリングされた
第ｉ番目のフイツタ出力、Wijはその荷重、Fiは
その中心周波数を表わしている。そして荷重Wij
は上記量M₁，M₂が第１および第２ホルマント周
波数に一致するよう実験的に決定されるものと考
えてよい。サンプリング時刻決定回路部３は、で定義される累積変動量AV（tn）の演算を、上
記第(4)式に示す特徴量M₁，M₂を演算する周期で
実行してゆき、上記不均一サンプリング点ｔ_okを
決定する。即ち上記累積変動量AV（tn）が予め
定められた閾値を超えたか否かを監視し、該閾値
を超えた時点ｔ_okを第ｋ番目の不均一サンプリン
グ点として決定する。なお上記第(5)式において、Ｖ（tn）はフイルタ
出力の変動量であり、次式で定義される。上記によつて、不均一サンプリング点T₀，
T₁，………はパラメータの変化が急激である区
間で密に現われ、変化が定常的である区間で粗に
現われることが判る。不均一サンプリング回路部４は、上記不均一サ
ンプリング点毎に上記抽出された特徴量M₁，M₂
をサンプリングし、登録モード時には第４図図示
パラメータ時系列登録部９に供給し、また認識モ
ード時には入力音声パラメータ時系列セツト部１
１に供給する。重み決定回路部５は、第３図Ｂ図示の重みを決
定し、登録モード時には第４図図示の重み時系列
情報登録部８に供給し、また認識モード時には入
力音声重み時系列情報セツト部に供給する。 DPプロセツサ１２は、例えば第６図に示す如
き構成をもつことができ、上記第(2)式ないし第(3)
式に関連して説明した照合処理を行なう。未知入力音声を認識する場合、該未知入力音声
に対応した特徴量時系列情報がセツト部１１にセ
ツトされ、重み時系列情報がセツト部１０にセツ
トされる。この場合、各登録単語毎に基準特徴量
時系列情報が登録部９に格納されており、重み時
系列情報が登録部８に格納されている。この状態で、制御部１５は、各登録単語毎に基
準特徴量時系列情報と重み時系列情報とをDPプ
ロセツサ１２に順次供給する。DPプロセツサ１
２は順次照合をとつてゆき、その結果をもつて判
定部１３が最もよく照合のとれたものを判定す
る。そしてその結果を出力回路１４に出力する。第５図は第４図に示すサンプリング時刻決定回
路部３と重み決定回路部５との一実施例構成を示
している。上記第(6)式に対応して、Ｖ計算回路１６が変動
量Ｖ（tn）を計算する。一方AV計算回路１７に
は初期時に零レジスタ２２から選択回路２１を介
して零がセツトされるが、処理が進むにつれて、
該AV計算回路１７は、加算回路１８の加算結果
を供給されて上記第(5)式にしたがつた累積変動量
AV（tn）を格納している。加算回路１８は、上
記Ｖ計算回路１６の出力と上記AV計算回路１７
の出力とを加算して新しい累積変動量AV（tn）
をつくる。該累積変動量AV（tn）が閾値レジス
タ１９の内容THと比較回路２０によつて比較さ
れる。そして、 AV（tn）＞TH となつたタイミングで、不均一サンプリング信号
Tiを発する。そして該信号Ti発生時に選択回路
２１が指示され、当該タイミング時における加算
回路１８の加算結果がAV計算回路１７にセツト
される。一方カウンタ２３に対して、上記例えば10ｍ
sec周期のサンプリング・パルスが供給されてお
り、上記不均一サンプリング信号Tiが発生され
たとき、カウンタ２３の内容が重み情報として重
み時系列情報格納部２４を書込まれ、次いでカウ
ンタ２３の内容はリセツトされる。なお上記重み
時系列情報格納部２４に対する書込みアドレス
は、信号Tiが発生する都度アドレス制御部２５
を歩進することによつて指示される。このような
処理によつて各サンプリング信号T₀，T₁，……
…に書込みアドレスは、信号Tiが発生する都度
アドレス制御部２５を歩進することによつて指示
される。このような処理によつて各サンプリング
信号T₀，T₁，………に対応した第３図Ｂ図示の
重みが不均一サンプリング信号T₀，T₁，………
に対応した重み時系列情報として格納部２４に格
納される。第６図は第４図に示すDPプロセツサ１２の一
実施例構成を示す。図中の符号８，９，１０，１
１は第４図に対応しており、２６は列制御回路、
２７は行制御回路、２８は重み計算回路であつて
上記第（2A）式および第（2B）式に示す（Wi＋
Wj）／２を計算するもの、２９はｄ演算回路で
あつて上記第（2A）式に示すチエビシエフ距離
ｄ（ij）を演算するもの、３０は乗算回路、３１
は最小値選択回路であつて第（2A）式に示すmin
｛｝を抽出するもの、３２は加算回路、３３は
セレクタであつて最小値選択回路３１からの指示
を受けて第（2B）式に示す｛｝＊を選択する
もの、３４は加算回路、３５はＧレジスタであつ
て第（2A）式に示す評価関数ｇ（ij）の値が順に
セツトされるもの、３６はＮレジスタであつて第
（2B）式に示す正規化係数Ｎ（ij）の値が順にセ
ツトされるもの、３７は除算回路であつて１つ１
つの登録単語に対する照合が終了する毎に第(3)式
に対応した除算を行ない距離Ｄを出力するものを
表わしている。列制御回路２６によつて、入力音声の特徴量が
セツト部１１から、また重み情報がセツト部１０
から順に読出される。一方行制御回路２７によつ
て、基準特徴量が登録部９から、また重み情報が
登録部８から読出される。これによつて重み計算
回路２８は（Wi＋Wj）／２を計算して出力す
る。一方ｄ演算回路２９は、入力音声特徴量と基
準特徴量とにもとづいてｄ（ij）を演算して出力
する。乗算回路３０は（Wi＋Wj）・ｄ（ij）／２をつ
くる。そして加算回路３２は、最小値選択回路３
１からの出力と乗算回路３０の出力とによつて評
価関数ｇ（ij）をつくる。そして該ｇ（ij）は、
Ｇレジスタ３５の１つの格納位置にセツトされ、
同時に最小値選択回路３１に対してmin｛｝内
の１つとして供給される。最小値選択回路３１に
は、Ｇレジスタ３５から上記min｛｝内の他の
２つを供給され、評価関数ｇ（ｉ−１、ｊ）、ｇ
（ｉ−１、ｊ−１）、ｇ（ｉ、ｊ−１）のうち最小
値をもつものが選択されて出力される。一方セレクタ３３は、最小値選択回路３１から
の選択結果の通知を受け、｛｝＊内の１つを選
択して出力する。これによつて、加算回路３４
は、セレクタ３３の出力と上記重み計算回路２８
の出力とを加算して正規化係数Ｎ（ij）をつく
る。該係数Ｎ（ij）は、Ｎレジスタ３６の対応格
納位置にセツトされ、同時にセレクタ３３に対し
て｛｝＊の１つとして供給される。セレクタ３
３には、Ｎレジスタ３６から上記｛｝＊内の他
の２つを供給される。即ちＮ（ｉ−１、ｊ）、Ｎ
（ｉ−１、ｊ−１）、Ｎ（ｉ、ｊ−１）が供給され
る。制御回路２６，２７が歩進する間に上記処理が
繰返し実行され、ｇ（ij）とＮ（ij）とがＧレジ
スタ３５とＮレジスタ３６にすべてセツトされ
る。この状態において、除算回路３７が距離Ｄを
出力する。以上説明した如く、本発明によれば、照合処理
に当つて、不均一サンプリング点T₀，T₁，……
…に対応して与えられる重みを加味せしめるよう
にしている。このため、例えば第３図Ａ図示のサ
ンプリング点T₇，T₈，T₉，T₂₀，T₂₁，………な
どを粗なサンプリングが行なわれる区間の特徴量
を重視せしめて照合をとるようにしている。この
ため、本願明細書冒頭に述べた如き「シ」と
「セ」との誤認などの問題が解決される。そし
て、不均一サンプリング点によつてサンプリング
した時系列情報を用いる利点を認識誤りを与える
ことなく享受できる。

【図面の簡単な説明】

第１図および第２図はダイナミツク・プログラ
ミング法の概念を説明する説明図、第３図Ａ，Ｂ
は本発明にいう不均一サンプリング点によるサン
プリングとそれによる問題点を説明する説明図、
第４図は本発明の方法を実現する一実施例構成、
第５図は第４図に示すカンプリング時刻決定回路
部と重み決定回路部との一実施例構成、第６図は
第４図に示すDPプロセツサの一実施例構成を示
す。図中、２はパラメータ抽出部、３はサンプリン
グ時刻決定回路、４は不均一サンプリング回路
部、５は重み決定回路部、８は重み時系列情報登
録部、９はパラメータ時系列登録部、１０は入力
音声重み時系列情報セツト部、１１は入力音声パ
ラメータ時系列セツト部、１２はDPプロセツサ
を表わす。

Claims

【特許請求の範囲】１音声信号の周波数分析結果を利用して、当該
音声信号の特徴量時系列情報を抽出し、予め登録
されている基準特徴量時系列情報と照合をとつて
音声認識を行なう音声認識システムにおいて、上
記特徴量時系列情報と上記基準特徴量時系列情報
とを夫々特徴量の変化が大きいほど密にサンプリ
ングした不均一な不均一サンプリング点に対応し
た時系列情報を採用すると共に、上記照合処理に
当つて、上記特徴量時系列情報と上記基準特徴量
時系列情報との夫々の特徴量を対応づけ処理に、
上記不均一サンプリングによる削減率を重みに対
応づけた重みづけを行ない、上記特徴量時系列情
報と上記基準特徴量時系列情報との類似度に対応
する距離を抽出するようにしたことを特徴とする
音声認識照合処理方法。２上記不均一サンプリング点は、入力音声の累
積変動量AV（tn）を逐次演算して累積し、該累
積変動量が予め定めた閾値に達した時点に対応し
て決定されることを特徴とする特許請求の範囲第
１項記載の音声認識照合処理方法。３上記照合処理は、ダイナミツク・プログラミ
ング法にしたがつて処理されることを特徴とする
特許請求の範囲第１項または第２項記載の音声認
識照合処理方法。