JPS62159195A

JPS62159195A - 音声パタン作成方法

Info

Publication number: JPS62159195A
Application number: JP61000451A
Authority: JP
Inventors: 森戸　誠; 田部井　幸雄; 山田　興三
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-01-06
Filing date: 1986-01-06
Publication date: 1987-07-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声特徴を効率良く表現し、認識装置の認識
性能を向上させる音声パタンの作成方法に関する。

（従来の技術）従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法に音声のスペクトルの形状を表わすパタンを用いて
認識を行うパタンマツチング法がある。

先ず、この発明の説明に先立ち、第８図を参照して従来
のパタンマツチング法につき説明する。

第８図において、ｌＯは音声入力端子、１１は音声分析
部、１２は区間検出部、１３は入力メモリ部、１４は比
較パタンメモリ部、１５は類似度計算部、１６は判定部
、１７は出力端子である。

この従来の認識方式においては、音声入力端子１０に入
力した入力音声を音声分析部１１において特徴を表わす
ベクトルの時系列パタン（以下、音声パタンと称する）
に変換する。この音声パタンは、一般に、中心周波数の
異る２個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔Ｔ、（例えば８ミリ秒）毎に
標本化（以下、サンプリングと称する）することによっ
て得ている。従ってこの音声パタンは音声のスペクトル
形状そのものを表わしている。一方、この音声分析部１
１において、音声パタンに対応する時間点における音声
パワーを算出する。この音声分析部１１において算出さ
れた音声パタンを人力メモリ部１３に逐次格納すると共
に、音声パワーを区間検出部１２へ出力する。

区間検出部１２では、音声分析部１１からの音声パワー
に基づき、音声区間すなわち音声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭５９−１０８６６８号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部１２で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部１５へ送る。一方、この類似度
計算部１５には比較パタンメモリ部１４から比較パタン
を別途入力させている。

この比較パタンは認識対象となる単語（以後カテゴリと
称する）に対し音声パタンと同一な音声分析処理を施し
たベクトルの時系列パタンであり、予め比較パタンメモ
リ部１４に格納しておく。

この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部１１を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部１４に格納する。

類似度計算部１５では、音声パタンと比較パタンとの間
の類似度計算を行う。この類似度計算には、例えば、文
献：　「沖電気研究開発１１８号」４９　（３）に記載
の論文「不特定話者単語音声認識の研究」に開示されて
いる重み付は線形マツチング法、特公昭５０−２３９４
１号に開示されているいわゆるＤＰマツチングと呼ばれ
ている方法すなわち発声速度の変動等による時間軸方向
の歪を最適化する方法又はその他の適切な方法を用いて
いる。

この類似度計算部１５から出力されるカテゴリ毎の類似
度を用いて、判定部１６では、その最大類似度を与える
比較パタンに与えられたカテゴリ名を認識結果として出
力する。

以上が従来のパタンマツチング法による音声認識方式の
概略である。

（発明が解決しようとする問題点）上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった。

しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。

また、従来の認識方式では、比較パタン及び認識パタン
との記憶容量が相違するので、領域管理が複雑となると
いう問題点があった。

この発明の目的はこのような従来の問題点に鑑み、静寂
環境下はもとより雑音環境下における音声を用いても認
識性能を低下させない音声パタン作成方法を提供するこ
とにある。

（問題点を解決するための手段）上述した目的の達成を図るため、この発明の音声パタン
作成方法においては人力音声から類似度判定用の基準デ
ータを形成する登録処理と、認識音声から類似度判定用
の認識データを形成する認識処理とを行うに当り、次の
ような手段を採る。

（ａ）先ず、音声のスペクトルの形状を一定時間間隔Ｔ
０　（音声フレーム周期と称する）毎に表わすベクトル
（音声特徴ベクトルと称する）を入力させる。

（ｂ）また、任意の音声フレームにおける音声特徴ベク
トルと、次の音声フレームにおける音声特徴ベクトルと
を内分して音声特徴内分ベクトルを算出する。

（ｃ）前述の音声特徴内分ベクトルから最小二乗近似直
線を算出し、この最小二乗近似直線を基準にして周波数
軸方向で極大かつ正となるチャネルに対応する成分を１
にしその他の成分を０にして得られるローカルピークベ
クトルを算出する。

そして、この場合、登録処理で得られたローカルピーク
ベクトルを基準データとし、認識処理で得られたローカ
ルピークベクトルを認識データとする。

これら処理によってそれぞれ得られたローカルピークベ
クトルはスペクトルの形状を与えるベクトルでなく音声
のスペクトルのピークの位置のみを与えるベクトルであ
る。

音声のピークの位置は雑音が入力されていてもさほど変
化するものでないため認識処理内の類似度に対する雑音
の影響が軽減される。

（作用）次に、この発明の作用につき説明する。

この発明のの声パタン作成方法を達成するための機能は
第１図に示される処理ブロックによって構成される。

第１図において２１は音声のスペクトルの形状を表わす
音声特徴ベクトルが入力される入力端子、２２は音声フ
レーム電力を算出し音声の始端、終端を検出する音声区
間検出部、２３は音声特徴内分ベクトルを算出する音声
特徴内分ベクトル算出部、２４はローカルピークベクト
ルを算出するローカルビーク算出部、２５はローカルピ
ークベクトルの出力端子である。

作用の詳細な処理の説明に入る前にこの発明の入力であ
る音声特徴ベクトルについて考える。

前にも述べたように音声特徴ベクトルは音声のスペクト
ルの形状を音声フレーム周期ごとに与えるベクトルであ
り、どのような分析手段によって得られたベクトルであ
るかはこの発明では本質ではない。

たとえば第２図に示されるような中心周波数の異なるバ
ンドパスフィルタ群によって周波数成分を抽出し、その
出力を絶対値化し、ローパスフィルタによって抽出した
ベクトルとしてもよい（文献＝「沖電気研究開発１２２
号」ｉユ、（１）「不特定話者簡易音声認識方式の研究
」）。

また、たとえばＦＦＴ　、　ＤＦＴ処理によって得られ
た値もしくはそれらの値をログ周波数帯域に分割、平均
化して得られるベクトルとしてもよい。

さらには予め同一音声分析処理により音声が入力されて
いない環境雑音のみの分析を行い雑音パタンを算出し、
音声の入力されたときのスペクトルのパタンからこの雑
音パタンを減じ（スペクトラムサブトラクション法と呼
ばれている）た結果のベクトルとしてもよい。

尚、このような雑音パタンを減じる処理は雑音環境下で
の認識方式では必要な処理である。

今、ｉ番目の音声フレームにおける音声特徴ベクトルを
ａｌとしその成分を８１、次元数をＫとすると、ａ＝（ａ（、脣、・・・、ａ！、・・・、ａＫ−１■ と表現することができる。

［ａ：音声区間検出処理コ音声フレームごとに入力端子２１により入力される音声
特徴ベクトルａ、を用いて当該音声フレームにおける音
声フレーム電力Ｐ１を算出する。

音声区間検出部１２ではフレーム電力Ｐ、を用いて音声
の区間検出を行う。

音声区間検出のアルゴリズムについては各方式が提案さ
れているが、この発明は音声区間検出のアルゴリズムが
重要なのではなく音声区間検出によって得られる始端と
終端の値が重要であるため、このアルゴリズムについて
は詳しくは述べない。

音声区間検出部１２によって検出された音声の始端をＳ
及び、終端をＥとする。

［ｂ＝音声特徴内分ベクトル算出処理］音声区間検出部
２２によって検出され斥始端Ｓ及び終端Ｅを用いて入力
端子からの音声特徴ベクトルを一定音声フレーム長に時
間軸線形伸縮する。

このブロック２２における線形伸縮処理は認識処理、特
に線形マツチング処理を行い易くするために行う処理で
あり、さらにはこの発明により得られた音声パタンを格
納するためのメモリ内の領域管理を容易にするために行
う処理でもある。

次に、この時間軸線形伸縮の方法について第３図を参照
して説明する。

第３図は時間軸線形伸縮方法を説明するための図で、横
軸に伸縮後のフレーム番号ｊ及び縦軸に１音声フレーム
の時間経Ｊｉをそれぞれ取って示しである。ここで、線
形伸縮処理によって得られたベクトルを音声特徴内分ベ
クトルと称する。

また、線形伸縮後の音声フレーム数を説明の便宜のため
一例として３２音声フレームとして説明するが、これに
限定されるものではない。

今、線形伸縮後のｊ番目（ｊ＝１〜３２）の音声フレー
ムの音声特徴内分ベクトルをＩｂ　Ｊとし次式によって
算出する。ｊ′をｊに対応する実際の入力フレームの番
号とすると、ただし［］はガウス記号を表わす。

先ず、（２）式により、１フレームの始ＱＳから終端Ｅ
までを３１分したとき、伸縮後のｊ番目のフレームが１
フレームの時間軸ｉ上で取る位置ｊ′を求め、次いで（
３）式によりｊ′の両近傍特徴ベクトルを内分しｒｆ声
特徴内分ベクトルｌｂ　ｊを算出している。

［Ｃ：ローカルピークベクトル算出部Ｉ！ｌ！］この処
理をローカルビーク算出部２４で行う。

音声特徴内分ベクトル算出部２３から送出される音声特
徴内分ベクトルｌｂ　、をローカルピークベクトル算出
部２４においてローカルピークベクトルｆ１に変換する
。

この変換処理につき第４図（Ａ）〜（ｃ）を参照して説
明する。

音声特徴内分ベクトルｌｂ　、の各成分す、は次式によ
り対数変換される。

第４図（八）にこの音声特徴内分ベクトル成分の対数変
換により得られた対数成分Ｘ＋（ｋ）の例を示し、横軸
にチャネル番号ｋを及び縦軸に対数成分ｘ　＋　（ｋ）
をそれぞれプロットして示す。この図により、ｉ番目の
音声フレームにおける音声の対数スペクトルの形状が表
わされている。

次に、次式によって与えられる最小二乗近似直線を用いて正規化を行う。

ｚ（ｋ）　＝　ｘ（（ｋ）　−７１（ｋ）＝　ｘ、（ｋ
）　−ｕｉ（ｋ）　・ｋ　−ｖ４（ｋ）この正規化され
た音声特徴内分ベクトル成分（正規化成分と称する）Ｚ
ｉ（ｋ）の例を第４図（Ｂ）に示す。第４図（Ｂ）にお
いて横軸にチャネル番号を及び縦軸に正規化成分Ｚ　Ｉ
（ｋ）をそれぞれプロットして示す。

次に、次式（７）のような判断に基づいて、この正規化
成分ｚ　１　（ｋ）を用いてローカルピークベクトルｒ
１を算出する。

この（７）式の判断条件を満たすｋに対してはｒＩ＝ｌ
、満たさないｋに対してはｒ、＝Ｏなる値を成分として
有するベクトルｒ。

を算出する。このベクトルｒｌをローカルピークベクト
ルと称する。このローカルピークベクトルｆ１の例を第
４図（ｃ）に示す。

上述した説明においては、音声特徴内分ベクトルの算出
を、始端の音声フレームから終端の音声フレームまでを
一定の音声フレーム長に線形伸縮することによって行う
方法につき説明したが、この発明では、必ずしも始端か
ら終端までを一様に線形伸縮する方法を与えるものでな
く、音声特徴内分ベクトル列の一部を時間的に隣接する
２つの音声特徴ベクトルの内分処理によって算出してロ
ーカルピークベクトルを算出する方法も適用できる。例
えば、音声定常部のみを伸縮して音声パタンを作成する
方法も適応できる。

（実施例）以下、この発明の実施例につき第５図〜第７図を参照し
て説明する。

第５図はこの発明の音声パタン作成方法の一実施例を実
施するための具体的な回路構成を示すブロック図である
。

第５図において、４１はマイクロフォン、４２は音声信
号を増幅するための増幅器、４３はローパスフィルタ、
４４は音声をディジタル信号に変換するＡ／Ｄ変換器、
４５は特徴ベクトルを算出する信号処理プロセッサ、４
６はプロセッサ、４７はプロセッサのプログラムが格納
されているプログラムメモリ、４８は比較パタンを格納
するための比較パタンメモリ、４９は作業メモリ、５ｏ
は雑音パタンを格納するための雑音パタンメモリ、５１
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。

立“パタン−の　　ダ次に、この第５図を参照してこの発明の音声認識方式の
一例を説明する。

マイクロフォン４１からの人力音声を増幅器４２で増幅
した後、ローパスフィルタ（ＬＰＦ）４３においてその
高周波数成分を除去する。

次に、高周波成分が除去された人力音声をＡ／Ｄ変換器
４４によって例えば１２ｋＨｚのサンプリング周波数で
１２ビツトにサンプリングする。前述のローパスフィル
タ４３での処理はこのサンプリングのために必要な処理
で、従フて、このフィルタとしては例えば５ｋＨｚの遮
断周波数をもつ減衰４８　ｄ　Ｂ　／　ｏ　ｃ　ｔのロ
ーパスフィルタを用いる。

Ａ／Ｄ変換器４４によってサンプリングされた音声のデ
ィジタルデータを信号処理プロセッサ４５によって、周
波数分析される。この信号処理プロセッサ４５によって
算出されるベクトルを特に特徴ベクトルに変換する。こ
の信号処理プロセッサ４５として例えばＴＩ社製の３２
０１０ＤＳＰプロセツサを用いることが出来る。

プロセッサ４６は音声フレーム周期毎に信号処理プロセ
ッサ４５から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■　登録処理 ■　認識処理とに分けられる。以下、これらの処理についてそれぞれ
説明をする。

［登録処理］この処理は次の処理に分けられる。

雑音パタンの算出処理音声特徴ベクトルの算出処理音声区間検出処理音声特徴内分ベクトル算出処理ローカルピークベクトル算出処理以下、これらの各処理につき第６図の登録処理の流れ図
を参照して説明する。尚、各ステップをＳで表わす。

登録処理を開始しくＳｌ）、以下の処理を行う。

（雑音パタン算出処理）（Ｓ２）登録処理のため、例えば、１０音声フレームを雑音区間
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン４１から入力するようにする。

この雑音入力を信号経路（４２，４３，４４）を経て信
号処理プロセッサ４５に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ４９に逐次格
納する。このメモリ４９に１０音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ５０に格納する。

（音声特徴ベクトル算出処理）（Ｓ３）雑音区間終了後
、信号処理プロセッサ４５から人力される特徴ベクトル
から雑音パタンメモリ５０中の雑音パタンを減じること
によって、音声特徴ベクトルを算出し、これを作業メモ
リ４９内に格納する。

この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ４９を効果的
に使用するためには適当に捨てていく。

（音声区間検出処理）（Ｓ４）次に、第１図に示した音声区間検出部２２における前述
した処理を行う。

先ず、作業メモリ４９に格納されている音声特徴ベクト
ル哀１からフレーム電力Ｐ１を算出する。

次に、この算出されたフレーム電力Ｐ１と、予め設定さ
れている区間検出周間値との間で、大小の比較を行って
音声の始端Ｓ及び終端Ｅをそれぞれ決定する。この場合
、音声の始端検出の簡単なアルゴリズムとしては、例え
ば、フレーム電力Ｐ１が、連続して３音声フレ一ム以上
、閾値以北となる先頭の音声フレームを始端Ｓとするア
ルゴリズムを用いることができるが、他のアルゴリズム
であってもよい。

また、音声の終端Ｅの検出の簡単なアルゴリズムとして
、例えば、フレーム電力Ｐ、が、連続して３０音声フレ
一ム以上、閾値未満となる先頭の音声フレームから１つ
前の音声フレームを終端Ｅとするアルゴリズムを用いる
ことができるが、これに限定されるものではない。

この音声区間の終端Ｅを検出しなかった場合には（ＳＳ
）、再び音声特徴ベクトルａ１の算出処理（Ｓ３）を行
った後、音声区間の検出処理（Ｓ４）を繰り返し行い、
最終的に終端Ｅを検出する（Ｓ５）。

（音声特徴内分ベクトル算出処理’）（Ｓ６）音声直間
の終端検出後、作業メモリ４９に格納されている音声特
徴ベクトル玉、と、音声区間の始端Ｓ及び終端Ｅとを用
いて、第１図の音声特徴内分ベクトル算出部２３におけ
る前述した処理を行って、得られた音声特徴内分ベクト
ルＴｏｊを作業メモリ４９に格納する（Ｓ６）。この場
合、線形伸縮の音声フレーム数を例えば３２音声フレー
ムとする。

（ローカルピークベクトル算出処理）（Ｓ７）次に、作
業メモリ４９に格納された音声特徴内分ベクトルわ、を
、第１図のローカルピークベクトル算出部２４において
前述した処理を行ってローカルピークベクトルｒ１を得
、得られたローカルピークベクトルｒ１を比較パタンメ
モリ４８に格納する。

ｚ＞３時の音声に対するローカルピークベクトルｒ１を
比較ローカルピークベクトルと称し、、、ＳＪで表現す
る。また３２個の比較ローカルピークベクトル、ＢＳＪ
によって表現される音声のパタンを比較パタンと称し５
ｆｆｉで表わす。

この比較パタンは各カテゴリ毎に１つあるいは複数ある
ものとし、この比較パタンの総数をＭとする。

また比較パタンＳ。に対するカテゴリ名をインタフェー
ス５１から出力する必要がある場合には、そのカテゴリ
名Ｃ１を比較パタンメモリ５０に格納しておく。

以上の各処理により登録処理を終了する。

［認識処理］この処理はさらに次の処理に分けられる。

雑音パタンの算出処理認識音声の特徴ベクトルの算出処理認識音声の音声区間検出処理認識音声の音声特徴内分ベクトル算出処理認識音声のロ
ーカルピークベクトルの算出処理パタン類似度算出処理認識判定処理以下、これらの各処理について第７図の認識処理の流れ
図を参照して説明する。

認識処理を開始しく５ＩＯ）、次の処理を行う。

（雑音パタンの算出処理）（Ｓｌｌ）登録時と認定時とでは雑音の状況か変化していることも
考えられるため、雑音パタンの算出を再度行う。

この雑音パタンの算出に関しては単語入力の前毎に行う
のが良いが、単語の入力速度が遅くなったり或いは雑音
測定中に発声し易いなどの点から、特に特別な雑音区間
を適宜設けてその区間で雑音パタンを測定する方が現実
的であろう。

登録時と同様に、ある１０音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン４１から入力
させて、前述と同様に信号処理プロセッサ４５に送り、
これより生ずる雑音ベクトルを作業メモリ４９に逐次格
納する。１０音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ５０に格納する。

（音声特徴ベクトル抽出処理）（Ｓ１２）雑音区間終了
後から音声特徴ベクトルの算出は新しい雑音パタンを用
いて行われる。

信号処理プロセッサ４５から入力される特徴ベクトル直
１から雑音パタンメモリ５０に格納されている雑音パタ
ンを減じることによって音声特徴ベクトルａＪを算出し
、これを作業メモリ４９に格納する。この処理は音声フ
レーム周期毎に行われる。

また、後述する始端検出以前の音声特徴ベクトルは不必
要であるため適宜捨てていく。

（音声区間検出処理）（Ｓ１３）認識音声に対して′ｆｒＪｉ図の音声区間検出部２２に
おける前述した処理を行う。区間検出のアルゴリズムは
前述した［登録処理］における（音声区間検出処理）の
場合のアルゴリズムと同様である。

区間終端Ｅを検出しなかった場合には（Ｓ１４）、これ
を検出するまで繰り返し処理を行う。

（音声特徴内分ベクトル算出処理）（Ｓ１５）区間終端
検出後、認識音声に対して第１図の音声特徴内分ベクト
ル算出部２３における処理を行い、得られた音声特徴内
分ベクトルｌｂ　、を作業メモリ４９に格納する。この
場合、線形伸縮の音声フレーム数を例えば３２音声フレ
ーム長とする。

（認識ローカルピークベクトル算出処理）　（５１６）
認識音声に対して第１図のローカルピークベクトル算出
部２４における前述した処理を行い、得られたローカル
ピークベクトル（認識ローカルピークベクトル）を作業
メモリ４９に格納する。この認識ローカルピークベクト
ルをｒ、で表現する。

また３２個の認識ローカルピークベクトルによって表現
される認識音声のパタンを認識パタンと称し、これをＲ
で表現する。

（パタン類似度算出処理）　　（ｓ、＋７）認識パタン
Ｒとｍ番目の比較パタン５．６との間のパタン類似度Ｄ
１をで定義する。ここで右上添字ｔはベクトルの転置を表わ
す。

通常この（８）式で表現されるパタン類似度の算出方法
は線形マツチング法と呼ばれており、各種方式が提案さ
れている。

作業メモリ４９内の認識パタンＲと比較パタンメモリ４
８内の比較パタンＳ１の間のパタン類似度り、が算出さ
れ作業メモリ４９内に格納される。

このパタン類似度の算出処理を全比較パタンについて行
い（Ｓ＋８）、全比較パタンについてこの処理が未完了
のときは再度パタン類似度算出処理（Ｓ＋７）を繰り返
し行って、全比較パタンについて完了する。

（認識判定処理）（５１９）各カテゴリ毎に求まるパタン類似度り、のうち最大を与
えるパタン番号ｍ、□をで求め、このパタン番号ｍ　、、Ｘに対応するカテゴリ
名Ｃｍ□８を比較パタンメモリ内から読み出すか又はパ
タン番号ｍｍａｗの値自体をインタフェース５１を通し
て外部に出力する。

以トの処理によりこの発明の第一の実施例の処理が完了
する（　Ｓ　２０）。

上述した実施では登録動作を行う特定話者認識方式に適
応したが、Ｐめ不特定多数の人の比較パタンを作成して
おけば話者を限定しない不特定話者認識方式にも適応可
能となる。この場合ローカルピークベクトルを用いるこ
とにより、パタンか多くなっても比較パタンメモリを少
なくでき、従って比較パタンメモリの削減効果は大きい
。

（発明の効果）以上説明したようにこの発明によれば次の効果が生じる
。

（１）音声スペクトルのピーク位置を取り出しているた
め、近傍の雑音位置によってピーク位置がずれることが
なく、従って、認識性能の低下がない。

（２）ローカルピークベクトルをパタン類似度演算に用
いているため演算処理がきわめて簡易である。

（３）また音声特徴内分ベクトルを音声の始端から終端
までを一定音声フレームになるように線形伸縮すること
により算出するか又は線形、非線形を問わず一定音声フ
レーム長になるように処理した場合には、比較パタン又
は認識パタンの記憶容量は等しく領域管理が容易に行え
るものである。

【図面の簡単な説明】

第１図はこの発明の音声パタン作成方法におけるローカ
ルピークベクトル算出処理を説明するためのブロック図
、第２図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、第３図は音声特徴内分ベクトルの算出のための時間軸線
形伸縮方法の説明図、第４図はローカルピークベクトル算出を説明するための
説明図、第５図はこの発明の実施例を示すブロック図、第６図及
び第７図はこの発明の登録処理及び認識処理の流れ図、第８図は従来の音声パタン作成方法を説明するためのブ
ロック図である。２１・・・入力端子、　　　　２２−・・音声区間検出
部２３・・・音声特徴内分ベクトル算出部２４・・・ロ
ーカルピークベクトル算出部４１−・・マイクロフォン
、　４２・−増幅器４３−・・ローパスフィルタ、４４
−Ａ／Ｄ変換器４５−・・信号処理プロセッサ４６・・・プロセッサ、　　　４７・−プログラムメモ
リ４８・・・比較パタンメモリ、４９・・一作業メモリ
５０−・・雑音パタンメモリ５１−・・インタフェース。特許出願人　　　　沖電気工業株式会社ｆ　２　　　　
ｊ　　　　　　　　Ｊｆ　ｊ２伸ｍ機のフし一４番８ｊ時間軸線形伸縮方法の説明図第３図キマキル蚤号　　　　　ｋ（ｃ）　　ｒ’、　０００１０００００１００００１０
００口−カルヒー７ベクトＩレヘ分ロー刀Ｊしこ゛−７ベクトル算出説明圓第４図堂俳灯理の流れ出第６図認識幻理の流れ国第７図

Claims

【特許請求の範囲】

（１）入力音声から類似度判定用の基準データを形成す
る登録処理と、認識音声から類似度判定用の認識データ
を形成する認識処理とを含む音声パタン作成方法におい
て、該登録処理及び認識処理は、（ａ）音声フレーム周期毎に算出され音声のスペクトル
の形状を与える音声特徴ベクトルを入力させること、（ｂ）任意の前記音声フレームにおける音声特徴ベクト
ルと、次の前記音声フレームにおける音声特徴ベクトル
とをそれぞれ内分して音声特徴内分ベクトルを算出する
こと、（ｃ）該音声特徴内分ベクトルから最小二乗近似直線を
算出し、該音声特徴内分ベクトルの各成分を該最小二乗
近似直線を基準する値に変換し、これら成分間で正でか
つ極大となる位置を１にしその他の成分を０としてロー
カルピークベクトルを算出することを含み、前記登録処理及び認識処理で得られたローカルピークベ
クトルを前記基準データ及び認識データとそれぞれなし
たことを特徴とする音声パタン作成方法。
（２）音声特徴内分ベクトルの算出は、音声の始端に対
応する音声フレームから音声の終端に対応する音声フレ
ームまでの音声特徴ベクトルを用いて、一定音声フレー
ム長に線形伸縮することによって、行うことを特徴とす
る特許請求の範囲第１項記載の音声パタン作成方法。