JPS617893A

JPS617893A - 大語彙単語音声認識方式

Info

Publication number: JPS617893A
Application number: JP59128815A
Authority: JP
Inventors: 沢井　秀文; 中川　聖一
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-06-22
Filing date: 1984-06-22
Publication date: 1986-01-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】茨１隻！本発明は、大語常単語音声認識方式に関するものであり
、大語案単語音声の予備選択に応用可能なものである。

従迷、Ｌ捩単語の標準パターンと未知入力パターンとのパターンマ
ツチングを行なう方法にＤＰマツチング法（動的計画法
）と呼ばれる方法がある。これは、前記ＪＭ￥Ｕパター
ンの時間軸を非線形に伸縮し、前記未知入力パターンの
時間軸に揃えて両パターンが最も類似するようにして即
ち前記パターン間の距離を最／ｌＸにしてパターンマツ
チングを行なうものである。しかし、上記ＤＰマツチン
グ法は、パターンマツチング時、少なくともＴ　ＸＪ　
ＸＮＣｌ　：未知入力パターンのフレーム数、Ｊ：標準
パターンのフレーム数、Ｎ：登録単語数）回の計算量を
必要とし、膨大な計算量を必要とする。

第４図は、線形伸縮マツチング法の一例を説明するため
の図で、図中、入力パターンＡは単語音声の短時間スペ
クトルの特徴を表わす特徴ベクトルｏｉ　”　（ａｉｌ
　ｙ　ａｉ２　、−−、　ｏｉｐ　）の系列Ａ＝ａ１ａ
２・・・・・・ｑｌ・・・・・・ａＩで表わせる。ここ
で、Ｐはパラメータ次元数、■は継続フレーム長である
。また単語ｎの標準パターンＢも同様に特現できる。こ
こで、Ｊｎは単語ｎの標準パターンの継続フレーム長で
あり、ｎは単語名を示す通し番号で、Ｎ単語の認識セッ
トを考えてΣとするとΣ＝　（ｎ　ｌ　ｎ＝１１２１−
−Ｉ　Ｎ）となる。ただし、特定の歌語を指定する必要
がない場合は添え字ｎを省略してとなる。

音声認識処理では、入力パターンＡについて認識単語セ
ットのすべての単語のａ′ｆＵパターンＢｎを時間正規
化してパターンマツチングし、Ｎ単語の中から最も入力
パターンに近い単語ｎを探し出す。

線形伸縮マッチンク法では、例えば「３」という単語の
標準パターンＢを時間的に線形に歪ませて入力パターン
の時間軸に揃えてパターンマツチングを行なう。このと
き写像関数ｊ　＝ｊ　（ｉ）はｊ＝ない最大の整数を表
わすＧａｕｓｓ記号である。標準パターンＢを歪み関数
ｊ＝［−４］によって歪ま工せたパターンＢ′はと表わせる。

而して、前記入力パターンＡと標準パターンＢ′とのパ
ターンマツチングを行なうが、両パターンの距離Ｄ’　
（Ａ、Ｂ）を入力パターン長■で正規化して、とする。ここでｄ（１，ｊ）は入力パターンＡの第ｉフ
レームと標準パターンＢ′の第ｊフレームとのフレーム
間距離で１通常ｄ　（ｉ、　ｊ　）＝　Ｉｔ　ａｉ　−ｂｊ（ｉ）　Ｉ
ｆと表わす。ここで、１１１１は２つのベクトル間の距
離を示す。

■−−煎本発明は、上述のごとき実施に鑑みてなされたもので、
特に、特徴ベクトルをペクト・ル量子化する音声認識方
式において、標準パターン並びに未知入力パターンの特
徴ベクトルの頻度分布パターン間の形状に基づいて単語
音声を認識する手段と、標準パターンと未知入力パター
ンとの線形伸縮々ツチングを行なって未知入力単語音声
を認識する手当とを併用し、もって、大語索単語音声の
認識を高速で正確に行なうことを目的としてなされたも
のである。

１−一一戊本発明の構成について、以下、実施例に基づいて説明す
る。

第１図は、本発明を構成するシステムの一実施例を説明
するためのブロック図で１図中、１は音声入力部、２は
スペク１−ル解析部、３はコードブック蓄積部、４は未
知入力フレームのベクトル量子化部、５はコードベクト
ルＣｋの使用頻度分布パターン生成部、６は標準頻度分
布パターン蓄積部。

７は頻度分布パターンマツチング部、８は候補単語同定
部、９は単語標準パターン蓄積部、９１は候補単語登録
部、１０は線形伸縮マツチング部、１１は半語同定部、
１２は認識結果出力部である。

標準頻度分布パターン蓄積部６において、まず、単語ｎ
の標準パターンをＲ’で表わし、Ｒ’＝ｂ、　’ｂ２’
−−ｂ’−＝−ｂ　’Ｊｎとする。ここで、ｂ、ｎは単語ｎの第ｊ番目のフコレームの特徴ベタ１ヘル、Ｊｎは継続フレーム長である
。

次に、前記標準パターンＲｎをコードブック３に含まれ
る擬音韻パターンベタトル（コードベクトルともいう）
Ｃｋ　（ｋ＝１．２．・・・・・・、に；に：量子化レ
ベル数）で表わす。即ち、前記ｊｎ（ｊ＝１．’２．・
・・・・・、Ｊ’）の各々を前記コードベクトルＣｋの
うち最も近いもので表わす。

ここで、距離尺度をｄ（３ｎ、Ｃｋ）とし、する。

而して、前記ｂ’　Ｆ＝　１　＋　２　＋・・・・・・
Ｊ’）で表わしだ標準パターンをとする。

単語ｎに対して前記コードベクトルＣｋの使用頻度をＹ
ｋｎとしベクトル里子化された前記標準パターンｉｎを
前記Ｙｋｎにより表わしたものを標準頻度分布パターン
Ｒｎとすると、のように表現できる。Ｒｎのパターンは全ての単語ｎ　
（ｎ＝１．２．・・・・・・、Ｎ）について予め求めて
おき、標準頻度分布パターン蓄積部６に格納しておく。

さて、音声入力部１に入力された未知入力音声をスペク
トル解析部２で周波数分析し、未知入力パターンＴを得
る。Ｔは。

Ｔ　”　ａ　１ａ　２・・・・・・０１・・・・・・０
１と表現できる。ここで、ａｉは第ｉフレームの特徴ベ
クトル、■は継続フレーム長である。

前記未知入力パターンＴもコードブック３によってメタ
トル量子化部４においてベクトル量子化し、各フレーム
。ｊごとに最も近いコードベクトルＣｋによって表わし
たパターンを子とする。子は。

Ｔ＝ａ１　ａ２　・・・・・・ａｉ　・・・・・・ａＩ
と表わす。次に争を前記コードベクトルＣｋの使用頻度
Ｘｋによって表わしたパターンをパターン生成部５で求
め、このときのパターンをＴ＝ＸＩＸ２・・・・・・Ｘ
ｋ・・・・・・ＸＫとする。

次に、前記パターン蓄積部６の標準頻度分布パターンＲ
’と前記パターン生成部５の未知入力の頻度分布パター
ンＴとのパターンマツチングをパターンマツチング部７
で行なう。即ち、前記標準パターンＲ’と未知入力パタ
ーンＴとの単語間距離をＤ　（Ｒｎ、丁゛）どし、前記
標′＄頻度分布バタパターンＴの使用頻度Ｘｋとの距離
尺度をｄｆとし、前記単語間距離Ｄ　（Ｒｎ　、　１”
）を前記入力フレーム長■と単語０のフレーム長Ｊｎの
和で正規化して、で表わす。

前記距離尺度ｄｆとしては、通常絶対値距離を用い、ｄｆ（Ｙ’　ｋ、　Ｘｋ）　＝　ｌ　Ｙｎｋ−Ｘｋ　　
１とする。

また、（２）式における距離尺度ｄ「とじて、知人力頻
度分布パターンＴの頻度数Ｘｋとの値の差が例えば１／
２〜２倍の範囲であれば、前記距離尺度ｄｆをＯとするなる距離尺度を使用す、ることもできる。但し、α。

β、γはパラメータであり、αは、（３）式の分母を０
としないために例えばα＝１とする。βは距離尺度の調
整用パラメータであるが１通常β＝０とし、γはγ＝１
として使用する。

上述のごとき距離尺度を使用することにより標準パター
ン並びに未知入力パターンの時間的な非線形伸縮に強い
パターンマツチングを行なうことがテキル。（３）式（
７）　ｄｆ（Ｙ’　ｋ、　Ｘｋ）　ノ計算は予め行なっ
ておき、テーブルに格納しておけば、任意のＹｎｋ、Ｘ
ｋとの組み合せに対する距［１ｄｆ（Ｙｎｋ、Ｘｋ　）
は、前記テーブルを引用することに上って直ちに求めら
れる。

また、前記頻度分布パターンＲｎおよびＴを作成する時
に、最も近い第１候補のコードベクトルに対しては例え
ば頻度数（カウント数）を２．第２候補のコードベタ１
−ルに対しては例えば頻度数（カウント数）を１とし、
コードベクトル間の類似性を返映させると、さらにパタ
ーンの時間的な非線形伸縮に強いマツチングを行なうこ
とができる。

而して、前記単語間距離Ｄ（Ｒ’　、Ｔ）を全ての辞書
単語ｎ（ｎ＝１，２．　　・・・・、Ｎ）について計算
し、候補単語同定部８において前記Ｄ（Ｒｎ　、Ｔ）＊の値がある閾値り以下になる１１語を候補単語として選
択し、候補単語登録部９１に登録する。このとき選択さ
れた候補単語セットを ΣＣａｎｄ　＝　（ｎ　ｌ　ｎ＝］、　２．−・・、　
ＮＣａｎｄ）　、　（ＮＣａｎｄ　（Ｎ）とする。次に
線形伸縮マツチング部１０において前記未知入力パター
ンと候補単語標準パターンとのマツチングを行なう。即
ち（１）式の単語間距離Ｄ’　（Ｒｎ　、Ｔ）を候補単
語セットΣＣａｎｄに属する単語ｎ（ｎＥΣｃａｎｄ）
全てについて計算し、単語同定部１１において、前記Ｄ
’　（Ｒ’　、Ｔ）の値が最小となる単語賃を前記未知
入力単語の認識結果として認識結果出力部１２で出力す
る。即ち、ｎはで表わされる。

第２図はご第１図の構成において、ベクトル間距離テー
ブル１３髪追加した構成図であり、前記９の単語の標準
パターンおよび未知入力パターンの特徴ベグ１−ルはど
ちらもベクトル量子化されて。

コードブック３内のコードベクトルＣｋによって表現さ
れており、各コードベクトル間の距離は予め計算してお
いたものがベクトル間距離テーブル１３に格納されてい
る。而して、線形伸縮マツチング部１０において、前記
候補単語標準パターン９１と未知入力パターンとの線形
伸縮マツチングを行なうこともできる。なお、第３図に
ベクトル間距離テーブルを示す。

羞−一米以上の説明から明らかなように１本発明によると、特徴
ベクトルをベクトル量子化したコードベクトルの分布パ
ターンに基づいて大語索単語を認識することにより候補
単語に絞っておき、さらに、線形伸縮マツチングにより
パターンマツチングを行なって単語音声認識を２段階で
行なうようにしたので、高速でかつ正確な認識が可能と
なる。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するためのブロック
線図、第２図は、本発明の他の実施例を示すブロック線
図、第３図は、ベクトル間距離テーブルの一例を示す図
、第４図は、＃形伸縮マツチング法の一例を説明するた
めの図である。１・・・音声入力部、２・・・スペクトル解析部、３・
・・コードブック蓄積部、４・・・未知入力フレームの
ベクトル量子化部、５・・・コードベクトルＣｋの使用
頻度分布パターン生成部、６・・・標準頻度分布パター
ン蓄積部、７・・・頻度分布パターンマツチング部、８
・・・候補単語同定部、９・・・単語標準パターン蓄積
部、９】・・・候補単語登録部、１０・・・線形伸縮マ
ツチング部、１１・・・半語同定部、１２・・・認識結
果出力部、１３・・・ベクトル間距離テーブル。第１図第　２　図第３図第　４　図手続補正帯（岐）昭和５９年］、１月２１日− 特許庁長官　　志　賀　　学　　殿２、発明の名称人語貧卑語音声認識方式３、補正をする者事件との関係　　特許出願人オオタ　り　ナカマゴメ住所　　東京都大田区中馬込１丁目３番６号氏名（名称
）　　（６７４）株式会社リコー代表者　　浜　　１）
　　　広４、代　理　人住　所　　　　　〒２３１　横浜市中区不老町］−２−
’７シヤトレーイン横浜８０７号６、補正の対象（１）、明細書の発明の詳細な説明の欄（２）、明細書
の図面の簡単な説明の欄７、補正の内容（１，）、明細書第２頁第１４行から１５行目に記載の
「Ｊ：標準パターンのフレーム数、　Ｊ　ヲｒＪ　：標
準パターンの平均フレーム数、」に補正する。（２）、同第５頁第！２行から１３行目に記載の「認識
する手当とを併用し、Ｊを「認識する手段とを併用し、
」に補正する。（３）、同第６頁第８行目に記載のｒｌｌは半語同定部
、」を「１１は単語同定部」に補正する。（４）、同第１３頁第１５行目に記載の［１１・・・半
語同定部、」をｒｌｌ・・・単語同定部、」に補正する
。（５）、第３図を別紙の通り補正する。

Claims

【特許請求の範囲】

単語音声の短時間スペクトルの特徴を表わす特徴ベクト
ルをベクトル量子化する音声認識方式において、単語の
標準パターンの特徴ベクトルをベクトル量子化した擬音
韻パターンベクトルの頻度分布パターンを予め蓄積して
おき、未知入力単語音声をスペクトル分析した特徴ベク
トルを同じくベクトル量子化して擬音韻パターンベクト
ルの頻度分布パターンによつて表わし、前記単語標準パ
ターンの頻度分布パターンとのパターンマッチングを行
なう手段と、単語の標準パターンを時間的に伸縮し、未
知入力パターンとの線形伸縮マッチングを行なう手段と
を併用して大語彙単語音声を認識することを特徴とする
大語彙単語音声認識方式。