JPS617893A - 大語彙単語音声認識方式 - Google Patents

大語彙単語音声認識方式

Info

Publication number
JPS617893A
JPS617893A JP59128815A JP12881584A JPS617893A JP S617893 A JPS617893 A JP S617893A JP 59128815 A JP59128815 A JP 59128815A JP 12881584 A JP12881584 A JP 12881584A JP S617893 A JPS617893 A JP S617893A
Authority
JP
Japan
Prior art keywords
pattern
word
vector
standard
frequency distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59128815A
Other languages
English (en)
Inventor
沢井 秀文
中川 聖一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59128815A priority Critical patent/JPS617893A/ja
Publication of JPS617893A publication Critical patent/JPS617893A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 茨1隻! 本発明は、大語常単語音声認識方式に関するものであり
、大語案単語音声の予備選択に応用可能なものである。
従迷、L捩 単語の標準パターンと未知入力パターンとのパターンマ
ツチングを行なう方法にDPマツチング法(動的計画法
)と呼ばれる方法がある。これは、前記JM¥Uパター
ンの時間軸を非線形に伸縮し、前記未知入力パターンの
時間軸に揃えて両パターンが最も類似するようにして即
ち前記パターン間の距離を最/lXにしてパターンマツ
チングを行なうものである。しかし、上記DPマツチン
グ法は、パターンマツチング時、少なくともT XJ 
XNCl :未知入力パターンのフレーム数、J:標準
パターンのフレーム数、N:登録単語数)回の計算量を
必要とし、膨大な計算量を必要とする。
第4図は、線形伸縮マツチング法の一例を説明するため
の図で、図中、入力パターンAは単語音声の短時間スペ
クトルの特徴を表わす特徴ベクトルoi ” (ail
 y ai2 、−−、 oip )の系列A=a1a
2・・・・・・ql・・・・・・aIで表わせる。ここ
で、Pはパラメータ次元数、■は継続フレーム長である
。また単語nの標準パターンBも同様に特現できる。こ
こで、Jnは単語nの標準パターンの継続フレーム長で
あり、nは単語名を示す通し番号で、N単語の認識セッ
トを考えてΣとするとΣ= (n l n=1121−
−I N)となる。ただし、特定の歌語を指定する必要
がない場合は添え字nを省略して となる。
音声認識処理では、入力パターンAについて認識単語セ
ットのすべての単語のa′fUパターンBnを時間正規
化してパターンマツチングし、N単語の中から最も入力
パターンに近い単語nを探し出す。
線形伸縮マッチンク法では、例えば「3」という単語の
標準パターンBを時間的に線形に歪ませて入力パターン
の時間軸に揃えてパターンマツチングを行なう。このと
き写像関数j =j (i)はj=ない最大の整数を表
わすGauss記号である。標準パターンBを歪み関数
j=[−4]によって歪ま工 せたパターンB′は と表わせる。
而して、前記入力パターンAと標準パターンB′とのパ
ターンマツチングを行なうが、両パターンの距離D’ 
(A、B)を入力パターン長■で正規化して、 とする。ここでd(1,j)は入力パターンAの第iフ
レームと標準パターンB′の第jフレームとのフレーム
間距離で1通常 d (i、 j )= It ai −bj(i) I
fと表わす。ここで、1111は2つのベクトル間の距
離を示す。
■−−煎 本発明は、上述のごとき実施に鑑みてなされたもので、
特に、特徴ベクトルをペクト・ル量子化する音声認識方
式において、標準パターン並びに未知入力パターンの特
徴ベクトルの頻度分布パターン間の形状に基づいて単語
音声を認識する手段と、標準パターンと未知入力パター
ンとの線形伸縮々ツチングを行なって未知入力単語音声
を認識する手当とを併用し、もって、大語索単語音声の
認識を高速で正確に行なうことを目的としてなされたも
のである。
1−一一戊 本発明の構成について、以下、実施例に基づいて説明す
る。
第1図は、本発明を構成するシステムの一実施例を説明
するためのブロック図で1図中、1は音声入力部、2は
スペク1−ル解析部、3はコードブック蓄積部、4は未
知入力フレームのベクトル量子化部、5はコードベクト
ルCkの使用頻度分布パターン生成部、6は標準頻度分
布パターン蓄積部。
7は頻度分布パターンマツチング部、8は候補単語同定
部、9は単語標準パターン蓄積部、91は候補単語登録
部、10は線形伸縮マツチング部、11は半語同定部、
12は認識結果出力部である。
標準頻度分布パターン蓄積部6において、まず、単語n
の標準パターンをR’で表わし、R’=b、 ’b2’
−−b’−=−b ’Jn とする。ここで、b、nは単語nの第j番目のフコ レームの特徴ベタ1ヘル、Jnは継続フレーム長である
次に、前記標準パターンRnをコードブック3に含まれ
る擬音韻パターンベタトル(コードベクトルともいう)
Ck (k=1.2.・・・・・・、に;に:量子化レ
ベル数)で表わす。即ち、前記jn(j=1.’2.・
・・・・・、J’)の各々を前記コードベクトルCkの
うち最も近いもので表わす。
ここで、距離尺度をd(3n、Ck)とし、する。
而して、前記b’ F= 1 + 2 +・・・・・・
J’)で表わしだ標準パターンを とする。
単語nに対して前記コードベクトルCkの使用頻度をY
knとしベクトル里子化された前記標準パターンinを
前記Yknにより表わしたものを標準頻度分布パターン
Rnとすると、 のように表現できる。Rnのパターンは全ての単語n 
(n=1.2.・・・・・・、N)について予め求めて
おき、標準頻度分布パターン蓄積部6に格納しておく。
さて、音声入力部1に入力された未知入力音声をスペク
トル解析部2で周波数分析し、未知入力パターンTを得
る。Tは。
T ” a 1a 2・・・・・・01・・・・・・0
1と表現できる。ここで、aiは第iフレームの特徴ベ
クトル、■は継続フレーム長である。
前記未知入力パターンTもコードブック3によってメタ
トル量子化部4においてベクトル量子化し、各フレーム
。jごとに最も近いコードベクトルCkによって表わし
たパターンを子とする。子は。
T=a1 a2 ・・・・・・ai ・・・・・・aI
と表わす。次に争を前記コードベクトルCkの使用頻度
Xkによって表わしたパターンをパターン生成部5で求
め、このときのパターンをT=XIX2・・・・・・X
k・・・・・・XKとする。
次に、前記パターン蓄積部6の標準頻度分布パターンR
’と前記パターン生成部5の未知入力の頻度分布パター
ンTとのパターンマツチングをパターンマツチング部7
で行なう。即ち、前記標準パターンR’と未知入力パタ
ーンTとの単語間距離をD (Rn、丁゛)どし、前記
標′$頻度分布バタパターンTの使用頻度Xkとの距離
尺度をdfとし、前記単語間距離D (Rn 、 1”
)を前記入力フレーム長■と単語0のフレーム長Jnの
和で正規化して、 で表わす。
前記距離尺度dfとしては、通常絶対値距離を用い、 df(Y’ k、 Xk) = l Ynk−Xk  
1とする。
また、(2)式における距離尺度d「とじて、知人力頻
度分布パターンTの頻度数Xkとの値の差が例えば1/
2〜2倍の範囲であれば、前記距離尺度dfをOとする なる距離尺度を使用す、ることもできる。但し、α。
β、γはパラメータであり、αは、(3)式の分母を0
としないために例えばα=1とする。βは距離尺度の調
整用パラメータであるが1通常β=0とし、γはγ=1
として使用する。
上述のごとき距離尺度を使用することにより標準パター
ン並びに未知入力パターンの時間的な非線形伸縮に強い
パターンマツチングを行なうことがテキル。(3)式(
7) df(Y’ k、 Xk) ノ計算は予め行なっ
ておき、テーブルに格納しておけば、任意のYnk、X
kとの組み合せに対する距[1df(Ynk、Xk )
は、前記テーブルを引用することに上って直ちに求めら
れる。
また、前記頻度分布パターンRnおよびTを作成する時
に、最も近い第1候補のコードベクトルに対しては例え
ば頻度数(カウント数)を2.第2候補のコードベタ1
−ルに対しては例えば頻度数(カウント数)を1とし、
コードベクトル間の類似性を返映させると、さらにパタ
ーンの時間的な非線形伸縮に強いマツチングを行なうこ
とができる。
而して、前記単語間距離D(R’ 、T)を全ての辞書
単語n(n=1,2.  ・・・・、N)について計算
し、候補単語同定部8において前記D(Rn 、T)* の値がある閾値り以下になる11語を候補単語として選
択し、候補単語登録部91に登録する。このとき選択さ
れた候補単語セットを ΣCand = (n l n=]、 2.−・・、 
NCand) 、 (NCand (N)とする。次に
線形伸縮マツチング部10において前記未知入力パター
ンと候補単語標準パターンとのマツチングを行なう。即
ち(1)式の単語間距離D’ (Rn 、T)を候補単
語セットΣCandに属する単語n(nEΣcand)
全てについて計算し、単語同定部11において、前記D
’ (R’ 、T)の値が最小となる単語賃を前記未知
入力単語の認識結果として認識結果出力部12で出力す
る。即ち、nは で表わされる。
第2図はご第1図の構成において、ベクトル間距離テー
ブル13髪追加した構成図であり、前記9の単語の標準
パターンおよび未知入力パターンの特徴ベグ1−ルはど
ちらもベクトル量子化されて。
コードブック3内のコードベクトルCkによって表現さ
れており、各コードベクトル間の距離は予め計算してお
いたものがベクトル間距離テーブル13に格納されてい
る。而して、線形伸縮マツチング部10において、前記
候補単語標準パターン91と未知入力パターンとの線形
伸縮マツチングを行なうこともできる。なお、第3図に
ベクトル間距離テーブルを示す。
羞−一米 以上の説明から明らかなように1本発明によると、特徴
ベクトルをベクトル量子化したコードベクトルの分布パ
ターンに基づいて大語索単語を認識することにより候補
単語に絞っておき、さらに、線形伸縮マツチングにより
パターンマツチングを行なって単語音声認識を2段階で
行なうようにしたので、高速でかつ正確な認識が可能と
なる。
【図面の簡単な説明】
第1図は、本発明の一実施例を説明するためのブロック
線図、第2図は、本発明の他の実施例を示すブロック線
図、第3図は、ベクトル間距離テーブルの一例を示す図
、第4図は、#形伸縮マツチング法の一例を説明するた
めの図である。 1・・・音声入力部、2・・・スペクトル解析部、3・
・・コードブック蓄積部、4・・・未知入力フレームの
ベクトル量子化部、5・・・コードベクトルCkの使用
頻度分布パターン生成部、6・・・標準頻度分布パター
ン蓄積部、7・・・頻度分布パターンマツチング部、8
・・・候補単語同定部、9・・・単語標準パターン蓄積
部、9】・・・候補単語登録部、10・・・線形伸縮マ
ツチング部、11・・・半語同定部、12・・・認識結
果出力部、13・・・ベクトル間距離テーブル。 第1図 第 2 図 第3図 第 4 図 手続補正帯(岐) 昭和59年]、1月21日− 特許庁長官  志 賀  学  殿 2、発明の名称 人語貧卑語音声認識方式 3、補正をする者 事件との関係  特許出願人 オオタ り ナカマゴメ 住所  東京都大田区中馬込1丁目3番6号氏名(名称
)  (674)株式会社リコー代表者  浜  1)
   広 4、代 理 人 住 所     〒231 横浜市中区不老町]−2−
’7シヤトレーイン横浜807号 6、補正の対象 (1)、明細書の発明の詳細な説明の欄(2)、明細書
の図面の簡単な説明の欄7、補正の内容 (1,)、明細書第2頁第14行から15行目に記載の
「J:標準パターンのフレーム数、 J ヲrJ :標
準パターンの平均フレーム数、」に補正する。 (2)、同第5頁第!2行から13行目に記載の「認識
する手当とを併用し、Jを「認識する手段とを併用し、
」に補正する。 (3)、同第6頁第8行目に記載のrllは半語同定部
、」を「11は単語同定部」に補正する。 (4)、同第13頁第15行目に記載の[11・・・半
語同定部、」をrll・・・単語同定部、」に補正する
。 (5)、第3図を別紙の通り補正する。

Claims (1)

    【特許請求の範囲】
  1. 単語音声の短時間スペクトルの特徴を表わす特徴ベクト
    ルをベクトル量子化する音声認識方式において、単語の
    標準パターンの特徴ベクトルをベクトル量子化した擬音
    韻パターンベクトルの頻度分布パターンを予め蓄積して
    おき、未知入力単語音声をスペクトル分析した特徴ベク
    トルを同じくベクトル量子化して擬音韻パターンベクト
    ルの頻度分布パターンによつて表わし、前記単語標準パ
    ターンの頻度分布パターンとのパターンマッチングを行
    なう手段と、単語の標準パターンを時間的に伸縮し、未
    知入力パターンとの線形伸縮マッチングを行なう手段と
    を併用して大語彙単語音声を認識することを特徴とする
    大語彙単語音声認識方式。
JP59128815A 1984-06-22 1984-06-22 大語彙単語音声認識方式 Pending JPS617893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59128815A JPS617893A (ja) 1984-06-22 1984-06-22 大語彙単語音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59128815A JPS617893A (ja) 1984-06-22 1984-06-22 大語彙単語音声認識方式

Publications (1)

Publication Number Publication Date
JPS617893A true JPS617893A (ja) 1986-01-14

Family

ID=14994096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59128815A Pending JPS617893A (ja) 1984-06-22 1984-06-22 大語彙単語音声認識方式

Country Status (1)

Country Link
JP (1) JPS617893A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327601A (en) * 1992-03-09 1994-07-12 Minnesota Mining And Manufacturing Company Split abrasive roll attachment system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327601A (en) * 1992-03-09 1994-07-12 Minnesota Mining And Manufacturing Company Split abrasive roll attachment system

Similar Documents

Publication Publication Date Title
US7996222B2 (en) Prosody conversion
US4723290A (en) Speech recognition apparatus
US20200395028A1 (en) Audio conversion learning device, audio conversion device, method, and program
JP2815579B2 (ja) 音声認識における単語候補削減装置
JPS62235998A (ja) 音節識別方式
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JPH01997A (ja) ベクトル量子化を用いた音声認識方式
CN114863948A (zh) 基于CTCAttention架构的参考文本相关发音错误检测模型
JPH01998A (ja) スペクトログラムの正規化方法
JPS61219099A (ja) 音声認識装置
JPS617893A (ja) 大語彙単語音声認識方式
JP2853418B2 (ja) 音声認識方法
Aini et al. Emotion recognition from speech using convolutional neural network and combination of four speech features
JPS617891A (ja) 単語音声認識方式
Savchenko et al. Method for Automatic Online Updating of Personal Biometric Data Based on Speech Signal of the Biometric System User
JPS617892A (ja) 単語音声認識方式
JPH03201027A (ja) 学習を用いた動的計画法
JP2862306B2 (ja) 音声認識装置
Yoshida et al. Voice Quality Change Due to the Amount of Training Data for Multi-and Target-Speaker WaveNet Vocoders
JPH0619497A (ja) 音声認識方法
JPS60164800A (ja) 音声認識装置
JPS60179799A (ja) 音声認識装置
JPH0320759B2 (ja)
JPS6312000A (ja) 音声認識装置
Vosnidis et al. Use of clustering information for coarticulation compensation in speech synthesis by word concatenation.