JPS6180298A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6180298A
JPS6180298A JP59203446A JP20344684A JPS6180298A JP S6180298 A JPS6180298 A JP S6180298A JP 59203446 A JP59203446 A JP 59203446A JP 20344684 A JP20344684 A JP 20344684A JP S6180298 A JPS6180298 A JP S6180298A
Authority
JP
Japan
Prior art keywords
vowel
word
distance
sequence
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59203446A
Other languages
English (en)
Inventor
樺澤 哲
英一 坪香
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59203446A priority Critical patent/JPS6180298A/ja
Publication of JPS6180298A publication Critical patent/JPS6180298A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 、本発5明は音声認識装置に関する。
従来例の構成とその問題点 人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前記単語辞書中のどの
単語に最も近いかを予め定められた規則によって計算し
、最も類似している単語を認識結果とするものである。
ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する。
(2)認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅く々る。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
以上の欠点を回避するだめの方法として認識の単位を子
音士母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であり、単音節は仮名文字に対応しているから、この
方法によれば、日本語の任意の単語あるいは文章を単音
節列に変換する(認識する)ことができ、前記(1)〜
(3)の問題はすべて解決されることになる。しかし、
この場合の問題として調音結合とセフメン1チージヨン
がある。調音結合は、音節を連続して発声すると各音節
は前後の音節の影響を受け、スペクトル構造が前後に接
続される音節によって変化する現象である。セグメンテ
ーションは、連続して発声された音声を単音節単位に区
切ることであるが、これを確実に行う決定的な方法は未
だ見出されていない。この2つの問題を解決するために
、現在のところ各単音節を区切って、発声することが行
われており、実用化されている装置もある。
第1図は学音節音声認識をパターンマツチングで行う装
置の一般的な補正である。101は音声信号の入力端子
である。102は特徴抽出部であって、入力音声信号を
、フィルタバンクやFFT。
LPCなどにより分析し、数ミリ秒毎に特徴ベクベき単
音節音声を同様な手段によって特徴ベクトルの系列に変
換したものを各音節に対する標準パターンRn−b?、
す・・・・・・bnI・・・・・・btn(ただし、n
−1,2,・・・・・・、N:Nは標準パターンの数)
として記憶する部分である。104はパターン比較部で
あって、特徴抽出部102の出力である入力パターンA
と、標準パターン記憶部103に記憶されている夫々の
標準パターンRn を比較し、両者の距離D(A、  
Rn)を算出する。105は判定部であって、n= a
rc4min (D (A、 Rn) 〕により、入入
力ターンに最も近い標準パターンRnを判定する。
z=argmin[f(z):]はf (Z)を最小に
する2を2とするという意味である。106は判定結果
を単音節認識結果として出力する出力端子である。パタ
ーン比較部104におけるパターン比較は、動的計画法
を用いた所謂DPマツチングや線形シフトマツチング等
がよく用いられる。また、先ず母音を認識して候補母音
段を決定してから、その母音段に属する標準パターンを
用いて子音部を認識することにより、認識率とマツチン
グの速度を向上させているのが一般的である。
しかし、単音節音声は、持続時間が短かく、「シ」、「
チ」等子音部の微妙な差によって区別しなければならな
いものが多く、単語音声のように高い認識率を得るのが
困難である。
この問題を解決するために、単語辞書を用いる方法が考
えられている。第2図はその例である。
同図において、第1図と同一の番号を付したブロックは
、第1図と同一の動作を行う。107は単語辞書で、認
識すべき単語WQ(、/=1.2.・・・・・・。
L:Lは登録単語数)が単音節に対応する記号列が−s
”、s”・・・・・・8隻・・・・・・S、”1(SM
は単語−のに番目の音節)として記憶されている。10
8は単語比較部であって、入力単音節列T−A1.A2
・・・・・・Am・・・・・・AM(Mは入力単語の音
節数)であるとき、入力単語の音節数に等しい音節数の
単語辞書107に記憶されているw” −s’4’ 、
 s”、’・・・・・・515I′(−′は音節数Mの
単語)に対し、パターン比較部104で算出された距離
D (Am、 S五’)から各l′について を算出する。109は判定部であって、なる↑・を求め
、−′を認識単語と判定する。
110は認識された単語を出力する出力端子である。
以−ヒのように、単語辞書の知識を用いれば音節のみで
なくその絹合せである単語全体としての妥当性を考慮す
ることになるので、認識率は向上する。まだワードプロ
セッサへの入力を考えるとき、前記単語辞書は仮名漢字
変換を行うだめの辞書を共用することができ、単語辞書
は音声認識用として特別に準備する必要はない。
しかし、単語辞書の単語数は通常3万以上にもおよび、
単語比較部108における計算量が無視できなくなる。
前以って母音系列を認識して最終的に照合すべき単語を
限定することによってこの問題を解決する装置が特願昭
58−143181号明細書に述べられている。
即ち、入力音声信号を特徴ベクトルの系列に変換する手
段と、入力音声信号を音節毎に区切る手段と、前記特徴
ベクトルの系列から前記各音節の後続母音を認識する手
段と、前記後続母音列と同じ後続母音列を有する単語あ
るいは文節の音節列を記号列として得る手段と、前記記
号列と前記入力音声信号から得られた音節列とをマツチ
ングする手段と、このマツチングの結果、前記入力音声
信号に最も近い前記単語あるいは文節を前記入力音声に
対応する認識結果と判定する判定手段とを備えた音声認
識装置である。
このようにすると、例えば、4音節の単語の場合、母音
の出現確率が等しいとすれば、ある特定の母音列の生ず
る確率は(1/s)’=1/625となり4音節の単語
1万語あるとすれば、ある特定の母音列に対応する4音
節語は16語となり、実際に比較計算をしなければなら
ない単語は激減する。余裕をみて、第2候補の母音を勘
定に入れるとしても(215)、1/39となり、同様
に4音節の単語が1万語あるとすれば、比較計算をすべ
き4音節語は266語となり、大幅に減少する。さらに
促音や撥音も上記母音同様に処理することにすれば、さ
らに比較計算を減少させることができる。これ1゜ ら旬音や促音、撥音等の認識1dはぼ完全に行われるの
で、計算量の減少のみでなく認識率自体も向上する。
以上の方法は、各単音節を離散的に(区切って)発声す
る場合にはそのまま適用できるが、単音節の離散発声に
より日本語の文章を入力するのは、話者によって緊張を
強いるものであり、連続発声により入力できることが望
ましい。
連続発声された場合でも、各単音節をその音声から分離
することができれば、前記の方法を適用することは可能
である。しかしながら、連続的に発声された音声から各
音節の区切りの検出を高糖発明の目的 本発明は、単語または文節の単位で連続発声された音声
を認識する音声認識装置に関し、より詳細には、単語辞
書とのマツチングの速度を向上せしめることを目的とす
る。
発明の構成 本発明は、連続して発声された音節列に対しても、前記
従来例と同様に認識すべき単語を構成する各音節の後続
母音列を先ず認識し、最終的にマツチングすべき単語の
候補を絞り、認識処理の速度を」二げると共に認識率の
向上も果さんとするものであって、入力音声信号を特徴
ベクトルの系列に変換する特徴抽出手段と、前記入力音
声信号の定常点を抽出する定常点抽出手段と、抽出され
たそれぞれの定常点を母音と見做して、母音標準パター
ンと比較などして前記定常点の特徴ベクトルの各標準パ
ターンに対する距離または類似度を算出し、その距離ま
たは類似度に基づいて前記各定常点の母音認識を行う母
音認識手段と、前記母音認識手段で得られた母音系列の
うち前記各母音認識結果がもつ前記距離捷だは類似度と
距離または類似度に関して予め定めた閾値とを比較して
、距離が閾値よりも小、または類似度が閾値が大なる母
音認識結果のみを出力する閾値判別手段と、単語辞書の
マツチングすべき単語または文節を構成する後続母音列
のうち、前記閾値判別手段で得られるtU音音列列含む
単語1frlJ:文節を構成すを後続母音系列を予備選
択する旬刊系列予備選択手段と、前記母音認識手段で得
られた前記距離または類似度に基づいて、前記母音系列
予備選択手段で得られた母音系列と前記定常点の特徴ベ
クトル列との比較を行い、両者の系列としての距離また
は類似度を算出して、その結果距離が最小(類似度が最
大)となる母音系列を見出すと共に前記定常点のうち各
母音に対応する定常点を判定する母音定常部判定手段と
、この母音列に対応する各単語またII−ji文節に対
応するV、CV、VV、VCV(■は母音、Cは子音)
等の音節標準パターンの結合と前記入力パターンとの距
離捷たは類似度を算出して得られる距離の最小値(類似
度の最大値)を与える単語1だは文節を認識結果として
判定する判定手段とを含むものである。
実殉例の説明 以後、「単語」という言葉は1文節」という言葉も代表
するものとする。−1だ、「類似度」は「距離」で説明
する。即ち、距離が最小とは類似度が最大ということで
ある。
発声された単語音声からその単語を構成する各単音節の
境界を精度よく検出するのは大変困難であるが、本発明
の基本的な原理はスペクトルの定常な点の検出はほぼ確
実に行うことができ、各母音の中心フレームは必ずスペ
クトルの定常点付近にあるということ、まだ各母音の認
識は必ずしも完全ではないが、かなり高精度で認識でき
るという事実に基づいている。
入力音声パターンにおいて定常となり得る点くフレーム
)は、母音、有声子音、摩擦子音その他であるが、各母
音の中心フレームは、はぼ確実にこの定常点に含まれて
いると見做して差支えはない。そこでどの定常点が母音
として最も妥当で距離が予め定めた閾値よりも小さい母
音については、それらの結果を正解母音であると見做し
て、単語辞書の各単語に対応した母音系列のうちから、
前記正解母音の系列を含む前記母音系列のみを予棚選択
して母音系列の候補を絞り、前記予備選択された母音系
列と前記定常点に対応する特徴ベクトルを母音として認
識した結果得られる母音系列との距離を周知のDPマツ
チングにより求め、最も距離的に小さい母音系列を入力
単語音声の母音系列とし、このとき得られるマツチング
経路上で、前記旬刊系列標準パターンのそれぞれの母音
に対応する前記定常点をその母音に対する定常点とすれ
ばよい。このようにすることによって、前記母音以外の
定常点は排除され、入力パターンに対する正しい母音系
列を決定することができる。このようにして入力パター
ンに対応する母音系列が得られると、単語を構成する単
音節の後続母音の系列が前記入力パターンに対応する母
音系列に等しい単語が最終的な認識候補単語として選ば
れるのであって、前記説明によりその数は大幅に減少す
る。この選ばれた単語について次のようなマツチングを
行う。
チングすべき単語はw”−cjv1cjv2・・・・・
・C4vMである。ただしC譬 は、第1単語を構成す
る第1番の単音節の子音であって、c8v、が単母音の
場合ハC♀■、−v1.マタ■、C仏v、+1力2重母
音ノ場合ハvt Cy+1”i+1 =v、 ”i+1
 テ表現t ルモ(’) (!: スる。このとき、入
力パターンと単語W”とのマツチングは次のようにして
行うことができる。即ち、前記の如くして求められたi
番目の母音中心フレームからi+1番目の母音中心フレ
ームの入力パターンの部分パターンをA(i、  i+
1)(ただしA(o、1)は語頭から1番目の定常点ま
での入力パターンの部分パターンとする)、前記4番目
の単語W”のi番目の母音を先行母音とし、i+1番目
の母音を後続母音とし、i番目とi+1番目の母音で挾
まれる子音CL1 を先行母音と後続母音で挾捷れる子
音とするVCV音節標準パターンをB”(i、i+i)
(ただし、B(o、1)は前記単語の1番目のCVまた
は■音節標準パターンとする)とし、前記部分パターン
A(i、i+1)と前記標準パターンB”(i、t+1
) との距離をD(A(i、i+1)、B  (i+i
+1))とすれば、入力パターンTと単語がの距離DW
(T、W”)をDW(T 、W” )−r D (A(
i 、i+1 )、Bfl(i 、i+1 ) )i−
0 で定義し、 ′−°′テ”n (Dw (T・W))オオや、工おJ
軸ユ、よよオ、、。資、0ここで、D(A(i、i+1
)、B(t、i+1))は入力パターンの部分パターン
と各音節を構成する特徴ベクトルの系列同志の距離とし
て周知のDPマツチングにより計算される。
以上の原理に基づく本発明の一実施例を図面と共に説明
する。
第3図は本発明の一実施例を示すブロック図である。1
は音声信号の入力端子、2は特徴抽出部であって、例え
ば2oチヤネルのフィルタパンクを用い、1フレームを
10m5ecとすれば、その出力には10m5ec毎に
20個の数値(特徴ベク!トル)が得られる。3は振幅
正規化部であ−て、17、 入力音声信号のレベル変動の影響を除去するために、前
記特徴ベクトルの絶対値を一定の値にする為のものであ
る。例えば入力の第iフレームがai−(ai1+”i
2+・・・・・・+ain)  であるとすれば、正規
化後のベクトルa・ は、 に−1昌a、”+a、、、”+丁−二77− と置けば
、→                  ”1nai
′−(−[、]c、・・・・・・、−7−)等とするこ
とができる。4は定常点抽出部であって、入力の特徴ベ
クトルの系列から入力音声信号のスペクトルの定常なフ
レームを抽出するものである。これはフレーム毎に前後
数フレームのスペクトルの分散ヲ求め、この分散が極小
になるフレームとして検出できる。即ち、各フレームに
対し前後Nフレームについて分散σ1を求める場合は、
第iフレームの特徴ベクトルを前記ai とすれば、の
ように定義することができる。
6は母音標準パターン記憶部であって、各母音(撥音も
含む)に対応する特徴ベクトル(スペクトル)が記憶さ
れている。これは予め話者が発声した母音音声に特徴抽
出部2及び振幅正規化部3での処理を施した後、その定
常部の特徴ベクトルを抽出したものである。6は母音認
識部であって、入力音声パターンのそれぞれの定常フレ
ームの特る母音を母音認識結果として記憶する。ベクト
ル間距離としては周知のユークリッド距離、市街地距離
等が使用され得る。第4図はこの母音認識の様子を示し
ている。b1〜b6は母音/a/〜/N/に対応する特
徴ベクトル、1〜fは入力音声の定常点に対し語頭側か
ら順次付された番号、d(i、’j)は母音標準パター
ンb、  と第1番の定常フレ・− レタムの特徴づクトルとのベクトル間距離であって、例
えば、定常点1の欄においてd(1,s)が最小であれ
ば定常点1は/u/と認識される。7は母音系列辞書で
あって、単語辞書を構成する各単語の単音節の後続母音
の系列が記憶されている。
例工ば、「オオサカ」「トヨナカ」「ヨコノ・マ」等の
単語に対する母音系列は10/10//a//a/であ
る。8は閾値判別部であって、前記母音認識結果のもつ
前記ベクトル間距離と予め定めた閾値とを比較して、前
記ベクトル間距離が閾値よりも小さい前記母音認識結果
のみを予備選択部9に送出する。例えば前記の例で、母
音系列10/10// −// −/のもつ前記ベクト
ル間距離をそれぞれd(115)l d(215)t 
d(3,1)l d(411)とし、d(2,cs)と
d(3,1)が閾値δよりも小さく、d(1,5)とd
(4,ei)が閾値δよりも大きいとすれば、前記ベク
トル間距離d(2゜6)とd(3,1)に対応した母音
10/と/a/が、この順序で予備選択部9に送出され
る。9は予備選択部9であって、前記閾値判別手段8か
ら語辞書のマツチングすべき単語を構成する単音節の後
続母音系列から予備選択する。例えば、前記の例で、母
音系列10/と/−/をこの順序で含む母音系列、例え
ば、10/10//a//a/(オオサカ等)、/a/
/−/10//a/ (タカ才力等)や10//a/1
0//a//i/ ()マコマイ等)等の母音系列が予
備選択され、/L//−//i//u//i//u/(
キタキュウシュウ等)等の母音系列は除外される。10
は母音系列間距離計算部であって、前記予備選択部9で
予備選択された母音系列と前記定常点フレームに対応す
る母音系列との距離をDPマツチングにより求める。
第6図は、その様子を説明する図であって、bは「ヨコ
ハマ」と発声した場合の電力波形と各音韻との対応を示
し、「。」は定常点を示している。
この例では母音部は必ず定常となっており有声子音/m
/も定常点となっており、母音として、例えば/u/と
して認識されている。aはこの定常はDPマツチングを
行う際のマツチング経路の拘束条件の例を示す。マツチ
ング経路の荷重和が入力パターンの定常点数のみに依存
するようにすれば、(イ)に対する漸化式は 初期値 (J(111)−d’ (111)(ロ)に対
する漸化式は 初期値 q(1,1)−d′(1,1)で表わされる。
d’(i、j)は入力音声の第i定常点の母音認識結果
をVt +  マツチングすべき母音22、 する特徴ベクトルbv、との距離として定義できる。
あるいは簡単には、V 1−V iのときd’(i、j
)=1゜Vi笑v3のときは”(’+1)−〇と定義で
きる。
(イ)は入力音声の定常点が最大2つ連続して飛ばして
マツチングされ得ることを意味し、(ロ)はさらに標準
パターンの特徴ベクトルが一つ飛ばしてマツチングされ
得ることを意味している。即ち、(イ)は母音でない定
常点が最大2つ連続して挿入される場合を許し、(ロ)
は加うるに母音として検出されるべき定常点が1つ脱落
する場合を許すということである。また、前記漸化式に
おいて、cy(i、5)は格子点(i、Nまでの始点(
1,1)から最適の(cr(i、i)の最小値を与える
)マツチング経路に沿う累積距離である。(イ)、(ロ
)は単に経路制限条件の一例に過ぎず、他にも種々前え
られ得るのであって、本例は本発明を限定するものでは
ない。結局、前記定常点母音系列と母音辞書の母音系列
との距離は、定常点の数を■、マツチングする母音系列
の母音数を工とするとq(I、J)′j−j)r与えら
れる。
aは「ヨコハマ」と発声した入力音声の定常点列と母音
系列10/10//a//a/をマツチングする場合の
一例であって、(1oo)は選ばれた経路で、有声子音
/m/の飛ばされている様子が示されている。この経路
が求まれば、入力音声の各定常点が如何なる母音と見做
すべきか決定できる。11は以上のようにして求められ
た各母音列に対するq(I+’)のうち最小値を与える
母音列を判定し記憶する母音系列判定・記憶部である。
12は判定された母音系列に対応して入力音声の定常フ
レームの位置を記憶する母音定常フレーム記憶部である
。13は単語辞書であって認識すべき単語が記憶されて
いる。14は電力計算部であって、入力音声信号の電力
を求める。16は音声区間検出部であって、入力音声電
力の大きさから入力単語音声の始端、終端を検出する。
16はバッファメモリであって振幅正規化部3で振幅正
規化された入力音声パターンを前記音声区間検出部16
の出力に従って前記始端から終端まで一時的って、V、
CVについては語頭から後続母音の定常部まで、VV、
VCVについては先行母音の定常部か後続母音の定常部
まで、それぞれ対応する特徴ベクトルの系列を記憶して
いる。この特徴ベクトルは予め話者の発声したV、  
CV、 V V、 VCV音声に特徴抽出部2.振幅正
規化部3で行うのと同様な処理を行って得られたもので
ある。18は単語辞書13で指定される前記音節標準パ
ターンのそれぞれと、バッファメモリ16の入力音声パ
ターンとのDPマツチングを、母音定常部記憶部12に
記憶されている入力音声パターンのフレームを始端ある
いは終端としてマツチングする単語間距離計算部である
。即ち、前記10〃o///a//a/の母音系列に対
しては「オオサカ」「ヨコハマ」「トヨナカ」等の学語
とマツチングすることになるが、例えば、「ヨコハマ」
とマツチングするときは、音節標準パターン記憶部17
に対しては、/y o // o k o/10 h 
a //a m a/なる音節に対する標準パターンが
選択され、バッファメモリ16の出力の始端から第1の
定常点までは/yO/の標準パターンと、第1の定常点
から第2の定常点までは10 k o /の標準パター
ンと、第2の定常点から第3の定常点までは10 h 
a /の標準パターンと、第3の定常点から第4の定常
点までは/ama/の標準パターンとマツチングするこ
とになる。第6図はこの様子を例示するものである。
aは入力パターンの定常点から定常点までと、標準パタ
ーンとのマツチングの様子を示しており、横軸は入力パ
ターン、縦軸は標準パターンである。
101は入力パターンの電力を示し、100は標準パタ
ーンの電力を示す。
102.103は入力パターンの定常点を示す。
前記「ヨコハマ」とマツチングする例では、102を第
2の定常点、103を第3の定常点とすれば、100は
10 h a /に対する標準パターンということにな
る。104はマツチング経路である。bはマツチング経
路の拘束条件の例である経路上に示した数字はその経路
に沿う重みであり本例では荷26、( 次のようになる。
C1n(111)=dn(111) D(A(i + i+1)、BQ(t + i+1))
=qn(P+on)ただし、A (i 、 i+1 )
、  B’(i 、 i+1 )は前記記法に従い、p
は入力パターンの部分パターンA(i、L+1)の定常
点iのフレームを1とするときのフレーム番号、qは標
準パターンBμ(i、i+1)のフレーム番号、PはA
(i、i+1)のフレーム数。
QnはB!l(i 、 i+1 )のフレーム数、nは
B”(i。
i+1)に対応する標準パターンの番号1  dn(P
Iq)はA(i、i+1)の第pフレームの特徴ベクト
ルと、B′!(i、i+1)の第qフレームの特徴ベク
トルとのベクトル間距離である。ここに示した漸化式も
一例にすぎず、他にも種々考えられるのであ離D(A(
i、i+1)、B  (i、t+1)から単語WαQ 
   ・ に対する入力パターンTの距離 が求められる。1は判定部であって、以上の如く求めら
れたDw(T、W’)のlに関する最小値lを求め、W
↑を認識結果とするものである。20は出力端子である
。次に語中に促音を含む場合について説明する。
音声区間検出部16は、音声区間を検出すると共に促音
の検出も行う。即ち、無音が例えば250m s e 
c以上続けば入力音声が終了したと見做し、無音区間が
100 m5ec −250m5ecのときは促音と見
做すことができる。促音を検出することによって、マツ
チングすべき単語辞書の単語をさらに限定することがで
き、信頼性および処理速度の向上をはかることができる
。即ち、母音系列辞書は促音を含んだ形で構成されてお
り、促音が検き母音列として選ばれる。母音系列判定記
憶部11では促音を含んだ形で最適にマツチングされる
母音系列が記憶される。従って、単眼辞書13における
単語は、促音を含んだ形での母音系列で限定される単語
が最終的に単語間距離計算部18でマツチングされる対
象となる単語として選ばれる。
単語間距離計算部18では、促音が検出される毎に語頭
あるいは一つ前の促音終了後のフレームからのDPマツ
チングを行う。第7図はその具体例であって、発声した
音声の電力波形を示す。200は語頭、201は第1の
定常点、202は促音の開始、203は促音の終了、2
04は第2の定常点、206は第3の定常点、206は
語尾のそれぞれフレームである。この場合、母音系列判
定記憶部11には前記説明に従って、/a、//Q〃0
〃u/が記憶されているものとする(/Q/は促音を示
す記号)。このとき単語辞書13で選ばれる単語は「サ
ラトウ」「ナツトクコ等である。
「サラトウ」とマツチングする場合は、200パターン
とのマツチング距離と、203〜204の入力パターン
と’/ t o/に対応する」/ t o /に対応す
る標準パターンとのマツチング距離と、204〜206
の入力パターンと10 t o/に対応する標準パター
ンとのマツチング距離の和を以て、単語「サラトウ」と
入力音声ノ々ターンとのマ・ノチング距離とする。
促音の検出を行うと共に無音を検出して、この無音に対
しても促音に対して行ったのと同様の処理を行うことも
できる。即ち、無音、有音の判定の為の閾値を適当に選
べば、無声破裂音/p//l//に/の前には必ず無音
となるようにすることができる。このようにすればさら
に単語を限定することができる。例えば、前記の例にお
いて、207〜208が無音であって、促音でない(例
えば無音区間が100 m5ec以下)であるとすれば
、その直後は無声破裂音として単語「サラトウ」はマツ
チングの対象から排除される。マツチングは無ットク」
はマツチングの対象単語であるが、この単語とマツチン
グする場合は、入力パターンの200〜201と/na
/に対応する標準パターン。
入力パターンの203〜204と/lO/に対応する標
準パターン、入力パターン208〜206と/k u/
に対応する標準パターンとのそれぞれのマツチング距離
の和を以て単語「サラトウ」と入力音声パターンとのマ
ツチング距離とすれば良い。
さらに、例えば無声摩擦音の検出等より多くの、各単語
についての属性を検出すれば、マツチングすべき候補単
語をさらに限定でき、処理速度の向上、認識率の改善等
が可能である。これをなすには第3図において単語特徴
抽出部21を付加すればよい。例えば無声摩擦音を抽出
することにすれば、前記の例のように母音列が/a//
Q/10//u/で語頭と10〃O/の間に摩擦音/%
/があることを単語特徴抽出部21が検出したとすれば
、母音系列判定記憶部11には/%//−//Q//係
〃0/トウ」「ナットク」等はマツチングの対象から除
かれる。
々お、本実施例では、母音系列を一つのみ選ぶようにし
て説明したが、母音認識部6における母音の認識誤りに
対処するため、母音認識結果のうち、距離の大きな(す
なわち閾値を越える)部分については、認識結果も−通
りではなく、第n候補まで選ぶこともできる。また、母
音系列の判定についても、最適のもののみでなく、複数
候補選ぶことができるのはもちろんである。
発明の効果 本発明によれば、単音節を連続して発声した場合でも、
母音定常部を効率的にしかも適切に抽出することにより
、比較照合すべき単語と音節標準パターンを限定するこ
とができ、認識率、照合速度において大幅々改善が得ら
れるものである。
【図面の簡単な説明】
第1図は従来の単音節音声認識装置を示すプロ音声認識
装置を示すブロック図、第4図〜第7図は本発明装置の
一部の動作を説明する説明図である。 1・・・・・・音声信号入力端子、2・・・・・・特徴
抽出部、3・・・・・・振幅正規化部、4・・・・・・
定常点抽出部、5・・・・・・母音標準パターン記憶部
、6・・・・・・母音認識部、7・・・・・・母音系列
辞書、8・・・・・閾値判定部、9・・・・・予備選択
部、1o・・・・・・母音系列間距離計算部、11・・
・・・・母音系列判定記憶部、12・・・・・・母音定
常部記憶部、13・・・・・・単語辞書、14・・・・
・・電力計算部、15・・・・・・音声区間検出部、1
6・・・・・・バッファメモリ、17・・・・・・音節
標準パターン記憶部、18・・・・・・単語間圧に#l
 g−1算部、19・・・・・・判定部、2o・・・・
・・認識結果出力端子、21・・・・・・単語特徴抽出
部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第4
図 第5図

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号を特徴ベクトルの系列に変換する特徴抽出
    手段と、前記入力音声信号の定常点を抽出する定常点抽
    出手段と、抽出されたそれぞれの前記定常点を母音と見
    做して母音認識を行う母音認識手段と、前記母音認識手
    段で得られた母音系列のうち各母音認識結果がもつ距離
    または類似度と距離または類似度に関して予め定めた閾
    値と比較して、距離が閾値よりも小、あるいは類似度が
    閾値よりも大なる母音認識結果のみを出力する閾値判別
    手段と、前記閾値判別手段で得られる母音系列に基づい
    て、単語辞書のマッチングすべき単語または文節を構成
    する単音節の後続母音系列を予備選択する母音系列予備
    選択手段と、前記母音系列予備選択手段で予備選択され
    た母音系列と前記母音認識手段で得られた母音系列との
    比較を行い、両者の系列としての距離または類似度を算
    出する母音系列間距離算出手段と、前記母音系列間距離
    算出手段による算出の結果最も距離的に小さくなる(類
    似度の大きくなる)母音系列を見出すと共に前記定常点
    のうち各母音に対応する定常点を判定する母音定常点部
    判定手段と、前記母音定常部判定手段で判定した母音系
    列に対応する各単語または文節に対応するV、CV、V
    V、VCV(Vは母音、Cは子音)等の音節標準パター
    ンの結合と前記入力パターンとの距離を算出する単語間
    距離計算手段と、前記単語距離計算手段により算出され
    る距離の最小値(類似度の最大値)を与える単語または
    文節を認識結果として判定する判定手段とを具備するこ
    とを特徴とする音声認識装置。
JP59203446A 1984-09-28 1984-09-28 音声認識装置 Pending JPS6180298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59203446A JPS6180298A (ja) 1984-09-28 1984-09-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59203446A JPS6180298A (ja) 1984-09-28 1984-09-28 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6180298A true JPS6180298A (ja) 1986-04-23

Family

ID=16474246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59203446A Pending JPS6180298A (ja) 1984-09-28 1984-09-28 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6180298A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01260492A (ja) * 1988-04-12 1989-10-17 Ricoh Co Ltd 音声認識装置
JP2006343544A (ja) * 2005-06-09 2006-12-21 Miyazaki Prefecture 音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01260492A (ja) * 1988-04-12 1989-10-17 Ricoh Co Ltd 音声認識装置
JP2006343544A (ja) * 2005-06-09 2006-12-21 Miyazaki Prefecture 音声認識方法

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
WO2002029616A1 (en) Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
JP2955297B2 (ja) 音声認識システム
JPH0261700A (ja) 音声認識装置
JPH0558553B2 (ja)
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JPS6180298A (ja) 音声認識装置
JP3378547B2 (ja) 音声認識方法及び装置
JPS60182499A (ja) 音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3277522B2 (ja) 音声認識方法
JP2737122B2 (ja) 音声辞書作成装置
JPH0827640B2 (ja) 音声認識装置
JP3231365B2 (ja) 音声認識装置
JP2760096B2 (ja) 音声認識方式
JPH0247757B2 (ja)
JPH0289098A (ja) 音節パターン切り出し装置
CN114255758A (zh) 口语评测方法及装置、设备以及存储介质
JPH067359B2 (ja) 音声認識装置
JPH0585918B2 (ja)
JPS62218997A (ja) 単語音声認識装置
JPS61121167A (ja) 区切り発声に基づく音声ワ−ドプロセツサ
JPH05241592A (ja) 連続単語認識装置
JPS607492A (ja) 単音節音声認識方式