JPS62173498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS62173498A
JPS62173498A JP61015111A JP1511186A JPS62173498A JP S62173498 A JPS62173498 A JP S62173498A JP 61015111 A JP61015111 A JP 61015111A JP 1511186 A JP1511186 A JP 1511186A JP S62173498 A JPS62173498 A JP S62173498A
Authority
JP
Japan
Prior art keywords
phoneme
word
sequence
unit
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61015111A
Other languages
English (en)
Inventor
達也 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61015111A priority Critical patent/JPS62173498A/ja
Publication of JPS62173498A publication Critical patent/JPS62173498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に関するものである。
従来の技術 音声認識の方法として、入力された音声からまず音素を
単位とした認識を行い、認識された音素の系列と参照用
の単語辞書に格納されている認識対象単語の音素系列と
の間の類似度を求め、最も高い類似度を与える単語辞書
の音素系列に相当する単語を認識単語とする方法が知ら
れている。これは、「音声スペクトルの概略形とその動
特性を利用した単語音声認識システム」、三輪他、日本
音響学会誌34 (1978)に記されている。
一方、文章音声、あるいは連続単語音声より、特定の単
語とその位置を同定するのに用いられる方法として「連
続DP法」と呼ばれる方法がある。
これは、「連続DPを用いた連続単語認識」、岡、日本
音響学会音声研究会資料S 78−20 (1978)
に記されている。この単語の同定の事を「ワードスポツ
ティング」という。
さて、上記2つの方法による考え方を併用する事により
、音素単位でのワードスポツティングが可能となる。以
下この方法を従来例として説明し、その問題点について
述べる。
第3図はワードスポツティングを採用した音声認識装置
の一般的な構成例である。
装置は大きく分けて、音素認識部31、単語ラティス作
成部32、単語系列作成部33の3つの部分により構成
される。処理の流れの概要は以下の通りである。
装置に入力された音声信号は、音素認識部31により音
素記号列に変換される。この音素記号列は音素認識部3
1の性能に依存する出現確率で、置換、付加、脱落等の
誤りを含んでいる。この音素系列より単語ラティス作成
部32ではワードスポツティングを行う事により、候補
となる単語のラティス(横軸に時間をとり縦軸に候補単
語群とその位置を記したもの)を作成する。゛ラティス
の中の各候補単語には例えば尤度情報等の評価値を付随
させる事もある。単語系列作成部33では単語ラティス
作成部32で作成された単語ラティスを入力して、単語
同士の位置的、文法的な接続可能性や単語に付随した上
記評価値をもとに最終的な単語系列を作成して認識結果
とする。以上が処理の流れの概要である。
本発明と直接関連する部分は単語ラティス作成部32で
あるのでこの部分についてさらに詳細な説明を行う。
第4図は単語ラティス作成部の従来の構成例を説明する
だめの機能ブロック図である。前段の音素認識部31で
得られた音素の系列は類似度演算部41に送られる。
類似度演算部41では入力された音素系列 W◇(Wt
、W、・・・・・・Wj)、 (記号会は右辺を左辺の
とおり表記するという事を意味する。)の一部分の区間
である部分音素系列 W′会(W3、W5+1・・・W
I!、)(1< s < Q < J )と、単語辞書
42に格納しである参照用単語の音素系列 D→(DI
、D2、・・DI)との間の類似度S  (D、 W、
 w’)を、音素間類似度格納部43に格納されている
音素間の尤度を用いて算出する。
類似度S  (D、 W、W’)の算出を効率よく行う
ために連続DP法を用いる。この処理手順の具体例を第
5図に示す。以下図に従って処理の流れの説明を行う。
説明に先立ち記号の説明を行う。
図中、2 (1、」)はD の1番目の音素D1と 1
vのj番目の音素Wjとの間の尤度を示す。まだII 
a (j)はWjの音素が付加する尤度、fio(i)
はDiの音素が悦楽する尤度を示す。更に、Roal)
、り00(i)はWjの音素がWj−1という音素の付
加に続いて付加する尤度と、Dlの音素がDi−1の音
素の脱落に続いて脱落する尤度を示す。尚これらの値即
ち、f!、(i、j)、pal)、no(i)、naa
(j)、f!、oo(i)の各音素間尤度はあらかじめ
多数話者の多数の音声の音素認識の結果得られる、音素
の置換、付加、脱落を含む音素認識の誤りの確率を表わ
すコン7jL >;z2μ’7..77  D各成分の
対数値として求められ第・1図の音素間類似度格納部4
3に格納されている。このコ;X−昌ンーZμノ、六で
は1つの入力音素に対する全ての認識音素(脱落を含む
)の出現確率の和は1となっている。又、K(f!、)
はg(I+1.2)を得るまでに至るg い、j)の算
出過程で採択されたg  (i、J)のi=oからi 
= I + 1に至るまでの(+、」)の系列の個数を
2倍した値である。
処理はまず、処理イに示す初期化の処理から開始される
。初期化の処理ではDPの途中演算結果格納用変数g 
 (i、J)の値を一2≦i < I + 1及び−2
< j < J + 1にわたって−(3)にしだ後0
<j<J+1を満たす」に対してg  (o、j)をO
にする。次にg  (i、j)の算出を次に示す漸化式
によって行う (処理口)。
g (i、 j) =21 (iSj) +maxこの
ようにして得られたg  (i、」)より、S(n、w
、w’)を次式により算出する(処理)1)。
S  (1,W、 n) =g (1+1. f!、)
/K(力(1りn<J + 1)     (2)次に
対象となる全てのDに関して5(ID、w、Q)の算出
を終えたかどうかをチェックしく判断二)、もしそうで
あれば処理を終了し、そうでなければDの更新を行い(
処理ホ)、新たなりに対してg い、j)の算出を行う
 (処理口)。
この処理手順によって算出されるs  (TD、 w。
β)は 1、入力音素系列における音素の付加あるいは脱落は2
連続以内である。
2、付加と脱落は連続して生起しない。
という制限のもとに、入力音素系列Wの2番目の音素W
tを終端としてとった部分音素系列W′の各音素Wj 
(s < j < fl ) とDの各音素り巨]くI
くI)とを対応させた場合における最適な音素対応の結
果得られる類似度となっている。
又、s  (D、 w、 x)の値が大であるというこ
とはそれだけその部分(WXを終端とみなした時の部分
音素系列W/ )において単語りが発声された可能性が
高いことを意味する。フードスポツティングは以上述べ
た事実を利用する。
各ID61 I) 1(orl)fl:(D l’)に
関して算出されたS  (D、 W、 fi)をもとに
単語ラティス決定部44で単語ラティスが作成される。
発明が解決しようとする問題点 しかしながら、従来の方法では、複数の参照用単語の音
素系列りに対する類似度s  (]D、 w、x)の算
出に際して個々のDを適用する順序に関する規定がなく
又りが入れ替わる毎にg  (i、j)の演算を最初か
らやりなおすという方法がとられている。しかしながら
第5図の処理手順のg  (i、j)の算出過程におい
て、異るD同士でも先頭から共通な部分音素系列に対し
ては同じものを重複して求めていることになり、語粟数
の増加とともに演算効率の低下を招くという問題点があ
った。
本発明は従来技術のもつ以上のような問題点を解決する
もので、上記重複演算の省略により、演算の効率化をは
かり、演算量の少い音声認識装置を提供することを目的
としている。
問題点を解決するだめの手段 本発明は上記目的を達成するためになされたもので、音
声波形を入力して音素の認識を行い、認識された音素系
列を出力する音素認識部と、予め多数話者の多数の音声
の音素認識結果に基づいて作成された、各音素間の尤度
や付加、脱落の尤度を格納する音素間類似度格納部と、
音素表記された参照用単語群を格納する単語辞書と、前
記音素認識部からの音素系列の一部分の区間である部分
音素系列と前記単語辞書に格納しである参照用単語の音
素系列との間の類似度を、前記音素間類似度格納部に格
納されている尤度を用いて連続DPマツチング演算によ
り算出する類似度演算部と、前記単語辞書からの単語を
類似度演算部が受けとる度に、前回の音素系列との先頭
からの共通部分の長さを検出する変化点検出部と、前記
類似度に基づき単語ラティスを決定する単語ラティス決
定部と、前記単語ラティスを用いて単語系列を作成する
単語系列作成部とを備え、前記類似度演算部の連続マツ
チング演算を、前記変化点検出部で検出された共通部分
の長さを基点として行うことを特徴とする音声認識装置
を提供するものである。
作用 本発明は上記構成により、音素系列の一部分の区間であ
る部分音素系列と音素表記された参照用単語との間の類
似度演算の際、部分音素系列が新しいものに入れ替わっ
た時に、新たにマ・ソチ/グの対象となる単語と前回マ
ツチングの対象となっていた単語の音素系列のうち、先
頭からみて共通な部分に対する連続DPマツチング演算
の途中結果を記憶しておき、新たな単語におけるマツチ
ングの際に前記途中結果を利用してその部分の演算を省
略することにより類似度演算の効率化をはかることがで
きる。
実施例 以下、図面を参照しながら本発明の実施例について説明
する。本発明は音素認識部、単語ラティス作成部、単語
系列作成部の大きく分けて3つの部分で構成される点に
おいては従来例と同じであるが、単語ラティス作成部の
構成が従来のものと異なるのでこの部分の構成について
詳しく述べる。
第1図はワードスポツティングを採用した音声認識装置
のうち、本発明の一実施例における単語ラティス作成部
の構成を示す機能ブロック図である。
第1図において、前段の音素認識部で得られた音素の系
列は類似度演算部11に入力される。
類似度演算部11では入力された音素系列W 会(W 
+、W、・・・・・・Wj)の一部分の区間である部分
音素系列W′: (Ws 、 Ws + +、・、 =
、 wg )、(1< s < Q < J )と単語
辞書13に格納しである参照用単語の音素系列It)会
(DI、D2、・・・・・・DI)  との間の類似度
5(ID、w、 sv’ )を音素間類似度格納部14
に格納されている音素間の尤度を用いて算出する。5(
ID、W、W’  )の算出を効率よく行うだめに連続
DP法を用いるこの処理手順の具体例を第2図に示す。
この処理手順は部分音素系列W′の終端の音素の位置2
が確定しているものと仮定してW′とのとの間の類似度
の算出を行っている。従ってW′はI)(!:Wと必の
関数となるのでS  (D、W、A) と記しである。
図中、l  (i、j)はDの1番目の音素Di、:W
のj番目の音素Wjとの間の尤度を示す。まだfia(
j)はWjの音素が付加する尤度、jLo(i)はDl
の音素が脱落する尤度を示す。更にBaa (j)、E
oo(i)はWjの音素がWj−iという音素の付加に
続いて付加する尤度と、Diの音素がDl−1の音素の
脱落に続いて脱落する尤度を示す。尚これらの値即ちn
  (i、j)、j2all、1to(i)、naa(
j)、u、oo(i)の各音素間尤度はあらかじめ多数
話者の多数の音声の音素認識の結果得られる、音素の置
換、付加、脱落を含む音素認識の誤りの確率を表わすコ
ンムー7ジンZFI/Zの各成分の対数値として求めら
れ第1図の音素間・類似度格納部14に格納されている
。このコシh−号; 2μ=/、7.tでは1つの入力
音素に対する全ての認識音素(脱落を含む)の出現確率
の和は1となっている。
又、K(力はg(I+1.2)を得るまでに至るg(i
、j)の算出過程で採択されたg  (i、j)のi=
oからi −T + 1に至るまでのい、J)の系列の
個数を2倍した値である。
処理はまず処理aに示す初期化の処理から開始される。
初期化の処理ではDPの途中演算結果格納用変数g い
、J)の値を一2≦i < I + 1及び−2≦J≦
J+1にわたって一美にした後0くj<、J+1を満た
すJに対してg  (o、j)を0にする。又、Dが入
れ替わった時、先頭から数えて前回と音素系列が共通な
部分の長さnを0とする。尚このnの値は第1図中の変
化点検出部12により単語辞書13より新しい単語(1
)を類似度演算部11が受けとる度に検出される。また
単語辞書13内の単語はある規則で定められた順序例え
ば辞書式順序などに従って類似度計算部11へ送り出す
ことが望ましい。
次にg  (i、j)の算出を次に示す漸化式によって
行う (処理b)、) g (i、 j) =2℃(i、 j)+maxこのよ
うにして得られたg い、」)より、5(ID、 W、
 w’)を次式により算出する(処理C)。
S  (I)、 J  R) =g  (I + 1、
fl)/K(Ql(1く2≦J+1)(4) 次に対象となる全てのりに関してS(D、W、月の算出
を終えたかどうかのチェックをしく判断d)、もしそう
であれば処理を終了し、そうでなければDの更新を行い
更に、前回のDと更新されたIDとを比較して先頭から
何番目の音素まで共通かをカウントしその値をnとする
(処理e)。
このnをもとにして新たなりに対してg い、J)の算
出(処理b)及びs  (o、 w、 i)の算出を行
う (処理C)。このnの値は第1図の変化点検出部1
2によって求められ類似度演算部11へ送られ、類似度
演算部11は上記の処理手順に従って各りに対して、s
  (n、w、x)の算出を行う。
上記によって算出された各りに対するS  (ID、W
、(1)を用いて単語ラティス決定部15が、後段の単
語系列作成に必要な単語ラティスを作成し、音素系列入
力より単語ラティス作成までの一連の処理が完了する。
本実施例の場合、Dの更新を行う際に変化点検出部12
により先頭から何番目の音素まで共通かをカウントし、
その値をnとするため次にg  (i、  j)を算出
する時の演算の重複を避けることができる。
発明の詳細 な説明したとおり本発明によれば、連続発声された音声
の認識音素系列Wの部分音素系列Xv′と、参照用単語
りとの間の類似度演算の際、Dが新しい1)(ID’と
する。)に入れ替わった時に、変化点検出部により先頭
から何番目の音素まで共通かをカウントしてその値をn
とするため、語頭部分からみてDとD′の音素が共通で
ある部分に対する演算の重複を避ける事ができ、類似度
演算の効率化、高速化が可能となる。
【図面の簡単な説明】
第1図は本発明の音声認識装置の単語ラティス作成部の
一実施例を示す機能ブロック図、第2図は入力音素系列
の部分音素系列と参照用単語の音素系列との類似度を算
出する本発明による処理手順の具体例を示すフローチャ
ート、第3図はワードスポツティングを採用した音声認
識装置の一般的構成を示す機能ブロック図、第4図は従
来の単語ラティス作成部の構成例を示す機能ブロック図
、第5図は従来の類似度算出手順の具体例を示すフロー
チャートである。 11・・・類似度演算部、12川変化点検出部、13・
・・単語辞書、14・・・音素間類似度格納部、15・
・・単語ラティス決定部。 代理人の氏名 弁理士 中 尾 敏 男はが1名第1図

Claims (3)

    【特許請求の範囲】
  1. (1)音声波形を入力して音素の認識を行い、認識され
    た音素系列を出力する音素認識部と、予め多数話者の多
    数の音声の音素認識結果に基づいて作成された、各音素
    間の尤度や付加、脱落の尤度を格納する音素間類似度格
    納部と、音素表記された参照用単語群を格納する単語辞
    書と、前記音素認識部からの音素系列の一部分の区間で
    ある部分音素系列と前記単語辞書に格納してある参照用
    単語の音素系列との間の類似度を、前記音素間類似度格
    納部に格納されている尤度を用いて連続DPマッチング
    演算により算出する類似度演算部と、前記単語辞書から
    の単語を類似度演算部が受けとる度に、前回の音素系列
    との先頭からの共通部分の長さを検出する変化点検出部
    と、前記類似度に基づき単語ラティスを決定する単語ラ
    ティス決定部と、前記単語ラティスを用いて単語系列を
    作成する単語系列作成部とを備え、前記類似度演算部の
    連続DPマッチング演算を、前記変化点検出部で検出さ
    れた共通部分の長さを基点として行うことを特徴とする
    音声認識装置。
  2. (2)単語辞書内の単語の適用順序を予め定められた規
    則に従って適用して連続DPマッチング演算を行うこと
    を特徴とする特許請求の範囲第1項記載の音声認識装置
  3. (3)適用順序が辞書式順序であることを特徴とする特
    許請求の範囲第2項記載の音声認識装置。
JP61015111A 1986-01-27 1986-01-27 音声認識装置 Pending JPS62173498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61015111A JPS62173498A (ja) 1986-01-27 1986-01-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61015111A JPS62173498A (ja) 1986-01-27 1986-01-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPS62173498A true JPS62173498A (ja) 1987-07-30

Family

ID=11879719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61015111A Pending JPS62173498A (ja) 1986-01-27 1986-01-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPS62173498A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01101595A (ja) * 1987-10-14 1989-04-19 Casio Comput Co Ltd アドレス制御装置
US10733986B2 (en) 2016-04-12 2020-08-04 Fujitsu Limited Apparatus, method for voice recognition, and non-transitory computer-readable storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01101595A (ja) * 1987-10-14 1989-04-19 Casio Comput Co Ltd アドレス制御装置
JP2722463B2 (ja) * 1987-10-14 1998-03-04 カシオ計算機株式会社 アドレス制御装置
US10733986B2 (en) 2016-04-12 2020-08-04 Fujitsu Limited Apparatus, method for voice recognition, and non-transitory computer-readable storage medium

Similar Documents

Publication Publication Date Title
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
JPH07306691A (ja) 不特定話者音声認識装置およびその方法
Wu et al. Encoding linear models as weighted finite-state transducers.
JPS5842098A (ja) 音声認識装置
Sukkar Rejection for connected digit recognition based on GPD segmental discrimination
JPS62173498A (ja) 音声認識装置
Poncelet Comparison of self-supervised speech pre-training methods on Flemish Dutch
JP3039453B2 (ja) 音声認識装置
JP3535688B2 (ja) 音声認識方法
JP3291073B2 (ja) 音声認識方式
JP2738403B2 (ja) 音声認識装置
Mary et al. Keyword spotting techniques
JPS59198A (ja) パタ−ン比較装置
JPS6118758B2 (ja)
JPH06348291A (ja) 単語音声認識方法
JPS60164800A (ja) 音声認識装置
JP2000122693A (ja) 話者認識方法および話者認識装置
Nakatsu A speech recognition machine for connected words
JP3102989B2 (ja) パタン表現モデル学習装置及びパタン認識装置
JPS62299999A (ja) パタ−ン比較装置
Smyth Segmental sub-word unit classification using a multilayer perceptron
JPS62111295A (ja) 音声認識装置
JPS62111292A (ja) 音声認識装置
JPS62118398A (ja) 単語認識装置
JPS5898794A (ja) パタンマツチング装置