JPS62249198A - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JPS62249198A
JPS62249198A JP61091205A JP9120586A JPS62249198A JP S62249198 A JPS62249198 A JP S62249198A JP 61091205 A JP61091205 A JP 61091205A JP 9120586 A JP9120586 A JP 9120586A JP S62249198 A JPS62249198 A JP S62249198A
Authority
JP
Japan
Prior art keywords
syllable
word
pattern
monosyllabic
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61091205A
Other languages
English (en)
Inventor
佐藤 泰雄
教幸 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP61091205A priority Critical patent/JPS62249198A/ja
Publication of JPS62249198A publication Critical patent/JPS62249198A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 単音節標準パターンを時間軸上で引き離して入力単語音
声パターンと照合する、音節を認識単位とする単語音声
認識装置において、入力単語音声パターン末尾の音節対
応部分は、単音節標準パターン全体で形成された全車音
節標準パターンについて照合し、他の音節対応部分は、
単音節標準パターンの母音後半部を削除したもので形成
された主単音節標準パターンについて照合する。これに
より、入力単語音声パターンの音節間の渡り部分の影響
を避けつつ、入力単語音声パターン末尾の音節の認識精
度を上げ、入力単語音声全体の認識率を向上させること
が出来る。
〔産業上の利用分野〕
本発明は、音節を認識単位とする単語音声の認識装置は
、特に、単音節標準パターンを時間軸上で引き離して入
力単語音声パターンと照合を行って入力単語音声を認識
する場合に、その認識率を向上させる様に改良した単語
音声認識装置に関する。
入力単語音声を認識する方式の代表的なものとして、単
語を認識単位とする方式と音節又は音素を認識単位とす
る方式がある。
単語を認識単位とする方式は、単語単位の標準パターン
を用い、入力単語音声から作成された入力単語音声パタ
ーンと単語標準パターンとを照合して、距離の最も小さ
い単語標準パターンの単語を認識結果とする単語音声認
識方式である。この単語音声認識方式は、認識率は良好
であるが、認識単語数が多くなると、処理量や標準パタ
ーンを格納する辞書の容量が急速に増大する。
これに対し、音節を認識単位とする方式は、認識率の点
では単語を認識単位とする方式よりも一般的に低いが、
認識単語数が多くなっても処理量や標準パターンの記憶
容量の増加は、単語を゛認識単位とする方式よりもはる
かに少ない。
この様なことから、認識単語数の少ない小語党の単語音
声認識には、単語を認識単位とする方式が有利であり、
認識単語数の多い大語霊の単語音節認識には音節を認識
単位とする方式が有利であるとされている。
本発明は、後者の音節を認識単位とする単語音声認識装
置に関する。
なお、各単語は音節(シラブル)から成り立ち、音節は
音素から成り立っている。音素は音声の最小基本単位で
、母音と子音がある。各音節は、通常1個の母音と1な
いし2個の子音が結合して形成され、日本語では約10
0種の音節がある。
〔従来の技術〕
従来の音節を認識単位とする単語音声認識方式を、第4
図及び第5図を参照して説明する。
第4図は、従来の音節を認識単位とする単語音声認識方
式をブロック図で示したものであり、第5図は、その入
力単語音声パターンと単音節標準パターンとの照合方式
の説明図である。
第4図において°、図示しないマイクロホン等から入力
単語音声が入力されると、音声分析部210は、入力単
語音声の特徴を表すパラメタ抽出や各音節の区間検出を
行って音節対応の入力単語音声パターンを作成し、音節
候補列抽出部220に入力する。
単音節標準パターン辞書230には、各単音節(約10
0種類)の標準パターンが、予め登録されている。
音節候補列抽出部220は、音節対応の入力単語音声パ
ターンと単音!ff標準パターンとを音節単位で照合し
て音節候補列を抽出し、単語認識部240に入力する。
認識精度を良くする為に、複数の音節候補列が抽出され
る。この様にして抽出された各音節候補列は、入力単語
音声に最も類似していると想定される各音節系列である
この音節単位の照合及び音節候補列の抽出は、例えば、
公知の2段DP法(Two 1evel dynami
cprogramm’ing matching)によ
って行われる。
単語辞書250には、認識対象となる各単語をその音節
系列で表現したものが格納されている。
単語認識部240は、音節候補列抽出部220より入力
された各音節候補列を単語辞書250の各単語と照合し
て単語認識を行う。音節候補列抽出部220より入力さ
れた各音節候補列の中には、実際の単語には存在しない
ものも多く存在するので、単語辞書250と照合するこ
とにより正しい認識単語が得られる様にしている。
所で、入力単語音声パターンと単音節標準パターンとを
照合する場合、照合用の単音節標準パターンとして全体
の単音節標準パターン(以下、全単音節標準パターンと
いう)が通常用いられている。
然しなから、単語を発生した場合、その単語音声パター
ンは、その単語を構成する各単音節バタ−ンを単純に結
合したものにはならない。
例えば、単語“ミャギ(宮城:mi  ya  gi)
”の単語音声パターンは、第5図中)に示す様に、音節
間が明瞭に区分されない連続パターンを形成する。これ
に対し、“ミ(mi)  ”、“ヤ(ya)  ”及び
“ギ(gi)  ”の各単音節標準パターンを単純に結
合したものは、第5図(alに示す様に、音節間が明瞭
に区分されるパターンを形成する。
両者のパターンは、各音節の境界部分(以下、渡り部分
という)において異なっている。この様な渡り部分は、
連続して発声された音声では、人間の声道の形が急には
変化できない為に、音素と音素の中間部において音響的
性質が連続的に推移する調音結合(co−articu
lation )と呼ばれる現象によって生じるもので
ある。
この為、全単音節標準パターンを用いて入力単語音声パ
ターンと照合する方式は、入力単語音声パターンの音節
間の渡り部分のパターンに対応する部分が単音節標準パ
ターン中に存在しないことから、誤認識が生じ認識率が
低下するという不都合が生じる。
そこで、入力単語音声パターンの音節間の渡り部分の影
響を避ける為に、単音節標準パターンを時間軸上で引き
離して入力単語音声パターンと音節単位で照合する方式
が提案されている。
この方式は、第5図(c)に示す様に、音節の母音後半
部分を削除した単音節標準パターン(以下、主単音節標
準パターンという)を照合用の単音節標準パターンとし
て用いる方式である。
この方式は、音節間に生じる渡り部分を除いた各音節の
主要部分が主単音節標準パターンとの照合の対象となる
ので、渡り部分の存在によって生じる誤認識を減らす効
果がある。然しなから、単語末尾の音節(第5図では、
“ギ(gi)  ”)の母音部までも照合の対象から除
かれるので、単語末尾の音節の認識精度が低下し、それ
に伴って入力単語音声全体の認識率も下るという不都合
が生じる。
〔発明が解決しようとする問題点〕
従来の単音節標準パターンを時間軸上で引き離して入力
単語音声パターンと照合する、音節を認識単位とする単
語音声認識方式は、主単音節標準パターンを照合用の単
音節標準パターンとすることにより、前述の様に、音節
間に生じる渡り部分の存在による誤L?2fhを減らす
効果があるが、反面、単語末尾の音節の認識精度が低下
という問題があった。
単語末尾の音節の認識精度は、他の音節の認識精度にも
影響するので、単語末尾の音節の認識精度が低下すると
、単語音声全体の認識率を低下させるという不都合な結
果を生じる。
本発明は、単音節標準パターンを時間軸上で引き離して
入力単語音声パターンと照合する、音節を認識単位とす
る単語音声認識装置において、単語末尾の音節の認識精
度を上げ、単語音声全体の認識率を向上させる様にした
単語音声認識装置を提供することを目的とする。
〔問題点を解決する為の手段〕
従来の単音節標準パターンを時間軸上で引き離して人力
単語音声パターンと照合する、音節を認識単位とする単
語音声認識方式における前述の問題点を解決する為に本
発明が講じた手段を、第1図を参照して説明する。
第1図は、本発明の基本構成をブロック図で示したもの
である。
第1図において、110は単音節標準パターン辞書部で
、単音節標準パターン全体を照合用の単音節標準パター
ンとする全単音節標準パターンと単音節標準パターンの
母音後半部を削除したものを照合用の単音節標準パター
ンとする主単音節標準パターンとが登録されている。
120は音節候補列抽出手段で、入力単語音節から作成
された人力単語音声パターンを単音節標準パターン辞書
部110の各標準パターンと音節単位で照合して複数の
音節候補列を抽出するに際し、入力単語音声パターンの
最終音節対応部分は全単音節標準パターンについて照合
し、他の音節対応部分は主単音節標準パターンについて
照合する。
130は単語認識手段で、入力された各音節候補列を認
識対象となる各単語の音節系列と照合して単語認識を行
う。
〔作 用〕
入力単語音声から作成された入力単語音声パターンが入
力されると、音節候補列抽出手段120は、入力単語音
声パターンを単音節標準パターン辞書部110の各標準
パターンと音節対応で照合して複数の音節候補列を抽出
する。
その際、入力単語音声パターンの最終音節対応部分は全
車音節標準パターンについて照合し、他の音節対応部分
は主単音節標準パターンについて照合する様にする。
この処理により、最終音節が高精度で認識された各音節
候補列を抽出することが出来る。
単語認識手段130は、入力された各音節候補列を、認
識対象となる各単語の音節系列と照合し、最も良くマツ
チングした音節系列に対応する単語を認識単語とする。
以上の様にすることにより、入力単語音声パターンの音
節間の渡り部分による影響を避けつつ、入力単語音声パ
ターン末尾の音節の認識精度を上げ、入力単語音全体の
認識率を向上させることが出来る。
〔実施例〕
本発明の実施例を、第2図及び第3図を参照して説明す
る。
第2図は、本発明の一実施例の構成のブロック説明図で
あり、第3図は、同実施例の入力単語音声パターンと単
音節標準パターンとの照合方式の説明図である。
(A)実施例の構成 第2図において、単音節標準パターン辞書部110、音
節候補列抽出手段120及び単語認識手段130につい
ては、第1図で説明した通りである。
140はマイクロホンで、話者(図示せず)の発声した
単語音声又は登録用単音節音声が入力される。
150はパラメタ抽出部で、マイクロホン140から入
力された一単語音声又は登録用単音節音声の特徴を表す
パラメタを抽出する。
160は区間検出部で、パラメタ抽出部150によって
抽出されたパラメタ、に基づいて区間検出を行って、入
力単語音声パターン又は登録用の単音節標準音声パター
ンを作成する。
170は切替え回路で、入力単語音声パターンと登録用
の単音節標準音声パターンに応じた切替えを行う。
単音節標準パターン辞書部110において、111は全
車音節標準パターン辞書で、区間検出部160より入力
された各単音節標準パターンが、そのまま各全単音節標
準パターンとして登録される。
112は主単音節標準パターン辞書で、区間検出部16
0より入力された各単音節標準パターンより各主単音節
標準パターンを作成して登録する。
主単音!ff標準パターンの作成には、公知の各種の方
法を用いることが出来るが、例えば、次の様にして作成
される。
■ 単音節標準パターンのパワー特性の最大値とその位
置(フレーム位置)を求める。
■ 前記■で求められたフレームの前後でパワーの値が
最大値の0.5倍以上の区間を求める。
■ 前記■で求まった区間内で、パワースペクトルの時
間差分パターンを求め、その最小値(絶対値)を与える
位置を母音代表点とする。
■ 母音代表点から後半のパターンを削除して主単音節
標準パターンを作成する。
第3図(a)は、以上の様にして作成された主単音節標
準パターン“ミ(mi)  ”及び“ヤ(ya)  ”
を示したもので、Pl及びP2は各母音代表点であり、
斜線部分は、削除された各母音後半部である。
単語認識手段130において、131は使用単語辞書で
、認識対象となるカテゴリに属する各単語が音節系列で
表現されて格納されている。
132は照合部で、音節候補列抽出手段120より入力
された各音節候補列と使用単語辞書131に格納されて
いる各単語の音節系列とを、同一音節系列について照合
し、その中で距離の最も小さい音節候補列に対応する音
節系列の単語を認識単語とする。
180はエキスパートシステムと呼ばれる上位装置で、
認識対象となるカテゴリに属する各単語の音節系列を使
用単語辞書131に送信する。又、照合部132によっ
て認識された単語を受信して、所定の処理を行う。
(B)実施例の動作 実施例の動作を、連続音声認識時に行われる各動作に分
けて説明する。
(B−1)登録動作 、  話者の発声した単語音声に対する認識処理が行ね
れる簡に、単音節標準パターン辞書部110には各単音
節音声の標準パターンが登録され、又、使用単語辞書1
31には、エキスパートシステム180より受信された
認識対象となるカテゴリに属する各単語が音節系列で表
現されて格納される。
単音節標準パターン辞書111に全単音節標準パターン
及び主単音節標準パターンを登録する場合は、切替え回
路170を単音節標準パターン辞書部110側に接続し
、マイクロホン140より単音節単位で発声された音声
をパラメタ抽出部150に入力する。
パラメタ抽出部150は、入力された各単音節音声の特
徴を表すパラメタを抽出し、区間検出部160は区間検
出を行って各単音節音声の標準パターン(単音節標準パ
ターン)を作成して、単音節標準パターン辞書部110
に入力する。これらパラメタ抽出部150及び区間検出
部160の構成及び動作は何れも公知であるので、それ
らについての詳細な説明は省略する。
単音節標準パターン辞書部110は、前述の実施例の構
成の項で説明した方法により、全単音節標準パターン辞
書111に全単音節標準パターン辞書を登録し、主単音
節標準パターン辞書112に主音節標準パターン辞書を
登録する。
(B−2)入力単語音声パターン作成動作入力された単
語音声の認識を行う場合は、切替え回路170は、音節
候補列抽出手段120側に接続される。
マイクロホン140より単語音声が入力されると、前述
の単音節標準パターンの登録の場合と同様にして、パラ
メタ抽出部150及び区間検出部160は入力単語音声
パターンを作成し、音節候補列抽出手段120に入力す
る。
(B−3)音節候補列抽出処理 音節候補列抽出手段120は、入力単語音声パターンを
単音節標準パターン辞書部110の各標準パターンと音
節単位で照合して複数の音節候補列を抽出する。
即ち、入力単語音声パターンを複数の部分区間パターン
に区分して部分区間パターン系列を作る。
この区分の個数を変えることにより複数の部分区間パタ
ーン系列を作成する。区分の個数は、区間検出部160
より入力された音節数に基づいて選定される。
各部分区間パターンには1つの単音節標準パターンが対
応すると仮定すると、各部分区間パターン系列毎に1つ
の音節系列が対応し、同じ部分区間パターン数からなる
部分区間パターン系列には複数の音節系列が対応する。
各音節系列の距離を、その音節系列を形成する各部分区
間パターンと単音節標準パターンとの距離の和より求め
る。各部分区間パターンには各単音節標準パターンが対
応づけられるので、1つの音節系列には複数の距離が対
応づけられる。同じ部分区間パターン数(X個とする)
を有する部分期間パターン系列に対応する各音節系列の
中で距離の最も小さい音節系列を、その部分区間パター
ン系列に対応する各音節系列の音節候補列とし、前記最
小値をその音節候補列の距離とする。この音節候補列は
、入力単語音声パターンがX個の音節からなると仮定し
た場合の、最も確からしい音節系列である。音節候補列
及びその距離はXを変えたものについてもそれぞれ抽出
される。
ここで、入力単語音声パターンと単音節標準パターンと
を音節単位で照合するに際し、人力単語音声パターンの
最終音節対応部分、即ち最終音節に対応する部分区間の
パターンは、全単音節標準パターンについて照合を行い
、他の音節対応部分、即ち他の音節に対応する部分区間
のパターンは、主単音節標準パターンについて照合を行
う様にする。
第3図は、前記照合方式を、入力単語音声パターンが“
ミャギ(mi  ya  gi:宮城)”である場合を
例にとって説明したものである。
第3図(alは、全単音節標準パターン“ギ(gi)と
主単音節標準パターン“ミ(mi)  ”及び“ヤ(y
a)  ”を示したものであり、主単音節標準パターン
“ミ(mi) ”及び“ヤ(y a) ”の斜線部分は
、先に説明した様に、削除された母音後半部である。
第3図(C)は入力単語音声パターン”ミャギ(mi 
 ya  gi)  ”を示したものであり、単音節“
ミ(mi) ”と“ヤ(ya)”及び“ヤ(ya)と“
ギ(gi)  ”の中間の斜線部分は、渡り部分を示し
たものである。
第3図(b)は、抽出された音節候補列“ミャギ(mi
  ya  gi)  ”を示したものであり、図示の
様に、入力単語音声パターン“ミャギ(miya  g
i)  ”の最終音節には、全単音節標準パターン“ギ
(gi)  ”が対応づけられており、他の音節“ミ(
mi)  ”及び“ヤ(ya)  ”には、主単音節標
準パターン“ミ(mi)”及び“ヤ(ya)  ″がそ
れぞれ対応づけられている。
この様な、照合を行うことにより、入力単語音声パター
ン“ミャギ(mi  ya  gi)  ″末尾の音節
“ギ(gi)”が正しく照合される結果、他の音節“ミ
(mi)  ”及び“ヤ(ya) ”も正しく照合され
て、入力単語音声“ミャギ(miya  gi)  ”
と同じ音節系列で且つ距離が小さい良好な音節候補列を
抽出することが出来る。
音節候補列は、認識精度を良くする為に複数個、例えば
各音節数の音節系列毎に距離の最も小さいものから順に
複数個抽出される。
以上の音節候補列抽出処理は、公知の2段DP法により
行うことが出来る。なお、音節候補列の音節数は、区間
検出部160より入力単語音声の音節数が指示された場
合は、その値を中心に選定される。もし、音節数の指示
がない場合は、公知の2段DP法により抽出れた最適の
音節数を中心に選定される。
(B−4)入力単語認識処理 照合部132は、音節候補列抽出手段120より人力さ
れた各音節候補列と使用単語辞書131に格納されてい
る各単語の音節系列とを、同一音節系列について照合し
、その中で距離の最も小さい音節候補列に対応する音節
系列の単語を認識単語とする。
入力された各音節候補列の中には、正規の音節系列(例
えば“ミャギ(宮城)”とする)の他に、距離的には近
いが異なる音節候補列が含まれるが、使用単語辞書13
1に格納されている認識対象となる各単語の音節系列と
同一の音節系列について照合し、その中で最も距離の小
さい音節候補列に対応する音節系列の単語を認識単語と
することにより、前述の様に、入力された音節候補列中
に入力単語音声“ミャギ(mi  ya  gj)  
”と同じ音節系列で且つ距離の小さい良好な音節候補列
が存在することと相まって、高い精度で人力単語音声“
ミャギ(宮城)”を認識することが出来る。
エキスパートシステム180は、単語認識手段130よ
り受信された各認識単語に対して所定の処理を行う。認
識対象となる単語群の数に変更があったり、単語群のカ
テゴリに変更があると、エキスパートシステム180は
、それらの変更に対応して、使用単語辞書131の書き
換えを行う。
この様にすることにより、単音節標準パターン辞書部1
10の内容は認識対象となる単語群の数量やカテゴリの
変更があっても変らないので、少ない登録作業と少ない
容量の使用単語辞書を用いて、事実上無限倍型又は人語
型の単語群の認識を行うことが出来る。
〔発明の効果〕
以上説明した様に、本発明によれば、入力単語音声パタ
ーンの音節間の渡り部分による影響を避けつつ、入力単
語音声パターン末尾の音節の認識精度を上げ、入力単語
全体の認識率を向上させることが出来る。
【図面の簡単な説明】
第1図・・・本発明の基本構成の説明図、第2図・・・
本発明の一実施例の構成の説明図、第3図・・・同実施
例の入力単語音声パターンと単音節標準パターンとの照
合方式の説明 図、 第4図・・・従来の単語音声認識方式の説明図1、  
第5図・・・従来の単語音声認識方式の照合方式の説明
図、 第1図及び第2図において、 110・・・単音節標準パターン辞書部、120・・・
音節候補列抽出手段、130・・・単語認識手段、14
0・・・マイクロホン、150・・・パラメタ抽出部、
160・・・区間検出部、170・・・切替え回路、1
80・・・エキスパートシステム。

Claims (1)

  1. 【特許請求の範囲】 単音節標準パターンを時間軸上で引き離して入力単語音
    声パターンと照合する、音節を認識単位と単語音声認識
    装置において、 (a)単音節標準パターン全体を照合用の単音節標準パ
    ターンとする全単音節標準パターンと単音節標準パター
    ンの母音後半部を削除したものを照合用の単音節標準パ
    ターンとする主単節標準パターンが登録されている単音
    節標準パターン辞書部(110)と、 (b)入力単語音声から作成された入力単語音声パター
    ンを単音節標準パターン辞書部(110)の各標準パタ
    ーンと音節単位で照合して複数の音節候補列を抽出する
    に際し、入力単語音声パターンの最終音節対応部分は全
    単音節標準パターンについて照合し、他の音節対応部分
    は主単音節標準パターンについて照合する音節候補列抽
    出手段(120)と、 (c)入力された各音節候補列を認識対象となる各単語
    の音節系列と照合して単語認識を行う単語認識手段(1
    30)、 を備えたことを特徴とする単語音声認識装置。
JP61091205A 1986-04-22 1986-04-22 単語音声認識装置 Pending JPS62249198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61091205A JPS62249198A (ja) 1986-04-22 1986-04-22 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61091205A JPS62249198A (ja) 1986-04-22 1986-04-22 単語音声認識装置

Publications (1)

Publication Number Publication Date
JPS62249198A true JPS62249198A (ja) 1987-10-30

Family

ID=14019927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61091205A Pending JPS62249198A (ja) 1986-04-22 1986-04-22 単語音声認識装置

Country Status (1)

Country Link
JP (1) JPS62249198A (ja)

Similar Documents

Publication Publication Date Title
US4994983A (en) Automatic speech recognition system using seed templates
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPS62249198A (ja) 単語音声認識装置
JP3039453B2 (ja) 音声認識装置
JPS6147999A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3299170B2 (ja) 音声登録認識装置
JPS6325366B2 (ja)
JPH049320B2 (ja)
JPS59143200A (ja) 連続音声認識装置
JPS6180298A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
CN114255758A (zh) 口语评测方法及装置、设备以及存储介质
KR20040092572A (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JPH05303391A (ja) 音声認識装置
JPS62217297A (ja) 単語音声認識装置
JPH0713587A (ja) 隠れマルコフモデル連結学習方法
JPH0695684A (ja) 音声認識システム
JP2000181483A (ja) 単語音声認識方法
JPS6312000A (ja) 音声認識装置
JPS607492A (ja) 単音節音声認識方式
JPS62218997A (ja) 単語音声認識装置
JPH0744188A (ja) 音声認識装置
JPH0554678B2 (ja)
JPH05241592A (ja) 連続単語認識装置