JPS62206597A - 音声認識用単語予備選択方式 - Google Patents

音声認識用単語予備選択方式

Info

Publication number
JPS62206597A
JPS62206597A JP4963286A JP4963286A JPS62206597A JP S62206597 A JPS62206597 A JP S62206597A JP 4963286 A JP4963286 A JP 4963286A JP 4963286 A JP4963286 A JP 4963286A JP S62206597 A JPS62206597 A JP S62206597A
Authority
JP
Japan
Prior art keywords
word
key
keys
phoneme
preliminary selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4963286A
Other languages
English (en)
Other versions
JPH0575119B2 (ja
Inventor
畑崎 香一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4963286A priority Critical patent/JPS62206597A/ja
Publication of JPS62206597A publication Critical patent/JPS62206597A/ja
Publication of JPH0575119B2 publication Critical patent/JPH0575119B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声認識装置μ、音声入力装置等に8いて用
いられ、入力音声に出現している可能性の高い単語を認
識用単語辞書等から効率よく選択する音声認識にXける
単語予備選択方式に関する。
(従来の技術) 音声認識装置、音声入力装置では1通常、認識対象の簡
素をあらかじめ定めてX1入力音声をその簡素中のひと
つの単語あるいは単語の並びとみなして認識処理を行な
う。認識処理とは例えば。
入力音声と語禽中の各単語の標準パターンとのマツチン
グ、あるいは入力音声の音素候補系列と簡素中の各単位
の音素系列とのマツチングを行ない、入力音声にもっと
も似ている単語または単語の並びを求めることである。
通常、この認識処理には多大の計算量が必要である。し
かも現在、認識対象の簡素の大きさはま丁ま丁増加して
Sつ、そjに従って認識処理に必要な計算量もま丁ま丁
増加している。
そこで、音声が入力さ4たとき、その入力音声に出現し
ている可能性の高い竿部のみff:認識対象の始業から
その一部を予備的に選択し、選択された単語に対しての
み認識処理を行なうことにより。
認識処理に必要な計算量を減少させる方法をとっている
従来、予備選択は入力音声中で安定に検出できる音素ク
ラスによって行なわれている。丁なわち。
入力音声中にいくつかのそのような安定な音素クラスが
検出さj、れば、tLa対象の語粟中の単語のうち、少
なくともそれらの検出された音素クラスをまったく含ま
ない単語がその入力音声中に含まれている確率は非常に
小さいという原理を用いる。
安定に検出できる音素クラスとしては、5母音、摩擦音
によび撥音の各クラス、あるいは摩擦音、破裂音等の3
おまかに分類された子音のクラスなどある。
予備選択では、入力音声から得た1個以上の予備選択の
キーの少なくとも1個を含む単語が選択結果として出力
される。予備選択では、入力音声に含まれる単語が正し
く選択されている限りに8いては、それ以外に選択され
る単語の数が少ないほど有効である。選択される単語の
数を少なくてるためには、予備選択のキーの種類を多(
し、キーの種類の総数に対する、入力音声から得る相異
なるキーの数の割合を小さくてればよい。このために、
従来から、入力音声中に検出された音素クラスのn個の
組み合わせを長さnのキーとして予備選択を行なってい
る。
一方1通常は安定に検出できる音素クラスであっても、
音声の発声時の調音変化や音素クラス検出部の検出性能
などのために、入力音声からの検出時には、含まれてい
るはずの音素クラスが脱落したり、あるいは逆に本来存
在しない音素クラスが挿入されたりという検出誤りの生
ずることがある。従って、検出された音素クラスの並び
のなかの連続する一部の並びだけを予備選択のキーとし
て用いるのでは、入力された単語が正しく選択されない
場合が生ずることになる。
以上の理由から、従来は、たとえば文献[板橋。
横巾“語中部分音素系列の指定による語傭の減少につい
て”昭和58年日本音響学会講演論文集1−1−3.昭
和58年lθ月」、あるいは文献2「特願昭60−17
3422.  音声認識に8ける単語予備選択方式」に
示されているように、入力音声中に検出された音素クラ
スの並びのなかの必ずしも連続しないn個の音素クラス
の並びを予備選択のキーとして用い、このキーを同じ音
素クラスを必ずしも連続せずに含む単語を選択すること
により、音素クラスの検出誤りに対処して、単語の予備
選択を行なっていた。
(発明が解決しようとする問題点) 上述のようにキーのamの総数が増えることにより、選
択される単語の数は少なくなり、より効果的な予備選択
が行なえる。しかしながら、従来技術では、キーを構成
する音素クラスとして安定に検出できるものを使う必要
があり1通常は上述の5母音と撥音など、その数は64
1!1程度である。
しかも1例えば3音節の単語を含む入力音声によってそ
の単語を予備選択しようとするならば、音素クラスの検
出ミスを考慮丁れば、キーの長さは2としなければなら
ない。その場合、キーの種類の総数は6の二乗で36個
と少なく、このために誤って選択されてしまう単語が増
加し、予備選択の有効性が失なわれる。
(問題点を解決するための手段) 前述の問題点を解決するために本発明は、認識対象の単
語中8よび入力音声中の必ずしも連続しない音素クラス
の並びをキーとし、前記入力音声から取り出したキーと
前記単語から取り出したキーとの比較によって予備選択
を行なう音声認識用単語予備選択方式に3いて、あらか
じめ、使用されるすべてのキーを互いに類似したキーか
ら構成される複数個のグループに分類して8@、前記入
力音声から取り出されたキーのいずれかと単語中のキー
のいずれかとが互いに同じグループに属するときに選択
結果として出力することを特徴とするものである。
(作用) 前述の問題点は、予備選択のキーを構成する音素クラス
として安定して検出できるものだけを使用して検出でき
るものだけを使用していたことに起因する。これに対し
て本発明の方式では、従来方式と同じく入力音声中の必
ずしも連続しない音素クラスの並びを予備選択のキーと
するが、キーめ構成要素となる音素クラスとしては、従
来技術で用いていた安定に検出できる音素クラスのほか
に、ある程度の検出誤りが生ずる音素クラスをも使用す
ることを可能にする。この結果1例えば。
上述の母音だけではなく、子音もキーの構成要素とする
この場合、検出誤りによって、入力音声中のある音素ク
ラスが異なる他の音素クラスとして検出されることがあ
る。しかしながら1通常、このような検出誤りにはある
誤りの傾向が存在する。すなわち、ある音素クラスの検
出を誤るときには、その音素クラスと類似した他の音素
クラスに誤ることが多い。また、この誤りの傾向は音素
クラス検出方法にも依存し、音素クラス検出方法が異な
れば誤り傾向も異なる。
さらに、いくつかの音素クラスから構成される予備選択
のキーが検出誤りの生じた音素クラスな含むと、誤った
キーとして入力音声から取り出されることになる。この
場合にも、キーの誤りには音素クラスの検出誤りと同様
の傾向がある。
そこで1本発明の方式では、丁べてのキーをあらかじめ
類似したキーどうしのグループに分類して?@、入力音
声から取り出したキーと単語中のキーとが同じグループ
に属するならば、その単語を予備選択結果として出力す
る。これによって、音素クラスの検出誤りが生じても正
しい単語?検出できるようにしている。
この方式では、複数個のキーがひとつのグループとなる
ために、グループの数はキーの種類の総数の数分の1と
少なくなる。しかしながら、キーの構成要素として多数
の音素クラスを使用することが可能となるため、そのグ
ループの数は、従来技術のような安定な音素クラスだけ
を使ったキーの種類の総数よりも多くなり、より有効な
予備選択を行なうことができる。
(実施例) 以下では、図面を参照しつつ、実lj例に従って本発明
の詳細な説明する。
第1図は、本発明の一実施例を示すブロック図である。
本実施例では、予備選択のキーに使用する音素クラスと
して、a、i、u、e、oの5母音Rよび撥音xgよび
に、g、s% z、t、a%n、b。
m、y、r、Wの子音の計19種類を用いる。これらの
音素クラスのうち5母音と撥音Xは入力音声の中では比
較的定常状態にあり、現在の技術レベルで安定に検出で
きる。キーは、2音節分の音素クラス列とする。日本語
では音節は子音十母音あるいはひとつの母音である。従
って2音節分の音素クラス列であるキーの種類の総数は
、約1000個となる。
予備選択の処理に先立って、あらかじめ定めたテキスト
を発声した音声から、すべてのキーの音声パターンを集
めて−Jcs@、このキーを互いに類似したものどうし
のグループに分類する。
このためには、クラスタリングの手法、例えば階層的ク
ラスタリング法を用いることができる。
クラスタリングを行なうためにキーどうしの距離として
、キーに対応する音声パターンのマツチング距離を用い
る。距離が小さいほど、類似したキーである。また、あ
るクラスタに対して、これに属するキーのうち、クラス
タ内の他のキーとの距離の和が最小のキーをクラスタ中
心とする。階層的クラスタリング法では、最初に丁べて
のキーのそれぞれを、それ自身がクラスタ中心であるク
ラスタとする。続いて1丁べてのクラスタからクラスタ
中心どうしの距離が最も小さい2つのクラスタを求め、
その2つのクラスタをまとめて新たなひとつのクラスタ
とする。この結果クラスタの数は1個減少する。この処
理を、クラスタの数があらかじめ定めた数1例えばp個
になるまで繰り返す。これによって1丁べてのキーを互
いに類似したものどうしから成る、p個のグループに分
けることができる。
この結果、例えばe−ko、e−go、he −ko、
he−goなど、類似した音節から構成されるキーは同
じグループに属する。また、ひとつのグループに属する
キーの数を平均10個としても、グループの数は約10
0個となる。このようにして求めたp個のグループに1
からpの番号を与え、各キーとそれぞれが属するグルー
プの番号との対応をキー・グループ対応表106に記憶
してSく。
以上の準備の後、予備選択が行なわれる。
入力音声はいったん、音声メモリ101に記憶される。
音素クラス検出部102は、音声メモリ1010入力音
声から、予備選択のキーの構成要素となる音素クラスを
複数個検出し、音素クラスメモリ103に各音素クラス
とそれらの入力音声中での位置とを記憶する。
例えば、「エイゴデワ」という入力音声から音素クラス
を検出する際、音素クラス/i/の検出に失敗、/g/
を/に/に、/d/を/1/に誤ツタ結果、/ekot
ewa/の7 個の音素クラスが検出され、それぞれ入力音声中の位置
11v報とともに音素クラスメモリ103に記憶された
とする。
キー検出部104は、音素クラスメモリ103から最大
1個の音節の飛び越しを許して取り出した2個の音節の
並びをキーとして取り出て。この結果、キーメモリ10
5には、 ■  e−k。
■  e−1e ■ k o −t e ■ ko−wa の4個のキーが記憶される。
続いて、単語選択部107が、認識対象の始業の単語を
記憶する単語辞書108の中のそれぞれの単語について
予備選択を行なう。単語辞書108中のそれぞれの単語
にもあらかじめ、その音素クラス列から最大1個の音節
の飛び越しを許して取り出した2個の音節の並びをキー
として与えて?(。予備選択は、入力音声から取り出し
た複数個のキーのいずれかと、それぞれの単語に付与さ
れている複数個のキーのいずれかとが、同じグループに
属するか否かを判定することによって行なわれる。すな
わち、同じグループに属するキーがあれば、その単語を
予備選択候補として出力する。
例えば、単語辞書108中の単語「eig。
(エイゾ)」に対しては、次の3個のキーが与えられて
いる。
(ア)    e −i (イ)e−g。
(つ)     i −g 。
これらのキーのそれぞれとキーメモ+7105に記憶さ
れているキーのそれぞれとを比較する。丁なわち、そ4
ぞれのキーのグループ番号をキー・グループ対応表10
6から取り出し、同じか否かを調べる。今の場合は、■
e−koと(イ) e −g 。
とが同じグループに属することがゎがり、この結果単語
「eigo(エイゾ)」 は予備選択結果として出力さ
れる。このように、入力音素クラスの検出の際に誤りが
生じても、入力音声中に含まれる単語を正しく予備選択
することができる。
一方、単語[taXgo(タンプ)」には。
(1)    a −X (オ)a−g。
(力)X−g。
03個のキーが与えら4゛Cいるが、これらのいずれも
、キーメモリ103に記憶されているキーとは同じグル
ープに属せず、このため、この単語は選択されない。
以下、単語辞書107の他の丁べての単語についても同
様に調べられ、いくつかの単語が予備選択結果として出
力される。
以上1本発明の実施例を示したが、予備選択に使用する
キーは、実施例の2音節に限らず、さらに、子音クラス
の列などとしてもよい〇また。入力音声中のキーを記憶
してSくのではなく、キーに対応したグループ番号を記
憶して2いたり、さらに単語辞書中では各単語にその単
語中のキーに対応するグループ番号をあらかじめ与えて
?いてもよい。これによって、各単語の予備選択時にキ
ー・グループ対応表を検索することを省くことができる
(発明の効果) 以上説明したように本発明を用いると、入力音声からの
検出の際に誤りを8こしや丁い子音等の音素クラスもキ
ーの構成要素とすることが可能になる。そのため1例え
ば2音節に相当てる長さのキーを予信選択に用いるとす
ると、従来の方式で2つの母音でキーを構成しなければ
ならず、その種類の数が36個と少ないのに対し1本発
明では実施例で示したようにキーのグループの数は10
0個と多(なる。この結果1選択される単語の数が少な
い、より有効な、音声認識用単語予備選択方式を提供す
ることができる。
因面の簡単な説明 第1図は1本発明の実施例を示すブロック図である。
101・・・・・・音声メモリ、102・・・・・・音
素クラス検出部、103・・・・・・音素クラスメモリ
、104・・・・・・キー検出部、105・・・・・・
キーメモリ、キー・グループ対応表、106,107・
・・・・・単語選択部。
108・・・・・・単語辞書、109・・・・・・キー
選択部。
代理人 弁理士  内 原   晋   。
q+++〆 rJ10

Claims (1)

    【特許請求の範囲】
  1. 認識対象の単語中および入力音声中の必ずしも連続しな
    い音素クラスの並びをキーとし、前記入力音声から取り
    出したキーと前記単語から取り出したキーとの比較によ
    って予備選択を行なう音声認識用単語予備選択方式にお
    いて、あらかじめ、使用されるすべてのキーを互いに類
    似したキーから構成される複数個のグループに分類して
    おき、前記入力音声から取り出されたキーのいずれかと
    単語中のキーのいずれかと互いに同じグループに属する
    ときに選択結果として出力することを特徴とする、音声
    認識用単語予備選択方式。
JP4963286A 1986-03-07 1986-03-07 音声認識用単語予備選択方式 Granted JPS62206597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4963286A JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4963286A JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Publications (2)

Publication Number Publication Date
JPS62206597A true JPS62206597A (ja) 1987-09-11
JPH0575119B2 JPH0575119B2 (ja) 1993-10-19

Family

ID=12836590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4963286A Granted JPS62206597A (ja) 1986-03-07 1986-03-07 音声認識用単語予備選択方式

Country Status (1)

Country Link
JP (1) JPS62206597A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9466291B2 (en) 2013-10-21 2016-10-11 Fujitsu Limited Voice retrieval device and voice retrieval method for detecting retrieval word from voice data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9466291B2 (en) 2013-10-21 2016-10-11 Fujitsu Limited Voice retrieval device and voice retrieval method for detecting retrieval word from voice data

Also Published As

Publication number Publication date
JPH0575119B2 (ja) 1993-10-19

Similar Documents

Publication Publication Date Title
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JPS63259697A (ja) 音声認識方法
JPS61177493A (ja) 音声認識方法
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
Mangu et al. Error corrective mechanisms for speech recognition
EP0425291A2 (en) Word recognition process and apparatus
Mermelstein A phonetic-context controlled strategy for segmentation and phonetic labeling of speech
JPS62206597A (ja) 音声認識用単語予備選択方式
JP3039453B2 (ja) 音声認識装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
Billa et al. Arabic speech and text in Tides OnTap
EP0982712B1 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JP3128251B2 (ja) 音声認識装置
Rao et al. Word boundary hypothesization in Hindi speech
JPS62134698A (ja) 多数単語の音声入力方式
JPH0575120B2 (ja)
JPS6232499A (ja) 音声認識における単語予備選択方式
JPS62285189A (ja) 文字認識後処理方式
JPS6169099A (ja) 音声認識装置
JPS6146995A (ja) 音声認識システム
JPS60182499A (ja) 音声認識装置
JPS63153596A (ja) 音声文章入力装置
JPS60150098A (ja) 音声認識装置
JPH06289894A (ja) 日本語音声認識方法