JPS6344697A

JPS6344697A - 単語検出方式

Info

Publication number: JPS6344697A
Application number: JP61190260A
Authority: JP
Inventors: 畑崎　香一郎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1986-08-12
Filing date: 1986-08-12
Publication date: 1988-02-25
Anticipated expiration: 2009-07-27
Also published as: JPH0656558B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声認識装置、音声入力装置等において用いら
れ、入力音声中に含まれる単語とその単語の音声中での
位置とを検出する単語検出方式に関する。

（従来の技＃ｒ）音声認識装置、音声入力装置等において入力音声中の単
語とその位置を検出する方法に、音節、音素、音素クラ
ス等のカテゴリの列である入力音声から各カテゴリとそ
れらの入力音声中での位置情報とを抽出し、抽出きれた
カテゴリから作成したカテゴリ列がある単語のカテゴリ
列に対応すれば、その単語と入力音声中でのカテゴリ列
の位置とを検出結果として出力する方法がある。

一般に上述のカテゴリは、その時間長が短かく、また類
似するカテゴリが存在することなどから、入力音声中の
カテゴリを完全に誤りなく抽出することは困にである。

このため、従来は、入力音声中の各カテゴリの区間に対
して複数個のカテゴリ候補を抽出しておき、入力音声の
端から頚にカテゴリ候補を用いて、部分的なカテゴリ候
補列を生成しては単語のカテゴリ列との照合を行なうと
いう処理を繰り返すことによって、そのｆｉｉに対応す
るカテゴリ候補列を見つけていた。この方法の詳細は、
例えば、文献１１”特願昭５８−２１４５４４号、バタ
ン認識装置、に述べられているので、ここでは省略する
。

しかしながら、特に入力が連続音声の場合は発声のなま
けやη接するカテゴリ（例えば音節）どうしの調音結合
などによる変形が生じやすく、カテゴリ候補抽出の段階
では、複数個のカテゴリ候補の中にも正しいカテゴリ候
補が含まれない場合もある。このように、あるカテゴリ
に対して正しいカテゴリ候補が検出できず、誤ったカテ
ゴリ候補に置さ換わることを、以後、カテゴリの置換誤
り　３と　呼−ｇ　。

カテゴリ置換誤りに対処するために、従来は次の方法を
用いていた。すなわち、どのようなカテゴリの並びのと
きにカテゴリ置換誤りが起こりやすいかということをあ
らかじめ調査し７、その結果から比較的頻度の高いカテ
ゴリ置換誤りについてカテゴリ列訂正規則を用意する。

カテゴリ列訂正規則は、カテゴリ列置換誤りの起こって
いるカテゴリ候補列に対して適用きれた場合、誤ってい
るカテゴリ候補を正しいカテゴリ候補に置き換えたカテ
ゴリ候補夕ｑに変換する。この規則を、単語検出時に、
カテゴリ候補列に適用することによって、比較的頻度の
高いカテゴリ置換誤りは、訂正することができる。この
方法は、例えば文献２「松永昭−１打田正紀’　Ｂｒａ
ｎｃｈ　＆　Ｂｏｕｎｄ法の効果とＢｏｔｔｏｍ　−Ｕ
ｐ音韻認識をネリ用した俣補泗択”、ロ木音フ学会音声
研究会資料３８５−７９．１９８６年１月」の６１６頁
右側１５行から１８行目に述べられている。また、訂正
規則の例は同文献６１７頁、表４に示されている。

（発明が屏決しようとしている問題点）上記従来の方法
では、入力音声から抽出されたカテゴリ候補を用いてカ
テゴリ候補列を生成したのちに、単語のカテゴリ列との
照合を行なっていたために、最終的に無駄になるカテゴ
リ候補列が多数生成されでしまい、そのために多大な計
急量を必要としていた６また、検出すべき単語の区間が人力音声の一部分しか占
めない場合でも、従来は、その単語の存在しない区間を
含め、入力音声の端からすべてのカテゴ１）り≧補ぐつ
いて等しく単語中のカテゴリとの照合を行な（りねばな
らず、無駆な計箕時間を必要とし、単品の検出まで長い
時間を必要としていた。

さらに、前記のカテゴリ列訂正規＝Ｕは、カテゴリ置換
誤りの起こっでいるカテゴリＣ鋪列だけではなくて、起
こっていないカテゴリ候補列にも尋しく適Ｊ月される。

また、一つのカテゴリ候補列に対しては、多くの場合複
数個の訂正規則が個Ｆｊｌに適用される。このため、一
つのカテゴリ候補列から多くのカテゴリ候補列が生成さ
れてしまい、単語のカテゴリ列との照合を行なうべきカ
テゴリ候補列の数が増加する。しかもそのカテゴリ候補
列のほとんどは、検出すべき単語のカテゴリ列とは一致
しないために拒絶されるものである。

また、訂正規則で訂正できるカテゴリ置換誤りは比較的
頻繁に起こるものに限られ、まれに起こる誤りを訂正す
ることはできない　ｙ７正できる誤りの種類を増やすた
めには訂正規則の数を増加許せなければならないが、こ
の結果、生成されるカテゴリ候補列はますます増加する
。

例えば、１オンセイニンシキワ（音声認識は）」と発声
された音声が入力きれ、その中の音節候補を抽出した場
合、音節“シ”に対して、“チ”、“イ”の２個の音節
候補しか得られない場合がある。この場合、他の音節に
対して正しい音節候補が得られた場合でも、抽出きれた
音節候補から生成される音節候補列は“オンセイニンチ
キワ”あるいは“オンセイニンイキワ”となり、この中
には正しい単語候補１認識」の音部例“ニンシキ”に一
致する部分がないため、単語「認識」を検出することは
できない。しかも、このような音節の置換誤りは比較的
まれな種類のものであり、この誤りを訂正する規則が用
意きれていることは少ない。

本発明の目的は、無駄なカテゴリ候補列を生成せず、ま
た、検出すべき単語の区間が入力音声全体のごく一部で
ある場合や、さらに入力音声中のカテゴリ候補検出時に
いくつかのカテゴリ候補が誤った音節候補に置換された
場合でも、効率よく入力音声から正しい単品とその位置
とを検出することを可能にする単語検出方式を提供する
ことにある。

（問題点を解決するための手段）前述の問題点を解決し上記目的を達成するために本発明
が提供する手段は、音節、音素、音素クラス等のカテゴ
リの列である入力音声から抽出した複数個のカテゴリ候
補とそれらの位置情報とを用いて、単語のカテゴリ列に
対応するカテゴリ候補列を生成することによって、入力
音声中の単語とその出現位置を検出する単語検出方式に
おいて、入力音声から得た複数個のカテゴリ候補のそれ
ぞれをその方テゴリ名で分類して記憶し、単語中のカテ
ゴリの並びの順に従って各カテゴリに対応するカテゴリ
候補をそのカテゴリと同じ名前に分類されて記憶詐れて
いるカテゴリ候補の中から選ぶとともに、単語中の隣接
する３個のカテゴリの両端のカテゴリのそれぞれが、入
力音声中の連続する３個のカテゴリ候補の並びの両端の
カテゴリ候補に対応するときには、その３個のカテゴリ
の並びと３個のカテゴリ候補の並びとを対応させて、カ
テゴリ候補列の生成を行なうことを特徴とする。

（作用）本発明の方式では、入力音声から抽出されたカテゴリ候
補のうち、検出すべき！＠語に含まれるカテゴリと同じ
名前のカテゴリ候補だけを用いて、かつ単語中のカテゴ
リの並びを辿りながら対応するカテゴリ候補列を生成す
る。このことによって、単語のカテゴリ列あるいはその
部分夕σに対応するカテゴリ候補列だけが生成されるこ
とになり、無駄なカテゴリ列を生成することを避けるこ
とが可能となる。

また、入力音声中のカテゴリ候補のうち、単語中のカテ
ゴリに対応するカテゴリ候補からカテゴリ候補列を生成
してゆくために、検出すべき単語の区間が入力音声の全
体のごく一部の場合であっても、また、その区間が入力
音声中のどの位置にあっても、素早くその単語を検出す
ることが可能となる。

また、カテゴリの置換誤りが生じた場合でも、以下の原
理で単語を検出することが可能となる。

いま、力テコ゛り列がｃ、、、、ｃ、、、、ｃ、ｃ、、
、、、、ｃ。

である単語Ｗが含まれる入力音声中のカテゴリ候補を抽
出した結果、カテゴリＣ９に対して正しいカテゴリ候補
が抽出できなかったとする。すなわち、入力音声中での
単語Ｗに対応する部分のカテゴリ候補列はＫ　１．　、
　、　Ｋ　＋　−＋　Ｋ　ｘ　Ｋ　ｔ　＋ｒ　、　、　
、　Ｋ　ｒとなる。ここで、カテゴリ候補に、−１およ
びに、＋１はそれぞれ力テコ゛すＣｌ−１およびＣｌ　
＊　ｌの正しいカテゴリ候補であり、カテゴリ候補Ｋｘ
はカテゴリＣＩの誤ったカテゴリ候補であるとする。そ
こで、検出すべき単語中のカテゴリの並びを辿りながら
、その単語に対応するカテゴリ候補列を生成するときに
、単語中の連続する３個のカテゴリの並びＣｒ−ＩＣｒ
　Ｃ＋＋ｔの両端のカテゴリ、すなわちＣ５−１および
Ｃ１ｌに対応するカテゴリ候補がそれぞれ、入力音声中
での連続する３個のカテゴリ候補の並びの両端のカテゴ
リ候補であるなら、その３個のカテゴリ候補の並びを単
語中のカテゴリ列Ｃ１−＋ＣｌＣｌ＋、に対応させる。

このことによって、カテゴリＣ９に対するカテゴリ候補
が誤った　　　□カテゴリ候補に工によって置換されて
いたとしても、カテゴリ候補列とカテゴリ列との正しい
対応をとることが可能になる。また、単語のカテゴリ列
に対応するカテゴリ候補列だけが生成されることになる
ため、無駄なカテゴリ候補列の生成を避けることができ
る。

（実施例）以下、図面を参照℃７つつ、実施例に従って本発明を一
店詳細に説明する。

第１図は本発明の一実施例を示すブロック図である。

本実施例では日本語の音声の入力がされるものとし、ま
たカテゴリとして音節を用いる。音節抽出部１０１は入
力音声中の音節候補を検出し、その候補を音節候補記憶
部１０２に記憶する。

音正抽出部１０１の一例外ブロック図で第２図に示す。

第２図において、入力音声は音声バッファ２０１に一旦
格納きれる。まず、母音候補検出部２０２が、音声バッ
ファ２０１に格納きれた音声中の母音候補を検出し、母
音候補記憶部２０３に格納する。

母音候補の検出は母音バタン記憶部２０４にあらかじめ
格納されている各母音の音声標準バタンと入力音声の各
区間とを照合することによって行なわれる。母音の音声
信号は比較的定常であるので検出は容易である。各母音
候補は少なくとも母音名、入力音声中での位置の情報を
保持している。母音候補の検出が終了した後、子音候補
検出部２０５によって子音候補が次に述べるようにして
検出される。日本語においては、音節は子音（Ｃ）−母
音（Ｌ）の組である。従って入力音声中では、２個の母
音に挾まれた区間のうちのある時間長以下の区間（これ
をｖＣＶ区間）および入力音声の始端からある時間長以
内にある母音までの区間（これをＣｖ区間）のそれぞれ
に、１個の子音が存在すると言える。子音候補検出部２
０４はＮ音侯補記憶部２０３に記憶されている母音候補
から作られるすべての７０７区問およびＣＶ区間のそれ
ぞれに対して、あらかじめ子音バタン記憶部２０６に記
憶されているｖＣＶおよびＣＶ漂準音声バタンとの照合
を行ない、類似度の高い複数個の音声バタンの名前を子
音候補とする。以上で決定された母音候補と子音候補と
を組み合わせて音節候補とし、入力音声中での位置と共
に音節候補記憶部１０２に記憶する。

例として、“オンセイニンシキワ″（音声認識は）とい
う音声が入力されたとすると、音節認識の結果として例
えば第３図に示されるような音節候補が抽出される。第
３図において、矢印の腺が各音節候補の区間であり、各
区間に複数個の音節候補が抽出きれている。これらの音
節候補は、音節名で分類されて、音節候補記憶部１０２
に記憶される。この結果、音節候補記憶部１０２の内容
は第４図に示きれるようになる。この図では、各音節候
補を“音節名／始端時刻：終端時刻”の形式で表現して
いる。

単語記憶部１０３には検出すべき単語の音節列が記憶き
れている。その中の１個の単語を単語バッファ１０４に
取り出した後、入力音声にこの単語が含まれるかどうか
が調べられる。今、ＲＬ語バッファ１０４には単語ｒ′
認識」の音節列“ニンシキ”が記ｔαされているとする
。

音節候補列生成部１．０５は単語バッファ１０４に記憶
されている単語中の音節の並びの順に、音節候補記憶部
１０２中の音節候補から音節候補列を作成し、その結果
の音節候補列と対応する音節列とを音節候補列記憶部１
０６に記憶する。本実施例では１．ＩＷ語の先頭の音節
から順に音節列を作成してゆく。

まず、単語バッファ１０４先頭の音節は“二”であるか
ら、音節候補列生成部１０５は音節候補記憶部１０２中
で“二”に分類されて記憶されている音ｌ侯補を取り出
し、それぞれを長さ１の音節候補列として、音節“二”
とともに音ｆＡ候補列記Ｊｆ！、部１０６に記憶する。

この結果、音節候補列記憶部１０６には、 ■−＝１０：２にン ■二／２：４　　（ニ） ■二／１０　：　１２　　（ニ） ■二／１４：１６　　（ニ）の４個の音節候補列が記憶される。ここで、括孤の中が
対応する音節列である。

次に、音節候補列生成部１０５は単語バッファ１０４中
の次の音節“ン”とその次の音節“シ゛′に注目する。

すなわち、音節候補記憶部１０２中で“ン”に分類され
て記憶されている音節候補のそれぞれについて、音節候
補列記憶部１０６中のいずれかの音の候補列の最後尾の
音節候補の直後に入力音声中で後、読しているかどうか
を調べる。また、音節候補記憶部１０２中で“シ”に分
類されて記憶きれている音ＷＪ候補のそれぞれについて
、音節候補列記憶部１０６中のいずれかの音節候補列の
最後尾の音節８補に、他の１個の音節候補を介して、入
力音声中で後続しているかどうかを調べる。そのように
後読している音節候補があれば、その音節候補を音節候
補列の最後尾に連結して新たな音節候補列を生成し音節
候補列記憶部１０６に記憶する。

音節候補Ａが他の音節候補Ｂに後読しているかどうかは
音節候補Ａの終端時刻と音節候補Ｂの始端時刻とを比較
することによって判定することができる。ここでは、そ
れらの時刻の差がプラスマイナス１以下のときに後続す
ると判定する。今の場合は“ン゛′に分類されて記憶キ
れている音節候補は、ン／２：４、ン／１２：１４の３
個である。そこで、音節候補ン／２：４が音節候補列■
の最後尾の音節侯補二１０：２の直後に後続することか
ら、音ｆＲ５候補列■に音節候補二１０：２を連結して
音節列“ニン”とする。同様に、音節候補ン／１２：１
４を音節候補列■に連結して音節列“ニン゛′とする。

また、“シ”に分類されて記憶されている音節候補はな
い。さらに、それまで音節候補記憶部１０６に記憶され
ていた音節候補列は削除する。この結果、音節候補記憶
部１０６の中には、 ■二１０：２−ン／２：４にン） ■二／１０：１２−ン／１２：１４　　にン）の２個の
音節候補列が残る。

絖いて、音節“シ”についての処理に進む。音節候補記
憶部１０２中で、“シ”に分類されて記憶されている音
節候補は、ない。単語バッファ１０４中の“ン”の次の
音節“キ”に分類されて記憶されている音ＷＪ俣補はキ
／１７：２０の１個である。この音節候補について音節
候補列■と■の最後尾の音節候補に、他の１個の他の音
節候補を介して、入力音声中で後読しているかどうかを
調べる。この結果、キ／１７：２０が音節候補列■の最
後尾の音節候補ン／１２：１４に音節候補チ／１４　：
　１７を介して後続していることがわかり、音節候補キ
／１７：２０が音節候補列■に連結され、音節列“ニン
シキ”に対応きせら、れる。従って、音節候補列記憶部
１０６の内容は ■二／１０：１２−ン／１２：１４−キ／１７　：　２
０にンシキ）となる。

ここで、単語バッファ１０４の中の最後の音節“キ゛′
に達しているため、音節候補列生成部１０５は、単語「
認識ヨが入力音声中の時刻１０から時刻２０に至る区間
に存在するということを出力する。

以上、本発明の一実施例を説明した。なお、カテゴリの
置換誤りは、連続しないかぎり、１個の単語中に複数個
上じていてもよい。

（発明の効果）以上説明したように、本発明によれば、入力音声からの
音ＷＪ侯補抽出の段階で、いくつかの音節候補が誤った
音節候補に置換された場合でも、その単語の存在と入力
音声中での位置を検出することが可能となり、しかも検
出処理の途中で生成される音節候補列の数が極めて少な
くて、効率の良い単語検出を行なうことが可能となる単
語検出方式を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図実施例における音節抽出部の具体例を示すブロッ
ク図、第３図は第１図実施例における入力音声と抽出き
れた音節候補の一例を示す図、第４区は第１図実施例に
おける音節候補記憶部の内容の一例を示す図である。１０１・・・音節抽出部、１０２・・・音節候補記憶部
、１０３・・・単語記憶部、１０４・・・単語バッファ
、１０５・・・音節列生成部、１０６・・・音節列記憶
部、２０１・・・音声バッファ、２０２・・・母音候補
検出部、２０３・・・母音候補記憶部、２０４・・・母
音バタン記憶部、２０５・・・子音候補検出部、２０Ｇ
・・・子音、バタン記憶部。

Claims

【特許請求の範囲】

音節、音素、音素クラス等のカテゴリの列である入力音
声から抽出した複数個のカテゴリ候補とそれらの位置情
報とを用いて、単語のカテゴリ列に対応するカテゴリ候
補列を生成することによって、入力音声中の単語とその
出現位置を検出する単語検出方式において、入力音声か
ら得た複数個のカテゴリ候補のそれぞれをそのカテゴリ
名で分類して記憶し、単語中のカテゴリの並びの順に従
って各カテゴリに対応するカテゴリ候補をそのカテゴリ
と同じ名前に分類されて記憶されているカテゴリ候補の
中から選ぶとともに、単語中の隣接する３個のカテゴリ
の両端のカテゴリのそれぞれが、入力音声中の連続する
３個のカテゴリ候補の並びの両端のカテゴリ候補に対応
するときには、その３個のカテゴリの並びと３個のカテ
ゴリ候補の並びとを対応させて、カテゴリ候補列の生成
を行なうことを特徴とする単語検出方式。