JPS63158599A

JPS63158599A - 単語検出方式

Info

Publication number: JPS63158599A
Application number: JP30705086A
Authority: JP
Inventors: 畑崎　香一郎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1986-12-22
Filing date: 1986-12-22
Publication date: 1988-07-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は単語検出方式に関し、特に音声認識、音声入力
装置等において入力音声中に含ま扛る単語を検出する単
語検出方式に関する。

（従来の技術）音声認識装置や音声入力装置等における入力音声中の単
語を検出する方法のひとつとして、入力音声全音節、音
素、音素クラス等のカテゴリの列と見なし、入力音声か
ら検出したカテゴリを用いて作成したカテゴリ列が単語
辞書に記憶されている単語のカテゴリ列に対応すれば、
その単語全検出結果とするという方法がある。

一般に上述したカテゴリは、その発声時間長が短いこと
や類似するカテゴリが存在することなどから、入力音声
中から正しいカテゴリだけヲ誤りなく検出することは困
難である。そこで従来から、入力音声中の各カテゴリ区
間に対して複数個のカテゴリ候補を検出したのち、単語
辞書を参照して単語に対応するカテゴリ候補列を見つけ
るという方法を用いている。しかしながらこの場合でも
、発声のなまけや隣接するカテゴリ例えば音節どうしの
聴音結合等の原因によって、あるカテゴリ区間の存在が
検出できなかったり、あるカテゴリ区間に正しいカテゴ
リ候補が検出できない場合がある。

そこで、特願昭６１−１９０２５８．１９０２５９゜１
９０２６０．１９０２６１の各「単語検出方式」に述べ
られている方式のように、入力音声中のカテゴリ候補を
検出したのち単語辞書中の単語のカテゴリの並びに従っ
てカテゴリ候補を選択するとともに、単語中のあるカテ
ゴリが検出さｎなかった場合にはその前後のカテゴリに
対応するカテゴリ候補を手掛かりにして、単語のカテゴ
リ列に対応するカテゴリ候補列をｙつけ、また、対応す
るカテゴリ候補列が艶つかった単語についてはそのカテ
ゴリ候補列のスコアを計算して単語のスコアとしている
。

一方、多数の単語のうちからスコアの良い単語を選択す
る場合には、そｎぞれの単語について個別に上述の方法
で対応するカテゴリ候補列及びスコアを求めるとすると
、特に単語辞書中の単語数が多い場合には多大な計算量
を必要とし現実的でない。

そこで、スコアの良いカテゴリ候補列を優先して求める
ことにより、すべての単語について対応するカテゴリ候
補列を求めることなくスコアの良い単語を求めるように
している。すなわち、単語のカテゴリ列をその始端から
辿ってその途中までの一部分に対応するカテゴリ候補列
を求めては、そこまでのカテゴリ候補列のスコアを求め
る。そして、各時点でもっともスコアの良いカテゴリ候
補列を選び、それに対応するカテゴリ列をさらに先に辿
る。この処理を繰り返し、ある単語の終端に達したとき
にその単語を結果として出力する。

この結果、スコアの良いカテゴリ候補列に対応する単語
が優先して求められることになる。

ここで、カテゴリ候補列のスコアとしてはそのカテゴリ
候補列を構成するカテゴリ候補のスコアの平均値が与え
らｌしることが常である。

（発明が解決しようとする問題点）一般に、単語辞書中には、「国家（コツ力）」と「国会
（コツカイ）」のようにある単語のカテゴリ列、この場
合は音節が他の単語の先頭からの一部分のカテゴリ列に
含まれる場合がある。このとき、「国会が」という入力
音声から「コツカイ」という音節候補列が得られた場合
、従来方法ではスコアの良い音節候補列を優先して求め
てゆくために、単語「国会」の音節列が１コツカ１のと
ころまで辿られる時点と、単語「国家」の音節列が終点
まで辿られる時点とは同時点であり、その時点で単語「
国家１が検出さ扛る。このように、単語「国会」が先に
検出されるべきであるのに、それ以前に単語「国家」が
検出結果として出力されてしまう。

一方、かな漢字変換等において文字列に含まれる単語を
単語辞書から選ぶ必要があるときには、入力文字列に最
も長く一致する単語を選ぶという方法（最長一致法）が
有効であることが分かっている。上記の例においても、
最長一致法を用いれば、単語「国会」のほうが「国家」
よりも長いことから、「国会」を先に検出結果として出
力することはできる。

ところが、上記の例で入力音声が「国家に」の場合に、
音節認識の結果「国家（こつか）」の部分に対してはそ
れぞれ第１位の音節候補として「コ」、「ッ」、「力」
が得られたが、「に」の部分に対しては第１候補が［ニ
ー１、第２候補が「イ」となったとする。この場合に正
しくは、単語「国家」と単語「に」が先に検出されるべ
きである。しかしながら、音節［に１に対する第２候補
を用いると前記音節候補からは音節候補列「コアカイ」
が生成され得るために、最畏一致法を用いると単語「国
会」が［国家１よりも先に検出されてしまう。

すなわち、音声からの単語検出の場合には入力音声中の
各々のカテゴリに対して複数個のカテゴリ候補が得ら扛
るために、より長く一致するというからといってその単
語を無条件に選択することはできないという欠点かある
。

本発明の目的は上述した欠点を除去し、適当な場合にの
み最長一致法の考え方を用いることによってより信頼性
の高い単語を結果として出力することを可能にする単語
検出方式を提供することにある。

（問題点を解決するための手段）本発明の単語検出方式は、音節、音素、音素クラス等の
カテゴリの列である入力音声から複数個のカテゴリ候補
およびこれらカテゴリ候補の検出計価における信頼度の
尺度としてのスコアと位置情報とを抽出するとともに単
語辞書に記憶されている単語のカテゴリ列を辿りながら
単語のカテゴリ列に対応するカテゴリ候補列を求めスコ
アの最も良いカテゴリ候補列に対応する単語を結果とし
て出力する単語検出方式において、単語に対応するカテ
ゴリ候補列が求まったときに前記単語のカテゴリ列長に
対応する大きさのペナルティを前記カテゴリ候補列のス
コアを付与する手段を備えて構成される。

（作用）上記の例において、入力音声「国会に」の中の音節「に
」に対する音節候補「二」、「イ、ｊのうちどちらが正
しいかは一般には不明である。そこで従来は、そのカテ
ゴリ列の単語が存在する限り、よりスコアの良い、すな
わちより第１位に近いカテゴリ候補を用いて構成される
カテゴリ候補列を優先している。しかしながら、入力音
声中のカテゴリの認識は正しく行なわれるとは限らない
から、スコアの良いほうの良いカテゴリ候補が実際に正
しい音節候補であるとは限らない。一方、最長一致法の
考え方からすれば、より長く単語に一致するカテゴリ候
補列のほうが信頼できると言える。

そこで、本発明の方式では、単語に対応するカテゴリ候
補列が得られた時点ではその単語音すぐに検出結果とし
て出力せずに、そのカテゴリ候補列のスコアにその単語
長に応じた大きさのペナルティを与えた結果をそのカテ
ゴリ候補列の新たなスコアとする。すなわちそのカテゴ
リ列のスコアはペナルティの大きさだけ悪くなる。この
結果、そのカテゴリ候補列に対応する単語は、そのカテ
ゴリ候補列のスコアよりも良いカテゴリ候補列が他に無
くなった場合に初めて検出結果として出力される。この
ペナルティの大きさは、最長一致法の考え方から、単語
長が長いほど小さな値としておく。従って、単語長に関
してはより長い単語が優先して出力されるという最長一
致法が実現される。また、カテゴリ候補列の本来のスコ
アｈそれを構成するカテゴリ候補のスコアから計算され
る。

このため、あるカテゴリ候補列がいかに長い単語と一致
していたとしても、その中にスコアの悪いカテゴリ候補
が含まれている場合にはそのカテゴリ候補列のスコアは
悪くなるため、その単語が検出結果として誤って出力さ
ｎることはない。

このように、カテゴリ候補のスコアの大きさに応じて適
切に最長一致法の考え方を用いることによって、よシ信
頼性の高い単語を検出結果として出力することができる
。

（実施例）次に図面を参照して本発明の詳細な説明する。

第１図は本発明の一実施例を示すブロック図である。本
実施例では日本語の音声が入力さ扛るものとし、またカ
テゴリとして音節を用いている。

音節候補抽出部１０１は入力音声中の音節候補を検出し
、その候補をそのスコアと入力音声中での位置とともに
音節候補記憶部１０２に記憶する。

第２図は第１図の音節候補抽出部１０１の一例を示すブ
ロック図である。第２図において、入力音声は音声バッ
ファ２０１に一旦格納さｎる。１ず、母音候補検出部２
０２が音声バッファ２０１に格納された音声中の母音候
補を検出し母音候補記憶部２０３に格納する。母音候補
の検出は母音バタン記憶部２０４にあらかじめ格納され
ている各母音の音声標準バタンと入力音声の各区間とを
照合することによって行われる。母音の音声信号は比較
的定常であるので検出は容易である。各母音は少なくと
も母音名、入力音声中での位置の情報？保持している。

母音候補の検出が終了した後、子音候補検出部２０５に
よって子音候補が次に述べるようにして検出される、１
日本語においては、音節は子音（Ｃ）−母音（Ｖ）の組
である。従って入力音声中では、２個の母音に挾まれた
区間のうちのある時間長以下の区間（以後これを■Ｃｖ
区閤と呼ぶ）及び入力音声の始端からある時間長以内に
ある区間まで（以後こｇ（ｉ−ＣＶ区間と呼ぶ）の各に
、１個の子音が存在するといえる。子音候補検出部２０
４は母音候補記憶部２０３に記憶されている母音候補か
ら作られるすべてのｖＣｖ区間及びＣ■区間の各に対し
て、あらかじめ子音バタン記憶部２０６に記憶されてい
るｖＣｖ及びＣｖ標準音声バタンとの照合を行い、類似
度の高い複数個の音声パタンの名前を子音候補とする。

以上で決定された母音候補と子音候補と全組み合わせて
音節候補とし、入力音声中での位置と共に音節候補記憶
部１０２に記憶する。

単語記憶部１０３には検出すべき単語の音節列が記憶さ
ｎている。ここでは説明を簡単にするために、単語配憶
部１０３に「国家（コツ力）」、「国会（コツカイ）」
の２単語が記憶されているとする。実際には単語記憶部
１０３には多数の単語が記憶されておシ、その場合にも
以下の説明とまったく同様に本発明の方式を適用できる
。

いま例として、「国会が（コツ力イガ）」という音声が
入力さｎたとする。この場合、音節認識結果として各音
節に対して次のような音節候補が抽出されたとする。こ
こで（）の中の数字は音節候補のスコアであシ、この値
が小さいほど信頼できる音節候補列である。

入力音節　　第１付合節候補　第２付合節候補「コ」　
　　ゴ（５）　　　　コ（７）「ツ」　　　ツ（２）「力」　　　力（３）　　　バ（１ｏ）「イ」　　　二
（３）　　　イ（４）「ガ」　　　ガ（２）　　　力（６）音節候補列生成部１０４は、まず、単語記憶部１０３の
各単語の先頭の音節に対応する音節候補を音節候補記憶
部１０２に記憶されている音節候補から選択し、各を長
さ１の音節候補列とする。

次にスコア計算部１０５によってそれぞれの音節候補列
のスコアを計算する。本実施例では、音節候補列のスコ
アＴを次式で求める。

ここで、Ｎは音節候補列の長さ、Ｓ　（ｎ）は先頭から
ｎ：ｉｆｆ目の音節候補のスコアである。

例えば、単語「コツ力」の先頭の音節「コ」に対応する
音節候補コ（７）たけからなる音節候補列のスコアは、
（７＋　１　＋１　＋１　）／４＝２．５となる。

これらの音節候補列は、そのスコアと対応する単語と共
に音節候補列記憶部１０６に記憶される。

この結果、音節候補列記憶部１０６には、■コ　　：　
　（７＋１＋１＋１）／４＝２．５［国家Ｊ ■コ　　：　　（７＋１＋１＋１）／４＝２．５「国会
」の２個の音節候補列が記憶されている。ここで、：の右
の数字にその音節候補列のスコア、「　」の中は対応す
る単語である。

次に、音節候補列選択部１０７は、音節候補列記憶部１
０６中の音節候補列のうち、もっともスコアの良い、即
ちその値の小さい音節候補列を取り出し、その音節候補
列及び単語を音節候補列生成部１０４に送る。音節列候
補列生成部１０４は受は取った音節候補列を単語の音節
列に従って更に延長し、改めてそのスコアをスコア計算
部４０５で計算した後、音節候補列記憶部１０６に記憶
する。

いまの場合、 ■コ　　：　　（７＋ｌ＋１＋１）／４＝２．５「国家
１が取り出され、新たに、 ■コツ　：　　（７＋２＋ｌ＋１）／４＝２．７５「国
家１が音節候補列記憶部１０６に記憶される。、この結果、
音節候補列記憶部１０６には、 ■コ　　：　　（７＋１＋１＋１）／４＝２．５「国会
」 ■コツ　：　　（７＋２＋１＋１）／４＝４７５「国家
」が記憶されていることになる。同様に処理を進めると、
音節候補列記憶部１０６の内容は次のように変化してゆ
く。まず、音節候補列■から音節候補列■が生成される
。

■コツ　　：　　（７＋２＋１＋１）／４＝２−７５「
国家」 ■コツ　：　　（７＋２＋１＋１）／４＝２．７５「国
会」次に、音節候補列■から音節候補列■が生成される。

■コツ　：　　（７＋２＋１＋１）／４＝２．７５「国
会」 ■コツカニ　　（７＋２＋３＋１）／４＝３．２５［国
家１ここで、音節候補列■は単語「国家」の終端に達してい
ることから、ペナルティが加算される。ここではペナル
ティＰ−ｉ次式で計算する。

Ｐ　＝ｍａｘ　（５−Ｌ＋　１　）ここで、Ｌは単語長である。従って音節候補列■にはペ
ナルティｍａｘ　（５−３＋　１　）＝２が加算される
。この結果音節候補列記ｔｄ部１０６の内容は次のよう
になる。

■コツ　：　　（７＋２＋１＋１）／４＝２．７５「国
会」 ■コツカニ　　（７＋２＋３＋１）／４＋２＝５．２５
「国家」従って、続いて音節候補列■から音節候補列■が生成さ
れる。

■コツカニ　　（７＋２＋３＋１）／４＋２＝５．２５
「国家」 ■コツカニ　　（７＋２＋３＋１）／４＝３．２５［国
会１次に、音節候補列■から音節候補列■が生成さする。

■コツ力　：　（７＋２＋３＋１　）／４＋２＝５．２
５「国家」 ■コツカイ：　（７＋２＋３＋４）／４＝４「国会」ここで、音節候補列■は単語「国会」の終端に達してい
るためにペナルティｍａｘ（５−４，１）＝１が加算さ
れる。この結果、 ■コツ力　：　（７＋２＋３＋１　）／４＋２＝５．２
５「国家」 ■コツカイ：　（７＋２＋３＋４　）／４＋１＝５「国
会」従って次には音節候補列■が選択され、すでにペナルテ
ィが与えられているために、今回は単語検出結果として
出力される。このように最長−教法の考え方によって、
正しい単語［国会１が先に出力さ牡ることになる。

次に、入力音声が「国家に（コツ力＝）Ｊであった場合
全零える。この時には、音節認識結果として各音節に対
して次のような音節候補が抽出さｆＬる。

入力音節　　第１位置節候補　第２位置節候補「コ」　
　　ゴ（５）　　　　コ（７）「ッ」　　　　ッ（２）［力１　　　カ（３）　　　パ（１０）「二」　　　二
（３）　　　イ（６）この例では３番目の音節「に」に対して第１候補が「二
」、第２候補が「イ」となっているが、この第２候補は
本来誤った候補であるためにそのスコアは６と先の例で
の音節「い」に対する第２候補の「イ」のスコアよりも
悪くなっている。この結果、前述のように処理を進めて
ゆくと、ある時点で音節候補列記憶部１０６の内容は、
■コツ力　：　（７＋２＋３＋１　）／４＋２＝５．２
５「国家」 ■コブカイ：　（７＋２＋３＋６）／４＋１＝５．５１
国会、１となる。この結果、今度は音節候補列■の単語「国家」
が検出結果として先に出力さｎる。

以上、本発明の一実施例全説明した。この実施例では説
明を簡単にするために、音節認識の段階で音節認識誤り
が起こらなかった場合、すなわち入力されたすべての音
節に対して少なくとも正しい音節候補が抽出さｔした場
合について述べたが、音節認識誤シが生じた場合にも、
前述した特願昭６１−１９０２５８．１９０２５９．１
９０２６０．１９０２６１の各「単語検出方式」に述べ
られている方式を用いることによって上記実施例と同様
に正しい単語を検出することができる。

なお、検出対象の単語が多数存在するときには、それら
の単語を木構造形式で表現することにより、すなわち音
節を節点とし、根節点から葉節点までの節点列が各々の
単語の音節列を表わすことが一般的であるが、その場合
にも各の音節列についてみれは本発明の方法を適用する
と上記の実施例と同様の結果となることも明らかである
。

（発明の効果）以上説明したように本発明によれば、最長−教法の考え
方を適切に用いることができ、その結果、より信頼性の
高い単語を結果として出力することが可能となる単語検
出方式を提供することができるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図の実施例における音節候補抽出部の具体的−例を
示すブロック図である。１０１・・・・・・音節候補抽出部、１０２・・・・・
・音節候補記憶部、１０３・・・・・・単語記憶部、１
０４・・・・・・音節候補列生成部、１０５　°°・・
・スコア計算部、１０６・・・・・・音節候補列記憶部
、１０７・・・・・・音節候補列選択部、２０１・・・
・・・音声バッファ、２０２・・・・・・母音候補検出
部、２０３・・・・・・母音候補記憶部、２０４・・・
・・・母音バタン記憶部、２０５・・・・・・子音候補
検出部、２０６・・・・・・子音バタン記憶部・代理人
弁理士内原　　晋、・１　　′：゛＋＋−・・入力音声第　／　図

Claims

【特許請求の範囲】

音節、音素、音素クラス等のカテゴリの列である入力音
声から複数個のカテゴリ候補およびこれらカテゴリ候補
の検出評価における信頼度の尺度としてのスコアと位置
情報とを抽出するとともに単語辞書に記憶されている単
語のカテゴリ列を辿りながら単語のカテゴリ列に対応す
るカテゴリ候補列を求めスコアの最も良いカテゴリ候補
列に対応する単語を結果として出力する単語検出方式に
おいて、単語に対応するカテゴリ候補列が求まったとき
に前記単語のカテゴリ列長に対応する大きさのペナルテ
ィを前記カテゴリ候補列のスコアに付与する手段を備え
て成ることを特徴とする単語検出方式。