JPS61143796A

JPS61143796A - 音声認識装置

Info

Publication number: JPS61143796A
Application number: JP59265754A
Authority: JP
Inventors: 樺澤　哲; 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-12-17
Filing date: 1984-12-17
Publication date: 1986-07-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置、特に単音節音声と単語音声の両
方全認識できる音声認識装置に関する。

従来の技術従来のこの種の音声認識装置は、例えばＮＥＣ技報（江
袋林蔵ほか、「ＤＰ−２００音声入力装置とその応用Ｊ
　ｖｏＩ！、、　３６　、Ａ２　、　ＰＰ　、７Ｏ−７
９（１９８３））に示されているように、第３図のよう
な構造になっていた。

すなわち、音声入力端子３１、入力音声信号を特徴ベク
トルの系列から成る入力パタンに変換する特徴抽出部３
２、単音節音声離散発声モード或いは単語離散発声モー
ド或いは単語連続発声モードのモード選択部３３、単音
節標準パタンを記憶する単音節標準パタン記憶部３４、
単語標準パタンを記憶する単語標準パタン記憶部３６、
前記単音節標準パタン或いは前記単語標準パタン全構成
する各ベクトルと前記入力パタンを構成する各ベクトル
のベクトル間距離を計算するベクトル間距離計算部３６
、前記ベクトル間距離を記憶するベクトル間距離記憶部
３７、前記モード選択部３３で選択された前記モードに
おいて前記ベクトル間距離から前記単音節標準パタンと
前記入力パタンとのパタン間の累積距離或いは前記単語
標準パタンと前記入力パタンとのパタン間の累積距離を
計算する累積距離計算部３８、前記モード選択部３３で
選択された前記モードにおいて前記累積距離計算部３８
の結果に基づいて入力パタンに最も近い前記単音節標準
パタン或いは前記単語標準パタン或いは前記単語標準パ
タンの連鎖を判定する判定部３９から構成され、入力さ
れた単音節音声或いは単語音声を、前記各モードにおい
てそれぞれの標準パタン記憶部で記憶されている標準パ
タ／とマツチングすることにより入力音声を認識を行う
ようになっている。

発明が解決しようとする問題点しかし、ワードプロセッサの仮名キーボードの代わりに
、このよう゛な構成の音声認識装置全使用して仮名文字
列や単語或いは文節等を入力する際、出現頻度の高い語
彙であっても前記単語標準パタン記憶部４５に登録され
ていない語彙については、毎回、前記単音節離散発声モ
ードで仮名文字一つずつを単音節音声で区切って入力し
なければならず、入力速度が非常に遅いだけでなく、発
声が不自然で使用者に余分な負荷を強いるという問題が
あった。

そこで、本発明は、一旦単音節音声で入力された語霊に
ついては、次回入力される場合は単語モードで入力可能
とすることにより、入力速度を高速化し使用者の負荷を
軽くして、入力方法を改善するものである。

問題点を解決するための手段そして上記問題点を解決する本発明の技術的な手段は、
単語を構成する各単音節を表わす記号列（例えば、文字
記号列）で表わされた単語辞書に登録されている語霊の
うち頻度の最も低い語ａｔ単音節を区切って発声するこ
とにより入力された語彙で書換える語彙書換部を設けた
ことにある。

作　　用この技術的手段による作用は次のようになる。

すなわち、頻出語葉については、従来どおり単語音声入
力可能である。一方、使用者にとって頻出語彙であるに
もかかわらず単語辞書に登録されていない語彙について
、本発明では、一旦単音節音声で入力された語雲と単語
辞書の中で頻度の最も低い語彙と金語彙書換部で書換え
ることにより、次回からは同じ語ｔ’を単音節音声では
なく単語音声として入力できるようになる。

この結果、従来、使用者にとって頻出語彙であるにもか
かわらず毎回単音節音声を区切って入力する必要は解消
され、一旦単音節音声を区切って入力すれば、次回から
は同じ語彙’を単語音声で入力することができ、入力速
度の高速化し使用者の負荷を軽くして、入力方法を改善
することができるのである。

実施例以下、本発明の実施例について説明するが、その前にパ
タンマツチングによる単語音声認識装置について説明す
る。この装置の一般的な構成は次のようなものである。

入力音声信号ケ、フィルタバンク、周波数分析ＬＰＧ分
析等によって特徴ベクトルの系列に変換する特徴抽出手
段と、予め発声され、この特徴抽吊手段により抽出され
た特徴ベクトルの系列を認識単語全部について標準パタ
ーンとして登録しておく標準パターン記憶手段と、認識
させるべく発声され、前記特徴抽出手段により抽出され
た入カバターンと前記標準パターン記憶手段に記憶され
ている標準パターンの全てと特徴ベクトルの系列として
の類似度あるいは距離を計算するパターン比較手段と、
パターン比較の結果、最も類似度の高かった（距離の小
さかったン標準パターンに対応する単語を認識結果とし
て判定出力する判定手段からなる。

このとき、同一話者が同一の単語を発声しても発声の都
度、その発声時間長が異るので、前記パターン比較手段
で標準パターンと入カバターンの比較を行う際には、両
者の時間軸を伸縮させ、両者のパターン長を揃えて比較
する必要がある。その際、発声時間長の変化は、発声単
語の各部で一様に生じているのではないので、各部を不
均一に伸縮する必要がある。

これを図で表現したのが第４図である。第４図（ａ）に
おいて横軸は入カバターンＡ＝ａ１ａ２°・ａｌ（ａｉ
は入カバターンの第１フレームの特徴ベクトル）に対応
する１座標、縦軸は標準パターンＲｎ＝ｒ１ｒ２・・・
ｒ、ｎ（ｒ、は標準パターンＲの第１フレームの特徴ベ
クトル）に対応する】座標を表す。

入カバターンＡと標準パターンＲ０とを時間軸を非線形
に伸縮してマツチングするとはこの格子グラフ上におい
て、両パターンの各特徴ベクトルの対応関係を示す径路
１を、両パターンの、系列としての距離が最小になると
いう評価基準のもとで見出し、そのときの距離を両パタ
ーンの距離とする。この計算を効率的に行う方法として
動的計画法を用いる方法が良く知られておジ、ＤＰマツ
チングと呼ばれている。

この径路を決める際には音声の性質全考慮して制限条件
を設ける。第４図（ｂｌは傾斜制限と呼ばれる径路選択
の条件の一例である。即ち、この例では点（ｉｌｊンへ
至る径路は、点い−２，１−１）から点（ｉ−１，ｊ）
を通る径路が、点（ｉ−１，ｊ　−１）からの径路か、
点（ｉ　−１、ｊ−１）から点（ｉ。

１−１）を通る径路かの何れかの径路しか取ジ得ないこ
とを意味しており、入カバターンと標準パターンの始端
と終端は必ず対応させるという条件をつければ、前記マ
ツチングの径路は第４図（ａ）の斜線の部分に制限され
る。この制限は、いかに時間軸が伸縮するとはいっても
、同一単語に対してはそれ程極端に伸縮するはずはない
という事実からあまり極端な対応づけが生じないように
するためである。

両系列間の距離は、入力ベクトルａｉと標準パターンベ
クトル！−のベクトル間距離ｄｎ（ｉ、Ｈの前記径路に
沿う重み付平均として定義される０このとき径路に沿う
重みの和が径路の選ばれ方に依らず一定になるようにし
ておけばＤＰマ・ノチングの手法が使える。

第５図は単音節音声標準バｌ−ンを結合することによっ
て構成した単語標準パターンと入カバターンのマツチン
グの様子を図示したものである。

同図において、ＲＱ　（＋）　、　Ｒｑ（２］　、　Ｒ
ｑ　（５１は単音節ｑ（１１゜ｑ　＋２１　、　ｑ　（
３１の標準パターンを意味し、この例は単音節（１＋＋
１　、　ｑ（２１、ｑ（３１から成る単語の標準パター
ンと入カバターンをマツチングする場合を示している。

前記説明に従ってマツチング径路は、例えば２のように
なる。

以下、前記したパターンマツチングの手法を用いた本発
明の実施例について説明する。

第１図は本発明の一実施例を示すブロック図である。同
図において、１は音声信号の入力端子、２はフィルタバ
ンク等で構成された、入力音声信号を特徴ベクトルの系
列に変換する特徴抽出部である。３は音節標準パタン記
憶部であって、各音節の特徴ベクトルの系列に変換され
た標準パタンか記憶される。ここで、音節標準パタンと
しては、単音節標準パタンのみと定義しても、或いは単
音節を連続発声した際に生じる調音結合（ある単音節音
声を単独で発声した場合の特徴ベクトルに対し、連続発
声された単音節音声の特徴ベクトルがその単音節音声の
前後の音声の影響を受けて変化する現象）を考慮して、
単音節標準パ１７及びＶＣＶ音節標準パタン（ｖ：母音
、Ｃ：子音ンと定義しても良いが、以下の説明は単音節
標準ノ＜タンのみと定義する。ただし、音節として単音
節標準パタン及びｖＣｖ音節標準ノくタンと定義した場
合には、単音節の認識には単音節標準・くタンのみで充
分であるが、単語認識の場合に単音節標準ノくタンだけ
でな（ＶＣＶ音節を用いることができ、前記調音結合の
問題を解消することができる。

さて、４はベクトル間距離計算部であって、音節標準パ
タン記憶部３の標準）くタンＲｎ全構成するベクトルｒ
号と入力パタンＡｉ構成するペクト】ルａ・　のベクトル間距離ｄｎ（ｉ　、　ｉ　次計算す
る。

いま、”ｉ”（”ｉｌ　、ａｉ２’・・・・・°＋　ａ
ｉＪ！Ｌ　Ｊ　＝＝（ｒＨ１＊　”５２＋　”””　＋
　ｒｉｎ　）とするとき、ｄ（ｉ、ｊ）は最も簡単には
、で与えられる。５はベクトル間距離記憶部であって、ベ
クトル間距離計算部４で計算された結果を記憶している
。６は単音節累積距離計算部であって、各単音節につい
て第１フレームから現フレームまでの累積距離（ｄｎ（
ｉ　、　ｊ　）のマツチング径路に沿う重み付き和）を
求める。マンチング径路の拘束条件として第４図（ｂｌ
　ｋ採用し、各径路に沿う重み係数を同図の径路上に付
した数値とすると、座標（ｉ、ｉ）における標準パタン
Ｒｎに対する一累積距離Ｄ”（ｉ、ｉ）　　は次のよう
に与えられる。

・　−・　　（２）７は単音節判定部であって、Ｄｎ（１，Ｉｎ）が最小に
なるｎｔ＝ｎとすると、ＨＲｎに対応する単音節を認識
結果とする。８は単語区切り検出部であって、例えば前
記入力パタンの電力を用いて各入力音声の無音時間長を
求め、この無音時間長が所定の時間長以上（すなわち、
閾値ＴＨ以上）の場合に単語区切り検出信号を出力する
。すなわち、前記無音時間長が閾値ＴＨ以下であれば、
直前に入力された音声は単語を構成する音声の一部であ
ると見做し、単語区切りとしない。この様な短い無音時
間長とは、例えば「かつこう」という音声の促音「っ」
の部分に相当したり、或いは単語を構成する仮名文字を
単音節音声でリズム良く区切って発声した場合の単音節
音声間の無音部分に相当する。

９は単音節認識結果記憶部であって、前記単音節判定部
７で得られた単音節認識結果を単音節を表わす記号（例
えば、文字記号）の形式で記憶し、前記単語区切り検出
部８から前記単語区切り検出信号が入力された時点で、
それまで記憶していた単音節認識結果（例えば、文字記
号列）Ｂ＝（ｂｌ。

ｂ２　””　ｘ　、’、ｂ！　）　（ｂｘ：単音節認識
結果）及び各単音節認識結果のもつ累積距離の合計値Ｄ
Ｂヲ出力する。１０は単語辞書であって、語葉がそれぞ
れを構成する単音節の記号列（例えば、文字記号列）と
してキーボード等で入力することにより予め準備されて
いる。捷た、各語葉の出現頻度も記憶している。１１は
単語累積距離計算部であって、マツチングさせたい単語
に対し、単語辞書１０で指定される単音節の順序に従っ
て、ベクトル間距離記憶部５に記憶されている。既に計
算済のベクトル間距離を読み出してきて、単語としての
点（ｉ、ｉ）までの累積距離を計算する。即ち、例えば
第６図において、第ｉフレームにおいて、ｎ＝１．２．
・・・Ｎ（Ｎは音節標準パタン数）に対して音節標準パ
タンＲｎ＝ｒ１ｒ２・・・ｒｓ　　のそれぞれのベクト
ルｒ　と入力パタンＡ　＝　ａ１ａ２°°φａＸの第ｉ
フレームのベクトルａ、とのベクトル間距離ｄｎ（ｉ＋
ｉ）　は既に単音節認識の際に計算済であるから、Ｒｑ
（１）、　Ｒｑｆ２）、Ｂｑ（３）の結合パターンＨｑ
（１１■Ｒｑｊ２Ｊ■ＨｑＬ５）＝ｒＱ（１１ｒ（１（
１１，、、”Ｓ）、ＣＩ（２１ｒｑ（２１，、、、ｑ♂
Ｆｉｌ　ｑ（ｓ、１．。

ｒｑ♂）とａｉ　　とのベクトル間距離は新たに計算す
る必要はない。単語判定部１２は入力が完了した後、単
語累積距離計算部１１で得られたそれぞれの単語に対す
る最終累積距離のうち、最小値を与えるものを単語の認
識結果として判定し、認識結果Ｃ及び認識結果Ｄｃのも
つ累積距離を出力する。

１３は認識結果出力部であって、前記単音節認識結果記
憶部９から前記Ｂ及び前記ＤＢ　ｆ受け、また前記単語
判定部１２から前記Ｃ及び前記ＤＣｉ受け、前記ＤＢ　
と前記Ｄａの大小比較を行って、Ｄｃ≦ＤＢであれば前
記Ｃ（単語認識結果）を認識結果Ｔとして出力端子１６
から出力すると同時に１４で示される語葉書換部に出力
し、一方ＤＣ＞ＤＢであれば前記Ｂ（単音節認識結果の
列）を認識結果Ｔとして出力端子１６から出力すると同
時に、語霊書換部１４に出力する。更に、出力端子１６
から結果を出力すると同時に１５で示されるクリア信号
発生部全駆動させる為の駆動信号全出力する。１４は語
彙書換部であって、前記認識結果出力部１３からの認識
結果Ｔ（例えば、文字記号列で表わされている）を前記
単語辞書１ｏに登録されている語彙の中で検索し、登録
されている場合には該当語彙のもつ頻度を増加させ、登
録されていない場合には、前記単語辞書１０の中の語彙
のうち最も頻度の低い語雲と前記認識結果Ｔとを書換え
る。ただし、新しく書換えられた（すなわち、登録され
た）語案の頻度は書換え前の該当語彙のもつ頻度をその
ま１引継ぐこととする。（新しく登録された語葉の頻度
は、所定値を与える方法も可能である。）１５はクリア
信号発生部であって、前記認識結果出力部１３から前記
駆動信号を与えられた時点で前記単音節認識結果記憶部
９の内容をクリアする為の信号を発生する。１６は認識
結果の出力端子である。

次に本発明の他の実施例について説明する。

第２図は他の実施例を示しており、前記第１の実施例の
単語区切り検出部８では入力パタンから例えば電力を求
めて単語区切ｙｔ自動的に検出しているのに対し、本実
施例で示されている単語区切り検出部１７は、音声認識
装置本体の外部（すなわち、単語区切り検出部駆動信号
の入力端子１８）からの、駆動信号で単語区切り信号を
発生する。すなわち、第２図において、１〜７及び９〜
１６で示される各部は前記第１の実施例と全く同様に動
作し、１７で示される単語区切り検出部は前記の動作を
する。１８は単語区切り検出部駆動信号の入力端子であ
る。

以上のように、本実施例によれば、単語を構成する各単
音節を表わす記号列（例えば、文字記号列）で表わされ
た単語辞書に登録されている語彙のうち頻度の最も低い
語彙ヲ単音節を区切って発声することにより入力された
語彙で書換える語彙書換部を設けたことによって、音声
認識装置の使用者にとっては頻出語彙であるにもかかわ
らず、単語辞書に登録されていない語彙である為に、毎
回単音節ヶ区切って発声させるという負荷を解消し、入
力速度を高速化すると共に入力方法を改善できるもので
ある。

なお、本実施例では、単音節判定部７と単語判定部１２
のように判定部を単音節と単語の場合について分けた構
成としたが、他の実施例として、判定部？：１つだけ設
け、単音節累積距離計算部６と単語累積距離計算部１１
の出力を区別することなく距離が最も小さくなる標準パ
タンに対応する単音節あるいは単語を認識結果Ｕとして
出力し、前記単音節認識結果記憶部９では、前記単語区
切り検出部８（或いは１７）からの前記単語区切り信号
が入力されるまで保持しておき、前記検出信号を受けた
時点で保持内容を前記語彙書換部１４及び前記出力端子
１６に出力と共に保持内容をクリアするというようにも
構成できる。このような構成では、第１図の認識結果出
力部１３は不要となる。

また、以上説明した実施例の各構成要素は、ソフトウェ
ア手段によりその機能を実現することも可能である。

発明の効果本発明の音声認識装置は、単語を構成する各単音節を表
わす記号列（例えば、文字記号列）で表わされた単語辞
書に登録されている語雲のうち頻度の最も低い語彙ヲ単
音節を区切って発声することにより入力された語彙で書
換える語葉書換部を設けたことによって、音声認識装置
の使用者にとっては頻出語葉であるにもかかわらず、単
語辞書に登録されていない語彙である為に、毎回単音節
を区切って発声させるという負荷を解消し、入力速度を
高速化すると共に入力方法全改善できるものである。

しかも、単語辞書には登録されていないが、音声認識装
置の使用者にとっては頻出語彙であるものを単語辞書に
付加するのではなく、前記頻出語党と単語辞書の中の使
用頻度の最も低い語彙と書替えるので、結果として、記
憶容量の増加を抑えることもできる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
本発明の他の実施例を示すブロック図、第３図は従来例
を示すブロック図、第４図（ａ）　、　（ｂ）はＤＰマ
ツチングの原理を説明する図、第５図は本発明の実施例
において音節標準パタンを用いて単語音声を認識する原
理を説明する図である。２・・・・・特徴抽出部、３・・・・・標準パタン記憶
部、４・・・・ベクトル間距離計算部、５・・・・・・
ベクトル間距離記憶部、６・・・・・・単音節累積距離
計算部、７・・・・・・・・単音節判定部、８．１７・
・・・単語区切り検出部、９・・・・・単音節認識結果
記憶部、１ｏ・・・・・単語辞書、１１・・・・・・単
語累積距離計算部、１２・・・・・・単語判定部、１３
・・・・・・認識結果出力部、１４　　・語彙書換部、
１５・・・・クリア信号発生部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第２図第４図第５図ス乃ハ１−ン

Claims

【特許請求の範囲】

（１）入力音声信号を特徴ベクトルの系列（ａ＿１、ａ
＿２、……、ａ＿ｉ、…、ａ＿Ｉ）より成る入力パタン
Ａに変換する特徴抽出手段と、音節の標準パタンＲ＾ｎ＝（ｒ＾ｎ＿１、ｒ＾ｎ＿２、…、ｒ＾ｎ＿ｊ、
…、ｒ＾ｎ＿Ｊ＿＿ｎ）（ｎ＝１、２、…、Ｎ）を記憶
する標準パタン記憶手段と、語彙を所定個数記憶する単
語辞書と、前記標準パタンＲ＾ｎを構成する特徴ベクト
ルｒ＾ｎ＿ｊ（ｊ＝１、２、…、Ｊ＿ｎ）のそれぞれと
前記入力パタンＡの第ｉフレームの特徴ベクトルａ＿ｉ
とのベクトル間距離ｄ＾ｎ（ｉ、ｊ）を計算するベクト
ル間距離計算手段と、前記ベクトル間距離ｄ＾ｎ（ｉ、
ｊ）から前記入力パタンＡと前記標準パタンＲ＾ｎのう
ち単音節標準パタンとのパタン間距離を計算する単音節
累積距離計算手段と、前記単音節累積距離計算手段で得
られる前記パタン間距離に基づいて前記入力パタンＡに
最も近い単音節を判定する単音節判定手段と、単語区切
り信号を発生する単語区切り信号発生手段と、前記単音
節判定手段の結果を記憶する単音節認識結果記憶手段と
、前記標準パタンの結合として表わされた単語標準パタ
ンと前記入力パタンのそれぞれを構成する各ベクトル間
の前記ベクトル間距離ｄ＾ｎ（ｉ、ｊ）の累積距離を計
算する単語累積距離計算手段と、前記単語累積距離計算
手段の結果に基づいて前記単語辞書の中から語彙を決定
する単語判定手段と、前記単音節認識結果記憶手段で記
憶されている内容と前記単語辞書で記憶されている語彙
のうち最も頻度の低い語彙との書換えを行う語彙書換手
段とを備えたことを特徴とする音声認識装置。
（２）単語区切り信号発生手段は、音声認識装置本体外
部からの信号により単語区切り信号を発生する特許請求
の範囲第１項記載の音声認識装置。