JPS61143796A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61143796A
JPS61143796A JP59265754A JP26575484A JPS61143796A JP S61143796 A JPS61143796 A JP S61143796A JP 59265754 A JP59265754 A JP 59265754A JP 26575484 A JP26575484 A JP 26575484A JP S61143796 A JPS61143796 A JP S61143796A
Authority
JP
Japan
Prior art keywords
word
pattern
vocabulary
input
monosyllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59265754A
Other languages
English (en)
Inventor
樺澤 哲
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59265754A priority Critical patent/JPS61143796A/ja
Publication of JPS61143796A publication Critical patent/JPS61143796A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置、特に単音節音声と単語音声の両
方全認識できる音声認識装置に関する。
従来の技術 従来のこの種の音声認識装置は、例えばNEC技報(江
袋林蔵ほか、「DP−200音声入力装置とその応用J
 voI!、、 36 、A2 、 PP 、7O−7
9(1983))に示されているように、第3図のよう
な構造になっていた。
すなわち、音声入力端子31、入力音声信号を特徴ベク
トルの系列から成る入力パタンに変換する特徴抽出部3
2、単音節音声離散発声モード或いは単語離散発声モー
ド或いは単語連続発声モードのモード選択部33、単音
節標準パタンを記憶する単音節標準パタン記憶部34、
単語標準パタンを記憶する単語標準パタン記憶部36、
前記単音節標準パタン或いは前記単語標準パタン全構成
する各ベクトルと前記入力パタンを構成する各ベクトル
のベクトル間距離を計算するベクトル間距離計算部36
、前記ベクトル間距離を記憶するベクトル間距離記憶部
37、前記モード選択部33で選択された前記モードに
おいて前記ベクトル間距離から前記単音節標準パタンと
前記入力パタンとのパタン間の累積距離或いは前記単語
標準パタンと前記入力パタンとのパタン間の累積距離を
計算する累積距離計算部38、前記モード選択部33で
選択された前記モードにおいて前記累積距離計算部38
の結果に基づいて入力パタンに最も近い前記単音節標準
パタン或いは前記単語標準パタン或いは前記単語標準パ
タンの連鎖を判定する判定部39から構成され、入力さ
れた単音節音声或いは単語音声を、前記各モードにおい
てそれぞれの標準パタン記憶部で記憶されている標準パ
タ/とマツチングすることにより入力音声を認識を行う
ようになっている。
発明が解決しようとする問題点 しかし、ワードプロセッサの仮名キーボードの代わりに
、このよう゛な構成の音声認識装置全使用して仮名文字
列や単語或いは文節等を入力する際、出現頻度の高い語
彙であっても前記単語標準パタン記憶部45に登録され
ていない語彙については、毎回、前記単音節離散発声モ
ードで仮名文字一つずつを単音節音声で区切って入力し
なければならず、入力速度が非常に遅いだけでなく、発
声が不自然で使用者に余分な負荷を強いるという問題が
あった。
そこで、本発明は、一旦単音節音声で入力された語霊に
ついては、次回入力される場合は単語モードで入力可能
とすることにより、入力速度を高速化し使用者の負荷を
軽くして、入力方法を改善するものである。
問題点を解決するための手段 そして上記問題点を解決する本発明の技術的な手段は、
単語を構成する各単音節を表わす記号列(例えば、文字
記号列)で表わされた単語辞書に登録されている語霊の
うち頻度の最も低い語at単音節を区切って発声するこ
とにより入力された語彙で書換える語彙書換部を設けた
ことにある。
作  用 この技術的手段による作用は次のようになる。
すなわち、頻出語葉については、従来どおり単語音声入
力可能である。一方、使用者にとって頻出語彙であるに
もかかわらず単語辞書に登録されていない語彙について
、本発明では、一旦単音節音声で入力された語雲と単語
辞書の中で頻度の最も低い語彙と金語彙書換部で書換え
ることにより、次回からは同じ語t’を単音節音声では
なく単語音声として入力できるようになる。
この結果、従来、使用者にとって頻出語彙であるにもか
かわらず毎回単音節音声を区切って入力する必要は解消
され、一旦単音節音声を区切って入力すれば、次回から
は同じ語彙’を単語音声で入力することができ、入力速
度の高速化し使用者の負荷を軽くして、入力方法を改善
することができるのである。
実施例 以下、本発明の実施例について説明するが、その前にパ
タンマツチングによる単語音声認識装置について説明す
る。この装置の一般的な構成は次のようなものである。
入力音声信号ケ、フィルタバンク、周波数分析LPG分
析等によって特徴ベクトルの系列に変換する特徴抽出手
段と、予め発声され、この特徴抽吊手段により抽出され
た特徴ベクトルの系列を認識単語全部について標準パタ
ーンとして登録しておく標準パターン記憶手段と、認識
させるべく発声され、前記特徴抽出手段により抽出され
た入カバターンと前記標準パターン記憶手段に記憶され
ている標準パターンの全てと特徴ベクトルの系列として
の類似度あるいは距離を計算するパターン比較手段と、
パターン比較の結果、最も類似度の高かった(距離の小
さかったン標準パターンに対応する単語を認識結果とし
て判定出力する判定手段からなる。
このとき、同一話者が同一の単語を発声しても発声の都
度、その発声時間長が異るので、前記パターン比較手段
で標準パターンと入カバターンの比較を行う際には、両
者の時間軸を伸縮させ、両者のパターン長を揃えて比較
する必要がある。その際、発声時間長の変化は、発声単
語の各部で一様に生じているのではないので、各部を不
均一に伸縮する必要がある。
これを図で表現したのが第4図である。第4図(a)に
おいて横軸は入カバターンA=a1a2°・al(ai
は入カバターンの第1フレームの特徴ベクトル)に対応
する1座標、縦軸は標準パターンRn=r1r2・・・
r、n(r、は標準パターンRの第1フレームの特徴ベ
クトル)に対応する】座標を表す。
入カバターンAと標準パターンR0とを時間軸を非線形
に伸縮してマツチングするとはこの格子グラフ上におい
て、両パターンの各特徴ベクトルの対応関係を示す径路
1を、両パターンの、系列としての距離が最小になると
いう評価基準のもとで見出し、そのときの距離を両パタ
ーンの距離とする。この計算を効率的に行う方法として
動的計画法を用いる方法が良く知られておジ、DPマツ
チングと呼ばれている。
この径路を決める際には音声の性質全考慮して制限条件
を設ける。第4図(blは傾斜制限と呼ばれる径路選択
の条件の一例である。即ち、この例では点(iljンへ
至る径路は、点い−2,1−1)から点(i−1,j)
を通る径路が、点(i−1,j −1)からの径路か、
点(i −1、j−1)から点(i。
1−1)を通る径路かの何れかの径路しか取ジ得ないこ
とを意味しており、入カバターンと標準パターンの始端
と終端は必ず対応させるという条件をつければ、前記マ
ツチングの径路は第4図(a)の斜線の部分に制限され
る。この制限は、いかに時間軸が伸縮するとはいっても
、同一単語に対してはそれ程極端に伸縮するはずはない
という事実からあまり極端な対応づけが生じないように
するためである。
両系列間の距離は、入力ベクトルaiと標準パターンベ
クトル!−のベクトル間距離dn(i、Hの前記径路に
沿う重み付平均として定義される0このとき径路に沿う
重みの和が径路の選ばれ方に依らず一定になるようにし
ておけばDPマ・ノチングの手法が使える。
第5図は単音節音声標準バl−ンを結合することによっ
て構成した単語標準パターンと入カバターンのマツチン
グの様子を図示したものである。
同図において、RQ (+) 、 Rq(2] 、 R
q (51は単音節q(11゜q +21 、 q (
31の標準パターンを意味し、この例は単音節(1++
1 、 q(21、q(31から成る単語の標準パター
ンと入カバターンをマツチングする場合を示している。
前記説明に従ってマツチング径路は、例えば2のように
なる。
以下、前記したパターンマツチングの手法を用いた本発
明の実施例について説明する。
第1図は本発明の一実施例を示すブロック図である。同
図において、1は音声信号の入力端子、2はフィルタバ
ンク等で構成された、入力音声信号を特徴ベクトルの系
列に変換する特徴抽出部である。3は音節標準パタン記
憶部であって、各音節の特徴ベクトルの系列に変換され
た標準パタンか記憶される。ここで、音節標準パタンと
しては、単音節標準パタンのみと定義しても、或いは単
音節を連続発声した際に生じる調音結合(ある単音節音
声を単独で発声した場合の特徴ベクトルに対し、連続発
声された単音節音声の特徴ベクトルがその単音節音声の
前後の音声の影響を受けて変化する現象)を考慮して、
単音節標準パ17及びVCV音節標準パタン(v:母音
、C:子音ンと定義しても良いが、以下の説明は単音節
標準ノ<タンのみと定義する。ただし、音節として単音
節標準パタン及びvCv音節標準ノくタンと定義した場
合には、単音節の認識には単音節標準・くタンのみで充
分であるが、単語認識の場合に単音節標準ノくタンだけ
でな(VCV音節を用いることができ、前記調音結合の
問題を解消することができる。
さて、4はベクトル間距離計算部であって、音節標準パ
タン記憶部3の標準)くタンRn全構成するベクトルr
号と入力パタンAi構成するペクト】 ルa・ のベクトル間距離dn(i 、 i 次計算す
る。
いま、”i”(”il 、ai2’・・・・・°+ a
iJ!L J ==(rH1* ”52+ ””” +
 rin )とするとき、d(i、j)は最も簡単には
、 で与えられる。5はベクトル間距離記憶部であって、ベ
クトル間距離計算部4で計算された結果を記憶している
。6は単音節累積距離計算部であって、各単音節につい
て第1フレームから現フレームまでの累積距離(dn(
i 、 j )のマツチング径路に沿う重み付き和)を
求める。マンチング径路の拘束条件として第4図(bl
 k採用し、各径路に沿う重み係数を同図の径路上に付
した数値とすると、座標(i、i)における標準パタン
Rnに対する一累積距離D”(i、i)  は次のよう
に与えられる。
・ −・  (2) 7は単音節判定部であって、Dn(1,In)が最小に
なるnt=nとすると、HRnに対応する単音節を認識
結果とする。8は単語区切り検出部であって、例えば前
記入力パタンの電力を用いて各入力音声の無音時間長を
求め、この無音時間長が所定の時間長以上(すなわち、
閾値TH以上)の場合に単語区切り検出信号を出力する
。すなわち、前記無音時間長が閾値TH以下であれば、
直前に入力された音声は単語を構成する音声の一部であ
ると見做し、単語区切りとしない。この様な短い無音時
間長とは、例えば「かつこう」という音声の促音「っ」
の部分に相当したり、或いは単語を構成する仮名文字を
単音節音声でリズム良く区切って発声した場合の単音節
音声間の無音部分に相当する。
9は単音節認識結果記憶部であって、前記単音節判定部
7で得られた単音節認識結果を単音節を表わす記号(例
えば、文字記号)の形式で記憶し、前記単語区切り検出
部8から前記単語区切り検出信号が入力された時点で、
それまで記憶していた単音節認識結果(例えば、文字記
号列)B=(bl。
b2 ”” x 、’、b! ) (bx:単音節認識
結果)及び各単音節認識結果のもつ累積距離の合計値D
Bヲ出力する。10は単語辞書であって、語葉がそれぞ
れを構成する単音節の記号列(例えば、文字記号列)と
してキーボード等で入力することにより予め準備されて
いる。捷た、各語葉の出現頻度も記憶している。11は
単語累積距離計算部であって、マツチングさせたい単語
に対し、単語辞書10で指定される単音節の順序に従っ
て、ベクトル間距離記憶部5に記憶されている。既に計
算済のベクトル間距離を読み出してきて、単語としての
点(i、i)までの累積距離を計算する。即ち、例えば
第6図において、第iフレームにおいて、n=1.2.
・・・N(Nは音節標準パタン数)に対して音節標準パ
タンRn=r1r2・・・rs  のそれぞれのベクト
ルr と入力パタンA = a1a2°°φaXの第i
フレームのベクトルa、とのベクトル間距離dn(i+
i) は既に単音節認識の際に計算済であるから、Rq
(1)、 Rqf2)、Bq(3)の結合パターンHq
(11■Rqj2J■HqL5)=rQ(11r(1(
11,、、”S)、CI(21rq(21,、、、q♂
Fil q(s、1.。
rq♂)とai  とのベクトル間距離は新たに計算す
る必要はない。単語判定部12は入力が完了した後、単
語累積距離計算部11で得られたそれぞれの単語に対す
る最終累積距離のうち、最小値を与えるものを単語の認
識結果として判定し、認識結果C及び認識結果Dcのも
つ累積距離を出力する。
13は認識結果出力部であって、前記単音節認識結果記
憶部9から前記B及び前記DB f受け、また前記単語
判定部12から前記C及び前記DCi受け、前記DB 
と前記Daの大小比較を行って、Dc≦DBであれば前
記C(単語認識結果)を認識結果Tとして出力端子16
から出力すると同時に14で示される語葉書換部に出力
し、一方DC>DBであれば前記B(単音節認識結果の
列)を認識結果Tとして出力端子16から出力すると同
時に、語霊書換部14に出力する。更に、出力端子16
から結果を出力すると同時に15で示されるクリア信号
発生部全駆動させる為の駆動信号全出力する。14は語
彙書換部であって、前記認識結果出力部13からの認識
結果T(例えば、文字記号列で表わされている)を前記
単語辞書1oに登録されている語彙の中で検索し、登録
されている場合には該当語彙のもつ頻度を増加させ、登
録されていない場合には、前記単語辞書10の中の語彙
のうち最も頻度の低い語雲と前記認識結果Tとを書換え
る。ただし、新しく書換えられた(すなわち、登録され
た)語案の頻度は書換え前の該当語彙のもつ頻度をその
ま1引継ぐこととする。(新しく登録された語葉の頻度
は、所定値を与える方法も可能である。)15はクリア
信号発生部であって、前記認識結果出力部13から前記
駆動信号を与えられた時点で前記単音節認識結果記憶部
9の内容をクリアする為の信号を発生する。16は認識
結果の出力端子である。
次に本発明の他の実施例について説明する。
第2図は他の実施例を示しており、前記第1の実施例の
単語区切り検出部8では入力パタンから例えば電力を求
めて単語区切yt自動的に検出しているのに対し、本実
施例で示されている単語区切り検出部17は、音声認識
装置本体の外部(すなわち、単語区切り検出部駆動信号
の入力端子18)からの、駆動信号で単語区切り信号を
発生する。すなわち、第2図において、1〜7及び9〜
16で示される各部は前記第1の実施例と全く同様に動
作し、17で示される単語区切り検出部は前記の動作を
する。18は単語区切り検出部駆動信号の入力端子であ
る。
以上のように、本実施例によれば、単語を構成する各単
音節を表わす記号列(例えば、文字記号列)で表わされ
た単語辞書に登録されている語彙のうち頻度の最も低い
語彙ヲ単音節を区切って発声することにより入力された
語彙で書換える語彙書換部を設けたことによって、音声
認識装置の使用者にとっては頻出語彙であるにもかかわ
らず、単語辞書に登録されていない語彙である為に、毎
回単音節ヶ区切って発声させるという負荷を解消し、入
力速度を高速化すると共に入力方法を改善できるもので
ある。
なお、本実施例では、単音節判定部7と単語判定部12
のように判定部を単音節と単語の場合について分けた構
成としたが、他の実施例として、判定部?:1つだけ設
け、単音節累積距離計算部6と単語累積距離計算部11
の出力を区別することなく距離が最も小さくなる標準パ
タンに対応する単音節あるいは単語を認識結果Uとして
出力し、前記単音節認識結果記憶部9では、前記単語区
切り検出部8(或いは17)からの前記単語区切り信号
が入力されるまで保持しておき、前記検出信号を受けた
時点で保持内容を前記語彙書換部14及び前記出力端子
16に出力と共に保持内容をクリアするというようにも
構成できる。このような構成では、第1図の認識結果出
力部13は不要となる。
また、以上説明した実施例の各構成要素は、ソフトウェ
ア手段によりその機能を実現することも可能である。
発明の効果 本発明の音声認識装置は、単語を構成する各単音節を表
わす記号列(例えば、文字記号列)で表わされた単語辞
書に登録されている語雲のうち頻度の最も低い語彙ヲ単
音節を区切って発声することにより入力された語彙で書
換える語葉書換部を設けたことによって、音声認識装置
の使用者にとっては頻出語葉であるにもかかわらず、単
語辞書に登録されていない語彙である為に、毎回単音節
を区切って発声させるという負荷を解消し、入力速度を
高速化すると共に入力方法全改善できるものである。
しかも、単語辞書には登録されていないが、音声認識装
置の使用者にとっては頻出語彙であるものを単語辞書に
付加するのではなく、前記頻出語党と単語辞書の中の使
用頻度の最も低い語彙と書替えるので、結果として、記
憶容量の増加を抑えることもできる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
本発明の他の実施例を示すブロック図、第3図は従来例
を示すブロック図、第4図(a) 、 (b)はDPマ
ツチングの原理を説明する図、第5図は本発明の実施例
において音節標準パタンを用いて単語音声を認識する原
理を説明する図である。 2・・・・・特徴抽出部、3・・・・・標準パタン記憶
部、4・・・・ベクトル間距離計算部、5・・・・・・
ベクトル間距離記憶部、6・・・・・・単音節累積距離
計算部、7・・・・・・・・単音節判定部、8.17・
・・・単語区切り検出部、9・・・・・単音節認識結果
記憶部、1o・・・・・単語辞書、11・・・・・・単
語累積距離計算部、12・・・・・・単語判定部、13
・・・・・・認識結果出力部、14  ・語彙書換部、
15・・・・クリア信号発生部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 第4図 第5図 ス乃ハ1−ン

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声信号を特徴ベクトルの系列(a_1、a
    _2、……、a_i、…、a_I)より成る入力パタン
    Aに変換する特徴抽出手段と、音節の標準パタン R^n=(r^n_1、r^n_2、…、r^n_j、
    …、r^n_J__n)(n=1、2、…、N)を記憶
    する標準パタン記憶手段と、語彙を所定個数記憶する単
    語辞書と、前記標準パタンR^nを構成する特徴ベクト
    ルr^n_j(j=1、2、…、J_n)のそれぞれと
    前記入力パタンAの第iフレームの特徴ベクトルa_i
    とのベクトル間距離d^n(i、j)を計算するベクト
    ル間距離計算手段と、前記ベクトル間距離d^n(i、
    j)から前記入力パタンAと前記標準パタンR^nのう
    ち単音節標準パタンとのパタン間距離を計算する単音節
    累積距離計算手段と、前記単音節累積距離計算手段で得
    られる前記パタン間距離に基づいて前記入力パタンAに
    最も近い単音節を判定する単音節判定手段と、単語区切
    り信号を発生する単語区切り信号発生手段と、前記単音
    節判定手段の結果を記憶する単音節認識結果記憶手段と
    、前記標準パタンの結合として表わされた単語標準パタ
    ンと前記入力パタンのそれぞれを構成する各ベクトル間
    の前記ベクトル間距離d^n(i、j)の累積距離を計
    算する単語累積距離計算手段と、前記単語累積距離計算
    手段の結果に基づいて前記単語辞書の中から語彙を決定
    する単語判定手段と、前記単音節認識結果記憶手段で記
    憶されている内容と前記単語辞書で記憶されている語彙
    のうち最も頻度の低い語彙との書換えを行う語彙書換手
    段とを備えたことを特徴とする音声認識装置。
  2. (2)単語区切り信号発生手段は、音声認識装置本体外
    部からの信号により単語区切り信号を発生する特許請求
    の範囲第1項記載の音声認識装置。
JP59265754A 1984-12-17 1984-12-17 音声認識装置 Pending JPS61143796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59265754A JPS61143796A (ja) 1984-12-17 1984-12-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59265754A JPS61143796A (ja) 1984-12-17 1984-12-17 音声認識装置

Publications (1)

Publication Number Publication Date
JPS61143796A true JPS61143796A (ja) 1986-07-01

Family

ID=17421544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59265754A Pending JPS61143796A (ja) 1984-12-17 1984-12-17 音声認識装置

Country Status (1)

Country Link
JP (1) JPS61143796A (ja)

Similar Documents

Publication Publication Date Title
US5949961A (en) Word syllabification in speech synthesis system
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
JP2005043666A (ja) 音声認識装置
WO2005034082A1 (en) Method for synthesizing speech
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
KR100930714B1 (ko) 음성인식 장치 및 방법
US20040006469A1 (en) Apparatus and method for updating lexicon
US5764851A (en) Fast speech recognition method for mandarin words
Ney et al. Dynamic programming search strategies: From digit strings to large vocabulary word graphs
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JPS61143796A (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JP3315565B2 (ja) 音声認識装置
JPS61165798A (ja) 音声認識装置
JPS61143797A (ja) 音声認識装置
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP3231365B2 (ja) 音声認識装置
JPS60164800A (ja) 音声認識装置
JPS61212900A (ja) 音声認識装置
JPS61165799A (ja) 音声認識装置
JPS62294298A (ja) 音声入力装置