JPS6135498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6135498A
JPS6135498A JP15782684A JP15782684A JPS6135498A JP S6135498 A JPS6135498 A JP S6135498A JP 15782684 A JP15782684 A JP 15782684A JP 15782684 A JP15782684 A JP 15782684A JP S6135498 A JPS6135498 A JP S6135498A
Authority
JP
Japan
Prior art keywords
word
words
dictionary
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP15782684A
Other languages
English (en)
Inventor
郁夫 井上
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP15782684A priority Critical patent/JPS6135498A/ja
Publication of JPS6135498A publication Critical patent/JPS6135498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の発声した音声に応じた動作を機械に実行
させることを可能とする音声認識装置に関するものであ
る。
従来例の構成とその問題点 これまで音声認識の研究は、孤立発声した単語音声(あ
るいは単音節)と連続発声した連続単語音声についてそ
れぞれ進められて来た。現在、単語音声認識の研究につ
いては、学会発表レベルでは大語いや不特定話者、ある
いはその両方を認識対象とするもの等についてもかなり
の成果が報告されている。(岩田他:多数語音声認識方
式の−3ベーノ 検討9日本音響学会講論集、 2−1−19 (198
10Ct、);千葉他:音声認識システム、大型プロジ
ェクトパターン情報処理システム研究成果発表論文集。
Pl 57−165 、 (1980,OCt、) )
一方、2語以上の単語を連続して発声した音声、いわゆ
る連続音声を認識する方法としては、2段DPマツチン
グ法(違法:2段DPマツチングによる連続単語認識1
日本音響学会音声研究会。
875−28 (1975−11) )等が開発され、
それまで連続的に変化する単語間の境界を検出し区分化
(セグメンテーション)する際に生じていた誤りによる
誤認識を、区分化の操作を積極的に回避することによっ
て区分化に併う誤りの影響を受けず、より誤認識の少な
い認識が行なえるようになった。
しかしながら、現段階においてはまだ認識語数が数十語
と限られておシ、連続発声できる語数も限られているこ
と、また、話者についてもあらかじめ認識すべき単語を
発声して登録しである人に限られることなどの制約も多
いことから実際に使用される用途はか々り制限されてし
まう。
このように連続音声認識装置の実現への取り組みが時代
の趨勢であシ、その実用化が音声認識の究極の目標であ
ることは否めないが、現時点では実用的なものが普及す
るまでには先に挙げた以外にも解決すべき問題が多く残
っている。
一方、孤立発声した単語音声の認識ではかなりの認識語
数と認識率が得られており、1語1語区切って発声する
ことによシ疑似連続音声認識が可能なことなどから用途
によってより実用性が高い使い方が可能である。
孤立発声した単語音声の認識を連続音声認識と比べた場
合のメリットとして、現状ではよシ多くの語いを扱え、
しかもより高い認識率が得られ、また不特定話者への対
応も容易であるという点が挙げられる。したがって、多
少の入力の速さよシも話者や語いの制限をあまり受けず
により確実に認識するととが要求される用途に有効であ
る。
発明の目的 本発明はかかる観点に基づくもので、その目的は認識率
が高く、よシ実用的で用途の広い音声認5ページ 識装置を提供するものである。
発明の構成 本発明は上記目的を達成するもので、音声入力部、音声
分析部、パラメータ抽出部、単語境界検出部、音素系列
作成部、単語数カウンタ部、単語辞書選択部、単語辞書
格納部、類似度計算部、類似度比較部、単語辞書と1対
1に対応した候補単語格納部を備え、入力音声から単語
音声区間を切り出す毎に単語辞書を選択し入れ替えるこ
とにより、認識率の向上を可能とした音声認識装置を提
供するものである。
実施例の説明 以下に本発明の実施例を図面を用いて説明する。
本発明の一実施例における音声認識装置の基本構成の機
能ブロック図を第1図に示す。図面を参照しながら本実
施例の構成について説明する。
第1図において、音声入力部1は入力音声を符号化する
部分、音響分析部2は、高域強調や分析区間毎に窓かけ
を行なう部分、パラメータ抽出部3は単語境界検出や単
語認識に必要な特徴バラン6ベージ ータを抽出する部分、単語境界検出部4は入力音声の単
語間の境界を検出する部分、音素系列作成部5は単語毎
にパラメータ抽出部3から得られる特徴パラメータによ
シ音素単位にセグメンテーションし音素標準パターン格
納部6に格納されている音素標準パターンと類似度計算
を行ない、音素系列を作成する部分、単語マツチング部
下は単語境界検出部から単語境界が検出される都度送ら
れてくる検出信号をカウントして何語目の単語のマツチ
ングを行々うかによって辞書を選択し、単語毎に得られ
る音素系列と辞書項目との間でマツチングをとる部分で
ある。この単語マツチング部7の更に詳細な実施例の構
成を第2図に示す〇′ 第2図を参照しながら単語マツ
チングの実施例の構成について説明する。単語数カウン
タ8は入力単語数をカウントする部分、辞書セレクタ9
は発声された順番によって単語辞書群の中から単語辞書
を選択する部分、単語辞書Di 3 (i=1.2.3
;j=1.2,3;i≧j)  10〜15は発声され
る全単語数がiのときの1番目の発声に対応する辞書、
7へ−7 音素系列保存バッファ16は音素系列を一時保存する部
分、類似度計算部17は作成された音素系列と辞書単語
との類似度を計算する部分、類似度比較部18は、類似
度計算部17から送られて来る類似度をその前に送られ
て来た類似度とを比較して大きい方を選択し、出力する
部分、候補単語格納部19は各発声毎に単語辞書中で最
も類似度の高かった単語W、、 (i=1.2,3; 
j=1.2,3;i≧j)を記憶保存しておく部分、認
識結果出力部20は発声終了を検出した後発声語数に対
応する単語を候補単語格納部19から読み出し出力する
部分である。
次に本実施例の動作を第1図と第2図を参照しながら説
明する。第1図において、先ずマイクロホンから入力し
た音声を音声入力部1でサンプリングし、ディジタル信
号に変換する。次に音響分析部2で信号の1次差分をと
シ高域強調を行ない、10m5程度の分析区間毎にノ・
ミンク窓等の窓をかける。またこれと同時に分析区間毎
に低・中・高帯域の3チヤXネルフイルタの計算を行な
う。
パラメータ抽出部3では分析区間毎にLPC分析を行な
いその結果からLPCケプストラム係数を計算し特徴パ
ラメータとする。単語境界検出部4では帯域フィルタの
出力結果から得られる各帯域の音声パワーの大きさや、
無音時と有音時における特徴パラメータの統計的分布か
ら予め作成しておいた標準パターンと特徴パラメータと
を比較した結果などを基に無音区間を求め、無音区間の
持続時間が閾値Ta以上Tb以下であれば単語間の境界
、閾値Tb以上であれば発声の終了とみなし、単語の始
端と終端をそのつど音素系列作成部5へ送る。音素系列
作成部5では単語の始端から終端までの一単語区間内で
各帯域の音声パワーのディップ(くぼみ)の大きさや無
声音と有声音の特徴パラメータの統計的分布から予め作
成しておいた標準パターンと特徴パラメータとの距離を
基に母音と子音間のセグメンテーションを行なった後、
母音区間については、スペクトルの変化のゆるやかな部
分について、予め母音毎の特徴パラメータの統計的分布
に基づいて用意しである母音標準パ9ベーノ ターンを音素標準パターン格納部6から読み出し、特徴
パラメータとの距離の最も近い標準パターンに対応する
母音をあてはめていくことにより、セグメンテーション
と認識を行ない、また子音については子音区間内でのパ
ワー変化の急激な時点など、それぞれの子音の特徴点付
近で子音毎の特徴パラメータの統計的分布から予め用意
しである子音標準パターンを音素標準パターン格納部6
から読み出し、特徴パラメータとの距離の最も近い標準
パターンに対応する子音をあてはめていくことによシ認
識を行なうなどにより作成された母音・子音の音素系列
に日本語の音形規則などを適用して手直しし、音素系列
を作成する。ここで音素認識を行なうことは本発明が特
に主張するところではないので詳しい説明は省略した。
単語マツチング部7の動作については第2図を参照しな
がら説明する。第2図において、単語数カウンタ8では
第1図の単語境界検出部4から単語境界が検出される都
度送られる検出および終了を示す信号aをカウントし、
何語口の認識を行なうかを単語数b1oベーゾ として、辞書セレクタ9からの受付許可信号0に応じて
出力し、それが発声された最後の単語であれば終了信号
Cを出力する。辞書セレクタ9では単語数すを受は取る
と発声順に応じた辞書選択信号dを出力し単語数す番目
の辞書を指定し、単語 □数す以上の語数の入力に対す
る単語辞書群を選択する信号eを出力し類似度比較終了
信号iを受は取る毎に単語辞書Dib (i≧b)を切
シ換えていく。また、これと同時に辞書選択信号d、e
によって候補単語格納部19の各単語辞書に対応するメ
モリ領域への書き込みを可能とする。この間、受付禁止
信号Oを出力し、全ての辞書の切り換え終了後に受付許
可信号○を出力する。終了信号Cを受けた場合、現在性
なっている類似度比較部1日の処理が終了したことを知
らせる終了信号iを受は取った後、全ての単語のマツチ
ング処理が終了したことを知らせる終了信号jを出力す
る。音素系列保存ミンク716では第1図の音素系列作
成部5から送られて来る音素系列mを単語毎に保存して
おき、単語数カウンタ8から送られてくる信11 ベー
ン 号すに応じて音素系列nを出力する0 類似度計算部17では辞書選択信号d、eで指定された
単語辞書DiJから遂次辞書単語fを読み出し、音素系
列保存バッフ116から送られてくる音素系列nとの間
で類似度qを計算し出力し、全ての辞書単語との類似度
の計算が終了すると終了信号をqに出力する。類似度比
較部17では受は取った類似度の値とその前に保持して
いる類似度の値とを比較し、受は取った類似度の値の方
が大きい場合、保持している類似度と辞書単語を更新す
る。終了信号を受は取った場合には候補単語格納部19
の対応するメモリ領域(図の)・ツチング部分は使用し
てい々い)に候補単語Wt tとして最終的に保持して
いる辞書単語と類似度の両方りを書き込み、保持してい
る内容をクリアした後、終了信号iを出力する。認識結
果出力部2oでは、辞書セレクタ9から終了信号」を受
は取ることにより発声された全ての単語と辞書単語間の
マツチングが終了したことを確認し、候補単語格納部1
9に格納されている候補単語および類似度のうち最終的
に発声された単語数nに対応する単語W。
() =’ +2+3 i J≦n)およびそれぞれの
類似度を読み出し、類似度が極端に低いものが含まれる
場合にはりジェクト信号を、それ以外の場合にはそれら
の単語を1として出力する。
以上の動作について具体的な例で説明する。簡単のため
に本実施例と同様に1語から3語までの入力ができるも
のとし、1語の場合は性別を、2語の場合は姓と名前を
、3語の場合は県名と本名と区名をそれぞれ示した順番
に入力するものとする。この場合、単語辞書D11には
性別、D21には姓、D22には名前、D31には県名
、D32には本名、D33には区名の辞書単語が入って
いる。氏名を認識する場合には、先ずマイクロホンから
例えば、”ヤマダ、″′タロウ”というように姓名を順
番に入力する。入力音声は音声入力部1、音響分析部2
、パラメータ抽出部3の処理を経た後、単語境界検出部
4で単語間の境界を検出し、検出信号と1語目の始端、
終端を出力する。音素系列作成部5ではこの始端、終端
の範囲で、パラメータ抽13ベージ 山部3から受は取った特徴パラメータを基に音素系列を
作成し、音素系列保存バッファ16に転送する。単語数
カウンタ8では検出信号aを受は取ると単語数をカウン
トした後単語数b(=1)を出力し、それによって音素
系列保存バッファ16では1語目の”姓”に対応する音
素系列nを出力する。一方、辞書セレクタ9では受付禁
止信号Oを出力した後、先ず単語辞書D11を選択し、
類似度計算部17で音素系列nと辞書単語fの間の類似
度を計算した後、類似度比較部18で全ての比較が終了
し、単語辞書D11の中で最も類似度の高かった辞書単
語W11が候補単語格納部19に出力されたことを知ら
せる終了信号iを受けとると、次に単語辞書D21を選
択し、このようにして1語目の入力に対する各単語辞書
D14.D21.D31にそれぞれ対応する類似度最大
の辞書単語W11.W21.W31が候補単語格納部1
9に書き込まれる。1語目の全ての辞書の選択が終了す
ると次の単語の受付許可信号0を出力する。2語目の認
識では、先程の単語境界検出部4で無音区間の持続時間
が閾値Tb14ページ を越えることによ!l12語目の終了と発声の終了を検
出し、終了信号aを出力する。この後1語目と同様の手
順で音素系列保存バッファに2語目の”名前″に対応す
る音素系列mが書き込まれる0単語数カウンタ8では終
了信号aを受は取ると単語数をカウントし、辞書セレク
タ9より受付許可信号Oが出ていれば、単語数b(=2
)と終了信号Cを出力する。これによシ音素系列保存バ
ッファ16では2語目の”名前”に対応する音素系列n
を出力する。一方、単語辞書セレクタ9で単語辞書D2
2を選択した後、1語目の時と同様にして2語目の入力
に対応する単語辞書D22の中で2語目の音素系列との
間で最も類似度の高かった辞書単語が候補単語格納部1
9に書きこまれる。また、単語辞書セレクタ9では類似
度比較部18の終了信号iを受は取ると、終了信号Cを
受けて以後の辞書選択動作を打ち切シ、終了信号jを出
力するO認識結果出力部20では終了信号jを受は取る
ことにより最終的な単語数b(=2)に対応する候補単
語格納部19のメモリー領域から候補単語W2116ベ
ー。
とW22とを読み出し、類似度が充分高いことを確認し
た後、”姓”に対する認識結果をW21.′名前″に対
する認識結果をW22として出力する。ここでは簡単の
ために2語発声する場合について説明したが、1語また
は3語の発声の場合についても同様の認識を行なうこと
ができ、また、4語以上にも容易に拡張することが可能
である。
本発明の効果を具体的な例を挙げて説明する。
例として、1語につき、それぞれ異なるN単語から成る
辞書を持ち、1回でL語以内の入力が可能な構成を採る
場合を考える。各語数の発声頻度が同じとすれば、入力
が正しく認識される率(入力部たシの平均認識率)Pは
、N単語の中から1語を認識する場合の認識率を仮りに
pとすると一方、これを1つの単語辞書で実現する場合
、辞書単語の総数MはNxLx(L+1)/2となシ、
M単語の中から1語を認識する場合の認識率を仮シにq
とすると、入力が正しく認識される率Qはここで各場合
の入力あたりの平均認識率P、Qを実験値を基に調べて
みる。第3図は男女20名ずつの不特定話者について単
語数と認識率の関係を調べたものである。N=so 、
L=3としたとき、M:300となる。第3図のグラフ
から単語数50と単語数300における認識率を読み取
るとp=0.978.、q=0.940である。したが
って各場合の入力あたシの平均認識率はp=o、9sア
、Q=0.885となシ、本発明による構成を用いれば
約96%の平均認識率が得られ、単語辞書が単独で用い
られる場合の約89チに比べ大きな効果が得られること
がわかる。
発明の効果 以上要するに本発明は発声する語数、語順に応じた単語
辞書の組みから成る単語辞書格納部と、発声した語順で
単語辞書を順次選択する単語辞書選択部と、単語辞書と
1対1に対応する候補単語17ページ とを少なくとも有し、入力音声から単語音声区間を切シ
出す毎に単語辞書を選択し入れ替えるようにしたもので
、かかる構成にすることによシ、孤立発声する場合のメ
リットである単語セグメンテーションの確実性の向上を
生かし、発声する単語数毎に発声の順番に対応する単語
辞書を用意しておき、入力された単語毎に、用意しであ
る単語数毎の辞書群の順番に応じた辞書毎にマツチング
を行ないそれぞれの辞書に対応する候補単語を記憶して
おくことによシ、発声する単語数が特定の単語数に限定
されることなく、また、発声終了時の語数から直ちに認
識結果を出力することを可能とし、更にこのような辞書
構成をとることによって、特に発声する単語数や順番毎
に用いられる語いが異なっているほど、これらを1つの
単語辞書として認識する場合に比べて不必要な単語との
マツチングを妨げ、認識率の高い、実用的な音声認識装
置が得られる利点を有する。
【図面の簡単な説明】
第1図は本発明による音声認識装置の一実施例18ペー
ジ を示す機能ブロック図、第2図は第1図に示す音声認識
装置の一実施例の構成の中の単語マツチング部の構成の
詳細を示す機能ブロック図、第3図は本実施例の効果を
示すための単語数と認識率との関係を示す図である。 1・・・・・・音声入力部、2・・・・・・音響分析部
、3・・・・・・パラメータ抽出部、4・・・・・・単
語境界検出部、5・・・・・・音素系列作成部、6・・
・・・・音素標準パターン格納部、7・・・・・・単語
マツチング部、8・・・・・・単語数カウンタ、9・・
・・・・辞書セレクタ、10〜15・・・・・・単語辞
書、16・・・・・・音素系列保存バッファ、17・・
・・・・類似度計算部、18・・・・・・類似度比較部
、19・・・・・・候補単語格納部、2o・・・・・・
認識結果出力部。

Claims (1)

    【特許請求の範囲】
  1. 少なくとも1語の単語からなる入力音声を符号化する音
    声入力部と、フレーム区間毎に音声を分析する音声分析
    部と、特徴パラメータを抽出するパラメータ抽出部と、
    入力音声の単語間の境界を検出する単語境界検出部と、
    前記単語境界検出部で得られた区間内で、前記パラメー
    タ抽出部から得られた特徴パラメータを基に音素系列を
    作成する音素系列作成部と、前記単語境界検出部の境界
    検出信号に基づき、音素系列作成部で得られた単語毎の
    音素系列と辞書項目との間でマッチングをとる単語マッ
    チング部とを備え、前記単語マッチング部が、入力単語
    数をカウントする単語数カウンタ部と、発声する語数、
    語順に応じて設けられた単語辞書群からなる単語辞書格
    納部と、発声された順番により前記単語辞書格納部の中
    から単語辞書を選択する単語辞書選択部と、前記音素系
    列作成部で作成された音素系列と単語辞書との類似度を
    計算する類似度計算部と、前記類似度計算部の結果を順
    次比較しその結果を出力する類似度比較部と、単語辞書
    と1対1に対応し、前記類似度比較部で得られた各単語
    中で最も類似度の高い単語を記憶保持する候補単語格納
    部とから少なくともなることを特徴とする音声認識装置
JP15782684A 1984-07-27 1984-07-27 音声認識装置 Pending JPS6135498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15782684A JPS6135498A (ja) 1984-07-27 1984-07-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15782684A JPS6135498A (ja) 1984-07-27 1984-07-27 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6135498A true JPS6135498A (ja) 1986-02-19

Family

ID=15658160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15782684A Pending JPS6135498A (ja) 1984-07-27 1984-07-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6135498A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107108A (ja) * 2004-10-05 2006-04-20 Canon Inc データ検索装置及びデータ検索方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5521035A (en) * 1978-07-31 1980-02-14 Tokyo Shibaura Electric Co Control system using voice
JPS5629293A (en) * 1979-08-20 1981-03-24 Tokyo Shibaura Electric Co Voice indentifier
JPS58140398A (ja) * 1982-02-09 1983-08-20 Nec Corp 3−5族化合物半導体の気相成長装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5521035A (en) * 1978-07-31 1980-02-14 Tokyo Shibaura Electric Co Control system using voice
JPS5629293A (en) * 1979-08-20 1981-03-24 Tokyo Shibaura Electric Co Voice indentifier
JPS58140398A (ja) * 1982-02-09 1983-08-20 Nec Corp 3−5族化合物半導体の気相成長装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107108A (ja) * 2004-10-05 2006-04-20 Canon Inc データ検索装置及びデータ検索方法
JP4579638B2 (ja) * 2004-10-05 2010-11-10 キヤノン株式会社 データ検索装置及びデータ検索方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
Huttenlocher et al. A model of lexical access from partial phonetic information
EP0109190B1 (en) Monosyllable recognition apparatus
EP1204091A2 (en) A system and method of pattern recognition in very high-dimensional space
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
JPS59226400A (ja) 音声認識装置
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
JP3444108B2 (ja) 音声認識装置
Parikh et al. Gujarati speech recognition–A review
JPS6138479B2 (ja)
JPS6135498A (ja) 音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
JP2760096B2 (ja) 音声認識方式
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPH06348291A (ja) 単語音声認識方法
JPS6336678B2 (ja)
Driaunys et al. Averaged templates calculation and phoneme classification
JPS59180598A (ja) 音声入力方式
JPS6312000A (ja) 音声認識装置
via Sophisticated Information Sciences and Computer Engineering
JPS6033599A (ja) 音声認識装置
Das et al. Machine recognition of Hindi consonants and distinctive features using vector quantization
JPS59195300A (ja) 音声認識装置