JPS61137199A - 単語音声の認識方法 - Google Patents

単語音声の認識方法

Info

Publication number
JPS61137199A
JPS61137199A JP25894584A JP25894584A JPS61137199A JP S61137199 A JPS61137199 A JP S61137199A JP 25894584 A JP25894584 A JP 25894584A JP 25894584 A JP25894584 A JP 25894584A JP S61137199 A JPS61137199 A JP S61137199A
Authority
JP
Japan
Prior art keywords
input
coefficients
speech
linear regression
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP25894584A
Other languages
English (en)
Other versions
JPH0426479B2 (ja
Inventor
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25894584A priority Critical patent/JPS61137199A/ja
Publication of JPS61137199A publication Critical patent/JPS61137199A/ja
Publication of JPH0426479B2 publication Critical patent/JPH0426479B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は認識対象語彙のうちのどの単語が発声された
かを高精度かつ高能率に自動的に判定する単語音声の認
識方法に関するものである。
「従来の技術」 マンマシンインターフェイスに使用−0m々の入力端末
装置の一つとして、音声をそのまま入力する、いわゆる
音声入力装置がある。この装置は、入力音声に含まれる
言語の情報を抽出してその意味内容を認識するものであ
り、このような入力端末装置は他の入力装置に比べて、
(イ)情報入力速度が速い、(ロ)音声で入力できるの
で操作に熟練する必要がない、(ハ)同時に手足、目、
耳などを使いながら入力できる、に)電話から入力でき
る、などの利点がある。
音声入力装置の認識方法には、一つ一つ区切って発声さ
れた単語音声を認識するものと、複数の単語や文章を連
続して発声した音声を認識するものとがあり、後者の方
が使い勝手は良いが高い精度で認識を行うのが難しい。
一方前者の方法は、−間一答形式のようにやや使い方が
限られるが、実用的には広い応用範囲が期待され、後者
の方法よりも高い精度を得ることが可能である。
前者の単語音声の認識方法としては、あらかじめ認識で
きる語実の種類を決めてそれらの一つ一つについて標準
パターンを蓄積しておき、入力された音声波と各標準パ
ターンとの類似の度合いを調べて、最も類似の度合いの
大きい語彙が発声されたものと判定することが多い。こ
のとき、音声波をそのまま標準パターンとして蓄積して
おいて、入力音声波と比較するのは能率的でないので、
周波数スペクトル、線形予測係数等のいわゆる特徴パラ
メータに変換してから比較を行うのが望ましい。従来の
この種の方法では、特徴パラメータとして上記の他に、
ホルマント周波数、ケプストラム係数、パーコール係数
、対数断面積比、零交差数などが用いられているが、安
□定に精度よくパラメータを抽出するのが困難であった
り、パラメータの抽出に複雑な計算を要したり、異なる
話者に共通した単語音声の特徴を表現するパラメータと
して不十分であったり、電話系のような伝送路を通った
ときに特性が変動して、認識の精度が大きく低下する等
の欠点があった。
この発明の目的は、このような欠点を除去するため、電
話系等を通った音声から伝送歪等の影響を受けにくく、
しかも異なった話者に共通に含まれる音声の特徴を比較
的簡単に抽出し、高精度で単語の認識を行うことができ
る単語音声の認識方法を提供することにある。
「問題点を解決するための手段」 この発明の単語音声の認識方法によれば、単語音声の周
波数スペクトルの時間的変化を示すパラメータを算出し
、このパラメータの時間波形から線形回帰係数を算出し
、この線形回帰係数及び前記パラメータを単語音声の特
徴パラメータとする。
つまりこれらパラメータ及びその線形回帰係数の同一時
点のものを一種類のパラメータであるかのように使う。
前記パラメータとしては比較的簡単な方法により抽出で
きる線形予測ケプストラム係数を用いることが好ましい
。このように前記パラメータ及び線形回帰係数を特徴パ
ラメータとすることにより伝送路の変動等の影響を受け
にくく、しかも異なる話者に対する認識精度を向上でき
る。
このパラメータ及びその線形回帰係数を入力音声単語に
つき算出し、これらとあらかじめ蓄積しである各語彙の
特徴パラメータとの2非線形時間正規化マツチング(対
応づけ)により、どの語彙が発声されたかを判定する。
「実施例」 以下、この発明の実施例を第1図により説明する。第1
図は、この発明の単語音声の認識方法の実施例を機能的
に示したものである。
音、声7人)′刃端、子9−1・から認識すべき音声を
入力して、音声区間検出回路2、線形予測分析回路3、
ケプストラム変換回路4、ケプヌトラムレジスタ5を経
由して線形予測ケプストラム係数を得る。
この実施例ではこの線形予測ケプストラム係数の時間波
形から回帰係数計算回路6で線形回帰係数を抽出する。
線形予測ケプストラム係数と線形回帰係数との時間波形
(これらをまとめて特徴パラメータ波形と呼ぶ)を−た
ん特徴パラメータレジスタ7に蓄え、学習モードと認識
モードとをスイッチ8で切換えて、学習モードの場合は
特徴パラメータ波形をその語彙の標準パターンとして標
準パターン蓄積部9に蓄える。認識モードの場合は、特
徴パラメータ波形、各語彙の標準パターンおよび重みレ
ジスタ11の内容を非線形時間正規化回路10に入力し
て、類似性の度合いの計算を行う。
すべての語彙の標準パターンとの類似の度合いを比較回
路12に入力して、最も類似の度合いの大きい語彙を判
定し、その語彙を示すデータを出力端子13に与える。
さらに詳しく動作を説明する。先ず音声入力端子1から
単語の認識に用いる音声波を入力する。
入力された音声波には通常、実際の音声の区間と無音(
雑音)の区間とが含まれているので、入力された音声波
を音声区間検出回路2に入力して、音声区間の検出を行
う。この検出には、すでによく知られているいくつかの
方法、例えば入力信号波の短時間エネルギー、ある一定
値以上のエネル・ ギーが継続する時間、等を用いるこ
とができる。
検出された音声区間の信号波は線形予測分析回路3に送
られ、線形予測係数の時間波形に変換される。
この技術は、すでに公知であるので(例えば、文献、板
金・斎藤°統計的手法による音声スペクトル密度とホル
マント周波数の推定、電子通信学会論文誌、53−A、
1.P、35.1970参照)、詳細は省略するが、基
本的にはまず低域通過フィルタに通したのち標本化及び
量子化を行い、一定時間ごとに短区間の波形を切り出し
てハミング窓等を乗じ、積和の演算によって相関係数を
計算する。
ハミング窓の長さとしては、例えば3 Q m s 、
 これを更新する周期としては、例えばl Q m s
のような値が用いられる。その相関係数から、繰返し演
算処理によって代数方程式を解くことにより、容易に線
形予測係数が抽出される。これら相関係数及び線形予測
係数は、例えば第0次から第10次までの値を計算する
。抽出された線形予測係数の時間波形は、ケプヌトラム
変換回路4により、いわゆる線形予測ケプストラム係数
に変換される。
線形予測ケプストラム係数は、対数パワー・スペクトル
のフーリエ変換によって得られる従来のケプストラム係
数とはやや異なるが、それによって表現されるスペクト
ル包絡は類似している。線形予測ケプストラム係数は、
音声の特徴を表現するパラメータとして優れた性質を有
していることが知られている(文献、古井貞煕°単音節
認識とその大語い単語音声認識への適用、電子通信学会
論文誌、J65−A、2.P、175.1982参照)
線形予測係数から線形予測ケプストラムへの変換は、次
の演算により行うことができる。
c、=a1                 ・・・
・・・・・・(1)ここで、anはn次の線形予測係数
、Cnはn次の線形予測ケプストラム、pは線形予測モ
デルの次元数である。pとしては、前述のように10程
度の値が用いられる。
抽出された線形予測ケプストラム係数(以下簡単のため
単にケプストラム係数と呼ぶ) Cnの時間波形は、一
定間隔ごとに一定の時間長の区間がケプヌトラムレジス
タ5に一旦蓄えられ、このレジスタ5の内容は回帰係数
計算回路6に送られて、線形回帰係数が演算される。こ
の、ケプヌトラムレジスタ5及び回帰係数計算回路6に
入力される時間波形の長さとしては、例えば50m5、
これを更新する周期としては、例えばIQrn3のよう
な値を用いる。時間波形xj (j−M、・・・M)で
あられすと、この線形回帰係数aは次の演算で求めるこ
とができる。
線形回帰係数は、各次数のケプストラム係数に対して、
10m5毎に更新される回帰係数計算回路6の入力に応
じて計算され、この線形回帰係数はケプストラム係数と
あわせて2p次元の特徴パラメータとして特徴パラメー
タレジスタ7に送られて蓄えられる。
スイッチ8は、学習モードと認識モードを選択するスイ
ッチであって、各語常に対して、最初にスイッチ8を端
子8aに接続しておいて、後に認識すべき音声を入力す
る本人あるいはその本人とは異なる複数人の音声から特
徴パラメータ波形を求め、特徴パラメータレジスタ7に
蓄えたのち標準パターン蓄積部9に入力し、その語彙の
標準パターンとして蓄える。
その後認識すべき音声に対しては、スイッチ8を端子8
bに接続しておいて、特徴パラメータレジスタ7の内容
を非線形時間正規化回路10に入力する。同時に各語 
に対応した標準パターンを標準パターン蓄積部9から一
つ一つ読出し、非線形時間正規化回路10に入力する。
非線形時間正規化回路10では、標準パターンと入力音
声の特徴パラメータの類似性の度合いを計算する。音声
の発声速度は、同じ話者が同じ言葉を繰返し発声しても
その度ごとに部分的及び全体的に変化するので、両者を
比較するには、共通の音(音韻)が対応するように、一
方の時間軸を適当に非線形に伸縮して他方の時間軸にあ
わせ、対応する時点の特徴パラメータどうしを比較する
必要がある。一方を基準にして、両者が最もよく合うよ
うK(両者の類似度が最も大きくなるようt/′rc)
他方の時間軸を非線形に伸縮する技術としては、動的計
画法による最適化の手法を使用できることが知られてい
る(文献:迫江、千葉°動的計画法を利用した音声の時
間正規化に基づく連続単語認識2日本音響学会誌、27
,9.P、483.1971)。
この発明の方法(・Cおいても、非線形時間正規化回路
10では、例えば動的計画法の演算を行う。
標準パターンのある時点kにおける特徴パラメータをr
ki(14i42P)(P次ノケフヌトラム係数とP次
の線形回帰係数とよりなる)、入力音声のある時点lに
おける特徴パラメータをx1!;(]、4i42P)(
P次のケプストラム係数とP次の線形回帰係数とよりな
る)であられすと、ここで両者の距離(小さくなるほど
類似度が大きいことを示す数値として、次のような値を
用いる。
(1J) ことでWiは各特徴パラメータに対してあらかじめ定め
られている重みを示す数値で、この値は予備実験の結果
にもとづいて比較的高い認識精度が得られるように適切
な値に定め、重みレジスタ11に蓄えておく。距離dの
計算は(4)式に示すように同一時点のP次のケプスト
ラム係数とP次の線形回帰係数とについて入力音声と標
準パターンとの差の二乗和として計算しており、つまり
ケプストラム係数と線形回帰係数との互に性質が異なる
ものを一緒に使っており、これらの平衡をとるため[w
iの重み付けを行うものであり、従ってV/iの値とし
てはケプストラム係数について演算する際に用いるWa
と、線形回帰係数について演算する際に・用いる靴との
少くとも2つの値を用いる。これら重みWa”’−Wb
は重みレジスタ11に蓄えておく。
動的計画法の演算によって標準パターンと入力音声の一
致度が最もよくなるように時間軸を対応づけたときの、
対応する時点どうしの標準パターンと入力音声との特徴
パラメータの距離キを全音声区間について平均した値を
計算する。この値を、入力音声と標準パターンとの総合
的距離と呼ぶことにする。各語常に対応した標準パター
ンと入力音声との総合的距離を比較回路12に入力し、
論理回路によりこれらすべての総合的距離のうち、最も
総合的距離の小さい語彙を判定する。この判定結果は、
出力端子13から出力される。
従来においては例えばケプストラム係数についてのみ入
力音声と標準パターンとの距離を計算して最も近い語彙
を求めていたが、この実施例においては線形回帰係数に
ついてもケプストラム係数と同一時点のものをまとめて
非線形時間正規化如より類似の度合いを算出しており、
この線形回帰はケプストラム係数の時間波形の直線近似
であり、この近似の傾斜が線形回帰係数であり、つまり
ケプストラム係数の変化の傾向についても入力音声と標
準パターンとの類似の度合いを求めている。
その結果として1.高品質のマイクロホンだけでなく、
電話系を通った音声、雑音や伝送歪の影響を受けた音声
等に対しても、しかも誰の音声に対しても高い精度を示
す単語音声認識システムを実現することができる。これ
までの実験てよれば、都市名100単語を認識対象語彙
として、男性4名の音声を標準パターンとして蓄積し、
その話者と異なる男性20名の音声に対して、前記実施
例による方法を適用することてより、97.4%の精度
で単語音声の認識ができることが示された、ケプストラ
ム係数のみを用いた従来の方法によれば、93.8%の
精度しか得られなかったことと比較してこの発明が優れ
ていることが理解される。
上述においては音声の周波数スペクトルの時間に対する
変化を示すパラメータとしてケプストラム係数を用いた
が、線形予測係数、ホルマント周波数、パーコール係数
、対数断面積比、零交差数などを用いてもよい。
「発明の効果」 以上説明したように、この発明によれば、電話系等を通
った音声から伝送歪等の影響を受けにくく、異なる話者
の音声に共通に含まれる単語の特徴をとり出して用いる
ことにより高い精度で単語音声の認識が行えるため、電
話の声等を用いたバンキングサービス等の種々のザービ
スに広く応用することができる。
【図面の簡単な説明】
第1図はこの発明の実施例を示す単語音声の認識方法の
ブロック図である。 1:音声入力端子、2 音声区間検出回路、3:線形予
測分析回路、4:ケプストラム変換回路、5°ケプスト
ラムレジスタ、6°回帰係数計算回路、7 特徴パラメ
ータレジスタ、8 スイッチ、9.標準パターン蓄積部
、]0゛非線形時間正規化回路、11 重みレジスタ、
12:比較回路、]3:出力端子。

Claims (1)

    【特許請求の範囲】
  1. (1)認識すべき音声波入力の周波数スペクトルの時間
    的変化を示すパラメータを算出して蓄積する手段と、そ
    のパラメータの時間波形から線形回帰係数を算出する手
    段と、認識対象語彙ごとの上記パラメータ及び線形回帰
    係数の標準パターンを蓄積する手段と、非線形時間正規
    化手段と、比較手段とを有し、 上記パラメータ及び上記線形回帰係数の時間波形と、上
    記各認識対象語彙の標準パターンとを、上記非線形時間
    正規化手段に入力して両者の類似の度合いを算出し、す
    べての認識対象語彙との類似の度合いを上記比較手段に
    入力して大小を比較し、最も類似の度合いが大きい語彙
    を入力されたと判定することを特徴とする単語音声の認
    識方法。
JP25894584A 1984-12-07 1984-12-07 単語音声の認識方法 Granted JPS61137199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25894584A JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25894584A JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Publications (2)

Publication Number Publication Date
JPS61137199A true JPS61137199A (ja) 1986-06-24
JPH0426479B2 JPH0426479B2 (ja) 1992-05-07

Family

ID=17327215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25894584A Granted JPS61137199A (ja) 1984-12-07 1984-12-07 単語音声の認識方法

Country Status (1)

Country Link
JP (1) JPS61137199A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0536187U (ja) * 1991-10-21 1993-05-18 シーケーデイ株式会社 逆止弁付き管継手
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
KR101052343B1 (ko) 2009-04-21 2011-07-27 주식회사 케이티 통화 중 음성 인식에 의한 정보 제공이 가능한 이동 단말 및 그 이동 단말에서의 정보 제공 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0536187U (ja) * 1991-10-21 1993-05-18 シーケーデイ株式会社 逆止弁付き管継手
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
KR101052343B1 (ko) 2009-04-21 2011-07-27 주식회사 케이티 통화 중 음성 인식에 의한 정보 제공이 가능한 이동 단말 및 그 이동 단말에서의 정보 제공 방법

Also Published As

Publication number Publication date
JPH0426479B2 (ja) 1992-05-07

Similar Documents

Publication Publication Date Title
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
Dave Feature extraction methods LPC, PLP and MFCC in speech recognition
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
JPH0612089A (ja) 音声認識方法
JPS634200B2 (ja)
Dash et al. Speaker identification using mel frequency cepstralcoefficient and bpnn
Bahaghighat et al. Textdependent Speaker Recognition by combination of LBG VQ and DTW for persian language
JPS61137199A (ja) 単語音声の認識方法
Ding Enhancement of speech recognition using a variable-length frame overlapping method
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Saha et al. Modified mel-frequency cepstral coefficient
Chen et al. Generalized minimal distortion segmentation for ANN-based speech recognition
Harshavardhini et al. MFCC and DTW Based Speech Recognition
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
Gupta et al. Speech Recognition using MFCC & VQ
Sandanalakshmi et al. Speaker independent continuous speech to text converter for mobile application
JPS61141500A (ja) 単語音声認識装置
Sandanalakshmi et al. A novel speech to text converter system for mobile applications
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
Saxena et al. A microprocessor based speech recognizer for isolated hindi digits
HARSHA et al. Voice Verification and Comparison of Various Feature Extraction Algorithms
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
Kushwaha et al. Feature extraction and classification of speech signal using hidden Markov-Gaussian mixture model (HM-GMM) for driving the rehabilitative aids
Mekebayev et al. Algorithms and architectures of speech recognition systems