JPS61143795A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61143795A
JPS61143795A JP59265291A JP26529184A JPS61143795A JP S61143795 A JPS61143795 A JP S61143795A JP 59265291 A JP59265291 A JP 59265291A JP 26529184 A JP26529184 A JP 26529184A JP S61143795 A JPS61143795 A JP S61143795A
Authority
JP
Japan
Prior art keywords
noise
pattern
similarity
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59265291A
Other languages
English (en)
Inventor
浮田 輝彦
篠田 英範
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59265291A priority Critical patent/JPS61143795A/ja
Publication of JPS61143795A publication Critical patent/JPS61143795A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は雑音環境下で発声された入力音声を精度良く、
認識することの出来る音声認識装置に関する。
〔発明の技術的背景とその問題点〕
音声を情報入力手段とする日本語ワードプロセッサ等の
OA分野や工場でのFA分野で音声認識装置が利用され
始め、その媒体としての有効性が示されている。しかし
、現存する音声認識装置は、環境雑音に対してなんら積
極的な処理を行なっていないため、装置を使用する環境
に少しでも雑音が入ってくると、認識M度の低下を招き
、音声の情報入力媒体としての高速性などの有効性を失
う事が多く、実用性に乏しかりた。
これにたいして、定常的な一定の雑音については、その
雑音スペクトルを推定し、それを入力のデータから減算
することにより、雑音の形番を軽減する方法も試みられ
ているが、パルス性のものに対しては無力である。ある
いは、S著なls音パターンを認識すべき単語と同等の
カテゴリーとして登録する方法なども検討されているが
、音声に重畳した雑音の影響は除去できない。これらに
対しては、認識機構中に雑音の影響による音声パターン
の変形を吸収する手段を持たないかぎり、時間的に変化
し、音声に重畳する雑音中のパターンを高精度に認識す
る事は不可能と言える。
〔発明の目的〕
本発明はこの様な事情を考慮してなされたちので、その
目的とするところは、雑音が重畳した入力音声でも高精
度に認識することのできる実用性の高い連続音声認識装
置を提供することにある。
〔発明の概要〕
本発明では、外部から指定される時間区間に置いて音声
の全く存在しない入力データから認識処理時に問題とな
る雑音パターンをクラスタリングの手法により、準備す
る。そして、その結果得られる雑音代表パターンに基づ
き音声認識部の標準パターンを操作する。これにより、
雑音が重畳しいてるかもしれない、入力データを高精度
にit別する。
〔発明の効果〕
本発明では、入力音声の発生時に重畳するかもしれない
雑音データを準備する。そして、その代表的なパターン
を1つ以上決定し、それらを用いて、音声認識の認識単
位の標準パターンあるいは。
認識すべき入カバターンを操作する。従って、入力時に
雑音が重畳しているか否かの判断が出来なくとも、可能
性のある雑音の代表パターンに対処できるため、今まで
対処することが出来なかったパルス性の雑音や時間的に
変化が激しい環境雑音に有効出来る。
〔発明の実施例〕
以下、図面を参照して本発明の実施例につき説明する。
まず、ここでは単語音声の認識として説明するが、この
単語は言語学的な意味で用いるのではなく、音声認識処
理における認識の基本単位として定義されるもので、例
えば音節や母音−子音−母音の音韻連鎖またはこれらに
類するものでもよい。
さて、第1図は実施例装置の概略構成図である。
入力音声は音響分析部1に入力されて一定の分析時間毎
に分析されて、その特徴パラメータが求められる。この
分析時間をフレーム周期と呼ぶ。この音響分析部1は、
帯域通過フィルターを利用したフィルターバンク番こよ
り構成され、例えば音声帯域を8〜30程度の帯域に分
割して、スペクトル分析を行ない、その特徴パラメータ
を求める。
この特徴パラメータはある所定の時間間隔(フレーム周
期)毎にサンプリングされる。この時間間隔は音声の音
韻的特徴を十分に反映するため、典型的には数m se
c 〜10 m sec 、長くても20m5ecまで
設定される必要がある。
雑音代表パターン決定部2では、外部から指定される時
間区間で音声が含まれない間の入力データを取りこみ、
認識単位のパターン表現と同じものを時間開始時刻及び
終了時刻を適切に変化させながら、作成する。次にこの
ようにして得られる多数のパターンを単語類似度計算部
3を利用しながらパターン間の類似度を計算し、その類
似度にもとづきクラスタリングを行うことにより、1つ
以上の代表パターンを求める。
まず、雑音パターンの表現法を示す。後出のように単語
認識の方法として複合類似度法などを適用する場合には
、雑音パターンを一定次元のベクトルとして表現する。
すなわち周波数軸方向にフィルターバンクのチャンネル
数、時間軸方向には、ある一定数の点を覗り出す。この
時間軸方向の取り出し方は、単語標準パターンの構成と
同様に、単語継続時間長の上下限値の範囲から線形に再
サンプルして覗り出せばよい。第2図にその原理を示す
。すなわち入力単語データに重畳する可能性のある雑音
パターンを形成するために単語が存在しえる長さに対し
て、図の例では5点のサンプル点を決定している。
このような雑音パターンを指示される時間の間、種々の
始端及び終端の時刻から抽出し、クラスタリングを行う
。クラスタリングの手法にはl5ODAT入やK −m
eans法などと呼ばれる方法がある。まずl5ODA
TA法による方法を示す。第3図に処理手順を示す。
まず準備された雑音パターンをA個のクラスター(W1
〜WA)に分割する。その方法は適当でよく、得られた
順に全雑音パターンをA個に分割すればよい。次に各ク
ラスターWiの”分散”σiを計算する。“分散”とし
てはクラスターW i l;j’3の全パターン間の距
離を計算し、その最大距離を”分散”として定めればよ
い。この1分散”がある決められた閾値θSより大きい
ときはそのクラスターWtを分割する。分割方法は前記
の最大距離を与える2つのパターンを中−心として、2
分割すればよい。次に各クラスターの中心Ciを、平均
ベクトルとして求め、続いて、カテゴリー間の距離δ1
jを求める。ここでδijが閾値θMより小さい場合は
WiとWjを併合して1つのクラスターとする。
これらの手順を分割・併合が起らなくなるか。
あるいは決められた回数θにだけ繰り返す。これにより
、1つのクラスター内の分散がQs未満で、クラスター
間距離が0M以上のクラスター(Wl。
・−・WB)が得られる。これらのB個のクラスターの
中心C1(1=1〜B)は、音声認識装置が動作する時
に音声データに重畳する可能性のある代表的なり個の雑
音パターンを表現することになる。
次にK −means法を利用する例を示す。まずA個
のクラスター中心を決める。これは、抽出された雑音パ
ターンを抽出順に前からA個を取り出し、それぞれをク
ラスター中心Ciとする。次Eこすべでの雑音パターン
とC4との距離を求め、各雑音パターンを一番近いクラ
スターに属すると決める。
続いてクラスター中心CIの再設定を行う。これは当該
クラスター間距離の全サンプル中のサンプルに対して最
大距離を与えるサンプルをCtとして再設定する。これ
が前のステップと同じものが選ばれれば終了し、そうで
なければ再度全雑音パターンを各クラスターに配布しな
おす(一般には収束性は保証されていないので、繰り返
し回数に上限を設けておく)。この方法ではA個のクラ
スターが求められることになる。またクラスタリング時
のデータの提示順序に依存するので、 I 5ODA’
rA法の方が良好な結果が得られる場合が多い。
なお、上記の距離尺度としては、ユークリッド距離や市
街地距離を用いることができる。またベクトルのノルム
を正規化しておく場合には、ユークリッド距離の代りに
相関値を類似度として用いても等価である(大小関係は
逆になる)。
一方、認識処理では入力された音声データに対し、雑音
パターンを正規比して認識される。すなわち、第1図の
入カバターン正規比部3において、入力データのパター
ンから上記の処理番こより準寓された代表雑音パターン
を減暉することにより雑音を正規「ヒした上で、それら
に対して単語類似度を計算する。
単語類似度計算部4の一構成例を示す。類似度計算の方
法はパターンの変形を吸収する能力が高い複合類似度法
を用いる。すなわち、各単語のクラス毎に数種の互いに
直交したベクトルを用意して、入力のパターンとの内積
を計算する。この数種のベクトルは単語辞讐記厖部5に
記1されている。入力データに対して一定次元のパター
ンベクトルを発生する。このベクトルの次元数は上記の
雑音パターンの表現とおなしものである。類似度計算部
4では各単語と発生された入力のパターンベクトル間の
類似度を演算する。そして、そのときの最大の類似度を
与える単語名とその類似度が、出力され・る。
類似間演算の方法を更に説明する。今人カバターンを(
Xi)(i−1〜N)とする時、これは周波数方向F点
(バンドパスフィルターのチャネル数に対応)、時間軸
方向T点の計FxT(−N)次元のベクトルとして表現
される。時間軸方向T点の決定方法は、部分区間を1等
分する位置の最近傍フレームを吹出せば十分である。こ
の各フレームの現フレームからの相対位置は、区間長を
変数とする関数の形で与えられ、テーブル比して予め準
備しておく。
?’KGCl (1= 1〜L ) 番目(7)雑音パ
ターンZ!”’に対して 、 (1)      、 (1) Yl 冨X1−Z監 を計算する。モしてYiにたいする単語の類似度を計算
する。
単語c(cml〜C)の辞嚇パターンをRcmi(iw
l 〜N)とする。ただしm(m−1〜M)は単語Cに
対して用意される直交ベクトルの数である。すなわち である。またλcmを係数とする(これらは単語力<1
) に対する類似度5c(Yi  )は、 として計算される。次に全単語クラスに対する類似度の
中から最大のものを選択する。これにより、第1番の雑
音パターンに対する類似度計算が終了する。
以上の処理により種々の雑音パターンを正規比したパタ
ーンに対し、単語類似度を計算する。第1図の判定部6
では、これらの複数の雑音代表パターンを正規化した場
合の結果を記燻し、これらの中から最大値を与えるもの
を判定する。
これにより、入力データに重畳して入力される可能性の
ある雑音パターンに対して有効に対処できる。しかも、
簡単にモデル化できない時間的に変化する環境雑誉に対
しても装置が自動的に適応する能力を持つため、利用す
る場所・時の状況が大きく変fヒするような応用に対し
ても有効に対処でき、高精度の■識性能が保証できる。
なお、上記の実施例においては、入力データから雑音代
表パターンを減算する事により正規比したが、これに対
して雑音代表パターンを単語辞書に対して正規比する方
法も考えられる。第4図にその構成例を示す。この場合
は各−iパターンのクラスターの共分散行列を計厚し、
別に初期単語辞書データとして用意されている各単語カ
テゴリの共分散行列との和の行列を求め、それをに−L
展開し、その固有値・固有ベクトルとして単語辞書を用
意すればよい。この場合、識別ずべきカテゴリ数はcx
r、となる。
上記実施列では単語認識を例として示した。し−121
109に示される方法では、単語マツチングを行う部分
区間毎に上記実施例に示される方法を適用すればよいこ
とは明らかである。
尚、本−A明は上記実施例に限定されるものではない。
列えば認識単位を音tΔや母音−子音−母音の音韻連鎖
とすることも可能であり、要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することが出来る。
【図面の簡単な説明】
第1図は一実施例装置の概略構成図、第2図は雑音パタ
ーンの時間サンプル点の決定の原理図。 第3図は雑音代表パターンを決定する方式の原理を示す
図、第4図は本発明の他の実施例装置の概略構成図であ
る。 1・・・音響分析部、2・・・雑音代表パターン決定部
、3・・・入カバターン正規比部、4・・・単語頑似度
計算部、5・・・単語辞書記憶部、6・・・評価部、1
1・・・音響分析部、12・・・雑音代表パターン決定
部、13・・・単語辞書作成部、14・・・初期単語辞
書データ記憶部、15・・・単語辞書記1部、16・・
・単語類似度計算判定部。

Claims (4)

    【特許請求の範囲】
  1. (1)入力信号の特徴パラメータを一定分析時間毎に求
    める手段と、別に指示される時間の間に外部雑音データ
    を入力し複数の代表パターンを求める手段と、認識単位
    の辞書を持ち入力音声データに対する認識単位との類似
    度を計算する手段と、それにより得られる類似度に基づ
    いて入力音声の内容を判定する手段から構成される音声
    認識装置において、類似度計算の際に雑音代表パターン
    を順次正規化し、それらの類似度の最大のものを判定す
    ることにより認識処理を行なうことを特徴とする音声認
    識装置。
  2. (2)上記雑音代表パターンの決定手段において、クラ
    スタリングの手法を用いることを特徴とする特許請求の
    範囲第1項記載の音声認識装置。
  3. (3)雑音の正規化手段として、入力音声データのパタ
    ーンから雑音代表パターンを減算することを特徴とする
    特許請求の範囲第1項記載の音声認識装置。
  4. (4)雑音の正規化手段として、雑音代表パターンを表
    すデータと別に用意される初期単語辞書データから単語
    辞書を構成することを特徴とする特許請求の範囲第1項
    記載の音声認識装置。
JP59265291A 1984-12-18 1984-12-18 音声認識装置 Pending JPS61143795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59265291A JPS61143795A (ja) 1984-12-18 1984-12-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59265291A JPS61143795A (ja) 1984-12-18 1984-12-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPS61143795A true JPS61143795A (ja) 1986-07-01

Family

ID=17415164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59265291A Pending JPS61143795A (ja) 1984-12-18 1984-12-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPS61143795A (ja)

Similar Documents

Publication Publication Date Title
Ittichaichareon et al. Speech recognition using MFCC
Rajisha et al. Performance analysis of Malayalam language speech emotion recognition system using ANN/SVM
JPS5972496A (ja) 単音識別装置
Von Zeddelmann et al. Perceptual audio features for unsupervised key-phrase detection
JPS59121100A (ja) 連続音声認識装置
Kekre et al. Performance comparison of 2-D DCT on full/block spectrogram and 1-D DCT on row mean of spectrogram for speaker identification
Rabiner et al. Some performance benchmarks for isolated work speech recognition systems
Ariff et al. Study of adam and adamax optimizers on alexnet architecture for voice biometric authentication system
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Chandra Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm
JPS63158596A (ja) 音韻類似度計算装置
Zhang et al. Articulatory movement features for short-duration text-dependent speaker verification
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
Gu et al. Dominant feature vectors based audio similarity measure
KR101094763B1 (ko) 사용자 인증을 위한 특징벡터 추출장치 및 방법
JPS61143795A (ja) 音声認識装置
Khan et al. Speech recognition: increasing efficiency of support vector machines
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
Shome et al. Effect of End Point Detection on Fixed Phrase Speaker Verification
Geirhofer Feature reduction with linear discriminant analysis and its performance on phoneme recognition
Zergat et al. Can judges trust the I-vectors scores?: a comparative study of voices comparison in the forensic domain
Kekre et al. Speaker identification using 2-D DCT, Walsh and Haar on full and block spectrogram
JPH0519782A (ja) 音声特徴抽出装置