JPS61143800A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS61143800A
JPS61143800A JP26529084A JP26529084A JPS61143800A JP S61143800 A JPS61143800 A JP S61143800A JP 26529084 A JP26529084 A JP 26529084A JP 26529084 A JP26529084 A JP 26529084A JP S61143800 A JPS61143800 A JP S61143800A
Authority
JP
Japan
Prior art keywords
similarity
word
speech
peak
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26529084A
Other languages
English (en)
Inventor
篠田 英範
浮田 輝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP26529084A priority Critical patent/JPS61143800A/ja
Publication of JPS61143800A publication Critical patent/JPS61143800A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は雑音環境下で発声された入力音声を精度良く認
識することの出来る音声認識装置に関する。
〔発明の技術的背景とその問題点〕
音声を情報入力手段とする日本語ワードプロセッサ等の
0入分野や工場でのF入分野で音声認識装置が利用され
始め、その媒体としての有効性が示されいてる。しかし
、現存する音声認識装置は、環境雑音に対してなんら積
極的な処理を行なっていないため、装置を使用する環境
にすこしでも雑音が入ってくると、g識精度の低下を招
き、音声の情報入力媒体としての高速性などの有効性を
失  −う事が多く、実用性に乏しかった。
これにたいして、定常的な一定の雑音については、その
雑音スペクトルを推定し、それを入力のデータから減算
することにより、雑音の影響を軽減する方法も試みられ
ているが、パルス性のものに対しては無力である。ある
いは%顕著な雑音パターンを認識すべき単語と同等のカ
テゴリーとして登録する方法なども検討されているが、
音声に重畳した雑音の影響は除去できない。これらに対
してとくに大きな問題となるものは、音声区間の高精度
な検出が行なえないことに一因があり、最初に音声区間
を検出してのちに、その内容を識別するのは無理な場合
が多い。それにたいして、音声区間の候補を複数用意し
て、a[々の部分区間に対する単語識別の結果を総合判
定する方法も試みられているが、音声区間の候補決定時
に正しい位置をまったく検出できないことがあり、87
N比の劣悪な高騒音下では有効な手段とはなりえなかっ
た。
〔発明の目的〕
本発明はこの様な事情を考慮してなされたもので、その
目的とするところは、雑音が重畳した入力音声でも高精
度Eこ認識することのできる実用性の高い連続音声認識
装置を提供することにある。
〔発明の概要〕 本発明では、入力データのパワーを計算し、そのピーク
を検出する。そしてその位置を中心に時間的に前後両方
向の領域に対して単語マツチングを行い、最良の類似度
が得られる単語をもって、判定結果とする。これにより
、背景の雑音が爪音しており、音声区間検出が有効に行
なえない状況においても、入力データを高精度に識別す
る。
〔発明の効果〕
本発明では、雑音が混入した音声データの中で最も安定
で8/N比が良好なパワーのピークの位置を検出して、
その位置を中心として藝語区間を探索しながら単語マツ
チングする。これにより他の方法では、雑音に埋もれて
、高精厩に決定できない単語の始端・終端の位置を予め
決定することなく認識処理ができる。その結果、今まで
対処することが出来なかったパルス性の雑音や時間的に
変化が激しい環境雑音があり、かつ87N比が悪い場合
においても安定して認識が行なえ、その効果は大きい。
〔発明の実施例〕
以下1図面を参照して本発明の実施例に付き説明する。
まず、ここでは単語音声の認識として3明するが、この
単語は言語学的な意味で用いるのではなく、音声認識処
理における認識の基板単位として定義されるもので、例
えば音節や母音−子昔一母音の音韻連鎖またはこれらに
類するものでもよい。
さて、第1図は実施例装置の概略構成図である。
入力音声は音響分析部1に入力されて一定の分析時間毎
に分析されて、そのweパラメータが求められる。この
分析時間をフレーム周期と呼ぶ。この音響分析部1は、
帯域通過フィルターを利用したフィルターバンクにより
構成され1例えば音声帯域を8〜30程度の帯域に分割
して、スペクトル分析を行ない、その特徴パラメータを
求める。
この特徴パラメータはある所定の時間間隔(フレーム周
期)毎にサンプリングされる。この時間間隔は音声の音
韻的特徴を十分に反映するため、典型的には数m5ec
 〜l 0m5ec、長くても20m5ecまで設定さ
れる必要がある。
次にピーク検出部2では、入力データのパワーの時系列
のデータからその最大ピークの位置を検出する。このと
き余り低レベルのものを誤って音声部分として検出され
ることを出来るだす防ぐためlこある閾値未満のものは
無視するようにしてもよい。これにより、人力データの
中に音声が含まれるならば、最も安定したS/N比の高
い位置が検出されることになる。
次に単語類似度計算部3では、その入力データのピーク
の位置を中心にして、予め決られた単語の位置を合わせ
たのちに、時間的に前方及び後方の領域に対して単語マ
ツチングを行なう。ここで単語辞書記1部4は、後出の
ように各単語毎にパワー最大ピークの前半と後半の部分
パターンに対する辞書を持つ。
単語マツチングの方法として、前方と後方をそれぞれ独
立して取扱う。これらは独立に行なうが。
まったく同様の原理の類似度計算法になる。ただマツチ
ングの対象となる入力データの部分区間の形成において
、検出されたピークの位置を固定してそれぞれ前方ある
いは後方へマツチングしながら探索することになる。第
2図に示されるように、単語毎に用意される前部分パタ
ーンと後部分パターンの辞書を、それぞれ単語側に設定
される継続時間範囲の中でマツチングする。
ここでは、類似度計算の方法はパターンの変形を吸収T
る能力が高い複合類似3度法を用いる。各単語のパワー
ピークとなるところを基準として前半部・後半部の各部
分毎に数種の互いに直交したベクトルを用意して、入力
のパターンベクトルとの内積を計算する。この数硼のベ
クトルは辞書記憶部4に記憶されている。ここで前方向
のマツチングを考えると、求められたピークを&aとし
て、そのマツチング区間を表す一定次元のパターンベク
トルを発生する。頑似度計算部3では各単語の部分辞書
と発生された入力のパターンベクトル間の類似度を演算
する。そして、探索範囲内の全てのフレーム長の区間に
対する類似度1直を計算する。
そして最大の類似度(及び位置)を求める。
類似度演算の方法を更に説明する。今人カバターンベク
トルを(Xi ) (i−1〜N)とする時、これは周
波数方向F点(バンドパスフィルターのチャネル数に対
応)、時間軸方向T点の計FxT(=N)次元のベクト
ルとして表現される(Tは単治別lこそれぞれ設定する
)。時間軸方向T点の決定方法は1部分区間を1等分す
る位置の最近傍フレームを吹出せば十分である。この各
フレームの現フレームからの相対位置は、区間長を変数
とする関数の形で与えられ、テーブル化して予めS備し
ておく。
単語部分c(c=l〜C)の辞書パターンをRcmi(
i=1〜N)とする。ただしM (m = 1〜M)は
カテゴリーCに対して用意される直交ベクトルの数であ
る。すなわち である。またλcm を係数とした時、これらはカテゴ
IJ −Cに属するパターンの共分散行列の固有ベクト
ル・固有値として求めておく。このときパターンXtの
類似度8 c [X i ]は。
として計鼻される。次に全単語クラスに対する類似度の
中から最大のものをA沢する。これにより。
類似度計算が終了する。
な2、ここではパターンの変形に強い複合類似度法を利
用したが、他に上記でM=1の場合lこ対応する単純訓
似匿やよく知られた動的計画法を適用してもよい。
このようにして計算される類似度の値%ピークから前方
向に順次部分区間を決めてマツチングしていくと、第3
図に示されるような類似度値の時系列が得られる。この
時系列の最大値を決めて、その値を当該単語の前部分の
類似度値ろする。一方ピークの後方についても同様にマ
ツチングを施し、類似度1直を得る。そして、これらの
和を以って、当該単語のスコアとして定義する。
第11ス判定部5では、これらのスコアの最大のものを
3んで、認、熾結果として出力する。しかしながら、認
識対象単語の中で、ある単語が、他の単語のサブストリ
ングになりているiL例えば「カサ(傘)」と「アサ(
朝)」が両方とも認識子べき単語であるような場合、上
記の方法では区別出来ない。このような場合には、マツ
チングの位置の結果に基づき単語のペア毎にマツチング
位置に応じた重みを用意して、それを類似度値に掛けて
スコアを求めて、再判定丁れば、区別することが出来る
以上の処理の概要であるが、詳細についてはヤ重々の変
形が考えられる。例えば入力データのピーク検出法にお
いて、上記の列では一つしか検出しないように述べたが
、複数候補を出力するよう番こできる。すなわち1局所
的なパワーのピークを検出し、それらを中心にして順次
先記の実癩列のようにマツチング処理を行なってスコア
を算出し、それらを中の最大のものを判定してもよい。
またパワーのピークを形成する位置で一宣母音認1.1
党を行tい、その結果の母音を持つ単語だけをマツチン
グ対象にするようにもできる。
以上の処理により傭々の雑音に埋もれた入力データに対
して有効に対処でき、高清度の認識性能が保証できる。
尚、本発明は上記実施例に限定されるちのではない。例
えば認識単位を音節や母音−子音−母音の音一連鎖ある
いは文節とすることも可能であり、要するに本発明はそ
の要旨を逸脱しない範囲で種々変形して実施下ることが
出来る。
【図面の簡単な説明】
第1図は一実施例装置の概略酵成図、第2図は単語類似
度計算方法の原理を示す図、第3図は類似度の決定方法
の原理を水硬 1・・・音響分析部、2・・・ピーク検出部、3・・・
単語辞樗記1部、4・・・単語類似度計算部、5・・・
評価部。 代理人弁理士  則 近 憲 佑(ほか1名)第  2
 図 徊虐紀日   勧端京鞄困 第  3 図

Claims (3)

    【特許請求の範囲】
  1. (1)入力信号の特徴パラメータを一定分析時間毎に求
    める手段と、入力データのパワーのピークの位置を求め
    る手段と、ピークの位置を基準として入力音声データに
    対する認識単位との類似度を計算する手段と、それによ
    り得られる類似度に基づいて入力音声の内容を判定する
    手段から構成される音声認識装置。
  2. (2)上記判定手段において、認識単位のマッチング位
    置とそのスコアとを用いて結果を総合的に判断すること
    を特徴とする特許請求の範囲第1項記載の音声認識装置
  3. (3)上記のパワーのピークの位置において母音認識を
    行ない、その結果に基づき類似度計算を行なう認識単位
    を選択することを特徴とする特許請求の範囲第1項記載
    の音声認識装置。
JP26529084A 1984-12-18 1984-12-18 音声認識装置 Pending JPS61143800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26529084A JPS61143800A (ja) 1984-12-18 1984-12-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26529084A JPS61143800A (ja) 1984-12-18 1984-12-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPS61143800A true JPS61143800A (ja) 1986-07-01

Family

ID=17415152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26529084A Pending JPS61143800A (ja) 1984-12-18 1984-12-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPS61143800A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01185600A (ja) * 1988-01-19 1989-07-25 Nec Corp 音声認識装置
WO2003107326A1 (ja) * 2002-06-12 2003-12-24 三菱電機株式会社 音声認識方法及びその装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01185600A (ja) * 1988-01-19 1989-07-25 Nec Corp 音声認識装置
WO2003107326A1 (ja) * 2002-06-12 2003-12-24 三菱電機株式会社 音声認識方法及びその装置

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US4833713A (en) Voice recognition system
JPS58130393A (ja) 音声認識装置
US8050910B2 (en) Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
JPS62217295A (ja) 音声認識方式
JPS59121100A (ja) 連続音声認識装置
Zhang et al. Spectrogram transformers for audio classification
JPS61143800A (ja) 音声認識装置
Chandra Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm
JPS6129518B2 (ja)
JPS6114520B2 (ja)
CN112908303A (zh) 音频信号的处理方法、装置以及电子设备
JP2968976B2 (ja) 音声認識装置
JPH045198B2 (ja)
JPS63213899A (ja) 話者照合方式
JPS5936759B2 (ja) 音声認識方法
CN112863488A (zh) 语音信号的处理方法、装置以及电子设备
JP2656239B2 (ja) 音声認識学習方式
CN112863487A (zh) 语音识别方法、装置以及电子设备
JPS61143795A (ja) 音声認識装置
JPH01209499A (ja) パターン照合方式
JPS61273599A (ja) 音声認識装置
JPH04109300A (ja) 衝撃音識別装置
JPS60115996A (ja) 音声認識装置
JPS6258515B2 (ja)