JPS6150199A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6150199A
JPS6150199A JP59171623A JP17162384A JPS6150199A JP S6150199 A JPS6150199 A JP S6150199A JP 59171623 A JP59171623 A JP 59171623A JP 17162384 A JP17162384 A JP 17162384A JP S6150199 A JPS6150199 A JP S6150199A
Authority
JP
Japan
Prior art keywords
feature
pattern
data
voice
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59171623A
Other languages
English (en)
Inventor
西沢 靖雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59171623A priority Critical patent/JPS6150199A/ja
Publication of JPS6150199A publication Critical patent/JPS6150199A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声認識装置に関するものである。
〔発明の背景〕
近年、各種機器におけるマン・マシンインターフェース
の方法として、音声による入力、出力の重要性が高まっ
ている。
音声は空気中を伝わる弾性波である。音声認識は人間の
可聴範囲である16ヘルツから20にヘルツまでの周波
数領域の波動の強度分布とその時間変化のパターンを識
別することである。
現在一般的に使用されている音声認識装置では、あらか
じめ計算機に記憶させたパターン(標準パターン)と、
認識したいパターン(入カバターン)とをパターンマツ
チングによシ照合する方法をとっている。ここに、標準
パターン、入カバターンは、周波数1時間をいくつかの
領域に区分し、音声を時間、周波数に関する強度マツプ
として表わしたものである。パターンマツチングには通
常]) p (i)ynamic programmi
ng )−rツチングが用いられる。DPマツチングは
多段決定過程の最適化に使用する、数理計画法の一手法
である。この手法を用い、た音声認識に関する文献を下
記に示す。
参考文献:迫江、「連続発声した単語音声を効率的に認
識する2段DPマツチング」二日経エレクトロニクス、
1983年11月7日号p171〜208 このDPマツチングを用いた音声認識法には以下に示す
問題点がある。
a) 標準パターンとして、時間9周波数に関するマツ
プを使用するために1データ量が多い。
(2)時間1周波数に関する二次元データのマツチング
であるために、処理時間が長い。
(3)  データ量が多く、かつ処理時間が長いために
、認識できる語数が制限される。
(4)時間0周波数に関する強度マツプの、大まかな特
徴と、細かな特徴を一括してマツチングしているため、
同じ音声(単語、音素等)でも、話者の違いや、話者の
生理的、心理的状況(かぜをひいている、うわずってい
る等)Kよる微妙な違いの影響を受けやすく、認識率が
低い。
〔発明の目的〕
本発明の目的は、上記した従来技術の問題点を解決し、
データ量の少ない、処理時間の短い、認識語数の多い、
認識率の高い音声認識装置を提供することである。
〔発明の実施例〕
以下、実施例によυ本発明の詳細な説明する。
第1図に、本発明の音声認識装置の構成を示す。
本装置においてはまず、入力手段1(マイク)によυ入
力した音声を分析手段2(バンドパスフィルタ)を用い
て周波数領域別のデータに分離し、その時系列データを
記憶手段3上に強度マツプとして貯える。強度マツプは
、時間8周波数領域ごとの音声の強度を表わす2次元配
列データである。
強度マツプの構造を第2図に示す。第2図においてi、
jはそれぞれ周波数1時間に関する領域番号を示す添字
であシ、周波数領域11時間領域jに属する音声強度を
allで表わす。
ついでこの強度マツプを規格化装置4を用いて時間1強
度に関して規格化し、規格化した強度マツプの特徴を特
徴抽出手段5によシ抽出し、この特徴を特徴符号化手段
6によシ符号化する。ここで特徴は、強度分布に一関す
る概略的な特徴から屓次詳細な特徴へとクラスを分類す
る。また、符号化は、分類した各クラスごとの特徴を一
括してビットパターンで表現する。6−1.6−2.・
・・・・・6−mはこのようにして得られる、各クラス
ごとの特徴を表わすビット配列である。強度マツプの特
徴抽出とそのクラス分けおよび符号化の例を下記に示す
(1)  クラス−1 強度マツプ全体に関する平均および分散を特徴値とする
。強度マツプを第2図のように表現した場合、平均およ
び分散はそれぞれつぎの式%式% μは音声(単語又は音素)全体としての平均強度を表わ
す。μの値を8つのレベルに分けた場合、この特徴は3
ビツトの0.1パターンで表現できる。σ2は音声全体
としての強度の広がシラ表わす。σ2t−4つのレベル
に分けると、この特徴は2ビツトの0.1パターンで表
わされる。
(2)クラス−2 強度マツプを、つぎの式(3)および(4)によシ、時
間1周波数について平均化した量について平均および分
散をとる。
tJ= Σa 11/ I        ・・・・・
・・・・・・・(4)f、は音声全体としての、強度の
周波数分布を、またtlは、強度の時間変化を表わす。
りぎに時間および周波数をいくつかの領域(2,3・・
・・・・8)に区分し、各領域内でのfl、t、の平均
1分散をとシ、その値に応じてレベル区分する。−例と
して、時間領域区分t−2とした場合の、第1領域、第
2領域での1.の平均はつぎの式(5)で表わされる。
μm1”  Σi」/Jt      ・・・・・・・
・・・・・(5)l−1 ここにJlは、領域区分点でアシ、第1領域内のjの最
大番号である。μt1の値を2つのレベルに区分する。
すなわち、あるしきい値よシ大きいか小さいかで区分す
れば、特徴値は1ビツトを用いて、1かOかのいずれか
で表わされる。
(μtl、μ、2)の組み合せについては、2ビツトに
よシ表現できる。
(3)クラス−3 強度マツプを時間1周波数に関していくつかに領域区分
し、各領域内での強度の平均9分散をつぎの式(6)、
 (7)で求める。
ここに、k、tは周波数1時間に関する領域番号を表わ
す。また、kl # klおよびt1st2は、各周波
数1時間領域内でのi、jの最小、最大番号を、K、L
は各領域内でのサンプル数である。すなわち、 K=kz   (kt−1) L=t2 − (At  −1) 例として、時間、波波数領域数をそれぞれ2トシ、μに
4  の値を2つのレベルに区分すれば、領域数は合計
4となシ、このそれぞれの領域内でのレベル区分を1.
0で表わすことができる。
すなわち、特徴を4ビツトで符号化することができる。
以下、順次特徴データを詳細化し、符号化することによ
り、音声の特徴をクラス分けしてピットパターンで表現
する。
このようにして符号化した音声の特徴を特徴データファ
イル7に登録し、標準パターンとする。
7−1.7−2.・・・・・・7−nはそれぞれ特定の
単語又は音素に関する特徴値を符号化したピット配列の
セットである。なお10は標準パターンを登録する登録
モードと、入カバターンを認識する認識モードとの切替
スイッチである。
認識手段8は、与えられた入カバターンを標準パターン
と比較照合することにより認識し、結果を出力装置9に
出力する。ここで、認識手段8における入カバターンと
標準パターンとの比較照合は概略パターン(先の例にお
けるクラス−1のパターン)から開始し、順次詳細パタ
ーンへと進める。このようにして段階的にパターンを比
較照合することにより、概略的なパターンのみで入力音
声を同定できる場合には、それ以上詳細なパターンを調
べる必要はない。
第3図に認識手段8の内部構成を示す。第3図において
10は、入力音声のクラス−1の特徴を標準パターンと
比較照合する手段である。12は検索処理部、13は判
定処理部、14はメモリである。検索処理部12は、特
徴データファイルに格納されたレベル−1データのうち
、特徴符号化手段6よシ転送されるレベル−1データと
一致fるものを検索し、そのデータの番号(第1図にお
ける、7−1.7−2、等に対応するインデックス)を
メモリ14に書き込み、判定処理部13を起動する。判
定処理部13はメモリ14に貯えられたデータ数を調べ
、データ数が0.l、複数のいずれであるかを判定し、
それぞれつぎの処理を実行する。
(1)データ数0 特徴データファイルには、人力音声に該当するデータが
ないので、出力装置9に、該当データなしとのメツセー
ジを送る。
(2)データ数1 唯−解が得られたものとして、結果を出力装置9に送る
(3)複数 クラス−1データの比較だけでは、入力音声を特定でき
ないので、クラス−2の比較照合手段11を起動する。
以上同様にして順次クラス−3,4・・・・・・と特徴
データを詳細化しつつ入力音声を同定するステップを進
める。
このようにして段階的にパターンを比較照合する方法を
とれば、概略的なパターンのみで入力音声を同定できる
場合には、それ以上詳細なノ(ターンを調べる必要がな
い。
以上に述べた、本発明の音声認識装置には以下のントリ
点がある。
(1)  標準パターンがビットパターンに符号化すれ
ているために、データ量が少ない。
(2)  入カバターンと1照準パターンとの比較が、
ビット比較のみで可能であり、かつ、上記したように、
概略パターンのみで入力音声を同定できる場合には、そ
れ以上詳細なパターンを調べる必要がないので、処理時
間が短い。
(3)データ量が少なく、かつ処理時間が短いために、
認識語数を多くできる。
(4)音声の大まかな特徴を、細かな特徴から分離し、
クラス分けしてマツチングできるので、話者の違いや、
話者の生理的、心理的状況による微妙な違い(細かな特
徴)の影響を受けにくく、認識率を高くできる。
以上述べたごとく、本発明の音声認識装置によれば、デ
ータ量の少ない、処理時間の短1ハ、認識語数の多い、
認識率の高い音声認識装置を実現することができる。
【図面の簡単な説明】
第1図は本発明の廿声認識装暇の構成図、@2図は時間
1周波数領域ごとの音声の強度を表わす2次元配列デー
タの説明図、第3図は、第1図における認識手段8の内
部構成を示すブロック図である。第1図において、1は
入力手段、5は%微抽出手段、6は特徴符号化手段、8
は認識手段、9は出力手段である。

Claims (1)

    【特許請求の範囲】
  1. 1、音声の特徴を、領域区分した時間、周波数領域内で
    の平均、分散等の特徴値として抽出する特徴抽出手段と
    、上記特徴を詳細度に応じてクラス分け、符号化する特
    徴符号化手段と、クラス分け、符号化された特徴データ
    を標準パターンとして格納する特徴データファイルと、
    入力音声を標準パターンと比較照合することにより認識
    する認識手段とを有し、該認識手段において、入力音声
    の符号化された特徴データと、特徴データファイル上の
    符号化された標準パターンとを、クラスに応じて概略パ
    ターンから詳細パターンへと順次比較照合して入力音声
    を同定することを特徴とする音声認識装置。
JP59171623A 1984-08-20 1984-08-20 音声認識装置 Pending JPS6150199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59171623A JPS6150199A (ja) 1984-08-20 1984-08-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59171623A JPS6150199A (ja) 1984-08-20 1984-08-20 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6150199A true JPS6150199A (ja) 1986-03-12

Family

ID=15926606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59171623A Pending JPS6150199A (ja) 1984-08-20 1984-08-20 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6150199A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010038397A (ja) * 2008-08-01 2010-02-18 Toko Sangyo Kk 換気口の開閉機構

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010038397A (ja) * 2008-08-01 2010-02-18 Toko Sangyo Kk 換気口の開閉機構

Similar Documents

Publication Publication Date Title
Hanilci et al. Recognition of brand and models of cell-phones from recorded speech signals
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
JPS5972496A (ja) 単音識別装置
JPS62232691A (ja) 音声認識装置
CN113112992A (zh) 一种语音识别方法、装置、存储介质和服务器
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
JPS6150199A (ja) 音声認識装置
JPS584198A (ja) 音声認識装置における標準パタ−ン登録方式
JP2002372992A (ja) 話者識別方法
US6301562B1 (en) Speech recognition using both time encoding and HMM in parallel
Chenchen et al. Main melody extraction using the auditory scene analysis for the humming music retrieval
Abe et al. Content-based classification of audio signals using source and structure modelling
JPS61278896A (ja) 話者照合装置
JP2557497B2 (ja) 男女声の識別方法
JPS5977500A (ja) 単語音声認識方式
Raja sion rule (} 1NDR)[7Jf or classification.
KR950001067B1 (ko) 음성인식장치
JPS62124599A (ja) 音声認識装置
JPH0720889A (ja) 不特定話者の音声認識装置および方法
JPS63213897A (ja) 話者認識装置における辞書更新方式
TW202207219A (zh) 雙二階式聲音偵測系統
Raja et al. Nearest neighbour decision rule for vowel and digit recognition
JPS60115996A (ja) 音声認識装置
JPS5936299A (ja) 音声認識装置
JPS59176798A (ja) 単音節音声認識方式