JPS6368899A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6368899A
JPS6368899A JP61211570A JP21157086A JPS6368899A JP S6368899 A JPS6368899 A JP S6368899A JP 61211570 A JP61211570 A JP 61211570A JP 21157086 A JP21157086 A JP 21157086A JP S6368899 A JPS6368899 A JP S6368899A
Authority
JP
Japan
Prior art keywords
speech
input
voice
standard
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61211570A
Other languages
English (en)
Inventor
畑岡 信夫
天野 明雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61211570A priority Critical patent/JPS6368899A/ja
Publication of JPS6368899A publication Critical patent/JPS6368899A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識装置に係り、特に安定した認識性能を
与えるのに好適な照合結果の判定方式に関する。
〔従来の技術〕
従来、音声認識装置に用いられている判定手段は、最も
小さな照合値(距離尺度の場合、類似度の場合は最も大
きな照合値となる)を与える標準音声を選択する方式(
ベストファースト)が一般的である。しかし、同一音声
に対して標準音声パターンを複数個用意する認識装置(
いわゆるマルチテンプレート型)の場合、上記判定方式
は妨害標準音声パターンによる悪影響を受は易いことが
問題となっている。
上記問題に対処した判定方式として、公知例I EEE
 Trans、 on Con、 、 Vo Q 、 
C0M−29゜Na5 、 p p 、621〜(Ma
y 1981) r孤立ならびに連続単語認識−理論と
応用(Isolated and Connected
Vord Recognition−Theory a
nd 5elected Applic−ations
) Jに記載のように、マルチテンプレート型の認識装
置では、同一音声に対して複数個設けられている標準音
声のうち照合結果の良い方から上位に個を選び、それら
の平均照合値で認識結果を判定する多数決論理(KNN
法、theK−nearest neighborru
la)を用いている。この方式は妨害標準音声パターン
に強いことが報告されているが、認識対象は孤立単語音
声であった。さらにKNN系法を連続単語音声に試みた
公知例として、I E E E  ICASSP 84
予稿集pp35.1゜1〜35,1.4.r不特定話者
、連続数字認識(Speakar−Independe
nt Connected DigitRecogni
tion) Jがある。
〔発明が解決しようとする問題点〕
しかし、上記の中で、孤立単語音声を対象とする前者の
技術は、入力単語と各標準パターンとの照合結果が同時
刻に求まる場合の判定方式であり、各標準パターンとの
最適照合値が人力音声のランダムな時刻に求まる場合の
配慮がされておらず、音節認識をベースとした連続音声
認識への適用に対しては問題があった。一方、連続単語
音声を対象とした後者の技術は、上記問題への配慮はさ
れているものの、最も合致している照合結果を与える標
準パターンとの照合位置内で多数決判定であるので、完
全に妨害45J$音声パターンの影響を取り除くことが
できないという問題があった。(何故ならば、最も合致
している照合結果を与える標準パターンが妨害パターン
であることもありうる。) 本発明の目的は、音節認識をベースにした連続音声認識
において、妨害パターンに影響されにくい判定方式を提
供することにある。
〔問題点を解決するための手段〕
上記目的は、人力音声の音節などへのセグメンテーショ
ン結果を積極的に利用し、そのセグメンテーション区間
内で連続的に出力される標準パターンとの照合結果の判
定に多数決論理を導入することにより達成される。
〔作用〕
本発明での多数決論理に基づいた判定手法は、音声認識
装置における判定手段で用いられる方式であり、他への
影響はなく、かつ多数決論理に従っているので、妨害パ
ターンに影響されない安定した認識判定ができる。
〔実施例〕
以下、本発明の一実施例を第1図により説明する。第1
図は本発明を用いた音声認識装置の一実施例を示すブロ
ック図である。アナログ入力音声1はLPF (低域通
過フィルタ)、ADC(アナログ−ディジタル変換器)
2で、サンプリングでの折り返し雑音を除去されながら
ディジタル値へ変換される。次に、音声分析部3で音声
の特徴パラメータが所定時間(フレーム)ごとに計算さ
れ、入力音声の特徴パターンが抽出される。音声の特徴
パラメータとしては、BPF (帯域通過フィルタ)出
力値(T、 P に分析(線形予測分析)結果のパラメ
ータなどでも良い)が用いられる。距離計算部4では入
力音声の特徴パターンと標準パターンメモリ9から読み
込まれた標準音声の特徴パターン間のフレーム間距離が
算出される。セグメンテーション部5では、入力音声の
定常部区間と無音部区間が検出される。照合部6では入
力音声と標準音声との照合が連続的に行なわれ、セグメ
ンテーション部で得られた候補存在区間内での照合値が
算出される。連続的な照合は、例えば特開昭55−22
05号「連続DP法」の改良したもので実現される。判
定部7は本発明の主点であり、標準パターンごとの照合
値の大小関係から、入力音声のある部分がどの標準音声
(例えば音節)に最も似ているかの判定がなされ、認識
結果を出力する。
本発明では、前記判定部において、認識結果を確実にす
るために、セグメンテーション部で得られた候補存在範
囲をベースにして複数の標準音声との照合結果を使用し
た多数決論理を行う所に特徴がある。
次に前記各部の詳細な実施例を説明する前に、本発明の
原理を詳細に説明する。既に公知例として述べたように
、単語認識の場合には、妨害標準音声パターンに強い判
定手段として、KNN法がある。この手法は同一音声内
容に対して複数個の標準パターンが用意されているマル
チテンプレート型の認識装置に使われる。以下、簡潔に
KNN法に関して述べる。
今、標準単語音声のカテゴリーをm(1<m<M)、同
一カテゴリの標準単語をkとし、次のように入力単語音
声との照合値D′″′1を距離の小さい順(似ている順
)に並べかえたとする。
D”’<D”2<D”8<・・・        (1
)次に、カテゴリーmに対する平均距離r′″を上位に
個の結果を使って算出する。
K KNN法とは、次のように最終的な認識結果を平均距離
が最も小さいカテゴリーとする方式である。
m*=arg min  r”           
       (3)以上のKNN法はあくまでも単語
音声をひとつのパターンとして扱った単語認識を対象と
するものであるが、本発明は、音節認識をベースにした
連続音声認識において、KNN法などの多数決論理を実
現する手段を与えることをひとつの目的としている。
第2図は本発明の原理を詳細に説明する原理図である。
■、■、■はいずれも入力音声の各時間(フレーム)に
対して連続的に出力された標準音声との照合値を図示し
たものであり、照合値が小さい程、入力音声とのその部
分が標準音声に似ているとした場合である。入力音声は
セグメンテーション部において、母音や子音などの存在
範囲が決定されているとする(図ではi s −j、 
aの範囲)。
本発明では、各存在範囲(分割区間)において、主とし
て多数決論理を用いて認識結果を判定する。
例えば、■のように分割区間内において照合値の極小を
与える標準音声のうち、各カテゴリー(標準音声の内容
)ごとに最も小さな方からに個選んで式(2)のように
平均値を算出して、各カテゴリー間の比較を行なう方式
が考えられる。この方式は前記したように単語音声での
KNN法の連続音声への拡張板とも考えられる。類似の
方式は既に述べた公知例「不特定話者、連続数字認識」
に記載されているが、公知例では照合結果が最も良い標
準パターンと入力パターンとの照合位置内でKNN法を
用いている所が大きく異なる。第2の例どして、■のよ
うに、分割区間i s −i e内の各フレームごとに
照合値がある閾値内に入る標準音声のカテゴリーを多数
決で決定し、分割区間全体で最終判定をする方式がある
。第3の例として。
■のように、各カテゴリーにおいて、入力フレームに対
応する照合値の最小値をなぞった、いゎゆる包絡線を求
め、分割区間と閾値内に存在する面積(図の斜視図)の
大小関係で分割区間内での認識結果を決める方式もある
以上のように、マルチテンプレート型の音声認識におい
て、多数決論理に基づいた判定方式を導入することは、
特に妨害パターンの悪影響で認識結果の不要な付加が多
い、音節認識をベースにした連続音声認識において、認
識結果を安定にし、かつ性能をあげる上で重要な技術と
なる。
次に、本発明を用いた音声認識装置の一実施例である第
1図の各部について詳細に説明する。
第3図は音声分析部3の一実施例に詳細に示したもので
ある。実施例では13 P r4’分析をあげている。
ディジタル値に変換された9、録音声X、は中心周波数
と帯域幅の違うL個のB P F群31 、32に入力
される。本実施例では周波数分解能をあげるために2段
のB )) F構成としている。BPF31゜32は2
次のバターワース型フィルタとなっており、加算器2個
2乗算器4個、遅延器2個から構成されている。BPF
出力の波形は絶対値(ABS)33にて整流され、LP
F34.サンプリング器35さらにLPF36にて高域
周波数成分をカットされながら登録音声バタンX、z(
iHフレーム)が求められて、LPFはBPF同様に周
波数分解能をあげるために2段構成となっており、LP
F34゜36はBPF31,32同様の処理規模のバタ
ーワース型となっている。尚、LPFの2段構成につい
ては、特願昭55−135981号「ディジタル低域通
過濾波回路」に詳細に説明されている。本発明では音声
分析部3の構成をBPF分析としたが、LPG分析とす
ることも可能である。この場合の実施例は文献「音声波
形の線形予測分析による音声分析と合成(Speech
 Analysis and 5ynthasisby
 Lj、near Prediction of th
e 5peech Wave)J byB、S、 At
al et al、 Journal of Acou
stic 5ocietyof Amerjca、Vo
Q、50+ p、p637−655゜1971に詳細に
説明されている。
第4図は(フレーム間)距離計算部の一実施例を詳細に
示すものである。本実施例では距離演算尺度として、絶
対値距離を用いた場合を示す。2つの音声の特徴バタン
XiとyJどの絶対値距離d1□は として求まる。ここで1+ jはフレーム、LはRPF
のチャネル数である。従って、実施例では、2つの特徴
パタンXs、yaとが各々フレームバタンレジスタ41
,4.2を介しながら入力され、減算器43でXki−
ykJの計算、絶対値変換器44でIXkt  yhJ
lの計算がされ、加算器45でに二1からLまでの累積
が計算されることになる。
結果dIJは距離レジスタ46に格納される。
本発明の実施例では絶対値距離としたが、LPG分析で
得られる特徴パタンの相関尺度なども考えられる。この
場合の具体的実施例は文献[音声認識に適用した最小予
測誤差原理(MjnimumPrediction R
e5idual Pr1nciple Applied
 t。
5peech Recognition) J by 
F、 Itakuraet al。
I E E E  Trans on Acousti
cs、 5peech andSignal Proc
essing、 Vofl 、 A S S P −2
3,p、p+57〜72. Feb、 ’75に詳細に
説明されている。
第5図はセグメンテーション部5の一実施例を詳細に示
したものである。距離レジスタ46から読み込まれた距
離行列ds4がNグレードバタン抽出部51に入力され
る。ここでは、比較器511で距離閾値0との大小関係
が比較され、NグレードパタンnsaがNグレードバタ
ンレジスタ512に一旦格納される。
次に、定常部区間検出部52ではNグレードバタン(濃
淡バタン)の三角形の面積が加算器521で累積され、
比較器522にてその値と変化の度合が判定定数α、β
と比較されて、入力フレームiを固定した場合の定常部
区間候補が求められ、レジスタ523に格納される。比
較器524では最終の定常部区間が区間長の長い順に決
定され、定常部区間検出結果L(が定常部区間レジスタ
に格納される。一方、入力音声と5母音とのフレーム間
距離行列のNグレードバタンが同様に抽出され、母音区
間検出部53では加算器531、比較器532において
母音区間が抽出され、結果L V 5が母音区間レジス
タ533に格納される。次に、定常部区間検出部52と
母音区間検出部53で得られた定常部区間情報L1と母
音区間候補情報L V i とが区間統合処理部54に
入力され、比較器541でL+ とL V + との共
通部分として最終の母音区間が抽出され、結果L+ が
入力フレームバタンコードレジスタ542に格納される
。尚、セグメンテーション部の原理と構成は特願昭60
=189653音声認識装置」に詳細に説明されている
第6図は照合部6の一実施例を詳細に示したものである
。原理は特開昭55−2205号「連続DP法」を改良
したものである。人力音声のiフレームと標準パターン
のiフレームとのフレーム間距離dlJをもとに、累積
距離DI−が次の漸化式を使って算出される。
以上の漸化式から、 人力音声の各フレームiごとに、標準パターンmに対す
る最適照合値D  が求められる(J。
は標準パターンmのフレーム長)。
照合部6の具体的な実施例は、人力音声と標準パターン
とのフレーム間距離diJがフレーム距離レジスタ61
を介して入力され、遅延メモリ62と中間累積距離格納
メモリ67を用いて、(4)式%式% が記憶される。各々の距離値をもとに加算器63ではパ
ス■の膓−1,J−2+ d l−11J−1、加算器
64ではパスOの1)t−I J−1+d嗟−1,J−
1が算出され、パス■のDI−114−1とともに比較
器65で最小値が探索される。さらに加算器66で2d
+Jが最小値に加算され、中間累積距離D I Jが新
たに求められる。この結果は中間累積距離格納メモリ6
7に格納され、DI+1. J+1の算出の情報となる
。照合部では入力音声のjフレームごとにフレームは母
音区間情報1sk=iekの範囲内)、判定部7の入力
となる。
第7図(a)は本発明の主点である判定部7の一実施例
を詳細に示したものである。標準音声mと入力音声のi
フレームにおける連続的な照合値較器72においてセグ
メンテーション部にて求められた候補存在範囲is〜i
eの中にあるか否かの比較がなされ、入力jフレームが
isとie内にある場合のみ次の処理へ移る。次の判定
中心部73は本発明の主点であり、第2図■を実現した
ものである。即ち、連続音声認識におけるKNN法を実
現したものであり、比較器731と照合値格納メモリ7
32を使って、各カテゴリーmにおける最小照合値(距
離値)から」1位に個が求められる。加算器733と累
積照合値格納メモリ734では、式(2)で定義される
カテゴリーmに対する算出される(全てのカテゴリーと
もに個の累積なので、除算が省略できる)。比較器76
では、各関係が比較され、最も照合値が良いカテゴリー
m*が認識結果として出力される。
また1判定中心部73は第7図(b)74のようにも構
成される。これは第2図■を実現したものであり、候補
存在範囲is”ie内の入力フレームごとに、閾値■よ
りも小さい照合値を与える標準パターンのカテゴリーを
多数決で決めるものである。具体的には、比較器741
にて閾値■との比較がなされ、閾値内となる標準パター
ンの数が各カテゴリーごとに、カウンタ742とカウン
タ格納メモリ743を用いて累積され、結果C8が出力
される。その後は第7図(a)の比較器76にて、大小
関係が比較され、最多を与えるカテゴリーm*が認識結
果となる。
さらに、判定中心部は第7図(c)75のようにも構成
される。これは第2図■を実現したものであり、比較器
751と最小照合値格納メモリ752とにより、閾値■
内となる標準パターンのカテゴリーごとの最小照合値D
”rが入力フレームごとに算出される。その後、減算器
753.加算器754.累積値格納メモリ755を用い
て、第2図■の斜線部の面積に相当する値Σ(π−■1
1)が算出される。この結果をもとに、比較器76で大
小関係が比較され、もつとも大きい値を与えるカテゴリ
ーmljが認識結果となる。
以上の判定中心部73.74.75は単独で構成される
ことを原則とするが、それらを組み合わせた判定方式も
当然考えられる。
〔発明の効果〕
本発明によれば、認識率を低下させている妨害標準パタ
ーンによる悪影響を避けることができるので、認識率が
安定でかつ高い音声認識装置が実現できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す音声認識装置のブロッ
ク図、第2図は本発明の原理を示す図、第3図は第1図
の音声分析部の一実施例を示すブロック図、第4図は距
離計算部の一実施例を示すブロック図、第5図はセグメ
ンテーション部の一実施例を示すブロック図、第6図は
照合部の一実施例を示すブロック図、第7図(a)、(
b)。 (c)は本発明の主点である判定部の一実施例を示す図
である。

Claims (1)

  1. 【特許請求の範囲】 1、音声を入力する手段と、所定時間ごとに入力音声の
    特徴パターンを抽出する特徴パターン抽出手段と、入力
    音声を分割するセグメンテーシヨン手段と、該セグメン
    テーシヨンの結果に基づき上記入力音声の特徴パターン
    と前もつて格納されている標準音声の特徴パターンとを
    照合する手段と、該照合結果の判定を行う手段とを有し
    て、上記照合結果の判定手段は上記セグメンテーシヨン
    手段で得られたセグメンテーシヨン区間内で同一音声内
    容に対して複数個設けられた標準音声パターンと入力パ
    ターンとの照合値の極値を与える標準音声の多数決によ
    り、入力音声の上記分割区間に対する認識判定を行うこ
    とを特徴とする音声認識装置。 2、上記第1項記載の音声認識装置において、上記判定
    手段の多数決論理は、入力音声の各所定時間ごとに、あ
    る定められた範囲内の照合値を与える標準音声の、入力
    音声の各所定時間における多数決による判定をもとに行
    うことを特徴とする音声認識装置。 3、上記第1項記載の音声認識装置において、上記判定
    手段は、入力音声の所定時間ごとに得られる照合結果の
    入力音声のセグメンテーシヨン区間内での包絡情報をも
    とに行うことを特徴とする音声認識装置。
JP61211570A 1986-09-10 1986-09-10 音声認識装置 Pending JPS6368899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61211570A JPS6368899A (ja) 1986-09-10 1986-09-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61211570A JPS6368899A (ja) 1986-09-10 1986-09-10 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6368899A true JPS6368899A (ja) 1988-03-28

Family

ID=16607968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61211570A Pending JPS6368899A (ja) 1986-09-10 1986-09-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6368899A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428950B2 (en) 2007-02-06 2013-04-23 Nec Corporation Recognizer weight learning apparatus, speech recognition apparatus, and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428950B2 (en) 2007-02-06 2013-04-23 Nec Corporation Recognizer weight learning apparatus, speech recognition apparatus, and system

Similar Documents

Publication Publication Date Title
US7231350B2 (en) Speaker verification system using acoustic data and non-acoustic data
Hibare et al. Feature extraction techniques in speech processing: a survey
JPH0361959B2 (ja)
JPS5972496A (ja) 単音識別装置
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
JPS6368899A (ja) 音声認識装置
JPH0558553B2 (ja)
Saritha et al. DNN Based Speaker Identification System Under Multi-Variability Speech Conditions
Ding et al. How to track pitch pulses in LP residual?-joint time-frequency distribution approach
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
JPH0228160B2 (ja)
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
JP2577891B2 (ja) 単語音声予備選択装置
JPH0451037B2 (ja)
JPS62111295A (ja) 音声認識装置
JPS59124390A (ja) 候補削減音声認識方式
JPH01185599A (ja) 音声認識装置
JPS6250800A (ja) 音声認識装置
Karam Biorthoganal wavelet packets and Mel scale analysis for automatic recognition of Arabic speech via radial basis functions
JPS62212699A (ja) 音声標準パタ−ン自動作成装置
JPS60147797A (ja) 音声認識装置
JPS63142397A (ja) 音声認識装置
JPS61275799A (ja) 音声認識装置
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS6352200A (ja) 音声認識装置