JPS6355599A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS6355599A
JPS6355599A JP61199637A JP19963786A JPS6355599A JP S6355599 A JPS6355599 A JP S6355599A JP 61199637 A JP61199637 A JP 61199637A JP 19963786 A JP19963786 A JP 19963786A JP S6355599 A JPS6355599 A JP S6355599A
Authority
JP
Japan
Prior art keywords
vowel
recognition
stationary point
phoneme
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61199637A
Other languages
Japanese (ja)
Inventor
紀代 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61199637A priority Critical patent/JPS6355599A/en
Publication of JPS6355599A publication Critical patent/JPS6355599A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Abstract] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は認識率の向上を図った音声認識装置に関する。[Detailed description of the invention] Industrial applications The present invention relates to a speech recognition device that improves recognition rate.

従来の技術 音韻認識手段はワード・プロセッサや計算機への入力等
マン・マシンインターフェースとして実用化が期待され
ている分野である。
Conventional technology Phonological recognition means is a field that is expected to be put to practical use as a man-machine interface such as input to word processors and computers.

音声認識装置には、入力音声を認識する単位として単音
節(CV 、 C:子音、V:母音を表す)を用いるも
の、CvおよびVCVを用いるもの、音素(CおよびV
)を用いるもの等が考えられる。
Speech recognition devices include those that use monosyllables (CV, C: consonant, V: vowel) as units for recognizing input speech, those that use Cv and VCV, and those that use phonemes (C and V).
) may be considered.

また、使用者があらかじめ基準となる音声を発声。In addition, the user speaks a standard voice in advance.

登録してから認識処理をはじめる登録型と、たくさんの
発声データをもとに統計処理を行ない、普遍的な標準パ
ターンを準備しておき、使用者の登録を必要としない不
特定型とがある。また、特徴抽出の方法としては線形予
測分析やフィルタパンクを用いたものが主流となってい
る。本明細書においては、従来例、実施例ともに認識単
位としてCVおよびVCV 、特徴抽出法として線形予
測分析を用いた不特定型音声認識装置について説明する
が、これらに限られるものではない。以下図面1用いて
従来の音声認識装置の一例を説明する。
There is a registered type that starts recognition processing after registration, and an unspecified type that performs statistical processing based on a large amount of vocalization data, prepares universal standard patterns, and does not require user registration. . In addition, the mainstream methods of feature extraction are those using linear predictive analysis and filter punching. In this specification, an unspecified speech recognition device using CV and VCV as the recognition unit and linear predictive analysis as the feature extraction method will be described in both the conventional example and the embodiment, but the present invention is not limited to these. An example of a conventional speech recognition device will be described below with reference to FIG.

第2図は不特定型音声認識装置の構成を示すブロック図
である。音声入力端1から入力された音声は線形予測分
析部2において窓長20m気、フレームシフ) 5 m
5ec 、次数15次の自己相関法を用いて分析され、
15個のケプストラム係数および残差パワー(0次のケ
プストラム係数)の計16個のパラメータの列として出
力される(M形予測分析については、マーケル・グレイ
著鈴木久喜訳:音声の線形予測198o年コロナ社参照
)。
FIG. 2 is a block diagram showing the configuration of an unspecified speech recognition device. The audio input from the audio input terminal 1 is processed by the linear predictive analysis unit 2 with a window length of 20 m (with a frame shift) of 5 m.
5ec, analyzed using the autocorrelation method of order 15,
It is output as a sequence of 16 parameters in total, including 15 cepstral coefficients and residual power (0th order cepstral coefficient). (See Corona).

次に無音検出部3において残差パワーを用いて語頭2語
尾および語中の無音部が決定される。母音認識部4にお
いては、あらかじめ沢山の発声データを処理して得られ
た母音識別関数(安田三部著:社会統計学、2章7節1
969年丸善参照)の係数を格納した識別関数記憶部5
より係数を読み込み、無音検出部3において検出された
無音部以外の部分について、各フレーム毎に母音認識を
行なう。6は定常点検出部で母音認識部4で得られた各
フレーム毎の母音認識結果より安定なものを取りだして
定常点列として出力する。この定常点の数が入力音声の
音節数を示す。8は音韻認識部で標準パターン記憶部9
から読みだした標準パターンと入力音声からイ得られた
パラメータ列とでDPマツチングを行ない、その結果距
離が最小となる標準パターンを認識音韻列として出力す
る。
Next, the silence detection section 3 uses the residual power to determine the beginning, end, and middle of the word. The vowel recognition unit 4 uses a vowel discrimination function (Yasuda Mibe, Social Statistics, Chapter 2, Section 7, 1) obtained by processing a large amount of vocalization data in advance.
Discriminant function storage unit 5 that stores coefficients of 969 Maruzen)
The coefficients are read in, and vowel recognition is performed for each frame in a portion other than the silent portion detected by the silence detector 3. Reference numeral 6 denotes a stationary point detection unit which extracts stable vowel recognition results for each frame obtained by the vowel recognition unit 4 and outputs them as a stationary point sequence. The number of stationary points indicates the number of syllables of the input voice. 8 is a phoneme recognition unit and a standard pattern storage unit 9
DP matching is performed between the standard pattern read from the input speech and the parameter string obtained from the input speech, and the standard pattern with the minimum distance is output as the recognized phoneme string.

標準パタ′−ン記憶部9にはあらかじめ多数の発声デー
タから統計処理を用いて作成された普遍的な標準パター
ンが格納されている。10は言語処理部で音韻認識部8
で得られた音韻認識結果に対して言語処理を行ない、最
終的な認識結果を認識結果出力端12に得る。11は言
語辞書で10言語処理に用いられる辞書が格納されてい
る(例えば、三船他:電子通信学会PRI、83−40
 ;この論文は線形予測分析ではなくフィルタバンクを
、定常点の検出に母音認識結果ではなく、フレーム間の
分散を用いたものであるが、母音定常点の検出の後に音
韻認識を行なっていることから従来例として上げること
ができる。)。
The standard pattern storage section 9 stores universal standard patterns created in advance from a large number of utterance data using statistical processing. 10 is a language processing unit and a phonological recognition unit 8
Linguistic processing is performed on the phoneme recognition results obtained in , and the final recognition results are obtained at the recognition result output terminal 12 . Reference numeral 11 is a language dictionary in which dictionaries used for processing 10 languages are stored (for example, Mifune et al.: Institute of Electronics and Communication Engineers PRI, 83-40.
;This paper uses a filter bank rather than linear predictive analysis, and uses inter-frame variance rather than vowel recognition results to detect stationary points; however, phonological recognition is performed after vowel stationary points are detected. This can be cited as a conventional example. ).

発明が解決しようとする問題点 このような従来の音声認識装置では定常点の検出結果を
用いて音韻識別の制御を行なっているので、定常点の検
出結果および定常点における母音認識結果が認識率に大
きな影響を与えている。定常点における母音認識率を向
上させるため母音認識候補を2位まで用いるなどの対応
策があるが、処理時間が増加すると言う問題点があった
Problems to be Solved by the Invention In such conventional speech recognition devices, phoneme identification is controlled using the detection results of stationary points. is having a big impact on In order to improve the vowel recognition rate at stationary points, there are countermeasures such as using vowel recognition candidates up to the second rank, but there is a problem that processing time increases.

本発明はかかる点に鑑みてなされたもので、定常点検出
の後、検出された定常点に於いて再度母音認識を行ない
、定常点存在の確実性および母音第一候補の信頼性をも
とめ、定常点検出率および母音認識率の向上を計ること
を目的としている。
The present invention has been made in view of this point, and after detecting a stationary point, vowel recognition is performed again at the detected stationary point to determine the certainty of the existence of the stationary point and the reliability of the first vowel candidate, The purpose is to measure the improvement of stationary point detection rate and vowel recognition rate.

問題点を解決するための手段 本発明は定常点検出の後、検出された定常点に於いて再
度母音認識を行なう手段を備えた音声認識装置である。
Means for Solving the Problems The present invention is a speech recognition device that is provided with means for performing vowel recognition again at the detected stationary point after detecting a stationary point.

作  用 本発明は前記した構成により、定常点検出の後、検出さ
れた定常点に於いて再度母音認識を行ない、定常点存在
の確実性および母音第一候補の信頼性をもとめて、必要
な場合には母音候補を決定せずに認識処理を行なうこと
により認識率の向上を計ることができる。
According to the above-described configuration, the present invention performs vowel recognition again at the detected stationary point after detecting a stationary point, determines the certainty of the existence of the stationary point and the reliability of the first vowel candidate, and performs necessary recognition. In some cases, the recognition rate can be improved by performing recognition processing without determining vowel candidates.

実施例 笥1図は本発明の一実施例における不特定型音声認識装
置の構成を示すブロック図である。図において、′実線
は処理の流れ、点線はデータ参照を示している。音声入
力端1から入力された音声は線形予測分析部(特徴抽出
部)2において窓長20m5ec 、フレームシフ)s
m友、次数1 s次の自己相関法を用いて分析され、1
5個のケプストラム係数および残差パワー(0次のケプ
ストラム係数)の計16個のパラメータの列として出力
される。
Embodiment 1 FIG. 1 is a block diagram showing the configuration of an unspecified speech recognition device according to an embodiment of the present invention. In the figure, solid lines indicate the flow of processing, and dotted lines indicate data references. The audio input from the audio input terminal 1 is processed by the linear predictive analysis unit (feature extraction unit) 2 with a window length of 20 m5ec and a frame shift).
It is analyzed using the autocorrelation method of order 1 and order s, and 1
A total of 16 parameters, including 5 cepstrum coefficients and residual power (0th order cepstrum coefficient), are output as a string.

次に無音検出部3において残差パワーを用いて語頭1語
尾および語中の無音部が決定される。第1の母音認識部
4においては、あらかじめ沢山の発声データを処理して
得られた母音識別関数の係数を格納した識別関数記憶部
6より係数を読み込み、無音検出部3において検出され
た無音部以外の部分について、各フレーム毎に母音認識
を行なう。
Next, the silence detection section 3 uses the residual power to determine the beginning, end, and middle of the word. The first vowel recognition unit 4 reads the coefficients from the discriminant function storage unit 6 that stores the coefficients of the vowel discriminant function obtained by processing a large amount of utterance data in advance, and reads the coefficients from the discriminant function storage unit 6 that stores the coefficients of the vowel discriminant function obtained by processing a large amount of utterance data in advance. For the other parts, vowel recognition is performed for each frame.

6は定常点検出部で母音認識部4で得られた各フレーム
毎の母音認識結果より安定なものを取りだして定常点列
として出力する。7は第2の母音認取部で検出された定
常点に対してより詳細な母音認識を行なう。第1の母音
認識手段、第2の母音認識手段については後に詳しく説
明する。8は音韻認識部で標準パターン記憶部9から読
みだした標準パターンと入力音声から得られたパラメー
タ列とでDPマツチングを行ない、その結果距離が最小
となる標準パターンを認識音韻列として出力する。標準
パターン記憶部9にはあらかじめ多数の発声データから
統計処理を用いて作成された普遍的な標準パターンが格
納されている。1oは言語処理部で音韻認識部8で得ら
れた音韻認識結果に対して言語処理を行い、最終的な認
識結果を認識結果出力端12に得る。11は言語辞書で
10言語処理に用いられる辞薔が格納されている。
6 is a stationary point detection unit which extracts stable vowel recognition results for each frame obtained by the vowel recognition unit 4 and outputs them as a stationary point sequence. 7 performs more detailed vowel recognition on the stationary points detected by the second vowel recognition section. The first vowel recognition means and the second vowel recognition means will be explained in detail later. A phoneme recognition unit 8 performs DP matching between the standard pattern read from the standard pattern storage unit 9 and the parameter string obtained from the input speech, and outputs the standard pattern with the minimum distance as a recognized phoneme string. The standard pattern storage unit 9 stores universal standard patterns created in advance from a large number of voice data using statistical processing. 1o is a language processing unit that performs language processing on the phoneme recognition result obtained by the phoneme recognition unit 8, and outputs the final recognition result to the recognition result output terminal 12. Reference numeral 11 denotes a language dictionary in which dictionaries used for processing 10 languages are stored.

次に第1の母音認識部、第2の母音認識部について詳細
に説明する。母音認識の手法としてマハラノビス汎距離
を用いた方法は既に知られている。
Next, the first vowel recognition section and the second vowel recognition section will be explained in detail. A method using Mahalanobis general distance is already known as a vowel recognition method.

今、識別関数作成に用いた標本集合の共分散行列をV、
各母音毎の平均値をxv(v=a、・・・・・・N)、
入カバターンをXとすると、各母音と入カバターンとの
マハラノビス汎距離は(1)式で求められる。
Now, the covariance matrix of the sample set used to create the discriminant function is V,
The average value for each vowel is xv (v=a,...N),
Letting the incoming covert turn be X, the Mahalanobis general distance between each vowel and the incoming covert turn can be found using equation (1).

d(x、v)=x V−x−2”vtv−+工+xvt
y−1xv・・・・・・・・・・・・(1) 谷々Vは゛16行15列の行列、Xは15次のベクトル
を示すま16は特徴抽出部における分析次数に一致〕。
d(x, v)=x V-x-2"vtv-+engine+xvt
y-1xv (1) Valley V is a 16-by-15-column matrix, where X indicates a 15th-order vector, and 16 corresponds to the analysis order in the feature extraction section.

(1)式において2項のxv”V ’ 、 3項のxv
t■−1xvは定数となるので(1)式は(2)式のよ
うにおきかえられる。
In equation (1), the second term xv"V', the third term xv
Since t■-1xv is a constant, equation (1) can be replaced as equation (2).

d(x、す=x V−x−271,x+Da   ・−
−−=−=(2)lv=xOtv−1Da=xvv−x
v(2)酸第1項は、16行、16列の行列演算を伴う
ので相当な計算量となるが、この部分は母音に依存せず
入カバターンのみによって決まるので、どの母音により
近いかを判定するだけならば、第1項は無視する事がで
きる。そこで第一の母音認識手段においては距離尺度と
して計算式の少ない(3)式を用いて母音認識を行ない
、その結果を用いて定常点検出を行なう。
d(x,su=x V-x-271,x+Da ・-
--=-=(2)lv=xOtv-1Da=xvv-x
The first term of v(2) acid requires a considerable amount of calculation as it involves matrix operations with 16 rows and 16 columns, but this part does not depend on the vowel and is determined only by the input cover pattern, so it is difficult to determine which vowel is closer to the first term. If you only want to make a judgment, the first term can be ignored. Therefore, in the first vowel recognition means, vowel recognition is performed using equation (3), which has a small number of calculation formulas, as a distance measure, and the result is used to perform stationary point detection.

d’ (x 、v )=−21Vx+Da    −・
山・−聞−(3)その後、第2の母音認識手段において
、検出された定常点に対してのみx V−xを求め(4
)式にてマハラノビス汎距離を得る。
d' (x, v)=-21Vx+Da -・
Yama・-Bun- (3) Then, in the second vowel recognition means, x V−x is determined only for the detected stationary points (4
) to obtain the Mahalanobis general distance.

d(x、v)=x V”’−x+d’(x、v)   
−−−−・−・−・(4)マハラノビス汎距離は統計的
距離であり自由度16の−分布に従うので信頼性を粂め
る事ができる。
d(x, v)=x V"'-x+d'(x, v)
-----・-・-・(4) The Mahalanobis general distance is a statistical distance and follows a -distribution with 16 degrees of freedom, so it can be highly reliable.

例えばd(x、a)=11.04のときXがaである確
率(=信頼性)は76%と求められる。そこで次の規則
に従って母音の再決定を行なう。
For example, when d(x, a)=11.04, the probability (=reliability) that X is a is determined to be 76%. Therefore, vowels are redetermined according to the following rules.

規則1)第1候補となった母音の信頼性が10チ以下(
d(x、v)≧22.3 )のとき、すべての母音を候
補とする。
Rule 1) The reliability of the first candidate vowel is 10 chi or less (
d(x, v)≧22.3), all vowels are candidates.

規則2)第1候補となった母音の信頼性が50%以下の
ときは母音は第2候補まで対象とする。
Rule 2) When the reliability of the first candidate vowel is 50% or less, the second candidate vowel is considered.

規則3)第1候補となった母音の信頼性が60%以上の
とき第2候補の信頼性が20%以上ない場合は、母音第
1候補、第2候補ともに対象とする。
Rule 3) If the reliability of the first candidate vowel is 60% or more and the reliability of the second candidate is not 20% or more, both the first and second vowel candidates are considered.

規則4)上記以外は第1候補のみを用いる。Rule 4) Except for the above, only the first candidate is used.

以上のように本実施例によれば、検出された定常点に対
し再度母音認識を行なう手段を設けて信頼性に応じた母
音候補の決定を行なうことにより母音認識率を向上させ
る事が出来る。
As described above, according to this embodiment, the vowel recognition rate can be improved by providing means for performing vowel recognition again on the detected stationary points and determining vowel candidates according to reliability.

発明の詳細 な説明したように、本発明によれば、母音認識率を向上
させることができ、その実用的価値には犬なるものがあ
る。
As described in detail, according to the present invention, the vowel recognition rate can be improved, and its practical value is significant.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明における一実施例の音声認識装置のブロ
ック図、第2図は従来例の音声認識装置のブロック図で
ある。 2・・・・・・特徴抽出部、3・・・・・・無音検出部
、4・・出・第1の母音認識部、6・・・・・・識別関
数記憶部、6・・・・・・定常点検出部、7・・・−・
・第2の母音認識部、8・・・・・・音韻認識部、9・
・・・・・標準バタン記憶部。
FIG. 1 is a block diagram of a speech recognition device according to an embodiment of the present invention, and FIG. 2 is a block diagram of a conventional speech recognition device. 2... Feature extractor, 3... Silence detector, 4... First vowel recognition unit, 6... Discrimination function storage unit, 6... ...Steady point detection section, 7...--
・Second vowel recognition unit, 8... Phoneme recognition unit, 9.
...Standard button storage section.

Claims (1)

【特許請求の範囲】[Claims] 音声入力手段と、前記音声入力手段から入力された音声
データに対し一定時間毎に特徴抽出を行ない特徴パラメ
ータ列を出力する特徴抽出手段と、前記特徴パラメータ
列に対し母音認識を行なう母音認識手段と、前記母音認
識の結果から安定部を検出して母音定常点列として出力
する定常点検出手段と、前記特徴パラメータ列の音韻を
認識する音韻認識手段と、前記定常点検出手段により得
られた母音定常点に対し再度母音認識を行なう手段を備
えたことを特徴とする音声認識装置。
a voice input means; a feature extraction means for extracting features at regular intervals from the voice data inputted from the voice input means and outputting a feature parameter string; and a vowel recognition means for performing vowel recognition on the feature parameter string. , a stationary point detection means for detecting a stable part from the result of the vowel recognition and outputting it as a vowel stationary point sequence; a phoneme recognition means for recognizing the phoneme of the characteristic parameter sequence; and a vowel obtained by the stationary point detection means. A speech recognition device characterized by comprising means for performing vowel recognition again at a stationary point.
JP61199637A 1986-08-26 1986-08-26 Voice recognition equipment Pending JPS6355599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61199637A JPS6355599A (en) 1986-08-26 1986-08-26 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61199637A JPS6355599A (en) 1986-08-26 1986-08-26 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS6355599A true JPS6355599A (en) 1988-03-10

Family

ID=16411158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61199637A Pending JPS6355599A (en) 1986-08-26 1986-08-26 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS6355599A (en)

Similar Documents

Publication Publication Date Title
JP3444108B2 (en) Voice recognition device
Hunt Speaker adaptation for word‐based speech recognition systems
JPS5939760B2 (en) voice recognition device
JP2813209B2 (en) Large vocabulary speech recognition device
JPS6355599A (en) Voice recognition equipment
JPS58108590A (en) Voice recognition equipment
JPS63161499A (en) Voice recognition equipment
JPS63161500A (en) Voice recognition equipment
Mengistu et al. Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function
JP2760096B2 (en) Voice recognition method
JPS6336678B2 (en)
JP2578771B2 (en) Voice recognition device
JPS6120998A (en) Voice recognition equipment
JPS60182499A (en) Voice recognition equipment
JPS6225796A (en) Voice recognition equipment
JPS6180298A (en) Voice recognition equipment
Akila et al. WORD BASED TAMIL SPEECH RECOGNITION USING TEMPORAL FEATURE BASED SEGMENTATION.
JPS6225797A (en) Voice recognition equipment
JPS61180300A (en) Voice recognition equipment
Murveit et al. An architecture of an MOS‐LSI speech recognition system using dynamic programming
Deekshitha et al. Segmentation of continuous speech for broad phonetic engine
Myers et al. Directory listing retrieval using spoken connected letters and a level building DTW algorithm
JPH0585918B2 (en)
Mariani Recognition strategies in a continuous speech understanding system
Gillet et al. The use of syntax, semantics, and pragmatics in the KEAL speech understanding system