JPS6172297A - Standard pattern generation system for voice recognition - Google Patents

Standard pattern generation system for voice recognition

Info

Publication number
JPS6172297A
JPS6172297A JP59195238A JP19523884A JPS6172297A JP S6172297 A JPS6172297 A JP S6172297A JP 59195238 A JP59195238 A JP 59195238A JP 19523884 A JP19523884 A JP 19523884A JP S6172297 A JPS6172297 A JP S6172297A
Authority
JP
Japan
Prior art keywords
pattern
standard
patterns
voice
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59195238A
Other languages
Japanese (ja)
Inventor
船橋 賢一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP59195238A priority Critical patent/JPS6172297A/en
Publication of JPS6172297A publication Critical patent/JPS6172297A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 く技術分野〉 本発明は、特にパターン・マッチング方式による特定話
者の連続音声認識に有用で、調音結合。
DETAILED DESCRIPTION OF THE INVENTION Technical Field The present invention is particularly useful for continuous speech recognition of a specific speaker using a pattern matching method, and is particularly useful for recognizing continuous speech of a specific speaker using a pattern matching method.

発声によるパターンの変動を考慮に入れて、カテゴリご
とに複数個の標準パターンを作成する方式%式% 不特定話者の音声認識方式においては、従来から、多数
の人の音声パターンからクラスタリング分析によってい
くつかのクラスタを求め、それぞれのクラスタを代表す
るパターンを標準パターンとする技法か用いられている
。この場合は、クラスタリング分析を行なうため、音声
パターンが非常に多数ある場合を対象としている。
A method of creating multiple standard patterns for each category by taking into account variations in patterns due to utterances.In speech recognition methods for non-specific speakers, conventional speech recognition methods have traditionally used clustering analysis from the speech patterns of a large number of people. A technique is used in which several clusters are determined and a pattern representing each cluster is used as a standard pattern. In this case, since clustering analysis is performed, the target is a case where there are a large number of voice patterns.

一方、本発明で問題とするのは、主として、特定話者の
場合における標準パターンの作成であり、比較的少数の
登録音声パターンから複数個の標準パターンを選択する
方法である。そのため、クラスタリング分析では不適当
てあり、認識装置に組みこむには、アルゴリズムが複雑
すきるという問題点があった。
On the other hand, the problem of the present invention is mainly the creation of standard patterns for a specific speaker, and the method of selecting a plurality of standard patterns from a relatively small number of registered speech patterns. As a result, there were problems with clustering analysis, and the algorithm was too complex to incorporate into a recognition device.

〈発明の目的〉 特定話者の音声認識においては、標準パターンとしでは
、発声のばらつき、調音結合の影響を考慮に入れ、カテ
ゴリごとに複数個もつことが望ましい。−例として、単
音節/CV/単位に認識する場合を考えよう。
<Objective of the Invention> In speech recognition of a specific speaker, it is desirable to have a plurality of standard patterns for each category, taking into account variations in pronunciation and the effects of articulatory combination. - As an example, let's consider the case of recognizing monosyllables/CV/units.

この時たとえば、登録音声カテゴリ・単音節/ k a
 /に対して標準パターンを作成する場合、孤立発声の
他に/Vka/(V=a 、 i 、u 、e。
At this time, for example, the registered speech category monosyllable / k a
When creating a standard pattern for /, in addition to isolated utterances, /Vka/(V=a, i, u, e.

0)等を発声し、登録したのち、このうちたとえば、代
表的なもの3個を標準パターンとして最終的に登録した
いといった問題がおこる。
0) etc. and register them, a problem arises in which, for example, it is desired to finally register three representative patterns as standard patterns.

本発明は、こうしたある登録音声カテゴリの比較的少数
の音声パターンから、代表的な音声パターンを指定した
数だけ選択する方式であって、それが一定の量的な判定
論理に基づいて行なえ、特に音声登録機能をもつ特定話
者標準装置にあって効果的に利用し得る有用な方式を提
供するものである。
The present invention is a method for selecting a designated number of representative voice patterns from a relatively small number of voice patterns in a certain registered voice category, and is particularly capable of selecting a specified number of representative voice patterns based on a certain quantitative judgment logic. The present invention provides a useful method that can be effectively used in a speaker-specific standard device having a voice registration function.

〈実施例〉 以下に、本発明を実施例に基ついて詳細に説明する。<Example> The present invention will be explained in detail below based on examples.

音声パターンは特徴パラメータの時系列によって表わさ
れ、パターン九とパターン■の間には距離d ((、y
)が与えられているとする。
A speech pattern is represented by a time series of feature parameters, and there is a distance d ((, y
) is given.

特徴パラメータとして、自己相関係数、ケプストラム係
数等が考えられ、距離としては、ユークリッド距離を用
いてダイナミックプログラミングによって求めたものが
考えられるが、以下の説明は、これらに依存しない一般
性をもつものである。
Possible feature parameters include autocorrelation coefficients and cepstral coefficients, and distances can be calculated using dynamic programming using Euclidean distance, but the following explanation is based on generality that does not depend on these. It is.

アルボリムの理解を容易にするため、下記に参考として
標準パターンを1個とする場合も含めて説明する。
In order to facilitate understanding of Arborim, the following explanation will include the case where one standard pattern is used for reference.

l)標準パターンを1個とする場合 第3図にその概念図を示す。l) When using one standard pattern Figure 3 shows its conceptual diagram.

あるカテゴリCの音声パターンを(電12%2゜・・・
r %N)とする。このうちから標準パタ−71個電 
を選択する基準は、各電、に対し、D・ =Σd(、j
 、電1) 3=+ を求め、(1)、(j=+、・・・、N))のうち最小
のDl を与える音声パターンXi  を、カテゴリC
の標準パターンとする。
A certain category C voice pattern (Den 12% 2゜...
r%N). Of these, there are 71 standard putters.
The criterion for selecting is that for each electric current, D = Σd(, j
, Electric 1) Find 3=+, and select the voice pattern Xi that gives the minimum Dl among (1), (j=+,...,N)) for category C.
This is the standard pattern.

これは、最小二乗原理の考え方に基づくものであり、標
準パターンX は、いわば音声パターンの「重心」に近
いものとして選ばれる。
This is based on the idea of the least squares principle, and the standard pattern X is selected as being close to the "center of gravity" of the speech pattern.

以上が基本アルゴリズムとなるが、本発明のように複数
の標準パターンを設定する場合は次のようになる。
The above is the basic algorithm, but when setting a plurality of standard patterns as in the present invention, the algorithm is as follows.

2)標準パターンを2個以上とする場合カテゴリCの音
声パターン(l 、・・・、xHIから、一般にm個の
標準パターン” 1(11、・・・。
2) When there are two or more standard patterns From the voice pattern of category C (l,...,xHI, there are generally m standard patterns "1 (11,...).

’i(ml’を選択する場合を述べる。第1図にm=2
の場合の概念図を示す。
The case where 'i(ml') is selected will be described. In Figure 1, m=2
A conceptual diagram of the case is shown.

(電、・・・、電、)からm個の標準パターンの候補、
R,−(囁 、 、電、 )をとり出す中1”’  i
(ml N′。
m standard pattern candidates from (den,...,den,),
Take out R, - (whisper, , electric, ) while 1”' i
(ml N'.

音声パターンl とm個の標準パターンの候補の集合R
1=(罵1(11’・・、2%i(ml’の「距離」D
(x、  、R,)を、 D (x  、R、)=m’ n [d(qj+ x 
1(kl)、 k=1.−、ml」    1 (minは最小値を表わす) とする。そして、この最小「距離コを用いて、各々のm
個の標準パターンの候補の集合R=(・i(+1’・・
・、・1−))に対し、D、=  Σ D (x J 
 I Rr  )j=+ を求め、Dl  が最小になるようなR1=(%i(+
1’・・”i(ml’をm個の標準パターンとして選択
する。
A set R of speech pattern l and m standard pattern candidates
1=(expletive 1(11'..., 2%i(ml''s "distance" D
(x, ,R,), D (x, R,)=m' n [d(qj+x
1 (kl), k=1. −, ml” 1 (min represents the minimum value). Then, using this minimum distance
Set of standard pattern candidates R=(・i(+1'...
・,・1−)), D,= Σ D (x J
Find R1=(%i(+
1'..."i(ml') is selected as m standard patterns.

本方式では、以上に述べたように、あるカテゴリの音声
パターン間の配列(α(X−、X))」 を前もって算出しておけば、後は簡単な演算(最小値を
求める操作と加算)によって、求めるべき標準パターン
の組み合わせを得ることができる。
In this method, as mentioned above, if the arrangement (α(X-, ), the desired combination of standard patterns can be obtained.

第2図は本方式による音声認識装置の構成例である。FIG. 2 shows an example of the configuration of a speech recognition device according to this method.

この音声認識装置は、登録モードと認識モードをもつ。This speech recognition device has a registration mode and a recognition mode.

登録モードにおいては、入力された音声データはマイク
1.アンプ2 、A/D変換器3を通り、特徴パラメー
タ抽出部4によってパラメータ系列に変換され、音声パ
ターン用メモリー5に蓄わえられる。登録はカテゴリご
とに行なうことにすれば、音声パターン用メモリ5は、
あるカテゴリの音声パターンを入れる分だけの大きさで
よい。
In the registration mode, input audio data is sent to microphone 1. The signal passes through an amplifier 2 and an A/D converter 3, is converted into a parameter series by a feature parameter extraction section 4, and is stored in a speech pattern memory 5. If we decide to register each category, the voice pattern memory 5 will be
It only needs to be large enough to accommodate the audio pattern of a certain category.

音声パターン用メモリ5中のパターンは、マツチング計
算部6によって相互の距離が求められ、距離マトリック
ス・メモリ7に蓄えられる。論理判定部Cll18は、
標準パターンの候補の組み合わせRを発生させ、距離マ
トリックス・メモリ7から、最小値をとる演算を加算に
よって前述のDlを計算し、これが最小となる組み合わ
せを判定して、その組み合わせの音声パターンを音声パ
ターン用メモリ5から標準パターン用メモリ9に転送す
る。
The mutual distances of the patterns in the voice pattern memory 5 are determined by the matching calculation unit 6 and stored in the distance matrix memory 7. The logic judgment unit Cll18 is
Generate a combination R of standard pattern candidates, calculate the above-mentioned Dl by adding the minimum value calculation from the distance matrix memory 7, determine the combination with the minimum value, and voice the audio pattern of that combination. It is transferred from the pattern memory 5 to the standard pattern memory 9.

認識モードにおいては、入力音声は、特徴パラメータ抽
出部4によってパラメータの時系列に変換され、標孕パ
ターン用メモリ9中のパターンとの距離をマツチング計
算部6て求め、論理判定部[1110で認識結果を判定
する。
In the recognition mode, the input voice is converted into a time series of parameters by the feature parameter extraction unit 4, the distance from the pattern in the memory 9 for the prenatal pattern is determined by the matching calculation unit 6, and the input voice is recognized by the logic determination unit [1110]. Judge the results.

〈発明の効果〉 以上のように本発明によれば、比較的少数の音声パター
ンから所定数の標準パターンを作成でき、しかもそれか
一定の量的な判定論理に基ついて行なえるものであり、
特に特定話者認識装置において非常に有用な方式が提供
できる。
<Effects of the Invention> As described above, according to the present invention, it is possible to create a predetermined number of standard patterns from a relatively small number of speech patterns, and it is also possible to create this based on a certain quantitative judgment logic.
In particular, a very useful method can be provided in a specific speaker recognition device.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例を示す標準パターンを2個と
する場合の概念図、第2図は音声認識装置としての構成
例を示すプロ7り図、第3図は参考として標僧パターン
を1個とした場合の概念図である。 C・・・カテゴリ、X  + X2  ・・、xn  
・・音声パタ!
Figure 1 is a conceptual diagram showing an example of the present invention when there are two standard patterns, Figure 2 is a professional diagram showing an example of the configuration of a speech recognition device, and Figure 3 is a standard pattern for reference. It is a conceptual diagram when there is one pattern. C...Category, X + X2..., xn
・Voice pattern!

Claims (1)

【特許請求の範囲】[Claims] 1、パターン・マッチングによる音声認識方式で、各登
録音声カテゴリごとに指定した個数の標準パターンを作
成するものにおいて、各カテゴリの登録音声パターンの
指定した個数の任意の組み合わせに対し、標準パターン
としての適切さを示す評価値を、カテゴリ内の1つの音
声パターンと前記組み合わせ内の音声パターンとの最小
距離を、カテゴリ内の音声パターンすべてにわたって総
和することにより求め、その評価値が最小となる音声パ
ターンの組み合わせをそのカテゴリの標準パターンとす
る音声認識における標準パターン作成方式。
1. In a speech recognition method using pattern matching, which creates a specified number of standard patterns for each registered voice category, it is possible to create a specified number of standard patterns for any combination of registered voice patterns in each category as a standard pattern. An evaluation value indicating appropriateness is obtained by summing the minimum distance between one voice pattern in the category and the voice pattern in the combination over all voice patterns in the category, and the voice pattern has the minimum evaluation value. A standard pattern creation method for speech recognition that uses a combination of as the standard pattern for that category.
JP59195238A 1984-09-17 1984-09-17 Standard pattern generation system for voice recognition Pending JPS6172297A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195238A JPS6172297A (en) 1984-09-17 1984-09-17 Standard pattern generation system for voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195238A JPS6172297A (en) 1984-09-17 1984-09-17 Standard pattern generation system for voice recognition

Publications (1)

Publication Number Publication Date
JPS6172297A true JPS6172297A (en) 1986-04-14

Family

ID=16337779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195238A Pending JPS6172297A (en) 1984-09-17 1984-09-17 Standard pattern generation system for voice recognition

Country Status (1)

Country Link
JP (1) JPS6172297A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2595027A (en) * 2020-03-10 2021-11-17 Focus Dgi Ltd Improvements in or relating to hand driers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2595027A (en) * 2020-03-10 2021-11-17 Focus Dgi Ltd Improvements in or relating to hand driers

Similar Documents

Publication Publication Date Title
Eronen et al. Audio-based context recognition
Büchler et al. Sound classification in hearing aids inspired by auditory scene analysis
JP4590692B2 (en) Acoustic model creation apparatus and method
CN102388416A (en) Signal processing apparatus and signal processing method
JP2008175955A (en) Indexing device, method and program
EP3996088A1 (en) Method and computer program for generating voice for each individual speaker
JPS6172297A (en) Standard pattern generation system for voice recognition
JP2011081324A (en) Voice recognition method using pitch cluster map
Watada Speech recognition in a multi-speaker environment by using hidden markov model and mel-frequency approach
Lashkari et al. NMF-based cepstral features for speech emotion recognition
JPH0252278B2 (en)
JPH04324499A (en) Speech recognition device
JP2003271185A (en) Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program
JP2003177777A (en) Method and device for voice feature extraction, and method and device for voice recognition
Dang et al. Improved Speech Separation Performance from Monaural Mixed Speech Based on Deep Embedding Network
JPH0720889A (en) Device and method for voice recognition of unspecified speaker
Ramakrishnamurthy Robust Features for Emotion Recognition from Speech by Using Gaussian Mixture Model Classification
JPH11249684A (en) Method and device for deciding threshold value in speaker collation
JPS62111292A (en) Voice recognition equipment
JPS59176797A (en) Voice recognition equipment
JPS6173998A (en) Voice recognition equipment
JPS6157996A (en) Voice recognition system
JPH01161399A (en) Method of suiting voice recognition apparatus to speaker
JPS6410080B2 (en)
JPS6312000A (en) Voice recognition equipment