JPS61249182A - Pattern recognizing and learning device - Google Patents

Pattern recognizing and learning device

Info

Publication number
JPS61249182A
JPS61249182A JP60091401A JP9140185A JPS61249182A JP S61249182 A JPS61249182 A JP S61249182A JP 60091401 A JP60091401 A JP 60091401A JP 9140185 A JP9140185 A JP 9140185A JP S61249182 A JPS61249182 A JP S61249182A
Authority
JP
Japan
Prior art keywords
pattern
learning
input
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60091401A
Other languages
Japanese (ja)
Inventor
Hiroshi Matsuura
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60091401A priority Critical patent/JPS61249182A/en
Publication of JPS61249182A publication Critical patent/JPS61249182A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To execute efficiently the learning of a recognizing dictionary by controlling the number of an input pattern used for the learning of the recognizing dictionary of a special category, displaying a special category name, etc., to execute the learning and accelerating the input of a pattern. CONSTITUTION:A sound signal inputted through a voice input part 1 is converted to an input voice pattern at a characteristic extracting part 2. A recognizing part 3 executes a synthetic similar degree calculation between the characteristic vector of the input voice pattern and the dictionary pattern registered in a dictionary memory 4, and makes the category with the similar degree as a maximum into the recognizing result of the input voice pattern. On the other hand, at a memory part 6, the input voice pattern is successively accumulated and controlled. A learning part 8 learns the dictionary pattern for respective recognizing object categories by using the input voice pattern and the input voice pattern accumulated at the memory part 6. The learning part 8, in order to realize the effective learning, displays the category name and the number of the input pattern used for the learning up to the present through a displaying part 5, accelerated the input of the pattern necessary for the learning and executes the efficient learning.

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は入力パターンの認識処理に用いられる1!臓辞
■を効果的に学習し、その認識性能の向上を図ることの
できるパターン認識学習装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention is directed to 1! used in input pattern recognition processing. The present invention relates to a pattern recognition learning device that can effectively learn idioms and improve its recognition performance.

〔発明の技術的背景とその問題点〕[Technical background of the invention and its problems]

従来のパターン認lI装置は、学習時に入力された数個
のパターンに多少の加工を施して殆んどそのまま標準パ
ターンとしてms辞書メモリに登録し、この11m辞書
メモリに登録された種々のカテゴリの標準パターンと入
力パターンとを、例えばDPマツチング法を用いて照合
して上記入力パターンを認識処理するものが多い。
Conventional pattern recognition II devices perform some processing on several patterns input during learning and register them almost as-is as standard patterns in the ms dictionary memory. In many cases, a standard pattern and an input pattern are compared using, for example, the DP matching method, and the input pattern is recognized.

然し乍ら、この種のDPマツチング法で用いられる標準
パターンは、!!!諏対象の統計的分布をさほど考慮し
ていないので、例えば不特定話者に対する音声認識等に
適用するには不十分である。そこで最近では、マハラノ
ピスの汎距離や複合類似度法等のパターンの統計的分布
を考慮してi!謙方式が注目されている。
However, the standard pattern used in this type of DP matching method is! ! ! Since this method does not take into account the statistical distribution of speech targets, it is insufficient to be applied to, for example, speech recognition for unspecified speakers. Therefore, recently, i! The humble method is attracting attention.

この認識方式で用いられる認識辞書は、認識パターンの
統計的分布を考慮して作成されるものであるが、その作
成は一般に非常に困難である。そこで上記統計的分布の
幅を制限し、その範囲内で多くの学習パターンを採取し
て、例えばn次元の辞書パターンを作成することが行わ
れている。しかしこのようにしても、その認識辞書(辞
書パターン)を作成するには多くの労力と多大な作業時
間を必要とした。
The recognition dictionary used in this recognition method is created taking into consideration the statistical distribution of recognition patterns, but it is generally very difficult to create it. Therefore, the width of the above-mentioned statistical distribution is limited and many learning patterns are collected within that range to create, for example, an n-dimensional dictionary pattern. However, even with this method, creating the recognition dictionary (dictionary pattern) required a lot of effort and a lot of work time.

このような理由から、認識辞書を作成した慢にはその認
識辞書をそのまま用いてパターン認識を行っているのが
実情であり、例えば認識対象の分布が前記III辞書の
作成時の分布から大きく変化した場合等、十分な認識率
が得られなくなる等の不具合が生じていた。
For these reasons, the reality is that those who have created recognition dictionaries use the same recognition dictionaries as they are for pattern recognition. In some cases, problems such as not being able to obtain a sufficient recognition rate occurred.

そこで認識率の向上を図るべく、l!識辞書の適応化方
式が種々提唱されているが、その殆んどは単に簡便な方
法によってその認識辞書を特定の認識対象に合致するよ
うに修正するだけのものである。この為、総合的な、つ
まり認識パターンの統計的分布を考慮した!識辞書の充
実化を望むことは到底望むことができず、成る分布を持
つ認識対象に対する認識率の向上を図ることができなか
った。
Therefore, in order to improve the recognition rate, l! Various methods for adapting recognition dictionaries have been proposed, but most of them simply modify the recognition dictionary to match a specific recognition target using a simple method. For this reason, we took into consideration the overall statistical distribution of recognition patterns! It was impossible to hope for an enriched recognition dictionary, and it was not possible to improve the recognition rate for recognition objects with the following distribution.

〔発明の目的〕[Purpose of the invention]

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、パターン認識に用いる認識辞書
の学習に必要なパターンを効率良く採取し、そのl!臓
辞−の学習を効果的に行わしめてWIII率の向上を図
ることのできるパターン認識学習装置を提供することに
ある。
The present invention has been made in consideration of these circumstances, and its purpose is to efficiently collect patterns necessary for learning a recognition dictionary used for pattern recognition, and to collect the patterns that are necessary for learning the recognition dictionary used for pattern recognition. An object of the present invention is to provide a pattern recognition learning device capable of effectively learning the internal dictionary and improving the WIII rate.

(発明の概要〕 本発明は、入力パターンと認識辞書とを複合類似度法や
部分空間法により照合して上記入力パターンを認識処理
すると共に、このi!識結果に基いて上記入力パターン
を用いて特定カテゴリのW111辞書を学習する手段を
具備したパターン認識学習装置において、上記特定カテ
ゴリのall辞書の学習に用いられた入力パターン数を
管理して、その学習を行う特定カテゴリ名やその学習に
必要なパターン入力数、更には該特定カテゴリを含むデ
ータ入力例を等をディスプレイ表示して、その特定カテ
ゴリのパターンの入力を促すようにしたことを特徴とす
るものである。
(Summary of the Invention) The present invention recognizes the input pattern by comparing the input pattern with a recognition dictionary using a composite similarity method or a subspace method, and uses the input pattern based on the i! recognition result. In a pattern recognition learning device equipped with a means for learning the W111 dictionary of a specific category, the number of input patterns used for learning the all dictionary of the specific category is managed, and the name of the specific category to be learned and the learning method are determined. The present invention is characterized in that the required number of pattern inputs and further data input examples including the specific category are displayed on the display to encourage input of the pattern of the specific category.

そして、例えば共分散行列の更新とKLI!開法とを利
用して、その特性核または上記共分散行列に対する上記
学習用の入力パターンの寄与率を変化させる等して前記
特定カテゴリのl!!誠辞書の学習処理を行うようにし
たものである。
Then, for example, update the covariance matrix and KLI! l! of the specific category by changing the contribution rate of the input pattern for learning to the characteristic kernel or the covariance matrix using the open method. ! It is designed to perform learning processing for the Makoto dictionary.

〔発明の効1) かくして本発明によれば、li!識辞書の学習に必要な
パターンの入力が、その必要個数や入力パターン例等と
してディスプレイ表示されて促されるので、オペレータ
はその表示情報に従ってaS辞1の学習に必要なパター
ンを簡易に、効率良く入力することが可能となる。しか
も装置側にとっては、認識辞書の学習に必要なパターン
を効率良く採取でき、例えば共分散行列の更新とKL展
開法とを利用してそのI!!!識辞書のm識対象の分布
を十分に考慮した学習を効果的に行うことができる。
[Effect 1 of the invention] Thus, according to the present invention, li! The operator is prompted to input the patterns necessary for learning aS dictionary by displaying the required number and input pattern examples, so the operator can easily and efficiently input the patterns necessary for learning aS dictionary 1 according to the displayed information. It becomes possible to input. Moreover, on the device side, the patterns necessary for learning the recognition dictionary can be efficiently collected, for example, by updating the covariance matrix and using the KL expansion method. ! ! It is possible to effectively perform learning that fully takes into account the distribution of m-knowledge objects in the knowledge dictionary.

故に、!!!臓辞書の効果的な充実化を図り、その認識
率の向上を図り得る等の実用上多大なる効果が奏せられ
る。
Therefore,! ! ! This has great practical effects, such as effectively enriching the internal dictionary and improving its recognition rate.

〔発明の実施例〕 以下、図面を参照して本発明の一実施例につき説明する
[Embodiment of the Invention] Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

第1図は実施例vRHの概略構成図である。尚、ここで
は入力音声のパターンX!IIにつき説明するが、手書
き文字認識等のパターン認識!識についても同様に適用
することができる。
FIG. 1 is a schematic configuration diagram of an example vRH. In addition, here is the input audio pattern X! I will explain about II, but pattern recognition such as handwritten character recognition! The same can be applied to knowledge.

音声入力部1は、マイクロフォンや増幅器からなり、入
力音声を電気信号に変換している。この音声入力部1を
介して入力された音声信号は特徴抽出部2に与えられ、
例えば8チヤンネルのフィルタバンクを介して周波数分
解され、各周波数成分を入力音声の特徴パラメータとす
る入力音声パターンに変換される。
The audio input unit 1 includes a microphone and an amplifier, and converts input audio into an electrical signal. The audio signal input through the audio input unit 1 is given to the feature extraction unit 2,
For example, the signal is frequency-resolved through an 8-channel filter bank and converted into an input audio pattern in which each frequency component is used as a characteristic parameter of the input audio.

!!識郡部3、入力音声パターンの特徴ベクトルをfと
したとき、辞書メモリ4に登録されたカテゴリ2の辞書
パターン(φ141n)の各n面のベクトル成分との間
で N’)” EI”n <  t 、  φl1ln)2
S”’ [f ]−Σ □ n=1    11fl” なる複合類似度計算を実行し、その類似度Sを最大とす
るカテゴリを前記入力音声パターンのNII結果として
いる。尚、この認識処理法としては、マハラノビス汎距
離やユークリッド距離等を用いて行うようにしても勿論
良い。
! ! When the feature vector of the input speech pattern is f, the intelligence unit 3 calculates N')"EI"n < t, φl1ln)2
A composite similarity calculation of S"'[f]-Σ□n=1 11fl" is performed, and the category that maximizes the similarity S is set as the NII result of the input speech pattern. Note that this recognition processing method may of course be performed using Mahalanobis general distance, Euclidean distance, or the like.

このようにして求められた前記入力音声パターンの認識
結果が、表示部5にてディスプレイ表示される。
The recognition result of the input voice pattern obtained in this way is displayed on the display section 5.

一方、メモリ部らには、前記特徴抽出部2で求められた
入力音声のパターンが順次蓄積される。
On the other hand, the input speech patterns obtained by the feature extraction section 2 are sequentially stored in the memory section.

このメモリ部6は複数の入力音声パターンを蓄積するも
ので、各認識対象カテゴリ毎に何個の入力音声パターン
が蓄積されているか、また蓄積された入力音声パターン
の内のどのデータが既に学習処理に利用されたか等をそ
れぞれ管理している。
This memory unit 6 stores a plurality of input speech patterns, and it is possible to check how many input speech patterns have been stored for each recognition target category, and which data of the accumulated input speech patterns have already been processed for learning. We manage each site to see if it has been used.

尚、メモリ部6の配憶容量には制限があることから、メ
モリ部6ではその記憶容量が満杯となったとき、どのデ
ータから捨てるか、或いは外部メモリ7に蓄積するか等
を制御している。
Furthermore, since the storage capacity of the memory unit 6 is limited, when the memory unit 6 becomes full, it is possible to control which data is discarded first or which data is stored in the external memory 7. There is.

学習部8は、前記特徴抽出部2を介して求められた入力
音声パターン、および上記メモリ部6に蓄積された入力
音声パターンを用いて前記辞書メモリ4に登録された辞
書パターンを各I!識対象カテゴリ毎に学習するもので
ある。この学習81I8における辞書パターンの学習は
、例えば第2図に示すように共分散行列の繰返し更新処
理と、その共分散行列データのKL展開によって行われ
る。即ち、 なる演算を施すことによってその学習が行われる。
The learning section 8 converts the dictionary patterns registered in the dictionary memory 4 into each I! using the input speech pattern obtained through the feature extraction section 2 and the input speech pattern stored in the memory section 6. The method is to learn for each category of objects to be recognized. Learning of dictionary patterns in this learning 81I8 is performed, for example, by repeatedly updating the covariance matrix and KL expansion of the covariance matrix data, as shown in FIG. That is, the learning is performed by performing the following calculation.

但し、Sは学習パターンであり、例えば64次元のベク
トルとして与えられる。またKはパターンSを学習する
前の共分散行列であり、K′は学習後の共分散行列であ
る。そしてWは正負の値をとる重み係数であり、正の場
合には上記共分散行列の特性各の入力パターンに対する
類似度を大きくする作用を呈し、また負ならばその類似
度を小さくする作用を呈する。
However, S is a learning pattern, and is given as a 64-dimensional vector, for example. Further, K is a covariance matrix before learning the pattern S, and K' is a covariance matrix after learning. W is a weighting coefficient that takes a positive or negative value; if it is positive, it acts to increase the similarity to the input pattern of each characteristic of the covariance matrix, and if it is negative, it acts to decrease the similarity. present.

このような共分散行列の学習が、各認識対象カテゴリ毎
に複数のサンプルパターンを用いて複数回繰返して行わ
れ、この学習結果として求められた共分散行列ベクトル
に′をKLjm開してその固有値と固有ベクトルが計算
される。この学習とKLm開によって求められた固有値
とその固有ベクトルが、各認識対象カテゴリの認識辞書
とLノで前記辞書メモリ4に登録される。
Learning of such a covariance matrix is performed multiple times using multiple sample patterns for each recognition target category, and the covariance matrix vector obtained as a result of this learning is divided by KLjm and its eigenvalue is calculated. and the eigenvectors are calculated. The eigenvalues and their eigenvectors obtained through this learning and KLm expansion are registered in the dictionary memory 4 as a recognition dictionary for each recognition target category.

尚、辞書メモリ4の記憶容量が満杯になったときには、
各カテゴリ毎にその認識パターンを前記外部メモリ7に
格納し、これを辞書メモリ4にロードするようにしても
良い。
Furthermore, when the storage capacity of the dictionary memory 4 becomes full,
The recognition pattern for each category may be stored in the external memory 7 and loaded into the dictionary memory 4.

本装置では、基本的には上述したようにして各カテゴリ
のfill辞書(辞書パターン)の学習が行われる。と
ころが上記KL展開は、ヤコビ法やハウスホルダースツ
ルム法、べき乗法等の計算法で実行されるが、一般にそ
の計算処理には多大な時間を必要とする。従って上述し
た共分散行列の更新処理を、成る程度の学習効果が得ら
れる回数だけ繰返し実行し、その共分散行列ベクトルを
KL展開して前記辞書メモリ4に登録する認識辞書の効
率のよい効果的な学習を行うようにしている。
In this device, fill dictionaries (dictionary patterns) for each category are basically learned as described above. However, the KL expansion described above is executed using a calculation method such as the Jacobi method, the Householder-Sturm method, or the power law, but the calculation process generally requires a large amount of time. Therefore, the above-mentioned covariance matrix updating process is repeated as many times as necessary to obtain a certain degree of learning effect, and the covariance matrix vector is KL-expanded and registered in the dictionary memory 4. I try to do some learning.

学習部8は、このようにして認識辞書の成る程度の効果
のある学習を実現するべく、その学習に必要な入力パタ
ーン数を各カテゴリ毎に管理し、且つ既に学習処理に用
いられた入力パターンと、その入力パターン数を管理し
ている。そして、前記表示部5を介してその学習カテゴ
リ名と、現在までに認識辞書の学習に用いた入力パター
ン数等を、例えば第3図に示すように表示してその学習
に必要なパターンの入力を促している。この場合、発声
例メモリ9に登録された入力音声パターン例を同時表示
し、効果的な学習を可能とする入力パターンを得る為の
音声例を表示している。
In order to realize learning as effective as the recognition dictionary in this way, the learning unit 8 manages the number of input patterns required for the learning for each category, and also manages the number of input patterns that have already been used in the learning process. and manages the number of input patterns. Then, the learning category name and the number of input patterns used for learning the recognition dictionary up to now are displayed on the display unit 5 as shown in FIG. 3, and the patterns necessary for the learning are input. is encouraging. In this case, input voice pattern examples registered in the utterance example memory 9 are simultaneously displayed to display voice examples for obtaining input patterns that enable effective learning.

具体的には、音声カテゴリrアjの認識辞書を学習する
場合、例えば前述した重み係数Wや、認識装置自体の処
理精度(ビット精度)等から、その学習に必要な入力パ
ターンが最低2011必要とすることが学習部8にて判
断される。尚、学習に必要な入力パターン数の判断は、
認識辞書の学習仕様に応じて定めれば良いものであり、
例えば認識辞書の学習に対する経験的知識を利用して各
認識対象カテゴリ毎に定めたり、或いは必ず10個以上
の入力パターンを用いて各認識対象カテゴリの認識辞書
の学習を行う等として定めることもできる。
Specifically, when learning a recognition dictionary for speech category r, a, j, a minimum of 2011 input patterns are required for the learning, based on the weighting coefficient W mentioned above, the processing accuracy (bit precision) of the recognition device itself, etc. The learning unit 8 determines that this is the case. In addition, to determine the number of input patterns required for learning,
It is sufficient if it is determined according to the learning specifications of the recognition dictionary.
For example, it can be determined for each recognition target category using empirical knowledge about learning recognition dictionaries, or it can be determined that the recognition dictionary for each recognition target category is always trained using 10 or more input patterns. .

学習部8はこのような必要人カバターン数の情報に従っ
て、その認識辞書の学習に既に利用した入力パターン数
から、その学習に必要な残りの入力パターン数を前記表
示部5を介してディスプレイ表示している。この結果、
オペレータは呈示されたカテゴリのOII辞書の学習に
必要な入力パターン数を知ることが可能となる。
The learning section 8 displays the remaining number of input patterns required for learning from the number of input patterns already used for learning the recognition dictionary via the display section 5 according to the information on the number of necessary cover turns. ing. As a result,
The operator can know the number of input patterns required for learning the OII dictionary of the presented category.

この際、学習カテゴリ「アJを単音節として発声入力し
ただけでは、連続発声時における「ア」の発声パターン
変動を考慮した学習ができなくなる。つまり、音声にお
ける単音節はその前後の音節の影響を受けて比較的大き
な変動を示す。そこでこのような音節パターンの変動を
吸収するべく、上記単音節「ア」の前後に他の音節を付
加した単語を前記発声例メモリ9から得、これを音声パ
ターンの入力例として、その単語を前記表示部5を介し
て表示する。例えばrアjなる音声カテゴリのm識辞書
を学習する場合には、この「ア」を含む 「しあい」 「きあつ」「シあげ」・・・等の単語の発
声入力を促す。これらの単語の表示は、1つづつ選択的
に表示しても良いし、或いは複数の単語を表示し、カー
ソル等で順次指定するようにしても良い。また表示され
た複数の単語の中から、オペレータが自ら選択指定して
、その指定単語を発声入力するようにしても良い。
At this time, if the learning category "AJ" is simply inputted as a single syllable, learning that takes into account the variation in the utterance pattern of "A" during continuous utterances will not be possible. In other words, a single syllable in speech exhibits relatively large fluctuations due to the influence of the syllables before and after it. Therefore, in order to absorb such fluctuations in syllable patterns, a word in which other syllables are added before and after the single syllable "a" is obtained from the utterance example memory 9, and this word is used as an input example of a speech pattern. It is displayed via the display section 5. For example, when learning an m-knowledge dictionary for the phonetic category raj, the user is prompted to vocalize words such as ``shiai'', ``kiatsu'', ``shiage'', etc. that include this ``a''. These words may be displayed selectively one by one, or a plurality of words may be displayed and sequentially specified using a cursor or the like. Alternatively, the operator may select and specify the specified word by himself from among the plurality of displayed words and input the specified word aloud.

しかして装置側では、このような学習用の音声入力時に
は、その入力音声のパターン中から学習対象としている
カテゴリの入力パターンを抽出し、これを前記メモリ部
6に蓄積し、学習部8に与えている。この結果、その入
力パターンに従う前述した認識辞書の学習が実行される
ことになる。
However, when inputting speech for learning, the apparatus extracts the input pattern of the category to be learned from among the patterns of the input speech, stores it in the memory section 6, and provides it to the learning section 8. ing. As a result, the above-described learning of the recognition dictionary is executed according to the input pattern.

以上説明したように本装置によれば、認識辞書の効果的
な学習に必要な、入力パターンの数がオペレータに呈示
され、またその入力パターンを得るに効果的な発声例(
単語)がオペレータに指示されるので、オペレータはそ
の指示に従って音声を発声入力するだけで良い。また学
習部8では認識辞書の学習に必要な入力パターンだけを
効果的に得、これを用いてその学習処理を実行すること
になるので、不本意な入力パターンによって学習誤差の
発生を招くことがない。しかも学習効果の向上を図り得
る有効な入力パターンのみを効率よく、且つ必要個数収
集することができるので、その認識辞書の効果的な学習
を行い得る。
As explained above, according to the present device, the number of input patterns required for effective learning of the recognition dictionary is presented to the operator, and effective utterance examples (
Since the operator is instructed on the words (words), the operator only has to input the voice according to the instructions. Furthermore, since the learning section 8 effectively obtains only the input patterns necessary for learning the recognition dictionary and uses these to execute the learning process, it is possible to prevent the occurrence of learning errors due to undesired input patterns. do not have. Moreover, since only effective input patterns that can improve the learning effect can be efficiently collected in the required number, the recognition dictionary can be effectively trained.

従って認識辞書の無駄の少ない効率的な学習を行い、そ
の認識率の向上を図り得る等の実用上多大なる効果が奏
せられる。
Therefore, the recognition dictionary can be efficiently learned with less waste, and the recognition rate can be improved, which has great practical effects.

尚、本発明は上述した実施例に限定されるものではない
。例えば認識辞書の学習に必要な入力パターン数の判断
アルゴリズムは、i!識辞書の構成等に応じて定めれば
良いものである。また手書き文字!l!!識等のパター
ン認識装置における認識辞書の学習にも同様に適用可能
なことは勿論のことである。更には、学習に必要なパタ
ーン入力の呈示法も種々変形することができる。要する
に本発明はその要旨を逸脱しない範囲で種々変形して実
施することができる。
Note that the present invention is not limited to the embodiments described above. For example, the algorithm for determining the number of input patterns required for learning a recognition dictionary is i! It may be determined according to the structure of the dictionary. Another handwritten letter! l! ! It goes without saying that the present invention can be similarly applied to learning a recognition dictionary in a pattern recognition device such as a computer. Furthermore, the presentation method of pattern input necessary for learning can be modified in various ways. In short, the present invention can be implemented with various modifications without departing from the gist thereof.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例装置の概略構成図、第2図は
実施例装置における認識辞書の学習アルゴリズムを示す
図、第3図は実施例装置におけるパターン入力を促すメ
ツセージ出力の例を示す図である。 1・・・音声入力部、2・・・特徴抽出部、3・・・!
i!識部、4・・・辞書メモリ、5・・・表示部、6・
・・メモリ部、1・・・外部メモリ、8・・・学習部、
9・・・発声例メモリ。 出願人代理人 弁理士 鈴江武彦 113rl!J
Fig. 1 is a schematic diagram of a device according to an embodiment of the present invention, Fig. 2 is a diagram showing a learning algorithm of a recognition dictionary in the embodiment device, and Fig. 3 is an example of message output prompting pattern input in the embodiment device. FIG. 1...Audio input section, 2...Feature extraction section, 3...!
i! identification section, 4... dictionary memory, 5... display section, 6.
...Memory part, 1...External memory, 8...Learning part,
9... Utterance example memory. Applicant's agent Patent attorney Takehiko Suzue 113rl! J

Claims (4)

【特許請求の範囲】[Claims] (1)入力パターンと認識辞書とを照合して上記入力パ
ターンを認識処理する手段と、この認識結果に基いて上
記入力パターンを用いて特定カテゴリの認識辞書を学習
する手段と、この特定カテゴリの認識辞書の学習に用い
られた入力パターン数を管理して該特定カテゴリのパタ
ーンの入力を促す手段とを具備したことを特徴とするパ
ターン認識学習装置。
(1) means for performing recognition processing on the input pattern by comparing the input pattern with a recognition dictionary; means for learning a recognition dictionary for a specific category using the input pattern based on the recognition result; 1. A pattern recognition learning device comprising means for managing the number of input patterns used for learning a recognition dictionary and prompting input of a pattern of the specific category.
(2)特定カテゴリのパターンの入力を促す手段は、特
定カテゴリ名と、その特定カテゴリの認識辞書の学習に
必要なパターン数とをディスプレイ表示するものである
特許請求の範囲第1項記載のパターン認識学習装置。
(2) The pattern according to claim 1, wherein the means for prompting input of a pattern of a specific category is one that displays the specific category name and the number of patterns required for learning the recognition dictionary of the specific category. Recognition learning device.
(3)特定カテゴリのパターンの入力を促す手段は、該
特定カテゴリを含むデータ入力例をディスプレイ表示し
て行われるものである特許請求の範囲第1項記載のパタ
ーン認識学習装置。
(3) The pattern recognition learning device according to claim 1, wherein the means for prompting input of a pattern of a specific category is performed by displaying an example of data input including the specific category on a display.
(4)入力パターンと認識辞書との照合によるパターン
認識処理は、複合類似度法または部分空間法により行わ
れるものであって、特定カテゴリの認識辞書の学習処理
は、共分散行列の更新とKL展開法とを用い、その特性
核または上記共分散行列に対する入力パターンの寄与率
を変化させて行われるものである特許請求の範囲第1項
記載のパターン認識学習装置。
(4) The pattern recognition process by matching the input pattern with the recognition dictionary is performed by the composite similarity method or the subspace method, and the learning process of the recognition dictionary for a specific category involves updating the covariance matrix and KL 2. The pattern recognition learning device according to claim 1, wherein the pattern recognition learning device uses an expansion method and changes the contribution rate of the input pattern to the characteristic kernel or the covariance matrix.
JP60091401A 1985-04-27 1985-04-27 Pattern recognizing and learning device Pending JPS61249182A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60091401A JPS61249182A (en) 1985-04-27 1985-04-27 Pattern recognizing and learning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60091401A JPS61249182A (en) 1985-04-27 1985-04-27 Pattern recognizing and learning device

Publications (1)

Publication Number Publication Date
JPS61249182A true JPS61249182A (en) 1986-11-06

Family

ID=14025355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60091401A Pending JPS61249182A (en) 1985-04-27 1985-04-27 Pattern recognizing and learning device

Country Status (1)

Country Link
JP (1) JPS61249182A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63223693A (en) * 1987-03-12 1988-09-19 富士通株式会社 Phoneme pattern registration
JPS63289685A (en) * 1987-05-21 1988-11-28 Toshiba Corp Pattern recognizing device
JPH08248975A (en) * 1995-03-09 1996-09-27 Nec Corp Standard pattern learning device and speech recognizer using the same device
JP2000259170A (en) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> Method and device for registering user to voice recognition system
WO2023101000A1 (en) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 Voice registration device and voice registration method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734046B2 (en) * 1978-11-18 1982-07-21
JPS57204598A (en) * 1981-06-11 1982-12-15 Matsushita Electric Ind Co Ltd Voice recognizer
JPS5946699A (en) * 1982-09-09 1984-03-16 富士通株式会社 Word voice registration system
JPS6057898A (en) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 Voice registration system
JPS6073593A (en) * 1983-09-29 1985-04-25 富士通株式会社 Phoneme dictionary preparation system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734046B2 (en) * 1978-11-18 1982-07-21
JPS57204598A (en) * 1981-06-11 1982-12-15 Matsushita Electric Ind Co Ltd Voice recognizer
JPS5946699A (en) * 1982-09-09 1984-03-16 富士通株式会社 Word voice registration system
JPS6057898A (en) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 Voice registration system
JPS6073593A (en) * 1983-09-29 1985-04-25 富士通株式会社 Phoneme dictionary preparation system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63223693A (en) * 1987-03-12 1988-09-19 富士通株式会社 Phoneme pattern registration
JPS63289685A (en) * 1987-05-21 1988-11-28 Toshiba Corp Pattern recognizing device
JPH08248975A (en) * 1995-03-09 1996-09-27 Nec Corp Standard pattern learning device and speech recognizer using the same device
JP2000259170A (en) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> Method and device for registering user to voice recognition system
WO2023101000A1 (en) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 Voice registration device and voice registration method

Similar Documents

Publication Publication Date Title
Deb et al. Emotion classification using segmentation of vowel-like and non-vowel-like regions
US11049495B2 (en) Method and device for automatically learning relevance of words in a speech recognition system
US6208971B1 (en) Method and apparatus for command recognition using data-driven semantic inference
Nazir et al. Mispronunciation detection using deep convolutional neural network features and transfer learning-based model for Arabic phonemes
CN110223714A (en) A kind of voice-based Emotion identification method
US11935523B2 (en) Detection of correctness of pronunciation
US8219386B2 (en) Arabic poetry meter identification system and method
JP2002156993A (en) Specifying method for characteristic space representing multiple learning speakers
Chuctaya et al. Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN
JP2955297B2 (en) Speech recognition system
Maqsood et al. A comparative study of classifier based mispronunciation detection system for confusing
JPS61249182A (en) Pattern recognizing and learning device
CN112542173A (en) Voice interaction method, device, equipment and medium
Kocsor et al. A nonlinearized discriminant analysis and its application to speech impediment therapy
Zhang et al. Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR
Renkens Weakly supervised learning of hidden Markov models for spoken language acquisition
CN115132170A (en) Language classification method and device and computer readable storage medium
Welch Automatic Speech Recognition? Putting It to Work in Industry
Batzorig et al. Speech recognition in Mongolian language using a neural network with pre-processing technique
CN113658609B (en) Method and device for determining keyword matching information, electronic equipment and medium
Nazir et al. An Arabic mispronunciation detection system based on the frequency of mistakes for Asian speakers
KR100404852B1 (en) Speech recognition apparatus having language model adaptive function and method for controlling the same
Paczolay et al. Real-time vocal tract length normalization in a phonological awareness teaching system
Al-Irahyim et al. Speaker Dependent Speech Recognition in Computer Game Control
Payande et al. Designing an intelligent translation software by audio processing techniques