JPS6130280B2 - - Google Patents

Info

Publication number
JPS6130280B2
JPS6130280B2 JP54142772A JP14277279A JPS6130280B2 JP S6130280 B2 JPS6130280 B2 JP S6130280B2 JP 54142772 A JP54142772 A JP 54142772A JP 14277279 A JP14277279 A JP 14277279A JP S6130280 B2 JPS6130280 B2 JP S6130280B2
Authority
JP
Japan
Prior art keywords
registered
registered feature
feature
dissimilarity
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54142772A
Other languages
Japanese (ja)
Other versions
JPS5666900A (en
Inventor
Isamu Nose
Yorio Iio
Juhei Izawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP14277279A priority Critical patent/JPS5666900A/en
Publication of JPS5666900A publication Critical patent/JPS5666900A/en
Publication of JPS6130280B2 publication Critical patent/JPS6130280B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は特定話者の音声認識方法に関するもの
である。音声識別装置として現在製品化が一番進
んでいるのは特定話者の単語音声認識装置といわ
れているものである。これはあらかじめ話者が認
識対象の全単語を各々1回から10回程度発声する
ことにより認識装置内にその話者の単語に関する
特徴を記憶させ、しかるのち認識が行われる。こ
れは音声パターンの個人差による変動(主として
周波数構造に関連する)が認識を困難にしている
大きな要因の一つであるが、これをかい避できる
ためである。この明細書では、話者があらかじめ
発声しておく単語を登録語、登録語における特徴
の個々の要素を登録特徴要素、各登録語に関する
登録特徴要素の集合を登録特徴セツトといい、こ
られに対して新らたに発声した認識すべき対象と
しての単語に関するものを、夫々被認識語、被認
識特徴要素及び被認識特徴セツトという。次に、
この特定話者の認識装置の一例を第1図に示す。 第1図において、1はマイクロフオン、2はプ
リアンプ、3は帯域フイルタ群、4は整流兼ロー
パスフイルタ群、5はマルチプレクサ、6はAD
変換器、7は制御部、8はマルチプレクサの切換
え信号線、9はAD変換器への制御線、10及び
11は制御部7と計算機12との間の応答信号
線、12はマイクロコンピユータ及びその周辺
部、13は識別結果出力線の如く構成されてい
る。その動作はまずマイクロフオン1で電気信号
に変換された音声信号はプリアンプ2で増幅さ
れ、帯域フイルタ群3によりスペクトルに分解さ
れる。一般的には、この帯域フイルタ群3の構成
は音声帯域150Hz位から5kHz位迄を3〜15分割す
るようなフイルタ構成である。帯域フイルタ群3
の出力は整流兼ローパスフイルタ群4を通して時
間的に平均化されマルチプレクサ5の入力信号と
なる。切換信号線8で選択されたマルチプレクサ
5の出力信号は制御線9で起動された周期でAD
変換器6によりアナログ信号からデイジタル信号
に変換され応答信号線10,11で制御されて計
算機12に転送される。この転送周期は音声デー
タのサンプリング周期となり制御部7でAD変換
のタイミングを制御している。一般的には、帯域
フイルタ群3の全出力を数msから数十msの周
期でサンプリングしているものが多い。 音声認識装置では殆んどの装置がAD変換器迄
をハードウエア化してこれ以降の処理はミニコン
ピユータあるいはマイクロコンピユータで実行し
ている。これはデータの入力速度が比較的遅いた
め、計算機処理に不向きな所(アナログ信号処理
部)以外は専用のハードウエアを用いないでも処
理が可能であり、その方が小型化、低価格化等を
実現しやすいからである。 第2図は計算機処理部の基本構成を示すフロー
チヤートである。14は音声データ入力処理、1
5は音声切出し処理、16は特徴抽出処理、17
は訓練データか被認識データかの判断処理、18
は登録処理、19は識別処理、20は結果出力処
理の如く構成されており以下動作について説明す
る。音声データ入力処理14は音声データを計算
機内部の記憶部にとり入れる作業を行うもので、
音声データの入力指令が何らかの形で与えられる
と制御部7と同期をはかり、AD変換器6の出力
データ(以下サンプルデータと称す)をメモリに
格納する。一般的には単語認識装置では約1.5秒
間の発声音をとり入れている。サンプルデータは
発声音の前後の余分なデータも含んでいるので次
に発声区間を検出するのが音声切出し処理15で
ある。この処理としては話者が高雑音下の環境に
いない限りは、発声前後のサンプルデータ値は発
声時に比較して小さい値を示すのである闘値を設
けて比較するのが簡単な方法である。 検出された音声区間のサンプルデータはこのま
まではデータ量が多く記憶容量の大きい装置が必
要となる。例えば発声時間を1.5秒、サンプル周
期を10ms、AD変換8ビツトとすると1語につ
き150バイト×チヤネル数のメモリが識別対象語
数だけあらかじめ格納するのに必要となるので、
サンプルデータを何らかの形に変形してデータ数
を少くして保存するのが多い。この作業を行うの
が特徴抽出処理16である。特徴抽出として簡単
な方法はサンプルデータの線形圧縮方法である。
この方法では、切出された音声区間を等分割(普
通は16〜32分割が多い)して、各分割区間毎に各
チヤネルデータに対し平均値を求め、この平均値
を特徴として用いる。但し声の大きさが同一話者
であつても変化するので、各サンプルデータ毎に
あるいは特徴レベルにおいてフイルタ出力加算値
等のデータで大きさの正規化を行う方が良い。 こうして得られる特徴を全ての識別対象である
登録語に対して求め、認識装置内(本例では計算
機メモリ内)に格納するのが特徴登録処理18で
ある。登録が完了すると識別処理19が実行され
るよう判断処理17を実行する。識別処理19は
要するに、同一話者の発声に基づいて予め保存さ
せておいた各登録語の登録特徴セツトと新らたに
発声した被認識語の被認識特徴セツトとの非類似
度を一定の法則に従つて測定するものであり、結
果出力処理20において最小非類似度の登録語
(コード等)を外部に出力し、又最小非類似度が
一定の条件を満足しない場合はリジエクト出力を
出力する。なお、識別処理を類似度測定で定義す
るものもあるが、本質的には全く同一である。以
下式により識別処理19における計算例を説明す
る。保存されている登録語数をN個とする。登録
特徴要素をfi(l、m)、被認識特徴要素をg
(l、m)とする。但し添字iは登録語に付され
た番号で、この場合は1からN迄の値である。l
は各フイルム出力に対応する番号で1からフイル
タ数L迄の値をとる。mは時間分割領域毎に付し
た番号で1から分割数M迄の値をとる。 非類似度として失点を考え、保存されているあ
る登録語の登録特徴セツトFiと新たに発声した
被認識語、被認識特徴セツトGとの失点総和をS
iとすると、
The present invention relates to a method for recognizing the speech of a specific speaker. The type of voice identification device that is currently being commercialized the most is what is called a word voice recognition device for a specific speaker. This is done by having the speaker utter all the words to be recognized one to 10 times in advance, so that the characteristics of the speaker's words are stored in the recognition device, and then recognition is performed. This is because variation due to individual differences in voice patterns (mainly related to frequency structure) is one of the major factors that makes recognition difficult, but this can be avoided. In this specification, words uttered in advance by a speaker are referred to as registered words, individual features of the registered words are referred to as registered feature elements, and a set of registered feature elements related to each registered word is referred to as a registered feature set. The newly uttered word to be recognized is called a recognized word, a recognized feature element, and a recognized feature set, respectively. next,
An example of this specific speaker recognition device is shown in FIG. In Figure 1, 1 is a microphone, 2 is a preamplifier, 3 is a band filter group, 4 is a rectifier/low-pass filter group, 5 is a multiplexer, and 6 is an AD
Converter, 7 is a control unit, 8 is a multiplexer switching signal line, 9 is a control line to the AD converter, 10 and 11 are response signal lines between the control unit 7 and the computer 12, 12 is a microcomputer and its The peripheral portion 13 is configured like an identification result output line. The operation is as follows: First, an audio signal is converted into an electric signal by a microphone 1, amplified by a preamplifier 2, and decomposed into spectra by a group of band filters 3. Generally, the configuration of the band filter group 3 is such that the audio band from about 150 Hz to about 5 kHz is divided into 3 to 15 parts. Bandwidth filter group 3
The output is temporally averaged through a rectifier/low-pass filter group 4 and becomes an input signal to a multiplexer 5. The output signal of the multiplexer 5 selected by the switching signal line 8 is AD at the cycle activated by the control line 9.
The converter 6 converts the analog signal into a digital signal, which is controlled by response signal lines 10 and 11 and transferred to the computer 12. This transfer cycle becomes the sampling cycle of the audio data, and the control unit 7 controls the timing of AD conversion. Generally, the entire output of the band filter group 3 is often sampled at a period of several ms to several tens of ms. Most voice recognition devices use hardware up to the AD converter, and the subsequent processing is executed by a minicomputer or microcomputer. This is because the data input speed is relatively slow, so it is possible to process without using dedicated hardware except for areas unsuitable for computer processing (analog signal processing section), which makes it more compact and cheaper. This is because it is easy to realize. FIG. 2 is a flowchart showing the basic configuration of the computer processing section. 14 is audio data input processing, 1
5 is audio extraction processing, 16 is feature extraction processing, 17
is training data or recognition data, 18
19 is a registration process, 19 is an identification process, and 20 is a result output process, and the operations will be explained below. The audio data input process 14 is a process of importing audio data into the internal memory of the computer.
When an input command for audio data is given in some form, it synchronizes with the control section 7 and stores the output data (hereinafter referred to as sample data) of the AD converter 6 in the memory. Generally, word recognition devices use approximately 1.5 seconds of vocalizations. Since the sample data also includes extra data before and after the utterance, the next step is to detect the utterance section in the voice cutting process 15. As long as the speaker is not in a noisy environment, a simple method for this process is to set and compare a threshold value in which sample data values before and after utterance are smaller than those at the time of utterance. The sample data of the detected voice section has a large amount of data, and a device with a large storage capacity is required. For example, if the utterance time is 1.5 seconds, the sampling period is 10 ms, and AD conversion is 8 bits, a memory of 150 bytes x number of channels is required for each word to store the number of words to be identified in advance.
Sample data is often transformed into some form to reduce the amount of data and then saved. The feature extraction process 16 performs this work. A simple method for feature extraction is a linear compression method of sample data.
In this method, the extracted audio section is divided into equal parts (usually 16 to 32 parts), an average value is determined for each channel data for each divided section, and this average value is used as a feature. However, since the loudness of the voice changes even for the same speaker, it is better to normalize the loudness using data such as a filter output added value for each sample data or at the feature level. In the feature registration process 18, the features obtained in this way are obtained for all registered words to be identified and stored in the recognition device (in the computer memory in this example). When the registration is completed, the determination process 17 is executed so that the identification process 19 is executed. In short, the identification process 19 calculates the degree of dissimilarity between the registered feature set of each registered word stored in advance based on the utterances of the same speaker and the recognized feature set of the newly uttered recognized word. It is measured according to the law, and in the result output processing 20, the registered word (code, etc.) with the minimum dissimilarity is output to the outside, and if the minimum dissimilarity does not satisfy a certain condition, a reject output is output. do. Note that although some methods define the identification process by measuring similarity, they are essentially the same. An example of calculation in the identification process 19 will be explained using the following formula. Let the number of saved registered words be N. The registered feature element is f i (l, m), and the recognized feature element is g
Let it be (l, m). However, the subscript i is a number attached to the registered word, and in this case is a value from 1 to N. l
is a number corresponding to each film output and takes a value from 1 to the number of filters L. m is a number assigned to each time division area and takes a value from 1 to the number of divisions M. Considering points lost as the degree of dissimilarity, the sum of points lost between the registered feature set F i of a certain registered word stored and the newly uttered recognized word and recognized feature set G is calculated as S.
If i is

【式】である。 識別結果はMIN(S1,S2,……SN)となる登
録語である。但しMIN(S1,S2,……SN)は
S1,S2,……,SNの内、失点総和の最小の物を
選択することを意味する。こういつた方法は簡単
であるが、対象語句の中で似かよつている発声音
(例えば「ナカノ」と「ナガノ」等)があると失
点差が少なくなり、判別が困難になるという欠点
があつた。これは全く同じ発声(音声の強さ、発
声速度、アクセント、明僚度等)を行うことは人
間にとつて極めて困難で、同じ言葉を2度発声し
てその差(失点)を調べてみると、似かよつた言
葉を発声した場合の差(失点)と同じ位いの失点
量になるためである。 本発明の目的はこられの欠点を解決するため、
登録特徴要素に重み付けを行い似かよつた特徴を
もつ単語でもはつきり区別ができるようにしたも
ので以下詳細に説明する。 本発明においては、各特徴要素対毎に個別に記
憶させるか又は一群の特徴要素対毎に代表的に記
憶させるかは別にして、全ての登録特徴セツト対
における対応した全ての登録特徴要素対の重み係
数を別個に検出記憶させる。この重み係数は、類
似する登録語対において非類似度が大きい登録特
徴要素対の重み係数が、残部の登録特徴要素対の
重み係数よりも大きくなしている。 本発明は、登録特徴セツトを使つて認識できな
かつた場合に、更に重み係数を導入して再認識を
実行させるものである。 第3図は本発明の第1の実施例のフローチヤー
トである。計算機処理の第1段階の部分について
説明する。 21は訓練データの処理か、重み計算か、認識
データの処理かの判断処理、22,27は音声デ
ータ入力処理、23,28は音声切出し処理、2
4,29は特徴抽出処理、25は特徴登録処理、
26は重み計算処理、30は識別処理、31は結
果出力処理の如く構成されており、以下動作につ
いて説明する。判断処理21は装置の仕様によ
り、いろいろな方法が可能であるが、簡単のため
オペレータが装置に付属する鍵盤等で1回毎にあ
るいは判断の変り目を指示する方法による。訓練
データの処理(前もつて話者の登録特徴を格納す
る処理)における22〜25の処理及び識別デー
タの処理(実際認識を行う処理)における27〜
29及び31の処理は、従来の方法で説明した例
と基本的に同一処理であるので説明は省略する。
訓練データの処理が登録語について全て終了する
と、判断21は重み計算処理26を行うよう動作
する。以下重み計算処理26について説明する。
従来の方法で説明したように、任意の2つの登録
特徴要素をfi(l、m),fj(l、m)とし
て、その登録特徴セツトをFi、Fjとし、任意の
登録語対の登録特徴セツト対の差Dij及び個別の
登録特徴要素の差dij(l、m)を次のように定
義する。 dij(l、m)=|fi(l、m) −fj(l、m)|但しi≠j ……(1) 重み係数は任意の登録特徴セツトFi(i=
1、2、……、N)に対し、他の全ての登録特徴
セツトFj(j=1、2、……、N但しi≠jで
Nは登録語数)との間でDijを計算する。 (1) DijK1の場合。(但しK1はあらかじめ定め
た定数) FiとFjは特徴として差が十分あり、識別時
の失点差は大きいと考えられるので、FiとFj
との間の重み係数、すなわち対応した登録特徴
要求対fi(l、m),fj(l、m)の全ての
重み係数wij(l、m)を「1」とする。 (2) Dij<K1の場合。 dij(l、m)K2(但しK2はあらかじめ
定めた定数)を満足するfi(l、m)とfj
(l、m)に対し、wij(l、m)=K3とする。
但しK3はあらかじめ定めた重み係数の定数値
であり、K3>1である。又、dij(l、m)<
K2に対してはwij(l、m)=1とする。従つ
て重み係数wij(l、m)は上述の条件に従が
い「1」あるいはK3の値をとる。 以上の計算を全ての登録特徴同志に対して行い
その重み係数wijを格納する。重み係数のメモリ
上の格納状態を第4図及び第5図に示す。 第4図は、登録特徴セツトFiとFjとにおける
重み係数の集合を大文字Wijで各々の関係がわか
りやすいように示してあり斜線のます目は実際は
格納メモリとして存在していない部分である。第
5図は1つのWijを構成する重み係数wij(l、
m)(lはチヤネル番号、mは分割領域番号)の
実際のメモリ上の格納状態を示している。 このようにして重み計算処理26の動作が終了
すると識別データ処理に移される。識別データ処
理では識別処理30についてのみ説明する。 従来の例では失点総和Si
[Formula]. The identification result is a registered word that is MIN (S 1 , S 2 , . . . SN ). However, MIN(S 1 , S 2 ,...S N ) is
This means selecting the one with the smallest total number of points conceded from among S 1 , S 2 , ..., SN . Although this method is simple, it has the disadvantage that if there are similar pronunciations in the target word (for example, ``nakano'' and ``nagano''), the difference in points will be small and it will be difficult to distinguish. Ta. It is extremely difficult for humans to produce exactly the same vocalizations (voice strength, speaking speed, accent, clarity, etc.), so try saying the same word twice and find out the difference (points lost). This is because the amount of points lost is the same as the difference (points lost) when similar words are uttered. The purpose of the present invention is to overcome these drawbacks.
The registered feature elements are weighted so that even words with similar features can be easily distinguished, and will be explained in detail below. In the present invention, all corresponding registered feature element pairs in all registered feature set pairs, regardless of whether they are stored individually for each feature element pair or representatively for each group of feature element pairs. The weighting coefficients of are separately detected and stored. The weighting coefficients are set so that among similar registered word pairs, the weighting coefficient of a registered feature element pair having a large degree of dissimilarity is larger than the weighting coefficient of the remaining registered feature element pairs. In the present invention, when recognition is not possible using the registered feature set, a weighting coefficient is further introduced to perform re-recognition. FIG. 3 is a flowchart of the first embodiment of the present invention. The first stage of computer processing will be explained. 21 is a process for determining whether to process training data, weight calculation, or recognition data; 22 and 27 are audio data input processes; 23 and 28 are audio extraction processes; 2
4, 29 is a feature extraction process, 25 is a feature registration process,
26 is a weight calculation process, 30 is an identification process, and 31 is a result output process, and the operations thereof will be explained below. The judgment process 21 can be carried out in various ways depending on the specifications of the apparatus, but for simplicity, the operator uses a keyboard attached to the apparatus to instruct the process every time or when the judgment changes. Processes 22 to 25 in training data processing (processing to store previously registered characteristics of speakers) and 27 to 25 in identification data processing (processing to perform actual recognition)
Processes 29 and 31 are basically the same processes as those described in the conventional method, so their explanation will be omitted.
When the processing of the training data is completed for all registered words, the decision 21 operates to perform the weight calculation process 26. The weight calculation process 26 will be explained below.
As explained in the conventional method, let any two registered feature elements be f i (l, m), f j (l, m), let their registered feature sets be F i , F j , and write any registered word The difference D ij between a pair of registered feature sets and the difference d ij (l, m) between individual registered feature elements are defined as follows. d ij (l, m) = | f i (l, m) − f j (l, m) | where i≠j ……(1) The weighting coefficient is an arbitrary registered feature set F i (i=
1, 2, ..., N) and all other registered feature sets F j (j = 1, 2, ..., N, where i≠j and N is the number of registered words). do. (1) For D ij K1. (However, K1 is a predetermined constant) F i and F j have sufficient differences in their characteristics, and the difference in points lost during identification is considered to be large, so F i and F j
The weighting coefficients w ij (l, m) of the corresponding registered feature request pairs f i (l, m), f j (l, m) are set to "1". (2) When D ij <K1. f i (l, m) and f j that satisfy d ij (l, m)K2 (where K2 is a predetermined constant)
For (l, m), let w ij (l, m)=K3.
However, K3 is a constant value of a predetermined weighting coefficient, and K3>1. Also, d ij (l, m)<
For K2, w ij (l, m)=1. Therefore, the weighting coefficient w ij (l, m) takes the value of "1" or K3 according to the above-mentioned conditions. The above calculations are performed for all registered features and the weighting coefficients w ij are stored. The storage state of the weighting coefficients on the memory is shown in FIGS. 4 and 5. In Figure 4, the sets of weighting coefficients in the registered feature sets F i and F j are shown in capital letters W ij to make it easier to understand the relationship between them, and the diagonally shaded squares are portions that do not actually exist as storage memory. . FIG. 5 shows weighting coefficients w ij ( l ,
m) (l is the channel number, m is the divided area number) is shown in the actual storage state on the memory. When the operation of the weight calculation process 26 is completed in this manner, the process proceeds to identification data processing. In the identification data processing, only the identification processing 30 will be explained. In the conventional example, the total number of points conceded S i is

【式】で定義した が本発明ではまず同様に従来の方法で失点総和S
iを計算する。そして一番失点の少いSiをSa、次
に失点の少いものもSbとしてSb−SaK4(但
しK4はあらかじめ定められた定数)を満足する
時はSaに対応する登録語aを識別結果として出
力するが、Sb−Sa<K4の場合には登録語a,
bが類似していることを意味するので、登録語a
とbに対して再び次の失点総和SWa,SWbの計算
を行う。 但し重み係数wab(l、m)は前述の条件に従
つて「1」あるいはK3の値をとる。 再び|SWa−SWb|K4(但しK4はあらかじ
め定められた定数)を満足すればMin(SWa
SWb)となる登録語a又はbを識別結果とする。
又、満足しなければリジエクト(識別不能)とす
る。その他、識別エラーを少くする目的で最小失
点(最小非類似度)Saが大きすぎる場合又は
Min(SWa,SWb)が大きすぎる場合はリジエク
トする方がよい。ここで1つの例を用いて更に詳
しく説明する。この例では話を簡単にするためフ
イルタ数L=1、分割数M=4とし、被認識語の
被認識特徴セツトGに対する識別候補a,bの登
録特徴セツトをFa,Fbとし、G,Fa,Fbは次の
値をとるものとする。 G=(8、16、5、28) Fa=(8、15、4、32) Fb=(8、18、7、25) またK1=15、K2=5、K3=5、K4=3とする
と、 Dab=|(8−8)|+|(15−18)| +|(4−7)|+|(32−25)|=13 となり、Dab<K1となる。 上記各登録特徴セツトFaとFbとにおける重み
係数の集合Wabは、個別の登録特徴要素の差dab
(l、m)K2(=5)を満足する各登録特徴要
素に対する重み係数wab(l、m)=K3(=5)
とし、それ以外の各登録特徴要素に対する重み係
数wab(l、m)=1とすると、Wab=(1、1、
1、5)となる。 ここで、被認識特徴セツトGと、各登録特徴セ
ツトFa,Fbとの失点総和Sa,Sbはそれぞれ、 Sa=|(8−8)|+|(15−16)| +|(4−5)|+|(32−28)|=6、 Sb=|(8−8)|+|(18−16)| +|(7−5)|+|(25−28)|=7 であり、失点総和Sa,Sbからは登録語aが識別
結果の第1候補となる。しかしながらSb−Sa=
1<K4(=3)であるため、再び重み係数Wab
を乗じた失点総和SWa,SWbを算出する。この
結果、 SWa=(0×1)+(1×1)+(1×1) +(4×5)=22 SWb=(0×1)+(2×1)+(2×1) +(3×5)=19 となり、|SWa−SWb|=3K4(=3)であ
るため、登録語bが最終的な認識結果となる。 以上出力する登録語の候補が2つの場合に対し
説明したが、候補が2つ以上あつても同様に2つ
づつの組合わせで考えることによつて対処でき
る。例えば、Sa,Sb,Scが同じような失点を
示した場合、登録語対(a、b),(a、c),
(b、c)に対して前述と同様の失点を計算し、
各登録語a,b,cに関する平均の失点SWa
SWb,SWcを取り、Min(SWa,SWb,SWc)を
求めればよい。又、重み係数が全て同じ値をもつ
語句同志の場合は、代表させて1つの重み係数の
みを格納するようにして(例えば重み係数を格納
してあるメモリを直接参照するのではなく、2つ
の語句に付された番号から一度テーブルをひき、
そのテーブルには重み係数の格納先頭アドレス又
は代表する重み係数が記されるようになつてい
て、どちらが記されているか明示するようにする
ことにより重み係数を格納するメモリー容量を減
少できる。 以上説明したように、第1の実施例では各登録
語の登録特徴セツト同志の差を計算して似かよつ
た登録語の登録特徴要素に対してはその特徴要素
の中で違いがはつきりしている部分の特徴要素に
大きな重み付けを行うため、重みづけが一様にな
されていた従来の方法では区別が困難とされる似
かよつた被認識語も区別できるため、被認識語を
制限しなくてよいと共に特徴の異なつている点に
着目することにより認識率を高める利点がある。
第1の実施例では全ての登録特徴要素相互間に異
なつた重み係数を与えることができるようになつ
ているが、重み係数を格納するメモリー容量を少
くする意味から、時間分割領域毎に重み係数を1
つ用意して、その分割領域に属する全てのチヤネ
ルフイルタデータ(特徴)は同一の重み係数とし
ても、効果は十分得られる。この場合は、第1の
実施例において(1)、(2)式に対応するのは、 である。そして、重み係数の表現は第1の実施例
がwij(l、m)=K3に対しwij(l)=K3とな
る。又分割領域ではなく周波数領域毎に重み係数
を割り当ててもよいがこの場合は多少効果が減少
する。 本発明はあらかじめ話者が発声した識別対象語
の特徴登録が全て終了した時点で自動的に対象語
の相互間の特徴の差を計算して重みづけを行うの
で似かよつた語句も正確に区別でき、音声認識装
置に利用することができる。
Although defined by [Formula], in the present invention, first, the total number of points conceded S is calculated using the conventional method.
Calculate i . Then, S i with the fewest points conceded is S a , and the one with the next fewest goals conceded is also S b , and when it satisfies S b - S a K4 (where K4 is a predetermined constant), it corresponds to S a Registered word a is output as the identification result, but if S b −S a <K4, registered word a,
Since b means similar, registered word a
The next total of points conceded SW a and SW b are calculated again for and b. However, the weighting coefficient wab (l, m) takes the value of "1" or K3 according to the above-mentioned conditions. Again, if |SW a −SW b |K4 (where K4 is a predetermined constant) is satisfied, then Min(SW a ,
The registered word a or b that is SW b ) is the identification result.
Also, if it is not satisfied, it will be rejected (unidentifiable). In addition, when the minimum loss (minimum dissimilarity) S a is too large for the purpose of reducing identification errors, or
If Min (SW a , SW b ) is too large, it is better to reject. Here, a more detailed explanation will be given using one example. In this example, in order to simplify the discussion, the number of filters L = 1, the number of divisions M = 4, the registered feature sets of identification candidates a and b with respect to the recognized feature set G of the recognized word are Fa, Fb, G, Fa , Fb shall take the following values. G = (8, 16, 5, 28) Fa = (8, 15, 4, 32) Fb = (8, 18, 7, 25) Also, K 1 = 15, K 2 = 5, K 3 = 5, K When 4 =3, Dab=|(8-8)|+|(15-18)|+|(4-7)|+|(32-25)|=13, and Dab<K 1 . The set Wab of weighting coefficients in each registered feature set Fa and Fb is the difference dab between the individual registered feature elements.
Weighting coefficient wab (l, m) for each registered feature element that satisfies (l, m) K2 (=5) = K3 (=5)
and the weighting coefficient wab (l, m) for each other registered feature element = 1, then Wab = (1, 1,
1, 5). Here, the sum totals Sa and Sb of the recognized feature set G and each registered feature set Fa and Fb are Sa=|(8-8)|+|(15-16)|+|(4-5) ) | + | (32-28) | = 6, Sb = | (8-8) | + | (18-16) | + | (7-5) | + | (25-28) | = 7. , the total points lost Sa, Sb, the registered word a becomes the first candidate for the identification result. However, Sb−Sa=
Since 1<K 4 (=3), the weighting coefficient Wab
Calculate the total points conceded SWa and SWb by multiplying by As a result, SWa=(0×1)+(1×1)+(1×1)+(4×5)=22 SWb=(0×1)+(2×1)+(2×1)+ (3×5)=19, and |SWa−SWb|=3K4 (=3), so registered word b becomes the final recognition result. The case where there are two registered word candidates to be output has been described above, but even if there are two or more candidates, it can be dealt with by considering the combinations of two at a time. For example, if S a , S b , and S c show similar points, the registered word pairs (a, b), (a, c),
Calculate the points conceded for (b, c) in the same way as above,
Average points lost SW a for each registered word a, b, c,
Just take SW b and SW c and find Min (SW a , SW b , SW c ). Also, if the weighting coefficients are all words that have the same value, store only one representative weighting coefficient (for example, instead of directly referring to the memory that stores the weighting coefficients, store two weighting coefficients). Once the table is drawn from the numbers attached to the words,
The table records the storage start address of the weighting coefficients or the representative weighting coefficients, and by clearly indicating which one is recorded, the memory capacity for storing the weighting coefficients can be reduced. As explained above, in the first embodiment, the difference between the registered feature sets of each registered word is calculated, and the differences among the registered feature elements of similar registered words are determined. Since the feature elements of the part that are recognized are heavily weighted, it is possible to distinguish between similar recognized words that would be difficult to distinguish using conventional methods in which weighting is uniformly applied. There is an advantage that the recognition rate can be increased by focusing on the points where the features are different.
In the first embodiment, different weighting coefficients can be given to all the registered feature elements, but in order to reduce the memory capacity for storing the weighting coefficients, the weighting coefficients are set for each time-divided area. 1
Even if one is prepared and all channel filter data (features) belonging to the divided area have the same weighting coefficient, sufficient effects can be obtained. In this case, the equations (1) and (2) in the first embodiment correspond to It is. The expression of the weighting coefficient is w ij (l)=K3, whereas w ij (l, m)=K3 in the first embodiment. Also, weighting coefficients may be assigned to each frequency domain instead of each divided domain, but in this case the effect is somewhat reduced. The present invention automatically calculates and weights the differences in features between target words when all the features of the target words uttered by the speaker are completed, so even similar words can be accurately distinguished. It can be used in speech recognition devices.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は音声認識装置例の構成図、第2図は従
来の音声認識装置の計算機処理部のフローチヤー
ト、第3図は本発明の一実施例の計算機処理部の
フローチヤート、第4図1は重み係数をメモリー
に格納した概説図、第5図はその1ブロツクを示
した詳細図である。 1……マイクロフオン、2……プリアンプ、3
……帯域フイルタ群、4……ローパスフイルタ
群、5……マルチプレクサ、6……AD変換器、
7……制御部、8……マルチプレクサ切換え信号
線、9……AD変換器の制御線、10,11……
制御部7と計算機12とのインターフエース信号
線、12……小型計算機又はマイクロコンピユー
タとその周辺部、13……識別結果出力線、14
……音声データ入力処理、15……音声切出し処
理、16……特徴抽出処理、17……訓練か識別
かの判断、18……特徴登録処理、19……識別
処理、20……結果出力処理、21……訓練か重
み計算か、識別かの判断、22,27……音声デ
ータ入力処理、23,28……音声切出し処理、
24,29……特徴抽出処理、25……特徴登録
処理、26……重み計算処理、30……識別処
理、31……結果出力処理、Dij……登録特徴セ
ツト対の差、dij(l、m)……登録特徴要素対
の差、Fi,Fj……登録特徴セツト、fi(l、
m),fj(l、m)……登録特徴要素、g(l、
m)……被認識特徴要素、Wij……登録特徴セ
ツト対における重み係数の集合、wij(l、m)
……登録特徴要素対の重み係数、Si,SWa
SWb……失点総和。
FIG. 1 is a block diagram of an example of a speech recognition device, FIG. 2 is a flowchart of a computer processing section of a conventional speech recognition device, FIG. 3 is a flowchart of a computer processing section of an embodiment of the present invention, and FIG. 4 1 is a schematic diagram showing the weighting coefficients stored in memory, and FIG. 5 is a detailed diagram showing one block thereof. 1...Microphone, 2...Preamplifier, 3
...Band filter group, 4...Low pass filter group, 5...Multiplexer, 6...AD converter,
7... Control unit, 8... Multiplexer switching signal line, 9... AD converter control line, 10, 11...
Interface signal line between control unit 7 and computer 12, 12...Small computer or microcomputer and its peripheral parts, 13...Identification result output line, 14
...Audio data input processing, 15...Audio extraction processing, 16...Feature extraction processing, 17...Judgment of training or identification, 18...Feature registration processing, 19...Identification processing, 20...Result output processing , 21... Judgment of training, weight calculation, or identification, 22, 27... Audio data input processing, 23, 28... Audio extraction processing,
24, 29...Feature extraction processing, 25...Feature registration processing, 26...Weight calculation processing, 30...Identification processing, 31...Result output processing, D ij ...Difference between registered feature set pairs, d ij ( l, m)... Difference between registered feature element pair, F i , F j ... Registered feature set, f i (l,
m), f j (l, m)...registered feature element, g(l,
m)...Recognized feature element, W i , j ... Set of weighting coefficients in the registered feature set pair, w ij (l, m)
...Weighting coefficients of registered feature element pairs, S i , SW a ,
SW b ...Total points conceded.

Claims (1)

【特許請求の範囲】[Claims] 1 同一話者の発声に基づく各登録語の登録特徴
要素からなる登録特徴セツトと被認識語の被認識
特徴要素からなる被認識特徴セツトとの非類似度
を一定の法則に従つて測定して、最小非類似度の
登録特徴セツトに対応した登録語を出力する音声
認識方法において、登録特徴セツト対における対
応した各登録特徴要素対の非類似度を一定の法則
に従つて測定し且つ登録特徴セツト対の非類似度
を一定の法則に従つて測定して、登録特徴セツト
の全ての組合せについて対応した各登録特徴要素
対の重み係数を記憶するものであつて、登録特徴
セツト対間の非類似度が第1の一定の値よりも小
さく且つ登録特徴要素対間の非類似度が第2の一
定の値よりも大きい登録特徴要素対の重み係数を
残部の登録特徴要素対の重み係数よりも大きく設
定する重み係数設定記憶手段を備え、各登録特徴
セツトと被認識特徴セツトとの最小非類似度が一
定の条件を満足しない場合に非類似度の小さい少
数複数個の登録語を検出する段階と、検出された
当該登録語を対象とし且つ前記登録特徴要素に前
記重み係数を乗じて得られたものを新らたなる登
録特徴要素とした各登録特徴セツトと前記被認識
特徴要素に前記重み係数を乗じて得られたものを
新たなる被認識特徴要素とした被認識特徴セツト
との非類似度を測定して、一定の条件を満足する
非類似度に対応した登録語を出力する段階とを有
することを特徴とした音声認識方法。
1 The degree of dissimilarity between the registered feature set consisting of the registered feature elements of each registered word based on the utterances of the same speaker and the recognized feature set consisting of the recognized feature elements of the recognized word is measured according to a certain rule. In a speech recognition method that outputs a registered word corresponding to a registered feature set with a minimum dissimilarity, the degree of dissimilarity of each corresponding registered feature element pair in a registered feature set pair is measured according to a certain rule, and the registered feature is The dissimilarity between pairs of registered feature sets is measured according to a certain rule, and the weighting coefficient of each corresponding pair of registered feature elements is stored for all combinations of registered feature sets. The weighting coefficient of the registered feature element pair whose degree of similarity is smaller than the first certain value and whose degree of dissimilarity between the registered feature element pair is larger than the second certain value is set higher than the weighting coefficient of the remaining registered feature element pairs. The present invention includes a weighting coefficient setting storage means for setting a large weighting coefficient, and detects a small number of registered words with small dissimilarity when the minimum dissimilarity between each registered feature set and the recognized feature set does not satisfy a certain condition. step, each registered feature set targeting the detected registered word and using the registered feature element obtained by multiplying the registered feature element by the weighting coefficient as a new registered feature element, and adding the above to the recognized feature element. Step of measuring the degree of dissimilarity with the recognized feature set, using the new recognized feature element obtained by multiplying it by the weighting coefficient, and outputting a registered word corresponding to the degree of dissimilarity that satisfies a certain condition. A speech recognition method comprising:
JP14277279A 1979-11-06 1979-11-06 Voice identification system Granted JPS5666900A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14277279A JPS5666900A (en) 1979-11-06 1979-11-06 Voice identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14277279A JPS5666900A (en) 1979-11-06 1979-11-06 Voice identification system

Publications (2)

Publication Number Publication Date
JPS5666900A JPS5666900A (en) 1981-06-05
JPS6130280B2 true JPS6130280B2 (en) 1986-07-12

Family

ID=15323220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14277279A Granted JPS5666900A (en) 1979-11-06 1979-11-06 Voice identification system

Country Status (1)

Country Link
JP (1) JPS5666900A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141319A1 (en) * 2016-02-15 2017-08-24 三菱電機株式会社 Housing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61213900A (en) * 1985-03-20 1986-09-22 沖電気工業株式会社 Non-specified speaker voice recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017141319A1 (en) * 2016-02-15 2017-08-24 三菱電機株式会社 Housing

Also Published As

Publication number Publication date
JPS5666900A (en) 1981-06-05

Similar Documents

Publication Publication Date Title
US5131043A (en) Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPS58134699A (en) Continuous word string recognition method and apparatus
JPH0361959B2 (en)
CN110570870A (en) Text-independent voiceprint recognition method, device and equipment
JPH10105191A (en) Speech recognition device and microphone frequency characteristic converting method
JPH0518118B2 (en)
JPS6130280B2 (en)
KR20210137503A (en) Diagnostic technique based on speech model
JPH0225517B2 (en)
CN108573712B (en) Voice activity detection model generation method and system and voice activity detection method and system
JP3393532B2 (en) Method for normalizing volume of recorded voice and apparatus for implementing the method
JPS645320B2 (en)
JPS6126680B2 (en)
JP2658104B2 (en) Voice recognition device
JPH0455518B2 (en)
JPH0441357B2 (en)
JPS61137199A (en) Recognition of word voice
JPH0426480B2 (en)
JPS58123598A (en) Voice recognition equipment
JPH0236960B2 (en)
JPH0311478B2 (en)
JPS63220199A (en) Voice recognition equipment
JPH0221598B2 (en)
JPS60203992A (en) Voice recognition
JPS6131476B2 (en)