JPS6140120B2 - - Google Patents

Info

Publication number
JPS6140120B2
JPS6140120B2 JP53073693A JP7369378A JPS6140120B2 JP S6140120 B2 JPS6140120 B2 JP S6140120B2 JP 53073693 A JP53073693 A JP 53073693A JP 7369378 A JP7369378 A JP 7369378A JP S6140120 B2 JPS6140120 B2 JP S6140120B2
Authority
JP
Japan
Prior art keywords
standard pattern
circuit
optimal
point
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP53073693A
Other languages
Japanese (ja)
Other versions
JPS552205A (en
Inventor
Ryuichi Oka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP7369378A priority Critical patent/JPS552205A/en
Publication of JPS552205A publication Critical patent/JPS552205A/en
Publication of JPS6140120B2 publication Critical patent/JPS6140120B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、人が発声した音声を単語単位で自動
的に認識し、その認識結果を例えば活字によつて
表す等の用に供される音声認識装置、殊に実時間
で連続的に当該認識の行える実時間連続音声認識
装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech recognition device that is used to automatically recognize speech uttered by a person word by word, and to express the recognition results in, for example, printed text. The present invention relates to a real-time continuous speech recognition device that can perform continuous recognition over time.

従来の音声認識装置は、後に述べるように、実
時間で連続的な音声の認識が行えず、一度に発声
できる単語数が多くても十個、通常四乃至五個と
少く、また、演算結果を出力するための計算量が
膨大であるために、装置が複雑、大規模なものと
なり、計算時間が掛ける上に認識できる語彙の数
も制限されていた。
As will be discussed later, conventional speech recognition devices cannot recognize continuous speech in real time, can only utter at most 10 words at a time, and usually only 4 or 5 words, and the calculation result Because the amount of calculation required to output the words is enormous, the device becomes complex and large-scale, which increases the calculation time and limits the number of vocabulary that can be recognized.

本発明は以上に鑑み、一度に話す単語の数に制
限がなく、認識結果を出力するための計算量を極
力少くし、また構成自体も至便なものとして、結
局は装置の規模も小型化し、扱い得る語彙数も増
加させた、実時間連続音声認識装置を提供するこ
とを主目的としてなされたものである。
In view of the above, the present invention has no limit to the number of words that can be spoken at once, minimizes the amount of calculation required to output recognition results, and has an extremely convenient configuration, which ultimately reduces the size of the device. The main purpose of this invention is to provide a real-time continuous speech recognition device that can handle an increased number of vocabularies.

先づ、第1図にこの種音声認識装置の概略構成
を挙げ、説明をしておく。
First, the schematic configuration of this type of speech recognition device is shown in FIG. 1 and will be explained.

マイクロ・フオン等の音声入力部Aに入つた音
声入力はアナログ−デジタル変換器Bを介しデジ
タル信号となつてバンド・パス・フイルタ乃至相
関器等の分析部C(実際には上記変換器Bも含ん
でなるのが一般である)に入り、分析され、特徴
パターンとなる。一般に分析は音声波形の約
20msec程度の区間のデジタル信号に就いて行わ
れるが、この分析は通常10msec程度づつシフト
して行われる。また、バンド・パス・フイルタの
バンド数乃至相関器の次数は通常10乃至20程度と
なつている。従つて、分析部Cからの出力は
10msec毎の10乃至20次元のベクトルの時系列と
なる。
The audio input that enters the audio input section A, such as a microphone, becomes a digital signal via an analog-to-digital converter B, and is converted into a digital signal by an analysis section C, such as a band pass filter or correlator (actually, the above converter B is also used). (generally, it contains the following information), is analyzed, and becomes a characteristic pattern. Generally, analysis is performed on approximately
This analysis is performed on digital signals in intervals of about 20 msec, but this analysis is usually performed with shifts of about 10 msec. Further, the number of bands of the band pass filter or the order of the correlator is usually about 10 to 20. Therefore, the output from analysis section C is
This is a time series of 10- to 20-dimensional vectors every 10 msec.

認識したい単語が装置の中に登録されていない
時には、分析部Cの出力は切替スイツチSを介し
標準パターン記憶部に記憶されるようになつてい
る。逆に、標準パターン記憶部に認識したい語彙
が予め登録、記憶されている場合には、スイツチ
Sを介し分析出力は単語認識部Eへと継がり、認
識が行なわれることになる。
When the word to be recognized is not registered in the device, the output of the analysis section C is stored in the standard pattern storage section via the changeover switch S. On the other hand, if the vocabulary to be recognized is registered and stored in advance in the standard pattern storage section, the analysis output is passed through the switch S to the word recognition section E for recognition.

ここにおいて、入力音声の分析部Cからの出力
は、 {(t,x):1xL} (1) なる式で表現される。ここで、t=1,2……と
し、tの間隔は分析の行なわれる間隔、即ち、例
えば10msecである。また、xは例えば分析部C
がバンド・パス・フイルタであるとすると、各バ
ンドの番号を表し、Lは既述の所から通常10乃至
20である。この時、上記の(t,x)はt時刻のバ
ンド番号xのパワー乃至大きさを示していること
になる。
Here, the output from the input speech analysis section C is expressed by the following equation: { (t,x) :1xL} (1). Here, t=1, 2, . . . , and the interval t is the interval at which the analysis is performed, that is, for example, 10 msec. In addition, x is, for example, the analysis unit C
If is a band pass filter, it represents the number of each band, and L is usually 10 to 10 from the above.
It is 20. At this time, the above (t,x) indicates the power or magnitude of band number x at time t.

次に、一般に標準パターン記憶部Dに登録され
ている単語の一つ、単語名iの単語は {Z(j,x):1jTi,1xL} (2) で表現される。これは単語名iの標準パターンと
謂われ、Tiはこの標準パターンのパターン長を
示している。
Next, one of the words generally registered in the standard pattern storage section D, the word with word name i, is expressed as {Z (j,x) :1jT i ,1xL} (2). This is called a standard pattern of word name i, and T i indicates the pattern length of this standard pattern.

ところで、従来は、一単語或いは数個の連続し
た単語を発声する場合、その始まりと終りを指定
してやり、その指定された時点間にある入力パタ
ーンが認識の対象とされてきた。この認識は、標
準パターン群と先の入力パターンとの距離を計算
してその値の最も小さいものの単語名を定めると
いうことで完行されるが、この距離計算には
Dynamic Programming乃至DP(動的計画法)を
使用することが最も有効と考えられている。つま
り、この距離計算では、よく知られているよう
に、入力パターンは標準パターンと比べると通常
発声スピードが異つているため、最も対応してい
る場所で合うように当該入力パターンを伸縮した
りするが、これを先の動的計画法で行うのであ
る。これは、通常、時間正規化と呼ばれている。
By the way, conventionally, when uttering one word or several consecutive words, the beginning and end of the word are specified, and the input pattern between the specified points of time is targeted for recognition. This recognition is completed by calculating the distance between the standard pattern group and the previous input pattern and determining the word name for the one with the smallest value.
Dynamic Programming or DP (Dynamic Programming) is considered to be the most effective method. In other words, in this distance calculation, as it is well known, the input pattern usually has a different speaking speed compared to the standard pattern, so the input pattern is expanded or contracted to fit at the most corresponding place. However, this is done using the dynamic programming method described above. This is commonly referred to as time normalization.

こうした中にあつて、従来の不都合は、この距
離計算の始まる時点は発声の終わつた時点であ
り、距離計算のための時間の進行と対象パターン
の時間の経過とは別々の進行であつたことにあ
る。そのため、音声の認識処理において本質的に
必要な筈の実時間処理、即ち次の時刻の入力が入
る迄に認識を終わつているという認識方式による
処理が不可能であつた。従つて、これ迄、「実時
間処理」といわれれているものは、発声が終わつ
てから「短い時間後」という意味でしかなかつた
のである。そればかりか、発声後の「短い時間
後」に結果を出すにしても、その計算は膨大なも
のであり、既述の欠点に結びついていた。
Under these circumstances, the disadvantage of the conventional method is that the distance calculation begins at the end of the utterance, and the time progression for distance calculation and the time progression of the target pattern are separate progressions. It is in. For this reason, real-time processing that is essentially necessary in speech recognition processing, that is, processing using a recognition method in which recognition is completed by the time the next time input is received, has not been possible. Therefore, up until now, what has been called ``real-time processing'' has only meant ``a short period of time after'' the utterance has finished. Not only that, but even if the results were to be produced ``shortly after'' the utterance, the calculations involved were enormous, leading to the drawbacks mentioned above.

こうして欠陥に鑑み、本発明を成立させる前提
として、本発明者は特別の知見を得ることに努力
した。
In view of these deficiencies, the inventors have made efforts to obtain special knowledge as a premise for establishing the present invention.

即ち、上述の欠陥は、入力パターン(既述の(1)
式)のもつ或る時刻tにおいて、t時刻以前の過
去の入力をも考慮して、時間正規化という意味に
則つた単語名iとの距離をその時刻毎に簡単に算
出できれば克服することができる。今、このよう
な距離が各時刻において求まつたとし、これを
Ai(t)とすれば、前もつてλの値を定てお
き、 i*(t):min i(t) =Ai * (t)(t)λ (3) なるi*(t)を求めれば、t時刻においてi*
(t)という単語名を認識しているということを
自動的に判定できるものとなる。式(3)のi*
(t)がt時刻において存在しなければその時刻
は如何なる単語も発声し終わつていないか(つま
り発声途中であるか)或いは如何なる単語も発声
されていない時刻であるとすることができる。i
*(t)が定まればそれに対応する単語名は前も
つて判つているので、第1図中の出力部Fで表示
する等すれば良い。
In other words, the above defect is caused by the input pattern ((1)
This problem can be overcome if the distance from the word name i in accordance with the meaning of time normalization can be easily calculated at a certain time t of the formula (formula) by taking into account past inputs before time t. can. Now, suppose that such a distance is found at each time, and this is
Let Ai(t) be the value of λ, and then i * (t): min i A i(t) = A i * (t) (t)λ (3 ) t), at time t, i *
It is possible to automatically determine that the word name (t) is recognized. i * in equation (3)
If (t) does not exist at time t, it can be assumed that no word has been uttered at that time (in other words, it is in the middle of being uttered) or that no word is uttered at that time. i
* Once (t) is determined, the word name corresponding to it has already been known, so it can be displayed on the output section F in FIG.

本発明は以上のような役割を持つAi(t)を得れ
ば良いという知見に基いており、単語認識部Eを
してこのAi(t)を自動的に算出するようにしたも
のである。以下詳記することから理解されるよう
に、本発明の構成による方式は蓋し連続DPと呼
んで良いもので、これは既述のDP(動的計画
法)が各時刻毎に過去を考えて完行される故で、
それにより各時刻毎に単語名の認識が可能であ
り、その意味で連続単語の認識が可能となつてい
るのである。
The present invention is based on the knowledge that it is sufficient to obtain A i(t) having the role described above, and the word recognition unit E is configured to automatically calculate this A i(t). It is. As will be understood from the detailed description below, the method according to the configuration of the present invention can be referred to as continuous DP, which means that the previously described DP (dynamic programming) considers the past at each time. Because it is completed by
This makes it possible to recognize word names at each time, and in this sense, it is possible to recognize consecutive words.

本発明装置の単語認識部の構成の一実施例を第
2図に示すが、大別して六つの回路系1〜6から
成つている。この第2図示の構成は一つの単語名
iに関するものであるが、簡単のために、以下で
はこのiを省略する。
An embodiment of the construction of the word recognition section of the device of the present invention is shown in FIG. 2, which is roughly divided into six circuit systems 1 to 6. Although the configuration shown in the second diagram relates to one word name i, this i will be omitted below for simplicity.

回路1は部分距離計算回路で、ここではT個の を計算する。これは謂わば、全体の距離を計算す
るための部分距離、正しくは分析された或る時刻
の音声入力の、標準パターンの各点への部分距離
を計算するものである。この回路1では、(4)式を
計算するものがTコ並設されているが、このTは
既述の式(2)による標準パターンのTiに対応した
ものである。勿論、回路1に与えられるZは第1
図中の標準パターン記憶部Dからの出力によつて
定まつている。
Circuit 1 is a partial distance calculation circuit, where T Calculate. This is, so to speak, a partial distance for calculating the entire distance, or more precisely, a partial distance of the analyzed audio input at a certain time to each point of the standard pattern. In this circuit 1, T units for calculating equation (4) are arranged in parallel, and this T corresponds to the standard pattern T i according to equation (2) described above. Of course, Z given to circuit 1 is the first
It is determined by the output from the standard pattern storage section D in the figure.

而して、回路1の出力はT個のQ(t,j)である
が、これは入力{(t,x):1xL}が入つ
てくる毎に計算され、また、これ等は独立に計算
可能となつている。
Therefore, the output of circuit 1 is T Q (t,j) , which is calculated every time the input { (t,x) :1xL} comes in, and these are independently calculated. It is now possible to calculate.

これ等T個の回路1からの出力は、次いで部分
距離最適積分回路2に入る。この回路系2とこれ
に付随した回路系4(後述)では、Q(t,j)
夫々に対応した同じくT個のP(t,j),j=1,
2,……,Tと、各P(t,j)に常に付随している
(t,j)が考えられ、合計2T個のレジスタの値を
定めることが目的となつている。この計算には、
この場合、二単位迄の過去の最適部分距離の積分
値となる量(後述の回路系3によつて記憶されて
いる)と回路系1の出力とが関与する。
The outputs from these T circuits 1 then enter a partial distance optimal integrator circuit 2. This circuit system 2 and the associated circuit system 4 (described later) have T (t,j) corresponding to each of Q (t,j) , j=1,
2 , . For this calculation,
In this case, a quantity serving as an integral value of past optimal partial distances up to two units (stored by circuit system 3, which will be described later) and the output of circuit system 1 are involved.

この回路は以下の簡単な計算式(5),(6)によつて
定められる。
This circuit is determined by the following simple calculation formulas (5) and (6).

これ等の式の意味する所は次のようである。式
(5)の意味を理解するには、回路3の意味する内容
も同時に理解する必要がある。
The meanings of these expressions are as follows. formula
In order to understand the meaning of (5), it is necessary to understand the meaning of circuit 3 at the same time.

回路3には或る時刻、この場合t時刻より二単
位時間前迄の過去の最適積分値となる量が記憶さ
れているが、t時刻においてはt時刻における最
適積分値となる量を回路2によつて回路1の出力
(t,j)と相俟つて定めることになる。
The circuit 3 stores the amount that is the past optimal integral value at a certain time, in this case two units of time before time t. This is determined together with the output Q (t,j) of circuit 1.

t時刻の最適積分値となる量は、一または二単
位時間前の最適積分値の中から三つを選び、それ
ぞれ回路を一つの出力に乗算器9をかけた値を加
算器8によつて加える操作により都合三つのt時
刻の最適積分値となる量の候補を作り、これ等三
つのものの中で最も小さいものが比較器10によ
つて選ぶ積分決定回路7を構成する。これが式(5)
の持つ意味である。
The amount that becomes the optimal integral value at time t is determined by selecting three of the optimal integral values one or two units ago, and multiplying the output of each circuit by the multiplier 9 using the adder 8. By the addition operation, candidates for quantities that are the optimum integral value at three times t are created, and the comparator 10 selects the smallest one among these three, forming an integral determining circuit 7. This is equation (5)
This is the meaning of

三つのものの中で最も小さいものを採るのは最
適距離は標準パターンと最も小さく採れるものと
して定められているからである。これにより、話
す速度が標準パターンを作つた時と異なつていて
も許されることになる。
The reason why the smallest of the three is selected is that the optimal distance is determined as the one that is the smallest possible distance from the standard pattern. This allows the speaker to speak at a different speed than when creating the standard pattern.

さて、これが回路系2のP(t,j)、j=1,
2,……,Tを作る意味であるが、これだけで何
故、最適距離が求まるのかと謂えば、今、t時刻
で定まる最適積分値となる量の個数はT個、即ち
(t,j),j=1,2,……,Tもある。これ等
が夫々過去の最適積分値となる量をも考慮して新
たにt時刻のものとして定まつていることは明ら
かである。何故なら、回路系3は回路系2で作ら
れたP(t,j),j1,2,……,Tを遅延回路G等
によつて時間を遅延させて作られるからである。
Now, this is P (t,j) of circuit system 2, j=1,
2, ..., T, but how can the optimal distance be found just by doing this? Now, the number of quantities that will be the optimal integral value determined at time t is T, that is, P (t,j ) , j=1, 2, ..., T. It is clear that these are newly determined as those at time t, taking into consideration the quantities that are the past optimal integral values. This is because circuit system 3 is created by delaying P (t,j) , j1, 2, . . . , T created in circuit system 2 using delay circuit G or the like.

以上のことから、正確な表現を以つて述べれ
ば、回路系2は、部分距離計算回路系1によつて
計算された標準パターンの各点への部分距離を最
適積分し、標準パターンの各点に対応した最適積
分量となる量を得るものであり、回路系3はこの
最適積分量となる量の計算に必要とする、上記部
分距離最適積分回路系2により得られた過去の最
適積分量となる量を記憶するものであると謂え
る。
From the above, to put it in precise terms, the circuit system 2 optimally integrates the partial distances to each point of the standard pattern calculated by the partial distance calculation circuit system 1, and The circuit system 3 obtains the optimal integral quantity corresponding to the optimal integral quantity, and the circuit system 3 obtains the past optimal integral quantity obtained by the above-mentioned partial distance optimal integral circuit system 2, which is necessary for calculating the quantity that becomes the optimal integral quantity. It can be said that it memorizes the quantity.

さて、第2図中、右端に示したP(t,T)の意味
を考えてみよう。これは、明らかに、 S={P(t-2,T-1),P(t-1,T-1), P(t-1,T-2)} と、Q(t,T)とから定められていることが理解さ
れよう。そこで、Sの中の任意の一つ、例えばP
(t-1,T-1)を採つてみよう。これは、t′(=t-1)
時刻には、回路系2のT−1の所であつたもので
ある。今、時刻をこのt′(=t-1)に戻り、回路系2
の状況を考えると、明らかにこのP(t,T-1)も、 S′={P(t-2,T-2), P(t-1,T-2),P(t-1,T-3)} とQ(t,T-1)で作られていることが判る。而し
て、このS′の中の任意の一つ、例えばP(t-2,T-
2)を採ると、同じく時刻t′−2の時を考えれば、
このP(t-2,T-2)は S″={P(t-4,T-3), P(t-3,T-3),P(t-3,T-4)} とQ(t-2,T-2)とから作られている。
Now, let's consider the meaning of P (t,T) shown at the right end of Figure 2. This clearly means that S={P (t-2,T-1) , P (t-1,T-1) , P (t-1,T-2) } and Q (t,T) It will be understood that it is determined from this. Therefore, any one of S, for example P
Let's take (t-1,T-1) . This is what was at T-1 of circuit system 2 at time t' (=t-1) . Now, return to this t′ (=t-1) , and circuit system 2
Considering the situation, clearly this P (t,T-1) also becomes S′={P (t-2,T-2) , P (t-1,T-2) , P ( t-1,T-3) } and Q (t,T-1) . Therefore, any one of this S′, for example, P (t-2,T-
If we take 2) and also consider time t'-2, we get
This P (t-2,T-2) is S″={P (t-4,T-3) , P (t-3,T-3) , P (t-3,T- 4) } and Q (t-2,T-2) .

この操作を繰返してP(・,1)が出現する迄
を考えると、これは回路系2として示した中で左
端にあつたものが見付かる。そして、前述の所で
S′からS″,S″からS,SからS〓……の
節々では最適の距離夫々が、過去の距離とQ
(・,j)を考えて作られているから、全体とし
てみればP(t,T)は(2)式の標準パターンと最適の
距離を採つていることが理解されよう。
If we repeat this operation until P(., 1) appears, we will find the one at the left end of the circuit system 2. And in the above
At the nodes S' to S'', S'' to S, S to S〓..., the optimal distance is the past distance and Q.
Since it is created with (·, j) in mind, it can be understood that overall, P (t, T) takes the optimal distance from the standard pattern in equation (2).

即ち、 という過去の入力をも考慮した距離がt時刻のP
(t,T)として作られていることが判る。また、P
(t,j),j=1,2,……,Tは夫々その時刻で
回路系1と回路系3の中のもののみを使つて定め
られ、謂わば各時刻では常に自己調達されたもの
で十分であることが判る。
That is, The distance P at time t that takes into account the past inputs is
It can be seen that it is created as (t,T) . Also, P
(t,j) , j=1, 2, ..., T are determined using only those in circuit system 1 and circuit system 3 at that time, so to speak, they are always self-procured at each time. It turns out that this is sufficient.

以上のことから、P(t,T)の意味が明らかに最
適な距離を表していることが理解されただろう。
From the above, it should be understood that the meaning of P (t,T) clearly represents the optimal distance.

さて、P(t,T)は(7)式で定まることは判かる
が、それは計算の途中ではQ(t,j)に重みKj(こ
の場合、式(5)から2乃至3である)がかかつてお
り、又、一般に標準パターンの長さTは単語が異
なれば異なるので、長さの異なる単語のP(t,T
、即ちP(t,Tl)とP(t,Tn)(l≠m)を比較
する時には意味がないと同時に、時刻の異なるP
(t1,T),P(t2,T)(t1≠t2)を比較しても意味が
ない。というのも時刻t1,t2夫々でP(t1,T),P
(t2,T)を作る重みKjの和が異なつているためで
ある。
Now, it can be seen that P (t,T) is determined by equation (7), but in the middle of the calculation, Q (t,j) is given a weight Kj (in this case, it is 2 to 3 from equation (5)). In addition, generally the length T of the standard pattern is different for different words, so P (t,T
) , that is, it is meaningless when comparing P (t,Tl) and P (t,Tn) (l≠m), and at the same time, P (t,Tl) and P (t,Tn) (l≠m)
There is no meaning in comparing (t1,T) and P (t2,T) (t 1 ≠t 2 ). This is because at times t 1 and t 2 , P (t1,T) and P
This is because the sum of weights Kj that make up (t2,T) is different.

これ等のことから、P(t,T)を作るに要したKj
の和を求めて、これでP(t,T)を割つてやれば、
上記の二つの問題点はいづれも解決する。このた
めに定められたものが式(6)のC(t,j)である。式
(5)と式(6)からC(t,j)はP(t,j)が作れらる迄に
要した重みKjの和を表していることが判かる。
即ち、この重みKjの和は図中、回路系4によつ
て作られているが、回路系4は、まとめ述べれ
ば、標準パターンの各点に対応した既述の過去の
最適積分量となる量と、標準パターンの各点への
現在の部分距離に予め定められた重みを掛けた値
とを加え、その時刻の標準パターンの各点に対応
したこれも既述の最適積分量となる量の候補を定
め、該候補の中から標準パターンの各点に対応し
た最適積分量となる量を求めるに際し、それ等の
最適積分量となる量を得るに要した重みの和を計
算する最適重みの和計算回路と言えるもので、そ
の際には、同じく、回路系4により計算された過
去の最適重みの和(回路系5が記憶している)を
用いているのである。
From these facts, Kj required to make P (t,T)
If we find the sum of and divide P (t,T) by this, we get
Both of the above two problems are solved. C (t,j) in equation (6) is determined for this purpose. formula
It can be seen from (5) and equation (6) that C (t,j) represents the sum of the weights Kj required until P (t,j) is created.
That is, the sum of the weights Kj is created by circuit system 4 in the figure, and circuit system 4 is, in summary, the past optimal integral quantity corresponding to each point of the standard pattern. and the value obtained by multiplying the current partial distance to each point of the standard pattern by a predetermined weight, and calculate the amount that corresponds to each point of the standard pattern at that time and is also the optimal integral amount described above. Optimum weight for calculating the sum of the weights required to obtain the optimal integral amount when determining the optimal integral amount corresponding to each point of the standard pattern from among the candidates. This can be said to be a sum calculation circuit, in which the past optimal weight sum calculated by the circuit system 4 (stored in the circuit system 5) is used.

斯くして、P(t,T)に対応するC(t,T)で当該
(t,T)を除せば、 P(t,T)/C(t,T)=A(t) (8) となり、この(8)式は明らかに異なる単語間、異な
る時刻間で比較することの意義が十分にある値で
あることを示している。この計算は因みに回路系
6で行なわれるが、これも正確に表現すれば、標
準パターンのパターン長と等しい点に存る最適積
分量となる量を、標準パターンのパターン長と等
しい点にある最適重みの和となる量で除した値を
標準パターンとの距離として出力する回路と謂う
ことができる。
Thus, if we divide P (t,T) by C (t,T) corresponding to P (t,T) , we get P (t,T) /C (t,T) =A (t) (8), and this equation (8) clearly shows that it is a value that is sufficiently meaningful to compare between different words and different times. Incidentally, this calculation is performed in circuit system 6, but to express this accurately, the amount that is the optimal integral amount at a point equal to the pattern length of the standard pattern is It can be said to be a circuit that outputs the value divided by the sum of the weights as the distance from the standard pattern.

ここで実践的な問題として式(5),(6)に就き考え
るとすれば、t=1(即ち、本装置の作動開始
時)の時の回路系3の値をどう定めるか、という
ことがある。これはP(0,j),P(-1,j),j=
1,2,……,T,C(0,j),C(−1,j),j
=1,2,……,Tを定めることであるが、 P(0,j)=P(-1,j)=M,〓 (9) j=1,2,……,T C(0,j)=C(-1,j)=O, j=1,2,……,T として、値Mを先に挙げた値λに比し充分大きな
値としておくと、これ等の初期条件に関与したA
(t)の値はλに比べて充分大きくなるので、認識
においては関係がなくなるものとすることができ
る。
If we consider equations (5) and (6) as a practical problem, how to determine the value of circuit system 3 at t = 1 (i.e., when the device starts operating)? There is. This is P (0,j) , P (-1,j) , j=
1, 2, ..., T, C (0, j), C (-1, j), j
= 1, 2, ..., T is determined, P (0, j) = P (-1, j) = M, 〓 (9) j = 1, 2, ..., T C (0 ,j) =C (-1,j) =O, j=1,2,...,T, and if the value M is set to be a sufficiently large value compared to the value λ mentioned earlier, these initial conditions A involved in
Since the value of (t) is sufficiently larger than λ, it can be assumed that there is no relationship in recognition.

以上のことから明らかなように、第2図示の構
成は一つの標準パターンに対応したものであり、
今、N個の標準パターンを考えると、第2図示の
構成はN個あつた方が良い。というのも、N個あ
れば、それ等は入力(t,x)毎に並列にP(t,j
,C(t,j)を計算でき、N個のA(t)が同時に作
られるからである。但し、第2図示の構成が一個
しかなくても、N個のA(t)を直列に作り得る
が、N倍の時間が掛けることになる。
As is clear from the above, the configuration shown in the second diagram corresponds to one standard pattern,
Now, considering N standard patterns, it is better to have N in the configuration shown in the second figure. This is because if there are N, they are P ( t,j
) , C (t,j) can be calculated, and N pieces of A (t) are created at the same time. However, even if there is only one configuration shown in the second figure, N pieces of A (t) can be made in series, but it will take N times as much time.

而し、いづれにせよ、原理的にはN個の標準パ
ターンを考える時、N個のA(t)が作られること
になる。
However, in any case, in principle, when considering N standard patterns, N A (t) will be created.

斯くして本発明の目的は達せられたが、尚、こ
れ等をAi(t),i=1,2,……,Nとして、こ
れ等から如何にして単語が定まるかに言い及んで
おく。
Although the purpose of the present invention has been achieved in this way, let us now refer to these as A i(t) , i=1, 2, ..., N, and explain how words can be determined from these. put.

今、単語名iの単語を、単独にせよ連続発声す
る単語の一つであるにせよ、発声し終わつた時刻
を仮にtFとしよう。もつとも、このtFはこの説
明のために考えるもので、認識においては如何な
る意味でも前もつて定まる必要のないものであ
る。而して、単語名iの単語を発声し終わると、
i(tF)はAk(tF),k≠iより小さいのは素よ
り、単語発声途中のAi(t),t<tF、発声後のA
i(t),t>tF又、何も発声していない時刻のAi(t
よりも小さいのは明らかである。
Now, suppose tF is the time when the word with word name i is finished being uttered, whether it is uttered singly or as one of the words to be uttered continuously. However, this t F is considered for the purpose of this explanation, and does not need to be determined in advance in any sense in recognition. Then, when you finish uttering the word with word name i,
A i(tF) is smaller than A k(tF) , k≠i, so A i(t) during word utterance, t<t F , and A after utterance.
i(t) , t>t FAlso , A i(t) at the time when no voice is uttered
) is clearly smaller than

従つて、再桁するが、前もつてλの値を定めて
おいて、先掲の(3)式に基き、 i* (t)min i(t) =Ai * (t)(t)λ (3) なるi*(t)を定めれば、(もし(3)式を満たす
*(t)がなければi*(t)=φ(空)とす
る)、i*(t)は各時刻毎の認識結果を示して
いる。そして、i*(t)=φを考えないとすれ
ば、i*(t)はN個の単語の中の一つを認識し
ていると同時に、その認識時刻も結果的に示して
いる。この意味で、本発明装置は連続単語の認識
を可能にしていると謂える。
Therefore, although the value of λ has been determined in advance, based on the above equation (3), i * (t) : min i A i(t) = A i * (t) (t) λ (3) (If there is no i * (t) that satisfies equation (3), then i * ( t) = φ (empty)), i * (t) shows the recognition results at each time. If i * (t) = φ is not considered, i * (t) recognizes one of the N words, and at the same time also indicates the recognition time. In this sense, it can be said that the device of the present invention enables continuous word recognition.

ただ、i*(t)は或る時刻のみが空でない認
識結果を示し、その前後は総てφであるというこ
とにはならず、(これは発声の終りのあいまい性
による)、空でない時刻は数時刻続くことにな
る。従つて、 i* (t)=i*(t+1)=……i*(t+H)
のように、少なくともH個の以上の同一単語の認
識が続く時にそれを認識したと定めることが実際
には行なわれよう。
However, i * (t) shows a recognition result that is not empty only at a certain time, and it does not mean that everything before and after that is φ (this is due to the ambiguity at the end of the utterance). will last for several hours. Therefore, i * (t) = i * (t+1) =...i * (t+H)
In practice, recognition will be determined when at least H identical words are recognized continuously.

第3図は、第2図示の構成に比し、より認識度
を高めるために、P(t,j)の決定にQ(t,j)だけ
でなく、Q(t-1,j),Q(t,j-1)、即ち一時刻前の
部分距離をも記憶回路7によつて記憶させて用い
ようとするもので、ソフトウエア的に相違はある
が基本的構成は第2図示各回路系の機能で満足さ
れるものであるため、同一構成子には同一符号を
付した回路ダイアグラムを挙げるに留めておく。
Compared to the configuration shown in FIG. 2, FIG. 3 uses not only Q (t,j) but also Q (t-1,j) , Q (t-1,j) , Q (t,j-1) , that is, the partial distance one time ago is also stored and used in the memory circuit 7, and although there are differences in software, the basic configuration is the same as shown in the second figure. Since the functions of the circuit system are satisfied, only circuit diagrams in which the same components are given the same reference numerals will be shown.

以上詳記のように、本発明によれば、語彙数こ
そ制限されるものの、無限の個数の単語を一度に
連続的に認識することができ、当該認識部は構成
至便、同一の構造を持つ一様な素子により構成し
得るという大きな効果を呈し、音声タイプライタ
等の応用面に極めて有用なものである。また、第
2,3図示の構成からも明らかなように、マスタ
ークロツクに同期して演算、識別させることもで
き、各クロツクの計算量も、式(5),(6),(3)のみで
良いから極めて少く、十分実時間、即ち通常の入
力間隔(既述のように通常10msec程度)内に計
算可能であるので、連続単語を発声する場合、各
単語を話し終つた瞬間に結果を出すことができ
る。因みに、従来の最も優れたものと比べても計
算量は約5000分の1に迄縮められている。
As detailed above, according to the present invention, although the number of vocabulary is limited, it is possible to continuously recognize an infinite number of words at once, and the recognition section is conveniently configured and has the same structure. It has the great effect of being able to be constructed from uniform elements, and is extremely useful in applications such as voice typewriters. Furthermore, as is clear from the configurations shown in the second and third figures, calculations and identification can be performed in synchronization with the master clock, and the amount of calculation for each clock can be reduced using equations (5), (6), and (3). It is possible to calculate the result in real time, that is, within the normal input interval (usually about 10 msec as mentioned above). can be produced. Incidentally, the amount of calculation has been reduced to about 1/5000 compared to the most excellent conventional method.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は音声認識装置の概略構成図、第2図は
本発明装置の単語認識部の一実施例の概略構成
図、第3図は同じく第二の実施例の概略構成図、
である。 図中、Aは音声入力部、Cは音声入力分析部、
Dは標準パターン記憶部、Eは単語認識部、1は
部分距離計算回路、2は部分距離最適積分回路、
3は過去の最適積分量となる量の記憶回路、4は
最適重みの和計算回路、5は過去の最適重みの和
記憶回路、6は標準パターンとの距離出力回路、
7は積分決定回路、8は加算器、9は乗算器、1
0は比較器、11は一時刻前の部分距離の記憶回
路である。
FIG. 1 is a schematic configuration diagram of a speech recognition device, FIG. 2 is a schematic configuration diagram of an embodiment of the word recognition section of the device of the present invention, and FIG. 3 is a schematic diagram of a second embodiment.
It is. In the figure, A is a voice input section, C is a voice input analysis section,
D is a standard pattern storage unit, E is a word recognition unit, 1 is a partial distance calculation circuit, 2 is a partial distance optimal integration circuit,
3 is a storage circuit for the past optimal integral amount; 4 is a circuit for calculating the sum of optimal weights; 5 is a circuit for storing the sum of past optimal weights; 6 is a distance output circuit from the standard pattern;
7 is an integral determining circuit, 8 is an adder, 9 is a multiplier, 1
0 is a comparator, and 11 is a storage circuit for a partial distance one time ago.

Claims (1)

【特許請求の範囲】 1 音声入力部と、その音声入力の分析部と、標
準パターンの記憶部と、上記分析された音声入力
と上記標準パターンとの距離を計算し、入力音声
の単語名を識別する単語認識部と、その認識結果
を出力する出力部とを有する音声認識装置におい
て、 上記単語認識部が、少なくとも、 上記分析された或る時刻の音声入力の、標準パ
ターンの各点への部分距離を夫々計算する回路
と、 上記標準パターンの各点への部分距離を最適積
分し、標準パターンの各点に対応した最適積分量
となる量を得る部分距離最適積分回路と、 上記最適積分量となる量の計算に用い、上記部
分距離最適積分回路により得られた過去の最適積
分量となる量を記憶する回路と、 上記標準パターンの各点に対応した上記過去の
最適積分量となる量と、上記標準パターンの各点
への上記或る時刻の部分距離に予め定められた重
みを掛けた値とを加え、上記標準パターンの各点
に対応した上記或る時刻の最適積分量の候補を定
める手段と、 該候補の中から標準パターンの各点に対応した
最適積分量を定めるに際し、それ等の最適積分量
を定めるに要した重みの和を計算する最適重みの
和計算回路と、 上記或る時刻の最適重みの和を計算するに要す
る過去の最適重みの和を記憶する回路と、 標準パターンのパターン長と等しい点に存る上
記積分回路からの上記最適積分量を、同じく上記
標準パターンのパターン長と等しい点にある上記
重みの積分回路からの上記最適重みの和となる量
で除した値を標準パターンとの距離として出力す
る回路と、 から成ることを特徴とする実時間連続音声認識
装置。
[Claims] 1. A speech input section, an analysis section for the speech input, and a standard pattern storage section, which calculates the distance between the analyzed speech input and the standard pattern, and calculates the word name of the input speech. In a speech recognition device having a word recognition unit for identifying a word and an output unit for outputting the recognition result, the word recognition unit at least recognizes the analyzed speech input at a certain time to each point of a standard pattern. a circuit that calculates each partial distance; a partial distance optimal integration circuit that optimally integrates the partial distances to each point of the standard pattern to obtain an optimal integral amount corresponding to each point of the standard pattern; A circuit for storing the past optimal integral quantity obtained by the partial distance optimal integral circuit, which is used to calculate the quantity, and a circuit that stores the past optimal integral quantity corresponding to each point of the standard pattern. and a value obtained by multiplying the partial distance at the certain time to each point of the standard pattern by a predetermined weight, and calculate the optimal integral amount at the certain time corresponding to each point of the standard pattern. means for determining candidates; and an optimal weight sum calculation circuit for calculating the sum of weights required to determine the optimal integral amount when determining the optimal integral amount corresponding to each point of the standard pattern from among the candidates; , the circuit that stores the sum of the past optimal weights required to calculate the sum of the optimal weights at a certain time, and the optimal integral amount from the integrating circuit at a point equal to the pattern length of the standard pattern. a circuit that outputs a value obtained by dividing the sum of the optimal weights from the weight integration circuit at a point equal to the pattern length of the standard pattern as a distance from the standard pattern; Time continuous speech recognition device.
JP7369378A 1978-06-20 1978-06-20 Real time continuous sound discriminator Granted JPS552205A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7369378A JPS552205A (en) 1978-06-20 1978-06-20 Real time continuous sound discriminator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7369378A JPS552205A (en) 1978-06-20 1978-06-20 Real time continuous sound discriminator

Publications (2)

Publication Number Publication Date
JPS552205A JPS552205A (en) 1980-01-09
JPS6140120B2 true JPS6140120B2 (en) 1986-09-08

Family

ID=13525547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7369378A Granted JPS552205A (en) 1978-06-20 1978-06-20 Real time continuous sound discriminator

Country Status (1)

Country Link
JP (1) JPS552205A (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5411188A (en) * 1977-06-28 1979-01-27 Denki Kagaku Kogyo Kk Polymerization of acrylates and/or methacrylates
JPS56168697A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS57696A (en) * 1980-06-02 1982-01-05 Hitachi Ltd Pattern matching device
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
JPS5782896A (en) * 1980-11-12 1982-05-24 Hitachi Ltd Continuous voice recognition system
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
JPS57201300A (en) * 1981-06-05 1982-12-09 Hitachi Ltd Voice recognizer
JPS59121098A (en) * 1982-12-28 1984-07-12 株式会社東芝 Continuous voice recognition equipment
JPS59218500A (en) * 1984-05-11 1984-12-08 株式会社日立製作所 Voice recognition equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5096104A (en) * 1973-12-24 1975-07-31
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5096104A (en) * 1973-12-24 1975-07-31
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device

Also Published As

Publication number Publication date
JPS552205A (en) 1980-01-09

Similar Documents

Publication Publication Date Title
EP0086589A1 (en) Speech recognition system
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
GB2107100A (en) Continuous speech recognition
JPH01265297A (en) Markov model word base form building
JPS58134698A (en) Voice recognition method and apparatus
EP0705473A1 (en) Speech recognition method using a two-pass search
US4426551A (en) Speech recognition method and device
JPS6140120B2 (en)
JPH04369696A (en) Voice recognizing method
JPS6152479B2 (en)
US4790017A (en) Speech processing feature generation arrangement
JPH04369698A (en) Voice recognition system
JPH0887294A (en) Voice recognition device
JP3039095B2 (en) Voice recognition device
JP3315565B2 (en) Voice recognition device
JP2738403B2 (en) Voice recognition device
JPS62113197A (en) Voice recognition equipment
JPS58105294A (en) Signal waveform recognition system
JPS6329756B2 (en)
JPS62144200A (en) Continuous voice recognition equipment
JPH02248999A (en) Voice recognition system
JPS5972578A (en) Pattern comparator
JPS5960499A (en) Word voice recognition system
JPS58136098A (en) Recognition pattern learning system
JPH01262597A (en) Voice recognizing device