JPS6232799B2 - - Google Patents

Info

Publication number
JPS6232799B2
JPS6232799B2 JP55041681A JP4168180A JPS6232799B2 JP S6232799 B2 JPS6232799 B2 JP S6232799B2 JP 55041681 A JP55041681 A JP 55041681A JP 4168180 A JP4168180 A JP 4168180A JP S6232799 B2 JPS6232799 B2 JP S6232799B2
Authority
JP
Japan
Prior art keywords
partial
pattern
input
distance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55041681A
Other languages
Japanese (ja)
Other versions
JPS56138798A (en
Inventor
Hiroaki Sekoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP4168180A priority Critical patent/JPS56138798A/en
Publication of JPS56138798A publication Critical patent/JPS56138798A/en
Publication of JPS6232799B2 publication Critical patent/JPS6232799B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声認識装置の改良に関し、特に入力
速度の向上に寄与するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to improvements in speech recognition devices, and particularly contributes to improving input speed.

音声認識装置は人間から機械へのデータあるい
は制御指令の入力手段として有効である。近年で
は自動仕分け装置制御指令入力手段として利用さ
れるようになつている。「中田和男編、昭和53年
9月コロナ社発行による“パタン認識とその応
用”なる文献の第153ページから第156ページ」に
は、この他にも広範囲の応用分野が存在すること
が記されている。
Speech recognition devices are effective as means for inputting data or control commands from humans to machines. In recent years, it has come to be used as an automatic sorting device control command input means. ``Pages 153 to 156 of the literature entitled ``Pattern Recognition and Its Applications,'' edited by Kazuo Nakata, published by Corona Publishing, September 1978,'' states that there are a wide range of other application fields. ing.

音声認識装置には大別して離散入力型と連続入
力型とが存在する。前者では入力される単語間に
休止区間(無音区間)を入れる事が必要とされ
る。この休止区間によつて単語の始端と終端を決
定して単語区間を検出し、認識処理が行なわれ
る。しかるに数字“6”(roku)のような音声で
はkの直前に休止区間が発生する。このように語
中に発生する休止区間長は時として200ms以上
に達する事がある。このため語間の休止区間には
約300ms以上の長さが必要とされる。したがつ
て従来の離散入力型の音声認識装置では単語間に
300ms以上の休止区間を置きながら単語を入力
する必要があつて、入力速度は低かつた。
Speech recognition devices can be broadly classified into discrete input type and continuous input type. In the former case, it is necessary to insert a pause section (silent section) between input words. The start and end of a word are determined using this pause section, a word section is detected, and recognition processing is performed. However, in a voice such as the number "6" (roku), a pause section occurs immediately before k. In this way, the length of pauses that occur during words can sometimes reach 200 ms or more. Therefore, the length of the pause section between words is required to be approximately 300 ms or more. Therefore, in conventional discrete input type speech recognition devices, there is a
It was necessary to input words with pauses of 300ms or more, and the input speed was slow.

一方、連続入力型の音声認識装置は単語間に休
止区間を入れなくても認識動作を実行でき、高い
入力速度が得られる。特願昭50−29891号明細書
には連続単語認識装置の構成が示されており、そ
の原理は日本電気製のDP−100音声入力装置に実
用化されている。しかしこのような連続単語認識
法では、単語間境界が不明であるため、音声中の
各時点を単語境界と仮定して比較計算を多数回繰
り返す必要があり、所要演算量が膨大になつて装
置が大型高価格になるという欠点があつた。
On the other hand, continuous input type speech recognition devices can perform recognition operations without inserting pauses between words, and can achieve high input speed. Japanese Patent Application No. 50-29891 discloses the structure of a continuous word recognition device, and its principle has been put to practical use in the DP-100 voice input device manufactured by NEC Corporation. However, in such continuous word recognition methods, since the boundaries between words are unknown, it is necessary to repeat the comparison calculation many times by assuming each point in the speech as a word boundary, which increases the amount of calculation required and the equipment The disadvantage was that it was large and expensive.

本発明は、完全に連続した単語列を認識するも
のではないが、単語間に極めて短かくても休止区
間が存在しさえすれば語中の休止区間に影響され
る事なく正しい認識を行なう離散入力型の装置を
実現するものである。
The present invention does not recognize completely continuous word strings, but as long as there are pauses between words, even if they are extremely short, the present invention can perform accurate recognition without being affected by pauses in words. This realizes an input type device.

すなわち、本発明の目的は従来離散入力型より
は極めて高速で、連続入力型に比較すると大幅に
小型安価なる音声認識装置を実現提供する事にあ
る。
That is, an object of the present invention is to realize and provide a speech recognition device that is much faster than the conventional discrete input type, and significantly smaller and cheaper than the continuous input type.

本発明による高速音声認識装置は入力音声波形
を分析しベクトル系列として表現される入力パタ
ンに変換するための分析部と、標準パタンを記憶
するための標準パタンメモリーと、入力音声の振
幅を検定して入力パタン内に休止点を決定するた
めの手段と、休止点と別の休止点との間の区間と
して定義される部分パタンと前記標準パタンとの
距離を算出するためのパタンマツチング部と、各
標準パタンに対して算出される距離を比較してそ
の最小値たる部分距離とその最小値を与える単語
名たる部分判定を算出するための最小値検出部
と、前記入力パタン内の各休止点によつて区分さ
れ重複せずかつ入力パタン全体を覆う部分パタン
群を各部分パタンに対応する前記部分距離の総和
が最小となるように定めるための手段と、これに
よつて定まる各部分パタンに対応する前記部分判
定を認識結果として定め出力するための判定部と
より構成される。
The high-speed speech recognition device according to the present invention includes an analysis section for analyzing an input speech waveform and converting it into an input pattern expressed as a vector sequence, a standard pattern memory for storing a standard pattern, and a standard pattern memory for testing the amplitude of the input speech. means for determining a resting point in an input pattern by using a pattern matching unit for calculating a distance between a partial pattern defined as an interval between the resting point and another resting point and the standard pattern; , a minimum value detection unit for comparing distances calculated for each standard pattern and calculating a partial distance as the minimum value and a partial judgment as a word name giving the minimum value, and each pause in the input pattern. Means for determining a group of partial patterns that are divided by points, do not overlap, and cover the entire input pattern so that the sum of the partial distances corresponding to each partial pattern is minimized, and each partial pattern determined thereby. and a determination unit for determining and outputting the partial determination corresponding to the recognition result as a recognition result.

かくの如き構成によると部分距離や部分判定の
算出は休止点だけを対象として行なえばよいの
で、すべての時点を対称としていた前記特願昭50
−29891号の構成に非して格段に少量の計算量で
音声認識が可能になる。一方、本装置を使用する
場合には各単語間に休止区間を置いて発声する必
要があるが、この休止区間は単語内の休止区間に
比して同程度以下に短かくても良いので、十分長
い休止区間を置く必要のあつた在来の離散入力型
の音声認識装置に比して高速な速度が実現でき
る。
According to such a configuration, calculation of partial distances and partial judgments only needs to be performed for resting points, so it is not necessary to calculate the partial distances and partial determinations using only the resting points.
-Voice recognition becomes possible with a much smaller amount of calculation than the configuration of No. 29891. On the other hand, when using this device, it is necessary to utter a pause between each word, but this pause can be as short or shorter than the pause within a word. Faster speeds can be achieved compared to conventional discrete input type speech recognition devices that require a sufficiently long pause interval.

本発明による音声認識装置の認識対象語は特に
限定されるものではないが、以下では一列として
数字0〜9を認識対象とする。一般に数字をnで
示す。
Words to be recognized by the speech recognition device according to the present invention are not particularly limited, but in the following, numbers 0 to 9 will be recognized as a string. Generally, numbers are indicated by n.

n=0、1、2、…、9 (1) 各数字nには標準パタン Bn=〓 n、〓 n、…、〓j n、…、〓n Jn (2) が用意されている。いま入力パタン(未知)を A=〓、〓、…、〓i、…、〓I (3) と示す。ここに(2)、(3)におけるベクトル〓j n、〓i
等はそれぞれ時刻j,iにおける音声の特徴を示
すベクトルである。
n = 0, 1, 2, ..., 9 (1) For each number n, a standard pattern B n =〓 1 n , 〓 2 n , ..., 〓 j n , ..., 〓 n J n (2) is prepared. ing. Now, the input pattern (unknown) is expressed as A=〓 1 , 〓 2 , ..., 〓 i , ..., 〓 I (3). Here, the vectors 〓 j n , 〓 i in (2) and (3)
etc. are vectors indicating the characteristics of the voice at times j and i, respectively.

入力パタンAには複数個(特殊な場合には1
個)の数字音声が含まれている。数字と数字の間
には第1a図に示すように必らず休止区間が含ま
れているものとする。数字“1”、“6”、“8”等
の場合には語中の休止区間も存在する。しかし当
然の事ながら各休止区間の語間の休止区間である
か、語中の休止区間であるかは不明である。
Input pattern A has multiple patterns (in special cases, 1 pattern)
Contains digit sounds. It is assumed that a pause section is necessarily included between the numbers, as shown in FIG. 1a. In the case of numbers "1", "6", "8", etc., there is also a pause section in the word. However, as a matter of course, it is unclear whether each pause section is a pause section between words or a pause section within a word.

休止区間は存在するか否かという情報以外には
特に有益な情報は無いのでその長さを1に圧縮し
てさしつかえない。すなわち第1図bに示される
ように圧縮するものとする。入力パタンAはこの
ように圧縮されているものとする。休止区間に対
応してはベクトル〓iとして0ベクトルが存在す
るものとする。すなわち、休止区間では 〓i=(0、0、…、0) (4) となつている。なお、このように0ベクトルを含
む入力パタンとの比較が精度良く実行されるよう
に、各標準パタンの最後のベクトル〓n Jnも0ベ
クトルとなつているものとする。
Since there is no particularly useful information in the pause section other than information on whether it exists or not, its length can be compressed to 1. That is, it is assumed that the data is compressed as shown in FIG. 1b. It is assumed that input pattern A is compressed in this way. It is assumed that a 0 vector exists as the vector 〓 i corresponding to the pause section. That is, in the pause section, 〓 i = (0, 0, ..., 0) (4). It is assumed that the last vector 〓 n J n of each standard pattern is also a 0 vector so that the comparison with input patterns including 0 vectors can be performed with high accuracy.

n Jn=(0、0、…、0) (5) 以上述べた入力パタンと標準パタンとの間で実
行される認識動作の原理を以下に説明する。第1
b図のように0ベクトルが挿入された点を休止点
と呼ぶ。最初の、すなわち単語列の先頭を0とし
以後順に番号づけを行なつて k=0、1、2、…、L (6) なる数字を各休止区間に対応させる。これらの休
止区間の中の何個から単語境界であり、他は単な
る語中の休止区間である。しかし未知の入力パタ
ンAが与えられた段階ではこれらの区別は知られ
ていない。今、第k休止点の時刻iが i=p(k) (7) で与えられるとする。入力パタンAに部分パタン A(x、y)=〓l+1、〓l+2、…、〓n (8) を定義する。ここに l=p(x)、m=p(y) (9) すなわち第x休止点の直後から始まり、第y休止
点に至るまで(第y休止点の0ベクトルを含む)
のベクトル系列を部分パタンA(x、y)として
定義する。この部分パタンは内部に休止点を含ん
でいてもよい。すなわち、部分パタンの終端yは
始端xの直後の休止区間である必要は無い。一般
には x<y (10) いま、この部分区間A(x、y)が真の単語であ
ると仮定とすると、この部分は公知のパタンマツ
チング法によつて認識できる。すなわち、今、ベ
クトル〓iと〓jとの間の距離をd(i、j)で示
す時、上記部分パタンと前記の音声パタンB(一
般性を持ちたせるために添字nを省略)との間の
距離を次のように定義する。
n J n=(0, 0,..., 0) (5) The principle of the recognition operation performed between the input pattern and the standard pattern described above will be explained below. 1st
The point where the 0 vector is inserted as shown in figure b is called the rest point. The first word, that is, the beginning of the word string, is set to 0, and the numbers are sequentially numbered thereafter, and the numbers k=0, 1, 2, . . . , L (6) are made to correspond to each pause section. Some of these pause sections are word boundaries, and others are simply pause sections within words. However, these distinctions are not known at the stage when an unknown input pattern A is given. Now, assume that the time i of the k-th rest point is given by i=p(k) (7). Define subpatterns A(x, y)=〓 l+1 , 〓 l+2 , . . . , 〓 n (8) for input pattern A. Here, l=p(x), m=p(y) (9) That is, starting immediately after the x-th resting point and ending at the y-th resting point (including the 0 vector of the y-th resting point)
Define the vector sequence as a partial pattern A(x,y). This partial pattern may include a rest point inside. That is, the terminal end y of the partial pattern does not need to be a rest section immediately after the starting end x. In general, x<y (10) Now, assuming that this subinterval A(x, y) is a true word, this part can be recognized by a known pattern matching method. That is, now, when the distance between the vectors 〓 i and 〓 j is denoted by d (i, j), the relationship between the above partial pattern and the above speech pattern B (subscript n is omitted for generality) The distance between them is defined as follows.

これは、例えば特願昭54−66589号明細書にお
ける(4)式の距離の定義と同義である。関数j(i)は
単調増加関数であつて j(l+1)=1、j(m)=j (12) なる境界条件を満足する。上記明細書あるいは特
願昭50−132003号明細書の主旨によると、(11)式の
最小化問題は次のようなダイナミツクプログラミ
ング法(DP)によつて計算される。
This is synonymous with the definition of distance in equation (4) in, for example, Japanese Patent Application No. 1983-66589. Function j(i) is a monotonically increasing function and satisfies the following boundary conditions: j(l+1)=1, j(m)=j (12). According to the gist of the above specification or Japanese Patent Application No. 50-132003, the minimization problem of equation (11) is calculated by the following dynamic programming method (DP).

初期条件 g(m、j)=d(m、j) (13) 漸化式 距離 D(A(x、y)、B)=g(l+1、1)
(15) 以上の距離の定義及び計算法は例えば新美康永
著(昭和54年10月10日共立出版株式会社刊)「音
声認識」第108頁に記載された如くDP−マツチン
グ法として広く知られているものである。
Initial condition g (m, j) = d (m, j) (13) Recurrence formula Distance D(A(x,y),B)=g(l+1,1)
(15) The above distance definition and calculation method is widely known as the DP-matching method, as described, for example, in "Speech Recognition" by Yasunaga Niimi (published by Kyoritsu Publishing Co., Ltd. on October 10, 1971), page 108. This is what is being done.

標準パタンとしてBnを代入れて上記の手続き
を実行して得られる距離D(A(x、y)、Bn
をD(x、y、n)と略記する事にする。この距
離が数字単語n=0、1、…、9の全部に対して
求まると、その最小値を求める事によつてこの部
分パタンA(x、y)を認識する事ができる。そ
の結果を 部分判定 部分距離 とする。ここにargminなる記号は〔 〕内の値
の最小を与えるパラメタnを選択する事を意味す
る。
Distance D (A(x, y), B n ) obtained by substituting B n as the standard pattern and executing the above procedure
is abbreviated as D(x, y, n). When this distance is found for all of the numerical words n=0, 1, . . . , 9, this partial pattern A(x, y) can be recognized by finding its minimum value. Partial judgment of the result partial distance shall be. Here, the symbol argmin means to select the parameter n that gives the minimum value in [ ].

以上の部分判定N^(x、y)と部分距離D^
(x、y)をすべての休止点対(x、y)に対し
て求めることにする。以上を第1段処理と呼ぶ。
The above partial judgment N^(x, y) and partial distance D^
Let us find (x, y) for all pairs of resting points (x, y). The above is called first stage processing.

次に入力パタンAの全体について上記分部距離
D^(x、y)の総和を計算し、それが最少となる
ような部分パタン列を求める。ただし、この部分
パタン列は第2図に示すように相互に重複せず、
かつ入力パタンA全体を覆うものであるとする。
この要求は連続発声された単語列中には単語間で
重なり合う部分が無く、かついずれの単語にも属
さない様な余部な部分が無いという意味である。
また、この部分パタン列の中の各部分パタンの間
の境界は前記の休止点のいずれかに一致する必要
がある。以上の事を数式的に表わすと次のように
なる。
Next, the sum of the partial distances D^(x, y) is calculated for the entire input pattern A, and a partial pattern sequence that minimizes the sum is determined. However, as shown in Figure 2, these partial pattern rows do not overlap with each other;
Moreover, it is assumed that the input pattern A is entirely covered.
This requirement means that there are no overlapping parts between words in the continuously uttered word string, and there are no extra parts that do not belong to any word.
Furthermore, the boundary between each partial pattern in this partial pattern sequence must coincide with one of the above-mentioned rest points. The above can be expressed mathematically as follows.

すなわち、単語数Mと単語境界x(0)、x
(1)、…、x(k)、…、x(M)とを最適選択する事
によつてこれら単語境界に対応する部分距離の総
和を最小とするのである。
That is, the number of words M and the word boundaries x(0), x
By optimally selecting (1), . . . , x(k), . . . , x(M), the sum of partial distances corresponding to these word boundaries is minimized.

(16)式の最小化問題を計算し、最適なパラメ
ータK=Mとx(k)=x^(k)、k=0、1、2、…、
M^(ただしx(0)は単語列全体の始点であるの
でx(0)=0、x(M)は単語列全体の終点で
あるのでx(M)=Iであることは自明)を求め
ると、前記の部分判定N^(x、y)を参照するこ
とによつて n^(k)=N^(x^(k−1)、x^(k))、 k=1、2、…、M^ (17) と認識結果が確定する。
Calculate the minimization problem of equation (16) and find the optimal parameters K=M and x(k)=x^(k), k=0, 1, 2,...
M^ (However, since x(0) is the starting point of the entire word string, x(0) = 0, and x(M) is the end point of the entire word string, so it is obvious that x(M) = I). When calculated, by referring to the partial determination N^(x, y) above, n^(k)=N^(x^(k-1), x^(k)), k=1, 2 , ..., M^ (17) and the recognition result is finalized.

(16)式の最小化問題の計算は、例えば前記特
願昭50−132003号明細書の(24)式に示される如
きダイナミツクプログラミング法によつても可能
であるが、本願の場合には休止点に限定して単語
境界を決定すれば良いので問題の規模が小さく、
いわゆる総当り法によつても可能である。すなわ
ち第2図の場合において、単語列全体としての始
端と終端を除外して5個の休止点があるから、こ
れらの各々が単語境界である場合とそうでない場
合の総べての組み合せについて部分距離の群の総
和を計算し最小値を求めることによつて実行され
る。この場合の組み合せの総数は25(休止点か否
か、すなわち1か0かという独立事象が5個あ
る)すなわち32通りであるにすぎない。休止点が
10個ある場合でも1024通りであるにすぎず、1回
の総和計算に100μs必要であるとしても、全体
では102.4ms以内で終了する事になる。
Although the calculation of the minimization problem of equation (16) is possible, for example, by a dynamic programming method as shown in equation (24) in the specification of Japanese Patent Application No. 50-132003, in the case of the present application, The scale of the problem is small because it is only necessary to determine word boundaries at rest points.
This is also possible using the so-called brute force method. In other words, in the case of Figure 2, since there are five resting points excluding the start and end of the word string as a whole, the partial It is performed by calculating the sum of a group of distances and finding the minimum value. The total number of combinations in this case is only 2 5 (there are 5 independent events of whether it is a resting point or not, that is, whether it is 1 or 0), that is, 32 ways. The resting point
Even if there are 10 items, there are only 1024 ways, and even if it takes 100 μs to calculate the total sum once, the total calculation will be completed within 102.4 ms.

これら(16)式の最小化を第2段処理と呼ぶ。
また(17)式の計算を判定処理と呼ぶ。
The minimization of these equations (16) is called second stage processing.
Also, the calculation of equation (17) is called determination processing.

第3図は以上の原理に基づいて動作する高速音
声認識装置の一構成例を示すブロツク図である。
信号線ISを通して入力される音声信号は例えば
「昭和54年9月にオーム社より刊行されたエレク
トロニクス誌の929ページの第2図」に示される
如き周波数分析手段20によつて周波数分析、時
間多重化、標本化、デイジタル化され、(3)式の如
きベクトルの時系例として入力パタンバツフア4
0に送られる。他方レベル検出器30では入力音
声信号の振幅レベルが測定され、レベル信号Lと
して音声検出器50に送られる。音声検出器50
では、入力されるレベル信号Lに基づいて第4図
に示す如き信号q1,q2,bg,enを発生する。す
なわち音声の始端(単語列全体としての始端)で
は始端検出パルスbgか、音声の終端(単語列全
体としての終端)では終端検出パルスenが、そ
れぞれ発生される。また休止区間の始点では休止
区間検出パルスq1が、また休止区間中では休止区
間継続信号q2が発生される。
FIG. 3 is a block diagram showing an example of the configuration of a high-speed speech recognition device that operates based on the above principle.
The audio signal input through the signal line IS is subjected to frequency analysis and time multiplexing by a frequency analysis means 20 as shown in "Figure 2 on page 929 of Electronics magazine published by Ohmsha in September 1974". The input pattern buffer 4 is an example of the time series of vectors expressed in equation (3), which are
Sent to 0. On the other hand, the level detector 30 measures the amplitude level of the input audio signal and sends it as a level signal L to the audio detector 50. voice detector 50
Then, based on the input level signal L, signals q 1 , q 2 , bg, and en as shown in FIG. 4 are generated. That is, a start detection pulse bg is generated at the start of the voice (the start of the entire word string), and an end detection pulse en is generated at the end of the voice (the end of the entire word string). Further, a rest period detection pulse q 1 is generated at the start point of the rest period, and a rest period continuation signal q 2 is generated during the rest period.

制御部10に内蔵されるフレームカウンタの出
力m1と、休止点カウンタの出力k1とは前記の始
端検出パルスbgが発生された時点でそれぞれm1
=1、k1=1とセツトされる。また休止点テーブ
ルの内容はすべて−1にリセツトされた後第0番
地に0が記入される。以後周波数分析部20から
入力パタンのベクトル〓n(時刻i=m)が1個
送られるたびに、フレームカウンタ信号は1ずつ
増加される。このフレームカウンタ信号によつて
番地指定され、休止点テーブルの第m1番地には
休止点カウンタ信号k1が記入される上記のベクト
ル〓iは第m番目のベクトル〓nとして入力パタン
バツフア40に書き込まれる。休止区間の最初に
休止区間検出パルスq1が発生されると、休止点テ
ーブルの第m1番地に1が記入され、入力パタン
バツフアにはベクトル〓nとして、(4)式の如き0
ベクトルが書き込まれる。また休止点カウンタ信
号k1は1だけ増加される。その後、休止区間継続
信号q2が発生されている間はフレームカウンタ信
号mの増加は抑止される。かくの如き制御によつ
て、第1a図のように休止区間を伴なう音声が入
力されても、第1b図のように休止区間を圧縮し
た形式の入力パタンが得られることになる。
The output m 1 of the frame counter built in the control unit 10 and the output k 1 of the rest point counter are respectively m 1 at the time when the start edge detection pulse bg is generated.
=1, k 1 =1. Also, after all the contents of the rest point table are reset to -1, 0 is written at address 0. Thereafter, each time one input pattern vector 〓 n (time i=m) is sent from the frequency analysis section 20, the frame counter signal is incremented by one. The address is specified by this frame counter signal, and the rest point counter signal k1 is written in the m - th address of the rest point table. It can be done. When the rest period detection pulse q 1 is generated at the beginning of the rest period, 1 is written in the m -th address of the rest point table, and the input pattern buffer is filled with 0 as the vector 〓 n , as shown in equation (4).
A vector is written. Also, the rest point counter signal k1 is incremented by one. Thereafter, while the pause period continuation signal q 2 is being generated, the frame counter signal m is inhibited from increasing. With such control, even if a voice with pauses as shown in FIG. 1a is input, an input pattern with the pauses compressed as shown in FIG. 1b can be obtained.

フレームカウンタ信号m1=mで休止点カウン
タ信号k1=yのとき休止区間が始まつたとする。
休止区間検出信号q1がパタンマツチング部70に
送られると前記の第1段処理が開始される。この
ため、前記制御部よりの単語指定信号n1が第5図
のタイムチヤートの如く0、1、2、…、9と変
化され、これによつて標準パタンメモリー130
内の標準パタンBnが順次指定される。いま、一
般的に単語指定信号がn1=nである場合のパタン
マツチング部70の動作を説明する。一般的にn1
=nであるサイクル(13)、(14)式の計算が行な
われる。特に(14)式の計算は、前記特願昭50−
132003号に記しされた如く j+m−Jn−γ≠≦i≦j+m−Jn+γ
(18) なる整合窓内で行なわれ、この結果漸化式値g
(i、1)は 1+m−Jn−γ≦i≦1+m−Jn+γ(19) の範囲で求まる。したがつて距離D(x、y、
n)は m−Jn−γ≦l≦m−Jn+γ すなわち P(x)−Jn−γ≦P(y)≦P(x)−Jn+γ
(20) の条件を満足する休止点xを始端とする部分パタ
ンに対して算出される。(20)の条件を満足する
xが複数個存在する時はこれらのxを始点とする
部分パタンA(x、y)のそれぞれに対して距離
D(x、y、n)が算出される。かくの如きパタ
ンマツチング部70は前記特願昭50−132003号明
細書においても参照されている特願昭50−29891
号明細書の第6図と同様な構成によつて実現でき
る。
Assume that a pause period starts when the frame counter signal m 1 =m and the pause point counter signal k 1 =y.
When the pause section detection signal q 1 is sent to the pattern matching section 70, the first stage processing described above is started. Therefore, the word designation signal n1 from the control section is changed to 0, 1, 2, . . . , 9 as shown in the time chart in FIG.
The standard patterns B n within are sequentially specified. Now, the operation of the pattern matching section 70 when the word designation signal is generally n 1 =n will be explained. generally n 1
=n, calculations of equations (13) and (14) are performed. In particular, the calculation of equation (14) is
As stated in No. 132003, j+m-J n -γ≠≦i≦j+m-J n
(18), and as a result, the recurrence formula value g
(i, 1) is found in the range 1+m-J n -γ≦i≦1+m-J n +γ (19). Therefore, the distance D(x, y,
n) is m-J n -γ≦l≦m-J n +γ, that is, P(x)-J n -γ≦P(y)≦P(x)-J n
(20) It is calculated for the partial pattern whose starting point is the resting point x that satisfies the condition. When there are multiple x's that satisfy the condition (20), the distance D(x, y, n) is calculated for each of the partial patterns A(x, y) starting from these x's. Such a pattern matching section 70 is disclosed in Japanese Patent Application No. 50-29891, which is also referred to in the specification of Japanese Patent Application No. 132003/1983.
This can be realized by a configuration similar to that shown in FIG. 6 of the specification.

かくして計算された距離D(x、y、n)は信
号線D1を経由して最小値検出部80に送られ
る。本題では休止点のみが単語境界たりうるとし
ていることが特徴である。このためアドレス信号
m2=iによつて休止点テーブル60に(19)式
の範囲内で番地指定がなされ、i番地の内容c(i)
が信号線cを経由して読み出される。c(i)が−1
のきには該等する漸化式値g(i、1)は出力さ
れない。c(i)が非負の数xである時はこのxは休
止点番号であるので漸化式値g(i、1)が距離
D(x、y、n)として出力される。またこの休
止点番号c(i)は信号線k2経由して部分距離メモリ
ー90と、部分判定メモリー100とに送られ
る。以上の動作は単語指定信号nが0から9まで
変化する間繰り返される。
The distance D (x, y, n) thus calculated is sent to the minimum value detection section 80 via the signal line D1 . The feature of this paper is that only resting points can be word boundaries. For this reason, the address signal
An address is specified in the rest point table 60 within the range of equation (19) by m 2 =i, and the content of address i is c(i)
is read out via signal line c. c(i) is -1
In this case, the corresponding recurrence formula value g(i, 1) is not output. When c(i) is a non-negative number x, since x is a rest point number, the recurrence formula value g(i, 1) is output as the distance D(x, y, n). This rest point number c(i) is also sent to the partial distance memory 90 and the partial determination memory 100 via the signal line k2 . The above operations are repeated while the word designation signal n changes from 0 to 9.

最小値検出部80では、前記パタンマツチング
部70より信号線D1を経由して出力される距離
D(x、y、n)を大小比較する。その結果とし
て同一の休止点対(x、y)に対しては単語nに
関して距離D(x、y、n)の最小値を算出し
(17)式の部分距離D^(x、y)とし、またその
最小値を与える単語を(16)式の部分判定N^
(x、y)とする。これらはそれぞれ信号D^とN^
を経由してそれぞれ部分距離メモリー90と部分
判定メモリー100とに記入される。この場合の
番地指定は前記制御部10からの休止点カウント
信号k1によつて与えられる休止点番号xと前記パ
タンマツチング部70から信号線k2を通して与え
られる休止点番号yとによつてなされる。この動
作に関与する最小値検出部70、部分判定メモリ
ー100、部分距離テーブル90との全体として
の構成は一例として特願昭51−18346号明細書の
第2図に示された第1比較回路16、部分判定結
果テーブル18、部分類似度テーブル17の構成
接続と同様であつても良い。
The minimum value detection section 80 compares the distances D (x, y, n) outputted from the pattern matching section 70 via the signal line D1 . As a result, for the same resting point pair (x, y), calculate the minimum value of the distance D(x, y, n) with respect to word n and use it as the partial distance D^(x, y) of equation (17). , and the word that gives the minimum value is determined by partial judgment N^ of equation (16).
Let it be (x, y). These are the signals D^ and N^, respectively.
are entered into the partial distance memory 90 and partial determination memory 100, respectively. In this case, the address is designated by the rest point number x given by the rest point count signal k1 from the control section 10 and the rest point number y given from the pattern matching section 70 through the signal line k2 . It will be done. The overall configuration of the minimum value detection section 70, partial determination memory 100, and partial distance table 90 that are involved in this operation is, for example, the first comparison circuit shown in FIG. 16, the partial determination result table 18, and the partial similarity table 17 may have the same configuration and connection.

以上の手続きは入力パタンのベクトル〓nが入
力されかつ休止区間が発見されるたび(すなわ
ち、休止区間検出パルスq1が発生されるたび)に
繰り返される。最後に終端検出パルスenが発生
された時点の休止点カウント信号k1が(K+2)
となつているとする。この時、最後の休止点の番
号(すなわち単語列としての終端)は(K+1)
となている。したがつて、 0≦x<y≦K+1 (21) なる範囲内の休止点xとyの組み合せに対して部
分判定N^(x、y)と部分距離D^(x、y)とが
前記の部分判定メモリー100と部分距離メモリ
ー90とに記載されている。
The above procedure is repeated every time the input pattern vector 〓 n is input and a pause section is found (that is, every time the pause section detection pulse q 1 is generated). The rest point count signal k 1 at the time when the last end detection pulse en is generated is (K+2)
Suppose that it is. At this time, the number of the last resting point (that is, the end of the word string) is (K+1)
It becomes. Therefore, for a combination of resting points x and y within the range 0≦x<y≦K+1 (21), the partial judgment N^(x, y) and the partial distance D^(x, y) are as follows. are written in the partial determination memory 100 and the partial distance memory 90.

前記の終端検出パルスeoが第2段処理部11
0に与えられると、(16)式の計算が始められ
る。この第2段処理部は周知のマイクロプロセツ
サで構成されており、次のような動作を行なう。
(16)式の計算を総当り法で行なうために、K個
の休止点(単語列全体としての始端と終端を除
く)の各々が真の単語境界である場合とそうでな
い場合の総ての組合せを調べる必要がある。この
ため、第6図のような考え方で休止点(x、y)
の組み合せを発生する。すなわちKビツトのカウ
ンタ1101を仮定し、このカウンタを初期値1
として以後1ずつ加算する。そのKビツトの出力
γによつてアドレステーブル1102をマスクし
てγ=1のビツトが入力しているアドレスのみを
出力する。アドレステーブルには0から(K+
1)までの整数が記録されており、アドレス0と
アドレス(K+1)とは常時出力されている。こ
れは単語列の始点と終点とが休止区間として扱わ
れている事実に対応する。これらのアドレス群は
スキヤナーによつて対として走査され、低位アド
レスをx=x(k−1)、高位アドレスをy=x
(k)とするアドレス対k3=(x、y)として部分距
離メモリー90に送られる。これによつて部分距
離D^(x(k−1)、x(k))が信号線D^を通し
て読み出される。このような番地指定と読み出し
を続けながら第6図のスキヤンを行ないつつ、部
分距離の総和を計算する。次にはカウンタ110
1の内容を1だけ増加して上記と同様な手続きを
行なつて総和を計算する。かくしてカウンタ11
01の内容が総て1になるまで繰返し総和を計算
する。この総和群の計算に並行してそれらの最小
値を求める。この最小値が得られた時のアドレス
群(第6図のアドレステーブルでγ=1が指定さ
れているアドレス)が下位アドレスからx^(k)、k
=0、1、2、…、M^(ただし、M^はγ=1とな
るアドレスの総数)となる。かくして、(16)式
の最小化が完了した。すなわち第2段処理が終了
した。
The end detection pulse e o is sent to the second stage processing section 11.
When set to 0, calculation of equation (16) begins. This second stage processing section is composed of a well-known microprocessor, and performs the following operations.
In order to calculate equation (16) using the brute force method, we calculate all the cases where each of the K resting points (excluding the start and end of the entire word string) is a true word boundary and when it is not. I need to check the combination. Therefore, using the concept shown in Figure 6, the resting point (x, y)
generate a combination of In other words, assume a K-bit counter 1101, and set this counter to an initial value of 1.
, and then increment by 1. The address table 1102 is masked by the K-bit output γ, and only the addresses to which the bit with γ=1 is input are output. The address table starts from 0 (K+
Integers up to 1) are recorded, and address 0 and address (K+1) are always output. This corresponds to the fact that the start and end points of a word string are treated as a pause section. These addresses are scanned in pairs by a scanner, with the low address x=x(k-1) and the high address y=x
(k) is sent to the partial distance memory 90 as an address pair k 3 =(x,y). As a result, the partial distance D^(x(k-1), x(k)) is read out through the signal line D^ 1 . The total sum of partial distances is calculated while performing the scanning shown in FIG. 6 while continuing such address designation and reading. Next is the counter 110
The contents of 1 are incremented by 1 and the same procedure as above is performed to calculate the sum. Thus counter 11
The sum is calculated repeatedly until the contents of 01 become all 1. In parallel with this calculation of the sum group, find their minimum value. When this minimum value is obtained, the address group (addresses for which γ = 1 is specified in the address table in Figure 6) is x^(k), k from the lower address.
=0, 1, 2,..., M^ (where M^ is the total number of addresses for which γ=1). Thus, the minimization of equation (16) is completed. In other words, the second stage processing has ended.

(16)式の最適パラメータ(単語境界に対応す
る休止点番号)n^(x)が求まつた後の判定処理
は判定部120により(17)式を実行することに
よつて実行される。すなわちx^=x^(k−1)、
y=x^(k)の対よりなるアドレス信号k4を部分判定
メモリー100に送つてN(x^、y^)を信号N1
として読み出すという手続きをk=1、2、…、
M^と繰り返すことによつて実行される。これらの
判定結果n^(k)は信号線n^を経由して外部へ出力さ
れる。この判定処理は簡単であるので判定部12
0は前記の第2段処理部110と同一共通のマイ
クロプロセツサであつて良い。
After the optimal parameter (pause point number corresponding to the word boundary) n^(x) of equation (16) is determined, the judgment process is performed by executing equation (17) by the judgment unit 120. That is, x^=x^(k-1),
Send address signal k 4 consisting of a pair of y=x^(k) to partial judgment memory 100 and send N(x^, y^) to signal N 1
The procedure of reading out as k=1, 2,...
It is executed by repeating M^. These determination results n^(k) are output to the outside via the signal line n^. Since this determination process is simple, the determination unit 12
0 may be the same common microprocessor as the second stage processing section 110 described above.

以上本発明の構成を実施例に基づいて説明した
がこれらの記載は本発明の範囲を限定するもので
はない。特に第2段処理部の構成及び動作は特願
昭50−29891号、特願昭50−132003号、特願昭50
−132004号、特願昭51−18346号明細書に記載さ
れているが如き構成と動作によつても良い。ま
た、本願ではベクトル間の距離を類似性の尺度と
したが特願昭50−132003号明細書の場合のよう
に、ベクトル間の内積を用いてもよい。この場合
には本願における最小値検出の操作はすべて最大
値検出操作におきかえられる必要がある。
Although the configuration of the present invention has been described above based on examples, these descriptions do not limit the scope of the present invention. In particular, the structure and operation of the second stage processing section are disclosed in Japanese Patent Application No. 50-29891, Japanese Patent Application No. 132003-1973,
The configuration and operation described in Japanese Patent Application No. 132004 and Japanese Patent Application No. 51-18346 may also be used. Further, in this application, the distance between vectors is used as a measure of similarity, but the inner product between vectors may be used as in the case of Japanese Patent Application No. 132003/1983. In this case, all minimum value detection operations in the present application must be replaced with maximum value detection operations.

【図面の簡単な説明】[Brief explanation of the drawing]

第1a図、第1b図、第2図は本発明の動作原
理を説明するための図、第3図は本発明の一実施
例を示すブロツク図、第4図、第5図はタイムチ
ヤート、第6図は第3図ブロツク図の一部構成を
説明するためのブロツク図である。 図において、10は制御部、20は分析部、3
0はレベル検出器、40は入力パタンバツフア、
50は音声検出器、60は休止点テーブル、70
はパタンマツチング部、80は最小値検出部、9
0は部分距離メモリー、100は部分判定メモリ
ー、110は第2段処理部、120は判定部、1
30は標準パタンメモリー、1101はカウン
タ、1102はアドレステーブルをそれぞれ示
す。
Figures 1a, 1b, and 2 are diagrams for explaining the operating principle of the present invention, Figure 3 is a block diagram showing an embodiment of the present invention, Figures 4 and 5 are time charts, FIG. 6 is a block diagram for explaining a part of the configuration of the block diagram of FIG. 3. In the figure, 10 is a control section, 20 is an analysis section, 3
0 is a level detector, 40 is an input pattern buffer,
50 is a voice detector, 60 is a rest point table, 70
is a pattern matching section, 80 is a minimum value detection section, 9
0 is a partial distance memory, 100 is a partial judgment memory, 110 is a second stage processing section, 120 is a judgment section, 1
30 is a standard pattern memory, 1101 is a counter, and 1102 is an address table.

Claims (1)

【特許請求の範囲】[Claims] 1 入力音声波形を分析しベクトル系列として表
現される入力パタンに変換するための分析部と、
標準パタンを記憶するための標準パタンメモリー
と、入力音声の振幅を検定して前記入力パタン内
に休止点を決定するための手段と、各休止点と別
の休止点との間の区間として定義される部分パタ
ンと前記標準パタンとの距離を算出するためのパ
タンマツチング部と、各標準パタンに対して算出
される距離を比較してその最小値である部分距離
とその最小値を与える単語名たる部分判定を算出
するための最小値検出部と、前記入力パタン内の
各休止点によつて区分され重複せずかつ入力パタ
ン全体を覆う部分パタン群を各部分パタンに対応
する前記部分距離の総和が最小となるように定め
る手段と、これによつて定まる各部分パタンに対
応する前記部分判定を認識結果として定め出力す
るための判定部とより構成されることを特徴とす
る高速音声認識装置。
1 an analysis unit for analyzing an input audio waveform and converting it into an input pattern expressed as a vector sequence;
a standard pattern memory for storing standard patterns; a means for testing the amplitude of input audio to determine resting points within said input pattern; and defined as an interval between each resting point and another resting point. a pattern matching unit for calculating the distance between the partial pattern and the standard pattern; and a word that compares the distances calculated for each standard pattern and gives the minimum value of the partial distance and the minimum value. A minimum value detection unit for calculating a famous partial judgment, and a partial distance corresponding to each partial pattern, which is divided by each rest point in the input pattern, and detects a group of partial patterns that do not overlap and cover the entire input pattern. A high-speed speech recognition system comprising: a means for determining the sum of the sums thereof to be a minimum; and a determining unit for determining and outputting the partial determination corresponding to each partial pattern determined by this as a recognition result. Device.
JP4168180A 1980-03-31 1980-03-31 High speed voice recognition device Granted JPS56138798A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4168180A JPS56138798A (en) 1980-03-31 1980-03-31 High speed voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4168180A JPS56138798A (en) 1980-03-31 1980-03-31 High speed voice recognition device

Publications (2)

Publication Number Publication Date
JPS56138798A JPS56138798A (en) 1981-10-29
JPS6232799B2 true JPS6232799B2 (en) 1987-07-16

Family

ID=12615163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4168180A Granted JPS56138798A (en) 1980-03-31 1980-03-31 High speed voice recognition device

Country Status (1)

Country Link
JP (1) JPS56138798A (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59204099A (en) * 1983-05-06 1984-11-19 沖電気工業株式会社 Voice recognition system
JPS6078494A (en) * 1983-10-05 1985-05-04 松下電器産業株式会社 Pattern matching unit
JPH0679232B2 (en) * 1984-08-20 1994-10-05 株式会社リコー Voice recognizer
JP2655637B2 (en) * 1985-04-08 1997-09-24 株式会社リコー Voice pattern matching method
JPS62265699A (en) * 1986-05-14 1987-11-18 富士通株式会社 Word voice recognition equipment

Also Published As

Publication number Publication date
JPS56138798A (en) 1981-10-29

Similar Documents

Publication Publication Date Title
CN109065031B (en) Voice labeling method, device and equipment
US5526466A (en) Speech recognition apparatus
US4535473A (en) Apparatus for detecting the duration of voice
JPS6131477B2 (en)
US5774836A (en) System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
JPH0159600B2 (en)
US6393398B1 (en) Continuous speech recognizing apparatus and a recording medium thereof
US4677673A (en) Continuous speech recognition apparatus
JP2980026B2 (en) Voice recognition device
US5375173A (en) Speaker adapted speech recognition system
JPS6232799B2 (en)
EP0162255A1 (en) Pattern matching method and apparatus therefor
US4344031A (en) Method and device for verifying signals, especially speech signals
JP4199927B2 (en) Method and apparatus for recognizing at least one keyword in spoken language by a calculator
JPH0555039B2 (en)
JPS6312312B2 (en)
JP3477751B2 (en) Continuous word speech recognition device
JP2853418B2 (en) Voice recognition method
JP2975772B2 (en) Voice recognition device
EP0144827B1 (en) Pattern recognition system and method
JP3031081B2 (en) Voice recognition device
JP2719330B2 (en) Envelope generator
JPH11272290A (en) Word determining method for sound signal
JPH05181498A (en) Pattern recognition device
JP2000099077A (en) Voice recognition device