JPS61148496A - Continuous voice recognition equipment - Google Patents

Continuous voice recognition equipment

Info

Publication number
JPS61148496A
JPS61148496A JP59269919A JP26991984A JPS61148496A JP S61148496 A JPS61148496 A JP S61148496A JP 59269919 A JP59269919 A JP 59269919A JP 26991984 A JP26991984 A JP 26991984A JP S61148496 A JPS61148496 A JP S61148496A
Authority
JP
Japan
Prior art keywords
pattern
standard
standard pattern
section
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59269919A
Other languages
Japanese (ja)
Other versions
JPH0346840B2 (en
Inventor
誠夫 亘理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP59269919A priority Critical patent/JPS61148496A/en
Publication of JPS61148496A publication Critical patent/JPS61148496A/en
Publication of JPH0346840B2 publication Critical patent/JPH0346840B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明の連続音声認識装置に関し、特に文法に従って連
続発声された文音声を認識する装置の改良に関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a continuous speech recognition device, and particularly relates to an improvement of a device that recognizes sentence speech continuously uttered according to grammar.

(従来の技術) 音声認識装置の中でも文法に従って発声された文音声を
認識する装置は、計算機プログラムや限定業務用文章あ
るいは航空管制や各種機器の制御用指令などの認識がで
き広範囲な応用分野を有している。文法の拘束が与えら
れている場合には、その文法規則を利用することによっ
て誤認識を防止できることが原理的に知られている。特
に連続数字認識において入力音声に桁数の制約がある場
合、その制約を規則化することにより認識率を改善する
ことができる。
(Prior art) Among speech recognition devices, devices that recognize sentence sounds uttered according to grammar can recognize computer programs, limited business texts, air traffic control and control commands for various equipment, etc., and have a wide range of applications. have. It is known in principle that when grammatical constraints are given, misrecognition can be prevented by using the grammatical rules. In particular, when there is a restriction on the number of digits in input speech in continuous number recognition, the recognition rate can be improved by regularizing the restriction.

このような文法に従って連続に発声された文音声を認識
する手法が本願の発明者による特願昭59−68015
号明細書「連続音声認識装置」K記載されている。
A method of recognizing sentence sounds continuously uttered according to such a grammar was proposed in Japanese Patent Application No. 59-68015 by the inventor of the present application.
``Continuous Speech Recognition Device'' is described in the specification of No. K.

この原理である斜めブロックワイズDPマツチング法は
大路次のようである。文法をオートマトンαで表現し、
そのオートマトンαを次のように定義する。
The principle of this diagonal blockwise DP matching method is as follows. Expressing the grammar with automaton α,
The automaton α is defined as follows.

α−<K、Σ、ΔtPo、F>   ・・・・・m1・
(1)ここで、K:状態pの集合(plp−1,2゜・
・・π) Σ:入力単語nの集合(rlIn”1゜2、・・・N) Δ:状態遷移規則[(p、  q、  n)]ここで、
(p、q、n)はp!−q なる状態遷移を意味する。
α−<K, Σ, ΔtPo, F> ・・・・・・m1・
(1) Here, K: set of states p (plp-1, 2°・
...π) Σ: Set of input words n (rlIn"1゜2,...N) Δ: State transition rule [(p, q, n)] where,
(p, q, n) is p! −q means a state transition.

Po:初期状態、以後はp−0で示す。Po: initial state, hereinafter indicated as p-0.

F:最終状態集合FcK 次に前記オートマトンαに従って単語1EE−Σを連続
して発声して得られる音声パタンAをA z al 、
az、 ・−al+ ・++ az    ”・” (
2)で示し、これを(未知)入力パタンと呼ぶ。容重1
lnerに対して標準的なパタン B”−b:、b星、・・・b″ ・・・b=   ・・
・・・・・・・(3)°j°。
F: Final state set FcK Next, the speech pattern A obtained by continuously uttering the word 1EE-Σ according to the automaton α is A z al ,
az, ・-al+ ・++ az “・” (
2), and this is called an (unknown) input pattern. Weight 1
The standard pattern for lner is B"-b:, b star,...b"...b=...
・・・・・・・・・(3)°j°.

を用意し、これを単語標準パタンと呼ぶ。この単語標準
パタンB″をオートマトンαに従って接続することによ
って得られる連続音声標準パタンC−B” 、B“2.
・・・B′と入カパタン人とのDPマツチングを行い、
2つのパタンの相互に異なる度合を表わす量(以下相異
度と称する)を算出し、最小の相異度を与える単語系列
を認識結果とする。
is prepared and called a word standard pattern. Continuous speech standard patterns C-B", B"2. which are obtained by connecting this word standard pattern B" according to the automaton α.
...Perform DP matching between B' and the incoming person,
A quantity representing the degree of mutual difference between two patterns (hereinafter referred to as a degree of dissimilarity) is calculated, and a word sequence that provides the minimum degree of dissimilarity is taken as a recognition result.

ここで最小の相異度を次のような動的計画の手法で求め
る。初期条件を T(o、o)−。
Here, the minimum degree of dissimilarity is found using the following dynamic programming method. The initial condition is T(o,o)−.

T(m+q)=”、m〆0eQ−〇  −(4)G(p
、n、j)−閃 とし、iりlよりI/IL (ここでI/ILは説明の
簡単のため割シ切れるとする)まで屓次次の(5)(6
″Xの境界条件を基に(7)式の漸化式を(p、q。
T(m+q)=”, m〆0eQ−〇−(4)G(p
.
``Based on the boundary conditions of

n)εΔなるすべての対(p、n)について計算する。n) Calculate for all pairs (p, n) such that εΔ.

すなわち、境界条件を とし、J−1e・・・Joなる各標準パタン時刻jにつ
いて msj=ms。十(j −a) m@j ”m穆j+IL−ま ただしくX)はXよシ小さな最大の整数とし、境界条件 とし、漸化式 を時刻m””m、Jよ’)ma」まで計算し、境界値で
あるg(mej* j)−11(mej+ j)をそれ
ぞれテーブル記憶G(p、n、D、H(p、n、j)へ
格納する。
That is, the boundary condition is set, and msj=ms for each standard pattern time j of J-1e...Jo. 10 (j - a) m@j ``m 穆 j + IL - Matadashiku Then, the boundary values g(mej*j)-11(mej+j) are stored in the table storage G(p, n, D, H(p, n, j), respectively).

(7)式の計算が標準パタン時刻j−Jζで終了した後
、単語境界における最小化として以上述べたように(7
)式の漸化式計算は、第2図に示すように入力パタンの
ニレフレーム分をブロック化し、さらに斜めに傾斜させ
た斜めブロックごとに実行している。
After the calculation of equation (7) is completed at standard pattern time j−Jζ, as described above, (7
) is calculated by dividing the input pattern into blocks for each elm frame as shown in FIG. 2, and executing the calculation for each diagonal block that is further tilted diagonally.

最後に、入力パタンの認識結果は判定処理として次のよ
うな手続きにより求められる。
Finally, the recognition result of the input pattern is determined by the following procedure as a determination process.

初期条件 q=argmin      ・・・・・・
(9)qEF Q”q、m−I       ・・・・・・(10)を
求める。
Initial condition q=argmin ・・・・・・
(9) Find qEF Q”q, m-I (10).

もし?>oならばq−6+ In −’jとして(11
)式を繰シ返す。l!−0ならば終了。
if? > o, then q-6+ In -'j (11
) repeat the formula. l! If it is -0, it ends.

(従来技術の問題点) 前述の特願昭59−68015の方法では、標準パタン
を計算の途中結果であるG(p 、 n 、 j ) 
、H(p 。
(Problems with the Prior Art) In the method of the above-mentioned Japanese Patent Application No. 59-68015, the standard pattern is converted into G(p, n, j) which is an intermediate result of calculation.
, H(p.

n+ J )の読み出し、書き込み回数はブロック幅I
LK反比例しておシ、このブロック幅ILが大きいほど
メモリアクセス時間を少なくすることができる。
n+J) read and write times are block width I
Inversely proportional to LK, the larger the block width IL, the shorter the memory access time.

一方、このブロック幅ILには%aBLをブロックの傾
きとすると、 ml n (J” ’J / aBL 4 IL   
 ・・” (12)なる制約条件がちシ、最大ブロック
幅は標準パタンの最小フレーム数に依存する。例えば、
aBLはDPマツチングバスの最大傾きと等しく通常2
であるので標準パタンの最小フレーム数を10とすれば
、IL−5とすることができる。しかし、IL−5とす
れば10フレームよシ小さい標準パタンの計算は実行で
きない。
On the other hand, for this block width IL, if %aBL is the block slope, then ml n (J"'J / aBL 4 IL
..." (12) The maximum block width depends on the minimum number of frames of the standard pattern. For example,
aBL is equal to the maximum slope of the DP matching bus, usually 2
Therefore, if the minimum number of frames of the standard pattern is 10, it can be set to IL-5. However, with IL-5, calculations for standard patterns smaller than 10 frames cannot be performed.

このように従来技術による方法では、ILxaBLフレ
ームよシ短い標準パタンか存在する場合は、ブロック幅
ILを小さく変更しなければならず、メモリアクセス時
間が増加し認識結果が得られるまでの応答時間が大きく
なるという欠点があった。
In this way, in the conventional method, if there is a standard pattern that is shorter than the ILxaBL frame, the block width IL must be changed to a smaller value, which increases memory access time and reduces the response time until recognition results are obtained. It had the disadvantage of being large.

また、ブロック幅ILは漸化式計算の制御部で定めてお
シ、利用者が変更できない場合、標準パタンかILxa
BLフレームよシ長くなるまで再度登録をやシ直さなけ
ればならないという欠点があった。さらに、ブロック幅
ILを変更できるように装置を構成する場合回路が複雑
になるという欠点もあった。
In addition, the block width IL must be determined by the control section of the recurrence formula calculation, and if the user cannot change it, the block width IL can be determined using the standard pattern or ILxa.
There was a drawback that the registration had to be repeated again until the BL frame was longer. Furthermore, when the device is constructed so that the block width IL can be changed, the circuit becomes complicated.

(発明の目的) 本発明の目的は、標準パタンを登録時に許容されるパタ
ン長よシ短い標準パタンかある場合、その短い標準パタ
ンを伸長し、許容パタン長以上の長さの標準パタンに置
き換えることにより、前記欠点を解決し、ブロック幅I
Lを変更させることがなく常に短い一定の応答時間内に
認識結果を出力できる連続音声認識装置を提供すること
にある。
(Objective of the Invention) The object of the present invention is to expand the short standard pattern and replace it with a standard pattern whose length is longer than the allowable pattern length, if there is a standard pattern that is shorter than the allowable pattern length when registering the standard pattern. By solving the above drawback, the block width I
To provide a continuous speech recognition device that can always output recognition results within a short constant response time without changing L.

(発明の構成) 本発明の連続音声認識装置の構成は、標準パタンを登録
する際に標準パタン長が許容パタン長より長いか否かを
検定するパタン長検定部と、このパタン長検定部にて標
準パタン長が短いと判定されたときこの標準パタンを前
記許容パタン長以上に伸長する伸長パタン部と、前記有
限状態オートマトンにより指定される全ての組合せに対
して単語標準パタンを連結した連続標準パタンと入力パ
タンとの最小距離を入力パタン上で所定の時間幅を持ち
標準パタン軸に対した傾斜した斜めブロックごとに動的
計画法を用いて計算する斜めブロックワイズDPマツチ
ング部と、この斜めブロッククイズDPマツチング部で
求められた最小距離が得られる単語の組合せを認識結果
として出力する認識出力部と備えることを特徴とする。
(Structure of the Invention) The structure of the continuous speech recognition device of the present invention includes a pattern length verification section that verifies whether or not the standard pattern length is longer than the allowable pattern length when registering a standard pattern; an extension pattern section that extends the standard pattern to a length greater than the allowable pattern length when the standard pattern length is determined to be short; and a continuous standard that connects word standard patterns for all combinations specified by the finite state automaton. A diagonal blockwise DP matching unit that calculates the minimum distance between a pattern and an input pattern using dynamic programming for each diagonal block that has a predetermined time width on the input pattern and is tilted with respect to the standard pattern axis; The present invention is characterized by comprising a recognition output unit that outputs a combination of words that yields the minimum distance determined by the block quiz DP matching unit as a recognition result.

(実施例) 次に本発明を図面に従って詳細に説明する。(Example) Next, the present invention will be explained in detail with reference to the drawings.

第1図は本発明の一実施例を示すブロック図である。マ
イクロホン1よシ音声が入力されると、音声分析部2に
よって音声分析、例えば周波数分析が行われ特徴を示す
ベクトル時系列に変換されると同時に音声検出が行われ
、音声が存在する時刻の区間が求められる。
FIG. 1 is a block diagram showing one embodiment of the present invention. When a voice is input from the microphone 1, the voice analysis unit 2 performs voice analysis, for example, frequency analysis, converts it into a vector time series indicating characteristics, and at the same time performs voice detection to determine the time interval in which the voice exists. is required.

利用者は初めに定められた単語セットΣ−(n)の音声
を発声し、標準パタンとして標準パタンメモリ6へ登録
する。この登録を行う場合、スイッチS1は下側へ倒さ
れる。音声分析部2より得られた音声区間長lがパタン
長検定部3へ送られ、許容パタン長/mtと比較器によ
り比較される。また、/:hemt の場合は、制御線
Cを介してスイッチS2.S3がA側へ倒され、音声分
析部2で得られた特徴ベクトルの時系列が標準パタンと
して標準メタ/メモリ6に格納される。
The user first utters the voice of the set of words Σ-(n) and registers it in the standard pattern memory 6 as a standard pattern. When performing this registration, switch S1 is pushed down. The speech segment length l obtained from the speech analysis section 2 is sent to the pattern length verification section 3, where it is compared with the allowable pattern length/mt by a comparator. Also, in the case of /:hemt, the switch S2. S3 is turned to the A side, and the time series of feature vectors obtained by the speech analysis section 2 is stored in the standard meta/memory 6 as a standard pattern.

一方、l<1H1tの場合は制御線Cを介してスイッチ
s2.s3がB側へ倒され、音声分析部2で得られた特
徴ベクトル時系列がパタン伸長部4へ送られる。このパ
タン伸長部4では1mt−7個の特徴ベクトルが等間隔
に挿入され、l!フレームのパタンか線形に伸長されて
1mt7レームのパタンとなる。この場合挿入する特徴
ベクトルは隣接する特徴ベクトルと同一のものである。
On the other hand, if l<1H1t, the switch s2. s3 is moved to the B side, and the feature vector time series obtained by the speech analysis section 2 is sent to the pattern expansion section 4. In this pattern expansion section 4, 1mt-7 feature vectors are inserted at equal intervals, and l! The frame pattern is linearly expanded to become a 1mt7 frame pattern. In this case, the feature vector to be inserted is the same as the adjacent feature vector.

このパタン伸長部4にて伸長されたパタンは標準パタン
メモリ6に格納される。
The pattern expanded by the pattern expansion section 4 is stored in the standard pattern memory 6.

以上のようにしてすべての単語が登録された後に、スイ
ッチS1はR側へ倒され、認識が開始される。未知の入
力音声は登録時と同様に音声分析部2にて特徴ベクトル
の時系列に変換され入力パタンメモリ5に格納される。
After all the words are registered as described above, the switch S1 is turned to the R side and recognition is started. The unknown input voice is converted into a time series of feature vectors by the voice analysis unit 2 and stored in the input pattern memory 5, as in the case of registration.

続いて斜めブロックワイズDPマツチング部7にて、入
力パタンと標準パタンの関でDPマツチングが行われ、
(4)式を初期値として(5)、 (6) 。
Next, in the diagonal blockwise DP matching section 7, DP matching is performed between the input pattern and the standard pattern.
(5) and (6) using equation (4) as the initial value.

(7) 、 (8)式が計算される。この斜めブロック
ワイズDPマツチング部7は特願昭59−68015に
記載されている実施例を用いることができる。
Equations (7) and (8) are calculated. As this diagonal blockwise DP matching section 7, the embodiment described in Japanese Patent Application No. 59-68015 can be used.

最後に、認識結果の出力として判定部8では(9)、(
10)、(11)式が計算され認識結果nが出力される
。この判定部8も特願昭59−68015に記載されて
いる判定部を用いることができる。
Finally, as an output of the recognition result, the determination unit 8 outputs (9), (
10) and (11) are calculated and the recognition result n is output. This determining section 8 can also use the determining section described in Japanese Patent Application No. 59-68015.

以上本発明を実施例にもとづいて説明したが、これらの
記載は本発明の権利範囲を限定するものではない。本実
施例のパタン伸長部ではパタンを線形に伸長したが、パ
タンを非線形に伸長する方法も考えられる。例えば、同
じカテゴリですでに登録されているパタンとDPマツチ
ングを行い、その結果求められたDPマツチングパスよ
シ伸長させたいパタンとすでに登録されているパタンと
の間の時間対応を求めその時間対応に従って伸長させる
方法も考えられる。
Although the present invention has been described above based on examples, these descriptions do not limit the scope of the rights of the present invention. Although the pattern expansion section of this embodiment linearly expands the pattern, a method of non-linearly expanding the pattern is also conceivable. For example, perform DP matching with a pattern already registered in the same category, use the resulting DP matching path to find the time correspondence between the pattern you want to expand and the already registered pattern, and follow that time correspondence. A method of elongation is also considered.

(発明の効果) 以上説明したように、本発明の連続音声NR装置では、
登録時にパタン長を検定し許容されるパタン長よシ短い
場合はそのパタンを伸長することにより、標準パタンを
許容パタン長より常に長くできる。これによって斜めブ
ロックワイズDrマツチング部の計算単位であるブロッ
ク幅ILを小さく変更する必要がなくなシ、常に短い一
定の応答時間内に認識結果を得ることができる。また、
従来の方法では標準パタンか短い場合パタンか長くなる
まで登録をやり直さなければならなかったが、本発明で
は再登録する必要はなくな)使い勝手が向上する。
(Effects of the Invention) As explained above, in the continuous speech NR device of the present invention,
The standard pattern can always be made longer than the allowable pattern length by verifying the pattern length at the time of registration and expanding the pattern if it is shorter than the allowable pattern length. This eliminates the need to reduce the block width IL, which is the calculation unit of the diagonal blockwise Dr matching section, and it is possible to always obtain recognition results within a short constant response time. Also,
In the conventional method, if the standard pattern was short, it was necessary to re-register it until the pattern became long, but with the present invention, there is no need to re-register it, thereby improving usability.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
斜めブロックワイズDPマツチングの計算手順を示す図
である。図において 1・・・・・・マイクロ、ホン、2・・・・・・音声分
析部、3・・・・・・パタン長検定部、4・・・・・・
パタン伸長部、5・・・・・・入力パタンメモ1ハ 6
・・・・・・標準パタンメモ1ハ 7・・・・・・斜め
ブロックワイズDPマツチング部、8・・・・・・判定
部、
FIG. 1 is a block diagram showing an embodiment of the present invention, and FIG. 2 is a diagram showing a calculation procedure for diagonal blockwise DP matching. In the figure, 1...Microphone, 2...Speech analysis section, 3...Pattern length verification section, 4...
Pattern extension section, 5... Input pattern memo 1c 6
...Standard pattern memo 1c 7...Diagonal blockwise DP matching section, 8...Judgment section,

Claims (1)

【特許請求の範囲】[Claims] 有限状態オートマトンにより指定される単語列を連続に
発声した音声を標準パタンとDPマッチングすることに
より認識する連続音声認識装置において、前記標準パタ
ンを登録する際に標準パタン長が許容パタン長より短い
か否かを検定するパタン長検定部と、このパタン長検定
部にて標準パタン長が短いと判定されたときこの標準パ
タンを前記許容パタン長以上に伸長する伸長パタン部と
、前記有限状態オートマトンにより指定される全ての組
合せに対して単語標準パタンを連結した連続標準パタン
と入力パタンとの最小距離を入力パタン上で所定の時間
の幅を持ち標準パタン軸に対した傾斜した斜めブロック
ごとに動的計画法を用いて計算する斜めブロックワイズ
DPマッチング部と、この斜めブロックワイズDPマッ
チング部で求められた最小距離が得られる単語の組合せ
を認識結果として出力する認識出力部とを備えることを
特徴とする連続音製認識装置。
In a continuous speech recognition device that recognizes speech in which a string of words specified by a finite state automaton is continuously uttered by performing DP matching with a standard pattern, when registering the standard pattern, is the standard pattern length shorter than the allowable pattern length? a pattern length testing section that tests whether or not the standard pattern length is short; an extension pattern section that extends the standard pattern beyond the allowable pattern length when the pattern length testing section determines that the standard pattern length is short; and the finite state automaton. For all specified combinations, the minimum distance between the input pattern and a continuous standard pattern in which word standard patterns are connected is calculated by moving each diagonal block with a predetermined time width on the input pattern and tilted with respect to the standard pattern axis. The present invention is characterized by comprising a diagonal blockwise DP matching section that calculates using a logical programming method, and a recognition output section that outputs a combination of words that yields the minimum distance determined by the diagonal blockwise DP matching section as a recognition result. Continuous sound recognition device.
JP59269919A 1984-12-21 1984-12-21 Continuous voice recognition equipment Granted JPS61148496A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59269919A JPS61148496A (en) 1984-12-21 1984-12-21 Continuous voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59269919A JPS61148496A (en) 1984-12-21 1984-12-21 Continuous voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS61148496A true JPS61148496A (en) 1986-07-07
JPH0346840B2 JPH0346840B2 (en) 1991-07-17

Family

ID=17479040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59269919A Granted JPS61148496A (en) 1984-12-21 1984-12-21 Continuous voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS61148496A (en)

Also Published As

Publication number Publication date
JPH0346840B2 (en) 1991-07-17

Similar Documents

Publication Publication Date Title
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US4829575A (en) Apparatus and methods for analyzing transitions in finite state machines
JPH0159600B2 (en)
CN112908308B (en) Audio processing method, device, equipment and medium
JPH0157358B2 (en)
EP0162255B1 (en) Pattern matching method and apparatus therefor
US20070083371A1 (en) Apparatus and method for recognizing voice
EP0103258B1 (en) Pattern matching apparatus
JPH0346839B2 (en)
JPS61148496A (en) Continuous voice recognition equipment
CN115148225A (en) Intonation scoring method, intonation scoring system, computing device and storage medium
JP3039453B2 (en) Voice recognition device
JP3251480B2 (en) Voice recognition method
JPS62187897A (en) Continuous voice recognition equipment
JPH0223876B2 (en)
JPH0355836B2 (en)
JPS60164800A (en) Voice recognition equipment
JPS60130799A (en) Continuous voice recognition equipment
JPH0574836B2 (en)
JPS62111295A (en) Voice recognition equipment
JPH0713587A (en) Hidden markov connection learning method
JPH0449954B2 (en)
JPS60147797A (en) Voice recognition equipment
JPS62266600A (en) Word voice recognition equipment
JPH0744188A (en) Speech recognition device