JPS6163899A - Monosyllabic voice recognition equipment - Google Patents

Monosyllabic voice recognition equipment

Info

Publication number
JPS6163899A
JPS6163899A JP59185899A JP18589984A JPS6163899A JP S6163899 A JPS6163899 A JP S6163899A JP 59185899 A JP59185899 A JP 59185899A JP 18589984 A JP18589984 A JP 18589984A JP S6163899 A JPS6163899 A JP S6163899A
Authority
JP
Japan
Prior art keywords
input
speech
consonant
monosyllabic
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59185899A
Other languages
Japanese (ja)
Other versions
JPH0339319B2 (en
Inventor
達 伊福部
陽一 吉田
道夫 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP59185899A priority Critical patent/JPS6163899A/en
Publication of JPS6163899A publication Critical patent/JPS6163899A/en
Publication of JPH0339319B2 publication Critical patent/JPH0339319B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (発明の技術分野) この発明は、入力音声゛(単音m)をバンドパスフィル
タ群により周波数分析すると共に、子音部及び母音部に
分割して生成した出力パターンと、予め登録しである標
準パターンとをマツチングせしめることにより入力音声
を認識するようにした単音節音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION (Technical Field of the Invention) This invention analyzes the frequency of an input voice (single sound m) using a group of band-pass filters, and generates an output pattern by dividing it into a consonant part and a vowel part; The present invention relates to a monosyllabic speech recognition device that recognizes input speech by matching it with a standard pattern that is registered in advance.

(発明の技術的背景とその問題点) 従来、単音節音声の認識の分野では、入力音声(弔音W
J)を周波数分析してスペクトル包路線を計算し、この
包路線を解析して得られるエネルギーの集中した周波数
帯、すなわちホルマント周波数を入力音声(単音節)の
特徴パラメータとして抽出し、このホルマント周波数の
時間的変化(音声パターン)を標準パターンと比較して
マツチング処理するようにした単音節音声認識装置が提
案されている。かかる従来の単音節音声認識装置では、
第1図に示すようにマイクロホンlから入力された音声
信号Asが増幅器2により所定の振幅レベルに増幅され
、その出力はそれぞれ異なった帯域幅を有するバンドパ
スフィルタ31〜3nに入力される。そして、これらの
バンドパスフィルタ31〜3nの出力はそれぞれ整流器
41〜4nを介して包路線検出回路51〜5nに入力さ
れ、包絡線検出回路51〜5nからの包絡線出力E1x
Enはマルチプレクサ6に入力されると共に、平均化回
路7にも入力され、包路線検出回路51〜5nの包絡線
出力El−Enと共に順次切換えられて出力される。そ
して、マルチプレクサ7の出力はAD変換器8によりデ
ィジタル化された後、メモリ9に記憶されるようになっ
ている。
(Technical background of the invention and its problems) Conventionally, in the field of monosyllabic speech recognition, input speech (funeral sound W
J) is frequency-analyzed to calculate the spectral envelope line, and the frequency band with concentrated energy obtained by analyzing this envelope line, that is, the formant frequency, is extracted as a characteristic parameter of the input speech (monosyllabic), and this formant frequency A monosyllabic speech recognition device has been proposed that performs matching processing by comparing temporal changes (speech patterns) with standard patterns. In such conventional monosyllabic speech recognition devices,
As shown in FIG. 1, an audio signal As input from a microphone 1 is amplified to a predetermined amplitude level by an amplifier 2, and its output is input to bandpass filters 31 to 3n each having a different bandwidth. The outputs of these bandpass filters 31 to 3n are input to envelope detection circuits 51 to 5n via rectifiers 41 to 4n, respectively, and the envelope outputs E1x from the envelope detection circuits 51 to 5n are input to envelope detection circuits 51 to 5n.
En is input to the multiplexer 6 and also to the averaging circuit 7, and is sequentially switched and output together with the envelope outputs El-En of the envelope detection circuits 51 to 5n. The output of the multiplexer 7 is digitized by an AD converter 8 and then stored in a memory 9.

ここにおいて、平均化回路7の出力波形a(、EM)は
、第2図に示すように子音部分C1子音から母音へ移る
遷移部分M及び母音部分Vに3分割されて示されるが、
従来は83図に示すように平均化回路7の出力波形aを
観測し、この波形aが予め設定したエネルギーレベルE
0より大きな値を所定時間71以上g1続して示した場
合に、音声の入力があったと判断するようにしていた。
Here, the output waveform a (, EM) of the averaging circuit 7 is divided into three parts, as shown in FIG.
Conventionally, as shown in Fig. 83, the output waveform a of the averaging circuit 7 is observed, and this waveform a corresponds to a preset energy level
When a value larger than 0 is continuously shown for a predetermined time period of 71 g1 or more, it is determined that a voice has been input.

そして、登録用の標準パターンをメモリ9の所定番地に
予め記憶しておき、新しくメモリ9に書込まれた入力音
声強度とメモリ9に予め記憶されている子音部を切出す
ための基準パターン6とを、第4図に矢印P、Qで示す
ように時間軸に沿って平行移動せしめ、基準パターンb
が入力音声強度aと最も近く一致する位置(時点)を求
めていた。
Then, a standard pattern for registration is stored in advance at a predetermined location in the memory 9, and a reference pattern 6 is used to extract the input voice intensity newly written to the memory 9 and the consonant part stored in advance in the memory 9. are moved in parallel along the time axis as shown by arrows P and Q in FIG.
The position (point in time) where the input voice intensity a most closely matches the input audio intensity a was determined.

ここにおいて、基準パターンbと入力音声強度aとが一
致すると、第3図に示す時間72部分を子音パターンと
して抽出すると共に、入力音声強度aの最大値EPに定
数(例えば0.9)を乗算した値Eマと、入力音声強度
aとが交叉した位置(時点)を母音パターンとして採用
する。そして、これら抽出した子音パターン及び母音パ
ターンを、予めメモリ9に記憶しておいた標準音声の子
音パターン及び母音パターンと比較し、最も類似したパ
ターンを選択して出力するようになっていた。
Here, when the reference pattern b and the input speech intensity a match, the time 72 portion shown in FIG. 3 is extracted as a consonant pattern, and the maximum value EP of the input speech intensity a is multiplied by a constant (for example, 0.9). The position (time point) at which the value Ema intersects with the input speech intensity a is adopted as a vowel pattern. These extracted consonant patterns and vowel patterns are compared with consonant patterns and vowel patterns of standard speech previously stored in the memory 9, and the most similar pattern is selected and output.

しかしながら、かかる従来の単音節認識処理では、例え
ば“し”と“ち”又は“す°′と゛つパ等の類似した単
音節が入力された場合、子音部分を正確に検出できない
という欠点がある。また、第5図に示すように入力音声
強度aの極大点(ピーク)が子音データ部分に重なって
バンドパスフィルタ群の平均出力に出現する場合、入力
音声強度aと基準パターンの同定が第6図(A)又は(
B)に斜線部dで示す如〈実施され、子音部の抽出を正
確に行ない得ないという問題点があった。
However, such conventional monosyllable recognition processing has the disadvantage that when similar monosyllables such as "shi" and "chi" or "su°' and ゛tsupa" are input, the consonant part cannot be detected accurately. Furthermore, as shown in Fig. 5, when the maximum point (peak) of the input speech intensity a overlaps with the consonant data portion and appears in the average output of the bandpass filter group, the identification of the input speech intensity a and the reference pattern is Figure 6 (A) or (
As shown in the shaded area d in B), there was a problem in that the consonant part could not be extracted accurately.

(発明の目的) この発明の目的は、上述の如き欠点・問題点のない単音
節音声認識装置を提供することにある。
(Objective of the Invention) An object of the present invention is to provide a monosyllabic speech recognition device that does not have the above-mentioned drawbacks and problems.

(発明の概要) この発明は、入力音声をバンドパスフィルタ群により周
波数分析すると共に、子音部及び母音部に分割して生成
した出力パターンと、予め登録されている標準パターン
とを距離演算することにより、入力音声を単音節で認識
するようにした単音節音声認識装置に関するもので、ホ
ルマントを入力音声毎に抽出し、ホルマントに相当スる
バンドパスフィルタを選択し、その出力から音声強度を
生成して入力音声の子音部及び母音部を検出すると共に
、バンドパスフィルタ群の出力パターンと標準パターン
とを比較して当該入力音声の子音部及び母音部を同定す
るようにしたものである。
(Summary of the Invention) This invention analyzes the frequency of input speech using a group of band-pass filters, and calculates the distance between an output pattern generated by dividing it into consonant parts and vowel parts, and a standard pattern registered in advance. This relates to a monosyllabic speech recognition device that recognizes input speech as monosyllables.It extracts the formant for each input speech, selects a bandpass filter corresponding to the formant, and generates speech intensity from the output. The consonant part and vowel part of the input speech are detected, and the output pattern of the band-pass filter group is compared with a standard pattern to identify the consonant part and vowel part of the input speech.

(発明の実施例) この発明は第1図に対応させて第7図に示すように、入
力音声(単音j!ff)をバンドパスフィルタ群31〜
3nにより周波数分析すると共に、子音部及び母音部に
分割して生成した出力パターンと、予め登録しておいた
標準パターンとをマツチングせしめることにより入力音
声(単音!i)を認識するようにした単音節認識処理に
関する。・ここに、5図に示されるXの部分は、第8図
に示されるように低周波数帯域(例えば200〜500
)1z)に強いスペクトルをもった八ズ音(Bazz−
Bar)BS (例えば“ば”、“だ”、・・・・・・
)が現われる場合や、第9図に示されるようにある周波
数帯域(例えば200〜2000Hz)に複数のスペク
トルspが現われ(以下、nasal−eurmurと
呼ぶ)(例えば“ま°”、“な”、・・・・・・)が現
われるため、第5図に示される入力音声強度のXとなっ
て子音部の抽出に影響を与えていた。なお、第8図及び
第9図において、 TSは時間スペクトルパターンを示
している。さらに、子音の認識率を左右する子音部と母
音部との境界(以下、基準点と呼ぶ) RPの検出が、
従来法の全バンドパスフィルタ出力での入力音声強度に
よる同定では難しく、債大差、更には経時的影響による
認識率の低下要因となっているため、上述した問題のな
いホルマント情報のみを使用した入力音声強度の生成が
必要となる。この発明は、このことを考慮してなされた
ものである。
(Embodiment of the Invention) As shown in FIG. 7 corresponding to FIG.
3n, and also recognizes the input speech (single sound! Concerning syllable recognition processing.・Here, the part X shown in Figure 5 corresponds to the low frequency band (e.g. 200 to 500) as shown in Figure 8.
)1z) has a strong spectrum.
Bar) BS (e.g. “Ba”, “Da”, etc.
) appears, or as shown in Fig. 9, multiple spectra sp appear in a certain frequency band (for example, 200 to 2000 Hz) (hereinafter referred to as ``nasal-eurmur'') (for example, ``ma°'', ``na'', . . . ) appears, resulting in the input speech intensity of X shown in FIG. 5, which affects the extraction of consonant parts. Note that in FIGS. 8 and 9, TS indicates a time spectrum pattern. Furthermore, the detection of RP at the boundary between the consonant part and the vowel part (hereinafter referred to as the reference point), which affects the consonant recognition rate,
Identification based on the input speech intensity using the output of all bandpass filters in the conventional method is difficult, resulting in large discrepancies and a decline in the recognition rate due to the effect of time. Therefore, input using only formant information without the above-mentioned problems is recommended. Generation of audio intensity is required. This invention was made with this in mind.

以下、この発明を第7図について説明する。The invention will now be explained with reference to FIG.

入力音声をバンドパスフィルタ群31〜3nにより周波
数分析すると共に、ある周波数帯域(例えば200〜5
00FIz)を除いた周波数帯域出力E5〜Enを、音
声が入力されたと判断された時点(母音安定部)から比
較器lOに取込み、最も強いレベルのあったチャンネル
個数(例えば5とする)を選択してその信号をカウンタ
11に加算する。そして、カウンタ13で所定周波数の
クロー。
The input voice is frequency-analyzed by band-pass filter groups 31 to 3n, and a certain frequency band (for example, 200 to 5
The frequency band outputs E5 to En excluding 00FIz) are taken into the comparator IO from the time when it is determined that the voice has been input (vowel stable part), and the number of channels with the strongest level (for example, 5) is selected. Then, the signal is added to the counter 11. Then, the counter 13 clocks at a predetermined frequency.

クバルスCPを計数して計時し、例えば150サンプル
のデータを取込んだか否かを判別し、150サンプルの
データを取込み終った時にカウンタ11の内容からチャ
ンネル選択回路12で最も大きい値から5個チャンネル
のデータを選択して出力する。これと共に、メモリ9に
格納しておいた音声デー70丁を加算/平均回路14に
読出し、これとチャンネル選択回路12で選択したチャ
ンネルのデータを加算/平均回路14で時間毎に加算平
均し、この加算平均データを更に高周波成分除去を目的
としたローパスフィルタ(LPF) 15を通過させ、
これにより得られた入力音声強度ENVをマルチプレク
サ6に送出する。さらに、入力音声強度ENVから入力
音声(単音節)の子音部及び母音部を検出すると共に、
バンドパスフィルタ群31〜3nの出力パターンとメモ
リ9に予め記憶されている標準音声パターンとを比較し
、入力音声の子音部及び母音部を同定するようにしてい
る。
For example, it is determined whether or not 150 samples of data have been captured by counting the Kuvarus CP, and when the data of 150 samples has been captured, the channel selection circuit 12 selects 5 channels from the largest value based on the contents of the counter 11. Select and output the data. At the same time, 70 pieces of audio data stored in the memory 9 are read out to the addition/average circuit 14, and this and the data of the channel selected by the channel selection circuit 12 are added and averaged every time by the addition/average circuit 14. This averaged data is further passed through a low pass filter (LPF) 15 for the purpose of removing high frequency components,
The input audio intensity ENV obtained thereby is sent to the multiplexer 6. Furthermore, the consonant part and vowel part of the input speech (monosyllabic) are detected from the input speech intensity ENV, and
The output patterns of the bandpass filter groups 31 to 3n are compared with standard speech patterns stored in advance in the memory 9 to identify consonant parts and vowel parts of the input speech.

(発明の効果) 上記の方法を使用することで、第10図(A)及び(B
)に示されるように基準点RPを正確に抽出し1.子音
の認識率向上が計れると共に、側大差の影響を吸収し、
標準パターンの安定度が高い等の利点がある。すなわち
、第1θ図(A)は従来の入力音声強度を示しており、
同図(B)がこの発明による入力音声強度を示しており
、パターンマツチングを円滑に行ない得ることが明らか
となっている。また、上述したハードウェア構成はコン
ピュータソフトウェアで容易にプログラミングできるた
め、安価なシステム構成だけにより、高性能の音声認識
を行なうことができるという利点がある。さらに、この
発明の音声認識装置をタイプライタ、電算写植等の入力
手段や1機械・装置の運転・制御に応用することも容易
である。
(Effect of the invention) By using the above method, FIGS.
) Extract the reference point RP accurately as shown in 1. In addition to improving the recognition rate of consonants, it also absorbs the influence of lateral differences,
It has advantages such as high stability of the standard pattern. That is, FIG. 1θ (A) shows the conventional input voice intensity,
FIG. 2B shows the input voice intensity according to the present invention, and it is clear that pattern matching can be performed smoothly. Further, since the above-mentioned hardware configuration can be easily programmed using computer software, there is an advantage that high-performance speech recognition can be performed using only an inexpensive system configuration. Furthermore, the voice recognition device of the present invention can be easily applied to input means such as typewriters and computer phototypesetting, or to the operation and control of a single machine or device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来の単音節音声認識装置の一例を示すブロッ
ク図、第2図は音声エネルギーの時間的推移を説明する
ためのタイムチャート、第3図及び第4図はそれぞれ音
声のマツチング過程を説明するためのタイムチャート、
第5図及び第6図(A)、(8)は従来の単音節音声認
識プロセスを説明するためのタイムチャート、第7図は
この発明の一実施例を示すブロック図、第8図及び第9
図は従来装置の改良項目を示す図、第1O図(A)、(
B)はこの発明の改善内容を示す図である。 l・・・マイクロホン、2・・・増幅器、31〜3n・
・・バンドパスフィルタ、41〜4n・・・整流器、5
1〜5n・・・包絡線検出回路、6・・・マルチプレク
サ、7・・・包路線生成回路、8・・・AΩ変換器、9
・・・メモリ、lO・・・比較器、11.13・・・カ
ウンタ、12・・・チャンネル選択回路、14・・・加
算/平均回路、15・・・ローパスフィルタ。 出願人代理人  安 形 雄 三 第 l 図 第 22 第 32 L 4 図       第 51 第 6 固 (A)                  <s)第
6 図 第 9 図 第 lθ 図 第 13  図 手続補正書(方式) 昭和60年2月20日
Fig. 1 is a block diagram showing an example of a conventional monosyllabic speech recognition device, Fig. 2 is a time chart for explaining the temporal transition of speech energy, and Figs. 3 and 4 each illustrate the speech matching process. Time chart to explain,
5 and 6 (A) and (8) are time charts for explaining the conventional monosyllabic speech recognition process, FIG. 7 is a block diagram showing an embodiment of the present invention, and FIGS. 9
The figure shows the improvement items of the conventional device, Figure 1O (A), (
B) is a diagram showing the improvement content of the present invention. l...Microphone, 2...Amplifier, 31-3n.
... Band pass filter, 41~4n... Rectifier, 5
1 to 5n...Envelope detection circuit, 6...Multiplexer, 7...Envelope generation circuit, 8...AΩ converter, 9
...Memory, lO...Comparator, 11.13...Counter, 12...Channel selection circuit, 14...Addition/averaging circuit, 15...Low pass filter. Applicant's agent Yu Angata No. 3 Figure 22 Figure 32 L 4 Figure 51 6 Hard (A) <s) Figure 6 Figure 9 Figure lθ Figure 13 Written amendment to the procedure (formality) 1985 February 20th

Claims (1)

【特許請求の範囲】[Claims] 入力音声をバンドパスフィルタ群により周波数分析する
と共に、子音部及び母音部に分割して生成した出力パタ
ーンと、予め登録されている標準パターンとを距離演算
することにより、前記入力音声を単音節で認識するよう
にした単音節音声認識装置において、ホルマントを前記
入力音声毎に抽出し、前記ホルマントに相当するバンド
パスフィルタを選択し、その出力から音声強度を生成し
て前記入力音声の子音部及び母音部を検出すると共に、
前記バンドパスフィルタ群の出力パターンと標準パター
ンとを比較して当該入力音声の子音部及び母音部を同定
するようにしたことを特徴とする単音節音声認識装置。
By frequency-analyzing the input voice using a group of band-pass filters and calculating the distance between the output pattern generated by dividing the input voice into consonant and vowel parts and a pre-registered standard pattern, the input voice can be converted into monosyllables. In the monosyllabic speech recognition device, a formant is extracted for each input speech, a bandpass filter corresponding to the formant is selected, a speech intensity is generated from the output, and the consonant and consonant portions of the input speech are extracted. Along with detecting the vowel part,
A monosyllabic speech recognition device characterized in that a consonant part and a vowel part of the input speech are identified by comparing the output pattern of the group of bandpass filters and a standard pattern.
JP59185899A 1984-09-05 1984-09-05 Monosyllabic voice recognition equipment Granted JPS6163899A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59185899A JPS6163899A (en) 1984-09-05 1984-09-05 Monosyllabic voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59185899A JPS6163899A (en) 1984-09-05 1984-09-05 Monosyllabic voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS6163899A true JPS6163899A (en) 1986-04-02
JPH0339319B2 JPH0339319B2 (en) 1991-06-13

Family

ID=16178825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59185899A Granted JPS6163899A (en) 1984-09-05 1984-09-05 Monosyllabic voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS6163899A (en)

Also Published As

Publication number Publication date
JPH0339319B2 (en) 1991-06-13

Similar Documents

Publication Publication Date Title
US4885791A (en) Apparatus for speech recognition
JPS5835600A (en) Voice recognition unit
JPS6163899A (en) Monosyllabic voice recognition equipment
JPS62102297A (en) Monosyllabic voice recognition equipment
JPS5926796A (en) Voice recognition equipment
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JP2557497B2 (en) How to identify male and female voices
JP2844592B2 (en) Discrete word speech recognition device
JPS62102298A (en) Monosyllabic voice recognition
JPS59105697A (en) Voice recognition equipment
JPS61233791A (en) Voice section detection system for voice recognition equipment
JPS5926797A (en) Voice recognition unit
JPS58199397A (en) Voice recognition equipment
JPS59211100A (en) Registration type voice recognition
JPS62115498A (en) Voiceless plosive consonant identification system
JPS58190999A (en) Voice recognition equipment
JPS63262695A (en) Voice recognition system
JPS6059394A (en) Voice recognition equipment
JPS63265300A (en) Voice feature extraction system
JPS63235999A (en) Voice initial end detector
JPS5923398A (en) Mono-syllable voice recognition equipment
JPH0462598B2 (en)
JPS62175800A (en) Voice pattern generation system
JPS63257797A (en) Voice initial end detector
JPH04211299A (en) Monosyllabic voice recognizing device

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term