JPS6165297A - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JPS6165297A
JPS6165297A JP59186342A JP18634284A JPS6165297A JP S6165297 A JPS6165297 A JP S6165297A JP 59186342 A JP59186342 A JP 59186342A JP 18634284 A JP18634284 A JP 18634284A JP S6165297 A JPS6165297 A JP S6165297A
Authority
JP
Japan
Prior art keywords
section
speech
matching
input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59186342A
Other languages
Japanese (ja)
Inventor
正和 秋山
吉明 北爪
利一 安江
遠藤 武之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59186342A priority Critical patent/JPS6165297A/en
Publication of JPS6165297A publication Critical patent/JPS6165297A/en
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E30/00Energy generation of nuclear origin
    • Y02E30/30Nuclear fission reactors

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】[Detailed description of the invention]

〔発明の利用分野〕 本発明は音声認識装置に係り、特に、非定常な雑音によ
る誤認識を防止するのに好適な音声認識方式に関する。 〔発明の背景〕 音声認識装置は一般的に入力音声のパワーを監視して、
認識すべき音声区間を切り出して、その区間内で認識処
理を行なう。従ってマイク等から一定以上のパワーがあ
る音声や雑音がはいるとその音声区間に対して認識結果
を出力することになる。このため、周辺の他人の声や自
分のつぶやき等がtlili不能として出力されること
になる。また、入力された音声区間全体でマツチング処
理をするため、「東京」という言葉を認識してほしい時
に、「え〜東京」と発声すると、認識不能となる。この
ように従来の認識装置は、非定常な雑音や、人的な発声
エラーにより、誤認識、認識不能となってしまう。この
対策としては、例えば、特開昭58−23097号公報
「音声認識装置」に記載されているように雑音をあらか
じめ登録しておき、その音に対しては結果を出力しない
というような方法も提案されているが、登録や認識語数
の点で、制約があり、十分とは言えない。 〔発明の目的〕 本発明の目的は、音声入力中に生じる非定常な雑音や認
識すべき言葉の語頭、語尾につく雑音による誤認識やg
識不能を回避して、高詔晶率で実用性の高い音声認識方
式を提供することにある。 〔発明の概要〕 本発明は、音声認識方式において、連続DP処理(連続
照合処理)を使用し、連続DPのもつ音声区間切出しが
不要である利点を生かした音声認識方式を与えるもので
ある。すなわち、登録パターンとのマツチングを入力さ
れた音声区間のみで行なわず、さらに音声区間内に適当
な候補がなければ、雑音あるいは誤発声とみなして認識
を継続することで、不必要な音声や非定常な雑音に影響
をうけず、目的とする入力音声のみを認識する音声認識
方式(以下ワードスボクティング方式と記す)を与える
。 〔発明の実施例〕 本発明が適用される音声認識装置の構成を第1図に示す
。 図において、1は、入力された音声をデジタル化するA
/D変換部、2は、各周波数帯域ごとに音声パワーを求
め、特徴パターンを抽出する音声分析部、3は、梗4
[Field of Application of the Invention] The present invention relates to a speech recognition device, and particularly to a speech recognition method suitable for preventing erroneous recognition due to non-stationary noise. BACKGROUND OF THE INVENTION Speech recognition devices typically monitor the power of input speech and
A speech section to be recognized is cut out and recognition processing is performed within that section. Therefore, when a voice or noise with a certain level of power is input from a microphone or the like, a recognition result is output for that voice section. For this reason, the voices of other people in the vicinity, one's own tweets, etc. are output as tlili-incapable. Furthermore, since the matching process is performed on the entire input voice section, if you say ``Eh~Tokyo'' when you want the word ``Tokyo'' to be recognized, it will not be recognized. In this manner, conventional recognition devices may misrecognize or fail to recognize due to unsteady noise or human speech errors. As a countermeasure against this problem, for example, there is a method of registering noise in advance and not outputting a result for that sound, as described in Japanese Patent Application Laid-Open No. 58-23097 ``Speech Recognition Device''. Although it has been proposed, there are limitations in terms of registration and number of recognized words, and it cannot be said to be sufficient. [Object of the Invention] The object of the present invention is to prevent misrecognition and g
The object of the present invention is to provide a highly practical voice recognition method with a high crystallinity rate while avoiding confusion. [Summary of the Invention] The present invention provides a speech recognition method that uses continuous DP processing (continuous matching processing) and takes advantage of the advantage of continuous DP in that it does not require speech section extraction. In other words, matching with the registered pattern is not performed only in the input speech section, and if there are no suitable candidates within the speech section, it is assumed to be noise or erroneous pronunciation and recognition continues, thereby eliminating unnecessary speech or non-speech. To provide a speech recognition method (hereinafter referred to as word boxing method) that recognizes only target input speech without being affected by stationary noise. [Embodiments of the Invention] FIG. 1 shows the configuration of a speech recognition device to which the present invention is applied. In the figure, 1 is A that digitizes the input audio.
/D conversion unit, 2 is a voice analysis unit that obtains voice power for each frequency band and extracts a characteristic pattern; 3 is a voice analysis unit that extracts a characteristic pattern;


−パターンメモリ5にあらかじめ登録されている標準パ
ターンと入力特徴パターンとの間で距離を計算する距離
計算部、4は距離計算の結果をもとに、連続DP処J】
Hによる照合を行なう照合部、6は、2,5゜4の各部
の制御を行なうと共に、照合部4から得られた照合結果
を選択して認識を行なう制御部である。なお、連続DP
処理による照合部については、特開昭57−83880
号公報「マツチング方式切換制御方法」、及び、特開昭
55−2205号公報「実時間連続音声dゑ謀装置」を
参照されたい。 さて、本発明に適用した連続DP方式では、連続した音
声を入力すると各入力フレームごとにあらかじめ登録さ
れている各標準パターンとマツチングされ、ある標準パ
ターンと類似した。 音声があるとその標準パターン番号と共にマツ。 チングした音声区間、マツチングスコア(以下DP値と
する)を出力する。すなわち各入力フレーム単位に照合
結果を得ることができる。従って、入カバターンと登録
パターンとのマツチングに際し、必ずしも入力音声区間
を正確に切り出して、区間全体でマツチングを行なう必
要けない。 そこで、f82図の70チヤートのように音声が入力さ
れると音声区間が終了するまで連続DP処理を継続して
行ない、入力音声区間に関係なくDP値の小さいものを
優先的に認識結果とする。この時、認識結果の妥当性チ
ェックとして、%絖D Pで生じやすい短い音声区間の
候補は削除して、わ言出しによる誤認識をチェックする
。あるいはm3鮎すべき1′葉のマツチング区間の最大
、最小をあらかじめ決めておいて、その言葉によっての
み認識するようにしてもよい。 例えば、「ドウキロつ」の標準パターンが登録されてい
る時、「ニー・・・トウキ1つ」と音声が入力されると
第3図の(C)のような音声区間となる◇この区間の標
準パターン「トウキ田つ」とのマツチング値は第6図の
αのように変化し、極小点Aで「トウキ曹つ」のパター
ン番号とマツチングした音声区間、DP値が出力される
。 ここで、マツチングした音声区間は(α)であるが、入
力音声区間とは無関係に認識結果が得られる。 一方、「ニー」という雑音は登録されていないため、D
P値の極小点が現われるのは稀である。 登録語との関係で、たとえ第3図のβのB点のような極
小点が現われたとしても、低いDP値とはなり得す、除
去される。 また、雑音として、[キョウハ、・・・・・・」という
ような入力があったとすると、認識時は連続DP処理を
継続して行なっているため、「東京」の「キ目つ」と「
今日」の「キョウ」が類似して、第3図のγの0のよう
なりP極小点が現われうる。このとき、マツチングした
区間も出力されて<b>のようなマツチング長が得られ
る。この場合は、認識結果の妥当性チェックにおいて、
マツチング区間が規定より短いことにより、候補から除
宍する。このように登録した語に比べて基準値より短い
音声区間でマツチングした候補を除来することにより、
連続DB処理におけ。 る欠点でもある部分的マツチングによる誤認識を防止す
ることができる。この場合マツチング値及び妥当なマツ
チング区間は下のように決める。 マツチング値は、照合部の演算ビット微の制約すなわち
ダイナミックレンジに依存して決める必要があるが、従
来の検討から正規化した出力としては10ピツ)8度で
充分であることがわかっており、判定の余裕を考えると
、正解のマツチング値と最大の直との比が4〜5倍必要
なので、その制約から正解とする閾値は200程度と決
める。 またマツチング区間としては、取りあつかっている単語
長に依存して決める必要があり、各単語の標準パターン
テーブルに格納される単語長に対して各々0.8〜1.
2倍程度の範囲を正解とする。これは、人間による音声
の発声において、発生しうる時間軸方向の伸縮が±20
%程度であることがこれまでの実験でわかっているから
である。 なお、これらマツチング値、マツチング区間は、システ
ムに応じて変更をうけることはいうまでもない。 〔発明の効果〕 本発明によれば、音声認識中に誤まって発生した言葉や
、周囲の非定常の雑音や、発声者の息などで、認識不能
や誤認識とはならず、実用レベルでの音声認識装置での
認識率向上に著しい効果がある。
[
- A distance calculation unit that calculates the distance between the standard pattern registered in advance in the pattern memory 5 and the input feature pattern; 4 is a continuous DP process based on the distance calculation result;
A verification unit 6 that performs verification by H is a control unit that controls each part of the 2.5° 4 and also selects and recognizes the verification results obtained from the verification unit 4. In addition, continuous DP
Regarding the verification section by processing, please refer to Japanese Patent Application Laid-Open No. 57-83880.
Please refer to Japanese Patent Publication ``Matching Method Switching Control Method'' and Japanese Patent Application Laid-Open No. 55-2205 ``Real-time Continuous Audio Data Planning Apparatus.'' Now, in the continuous DP method applied to the present invention, when continuous audio is input, each input frame is matched with each pre-registered standard pattern, and the pattern is similar to a certain standard pattern. There is a voice and pine along with its standard pattern number. The matched audio section and matching score (hereinafter referred to as DP value) are output. That is, matching results can be obtained for each input frame. Therefore, when matching an input cover pattern with a registered pattern, it is not necessarily necessary to accurately cut out the input speech section and perform matching on the entire section. Therefore, when a voice is input as shown in chart 70 in the f82 diagram, continuous DP processing is performed continuously until the voice section ends, and recognition results are given priority to those with a small DP value regardless of the input voice section. . At this time, as a validity check of the recognition result, short speech section candidates that are likely to occur in %絖DP are deleted to check for erroneous recognition due to profanity. Alternatively, the maximum and minimum matching sections of the 1' leaf to be m3 sweetfish may be determined in advance, and recognition may be made only by those words. For example, when the standard pattern of "Douki tsu" is registered, if the voice is input as "Nie... Touki 1", the voice section will be as shown in (C) in Figure 3 ◇ This section The matching value with the standard pattern "Touki Tatsu" changes as shown by α in FIG. 6, and at the minimum point A, the voice section and DP value that are matched with the pattern number of "Touki Sotsu" are output. Here, although the matched speech section is (α), recognition results can be obtained regardless of the input speech section. On the other hand, the noise "knee" is not registered, so D
It is rare that a minimum point of P value appears. Even if a minimum point like point B of β in FIG. 3 appears in relation to the registered word, it may result in a low DP value and will be removed. Also, if there is an input such as [Kyoha......] as noise, continuous DP processing is continuously performed during recognition, so the "key eyes" of "Tokyo" and "
Similar to ``Kyou'' in ``Today'', a P minimum point may appear, such as γ of 0 in FIG. At this time, the matched section is also output, and a matching length like <b> is obtained. In this case, when checking the validity of the recognition result,
Because the matching interval is shorter than specified, it is excluded from the candidates. In this way, by removing candidates that are matched in a speech interval shorter than the reference value compared to the registered words,
In continuous DB processing. It is possible to prevent misrecognition due to partial matching, which is also a drawback. In this case, the matching value and appropriate matching interval are determined as follows. The matching value must be determined depending on the constraints on the operation bits of the matching unit, that is, the dynamic range, but it has been found from previous studies that 10 degrees (8 degrees) is sufficient for the normalized output. Considering margin for determination, the ratio of the correct matching value to the maximum directness needs to be 4 to 5 times, so based on this constraint, the threshold value for determining the correct answer is determined to be about 200. Furthermore, the matching interval must be determined depending on the word length being handled, and is 0.8 to 1.0 for each word length stored in the standard pattern table for each word.
The correct answer is approximately twice the range. This means that the expansion and contraction in the time axis direction that can occur in human vocalization is ±20
This is because previous experiments have shown that it is about %. It goes without saying that these matching values and matching intervals are subject to change depending on the system. [Effects of the Invention] According to the present invention, words generated by mistake during speech recognition, surrounding non-stationary noise, the breath of the speaker, etc. will not cause unrecognizability or misrecognition, and the level of recognition will be reduced to a practical level. It has a remarkable effect on improving the recognition rate of speech recognition devices.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明が適用される音声認識装置の構成図、第
2図は認識方式を説明するためのフローチャート、第3
図は、音声区間と音声パワーとDP値の関係を示した波
形図である。 L:A/Dセ噴 2:者声扮罫部 3:老M訂$IS   4:牒合部 号:祿子ハゝター〕メモノ ロ : 卸(4Φ右ド パ) 代理人弁理士 高  橋  明  夫 第 ノ  (3 第 2 図 第 3 図
Fig. 1 is a block diagram of a speech recognition device to which the present invention is applied, Fig. 2 is a flowchart for explaining the recognition method, and Fig. 3 is a flowchart for explaining the recognition method.
The figure is a waveform diagram showing the relationship between voice sections, voice power, and DP values. L: A/D Separation 2: Person Voice Editing Section 3: Old M Edit $IS 4: Part Number: Keiko Hater Memorandum: Wholesaler (4Φ Right Dopa) Agent Patent Attorney Akira Takahashi Husband's Day (3 Figure 2 Figure 3

Claims (1)

【特許請求の範囲】[Claims] 音声入力部、分析部、距離計算部及び照合部、標準パタ
ーンメモリ、制御部よりなる音声認識装置において、該
照合部に連続照合手段を装備し、該音声入力部によりデ
ジタル化された音声を該分析部に入力して、音声に含ま
れる特徴を抽出し、該制御部でそのデータを用いて音声
区間検出を行ない、一方、予め該標準パターンメモリに
記憶された登録パターンと該入力音声パターンとを前記
照合部において連続的に照合し、前記制御部において、
前記照合部の出力であるマッチング値とマッチング区間
を入力し、マッチング値が予め設定した閾値より小さく
、かつ、入力音声区間とマッチング区間所定の関係にあ
る場合に限りその単語を認識結果とすることを特徴とす
る音声認識方式。
In a speech recognition device consisting of a speech input section, an analysis section, a distance calculation section, a matching section, a standard pattern memory, and a control section, the matching section is equipped with a continuous matching means, and the speech digitized by the speech input section is matched. The data is input to the analysis section and features included in the speech are extracted, and the control section uses the data to detect speech sections.On the other hand, the registered pattern stored in advance in the standard pattern memory and the input speech pattern are is continuously verified in the verification section, and in the control section,
A matching value and a matching interval that are output from the matching section are input, and only when the matching value is smaller than a preset threshold and the input speech interval and the matching interval have a predetermined relationship, the word is recognized as a recognition result. A voice recognition method featuring:
JP59186342A 1984-09-07 1984-09-07 Voice recognition system Pending JPS6165297A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59186342A JPS6165297A (en) 1984-09-07 1984-09-07 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59186342A JPS6165297A (en) 1984-09-07 1984-09-07 Voice recognition system

Publications (1)

Publication Number Publication Date
JPS6165297A true JPS6165297A (en) 1986-04-03

Family

ID=16186674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59186342A Pending JPS6165297A (en) 1984-09-07 1984-09-07 Voice recognition system

Country Status (1)

Country Link
JP (1) JPS6165297A (en)

Similar Documents

Publication Publication Date Title
JPS58130393A (en) Voice recognition equipment
JPS6165297A (en) Voice recognition system
JPS584198A (en) Standard pattern registration system for voice recognition unit
JP3588929B2 (en) Voice recognition device
JP3020999B2 (en) Pattern registration method
JPH03114100A (en) Voice section detecting device
JPS58125099A (en) Voice recognition equipment
JP2000148187A (en) Speaker recognizing method, device using the method and program recording medium therefor
JPS63213899A (en) Speaker collation system
JPS61260299A (en) Voice recognition equipment
JP2975808B2 (en) Voice recognition device
JP2844592B2 (en) Discrete word speech recognition device
JPH0343639B2 (en)
JPH0316038B2 (en)
JP2901976B2 (en) Pattern matching preliminary selection method
JPS58176699A (en) Voice standard pattern registration system
JPH0567039B2 (en)
JPH0474720B2 (en)
JPH0376471B2 (en)
JPS62245295A (en) Specified speaker&#39;s voice recognition equipment
JPS59170894A (en) Voice section starting system
JPH01302297A (en) Speaker recognition device
JPH07210186A (en) Voice register
JPS63110495A (en) Voice input device
JPS5953900A (en) Speaker recognition system