JPS61113099A - Voice section detecting system for voice recognition equipment - Google Patents

Voice section detecting system for voice recognition equipment

Info

Publication number
JPS61113099A
JPS61113099A JP59234385A JP23438584A JPS61113099A JP S61113099 A JPS61113099 A JP S61113099A JP 59234385 A JP59234385 A JP 59234385A JP 23438584 A JP23438584 A JP 23438584A JP S61113099 A JPS61113099 A JP S61113099A
Authority
JP
Japan
Prior art keywords
speech
section
voice
threshold
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59234385A
Other languages
Japanese (ja)
Inventor
桜庭 孝宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59234385A priority Critical patent/JPS61113099A/en
Publication of JPS61113099A publication Critical patent/JPS61113099A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、複数の標準音声パターンと入力音声パターン
とを比較照合して、最もイ以ているパターンを認識結果
とする音声認識装置に関するものであり、特にその中で
も雑音を含む入力音声について正しい音声区間を検出す
るための方式に関する。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a speech recognition device that compares and matches a plurality of standard speech patterns and an input speech pattern, and uses the most satisfactory pattern as a recognition result. In particular, the present invention relates to a method for detecting correct speech intervals for input speech containing noise.

〔従来の技術〕[Conventional technology]

一般に音声認識では、マイクから入力された音声を音声
区間検出によって音声が存在する部分を検出して、その
部分を比較照合の対象として処理している。従来の音声
区間検出では、音声のパワー情報等をチェックし、ある
閾値(スレッシュホールド値)よりも大きければ音声が
存在し、小さければ音声ではない、という様にして音声
区間検出を行っていた。
In general, in speech recognition, a portion of speech input from a microphone is detected by speech section detection, and that portion is processed as a target for comparison and verification. In conventional voice section detection, voice section detection is performed by checking voice power information, etc., and if it is greater than a certain threshold value, voice exists, and if it is smaller, it is not voice.

以下、図面を用いて具体例を説明する。Specific examples will be described below with reference to the drawings.

第2図は、従来の音声認識装置の1例を示したもので、
1はマイク、2は増幅器、3は16チヤネルのフィルタ
、4はパワー計算部、5は区間検出部、6は入力音声バ
ッファ、7は音声辞書、8は照合部、9は照合結果判定
部である。
Figure 2 shows an example of a conventional speech recognition device.
1 is a microphone, 2 is an amplifier, 3 is a 16-channel filter, 4 is a power calculation unit, 5 is an interval detection unit, 6 is an input audio buffer, 7 is an audio dictionary, 8 is a matching unit, and 9 is a matching result determination unit. be.

マイク1から入力された音声信号は、増幅器2で増幅さ
れ、16チヤネルのフィルタ3に供給される。フィルタ
3は、入力された音声信号を所定の帯域ごとに分波しフ
レームごとにパラメータ化して音声パターンに変換する
。パワー計算部4は、フィルタ3から出力された音声パ
ラメータに基づいてパワー計算を行う。
An audio signal input from a microphone 1 is amplified by an amplifier 2 and supplied to a 16-channel filter 3. The filter 3 separates the input audio signal into predetermined bands, parameterizes each frame, and converts the signals into audio patterns. The power calculation unit 4 performs power calculation based on the audio parameters output from the filter 3.

区間検出部5は、パワー計算部4におけるパワー計算結
果に、予め設定されている閾値を適用し、閾値以下のパ
ワーをもつ信号の区間を無音区間とし、閾値以上のパワ
ーをもつ信号区間を音声区間として、音声区間の音声パ
ターンのみを入力音声バッファ6に格納する。
The section detection section 5 applies a preset threshold to the power calculation result in the power calculation section 4, sets the section of the signal with the power below the threshold as a silent section, and sets the section of the signal with the power above the threshold as a sound section. As a section, only the voice pattern of the voice section is stored in the input voice buffer 6.

音声辞書7には、予め作成された多数の標準音声パター
ン(パラメータ)が登録されており、照合部8は、入力
音声バッファ6の入力音声パターンごとに音声辞書7か
ら標準音声パターンを順次取り出して両者を照合し、距
離を算出する。照合結果判定部9tよ、このようにして
照合された結果について最小距離の標準音声パターンを
検出し、認識結果として出力する。
A large number of standard voice patterns (parameters) created in advance are registered in the voice dictionary 7, and the collation unit 8 sequentially extracts standard voice patterns from the voice dictionary 7 for each input voice pattern in the input voice buffer 6. Compare the two and calculate the distance. The matching result determination unit 9t detects the standard speech pattern with the minimum distance from the matching results and outputs it as a recognition result.

第3図は、入力音声信号中の雑音レベルと閾値との関係
を示したもので、V、ば入力音声信号、E7は雑音レベ
ル、SlおよびS2は閾値レベルを表している。
FIG. 3 shows the relationship between the noise level in the input audio signal and the threshold value, where V represents the input audio signal, E7 represents the noise level, and Sl and S2 represent the threshold levels.

図示の音声信号V8は、単語“フナバシ”の音声パワー
レベルを示し、中央の強声音“す”、“バ゛の前後に弱
声音“フ”、“シ”をもっている。
The illustrated audio signal V8 shows the audio power level of the word "Funabashi", and has the strong sounds "su" and "b" in the center, followed by the weak sounds "f" and "shi".

そして雑音レベルEゎは、弱声音“フ゛′、“シ゛のパ
ワーレベルよりも高い状態にある。
The noise level E is in a state higher than the power level of the weak voice sounds "F'" and "S".

ここで閾値レベルを、Slに設定すると、弱音声信号を
検出することができるが、その反面、真の無音声区間に
おける雑音を音声として認識してしまう可能性がでる。
If the threshold level is set to Sl here, a weak speech signal can be detected, but on the other hand, there is a possibility that noise in a true silent section will be recognized as speech.

他方、閾値レベルを雑音レベルE。よりも高いS2に設
定すると、弱音声が検出できず、認識もれの原因となる
ので、適切な閾値の設定が必要とされる。
On the other hand, the threshold level is the noise level E. If S2 is set higher than S2, weak speech cannot be detected and may cause recognition failure, so it is necessary to set an appropriate threshold.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

以上のように、従来の音声区間検出方式は、雑音が大き
い環境下で入力された音声の音声区間検出精度に問題が
あり、認識率を低下させる大きな原因となっていた。
As described above, the conventional speech segment detection method has a problem with the accuracy of speech segment detection of input speech in a noisy environment, which is a major cause of lowering the recognition rate.

〔問題点を解決するための手段〕[Means for solving problems]

本発明は、上記問題点を解決するため、入力音声につい
てまず雑音の影響を受けないパワーの強い音声部分を検
出して確定し、その前後の雑音の影響を受は易いパワー
の弱い音声部分については、予め標準音声について採取
しておいた区間長を適用して全体の音声区間を算出し、
切出すようにしたもので、それによる発明の構成は、複
数の標準音声パターンと入力音声パターンとを比較照合
して認識する音声認識装置において、雑音の影響を受け
やすいパワーの弱い音声部分を検出できる第1の閾値と
、雑音の影響をうけないパワーの強い音声部分を検出で
きる第2の閾値とを設け、標準音声については第1の閾
値を用いて音声区間の検出を行うとともに第1の閾値で
検出された音声区間と第2の閾値で検出された音声区間
との差を標準音声パターンとともに記憶しておき、認識
用入力音声については第2の閾値のみを用いて音声区間
の検出を行い、該検出された音声区間の両端に上記標準
音声パターンとともに記憶されている第1の閾値と第2
の閾値とによる検出区間の差区間を付加した部分をその
標準音声パターンに対する認識用入力パターンの音声区
間として比較照合させることを特徴としている。
In order to solve the above-mentioned problems, the present invention first detects and determines the high-power voice parts that are not affected by noise in the input voice, and then determines the low-power voice parts that are easily affected by the noise before and after the detected voice parts. calculates the entire speech section by applying the section length collected in advance for standard speech,
The structure of the invention is to detect low-power speech parts that are susceptible to noise in a speech recognition device that compares and recognizes a plurality of standard speech patterns and input speech patterns. For standard speech, the first threshold is used to detect speech sections, and the second threshold is used to detect speech sections with strong power that are not affected by noise. The difference between the speech section detected by the threshold and the speech section detected by the second threshold is stored together with the standard speech pattern, and the speech section is detected using only the second threshold for the input speech for recognition. The first threshold value and the second threshold value stored together with the standard voice pattern are set at both ends of the detected voice section.
The feature is that the portion to which the difference section of the detection section with respect to the threshold value is added is compared and verified as the speech section of the recognition input pattern with respect to the standard speech pattern.

〔発明の作用〕[Action of the invention]

本発明は、第4図に示すように、低レベルの音声区間を
検出する閾4MS + と、雑音レベルより確実に大き
い音声区間を検出する閾値S2を持ち、はじめに、SI
よりも雑音レベルが低い環境で標準音声パターンを作成
し、このとき、閾値S1で音声区間、すなわち音声パワ
ーの弱い始端部t、。
As shown in FIG. 4, the present invention has a threshold 4MS + for detecting a low-level speech section and a threshold S2 for detecting a speech section reliably higher than the noise level.
A standard speech pattern is created in an environment where the noise level is lower than that of the speech section at the threshold S1, that is, the starting end t, where the speech power is weak.

および終端部t8と、音声パワーの強い中央部t。and a terminal portion t8, and a central portion t where audio power is strong.

との和の区間を求め、同時に他の閾値S2で中央部tヨ
の区間を求め、そしてこれらの差からそれぞれ1s、1
.を求めておく。
At the same time, use another threshold value S2 to find the section of the center tyo, and from these differences, calculate 1s and 1s, respectively.
.. Let's find out.

次に認識処理では、認識すべき入力音声が、第5図のよ
うに雑音レベルが高く、閾値SIでは、音声の弱い部分
と雑音との区分けができない場合であっても閾値S2は
、入力音声について標準音声と大差ない強い音声区間の
中央部t1を検出することができる。そこでこのS2で
区間検出した中央部分tfflに、始端が存在すると予
想される最大区間(始端を効区間と言う)と終端が存在
すると予想される最大区間(終端有効区間と言う)とを
付加し、音声保存区間を長めに求め、その区間の音声を
バッファに保存しておく。
Next, in the recognition process, even if the input speech to be recognized has a high noise level as shown in FIG. 5 and the threshold SI cannot distinguish between weak parts of the speech and noise, the threshold S2 is It is possible to detect the central part t1 of a strong voice section that is not much different from the standard voice. Therefore, to the central part tffl detected in S2, we add the maximum interval in which the start end is expected to exist (the start end is called the valid interval) and the maximum interval in which the end end is expected to exist (referred to as the end valid interval). , find a longer audio storage section and store the audio in that section in a buffer.

この長めに求めた認識対象の入力音声を標準音声と照合
するために、認識範囲を定める音声区間を次のように決
定する。
In order to compare this longer input speech to be recognized with the standard speech, the speech section that defines the recognition range is determined as follows.

各標準音声について求めである1s、1.、を入力音声
について閾値S2で検出された中央部t。
The calculations for each standard voice are 1s, 1. , is the central part t detected with the threshold value S2 for the input speech.

に加えて始端、終端を決定し、音声区間とする。In addition to this, the start and end points are determined and used as a voice section.

この音声区間は、標準音声ごとに異なっている。This voice section differs depending on the standard voice.

このようにして、標準音声ごとに認識音声区間を決定し
、照合して認識する。
In this way, a recognized speech section is determined for each standard speech, and recognized by comparison.

〔実施例〕〔Example〕

以下に、本発明の詳細を実施例にしかって説明する。 The details of the present invention will be explained below with reference to Examples.

第1図は、本発明の1実施例装置の構成図である。図に
おいて、11はマイク、12は増幅器、13は16チヤ
ネルのフィルタ、14はパワー計算部、15は区間検出
部、16は人力音声バッファ、17は音声辞書、18は
照合部、19は照合結果判定部を示す。
FIG. 1 is a configuration diagram of an apparatus according to an embodiment of the present invention. In the figure, 11 is a microphone, 12 is an amplifier, 13 is a 16-channel filter, 14 is a power calculation unit, 15 is an interval detection unit, 16 is a human voice buffer, 17 is a voice dictionary, 18 is a matching unit, and 19 is a matching result The determination section is shown.

本実施例装置の基本的な機能は、第2図に示されている
従来例装置の機能とほぼ同じであるが、本発明に基づき
、区間検出部15、入力音声バッファ16、音声辞書1
7の各構成と機能が変更されている。
The basic functions of the device of this embodiment are almost the same as those of the conventional device shown in FIG.
7's configuration and functions have been changed.

本実施例装置は、標準辞書作成モードと認識処理モード
の2つの動作モードをもっている。
The device of this embodiment has two operating modes: a standard dictionary creation mode and a recognition processing mode.

まず標準辞書作成モードにおいて、標準音声パターンを
作成し、音声辞書17に登録する処理を行う。このモー
ドでは、区間検出部15の閾値として、弱音声を検出可
能な低レベルのSIと通常想定される環境雑音レベルよ
りも高いレベルの82とが使用される。
First, in the standard dictionary creation mode, a process of creating a standard speech pattern and registering it in the speech dictionary 17 is performed. In this mode, the section detection unit 15 uses a low level SI that can detect weak speech and a level 82 that is higher than the normally assumed environmental noise level.

マイク11を雑音レベルが81よりも低い環境におき、
所定の標準音声を入力する。
Place the microphone 11 in an environment where the noise level is lower than 81,
Input a predetermined standard voice.

入力された音声信号は、増幅器12で増幅され、さらに
フィルター3で分波されて音声パラメータ化され、音声
パターンに変換される。
The input audio signal is amplified by an amplifier 12, further demultiplexed by a filter 3, converted into audio parameters, and converted into an audio pattern.

パワー計算部14は、フレームごとに入力音声のパワー
レベルを計算し区間検出部15に供給する。区間検出部
15は、SlおよびS2の2つの閾値を用いて入力音声
のパワーレベルを検出し、それぞれの区間、すなわちS
lによって第4図に示す音声区間(ts +t、+t、
)の区間を、またS2によっては中央部t、を検出し、
これらから始端部t8と終端部t6とをそれぞれ求め、
入力音声パターンとともに、入力音声バッファ16を介
して、音声辞書17に登録する。
The power calculation unit 14 calculates the power level of the input audio for each frame and supplies it to the section detection unit 15. The section detection unit 15 detects the power level of the input audio using two thresholds, Sl and S2, and detects the power level of the input audio using two thresholds, S1 and S2, and
The speech interval (ts +t, +t,
) and, depending on S2, the central part t,
From these, find the starting end t8 and the ending end t6, respectively.
It is registered in the speech dictionary 17 via the input speech buffer 16 along with the input speech pattern.

全ての標準音声について音声辞書17への登録が終了し
たら、認識処理モードに切替え、未知の入力音声につい
ての認識処理を開始する。
When all the standard voices have been registered in the speech dictionary 17, the mode is switched to recognition processing mode, and recognition processing for unknown input speech is started.

認識処理モードでは、区間検出部15の閾値を32のみ
にする。未知の音声が入力されると、区間検出部15は
閾値S2を用いて入力部のパワーレベルを検出し、中央
部t、を求める。さらにこのt7をもとに、その前後に
第5図で説明した始端有効区間および終端有効区間をイ
」加して音声保存区間を求め、この範囲の入力音声パタ
ーンを入力音声バッファ16に格納する。なおこのとき
t。
In the recognition processing mode, the threshold value of the section detection unit 15 is set to only 32. When an unknown voice is input, the section detection section 15 detects the power level of the input section using the threshold value S2, and calculates the central portion t. Furthermore, based on this t7, the start end effective section and end end effective section explained in FIG. . Note that at this time t.

もデータの一部として格納する。is also stored as part of the data.

照合部18は、音声辞書17に登録されている各標準音
声パターンを順次取り出し、入力音声パターンと照合す
る。このとき入力音声へソファ16から取り出される入
力音声パターンの区間は次のようにして決定される。す
なわち区間検出部15は、標準パターンごとに音声辞書
17から始端部t5と終端部1eの区間データを取り出
し、入力音声バッファ16の入力音声パターンとともに
先に格納しである中央部t□区間に結合し、照合処理す
べき音声区間(1s+1.+1e)を求める。そして入
力音声バッファ16中の音声保存区間の音声パターンか
らこの音声区間に相当する音声パターンを切出して照合
部1日に転送する。
The matching unit 18 sequentially extracts each standard speech pattern registered in the speech dictionary 17 and matches it with the input speech pattern. At this time, the section of the input audio pattern extracted from the sofa 16 as the input audio is determined as follows. That is, the section detection unit 15 extracts the section data of the start end t5 and end section 1e from the speech dictionary 17 for each standard pattern, and combines them into the central section t□ which was previously stored together with the input speech pattern in the input speech buffer 16. Then, the voice section (1s+1.+1e) to be verified is determined. Then, from the voice pattern of the voice storage section in the input voice buffer 16, a voice pattern corresponding to this voice section is cut out and transferred to the matching section 1.

照合部18は、入力音声パターンと各標準パターンとの
照合結果(距離計算結果)を照合結果判定部19に送り
、認識判定させる。
The matching section 18 sends the matching results (distance calculation results) between the input voice pattern and each standard pattern to the matching result determining section 19 for recognition determination.

〔発明の効果〕〔Effect of the invention〕

本発明により、雑音レベルが音声の始端部あるいは終端
部のパワーの弱い部分よりも高くても、はぼ正しい@芦
区間を検出することができ、雑音の影響により起こる誤
認識を少なくすることができる。
According to the present invention, even if the noise level is higher than the weak power part at the beginning or end of the voice, it is possible to detect a fairly accurate @Ashi section, and it is possible to reduce misrecognition caused by the influence of noise. can.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の1実施例装置の構成図、第2図は従来
例装置の構成図、第3図は雑音レベルと閾値との関係説
明図、第4図は音声辞書作成時の区間検出処理の説明図
、第5図は認識処理時の区間 量検出処理の説明図である。 図中、11はマイク、12は増幅器、13はフィルタ、
14はパワー計算部、15は区間検出部、16は入力音
声バッファ、17は音声辞書、1日は照合部、19は照
合結果判定部を示す。 特許出願人  冨士jff!株式会社 代理人弁理士 長谷用 文廣(外1名)(ト)   U
J Uノリ 口 Qつ 表
Fig. 1 is a block diagram of a device according to an embodiment of the present invention, Fig. 2 is a block diagram of a conventional device, Fig. 3 is an explanatory diagram of the relationship between noise level and threshold, and Fig. 4 is a section when creating a speech dictionary. FIG. 5 is an explanatory diagram of the detection process. FIG. 5 is an explanatory diagram of the section amount detection process during the recognition process. In the figure, 11 is a microphone, 12 is an amplifier, 13 is a filter,
14 is a power calculation section, 15 is a section detection section, 16 is an input voice buffer, 17 is a speech dictionary, 1 is a collation section, and 19 is a collation result determination section. Patent applicant Fujijff! Representative Patent Attorney Co., Ltd. Fumihiro Hase (1 other person) (G) U
J U Noriguchi Q table

Claims (1)

【特許請求の範囲】[Claims] 複数の標準音声パターンと入力音声パターンとを比較照
合して認識する音声認識装置において、雑音の影響を受
けやすいパワーの弱い音声部分を検出できる第1の閾値
と、雑音の影響をうけないパワーの強い音声部分を検出
できる第2の閾値とを設け、標準音声については第1の
閾値を用いて音声区間の検出を行うとともに第1の閾値
で検出された音声区間と第2の閾値で検出された音声区
間との差を標準音声パターンとともに記憶しておき、認
識用入力音声については第2の閾値のみを用いて音声区
間の検出を行い、該検出された音声区間の両端に上記標
準音声パターンとともに記憶されている第1の閾値と第
2の閾値とによる検出区間の差区間を付加した部分をそ
の標準音声パターンに対する認識用入力パターンの音声
区間として比較照合させることを特徴とする音声区間検
出方式。
In a speech recognition device that compares and matches multiple standard speech patterns and input speech patterns to recognize them, there is a first threshold that can detect low-power speech parts that are susceptible to noise, and a first threshold that can detect low-power speech parts that are susceptible to noise. A second threshold that can detect strong speech parts is provided, and for standard speech, the first threshold is used to detect speech sections, and the speech sections detected using the first threshold and the second threshold are detected. The difference between the detected speech section and the standard speech pattern is stored together with the standard speech pattern, and the speech section is detected using only the second threshold for the input speech for recognition, and the standard speech pattern is added to both ends of the detected speech section. Speech section detection characterized by comparing and comparing a portion to which a difference section of a detection section based on a first threshold value and a second threshold value, which are stored together, is added, as a speech section of a recognition input pattern with respect to the standard speech pattern. method.
JP59234385A 1984-11-07 1984-11-07 Voice section detecting system for voice recognition equipment Pending JPS61113099A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59234385A JPS61113099A (en) 1984-11-07 1984-11-07 Voice section detecting system for voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59234385A JPS61113099A (en) 1984-11-07 1984-11-07 Voice section detecting system for voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS61113099A true JPS61113099A (en) 1986-05-30

Family

ID=16970166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59234385A Pending JPS61113099A (en) 1984-11-07 1984-11-07 Voice section detecting system for voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS61113099A (en)

Similar Documents

Publication Publication Date Title
JPS61113099A (en) Voice section detecting system for voice recognition equipment
JP2666296B2 (en) Voice recognition device
JP3474949B2 (en) Voice recognition device
JPS58125099A (en) Voice recognition equipment
JP3058569B2 (en) Speaker verification method and apparatus
JP2000148187A (en) Speaker recognizing method, device using the method and program recording medium therefor
JP2901976B2 (en) Pattern matching preliminary selection method
JPH0754434B2 (en) Voice recognizer
JPS60205600A (en) Voice recognition equipment
JP2891259B2 (en) Voice section detection device
JPH0567039B2 (en)
JPS61292199A (en) Voice recognition equipment
JPS6193499A (en) Voice pattern collation system
JPS61260299A (en) Voice recognition equipment
JPS58159598A (en) Monosyllabic voice recognition system
JPH0316038B2 (en)
JPS60260096A (en) Correction system for voice section detecting threshold in voice recognition
JPH02272495A (en) Voice recognizing device
JPS62217298A (en) Voice recognition equipment
JPH0431896A (en) Speech recognizing device
JPS63254498A (en) Voice recognition responder
JPH01302297A (en) Speaker recognition device
JPS6165297A (en) Voice recognition system
JPS6170598A (en) Telephone input voice recognition equipment
JPS6167899A (en) Voice recognition equipment