JPS61256394A - Voice section detection system - Google Patents

Voice section detection system

Info

Publication number
JPS61256394A
JPS61256394A JP60099137A JP9913785A JPS61256394A JP S61256394 A JPS61256394 A JP S61256394A JP 60099137 A JP60099137 A JP 60099137A JP 9913785 A JP9913785 A JP 9913785A JP S61256394 A JPS61256394 A JP S61256394A
Authority
JP
Japan
Prior art keywords
section
voice
silent
interval
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60099137A
Other languages
Japanese (ja)
Inventor
章次 栗木
河本 俊毅
安田 晴剛
中谷 奉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60099137A priority Critical patent/JPS61256394A/en
Publication of JPS61256394A publication Critical patent/JPS61256394A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 技術分野一 本発明は、音声認識装置における音声区間検出方式に関
する。
DETAILED DESCRIPTION OF THE INVENTION Technical Field: 1. Field of the Invention The present invention relates to a speech segment detection method in a speech recognition device.

従来技術 一般に、音声信号のパワーは話者によって異なっている
。そのため、音声信号をAD変換するさい、有効ビット
数を保つためAD変換器の前段にAGC回路を設けてい
る。このAGC回路によって話者間の音声パワーの違い
は除去されるが、無音区間ではAGC回路のゲインが大
きくなり、音声区間ではゲインが小さくなる。そのため
AGC回路後の信号は雑音をともなう無音区間と音声区
間のパワーの差が小さくなっている。音声区間はパワー
を検出しである一定の閾値を基に検出されるが、無音区
間の雑音パワーによって閾値を可変させる場合、音声区
間ではAGC回路のゲインの差により相対的にパワー閾
値が上がるため、促音の後に続く子音の様なパワーの小
さい音声が欠落する場合があった。例えば、”5TOP
” ”F”“Z”などの言葉では単語中の無音声区間後
の子音が欠落する場合がある。
BACKGROUND OF THE INVENTION In general, the power of a voice signal differs depending on the speaker. Therefore, when performing AD conversion of an audio signal, an AGC circuit is provided before the AD converter in order to maintain the effective number of bits. This AGC circuit eliminates the difference in voice power between speakers, but the gain of the AGC circuit becomes large during silent sections, and becomes small during speech sections. Therefore, in the signal after the AGC circuit, the difference in power between a silent section with noise and a voice section is small. Voice sections are detected based on a certain threshold by detecting power, but if the threshold is varied depending on the noise power in silent sections, the power threshold will rise relatively in voice sections due to the difference in the gain of the AGC circuit. , low-power sounds such as consonants following consonants were sometimes missing. For example, “5TOP
In words such as ``F'' and ``Z'', the consonant after a silent period in the word may be missing.

第3図は、」−記従来技術の欠点を説明するための波形
図で、(0)図は音声パワーAと音声区間切出し閾値B
の関係を” S T OP”を例として示したもので(
斜線部は雑音)、この場合、# P IIの部分が欠落
し、音声区間信号は(b)図のようになる。すなわち、
従来の音声認識装置においては、音声区間の検出は入力
信号のパワー情報を用いて音声が発声されていない間の
雑音パワーを基に決定された閾値を使用して検出してい
るが、この方法では、入力信号をAGC回路に通した後
では無発声時と発声時のAGC回路のゲインが異なるた
め、促音の後の子音が無発声時の雑音パワーにり小さく
なり音声として検出されないことがあった。
FIG. 3 is a waveform diagram for explaining the shortcomings of the prior art described in "-".
The relationship is shown using "S T OP" as an example (
The shaded area is noise). In this case, the #P II portion is missing, and the voice section signal becomes as shown in Figure (b). That is,
In conventional speech recognition devices, speech intervals are detected using power information of the input signal and a threshold determined based on the noise power during periods when speech is not being uttered. In this case, after the input signal is passed through the AGC circuit, the gain of the AGC circuit is different when there is no utterance and when there is utterance, so the consonant after the consonant may be reduced by the noise power during the unuttered time and not be detected as speech. Ta.

目     的一 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声認識装置において、騒音下においても安定に
音声区間の検出ができるようにすることを目的としてな
されたものである。
Purpose 1 The present invention was made in view of the above-mentioned circumstances.
In particular, the purpose of this invention is to enable a speech recognition device to stably detect speech sections even under noisy conditions.

購−一成。Purchase - Kazunari.

本発明は、上記目的を達成するため、入力された音声パ
ワーの話者による違いを除去するAGC回路と、該A、
 G C回路を通過した音声パワーと無発声時の雑音パ
ワーを基に設定された閾値とを比較して音声区間を得る
手段と、ある定められた長さの無音区間がある場合、そ
れを単語の区切りとする一単語信号を生成する手段とを
有する音声認識装置において、単語内の音声区間が終了
した時点からある−・定時間たった無音区間中の雑音パ
ワーを基にして閾値を変化させて次に来る音声の区間を
検出することを特徴としたものである。以下、本発明の
実施例に基づいて説明する。
In order to achieve the above object, the present invention provides an AGC circuit that eliminates differences in input voice power depending on speakers;
A means for obtaining a speech interval by comparing the speech power passed through the G C circuit with a threshold set based on the noise power during non-utterance, and a means for obtaining a speech interval when there is a silent interval of a certain length, In the speech recognition device, the threshold value is changed based on the noise power during the silent section after a fixed period of time after the end of the speech section within the word. This method is characterized by detecting the next audio section. Hereinafter, the present invention will be explained based on examples.

第1図は、本発明による音声区間検出方式を実施するの
に使用して好適な電気回路の一例を示すブロック線図、
第2図は、本発明の動作原理を説明するための信号波形
図で、第1図において、1はマイク、2はAGC(自動
利得制御回路)、3はパワー検出部、4は閾値可変部、
5は区間検出部で、。は促音による無音区間検出情報、
bは閾値情報を表わしている。
FIG. 1 is a block diagram showing an example of an electric circuit suitable for use in implementing the voice section detection method according to the present invention;
FIG. 2 is a signal waveform diagram for explaining the operating principle of the present invention. In FIG. 1, 1 is a microphone, 2 is an AGC (automatic gain control circuit), 3 is a power detection section, and 4 is a threshold variable section. ,
5 is an interval detection section. is silent section detection information due to consonants,
b represents threshold information.

第2図を参照しながら詳細に説明すると、音声が入力さ
れる前の雑音のパワーによって決定された閾値B1によ
って音声区間が検出され、図示例の場合、” S T○
″の部分が検出される。単語中に無音区間がある場合、
AGC回路のゲインが無音区間より小さいため、単語中
の雑音のパワーは小さくなっている。一般にAGC回路
のゲインは語尾を検出するためにゲインを大きくする場
合の時定数は数秒程度にしであるため第2図(b)に示
すようなゲインとなる。そのため単語内の無音区間でも
AGC回路のゲインは変化しない。この単語内の無音区
間に着目して閾値B2を設定するが、この閾値B2の設
定方法としては例えば下記のような方法がある。
To explain in detail with reference to FIG. 2, a speech section is detected using a threshold value B1 determined by the power of noise before speech is input, and in the illustrated example, "ST○
” is detected. If there is a silent section in the word,
Since the gain of the AGC circuit is smaller than that of the silent section, the power of the noise in the word is small. Generally, when the gain of the AGC circuit is increased to detect the end of a word, the time constant is approximately several seconds, so the gain is as shown in FIG. 2(b). Therefore, the gain of the AGC circuit does not change even during a silent section within a word. The threshold value B2 is set by focusing on the silent section within the word, and the following method is available as a method for setting the threshold value B2, for example.

■、単語内の音声区間が終了した時点より一定時間たっ
た時点Tでの雑音パワーを基にして設定する。
(2) Set based on the noise power at time T, which is a certain period of time after the end of the speech section within the word.

■、同時点Tより数10 msから1. OOms程の
雑音パワーの平均を基に設定する。
■, from several tens of ms to 1. Set based on the average noise power of about OOms.

■、無音区間内において次の音声区間が検出されるまで
、一定時間例えば100 msごとに閾値B2を変化さ
せる。
(2) The threshold value B2 is changed every fixed period of time, for example, 100 ms, until the next voice section is detected within the silent section.

第2図(c)は、上述のごとくして得られた音声区間信
号を示す。
FIG. 2(c) shows the voice section signal obtained as described above.

次に単語内の音声区間が終了しておら次の音声区間が始
まるまでの時間には大きく分けて2種類ある。ひとつは
T′″ IIK”などの子音の前にあるものでだいたい
50m5以下の無音区間である。
There are roughly two types of time between the end of a vocal section within a word and the start of the next vocal section. One type is a silent section of approximately 50m5 or less, which occurs before a consonant such as T'''IIK''.

他のひとつは促音によるもので100 ms以上の無音
区間である。これらのうち促音による無音区間でのみ閾
値を変化させるために単語内での音声区間終了後一定時
間、だいたい1. OOms程の間に新たな音声区間を
検出した場合は閾値は変化させない。また、語尾の場合
、一定時間、例えば300m5〜400 ms程度無音
区間が続いた場合、単語の終了と検知するが、AGC回
路によってゲインが大きくなる。つまり雑音が大きくな
る間は閾値を定期的に変化させる必要がある。この変化
させる時間はAGC回路のゲインを大きくする時定数に
よって決定される。
The other one is due to consonants and is a silent section of 100 ms or more. Among these, in order to change the threshold only in silent sections due to consonant sounds, approximately 1. If a new voice section is detected within about OOms, the threshold value is not changed. Further, in the case of the end of a word, if a silent period continues for a certain period of time, for example, about 300 m5 to 400 ms, the end of the word is detected, but the gain is increased by the AGC circuit. In other words, it is necessary to change the threshold value periodically while the noise increases. The time for this change is determined by the time constant that increases the gain of the AGC circuit.

効   果 以」二の説明から明らかなように、本発明によると、雑
音下においても音声情報を欠落させずに安定に音声区間
を検出することができる。
Effects As is clear from the explanation in section 2, according to the present invention, it is possible to stably detect a voice section without losing voice information even under noise.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の実施に使用される電気回路の一例を
示すブロック線図、第2図は、本発明の動作原理を説明
するための信号波形図、第3図は、従来の音声区間検出
方法の一例を説明するための信号波形図である。 1・・・マイク、2・・・AGC回路、3・・・パワー
検出部、4・・・閾値可変部、5・・・区間検出部。 7一
FIG. 1 is a block diagram showing an example of an electric circuit used to carry out the present invention, FIG. 2 is a signal waveform diagram for explaining the operating principle of the present invention, and FIG. FIG. 3 is a signal waveform diagram for explaining an example of a section detection method. DESCRIPTION OF SYMBOLS 1... Microphone, 2... AGC circuit, 3... Power detection part, 4... Threshold variable part, 5... Section detection part. 71

Claims (3)

【特許請求の範囲】[Claims] (1)、入力された音声パワーの話者による違いを除去
するAGC回路と、該AGC回路を通過した音声パワー
と無発声時の雑音パワーを基に設定された閾値とを比較
して音声区間を得る手段と、ある定められた長さの無音
区間がある場合、それを単語の区切りとする一単語信号
を生成する手段とを有する音声認識装置において、単語
内の音声区間が終了した時点からある一定時間たつた無
音区間中の雑音パワーを基にして閾値を変化させて次に
来る音声の区間を検出することを特徴とする音声区間検
出方式。
(1) An AGC circuit that removes differences in input voice power depending on the speaker, and a voice interval that compares the voice power that has passed through the AGC circuit with a threshold set based on the noise power during non-utterance. and, if there is a silent interval of a certain length, a means for generating a one-word signal that uses the silent interval as a word delimiter. A speech section detection method that detects the next speech section by changing a threshold value based on the noise power in a silent section that has elapsed for a certain period of time.
(2)、単語内の音声区間が終了した時点からある一定
時間たつた無音区間中の雑音パワーを数10〜100m
s間平均した値を基に閾値を変化させて次に来る音声区
間を検出することを特徴とする特許請求の範囲第(1)
項に記載の音声区間検出方式。
(2), the noise power during a silent section after a certain period of time from the end of the vocal section within a word is calculated by several tens to 100 meters.
Claim (1) characterized in that the next voice section is detected by changing the threshold value based on the value averaged over s.
The speech interval detection method described in Section.
(3)、単語内の音声区間が終了した時点からある一定
時間たつた無音区間中の雑音パワーをある一定時間ごと
に検出し、そのパワーを基に検出するごとに閾値を逐次
変化させて次に来る音声区間を検出することを特徴とす
る特許請求の範囲第(1)項に記載の音声区間検出方式
(3) Detect the noise power during a silent section after a certain period of time has elapsed from the end of the speech section within a word, and change the threshold value sequentially based on the detected power each time. The voice interval detection method according to claim 1, wherein the voice interval detection method detects the voice interval that occurs at the end of the voice interval.
JP60099137A 1985-05-10 1985-05-10 Voice section detection system Pending JPS61256394A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60099137A JPS61256394A (en) 1985-05-10 1985-05-10 Voice section detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60099137A JPS61256394A (en) 1985-05-10 1985-05-10 Voice section detection system

Publications (1)

Publication Number Publication Date
JPS61256394A true JPS61256394A (en) 1986-11-13

Family

ID=14239329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60099137A Pending JPS61256394A (en) 1985-05-10 1985-05-10 Voice section detection system

Country Status (1)

Country Link
JP (1) JPS61256394A (en)

Similar Documents

Publication Publication Date Title
US6205420B1 (en) Method and device for instantly changing the speed of a speech
JP3069531B2 (en) Voice recognition method
JP3553828B2 (en) Voice storage and playback method and voice storage and playback device
JPS5982608A (en) System for controlling reproducing speed of sound
JPS61256394A (en) Voice section detection system
JP4127155B2 (en) Hearing aids
JPS6257040B2 (en)
JP3219892B2 (en) Real-time speech speed converter
JPH0222399B2 (en)
JPH03114100A (en) Voice section detecting device
KR100350003B1 (en) A system for determining a word from a speech signal
JPS63306498A (en) Voice section detecting system
JPH0772896A (en) Device for compressing/expanding sound
JPS6039691A (en) Voice recognition
JPS59149400A (en) Syllable boundary selection system
JPH0259480B2 (en)
JPH0376471B2 (en)
JPH0567039B2 (en)
JPS6239754B2 (en)
JP2005064744A (en) Hearing aid device
JPS6217800A (en) Voice section decision system
JPS61140999A (en) Voice section detection system
JPS6147000A (en) Voice head detector
JPS63259690A (en) Voice recognition responder
JPS6146998A (en) Voice head detector