JPS6091397A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS6091397A
JPS6091397A JP58200188A JP20018883A JPS6091397A JP S6091397 A JPS6091397 A JP S6091397A JP 58200188 A JP58200188 A JP 58200188A JP 20018883 A JP20018883 A JP 20018883A JP S6091397 A JPS6091397 A JP S6091397A
Authority
JP
Japan
Prior art keywords
speech
input
section
recognition device
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58200188A
Other languages
Japanese (ja)
Inventor
中谷 奉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58200188A priority Critical patent/JPS6091397A/en
Publication of JPS6091397A publication Critical patent/JPS6091397A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 肢生分国 本発明は、効率的に音声を認識することのできる音声認
識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech recognition device that can efficiently recognize speech.

皿米技権 音声認識装置において、音声入力が1台の認識装置に重
なる場合、従来は、録音器等の記録媒体に一時記録して
おき、時間的に余裕のできた時点で再生して順次認識す
るようにしているが、この方法では再生に時間がかかり
認識できる量が限定されてしまうという欠点があった。
In the Saramai Giken voice recognition device, when voice input overlaps with one recognition device, conventionally, it is temporarily recorded on a recording medium such as a recorder, and then played back when there is free time and recognized sequentially. However, this method has the disadvantage that it takes time to reproduce and the amount that can be recognized is limited.

目 的 本発明は、上述のごとき従来技術の欠点を解消するため
になされたもので、特に、音声認識装置において、多数
の入力が同時に重なる場合に、録音等の手段で記録した
音声を録音時により早く再生して効率的に認識できる音
声認識装置を提供することを目的としてなされたもので
ある。
Purpose The present invention has been made in order to solve the above-mentioned drawbacks of the prior art.In particular, in a voice recognition device, when a large number of inputs overlap at the same time, the voice recorded by means such as recording is recorded. This was done with the aim of providing a speech recognition device that can reproduce data faster and recognize it more efficiently.

構 成 本発明の構成について、以下、実施例に基づ、いて説明
する。
Configuration The configuration of the present invention will be described below based on examples.

本発明は、前述のごとき実情に鑑みてなされたもので、
特に、記録された音声を記録したときよりも再生の速度
を上げて早く再生することにより時間的に効率良く入力
音声の認識ができるようにしたものであるが、以下、理
解を容易にするために2倍速で再生して認識する場合に
ついて説明する。
The present invention was made in view of the above-mentioned circumstances, and
In particular, by increasing the playback speed of the recorded voice and playing it back faster than when it was recorded, the input voice can be recognized in a time-efficient manner. The following describes the case where the image is played back at double speed and recognized.

図は、本発明の一実施例を説明するための電気的ブロッ
ク線図で、図中、lはマイクログオン。
The figure is an electrical block diagram for explaining one embodiment of the present invention, and in the figure, l represents a microgon.

2は例えば録音機に記録したものを2倍速で再生する手
段、3はこの2つの入力の切替えスイッチ、4は人間の
音声の音響減衰特性を補正するためのプリエンファシス
回路、5は特徴パラメータであるパワースペクトルを例
えばB−P−F (バンドパスフィルタ)群で抽出する
ためのB−P−F部、6及び7はフィルタ5の出力から
パワーを抽出するための検波部と平滑部で、この平滑部
はL−・P・F(ローパスフィルタ)で構成される。8
はパワースペクトルを量子化するAD変換器、9は量子
化したパワースペクトルからなる特徴パターンを次段の
辞書部10と照合部11の一方に切替えて入力するスイ
ッチで、辞書lOは登録音声の特徴パターンを格納する
ためにあり、照合部11は入力音声と辞書10の特徴パ
ターンとを照合するためにある。12は照合した結果に
より入力音声がどの内容であるかで判定する判定部、1
4はスイッチ3からの切替え信号13によりプリエンフ
ァシス回路4乃至AD変換器8の設定パラメータを2倍
速かノーマルな速度に制御する制御部である。
2 is means for playing back what was recorded on a recorder at double speed, 3 is a switch for selecting these two inputs, 4 is a pre-emphasis circuit for correcting the acoustic attenuation characteristics of human voice, and 5 is a characteristic parameter. A B-P-F section for extracting a certain power spectrum using, for example, a B-P-F (band pass filter) group; 6 and 7 are a detection section and a smoothing section for extracting power from the output of the filter 5; This smoothing section is composed of L-, P, and F (low-pass filters). 8
9 is an AD converter that quantizes the power spectrum; 9 is a switch that switches and inputs the feature pattern consisting of the quantized power spectrum to either the dictionary section 10 or the collation section 11 in the next stage; The matching section 11 is provided to store patterns, and the matching section 11 is provided to match the input speech with characteristic patterns in the dictionary 10. 12 is a determination unit that determines the content of the input audio based on the comparison result;
Reference numeral 4 denotes a control section that controls the setting parameters of the pre-emphasis circuit 4 to the AD converter 8 to double speed or normal speed using the switching signal 13 from the switch 3.

表1は、ノーマル速度と2倍速のパラメータを示すが、
2倍速の場合再生時間は記録時間の半分となり、再生さ
れた信号の周波数は2倍にシフトされる。従って、設定
パラメータは、この2倍にシフトした信号を処理するよ
うに設定する。
Table 1 shows the parameters for normal speed and double speed.
In the case of double speed, the reproduction time is half the recording time, and the frequency of the reproduced signal is shifted twice. Therefore, the setting parameters are set so that the signal shifted twice is processed.

表1 表1から明らかなように、プリエンファシス回路4;B
−P−F群5 ; L −P −、F部7;及び、AD
変換部8の各々の設定値はノーマル時の2倍の設定値と
なる。但し、フレーム時間はノーマル時の半分となる。
Table 1 As is clear from Table 1, pre-emphasis circuit 4;
-P-F group 5; L-P-, F section 7; and AD
Each setting value of the converter 8 is twice the normal setting value. However, the frame time will be half of the normal time.

以上の如く設定すれば、データ量はサンプル数が2倍と
なるが再生時間が半分となるので、全体としては変化し
ない。よって、辞書10にノーマルで登録されている特
徴パターンのデータと2倍速で処理されたデータは1対
1の対応をし、そのまN照合することができる。
If the settings are made as described above, the data amount will not change as a whole because the number of samples will double, but the playback time will be halved. Therefore, there is a one-to-one correspondence between the characteristic pattern data registered in the dictionary 10 as normal and the data processed at double speed, and N matching can be performed as is.

なお、以上には2倍速を例にして説明したが、本発明は
、上記実施例°に限定されるものではなく、例えば、n
倍の再生速度のときは、再生時間とフレーム時間は1 
/ nに、表1の他のパラメータをn倍することにより
、n倍の認識ができることは言うに及ばない。
Note that although the explanation has been made using double speed as an example, the present invention is not limited to the above embodiment; for example,
When the playback speed is double, the playback time and frame time are 1
It goes without saying that by multiplying /n by n times the other parameters in Table 1, n times more recognition can be achieved.

また、以上には、音声取り込みにB−H−F群を用いた
例について説明したが、入力音声を直ちに量子化してプ
リエンファシス以降の操作をデジタルフィルタ等で構成
する場合もパラメータの設定は同様であるし、以上に説
明した以外の特徴パラメータ(例えば自己相関係数、P
arcor係数、雲交叉数等)を用いた認識においても
全く同様に処理できることは言うに及びない。
In addition, although the example above uses the B-H-F group for audio capture, the parameter settings are the same when input audio is immediately quantized and operations after pre-emphasis are performed using a digital filter, etc. , and characteristic parameters other than those explained above (e.g. autocorrelation coefficient, P
It goes without saying that recognition using (arcor coefficients, cloud intersection numbers, etc.) can be processed in exactly the same way.

塾−一果 以上の説明から明らかなように、本発明によると、記録
された音声を記録した速度よりも早い再生速度で再生し
ても、登録されている辞書と音声取り込みの設定パラメ
ータを変更することのみの操作により、ノーマル時と同
様の照合操作によって正確な音声認識をする音声認識装
置を提供することができ、効率的な認識をすることがで
きる。
As is clear from the above explanation, according to the present invention, even if the recorded audio is played back at a faster playback speed than the recording speed, the registered dictionary and audio capture setting parameters can be changed. It is possible to provide a speech recognition device that performs accurate speech recognition by performing the same verification operation as in the normal case, and it is possible to perform efficient recognition.

【図面の簡単な説明】[Brief explanation of the drawing]

図は、本発明の一実施例を説明するための電気的ブロッ
ク線図である。 1・・・マイクロフォン、2・・再生装置、4・・・プ
リエンファシス回路、5・・B−P−F群、6・・検波
部、7・・・平滑部(L−P−F)、8・・A/D変換
器、10・・・辞書部、11・・・照合部、12・・・
判定部、14・・・制御部。
The figure is an electrical block diagram for explaining one embodiment of the present invention. DESCRIPTION OF SYMBOLS 1... Microphone, 2... Reproduction device, 4... Pre-emphasis circuit, 5... B-P-F group, 6... Detection section, 7... Smoothing section (L-P-F), 8... A/D converter, 10... Dictionary section, 11... Verification section, 12...
Judgment unit, 14...control unit.

Claims (3)

【特許請求の範囲】[Claims] (1)、音声信号の特徴パラメータを抽出する抽出部と
、登録する音声の特徴パラメータを格納する辞書部と、
入力音声の特徴パラメータと該辞書部に格納された特徴
パラメータを照合する照合部と、照合結果から入力音声
を判別する判定部とを持つ音声認識装置において、直接
の音声入力と、一旦記録した音声信号を再生して印加す
る音声入力とを切換えて夫々認識することを特徴とする
音声認識装置。
(1) an extraction unit that extracts the feature parameters of the audio signal; a dictionary unit that stores the feature parameters of the audio to be registered;
A speech recognition device that has a matching section that matches the feature parameters of the input speech with the feature parameters stored in the dictionary section, and a determination section that discriminates the input speech from the matching result, uses direct speech input and speech that has been recorded once. A voice recognition device characterized by switching between reproducing a signal and applying a voice input to recognize each one.
(2)、直接の音声入力か記録音声入力かを切替える選
択信号から制御信号を得る制御手段を有することを特徴
とする特許請求の範囲第(1)項に記載の音声認識装置
(2) The speech recognition device according to claim (1), further comprising a control means for obtaining a control signal from a selection signal for switching between direct speech input and recorded speech input.
(3)、前記制御手段からの制御信号により特徴抽出部
の抽出パラメータを記録器の再生速度(n倍)によって
変えることを特徴とする特許請求の範囲第(2)項に記
載の音声認識装置。
(3) The speech recognition device according to claim (2), characterized in that the extraction parameters of the feature extraction section are changed depending on the playback speed (n times) of the recorder by a control signal from the control means. .
JP58200188A 1983-10-26 1983-10-26 Voice recognition equipment Pending JPS6091397A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58200188A JPS6091397A (en) 1983-10-26 1983-10-26 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58200188A JPS6091397A (en) 1983-10-26 1983-10-26 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS6091397A true JPS6091397A (en) 1985-05-22

Family

ID=16420256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58200188A Pending JPS6091397A (en) 1983-10-26 1983-10-26 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS6091397A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01106096A (en) * 1987-10-20 1989-04-24 Sanyo Electric Co Ltd Voice recognition system
JP2021044720A (en) * 2019-09-12 2021-03-18 シャープ株式会社 Communication device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01106096A (en) * 1987-10-20 1989-04-24 Sanyo Electric Co Ltd Voice recognition system
JP2021044720A (en) * 2019-09-12 2021-03-18 シャープ株式会社 Communication device

Similar Documents

Publication Publication Date Title
JP2008191659A (en) Speech emphasis method and speech reproduction system
CN1148230A (en) Method and system for karaoke scoring
DE102012103553A1 (en) AUDIO SYSTEM AND METHOD FOR USING ADAPTIVE INTELLIGENCE TO DISTINCT THE INFORMATION CONTENT OF AUDIOSIGNALS IN CONSUMER AUDIO AND TO CONTROL A SIGNAL PROCESSING FUNCTION
JPS6044837A (en) Waveform regenerating device
JP3659489B2 (en) Digital audio processing apparatus and computer program recording medium
JP3888239B2 (en) Digital audio processing method and apparatus, and computer program
JPS6091397A (en) Voice recognition equipment
JPH06289898A (en) Speech signal processor
JP2591472Y2 (en) Sound signal processing device
JPH06289897A (en) Speech signal processor
JP2816052B2 (en) Audio data compression device
EP0630108A2 (en) A method of expanding the frequency range of a digital audio signal
JPH09146587A (en) Speech speed changer
JPS5912479A (en) Pronuntiation practicing apparatus
JPS5966230A (en) Noise eliminating device
US9264818B2 (en) Digital signal processor with search function
JPH0772978B2 (en) Digital audio signal playback device
JPS59102297A (en) Voice synthesizer
JPS6091400A (en) Voice feature extractor
JPS6139977A (en) Audio information processing circuit
JPH0923137A (en) Signal processor
JPH1131000A (en) Voice recorder
JPS6139980A (en) Audio signal processing device
JPH0799813B2 (en) Audio signal processor
JPS6260399A (en) Audio signal transmission system