JPS6295598A - Voice recognition apparatus - Google Patents

Voice recognition apparatus

Info

Publication number
JPS6295598A
JPS6295598A JP23677085A JP23677085A JPS6295598A JP S6295598 A JPS6295598 A JP S6295598A JP 23677085 A JP23677085 A JP 23677085A JP 23677085 A JP23677085 A JP 23677085A JP S6295598 A JPS6295598 A JP S6295598A
Authority
JP
Japan
Prior art keywords
data
frame
binary
spectral
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23677085A
Other languages
Japanese (ja)
Inventor
納田 重利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP23677085A priority Critical patent/JPS6295598A/en
Publication of JPS6295598A publication Critical patent/JPS6295598A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、例えば話者の音声を単語単位で認識するの
に適用される音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speech recognition device that is applied to, for example, recognizing a speaker's speech word by word.

〔発明の概要〕[Summary of the invention]

この発明は、音声認識装置において、音声信号を周波数
スペクトルに変換して時系列フレームデータとし、各フ
レーム毎に二値化処理を行いスペクトルデータに関する
二(直データを得ると共に、有声/無音性、隣り合うフ
レーム間距離及び音素性(母音、子音性等)等の1個の
フレームデータ全体としての特徴を示す二値データをス
ペクトルデータの二値データに付加して二(直特徴デー
タを得、この二値特徴データに基づいてパターンマツチ
ングを行うことにより、認識率の向上を図ると共に、メ
モリ容惜を低減させ、計算処理時間を短縮するようにし
たものである。
This invention provides a speech recognition device that converts a speech signal into a frequency spectrum to produce time-series frame data, performs binarization processing for each frame, obtains direct data regarding the spectrum data, and also Binary data indicating the characteristics of one frame data as a whole, such as the distance between adjacent frames and phoneme properties (vowel, consonantity, etc.), is added to the binary data of the spectral data to obtain direct feature data. By performing pattern matching based on this binary feature data, the recognition rate is improved, memory capacity is reduced, and calculation processing time is shortened.

〔従来の技術〕[Conventional technology]

木+t、I!出願人により、先に堤案されている音声認
識装置(特19目昭59−106177号)は、音声入
力部としてのマイクロホン、前処理回路、音響分析器、
特徴データ抽出器、登録パターンメモリ及びパターンマ
ツチング判定器等により構成されている。
Tree + t, I! The voice recognition device previously proposed by the applicant (Special Patent No. 1988-106177) includes a microphone as a voice input section, a preprocessing circuit, an acoustic analyzer,
It is composed of a feature data extractor, a registered pattern memory, a pattern matching determiner, etc.

この音声部、議装置は、マイクロホンから人力される音
声信号を前処理回路において、音声認識に必要とされる
帯域に制限し、ノ\/D変換器によりディジタル音声信
号とし、このディジクル音声信号を音響分析器に供給す
る。
This audio section and conference device limits the audio signal manually input from the microphone to the band required for speech recognition in a preprocessing circuit, converts it into a digital audio signal using a /D converter, and converts this digital audio signal into a digital audio signal. Supplies the acoustic analyzer.

そして、音也Σ分JJr hにおいて、音声信号を周波
数スペクトルに変換し、例えば対数軸上で一定間隔とな
るようにN個の周波数を代表値として周波数スペクトル
を正規化して、フレーム周間毎にNチャンネルのスペク
トルデータにより構成されるフレームデータを特徴デー
タ抽出器にイ4(給する。
Then, in Otoya Σ JJr h, the audio signal is converted into a frequency spectrum, and the frequency spectrum is normalized using N frequencies as representative values at regular intervals on the logarithmic axis. Frame data consisting of N channels of spectral data is fed to the feature data extractor.

特徴データ抽出器は、隣り合うフレームデータの距離を
計算し、夫々のフレーム間距離の総和により、音声信号
の始端フレームから終端フレームまでのN次元ベクトル
の軌跡長を求め、最も語数が多く長い音声の場合に特徴
を抽出するのに必要な所定の分割数でもって軌跡長を等
分割し、その分割点に対応したフレームデータのみを特
徴データとして抽出して、話者の音声の発生速度変動に
影響されることがないように時間軸を正規化し出力する
The feature data extractor calculates the distance between adjacent frame data, calculates the trajectory length of the N-dimensional vector from the start frame to the end frame of the audio signal by summing the distances between each frame, and extracts the longest audio with the largest number of words. In this case, the trajectory length is equally divided by the predetermined number of divisions necessary to extract the features, and only the frame data corresponding to the division points are extracted as feature data, thereby adjusting for fluctuations in the rate of speech generation of the speaker. Normalize and output the time axis so that it is not affected.

この特徴データを登録時においては、登録パターンメモ
リに供給して登録特徴データブロック(標準パターン)
として記・iaシ、認識時においては、入力音声信号を
前述した処理により、入力待i攻データブロック (人
カバターン)とし、パターンマツチング判定器に供給す
る。そしてパターンマツチング判定器において、入力特
徴データブロックと? 21特徴データプロ、りとの間
でパターンマツチングを行う。
When registering this feature data, it is supplied to the registered pattern memory and used as a registered feature data block (standard pattern).
At the time of recognition, the input audio signal is processed as described above to become an input waiting data block (human cover turn), and is supplied to a pattern matching judger. And in the pattern matching judger, the input feature data block and ? Perform pattern matching between 21 Feature Data Pro and Ri.

パターンマツチング判定器は、登録特徴データブロック
を構成するフレームデータと入力特徴データプロ・7り
を構成するフレームデータとの間でフレーム間距離を計
算し、フレーム間距離の総和をマツチング距離とし、池
の登録特徴データプロ・ツクに関しても同様にマツチン
グ距離を算出して、マツチング距離が最小で十分に距離
が近いものと判断される忰録特1”ilデータブロック
に対応する単語を認識結果として出力する。
The pattern matching determiner calculates the inter-frame distance between the frame data constituting the registered feature data block and the frame data constituting the input feature data block, and sets the sum of the inter-frame distances as the matching distance; The matching distance is calculated in the same way for Ike's registered feature data pro-tsuku, and the word corresponding to the data block whose matching distance is the minimum and is determined to be sufficiently close is selected as the recognition result. Output.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

しかし、従来の音声部n(装置においては、音響分析器
から出力されるフレームデータが特徴データ抽出器を介
してそのまま今録待i攻データブロックとして登録パタ
ーンメモリに8己・1aさ、!するため、登録パターン
メモリのメモリ量が膨大なものとなる問題点があった。
However, in the conventional audio part n (device), the frame data output from the acoustic analyzer is directly stored in the registered pattern memory as a recording data block via the feature data extractor. Therefore, there was a problem that the amount of memory of the registered pattern memory became enormous.

これと共に、パターンマツチング時るこおいても、デー
タへ1に応じてその計算処理時間が長くなる問題点かあ
った。
Along with this, there is also a problem that the calculation processing time becomes longer depending on the number of data in pattern matching.

従って、この発明の目的は、フレームデータを二値化す
ることにより、登録パターンメモリの容量を低減でき、
また、マツチング処理時間の短縮を図ることができる音
声認識装置を提供ることにある。
Therefore, an object of the present invention is to reduce the capacity of registered pattern memory by binarizing frame data.
Another object of the present invention is to provide a speech recognition device that can reduce matching processing time.

また、本願出願人により種々の原因により変動するスペ
クトルの傾向を正確に正規化してフレームデータを構成
するスペクトルデータの夫々を二4W化し、この二値デ
ータに基づいてパターンマツチングを行う音声認識装置
として特願昭60−166191号が提案されている。
Additionally, the applicant has developed a speech recognition device that accurately normalizes the tendency of the spectrum that varies due to various causes, converts each piece of spectral data constituting frame data into 24W, and performs pattern matching based on this binary data. Japanese Patent Application No. 166191/1983 has been proposed as such.

しかし、この音声認識装置においては、二値化処理のた
め、1個のフレームデータ全体としての特徴が薄らぎ、
池のフレームデータとの差が少なくなり、類似性が強く
なる欠点があった。例えば第3図Aに示すフレームデー
タが図中の基準レベルにより二値化された場合にはrl
、1,0.0,1,0,1゜1、■」の二1直データと
され、第3図Bに示すフレームデータが図中のル準レベ
ルにより二値化された場合ニハ「1.1,0,0,0.
0.1.’1.1 j 〕二値データとされ、明らかに
違うフレームデータであるにもかかわらず殆ど差がない
。パターンマツチング判定器において、これらの二値フ
レームデータ間の距離が求められると、フレーム間距離
が小さな値として計算され、マツチング距離に大きな差
が生じず認識率が低下してしまう可能性がある。
However, in this speech recognition device, due to the binarization process, the characteristics of one frame data as a whole are weakened.
There was a drawback that the difference with the pond frame data became smaller and the similarity became stronger. For example, if the frame data shown in Figure 3A is binarized using the reference level in the figure, rl
, 1,0.0,1,0,1゜1, .1,0,0,0.
0.1. '1.1 j] Although they are binary data and are clearly different frame data, there is almost no difference. When the pattern matching determiner calculates the distance between these binary frame data, the interframe distance is calculated as a small value, and there is a possibility that there will be no large difference in the matching distance and the recognition rate will decrease. .

従って、特にこの発明は、二値化の利点であるメモリの
容量の低域化、マツチング処理の高速性をt捗なうこと
なく、認識率の向上を図るものである。
Therefore, in particular, the present invention aims to improve the recognition rate without sacrificing the advantage of binarization, which is the reduction in memory capacity and the high speed of matching processing.

〔問題点を解決するための手段〕[Means for solving problems]

この発明は、入力音声信号がNチャンネルの周波数スペ
クトルに変換され、Nチャンネルの周波数スペクトルの
時系列データが入力される音声認識装置において、 時系列データのフレーム毎にスペクトルチー タの二値
化処理を行いスペクトルデータの二値データを得ると共
に、有声/無音性、隣り合うフレーム間距離及び音素性
等の1個のフレームに関する特徴を抽出して二値データ
を得、 スペクトルデータの二(直データに対してフレームに関
する二値データを付加して二値特徴データとし、二値特
徴データを用いて入力音声信号を認識するようにしたこ
とを特徴とする音声認識装置である。
The present invention provides a speech recognition device in which an input audio signal is converted into N-channel frequency spectra, and time-series data of the N-channel frequency spectra is input, and a spectral cheater binarization process is performed for each frame of the time-series data. In addition to obtaining binary data of the spectral data, features related to one frame such as voicing/silence, distance between adjacent frames, and phoneme characteristics are extracted to obtain binary data. This is a speech recognition device characterized in that binary data regarding a frame is added to the input speech signal to generate binary feature data, and the binary feature data is used to recognize an input speech signal.

(作用口・ 混合二値化パターン抽出器10において、時間軸の正規
化処理により圧縮された時系列フレームデータのスペク
トルデータが二値化されると共に、を声・無声抽出器7
.隣接距離計算器8及び音素性パターン抽出器9から供
給される各フレームの特徴を示す二値データが時間的に
対応するフレームのスペクトルデータの二値データに付
加され、二値特徴データとされ、この二値特徴データを
用いてパターンマツチングが行われる。
(Operation port: In the mixed binarization pattern extractor 10, the spectral data of the time series frame data compressed by the time axis normalization process is binarized, and the voice/silence extractor 7
.. Binary data indicating the characteristics of each frame supplied from the adjacent distance calculator 8 and the phonetic pattern extractor 9 is added to the binary data of the spectral data of the temporally corresponding frame to obtain binary feature data, Pattern matching is performed using this binary feature data.

[実施例] 以下、この発明の一実施例を図面を参照して説明する。[Example] An embodiment of the present invention will be described below with reference to the drawings.

第1図は、この発明の一実施例を示すもので、第1図に
おいて1で示されるのが音声人力部としてのマイクロホ
ンを示している。
FIG. 1 shows an embodiment of the present invention, and in FIG. 1, reference numeral 1 indicates a microphone as a voice input section.

マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えばカットオフ周波数7
.5kHzのローパスフィルタであり、音声信号がフィ
ルタ2において、音声認識に必要とされる7、5kll
z以下の帯域に制限され、この音声信号がアンプ3を介
してA/D変換器4シこ供給される。
An analog audio signal from microphone 1 is supplied to filter 2 . Filter 2 has a cutoff frequency of 7, for example.
.. It is a 5kHz low-pass filter, and the audio signal is passed through the filter 2 at a frequency of 7.5kll, which is required for speech recognition.
This audio signal is limited to a band below z and is supplied to an A/D converter 4 via an amplifier 3.

A/D変換器4は、例えばサンプリング周波数12.5
kHzの8ビツトA / D変換器であり、音声信号が
A/D変換器4において、アナログ−ディジクル変換さ
れて8ビツトのディジクル信号とされ、スペクトル変換
器5に供給される。
The A/D converter 4 has a sampling frequency of 12.5, for example.
The audio signal is analog-to-digital converted in the A/D converter 4 to an 8-bit digital signal, which is then supplied to the spectrum converter 5.

スペクトル変換器5は、音声信号を周波数スペクトルに
変換して、例えばNチャンネルのスペクトルデータ列を
発生するものである。スペクトル変換器5において、音
声信号が演算処理により周波数スペクトルに変換され、
例えば対数軸上で一定間隔となるN個の周波数を代表値
とするスペクトルデータ列が得られる。従って、音声信
号がNチャンネルの離散的な周波数スペクトルの大きさ
によって表現される。そして、単位時間(フレーム周8
J])毎にNチャンネルのスペクトルデータ列が1つの
フレームデータとして出力される。即ち、フレーム周期
毎に音声信号がN次元ベクトルにより表現されるパラメ
ータとして切り出され、スペクトルパターン抽出器6.
有声・無声抽出器7゜隣接距離計算器8及び音素性パタ
ーン抽出器9の夫々に供給される。
The spectrum converter 5 converts the audio signal into a frequency spectrum and generates, for example, an N-channel spectrum data string. In the spectrum converter 5, the audio signal is converted into a frequency spectrum by arithmetic processing,
For example, a spectral data string having representative values of N frequencies at constant intervals on the logarithmic axis is obtained. Therefore, the audio signal is expressed by the magnitude of the discrete frequency spectrum of N channels. Then, unit time (frame period 8
J]), a spectral data string of N channels is output as one frame data. That is, the audio signal is extracted every frame period as a parameter expressed by an N-dimensional vector, and the spectral pattern extractor 6.
The voiced/unvoiced extractor 7° is supplied to the adjacent distance calculator 8 and the phonemic pattern extractor 9, respectively.

スペクトルパターン抽出器6は、時間軸を正規化するこ
とにより時系列フレームデータを圧縮するものである。
The spectral pattern extractor 6 compresses time-series frame data by normalizing the time axis.

例えば、スペクトルパターン抽出器6において、隣り合
うフレームデータの各チャンネルに関してスペクトルデ
ータの差の絶対値が夫々求められ、その総和が隣り合う
フレームデータのフレーム間距離とされる。更に、フレ
ーム間距離の総和が求められ、音声信号の始端フレーム
から終端フレームまでのN次元ベクトルの軌跡長が求め
られる。そして最も語数が多く長い音声の場合に特徴を
抽出するのに必要な所定の分割数でもって軌跡長が等分
割される。分割点の夫々に対応したフレームデータのみ
が抽出され、話者の音声の発生速度変動に影響されるこ
とがないように時間軸が正規化され、この抽出されたフ
レームデータが混合二イ1σ化パターン抽出器10に供
給される。
For example, in the spectral pattern extractor 6, the absolute value of the difference between the spectral data for each channel of adjacent frame data is determined, and the sum thereof is taken as the inter-frame distance between the adjacent frame data. Furthermore, the sum of the interframe distances is determined, and the trajectory length of the N-dimensional vector from the start frame to the end frame of the audio signal is determined. Then, in the case of the longest voice with the largest number of words, the trajectory length is equally divided by a predetermined number of divisions necessary to extract the features. Only frame data corresponding to each division point is extracted, the time axis is normalized so as not to be affected by variations in the speech production rate of the speaker, and this extracted frame data is mixed and converted into 1σ. A pattern extractor 10 is provided.

有声・無声抽出器7において、音声信号中の有声区間及
び無声区間の検出がピッチ波の有無によってなされる。
In the voiced/unvoiced extractor 7, voiced sections and unvoiced sections in the audio signal are detected based on the presence or absence of pitch waves.

つまり、音声中の有声音は、肺から送り出される呼気が
声帯の振動によって脈流的に断続されたものであるため
ピンチ波が含まれ、無声音は、調音器官、とくに舌先、
歯、唇などによって形づくられる狭い空間を肺から送り
出される呼気が通り抜けるときに生ずる空気の乱流によ
って発生するこめ、。ピッチ波が含まれない。このため
、例えば、スペクトル変換器5から順次供給される時系
列フレームデータの周波数の低いチャンネルに関する相
関が求められることにより、ピッチ波の有無が検出され
、ピンチ波を含む区間が宵宮区間とされ、例えば「1」
で表現され、ピッチ波を含まない区間が無声区間とされ
例えは「0」で表現され、有声/無声性データが発生さ
れる。この有声/無声性データが混合二値化パターン抽
出器10に供給される。
In other words, voiced sounds include pinch waves because the exhaled air sent out from the lungs is interrupted by the vibration of the vocal cords, while unvoiced sounds are created by the articulatory organs, especially the tip of the tongue.
This is caused by the turbulent flow of air that occurs when exhaled air from the lungs passes through the narrow space formed by teeth, lips, etc. Does not include pitch waves. Therefore, for example, the presence or absence of a pitch wave is detected by determining the correlation regarding the low frequency channels of the time-series frame data sequentially supplied from the spectrum converter 5, and the section including the pinch wave is determined as the Yoimiya section. For example "1"
The interval that does not include a pitch wave is defined as a silent interval, and is expressed, for example, as "0", and voiced/unvoiced data is generated. This voiced/unvoiced data is supplied to a mixed binary pattern extractor 10.

隣接距離計算器8において、スペクトル変換器5から供
給される時系列フレームデータの隣り合うフレーム間の
距離が、例えば各チャンネルに関してのスペクトルデー
タの差の絶対値の総和により算出される。この隣接フレ
ーム間距離が2ビツトで量子化され、隣接距離データに
変換される。
In the adjacent distance calculator 8, the distance between adjacent frames of the time-series frame data supplied from the spectrum converter 5 is calculated by, for example, the sum of the absolute values of differences in spectrum data for each channel. This distance between adjacent frames is quantized with 2 bits and converted into adjacent distance data.

この隣接距離データが混合二値化パターン抽出器10に
供給される。
This adjacent distance data is supplied to the mixed binary pattern extractor 10.

音素性パターン抽出器9において、各フレームデータの
音素1生、即ちスペクトル形状の特徴が検出され、例え
ば2ビツトのデータにより表現される。例えば、有声母
音ra、、ruj、rojのスペクトル形状は、低域側
チャンネルに大きなレベルが発生する特徴を有するもの
で、この場合rl、Ojのデータが発生される。また、
有声母音riJ、reJのスペクトルの形状は、低域側
及び高域側のチャンネルに大きなレベルが発生する特徴
を有するもので、この場合ro、Ojのデータが発生さ
れる。また、無声子音rs  j。
In the phoneme pattern extractor 9, the phoneme 1 raw of each frame data, that is, the characteristic of the spectral shape is detected and expressed by, for example, 2-bit data. For example, the spectral shape of voiced vowels ra, ruj, and roj is characterized by a large level occurring in the lower channel, and in this case, data rl and Oj are generated. Also,
The shape of the spectrum of the voiced vowels riJ and reJ is characterized by large levels occurring in the low-frequency and high-frequency channels, and in this case, data of ro and Oj are generated. Also, the voiceless consonant rs j.

itj等のスペクトルの形状は、高域側のチャンネルに
大きなレベルが発生する特徴を有するもので、この場合
rO,IJのデータが発生される。
The shape of the spectrum such as itj has the characteristic that a large level is generated in the channel on the high frequency side, and in this case, data of rO and IJ are generated.

また、その他の上記3つの特徴的なスペクトルの形状に
合致しないフレームデータの場合には「1゜1」のデー
タが発生される。これらの音素性データが混合二値化パ
ターン抽出器10に供給される。
Furthermore, in the case of frame data that does not match the other three characteristic spectral shapes described above, data of "1°1" is generated. These phonemic data are supplied to the mixed binary pattern extractor 10.

混合二値化パターン抽出器10において、スペクトルパ
ターン抽出器6により抽出されたフレームデータが二値
化される。例えば、各フレームデータを構成するスペク
トルデータに関して傾向変動を補正する傾向値がチャン
ネル0から所定のチャンネルn (0≦n≦N−1)ま
でのスペクトルデータの平均値と、所定のチャンネルn
から最大チャンネルN−1までのスペクトルデータの平
均値との平均値に適当な係数が乗ぜられることにより求
められる。この各チャンネルのスペクトルデータに関し
て求められた傾向値と対応するスペクトルデータとの間
において減算がなされ、スペクトル傾向が平坦化され、
話者の個人差及び周囲ノイズ等に影響されることがない
ようにスペクトル傾向が正規化される。スペクトル傾向
が正規化されたスペクトルデータと適当な値に設定され
た基準1直との比較がなされ、基準値より大きなイ直の
スペクトルデータが「1」とされ、基4λ値より小さな
値のスペクトルデータが「0」とされて二値化される。
In the mixed binarization pattern extractor 10, the frame data extracted by the spectral pattern extractor 6 is binarized. For example, the trend value for correcting trend fluctuations regarding the spectral data constituting each frame data is the average value of the spectral data from channel 0 to a predetermined channel n (0≦n≦N-1), and the predetermined channel n
It is obtained by multiplying the average value of the spectral data from 1 to the maximum channel N-1 by an appropriate coefficient. Subtraction is performed between the trend value determined for the spectral data of each channel and the corresponding spectral data to flatten the spectral trend,
The spectral tendency is normalized so as not to be influenced by individual differences among speakers, ambient noise, and the like. The spectral data whose spectral tendency has been normalized is compared with the standard 1 value set to an appropriate value, and the spectral data with the value larger than the reference value is set as "1", and the spectrum data with the value smaller than the base 4λ value is The data is set to "0" and binarized.

ま1こ、それと共に、有声・無声抽出器7かろ供給され
る有声無声性データ(例えば1ビツト)。
Also, voiced/unvoiced data (for example, 1 bit) is supplied from the voiced/unvoiced extractor 7.

隣接距離計算器8から供給される隣接距離データ(例え
ば2ビツト)及び音素性パターン抽出器9から供給され
る音素性データ(例えば2ビツト)が時間的に対応する
二値化されたフレームデータ(例えば7ビツト)に付加
され、二値特徴データが形成され、この二値特徴データ
がモード切替回路11に供給される。
The adjacent distance data (for example, 2 bits) supplied from the adjacent distance calculator 8 and the phonemic data (for example, 2 bits) supplied from the phonetic pattern extractor 9 are converted into binarized frame data (for example, 2 bits) that temporally correspond to each other. (for example, 7 bits) to form binary feature data, and this binary feature data is supplied to the mode switching circuit 11.

この二値特徴データが登録時においては、モード切替回
路11を介して登録パターンメモリ12に供給され、例
えばスペクトルパターン抽出器6においてM個のフレー
ムが抽出された場合には第2図に示すようなデークブロ
・ツクが登録特徴データブロックとして記憶される。認
識時においては、入力音声信号が前述した処理を経て二
値特徴データとされ、この二値特徴データがパターンマ
ツチング判定器13に供給され、入力特徴データブロッ
クとされる。入力特徴データブロックと全ての登2.★
特徴データブロックとの間において、パターンマツチン
グが行われる。
At the time of registration, this binary feature data is supplied to the registered pattern memory 12 via the mode switching circuit 11. For example, when M frames are extracted by the spectral pattern extractor 6, as shown in FIG. A data block is stored as a registered feature data block. At the time of recognition, the input audio signal is converted into binary feature data through the above-described processing, and this binary feature data is supplied to the pattern matching determiner 13 to be used as an input feature data block. Input feature data block and all entries 2. ★
Pattern matching is performed between the feature data blocks.

即ち、パターンマツチング判定器13において、登録パ
ターンメモリ12から供給される登録特徴データブロッ
クと入力特徴データブロックとの間の対応するフレーム
においてフレーム間距離が求められる。例えば、同一ヒ
7 hのデータの差の絶対値の総和によりフレーム間距
離が求められ、その総和がマツチング距離とされる。そ
して全ての登録特徴データブロックに関して求められた
マツチング距離のうちで最小でかつ十分に距離が近いも
のと判断される登録特徴データブロックに対応する単語
が認識結果とされる。
That is, the pattern matching determiner 13 calculates the interframe distance between the corresponding frames between the registered feature data block supplied from the registered pattern memory 12 and the input feature data block. For example, the inter-frame distance is determined by the sum of the absolute values of the data differences of the same frame, and the sum is taken as the matching distance. Then, the word corresponding to the registered feature data block that is determined to be the smallest and sufficiently close among the matching distances determined for all the registered feature data blocks is taken as the recognition result.

尚、この発明の一実施例においては、二値化されたフレ
ームデータに有声・無声性データ、隣接距離データ及び
音素性データが付加される構成について説明したが、少
居(とも一つのデータが付加される構成でも良く、また
、音声強度(パワー)等のデータを更に付加する構成と
しても良い。
In one embodiment of the present invention, a configuration has been described in which voiced/unvoiced data, adjacent distance data, and phoneme data are added to binarized frame data. The configuration may be such that the information is added, or the configuration may be such that data such as audio intensity (power) is further added.

また、この発明は、ハードワイヤードの構成に限らず、
マ・イクロコンピュータ又は71°クロプログラム方式
を用いてソフトウェアにより処理を行うようにしても良
い。
Moreover, this invention is not limited to a hard-wired configuration.
The processing may be performed by software using a microcomputer or a 71° microprogram method.

〔発明の効果〕〔Effect of the invention〕

この発明では、混合二値化パターン抽出器において、時
間軸の正規処理により圧縮された時系列フレームデータ
のスペクトルデータが二値化されると共に、有声・無声
抽出器、隣接距離計算器及び音素性パターン抽出器から
供給される各フレームの特徴を示す二値データが時間的
に対応するフレームのスペクトルデータの二値データに
付加され、二値特徴データとされ、この二値特徴データ
を用いてパターンマツチングが行われる。
In this invention, in the mixed binarization pattern extractor, spectrum data of compressed time series frame data is binarized by regular processing on the time axis, and at the same time, the voiced/unvoiced extractor, the adjacent distance calculator, and the phoneme Binary data indicating the characteristics of each frame supplied from the pattern extractor is added to the binary data of the spectral data of the temporally corresponding frame to create binary feature data, and this binary feature data is used to create a pattern. Matching is performed.

従って、この発明に1衣れば、11[1i1のフレーム
データ全体としての特徴を示す二値データがスペクトル
データの二値データに付加されているため、音声特徴が
相乗的に強化され、認識率が向上されると共に、二値特
徴データが用いられるため、登録パターンメモリの容量
を低減でき、マツチング処理時間の短縮を図ることがで
きる。
Therefore, one advantage of this invention is that the binary data representing the characteristics of the entire frame data of 11 In addition, since binary feature data is used, the capacity of the registered pattern memory can be reduced, and the matching processing time can be shortened.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例の構成のブロック図、第2
図は一実施例における二値特徴データブロックのデータ
構成を示す路線図、第3図;よ従来の音声認識装置の説
明に用いる路線図である。 図面における主要な符号の説明 にマイクロホン、  5ニスベクトル変換器。 6:スペクトルパターン抽出器、  7:有声・無声抽
出器、  8;隣接距離計算器、  9:音素性パター
ン抽出器、   10:?M合二値化パターン抽出器、
  11:モード切替回路、  12:登録パターンメ
モリ、  13:パターンマツチング判定器。 第1図 第3図A   第3図B 2イ直特話欠テ゛リフ゛ロー/7 第2図
FIG. 1 is a block diagram of the configuration of one embodiment of the present invention, and FIG.
FIG. 3 is a route map showing the data structure of a binary feature data block in one embodiment, and FIG. 3 is a route map used to explain a conventional speech recognition device. Microphone, 5-varnish vector converter in the explanation of the main symbols in the drawing. 6: Spectral pattern extractor, 7: Voiced/unvoiced extractor, 8: Adjacent distance calculator, 9: Phonemic pattern extractor, 10: ? M-combined binary pattern extractor,
11: Mode switching circuit, 12: Registered pattern memory, 13: Pattern matching determiner. Fig. 1 Fig. 3 A Fig. 3 B 2. Direct special episode reflow/7 Fig. 2

Claims (1)

【特許請求の範囲】 入力音声信号がNチャンネルの周波数スペクトルに変換
され、上記Nチャンネルの周波数スペクトルの時系列デ
ータが入力される音声認識装置において、 上記時系列データのフレーム毎にスペクトルデータの二
値化処理を行いスペクトルデータの二値データを得ると
共に、有声/無音性、隣り合うフレーム間距離及び音素
性等の1個のフレームに関する特徴を抽出して二値デー
タを得、 上記スペクトルデータの二値データに対して上記フレー
ムに関する二値データを付加して二値特徴データとし、
上記二値特徴データを用いて上記入力音声信号を認識す
るようにしたことを特徴とする音声認識装置。
[Scope of Claims] A speech recognition device in which an input audio signal is converted into N-channel frequency spectra, and time-series data of the N-channel frequency spectra is input, wherein two of the spectrum data are input for each frame of the time-series data. Value processing is performed to obtain binary data of the spectral data, and features related to one frame such as voicedness/silence, distance between adjacent frames, and phoneme characteristics are extracted to obtain binary data, and the above spectral data is Adding binary data regarding the frame to the binary data to obtain binary feature data,
A speech recognition device characterized in that the input speech signal is recognized using the binary feature data.
JP23677085A 1985-10-23 1985-10-23 Voice recognition apparatus Pending JPS6295598A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23677085A JPS6295598A (en) 1985-10-23 1985-10-23 Voice recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23677085A JPS6295598A (en) 1985-10-23 1985-10-23 Voice recognition apparatus

Publications (1)

Publication Number Publication Date
JPS6295598A true JPS6295598A (en) 1987-05-02

Family

ID=17005535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23677085A Pending JPS6295598A (en) 1985-10-23 1985-10-23 Voice recognition apparatus

Country Status (1)

Country Link
JP (1) JPS6295598A (en)

Similar Documents

Publication Publication Date Title
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
CN109147796B (en) Speech recognition method, device, computer equipment and computer readable storage medium
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
JPS5844500A (en) Voice recognition system
JPS6350896A (en) Voice recognition equipment
JPS6366600A (en) Method and apparatus for obtaining normalized signal for subsequent processing by preprocessing of speaker,s voice
JP3354252B2 (en) Voice recognition device
JPS6295598A (en) Voice recognition apparatus
JPH0449952B2 (en)
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JPS625298A (en) Voice recognition equipment
JPS62113197A (en) Voice recognition equipment
JPS6225798A (en) Voice recognition equipment
JPS6097400A (en) Voice recognition equipment
KR0171004B1 (en) Basic frequency using samdf and ratio technique of the first format frequency
Krause Recent developments in speech signal pitch extraction
JP2606211B2 (en) Sound source normalization method
JPS6227798A (en) Voice recognition equipment
JPS625299A (en) Voice recognition equipment
JPH0731506B2 (en) Speech recognition method
CN113450768A (en) Speech synthesis system evaluation method and device, readable storage medium and terminal equipment
JPS63104099A (en) Voice recognition equipment
JPS6295597A (en) Continuous voice recognition apparatus
JPH06324696A (en) Device and method for speech recognition