JPS6132680B2 - - Google Patents

Info

Publication number
JPS6132680B2
JPS6132680B2 JP55127123A JP12712380A JPS6132680B2 JP S6132680 B2 JPS6132680 B2 JP S6132680B2 JP 55127123 A JP55127123 A JP 55127123A JP 12712380 A JP12712380 A JP 12712380A JP S6132680 B2 JPS6132680 B2 JP S6132680B2
Authority
JP
Japan
Prior art keywords
feature vector
speech
subsequence
sample position
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55127123A
Other languages
Japanese (ja)
Other versions
JPS5752097A (en
Inventor
Isamu Nose
Akihiko Umehara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP55127123A priority Critical patent/JPS5752097A/en
Publication of JPS5752097A publication Critical patent/JPS5752097A/en
Priority to US06/582,134 priority patent/US4513436A/en
Publication of JPS6132680B2 publication Critical patent/JPS6132680B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は、未知音声の特徴ベクトル系列と予め
記憶しておいた標準音声の特徴ベクトル系列との
類似度を測定することによつて未知音声を認識す
る音声認識方式に関するものであり、特に発声速
度の非線形伸縮を考慮した方式に関するものであ
る。 なお、この明細書において、特徴ベクトルとは
一つの時間窓における複数の音声特徴といい、特
徴ベクトル系列とはある時間長に亘る特徴ベクト
ルの時系列をいい、時間軸に関する特徴ベクトル
の順序を指すものとしてサンプル位置になる単語
を用いる。 具体的代表例として、音声をl個のフイルタに
よつて分析し、且つ、ある時間間隔でサンプルす
ることによつて特徴を抽出する場合、あるサンプ
ル位置におけるl個のフイルタ出力を特徴ベクト
ルといい、連続した特徴ベクトルの時系列を特徴
ベクトル系列という。 音声認識の認識率をを悪化させる要因の一つと
して、発声速度の変動があり、類似度測定におい
ては何等かの時間軸正規化を一般に必要とする。
時間軸正規化の代表例としては動的計画法が知ら
れている。 しかし、この方法は、一定の漸化式によつて計
算ルートを制限するようにしてはいるけれども、
発声速度の変動を、本質的には標準音声の全サン
プル位置夫々に未知音声の比較的多数(例えば30
%)のサンプル位置を対応づけて類似度を測定す
るものであるため、非常に膨大な計算処理時間を
要する。 又、この方法は、発声速度に関する時間軸正規
化が特徴ベクトル間の類似度を中心にして行なわ
れるため、通常の発声速度変動を越えて時間軸の
非線形伸縮が行なわれることがあり、その結果、
目的としない他の標準音声との類似度を大きく
し、かえつて認識率を悪化させる場合も出てく
る。 本発明の目的は、短かい処理時間で発声速度の
変動に対応する非線形伸縮対応の類似度測定を行
なわせることにあり、これを個々の標準音声毎に
非線形伸縮の情報を持たせることによつて達成し
たものである。 本発明は、発声速度の非線形変動が、調音部分
等のように発声速度変動の極めて小さい部分と、
母音定常部のように発声速度が大きく変動する部
分とが、混在することによるという認識に基づく
ものであり、前者の部分では同一時間尺度対応で
類似度を測定し、後者の部分では線形伸縮対応で
類似度を測定し、全体として発声速度の非線形変
動に対応した類似度測定を行なわせるものであ
る。 そのために本発明は、標準音声を特徴ベクトル
系列とその中で発声速度の小さい部分の系列(特
定部分系列)を示すサンプル位置とで表現したメ
モリ領域を備え、又標準音声の特徴ベクトル系列
と同形式の特徴ベクトル系列を未知音声から抽出
する手段を備える。 又、標準音声と未知音声とのサンプル位置を線
形に対応させ、特定部分系列の先頭サンプル位置
に対応した位置を含むある範囲を決定し、それぞ
れの位置を先頭サンプル位置として特定部分系列
と同数で連続させ特徴サンプルからなるものを対
応部分系列候補として決定する第1段階を備え、
又前記特定部分系列と各候補の類似度を測定し、
最大類似度を与える候補を対応部分系列として決
定し且つそれに対応する類似度を特定部分系列の
類似度として検出する第2段階を備える。 又、標準音声の特徴ベクトル系列から特定部分
系列を除いた残部系列と未知音声の特徴ベクトル
系列から対応部分系列を除いた残部系列との類似
度を線形伸縮対応で測定し、その類似度を各残部
系列の類似度として検出する第3段階を備え、特
定部分系列及び残部系列のものを総合した類似度
から未知音声を認識するものであり、以下詳細に
説明する。 例えば次のような特徴ベクトル系列と特定部分
系列のサンプル位置とを含む情報で表現した標準
音声を予め用意する。 特徴ベクトル系列X;x1,x2,……,xi,xi+
,……,x+k,……,xn。 特徴ベクトル系列Xにおける特徴ベクトル個数;
m。 特定部分系列xi〜xi+kの先頭サンプル位置;T
i。 特定部分系列xi〜xi+kにおいて特徴ベクトルが
連続する個数;k+1。 特定部分系列が複数個あれば各々について用意し
ておく。特定部分系列は発声速度の変動が小さい
部分である。 一般に、ある単語を発声した場合、隣り合う音
韻間に調音結合が生じ、この調音部分には音声認
識における重要な情報が存在すると共にこの調音
部分では発声速度の変動が極めて小さい。 この調音部分では、容易に知ることができ、例
えばソノグラフを目視することによつて、或いは
ホルマントの過渡部を検出することによつて知る
ことができる。 1又は複数の調音部分では特定部分系列として
標準音声毎に指定するが、必ずしも一様な指定方
法によることはない。 例えば、比較的多数の特徴ベクトルが調音部分
で検出される場合は、この部分を特定部分系列と
すれば十分である。 又、例えば単語「ナナ」のでは、10msec周期
でサンプルして特徴ベクトルを抽出する場合を考
えると、最初の調音部分で抽出できるのは1〜2
特徴ベクトルであり、後述の如く、類似度測定の
安定性に欠けるので、定常部を一部含んで特定部
分系列を指定した方がよい。 又、後述の如く、特に重要な特徴を含む調音部
分を対象とする場合は重複して指定してもよい。 又、当然ではあるが、発声速度の変動が小さい
部分を知ることができない標準音声については、
特定部分系列は指定せず、本発明と直接関係ない
他の方法で類似度を測定することにある。 未知音声の特徴ベクトル系列中に、対応部分系
列を決定するために、サンプル位置を線形伸縮で
対応させて複数の対応部分系列候補を設定する。 対応部分系列が調声部分に相当するものであつ
ても、その前後の母音定常部や停止部の時間伸縮
のため、一般にその位置は特定できない。 しかしながら、単語音声の時間長が数秒に及ば
ない限り、比較的狭い範囲で推定することができ
る。 例えば、「イチ」、「ニイ」、「サン」、「トウキヨ
ウ」、「ヨコハマ」、等の単語の時間長は高々400m
sec〜500msec長であり、このような短かい単語
を10msec周期でサンプルした場合、調音部分の
先頭特徴ベクトルのサンプル位置変動は4〜10サ
ンプル程度である。 従つて、今未知音声の特徴ベクトル系列とサン
プル位置とが次のものであるとした場合、標準音
声のサンプル位置T1〜Tnと未知音声のサンプル
位置T1〜Toとを線形に対応させ、特定部分系列
i〜xi+kの先頭サンプル位置Tiに対応した位置
jを含み、それと前後する複数のサンプル位置
j-5〜Tj+4に対応したものを、未知音声のサン
プル位置T1〜Toの中に求め、これを先頭サンプ
ル位置とする候補によつて対応部分系列をよく推
定することができる。 対応部分系列候補の数は4〜10個程度を必要と
し、その個数を標準音声毎に定めておくこともで
きるが、高々10個程度なので一律でもよい。 未知音声特徴ベクトル系列Y;y1,y2,……,
i,……,yo。 未知音声サンプル位置;T1,T2,……,Tj,…
…To。 すなわち、第1図に示し、次の第1式のサンプ
ル位置Tjを先頭位置とする候補を決定する。
The present invention relates to a speech recognition method that recognizes unknown speech by measuring the degree of similarity between the feature vector series of unknown speech and the feature vector series of standard speech stored in advance. This relates to a method that takes into account nonlinear expansion and contraction. In this specification, a feature vector refers to a plurality of audio features in one time window, and a feature vector series refers to a time series of feature vectors over a certain length of time, and refers to the order of feature vectors with respect to the time axis. A word is used as the sample position. As a specific representative example, when audio is analyzed using l filters and features are extracted by sampling at certain time intervals, the l filter outputs at a certain sample position are called feature vectors. , a time series of continuous feature vectors is called a feature vector sequence. One of the factors that worsens the recognition rate of speech recognition is variation in speaking speed, and some kind of time axis normalization is generally required in similarity measurement.
Dynamic programming is known as a typical example of time axis normalization. However, although this method restricts the calculation route by a certain recurrence formula,
Variation in speaking rate is essentially calculated by adding a relatively large number (e.g. 30
Since the method measures similarity by associating sample positions (%), it requires an extremely large amount of calculation processing time. In addition, in this method, the time axis normalization regarding the speaking rate is performed based on the similarity between feature vectors, so the time axis may be expanded or compressed nonlinearly beyond normal speaking rate fluctuations, and as a result, ,
There are cases where the degree of similarity with other standard speech that is not the target is increased, which may actually worsen the recognition rate. An object of the present invention is to perform similarity measurement for nonlinear expansion/contraction corresponding to variations in speaking rate in a short processing time, and this can be done by providing information on nonlinear expansion/contraction for each standard voice. This is what we achieved. The present invention is characterized in that non-linear fluctuations in speaking speed are achieved in areas where fluctuations in speaking speed are extremely small, such as in articulatory parts,
This is based on the recognition that this is due to the coexistence of parts where the voicing rate fluctuates greatly, such as the steady vowel part, and the similarity is measured based on the same time scale for the former part, while the similarity is measured based on linear expansion/contraction support for the latter part. This method measures the degree of similarity by measuring the degree of similarity, and allows the degree of similarity to be measured in response to non-linear fluctuations in the speaking rate as a whole. To this end, the present invention includes a memory area in which a standard voice is expressed as a feature vector series and a sample position indicating a series of portions with a low speaking rate (specific subsequences) within the feature vector series. means for extracting a feature vector sequence of the form from the unknown speech. Also, the sample positions of the standard voice and the unknown voice are made to correspond linearly, a certain range including the position corresponding to the first sample position of the specific subsequence is determined, and each position is set as the first sample position and the number of samples is the same as that of the specific subsequence. comprising a first step of determining a continuous feature sample as a corresponding subsequence candidate;
Also, measuring the similarity between the specific partial sequence and each candidate,
A second step is provided in which a candidate giving the maximum similarity is determined as a corresponding subsequence, and a corresponding similarity is detected as a similarity of a specific subsequence. In addition, the similarity between the residual sequence obtained by removing the specific subsequence from the feature vector sequence of standard speech and the remaining sequence obtained by removing the corresponding subsequence from the feature vector sequence of unknown speech is measured using linear expansion/contraction correspondence, and the similarity is calculated for each This method includes a third step of detecting the similarity of the remaining sequence, and recognizes unknown speech from the integrated similarity of the specific partial sequence and the remaining sequence, and will be described in detail below. For example, a standard speech expressed by information including the following feature vector series and sample positions of a specific subsequence is prepared in advance. Feature vector series X; x 1 , x 2 , ..., x i , x i+
1 ,...,x +k ,...,x n . Number of feature vectors in feature vector series X;
m. Starting sample position of specific subsequence x i ~ x i + k ; T
i . The number of consecutive feature vectors in the specific subsequences x i to x i+k ; k+1. If there are multiple specific subsequences, prepare one for each. The specific subsequence is a part where the variation in speaking rate is small. Generally, when a certain word is uttered, articulatory connections occur between adjacent phonemes, and this articulatory part contains important information for speech recognition, and the variation in speech rate is extremely small in this articulatory part. This articulatory part can be easily detected, for example by visually observing a sonogram or by detecting formant transients. One or more articulatory parts are designated for each standard voice as a specific subsequence, but the designation method is not necessarily uniform. For example, if a relatively large number of feature vectors are detected in an articulatory part, it is sufficient to make this part a specific subsequence. Also, for example, for the word "nana", if we consider the case where the feature vector is extracted by sampling at 10 msec intervals, only 1 to 2 points can be extracted in the first articulatory part.
Since it is a feature vector and lacks stability in similarity measurement as described later, it is better to designate a specific subsequence by including a part of the stationary part. Furthermore, as will be described later, when the articulatory part including particularly important features is targeted, it may be specified redundantly. Also, of course, for standard speech where it is not possible to know parts where the variation in speaking speed is small,
A specific subsequence is not specified, and the similarity is measured using another method not directly related to the present invention. In order to determine a corresponding subsequence in the feature vector sequence of unknown speech, a plurality of corresponding subsequence candidates are set by correlating sample positions by linear expansion and contraction. Even if the corresponding subsequence corresponds to a toning part, its position cannot generally be specified because of the time expansion and contraction of the vowel stationary parts and stop parts before and after it. However, as long as the duration of the word speech is less than several seconds, estimation can be made within a relatively narrow range. For example, the duration of words such as "ichi", "nii", "san", "Tokyo", "Yokohama", etc. is at most 400 m.
sec to 500 msec in length, and when such a short word is sampled at a 10 msec period, the variation in the sample position of the leading feature vector of the articulatory part is about 4 to 10 samples. Therefore, if the feature vector series and sample positions of the unknown voice are as follows, the sample positions T 1 to T n of the standard voice and the sample positions T 1 to T o of the unknown voice correspond linearly. The specific subsequence x i to x i+k including the position T j corresponding to the first sample position T i and corresponding to a plurality of sample positions T j-5 to T j+4 before and after it are unknown. The corresponding subsequence can be well estimated by finding the sample positions T 1 to T o of the audio and selecting these as the leading sample position. The number of corresponding subsequence candidates is required to be about 4 to 10, and the number can be determined for each standard voice, but since it is about 10 at most, it may be uniform. Unknown speech feature vector sequence Y; y 1 , y 2 , ...,
y i ,..., y o . Unknown voice sample position; T 1 , T 2 , ..., T j , ...
... To . That is, a candidate whose leading position is the sample position T j of the following first equation as shown in FIG. 1 is determined.

【表】 対応部分系列を決定するために、Tj-5〜Tj+4
を先頭サンプル位置として特定部分系列のそれと
同数で連続する特徴ベクトルからなる10個の対応
部分系列候補と特定部分系列との類似度を同一時
間軸対応で測定し、最大の類似度を与えるものを
対応部分系列として決定する。 類似度は絶対距離や2乗距離等の特徴距離で測
定することができ、その特徴距離をd( )で表
わした場合、例えばサンプル位置Tjを先頭サン
プル位置とする候補と特定部分系列との距離Dj
は次のようになる。 Dj=d(xi、yj)+d(xi+1、yj+1)……d(xi+k、yj+k) −第2式 各候補に対する距離をDj-5〜Dj+4として、そ
のうちで最小のもの、すなわち類似度が最大の候
補を、yja+yja+1、……、yja+kとすると、これ
を対応部分系列として決定し、その時の距離D1
を特定部分系列の類似度として決定し、他に特定
部分系列がなければ残部の特徴ベクトル系列の類
似度の測定に移る。 なお、特定部分系列における特徴ベクトルの数
が極端に少ないと対応部分系列の決定が不安性に
なるため、特定部分系列としては母音定常部等の
特徴ベクトルも含めてある程度長くした方がよ
い。 第1図は残部特徴ベクトル系列の線形対応関係
を示したものである。特定部分系列の類似度測定
は、同一の時間尺度で行なつたが、残部系列では
一般に異なる。 従つて、特定部分系列を除いた標準音声の各残
部系列のサンプル位置と対応部分系列を除いた未
知音声の各残部系列のサンプル位置を線形伸縮対
応させて類似度を測定する。 例えば、第1図において、標準音声の最後の残
部系列の特徴ベクトルxi+k+1〜xnと未知音声の
最後の残部系列yja+k+1〜yoとの対応において
は、サンプル位置Tu,Tvが次の関係に従う特徴
ベクトルxu,yvを対応させる。 Tv=T−Tja+k+1Tn−Ti+k+1(Tu−Ti+k+1)+Tja+k+1 −第3式 但し、Tu=Ti+k+1、Ti+k+2、……、Tn こうして非線形伸縮で対応させた特徴ベクトル
対xu,yv間で距離d(xu,yv)を求め、それ
らを総合したものを最後の残部系列の距離D2
すなわち類似度とする。 標準音声と未知音声との類似度は、特定部分系
列における類似度と残部系列における類似度との
総和を標準音声のサンプル数mで除して求める。 なお、複数個の特定部分系列をある標準音声に
持たせる場合、特定の特徴ベクトルが両方に属す
るように、その特定部分系列を重複させても良
い。この場合は、その部分時系列に重みを持たせ
ることと等価であり、その部分を強調したい場合
に有効である。但し、標準音声の類似度を求める
場合、その重複部分の長さも加えて正視化する必
要があり、サンプル数とは別個に正規化数として
記憶されておき、特定部分系列・残部系列に関す
る類似度の総和をこの正規化数で除して、当該標
準音声に対する類似度すなわち距離とする。 なお、本発明においては、標準音声のサンプル
総数を予め記憶しておく必要は必ずしもなく、こ
の場合は、逆に残部系列における特徴ベクトルT
u,Tv間の対応を、未知音声におけるサンプル位
置を個定し、且つそれに対応して標準音声のサン
プル位置を決定することになり、又未知音声のサ
ンプル総数で各部分の距離、すなわち類似度を除
して標準音声の類似度を決定することになる。 以上の説明から明らかなように、本発明は本質
的には線形マツチングであるので処理速度は動的
計画法等に比べて十分高速かつ簡単な回路で構成
でき、発声の(あるいは特徴の)似た語句の認識
においてはその中で相異なる特徴系列に対して重
複させた(完全に一致させてもよい)部分時系列
を用いることにより、その部分が強調されるので
識別がしやすくなるという利点がある。 又、本発明は、過渡部検出手段を用いることに
よつて特定部分系列を自動的に設定することも可
能であり、従つて登録語認識装置にも適用できる
が、不特定話者認識装置では標準音声の記憶パタ
ーンに種々の制限を加え易いので、不特定話者認
識用として最も適切である。
[Table] To determine the corresponding subsequence, T j-5 to T j+4
Measure the similarity between the specific subsequence and 10 corresponding subsequence candidates consisting of the same number of continuous feature vectors as that of the specific subsequence with the leading sample position as the first sample position, and select the one that gives the maximum similarity. Determine the corresponding subsequence. Similarity can be measured by feature distances such as absolute distances and squared distances, and when the feature distances are expressed as d( ), for example, the difference between a candidate whose first sample position is sample position T j and a specific subsequence is Distance D j
becomes as follows. D j = d (x i , y j ) + d (x i +1 , y j +1 )...d (x i + k, y j + k ) - 2nd formula The distance to each candidate is D j-5 ~ Assuming that D j+4 is the smallest candidate among them, that is, the candidate with the maximum similarity is y ja + y ja+1 , ..., y ja + k , this is determined as the corresponding subsequence, and the distance at that time is D 1
is determined as the similarity of the specific subsequence, and if there is no other specific subsequence, the process moves on to measuring the similarity of the remaining feature vector sequences. Note that if the number of feature vectors in a specific subsequence is extremely small, the determination of a corresponding subsequence becomes unstable, so it is better to make the specific subsequence a certain length, including feature vectors such as vowel stationary parts. FIG. 1 shows the linear correspondence of the residual feature vector series. Similarity measurements for specific subsequences were performed on the same time scale, but generally differ for the remaining sequences. Therefore, the similarity is measured by linearly expanding and contracting the sample positions of each residual sequence of the standard speech excluding the specific subsequence and the sample positions of each remaining sequence of the unknown speech excluding the corresponding subsequence. For example, in FIG. 1, in the correspondence between the feature vectors x i+k+1 to x n of the last residual sequence of standard speech and the last residual sequence y ja+k+1 to y o of unknown speech, samples Positions Tu and Tv correspond to feature vectors x u and y v according to the following relationship. Tv=T o −T ja+k+1 / Tn −T i+k+1 (T u −T i+k+1 )+T ja+k+1 −3rd formula However, T u =T i+k+1 , T i+k+ 2 , ..., T n The distance d (x u , y v ) between the pair of feature vectors x u , y v thus made to correspond by nonlinear expansion/contraction is calculated, and the sum of these is the distance D 2 of the final residual sequence. ,
In other words, it is the degree of similarity. The degree of similarity between the standard voice and the unknown voice is determined by dividing the sum of the degree of similarity in the specific partial sequence and the degree of similarity in the remaining sequence by the number of samples m of the standard voice. Note that when a certain standard speech has a plurality of specific subsequences, the specific subsequences may be overlapped so that a specific feature vector belongs to both. This case is equivalent to giving weight to that partial time series, and is effective when you want to emphasize that part. However, when determining the similarity of standard speech, it is necessary to add the length of the overlapping part and take a proper look, so it is stored as a normalized number separately from the number of samples, and the similarity regarding the specific subsequence/remaining sequence is stored separately from the number of samples. The total sum is divided by this normalized number to obtain the degree of similarity, that is, the distance to the standard speech. Note that in the present invention, it is not necessarily necessary to store the total number of samples of standard speech in advance; in this case, on the contrary, the feature vector T in the residual sequence
The correspondence between u and Tv is determined by identifying the sample position in the unknown voice, and correspondingly determining the sample position in the standard voice. The degree of similarity of the standard speech is determined by dividing the degree. As is clear from the above explanation, since the present invention is essentially linear matching, the processing speed can be configured with a sufficiently high speed and simple circuit compared to dynamic programming, etc. In recognizing words and phrases, by using partial time series that are overlapped (or even completely matched) for different feature sequences, that part is emphasized, making identification easier. There is. Furthermore, the present invention can automatically set a specific subsequence by using a transient part detection means, and can therefore be applied to a registered word recognition device, but it is not applicable to a speaker-independent recognition device. Since it is easy to apply various restrictions to the memory pattern of standard speech, it is most suitable for speaker-independent recognition.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図〜第2図は本発明に関する説明図であつ
て、第1図は特定部分系列と各候補との対応サン
プル位置の説明図、第2図は未知音声と標準音声
との類似度測定における対応サンプル位置の説明
図である。 x1,x2,……,xi,……,xn;標準音声の特
徴ベクトル系列、y1,y2,……,yj,……yo
未知音声の特徴ベクトル系列、T1,T2,……,
i,……,Tn;標準音声のサンプル位置、T1
T2,……,Tj,……To;未知音声のサンプル位
置。
Figures 1 and 2 are explanatory diagrams related to the present invention, in which Figure 1 is an explanatory diagram of the corresponding sample position between a specific subsequence and each candidate, and Figure 2 is a diagram of similarity measurement between unknown speech and standard speech. FIG. 3 is an explanatory diagram of corresponding sample positions in FIG. x 1 , x 2 , ..., x i , ..., x n ; Standard speech feature vector sequence, y 1 , y 2 , ..., y j , ... y o ;
Feature vector sequence of unknown speech, T 1 , T 2 , ...,
T i , ..., T n ; Sample position of standard voice, T 1 ,
T 2 , ..., T j , ...T o ; Sample position of unknown voice.

Claims (1)

【特許請求の範囲】 1 時間軸に関する1つのサンプル位置に対応し
た音声の特徴を特徴ベクトルとして、多数のサン
プル位置の特徴ベクトルからなる特徴ベクトル系
列とその系列において連続する複数の特徴ベクト
ルからなる特定部分系列のサンプル位置とを含む
情報で標準音声を表現した標準音声メモリ領域
と、 前記標準音声の特徴ベクトル系列と対応した形
式の特徴ベクトル系列を未知音声から抽出する抽
出手段とを備えた音声認識装置において、 前記標準音声の特徴ベクトル系列におけるサン
プル位置と前記未知音声の特徴ベクトル系列にお
けるサンプル位置とを線形に対応させて、 前記特定部分系列の先頭サンプル位置に基づき
前記未知音声における対応部分系列候補の先頭サ
ンプル位置を複数個決定し、 且つ決定された前記各先頭サンプル位置の特徴
ベクトルを先頭特徴ベクトルとして、前記特定部
分系列における特徴ベクトル個数と同数で連続す
る複数の前記対応部分系列候補を未知音声の特徴
ベクトル系列の中に決定する第1段階と、 前記特定部分系列と前記各候補との類似度を測
定し、最大の類似度を与える候補を対応部分系列
として決定する第2段階と、 標準音声の特徴ベクトル系列において前記特定
部分系列を除いた残部系列と、未知の音声の特徴
ベクトル系列において前記第2段階で検出された
前記対応部分系列を除いた残部系列とを、サンプ
ル位置に関して線形伸縮して対応させ、両残部系
列間の類似度を測定する第3段階とを備え、 前記第2段階における最大類似度及び前記第3
段階における類似度に基づいて未知音声を認識す
ることを特徴とした音声認識方法。 2 前記第1段階における前記各対応部分系列候
補の各先頭サンプル位置の決定が、前記特定部分
系列の先頭サンプル位置に対応した前記未知音声
側におけるサンプル位置及びその近傍の特定個数
のサンプル位置を決定するものであることを特徴
とする特許請求の範囲第1項記載の音声認識方
法。
[Claims] 1. Specification consisting of a feature vector series consisting of feature vectors at a large number of sample positions and a plurality of continuous feature vectors in the series, using a feature vector of a voice corresponding to one sample position on the time axis. A speech recognition system comprising: a standard speech memory area expressing a standard speech using information including a sample position of a subsequence; and an extraction means for extracting a feature vector sequence in a format corresponding to the feature vector sequence of the standard speech from an unknown speech. In the apparatus, a sample position in the feature vector series of the standard speech and a sample position in the feature vector series of the unknown speech are made to correspond linearly, and a corresponding subsequence candidate in the unknown speech is determined based on the leading sample position of the specific subsequence. A plurality of leading sample positions are determined, and a plurality of successive corresponding subsequence candidates with the same number of feature vectors in the specific subsequence are unknown, using the feature vector of each of the determined leading sample positions as a leading feature vector. a first step of determining a voice feature vector sequence; a second step of measuring the degree of similarity between the specific subsequence and each of the candidates and determining the candidate that provides the maximum similarity as the corresponding subsequence; The residual sequence obtained by removing the specific subsequence from the standard speech feature vector sequence and the remaining sequence obtained by removing the corresponding subsequence detected in the second step from the unknown speech feature vector sequence are linearly calculated with respect to the sample position. and a third step of measuring the similarity between both residual sequences by expanding and contracting them into correspondence, and the maximum similarity in the second step and the third step.
A speech recognition method characterized by recognizing unknown speech based on similarity in stages. 2. The determination of each leading sample position of each corresponding partial sequence candidate in the first step determines a sample position on the unknown voice side corresponding to the leading sample position of the specific partial sequence and a specific number of sample positions in the vicinity thereof. A speech recognition method according to claim 1, characterized in that the speech recognition method is characterized in that:
JP55127123A 1980-09-16 1980-09-16 Voice recognizing method Granted JPS5752097A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP55127123A JPS5752097A (en) 1980-09-16 1980-09-16 Voice recognizing method
US06/582,134 US4513436A (en) 1980-09-16 1984-02-23 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55127123A JPS5752097A (en) 1980-09-16 1980-09-16 Voice recognizing method

Publications (2)

Publication Number Publication Date
JPS5752097A JPS5752097A (en) 1982-03-27
JPS6132680B2 true JPS6132680B2 (en) 1986-07-28

Family

ID=14952171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55127123A Granted JPS5752097A (en) 1980-09-16 1980-09-16 Voice recognizing method

Country Status (1)

Country Link
JP (1) JPS5752097A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02102068U (en) * 1989-02-02 1990-08-14

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60203995A (en) * 1984-03-28 1985-10-15 沖電気工業株式会社 Voice pattern matching

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02102068U (en) * 1989-02-02 1990-08-14

Also Published As

Publication number Publication date
JPS5752097A (en) 1982-03-27

Similar Documents

Publication Publication Date Title
JPH0968994A (en) Word voice recognition method by pattern matching and device executing its method
CN101030374B (en) Method and apparatus for extracting base sound period
JPS6132680B2 (en)
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
CN106920558A (en) Keyword recognition method and device
JPS634198B2 (en)
JP2534242B2 (en) Pattern comparison method
JP2882791B2 (en) Pattern comparison method
JPS63213899A (en) Speaker collation system
JP2534241B2 (en) Pattern comparison method
JPS5936759B2 (en) Voice recognition method
Kim et al. A study on the improvement of speaker recognition system by voiced detection
JPH0398098A (en) Voice recognition device
JPS6131880B2 (en)
JPH0361957B2 (en)
JPS6126679B2 (en)
JPH054678B2 (en)
JPH0469800B2 (en)
JPS6069694A (en) Segmentation of head consonant
JPH0640274B2 (en) Voice recognizer
JPS61252599A (en) Voice recognition system
JPH04198999A (en) Method for searching minimum value of matching distance in speech recognition
JPS5885495A (en) Voice recognition equipment
JPS59181396A (en) Recollated voice recognition system
JPH0348900A (en) Sound detecting device