JPS61261799A - Code book preparation for unspecified speaker - Google Patents

Code book preparation for unspecified speaker

Info

Publication number
JPS61261799A
JPS61261799A JP60104397A JP10439785A JPS61261799A JP S61261799 A JPS61261799 A JP S61261799A JP 60104397 A JP60104397 A JP 60104397A JP 10439785 A JP10439785 A JP 10439785A JP S61261799 A JPS61261799 A JP S61261799A
Authority
JP
Japan
Prior art keywords
vector
speakers
codebook
code
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60104397A
Other languages
Japanese (ja)
Inventor
沢井 秀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60104397A priority Critical patent/JPS61261799A/en
Publication of JPS61261799A publication Critical patent/JPS61261799A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 一技−術分−野 本発明は、音声信号等の波形符号化方式や、線形予測分
析・合成系に対する適用技術に関するものであり、音声
や画像のパターン認識のクラスタリング手法に応用でき
るものである。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to techniques applied to waveform encoding systems for audio signals, etc., and linear predictive analysis/synthesis systems, and relates to a clustering method for pattern recognition of audio and images. It can be applied to

W米技術 一般に、音声や画像の特徴へりトルから代表的なベクト
ル(コードベクトルと呼ぶ)を抽出するクラスタリング
の手法はベクトル量子化法と呼ばれ、最近、波形符号化
方式や、線形予測分析・合成系、符号伝送方式等に適用
されている。
In general, the clustering method for extracting representative vectors (called code vectors) from the characteristics of audio and images is called vector quantization, and recently, waveform encoding methods, linear predictive analysis, It is applied to synthesis systems, code transmission systems, etc.

コードベクトルを作成する方法としては、学習サンプル
データの空間的な分布に従ってクラスタリングする方法
が効率的であるが、未だ決定的な手法は確立されておら
ず、通常は、多大な繰り返し演算によって量子化の際の
平均歪み(コードベクトルと学習サンプルとの誤差)を
最小化するアルゴリズムが代表的なものである。
An efficient way to create code vectors is to cluster them according to the spatial distribution of training sample data, but no definitive method has been established yet, and quantization is usually done through a large number of repeated operations. A typical algorithm is one that minimizes the average distortion (error between the code vector and the learning sample) when

このように、従来、コードベクトルの作成には、膨大な
計算量を要し、特に、コードベクトルの数や学習サンプ
ルが増加すればそれらに比例して計算量も増大するため
、大型「1算機を以ってしても、作成は現実的に不6丁
能となってしまうという欠点があった。
Conventionally, creating code vectors requires a huge amount of calculation, and in particular, as the number of code vectors and training samples increases, the amount of calculation increases proportionally. Even if there was a chance, the drawback was that it would be difficult to create in reality.

一目的 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、ベクトル量子化の際に用いる膨大な学習サンプル
データの繰り返し演算に対して、高速で正確な処理を行
うことにより、コードブ。
One Purpose The present invention has been made in view of the above-mentioned circumstances.
In particular, codeb is able to perform fast and accurate processing for repeated operations on the huge amount of learning sample data used in vector quantization.

り(コードベクトルの集合)を効率的に作成することを
目的としてなされたものである。
This was done for the purpose of efficiently creating a set of code vectors.

構成 本発明は、上記目的を達成するため、音声や画像等の特
徴ベクトルの集合(学習サンプルと呼ぶ)から代表的な
ベクトル(コードベクトルと呼ぶ。
Structure: In order to achieve the above object, the present invention extracts a representative vector (referred to as a code vector) from a set of feature vectors (referred to as a learning sample) of audio, images, etc.

また、コードベクトルの集合をコードブックと呼ぶ。)
をクラスタリングの手法に基づいて作成するベクトル量
子化法において、複数の話者中の各話者ごとにベクトル
量子化してコードベクトルを作成した後、それらのコー
ドベクトルに属する学習サンプル数を登録し、複数の話
者全てのコードベクトルに学習サンプル数を重み付けし
て再びベクトル量子化して高速に不特定話者用のコード
ベクトルを作成することを特徴としたものである。
Also, a collection of code vectors is called a codebook. )
In the vector quantization method, which is created based on a clustering method, code vectors are created by vector quantization for each speaker among multiple speakers, and then the number of learning samples belonging to those code vectors is registered, This method is characterized by weighting the code vectors of all multiple speakers by the number of learning samples and vector quantizing them again to quickly create code vectors for unspecified speakers.

以下、本発明の実施例に一基づいて説明する。EMBODIMENT OF THE INVENTION Hereinafter, the present invention will be explained based on an example.

第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図で、図中、■は信号入力端子。
FIG. 1 is an electrical block diagram for explaining one embodiment of the present invention, and in the figure, ■ indicates a signal input terminal.

2は特微分析部、3はコードブック(コードベクトルの
集合)格納部、4はベクトル量子化部、5は標準パター
ン格納部56は認識処理部、7は認識結果出力端子であ
る。
2 is a feature analysis section, 3 is a codebook (a collection of code vectors) storage section, 4 is a vector quantization section, 5 is a standard pattern storage section 56 is a recognition processing section, and 7 is a recognition result output terminal.

信号入力としては、一般的に画像信号入力、音声信号入
力等が考えられるが、ここでは音声信号に限って説明を
行う。
Generally, image signal input, audio signal input, etc. can be considered as signal input, but only audio signals will be explained here.

入力端子1で入力された信号は、特微分析部2でバンド
パスフィルタ一群や、r、p c分析等の分析処理が行
われ、パワースペクトラムやL P Gパラメータなど
の特徴パラメータに変換される。これらの特徴パラメー
タの集合を学習サンプルとして、後述するクラスタリン
グの手法(ベクトル量子化法)によって、代表的なベク
トル(コードベクトルと呼ぶ)を予め作成しておき、コ
ードブック3に格納しておく。これらコードベクトルの
集合をコードブックと呼ぶ。
The signal input at the input terminal 1 is subjected to analysis processing such as a group of band-pass filters and r, pc analysis in the characteristic analysis section 2, and is converted into characteristic parameters such as power spectrum and LPG parameters. . Using a set of these feature parameters as a learning sample, representative vectors (referred to as code vectors) are created in advance by a clustering method (vector quantization method) described later and stored in the codebook 3. A collection of these code vectors is called a codebook.

ある信号入力は、コードブック3のコードベクトルのい
ずれかにベクトル量子化部4でベクトル量子化され、各
フレームごとにコード(ヨー1−′ベクトルの番号)が
登録される。標準パターン格納部5では、辞書パターン
に相当するものがコードブック3のコードによって表現
されている。こうして、ベクトル量子化部4でベクトル
量子化された未知入カバターンと標準パターン格納部5
の標準パターンとのパターンマツチングを認識処理部6
で行って、未知入カバターンに最も類偵するパターンを
標準パターン格納部5の中より選択し、これを出力端子
7にて出力する。
A certain signal input is vector quantized into one of the code vectors in the code book 3 by the vector quantizer 4, and the code (the number of the yaw 1-' vector) is registered for each frame. In the standard pattern storage section 5, those corresponding to dictionary patterns are expressed by codes in the codebook 3. In this way, the unknown input cover pattern vector quantized by the vector quantization unit 4 and the standard pattern storage unit 5
The recognition processing unit 6 performs pattern matching with the standard pattern of
Then, the pattern most similar to the unknown input cover turn is selected from the standard pattern storage section 5 and outputted at the output terminal 7.

第2図は、代表的なベクトル量子化法のアルゴリズムに
基づくフローチャートを示したものである。このアルゴ
リズムは量子化の際に生じる平均歪みを最小化するもの
で、強力なアルゴリズムの一つである。図中、8はアル
ゴリズム開始端子。
FIG. 2 shows a flowchart based on a typical vector quantization algorithm. This algorithm minimizes the average distortion that occurs during quantization, and is one of the most powerful algorithms. In the figure, 8 is the algorithm start terminal.

9は初期化部、10は学習サンプルの読み込み部。9 is an initialization section, and 10 is a learning sample reading section.

llはクラスタリング部、12は平均歪め剖算部。ll is a clustering part, and 12 is an average distortion calculation part.

13は収束判定部、14は平均歪みの入れ替え部。13 is a convergence determination unit, and 14 is an average distortion replacement unit.

15はコードブック決定部、16はコードブック格納部
、17はアルゴリズム終了端子である。
15 is a codebook determining section, 16 is a codebook storage section, and 17 is an algorithm termination terminal.

まず、初期化部9で収束の判定のための平均歪みD−1
の設定(D−1−■とする)、量子化レベルNの設定、
初期ベクトルY1.)’z、・・・、糺4の設定、収束
判定閾値εの設定を行う。量子化レベルNとしては、i
11常、特定話者向き音声認識装置では128.256
等のレベルを、不特定話者向きには256,512等の
レベルを採るのが良いとされている。初期ベクトル(i
t l 、  (i=]。
First, the initialization unit 9 uses the average distortion D-1 for determining convergence.
(set as D-1-■), setting of quantization level N,
Initial vector Y1. )'z, . . . , the setting of the adhesive 4 and the convergence determination threshold ε are performed. As the quantization level N, i
11, 128.256 for speech recognition devices for specific speakers
It is said that a level such as 256, 512 etc. is recommended for non-specific speakers. Initial vector (i
t l , (i=].

2、・・・N)の選択法としては、学習サンプルX1゜
交2.・・・、;<nの中から、出来る限り互いに異な
るベクトルN個をとるの゛が普通である。さもないと、
クラスタリングが正常に行われず、局所的に収束する危
険がある。また、学習サンプル数nについては、通常、
量子化レベルNのlO倍借景ヒとするのがよい。収束判
定闇値としては、例えばε=O,’OOIを選ふ。読み
込み部10で学習サンプルX1.X2.・・・、交nを
バッファメモリに読み込み、各サンプル交」について、
初期的なコードベクトルーy1.’tz、・・・、9,
4との距離11灸j−糺11を計算する。このとき、最
も距離が小さい9、を選び、Xiは糺に属すると考える
。このようにして、全ての学習サンプル”it  哀2
+ ・・・。
2,...N), the learning sample X1° cross 2. It is normal to take N vectors that are as different from each other as possible from among <n. Otherwise,
There is a risk that clustering will not be performed correctly and converge locally. Also, the number of learning samples n is usually
It is preferable to set the quantization level N to 10 times the borrowed background. As the dark value for convergence determination, for example, ε=O,'OOI is selected. The reading unit 10 reads the learning sample X1. X2. ..., read the intersection n into the buffer memory, and for each sample intersection,
Initial code vector - y1. 'tz,...,9,
Calculate the distance 11 moxibustion j - 11 from 4. At this time, select 9, which has the smallest distance, and consider that Xi belongs to Tadasu. In this way, all the learning samples "It Ai 2"
+...

M nについてのクラスタリングが終了する。各9゜(
i=]、2、・・・、N)をコードベクトルとするクラ
スタを01と呼ふと、各Ciに属する全ての学習サンプ
ルM4と9.との距l1itl(i量化歪という)を計
算して、全クラスタCi  (i=1,2゜・・・、N
)で平均化したものを平均歪Doとして、平均歪計算部
12で計算する。次に、前記(初期的な)歪み値D−,
とD oとの相対的な変化分(D−1−Do)/Doを
計算し、予め初期化部9で定めた閾値εより小さければ
、この時のfy+l。
Clustering for M n is completed. 9° each (
i =], 2, ..., N) as a code vector is called 01, then all the learning samples M4 and 9. Calculate the distance l1itl (referred to as i quantification distortion) to all clusters Ci (i=1,2°...,N
) is calculated as the average distortion Do by the average distortion calculation unit 12. Next, the (initial) distortion value D−,
The relative change (D-1-Do)/Do between and Do is calculated, and if it is smaller than the threshold ε predetermined by the initialization unit 9, then fy+l at this time.

(i=]、2.・・・、N)を最終的なコードブックと
してコードブック決定部15で決定し、各クラスタO1
に属するサンプル数81とともにメモリ部16に登録後
、終了する。しかし、以上クラスタリング部11から収
束判定部13の計!過程ill初期化部9の初期ベクト
ル(9,)を適切に選択しても収束するまでに数回以」
−の繰り返しを必要とする。そのため、入れ替え部14
でDOをD−+に値を入れ替えて再びクラスタリング部
11に戻って収束判定部13の条件を満たすまでクラス
タリングとDOの計算を繰り返す。
(i=], 2..., N) is determined as the final codebook by the codebook determining unit 15, and each cluster O1
After registering in the memory unit 16 together with the number of samples 81 belonging to the sample, the process ends. However, the above is the total amount from the clustering unit 11 to the convergence determination unit 13! Even if the initial vector (9,) of the process ill initialization unit 9 is selected appropriately, it will take several times to converge.
- Requires repetition. Therefore, the replacement part 14
Then, the value of DO is replaced with D-+, and the process returns to the clustering unit 11 again to repeat clustering and calculation of DO until the conditions of the convergence determination unit 13 are satisfied.

第3図は、コードブックが作成できた時点での学習サン
プル(XJl 、  (j=1.2.・・・、n)、各
クラスタCi等を表わす図であり、各ベクトルは一般に
P (P≧2)次元であるが、図ではp=2の場合を表
わしている。
FIG. 3 is a diagram showing the learning samples (XJl, (j=1.2..., n), each cluster Ci, etc. at the time when the codebook has been created, and each vector is generally P (P ≧2) dimension, but the figure shows the case where p=2.

第4図は、本発明における不特定話者用コードブック作
成法のアルゴリズムに基づくフローチャー 1・を示し
たもので、基本的な構成は第2図と同様である。初期化
部19で、第2図の初期化部9と同様、平均歪l)−τ
−■、とεを設定し、し7化しベルはN1.初期ベクト
ルは、第5図で後述するように、ある特定の話者1につ
いてのコードベクトル(辷) とする。前記N滓は不特
定話者向きには、特定話者の場合の2−4’;’i 、
即ちN”=2N程度が良いとされている。読め込み部2
0で、話者m (m= 1 2.−、M ; Mは話者
数)ノコ−ドブツクfyTl とその個数f371を第
2図で述べた方法によってコードブック16で予め作成
しておいたものを読み込む。クラスタリング部21でク
ラスタリングを行い、平均歪D01を計算部22で計算
する。ここで前記DO亭の計算は、次のようにして行う
。即ら、初期ベクトル(シ1)と学習サンプル(yTl
 、  (j= l、2.・・・5 N;m=2.3.
・・・、M)との距離を計算する際に、各yWについて
最も近いシj  (i=]、  2.・・・。
FIG. 4 shows a flowchart 1 based on the algorithm of the speaker-independent codebook creation method according to the present invention, and the basic configuration is the same as that in FIG. 2. In the initialization section 19, the average strain l)-τ is calculated as in the initialization section 9 of FIG.
-■, and ε are set, and the bell is N1. The initial vector is a code vector for a particular speaker 1, as will be described later in FIG. For unspecified speakers, the N slag is 2-4';'i for specific speakers;
In other words, it is said that approximately N''=2N is good.Reading section 2
0, speaker m (m=12.-, M; M is the number of speakers) codebook fyTl and its number f371 were created in advance in codebook 16 by the method described in Fig. 2. Load. A clustering section 21 performs clustering, and a calculation section 22 calculates an average distortion D01. Here, the calculation of the DO-tei is performed as follows. That is, the initial vector (shi1) and the learning sample (yTl
, (j=l, 2....5 N; m=2.3.
..., M), the nearest si j (i=], 2..... for each yW.

N)との距離に、3+i2を重みとして乗したものを歪
みとし、全てのクラスタCi” (i =]、2゜・・
・、N”)について平均をとる。式で表わすと、但し、
n忰−N−Mである。
The distance to N) multiplied by 3+i2 as a weight is defined as distortion, and all clusters Ci'' (i =], 2°...
・, N”). Expressed in the formula, however,
It is n-N-M.

−に述のようにして、収束判定部23で相対歪みを計算
し、その変化がεより小さければ、この時点でのコード
ブックを(夛71.  (i =1.2゜・・・、N1
)としてコードブック決定部25で決定し、コードブッ
ク格納部26のメモリに不特定話者用コードブックとし
て登録後、終了する。収束判定部23での判定が否のと
きはクラスタリング部21のクラスタリングから再びや
り直すことは、第2図で述べたことと同様である。
The relative distortion is calculated by the convergence determination unit 23 as described in -, and if the change is smaller than ε, the codebook at this point is calculated as (夛71. (i = 1.2°..., N1
) is determined by the codebook determining unit 25, and is registered in the memory of the codebook storage unit 26 as a codebook for unspecified speakers, and then the process ends. If the determination by the convergence determining section 23 is negative, the clustering by the clustering section 21 is restarted, which is the same as described in FIG. 2.

第5図は、話者1.・・・1m、・・・9Mのコードブ
ックsp1.・・・、SPm、SPHの作成結果の様子
を示す図であり、図中、夛T、・・・、シ賃は話者mの
コードベクトルを、S ’i’ 、 ・・・+8は各コ
ードベクトルにベクトル量子化された学習サンプル数を
表わす。
Figure 5 shows speaker 1. ...1m, ...9M code book sp1. . . , SPm, and SPH. In the diagram, T, . Represents the number of training samples vector quantized into the code vector.

第6図は、第4図の不特定用コードブック26で作成さ
れた不特定話者用のコードベクトルを表わす図であり、
図中、yT’、STは各々話者mのコードベクトルと、
それに属する学習サンプル数(重み)、9丁、STは各
々、不特定話者用のコードベクトルとそれに属する学習
サンプル数であ第4図の初期化部19において、初期ベ
クトルを設定する際に、話者1の特定用のコートヘク[
・ルを用いたが、話者lはM入内のいずれの話者を採用
してもよいことはいうまでもない。
FIG. 6 is a diagram showing a code vector for unspecified speakers created with the unspecified code book 26 of FIG. 4,
In the figure, yT' and ST are the code vectors of speaker m, respectively,
The number of learning samples (weight) belonging to it, 9, and ST are the code vector for unspecified speakers and the number of learning samples belonging to it, respectively. In the initialization unit 19 of FIG. 4, when setting the initial vector, Coat for identifying speaker 1 [
・Although we used M, it goes without saying that speaker l may be any speaker in M.

また、第4図のアルゴリズムにおいて、話−i+の初期
ベクトルを基に、話者2の学習サンプルを第2図で述べ
たアルゴリズムに従ってベクトル量子化して、2人分の
コードベクトルを作成できるが、同様に、この操作を繰
り返して、話者1〜M(1<m<M)までのコードベク
トルを作成後、ごれを初期ベクトルとして、次の話者(
m+1)の学習サンプルをベクトル量子化してもよい。
Furthermore, in the algorithm shown in Fig. 4, code vectors for two people can be created by vector quantizing the learning sample of speaker 2 according to the algorithm described in Fig. 2 based on the initial vector of talk -i+. Similarly, after repeating this operation to create code vectors for speakers 1 to M (1<m<M), the next speaker (
m+1) training samples may be vector quantized.

このような操作を施すことにより、不特定話者用のコー
ドベクトルを局所的に収束させることを防ぎ、バランス
よくしかも高速に作成することが可能となる。
By performing such an operation, it is possible to prevent code vectors for unspecified speakers from converging locally and to create them in a well-balanced manner and at high speed.

次に、各クラスタ内の学習サンプルの分散を考慮した統
計的な処理法について説明する。
Next, a statistical processing method that takes into account the variance of learning samples within each cluster will be described.

第3図の各クラスタCi内の学習サンプルについて、分
散・共分散を求めるには、共分散行列Σciを次のよう
に定義すればよい。
To find the variance and covariance of the learning samples in each cluster Ci in FIG. 3, the covariance matrix Σci can be defined as follows.

Σci= (ty jk) 、  j、  k= 1.
 2.−、  P。
Σci= (ty jk), j, k= 1.
2. -, P.

ここで、Pはパラメータ次元数で、σjkは共分散行列
のN、k)成分であり、 ・・・(1) と表わせる。x1□jは、クラスタC4内の1番目の学
習サンプルのj成分、y、4はC4のコードベクトルの
J成分の意味である。
Here, P is the number of parameter dimensions, and σjk is the N, k) component of the covariance matrix, which can be expressed as follows. x1□j is the j component of the first learning sample in cluster C4, and y, 4 is the J component of the code vector of C4.

上記の共分散行列Σciは次のようなマハラノビスの距
離 d  (X+−Y+  )−(X+、)’、+  ) 
  Σ 昌 (交 1− 糺ンTを計算するときに用い
ることが多い。ここで−1は逆行列を、Tは転置を表わ
す。ΣciあるいはΣε1の計算は学習サンプル数が多
くなると計算量が増大する。
The above covariance matrix Σci is the Mahalanobis distance d (X+ - Y+ ) - (X+, )', + )
Σ昌 (Intersection 1-Ten) It is often used when calculating T. Here, -1 represents the inverse matrix and T represents the transposition. When calculating Σci or Σε1, the amount of calculation increases as the number of learning samples increases. do.

したがって、ベクトル量子化の際のベクトル間の距離尺
度として、最初から、前述したようなマハラノビスの距
離を用いることは膨大な時間を要し、非現実的な計算と
なる。この問題を解決するには、第2図のコードブック
決定部15でコードブックを決定する迄は、絶対値距離 d  (Ml、糺)−Σ 1xI、−y111j=1 や、ユークリッド距離 を用い、収束した後前記(1)式を計算すれば、収束8
1算が効率的に行える。
Therefore, using the Mahalanobis distance as described above from the beginning as a distance measure between vectors during vector quantization requires a huge amount of time and becomes an unrealistic calculation. To solve this problem, until the codebook is determined by the codebook determination unit 15 in FIG. If we calculate the above equation (1) after convergence, we will get convergence 8
Ability to perform calculations efficiently.

また、第4図の不特定用コー1−”ブック2Gの不特定
話者用のコードベクトルが属するクラスタC4内の共分
散行列Σc1を求めるのも、各特定話者用のコードへク
トル97にその重め87を乗して、次のように定義でき
る。
In addition, the covariance matrix Σc1 in the cluster C4 to which the code vector for the general speaker in the non-specific code 1-'' book 2G in FIG. By multiplying the weight by 87, it can be defined as follows.

ΣcY−(ty +;) 、  j、  k= 1. 
2.−、  p・・・ (2) 但し、 したがって、前記(2)式のように共分散行列を定義す
れば、不特定話者用の学習サンプルを、統計処理する際
に必要な計算量を大幅に減少させることができ、現実的
に可能な処理にすることができる。
ΣcY−(ty +;), j, k= 1.
2. −, p... (2) However, if the covariance matrix is defined as in equation (2) above, the amount of calculation required for statistical processing of learning samples for non-specific speakers can be greatly reduced. This can be reduced to a practically possible process.

効果 以上の説明から明らかなように、本発明によれば、量子
化レベルが高く、学習サンプル数が膨大となるような不
特定話者用のコードブックを作成する際に、繰り返し計
算の量を減少させ、局所的に収束させないようにバラン
スよく初期ベクトルを選択しているので、従来の方法に
比べて大幅に計算量を減少でき、正確で現実的な処理が
可能となる。
Effects As is clear from the above explanation, the present invention reduces the amount of repeated calculations when creating a codebook for an unspecified speaker with a high quantization level and a large number of learning samples. Since the initial vector is selected in a well-balanced manner to avoid local convergence, the amount of calculation can be significantly reduced compared to conventional methods, making it possible to perform accurate and realistic processing.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図、第2図は、ベクトル量子化法のアルゴリズ
ムを示すフローチャート、第3図は、学習サンプルとク
ラスタの関係を示す図、第4図は、不特定話者用コード
ブック作成用アルゴリズムを示すフローチャート、第5
図は、コードブック作成結果の様子を示す図、第6図は
、不特定話者用のコートベクトルを表わす図である。 1・・・信号入力端、2・・・特徴分析部、3・・・コ
ードブック、4・・・ベクトル量子化部、5・・・標準
パターン。 6・・・認識処理部、7・・・結果出力部、8.18・
・・アルゴリズム開始端子、9.19・・・初期化部、
10゜20・・・学習サンプル読み込み部、11.21
・・・クラスタリング部、12.22・・・平均歪み計
算部。 13.23・・・収束判定部、14.24・・・平均歪
み入れ替え部、15.25・・・コードブック決定部。 16.26・・・コードブック格納部、17.27・・
・アルゴリズム終了端子。 第3図 第4図 文呂 ぬ      旧 初肋イし 吉亮着mnコードブック(9T)と デの個数S T  4計与坂み クラスタ1ノング 平を7歪り二のぎ士算  22 第 5 図
Fig. 1 is an electrical block diagram for explaining an embodiment of the present invention, Fig. 2 is a flowchart showing the vector quantization algorithm, and Fig. 3 shows the relationship between learning samples and clusters. Figure 4 is a flowchart showing the algorithm for creating a codebook for non-specific speakers.
The figure shows the codebook creation result, and FIG. 6 is a diagram showing the coat vector for unspecified speakers. DESCRIPTION OF SYMBOLS 1... Signal input terminal, 2... Feature analysis section, 3... Code book, 4... Vector quantization section, 5... Standard pattern. 6... Recognition processing section, 7... Result output section, 8.18.
...Algorithm start terminal, 9.19...Initialization section,
10゜20...Learning sample reading section, 11.21
. . . Clustering section, 12.22 . . . Average distortion calculation section. 13.23... Convergence determination section, 14.24... Average distortion replacement section, 15.25... Codebook determination section. 16.26...Codebook storage section, 17.27...
・Algorithm end terminal. Figure 3 Figure 4 Bunro Nu old first rib Ishiyoshi Ryochi mn code book (9T) and number of de S T 4 calculation Yosakami cluster 1 Nonghira 7 distortion Ninogi Shisan 22 Fig. 5

Claims (5)

【特許請求の範囲】[Claims] (1)、音声や画像等の特徴ベクトルの集合から代表的
なベクトルをクラスタリングの手法に基づいて作成する
ベクトル量子化法において、複数の話者中の各話者ごと
にベクトル量子化してコードベクトルを作成した後、そ
れらのコードベクトルに属する学習サンプル数を登録し
、複数の話者全てのコードベクトルに学習サンプル数を
重み付けして再びベクトル量子化して不特定話者用のコ
ードベクトルを作成することを特徴とする不特定話者用
コードブック作成方法。
(1) In the vector quantization method, which creates representative vectors from a set of feature vectors of voices, images, etc. based on a clustering method, vector quantization is performed for each speaker among multiple speakers to create code vectors. After creating , the number of training samples belonging to those code vectors is registered, and the code vectors for all multiple speakers are weighted by the number of training samples and vector quantized again to create a code vector for unspecified speakers. A method for creating a codebook for unspecified speakers, characterized by the following.
(2)、複数の話者中のある1名の特定の話者のコード
ベクトルを初期ベクトルとして、他の話者の学習サンプ
ルをベクトル量子化することを特徴とする特許請求の範
囲第(1)項に記載の不特定話者用コードブック作成方
法。
(2) Claim No. 1 characterized in that learning samples of other speakers are vector quantized using a code vector of a specific speaker among a plurality of speakers as an initial vector. ) The method for creating a codebook for non-specific speakers as described in section 2.
(3)、話者(m+1)番目以降のコードブック作成の
際に、1からmまでの話者から作成したコードブックを
初期ベクトルとしてベクトル量子化することを特徴とす
る特許請求の範囲第(1)項に記載の不特定話者用コー
ドブック作成方法。
(3) When creating a codebook for the (m+1)th speaker or later, vector quantization is performed using the codebook created from speakers 1 to m as an initial vector. 1) Method for creating a codebook for non-specific speakers as described in section 1).
(4)、作成した不特定話者用のコードベクトルに属す
る各話者毎のコードベクトルを用いて共分散行列からマ
ハラノビスの距離を計算して統計的なコードベクトル間
距離を計算してベクトル量子化することを特徴とする特
許請求の範囲第(1)項に記載の不特定話者用コードブ
ック作成方法。
(4) Calculate the Mahalanobis distance from the covariance matrix using the code vectors for each speaker that belong to the created code vectors for unspecified speakers, calculate the statistical inter-code vector distance, and then calculate the vector quantum A method for creating a codebook for an unspecified speaker according to claim (1), characterized in that:
(5)、ベクトル量子化の際のベクトル間の距離尺度を
コードベクトルが収束するまでは計算量の少ない絶対値
距離あるいはユークリッド距離を用い、収束した後はマ
ハラノビスの距離に切り換えてコードブックを作成する
ことを特徴とする特許請求の範囲第(4)項に記載の不
特定話者用コードブック作成方法。
(5) Use absolute value distance or Euclidean distance, which requires less calculation, until the code vector converges as a distance measure between vectors during vector quantization, and then switch to Mahalanobis distance after convergence to create a codebook. A method for creating a codebook for unspecified speakers according to claim (4).
JP60104397A 1985-05-16 1985-05-16 Code book preparation for unspecified speaker Pending JPS61261799A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60104397A JPS61261799A (en) 1985-05-16 1985-05-16 Code book preparation for unspecified speaker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60104397A JPS61261799A (en) 1985-05-16 1985-05-16 Code book preparation for unspecified speaker

Publications (1)

Publication Number Publication Date
JPS61261799A true JPS61261799A (en) 1986-11-19

Family

ID=14379597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60104397A Pending JPS61261799A (en) 1985-05-16 1985-05-16 Code book preparation for unspecified speaker

Country Status (1)

Country Link
JP (1) JPS61261799A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS64998A (en) * 1987-06-24 1989-01-05 A T R Jido Honyaku Denwa Kenkyusho:Kk Spectrogram normalizing system
JPH0197997A (en) * 1987-10-09 1989-04-17 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice quality conversion system
JPH04298795A (en) * 1991-03-15 1992-10-22 Mitsubishi Electric Corp Standard pattern generation device
WO2005083632A1 (en) * 2004-02-27 2005-09-09 Hiroshima University, A National University Corporation Of Japan Reference data optimization learning method and pattern recognition system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS64998A (en) * 1987-06-24 1989-01-05 A T R Jido Honyaku Denwa Kenkyusho:Kk Spectrogram normalizing system
JPH0197997A (en) * 1987-10-09 1989-04-17 A T R Jido Honyaku Denwa Kenkyusho:Kk Voice quality conversion system
JPH04298795A (en) * 1991-03-15 1992-10-22 Mitsubishi Electric Corp Standard pattern generation device
WO2005083632A1 (en) * 2004-02-27 2005-09-09 Hiroshima University, A National University Corporation Of Japan Reference data optimization learning method and pattern recognition system
US7881525B2 (en) 2004-02-27 2011-02-01 Hiroshima University Reference data optimization learning method and pattern recognition system

Similar Documents

Publication Publication Date Title
Bellegarda et al. The metamorphic algorithm: A speaker mapping approach to data augmentation
CN106570464B (en) Face recognition method and device for rapidly processing face shielding
CN112927707A (en) Training method and device of voice enhancement model and voice enhancement method and device
JPH11242494A (en) Speaker adaptation device and voice recognition device
JPH05257492A (en) Voice recognizing system
CN113223536B (en) Voiceprint recognition method and device and terminal equipment
Ikbal et al. Analysis of autoassociative mapping neural networks
CN112017255A (en) Method for generating food image according to recipe
WO2019138897A1 (en) Learning device and method, and program
CN113611293A (en) Mongolian data set expansion method
CN112989843B (en) Intention recognition method, device, computing equipment and storage medium
Huang et al. QbyE-MLPMixer: query-by-example open-vocabulary keyword spotting using MLPMixer
JPS61261799A (en) Code book preparation for unspecified speaker
CN113252323A (en) Circuit breaker mechanical fault identification method and system based on human ear hearing characteristics
CN112489678B (en) Scene recognition method and device based on channel characteristics
CN112052916B (en) Data processing method and device based on neural network and readable storage medium
JP7359028B2 (en) Learning devices, learning methods, and learning programs
CN113987924A (en) Complex electromagnetic signal simulation generation method based on target feature self-learning
CN114360491A (en) Speech synthesis method, speech synthesis device, electronic equipment and computer-readable storage medium
JP2709926B2 (en) Voice conversion method
WO2020044755A1 (en) Speech recognition device, speech recognition method, and program
CN113297540A (en) APP resource demand prediction method, device and system under edge Internet of things agent service
CN112862758A (en) Training method for neural network for detecting paint application quality of wall top surface
CN111914718A (en) Feature weighting PCA face recognition method based on average influence value data conversion
KR102308416B1 (en) Apparatus and method for deciding video codec