JPS6177899A

JPS6177899A - 標準パタ−ン作成法

Info

Publication number: JPS6177899A
Application number: JP59199448A
Authority: JP
Inventors: 保屋野　純
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1984-09-26
Filing date: 1984-09-26
Publication date: 1986-04-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔技術分野〕本発明は不特定話者用の音声認識などに使用されるクラ
スタリングの手法を用いた標準パターンの作成法に関す
るものである。

〔従来技術とその問題点〕

この発明による標準パターン作成法で磯シ扱えるパター
ンは、パターン間の距離が定義されていればどのような
パターンでもよいが、以下では代表的な例として不特定
話者用の音声認識（７）標４パターンについて説明する
。

不特定話者が発声した単語音声を認識する方式として、
各単語毎に多数話者のパターンから代表的な複数のパタ
ーンを選んで蓄えておき。

未知入力音声のパター７とこれらのパターンとのマツチ
ングを行って最も距離の近いパターンの単語を認識結果
とする方式がある。この時多数話者のパターンから代表
的なパターンを選択するのにクラスタリングの手法が用
いられる（たとえばＬＡＷＲＥＮＣＥ　Ｒ，ＲＡＢＩＮ
ＥＲ：　５ｐｓａｋａｒ　−Ｉｎｄｅｐｅｎｄｅｎｔ　
Ｒｅｃｏｇｎｉｔｉｏｎ　ｏｆ　ｌ５ｏｌａｔｅｄ　Ｗ
ｏｒｄｓ　ＵｓｉｎｇＣｌｕｓｔｅｒｉｎｇ　Ｔｅｃｈ
ｎｉｑｕｅｓ、　ＩＥＥＥ　Ｔｒａｎｓ、　ＡＳＳＰ−
２７゜４、ｐ３３６．１９７９）。　クラスタリングの
手法としてに平均アルゴリズムがあるが、これは次のよ
うなステップからなる（長屋：パターン情報処理、コロ
ナ社、ｐｐ、”７）。

ステップ１：■（個の初期クラスタ中心Ｚ、　（ｔ）、
　ｚ、　（１）。

・・・、　Ｚｋ（１１を適当に決める。

ステップ２：に回目の繰返しステップで、す／プル（χ
）を次の方法でに個のクラスタに分類する。

すべてのｉ＝１．２．・・・ＩＫ（”Ｊ）について１１
χ−ｚｊ（ｋｌｌ＜Ｉｆ　ｚ−ｚ３（ｋ）ＩＩであれば
χ５ｊ（ｋ）　　　　　　　・・・・・・・・・・・・
・・・・・・（１）とする。ここにＳｊ、（ｋ）はｚ　
ｊ−（ｋ）をクラスタ中心とするサンプル集合である。

ステップ５ニステツプ２で得られたＳ　ｊ　（ｋ）の新
しいクラスタ中心をｚ　ｊ（ｋ＋　１　）として＊　　
Ｊ”Ｌ２＋・・・、Ｋに対してを最小にするようにｚ　ｉ　（ｋ　＋　１　）を決める
。

ステップ４：すべてのｊ＝１，２．・・・、Ｋに対して
２・（ｋ　＋　１　）　＝ｚ　ｊ（ｋ）となればアルゴ
リズムは収束コしたものとして終了する。そうでなければステップ２に
戻る。

第２図は従来の標準パターン作成法を実行するだめの回
路構成を示す図である。（χ）であられされるサンプル
１１は、初期設定部１２の初期クラスフ中心作成部１３
に入力され、ｉ設定部１４によりサンプルの先頭からに
個或いはランダムにに個選ばれて初期クラスタ中心が決
められ（第１ステツプ）、に初期設定部１５でに＝１に
され。

Ｚ　Ｊ　（ｋ）であられされるクラスタ中心１６となる
。

このクラスタ中心１６はサンプル１１と共にクラスタ判
定部１７に入力され、以下あとに詳しく説明するが、こ
こで第２のステップを実行し、更にクラスタ中心判定部
１８で第５のステップを実行し、ｚ　ｊ（ｋ　＋　１　
）であられされるに＋１回目のクラスタ中心１９を決め
る。収束条件比較部加はステップ４の収束条件をチェッ
クし、収束条件を満足している場合はアルゴリズムは収
束したものとしてＺ　ｊ（”）を出力端２１に出力し、
満足されていなければにカウンタｎでに＝にＩＩ　した
のち第２のステップおよび第３のステップを繰返す。

ここでこれら第２および第５のステップの実行について
詳しく説明すると、クラスタ判定部１７において、距離
計算部ｎはクラスタ中心１６とサンプル１１を入力し、
サンプル（χ）とクラスタ中心ｚ　ｊ（ｋ）の距離１１
χ−Ｚｊ（ｋ）ＩＩをすべての（χ）について求め、最
小値選択回路２４では前記の距離を入力し、ステップ２
で述べたように、すべてのｉ＝１，２．・・・、Ｋ（ｉ
＋ｊ）についてＩＩ　Ｉ　ｚ　ｉ　（ｋ翔が１１χ−３
ｉ（ｋ）Ｉｆより小さければχ５ｊ（ｋ）と判定し、そ
の距離が最も小さいクラスタ中心を求めてサンプル集合
Ｓ　ｊ　（ｋ）の新しいクラスタ中心を所属クラスタ５
として出力する。中心クラスタ判定部１８は加算部２６
と除算部２７から成り、所属クラスタ５に従って、第３
のステップのところで説明したように、　　ｊ＝１．２
．・・・、Ｋに対して（２）式に示すＪ・を最小にする
ようにｚ　ｊ（ｋ＋　１　）を決める。別の表現をすれ
ば、ＮｊをＳ　ｊ　（ｋ）に含まれるχの数とすると。

を計算してｚ　３．　（ｋ＋　１　）を決める。

以上のようにして標準パターンの作成が行われるが、先
に記したように、従来はに個のサンプルを選ぶのに、サ
ンプルの先頭からに個選んだシ、或いはランダムにに個
選んだりしていた。

このため選び方によりクラスタ中心がかたま９易く、孤
立パターンを分離しにくいという問題があった。

〔発明の目的〕

したがって本発明の目的は、孤立パターンを分離し効率
的な代表パターンを選択する標準パターン作成法を提供
することにある。

〔発明の構成〕

本発明によれば、データベースよりクラスタリングの手
法によυに個の標準パターンを作成する方法において、
に個の初期クラスタ中心としてデータベース中の相互に
最も離れたに個のサンプルを選択することを特徴とする
標準パターン作成法を得ようとするものである。

〔実施例〕

第１図は本発明の一実施例を実行するのに用いられる標
準パターン作成装置の構成を示す図である。この装置が
第２図の従来の方法を実行するための装置と異るのは、
初期クラスタを決めるだめの初期設定部の構造従って動
作が異っていることである。すなわち本発明の初期設定
部３１においては、初期クラスタを決めるのに相に互に最も距離の大きい７個のサンプルを初期クラスタ中
心に設定するために、まずサンプル間隔距離計算部３２
でサンプル１１の距離を計算して次に示すサンプル間距
離マトリックスを求める。

第５図はこのサンプル間距離マトリックスの説明図でち
る。この第３図において＋　Ｄ（’　！　Ｊ　）はサン
プルｉとサンプルｊとの距離であり、距離尺度としては
ユークリッド距離、チェビシェフ距離等が考えられ、い
ずれでもよい。このサンプル間距離計算部３２にて算出
される距離マトリックスをもとに、最大値選択部３３に
おいて相に互に最も距離の大きい２個のサンプルを初期クラスタ中
心に設定する。

第４図は最大値選択部３３をマイクロプロセッサ−で構
成した場合のプログラム７０−の一例を示す図である。

この内容は第１〜第４のステップの説明と照らし合せれ
ば容易に理解できるので、説明は省略する。

この発明の有効性を明確にするために、２次元データに
てクラスタリング例を従来法と比較して実行した、Ｋ次
元データとして９２個の音声サンプルから先頭２次元だ
けをそれぞれ取シ出したものを用いた。

第５図は従来法によるクラスタリング、第６図は本発明
の方法によるクラスタリングによりおのおの１５クラス
タに分けた例である。第５図の従来法では、サンプルの
集中している部分に多くのクラスタができており、右上
の孤立サンプルが分離していない。これに比較し、第６
図の本発明によるクラスタリング法では、孤立サンプル
が分離し効率的にクラスタが構成されている。

なお上記の装置はいくつかの回路を使用しているが、い
ずれも公知のディジタル回路、及びマイクロプロセッサ
−にて容易に構成できる。

〔発明の効果〕

以上の説明から明らかなように１本発明による標準パタ
ーン作成法は、初期クラスタ中心として相互に最も離れ
たパターンを選択することにより、孤立パターンの分離
をよくし効率的な代表パターンを求めることができ、し
たがって認識率の高い標準パターンを作成することがで
きる。

【図面の簡単な説明】

第１図は本発明による標準パターン作成法を実行するた
めの装置のブロック回路図、第２図は従来の標準パター
ン作成法を実行する装置のブロック回路図、第６図はサ
ンプル間距離マトリックスの説明図、第４図は最大値選
択のプログラムを示すフローチャートを示す図、第５図
は従来法によるクラスタリング例を示す図、第６図は本
発明によるクラスタリング例を示す図である。記号の説明：１１はサンプル、１２は初期設定部。１３は初期クラスタ中心作成部、１５はに初期設定部、
　１６はクラスタ中心、１７はクラスタ判定部。１８はクラスタ中心判定部、１９は２１回目のクラスタ
中心、　２０は収束条件比較部、２１は出力端、２２は
にカウンタ、３１は初期設定部、３２はサンプル間距離
計算部、３３は最大値選択部をそれぞれあ第５図ＤＩＭＥＭＳＩＯＮ　　Ｉ第６図ＤＩＭＥＭＳＩＯＮ　　＋

Claims

【特許請求の範囲】

１、データベースよりクラスタリングの手法によりＫ個
の標準パターンを作成する方法において、Ｋ個の初期ク
ラスタ中心として前記データベース中の相互に最も離れ
たに個のサンプルを選択することを特徴とした標準パタ
ーン作成法。