WO2021214943A1

WO2021214943A1 - パラメータ最適化方法、非一時的記録媒体、特徴量抽出方法及びパラメータ最適化装置

Info

Publication number: WO2021214943A1
Application number: PCT/JP2020/017502
Authority: WO
Inventors: 忍工藤; 隆一谷田; 木全　英明
Original assignee: 日本電信電話株式会社
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2021-10-28
Also published as: JPWO2021214943A1; US20230153393A1; JP7453582B2

Abstract

入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、正解データ及び分類結果に基づいて得られる分類誤差と、クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように特徴量抽出ステップで利用するパラメータを最適化する最適化ステップと、を有するパラメータ最適化方法。

Description

パラメータ最適化方法、非一時的記録媒体、特徴量抽出方法及びパラメータ最適化装置

　本発明は、パラメータ最適化方法、非一時的記録媒体、特徴量抽出方法及びパラメータ最適化装置に関する。

　顔認識のような個体識別問題において、様々な学習手法が提案されている（例えば、非特許文献１～３参照）。非特許文献１に示すL2-Constrained Softmax Loss、非特許文献２に示すＡｒｃＦａｃｅ及び非特許文献３に示すＡｄａＣｏｓはいずれも、Ｓｏｆｔｍａｘにかける直前の特徴ベクトルを超球面上に投影し、特徴ベクトルとクラス代表ベクトルとのコサイン類似度で最適化する手法である。例えば、ＡｒｃＦａｃｅは、特徴ベクトルと、ターゲットクラスの代表ベクトルとの角度にペナルティを付けて、他のクラスよりもターゲットクラス近くにマッピングされるように最適化する手法である。また、例えば、ＡｄａＣｏｓは、ＡｒｃＦａｃｅのパラメータを自動的に調整したバージョンである。

Rajeev Ranjan, Carlos D. Castillo, Rama Chellappa, "L2-constrained Softmax Loss for Discriminative Face Verification", Computer Vision and Pattern Recognition Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou , "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", Computer Vision and Pattern Recognition Xiao Zhang, Rui Zhao, Yu Qiao, Xiaogang Wang, Hongsheng Li, "AdaCos: Adaptively Scaling Cosine Logits for Effectively Learning Deep Face Representations", Computer Vision and Pattern Recognition

　しかしながら、上記の従来手法では、２つの課題が生じる。１つ目の課題は、類似した各サンプルの各クラス代表ベクトルが超球面上で近い位置にマッピングされてしまう点である。その結果、誤ったクラスに分類されやすくなる。２つ目の課題は、超球面を使いきれていない点である。その結果、特徴量空間の表現能力が低下し、効率的な学習が困難になる。いずれの課題も、分類精度が低下してしまうという問題を引き起こす。

　上記事情に鑑み、本発明は、分類精度を向上させることができる技術の提供を目的としている。

　本発明の一態様は、入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップと、を有するパラメータ最適化方法である。

　本発明の一態様は、上記のパラメータ最適化方法をコンピュータに実行させるためのコンピュータプログラムを記録する非一時的記録媒体である。

　本発明の一態様は、入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出部と、前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類部と、正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように前記特徴量抽出部で利用するパラメータを最適化する最適化部と、を備えるパラメータ最適化装置である。

　本発明の一態様は、入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップを有し、前記最適化ステップにおいて、前記各クラスのクラス代表ベクトルそれぞれの特徴量空間上における位置を決定した後に、前記分類誤差を勾配法により最適化することによって前記パラメータを最適化するパラメータ最適化方法である。

　本発明の一態様は、入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップを有し、前記最適化ステップにおいて、前記クラス代表ベクトル間の距離誤差を前記分類誤差に付与して勾配法により最適化することによって前記パラメータを最適化するパラメータ最適化方法である。

　本発明により、分類精度を向上させることが可能となる。

本発明におけるパラメータ最適化装置の機能構成の具体例を示すブロック図である。実施形態におけるパラメータ最適化装置の処理の流れを示すフローチャートである。従来手法を用いた場合の実験結果を示す図である。従来手法を用いた場合の実験結果を示す図である。従来手法を用いた場合の実験結果を示す図である。従来手法を用いた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。従来手法に本発明の手法を組み合わせた場合の実験結果を示す図である。

　以下、本発明の一実施形態を、図面を参照しながら説明する。
　図１は、本発明におけるパラメータ最適化装置１０の機能構成の具体例を示すブロック図である。
　パラメータ最適化装置１０は、深層学習で用いる特徴ベクトルを抽出するためのパラメータを最適化する装置である。本実施形態で用いる深層学習は、例えばL2-Constrained Softmax Loss、ＡｒｃＦａｃｅ、ＡｄａＣｏｓ、ＳｐｈｅｒｅＦａｃｅ及びＣｏｓＦａｃｅ等である。パラメータ最適化装置１０は、例えばパーソナルコンピュータ等の情報処理装置を用いて構成される。

　パラメータ最適化装置１０は、初期化部１００、特徴量抽出部１０１、クラス代表ベクトルメモリ１０２、類似度算出部１０３、分類部１０４、分類誤差算出部１０５、クラス間距離誤差算出部１０６及び最適化部１０７を備える。
　初期化部１００は、特徴量抽出部１０１が特徴ベクトル抽出に用いるパラメータ及びクラス代表ベクトルメモリ１０２に保存されるクラス代表ベクトルの情報をランダム値で初期化する。

　特徴量抽出部１０１は、外部から入力された画像データを用いて特徴ベクトルを抽出する。例えば、学習時では、特徴量抽出部１０１は、入力された学習用の画像データを用いて特徴ベクトルを抽出する。例えば、実際の処理の利用時では、特徴量抽出部１０１は、入力された画像データを用いて特徴ベクトルを抽出する。特徴量抽出部１０１が特徴ベクトル抽出に用いるパラメータは、学習処理開始時にはランダム値で初期化される。実際の処理の利用時には、最適化されたパラメータが利用される。

　クラス代表ベクトルメモリ１０２には、クラス代表ベクトルの情報が保存されている。クラス代表ベクトルメモリ１０２に保存されているクラス代表ベクトルの情報は、学習処理開始時にはランダム値で初期化される。クラス代表ベクトルは、各クラスの基準となる特徴ベクトルを表す。

　類似度算出部１０３は、特徴量抽出部１０１から出力された特徴ベクトルと、クラス代表ベクトルメモリ１０２に保存されている各クラス代表ベクトルとの類似度をそれぞれ算出する。

　分類部１０４は、ソフトマックス関数と、類似度算出部１０３によって算出された各類似度の値とを用いて、特徴量抽出部１０１から出力された特徴ベクトルの分類結果を取得する。例えば、分類部１０４は、特徴量抽出部１０１から出力された特徴ベクトルの各クラスに属する確率を示す分類結果として取得する。

　分類誤差算出部１０５は、分類部１０４によって取得された分類結果と、外部から入力された正解データの情報とに基づいて分類誤差を算出する。

　クラス間距離誤差算出部１０６は、クラス代表ベクトルメモリ１０２に保存されている各クラス代表ベクトル間の距離の誤差（以下「クラス間距離誤差」という。）を算出する。

　最適化部１０７は、分類誤差算出部１０５によって算出された分類誤差と、クラス間距離誤差算出部１０６によって算出されたクラス間距離誤差とに基づいて、特徴量抽出部１０１が用いるパラメータ及びクラス代表ベクトルメモリ１０２に保存されているクラス代表ベクトルの情報を最適化する。例えば、最適化部１０７は、分類誤差と、クラス間距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように、特徴量抽出部１０１が用いるパラメータ及びクラス代表ベクトルメモリ１０２に保存されているクラス代表ベクトルの情報を最適化する。

　図２は、実施形態におけるパラメータ最適化装置１０の処理の流れを示すフローチャートである。
　パラメータ最適化装置１０は、学習データとして入力画像ｘ_ｉ(ｉは１以上の整数)、正解データｙ_ｉ及び分類クラス数Ｋの情報を入力する（ステップＳ１０１）。入力画像ｘ_ｉは特徴量抽出部１０１に入力され、正解データｙ_ｉは分類誤差算出部１０５に入力され、分類クラス数Ｋの情報は初期化部１００に入力される。初期化部１００は、クラス代表ベクトルをベクトルＷ_ｋ（０≦ｋ＜Ｋ）とし、特徴量抽出部１０１が用いるパラメータと、ベクトルＷ_ｋとをランダム値で初期化する（ステップＳ１０２）。初期化又は最適化されたクラス代表ベクトルをＷ_ｋ´とする。

　特徴量抽出部１０１は、入力画像ｘ_ｉを入力する（ステップＳ１０３）。例えば、特徴量抽出部１０１は、複数の入力画像が入力された場合には、１つの入力画像を選択して入力する。特徴量抽出部１０１は、入力した入力画像ｘ_ｉを用いて、入力画像ｘ_ｉの特徴ベクトルｆ_ｉ´を取得する（ステップＳ１０４）。特徴量抽出部１０１は、抽出した特徴ベクトルｆ_ｉ´を類似度算出部１０３に出力する。

　類似度算出部１０３は、特徴量抽出部１０１から出力された特徴ベクトルｆ_ｉ´と、クラス代表ベクトルメモリ１０２に保存されている各クラス代表ベクトルＷ_ｋ´とを入力する。類似度算出部１０３は、入力した特徴ベクトルｆ_ｉ´と各クラス代表ベクトルＷ_ｋ´とをそれぞれＬ２ノルムで正規化する。

　これにより、類似度算出部１０３は、正規化後の特徴ベクトルｆ_ｉと各クラス代表ベクトルＷ_ｋとを取得する。その後、類似度算出部１０３は、取得した特徴ベクトルｆ_ｉとクラス代表ベクトルＷ_ｋとの類似度ｃ_ｋをクラス代表ベクトル毎に算出する（ステップＳ１０５）。例えば、類似度算出部１０３は、以下の式１に基づいて類似度ｃ_ｋをクラス代表ベクトル毎に算出する。

　式（１）における“・”の記号は内積を表す。このように、類似度算出部１０３は、取得した特徴ベクトルｆ_ｉとクラス代表ベクトルＷ_ｋとの内積を求めることによって、類似度ｃ_ｋをクラス代表ベクトル毎に算出する。類似度算出部１０３は、算出したクラス代表ベクトル毎の類似度ｃ_ｋの情報を分類部１０４に出力する。

　分類部１０４は、ソフトマックス関数と、クラス代表ベクトル毎の類似度ｃ_ｋとを用いて分類結果を取得する（ステップＳ１０６）。具体的には、分類部１０４は、ソフトマックス関数に、クラス代表ベクトル毎の類似度ｃ_ｋを与えることによって、特徴ベクトルｆ_ｉの各クラスに属する確率を示す分類結果を取得する。分類部１０４は、取得した分類結果を示す情報を分類誤差算出部１０５に出力する。

　分類誤差算出部１０５は、分類結果を示す情報と、入力された正解データとを用いて分類誤差Ｌ_ｃを算出する（ステップＳ１０７）。例えば、分類誤差算出部１０５は、交差エントロピーを求めることによって分類誤差を算出する。分類誤差算出部１０５は、算出した分類誤差Ｌ_ｃを最適化部１０７に出力する。

　クラス間距離誤差算出部１０６は、クラス代表ベクトルメモリ１０２に保存されているクラス代表ベクトル間の距離の誤差Ｌ_ｄを算出する（ステップＳ１０８）。具体的には、クラス間距離誤差算出部１０６は、以下の式（２）に基づいてクラス間距離誤差Ｌ_ｄを算出する。

　式（２）におけるｍ及びｎは、０以上の値であり、整数０≦ｍ，ｎ＜Ｋを満たす。クラス間距離誤差算出部１０６は、算出したクラス間距離誤差Ｌ_ｄを最適化部１０７に出力する。最適化部１０７は、分類誤差Ｌ_ｃと、クラス間距離誤差Ｌ_ｄとを入力する。最適化部１０７は、入力した分類誤差Ｌ_ｃと、クラス間距離誤差Ｌ_ｄとを用いて、以下の式（３）に示す目的関数の最小化問題を解くことによって、特徴量抽出部１０１で用いるパラメータ及びクラス代表ベクトルメモリ１０２におけるクラス代表ベクトルの情報を更新する（ステップＳ１０９）。

　ここで、最適化部１０７が行う最適化の方法として、２つの方法（第１の方法及び第２の方法）がある。
　第１の方法では、最適化部１０７が、まずクラス間距離誤差Ｌ_ｄ＜ｄを満たすようにクラス代表ベクトルを更新する。例えば、最適化部１０７は、目的関数Ｌ＝Ｌ_ｄ－ｄを勾配法により最適化するようにクラス代表ベクトルを更新する。ｄは、予め定められる整数である。次に、最適化部１０７は、クラス代表ベクトルを固定した状態で目的関数Ｌ＝Ｌ_ｃを勾配法により最適化する。すなわち、第１の方法では、各クラスのクラス代表ベクトルそれぞれの特徴量空間上における位置を決定した後に、分類誤差を勾配法により最適化することによって特徴量抽出部１０１で利用するパラメータを最適化する。

　上記の処理により、特徴量抽出部１０１で利用するパラメータが、分類先である複数のクラス間の特徴量空間における距離を均等にするようなパラメータに最適化される。さらに、特徴量抽出部１０１で抽出される特徴量は、特徴量空間における複数のクラスのいずれかの領域にマッピングされる。

　第２の方法は、最適化部１０７が、ラグランジェの未定乗数法を用いて、目的関数Ｌ＝Ｌ_ｃ＋λＬ_ｄ（λはラグランジュ係数）を勾配法により最適化する。すなわち、第２の方法では、クラス代表ベクトル間の距離誤差を分類誤差に付与して勾配法により最適化することによって特徴量抽出部１０１で利用するパラメータを最適化する。例えば、第２の方法で用いるクラス代表ベクトル間の距離誤差は、全クラス間の距離の最大値である。

　最適化部１０７は、ステップＳ１０３からステップＳ１０９までの処理を所定の回数行ったか否かを判定する（ステップＳ１１０）。所定の回数行った場合（ステップＳ１１０－ＹＥＳ）、パラメータ最適化装置１０は図２の処理を終了する。
　一方、所定の回数行っていない場合（ステップＳ１１０－ＮＯ）、特徴量抽出部１０１は未選択の入力画像を入力する（ステップＳ１１０）。その後、パラメータ最適化装置１０はステップＳ１０３以降の処理を実行する。

　図３～図１４を用いて、従来手法の実験結果と、本発明及び従来手法に本発明の手法を組み合わせた場合の実験結果とについて説明する。図３～図１４では、従来手法として、L2-Constrained Softmax Loss及びＡｒｃＦａｃｅのそれぞれを例に示している。図３～図６は従来手法を用いた場合の実験結果を示す図であり、図７、図８、図１１及び図１２は本発明の実験結果を示し、図９、図１０、図１３及び図１４は従来手法（ＡｒｃＦａｃｅ）に本発明の手法を組み合わせた場合の実験結果を示す図である。実験では、ＭＮＩＳＴ（Modified National Institute of Standards and Technology）の１０クラスのデータセットを用いて、特徴ベクトルを２次元としている。

　図３に示す例では、従来手法としてL2-Constrained Softmax Lossを利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図３において、中心２０の位置から外側に延びる複数の直線２１－０～２１－９はそれぞれ各クラスのクラス代表ベクトルを表し、直線２１－０～２１－９に対応する数字は各サンプルデータを表す。なお、図５、図７、図９、図１１及び図１３においても各符号が示す内容は図３と同様である。

　例えば、直線２１－０は、数字“０”のクラスのクラス代表ベクトルを表す。直線２１－１は、数字“１”のクラスのクラス代表ベクトルを表す。直線２１－２は、数字“２”のクラスのクラス代表ベクトルを表す。直線２１－３は、数字“３”のクラスのクラス代表ベクトルを表す。直線２１－４は、数字“４”のクラスのクラス代表ベクトルを表す。直線２１－５は、数字“５”のクラスのクラス代表ベクトルを表す。直線２１－６は、数字“６”のクラスのクラス代表ベクトルを表す。直線２１－７は、数字“７”のクラスのクラス代表ベクトルを表す。直線２１－８は、数字“８”のクラスのクラス代表ベクトルを表す。直線２１－９は、数字“９”のクラスのクラス代表ベクトルを表す。

　図３に示すように、L2-Constrained Softmax Lossを用いた場合には、類似したサンプルデータのクラス代表ベクトルが超球面上で近い位置にマッピングされていることがわかる。

　図４には、従来手法としてL2-Constrained Softmax Lossを利用した場合のｌｏｓｓと分類精度の結果を示している。図４において、線３１は学習データを用いた際の結果を表し、線３２はテストデータを用いた際の結果を表す。なお、図６、図７、図１０、図１２及び図１４においても各符号が示す内容は図４と同様である。

　図５に示す例では、従来手法としてＡｒｃＦａｃｅを利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図６には、従来手法としてＡｒｃＦａｃｅを利用した場合のｌｏｓｓと分類精度の結果を示している。図５に示すように、ＡｒｃＦａｃｅを用いた場合には、L2-Constrained Softmax Lossよりは問題度合いが小さいが、“３”と“５”が略同じ位置にマッピングされていたり、“９”と“２”の間が空いていたりして特徴空間全体を最大限に活用できていないことがわかる。

　図３～図６のように、従来手法では、類似するクラスの分類精度が低下していることがわかる。例えば、L2-Constrained Softmax Lossを利用した場合の分類精度は７０％、ＡｒｃＦａｃｅを利用した場合の分類精度は９０％程度である。さらに、従来手法では、特徴空間全体を最大限に活用できていない。

　図７に示す例では、本発明の第１の手法を利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図８には、本発明の第１の手法を利用した場合のｌｏｓｓと分類精度の結果を示している。
　図７に示すように、本発明の第１の手法を利用した場合には、L2-Constrained Softmax Lossと比べて、各クラスが分類されており、特徴空間全体を最大限に活用できていることがわかる。

　図９に示す例では、ＡｒｃＦａｃｅに本発明の第１の手法を組み合わせて利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図１０には、ＡｒｃＦａｃｅに本発明の第１の手法を組み合わせて利用した場合のｌｏｓｓと分類精度の結果を示している。
　図９に示すように、ＡｒｃＦａｃｅに本発明の第１の手法を組み合わせて利用した場合には、ＡｒｃＦａｃｅのみを利用した場合に比べて、各クラスが分類されており、特徴空間全体を最大限に活用できていることがわかる。

　図１１に示す例では、本発明の第２の手法を
利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図１２には、本発明の第２の手法を利用した場合のｌｏｓｓと分類精度の結果を示している。
　図１１に示すように、本発明の第２の手法を利用した場合には、L2-Constrained Softmax Lossと比べて、分類精度が向上していることがわかる。

　具体的には、L2-Constrained Softmax Lossでは、特徴が似ているデータが特徴量空間で近い位置にマッピングされやすくなっているのに対して、本発明の第２の手法ではクラス代表ベクトルの間隔を広げるように明示的に学習している。したがって、特徴が似ているデータが特徴量空間で近い位置にマッピングされることを抑制している。そのため、分類精度を向上させることができる。

　図１３に示す例では、ＡｒｃＦａｃｅに本発明の第２の手法を組み合わせて利用し、最終層直前の特徴ベクトルを超球面上に可視化した例を示している。図１４には、ＡｒｃＦａｃｅに本発明の第２の手法を組み合わせて利用した場合のｌｏｓｓと分類精度の結果を示している。
　図１３に示すように、ＡｒｃＦａｃｅに本発明の第２の手法を組み合わせて利用した場合には、ＡｒｃＦａｃｅのみを利用した場合に比べて、分類精度が向上していることがわかる。

　具体的には、ＡｒｃＦａｃｅでは、特徴が似ているデータが特徴量空間で近い位置にマッピングされやすくなっているのに対して、本発明の第２の手法ではクラス代表ベクトルの間隔を広げるように明示的に学習している。したがって、特徴が似ているデータが特徴量空間で近い位置にマッピングされることを抑制している。そのため、分類精度を向上させることができる。

　以上のように構成されたパラメータ最適化装置１０によれば、入力された入力データを用いて特徴ベクトルを抽出し、特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得し、正解データ及び分類結果に基づいて得られる分類誤差と、クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないようにパラメータを最適化する。これにより、各クラス間の距離を最大化する、すなわちコサイン類似度を小さくするように最適化することができる。その結果、分類精度を向上させることが可能になる。

　パラメータ最適化装置１０は、最適化の第１の方法として、各クラスのクラス代表ベクトルそれぞれの特徴量空間上における位置を決定した後に、分類誤差を勾配法により最適化することによってパラメータを最適化する。より具体的には、予めクラス代表ベクトルを特徴量空間で等間隔になるようにマッピングしている。これにより、各クラス間の距離を最大化する、すなわちコサイン類似度を小さくするように最適化することができる。その結果、分類精度を向上させることが可能になる。

　パラメータ最適化装置１０は、最適化の第２の方法として、クラス代表ベクトル間の距離誤差をペナルティとして分類誤差に付与して勾配法により最適化することによってパラメータを最適化する。この際、パラメータ最適化装置１０は、ラグランジェの未定乗数法を用いる。これにより、各クラス間の距離を最大化する、すなわちコサイン類似度を小さくするように最適化することができる。その結果、分類精度を向上させることが可能になる。

　本発明では、新しいクラスを再学習するときに特徴空間上に新しいクラスの入り込む余地があるため、Zero Shot Learningのような機械学習の精度向上も期待できる。

　第１の方法は、類似するクラスの近さを考慮せずに強制的に等間隔になるようにマッピングするため、クラス分類のタスク向けの方法である。
　第２の方法は、類似するクラスを近くするという距離学習の要素を残しているため、異常検知のタスク向けの手法である。

　（変形例）
　上記の実施形態では、パラメータ最適化装置１０は、ステップＳ１０９の処理においてステップＳ１０３からステップＳ１０８までの処理を所定の回数行ったか否かを判定する構成を示した。パラメータ最適化装置１０は、ステップＳ１０９の処理においてステップＳ１０３からステップＳ１０８までの処理を、特徴量抽出部１０１で用いるパラメータの値及びクラス代表ベクトルが収束するまで行ったか否かを判定するように構成されてもよい。このように構成される場合、収束していない場合（ステップＳ１０９－ＮＯ）、特徴量抽出部１０１は未選択の入力画像を入力する（ステップＳ１１０）。その後、パラメータ最適化装置１０はステップＳ１０３以降の処理を実行する。
　一方、収束した場合（ステップＳ１０９－ＹＥＳ）、パラメータ最適化装置１０は図２の処理を終了する。
　このように構成されることによって、最適化されるまで処理が行われるため、分類精度をより向上させることができる。

　クラス間距離誤差Ｌ_ｄの算出方法は、上記の式（２）に限定される必要はない。例えば、クラス間距離誤差Ｌ_ｄは、以下の式（４）又は式（５）によって算出されてもよい。式（４）は、クラス代表ベクトルの全距離の合計に基づく式である。式（５）は、各クラス最大距離の合計に基づく式である。

　上述したパラメータ最適化装置１０の一部又は全ての機能部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

　さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、クラスの分類を行う技術に適用できる。

１０…パラメータ最適化装置，　１００…初期化部，　１０１…特徴量抽出部，　１０２…クラス代表ベクトルメモリ，　１０３…類似度算出部，　１０４…分類部，　１０５…分類誤差算出部，　１０６…クラス間距離誤差算出部，　１０７…最適化部

Claims

　入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、
　前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、
　正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップと、
　を有するパラメータ最適化方法。
　前記最適化ステップにおいて、前記各クラスのクラス代表ベクトルそれぞれの特徴量空間上における位置を決定した後に、前記分類誤差を勾配法により最適化することによって前記パラメータを最適化する、
　請求項１に記載のパラメータ最適化方法。
　前記最適化ステップにおいて、前記クラス代表ベクトル間の距離誤差を前記分類誤差に付与して勾配法により最適化することによって前記パラメータを最適化する、
　請求項１に記載のパラメータ最適化方法。
　請求項１から３のいずれか一項に記載のパラメータ最適化方法をコンピュータに実行させるためのコンピュータプログラムを記録する非一時的記録媒体。
　分類対象の対象データを取得する取得ステップと、
　前記対象データから特徴量を抽出する特徴量抽出ステップと、
　を有し、
　前記特徴量抽出ステップでは、
　分類先である複数のクラス間の特徴量空間における距離が均等になるよう最適化されており、
　前記特徴量は、前記特徴量空間における、前記複数のクラスのいずれかの領域にマッピングされる、
　特徴量抽出方法。
　入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出部と、
　前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類部と、
　正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、特徴量空間上で各クラスの特徴量の領域が重複しないように前記特徴量抽出部で利用するパラメータを最適化する最適化部と、
　を備えるパラメータ最適化装置。
　入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、
　前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、
　正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップを有し、
　前記最適化ステップにおいて、前記各クラスのクラス代表ベクトルそれぞれの特徴量空間上における位置を決定した後に、前記分類誤差を勾配法により最適化することによって前記パラメータを最適化するパラメータ最適化方法。
　入力された入力データを用いて特徴ベクトルを抽出する特徴量抽出ステップと、
　前記特徴ベクトルと、分類対象となる各クラスのクラス代表ベクトルとの分類結果を取得する分類ステップと、
　正解データ及び前記分類結果に基づいて得られる分類誤差と、前記クラス代表ベクトル間の距離誤差とに基づいて、前記特徴量抽出ステップで利用するパラメータを最適化する最適化ステップを有し、
　前記最適化ステップにおいて、前記クラス代表ベクトル間の距離誤差を前記分類誤差に付与して勾配法により最適化することによって前記パラメータを最適化するパラメータ最適化方法。