WO2011058605A1 - 計量空間学習装置 - Google Patents

計量空間学習装置 Download PDF

Info

Publication number
WO2011058605A1
WO2011058605A1 PCT/JP2009/006053 JP2009006053W WO2011058605A1 WO 2011058605 A1 WO2011058605 A1 WO 2011058605A1 JP 2009006053 W JP2009006053 W JP 2009006053W WO 2011058605 A1 WO2011058605 A1 WO 2011058605A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
matrix
conversion
metric
metric space
Prior art date
Application number
PCT/JP2009/006053
Other languages
English (en)
French (fr)
Inventor
柴田智行
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Priority to JP2011540335A priority Critical patent/JP5355708B2/ja
Priority to PCT/JP2009/006053 priority patent/WO2011058605A1/ja
Priority to US13/505,514 priority patent/US8943005B2/en
Publication of WO2011058605A1 publication Critical patent/WO2011058605A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to a metric space learning technique using the k-nearest neighbor method.
  • a conventional metric space learning device in a k-nearest neighbor classifier has a small dispersion of distances between patterns in the same category and different categories.
  • the discriminating performance is improved by learning a metric space in which the dispersion of the distance between the patterns increases.
  • the conventional metric space learning device has been hindered from improving the identification performance because the search range is limited when metric learning is performed for the purpose of improving the identification performance.
  • the present invention has been made to solve the above-described problems, and aims to improve the identification performance.
  • One aspect of the present invention relates to a metric space learning apparatus, which stores a learning pattern in a feature space and a category to which the learning pattern belongs, and a variable to the metric space using a transformation matrix in which the learning pattern is determined in advance.
  • the conversion unit that performs conversion and the learning pattern converted by the predetermined conversion matrix the set belongs to the same category close to the kth in the k-nearest neighbor method from the set of learning patterns belonging to the same category
  • a conversion matrix calculation that calculates a conversion matrix that minimizes the loss value of the loss function in a loss function that increases the loss value when there is a learning pattern that is closer to the learning pattern and that belongs to a different category.
  • the minimum loss value is determined to be complete when the minimum loss value is at least a threshold value or less, and the minimum loss And a determination unit that outputs the conversion matrix corresponding to the minimum loss value to the conversion unit, and the conversion unit includes the metric learning. Until the calculation matrix is repeatedly converted to the metric space using the conversion matrix output from the determination unit, and the conversion matrix conversion unit repeats the determination until the metric learning ends. The calculation of the conversion matrix that minimizes the loss value of the loss function is repeated using the learning pattern converted by the conversion matrix output from the unit.
  • the identification performance can be improved.
  • FIG. 6 is a flowchart showing the operation of the first embodiment.
  • FIG. 4 is a block diagram showing a configuration of a metric space learning device according to Embodiment 3.
  • FIG. 9 is a flowchart illustrating the operation of the third embodiment.
  • FIG. 7 is a block diagram showing a configuration of a pattern recognition apparatus according to a sixth embodiment.
  • Embodiment 1 will be described in comparison with a conventional method.
  • the “k neighborhood method” is a statistical classification method based on the closest learning example in the feature space, and is used in pattern recognition.
  • the classification of a certain pattern is determined by voting of neighboring pattern groups. That is, the most general category of the k nearest pattern groups is assigned to the pattern.
  • the conventional method performs metric learning in a metric space in which learning patterns belonging to the same category are closer to each other and learning patterns belonging to different categories are further away from each other. That is, the conventional method seeks a metric space that minimizes the dispersion of distances between patterns in the same category and maximizes the dispersion of distances between patterns in different categories.
  • metric learning means learning a distance measure suitable for identification.
  • the loss function ⁇ (L) used for the metric learning in the conventional method can be expressed as the following equation (1) as described in Patent Document 1.
  • ⁇ i, j is a matrix in which x j is 1 if it is close to the k-th learning pattern in the same category as viewed from x i, and 0 otherwise.
  • y il is a matrix that is 0 if x i and x l are different categories, and 1 if they are the same category. That is, (1-y il ) is 1 if x i and x l are different categories, and 0 if they are the same category.
  • C is a normalization parameter having a positive value.
  • L is a transformation matrix to be calculated, and is a matrix of d 'rows and d columns, where d' is the dimension number of the metric space after the transformation.
  • the constant 1 included in the second term of the formula (1) is called “margin”, and aims to make the distance between categories after metric learning more than “margin”.
  • the identification rule of the k-nearest neighbor method the identification is determined by the majority of categories to which k learning patterns that are close to the input pattern belong. Therefore, it is not necessary to make the distance from the learning pattern belonging to the same category close, and it is only necessary to keep the distance from the learning pattern belonging to a different category.
  • the loss function ⁇ (L) of equation (1) in the conventional method is composed of two terms.
  • the first term of Equation (1) is an inter-category variance minimizing term for the purpose of explicitly reducing the distance from the learning pattern belonging to the same category. Therefore, according to the identification rule of the k-nearest neighbor method described above, the first term of Equation (1) becomes an unnecessary term.
  • 2 and r ′
  • FIG. 1A only the transformation matrix L satisfying r> r ′ is obtained as the first term of the formula (1) in the conventional method. For this reason, the range of r ⁇ r ′ is not searched.
  • the loss function ⁇ (L) only for the purpose of increasing the variance between categories as in the following equation (2) is defined, thereby eliminating the constraint on r.
  • the search range of the minimum loss value to be described later is expanded to r ⁇ r ′ in addition to r> r ′.
  • FIG. 2 is a block diagram of the metric space learning device 1.
  • the metric space learning device 1 includes a storage unit 2, a conversion unit 3, a conversion matrix calculation unit 4, a matrix storage unit 5, and a determination unit 6.
  • the storage unit 2 stores a learning pattern that is a set of d-dimensional n vectors in a feature space used for metric learning given from the outside of the metric space learning device 1, and a category to which the learning pattern belongs. Further, the storage unit 2 sends the learning pattern and the category to which it belongs to the conversion unit 3.
  • the conversion unit 3 converts the learning pattern stored in the storage unit 2 into a metric space using the conversion matrix L.
  • the conversion unit 3 converts the learning pattern received from the storage unit 2 from the feature space to the metric space by using a unit matrix as the conversion matrix L only for the first time.
  • the conversion unit 3 performs variable conversion of the learning pattern from the feature space to the metric space using the conversion matrix L of the minimum loss value received from the matrix storage unit 5 after the second time.
  • the conversion unit 3 sends the learning pattern subjected to variable conversion to the conversion matrix calculation unit 4.
  • the transformation matrix calculation unit 4 calculates a transformation matrix L that minimizes ⁇ (L) with respect to the loss function ⁇ (L) of Equation (2). That is, in other words, using equation (2), the loss function ⁇ (L) is calculated from the set of learning patterns belonging to the same category, using the learning pattern converted by the conversion unit 3 into the metric space using the conversion matrix L. This is a function that increases the loss value when there is a learning pattern that is closer to the learning pattern belonging to the same category and closest to the kth category in the k-nearest neighbor method and that belongs to a different category. Then, the transformation matrix calculation unit 4 calculates the transformation matrix L that minimizes the loss value due to the loss function ⁇ (L).
  • the conversion matrix calculation unit 4 uses the learning pattern converted into the metric space to calculate the conversion matrix L that minimizes the loss value of the loss function ⁇ (L) of Equation (2) by the gradient method.
  • the gradient method There are a plurality of gradient methods, and any method can be applied. In this embodiment, a conjugate gradient method is used.
  • the transformation matrix calculation unit 4 sends the transformation matrix L with the smallest loss to the matrix storage unit 5 and the smallest loss value at that time to the determination unit 6.
  • the matrix storage unit 5 stores a predetermined unit matrix as an initial value as the conversion matrix L, and then stores the conversion matrix L calculated by the conversion matrix calculation unit 4. If the metric learning is not completed by the determination of the determination unit 6, the matrix storage unit 5 sends the unit matrix or the conversion matrix L calculated by the conversion matrix calculation unit 4 of the minimum loss value to the conversion unit 3 as an initial value. If the metric learning is completed by the determination of the determination unit 6, the conversion matrix L of the minimum loss value calculated by the conversion matrix calculation unit 4 is stored outside the metric space learning device 1 (for example, identification in the fourth embodiment). Part 603).
  • the determination unit 6 determines whether or not the metric learning is ended from the minimum loss value calculated by the loss calculation unit 4. That is, the determination unit 6 ends the metric learning if the minimum loss value received from the transformation matrix calculation unit 4 is equal to or less than the threshold value, or the same loss value as the previous minimum loss value. Otherwise, it is determined that the metric learning is continued. The determination unit 6 sends the determination result to the matrix storage unit 5.
  • FIG. 3 is a flowchart showing the operation of the metric space learning apparatus 1.
  • step S201 the conversion unit 3 sets a unit matrix as an initial value for metric learning, and proceeds to step S202.
  • step S202 the matrix storage unit 6 stores the given transformation matrix L, and proceeds to step S203.
  • step S203 the conversion matrix calculation unit 4 calculates a conversion matrix L that minimizes the loss value, and proceeds to step S204.
  • step S204 the determination unit 6 ends the process when the minimum loss value is equal to or smaller than the threshold value by the transformation matrix calculation unit 4, or when the minimum loss value is the same value as the previous loss value (Yes). Otherwise, the process returns to step S202 (in the case of No).
  • the transformation matrix calculation unit 4 uses the loss function ⁇ (L) defined by Equation (3) to obtain the transformation matrix L that minimizes the loss value by the gradient method as in the first embodiment.
  • ⁇ (L) defined by Equation (3)
  • FIG. 4 is a block diagram of the metric space learning device 301.
  • the metric space learning device 1 includes a storage unit 2, a conversion unit 3, a conversion matrix calculation unit 304, a matrix storage unit 5, a determination unit 6, and a dimension compression unit 307.
  • a storage unit 2 a storage unit 2
  • a conversion unit 3 a conversion matrix calculation unit 304
  • a matrix storage unit 5 a determination unit 6
  • the description of the same configuration as the metric space learning device 1 in the first embodiment is omitted.
  • the dimension compression unit 307 calculates a dimension reduction matrix as an initial value of the conversion matrix L calculated by the conversion matrix calculation unit 304. Specifically, eigenvectors are calculated in the descending order of the obtained eigenvalues by the number of dimensions of the metric space after conversion by performing principal component analysis on the learning pattern received from the storage unit 2 (number of dimensions after dimension reduction). Select and use the dimension reduction matrix. The dimension compression unit 307 sends the calculated dimension reduction matrix to the conversion unit 3.
  • the storage unit 2 also sends the learning pattern and the category to which it belongs to the dimension compression unit 307.
  • the conversion unit 3 performs variable conversion of the learning pattern received from the storage unit 2 using the dimension reduction matrix received from the dimension compression unit 307 as the conversion matrix L only for the first time. That is, the conversion unit 3 uses the dimension reduction matrix to dimensionally compress the learning pattern to a metric space that is equal to or less than the number of dimensions of the original feature space.
  • the second and subsequent times are the same as in the first embodiment.
  • the transformation matrix calculation unit 304 uses the loss function ⁇ (L) defined by the equation (2) or the equation (3), and the loss value is minimized by the gradient method as in the transformation matrix calculation unit 4 of the first embodiment. A transformation matrix L is obtained.
  • FIG. 5 is a flowchart showing the operation of the metric space learning apparatus 301.
  • steps S402 to S404 are the same as steps S202 to S204 in FIG.
  • step S401 the dimension compression unit 307 calculates a dimension reduction matrix for the learning pattern, and the process proceeds to step S402.
  • the configuration of the metric space learning device 501 will be described with reference to FIG.
  • the metric space learning device 501 has the same configuration as the metric space learning device 301 of the second embodiment.
  • the difference between the present embodiment and the second embodiment is that the transformation matrix L that uses the equation (2) instead of the equation (3) and is metrically learned is not linear but nonlinear.
  • Equation (2) The objective function (loss function) when performing metric learning is shown in Equation (2), but when this is solved by the gradient method, it can be differentiated as shown in the following Equation (4).
  • h ′ (s) is a differentiated function of the hinge loss function which is h (s).
  • the extension of the transformation matrix L to non-linearity is realized using a kernel.
  • the kernel means the inner product in the high-dimensional feature space when the input space a is mapped to the high-dimensional feature space ⁇ (a) by nonlinear transformation ⁇ .
  • non-linearization increases the degree of freedom of conversion compared to linear conversion, leading to improved identification performance.
  • a Gaussian kernel is used.
  • the transformation matrix L is made non-linear by changing to the following equation (5).
  • the identification matrix is improved by updating the transformation matrix L according to the gradient obtained from Equation (7) and minimizing Equation (2), which is the objective function.
  • the metric space learning device 601 has the same configuration as that of the metric space learning device 501 of the fourth embodiment, and the metric learning transformation matrix L is non-linear. However, the difference between the present embodiment and the fourth embodiment is that not the equation (2) but the equation (3) is used.
  • the derivative of the loss function ⁇ (L) defined by the equation (3) can be developed in substantially the same manner as the expansion shown for the equation (2).
  • equation (8) If the norm of the transformation matrix L is differentiated, it can be expressed by the following equation (8). If equation (8) is added to equation (2), equation (3) can also be differentiated.
  • Embodiment 6 (Embodiment 6)
  • Embodiment 6 according to the present invention will be described with reference to FIG.
  • the pattern recognition device 601 can be applied to, for example, object recognition (for example, face recognition) and data mining captured in an image.
  • FIG. 6 is a block diagram showing the pattern recognition device 601.
  • the pattern recognition device 601 includes a metric space learning device 301 according to the second embodiment, a learning pattern storage unit 602 that stores input learning patterns and categories, and learning patterns, categories, and metric space learning stored in the learning pattern storage unit 602.
  • the discriminator is configured from the transformation matrix learned by the apparatus 301, and includes a discriminator 603 that discriminates an input pattern.
  • the learning pattern storage unit 602 stores the input learning pattern and category.
  • the learning pattern storage unit 602 sends the learning patterns and categories to the storage unit 2 and the identification unit 603 of the metric space learning device 301.
  • the metric space learning device 301 performs metric learning from the learning pattern and category received from the learning pattern storage unit 602 as described in the second embodiment, and identifies the transformation matrix L having the smallest metric learning loss value as an identification unit 603. Output to.
  • the identification unit 603 constitutes a classifier and identifies a category to which the input pattern belongs for an input pattern whose category is unknown.
  • the identification unit 603 receives a learning pattern and a category from the learning pattern storage unit 602, and also receives a transformation matrix L metrically learned from the metric space learning device 301.
  • the discriminator performs variable conversion of a learning pattern using a metric learning transformation matrix L during learning, and then the number of patterns belonging to one bin on each dimension vector is determined. Find a hash function that is uniform.
  • the discriminator performs variable transformation of the input pattern using the transformation matrix L at the time of discrimination, and obtains a hash value in each dimension by a hash function obtained at the time of learning. Then, the classifier sorts the learning patterns by the total number of learning patterns having the same hash value, searches for the learning patterns only from the upper rank, and obtains the majority of the categories to which the searched learning patterns belonged. Finally, the discriminator outputs the category resulting from the majority vote as the input pattern category.
  • the identification performance is improved by using the transformation matrix L in the optimum metric space.
  • the metric space learning device 301 of the third embodiment is used.
  • the metric space learning device of another embodiment may be used.
  • the metric space learning device can be realized, for example, by using a general-purpose computer as basic hardware. That is, the conversion unit, the conversion matrix calculation unit, and the determination unit can be realized by causing a processor installed in the computer to execute a program. At this time, the metric space learning device may be realized by installing the above program in a computer in advance, or storing it in a storage medium such as a CD-ROM or distributing the program through a network. Thus, this program may be realized by appropriately installing it in a computer.
  • the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage.
  • various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment.
  • constituent elements over different embodiments may be appropriately combined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

 計量空間学習装置は、特徴空間における学習パターンと、前記学習パターンが属するカテゴリを記憶し、前記学習パターンを変換行列により計量空間へ変数変換を行い、前記変換行列によって変換した前記学習パターンを用いて、同じカテゴリに属する前記学習パターンの集合の中から、k近傍法におけるk番目までに近い前記同じカテゴリに属する前記学習パターンまでの距離よりも近いと共に、異なるカテゴリに属する学習パターンがあるときに、損失値が大きくなる損失関数において、前記損失関数の前記損失値が最小となる前記変換行列を算出し、前記最小の損失値が少なくとも閾値以下のときに計量学習が終了したと判定して、前記最小の損失値に対応する前記変換行列を出力する。

Description

計量空間学習装置
 本発明は、k近傍法を用いた計量空間学習技術に関する。
 特許文献1~4及び非特許文献1に開示されているように、k近傍法の識別器における従来の計量空間学習装置は、同じカテゴリ内におけるパターン同士の距離の分散を小さく、かつ、異なるカテゴリ間におけるパターン同士の距離の分散が大きくなる計量空間を学習することで識別性能を向上させている。
米国特許公開2008/0199075号公報 特開2002-259911号公報 特開2001-184509号公報 特開平09-006745号公報
K.Q. Weinberger, J. Blitzer, L.K. Saul, Distance metric learning for large margin nearest neighbor classification, Advances in Neural Information Processing Systems, Cambridge, MA, 2005.
 しかし、従来の計量空間学習装置は、識別性能の向上を目的とした計量空間を計量学習するときの探索範囲が限定されているため、識別性能の向上の妨げとなっていた。
 本発明は、上記の課題を解決するためになされたものであって、識別性能を向上させることを目的とする。
 本発明の一側面は、計量空間学習装置に係り、特徴空間における学習パターンと前記学習パターンが属するカテゴリとを記憶する記憶部と、前記学習パターンを予め定めた変換行列を用いて計量空間へ変数変換を行う変換部と、前記予め定めた変換行列によって変換した前記学習パターンを用いて、同じカテゴリに属する前記学習パターンの集合の中から、k近傍法におけるk番目までに近い前記同じカテゴリに属する前記学習パターンまでの距離よりも近いと共に、異なるカテゴリに属する学習パターンがあるときに、損失値が大きくなる損失関数において、前記損失関数の前記損失値が最小となる変換行列を算出する変換行列算出部と、前記最小の損失値が少なくとも閾値以下のときに計量学習が終了したと判定して、前記最小の損失値に対応する前記変換行列を外部に出力し、それ以外のときは前記最小の損失値に対応する前記変換行列を前記変換部に出力する判定部と、有し、前記変換部は、前記計量学習が終了するまで、前記判定部から出力された前記変換行列を用いて前記学習パターンを前記計量空間へ変数変換することを繰り返し、前記変換行列変換部は、前記計量学習が終了するまで、前記判定部から出力された前記変換行列によって変換した前記学習パターンを用いて、前記損失関数の前記損失値が最小となる前記変換行列を算出することを繰り返す、ことを特徴とする。
 本発明によれば、識別性能を向上させることができる。
(a)は従来方法における探索範囲を示す図、(b)は実施の形態1における探索範囲を示す図。 本発明の実施の形態1に係る計量空間学習装置の構成を示すブロック図。 実施の形態1の動作を示すフローチャートを示す図。 実施の形態3に係る計量空間学習装置の構成を示すブロック図。 実施の形態3の動作を示すフローチャートを示す図。 実施の形態6に係るパターン認識装置の構成を示すブロック図。
(実施の形態1)
 以下、本発明に係る実施の形態1の計量空間学習装置1について、図1~図3を用いて説明する。
 まず、本実施の形態1の理論を従来方法と比較しつつ説明する。
 「k近傍法」は、特徴空間における最も近い学習例に基づいた統計分類の方法であり、パターン認識で使われる。あるパターンの分類は、その近傍のパターン群の投票によって決定される。すなわち、k個の最近傍のパターン群で最も一般的なカテゴリをそのパターンに割り当てる。kは正の整数で、一般に小さい整数である。例えば、k=1なら、最近傍のパターンと同じカテゴリに分類されるだけである。
 従来方法は、同じカテゴリに属する学習パターン同士はより近づき、異なるカテゴリに属する学習パターン同士はより離れるような計量空間を計量学習する。すなわち、従来方法は、同じカテゴリ内のパターン同士の距離の分散を最小化、異なるカテゴリ間のパターン同士の距離の分散を最大化する計量空間を求めている。なお、「計量学習」とは、識別に適した距離尺度を学習することである。
 従来方法の計量学習に用いる損失関数ε(L)は、特許文献1に記載されているように次の式(1)にように表せる。
Figure JPOXMLDOC01-appb-M000001
 但し、x∈R(i=1,2,・・・n)は、特徴空間のd次元n個の学習パターンxのベクトル集合である。
 j=1,2,・・・n、l=1,2,・・・nであり、i,jの組は同じカテゴリの組を表すときに用い、i,lの組は異なるカテゴリの組を表すときに用いる。
 ηi,jは、xがxからみて同じカテゴリである学習パターン中でk番目までに近接していれば1、それ以外は0となる行列である。なお、kは、k近傍法において予め与えられる整数である。すなわち、ηi,j=1のときは、xとxとはk近傍にある。
 yilは、xとxが異なるカテゴリであるならば0、同じカテゴリならば1となる行列である。すなわち、(1-yil)は、xとxが異なるカテゴリであるならば1、同じカテゴリならば0となる。
 cは、正の値を持つ正規化パラメータである。
 Lは、算出したい変換行列であり、変換後の計量空間の次元数をd’とするとd’行d列の行列である。
 式(1)の第2項に含まれる||L(x-x)||は、計量空間上での同じカテゴリに属する学習パターン間の距離であり、||L(x-x)||は、計量空間上での異なるカテゴリに属する学習パターン間の距離である。
 式(1)の第2項に含まれる定数1は、marginと呼ばれ、計量学習後のカテゴリ間の距離がmargin以上になることを目的としている。
 h(s)=max(s,0)は、hinge loss関数である。そのため、式(1)の第2項は、||L(x-x)||-||L(x-x)||+1が0以上であれば1、||L(x-x)||-||L(x-x)||+1が0未満であれば0となる。
 一方、k近傍法の識別規則において、識別は、入力パターンに対して距離の近いk個の学習パターンが属するカテゴリの多数決によって決められる。そのため、同じカテゴリに属する学習パターンとの距離を近づける必要性はなく、異なるカテゴリに属する学習パターンとの距離が離れてさえいればよい。
 従来方法における式(1)の損失関数ε(L)は、2つの項で構成されている。式(1)の第1項は、明示的に同じカテゴリに属する学習パターンとの距離を近づけること目的としたカテゴリ間分散最小化項である。したがって、上記したk近傍法の識別規則に従えば、式(1)の第1項は、不要な項となる。
 また、変換元の特徴空間中である学習パターンと同じカテゴリの中でk近傍(1~k番目までに距離の近い)の関係にある学習パターンまでの距離をrとし、変換後の計量空間中でのその距離をr’とする。すなわち、ηi,j=1のとき(xとxとがk近傍にあるとき)、r=||(x-x)||であり、r’=||L(x-x)||である。そして、図1(a)に示すように、従来方法における式(1)の第1項は、r>r’となる変換行列Lしか得られない。そのため、r≦r’の範囲は探索を行っていない。
 そこで、本実施の形態では、次の式(2)のようなカテゴリ間の分散を大きくすることのみを目的とした損失関数ε(L)を定義することで、rに関する制約を無くす。
Figure JPOXMLDOC01-appb-M000002
 これにより、図1(b)に示すように、本実施の形態では、r>r’に加えて、r≦r’まで、後から説明する最小の損失値の探索範囲を拡大する。
 本実施の形態に係る計量空間学習装置1の構成について図2を用いて説明する。図2は、計量空間学習装置1のブロック図である
 計量空間学習装置1は、記憶部2、変換部3、変換行列算出部4、行列格納部5、判定部6を備える。
 記憶部2は、計量空間学習装置1の外部から与えられる計量学習に使用する特徴空間におけるd次元n本のベクトル集合である学習パターンと、その学習パターンが属するカテゴリを記憶する。また、記憶部2は、学習パターンとその属するカテゴリを変換部3へ送る。
 変換部3は、記憶部2で記憶された学習パターンを変換行列Lにより計量空間へ変数変換を行う。変換部3は、初回のみ変換行列Lは単位行列を用い、記憶部2から受け取った学習パターンを特徴空間から計量空間へ変数変換する。変換部3は、2回目以降は行列格納部5から受け取った最小の損失値の変換行列Lを用いて学習パターンを特徴空間から計量空間へ変数変換する。変換部3は、変換行列算出部4へ変数変換した学習パターンを送る。
 変換行列算出部4は、式(2)の損失関数ε(L)に関して、ε(L)が最小となる変換行列Lを算出する。すなわち、式(2)を言い換えると、変換部3が変換行列Lによって計量空間に変換した学習パターンを用いて、損失関数ε(L)は、同じカテゴリに属する前記学習パターンの集合の中から、k近傍法におけるk番目に近い前記同じカテゴリに属する前記学習パターンまでの距離よりも近いと共に、異なるカテゴリに属する学習パターンがあるときに、損失値が大きくなる関数である。そして、変換行列算出部4は、この損失関数ε(L)による損失値が最小となる変換行列Lを算出する。
 そのため、変換行列算出部4は、計量空間に変換した学習パターンを用いて、式(2)の損失関数ε(L)の損失値が、勾配法により最小となる変換行列Lを算出する。勾配法には、複数の方法が存在し、どの方法でも適応可能である。本実施の形態では、共役勾配法を用いる。変換行列算出部4は、損失が最小となった変換行列Lを行列格納部5へ、そのときの最小の損失値を判定部6へそれぞれ送る。
 行列格納部5は、初期値として予め定めた単位行列を変換行列Lとして格納しており、その後は変換行列算出部4により算出した変換行列Lを格納する。行列格納部5は、判定部6の判定により計量学習が終了していなければ変換部3に初期値として単位行列、又は、最小の損失値の変換行列算出部4により算出した変換行列Lを送り、また、判定部6の判定により計量学習が終了していれば変換行列算出部4により算出した最小の損失値の変換行列Lを計量空間学習装置1の外部(例えば、実施の形態4の識別部603)へ出力する。
 判定部6は、損失算出部4が算出した最小の損失値から計量学習を終了するか否かの判定を行う。すなわち、判定部6は、変換行列算出部4から受け取った最小の損失値が、閾値以下である場合、又は、前回の最小の損失値と同じ損失値である場合は計量学習を終了し、それ以外は計量学習を継続すると判定する。判定部6は、判定結果を行列格納部5へ送る。
 計量空間学習装置1の動作について図3を用いて説明する。図3は、計量空間学習装置1の動作を表すフローチャートである。
 ステップS201では、変換部3は、計量学習のための初期値として単位行列を設定し、ステップS202に処理を進める。
 ステップS202では、行列格納部6は、与えられた変換行列Lを格納し、ステップS203に処理を進める。
 ステップS203では、変換行列算出部4は、損失値が最小となる変換行列Lを算出し、ステップS204に処理を進める。
 ステップS204では、判定部6は、変換行列算出部4により最小の損失値が閾値以下の場合、又は、最小の損失値が前回の損失値と同じ値である場合には処理を終了し(Yesの場合)、それ以外はステップS202へ戻る(Noの場合)。
 本実施の形態によれば、計量学習において、同じカテゴリ内のパターン同士の距離の分散を考慮せず、異なるカテゴリ間のパターン同士の距離の分散のみを考慮することで、探索範囲の制約無くし、得られた計量空間における識別性能が向上する。
(実施の形態2)
 以下、本発明に係る実施の形態2の計量空間学習装置1について、図4~図5を用いて説明する。
 上記した式(2)の損失関数ε(L)に変換行列Lのノルム(例えば、フロベニウス・ノルム)を加えた次の式(3)により、変換後の計量空間が小さくなる変換行列Lが得られる。これにより、marginの1が相対的に大きくなり、margin最大化の効果が得られ、識別性能の向上ができる。
Figure JPOXMLDOC01-appb-M000003
 そこで、本実施の形態の変換行列算出部4は、式(3)で定義した損失関数ε(L)を用い、実施の形態1と同様に勾配法により損失値が最小となる変換行列Lを求める。
 その他の記憶部2、変換部3、行列格納部5、判定部6の動作は、実施の形態1と同様である。
(実施の形態3)
 以下、本発明に係る実施の形態3の計量空間学習装置301について、図4~図5を用いて説明する。
 計量空間学習装置301の構成について図4を用いて説明する。図4は、計量空間学習装置301のブロック図である。
 計量空間学習装置1は、記憶部2、変換部3、変換行列算出部304、行列格納部5、判定部6、次元圧縮部307を備える。以下の説明では、計量空間学習装置301の中で、実施の形態1における計量空間学習装置1と同様な構成については説明を省略する。
 次元圧縮部307は、変換行列算出部304が算出する変換行列Lの初期値として、次元削減行列を算出する。具体的には、記憶部2から受け取った学習パターンに対して、主成分分析を行い変換後の計量空間の次元数(次元削減後の次元数)の本数だけ、求めた固有値の大きい順に固有ベクトルを選択し、次元削減行列とする。次元圧縮部307は、算出した次元削減行列を変換部3へ送る。
 記憶部2は、学習パターンと、その属するカテゴリを次元圧縮部307にも送る。
 変換部3は、初回のみ変換行列Lは、次元圧縮部307から受け取った次元削減行列を用いて、記憶部2から受け取った学習パターンを変数変換する。すなわち、変換部3は、次元削減行列を用いて、元の特徴空間の次元数以下の計量空間へ学習パターンを次元圧縮する。2回目以降については、実施の形態1と同様である。
 変換行列算出部304は、式(2)、又は、式(3)で定義した損失関数ε(L)を用い、実施の形態1の変換行列算出部4と同様に勾配法により損失値が最小となる変換行列Lを求める。
 計量空間学習装置301の動作について図5を用いて説明する。図5は、計量空間学習装置301の動作を表すフローチャートである。
 計量空間学習装置301の動作のうち、ステップS402~S404は、図3のステップS202~S204と同様であるため、説明を省略する。
 ステップS401では、次元圧縮部307が、学習パターンに対する次元削減行列を算出し、ステップS402に処理を進める。
(実施の形態4)
 以下、本発明に係る実施の形態4の計量空間学習装置501について説明する。
 計量空間学習装置501の構成について図4を用いて説明する。計量空間学習装置501は、実施の形態2の計量空間学習装置301の構成と同様である。しかし、本実施の形態と、実施の形態2の異なる点は、式(3)ではなく式(2)を用い、かつ、計量学習した変換行列Lが線形でなく、非線形である点である。
 以下、式(2)の損失関数ε(L)が線形から非線形への拡張したときの説明を行う。
 計量学習を行うときの目的関数(損失関数)を式(2)に示したが、これを勾配法で解く場合、次の式(4)に示すように微分することができる。
Figure JPOXMLDOC01-appb-M000004
 但し、h’(s)は、h(s)であるhinge loss関数の微分した関数である。
 変換行列Lの非線形への拡張は、カーネル(Kernel)を用いて実現させる。カーネルとは、入力空間aを非線形変換φにより高次元の特徴空間φ(a)へ写像したときに、この高次元の特徴空間中での内積の意味である。一般に、非線形化することで、線形変換よりも変換の自由度が高くなり識別性能の向上につながる。本実施の形態では、ガウシアンカーネルを使用することとする。
 本実施の形態では、変換行列Lを次の式(5)に変更することで非線形化する。
Figure JPOXMLDOC01-appb-M000005
 式(5)を式(4)に適用して、勾配は、式(6)となる。
Figure JPOXMLDOC01-appb-M000006
 さらに式(6)を変形すると、式(7)になる。
Figure JPOXMLDOC01-appb-M000007
 式(7)により求めた勾配により、変換行列Lを更新し、目的関数である式(2)を最小化させることで、識別性能の向上を行う。
(実施の形態5)
 以下、本発明に係る実施の形態5の計量空間学習装置601について説明する。
 計量空間学習装置601は、実施の形態4の計量空間学習装置501の構成と同様であり、また、計量学習した変換行列Lが非線形である。しかし、本実施の形態と、実施の形態4の異なる点は、式(2)ではなく、式(3)を用いた点にある。
 以下、式(3)の損失関数ε(L)が線形から非線形への拡張したときの説明を行う。
 式(3)で定義した損失関数ε(L)の微分は、式(2)に関して示した展開とほぼ同様に展開できる。
 変換行列Lのノルムを微分すると次の式(8)で表すことができ、式(2)に式(8)を加えれば、式(3)も微分可能となる。
Figure JPOXMLDOC01-appb-M000008
(実施の形態6)
 以下、本発明に係る実施の形態6について図6を用いて説明する。
 本実施の形態では、実施の形態3における計量空間学習装置301を内包したパターン認識装置601について説明する。パターン認識装置601は、例えば、画像に写された物体認識(例えば、顔認識)やデータマイニングに適用できる。
 パターン認識装置601の構成について図6を用いて説明する。図6は、パターン認識装置601を示すブロック図である。
 パターン認識装置601は、実施の形態2の計量空間学習装置301、入力される学習パターンとカテゴリを記憶する学習パターン記憶部602、前記学習パターン記憶部602に記憶した学習パターンとカテゴリと計量空間学習装置301により学習した変換行列から識別器を構成し、入力パターンを識別する識別部603とを備える。
 学習パターン記憶部602は、入力された学習パターンとカテゴリを記憶する。学習パターン記憶部602は、計量空間学習装置301の記憶部2と、識別部603へ学習パターンとカテゴリを送る。
 計量空間学習装置301は、学習パターン記憶部602より受け取った学習パターンとカテゴリから、実施の形態2で説明したように計量学習を行い、計量学習した損失値が最小の変換行列Lを識別部603へ出力する。
 識別部603は、識別器を構成し、カテゴリが未知の入力パターンに対して、その入力パターンが属するカテゴリを識別する。
 まず、識別部603は、学習パターン記憶部602から学習パターンとカテゴリを受け取り、また、計量空間学習装置301から計量学習した変換行列Lを受け取る。特開2009-20769号公報に開示されているように、識別器は、学習時に、計量学習した変換行列Lにより学習パターンを変数変換した後、各次元ベクトル上で1つのbinに属するパターン数が均等になるようなhash関数を求める。
 次に、識別器は、識別時に入力パターンを前記変換行列Lにより変数変換し、学習時に求めたhash関数により各次元でhash値を求める。そして、識別器は、同じhash値を持っていた学習パターンの総数によりソートし、上位のみから学習パターンを探索し、探索された学習パターンの属していたカテゴリの多数決を求める。最後に、識別器は、その多数決の結果のカテゴリを入力パターンのカテゴリとして出力する。
 本実施の形態によれば、最適な計量空間における変換行列Lを用いることにより、識別性能が向上する。
 なお、上記実施の形態では、実施の形態3の計量空間学習装置301を用いたが、他の実施の形態の計量空間学習装置を用いてもよい。
(変更例)
 上記各実施の形態に係る計量空間学習装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いることでも実現することが可能である。すなわち、変換部、変換行列算出部、判定部は、上記のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、計量空間学習装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、CD-ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
 なお、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1・・・計量空間学習装置、2・・・記憶部、3・・・変換部、4・・・変換行列算出部、5・・・行列格納部、6・・・判定部

Claims (6)

  1.  特徴空間における学習パターンと前記学習パターンが属するカテゴリとを記憶する記憶部と、
     前記学習パターンを予め定めた変換行列を用いて計量空間へ変数変換を行う変換部と、
     前記予め定めた変換行列によって変換した前記学習パターンを用いて、同じカテゴリに属する前記学習パターンの集合の中から、k近傍法におけるk番目までに近い前記同じカテゴリに属する前記学習パターンまでの距離よりも近いと共に、異なるカテゴリに属する学習パターンがあるときに、損失値が大きくなる損失関数において、前記損失関数の前記損失値が最小となる変換行列を算出する変換行列算出部と、
     前記最小の損失値が少なくとも閾値以下のときに計量学習が終了したと判定して、前記最小の損失値に対応する前記変換行列を外部に出力し、それ以外のときは前記最小の損失値に対応する前記変換行列を前記変換部に出力する判定部と、
     を有し、
     前記変換部は、前記計量学習が終了するまで、前記判定部から出力された前記変換行列を用いて前記学習パターンを前記計量空間へ変数変換することを繰り返し、
     前記変換行列変換部は、前記計量学習が終了するまで、前記判定部から出力された前記変換行列によって変換した前記学習パターンを用いて、前記損失関数の前記損失値が最小となる前記変換行列を算出することを繰り返す、
     ことを特徴とする計量空間学習装置。
  2.  前記変換行列算出部は、前記特徴空間における前記同じカテゴリに属する前記学習パターンの集合の中から、前記k番目に近い前記学習パターンまでの距離をr、変換後の前記計量空間における前記k番目に近い前記学習パターンまでの距離をr’としたときに、r≦r’まで最小の損失値の探索範囲を拡大する、
     ことを特徴とする請求項1に記載の計量空間学習装置。
  3.  前記変換行列算出部は、前記損失関数の前記損失値に、前記変換行列のノルムの値を加えて、この加えた値を前記損失値の代わりの損失値として算出する、
     ことを特徴とする請求項2に記載の計量空間学習装置。
  4.  前記変換行列算出部は、前記予め定めた変換行列として、単位行列、又は、低次元へ変換する次元圧縮行列を用いる、
     ことを特徴とする請求項3に記載に計量空間学習装置。
  5.  前記特徴空間における前記学習パターンに関して、主成分分析を行い、低次元へ圧縮して前記次元圧縮行列を算出する次元圧縮部を有する、
     ことを特徴とする請求項4に記載の計量空間学習装置。
  6.  前記変換行列が、線形、又は、非線形である、
     ことを特徴とする請求項5に記載の計量空間学習装置。
PCT/JP2009/006053 2009-11-12 2009-11-12 計量空間学習装置 WO2011058605A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011540335A JP5355708B2 (ja) 2009-11-12 2009-11-12 計量空間学習装置及びパターン認識装置
PCT/JP2009/006053 WO2011058605A1 (ja) 2009-11-12 2009-11-12 計量空間学習装置
US13/505,514 US8943005B2 (en) 2009-11-12 2009-11-12 Metric learning apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/006053 WO2011058605A1 (ja) 2009-11-12 2009-11-12 計量空間学習装置

Publications (1)

Publication Number Publication Date
WO2011058605A1 true WO2011058605A1 (ja) 2011-05-19

Family

ID=43991285

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/006053 WO2011058605A1 (ja) 2009-11-12 2009-11-12 計量空間学習装置

Country Status (3)

Country Link
US (1) US8943005B2 (ja)
JP (1) JP5355708B2 (ja)
WO (1) WO2011058605A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020290A (ja) * 2011-07-07 2013-01-31 Nippon Telegr & Teleph Corp <Ntt> パターン抽出装置、パターン抽出方法およびパターン抽出プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762111B2 (en) 2017-09-25 2020-09-01 International Business Machines Corporation Automatic feature learning from a relational database for predictive modelling
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304626A (ja) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd データ分類装置および物体認識装置
JP2007018176A (ja) * 2005-07-06 2007-01-25 Sharp Corp 学習装置、学習方法、学習プログラム、記録媒体、パターン認識装置およびパターン認識方法
US20080199075A1 (en) * 2006-08-18 2008-08-21 Salih Burak Gokturk Computer implemented technique for analyzing images
JP2009211123A (ja) * 2008-02-29 2009-09-17 Institute Of Physical & Chemical Research 分類装置、ならびに、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452160B2 (ja) 1995-06-23 2003-09-29 日本電気株式会社 認識辞書学習システム
JP3475886B2 (ja) 1999-12-24 2003-12-10 日本電気株式会社 パターン認識装置及び方法並びに記録媒体
JP4701518B2 (ja) 2001-03-02 2011-06-15 日本電気株式会社 パターン認識装置、パターン認識方法及びプログラム
US7996343B2 (en) * 2008-09-30 2011-08-09 Microsoft Corporation Classification via semi-riemannian spaces

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304626A (ja) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd データ分類装置および物体認識装置
JP2007018176A (ja) * 2005-07-06 2007-01-25 Sharp Corp 学習装置、学習方法、学習プログラム、記録媒体、パターン認識装置およびパターン認識方法
US20080199075A1 (en) * 2006-08-18 2008-08-21 Salih Burak Gokturk Computer implemented technique for analyzing images
JP2009211123A (ja) * 2008-02-29 2009-09-17 Institute Of Physical & Chemical Research 分類装置、ならびに、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020290A (ja) * 2011-07-07 2013-01-31 Nippon Telegr & Teleph Corp <Ntt> パターン抽出装置、パターン抽出方法およびパターン抽出プログラム

Also Published As

Publication number Publication date
US20120284215A1 (en) 2012-11-08
JPWO2011058605A1 (ja) 2013-03-28
JP5355708B2 (ja) 2013-11-27
US8943005B2 (en) 2015-01-27

Similar Documents

Publication Publication Date Title
Zhang et al. Adaptive manifold learning
CN101937513B (zh) 信息处理设备、信息处理方法
US20090019044A1 (en) Pattern search apparatus and method thereof
US7836000B2 (en) System and method for training a multi-class support vector machine to select a common subset of features for classifying objects
Zhang et al. Decoupling maxlogit for out-of-distribution detection
Luo et al. Robust metric learning on grassmann manifolds with generalization guarantees
CN111476100A (zh) 基于主成分分析的数据处理方法、装置及存储介质
Liu et al. Discriminant common vectors versus neighbourhood components analysis and Laplacianfaces: A comparative study in small sample size problem
JP5355708B2 (ja) 計量空間学習装置及びパターン認識装置
JP3475886B2 (ja) パターン認識装置及び方法並びに記録媒体
JP2007317185A (ja) スパース線形判別分析(sparselineardiscriminantanalysis)のためのスペクトル法
JP5353482B2 (ja) パターン認識用辞書生成装置、パターン認識装置、及びパターン認識用辞書生成方法
Peng et al. Subspace clustering with active learning
Harikumar et al. A depth-based nearest neighbor algorithmfor high-dimensional data classification
Zhang et al. Compactly supported radial basis function kernels
Esmaeili et al. Transduction with matrix completion using smoothed rank function
Zhang et al. Multi-view unsupervised feature selection with dynamic sample space structure
Chavda Image spam detection
Rahman et al. Using the left gram matrix to cluster high dimensional data
Filisbino et al. Ranking principal components in face spaces through adaboost. m2 linear ensemble
Halldorsson et al. Source based feature extraction for support vector machines in hyperspectral classification
CN113111161B (zh) 一种跨媒体关联分析方法
Kwak et al. Feature extraction for regression problems and an example application for pose estimation of a face
Jiang et al. Dynamically building diversified classifier pruning ensembles via canonical correlation analysis
Sheikhi et al. Supervised Feature Embedding for Classification by Learning Rank-based Neighborhoods

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09851239

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011540335

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13505514

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 09851239

Country of ref document: EP

Kind code of ref document: A1