WO2023188085A1 - 学習装置、学習方法及び記録媒体 - Google Patents
学習装置、学習方法及び記録媒体 Download PDFInfo
- Publication number
- WO2023188085A1 WO2023188085A1 PCT/JP2022/015900 JP2022015900W WO2023188085A1 WO 2023188085 A1 WO2023188085 A1 WO 2023188085A1 JP 2022015900 W JP2022015900 W JP 2022015900W WO 2023188085 A1 WO2023188085 A1 WO 2023188085A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- margin
- learning
- label
- class
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims description 64
- 239000013598 vector Substances 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000000926 separation method Methods 0.000 abstract description 16
- 230000010365 information processing Effects 0.000 description 38
- 230000001815 facial effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる学習装置、学習方法及び記録媒体を提供する。学習装置は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部と、学習に用いる損失関数にマージンを付与するマージン付与部とを有し、マージン付与部は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。
Description
本発明は、学習装置、学習方法及び記録媒体に関する。
非特許文献1-6には、クラス分類のための角度距離学習に用いられる損失関数にマージンを付与することが記載されている。
Hao Wang et al., "CosFace: Large Margin Cosine Loss for Deep Face Recognition", CVPR2018
Jiankang Deng et al., "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", CVPR 2019
Kaidi Cao et al., "Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss", NeurIPS2019
Hao Liu et al., "AdaptiveFace: Adaptive Margin and Sampling for Face Recognition", CVPR2019
Zeju Li et al., "Overfitting of Neural Nets Under Class Imbalance: Analysis and Improvements for Segmentation", MICCAI2019
Zeju Li et al., "Analyzing Overfitting Under Class Imbalance in Neural Networks for Image Segmentation", IEEE MI 2021
しかしながら、非特許文献1、2に記載された手法では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することは困難である。
また、非特許文献3-6では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合においてクラス間の分離性能を上げるような工夫が組み込まれているが、以下に述べる課題がある。
まず、非特許文献3、4では、単ラベル・多クラス分類の最適化を主に想定しており、多ラベルの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献3、4では、単ラベルの問題を想定しているため、多ラベルの時とは想定が異なり、この方法で決定したマージンでは多ラベルの時に公平性指標が必ずしも最大化されない。
また、非特許文献5、6では、フォアグラウンドとバックグランドで分類するセグメンテーションタスクを主に想定しているため、単ラベル又は多ラベルの多クラス分類タスクの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献5、6では、セグメンテーションタスクでforeground=m(mはマージン項)/background=0でマージンをつけるため、公平性指標を最大化するマージン項を多クラスの時に割り振ることがそもそも難しいため、非特許文献の組み合わせのみでは既存の問題の解決が不可能である。
本発明は、上記に述べた課題群を解決しつつ、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる学習装置、学習方法及び記録媒体を提供することを目的とする。
本発明の一つの観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習装置が提供される。
本発明の他の観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習方法が提供される。
本発明のさらに他の観点によれば、コンピュータに、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを実行させるためのプログラムが記録された記録媒体が提供される。
本発明によれば、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。
[第1実施形態]
本発明の第1実施形態による情報処理装置及び情報処理方法について図1乃至図5を用いて説明する。
本発明の第1実施形態による情報処理装置及び情報処理方法について図1乃至図5を用いて説明する。
まず、本実施形態による情報処理装置の構成について図1を用いて説明する。図1は、本実施形態による情報処理装置1の構成を示すブロック図である。本実施形態では、情報処理装置1が、角度を用いた深層距離学習である角度距離学習により、顔画像について多ラベル多クラス分類を行う分類器モデルを学習する学習装置である場合について説明する。多ラベル多クラス分類を行う分類器モデルは、対象の顔画像について、複数のラベルの各ラベルについて複数のクラスへの分類を行うものである。ラベル数は2以上の複数であれば特に限定されるものではなく、クラス数も2以上の複数であれば特に限定されるものではない。
図1に示すように、本実施形態による情報処理装置1は、プロセッサ10と、メモリ20と、ストレージ30と、入力装置40、出力装置50と、インタフェース60とを有している。プロセッサ10、メモリ20、ストレージ30、入力装置40、出力装置50及びインタフェース60は、共通バス70に接続されている。
プロセッサ10は、例えば、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)等のプロセッサである。プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより動作し、情報処理装置1全体の動作を制御する制御部として機能する。また、プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行して情報処理装置1としての各種処理を実行する。
具体的には、情報処理装置1が学習装置として機能する場合、プロセッサ10は、プログラムを実行することにより、後述するように、画像取得部102、特徴抽出部104、分類器学習部106、及びマージン付与部108として機能する。なお、情報処理装置1は、学習装置として機能することにより学習された学習済みの分類器モデルを用いた推定装置としても機能することもできる。この場合、プロセッサ10は、プログラムを実行することにより、第2実施形態で述べるように、画像取得部102、特徴抽出部104及び推定部110として機能する。学習装置として機能する情報処理装置1と推定装置として機能する情報処理装置1とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。学習装置として機能する場合、プロセッサ10は、必ずしも推定部110としての機能することができなくてもよい。推定装置として機能する場合、プロセッサ10は、必ずしも分類器学習部106及びマージン付与部108として機能することができなくてもよい。
メモリ20は、RAM(Random Access Memory)等の揮発性メモリにより構成された主記憶装置である。メモリ20は、プロセッサ10の動作に必要なメモリ領域を提供し、プロセッサ10が実行するプログラム、プロセッサ10が参照するデータ等を一次的に記憶する。
ストレージ30は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)等により構成された補助記憶装置である。ストレージ30は、プロセッサ10が実行するプログラム、プロセッサ10が参照するデータ等を記憶している。
ストレージ30は、学習用の顔画像としてサンプル数Nの複数の顔画像が記憶された学習用データベース(DB、Database)302を記憶している。なお、学習用DB302は、インタフェース60を介して接続可能なサーバ等の外部機器に記憶されていてもよい。
入力装置40は、例えば、キーボード、マウス、タッチパネル等である。入力装置40は、ユーザによる指示、設定値等の入力を受け付ける。入力装置40は、デジタルカメラ等の撮影装置であってもよい。出力装置50は、例えば、ディスプレイ、プリンタ等である。ディスプレイである出力装置50は、プロセッサ10により実行されるプログラムの設定画面、実行画面等の各種画面を表示する。
情報処理装置1は、インタフェース60を介して、外部記憶装置、周辺機器等の外部機器、ネットワーク等に接続される。インタフェース60の接続規格は特に限定されるものではない。また、インタフェース60の接続方式は、有線方式であっても無線方式であってもよい。
こうして、本実施形態による情報処理装置1が構成されている。なお、情報処理装置1は、パーソナルコンピュータ、サーバ等の汎用の計算機であってもよいし、専用に設計された計算機であってもよい。また、情報処理装置1の各機能の一部又は全部は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路により実現することもできる。
次に、本実施形態による情報処理装置1による学習方法について更に図2及び図3を用いて説明する。図2は、本実施形態による情報処理装置1により実行される学習方法を示すフローチャートである。図3は、本実施形態による情報処理装置1により実行される学習方法を示す概略図である。
プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより、画像取得部102、特徴抽出部104、分類器学習部106、及びマージン付与部108として機能する。以下では、顔画像についてAラベルのCクラス分類を行う分類器モデルを学習する場合について説明する。ここで、Aは2以上の整数、Cは2以上の整数である。例えば、分類器モデルは、顔画像について多ラベルの多クラス分類を行って顔属性を判定するモデルである。具体的には、分類器モデルは、例えば顔画像について3クラスの2クラス分類を行うモデルである。例えば、分類器モデルは、「男性」のラベルにつき「男性である」及び「男性でない」の2クラスに、「眼鏡」のラベルにつき「眼鏡がある」及び「眼鏡がない」の2クラスに、「笑顔」のラベルにつき「笑顔である」及び「笑顔でない」の2クラスに分類する。簡単のため、以降の数式ではすべてのラベルでクラス数をCにそろえた場合を考えるが、Cはラベルごとに異なっていてもよい。その場合は、Cは置き換えられてCaとなり、ラベルaごとに異なる2以上の整数になる。
図2及び図3に示すように、画像取得部102は、学習用の顔画像としてサンプル数Nの複数の顔画像が記憶された学習用データベース(DB、Database)302から、バッチサンプル数Bの複数の顔画像を含むミニバッチを取得する(ステップS102)。
次いで、特徴抽出部104は、画像取得部102により取得されたミニバッチに含まれる各顔画像について特徴量を抽出する(ステップS104)。特徴抽出部104は、例えば、学習済みの畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)を用いて顔画像から特徴量を抽出することができる。この場合、特徴抽出部104は、CNNに対する顔画像の入力に対してそのCNNの中間層により出力された中間特徴量であるD次元の特徴ベクトルを顔画像の特徴量として抽出する。特徴抽出部104は、L2正規化により中間特徴量を正規化することができる。中間特徴量の抽出に用いるCNNの中間層は、特に限定されるものではないが、例えばResNet(Kaiming He et al., "Deep Residual Learning for Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778参照)の中間層である。
次いで、分類器学習部106は、各顔画像の特徴量である特徴ベクトルを入力として角度距離学習により分類器モデルの学習を行う。具体的には次のとおりである。
まず、分類器学習部106は、1番目からA番目までのラベルのそれぞれについて、1番目からB番目までの顔画像の特徴ベクトルのそれぞれと、各クラスの代表ベクトルとのコサイン類似度を計算する(ステップS106)。分類器学習部106は、1番目からA番目までのラベルのそれぞれに対応する全結合層FC1~FCAを用いてコサイン類似度を計算することができる。
次いで、分類器学習部106は、算出したコサイン類似度を用いて、1番目からA番目までのラベルのそれぞれについて、Softmax型損出関数によりロスを計算する(ステップS108)。分類器学習部106は、次式(1-1)により表される損失関数によりa番目のラベルについてのロスLaを計算することができる。
式(1-1)中、θa,b,cは、a番目のラベルについての、b番目の顔画像の特徴ベクトルと正解クラスであるc番目のクラスの代表ベクトルとがなす角度である。aは1≦a≦Aを満たす整数である。bは1≦b≦Bを満たす整数である。cは1≦c≦Cを満たす整数である。c′はc′≠cかつ1≦c′≦Cを満たす整数である。3つの総和記号は、式(1-1)の右辺左側から右側に順に、bについての1からBまでの総和、cについての1からCまでの総和、c以外のクラスのc′についての総和を意味する。sは、角度距離学習のハイパーパラメータであり、例えばs=10に設定される。
また、式(1-1)中、ma,c(γa)は、a番目のラベルのc番目のクラスについて定められるマージンであるクラスマージンである。ma,c(γa)は、マージン付与部108により設定される。マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cのコサインに対して減算するようにma,c(γa)を設定して付与する。ロスの計算に際して、マージン付与部108は、次式(2)により計算されるma,c(γa)を設定して損失関数に付与する(ステップS110)。
式(2)中、maは、a番目のラベルについて定められるマージン総量であるラベルマージンである。ただし、maは、必ずしもラベルごとに定められる必要は必ずしもなく、各ラベルに共通の値mを用いることもできる。αa,c(γa)は、a番目のラベルのc番目のクラスのサンプル数に応じてmaを分配するものであり、次式(3)により計算される。なお、αa,c(γa)は、cについて総和を計算すると1になる。
式(3)中、Na,cは、a番目のラベルにおけるc番目のクラスの顔画像のサンプル数の割合を示す。Na,c″は、a番目のラベルにおけるc″番目(c″は1≦c″≦Cを満たす整数)のクラスの顔画像のサンプル数の割合を示す。sは、ハイパーパラメータであり、式(1-1)中のsと同じものを用いることができる。式(3)の右辺分母の総和記号は、1≦c″≦Cを満たすすべての整数についての総和を意味する。γaは、クラスマージンのクラス間の非対称性の強度を調整して決定するパラメータである。γaの値は、正の値でも負の値でもありうるが、例えば0未満の-∞でない所定の値である。
C=2の2クラス分類の場合、次式(2′)により計算されるma,c(γa)を設定することができる。
式(2′)中、αa,c(γa)は次式(3′)により計算される。
なお、分類器学習部106は、式(1-1)に代えて、次式(1-2)又は(1-3)により表される損失関数によりa番目のラベルについてのロスLaを計算することもできる。この場合も、マージン付与部108は、上記と同様にma,c(γa)を設定することができる。
式(1-2)の場合、マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cに対して加算するようにma,c(γa)を設定して付与する。式(1-3)の場合、マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cに対して乗算するようにma,c(γa)を設定して付与する。
また、分類器学習部106は、式(1-1)に代えて、3つのクラスマージンm1、m2、m3が用いられた次式(1-4)により表される損失関数によりa番目のラベルについてのロスLaを計算することもできる。式(1-4)は、式(1-1)、式(1-2)及び式(1-3)を組み合わせたものである。この場合、マージン付与部108は、m1、m2、m3のそれぞれについて、上記のma,c(γa)と同様にして設定することができる。
次いで、分類器学習部106は、各ラベルについて計算されるロスLaが最小化されるように全結合層のパラメータを更新して分類器モデルの学習を行い、全結合層FC1~FCAのパラメータを最適化する(ステップS112)。例えば、分類器学習部106は、次式(4)により計算されるAラベル全部のロスLが最小化されるように分類器モデルの学習を行い、全結合層FC1~FCAのパラメータを最適化することができる。式(4)の右辺の総和記号は、aについての1からAまでの総和を意味する。
なお、プロセッサ10は、ステップS102からステップS112までの処理を繰り返して実行し、複数のミニバッチを用いてミニバッチ学習により分類器モデルの学習を行うことができる。また、プロセッサ10は、学習に用いる複数の顔画像を一括して処理するバッチ学習により分類器モデルの学習を行うこともできるし、学習に用いる複数の顔画像のそれぞれを順次処理するオンライン学習により分類器モデルの学習を行うこともできる。
マージン付与部108は、ユーザから入力装置40等を介して入力されるラベルマージンma及びパラメータγaを設定して付与することができる。ユーザは、ラベルマージンma及びパラメータγaを手動で調整して、分類器モデルの評価指標であるBalanced Accuracy等の公平性指標を最適化することができる。なお、公平性指標としては、任意の指標を用いることができ、F1スコア、マシューズ相関係数(Matthews Correlation Coefficient、MCC)等を用いることもできる。
また、分類器学習部106は、ラベルマージンma及びパラメータγaを手動により調整することに代えて、ラベルマージンma及びパラメータγaを学習可能なパラメータとして学習を行うこともできる。これにより、分類器学習部106は、ラベルマージンma及びパラメータγaを自動で決定することができる。なお、分類器学習部106は、必ずしもラベルマージンma及びパラメータγaの両方を自動で決定する必要はなく、ラベルマージンma及びパラメータγaの少なくとも一方を自動で決定することができる。
ラベルマージンma及びパラメータγaを自動で決定する場合、分類器学習部106は、自明解への収束を回避するため、損失関数に拘束条件を付加することができる(非特許文献4参照)。具体的には、分類器学習部106は、例えば、次式(5)により表される拘束条件Lmを式(4)で表されるロスに付加することができる。
λは、Lmの強度を調整するためのパラメータで、大きくするほどより大きいラベルマージンmaを取るようになる。なお、より厳密には、λはラベルごとに設定することができ、a番目のラベルのλをλaとして式(5)に組み込むこともできる。
なお、ma=mと設定し、maを全ラベル共通の学習可能なパラメータとして学習を行うこともできる。この場合、Lmは、次式(5′)により表される。
分類器学習部106は、上述のように分類器モデルを学習して学習済みの分類器モデルを生成する(ステップS114)。分類器学習部106は、生成した分類器モデルをストレージ30、外部ストレージ等の記憶装置に記憶させることができる。
近年、人種、性別等の属性に性能が依存しない顔認証、すなわち公平な顔認証の重要性が高まっている。公平な認証の確立に向け、顔画像から属性を推定する顔属性推定についても公平な分類器の需要がある。これまで、分類器の分離性能を向上するため、角度距離学習において損失関数にマージンを付与することが行われている。しかしながら、学習に用いるサンプルとして完全にサンプル数が均一なデータセットを用意することは困難であるため、多数派サンプルと少数派サンプルとを含む不均一なデータセットを用いて学習を行わざるをえない。かかる場合に単にマージンを付与するだけでは、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合に、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することは困難である。特に、多ラベル多クラス分類を行う分類器モデルの学習を行う場合には、簡単なラベルの簡単なクラスに偏った学習が行われて公平な学習が阻害されうる。
一方、本実施形態では、ラベルマージンmaとして各ラベルのマージン総量を固定し、非対称性の強度を決定するパラメータγaにより、クラスのサンプルの割合に基づいて、ラベルマージンmaをクラスマージンma,c(γa)に非対称に分配する。
図4A及び図4Bは、それぞれラベルaのクラス0、1にそれぞれ設定されるクラスマージンma,0、ma,1を視覚的に示す図である。図4Aは各クラスに同一のマージンを設定した場合、図4Bは本実施形態により各クラスに非対称にマージンを設定した場合を示している。W0、W1はそれぞれクラス0、1の代表ベクトルである。xbは顔画像のサンプルbから抽出された特徴ベクトルである。図4Bに示すように、本実施形態では、ラベルマージンmaが固定され、ラベルマージンmaが非対称に分配されたクラスマージンma,0、ma,1が設定される。図4Bでは、クラス1が少数派の場合、クラス0よりもクラス1についてより大きなクラスマージンが付与されるため、クラス内でコンパクトに学習することが促進される。
このように、本実施形態では、ラベルマージンmaをクラスマージンma,c(γa)に非対称に分配する。これにより、本実施形態では、ロスに明示的には現れないBalanced Accuracy等の公平性に関する指標であっても最大化されるように分類器モデルを学習することが可能になる。
また、本実施形態においてラベルマージンma及びパラメータγaを自動で決定する際、式(5)に示すように、クラスマージンの非対称性を決定する成分が拘束条件Lmから切り離されている。このため、本実施形態では、ラベルのマージン総量が上限に達したとしても、ラベル内部のクラスのマージン量の非対称性は別に決定されるため、公平性を損なわない学習を多ラベルの形式であっても実現することができる。本実施形態による手法は、クラスマージンの非対称性を決定する成分が拘束条件Lmから切り離されている点が非特許文献4と異なる。
図5は、本実施形態により自動で決定されるクラスマージンの非対称性を模式的に示す図である。図5では、ラベル1~15のそれぞれについて2クラスのクラス0、1のクラスマージンm0、m1をラベルマージンmaとともに示している。図示するように、クラスマージンm0、m1は、ラベルマージンmaが非対称に分配されて非対称に決定される。
以上より、本実施形態によれば、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる。
[第2実施形態]
本発明の第2実施形態による情報処理装置及び情報処理方法について図6及び図7を用いて説明する。図6は、本実施形態による情報処理装置により実行される推定方法を示す概略図である。図7は、本実施形態による情報処理装置により実行される推定方法を示すフローチャートである。
本発明の第2実施形態による情報処理装置及び情報処理方法について図6及び図7を用いて説明する。図6は、本実施形態による情報処理装置により実行される推定方法を示す概略図である。図7は、本実施形態による情報処理装置により実行される推定方法を示すフローチャートである。
本実施形態では、図1に示す情報処理装置1が、第1実施形態により学習した学習済みの分類器モデルを用いて顔画像のクラスを推定して分類する推定装置として機能する場合について説明する。なお、学習装置として機能する情報処理装置1と推定装置として機能する情報処理装置1とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。推定装置として機能する情報処理装置1は、学習装置としての機能を有していなくてもよい。
プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより、画像取得部102、特徴抽出部104及び推定部110として機能する。
図6及び図7に示すように、画像取得部102は、推定対象の顔画像を取得する(ステップS202)。画像取得部102は、予めストレージ30に記憶された推定対象の顔画像をストレージ30から取得することもできるし、インタフェース60を介して外部機器から推定対象の顔画像を取得することもできる。また、画像取得部102は、撮影装置である入力装置40により推定対象の顔画像を取得することもできる。
次いで、徴抽出部104は、画像取得部102により取得された推定対象の顔画像について、第1実施形態と同様にCNNを用いて特徴量を抽出する(ステップS204)。
次いで、推定部110は、第1実施形態による情報処理装置1により学習された学習済みの分類器モデルを用いて、推定対象の顔画像について各ラベルのクラスを推定して分類する(ステップS206)。すなわち、推定部110は、学習済みの全結合層FC1~FCAを用いてコサイン類似度を計算する。次いで、推定部110は、Softmax型関数を出力層としてコサイン類似度から分類スコアとして各クラスの分類値を計算する。
こうして、情報処理装置1は、推定対象の顔画像について各ラベルのクラスを推定して分類する。
[第3実施形態]
上記実施形態において説明した情報処理装置が機能する学習装置は、第3実施形態によれば、図8に示すように構成することもできる。図8は、本実施形態による学習装置の構成を示すブロック図である。
上記実施形態において説明した情報処理装置が機能する学習装置は、第3実施形態によれば、図8に示すように構成することもできる。図8は、本実施形態による学習装置の構成を示すブロック図である。
図8に示すように、本実施形態による学習装置1000は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置である。学習装置1000は、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部1002と、学習に用いる損失関数にマージンを付与するマージン付与部1004とを有する。マージン付与部1004は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。
本実施形態による学習装置1000では、複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。したがって、他の実施形態による学習装置1000によれば、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。
[変形実施形態]
本発明は、上記実施形態に限らず、種々の変形が可能である。
本発明は、上記実施形態に限らず、種々の変形が可能である。
例えば、上記実施形態では、顔画像について多ラベル多クラス分類を行う場合について説明したが、これに限定されるものではない。多ラベル多クラス分類を行う画像は、1つ又は複数の物体を含む画像である物体画像であってもよい。この場合、画像中に認識された1つ又は複数の物体について、多ラベル多クラス分類を行うことができる。
また、上記実施形態では、多ラベル多クラス分類を行う分類器モデルを学習する場合について説明したが、これに限定されるものではない。学習を行う分類器モデルは、顔画像等の画像について単一のラベルである単ラベルの多クラス分類を行うものであってもよい。
また、上記実施形態では、損失関数としてSoftmax型損出関数を用いる場合について説明したが、これに限定されるものではない。損失関数としては推定の対象等に応じて種々の関数を選択することができ、上記と同様にして損失関数にマージンを付与することができる。損失関数としては、Softmax型損出関数や交差エントロピー誤差のほか、平均二乗誤差、平均絶対誤差等を用いることもできる。
上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード等を用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習装置。
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習装置。
(付記2)
前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
ことを特徴とする付記1に記載の学習装置。
前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
ことを特徴とする付記1に記載の学習装置。
(付記3)
前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
ことを特徴とする付記1又は2に記載の学習装置。
前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
ことを特徴とする付記1又は2に記載の学習装置。
(付記4)
前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
ことを特徴とする付記1乃至3のいずれかに記載の学習装置。
前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
ことを特徴とする付記1乃至3のいずれかに記載の学習装置。
(付記5)
前記マージン付与部は、次式(1)により計算される前記クラスマージンを前記損失関数に付与する
ことを特徴とする付記1乃至4のいずれかに記載の学習装置。
前記マージン付与部は、次式(1)により計算される前記クラスマージンを前記損失関数に付与する
ことを特徴とする付記1乃至4のいずれかに記載の学習装置。
(付記6)
前記学習部は、前記ma及び前記γaの少なくとも一方を自動で決定する
ことを特徴とする付記5記載の学習装置。
前記学習部は、前記ma及び前記γaの少なくとも一方を自動で決定する
ことを特徴とする付記5記載の学習装置。
(付記7)
前記損失関数は、Softmax型の損失関数である
ことを特徴とする付記1乃至6のいずれかに記載の学習装置。
前記損失関数は、Softmax型の損失関数である
ことを特徴とする付記1乃至6のいずれかに記載の学習装置。
(付記8)
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
(付記9)
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
(付記10)
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
ことを特徴とする付記7記載の学習装置。
(付記11)
畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
ことを特徴とする付記1乃至10のいずれかに記載の学習装置。
畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
ことを特徴とする付記1乃至10のいずれかに記載の学習装置。
(付記12)
前記画像は顔画像である
ことを特徴とする付記1乃至11のいずれかに記載の学習装置。
前記画像は顔画像である
ことを特徴とする付記1乃至11のいずれかに記載の学習装置。
(付記13)
画像を取得する画像取得部と、
付記1乃至12のいずれかに記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
を有することを特徴とする推定装置。
画像を取得する画像取得部と、
付記1乃至12のいずれかに記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
を有することを特徴とする推定装置。
(付記14)
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習方法。
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習方法。
(付記15)
コンピュータに、
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを実行させるためのプログラムが記録された記録媒体。
コンピュータに、
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを実行させるためのプログラムが記録された記録媒体。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1…情報処理装置
10…プロセッサ
20…メモリ
30…ストレージ
40…入力装置
50…出力装置
60…インタフェース
70…共通バス
102…画像取得部
104…特徴抽出部
106…分類器学習部
108…マージン付与部
110…推定部
1000…学習装置
1002…学習部
1004…マージン付与部
10…プロセッサ
20…メモリ
30…ストレージ
40…入力装置
50…出力装置
60…インタフェース
70…共通バス
102…画像取得部
104…特徴抽出部
106…分類器学習部
108…マージン付与部
110…推定部
1000…学習装置
1002…学習部
1004…マージン付与部
Claims (15)
- 画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習装置。 - 前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
ことを特徴とする請求項1に記載の学習装置。 - 前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
ことを特徴とする請求項1又は2に記載の学習装置。 - 前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
ことを特徴とする請求項1乃至3のいずれか1項に記載の学習装置。 - 前記マージン付与部は、次式(1)により計算される前記クラスマージンを前記損失関数に付与する
ことを特徴とする請求項1乃至4のいずれか1項に記載の学習装置。
- 前記学習部は、前記ma及び前記γaの少なくとも一方を自動で決定する
ことを特徴とする請求項5記載の学習装置。 - 前記損失関数は、Softmax型の損失関数である
ことを特徴とする請求項1乃至6のいずれか1項に記載の学習装置。 - 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
ことを特徴とする請求項7記載の学習装置。 - 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
ことを特徴とする請求項7記載の学習装置。 - 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
ことを特徴とする請求項7記載の学習装置。 - 畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
ことを特徴とする請求項1乃至10のいずれか1項に記載の学習装置。 - 前記画像は顔画像である
ことを特徴とする請求項1乃至11のいずれか1項に記載の学習装置。 - 画像を取得する画像取得部と、
請求項1乃至12のいずれか1項に記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
を有することを特徴とする推定装置。 - 画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを特徴とする学習方法。 - コンピュータに、
画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
前記学習に用いる損失関数にマージンを付与し、
前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
ことを実行させるためのプログラムが記録された記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/015900 WO2023188085A1 (ja) | 2022-03-30 | 2022-03-30 | 学習装置、学習方法及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/015900 WO2023188085A1 (ja) | 2022-03-30 | 2022-03-30 | 学習装置、学習方法及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023188085A1 true WO2023188085A1 (ja) | 2023-10-05 |
Family
ID=88200178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/015900 WO2023188085A1 (ja) | 2022-03-30 | 2022-03-30 | 学習装置、学習方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023188085A1 (ja) |
-
2022
- 2022-03-30 WO PCT/JP2022/015900 patent/WO2023188085A1/ja unknown
Non-Patent Citations (2)
Title |
---|
LI ZEJU; KAMNITSAS KONSTANTINOS; GLOCKER BEN: "Analyzing Overfitting Under Class Imbalance in Neural Networks for Image Segmentation", IEEE TRANSACTIONS ON MEDICAL IMAGING, IEEE, USA, vol. 40, no. 3, 22 December 2020 (2020-12-22), USA, pages 1065 - 1077, XP011840891, ISSN: 0278-0062, DOI: 10.1109/TMI.2020.3046692 * |
LIU HAO; ZHU XIANGYU; LEI ZHEN; LI STAN Z.: "AdaptiveFace: Adaptive Margin and Sampling for Face Recognition", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 11939 - 11948, XP033687082, DOI: 10.1109/CVPR.2019.01222 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Variational deep embedding: An unsupervised and generative approach to clustering | |
CN108132968B (zh) | 网络文本与图像中关联语义基元的弱监督学习方法 | |
Fiaschi et al. | Learning to count with regression forest and structured labels | |
Kim et al. | Color–texture segmentation using unsupervised graph cuts | |
WO2023125654A1 (zh) | 人脸识别模型的训练方法、装置、电子设备及存储介质 | |
CN110414299B (zh) | 一种基于计算机视觉的猴脸亲缘关系分析方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
Dehshibi et al. | Cubic norm and kernel-based bi-directional PCA: toward age-aware facial kinship verification | |
WO2022088390A1 (zh) | 图像的增量聚类方法、装置、电子设备、存储介质及程序产品 | |
Dawson et al. | From same photo: Cheating on visual kinship challenges | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
JP5214679B2 (ja) | 学習装置、方法及びプログラム | |
Ali et al. | Biometricnet: deep unconstrained face verification through learning of metrics regularized onto gaussian distributions | |
Patel et al. | Dictionaries for image and video-based face recognition | |
Sisodia et al. | Fast and accurate face recognition using SVM and DCT | |
WO2011096010A1 (ja) | パターン認識装置 | |
Jadhav et al. | HDL-PI: hybrid DeepLearning technique for person identification using multimodal finger print, iris and face biometric features | |
Islam et al. | Large-scale geo-facial image analysis | |
CN110287973B (zh) | 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法 | |
WO2023188085A1 (ja) | 学習装置、学習方法及び記録媒体 | |
Siripibal et al. | A comparative study of object recognition techniques: Softmax, linear and quadratic discriminant analysis based on convolutional neural network feature extraction | |
Pan et al. | Incrementally detecting moving objects in video with sparsity and connectivity | |
Khedher et al. | Local sparse representation based interest point matching for person re-identification | |
Neto et al. | PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single-and Multi-Biometric Face Recognition | |
Li et al. | Person re-identification using salient region matching game |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22935231 Country of ref document: EP Kind code of ref document: A1 |