WO2023188085A1

WO2023188085A1 - 学習装置、学習方法及び記録媒体

Info

Publication number: WO2023188085A1
Application number: PCT/JP2022/015900
Authority: WO
Inventors: 正志宇佐見; 巧一高橋
Original assignee: 日本電気株式会社
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-10-05

Abstract

単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる学習装置、学習方法及び記録媒体を提供する。学習装置は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部と、学習に用いる損失関数にマージンを付与するマージン付与部とを有し、マージン付与部は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。

Description

学習装置、学習方法及び記録媒体

　本発明は、学習装置、学習方法及び記録媒体に関する。

　非特許文献１－６には、クラス分類のための角度距離学習に用いられる損失関数にマージンを付与することが記載されている。

Hao Wang et al., "CosFace: Large Margin Cosine Loss for Deep Face Recognition", CVPR2018 Jiankang Deng et al., "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", CVPR 2019 Kaidi Cao et al., "Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss", NeurIPS2019 Hao Liu et al., "AdaptiveFace: Adaptive Margin and Sampling for Face Recognition", CVPR2019 Zeju Li et al., "Overfitting of Neural Nets Under Class Imbalance: Analysis and Improvements for Segmentation", MICCAI2019 Zeju Li et al., "Analyzing Overfitting Under Class Imbalance in Neural Networks for Image Segmentation", IEEE MI 2021

　しかしながら、非特許文献１、２に記載された手法では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することは困難である。

　また、非特許文献３－６では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合においてクラス間の分離性能を上げるような工夫が組み込まれているが、以下に述べる課題がある。

　まず、非特許文献３、４では、単ラベル・多クラス分類の最適化を主に想定しており、多ラベルの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献３、４では、単ラベルの問題を想定しているため、多ラベルの時とは想定が異なり、この方法で決定したマージンでは多ラベルの時に公平性指標が必ずしも最大化されない。

　また、非特許文献５、６では、フォアグラウンドとバックグランドで分類するセグメンテーションタスクを主に想定しているため、単ラベル又は多ラベルの多クラス分類タスクの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献５、６では、セグメンテーションタスクでforeground=m（mはマージン項）/background=0でマージンをつけるため、公平性指標を最大化するマージン項を多クラスの時に割り振ることがそもそも難しいため、非特許文献の組み合わせのみでは既存の問題の解決が不可能である。

　本発明は、上記に述べた課題群を解決しつつ、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる学習装置、学習方法及び記録媒体を提供することを目的とする。

　本発明の一つの観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習装置が提供される。

　本発明の他の観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習方法が提供される。

　本発明のさらに他の観点によれば、コンピュータに、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを実行させるためのプログラムが記録された記録媒体が提供される。

　本発明によれば、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。

本発明の第１実施形態による情報処理装置の構成を示すブロック図である。本発明の第１実施形態による情報処理装置により実行される学習方法を示す概略図である。本発明の第１実施形態による情報処理装置により実行される学習方法を示すフローチャートである。損失関数に付与されるマージンを説明する図である。損失関数に付与されるマージンを説明する図である。本発明の第１実施形態による情報処理装置において自動で決定されるクラスマージンの非対称性を模式的に示す図である。本発明の第２実施形態による情報処理装置により実行される推定方法を示す概略図である。本発明の第２実施形態による情報処理装置により実行される推定方法を示すフローチャートである。本発明の第３実施形態による情報処理装置の構成を示すブロック図である。

　［第１実施形態］
　本発明の第１実施形態による情報処理装置及び情報処理方法について図１乃至図５を用いて説明する。

　まず、本実施形態による情報処理装置の構成について図１を用いて説明する。図１は、本実施形態による情報処理装置１の構成を示すブロック図である。本実施形態では、情報処理装置１が、角度を用いた深層距離学習である角度距離学習により、顔画像について多ラベル多クラス分類を行う分類器モデルを学習する学習装置である場合について説明する。多ラベル多クラス分類を行う分類器モデルは、対象の顔画像について、複数のラベルの各ラベルについて複数のクラスへの分類を行うものである。ラベル数は２以上の複数であれば特に限定されるものではなく、クラス数も２以上の複数であれば特に限定されるものではない。

　図１に示すように、本実施形態による情報処理装置１は、プロセッサ１０と、メモリ２０と、ストレージ３０と、入力装置４０、出力装置５０と、インタフェース６０とを有している。プロセッサ１０、メモリ２０、ストレージ３０、入力装置４０、出力装置５０及びインタフェース６０は、共通バス７０に接続されている。

　プロセッサ１０は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）等のプロセッサである。プロセッサ１０は、ストレージ３０に記憶されたプログラム又はインタフェース６０を介して外部のプログラムを実行することにより動作し、情報処理装置１全体の動作を制御する制御部として機能する。また、プロセッサ１０は、ストレージ３０に記憶されたプログラム又はインタフェース６０を介して外部のプログラムを実行して情報処理装置１としての各種処理を実行する。

　具体的には、情報処理装置１が学習装置として機能する場合、プロセッサ１０は、プログラムを実行することにより、後述するように、画像取得部１０２、特徴抽出部１０４、分類器学習部１０６、及びマージン付与部１０８として機能する。なお、情報処理装置１は、学習装置として機能することにより学習された学習済みの分類器モデルを用いた推定装置としても機能することもできる。この場合、プロセッサ１０は、プログラムを実行することにより、第２実施形態で述べるように、画像取得部１０２、特徴抽出部１０４及び推定部１１０として機能する。学習装置として機能する情報処理装置１と推定装置として機能する情報処理装置１とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。学習装置として機能する場合、プロセッサ１０は、必ずしも推定部１１０としての機能することができなくてもよい。推定装置として機能する場合、プロセッサ１０は、必ずしも分類器学習部１０６及びマージン付与部１０８として機能することができなくてもよい。

　メモリ２０は、ＲＡＭ（Random Access Memory）等の揮発性メモリにより構成された主記憶装置である。メモリ２０は、プロセッサ１０の動作に必要なメモリ領域を提供し、プロセッサ１０が実行するプログラム、プロセッサ１０が参照するデータ等を一次的に記憶する。

　ストレージ３０は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）等により構成された補助記憶装置である。ストレージ３０は、プロセッサ１０が実行するプログラム、プロセッサ１０が参照するデータ等を記憶している。

　ストレージ３０は、学習用の顔画像としてサンプル数Ｎの複数の顔画像が記憶された学習用データベース（ＤＢ、Database）３０２を記憶している。なお、学習用ＤＢ３０２は、インタフェース６０を介して接続可能なサーバ等の外部機器に記憶されていてもよい。

　入力装置４０は、例えば、キーボード、マウス、タッチパネル等である。入力装置４０は、ユーザによる指示、設定値等の入力を受け付ける。入力装置４０は、デジタルカメラ等の撮影装置であってもよい。出力装置５０は、例えば、ディスプレイ、プリンタ等である。ディスプレイである出力装置５０は、プロセッサ１０により実行されるプログラムの設定画面、実行画面等の各種画面を表示する。

　情報処理装置１は、インタフェース６０を介して、外部記憶装置、周辺機器等の外部機器、ネットワーク等に接続される。インタフェース６０の接続規格は特に限定されるものではない。また、インタフェース６０の接続方式は、有線方式であっても無線方式であってもよい。

　こうして、本実施形態による情報処理装置１が構成されている。なお、情報処理装置１は、パーソナルコンピュータ、サーバ等の汎用の計算機であってもよいし、専用に設計された計算機であってもよい。また、情報処理装置１の各機能の一部又は全部は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現することもできる。

　次に、本実施形態による情報処理装置１による学習方法について更に図２及び図３を用いて説明する。図２は、本実施形態による情報処理装置１により実行される学習方法を示すフローチャートである。図３は、本実施形態による情報処理装置１により実行される学習方法を示す概略図である。

　プロセッサ１０は、ストレージ３０に記憶されたプログラム又はインタフェース６０を介して外部のプログラムを実行することにより、画像取得部１０２、特徴抽出部１０４、分類器学習部１０６、及びマージン付与部１０８として機能する。以下では、顔画像についてＡラベルのＣクラス分類を行う分類器モデルを学習する場合について説明する。ここで、Ａは２以上の整数、Ｃは２以上の整数である。例えば、分類器モデルは、顔画像について多ラベルの多クラス分類を行って顔属性を判定するモデルである。具体的には、分類器モデルは、例えば顔画像について３クラスの２クラス分類を行うモデルである。例えば、分類器モデルは、「男性」のラベルにつき「男性である」及び「男性でない」の２クラスに、「眼鏡」のラベルにつき「眼鏡がある」及び「眼鏡がない」の２クラスに、「笑顔」のラベルにつき「笑顔である」及び「笑顔でない」の２クラスに分類する。簡単のため、以降の数式ではすべてのラベルでクラス数をＣにそろえた場合を考えるが、Ｃはラベルごとに異なっていてもよい。その場合は、Ｃは置き換えられてＣ_ａとなり、ラベルａごとに異なる２以上の整数になる。

　図２及び図３に示すように、画像取得部１０２は、学習用の顔画像としてサンプル数Ｎの複数の顔画像が記憶された学習用データベース（ＤＢ、Database）３０２から、バッチサンプル数Ｂの複数の顔画像を含むミニバッチを取得する（ステップＳ１０２）。

　次いで、特徴抽出部１０４は、画像取得部１０２により取得されたミニバッチに含まれる各顔画像について特徴量を抽出する（ステップＳ１０４）。特徴抽出部１０４は、例えば、学習済みの畳み込みニューラルネットワーク（ＣＮＮ、Convolutional Neural Network）を用いて顔画像から特徴量を抽出することができる。この場合、特徴抽出部１０４は、ＣＮＮに対する顔画像の入力に対してそのＣＮＮの中間層により出力された中間特徴量であるＤ次元の特徴ベクトルを顔画像の特徴量として抽出する。特徴抽出部１０４は、Ｌ２正規化により中間特徴量を正規化することができる。中間特徴量の抽出に用いるＣＮＮの中間層は、特に限定されるものではないが、例えばＲｅｓＮｅｔ（Kaiming He et al., "Deep Residual Learning for Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778参照）の中間層である。

　次いで、分類器学習部１０６は、各顔画像の特徴量である特徴ベクトルを入力として角度距離学習により分類器モデルの学習を行う。具体的には次のとおりである。

　まず、分類器学習部１０６は、１番目からＡ番目までのラベルのそれぞれについて、１番目からＢ番目までの顔画像の特徴ベクトルのそれぞれと、各クラスの代表ベクトルとのコサイン類似度を計算する（ステップＳ１０６）。分類器学習部１０６は、１番目からＡ番目までのラベルのそれぞれに対応する全結合層ＦＣ_１～ＦＣ_Ａを用いてコサイン類似度を計算することができる。

　次いで、分類器学習部１０６は、算出したコサイン類似度を用いて、１番目からＡ番目までのラベルのそれぞれについて、Ｓｏｆｔｍａｘ型損出関数によりロスを計算する（ステップＳ１０８）。分類器学習部１０６は、次式（１－１）により表される損失関数によりａ番目のラベルについてのロスＬ_ａを計算することができる。

　式（１－１）中、θ_{ａ，ｂ，ｃ}は、ａ番目のラベルについての、ｂ番目の顔画像の特徴ベクトルと正解クラスであるｃ番目のクラスの代表ベクトルとがなす角度である。ａは１≦ａ≦Ａを満たす整数である。ｂは１≦ｂ≦Ｂを満たす整数である。ｃは１≦ｃ≦Ｃを満たす整数である。ｃ′はｃ′≠ｃかつ１≦ｃ′≦Ｃを満たす整数である。３つの総和記号は、式（１－１）の右辺左側から右側に順に、ｂについての１からＢまでの総和、ｃについての１からＣまでの総和、ｃ以外のクラスのｃ′についての総和を意味する。ｓは、角度距離学習のハイパーパラメータであり、例えばｓ＝１０に設定される。

　また、式（１－１）中、ｍ_ａ，ｃ（γ_ａ）は、ａ番目のラベルのｃ番目のクラスについて定められるマージンであるクラスマージンである。ｍ_ａ，ｃ（γ_ａ）は、マージン付与部１０８により設定される。マージン付与部１０８は、Ｓｏｆｔｍａｘ型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θ_{ａ，ｂ，ｃ}のコサインに対して減算するようにｍ_ａ，ｃ（γ_ａ）を設定して付与する。ロスの計算に際して、マージン付与部１０８は、次式（２）により計算されるｍ_ａ，ｃ（γ_ａ）を設定して損失関数に付与する（ステップＳ１１０）。

　式（２）中、ｍ_ａは、ａ番目のラベルについて定められるマージン総量であるラベルマージンである。ただし、ｍ_ａは、必ずしもラベルごとに定められる必要は必ずしもなく、各ラベルに共通の値ｍを用いることもできる。α_ａ，ｃ（γ_ａ）は、ａ番目のラベルのｃ番目のクラスのサンプル数に応じてｍ_ａを分配するものであり、次式（３）により計算される。なお、α_ａ，ｃ（γ_ａ）は、ｃについて総和を計算すると１になる。

　式（３）中、Ｎ_ａ，ｃは、ａ番目のラベルにおけるｃ番目のクラスの顔画像のサンプル数の割合を示す。Ｎ_ａ，ｃ″は、ａ番目のラベルにおけるｃ″番目（ｃ″は１≦ｃ″≦Ｃを満たす整数）のクラスの顔画像のサンプル数の割合を示す。ｓは、ハイパーパラメータであり、式（１－１）中のｓと同じものを用いることができる。式（３）の右辺分母の総和記号は、１≦ｃ″≦Ｃを満たすすべての整数についての総和を意味する。γ_ａは、クラスマージンのクラス間の非対称性の強度を調整して決定するパラメータである。γ_ａの値は、正の値でも負の値でもありうるが、例えば０未満の－∞でない所定の値である。

　Ｃ＝２の２クラス分類の場合、次式（２′）により計算されるｍ_ａ，ｃ（γ_ａ）を設定することができる。

　式（２′）中、α_ａ，ｃ（γ_ａ）は次式（３′）により計算される。

　なお、分類器学習部１０６は、式（１－１）に代えて、次式（１－２）又は（１－３）により表される損失関数によりａ番目のラベルについてのロスＬ_ａを計算することもできる。この場合も、マージン付与部１０８は、上記と同様にｍ_ａ，ｃ（γ_ａ）を設定することができる。

　式（１－２）の場合、マージン付与部１０８は、Ｓｏｆｔｍａｘ型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θ_{ａ，ｂ，ｃ}に対して加算するようにｍ_ａ，ｃ（γ_ａ）を設定して付与する。式（１－３）の場合、マージン付与部１０８は、Ｓｏｆｔｍａｘ型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θ_{ａ，ｂ，ｃ}に対して乗算するようにｍ_ａ，ｃ（γ_ａ）を設定して付与する。

　また、分類器学習部１０６は、式（１－１）に代えて、３つのクラスマージンｍ_１、ｍ_２、ｍ_３が用いられた次式（１－４）により表される損失関数によりａ番目のラベルについてのロスＬ_ａを計算することもできる。式（１－４）は、式（１－１）、式（１－２）及び式（１－３）を組み合わせたものである。この場合、マージン付与部１０８は、ｍ_１、ｍ_２、ｍ_３のそれぞれについて、上記のｍ_ａ，ｃ（γ_ａ）と同様にして設定することができる。

　次いで、分類器学習部１０６は、各ラベルについて計算されるロスＬ_ａが最小化されるように全結合層のパラメータを更新して分類器モデルの学習を行い、全結合層ＦＣ_１～ＦＣ_Ａのパラメータを最適化する（ステップＳ１１２）。例えば、分類器学習部１０６は、次式（４）により計算されるＡラベル全部のロスＬが最小化されるように分類器モデルの学習を行い、全結合層ＦＣ_１～ＦＣ_Ａのパラメータを最適化することができる。式（４）の右辺の総和記号は、ａについての１からＡまでの総和を意味する。

　なお、プロセッサ１０は、ステップＳ１０２からステップＳ１１２までの処理を繰り返して実行し、複数のミニバッチを用いてミニバッチ学習により分類器モデルの学習を行うことができる。また、プロセッサ１０は、学習に用いる複数の顔画像を一括して処理するバッチ学習により分類器モデルの学習を行うこともできるし、学習に用いる複数の顔画像のそれぞれを順次処理するオンライン学習により分類器モデルの学習を行うこともできる。

　マージン付与部１０８は、ユーザから入力装置４０等を介して入力されるラベルマージンｍ_ａ及びパラメータγ_ａを設定して付与することができる。ユーザは、ラベルマージンｍ_ａ及びパラメータγ_ａを手動で調整して、分類器モデルの評価指標であるBalanced Accuracy等の公平性指標を最適化することができる。なお、公平性指標としては、任意の指標を用いることができ、Ｆ１スコア、マシューズ相関係数（Matthews Correlation Coefficient、ＭＣＣ）等を用いることもできる。

　また、分類器学習部１０６は、ラベルマージンｍ_ａ及びパラメータγ_ａを手動により調整することに代えて、ラベルマージンｍ_ａ及びパラメータγ_ａを学習可能なパラメータとして学習を行うこともできる。これにより、分類器学習部１０６は、ラベルマージンｍ_ａ及びパラメータγ_ａを自動で決定することができる。なお、分類器学習部１０６は、必ずしもラベルマージンｍ_ａ及びパラメータγ_ａの両方を自動で決定する必要はなく、ラベルマージンｍ_ａ及びパラメータγ_ａの少なくとも一方を自動で決定することができる。

　ラベルマージンｍ_ａ及びパラメータγ_ａを自動で決定する場合、分類器学習部１０６は、自明解への収束を回避するため、損失関数に拘束条件を付加することができる（非特許文献４参照）。具体的には、分類器学習部１０６は、例えば、次式（５）により表される拘束条件Ｌ_ｍを式（４）で表されるロスに付加することができる。

　λは、Ｌ_ｍの強度を調整するためのパラメータで、大きくするほどより大きいラベルマージンｍ_ａを取るようになる。なお、より厳密には、λはラベルごとに設定することができ、ａ番目のラベルのλをλ_ａとして式（５）に組み込むこともできる。

　なお、ｍ_ａ＝ｍと設定し、ｍ_ａを全ラベル共通の学習可能なパラメータとして学習を行うこともできる。この場合、Ｌ_ｍは、次式（５′）により表される。

　分類器学習部１０６は、上述のように分類器モデルを学習して学習済みの分類器モデルを生成する（ステップＳ１１４）。分類器学習部１０６は、生成した分類器モデルをストレージ３０、外部ストレージ等の記憶装置に記憶させることができる。

　近年、人種、性別等の属性に性能が依存しない顔認証、すなわち公平な顔認証の重要性が高まっている。公平な認証の確立に向け、顔画像から属性を推定する顔属性推定についても公平な分類器の需要がある。これまで、分類器の分離性能を向上するため、角度距離学習において損失関数にマージンを付与することが行われている。しかしながら、学習に用いるサンプルとして完全にサンプル数が均一なデータセットを用意することは困難であるため、多数派サンプルと少数派サンプルとを含む不均一なデータセットを用いて学習を行わざるをえない。かかる場合に単にマージンを付与するだけでは、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合に、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することは困難である。特に、多ラベル多クラス分類を行う分類器モデルの学習を行う場合には、簡単なラベルの簡単なクラスに偏った学習が行われて公平な学習が阻害されうる。

　一方、本実施形態では、ラベルマージンｍ_ａとして各ラベルのマージン総量を固定し、非対称性の強度を決定するパラメータγ_ａにより、クラスのサンプルの割合に基づいて、ラベルマージンｍ_ａをクラスマージンｍ_ａ，ｃ（γ_ａ）に非対称に分配する。

　図４Ａ及び図４Ｂは、それぞれラベルａのクラス０、１にそれぞれ設定されるクラスマージンｍ_ａ，０、ｍ_ａ，１を視覚的に示す図である。図４Ａは各クラスに同一のマージンを設定した場合、図４Ｂは本実施形態により各クラスに非対称にマージンを設定した場合を示している。Ｗ_０、Ｗ_１はそれぞれクラス０、１の代表ベクトルである。ｘ_ｂは顔画像のサンプルｂから抽出された特徴ベクトルである。図４Ｂに示すように、本実施形態では、ラベルマージンｍ_ａが固定され、ラベルマージンｍ_ａが非対称に分配されたクラスマージンｍ_ａ，０、ｍ_ａ，１が設定される。図４Ｂでは、クラス１が少数派の場合、クラス０よりもクラス１についてより大きなクラスマージンが付与されるため、クラス内でコンパクトに学習することが促進される。

　このように、本実施形態では、ラベルマージンｍ_ａをクラスマージンｍ_ａ，ｃ（γ_ａ）に非対称に分配する。これにより、本実施形態では、ロスに明示的には現れないBalanced Accuracy等の公平性に関する指標であっても最大化されるように分類器モデルを学習することが可能になる。

　また、本実施形態においてラベルマージンｍ_ａ及びパラメータγ_ａを自動で決定する際、式（５）に示すように、クラスマージンの非対称性を決定する成分が拘束条件Ｌ_ｍから切り離されている。このため、本実施形態では、ラベルのマージン総量が上限に達したとしても、ラベル内部のクラスのマージン量の非対称性は別に決定されるため、公平性を損なわない学習を多ラベルの形式であっても実現することができる。本実施形態による手法は、クラスマージンの非対称性を決定する成分が拘束条件Ｌ_ｍから切り離されている点が非特許文献４と異なる。

　図５は、本実施形態により自動で決定されるクラスマージンの非対称性を模式的に示す図である。図５では、ラベル１～１５のそれぞれについて２クラスのクラス０、１のクラスマージンｍ_０、ｍ_１をラベルマージンｍ_ａとともに示している。図示するように、クラスマージンｍ_０、ｍ_１は、ラベルマージンｍ_ａが非対称に分配されて非対称に決定される。

　以上より、本実施形態によれば、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる。

　［第２実施形態］
　本発明の第２実施形態による情報処理装置及び情報処理方法について図６及び図７を用いて説明する。図６は、本実施形態による情報処理装置により実行される推定方法を示す概略図である。図７は、本実施形態による情報処理装置により実行される推定方法を示すフローチャートである。

　本実施形態では、図１に示す情報処理装置１が、第１実施形態により学習した学習済みの分類器モデルを用いて顔画像のクラスを推定して分類する推定装置として機能する場合について説明する。なお、学習装置として機能する情報処理装置１と推定装置として機能する情報処理装置１とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。推定装置として機能する情報処理装置１は、学習装置としての機能を有していなくてもよい。

　プロセッサ１０は、ストレージ３０に記憶されたプログラム又はインタフェース６０を介して外部のプログラムを実行することにより、画像取得部１０２、特徴抽出部１０４及び推定部１１０として機能する。

　図６及び図７に示すように、画像取得部１０２は、推定対象の顔画像を取得する（ステップＳ２０２）。画像取得部１０２は、予めストレージ３０に記憶された推定対象の顔画像をストレージ３０から取得することもできるし、インタフェース６０を介して外部機器から推定対象の顔画像を取得することもできる。また、画像取得部１０２は、撮影装置である入力装置４０により推定対象の顔画像を取得することもできる。

　次いで、徴抽出部１０４は、画像取得部１０２により取得された推定対象の顔画像について、第１実施形態と同様にＣＮＮを用いて特徴量を抽出する（ステップＳ２０４）。

　次いで、推定部１１０は、第１実施形態による情報処理装置１により学習された学習済みの分類器モデルを用いて、推定対象の顔画像について各ラベルのクラスを推定して分類する（ステップＳ２０６）。すなわち、推定部１１０は、学習済みの全結合層ＦＣ_１～ＦＣ_Ａを用いてコサイン類似度を計算する。次いで、推定部１１０は、Ｓｏｆｔｍａｘ型関数を出力層としてコサイン類似度から分類スコアとして各クラスの分類値を計算する。

　こうして、情報処理装置１は、推定対象の顔画像について各ラベルのクラスを推定して分類する。

　［第３実施形態］
　上記実施形態において説明した情報処理装置が機能する学習装置は、第３実施形態によれば、図８に示すように構成することもできる。図８は、本実施形態による学習装置の構成を示すブロック図である。

　図８に示すように、本実施形態による学習装置１０００は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置である。学習装置１０００は、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部１００２と、学習に用いる損失関数にマージンを付与するマージン付与部１００４とを有する。マージン付与部１００４は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。

　本実施形態による学習装置１０００では、複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。したがって、他の実施形態による学習装置１０００によれば、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。

　［変形実施形態］
　本発明は、上記実施形態に限らず、種々の変形が可能である。

　例えば、上記実施形態では、顔画像について多ラベル多クラス分類を行う場合について説明したが、これに限定されるものではない。多ラベル多クラス分類を行う画像は、１つ又は複数の物体を含む画像である物体画像であってもよい。この場合、画像中に認識された１つ又は複数の物体について、多ラベル多クラス分類を行うことができる。

　また、上記実施形態では、多ラベル多クラス分類を行う分類器モデルを学習する場合について説明したが、これに限定されるものではない。学習を行う分類器モデルは、顔画像等の画像について単一のラベルである単ラベルの多クラス分類を行うものであってもよい。

　また、上記実施形態では、損失関数としてＳｏｆｔｍａｘ型損出関数を用いる場合について説明したが、これに限定されるものではない。損失関数としては推定の対象等に応じて種々の関数を選択することができ、上記と同様にして損失関数にマージンを付与することができる。損失関数としては、Ｓｏｆｔｍａｘ型損出関数や交差エントロピー誤差のほか、平均二乗誤差、平均絶対誤差等を用いることもできる。

　上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　該記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、磁気テープ、不揮発性メモリカード等を用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ上で動作して処理を実行するものも各実施形態の範疇に含まれる。

　上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
　前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
　前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを特徴とする学習装置。

　（付記２）
　前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
　ことを特徴とする付記１に記載の学習装置。

　（付記３）
　前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
　ことを特徴とする付記１又は２に記載の学習装置。

　（付記４）
　前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
　ことを特徴とする付記１乃至３のいずれかに記載の学習装置。

　（付記５）
　前記マージン付与部は、次式（１）により計算される前記クラスマージンを前記損失関数に付与する
　ことを特徴とする付記１乃至４のいずれかに記載の学習装置。

　（式（１）中、ｍ_ａは、ａ番目の前記ラベルについて定められる前記マージン総量である。α_ａ，ｃ（γ_ａ）は次式（２）により計算される。

　式（２）中、Ｎ_ａ，ｃは、ａ番目の前記ラベルにおけるｃ番目の前記クラスのサンプル数の割合を示す。Ｎ_ａ，ｃ″は、ａ番目の前記ラベルにおけるｃ″番目（ｃ″は１≦ｃ″≦Ｃを満たす整数）の前記クラスのサンプル数の割合を示す。右辺分母の総和記号は、１≦ｃ″≦Ｃを満たすすべての整数についての総和を意味する。ｓは、ハイパーパラメータである。）

　（付記６）
　前記学習部は、前記ｍ_ａ及び前記γ_ａの少なくとも一方を自動で決定する
　ことを特徴とする付記５記載の学習装置。

　（付記７）
　前記損失関数は、Ｓｏｆｔｍａｘ型の損失関数である
　ことを特徴とする付記１乃至６のいずれかに記載の学習装置。

　（付記８）
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
　ことを特徴とする付記７記載の学習装置。

　（付記９）
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
　ことを特徴とする付記７記載の学習装置。

　（付記１０）
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
　ことを特徴とする付記７記載の学習装置。

　（付記１１）
　畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
　ことを特徴とする付記１乃至１０のいずれかに記載の学習装置。

　（付記１２）
　前記画像は顔画像である
　ことを特徴とする付記１乃至１１のいずれかに記載の学習装置。

　（付記１３）
　画像を取得する画像取得部と、
　付記１乃至１２のいずれかに記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
　を有することを特徴とする推定装置。

　（付記１４）
　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
　前記学習に用いる損失関数にマージンを付与し、
　前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを特徴とする学習方法。

　（付記１５）
　コンピュータに、
　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
　前記学習に用いる損失関数にマージンを付与し、
　前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを実行させるためのプログラムが記録された記録媒体。

　以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１…情報処理装置
１０…プロセッサ
２０…メモリ
３０…ストレージ
４０…入力装置
５０…出力装置
６０…インタフェース
７０…共通バス
１０２…画像取得部
１０４…特徴抽出部
１０６…分類器学習部
１０８…マージン付与部
１１０…推定部
１０００…学習装置
１００２…学習部
１００４…マージン付与部

Claims

　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
　前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
　前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを特徴とする学習装置。
　前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
　ことを特徴とする請求項１に記載の学習装置。
　前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
　ことを特徴とする請求項１又は２に記載の学習装置。
　前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
　ことを特徴とする請求項１乃至３のいずれか１項に記載の学習装置。
　前記マージン付与部は、次式（１）により計算される前記クラスマージンを前記損失関数に付与する
　ことを特徴とする請求項１乃至４のいずれか１項に記載の学習装置。

　（式（１）中、ｍ_ａは、ａ番目の前記ラベルについて定められる前記マージン総量である。α_ａ，ｃ（γ_ａ）は次式（２）により計算される。

　式（２）中、Ｎ_ａ，ｃは、ａ番目の前記ラベルにおけるｃ番目の前記クラスのサンプル数の割合を示す。Ｎ_ａ，ｃ″は、ａ番目の前記ラベルにおけるｃ″番目（ｃ″は１≦ｃ″≦Ｃを満たす整数）の前記クラスのサンプル数の割合を示す。右辺分母の総和記号は、１≦ｃ″≦Ｃを満たすすべての整数についての総和を意味する。ｓは、ハイパーパラメータである。）
　前記学習部は、前記ｍ_ａ及び前記γ_ａの少なくとも一方を自動で決定する
　ことを特徴とする請求項５記載の学習装置。
　前記損失関数は、Ｓｏｆｔｍａｘ型の損失関数である
　ことを特徴とする請求項１乃至６のいずれか１項に記載の学習装置。
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
　ことを特徴とする請求項７記載の学習装置。
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
　ことを特徴とする請求項７記載の学習装置。
　前記マージン付与部は、前記Ｓｏｆｔｍａｘ型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
　ことを特徴とする請求項７記載の学習装置。
　畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
　ことを特徴とする請求項１乃至１０のいずれか１項に記載の学習装置。
　前記画像は顔画像である
　ことを特徴とする請求項１乃至１１のいずれか１項に記載の学習装置。
　画像を取得する画像取得部と、
　請求項１乃至１２のいずれか１項に記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
　を有することを特徴とする推定装置。
　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
　前記学習に用いる損失関数にマージンを付与し、
　前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを特徴とする学習方法。
　コンピュータに、
　画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
　学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
　前記学習に用いる損失関数にマージンを付与し、
　前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
　ことを実行させるためのプログラムが記録された記録媒体。