WO2023223477A1

WO2023223477A1 - ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム

Info

Publication number: WO2023223477A1
Application number: PCT/JP2022/020726
Authority: WO
Inventors: 英俊川口
Original assignee: 日本電信電話株式会社
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-11-23

Abstract

ラベルヒストグラム作成装置（１）のラベルヒストグラム作成部（１４）は、Ｎ個のデータ（ｘ）から構成されるデータセット（Ｘ）に対して、各データ（ｘ）のサンプリング数（β）を設定し、クラウドソーシング（２）を用いて最初のサンプリング処理を行い、ラベルヒストグラムのセット（Ｌ）を作成する。ピックアップ部（１６）は、データセット（Ｘ）から、ラベルヒストグラムが有する情報の不確かさに基づいて、２回目のサンプリング処理の対象となるデータ（ｘ）のピックアップ処理を行う。ラベルヒストグラム作成部（１４）は、ピックアップ部（１６）がピックアップしたデータ（ｘ）に対して、サンプリング数（β）を最初のサンプリング処理より増加させ、２回目のサンプリング処理を行う。

Description

ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラム

　本発明は、ラベルヒストグラム作成装置、ラベルヒストグラム作成方法およびラベルヒストグラム作成プログラムに関する。

　ラベルヒストグラムは、あるデータについて、そのデータを分類するラベルの確率分布を示すものである。ラベルヒストグラムは、複数人が独立してデータにラベルを付与するサンプリングを行うことにより作成される。このようなラベルヒストグラムは、クラウドソーシングを利用して作成することが一般的である。

　機械学習の分野において、複数の異なるデータに対して、同じ分類のラベルによるサンプリングを行って作成したラベルヒストグラムのセット、いわゆるベンチマークデータセット（例えば、非特許文献１参照）が数多く存在する。ベンチマークデータセットは、機械学習により構築されるデータ分類器の性能評価に用いられる。
　このようなベンチマークデータセットは、１つのデータに対してラベル付与を１回のみ行ったもの、すなわちサンプリング数が１であるものが多い。一方、サンプリング数を増加させてラベルヒストグラムの多様性を高めることにより、データ分類器の性能評価の精度を向上させることが提案されている（例えば、非特許文献２参照）。

Yann Lecun, et.al.,"THE MNIST　DATABASE,"［online］、［令和4年5月6日検索］、インターネット＜ＵＲＬ：http://yann.lecun.com/exdb/mnist/＞ Mimori, T., Sasada, K., Matsui, H., and Sato, I. (2021). "Diagnostic uncertainty calibration: Towards reliable machine predictions in medical domain", In Proceedings of The 24th International Conference on Artificial Intelligence and Statistics, volume 130 of Proceedings of Machine Learning Research, pages 3664-3672. PMLR.

　しかしながら、クラウドソーシングを利用する場合、サンプリング数を増加させるほど、金銭的コストが増加する。さらに、データセットを構成するデータによっては、サンプリング数を増やしても、大部分のデータにおいて、特定のラベルに投票数が集中してしまうことがある。

　そのような場合、特定のラベルに投票数が集中しているデータのラベルヒストグラムを破棄して、多様性を高めることも考えられる。しかしながら、破棄したラベルヒストグラムの作成に要したコストが無駄になってしまう。すなわち、ラベルヒストグラムのセットの作成に要したコストに対して、最終的なラベルヒストグラムのセットに含まれるデータのサンプリング数が少なく、成果物がコストに見合わなくなる可能性がある。

　ラベルヒストグラム作成装置において、コストを低減しつつ多様性の高いラベルヒストグラムのセットを作成することが求められている。

　本発明に係るラベルヒストグラム作成装置は、
　クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するものであって、
　複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットを作成するラベルヒストグラム作成部と、
　前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、２回目のサンプリング処理の対象となるデータのピックアップ処理を行うピックアップ部と、を有し、
　前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前記サンプリング数を前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて２回目のサンプリング処理を行うことを特徴とする。

　本発明によれば、コストを低減しつつ、多様性の高いラベルヒストグラムのセットを作成することができる。

本実施形態に係るラベルヒストグラム作成装置が適用される、ラベルヒストグラム作成システムの概念図である。ラベルヒストグラムを説明する図である。ラベルヒストグラム作成装置の機能構成を示すブロック図である。ラベルヒストグラムのセットの一例を示す図である。ラベルヒストグラムのセットの他の例を示す図である。ラベルヒストグラム作成装置の処理の流れを説明するフローチャートである。２回目以降のサンプリング処理の流れを説明するフローチャートである。ピックアップ処理の流れを説明するフローチャートである。データセットに含まれる画像データの一例を示す図である。ピンの配置の一例を示す図である。ピックアップされたデータの一例を示す図である。本実施形態に係るラベルヒストグラム作成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　次に、本発明を実施するための形態（以下、「本実施形態」と称する。）について、図面を参照して説明する。
　図１は、本実施形態に係るラベルヒストグラム作成装置が適用される、ラベルヒストグラム作成システムの概念図である。
　図２は、ラベルヒストグラムを説明する図である。
　図３は、ラベルヒストグラム作成装置の機能構成を示すブロック図である。
　図１に示すように、ラベルヒストグラム作成システム１００は、ラベルヒストグラム作成装置１と、クラウドソーシング２と、を有する。
　ラベルヒストグラム作成装置１には、外部から、ラベルヒストグラムの作成対象であるデータセットＸが入力される。データセットＸは、複数のデータｘから構成される。データｘは、例えば、画像、音声、動画等のデータであり、機械学習に用いられるデータである。データセットＸに属するデータｘは、同じラベルセットＹを用いて分類することができる。ラベルセットＹは、以下に示すように、Ｋ種類のラベルｙから構成される。

　ラベルヒストグラムは、データｘにおけるラベルｙの確率分布を示すものである。言い換えると、ｘおよびｙは、確率分布Ｐ（ｘ，ｙ）からサンプリングされる確率変数である。
　ラベルヒストグラムは、複数人が独立してデータｘにラベルｙを付与することで作成される。データｘにラベルｙを付与する行為を、サンプリングという。
　図２は、一つのデータｘに対して１００人がサンプリングを行い、７０人がラベル１、２０人がラベル２、１０人がラベル３を付与した例を示している。この場合、データｘについてのラベルヒストグラムは［７０，２０，１０］と表現される。
　ここで、ラベルヒストグラムを構成するためにラベルｙが付与された回数を、サンプリング数という。また、各ラベルｙの付与数を、投票数という。図２の例では、サンプリング数は１００であり、ラベル１の投票数は７０、ラベル２の投票数は２０、ラベル３の投票数は１０である。

　図１に示すように、ラベルヒストグラム作成装置１は、クラウドソーシング２を用いて、データセットＸの各データｘについて、ラベルヒストグラムを作成する。クラウドソーシング２は、インターネット上で不特定多数の作業員Ｏｐを募集し、タスクを依頼するシステムである。
　ラベルヒストグラム作成装置１は、ネットワークを介して、クラウドソーシング２に、サンプリング対象となるデータｘの集合Ｔを出力する。
　クラウドソーシング２を介して依頼を受けた作業員Ｏｐは、集合Ｔの各データｘについて、サンプリングを行う。クラウドソーシング２において、作業員Ｏｐの投票数が集計され、各データｘについてラベルヒストグラムが作成される。クラウドソーシング２からラベルヒストグラム作成装置１に対して、集合Ｔの各データｘについて作成されたラベルヒストグラムをまとめた、ラベルヒストグラムのセットＬが入力される。

　ラベルヒストグラム作成装置１は、このように、クラウドソーシング２を用いて作成したラベルヒストグラムを正規化し、データセットＸについての、正規化されたラベルヒストグラムのセットＰを、最終的な成果物として外部に出力する。

　図３に示すように、ラベルヒストグラム作成装置１は、入力部１１、出力部１２、記憶部１３、ラベルヒストグラム作成部１４、情報エントロピー算出部１５およびピックアップ部１６を有する。

　入力部１１および出力部１２は、通信インタフェースおよび入出力インタフェース等から構成される。通信インタフェースは、通信ネットワークを介して、クラウドソーシング２等と情報の送受信を行う。入出力インタフェースは、不図示のキーボード等の入力装置やディスプレイ等の出力装置との間で情報の入出力を行う。

　記憶部１３には、ラベルヒストグラム作成装置１の各機能部を実行させるためのプログラム（ラベルヒストグラム作成プログラム）や、各機能部の処理に必要な情報が記憶される。
　一例として、記憶部１３には、外部から入力される、データセットＸが格納される。また、記憶部１３には、クラウドソーシング２から入力されるラベルヒストグラムのセットＬが格納される。さらに、記憶部１３には、後記する処理に用いられるパラメータ等が格納される。

　ラベルヒストグラム作成部１４は、前記したようにクラウドソーシング２を用いてサンプリング処理を行うことで、ラベルヒストグラムのセットＬを作成する。
　本実施形態では、ラベルヒストグラム作成部１４は、クラウドソーシング２を用いたサンプリン処理を、複数回行う。
　ラベルヒストグラム作成部１４は、各サンプリング処理において、集合Ｔおよびサンプリング数βを設定する。集合Ｔは、前記したように、サンプリング処理の対象となるデータｘから構成される。サンプリング数βは、集合Ｔを構成する各データｘのサンプリング数である。すなわち、ラベルヒストグラム作成部１４は、各サンプリング処理において、サンプリング処理の対象となるデータｘの集合Ｔを、サンプリング数βを指定して、クラウドソーシング２に出力する。ラベルヒストグラム作成部１４は、クラウドソーシング２から、集合Ｔのサンプリング結果であるラベルヒストグラムのセットＬが入力されると、記憶部１３に格納させる。

　ラベルヒストグラム作成部１４は、集合Ｔを構成するデータ数αと、各データｘのサンプリング数βを、サンプリング処理ごとに変更する。
　具体的には、ラベルヒストグラム作成部１４は、最初のサンプリング処理において、データセットＸに含まれるＮ個のデータｘ全てについてサンプリング処理を行う。すなわち、最初のサンプリング処理において、データ数α＝Ｎとなる。
　ラベルヒストグラム作成部１４は、２回目のサンプリング処理において、集合Ｔに含めるデータ数αをＮ個から減少させつつ、各データｘのサンプリング数βを、最初のサンプリング処理より増加させる。
　ラベルヒストグラム作成部１４は、２回目以降のサンプリング処理を複数回行う場合は、前のサンプリング処理よりも集合Ｔのデータ数αを減少させつつ、各データｘのサンプリング数βを前のサンプリング処理よりも増加させる。
　すなわち、ラベルヒストグラム作成部１４は、サンプリング対象となるデータｘを絞り込みながら、絞り込んだデータｘについて重点的にサンプリングを行う。
　各サンプリング処理における、サンプリング対象のデータ数αおよび各データｘのサンプリング数βは、例えば、ラベルヒストグラム作成装置１のオペレータによって設定され、パラメータとして記憶部１３に格納される。２回目以降のサンプリング処理を行う回数Ｍも、同様にオペレータによって設定され、パラメータとして記憶部１３に格納される。

　ラベルヒストグラム作成部１４は、サンプリング処理が終了すると、記憶部１３に格納されているラベルヒストグラムのセットＬを正規化することで、データセットＸについてのラベルヒストグラムのセットＰを作成する。

　情報エントロピー算出部１５およびピックアップ部１６は、サンプリング対象となるデータｘを絞り込むための処理を行う。
　情報エントロピー算出部１５は、サンプリング処理によってラベルヒストグラムが作成されたデータｘについて、ラベルヒストグラムが有する情報エントロピーＨを算出する。
　情報エントロピーＨは、ラベルヒストグラムが有する情報の不確かさを示すものである。ラベルヒストグラムが示す情報が不確かであるほど、そのラベルヒストグラムが有する情報量が大きいことを意味する。すなわち、情報エントロピーＨが大きければ、ラベルヒストグラムが含む情報が多く、情報エントロピーＨが小さければ、ラベルヒストグラムが含む情報が少ないことを意味する。

　情報エントロピー算出部１５は、最初のサンプリング処理に際しては、データセットＸを構成するＮ個のデータｘのラベルヒストグラムのそれぞれについて、情報エントロピーＨを算出する。
　情報エントロピー算出部１５は、２回目以降のサンプリング処理においては、サンプリング対象となり、ラベルヒストグラムが作成されたデータｘについてのみ、情報エントロピーＨを算出する。

　ピックアップ部１６は、各データｘのラベルヒストグラムが有する情報の不確かさに基づいて、次のサンプリング処理の対象となるデータｘのピックアップ処理を行う。
　ピックアップ部１６は、具体的には、情報エントロピー算出部１５が算出した、各データｘのラベルヒストグラムの情報エントロピーＨを参照し、情報エントロピーＨが互いに分散したデータｘをピックアップする。
　ピックアップ部１６は、ピックアップしたデータｘをまとめて、次のサンプリング処理の集合Ｔを設定する。
　ピックアップ部１６がピックアップするデータｘの数は、各サンプリング処理のパラメータとして設定されるサンプリング対象のデータ数αに一致する。
　すなわち、ピックアップ部１６は、サンプリング処理を行うごとに、ピックアップするデータｘの数を減少させる。
　ピックアップ部１６のピックアップ処理の詳細については後述する。

　このように、本実施形態では、情報エントロピーＨに基づいてサンプリング対象となるデータｘを絞り込み、絞り込んだデータｘについて重点的にサンプリングを行うことで、全体のサンプリング数を抑えつつ、最終的に作成されるラベルヒストグラムのセットＰにおける、ラベルヒストグラムの多様性を高める。

　ラベルヒストグラム作成装置１が作成するラベルヒストグラムのセットは、例えば、機械学習により構築されるデータ分類器の性能評価に用いられる。ここで、セットを構成するラベルヒストグラムが多様であるほど、データ分類器の性能評価を精度よく行うことができる。例えば、セットを構成するラベルヒストグラムが、情報量が大きいもの、少ないもの、中程度のものがバランスよく混在しており、情報量の偏りが少ない場合に、ラベルヒストグラムが多様であると言うことができる。
　ラベルヒストグラムの多様性を高めるために、各データｘのサンプリング数を増加させることが考えられる。ただし、データセットＸに含まれるデータｘ全てのサンプリング数を単純に増加させても、ラベルヒストグラムの多様性を高めることができない場合がある。

　図４は、ラベルヒストグラムのセットの一例を示す図である。
　図５は、ラベルヒストグラムのセットの他の例を示す図である。
　図４は、データｘ１～ｘ６の６個のデータから構成されるデータセットに対してサンプリングを行い、ラベルヒストグラムのセットＬ１を作成した例を示している。図５は、データｘ７～ｘ１２の６個のデータから構成されるデータセットに対してサンプリングを行い、ラベルヒストグラムのセットＬ２を作成した例を示している。なお、図４および図５の例は、サンプリング数を同じに設定している。

　例えば、図４のデータｘ１のラベルヒストグラムは、ラベル１に投票数が集中している。このようなラベルヒストグラムは、情報量が少ない、すなわち情報エントロピーＨが小さいと言える。一方、図４のデータｘ４のラベルヒストグラムは、ラベル１、２、３のそれぞれに投票数がほぼ同数に分散している。このようなラベルヒストグラムは、情報量が多い、すなわち情報エントロピーＨが大きいと言える。図４のデータｘ５のラベルヒストグラムは、ラベル３の投票数が比較的多いが、データｘ１のように１つのラベルに投票数が極端に集中していないため、中程度の情報量を有すると言える。
　このように、図４のセットＬ１では、データｘ１～ｘ６のラベルヒストグラムが有する情報量の偏りが少なく、互いに分散しており、ラベルヒストグラムの多様性が比較的高いと言える。

　一方、図５では、データｘ１２のラベルヒストグラムは、投票数がラベル１～３にある程度分散しているが、データｘ７～ｘ１１のラベルヒストグラムは、１つのラベルに投票数が集中している。すなわち、セットＬ２では、ラベルヒストグラムの情報量が少ないデータが大部分を占めており、ラベルヒストグラムが有する情報量の偏りが大きく、ラベルヒストグラムの多様性が比較的低いと言える。

　このように、図５のセットＬ２は、図４のセットＬ１と比較してラベルヒストグラムの多様性が低いが、セットＬ１と同じサンプリング数で作成しているため、クラウドソーシング２を利用するコストはセットＬ１と同じである。
　ここで、図５のセットＬ２の多様性を高めるために、投票数が１つのラベルに集中しているデータｘ７～ｘ１１のラベルヒストグラムの一部をセットＬ２から破棄することも考えられる。しかしながら、その場合は、破棄したラベルヒストグラムのサンプリングに要したコストが無駄になってしまう。すなわち、セットＬ２の作成に要した全体のコストに対して、最終的に出力されるセットＬ２に含まれるデータのサンプリング数が少なく、成果物がコストに見合わなくなる可能性がある。

　一方、本実施形態のラベルヒストグラム装置は、前記したように、情報エントロピーＨに基づいてサンプリング対象となるデータｘを絞り込み、絞り込んだデータｘについてサンプリング数を増加させて重点的にサンプリングを行う。
　すなわち、ラベルヒストグラム作成部１４は、最初のサンプリング処理では、データセットＸに含まれるＮ個のデータｘの全てにサンプリングを行うが、サンプリング数βは少なく設定される。
　そして、ピックアップ部１６が、最初のサンプリング処理で得られたラベルヒストグラムから、情報エントロピーＨに基づいて多様性の高い組み合わせのデータｘをピックアップし、ピックアップしたデータｘについて、サンプリング数βを増加させて２回目のサンプリング処理を行う。
　これによって、情報量が偏っており、サンプリング数を増加させても多様性を高めにくいデータｘに対しては、サンプリング数が最低限に抑えられるため、コストを低減することができる。
　さらに、本実施形態は、２回目以降のサンプリング処理を複数回行う場合、サンプリング処理を行うごとに、次のサンプリング処理の対象となるデータ数αを減少させると共に、サンプリング数βを増加させる。これによって、本実施形態は、多様性の高い組み合わせのデータｘをさらに絞り込んで重点的にサンプリングを行うことができる。

　本実施形態に係るラベルヒストグラム作成装置１の処理について、フローチャートを参照して説明する。
　図６は、ラベルヒストグラム作成装置の処理の流れを説明するフローチャートである。
　図７は、２回目以降のサンプリング処理の流れを説明するフローチャートである。
　図８は、ピックアップ処理の流れを説明するフローチャートである。
　図９は、データセットに含まれるデータの一例を示す図である。図９では、一例として、データセットに含まれる複数の画像データを、それぞれのラベルヒストグラムが有する情報エントロピーに従って配置している。
　図１０は、ピンの配置の一例を示す図である。
　図１１は、ピックアップされたデータの一例を示す図である。

　図６に示すように、ラベルヒストグラム作成装置１は、ラベルヒストグラムの作成対象となるデータセットＸが入力されると（ステップＳ０１：Ｙｅｓ）、処理を開始する。ラベルヒストグラム作成部１４は、入力部１１を介して入力されたデータセットＸを、記憶部１３に格納する。なお、ラベルヒストグラム作成装置１は、データセットＸが入力されなければ（ステップＳ０１：Ｎｏ）、入力されるまで待つ。

　入力されたデータセットＸに応じて、ラベルヒストグラム作成装置１のオペレータにより、以下の通りパラメータが設定される。

　上記のパラメータの設定によって、サンプリング処理を行うごとにサンプリング対象のデータ数αが減少し、各データｘのサンプリング数βは増加する。

　ラベルヒストグラム作成部１４は、サンプリング処理の対象となるデータｘの集合Ｔを設定する（ステップＳ０２）。
　最初のサンプリング処理において、集合Ｔには、以下に示すように、データセットＸを構成するＮ個のデータｘが全て含まれる。

　ラベルヒストグラム作成部１４は、クラウドソーシング２を用いて、集合Ｔについて最初のサンプリング処理を行い、ラベルヒストグラムのセットＬを作成する（ステップＳ０３）。
　具体的には、ラベルヒストグラム作成部１４は、パラメータに基づいてサンプリング数βを設定し、データｘの集合Ｔをクラウドソーシング２に出力する。
　クラウドソーシング２において、集合Ｔに含まれるデータｘのそれぞれについて、サンプリング数βに対応する数の作業員Ｏｐによってサンプリングが行われる。
　作業員Ｏｐは、データｘに対し、ラベルセットＹに含まれるＫ種類のラベルｙのいずれかを付与する。

　図９では、一例として、データセットＸが、非特許文献１のＭＮＩＳＴにおいて提供される、手書き数字の画像データｘから構成される例を示している。
　これらのデータｘのそれぞれに対して、０～９の１０種類のラベルのいずれかが付与される。例えば、最初のサンプリング数βが１０と設定された場合、１０人の作業員Ｏｐが、データｘのそれぞれについてラベルｙの付与を行う。

　クラウドソーシング２において、データｘのそれぞれについて、各作業員Ｏｐが付与したラベルｙの投票数を集計され、ラベルヒストグラムが作成される。
　集合Ｔに含まれるデータｘｉのラベルヒストグラムｌｉは、以下の式（１）により表される。

　ここで、クラウドソーシング２を用いて、一つのデータｘｉに対して複数の作業員Ｏｐがサンプリングを行う操作を関数とみなして、Samplingと表記する。
　この場合、データｘｉに対して、サンプリング数βで作成されたラベルヒストグラムｌｉと、ラベルヒストグラムｌｉの集合であるラベルヒストグラムのセットＬとは、以下の式（２）および（３）により表すことができる。

　例えば、図９のデータｘａに対して、サンプリング数を１０としてサンプリングを行った際に、７人が１に、３人が７に投票したとすると、画像データｘａのラベルヒストグラムは［０，７，０，０，０，０，０，３，０，０］と表される。

　クラウドソーシング２は、集合Ｔについて作成したラベルヒストグラムのセットＬを、ラベルヒストグラム作成装置１の入力部１１に入力する。
　ラベルヒストグラム作成部１４が、クラウドソーシング２から入力された集合ＴのラベルヒストグラムのセットＬを記憶部１３に格納することで、最初のサンプリング処理が完了する。

　図６に示すように、ラベルヒストグラム作成部１４は、２回目以降のサンプリング処理の数ｋを１に設定する（ステップＳ０４）。ここで、ｋは１～Ｍまでの自然数である。すなわち、ラベルヒストグラム作成部１４は、２回目サンプリング処理の数ｋがＭになるまで、サンプリング処理を繰り返す。
　ラベルヒストグラム作成部１４は、２回目以降のサンプリング処理を行う（ステップＳ０５）。
　ラベルヒストグラム作成部１４は、２回目以降のサンプリング処理では、情報エントロピー算出部１５およびピックアップ部１６の処理によって絞り込まれたデータｘを対象として、サンプリング処理を行う。

　図７に示すように、情報エントロピー算出部１５は、最初のサンプリング処理で作成されたラベルヒストグラムのセットＬを用いて、各データｘｉのラベルヒストグラムｌｉが有する情報エントロピーＨを算出する（ステップＳ５１）。

　具体的には、情報エントロピー算出部１５は、例えば、以下の方法で、ラベルヒストグラムｌｉから情報エントロピーＨを算出することができる。

　なお、ラベルヒストグラムが有する情報の不確かさに関する関数Ｈは、情報エントロピーのみに限定されず、例えば、以下の式（９）または（１０）により算出することができる。

　ピックアップ部１６は、次のサンプリング処理の対象となるデータｘの集合Ｔ`を設定する（ステップＳ５２）。
　ピックアップ部１６は、以下に示すように、集合Ｔ`の最小値Ａと最大値Ｂを設定する。ピックアップ部１６は、具体的には、情報エントロピー算出部１５によって算出されたデータｘのそれぞれの情報エントロピーＨの中から、最小値Ａと最大値Ｂを抽出する。

　図９の例では、データセットＸに含まれる画像データｘを、それぞれのラベルヒストグラムが有する情報エントロピーＨの大きさに従って配置している。データＸｂの情報エントロピーＨが最小値Ａであり、データＸｃの情報エントロピーＨが最大値Ｂである。すべてのデータｘは、最小値Ａと最大値Ｂの間の区間（Ｂ－Ａ）内に位置している。図９から明らかなように、判別しやすい文字、すなわち分類の難易度が低い文字の画像データｘは情報エントロピーＨが小さい。判別しにくい文字、すなわち、分類の難易度が高い文字の画像データｘは、情報エントロピーＨが大きい。

　図７に示すように、ピックアップ部１６は、集合Ｔ`に次のサンプリング処理の対象となるデータｘをピックアップする、ピックアップ処理を行う（ステップＳ５３）。
　図９に例示したように、データｘは、区間（Ｂ－Ａ）内で均一に分散しているわけではなく、最小値Ａ側、中央付近、最大値Ｂ側にそれぞれ偏って位置している。ピックアップ部１６は、これらのデータｘの中から、情報エントロピーＨが互いに分散したデータの組み合わせをピックアップする。

　図１０に示すように、ピックアップ部１６は、区間（Ｂ－Ａ）を等間隔に区分し、各区分の境界となる位置に、ピンｕを配置する。ピンｕを配置する位置には、最小値Ａおよび最大値Ｂも含まれる。ピンｕを配置する数は、次のサンプリング処理の対象となるデータ数αと一致する。例えば、α＝９であれば、ピックアップ部１６は、区間（Ｂ－Ａ）を８等分して、９本のピンｕを配置する。
　ピックアップ部１６は、更に、各ピンｕに対して最も近い情報エントロピーＨを有するデータｘを順次ピックアップして、集合Ｔ`に追加する。
　図１１に示すように、ピックアップ処理によって、最小値Ａおよび最大値Ｂを有するデータｘｂ、ｘｃを含めた９つのデータｘが、集合Ｔ`にピックアップされる。ピックアップされたデータｘは、情報エントロピーＨの偏りが比較的少なく、分類の難易度が低いもの、中程度のもの、高いものがバランスよく組み合わされている。
　すなわち、図９に示すような、情報エントロピーＨに偏りがあるデータセットＸに対しても、本実施形態のピックアップ処理によって、図１１に示すように、情報エントロピーＨが互いに分散した、ラベルヒストグラムの多様性の高いデータｘの組み合わせを得ることができる。

　具体的には、図８に示すように、ピックアップ部１６は、集合Ｔ`へのデータｘのピックアップ数ｒ＝１に設定する（ステップＳ５３１）。ここで、ｒは、１～αｋの自然数である。αｋは、パラメータで設定された、次のサンプリング処理の対象となるデータ数である。
　ピックアップ部１６は、以下の式（１１）を用いて、ピンｕの位置を決定する（ステップＳ５３２）。

　上記式（１１）により、ピンｕの位置が、最小値Ａ側から、すなわち、情報エントロピーＨが少ない方から、順に決定される。
　すなわち、１回目のピックアップにおいて、ピンｕは最小値Ａに決定され、αｋ回目のピックアップにおいて、ピンｕは最大値Ｂに決定される。
　ピックアップ部１６は、決定したピンｕに最も近い情報エントロピーＨを有するデータｔを、集合Ｔ`にピックアップする（ステップＳ５３３）。
　ピックアップ部１６は、例えば、以下の式（１２）を用いて、ピンｕに最も近い情報エントロピーＨを有するデータｔを特定する。

　ピックアップ部１６は、さらに、以下の式（１３）を用いて、データｔを新たな集合Ｔ`に含め、元の集合Ｔから除外する。

　ピックアップ部１６は、ピックアップ数ｒ＝αｋでなければ（ステップＳ５３４：Ｎｏ）、ｒ＝ｒ＋１として（ステップＳ５３５）、ステップＳ５３２～Ｓ５３３に戻り、次のピンｕを決定し、ピンｕに最も近いデータｔを順次集合Ｔ`にピックアップする。
　ピックアップ部１６は、ピックアップ数ｒ＝αｋであれば（ステップＳ５３４：Ｙｅｓ）、ピックアップ処理を終了する。

　図７に戻り、ピックアップ部１６は、ピックアップされたデータｔから構成される集合Ｔ`を、元の集合Ｔに対して上書きする（ステップＳ５４）。これによって、集合Ｔは、次のサンプリング処理の対象となるデータｘのみから構成されたものに更新される。

　ラベルヒストグラム作成部１４は、クラウドソーシング２を用いて、新たに設定した集合Ｔについてサンプリング処理を行う（ステップＳ５５）。
　具体的には、ラベルヒストグラム作成部１４は、サンプリング数βｋを設定して、集合Ｔに含まれるデータｘをクラウドソーシング２に出力する。ここで、ラベルヒストグラム作成部１４は、サンプリング数βｋを、設定されたパラメータに基づいて、最初のサンプリング処理におけるサンプリング数βより増加させる。

　前記したように、ピックアップ処理で更新された集合Ｔには、ラベルヒストグラムの多様性が高いデータｘの組み合わせが含まれている。この組み合わせについてサンプリング数βｋを増加させることで、これらのデータｘのラベルヒストグラムの多様性をさらに高めることができる。

　クラウドソーシング２において、２回目のサンプリング処理の対象となったデータｘｉについて、最初のサンプリング処理と同様にサンプリングを行うことで、ラベルヒストグラムが作成され、ラベルヒストグラム作成装置１の入力部１１に入力される。
　なお、記憶部１３には、最初のサンプリング処理で作成されたデータｘｉについてのラベルヒストグラムｌｉが格納されている。
　ラベルヒストグラム作成部１４は、以下の式（１４）に示すように、最初のサンプリング処理で作成されたデータｘｉのラベルヒストグラムｌｉに、２回目のサンプリング処理で作成されたラベルヒストグラムを追加して格納する。

　図６に示すように、ラベルヒストグラム作成部１４は、２回目以降のサンプリング処理の数ｋ＝Ｍでなければ（ステップＳ０６：Ｎｏ）、ｋ＝ｋ＋１として（ステップＳ０７）、ステップＳ０５に戻り、更なるサンプリング処理を行う。
　サンプリング処理を行うごとに、情報エントロピー算出部１５およびピックアップ部１６のピックアップ処理によって、次のサンプリング処理の対象となるデータ数αｋが、前のサンプリング処理よりも絞り込まれる。ラベルヒストグラム作成部１４は、絞り込まれたデータｘに対して、サンプリング数βｋを前のサンプリング処理よりも増加させてサンプリングを行う。

　一例として、ラベルヒストグラム作成装置１は、以下のように処理を行うことができる。
　例えば、１００００個のデータｘから構成されるデータセットＸが入力された場合、ラベルヒストグラム作成部１４は、最初のサンプリング処理において、１００００個のデータｘについて、各データｘのサンプリング数βを１０に設定してサンプリングを行う。
　ピックアップ部１６は、１００００個のデータｘのラベルヒストグラムを用いたピックアップ処理を行って、次のサンプリング対象のデータ数αを１０００個に絞り込む。
　２回目のピックアップ処理において、ラベルヒストグラム作成部１４は、１０００個のデータｘについて、各データｘのサンプリング数βを９０に増加させてサンプリングを行う。
　ピックアップ部１６は、１０００個のデータｘのラベルヒストグラムを用いたピックアップ処理を行って、次のサンプリング対象のデータ数αを２００個に絞り込む。
　ラベルヒストグラム作成部１４は、２００個のデータｘについて、各データｘのサンプリング数βを９９００に増加させてサンプリングを行う。

　このように、データｘの絞り込みとサンプリング数βの増加を繰り返すことで、ラベルヒストグラムの多様性が高いデータｘの組み合わせについて、重点的にサンプリング処理が行われるため、データセットＸ全体でのサンプリング数を抑えながらも、データセットＸから、多様性の高いラベルヒストグラムのセットＬを作成することができる。

　図６に示すように、２回目以降のサンプリング処理の数ｋ＝Ｍとなった場合（ステップＳ０６：Ｙｅｓ）、ラベルヒストグラム作成部１４は、サンプリング処理を終了する。ラベルヒストグラム作成部１４は、記憶部１３に格納されたデータセットＸに含まれるデータｘのラベルヒストグラムｌｉを、以下の式（１５）により正規化して、データセットＸについてのラベルヒストグラムのセットＰを作成する（ステップＳ０７）。

　ラベルヒストグラム作成部１４は、正規化されたデータセットＸについてのラベルヒストグラムのセットＰを、出力部１２を介して外部に出力し（ステップＳ０８）、処理を終了する。

＜ハードウェア構成＞
　本実施形態に係るラベルヒストグラム作成装置１は、例えば図１２に示すようなコンピュータ９００によって実現される。
　図１２は、本実施形態に係るラベルヒストグラム作成装置１の機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。
　コンピュータ９００は、ＣＰＵ（Central Processing Unit）９０１、ＲＯＭ（Read Only Memory）９０２、ＲＡＭ（Random Access Memory）９０３、ＨＤＤ（Hard Disk Drive）９０４、入出力Ｉ／Ｆ（Interface）９０５、通信Ｉ／Ｆ９０６およびメディアＩ／Ｆ９０７を有する。

　ＣＰＵ９０１は、ＲＯＭ９０２またはＨＤＤ９０４に記憶されたプログラム（ラベルヒストグラム作成プログラム）に基づき作動し、図２に示すラベルヒストグラム作成装置１の各機能部の処理を行う。ＲＯＭ９０２は、コンピュータ９００の起動時にＣＰＵ９０１により実行されるブートプログラムや、コンピュータ９００のハードウェアに係るプログラム等を記憶する。

　ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、マウスやキーボード等の入力装置９１０、および、ディスプレイ等の出力装置９１１を制御する。ＣＰＵ９０１は、入出力Ｉ／Ｆ９０５を介して、入力装置９１０からデータを取得するとともに、生成したデータを出力装置９１１へ出力する。なお、プロセッサとしてＣＰＵ９０１とともに、ＧＰＵ（Graphics Processing Unit）等を用いても良い。

　ＨＤＤ９０４は、ＣＰＵ９０１により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信Ｉ／Ｆ９０６は、通信網（例えば、ＮＷ（Network）９２０）を介してクラウドソーシング２（図１参照）や他の装置からデータを受信してＣＰＵ９０１へ出力し、また、ＣＰＵ９０１が生成したデータを送信する。

　メディアＩ／Ｆ９０７は、記録媒体９１２に格納されたプログラムまたはデータを読み取り、ＲＡＭ９０３を介してＣＰＵ９０１へ出力する。ＣＰＵ９０１は、目的の処理に係るプログラムを、メディアＩ／Ｆ９０７を介して記録媒体９１２からＲＡＭ９０３上にロードし、ロードしたプログラムを実行する。記録媒体９１２は、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。

　例えば、コンピュータ９００が本実施形態に係るラベルヒストグラム作成装置１として機能する場合、コンピュータ９００のＣＰＵ９０１は、ＲＡＭ９０３上にロードされたプログラムを実行することによりラベルヒストグラム作成装置１の機能を実現する。また、ＨＤＤ９０４には、ＲＡＭ９０３内のデータが記憶される。ＣＰＵ９０１は、目的の処理に係るプログラムを記録媒体９１２から読み取って実行する。この他、ＣＰＵ９０１は、他の装置から通信網（ＮＷ９２０）を介して目的の処理に係るプログラムを読み込んでもよい。

＜上記実施形態の構成とその作用効果＞
（１）ラベルヒストグラム作成装置１は、クラウドソーシング２を用いて、データｘを分類するラベルｙを付与するサンプリング処理を行うことで、データｘにおけるラベルｙの確率分布を示すラベルヒストグラムを作成する。クラウドソーシング２は、インターネット上で募集した不特定多数の作業員Ｏｐにより、ラベルヒストグラム作成装置１から依頼されたサンプリング処理を行うシステムである。
　ラベルヒストグラム作成装置１は、ラベルヒストグラム作成部１４と、ピックアップ部１６と、を有する。
　ラベルヒストグラム作成部１４は、Ｎ個（複数）のデータｘから構成されるデータセットＸに対して、各データｘのサンプリング数βを設定し、クラウドソーシング２を用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットＬを作成する。
　ピックアップ部１６は、データセットＸから、ラベルヒストグラムが有する情報の不確かさに基づいて、２回目のサンプリング処理の対象となるデータｘのピックアップ処理を行う。
　ラベルヒストグラム作成部１４は、ピックアップ部１６がピックアップしたデータｘに対して、サンプリング数βを最初のサンプリング処理より増加させ、クラウドソーシング２を用いて２回目のサンプリング処理を行う。

　このような構成により、ラベルヒストグラム作成装置１は、コストを低減しつつ多様性の高いラベルヒストグラムのセットＬを作成することができる。
　具体的には、ピックアップ部１６が、ラベルヒストグラムが有する情報の不確かさ（例：情報エントロピーＨ）を基準としてピックアップ処理を行うことで、次のサンプリング処理の対象を、ラベルヒストグラムが有する情報量の偏りが少ない、多様性の高いデータｘの組み合わせに絞り込むことができる。絞り込んだデータｘに対してサンプリング数βを増加させてサンプリング処理を行うことで、それらのデータｘのラベルヒストグラムの多様性をさらに高めることができる。
　さらに、データセットＸの全てのデータｘについてサンプリングを行う最初のサンプリング処理では、サンプリング数βを低く設定することができるため、全体のサンプリング数を抑えて、クラウドソーシング２を利用するコストを低減することができる。

（２）ラベルヒストグラム作成部１４は、最初のサンプリング処理の後に、クラウドソーシング２を用いてサンプリング処理をＭ回（複数回）行う。
　ピックアップ部１６は、サンプリング処理が行われるごとに、前のサンプリング処理よりもピックアップ数を減少させながら、次のサンプリング処理の対象となるデータｘのピックアップ処理を行う。
　ラベルヒストグラム作成部１４は、ピックアップ部１６がピックアップしたデータｘに対して、前のサンプリング処理よりもサンプリング数βを増加させて、次のサンプリング処理を行う。

　サンプリング数βを増加させるほどラベルヒストグラムの多様性が高くなる一方、クラウドソーシング２を利用するコストも増加する。そこで、本実施形態のラベルヒストグラム作成装置１は、サンプリング処理を行うごとにサンプリング対象のデータ数αをさらに絞り込みつつ、各データｘのサンプリング数βを段階的に増加させる。これによって、コストの増加を低減しつつ多様性の高いデータｘの組み合わせについて重点的にサンプリングを行い、さらに多様性を高めることができる。

（３）ラベルヒストグラム作成装置１は、情報エントロピー算出部１５を有する。
　情報エントロピー算出部１５は、サンプリング処理によってラベルヒストグラムが作成されたデータｘについて、ラベルヒストグラムが有する情報エントロピーＨを算出する。

　ラベルヒストグラムが有する情報の不確かさを示す情報エントロピーＨを算出することで、ピックアップ部１６は、情報エントロピーＨを基準としてデータｘの絞り込みを行うことができる。これにより、ピックアップ部１６は、ラベルヒストグラムの多様性が高いデータｘの組み合わせを選択することができる。

（４）ピックアップ部１６は、ピックアップ処理として、情報エントロピーＨが互いに分散したデータｘをピックアップする。

　ピックアップ部１６が、情報エントロピーＨが互いに分散したデータｘをピックアップすることで、次のサンプリング対象として、情報エントロピーＨの偏りが少なく、多様性の高いデータｘの組み合わせを選択することができる。

（５）ピックアップ部１６は、ピックアップ処理として、情報エントロピーＨの最小値Ａと最大値Ｂの間の区間（Ｂ－Ａ）を、ピックアップするデータｘの数に応じて区分し、各区分の境界位置を示すピンｕに最も近い情報エントロピーＨを有するデータｘをピックアップする。

　これにより、ピックアップ部１６は、次のサンプリング処理の対象となるデータ数αに応じて、情報エントロピーＨが互いに分散したバランスの良い組み合わせのデータｘをピックアップすることができる。ピックアップ部１６は、例えば、区間（Ｂ－Ａ）を等間隔で区分してピンｕを配置することで、さらにバランスの良い組み合わせのデータｘをピックアップすることができる。

　上記した効果は、ラベルヒストグラム作成装置１が実施するラベルヒストグラム作成方法と、コンピュータ９００をラベルヒストグラム作成装置１として機能させるためのラベルヒストグラム作成プログラムにも適用することができる。

　なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。

　１　　　ラベルヒストグラム作成装置
　２　　　クラウドソーシング
　１１　　入力部
　１２　　出力部
　１３　　記憶部
　１４　　ラベルヒストグラム作成部
　１５　　情報エントロピー算出部
　１６　　ピックアップ部
　１００　ラベルヒストグラム作成システム
　Ｏｐ　　作業員

Claims

　クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するラベルヒストグラム作成装置であって、
　複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、ラベルヒストグラムのセットを作成するラベルヒストグラム作成部と、
　前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、２回目のサンプリング処理の対象となるデータのピックアップ処理を行うピックアップ部と、を有し、
　前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前記サンプリング数を前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて２回目のサンプリング処理を行うことを特徴とする、ラベルヒストグラム作成装置。
　前記ラベルヒストグラム作成部は、前記最初のサンプリング処理の後に、前記クラウドソーシングを用いてサンプリング処理を複数回行い、
　前記ピックアップ部は、前記サンプリング処理が行われるごとに、前のサンプリング処理よりもピックアップ数を減少させながら、次のサンプリング処理の対象となるデータのピックアップ処理を行い、
　前記ラベルヒストグラム作成部は、前記ピックアップ部がピックアップしたデータに対して、前のサンプリング処理よりも前記サンプリング数を増加させて、次のサンプリング処理を行うことを特徴とする請求項１に記載のラベルヒストグラム作成装置。
　前記サンプリング処理によって前記ラベルヒストグラムが作成されたデータについて、前記ラベルヒストグラムが有する情報エントロピーを算出する、情報エントロピー算出部を有することを特徴とする、請求項１または請求項２に記載のラベルヒストグラム作成装置。
　前記ピックアップ部は、前記ピックアップ処理として、前記情報エントロピーが互いに分散したデータをピックアップすることを特徴とする、請求項３に記載のラベルヒストグラム作成装置。
　前記ピックアップ部は、前記ピックアップ処理として、前記情報エントロピーの最小値と最大値の間の区間を、ピックアップするデータの数に応じて区分し、各区分の境界位置に最も近い情報エントロピーを有するデータをピックアップすることを特徴とする、請求項４に記載のラベルヒストグラム作成装置。
　クラウドソーシングを用いて、データを分類するラベルを付与するサンプリング処理を行うことで、前記データにおける前記ラベルの確率分布を示すラベルヒストグラムを作成するラベルヒストグラム作成装置のラベルヒストグラム作成方法であって、
　前記ラベルヒストグラム作成装置は、
　複数のデータから構成されるデータセットに対して、各データのサンプリング数を設定し、前記クラウドソーシングを用いて最初のサンプリング処理を行い、
　前記データセットから、前記ラベルヒストグラムが有する情報の不確かさに基づいて、２回目のサンプリング処理の対象となるデータのピックアップ処理を行い、
　前記ピックアップ処理によりピックアップしたデータに対して、前記サンプリング数を、前記最初のサンプリング処理より増加させ、前記クラウドソーシングを用いて２回目のサンプリング処理を行うことを特徴とする、ラベルヒストグラム作成方法。
　コンピュータを、請求項１または請求項２に記載のラベルヒストグラム作成装置として機能させるためのラベルヒストグラム作成プログラム。