WO2020054551A1

WO2020054551A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2020054551A1
Application number: PCT/JP2019/034821
Authority: WO
Inventors: 和久高木
Original assignee: 日本電気株式会社
Priority date: 2018-09-11
Filing date: 2019-09-04
Publication date: 2020-03-19
Also published as: JPWO2020054551A1; JP7156383B2

Abstract

本発明の情報処理装置１００は、ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部１１０と、ニューラルネットモデルに設定された学習データが属するクラスに対応する情報に基づいて、第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部１２０と、第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる学習データを選択する修正対象選択部１３０と、を備える。

Description

情報処理装置、情報処理方法、プログラム

　本発明は、ニューラルネットで用いられる学習データに対するラベル付けの修正を支援する情報処理装置、情報処理方法、プログラムに関する。

　近年、ニューラルネットを用いた機械学習が様々な分野で用いられている。ニューラルネットを用いて推論モデルを作成するためには、大量の学習データが必要となるが、その量の多さから、ラベル付けは複数人または長期的に行われる。このため、判断基準が曖昧なラベル付けが学習データに対してなされることがある。このようなラベル付けにより、推論モデルの推論精度は低下する。

　このような推論モデルの精度を向上させるための方法として、ラベルの修正が有効である。このため、専門家が目視で学習データを確認し、ラベル付けの判断基準を整理しながらラベルを修正する、ということが行われていた。

国際公開第２０１７／１７９２５８号

　しかしながら、ラベルの確認対象となる学習データは大量にあり、またそれらは整理されていないため、ラベル修正には工数を要する、という問題が生じる。かかる問題に関連する技術として、特許文献１の技術がある。特許文献１では、尤度ベクトルのクラスタリングと各クラスタ内の平均との差によって画像の表示方法を変更することで、ラベル修正に要する工数を削減している。

　ここで、ニューラルネットから得られる特徴量は、異なるラベルが付与されたもの同士が識別平面と垂直方向に離れるという性質を持つ。このため、図１に示すように、異なるラベル付けがされた類似データ同士Ｃ１，Ｃ２、すなわち曖昧な判断基準によりラベル付けされたデータ同士Ｃ１，Ｃ２が、同じクラスタにまとまりづらい、という問題がある。ところが、かかる問題に対する解決方法は特許文献１には記載されていない。その結果、依然として、学習データのラベル修正に要する工数を削減しつつ、ラベル付けの精度の向上を図ることができない、という問題がある。

　このため、本発明の目的は、ニューラルネットを用いた機械学習において、学習データのラベル修正に要する工数の削減とラベル付けの精度の向上を図ることができない、という問題を解決することができる情報処理装置、情報処理方法、プログラムを提供することにある。

　本発明の一形態である情報処理装置は、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を備えた、
という構成をとる。

　また、本発明の一形態であるプログラムは、
　情報処理装置に、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を実現させる、
という構成をとる。

　また、本発明の一形態である情報処理方法は、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出し、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングし、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する、
という構成をとる。

　本発明は、以上のように構成されることにより、ニューラルネットを用いた機械学習において、学習データのラベル修正に要する工数の削減とラベル付けの精度の向上を図ることができる。

機械学習における課題を説明するための図である。本発明の実施形態１におけるラベル修正支援装置の構成を示すブロック図である。図２に開示したラベル修正対象提示方法決定装置による処理の様子を説明するための図である。図２に開示した提示・修正装置による処理の様子を説明するための図である。図２に開示したラベル修正支援装置の動作を示すフローチャートである。図２に開示したラベル修正支援装置の動作を示すフローチャートである。本発明の実施形態２におけるラベル修正支援装置の構成を示すブロック図である。本発明の実施形態３におけるラベル修正支援装置の構成を示すブロック図である。本発明の実施形態４における情報処理装置の構成を示すブロック図である。

　＜実施形態１＞
　本発明の第１の実施形態を、図２乃至図６を参照して説明する。図２は、ラベル修正支援装置の構成を説明するための図であり、図３乃至６は、ラベル修正支援装置の動作を説明するための図である。

　［構成］
　本発明は、図１に示すようなラベル修正支援装置１で構成される。ラベル修正支援装置１は、演算装置と記憶装置１０とを備えた１台又は複数台の情報処理装置にて構成される。そして、ラベル修正支援装置１は、演算装置がプログラムを実行することで構築された、ラベル修正対象提示方法決定装置２０と提示・修正装置３０とを備える。そして、ラベル修正対象提示方法決定装置２０は、特徴量抽出装置２１、画像選別装置２２、クラスタリング装置２３、クラスタ選別・並び替え装置２４、を備える。以下、各構成について詳述する。

　まず、本発明のラベル修正支援装置１は、ニューラルネットで用いられる学習データに対するラベル付けの修正を支援するものである。具体的に、ラベル修正支援装置１は、後述するように、ユーザに学習データを提示し、フィードバックを得て、当該学習データのラベルを修正する機能を有する。このため、ラベル修正支援装置１は、学習データが属するクラスが互いに排他的な多クラス分類問題に適用可能である。この問題とは、例えば、対象となる学習データが画像である場合に、かかる画像が「犬」、「猫」のいずれなのかを分類するような問題である。以降では、分類するクラス数をＣ（上の例ではＣ＝２）とする。但し、本発明で対象となる学習データは、画像であることに限定されない。

　上記記憶装置１０は、学習データ、ニューラルネットモデル、各種設定値を記憶する。このとき、学習データは、画像とラベルの組からなり、複数存在する。

　上記ラベル修正対象提示方法決定装置２０は、記憶装置１０からの学習データ、ニューラルネットモデル、各種設定値を入力として、後述するように、いくつかの類似画像クラスタをラベル付けの判断基準が曖昧なものから順に並べたものを出力する装置である。

　上記特徴量抽出装置２１（特徴量抽出部）は、記憶装置１０からの学習データおよびニューラルネットモデルを入力として、学習データであるN枚の画像それぞれの特徴量x_n(n=1,…,N)（第１の特徴量）を出力する装置である。この特徴量抽出装置２１では、ニューラルネットの最後に位置する分類活性化層の手前の分類層への入力ベクトルを特徴量として抽出する。このとき、分類層とは、直前の層の各ニューロンの出力を要素として持つ特徴量ベクトルx_nを入力として、クラス数C個の超平面w_c・x+b=0(c=1,…,C)からの距離それぞれを要素として持つC次元の分類ベクトルzを出力する層である。また、分類活性化層とは、分類ベクトルzを入力として、各次元の値をSoftmax関数等の活性化関数により活性化したC次元のベクトルyを出力とする層である。この時、このベクトルの各要素y_c(c=1,…C)はそれぞれ、入力された画像がどれだけその要素に対応するクラスらしいか（学習データが属するクラスに対する確からしさ）を表す確信度y_cとみなすことができる。

　上記画像選別装置２２（特徴量選択部）は、特徴量抽出装置２１からの特徴量x_nと、記憶装置１０からの各種設定値を入力として、曖昧な判断基準でラベル付けされた画像の特徴量x_m(m=1,…,M)のみを選別して出力する装置である。ここで、Mは、選別後の特徴量の数である。この選別は、上述した確信度y_cや特徴量x_nを用いた任意の方法により実現できる。例えば、確信度y_cが予め設定された範囲内に含まれるか否かにより選別するという方法や、その範囲を確信度y_cの平均値や分散から算出される値とするという方法などが考えられる。一例としては、確信度y_cが記憶装置１０に記憶された設定値としての閾値よりも低い特徴量を選別する。これにより、画像選別装置２２は、後述するように、クラスタリング装置２３において発生する、明確な判断基準でラベル付けされた画像が曖昧な判断基準でラベル付けされた画像と同一クラスタにクラスタリングされる、という問題を抑制する役割を果たしている。なお、選別で必要となる設定値としては、各種設定値内の画像選別設定値を用いる。

　上記クラスタリング装置２３（クラスタリング部）は、記憶装置１０からのニューラルネットモデル及び各種設定値と、画像選別装置２２からの選別された特徴量x_mとを入力として、ニューラルネットモデルに基づいて学習データの特徴量x_mをクラスタリングする。そして、クラスタリング結果(各特徴量、各クラスに対するクラスタID)k_m,c(m=1,…,M: c=1,…,C)を出力する。具体的に、クラスタリング装置２３は、まず選別された特徴量x_mをニューラルネットモデルのそれぞれのクラスcに対応する識別平面に正射影することで変換する。つまり、図３に示すように、学習データが属するクラスに対応する識別平面に、かかる学習データの特徴量を正射影することで、当該特徴量の次元を圧縮して変換する。なお、識別平面への正射影は、例えば図３に示す式にて行われる。次に、クラスタリング装置２３は、変換した特徴量x’_m,c（第２の特徴量）に対して、ニューラルネットモデルを用いてクラスタリングを行う。この時、クラスタリング手法としては例えば、一般的に知られているk-means法、Mean-Shift法等を用いた方法などが考えられる。

　このように、クラスタリング装置２３は、選別された特徴量x_mを変換する機能を有しており、かかる機能が、上述した「ニューラルネットから得られる特徴量は、異なるラベルが付与されたもの同士が識別平面と垂直方向に離れるという性質を持つため、異なるラベル付けがされた類似画像同士、すなわち曖昧な判断基準によりラベル付けされた画像同士が同じクラスタにまとまりづらい」というような問題に対処する役割を果たしている。この時、上述したクラスの識別平面への正射影により確信度方向の情報が失われるが、上述した画像選別装置２２で既に変換対象の特徴量を選別しており、かかる情報を補う役割を果たしている。なお、k-means法等で必要となる設定値としては、各種設定値内のクラスタリング設定値を用いる。

　上記クラスタ選別・並び替え装置２４（修正対象選択部）は、記憶装置１０からの各種設定値、画像選別装置２２からの選別された特徴量x_m、および、クラスタリング装置２３からのクラスタリング結果k_m,cを入力として、クラスタ並び替え情報を出力する装置である。具体的に、クラスタリング選別・並び替え装置２４は、クラスタリングされたクラスタ内の特徴量に付与されたラベルの乱雑さを曖昧度a_kとしてクラスタkに付与し、その曖昧度a_kやクラスcを基準としてクラスタkを並べ、提示条件に満たないクラスタkを除外する。つまり、除外されていないクラスタに属する学習データを、当該学習データが属するクラスを修正する対象として選択する。この時、並べ方としては、クラスc順に並べた後でその中で曖昧度a_kの大きいものから順に並べるという方法や、クラスを無視して曖昧度a_kの大きいものから順に並べるという方法が考えられる。

　なお、クラスタ選別・並び替え装置２４による曖昧度a_kの計算方法としては、例えば、クラスタ内のラベル付けについてのエントロピーを用いた方法、ラベル付けの単純な比率を用いた方法などが考えられる。さらに、提示条件の計算方法としては、例えば、曖昧度a_kと閾値との比較による方法、クラスタkの曖昧度a_kの順位と閾値との比較による方法等が考えられる。加えて、曖昧度a_kの閾値の設定方法としては、例えば、単に固定値を用いる方法や、他クラスタの曖昧度a_k’にある固定値を足したものを用いる方法などが考えられる。なお、本装置で必要となる設定値としては、各種設定値内のクラスタ選別・並び替え設定値を用いる。

　上記提示・修正装置３０（クラス設定部）は、記憶装置１０からの学習データ、クラスタリング装置２３からのクラスタリング結果、クラスタ選別・並び替え装置２４からのクラスタ並び替え情報を入力として、ユーザに修正対象の学習データである修正対象画像と当該画像が属するクラスを表すラベルとを、クラスタ毎に順に提示する。そして、提示・修正装置３０は、提示した修正対象画像に対してユーザから入力されたラベルの修正情報に基づいて、記憶装置１０に記憶されている学習データが属するクラスを表すラベルを更新して設定する。ここで、提示・修正方法の一例を図４に示す。上述した方法によりラベル付けの判断基準が曖昧な類似する画像である学習データとラベルがまとめて提示される。この例では、「？」マークの欄に修正後のラベルを入力するようユーザに求めている。また、「矢印」マークの押下により、前あるいは次のクラスタが表示されるようなインターフェースを備えている。

　［動作］
　次に、上述したラベル修正支援装置１の動作を、図５乃至図６のフローチャートを参照して説明する。なお、図５は、ラベル修正支援装置１の全体的な動作を示し、図６は、クラスタリング装置２３の動作を示す。

　まず、特徴量抽出装置２１が、記憶装置１０からの学習データおよびニューラルネットモデルを入力として、学習データの特徴量x_n(n=1,…,N)（第１の特徴量）を抽出する（ステップＳ１）。このとき、特徴量抽出装置２１は、学習データの特徴量に基づいて、かかる学習データが属するクラスに対する確信度y_cも算出する。

　続いて、画像選別装置２２が、特徴量x_nと確信度y_cを用いて、曖昧な判断基準でラベル付けされたと判断できる画像の特徴量x_m(m=1,…,M)のみを選別する（ステップＳ２）。そして、クラスタリング装置２３が、選択された特徴量を用いて、以下に説明する特徴量変換（ステップＳ３）とクラスタリング（ステップＳ４）を行う。

　ここで、クラスタリング装置２３による処理動作を図６のフローチャートを参照して説明する。まず、クラスタリング装置２３は、記憶装置１０、画像選別装置２２から、それぞれニューラルネットモデル、選択された特徴量x_m(m=1,…,M)を受け取る（ステップＳ１１）。この時、Ｍは、画像選別装置２２で選択された特徴量の個数である。また、ニューラルネットモデルには、分類層の、各クラスc(=1,…,C)それぞれに対応する重みパラメタw_cおよびバイアスパラメタb_cが含まれる。

　続いて、クラスタリング装置２３は、変数の初期化、つまり、c = 1とする（ステップＳ１２）。続いて、クラスタリング装置２３は、選択された特徴量を、識別平面へ正射影する（ステップＳ１３）。具体的には、ニューラルネットモデルの重みパラメタw_cおよびバイアスパラメタb_cを用いて、全ての選択された特徴量x_mを、それぞれ図３に示した式を用いて、対応するクラスcの識別平面に正射影した特徴量x’_m,c（第２の特徴量）に変換する。

　続いて、クラスタリング装置２３は、k-means法やMean-Shift法により、正射影した特徴量x’_m,cをクラスタリングする（ステップＳ１４）。これにより、正射影した特徴量x’_m,cが属するクラスタID k_m,c (=1,…,K)が得られる。この時、Kはクラスタの個数である。

　その後、クラスタリング装置２３は、c の値を c + 1に更新し（ステップＳ１５）、c <= Cであれば（ステップＳ１６でＮｏ）、次のクラスに関するクラスタリングを行う（ステップＳ１３～Ｓ１５）。c = Cであれば（ステップＳ１６でＹｅｓ）、クラスタリング結果(k_m,c(m=1,…,M: c=1,…C))をクラスタ選別・並び替え装置２４に送る（ステップＳ１７）。

　続いて、クラスタ選別・並び替え装置２４は、クラスタリングされたクラスタ内の特徴量に付与されたラベルの乱雑さを曖昧度a_kとしてクラスタkに付与し、その曖昧度a_kやクラスcを基準としてクラスタkを並べ、クラスを修正する対象とする学習データである画像を選択する（ステップＳ５）。

　そして、提示・修正装置３０は、図４に示すように、ユーザに修正対象の学習データである画像とラベルとを、クラスタ毎に順に提示する（ステップＳ６）。提示・修正装置３０は、提示した修正対象画像に対してユーザから入力されたラベルの修正情報に基づいて、記憶装置１０に記憶されている学習データが属するクラスを表すラベルを更新して設定する（ステップＳ７）。

　以上のように、本発明では、ニューラルネットから得られる特徴量は、異なるラベルが付与されたもの同士が識別平面と垂直方向に離れるという性質を持つため、異なるラベル付けがされた類似画像同士、すなわち曖昧な判断基準によりラベル付けされた画像同士が同じクラスタにまとまりづらい、という問題を解消することができる。その理由は、本発明が、選別した特徴量の識別平面への正射影をクラスタリングし、そのクラスタの選別・並び替えをすることで修正対象の提示方法を決定する機能を持つからである。

　＜実施形態２＞
　次に、本発明の第２の実施形態を、図７を参照して説明する。図７は、本実施形態におけるラベル修正支援装置１の構成を示す図である。

　本実施形態におけるラベル修正支援装置１は、演算装置がプログラムを実行することで構築されたラベル自動修正装置４０を備える。ラベル自動修正装置４０は、クラスタリング装置２３からのクラスタリング結果、クラスタ選別・並び替え装置２４からのクラスタ並び替え情報を入力として、記憶装置１０の学習データを更新する装置である。この時、更新方法としては、例えば、提示されるクラスタ毎にランダムにラベルを選択し、そのクラスタ内の画像全てのラベルを、当該選択されたラベルに更新するという方法や、クラスタ内の全画像の確信度の平均値が閾値を超えるか否かによってラベルを選択し、ラベルを更新するという方法等が考えられる。このように、本実施形態では、画像のラベルを一括で、また、自動で更新することで、ラベル修正が容易となる。

　＜実施形態３＞
　次に、本発明の第３の実施形態を、図８を参照して説明する。図８は、本実施形態におけるラベル修正支援装置１の構成を示す図である。

　本実施形態におけるラベル修正支援装置１は、実施形態１で説明したラベル修正支援装置１が備える構成に加えて、演算装置がプログラムを実行することで構築された設定値更新装置５０をさらに備える。設定値更新装置５０は、各種設定値をユーザに提示し、ユーザからその更新値を受け取り、かかる更新値に基づいて記憶装置１０に記憶されている上述したような各種設定値を更新する機能を有する。

　＜実施形態４＞
　次に、本発明の第４の実施形態を、図９を参照して説明する。図９は、実施形態４における情報処理装置の構成を示すブロック図である。なお、本実施形態では、実施形態１で説明したラベル修正支援装置１の構成の概略を示している。

　図９に示すように、本実施形態における情報処理装置１００は、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部１１０と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部１２０と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部１３０と、
を備える。

　なお、上記特徴量抽出部１１０とクラスタリング部１２０と修正対象選択部１３０とは、情報処理装置がプログラムを実行することで実現されるものである。

　そして、上記構成の情報処理装置１００は、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出し、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングし、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する、
という処理を実行するよう作動する。

　上記発明によると、学習データの第１の特徴量を、当該学習データが属するクラスに対応する情報に基づいて第２の特徴量に変換してクラスタリングすることで、クラスを修正する対象となる学習データを選択することができる。その結果、学習データのラベル修正に要する工数の削減とラベル付けの精度の向上を図ることができる。

　＜付記＞
　上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を備えた情報処理装置。

（付記２）
　付記１に記載の情報処理装置であって、
　前記クラスタリング部は、前記第１の特徴量の次元を圧縮して前記第２の特徴量に変換する、
情報処理装置。

（付記３）
　付記１又は２に記載の情報処理装置であって、
　前記クラスタリング部は、前記ニューラルネットモデルにおける前記学習データが属するクラスに対応する識別平面に、前記第１の特徴量を正射影して当該第１の特徴量を前記第２の特徴量に変換する、
情報処理装置。

（付記４）
　付記１乃至３のいずれかに記載の情報処理装置であって、
　前記第１の特徴量に基づく値に基づいて当該第１の特徴量を選択する特徴量選択部をさらに備え、
　前記クラスタリング部は、選択された前記第１の特徴量を前記第２の特徴量に変換する、
情報処理装置。

（付記５）
　付記４に記載の情報処理装置であって、
　前記特徴量選択部は、前記第１の特徴量に基づく前記学習データが属するクラスに対する確からしさを表す値に基づいて前記第１の特徴量を選択する、
情報処理装置。

（付記６）
　付記１乃至５のいずれかに記載の情報処理装置であって、
　前記修正対象選択部は、クラスタリングされた前記第２の特徴量が属するクラスタ内における当該第２の特徴量の元となる前記学習データが属するクラスの乱雑さに基づいて、クラスを修正する対象となる前記学習データを選択する、
情報処理装置。

（付記７）
　付記１乃至６のいずれかに記載の情報処理装置であって、
　クラスを修正する対象として選択された前記学習データが属するクラスを変更設定するクラス設定部を備えた、
情報処理装置。

（付記８）
　情報処理装置に、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を実現させるためのプログラム。

（付記８．１）
　付記８に記載のプログラムであって、
　前記情報処理装置に、
　前記第１の特徴量に基づく値に基づいて当該第１の特徴量を選択する特徴量選択部をさらに実現させ、
　前記クラスタリング部は、選択された前記第１の特徴量を前記第２の特徴量に変換する、
プログラム。。

（付記８．２）
　付記８又は８．１に記載のプログラムあて、
　前記情報処理装置に、クラスを修正する対象として選択された前記学習データが属するクラスを変更設定するクラス設定部をさらに実現させるためのプログラム。

（付記９）
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出し、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングし、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する、
情報処理方法。

（付記１０）
　付記９に記載の情報処理方法であって、
　前記第１の特徴量の次元を圧縮して前記第２の特徴量に変換し、当該第２の特徴量をクラスタリングする、
情報処理方法。

（付記１１）
　付記９又は１０に記載の情報処理方法であって、
　前記ニューラルネットモデルにおける前記学習データが属するクラスに対応する識別平面に、前記第１の特徴量を正射影して当該第１の特徴量を前記第２の特徴量に変換し、当該第２の特徴量をクラスタリングする、
情報処理方法。

（付記１２）
　付記９乃至１１のいずれかに記載の情報処理方法であって、
　前記第１の特徴量に基づく値に基づいて当該第１の特徴量を選択し、
　選択された前記第１の特徴量を前記第２の特徴量に変換して、当該第２の特徴量をクラスタリングする、
情報処理方法。

（付記１３）
　付記１２に記載の情報処理方法であって、
　前記第１の特徴量に基づく前記学習データが属するクラスに対する確からしさを表す値に基づいて前記第１の特徴量を選択する、
情報処理方法。

（付記１４）
　付記９乃至１３のいずれかに記載の情報処理方法であって、
　クラスタリングされた前記第２の特徴量が属するクラスタ内における当該第２の特徴量の元となる前記学習データが属するクラスの乱雑さに基づいて、クラスを修正する対象となる前記学習データを選択する、
情報処理方法。

（付記１５）
　付記９乃至１４のいずれかに記載の情報処理方法であって、
　クラスを修正する対象として選択された前記学習データが属するクラスを変更設定する、
情報処理方法。

　なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

　なお、本発明は、日本国にて２０１８年９月１１日に特許出願された特願２０１８－１６９８２９の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

１　ラベル修正支援装置
１０　記憶装置
２０　ラベル修正対象提示方法決定装置
２１　特徴量抽出装置
２２　画像選別装置
２３　クラスタリング装置
２４　クラスタ選別・並び替え装置
３０　提示・修正装置
４０　ラベル自動修正装置
５０　設定値更新装置
１００　情報処理装置
１１０　特徴量抽出部
１２０　クラスタリング部
１３０　修正対象選択部

Claims

　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を備えた情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記クラスタリング部は、前記第１の特徴量の次元を圧縮して前記第２の特徴量に変換する、
情報処理装置。
　請求項１又は２に記載の情報処理装置であって、
　前記クラスタリング部は、前記ニューラルネットモデルにおける前記学習データが属するクラスに対応する識別平面に、前記第１の特徴量を正射影して当該第１の特徴量を前記第２の特徴量に変換する、
情報処理装置。
　請求項１乃至３のいずれかに記載の情報処理装置であって、
　前記第１の特徴量に基づく値に基づいて当該第１の特徴量を選択する特徴量選択部をさらに備え、
　前記クラスタリング部は、選択された前記第１の特徴量を前記第２の特徴量に変換する、
情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記特徴量選択部は、前記第１の特徴量に基づく前記学習データが属するクラスに対する確からしさを表す値に基づいて前記第１の特徴量を選択する、
情報処理装置。
　請求項１乃至５のいずれかに記載の情報処理装置であって、
　前記修正対象選択部は、クラスタリングされた前記第２の特徴量が属するクラスタ内における当該第２の特徴量の元となる前記学習データが属するクラスの乱雑さに基づいて、クラスを修正する対象となる前記学習データを選択する、
情報処理装置。
　請求項１乃至６のいずれかに記載の情報処理装置であって、
　クラスを修正する対象として選択された前記学習データが属するクラスを変更設定するクラス設定部を備えた、
情報処理装置。
　情報処理装置に、
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出する特徴量抽出部と、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングするクラスタリング部と、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する修正対象選択部と、
を実現させるためのプログラム。
　ニューラルネットモデルを用いて学習データの第１の特徴量を抽出し、
　前記ニューラルネットモデルに設定された前記学習データが属するクラスに対応する情報に基づいて、前記第１の特徴量を第２の特徴量に変換して、当該第２の特徴量をクラスタリングし、
　前記第２の特徴量のクラスタリング結果に基づいてクラスを修正する対象となる前記学習データを選択する、
情報処理方法。
　請求項９に記載の情報処理方法であって、
　前記第１の特徴量の次元を圧縮して前記第２の特徴量に変換し、当該第２の特徴量をクラスタリングする、
情報処理方法。
　請求項９又は１０に記載の情報処理方法であって、
　前記ニューラルネットモデルにおける前記学習データが属するクラスに対応する識別平面に、前記第１の特徴量を正射影して当該第１の特徴量を前記第２の特徴量に変換し、当該第２の特徴量をクラスタリングする、
情報処理方法。
　請求項９乃至１１のいずれかに記載の情報処理方法であって、
　前記第１の特徴量に基づく値に基づいて当該第１の特徴量を選択し、
　選択された前記第１の特徴量を前記第２の特徴量に変換して、当該第２の特徴量をクラスタリングする、
情報処理方法。
　請求項１２に記載の情報処理方法であって、
　前記第１の特徴量に基づく前記学習データが属するクラスに対する確からしさを表す値に基づいて前記第１の特徴量を選択する、
情報処理方法。
　請求項９乃至１３のいずれかに記載の情報処理方法であって、
　クラスタリングされた前記第２の特徴量が属するクラスタ内における当該第２の特徴量の元となる前記学習データが属するクラスの乱雑さに基づいて、クラスを修正する対象となる前記学習データを選択する、
情報処理方法。
　請求項９乃至１４のいずれかに記載の情報処理方法であって、
　クラスを修正する対象として選択された前記学習データが属するクラスを変更設定する、
情報処理方法。