WO2023166579A1

WO2023166579A1 - ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Info

Publication number: WO2023166579A1
Application number: PCT/JP2022/008750
Authority: WO
Inventors: 哲孝山下; 卓郎鹿嶋; 憲人大井; 秋紗子藤井
Original assignee: 日本電気株式会社
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-09-07

Abstract

分類手段１９１は、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する。探索手段１９２は、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する。出力手段１９３は、クラスタごとに、探索された共通点に関する情報を出力する。

Description

ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

　本発明は、ラベル付けされていないデータに対するラベリングを支援するラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムに関する。

　ＩｏＴ（Internet of Things）社会において、様々な機器からデータを収集することが可能になっている。そして、収集される大量のデータを用いて行われるデータの検索やＡＩ（Artificial Intelligence ）の学習には、データの分類が重要になる。

　このような状況において、データの分類を支援する方法が各種提案されている。例えば、特許文献１には、多数のセンサにより得られるセンサデータをその特徴に応じて分類するセンサデータ分類装置が記載されている。特許文献１に記載された装置は、予め設定した時間区間ごとに分割されたセンサデータの集合をセンサ識別子および分割区間識別子と関連付け、分割データの集合に含まれるデータからその複数種の特徴パラメータを算出する。

特開２０１６－９９８８８号公報

　例えば、データの特徴量を抽出してクラスタに分類した場合、クラスタへの意味付け（ラベリング）を行うことが重要である。しかし、クラスタ化された個々のデータを見てラベリングするのは非常にコストのかかる作業であり、特にそのクラスタに含まれるデータ量が大量である場合、その影響は顕著である。

　さらに、例えば、分類対象のデータが動画であるような場合、そのデータの確認には時間がかかる。また、分類対象のデータに複数のセンサデータが含まれる場合、どのデータに着目すべきか判断することも煩雑な作業になる。

　特許文献１に記載された装置では、分類を行うための特徴パラメータの計算方法や、分割区間を予め定められる。しかし、何らかの基準に基づいて算出された数値からデータを分類したとしても、ラベル付けされていないデータに対して意味のあるラベリング作業を行うには、やはりコストがかかってしまうという問題がある。

　そこで、本発明は、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できるラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムを提供することを目的とする。

　本発明によるラベリング支援システムは、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索手段と、クラスタごとに、探索された共通点に関する情報を出力する出力手段とを備えたことを特徴とする。

　本発明によるラベリング支援方法は、コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、コンピュータが、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索し、コンピュータが、クラスタごとに、探索された共通点に関する情報を出力することを特徴とする。

　本発明によるラベリング支援プログラムは、コンピュータに、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索処理、および、クラスタごとに、探索された共通点に関する情報を出力する出力処理を実行させることを特徴とする。

　本発明によれば、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。ラベリング支援システムで利用されるデータの例を示す説明図である。特徴量の例を示す説明図である。次元削減されたデータをグラフで可視化した例を示す説明図である。センサごとの寄与度をグラフ表示した例を示す説明図である。クラスタ内におけるセンサ値の分布の例を示す説明図である。クラスタ内における統計量の例を示す説明図である。ラベリング支援システムの動作例を示すフローチャートである。本発明によるラベリング支援システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。以下の説明では、ラベル付けされていないデータの一例として、動画（映像データ）を例示する。ただし、ラベル付けされていないデータは、動画に限られず、例えば、静止画や、音楽データ、テキストデータなどであってもよい。また、ラベル付けされていないデータ（ラベリング対象のデータ）のことを、以下、未分類データと記すこともある。

　図１は、本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。本実施形態のラベリング支援システム１は、データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、特徴記憶部７０と、可視化処理部８０と、入出力装置９０とを備えている。

　データ取得部１０は、ラベリング対象のデータ（すなわち、未分類データ）を取得する。例えば、カメラ（図示せず）によって走行する車両が撮像されている場合、データ取得部１０は、ラベリング対象のデータとして、そのカメラが撮影した車両の動画を取得してもよい。なお、データ取得部１０が取得するデータは、リアルタイムで取得されるデータに限られない。データ取得部１０は、例えば、ラベリング対象のデータが記憶されたストレージサーバ（図示せず）から、ラベリング対象のデータを取得してもよい。

　関連情報取得部２０は、ラベリング対象のデータに関連する情報（以下、関連情報と記す。）を取得する。本実施形態では、関連情報は、ラベリング対象のデータの生成された状況を示す情報であり、例えば、データが生成された場所（撮像された場所）や時間を表わす情報、センサにより取得されたデータ（以下、センサデータと記す。）である。

　例えば、ラベリング対象のデータが、車載カメラ（ドライブレコーダ）で撮像された映像データである場合、関連情報として車両位置を表わすＧＰＳ（Global Positioning System ）情報や、ＣＡＮ（Controller Area Network ）に基づいて取得される情報などが挙げられる。この場合に取得されるセンサデータの例が、速度や加速度、位置（緯度、経度、高度など）である。

　また、ラベリング対象のデータとして火力発電所の稼働状況を示す映像が用いられる場合、センサデータとして、例えば、燃料の流量、圧力、温度、回転数、発電量などが挙げられる。他にも、ラベリング対象のデータとして農場の状況を示す映像が用いられる場合、センサデータとして、時間や温度、湿度、ｐＨ、土壌水分量、日射量、風向・風速、水位などが挙げられる。

　物体識別部３０は、取得されたデータに含まれる物体を識別し、識別した物体を特定する情報（以下、オブジェクトリストと記す。）を生成する。例えば、識別対象の物体が車両の場合、物体識別部３０は、データ取得部１０が取得したデータから、車両を識別し、その車両を特定する情報（例えば、画像中の位置を示す座標等）をオブジェクトリストとして生成してもよい。なお、画像や映像から物体を識別する方法は広く知られており、ここでは詳細な説明は省略する。

　データ加工部４０は、後述する特徴抽出部６０が処理を行う際に用いることができる態様にデータ（より具体的には、オブジェクトリスト）を加工する。具体的には、データ加工部４０は、特徴抽出やクラスタリングの精度を向上させられるようにデータを加工する。データ加工部４０は、例えば、データの間引きや、欠損値の補間、外れ値の除外、不要なデータ項目の削除などを行う。また、例えば、ラベリング対象のデータが映像データの場合、データ加工部４０は、映像データを数値時系列データへ変換してもよい。

　テキスト情報入力部５０は、ラベリング対象の各データに付加する情報（以下、付加情報と記す。）を含むテキストデータの入力を受け付ける。付加情報は、関連情報以外で取得し得るラベリング対象のデータの内容を示す情報である。付加情報を示すカテゴリとして、例えば、天気や植物の種類、交通参加者などが挙げられる。天気のカテゴリ値の例として、晴れ・曇り・雨・雪などが挙げられ、植物の種類のカテゴリ値の例として、米・小麦・大麦などが挙げられ、交通参加者の例として、自動車・自転車・歩行者などが挙げられる。

　なお、テキストデータの入力は任意である。すなわち、ラベリング対象のデータに対する付加情報が入力されていなくてもよい。ただし、ラベリング対象のデータに付加情報が増えるほど、分類の精度を向上できるため、入力されることが好ましい。以下の説明では、付加情報が対応付けられたラベリング対象のデータも、単にラベリング対象のデータと記す。

　図２は、本実施形態のラベリング支援システム１で利用されるデータの例を示す説明図である。図２に示す例では、データ取得部１０がラベリング対象のデータとして映像１１を取得し、関連情報取得部２０は、映像１１が撮影された場所等に関する関連情報２１を取得したことを示す。また、図２に示す例では、データ加工部４０が、映像１１および関連情報２１（より具体的には、物体識別部３０により生成されたオブジェクトリスト）を加工して数値時系列データ４１を生成したことを示す。さらに、図２に示す例では、テキスト情報入力部５０が、付加情報として、天気、シーン、時間帯および物体に関する情報を含むテキストデータ５１の入力を受け付けたことを示す。

　特徴抽出部６０は、ラベリング対象の各データから特徴を抽出する。本実施形態の特徴抽出部６０は、付加情報を含むラベリング対象の各データを教師なし学習により自動的に分類することで複数のクラスタを生成する。教師なし学習によりクラスタを生成する方法は任意であり、例えば、ｋ－ｍｅａｎｓ法や、混合ガウスモデルなどが挙げられる。

　そして、特徴抽出部６０は、生成したクラスタに含まれる各データの特徴量を抽出する。特徴抽出部６０は、例えば、テキストデータに含まれている付加情報を特徴量として抽出してもよい。他にも、特徴抽出部６０は、数値時系列データが示す特徴量を抽出してもよい。具体的には、特徴抽出部６０は、ラベリング対象のデータ（より具体的には、数値時系列データ）に含まれるセンサ値に基づいて特徴量を抽出してもよい。

　なお、数値時系列データから特徴量を抽出する方法は任意である。例えば、ｋ－ｍｅａｎｓ法により生成された各クラスタについて、特徴抽出部６０は、クラスタに含まれる数値時系列データの重心点から各データまでの距離（cluster distance feature）という特徴量を抽出してもよい。

　このように、特徴抽出部６０は、ラベリング対象のデータを教師なし学習により分類する処理を行うことから、分類手段ということもできる。また、本実施形態では、データ取得部１０と関連情報取得部２０により取得された情報から物体識別部３０が物体を識別し、識別結果に対してデータ加工部４０が、特徴抽出部６０が用いる形式にデータを加工する場合について説明した。ただし、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力してもよい。この場合、ラベリング支援システム１は、関連情報取得部２０、物体識別部３０およびデータ加工部４０を備えていなくてもよい。

　特徴記憶部７０は、特徴抽出部６０が抽出した各データの特徴量を記憶する。特徴記憶部７０がデータごとの特徴量を記憶する態様は任意である。図３は、特徴記憶部７０が記憶する特徴量の例を示す説明図である。図３に示す例では、縦方向が１つの特徴点を表わし、横方向が各カテゴリ（例えば、天気、交通参加者、植物の種類など）の特徴量（カテゴリ値）を表わしている。特徴記憶部７０は、例えば、磁気ディスク等により実現される。

　可視化処理部８０は、生成されたクラスタに対するラベリング作業に寄与する情報を可視化するための処理を行う。可視化処理部８０は、探索部８１と、出力部８２とを含む。

　探索部８１は、生成されたクラスタごとに、そのクラスタに含まれるラベリング対象の各データの共通点を探索する。具体的には、探索部８１は、生成されたクラスタに含まれる各データの特徴量を抽出し、抽出された各データの特徴量の共通点を探索する。探索部８１は、特徴量として、抽出された各カテゴリにおけるカテゴリ値の共通点を探索してもよく、数値時系列データに基づいて抽出される特徴量の共通点を探索してもよい。

　例えば、上記に示すカテゴリに着目した場合、探索部８１は、クラスタ内のデータでカテゴリ値が共通する割合が予め定めた閾値を超えた場合、そのカテゴリ値を共通点としてもよい。具体的には、割合は、クラスタ内のデータ数に対する共通点を含むデータ数の比率に基づいて算出できる。なお、この場合、探索部８１は、全カテゴリのカテゴリ値について共通点を探索してもよく、任意の一部のカテゴリのカテゴリ値について共通点を探索してもよい。

　他にも、共通点を探索する処理として、探索部８１は、ラベリング対象のデータが示すカテゴリごとに、最も共通するカテゴリ値（例えば、数値であれば最頻値）を共通点として探索してもよい。そして、探索部８１は、最も共通するカテゴリ値の割合が最も高いカテゴリ値を共通点として特定してもよい。

　また、例えば、数値時系列データが示すセンサ値に基づいて特徴量が抽出される場合、探索部８１は、特徴量に対するセンサ値の寄与度を算出してもよい。例えば、ラベリング対象のデータのセンサ値と特徴量との関係が、センサ値の線形式で表現される場合、探索部８１は、線形式に含まれるセンサ値の重みを寄与度とし、最も重みが大きいセンサ値を共通点として特定してもよい。

　出力部８２は、探索された共通点に関する情報を出力する。出力部８２は、クラスタごとに探索された共通点に関する情報を、入出力装置９０に出力して表示させてもよく、ラベリング支援システム１が備える記憶部（図示せず）に出力して記憶させてもよい。

　具体的には、出力部８２は、探索された共通点のうち、最も共通性の度合いが高い共通点を１つ出力してもよい。例えば、カテゴリ値が共通点として特定された場合、出力部８２は、そのカテゴリ値の名称とカテゴリ値（例えば、「天気：晴れ」など）を出力してもよい。また、例えば、センサ値が共通点として特定された場合、出力部８２は、センサ値と、そのセンサ値を得たセンサの名称を出力してもよい。

　さらに、特徴量に対するセンサ値の寄与度が算出されている場合、出力部８２は、寄与度が最も大きいセンサ値を共通点として、そのセンサ値とセンサ値の名称を出力してもよい。

　また、出力部８２は、クラスタ内で探索された複数の共通点の候補を、その共通点の共通性の度合いに応じて出力してもよい。出力部８２は、例えば、共通性の度合いそのものを出力してもよく、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力してもよい。

　また、出力部８２は、各クラスタ内の未分類データ（すなわち、ラベリング対象のデータ）に対して、探索された共通点を示す情報を直接ラベリングして出力してもよい。この場合、出力部８２は、最も共通性の度合いが高い共通点を示す情報をラベリングして出力すればよい。

　さらに、出力部８２は、ラベリング対象のデータをクラスタ化した様子を人間が観察できるように、ラベリング対象のデータを次元削減（低次元化）したものを、入出力装置９０にグラフ描画することで可視化してもよい。出力部８２は、例えば、ＵＭＡＰ（Uniform Manifold Approximation and Projection ）などにより、２次元または３次元にラベリング対象のデータを次元削減し、次元削減されたデータを、分布図などのグラフとして可視化してもよい。その際、出力部８２は、同一のクラスタに分類されたデータを、他のクラスタと異なる態様（例えば、色を変える、記号を変える、など）で表示してもよい。

　図４は、次元削減されたデータをグラフで可視化した例を示す説明図である。図４に例示するグラフは、ＵＭＡＰにより２次元に次元削減したデータを、属するクラスタごとに態様（斜線、黒塗り等）を変えて表示した例を示す。また、図４に例示するように、出力部８２は、クラスタに含まれるデータの範囲を特定できるように、その範囲を囲む表示をしてもよい。

　さらに、グラフ描画の際、出力部８２は、全てのデータを表示してもよいし、特定の条件を満たすデータのみ表示する又は表示しないと決定してもよい。出力部８２は、例えば、特定の条件を満たすクラスタ（例えば、データ数が所定数よりも多いクラスタ、など）や、未分類のデータ（すなわち、ラベリングされていないデータ）を対象に、表示するか表示しないか判断してもよい。

　また、特徴量に対するセンサ値の寄与度が算出されている場合、出力部８２は、クラスタ内におけるセンサごとの寄与度をグラフ表示してもよい。図５は、センサごとの寄与度をグラフ表示した例を示す説明図である。図５に示す例では、温度、湿度、および、水位を示すセンサ値を用いて各クラスタの特徴量が算出され、その特徴量の算出に用いられる各センサ値の寄与度を棒グラフで表示した例である。例えば、クラスタ２の特徴量は、他のクラスタと比較し、水位を示すセンサ値の寄与度が高いことを示す。

　なお、センサごとの寄与度の表示は、図５に例示する棒グラフに限定されず、例えば、集合縦棒グラフや折れ線グラフ、３次元面グラフなどであってもよい。

　また、出力部８２は、クラスタ内におけるセンサ値の分布を出力してもよい。図６は、クラスタ内におけるセンサ値の分布の例を示す説明図である。図６に示す例では、ラベリング対象のデータにセンサ値として、温度、湿度および水位が含まれ、図６に例示するように、センサ値ごとに分布を示すグラフを表示していることを示す。なお、図６に例示するグラフの縦軸方向が要素数を示し、横軸方向がセンサ値を示す。なお、クラスタ内におけるセンサ値の分布の表示は、図６に例示する分布図に限定されず、例えば、度数分布表やヒストグラムであってもよい。

　さらに、出力部８２は、クラスタ内における統計量を出力してもよい。図７は、クラスタ内における統計量の例を示す説明図である。図７に例示する統計量は、クラスタ内のデータに含まれる各センサ値の平均や分散、最大値や最小値を、クラスタごとに出力した例を示す。なお、出力した統計量は例示であり、他にも、中央値や最頻値など、任意の統計量が出力されればよい。

　入出力装置９０は、出力部８２による出力結果を表示する。また、入出力装置９０は、表示した結果に対するユーザからの入力を受け付け、入力に応じた処理を実行する。例えば、ユーザからクラスタを指定する入力を受け付けた場合、入出力装置９０は、指定されたクラスタに関する詳細な情報を表示してもよい。具体的には、入出力装置９０は、指定されたクラスタについて、出力部８２により生成された統計情報を表示してもよい。

　入出力装置９０は、タブレット端末などにより実現されてもよい。他にも、入出力装置９０は、ディスプレイ装置とポインティングデバイスを有する装置等により実現されてもよい。

　例えば、図４に例示するようなクラスタの範囲が表示されている場合、入出力装置９０は、対象とするクラスタの指定の入力をユーザから受け付け、受け付けたクラスタに関する情報（例えば、図５、図６、図７に例示する情報）を表示してもよい。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０（より具体的には、探索部８１と、出力部８２）とは、プログラム（ラベリング支援プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ））によって実現される。

　例えば、プログラムは、ラベリング支援システム１の記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、データ取得部１０、関連情報取得部２０、物体識別部３０、データ加工部４０、テキスト情報入力部５０、特徴抽出部６０、および、可視化処理部８０（より具体的には、探索部８１と、出力部８２）として動作してもよい。また、ラベリング支援システム１の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０（より具体的には、探索部８１と、出力部８２）とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、ラベリング支援システム１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態のラベリング支援システム１の動作を説明する。図８は、ラベリング支援システム１の動作例を示すフローチャートである。図８に例示する動作例は、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力した場合の動作例である。

　特徴抽出部６０は、ラベリング対象のデータから複数のクラスタを生成する（ステップＳ５１）。探索部８１は、生成されたクラスタごとにデータの共通点を探索する（ステップＳ５２）。そして、出力部８２は、探索された共通点に関する情報をクラスタごとに出力する（ステップＳ５３）。

　以上のように、本実施形態では、特徴抽出部６０が、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、探索部８１が、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する。そして、出力部８２が、クラスタごとに、探索された共通点に関する情報を出力する。そのような構成により、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

　また、出力部８２がラベリング対象のデータに自動的にラベリングを行ったり、ラベリング候補を出力したりすることで、人によるラベリングのコストを低減させ、また、人がそのラベルが付与される理由を把握できる。

　次に、本発明の概要を説明する。図９は、本発明によるラベリング支援システムの概要を示すブロック図である。本発明によるラベリング支援システム１９０（例えば、ラベリング支援システム１）は、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段１９１（例えば、特徴抽出部６０）と、生成されたクラスタごとに、そのクラスタに含まれるデータの共通点を探索する探索手段１９２（例えば、特徴抽出部６０）と、クラスタごとに、探索された共通点に関する情報を出力する出力手段１９３（例えば、出力部８２）とを備えている。

　そのような構成により、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

　また、分類手段１９１は、生成したクラスタに含まれる各データの特徴量を抽出し、探索手段１９２は、クラスタ内の各データについて抽出された特徴量の共通点を探索してもよい。

　また、分類手段１９１は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、探索手段１９２は、特徴量に対するセンサ値の寄与度を算出し、出力手段１９３は、寄与度が最も大きいセンサ値を共通点として出力してもよい。

　また、出力手段１９３は、クラスタ内におけるセンサごとの寄与度をグラフ表示してもよい。

　また、出力手段１９３は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力してもよい。

　また、出力手段１９３は、クラスタ内で探索された複数の共通点を、その共通点の共通性の度合いに応じて出力してもよい。

　また、出力手段１９３は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力してもよい。

　図１０は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述のラベリング支援システム１９０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（ラベリング支援プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、
　生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索手段と、
　前記クラスタごとに、探索された前記共通点に関する情報を出力する出力手段とを備えた
　ことを特徴とするラベリング支援システム。

（付記２）分類手段は、生成したクラスタに含まれる各データの特徴量を抽出し、
　探索手段は、クラスタ内の各データについて抽出された特徴量の共通点を探索する
　付記１記載のラベリング支援システム。

（付記３）分類手段は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、
　探索手段は、前記特徴量に対する前記センサ値の寄与度を算出し、
　出力手段は、前記寄与度が最も大きいセンサ値を共通点として出力する
　付記１または付記２記載のラベリング支援システム。

（付記４）出力手段は、クラスタ内におけるセンサごとの寄与度をグラフ表示する
　付記３記載のラベリング支援システム。

（付記５）出力手段は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力する
　付記１または付記２記載のラベリング支援システム。

（付記６）出力手段は、クラスタ内で探索された複数の共通点を、当該共通点の共通性の度合いに応じて出力する
　付記１から付記５のうちのいずれか１つに記載のラベリング支援システム。

（付記７）出力手段は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力する
　付記６記載のラベリング支援システム。

（付記８）コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、
　前記コンピュータが、生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索し、
　前記コンピュータが、前記クラスタごとに、探索された前記共通点に関する情報を出力する
　ことを特徴とするラベリング支援方法。

（付記９）コンピュータが、生成したクラスタに含まれる各データの特徴量を抽出し、
　前記コンピュータが、クラスタ内の各データについて抽出された特徴量の共通点を探索する
　付記８記載のラベリング支援方法。

（付記１０）コンピュータに、
　ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
　生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
　前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
　を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。

（付記１１）コンピュータに、
　分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
　探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
　ためのラベリング支援プログラムを記憶する付記１０記載のプログラム記憶媒体。

（付記１２）コンピュータに、
　ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
　生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
　前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
　を実行させるためのラベリング支援プログラム。

（付記１３）コンピュータに、
　分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
　探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
　付記１２記載のラベリング支援プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１　ラベリング支援システム
　１０　データ取得部
　２０　関連情報取得部
　３０　物体識別部
　４０　データ加工部
　５０　テキスト情報入力部
　６０　特徴抽出部
　７０　特徴記憶部
　８０　可視化処理部
　８１　探索部
　８２　出力部
　９０　入出力装置

Claims

　ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類手段と、
　生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索手段と、
　前記クラスタごとに、探索された前記共通点に関する情報を出力する出力手段とを備えた
　ことを特徴とするラベリング支援システム。
　分類手段は、生成したクラスタに含まれる各データの特徴量を抽出し、
　探索手段は、クラスタ内の各データについて抽出された特徴量の共通点を探索する
　請求項１記載のラベリング支援システム。
　分類手段は、ラベリング対象のデータに含まれるセンサ値に基づいて特徴量を抽出し、
　探索手段は、前記特徴量に対する前記センサ値の寄与度を算出し、
　出力手段は、前記寄与度が最も大きいセンサ値を共通点として出力する
　請求項１または請求項２記載のラベリング支援システム。
　出力手段は、クラスタ内におけるセンサごとの寄与度をグラフ表示する
　請求項３記載のラベリング支援システム。
　出力手段は、各クラスタ内のラベリング対象のデータに対して、探索された共通点を示す情報をラベリングして出力する
　請求項１または請求項２記載のラベリング支援システム。
　出力手段は、クラスタ内で探索された複数の共通点を、当該共通点の共通性の度合いに応じて出力する
　請求項１から請求項５のうちのいずれか１項に記載のラベリング支援システム。
　出力手段は、共通性の度合いが上位の共通点を、予め定めた順位までランキング形式でラベリング候補として出力する
　請求項６記載のラベリング支援システム。
　コンピュータが、ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成し、
　前記コンピュータが、生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索し、
　前記コンピュータが、前記クラスタごとに、探索された前記共通点に関する情報を出力する
　ことを特徴とするラベリング支援方法。
　コンピュータが、生成したクラスタに含まれる各データの特徴量を抽出し、
　前記コンピュータが、クラスタ内の各データについて抽出された特徴量の共通点を探索する
　請求項８記載のラベリング支援方法。
　コンピュータに、
　ラベリング対象のデータを教師なし学習により分類することで複数のクラスタを生成する分類処理、
　生成された前記クラスタごとに、当該クラスタに含まれる前記データの共通点を探索する探索処理、および、
　前記クラスタごとに、探索された前記共通点に関する情報を出力する出力処理
　を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。
　コンピュータに、
　分類処理で、生成したクラスタに含まれる各データの特徴量を抽出させ、
　探索処理で、クラスタ内の各データについて抽出された特徴量の共通点を探索させる
　ためのラベリング支援プログラムを記憶する請求項１０記載のプログラム記憶媒体。