WO2023166578A1

WO2023166578A1 - ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Info

Publication number: WO2023166578A1
Application number: PCT/JP2022/008749
Authority: WO
Inventors: 哲孝山下; 卓郎鹿嶋; 憲人大井; 秋紗子藤井
Original assignee: 日本電気株式会社
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-09-07

Abstract

第一分類手段１８１は、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する。第二分類手段１８２は、ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する。出力手段１８３は、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する。

Description

ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

　本発明は、ラベル付けされていないデータに対するラベリングを支援するラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムに関する。

　ＩｏＴ（Internet of Things）社会において、様々な機器からデータを収集することが可能になっている。一方、例えば、大量のデータの中から、目的とする映像を単純作業で見つけようとするのは、非常に困難である。そこで、収集されたデータを検索する仕組みが求められている。

　データを検索するための仕組みとして、そのデータに対するラベリングを行う方法が挙げられる。ただし、大量のデータに対するラベリングを人手で行うには膨大な時間およびコストがかかってしまうため、データを分類するための方法が各種提案されている。

　例えば、特許文献１には、多数のセンサにより得られるセンサデータをその特徴に応じて分類するセンサデータ分類装置が記載されている。特許文献１に記載された装置は、予め設定した時間区間ごとに分割されたセンサデータの集合をセンサ識別子および分割区間識別子と関連付け、分割データの集合に含まれるデータからその複数種の特徴パラメータを算出する。

特開２０１６－９９８８８号公報

　例えば、ルールベースで自動的にラベリングを行うことも考えられる。しかし、環境等の変化に応じてルールをメンテナンスする作業は煩雑であり、また、ルールの追加等の作業も容易ではない。

　特許文献１に記載された装置では、分類を行うための特徴パラメータの計算方法や、分割区間が予め定められる。しかし、何らかの基準に基づいて算出された数値からデータを分類したとしても、ラベル付けされていないデータに対して意味のあるラベリング作業を行うには、やはりコストがかかってしまうという問題がある。

　そこで、本発明は、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できるラベリング支援システム、ラベリング支援方法およびラベリング支援プログラムを提供することを目的とする。

　本発明によるラベリング支援システムは、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類手段と、ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類手段と、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力手段とを備えたことを特徴とする。

　本発明によるラベリング支援方法は、コンピュータが、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成し、コンピュータが、ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成し、コンピュータが、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力することを特徴とする。

　本発明によるラベリング支援プログラムは、コンピュータに、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類処理、ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類処理、および、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力処理を実行させることを特徴とする。

　本発明によれば、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。ラベリング支援システムで利用されるデータの例を示す説明図である。特徴量の例を示す説明図である。次元削減されたデータをグラフで可視化した例を示す説明図である。次元削減されたデータをグラフで可視化した他の例を示す説明図である。クラスタ内のデータにラベル付けを行う処理の例を示す説明図である。一部のクラスタを選択する処理の例を示す説明図である。データの一部を除外する処理の例を示す説明図である。精緻化前後の結果をオーバレイ表示した例を示す説明図である。精緻化前後の結果を並列窓で表示した例を示す説明図である。精緻化前後の結果を並列窓で表示した例を示す説明図である。精緻化前後で異なる結果になったデータを別窓でリスト表示した例を示す説明図である。複数回の精緻化結果をオーバレイ表示した例を示す説明図である。複数回の精緻化により異なる結果になったデータを別窓でリスト表示した例を示す説明図である。各クラスタの統計情報を表示した例を示す説明図である。各クラスタの統計情報を表示した他の例を示す説明図である。ラベリング支援システムの動作例を示すフローチャートである。本発明によるラベリング支援システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。以下の説明では、ラベル付けされていないデータの一例として、動画（映像データ）を例示する。ただし、ラベル付けされていないデータは、動画に限られず、例えば、静止画や、音楽データ、テキストデータなどであってもよい。また、ラベル付けされていないデータ（ラベリング対象のデータ）のことを、以下、未分類データと記すこともある。

　図１は、本発明によるラベリング支援システムの一実施形態の構成例を示すブロック図である。本実施形態のラベリング支援システム１は、データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、特徴記憶部７０と、可視化処理部８０と、入出力装置９０と、データ精緻化部１００とを備えている。

　データ取得部１０は、ラベリング対象のデータ（すなわち、未分類データ）を取得する。例えば、カメラ（図示せず）によって走行する車両が撮像されている場合、データ取得部１０は、ラベリング対象のデータとして、そのカメラが撮影した車両の動画を取得してもよい。なお、データ取得部１０が取得するデータは、リアルタイムで取得されるデータに限られない。データ取得部１０は、例えば、ラベリング対象のデータが記憶されたストレージサーバ（図示せず）から、ラベリング対象のデータを取得してもよい。

　関連情報取得部２０は、ラベリング対象のデータに関連する情報（以下、関連情報と記す。）を取得する。本実施形態では、関連情報は、ラベリング対象のデータの生成された状況を示す情報であり、例えば、データが生成された場所（撮像された場所）や時間を表わす情報、センサにより取得されたデータ（以下、センサデータと記す。）である。

　例えば、ラベリング対象のデータが、車載カメラ（ドライブレコーダ）で撮像された映像データである場合、関連情報として車両位置を表わすＧＰＳ（Global Positioning System ）情報や、ＣＡＮ（Controller Area Network ）に基づいて取得される情報などが挙げられる。この場合に取得されるセンサデータの例が、速度や加速度、位置（緯度、経度、高度など）である。

　また、ラベリング対象のデータとして火力発電所の稼働状況を示す映像が用いられる場合、センサデータとして、例えば、燃料の流量、圧力、温度、回転数、発電量などが挙げられる。他にも、ラベリング対象のデータとして農場の状況を示す映像が用いられる場合、センサデータとして、時間や温度、湿度、ｐＨ、土壌水分量、日射量、風向・風速、水位などが挙げられる。

　物体識別部３０は、取得されたデータに含まれる物体を識別し、識別した物体を特定する情報（以下、オブジェクトリストと記す。）を生成する。例えば、識別対象の物体が車両の場合、物体識別部３０は、データ取得部１０が取得したデータから、車両を識別し、その車両を特定する情報（例えば、画像中の位置を示す座標等）をオブジェクトリストとして生成してもよい。なお、画像や映像から物体を識別する方法は広く知られており、ここでは詳細な説明は省略する。

　データ加工部４０は、後述する特徴抽出部６０が処理を行う際に用いることができる態様にデータ（より具体的には、オブジェクトリスト）を加工する。具体的には、データ加工部４０は、特徴抽出やクラスタリングの精度を向上させられるようにデータを加工する。データ加工部４０は、例えば、データの間引きや、欠損値の補間、外れ値の除外、不要なデータ項目の削除などを行う。また、例えば、ラベリング対象のデータが映像データの場合、データ加工部４０は、映像データを数値時系列データへ変換してもよい。

　テキスト情報入力部５０は、ラベリング対象の各データに付加する情報（以下、付加情報と記す。）を含むテキストデータの入力を受け付ける。付加情報は、関連情報以外で取得し得るラベリング対象のデータの内容を示す情報である。付加情報を示すカテゴリとして、例えば、天気や植物の種類、交通参加者などが挙げられる。天気のカテゴリ値の例として、晴れ・曇り・雨・雪などが挙げられ、植物の種類のカテゴリ値の例として、米・小麦・大麦などが挙げられ、交通参加者の例として、自動車・自転車・歩行者などが挙げられる。

　なお、テキストデータの入力は任意である。すなわち、ラベリング対象のデータに対する付加情報が入力されていなくてもよい。ただし、ラベリング対象のデータに付加情報が増えるほど、分類の精度を向上できるため、入力されることが好ましい。以下の説明では、付加情報が対応付けられたラベリング対象のデータも、単にラベリング対象のデータと記す。

　図２は、本実施形態のラベリング支援システム１で利用されるデータの例を示す説明図である。図２に示す例では、データ取得部１０がラベリング対象のデータとして映像１１を取得し、関連情報取得部２０は、映像１１が撮影された場所等に関する関連情報２１を取得したことを示す。また、図２に示す例では、データ加工部４０が、映像１１および関連情報２１（より具体的には、物体識別部３０により生成されたオブジェクトリスト）を加工して数値時系列データ４１を生成したことを示す。さらに、図２に示す例では、テキスト情報入力部５０が、付加情報として、天気、シーン、時間帯および物体に関する情報を含むテキストデータ５１の入力を受け付けたことを示す。

　特徴抽出部６０は、ラベリング対象の各データから特徴を抽出する。本実施形態の特徴抽出部６０は、まず初めに、付加情報を含むラベリング対象の各データを教師なし学習により自動的に分類することで複数のクラスタを生成する。教師なし学習によりクラスタを生成する方法は任意であり、例えば、ｋ－ｍｅａｎｓ法や、混合ガウスモデルなどが挙げられる。

　以下、特徴抽出部６０が、ラベリング対象のデータ群を教師なし学習により分類することで複数のクラスタを生成する処理を、第一分類処理と記す。また、第一分類処理により生成される複数のクラスタを、第一の複数のクラスタと記し、第一の複数のクラスタに分類されるデータ群のことを、第一のデータ群と記す。また、特徴抽出部６０が、ラベリング対象のデータを教師なし学習により分類する処理を行うことから、特徴抽出部６０のことを分類手段と言うこともできる。

　そして、特徴抽出部６０は、生成したクラスタに含まれる各データの特徴量を抽出する。特徴抽出部６０は、例えば、テキストデータに含まれている付加情報を特徴量として抽出してもよい。他にも、特徴抽出部６０は、数値時系列データが示す特徴量を抽出してもよい。具体的には、特徴抽出部６０は、ラベリング対象のデータ（より具体的には、数値時系列データ）に含まれるセンサ値に基づいて特徴量を抽出してもよい。

　なお、数値時系列データから特徴量を抽出する方法は任意である。例えば、ｋ－ｍｅａｎｓ法により生成された各クラスタについて、特徴抽出部６０は、クラスタに含まれる数値時系列データの重心点から各データまでの距離（cluster distance feature）という特徴量を抽出してもよい。

　また、本実施形態では、データ取得部１０と関連情報取得部２０により取得された情報から物体識別部３０が物体を識別し、識別結果に対してデータ加工部４０が、特徴抽出部６０が用いる形式にデータを加工する場合について説明した。ただし、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力してもよい。この場合、ラベリング支援システム１は、関連情報取得部２０、物体識別部３０およびデータ加工部４０を備えていなくてもよい。

　特徴記憶部７０は、特徴抽出部６０が抽出した各データの特徴量を記憶する。また、特徴記憶部７０は、後述するデータ精緻化部１００によって付加されたラベルの情報を併せて記憶してもよい。なお、特徴記憶部７０がデータごとの特徴量を記憶する態様は任意である。

　図３は、特徴記憶部７０が記憶する特徴量の例を示す説明図である。図３に示す例では、縦方向が１つの特徴点を表わし、横方向が各カテゴリ（例えば、天気、交通参加者、植物の種類など）の特徴量（カテゴリ値）を表わしている。特徴記憶部７０は、例えば、磁気ディスク等により実現される。

　可視化処理部８０は、生成されたクラスタに対するラベリング作業に寄与する情報を可視化するための処理を行う。本実施形態の可視化処理部８０は、ラベリング対象のデータをクラスタ化した様子を人間が観察できるように、ラベリング対象のデータを次元削減（低次元化）したものを、入出力装置９０にグラフ描画することで可視化する。

　可視化処理部８０は、例えば、ＵＭＡＰ（Uniform Manifold Approximation and Projection ）などにより、２次元または３次元にラベリング対象のデータを次元削減し、次元削減されたデータを、分布図などのグラフとして可視化してもよい。その際、可視化処理部８０は、同一のクラスタに分類されたデータを、他のクラスタと異なる態様（例えば、色を変える、記号を変える、など）で表示してもよい。

　図４は、次元削減されたデータをグラフで可視化した例を示す説明図である。図４に例示するグラフは、ＵＭＡＰにより２次元に次元削減したデータを、属するクラスタごとに態様（斜線、黒塗り等）を変えて表示した例を示す。

　図５は、次元削減されたデータをグラフで可視化した他の例を示す説明図である。図５に例示するグラフは、映像データの種類ごとにプロットされる記号を変化させて表示したグラフである。また、図５に例示するように、可視化処理部８０は、クラスタに含まれるデータの範囲を特定できるように、その範囲を点線で囲む表示をしてもよい。

　さらに、グラフ描画の際、可視化処理部８０は、全てのデータを表示してもよいし、特定の条件を満たすデータのみ表示する又は表示しないと決定してもよい。可視化処理部８０は、例えば、特定の条件を満たすクラスタ（例えば、データ数が所定数よりも多いクラスタ、など）や、未分類のデータ（すなわち、ラベリングされていないデータ）を対象に、表示するか表示しないか判断してもよい。

　さらに、本実施形態の可視化処理部８０は、後述する再学習処理の結果、異なるクラスタに属することとなったデータを出力する。なお、データの出力方法については後述される。

　入出力装置９０は、可視化処理部８０による出力結果を表示する。また、入出力装置９０は、表示した結果に対するユーザからの入力を受け付け、入力に応じた処理を実行する。本実施形態では、入出力装置９０の出力に対してユーザが指定したクラスタの入力に基づいて、後述するデータ精緻化部１００の処理が行われる。

　入出力装置９０は、タブレット端末などにより実現されてもよい。他にも、入出力装置９０は、ディスプレイ装置とポインティングデバイスを有する装置等により実現されてもよい。

　データ精緻化部１００は、特徴抽出部６０により生成されたクラスタに基づいて、ラベリング対象のデータ群に対する各処理を実行する。具体的には、データ精緻化部１００は、ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成する。本実施形態では、データ精緻化部１００は、以下の３種類の処理を実行する場合について説明する。

　まず、第一の処理について説明する。第一の処理は、クラスタ内のデータにラベル付けを行う処理である。第一の処理では、データ精緻化部１００は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれかに分類されたデータに対してクラスタごとのラベリングを行った第二のデータ群を生成する。データ精緻化部１００がラベリングを行う対象とするクラスタは任意である。データ精緻化部１００は、すべてのクラスタに対してラベリングを行ってもよく、入出力装置９０を介して、ユーザに指定されたクラスタに対してラベリングを行ってもよい。

　また、クラスタ内のデータに同一のラベルが付加されるのであれば、そのラベルの内容は任意である。データ精緻化部１００は、対象とするクラスタ内のデータに対し、任意の仮ラベルを付加してもよく、ユーザにより指定された内容のラベルを付加してもよい。そして、データ精緻化部１００は、データ（より詳しくは、データの特徴量）と付加されたラベルとを対応付けて特徴記憶部７０に記憶してもよい。

　図６は、クラスタ内のデータにラベル付けを行う処理の例を示す説明図である。図６に示す例では、データ精緻化部１００が、図５に例示するクラスタに対し、それぞれ仮ラベル「Ａ」,「Ｂ」および「Ｃ」を付加したことを示す。なお、図５に例示するクラスタのうち、付加する対象のクラスタがユーザにより指定された場合、データ精緻化部１００は、指定されたクラスタにのみ仮ラベルを付加すればよい。

　その後、特徴抽出部６０は、ラベルが付加されたデータを用いた学習（教師あり学習）により、複数のクラスタを再度生成する。なお、特徴抽出部６０は、ラベルが付加されていないデータを加えて学習（教師なし学習）を行ってもよい。以下、特徴抽出部６０が、ラベリング対象のデータの少なくとも一部のデータを含むデータ群を分類することで複数のクラスタを生成する処理を、第二分類処理と記す。また、第二分類処理により生成される複数のクラスタを、第二の複数のクラスタと記し、第二の複数のクラスタに分類されるデータ群のことを、第二のデータ群と記す。

　このように、第二分類処理では、第一分類処理で用いたラベリング対象のデータの少なくとも一部のデータを用いて、再度複数のクラスタを生成して精緻化することから、第二分類処理のことを再学習処理または精緻化と言うことができる。これにより、教師なし学習を通じてラベル付けを半自動化でき、また、新規ラベルの発見にも寄与できる。

　特徴抽出部６０は、第二分類処理により生成されたクラスタ（第二の複数のクラスタ）に含まれる各データの特徴量を抽出し、抽出した特徴量を特徴記憶部７０に記憶してもよい。

　そして、第二分類処理の後、可視化処理部８０は、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する。これは、再学習の結果、異なるクラスタに属することになったデータを可視化する処理に対応する。なお、可視化する具体的処理については、後述される。

　次に、第二の処理について説明する。第二の処理は、少なくとも一部のクラスタを選択して、再び学習（教師なし学習）をする処理である。データ精緻化部１００は、ラベリング対象のデータ群のうち、第一の複数のクラスタの中から選択されたクラスタに分類されているデータ群を第二のデータ群として生成する。

　まず、データ精緻化部１００は、第一の複数のクラスタの中から、少なくとも一部のクラスタを選択する。データ精緻化部１００は、入出力装置９０を介して、ユーザに指定されたクラスタを選択してもよく、条件を満たすクラスタを自動で選択してもよい。ここでの条件は任意であり、例えば、データ数が予め定めた数以上のクラスタ、分類されたデータの割合が予め定めた閾値よりも大きい、などが挙げられる。ここで選択されたクラスタ内のデータ群が、上述する第二のデータ群に対応する。

　図７は、一部のクラスタを選択する処理の例を示す説明図である。図７に示す例では、生成された３つのクラスタのうち、２つのクラスタが選択されたことを示す。なお、第二の処理においても、第一分類処理で分類されたクラスタを識別できるように、データ精緻化部１００は、任意のクラスタ識別情報を各クラスタ内のデータに付与しておけばよい。

　その後、特徴抽出部６０は、選択されたクラスタ内のデータを対象とした学習（教師なし学習）により、複数のクラスタを再度生成する（すなわち、再学習処理を行う）。この処理が、上述する第二分類処理に対応し、生成された複数のクラスタが、第二の複数のクラスタに対応する。なお、特徴抽出部６０は、新たなデータを別途加えて学習を行ってもよい。これにより、クラスタ内のデータを深掘りすることができるため、より詳細にデータを分類することが期待できる。

　そして、第二分類処理の後、可視化処理部８０は、上記第一の処理と同様、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する。なお、選択されたクラスタが細分化される可能性があることから、可視化処理部８０は、クラスタ内のデータのうち、クラスタ識別情報が少数派（最大の割合以外）のデータを、第一の複数のクラスタでは異なるクラスタに分類されていたデータとして出力してもよい。

　次に、第三の処理について説明する。第三の処理は、外れ値など、クラスタに分類されなかったデータの少なくとも一部を除外して、再び学習（教師なし学習または教師あり学習）をする処理である。データ精緻化部１００は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれにも分類されなかった一以上のデータを除外したデータ群を第二のデータ群として生成する

　図８は、データの一部を除外する処理の例を示す説明図である。図８に示す例では、実線の丸で囲まれた範囲のデータが外れ値として除外されることを示す。例えば、ラベリング対象のデータが映像データの場合、ノイズシーンを除外する処理に対応する。以降、上述する第一の処理と第二の処理の少なくとも一方、または、両方の処理が行われる。これにより、分類精度の向上が期待される。

　以上、データ精緻化部１００が行う３種類の処理について説明した。ただし、データ精緻化部１００が実行する処理は、上述する３種類の処理に限定されない。データ精緻化部１００は、他にも、データのメンテナンス処理を行ってもよい。また、第一の処理、第二の処理、および、第三の処理の各処理の後で、再び同一の処理が行われてもよく、異なる処理が行われてもよい。

　データをメンテナンスする処理の一例が、特徴抽出部６０が学習に用いるためのデータをメンテナンスする処理である。データ精緻化部１００は、ラベルが付加されたデータ群や、外れ値が除外されたデータ群を含むファイルを出力してもよい。

　例えば、上述する第一の処理で、ラベリング対象のデータ群に対してラベル付けが行われたとする。この場合、データ精緻化部１００は、指定したラベルを記載したラベルファイルの作成、次回学習用フォルダにラベルが付与されたデータのみのコピー、ラベルに基づき、元データをラベルごとのフォルダに振り分ける処理（移動・コピー）などを行ってもよい。

　また、例えば、上述する第二の処理で、クラスタが選別されたとする。この場合、データ精緻化部１００は、選択したクラスタに属するデータのみを記載したデータリストファイルの作成、選択したクラスタに属するデータのみを次回学習用フォルダにコピーする処理などを行ってもよい。

　また、例えば、上述する第三の処理で、外れ値を除外する処理が行われたとする。この場合、データ精緻化部１００は、指定されたデータ（外れ値）以外のデータのみを記載したデータリストファイルの作成、指定されたデータ（外れ値）以外のデータを次回学習用フォルダにコピーする処理などを行ってもよい。

　以下、再学習の結果、異なるクラスタに属することになったデータを可視化処理部８０が可視化する方法について具体的に説明する。まず、可視化処理部８０は、ラベリング対象のデータ群を次元削減し、第一の複数のクラスタに含まれる次元削減されたデータ、および、第二の複数のクラスタに含まれる次元削減されたデータをクラスタごとに識別できる態様でグラフ描画する。そして、可視化処理部８０は、第二の複数のクラスタに含まれる次元削減されたデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを、他のデータと異なる態様で表示する。

　異なる態様の例として、例えば、色の濃淡を変化させたり、色そのものを変化させたり、外枠の線を変化させたり、点滅表示したりすることが挙げられる。

　図９は、精緻化前後の結果をオーバレイ表示した例を示す説明図である。図９に示す例では、可視化処理部８０が、各精緻化のデータの分布を重ねて表示するとともに、注目するレイヤ（すなわち、精緻化）以外のデータを、注目するレイヤのデータとは異なる態様で表示していることを示す。具体的には、図９に示す例では、１回目の精緻化の結果と、２回目の精緻化の結果とを重ねて表示している。その際、１回目の精緻化の結果に注目している場合には、２回目の精緻化でのみ対象のクラスタに含まれているデータｄ１を、他のデータとは異なる態様で示している。同様に、２回目の精緻化の結果に注目している場合には、１回目の精緻化でのみ対象のクラスタに含まれているデータｄ２を、他のデータとは異なる態様で示している。

　図１０および図１１は、精緻化前後の結果を並列窓で表示した例を示す説明図である。図１０に例示するように、可視化処理部８０は、精緻化前後の結果を別々の窓で表示してもよい。その際、可視化処理部８０は、図１１に例示するように、精緻化の前後で変化したデータの態様を他のデータと異なる態様で表示してもよい。

　さらに、可視化処理部８０は、精緻化前後で異なる結果になったデータ（すなわち、異なるクラスタに分類されたデータ）を、リスト表示してもよい。図１２は、精緻化前後で異なる結果になったデータｄ３を別窓でリスト表示した例を示す説明図である。図１２に示す例では、精緻化前後で異なる結果になったデータが表示されている座標をリスト表示して結果を示す。

　なお、図９から図１２では、２つの精緻化結果を比較する場合を例示した。ただし、比較対象は、２つの結果に限定されず、３つ以上であってもよい。図１３は、複数回の精緻化結果をオーバレイ表示した例を示す説明図である。また、図１４は、複数回の精緻化により異なる結果になったデータを別窓でリスト表示した例を示す説明図である。図１３に示す例は、図９に示す例と比較し、精緻化結果が４つ存在する場合の例を示す。図１４に示す例も同様に、図１２に示す例と比較し、精緻化結果が４つ存在する場合の例を示す。

　また、可視化処理部８０は、上述するグラフとは別に、または、上述するグラフと共に、データ群の分類処理（すなわち、精緻化）ごとにクラスタの統計情報を表示してもよい。なお、統計情報の作成は、可視化処理部８０が行ってもよく、特徴抽出部６０が行ってもよい。

　図１５は、各クラスタの統計情報を表示した例を示す説明図である。図１５に示す例では、クラスタの統計情報として、クラスタ内のデータ数、データの重心および分散（ｘ方向およびｙ方向）を表示した例を示す。また、図１５に例示するように、可視化処理部８０は、精緻化ごとの統計情報を切替えて表示するようにしてもよく、並べて表示するようにしてもよい。

　図１６は、各クラスタの統計情報を表示した他の例を示す説明図である。図１６に例示するように、可視化処理部８０は、クラスタの統計情報（例えば、誤検知率）をグラフおよび表形式で表示してもよい。図１６に示す例では、教師あり学習を実施したときに、ラベルと振り分けられたクラスタとの一致度を表わす。なお、図１６に示す例において、１回目は教師なし学習を想定しており、評価結果は存在しない。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０と、データ精緻化部１００とは、プログラム（ラベリング支援プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ））によって実現される。

　例えば、プログラムは、ラベリング支援システム１の記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、データ取得部１０、関連情報取得部２０、物体識別部３０、データ加工部４０、テキスト情報入力部５０、特徴抽出部６０、可視化処理部８０、および、データ精緻化部１００として動作してもよい。また、ラベリング支援システム１の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　データ取得部１０と、関連情報取得部２０と、物体識別部３０と、データ加工部４０と、テキスト情報入力部５０と、特徴抽出部６０と、可視化処理部８０と、データ精緻化部１００とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、ラベリング支援システム１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態のラベリング支援システム１の動作を説明する。図１７は、ラベリング支援システム１の動作例を示すフローチャートである。図１７に例示する動作例は、データ取得部１０が、直接、特徴抽出部６０が用いる形式のデータを取得し、取得したデータを特徴抽出部６０に入力した場合の動作例である。

　特徴抽出部６０は、ラベリング対象のデータ群（第一のデータ群）から、第一の複数のクラスタを生成する（ステップＳ１１）。その後、特徴抽出部６０は、ラベリング対象のデータの少なくとも一部のデータを含むデータ群（第二のデータ群）から第二の複数のクラスタを生成する（ステップＳ１２）。そして、可視化処理部８０は、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する（ステップＳ１３）。

　以上のように、本実施形態では、特徴抽出部６０が、第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する。また、特徴抽出部６０が、第二のデータ群を分類することで第二の複数のクラスタを生成する。そして、可視化処理部８０が、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する。よって、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

　また、本実施形態では、データ精緻化部１００が、ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成する。そのため、生成された第二のデータ群を用いた再学習の精度を向上させることが可能になる。

　次に、本発明の概要を説明する。図１８は、本発明によるラベリング支援システムの概要を示すブロック図である。本発明によるラベリング支援システム１８０（例えば、ラベリング支援システム１）は、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類手段１８１（例えば、特徴抽出部６０）と、ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類（すなわち、再学習）することで第二の複数のクラスタを生成する第二分類手段１８２（例えば、特徴抽出部６０）と、第二の複数のクラスタに含まれるデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力手段１８３（例えば、可視化処理部８０）とを備えている。

　そのような構成により、ラベル付けされていないデータが分類されたクラスタに対するラベリング作業を支援できる。

　また、ラベリング支援システム１８０は、ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化手段（例えば、データ精緻化部１００）を備えていてもよい。

　具体的には、データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれかに分類されたデータに対してクラスタごとのラベリングを行った第二のデータ群を生成してもよい（例えば、上記データ精緻化部１００による第一の処理）。

　また、データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタの中から選択されたクラスタに分類されているデータ群を第二のデータ群として生成してもよい（例えば、上記データ精緻化部１００による第二の処理）。

　また、データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれにも分類されなかった一以上のデータを除外したデータ群を第二のデータ群として生成してもよい（例えば、上記データ精緻化部１００による第三の処理）。

　また、出力手段は、ラベリング対象のデータ群を次元削減し、第一の複数のクラスタに含まれる次元削減されたデータ、および、第二の複数のクラスタに含まれる次元削減されたデータをクラスタごとに識別できる態様でグラフ描画し、第二の複数のクラスタに含まれる次元削減されたデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを、他のデータと異なる態様で表示してもよい。

　また、出力手段は、データ群の分類処理ごとにクラスタの統計情報を表示してもよい。

　図１９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述のラベリング支援システム１８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（ラベリング支援プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類手段と、
　前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類手段と、
　前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力手段とを備えた
　ことを特徴とするラベリング支援システム。

（付記２）ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化手段を備えた
　付記１記載のラベリング支援システム。

（付記３）データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれかに分類されたデータに対してクラスタごとのラベリングを行った第二のデータ群を生成する
　付記１または付記２記載のラベリング支援システム。

（付記４）データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタの中から選択されたクラスタに分類されているデータ群を第二のデータ群として生成する
　付記１または付記２記載のラベリング支援システム。

（付記５）データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれにも分類されなかった一以上のデータを除外したデータ群を第二のデータ群として生成する
　付記１から付記４のうちのいずれか１つに記載のラベリング支援システム。

（付記６）出力手段は、ラベリング対象のデータ群を次元削減し、第一の複数のクラスタに含まれる次元削減されたデータ、および、第二の複数のクラスタに含まれる次元削減されたデータをクラスタごとに識別できる態様でグラフ描画し、前記第二の複数のクラスタに含まれる次元削減されたデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを、他のデータと異なる態様で表示する
　付記１から付記５のうちのいずれか１つに記載のラベリング支援システム。

（付記７）出力手段は、データ群の分類処理ごとにクラスタの統計情報を表示する
　付記１から付記６のうちのいずれか１つに記載のラベリング支援システム。

（付記８）コンピュータが、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成し、
　前記コンピュータが、前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成し、
　前記コンピュータが、前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する
　ことを特徴とするラベリング支援方法。

（付記９）ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成する
　付記８記載のラベリング支援方法。

（付記１０）コンピュータに、
　ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類処理、
　前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類処理、および、
　前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力処理
　を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。

（付記１１）コンピュータに、
　ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化処理を実行させる
　ためのラベリング支援プログラムを記憶する付記１０記載のプログラム記憶媒体。

（付記１２）コンピュータに、
　ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類処理、
　前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類処理、および、
　前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力処理
　を実行させるためのラベリング支援プログラム。

（付記１３）コンピュータに、
　ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化処理を実行させる
　付記１２記載のラベリング支援プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１　ラベリング支援システム
　１０　データ取得部
　２０　関連情報取得部
　３０　物体識別部
　４０　データ加工部
　５０　テキスト情報入力部
　６０　特徴抽出部
　７０　特徴記憶部
　８０　可視化処理部
　９０　入出力装置
　１００　データ精緻化部

Claims

　ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類手段と、
　前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類手段と、
　前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力手段とを備えた
　ことを特徴とするラベリング支援システム。
　ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化手段を備えた
　請求項１記載のラベリング支援システム。
　データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれかに分類されたデータに対してクラスタごとのラベリングを行った第二のデータ群を生成する
　請求項１または請求項２記載のラベリング支援システム。
　データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタの中から選択されたクラスタに分類されているデータ群を第二のデータ群として生成する
　請求項１または請求項２記載のラベリング支援システム。
　データ精緻化手段は、ラベリング対象のデータ群のうち、第一の複数のクラスタのいずれにも分類されなかった一以上のデータを除外したデータ群を第二のデータ群として生成する
　請求項１から請求項４のうちのいずれか１項に記載のラベリング支援システム。
　出力手段は、ラベリング対象のデータ群を次元削減し、第一の複数のクラスタに含まれる次元削減されたデータ、および、第二の複数のクラスタに含まれる次元削減されたデータをクラスタごとに識別できる態様でグラフ描画し、前記第二の複数のクラスタに含まれる次元削減されたデータのうち、第一の複数のクラスタでは異なるクラスタに分類されていたデータを、他のデータと異なる態様で表示する
　請求項１から請求項５のうちのいずれか１項に記載のラベリング支援システム。
　出力手段は、データ群の分類処理ごとにクラスタの統計情報を表示する
　請求項１から請求項６のうちのいずれか１項に記載のラベリング支援システム。
　コンピュータが、ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成し、
　前記コンピュータが、前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成し、
　前記コンピュータが、前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する
　ことを特徴とするラベリング支援方法。
　ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成する
　請求項８記載のラベリング支援方法。
　コンピュータに、
　ラベリング対象のデータ群である第一のデータ群を教師なし学習により分類することで第一の複数のクラスタを生成する第一分類処理、
　前記ラベリング対象のデータの少なくとも一部のデータを含むデータ群である第二のデータ群を分類することで第二の複数のクラスタを生成する第二分類処理、および、
　前記第二の複数のクラスタに含まれるデータのうち、前記第一の複数のクラスタでは異なるクラスタに分類されていたデータを出力する出力処理
　を実行させるためのラベリング支援プログラムを記憶するプログラム記憶媒体。
　コンピュータに、
　ラベリング対象のデータ群の中から、生成された第一の複数のクラスタに応じて、第二のデータ群を生成するデータ精緻化処理を実行させる
　ためのラベリング支援プログラムを記憶する請求項１０記載のプログラム記憶媒体。