WO2021181654A1

WO2021181654A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2021181654A1
Application number: PCT/JP2020/011066
Authority: WO
Inventors: 健瑠白神; 信秋田中
Original assignee: 三菱電機株式会社
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2021-09-16
Also published as: KR102552786B1; TWI807214B; US20220383147A1; KR20220127347A; JPWO2021181654A1; CN115280307A; TW202134922A; JP7130153B2; DE112020006501T5

Abstract

複数のサンプルを有するデータセットから、その複数のサンプルが並ぶ順序に従って並べられた複数の列及び複数の行を備え、その複数の列の内の一つの列と、その複数の行の内の一つの行とで特定される一つの欄に、その一つの列及びその一つの行に対応するサンプル間の類似度を格納した類似度行列を生成する距離行列算出部（１０４）と、その複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照し、その複数のラベルから指定されたラベルである対象ラベルにおける複数のクラス毎にその複数のサンプルが並ぶように、類似度行列における順序を調整することで、調整類似度行列を生成する順序調整部（１０５）と、その調整類似度行列の各々欄を、類似度に応じた明度で示す評価画面画像を生成する可視化部（１０６）と、その評価画面画像表示する表示部（１０７）とを備える。

Description

情報処理装置、プログラム及び情報処理方法

　本開示は、情報処理装置、プログラム及び情報処理方法に関する。

　近年、計測技術の発達により、様々なデータが計測され活用されている。例えば、機器の異常診断を行う際には、機器に振動センサ又はマイクを設置して、機器から得られる振動及び音が計測される。そのようにして得られたデータを用いて機器の異常が診断される。

　このような計測データを扱うとき、計測環境又はセンシングのばらつきによってデータの品質が低下する場合がある。例えば、計測者が異なることでセンサの取り付け方法に差異が生まれ、それによってデータの性質が変わるようなケースが考えられる。本来の目的とは無関係の要因によるデータのばらつきが大きくなると、本来識別したいラベル、例えば、異常又は正常を識別する上で障害となる。

　特許文献１には、時系列データを所定の時間単位毎のデータに分割し、時間単位毎の類似度を算出し、算出された類似度に基づく所定時間毎の相関を、二次元平面の予め定められた位置に表示する相関分析装置が記載されている。

特開２０１５－２２５６３７号公報

　特許文献１に記載された相関分析装置は、時間単位毎の類似度に基づく相関を表示することができる。これにより、時間変化によって生じるデータのばらつきが明らかとなる。しかしながら、「計測者」又は「機器の個体」等の時間以外の要因については考慮されていない。

　そこで、本開示の一又は複数の態様は、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。

　本開示の第１の態様に係る情報処理装置は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、前記評価画面画像を表示する表示部と、を備えることを特徴とする。

　本開示の第２の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。

　本開示の第３の態様に係る情報処理装置は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、前記ばらつき結果画面画像を表示する表示部と、を備えることを特徴とする。

　本開示の第１の態様に係るプログラムは、コンピュータを、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、前記評価画面画像を表示する表示部、として機能させることを特徴とする。

　本開示の第２の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。

　本開示の第３の態様に係るプログラムは、コンピュータを、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、前記ばらつき結果画面画像を表示する表示部、として機能させることを特徴とする。

　本開示の第１の態様に係る情報処理方法は、複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、前記評価画面画像を表示することを特徴とする。

　本開示の第２の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。

　本開示の第３の態様に係る情報処理方法は、データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記ばらつき結果画面画像を表示することを特徴とする。

　本開示の一又は複数の態様によれば、本来の目的とは無関係の要因によって生じるデータのばらつきを確認することができる。

実施の形態１に係るデータ可視化装置の構成を概略的に示すブロック図である。（Ａ）及び（Ｂ）は、二つのサンプルの分布間の距離を示すグラフである。距離行列の一例を示す概略図である。調整距離行列の第１の例を示す概略図である。（Ａ）及び（Ｂ）は、調整距離行列の第２及び第３の例を示す概略図である。（Ａ）及び（Ｂ）は、調整距離行列の第４及び第５の例を示す概略図である。調整距離行列の第６の例を示す概略図である。調整距離行列を可視化した評価画面画像の第１の例を示す概略図である。調整距離行列を可視化した評価画面画像の第２の例を示す概略図である。調整距離行列を可視化した評価画面画像の第３の例を示す概略図である。調整距離行列を可視化した評価画面画像の第４の例を示す概略図である。調整距離行列を可視化した評価画面画像の第５の例を示す概略図である。データ可視化装置のハードウェア構成例を示すブロック図である。実施の形態１に係るデータ可視化装置での処理を示すフローチャートである。実施の形態２に係るデータ可視化装置の構成を概略的に示すブロック図である。部分行列の一例を示す概略図である。算出方法を説明するための概略図である。実施の形態２に係るデータ可視化装置での第１の処理を示すフローチャートである。実施の形態２に係るデータ可視化装置での第２の処理を示すフローチャートである。実施の形態３に係るデータ可視化装置の構成を概略的に示すブロック図である。実施の形態３に係るデータ可視化装置での処理を示すフローチャートである。

実施の形態１．
　図１は、実施の形態１に係る情報処理装置であるデータ可視化装置１００の構成を概略的に示すブロック図である。
　データ可視化装置１００は、入力部１０１と、記憶部１０２と、データ取得部１０３と、距離行列算出部１０４と、順序調整部１０５と、可視化部１０６と、表示部１０７とを備える。

　入力部１０１は、ユーザからの指示の入力を受ける。例えば、入力部１０１は、複数のラベルから、一つのラベルを対象ラベルとして指定する入力を受ける。
　記憶部１０２は、データ可視化装置１００での処理に必要なプログラム及びデータを記憶する。例えば、記憶部１０２は、可視化対象のデータセット及びそのラベル情報を記憶する。

　データセットは、例えば、計測によって得られる時系列データの集合である。データセットは複数のサンプルの集合として構成される。
　データセットを構成するサンプルは、距離行列算出部１０４で距離行列を算出する一単位である。サンプルは、例えば、振動センサ又はマイクによって得られる時系列データである。

　ここでは、サンプルは、各々の時刻において計測等された一つの値を示す１次元のデータであるが、一次元のデータには限らない。サンプルは、各々の時刻において複数の値を示す多次元のデータであってもよい。

　ラベル情報は、データセットに含まれる各サンプルに紐付けられている属性を示す。ラベル情報は、複数のサンプルの各々に対して、複数のラベルを用いてラベリングを行なった結果を示す情報である。複数のラベルの各々は、複数のクラスを有する。
　ここでは、一例として、機器の異常診断を目的に収集された計測データであるサンプルに紐付けられるラベル情報について説明する。そして、データを計測する目的は、計測データから異常か正常を見分けることとする。
　この場合、各サンプルには、検査結果を示すラベルを含むラベル情報が付与されている。このとき、検査結果を示すラベルである検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスで構成されていてもよいし、異常の種類に応じて、「正常クラス」、「第１の異常クラス」及び「第２の異常クラス」というように三つ以上のクラスで構成されていてもよい。ここでのクラスは、同じラベルに含まれるある状態のことを示す。例えば、クラスが異なると、同じラベルに含まれている別の状態を示すこととなる。
　また、計測データには、計測データの目的に対応するラベル（ここでは、正常又は異常）とは無関係であると期待されるようなラベルが存在する場合がある。例として、「計測者」、「計測した場所」又は「計測した日時」等が挙げられる。

　データ取得部１０３は、記憶部１０２から、データセットＤＳ及びそのラベル情報ＬＩを取得する。取得されたデータセットＤＳ及びそのラベル情報ＬＩは、距離行列算出部１０４に与えられる。

　距離行列算出部１０４は、データセットＤＳから、複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、その順序に従って縦に並べられた複数の行とを備え、その複数の列の内の一つの列と、その複数の行の内の一つの行とで特定される一つの欄に、その一つの列に対応するサンプルと、その一つの行に対応するサンプルとの間の類似度を格納した類似度行列である距離行列を生成する類似度行列生成部である。なお、距離行列に含まれる類似度を、距離行列を構成する要素ともいう。
　例えば、距離行列算出部１０４は、データセットＤＳに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離により、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。

　サンプル間距離は、二つのサンプルの類似度を表す指標である。サンプル間距離は、二つのサンプルが類似しているほど小さな値となり、完全に一致している場合は０となる。このため、距離行列は、類似度行列ともいう。

　以下では、異常診断を目的に収集された振動データを例に説明する。
　ある条件下で一定時間に計測された計測データを１サンプルとして扱う。今回の例では、１サンプルは、各々の時刻において１次元の値を示す時系列データである。このとき、各サンプルには、機器の検査結果である正常又は異常を示す「検査結果ラベル」及び計測をいつ行ったかを示す「計測日ラベル」がラベル情報として付与されているものとする。

　そして、ここでは、計測日ラベルである６月１２日に、正常サンプル及び異常サンプルを二つずつ、計測日ラベルである６月１３日に、正常サンプル及び異常サンプルを二つずつ計測されたものとする。

　以上の場合に、距離行列算出部１０４が、実際にサンプル間距離を算出し、距離行列を作成する処理の例を示す。ここでの例では、二つのサンプルの確率分布間の類似度を、その二つのサンプル間の類似度とする。

　具体的には、距離行列算出部１０４は、各サンプルが形成する分布を算出する。この時点で一つのサンプルにつき一つの分布が算出される。仮定する分布としては、正規分布等が考えられる。

　次に、距離行列算出部１０４は、サンプル間の類似度の指標として、二つのサンプルが形成する分布間の距離を算出する。分布間の距離を算出する方法として、バタチャリヤ距離、ＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ）ダイバージェンス、又は、ＪＳ（Ｊｅｎｓｅｎ－Ｓｈａｎｎｏｎ）ダンバージェンス等が挙げられる。

　図２（Ａ）及び（Ｂ）は、二つのサンプルの分布間の距離を示すグラフである。
　図２（Ａ）は、二つのサンプルの分布間の距離が大きい場合であり、図２（Ｂ）は、二つのサンプルの分布間の距離が小さい場合である。

　次に、距離行列算出部１０４は、全てのサンプルの組み合わせで算出された分布間の距離により距離行列を生成する。距離行列の横の列と縦の行とは、それぞれ、八つのサンプルの順序に従って配置されているものとする。
　図３は、距離行列の一例を示す概略図である。
　ここでは、上記のように、二日にわたり八つのサンプルが存在する。ここでは、各サンプルに、各サンプルを特定するためのサンプル識別情報であるサンプル番号が振られているものとする。このとき、距離行列のＮ行Ｍ列の要素はＮ番目のサンプルとＭ番目のサンプルとの距離を表す。ここでは、Ｎ及びＭは、１以上、８以下の整数である。

　図３に示されている距離行列の対角線上の値は、同じサンプルでの距離であるため、全て０となる。
　サンプル間距離の算出に、バタチャリヤ距離のような対称性のある手法が使用された場合、サンプルを入れ替えても距離の値は変わらないため、距離行列は対称行列となる。

　順序調整部１０５は、ラベル情報ＬＩを参照して、複数のラベルから指定されたラベルである対象ラベルにおける複数のクラス毎に複数のサンプルが並ぶように、類似度行列における複数のサンプルが並ぶ順序を調整することで、調整類似度行列を生成する。
　具体的には、順序調整部１０５は、距離行列算出部１０４によって生成された距離行列を構成するサンプルの順序を、指定されたラベルに応じて調整する。具体的には、上記のように、ラベル情報として、「検査結果ラベル」及び「計測日ラベル」が含まれている場合、順序調整部１０５は、「検査結果ラベル」及び「計測日ラベル」のそれぞれによって、距離行列のサンプルの順序を調整する。

　例えば、検査結果ラベルによって距離行列を並び替える場合、検査結果ラベルは、「正常クラス」及び「異常クラス」の二つのクラスを含んでいるため、順序調整部１０５は、最初に正常クラスに属するサンプル（正常サンプル）、その後ろに異常クラスに属するサンプル（異常サンプル）となるように、クラス毎に並ぶようにサンプルの順序を調整する。例えば、図３に示されているように、八つのサンプルのうち、サンプル番号が奇数のサンプルが正常クラス、偶数のサンプルが異常クラスの場合には、順序調整部１０５によって、図３に示されている距離行列は、図４に示されている調整距離行列のように、サンプルの順序が調整される。なお、調整距離行列を調整類似度行列ともいう。

　また、計測日ラベルによって距離行列を並び替える場合、計測日ラベルは、「６月１２日クラス」及び「６月１３日クラス」の二つのクラスを含んでいるため、順序調整部１０５は、最初に６月１２日クラスに属するサンプル、その後ろに６月１３日クラスに属するサンプルとなるように、サンプルの順序を変更する。例えば、図３に示されているように、八つのサンプルのうち、サンプル番号が１～４番のサンプルが６月１２日クラス、５～８番目のサンプルが６月１３日クラスの場合には、順序調整部１０５は、図３に示されている距離行列をそのまま、調整距離行列とする。

　可視化部１０６は、調整距離行列を可視化した評価画面画像を生成し、表示部１０７にその評価画面画像を表示させることで、ユーザに提示する。
　例えば、可視化部１０６は、順序調整部１０５によって順序が調整された調整距離行列に含まれている要素の値に応じて、その要素に対応する欄の色の明度を決定することで、評価画面画像を生成する。このように、調整距離行列の要素に対応する欄の明暗を、その欄の値に応じて変更することで、順序変更に使用したラベルに起因するデータセットの品質問題を視覚的に表現することができる。
　具体的には、可視化部１０６は、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くする。

　以下、評価画面画像によって得られる効果について説明する前に、「良いデータセット」について説明する。
　ここでのデータセットは、異常診断のためのデータセットであるものとする。このため、異常のサンプルと、正常のサンプルとは、出来るだけ異なる性質を持っていることが好ましい。一方で、異常及び正常の診断とは無関係であると期待されるラベルである計測日ラベルについては、クラスが異なる場合でもサンプルの特性が変化しないことが期待される。上記を踏まえて、この例における「良いデータセット」とは、以下の二つの条件を満たすデータセットであるといえる。

　第１の条件は、検査結果ラベルにおいてクラスが異なるサンプル間の距離が大きいことである。言い換えると、検査結果ラベルにおいてクラスが異なるサンプル間の類似度が低いことである。
　第２の条件は、計測日ラベルにおいて異なるサンプル間の距離がまとまっていないことである。言い換えると、計測日ラベルにおいてクラスが同じでも、異なっていてもサンプル間の類似度が低かったり、高かったりすることである。

　距離行列を、指定された一つのラベルに含まれているクラス毎に順序を調整した調整距離行列を可視化することで、データセットが上記の二つの条件を満たしているかどうかを視覚的に確認することができる。

　例えば、図５（Ａ）に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、正常クラスに含まれているサンプル同士及び異常クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、正常クラスに含まれているサンプルと、異常クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第１の条件が満たされていることを確認することができる。

　一方、図５（Ｂ）に示されているように、計測日ラベルにおいて、６月１２日クラス及び６月１３日クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第２の条件が満たされていることを確認することができる。

　これに対して、例えば、図６（Ａ）に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整することで、同じクラスのサンプル間と、異なるクラスのサンプル間とで、明るい欄と、暗い欄とがまとまっていない場合には、上記の第１の条件が満たされていないこととなる。

　そして、図６（Ｂ）に示されているように、計測日ラベルにおいて、６月１２日クラス及び６月１３日クラスに分けて、サンプルの順序を調整することで、６月１２日クラスに含まれているサンプル同士及び６月１３日クラスに含まれているサンプル同士の距離が予め定められた閾値未満であり、対応する欄の色が暗くなり、６月１２日クラスに含まれているサンプルと、６月１３日クラスに含まれているサンプルとの距離が予め定められた閾値以上であり、対応する欄の色が明るくなっている場合には、上記の第２の条件が満たされていないこととなる。
　このような場合、計測日におけるデータのばらつきが、検査結果の悪化の原因であると特定することができる。

　なお、以上では、一つのラベルに含まれるクラス毎にサンプルの順序を調整する例を示したが、このような例に限定されない。
　例えば、図６（Ａ）に示されているように、検査結果ラベルにおいて、正常クラス及び異常クラスに分けて、サンプルの順序を調整した後に、その正常クラス及び異常クラスの各々に含まれているサンプルを、さらに、計測日ラベルに含まれている６月１２日クラス及び６月１３日クラスに分けて、サンプルの順序を調整してもよい。
　このような場合、例えば、図７に示されているように、正常クラス及び異常クラスの中において、さらに、サンプルが６月１２日クラス及び６月１３日クラスの各々に分類されることとなる。
　このとき、図７に示されているように、正常クラス又は異常クラスの各々において、計測日の違い（計測日ラベルの違い）によって行列要素の明暗がまとまってしまうと、計測日におけるデータのばらつきが、検査結果の悪化の原因であることを特定することができる。

　可視化された評価画面画像の解釈方法について述べる。
　ここでは、九つのサンプル数のデータセットについて、三つのクラス数のラベルによって順序を調整した調整距離行列を評価画面画像として可視化した場合の四つの例を、図８～図１２に提示する。

　なお、図８～図１２では、三つのクラスには、それぞれ１～３の番号が振られていて、距離行列に含まれるサンプルを、昇順に並べることで調整距離行列が生成されたものとする。

　図８に示されている調整距離行列１２０のように、対角線上の区画だけ明度が低く、他の区画の明度が高い場合、同じクラス同士のサンプルは似ているが、別のクラスのサンプルとは類似していないため、対応するラベルによるデータのばらつきが発生しているということである。なお、例えば、二つのクラスの場合には、図６（Ｂ）のようになる。

　図９に示されている調整距離行列１２１のように、クラスの違いによって明度の変化が起きず、全ての欄が暗い色である場合、全てのデータが類似していることを表しているため、ラベルによるデータのばらつきは発生していない。

　図１０に示されている調整距離行列１２２のように、対角線上の同じサンプル同士の欄以外の全ての欄の色が明るい色である場合は、クラスの違いに関係なく全データがばらついていることが分かる。この場合はラベルによるデータのばらつきは無いが、データセットとしてまとまりが全くないことを表しているため、データの品質に問題がある可能性が高い。

　図１１に示されている調整距離行列１２３のように、対角線上の区画（図８を参照）に加えて、１番のクラスに含まれるサンプルと、３番のクラスに含まれるサンプルとの間の値を示す欄の明度が低くなっている場合は、２番のクラスのデータだけが他のクラスのデータと異なる性質を持っていることが分かる。
　例えば、クラスがデータの計測者を表す場合、２番のクラスに対応する計測者（ここでは、２番の計測者とする）のデータだけが他の計測者（１番の計測者及び３番の計測者）のデータと異なっていることを視認することができる。これにより、２番の計測者の計測方法に問題があった可能性がある、といったようにデータ品質の劣化要因を考察することができる。

　図１２に示されている調整距離行列１２４のように、１番のクラスに属するサンプルと、３番のクラスに属するサンプルとが類似し、２番のクラスに属するサンプルと、１番のクラス及び３番のクラスに属するサンプルとが類似しない場合であって、２番のクラスに属する異なるサンプル同士も類似しない場合にも、２番のクラスのデータのみが１番のクラス及び３番のクラスのデータと異なるとともに、２番のデータ同士にもばらつきがあることが分かる。

　なお、可視化を行う際には、図５～図７に示されているように、並び替えに使用したラベルのクラスの順序が分かるように、調整距離行列の左及び上にクラスを示す情報を表示してもよい。

　図１３は、データ可視化装置１００のハードウェア構成例を示すブロック図である。
　データ可視化装置１００は、入力装置１３１と、表示装置１３２と、記憶装置１３３と、メモリ１３４と、プロセッサ１３５とを備えるコンピュータ１３０により構成することができる。

　入力装置１３１は、マウス、タッチパネル、キーボード、ＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔｅｄ　Ｄｉｓｐｌａｙ）のジェスチャー操作入力装置、又は、視線操作入力装置等のように、ユーザが指示を入力する装置である。
　表示装置１３２は、可視化の際にユーザに提示するディスプレイ等のアプリケーションを表示する装置である。表示装置１３２は、例えば、ＨＭＤのシースルー型のディスプレイ等も含む。

　記憶装置１３３は、記憶を行なう装置であり、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等を含む。
　メモリ１３４は、一時的な記憶を行なう装置であり、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を含む。

　プロセッサ１３５は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の処理回路である。

　例えば、入力部１０１は、プロセッサ１３５が入力装置１３１を利用することで実現することができる。
　表示部１０７は、プロセッサ１３５が、表示装置１３２を利用することで実現することができる。
　記憶部１０２は、プロセッサ１３５が、メモリ１３４を利用することで実現することができる。

　データ取得部１０３、距離行列算出部１０４、順序調整部１０５及び可視化部１０６は、プロセッサ１３５が、記憶装置１３３に記憶されているプログラムをメモリ１３４に読み出して、そのプログラムを実行することで実現することができる。
　このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　図１４は、実施の形態１に係るデータ可視化装置１００での処理を示すフローチャートである。
　まず、データ取得部１０３は、記憶部１０２から、データセットＤＳ及びそのラベル情報ＬＩを取得する（Ｓ１０）。取得されたデータセットＤＳ及びそのラベル情報ＬＩは、距離行列算出部１０４に与えられる。

　距離行列算出部１０４は、データセットＤＳを構成する各サンプルの類似度から構成される距離行列を生成する（Ｓ１１）。例えば、距離行列算出部１０４は、データセットＤＳに含まれる全てのサンプルの組み合わせでサンプル間距離を算出し、算出されたサンプル間距離を、行数及び列数の各々をサンプル数とする行列である距離行列を生成する。

　次に、入力部１０１は、距離行列におけるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける（Ｓ１２）。指定されたラベルを示すユーザ情報ＵＩは、順序調整部１０５に与えられる。ここで指定されたラベルを対象ラベルともいう。

　順序調整部１０５は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部１０４で生成された距離行列を調整することで、調整距離行列を生成する（Ｓ１３）。

　可視化部１０６は、調整距離行列を可視化した評価画面画像を生成し、表示部１０７にその評価画面画像を表示させる（Ｓ１４）。例えば、可視化部１０６は、順序調整部１０５によって順序が変更された調整距離行列に含まれている値に応じて、その値が含まれている欄の色の明度を決定することで、評価画面画像を生成する。

　そして、順序調整部１０５は、可視化処理を継続するか否かを判断する（Ｓ１５）。例えば、順序調整部１０５は、入力部１０１からラベルを示すユーザ情報ＵＩが送られてきた場合に、可視化処理を継続すると判断する。順序調整部１０５は、入力部１０１から処理を終了する指示を示すユーザ情報ＵＩが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合（Ｓ１４でＹｅｓ）には、処理はステップＳ１２に戻り、可視化処理を継続しない場合（Ｓ１４でＮｏ）には、処理は終了される。

　以上のように、実施の形態１によれば、任意のラベルで距離行列におけるサンプルの順序を調整して、可視化することで、指定されたラベルによって生じるデータセットのばらつきを直感的に表すことができる。これにより、調整に使用されたラベルに起因するデータセットの品質問題を明らかにすることができる。

実施の形態２．
　実施の形態１では、指定されたラベルによって距離行列のサンプルの順序を調整した結果を可視化することで、ユーザがラベルによるデータのばらつきを解釈していた。
　実施の形態２では、予めデータのばらつき度合いを算出し、順序を調整するラベルの指定を支援する。または、算出されたばらつき度合いにより、順序を調整するラベルを自動的に指定する。

　図１５は、実施の形態２に係るデータ可視化装置２００の構成を概略的に示すブロック図である。
　データ可視化装置２００は、入力部１０１と、記憶部１０２と、データ取得部１０３と、距離行列算出部１０４と、順序調整部１０５と、可視化部１０６と、表示部１０７と、ばらつき算出部２０８と、順序調整支援部２０９とを備える。

　実施の形態２におけるデータ可視化装置２００の入力部１０１、記憶部１０２、データ取得部１０３、距離行列算出部１０４、順序調整部１０５、可視化部１０６及び表示部１０７は、実施の形態１におけるデータ可視化装置１００の入力部１０１、記憶部１０２、データ取得部１０３、距離行列算出部１０４、順序調整部１０５、可視化部１０６及び表示部１０７と同様である。
　但し、データ取得部１０３は、取得されたデータセットＤＳ及びラベル情報ＬＩをばらつき算出部２０８にも与え、距離行列算出部１０４は、生成した距離行列をばらつき算出部２０８にも与える。

　ばらつき算出部２０８は、各々のラベルによって生じる、データとしての複数のサンプルのばらつき度合いを算出する。
　実施の形態１では、可視化された調整距離行列をユーザが解釈することで品質問題を明らかにしていた。例えば、図８に示されている調整距離行列１２０のように、対角線上の同じクラス同士が交わる区画の明度が低く、それ以外の区画の明度が高い場合は、ラベルによるばらつきがあると判断することができる。

　このような距離行列の特徴をユーザに解釈させるのではなく数値として定量化するのがばらつき算出部２０８の役割である。ばらつき算出部２０８によって「特定のラベルによって生じるデータのばらつき度合い」を定量化することが可能となる。以下、ばらつき算出部２０８の具体的な処理を説明する。

　ここでは、サンプル数がＮ個（Ｎは、２以上の整数）のデータセットについて、あるラベルによって生じるデータのばらつきを算出する例を説明する。
　算出対象のラベルに含まれるクラス数をＣ個（Ｃは、２以上の整数）として、それぞれのクラスを１，２，・・・，Ｃと表すこととする。

　また、このデータセットから算出される距離行列のサンプルを、１，２，・・・，Ｃの順序となるように調整した調整距離行列をＭとする。なお、この例では、距離行列がサンプル間のバタチャリヤ距離により構成されているものとする。
　Ｍの要素の数は、Ｎ×Ｎ個である。ここでは、クラス数がＣ個のラベルで距離行列のサンプルを調整しているため、調整距離行列Ｍ内に、Ｃ×Ｃ個の領域である部分行列が存在する。これらの部分行列を、図１６に示されているように、Ｄ_１１、Ｄ_１２、・・・、Ｄ_ＣＣと表すこととする。

　Ｄ_ｉｊは、クラスｉ（ｉは、１≦ｉ≦Ｃを満たす整数）に属するサンプルと、クラスｊ（ｊは、１≦ｊ≦Ｃを満たす整数）に属するサンプルとによって構成される部分行列となる。
　クラスｉに属するサンプルの数をＮ_ｉとし、クラスｊに属するサンプルの数をＮ_ｊとすると、Ｄ_ｉｊは、Ｎ_ｉ×Ｎ_ｊの行列となる。Ｄ_ｉｊの各要素は、ｄ_ｋｌ ^（ｉｊ）と表記する。

　ここで、部分行列の要素の平均値μ_ｉｊを算出し、各部分行列Ｄ_ｉｊに対応する各区画の代表値とする。
　調整距離行列Ｍの対称性により、μ_ｉｊを算出する際には、図１７において塗りつぶされた区画が使用される。ｉ＝ｊのときには、Ｄ_ｉｊ自体が対称行列となるため対角線より右上の要素のみを使用して平均値が算出される。また、μ_ｉｊ＝μ_ｊｉとなるため、ｉ＞ｊとなる区画については計算を行なう必要がない。

　下記の（１）式は、μ_ｉｊの算出式である。

　なお、ここでは、平均値μ_ｉｊを部分行列Ｄ_ｉｊの代表値として用いたが、実施の形態２はこのような例に限定されない。例えば、部分行列Ｄ_ｉｊに含まれている要素の中央値が部分行列Ｄ_ｉｊの代表値として用いられてもよい。

　平均値μ_ｉｊの定性的な意味としては、ｉ≠ｊの場合は、クラスｉに属しているデータと、クラスｊに属しているデータとの類似度を表していると考えることができる。例えば、μ_１２が小さな値を示していた場合、クラス１のデータと、クラス２のデータとが類似しており、クラスの違いによるデータのばらつきは発生していないと見なせる。また、ｉ＝ｊの場合は、平均値μ_ｉｊは、同じクラスに属しているデータ同士のばらつき度合いを表している。

　ラベルによってデータのばらつきが発生している状態では、図６（Ｂ）又は図８のように、距離行列の対角線上に位置するＤ_ｉｉに含まれる調整距離行列の要素の値が低く、それ以外の要素の値は高くなる。よって、あるラベルによって生じるデータのばらつき度合いＶは、例えば、下記の（２）式のように定式化可能である。

　（２）式の左項は、ｉ≠jのときのμ_ｉｊを全ての組み合わせで算出し、その平均を算出するものである。これは、クラスが異なる場合にデータがどれだけばらつくかどうかを表す。
　（２）式の右項は、ｉ＝Ｊのときのμ_ｉｊを全ての組み合わせで算出し、その平均を算出するものである。これは、同じクラス内のデータがどれだけばらついているかどうかを表す。

　図６（Ｂ）又は図８のように、ラベルによるデータのばらつきが発生しているとき、Ｖの値が大きくなる。Ｖは、データセットの識別対象のラベル（ここでは、検査結果ラベル）では高い値となり、そのラベルと無関係であると期待されるラベル（ここでは、計測日ラベル）では低い値となることが望ましい。

　以上のように、ばらつき算出部２０８は、複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値から、同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されるばらつき度合いＶを予め与えられた全てのラベルで算出する。例えば、データセットに５つのラベルが付与されている場合、この処理によって各ラベルに対応した５つのＶが得られる。

　順序調整支援部２０９は、ばらつき算出部２０８によって得られた結果であるばらつき結果画面画像を表示部１０７に表示させることで、その結果をユーザに提示して、調整に使用するラベルを指定する際の支援を行う。ばらつき結果画面画像は、例えば、ばらつき度合いＶの大きい順にラベルを表示する画面画像である。ユーザは、このような画面を参照して、対象ラベルの指定を行えばよい。
　順序調整支援部２０９は、ばらつき結果画面画像を表示するのではなく、ばらつき算出部２０８によって得られた結果を順序調整部１０５に通知して、自動的に距離行列に含まれているサンプルの順序を調整することで、調整距離行列を生成させてもよい。例えば、順序調整支援部２０９は、ばらつき度合いの最も高いラベルを対象ラベルとして指定して、その対象ラベルに従って、順序調整部１０５に調整距離行列を生成させてもよい。また、順序調整支援部２０９は、ばらつき度合いの高いものから順に複数のラベルを対象ラベルとして指定してもよい。さらに、順序調整支援部２０９は、ばらつき度合いの最も高いラベルと、ばらつき度合いの最も低いラベルとを、対象ラベルとして指定してもよい。

　実施の形態２に係るデータ可視化装置２００も、図１３に示されているコンピュータ１３０により構成することができる。
　例えば、ばらつき算出部２０８及び順序調整支援部２０９は、プロセッサ１３５が、記憶装置１３３に記憶されているプログラムをメモリ１３４に読み出して、そのプログラムを実行することで実現することができる。

　図１８は、実施の形態２に係るデータ可視化装置２００での第１の処理を示すフローチャートである。
　第１の処理は、順序調整支援部２０９が、ばらつき算出部２０８によって得られた結果であるばらつき結果画面画像を表示部１０７に表示させる場合の処理である。

　まず、データ取得部１０３は、記憶部１０２から、データセットＤＳ及びそのラベル情報ＬＩを取得する（Ｓ２０）。取得されたデータセットＤＳ及びそのラベル情報ＬＩは、距離行列算出部１０４及びばらつき算出部２０８に与えられる。

　距離行列算出部１０４は、データセットＤＳを構成する各サンプルの類似度から構成される距離行列を算出する（Ｓ２１）。生成された距離行列は、順序調整部１０５及びばらつき算出部２０８に与えられる。

　次に、ばらつき算出部２０８は、ラベル情報ＬＩで示されるラベルの数だけステップＳ２３及びＳ２４の処理を繰り返す（Ｓ２２及びＳ２５）。

　ステップＳ２３では、ばらつき算出部２０８は、ラベル情報ＬＩで示されるラベルから、ばらつき度合いＶを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。

　ステップＳ２４では、ばらつき算出部２０８は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いＶを算出する。

　次に、順序調整支援部２０９は、ばらつき算出部２０８によって算出されたばらつき度合いＶを示すばらつき結果画面画像を表示部１０７に表示させる（Ｓ２６）。

　次に、入力部１０１は、距離行列に含まれるサンプルの順序を調整するため、ユーザからラベルの指定を受け付ける（Ｓ２７）。指定されたラベルを示すユーザ情報ＵＩは、順序調整部１０５に与えられる。ユーザは、表示部１０７に表示されるばらつき結果画面画像を参考にして、ラベルを指定すればよい。

　順序調整部１０５は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部１０４で生成された距離行列を調整することで、調整距離行列を生成する（Ｓ２８）。

　可視化部１０６は、調整距離行列を可視化した評価画面画像を生成し、表示部１０７にその評価画面画像を表示させる（Ｓ２９）。

　そして、順序調整部１０５は、可視化処理を継続するか否かを判断する（Ｓ３０）。例えば、順序調整部１０５は、入力部１０１からラベルを示すユーザ情報ＵＩが送られてきた場合に、可視化処理を継続すると判断する。順序調整部１０５は、入力部１０１から処理を終了する指示を示すユーザ情報ＵＩが送られてきた場合に、可視化処理を継続しないと判断する。可視化処理を継続する場合（Ｓ３０でＹｅｓ）には、処理はステップＳ２７に戻り、可視化処理を継続しない場合（Ｓ３０でＮｏ）には、処理は終了される。

　図１９は、実施の形態２に係るデータ可視化装置２００での第２の処理を示すフローチャートである。
　第２の処理は、順序調整支援部２０９が、ばらつき算出部２０８によって得られた結果であるばらつき結果により、ラベルを指定する場合の処理である。

　まず、データ取得部１０３は、記憶部１０２から、データセットＤＳ及びそのラベル情報ＬＩを取得する（Ｓ４０）。取得されたデータセットＤＳ及びそのラベル情報ＬＩは、距離行列算出部１０４及びばらつき算出部２０８に与えられる。

　距離行列算出部１０４は、データセットＤＳを構成する各サンプルの類似度から構成される距離行列を算出する（Ｓ４１）。生成された距離行列は、順序調整部１０５及びばらつき算出部２０８に与えられる。

　次に、ばらつき算出部２０８は、ラベル情報ＬＩで示されるラベルの数だけステップＳ４３及びＳ４４の処理を繰り返す（Ｓ４２及びＳ４５）。

　ステップＳ４３では、ばらつき算出部２０８は、ラベル情報ＬＩで示されるラベルから、ばらつき度合いＶを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。

　ステップＳ４４では、ばらつき算出部２０８は、調整された距離行列である調整距離行列を基づいて、特定されたラベルによるデータのばらつき度合いＶを算出する。

　次に、順序調整支援部２０９は、ばらつき算出部２０８によって算出されたばらつき度合いＶに応じて、ラベルを指定する（Ｓ４６）。例えば、順序調整支援部２０９は、ばらつき度合いＶが一番大きなラベルを指定すればよい。

　次に、順序調整部１０５は、指定されたラベルのクラス毎にサンプルが並ぶように、距離行列算出部１０４で生成された距離行列を調整することで、調整距離行列を生成する（Ｓ４７）。

　可視化部１０６は、調整距離行列を可視化した評価画面画像を生成し、表示部１０７にその評価画面画像を表示させる（Ｓ４８）。

　以上のように、実施の形態２によれば、ばらつき算出部２０８によって予め各ラベルによって生じるデータのばらつきを求めることで、距離行列に含まれるサンプルの調整を支援又は自動化することができる。

　なお、図１９に示されているフローチャートのステップＳ４６において、順序調整支援部２０９が複数のラベルを指定することで、ステップＳ４７及びＳ４８を介して、複数の評価画面画像が表示部１０７に表示されてもよい。この場合、順序調整支援部２０９は、ばらつき度合いＶの高いラベルから順に複数のラベルを指定すればよい。

　また、実施の形態２において、ラベル指定の自動化と、ユーザによるラベル指定とが組み合わされてもよい。例えば、最初に図１９に示されているように自動的に指定されたラベルによる評価画面画像が表示され、その後に、例えば、ユーザからの指示により、ばらつき結果画面画像が表示され、ユーザによってラベルが指定されてもよい。

実施の形態３．
　図２０は、実施の形態３に係るデータ可視化装置３００の構成を概略的に示すブロック図である。
　データ可視化装置３００は、記憶部１０２と、データ取得部１０３と、距離行列算出部１０４と、表示部１０７と、ばらつき算出部３０８とを備える。
　実施の形態３に係るデータ可視化装置３００の記憶部１０２、データ取得部１０３、距離行列算出部１０４及び表示部１０７は、実施の形態１に係るデータ可視化装置１００の記憶部１０２、データ取得部１０３、距離行列算出部１０４及び表示部１０７と同様である。

　なお、実施の形態３に係るデータ可視化装置３００は、実施の形態２に係るデータ可視化装置２００と比較して、入力部１０１、順序調整部１０５、可視化部１０６及び順序調整支援部２０９が設けられていない。

　ばらつき算出部３０８は、実施の形態２におけるばらつき算出部２０８と同様に、ラベル情報ＬＩで示される全てのラベルの各々によって生じるデータのばらつき度合いを算出する。
　そして、ばらつき算出部３０８は、算出されたばらつき度合いを示すばらつき結果画面画像を表示部１０７に表示させる。
　ばらつき結果画面画像は、例えば、ばらつき度合いＶの大きい順に予め定められた数のラベルを表示する画面画像であってもよく、全てのラベルのばらつき度合いＶを表示する画面画像であってもよい。言い換えると、ばらつき算出部３０８は、ラベル情報ＬＩで示される全てのラベルに含まれる少なくとも一つのラベルと、その少なくとも一つのラベルに対応するばらつき度合いとをばらつき結果画面画像に表示させればよい。

　図２１は、実施の形態３に係るデータ可視化装置３００での処理を示すフローチャートである。
　まず、データ取得部１０３は、記憶部１０２から、データセットＤＳ及びそのラベル情報ＬＩを取得する（Ｓ５０）。取得されたデータセットＤＳ及びそのラベル情報ＬＩは、距離行列算出部１０４及びばらつき算出部３０８に与えられる。

　距離行列算出部１０４は、データセットＤＳを構成する各サンプルの類似度から構成される距離行列を算出する（Ｓ５１）。生成された距離行列は、順序調整部１０５及びばらつき算出部３０８に与えられる。

　次に、ばらつき算出部３０８は、ラベル情報ＬＩで示されるラベルの数だけステップＳ５３及びＳ５４の処理を繰り返す（Ｓ５２及びＳ５５）。

　ステップＳ５３では、ばらつき算出部３０８は、ラベル情報ＬＩで示されるラベルから、ばらつき度合いＶを未だ算出していないラベルを特定し、特定されたラベルに応じて、距離行列に含まれているサンプルの順序を調整する。

　ステップＳ５４では、ばらつき算出部３０８は、調整された距離行列である調整距離行列に基づいて、特定されたラベルによるデータのばらつき度合いＶを算出する。

　次に、ばらつき算出部３０８は、算出されたばらつき度合いＶを示すばらつき結果画面画像を表示部１０７に表示させる（Ｓ５６）。

　実施の形態３によれば、各ラベルによるばらつき度合いＶをユーザに提示することで、データセットの品質問題に起因するラベルを明らかにすることができる。

　以上に記載された実施の形態１～３に係るデータ可視化装置１００～３００で扱うデータセットの例として、レーザ加工機による切断加工時の加工不良を自動検出することを目的として収集された加工音データが挙げられる。このデータは、加工機の加工ヘッドに音響センサであるマイクを取り付けることで収集が可能である。加工不良を検出することが目的なので、各データには不良の有無を示した「検査結果ラベル」が付与されている。最終的には機械学習により加工音データの特徴から加工不良の有無を検出することが期待される。

　データ可視化装置１００～３００は、データの学習を行う前段階として、データの品質を可視化及び定量化するために使用される。データ可視化装置１００～３００によって品質劣化と劣化要因とを確認できた場合は、その結果に応じて、「学習に使用するデータを間引きする（言い換えると、品質劣化を招いているデータを使わない）」又は「データ収集方法を改善する」等の対策を取ることで、データ品質の向上を図ることができる。
　また、データ収集時に、「計測時刻」、「計測者」、「機体の番号」又は「計測した場所」等の検査結果とは無関係であると期待されるラベルの情報も記録し、実施の形態１～３で記した処理により各ラベルによるデータのばらつき度合いを可視化及び定量化する。

　実施の形態１～３では、時刻毎に１次元の値を示す時系列データを扱っているが、１サンプルは必ずしも時刻毎に１次元の値を示すデータである必要はない。時刻毎に多次元の値を示す時系列データ、１次元信号に対して特徴抽出処理を施し多次元データに変換したものが使用されてもよい。また、時系列データである必要もない。

　実施の形態２及び３に記載されているばらつき算出部２０８、３０８は、「ラベル」毎に、ばらつき度合いを算出しているが、ばらつき算出部２０８、３０８は、あるラベルに注目したときに、そのラベルに含まれる「各クラスによって生じるばらつき度合い」を算出してもよい。

　クラスｃ（ｃは、１≦ｃ≦Ｃを満たす整数）によって生じるデータのばらつき度合いをＶ（ｃ）とすると、例えば、Ｖ（ｃ）は、下記の（３）式のように定式化可能である。

　（３）式のように、Ｖ（ｃ）は、クラス間のばらつきＶ_{ｏｕｔ（ｃ）}と、クラス内のばらつきＶ_{ｉｎ（ｃ）}との差によって算出される。
　Ｖ_{ｏｕｔ（ｃ）}は、クラスｃのサンプルが他クラスのサンプルとどれだけ乖離しているかを表し、Ｖ_{ｉｎ（ｃ）}は、クラスｃ同士のサンプルがどれだけばらついているかを表す。

　例えば、図１１に示されている調整距離行列１２３に対して、全てのクラス１～３で、で、Ｖ（ｃ）を求めた場合、Ｖ（１）及びＶ（３）に比べ、Ｖ（２）の値が大きくなる。これにより、クラス２のサンプルだけが他のクラスのサンプルと異なる性質を持っていることを定量的に示すことが可能となる。

　Ｖ（ｃ）の値は、データセットの識別対象のラベル（ここでは、検査結果ラベル）に含まれるクラスでは高い値が、そのラベルと無関係であると期待されるラベル（ここでは、計測日ラベル）に含まれるクラスでは低い値が出るのが望ましい。

　本来の識別対象とは無関係であると期待されるラベル（例えば、計測者、計測日又は機体番号等）に含まれるクラスのみを算出対象とする場合は、Ｖ（ｃ）を下記の（４）式で算出してもよい。

　即ち、ばらつき算出部２０８、３０８は、複数のクラスの内、ばらつき度合いＶ（ｃ）を算出する一つのクラスを対象クラスとした場合に、対象クラスに分類されるサンプルと、対象クラスを以外のクラスに分類されるサンプルとの類似度の代表値から、対象クラスに分類されるサンプル間の類似度の代表値を減算することによりばらつき度合いＶ（ｃ）を算出してもよい。
　また、ばらつき算出部２０８、３０８は、対象クラスに分類されるサンプルと、対象クラス以外のクラスに分類されるサンプルとの類似度の代表値に、対象クラスに分類されるサンプル間の類似度の代表値を加算することによりばらつき度合いＶ（ｃ）を算出してもよい。

　順序調整支援部２０９、又は、ばらつき算出部３０８は、複数のクラスと、複数のクラスの各々に対応するばらつき度合いＶ（ｃ）とを表示するばらつき結果画面画像を生成して、表示部１０７に表示させてもよい。

　この場合、図１２に示されている調整距離行列１２４のクラス２のような「他クラスのデータと乖離しており」かつ「同じクラスのデータ同士のばらつきも大きい」クラスで値が大きくなり、そのクラスが品質劣化の要因であると考えることができる。
　以上のように、ばらつき算出部２０８、３０８は、与えられた全てのラベルについて、ラベルによるばらつき度合いＶと、そのラベルの各クラスによって生じるばらつき度合いＶ（ｃ）とを算出してもよい。なお、ばらつき度合いＶを、ラベルばらつき度合いともいい、ばらつき度合いＶ（ｃ）をクラスばらつき度合いともいう。

　また、上述のＶ及びＶ（ｃ）の算出は、あるラベルによる調整を行った後の部分行列Ｄ_ｉｉに対して実施してもよい。その場合、ばらつき算出部２０８、３０８は、あるラベル（例えば、検査結果ラベル）によって調整された調整距離行列Ｍの対角線上に位置する部分行列Ｄ_ｉｉに含まれているサンプルを、更にそれ以外のあるラベルで並び替えて、再調整距離行列Ｍ_ｉを求めた後に、同様の手順で、再調整距離行列Ｍ_ｉからばらつき度合いＶ_ｉ及びＶ_ｉ（ｃ）を求める。このとき、最終的なＶ及びＶ（ｃ）は、例えば、Ｖ_ｉ及びＶ_ｉ（ｃ）の平均を取ることで算出可能である。この方法は、予めばらつきが大きいラベルが分かっている場合に、それ以外のラベルのばらつき度合いを算出する際に利用することができる。これにより、最初に調整を行ったラベルの影響を受けずに、他のラベルによるばらつき度合いを算出することが可能となる。

　以上のように、ばらつき算出部２０８、３０８は、「特定のラベルに含まれる各クラスによるデータのばらつき度合い」を算出してもよい。
　例えば、ばらつき算出部２０８は、入力部１０１を介して、ユーザがラベルの指定を行なった際に、そのラベルに含まれる各クラスのばらつき度合いＶ（ｃ）を算出してもよい。また、ばらつき算出部２０８、３０８は、ラベル毎のばらつき度合いＶと、クラス毎のばらつき度合いＶ（ｃ）とを算出して、その算出結果であるＶ及びＶ（ｃ）を、ばらつき結果画面画像に含めて、表示させてもよい。

　以上に記載された実施の形態１及び２では、調整距離行列の欄の値を、予め定められた閾値と比較し、予め定められた閾値未満である場合に、その欄の色を、予め定められた閾値以上の値の欄の色よりも暗くすることで、評価画面画像が生成されているが、実施の形態１及び２は、このような例に限定されない。例えば、調整距離行列をヒートマップとして可視化し、調整距離行列の欄の値を「色の濃淡」で表現してもよい。例えば、値が小さいほど暗い色、値が大きいほど明るい色となるようなヒートマップで可視化が行なわれてもよい。また、ヒートマップによる表現と、閾値による表現とを組み合わせることも可能である。例えば、予め指定された上限値を超えた欄は全て「ヒートマップにおいて一番明るい色（例えば、白）」、予め指定された下限値を下回った欄は全て「ヒートマップにおいて一番暗い色（例えば、黒）」、残りの欄は、ヒートマップに従って可視化する、といった表現方法が取られてもよい。

　１００，２００，３００　データ可視化装置、　１０１　入力部、　１０２　記憶部、　１０３　データ取得部、　１０４　距離行列算出部、　１０５　順序調整部、　１０６　可視化部、　１０７　表示部、　２０８，３０８　ばらつき算出部、　２０９　順序調整支援部。

Claims

　複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部と、
　前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部と、
　前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部と、
　前記評価画面画像を表示する表示部と、を備えること
　を特徴とする情報処理装置。
　前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
　前記複数のラベルと、前記複数のラベルの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、
　前記複数のラベルから、前記対象ラベルの指定を受け付ける入力部と、をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記ばらつき度合いが最も高いラベルを、前記対象ラベルとして指定するばらつき算出部をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記ばらつき度合いは、前記複数のクラスにおいて、異なるクラスに分類されるサンプル間の類似度の代表値から、同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
　を特徴とする請求項３又は４に記載の情報処理装置。
　前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出するばらつき算出部と、
　前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、前記表示部に前記ばらつき結果画面画像を表示させる順序調整支援部と、をさらに備えること
　を特徴とする請求項１に記載の情報処理装置。
　前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
　を特徴とする請求項６に記載の情報処理装置。
　前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
　を特徴とする請求項６に記載の情報処理装置。
　前記評価画面画像は、前記調整類似度行列の前記複数の列及び前記複数の行に対応付けて、前記対象ラベルにおける前記複数のクラスを示すこと
　を特徴とする請求項１から８の何れか一項に記載の情報処理装置。
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
　前記ばらつき結果画面画像を表示する表示部と、を備えること
　を特徴とする情報処理装置。
　前記ばらつき度合いは、前記複数のクラスにおける異なるクラスに分類されるサンプル間の類似度の代表値から、前記複数のクラスにおける同じクラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
　を特徴とする請求項１０に記載の情報処理装置。
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部と、
　前記ばらつき結果画面画像を表示する表示部と、を備えること
　を特徴とする情報処理装置。
　前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値から、前記対象クラスに分類されるサンプル間の類似度の代表値を減算することにより算出されること
　を特徴とする請求項１２に記載の情報処理装置。
　前記ばらつき度合いは、前記複数のクラスの内、前記ばらつき度合いを算出する一つのクラスを対象クラスとした場合に、前記対象クラスに分類されるサンプルと、前記対象クラスを除いた前記複数のクラスに分類されるサンプルとの類似度の代表値に、前記対象クラスに含まれる同じクラスに分類されるサンプル間の類似度の代表値を加算することにより算出されること
　を特徴とする請求項１２に記載の情報処理装置。
　コンピュータを、
　複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成する類似度行列生成部、及び、
　前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成する順序調整部、
　前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成する可視化部、及び、
　前記評価画面画像を表示する表示部、として機能させること
　を特徴とするプログラム。
　コンピュータを、
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
　前記ばらつき結果画面画像を表示する表示部、として機能させること
　を特徴とするプログラム。
　コンピュータを、
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成するばらつき算出部、及び、
　前記ばらつき結果画面画像を表示する表示部、として機能させること
　を特徴とするプログラム。
　複数のサンプルを有するデータセットから、前記複数のサンプルが並ぶ順序に従って横に並べられた複数の列と、前記順序に従って縦に並べられた複数の行とを備え、前記複数の列の内の一つの列と、前記複数の行の内の一つの行とで特定される一つの欄に、前記一つの列に対応するサンプルと、前記一つの行に対応するサンプルとの間の類似度を格納した類似度行列を生成し、
　前記複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルから指定されたラベルである対象ラベルにおける前記複数のクラス毎に前記複数のサンプルが並ぶように、前記類似度行列における前記順序を調整することで、調整類似度行列を生成し、
　前記調整類似度行列の各々の欄を、前記類似度に応じた明度で示す評価画面画像を生成し、
　前記評価画面画像を表示すること
　を特徴とする情報処理方法。
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のラベルの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、
　前記複数のラベルに含まれる少なくとも一つのラベルと、前記少なくとも一つのラベルに対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
　前記ばらつき結果画面画像を表示すること
　を特徴とする情報処理方法。
　データセットに含まれている複数のサンプルの各々に対して、各々が複数のクラスを有する複数のラベルを用いてラベリングを行なった結果を示すラベル情報を参照して、前記複数のクラスの各々によって生じる、前記複数のサンプルのばらつき度合いを算出し、
　前記複数のクラスと、前記複数のクラスの各々に対応する前記ばらつき度合いとを表示するばらつき結果画面画像を生成し、
　前記ばらつき結果画面画像を表示すること
　を特徴とする情報処理方法。