WO2020158628A1

WO2020158628A1 - 評価装置、評価方法及びプログラム

Info

Publication number: WO2020158628A1
Application number: PCT/JP2020/002601
Authority: WO
Inventors: 宜秀仲川
Original assignee: 日本電信電話株式会社
Priority date: 2019-01-31
Filing date: 2020-01-24
Publication date: 2020-08-06
Also published as: US20220092358A1; JP7131414B2; JP2020123294A

Abstract

複数の次元圧縮手法を評価する評価装置は、複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第１の特徴と、当該次元圧縮後のデータセットの第２の特徴とを抽出する特徴計算部と、前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第１の特徴と前記第２の特徴との間の相似度を算出する特徴相似度算出部と、前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部とを有する。

Description

評価装置、評価方法及びプログラム

　本発明は、次元圧縮手法を評価する評価装置、評価方法及びプログラムに関する。

　機械学習を適用する分野において、学習の高速化やデータの可視化を行う上で、学習用にあらかじめ与えられるサンプルデータと答えデータのセットについて、サンプルデータの特徴量（例えば、人体に関するデータセットにおける身長や体重などのような、サンプルデータを特徴づけるプロパティ）の数（次元）を圧縮することが試みられている。

　特徴量の次元圧縮は、主に機械学習やビッグデータ分析に使われる。あるサンプルデータセットが膨大な特徴量を持つ場合、機械学習、分析に膨大な時間が必要であり、人間がサンプルデータセットのばらつきを目視できないといった課題がある。そこでデータセットの特徴をできるだけ保持し、特徴量を次元圧縮することにより、可視化や高速化を行うことが可能になる。特徴量の次元圧縮手法については種々あり、適切な次元圧縮手法を評価するための手法として、従来では次元圧縮後のデータセットをグラフなどを用いて定性的に評価する手法がある。図１に示すように、サンプルデータセットを次元圧縮手法＃１～＃３で次元圧縮すると、それぞれの次元圧縮手法について次元圧縮後のデータセットが得られる。説明を簡単にするために、図１の各データセットの下に、次元圧縮前のデータセットの特徴を３次元のグラフで示し、次元圧縮後のデータセットの特徴を２次元のグラフで示す。グラフによる定性的な評価とは、次元圧縮手法＃１～＃３のうち、どの手法が元のサンプルデータセットの特徴をよりとらえているかをそれぞれのグラフから視覚的に評価する手法である。

　また、遺伝子解析について局所的な分布の相関に基づいて次元圧縮手法を評価する技術が提案されている（非特許文献１）。

Samuel Kaski, et. al.,"Trustworthiness and metrics in visualizing similarity of gene expression", BMC Bioinformatics, 13 October 2003

　上記のように特徴量の次元圧縮手法については種々あり、次元圧縮後のデータセットについてどの程度機械学習・分析に有意な情報が残されているかを評価することが望ましい。図１に示す従来の次元圧縮手法の評価は定性的な評価であるので、次元数が増加したときに評価が困難になることがあり、必ずしも適切な評価が行われるとは限らない。また、非特許文献１における次元圧縮手法の評価は、局所的な分布の相関を評価するものであり、局所的な分布の相関が小さい場合には適用が困難である。さらに、従来では、１つの手法による評価にとどまり、複数観点から評価することができないという課題がある。

　本発明は、複数の観点から次元圧縮手法を評価する技術を提供することを目的とする。

　本発明の一形態に係る評価装置は、
　複数の次元圧縮手法を評価する評価装置であって、
　複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第１の特徴と、当該次元圧縮後のデータセットの第２の特徴とを抽出する特徴計算部と、
　前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第１の特徴と前記第２の特徴との間の相似度を算出する特徴相似度算出部と、
　前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
　を有することを特徴とする。

　また、本発明の一形態に係る評価方法は、
　複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
　複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第１の特徴と、当該次元圧縮後のデータセットの第２の特徴とを抽出するステップと、
　前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第１の特徴と前記第２の特徴との間の相似度を算出するステップと、
　前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
　を有することを特徴とする。

　また、本発明の一形態に係るプログラムは、
　上記の評価装置の各部としてコンピュータを機能させることを特徴とする。

　本発明によれば、複数の観点から次元圧縮手法を評価することが可能になる。

従来技術における次元圧縮手法の評価手法を示す図である。本発明の実施の形態におけるネットワーク構成例を示す図である。本発明の実施の形態における評価装置を構成するコンピュータのハードウェア構成例を示す図である。本発明の実施の形態における評価装置の機能構成例を示す図である。特徴計算部及び特徴相似度算出部の処理を示すフローチャートである。

　以下、図面に基づいて本発明の実施の形態を説明する。

　図２は、本発明の実施の形態におけるネットワーク構成例を示す図である。図２において、評価装置１０は、インターネット又はLAN（Local Area Network）等のネットワークを介して１以上のユーザ端末２０と接続される。

　評価装置１０は、種々の次元圧縮手法に依存せず、次元圧縮前後のデータセットの特徴の類似性を、複数の観点から定量的に評価できるサーバ等の装置である。特徴の類似性を数値化するために、後述する特徴計算部により各データセットの特徴を算出し、後述する特徴相似度算出部により相似度を定量化し、最適な次元圧縮手法及び相似度の一覧をユーザ端末２０に返却する。

　ユーザ端末２０は、評価装置１０に対するデータや評価条件の入力をユーザから受け付けたり、評価装置１０による評価結果を出力（表示）したりする端末である。例えば、ＰＣ（Personal Computer）、スマートフォン、タブレット端末等がユーザ端末２０として利用されてもよい。

　図３は、本発明の実施の形態における評価装置１０を構成するコンピュータのハードウェア構成例を示す図である。評価装置１０を構成するコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

　評価装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って評価装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図４は、本発明の実施の形態における評価装置１０の機能構成例を示す図である。図４において、評価装置１０は、入力受付部１１、次元圧縮部１２、特徴計算部１３、特徴相似度算出部１４及び出力部１５等を有する。これら各部は、評価装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

　入力受付部１１は、ユーザ端末２０において入力されたサンプルデータセット（次元圧縮前のデータセット）と次元圧縮後のデータセットと評価条件を当該ユーザ端末２０から受信し、サンプルデータセットと次元圧縮後のデータセットとをメモリ装置１０３等に格納する。

　入力受付部１１がユーザ端末２０から受信するサンプルデータセットは、トラフィックデータやセンサーデータのようなデータの集合である。例えば、各トラフィックデータは、IP、ポート、プロトコル、パケット数、長さ等の複数の特徴量で構成される。次元圧縮後のデータセットとは、サンプルデータセットの特徴量の数（次元）を圧縮した後のデータセットである。なお、後述する次元圧縮部１２において次元圧縮する場合には、入力受付部１１は次元圧縮後のデータセットを受け付ける必要はない。

　評価条件は、後述する複数の評価手法のうちどの評価手法を使用して次元圧縮手法を評価するか（複数選択可）を含み、また、次元圧縮部１２において次元圧縮する場合には、評価条件は評価対象の次元圧縮手法（複数選択可）を含む。

　次元圧縮部１２は、入力受付部１１において次元圧縮後のデータセットを受け付けない場合に、入力受付部１１において受け付けた評価対象の次元圧縮手法を用いて、サンプルデータセットの次元圧縮を実施し、次元圧縮後のデータセットを生成する。

　特徴計算部１３は、入力受付部１１又は次元圧縮部１２からサンプルデータセット及び次元圧縮後のデータセットを受け取り、複数の特徴抽出アルゴリズムを用いて、各次元圧縮手法に対してサンプルデータセットの特徴と、次元圧縮後のデータセットの特徴とを抽出する。特徴計算部１３は、これらの特徴を行列又はベクトルに変換してもよい。

　特徴相似度算出部１４は、特徴計算部１３で用いた複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、サンプルデータセットの特徴を表す行列又はベクトルと次元圧縮後のデータセットの特徴を表す行列又はベクトルとの相似度を算出する。相似度が高いほど、次元圧縮前後のデータセットの特徴が似ていると言うことができる。特徴相似度算出部１４は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定することができる。

　出力部１５は、最適な次元圧縮手法の提案、各次元圧縮手法における相似度一覧を出力する。

　以下に、次元圧縮手法を評価するための具体的な３つの評価手法に関して、特徴計算部１３及び特徴相似度算出部１４の機能を説明する。３つの評価手法のうちどの評価手法を使用するかは、入力受付部１１で受け付けた評価条件に従う。

　（１）評価手法＃１：各点の大局的な分布の特徴を抽出し、相似度を算出する手法
　評価手法＃１の特徴抽出アルゴリズムは以下の通りである。

　特徴計算部１３は、次元圧縮前のデータセットA=[a₁,a₂,…,a_n]及び次元圧縮後のデータセットB=[b₁,b₂,…,b_n]について、それぞれのデータセットの各点（各データ）間の関係を行列化する。各点間の関係は距離及び内積があり、必要に応じてユーザが選択可能とする。各点間の関係を距離で表す場合、次元圧縮前のデータセットの各点間の距離は以下の行列R^Aで表される。

また、各点間の関係を内積で表す場合、次元圧縮前の各データセットの各点間の内積は以下の行列R^Aで表される。

　次元圧縮後データの行列R^Bについても同様に算出することができる。

　評価手法＃１の特徴相似度計算アルゴリズムは以下の通りである。

　特徴相似度算出部１４は、行列R^Aと行列R^Bとの間の相関係数を算出する。具体的には、ピアソンの積率相関係数を用いて相似度を算出する。

　（２）評価手法＃２：各点の局所的な分布の特徴を抽出し、相似度を算出する手法
　本評価手法はTrustworthiness計算式（非特許文献１）を用いる。評価手法＃２の特徴抽出アルゴリズムは以下の通りである。

　特徴計算部１３は、次元圧縮前のデータ及び次元圧縮後のデータをTrustworthiness計算式を用いて分類し、その分類予測を特徴とする。具体的には、次元圧縮前のデータセットA=[a₁,a₂,…,a_n]について、a_iから最も近いものから順に並べた際のa_jの順位を算出する。また、次元圧縮後のデータセットB=[b₁,b₂,…,b_n]について、各点（各データ）に近い方からk番目の点までを抽出する。

　評価手法＃２の特徴相似度計算アルゴリズムは以下の通りである。

　特徴相似度算出部１４は、次元圧縮前のデータセットA=[a₁,a₂,…,a_n]及び次元圧縮後のデータセットB=[b₁,b₂,…,b_n]について、以下の特徴ベクトルRを計算する。

ここで、

はb_iに最も近いものからk番目までの点のインデックスの集合（特徴計算部１３において抽出した点の集合）であり、r(a_j,a_i)は、a_iから最も近いものから順に並べた際のa_jの順位（特徴計算部１３において算出した順位）を表す。

　特徴相似度算出部１４は、下記の式によって相似度を算出する。

　（３）手法＃３：機械学習結果により相似度を算出する手法
　評価手法＃３の特徴抽出アルゴリズムは以下の通りである。

　予め、次元圧縮前のデータセット（学習用のデータセット）及び次元圧縮後のデータセット（学習用のデータセット）を機械学習で分類して、次元圧縮前のデータセットの特徴を表すベクトルR^A及び次元圧縮後のデータセットの特徴を表すR^Bを出力する機械学習モデルが構築されているものとする。特徴計算部１３は、次元圧縮前のデータセットA=[a₁,a₂,…,a_n]及び次元圧縮後のデータセットB=[b₁,b₂,…,b_n]のそれぞれについて、学習済みの機械学習モデルを用いて分類して得られたベクトルR^A=[r₁ ^A,r₂ ^A,…,r_n ^A]及びR_B=[r₁ ^B,r₂ ^B,…,r_n ^B]を抽出する。

　評価手法＃３の特徴相似度計算アルゴリズムは以下の通りである。

　特徴相似度算出部１４では、ベクトルR_A及びR_Bの各成分が一致しているか否かに基づいて下記の式で相似度を算出する。

　上記の３つの手法によって、図４に示す次元圧縮手法＃１～＃Ｎにおいて、評価手法＃１～＃３の相似度の一覧が得られる。

　図５は、特徴計算部１３及び特徴相似度算出部１４の処理を示すフローチャートである。ここでは、評価装置１０において上記の評価手法＃１～＃３が利用可能であるものとし、評価手法＃１～＃３のうちどの評価手法を使用するかは、入力受付部１１において受け付けているものとする。

　ステップＳ１０１において、特徴計算部１３は評価手法＃１を使用するか否かを判断する。評価手法＃１を使用する場合、ステップＳ１０２に進み、評価手法＃１を使用しない場合、ステップＳ１０５に進む。

　ステップＳ１０２において、特徴計算部１３は、上記の評価手法＃１に従ってサンプルデータセットの特徴R^Aを算出する。

　ステップＳ１０３において、特徴計算部１３は、上記の評価手法＃１に従って次元圧縮後のデータセットの特徴R^Bを算出する。

　ステップＳ１０４において、特徴相似度算出部１４は、上記の評価手法＃１に従って相似度を算出する。

　ステップＳ１０５において、特徴計算部１３は評価手法＃２を使用するか否かを判断する。評価手法＃２を使用する場合、ステップＳ１０６に進み、評価手法＃２を使用しない場合、ステップＳ１０９に進む。

　ステップＳ１０６において、特徴計算部１３は、上記の評価手法＃２に従ってr(a_j,a_i)を抽出する。

　ステップＳ１０７において、特徴計算部１３は、上記の評価手法＃２に従ってb_iに最も近いものからk番目までの点のインデックスの集合を抽出する。

　ステップＳ１０８において、特徴相似度算出部１４は、上記の評価手法＃２に従って相似度を算出する。

　ステップＳ１０９において、特徴計算部１３は評価手法＃３を使用するか否かを判断する。評価手法＃３を使用する場合、ステップＳ１１０に進み、評価手法＃３を使用しない場合、処理を終了する。

　ステップＳ１１０において、特徴計算部１３は、上記の評価手法＃３に従ってサンプルデータセットの特徴R^Aを算出する。

　ステップＳ１０３において、特徴計算部１３は、上記の評価手法＃３に従って次元圧縮後のデータセットの特徴R^Bを算出する。

　ステップＳ１０４において、特徴相似度算出部１４は、上記の評価手法＃３に従って相似度を算出する。

　さらに、特徴相似度算出部１４は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定する。例えば、特徴相似度算出部１４は、得られた相似度と閾値とを比較して、全ての相似度が閾値より高いものが最適な次元圧縮手法であると決定してもよく、また、複数のサンプルデータセットを用いて評価した結果、相似度のばらつきが小さいものが最適な次元圧縮手法であると決定してもよい。

　本実施の形態によれば、次元圧縮手法の比較及び選定を行うにあたり、複数の観点から次元圧縮手法を定量的に評価することができ、最適な次元圧縮手法を提案することが可能となる。また、評価手法＃１は大局的なデータの分布の相似度を計算することができる手法であり、評価手法＃２は局所的な分布の相関を計算することができる手法であり、評価手法＃３は実際のデータを用いた評価結果を反映することができる手法である。これらの評価手法を組み合わせることで、様々な観点から次元圧縮手法を評価することが可能になる。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　１０　評価装置
　１１　入力受付部
　１２　次元圧縮部
　１３　特徴計算部
　１４　特徴相似度算出部
　１５　出力部
　２０　ユーザ端末

Claims

　複数の次元圧縮手法を評価する評価装置であって、
　複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第１の特徴と、当該次元圧縮後のデータセットの第２の特徴とを抽出する特徴計算部と、
　前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第１の特徴と前記第２の特徴との間の相似度を算出する特徴相似度算出部と、
　前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
　を有する評価装置。
　前記複数の特徴抽出アルゴリズムのうち第１の特徴抽出アルゴリズムは、前記次元圧縮前のデータセット内の各データ間の距離又は内積を表す行列を前記第１の特徴として抽出し、前記次元圧縮後のデータセット内の各データ間の距離又は内積を表す行列を前記第２の特徴として抽出するアルゴリズムであり、
　前記第１の特徴抽出アルゴリズムに対応する第１の特徴相似度計算アルゴリズムは、前記第１の特徴と前記第２の特徴との相関係数を算出するアルゴリズムである、請求項１に記載の評価装置。
　前記複数の特徴抽出アルゴリズムのうち第２の特徴抽出アルゴリズムは、学習用の次元圧縮前のデータセット及び学習用の次元圧縮後のデータセットを用いて機械学習によって構築された機械学習モデルを用いて、前記次元圧縮前のデータセット及び前記次元圧縮後のデータセットから、前記第１の特徴を表すベクトルと前記第２の特徴を表すベクトルとを抽出するアルゴリズムであり、
　前記第２の特徴抽出アルゴリズムに対応する第２の特徴相似度計算アルゴリズムは、前記第１の特徴を表すベクトルの各成分と前記第２の特徴を表すベクトルの各成分とが一致しているか否かに基づいて、相似度を算出するアルゴリズムである、請求項１又は２に記載の評価装置。
　前記特徴相似度算出部は、前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度に基づいて、最適な次元圧縮手法を決定し、
　前記出力部は、前記決定された最適な次元圧縮手法を出力する、請求項１乃至３のうちいずれか１項に記載の評価装置。
　次元圧縮前のデータセットを受け取る入力受付部と、
　前記複数の次元圧縮手法を用いて、前記次元圧縮前のデータセットの次元を圧縮した次元圧縮後のデータセットを生成する次元圧縮部と、
　を更に有する、請求項１乃至４のうちいずれか１項に記載の評価装置。
　複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
　複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第１の特徴と、当該次元圧縮後のデータセットの第２の特徴とを抽出するステップと、
　前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第１の特徴と前記第２の特徴との間の相似度を算出するステップと、
　前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
　を有する評価方法。
　請求項１乃至５のうちいずれか１項に記載の評価装置の各部としてコンピュータを機能させるためのプログラム。