WO2020158628A1 - 評価装置、評価方法及びプログラム - Google Patents

評価装置、評価方法及びプログラム Download PDF

Info

Publication number
WO2020158628A1
WO2020158628A1 PCT/JP2020/002601 JP2020002601W WO2020158628A1 WO 2020158628 A1 WO2020158628 A1 WO 2020158628A1 JP 2020002601 W JP2020002601 W JP 2020002601W WO 2020158628 A1 WO2020158628 A1 WO 2020158628A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
data set
compression
dimension
similarity
Prior art date
Application number
PCT/JP2020/002601
Other languages
English (en)
French (fr)
Inventor
宜秀 仲川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/423,971 priority Critical patent/US20220092358A1/en
Publication of WO2020158628A1 publication Critical patent/WO2020158628A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • the present invention relates to an evaluation device, an evaluation method and a program for evaluating a dimensional compression method.
  • the feature amount of the sample data (for example, the height in the dataset related to the human body) is set for the set of sample data and answer data given in advance for learning. Attempts have been made to compress the number (dimension) of properties that characterize the sample data, such as weight and weight.
  • Dimension compression of features is mainly used for machine learning and big data analysis.
  • a certain sample data set has a huge amount of features, a huge amount of time is required for machine learning and analysis, and there is a problem that humans cannot visually check the variation of the sample data set. Therefore, it is possible to perform visualization and speed-up by retaining the features of the data set as much as possible and compressing the features dimensionally.
  • various dimensional compression methods for feature quantities and conventionally, as a method for evaluating an appropriate dimensional compression method, there is a method for qualitatively evaluating a data set after dimensional compression using a graph or the like. As shown in FIG.
  • Non-Patent Document 1 a technology for evaluating a dimensional compression method based on the correlation of local distribution in gene analysis has been proposed.
  • Non-Patent Document 1 evaluates the correlation of local distributions, and is difficult to apply when the correlation of local distributions is small. Further, conventionally, there is a problem that the evaluation is limited to one method and cannot be evaluated from a plurality of viewpoints.
  • the present invention aims to provide a technique for evaluating a dimensional compression method from a plurality of viewpoints.
  • An evaluation device for evaluating a plurality of dimensional compression methods, Using a plurality of feature extraction algorithms, for each of the plurality of dimensional compression methods, a first feature of the data set before dimension compression from the data set before dimension compression and the data set after dimension compression; A feature calculator that extracts a second feature of the dimension-compressed data set; A feature similarity calculation unit that calculates a similarity between the first feature and the second feature by using a plurality of feature similarity calculation algorithms respectively corresponding to the plurality of feature extraction algorithms; An output unit that outputs the similarity calculated for each of the plurality of dimensional compression methods, It is characterized by having.
  • an evaluation method executed by an evaluation device for evaluating a plurality of dimension compression methods, Using a plurality of feature extraction algorithms, for each of the plurality of dimensional compression methods, a first feature of the data set before dimension compression from the data set before dimension compression and the data set after dimension compression; Extracting a second feature of the dimensionally compressed data set; Calculating a similarity between the first feature and the second feature by using a plurality of feature similarity calculation algorithms respectively corresponding to the plurality of feature extraction algorithms; Outputting the similarity calculated for each of the plurality of dimensional compression techniques; It is characterized by having.
  • a computer is caused to function as each unit of the above-described evaluation apparatus.
  • FIG. 2 is a diagram showing a network configuration example in the embodiment of the present invention.
  • the evaluation device 10 is connected to one or more user terminals 20 via a network such as the Internet or a LAN (Local Area Network).
  • a network such as the Internet or a LAN (Local Area Network).
  • the evaluation device 10 is a device such as a server that does not depend on various dimensional compression methods and can quantitatively evaluate the similarity of the characteristics of the data set before and after dimensional compression from a plurality of viewpoints.
  • the features of each data set are calculated by the feature calculator described later, the similarity is quantified by the feature similarity calculator described later, and the optimal dimension compression method and list of similarities are calculated. Is returned to the user terminal 20.
  • the user terminal 20 is a terminal that receives data and evaluation conditions input to the evaluation device 10 from the user and outputs (displays) the evaluation result by the evaluation device 10.
  • a PC Personal Computer
  • smartphone a tablet terminal, or the like may be used as the user terminal 20.
  • FIG. 3 is a diagram showing a hardware configuration example of a computer that constitutes the evaluation device 10 according to the embodiment of the present invention.
  • the computer constituting the evaluation device 10 has a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, etc., which are connected to each other by a bus B.
  • the program that realizes the processing in the evaluation device 10 is provided by the recording medium 101 such as a CD-ROM.
  • the recording medium 101 storing the program is set in the drive device 100, the program is installed in the auxiliary storage device 102 from the recording medium 101 via the drive device 100.
  • the program does not necessarily have to be installed from the recording medium 101, and may be downloaded from another computer via a network.
  • the auxiliary storage device 102 stores the installed program and also stores necessary files and data.
  • the memory device 103 reads the program from the auxiliary storage device 102 and stores it when an instruction to activate the program is given.
  • the CPU 104 executes the functions related to the evaluation device 10 according to the program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 4 is a diagram showing a functional configuration example of the evaluation device 10 according to the embodiment of the present invention.
  • the evaluation device 10 includes an input reception unit 11, a dimension compression unit 12, a feature calculation unit 13, a feature similarity calculation unit 14, an output unit 15, and the like. Each of these units is realized by a process that causes the CPU 104 to execute one or more programs installed in the evaluation device 10.
  • the input receiving unit 11 receives the sample data set (data set before dimension compression) input in the user terminal 20, the data set after dimension compression, and the evaluation condition from the user terminal 20, and receives the sample data set and dimension compression. And the data set of the above are stored in the memory device 103 or the like.
  • the sample data set received by the input reception unit 11 from the user terminal 20 is a set of data such as traffic data and sensor data.
  • each traffic data is composed of a plurality of characteristic quantities such as IP, port, protocol, number of packets, and length.
  • the dimension-compressed data set is a data set after the number of feature quantities (dimensions) of the sample data set is compressed.
  • the input accepting unit 11 does not need to accept the dimension-compressed data set.
  • the evaluation condition includes which evaluation method among a plurality of evaluation methods described below is used to evaluate the dimension compression method (a plurality of selections are possible), and when the dimension compression unit 12 performs dimension compression, the evaluation condition is set. Includes a dimension compression method (multiple selections possible) to be evaluated.
  • the dimensional compression unit 12 uses the dimensional compression method of the evaluation target received by the input receiving unit 11 to perform the dimensional compression of the sample data set, Generate a data set after dimension compression.
  • the feature calculation unit 13 receives the sample data set and the dimension-compressed data set from the input reception unit 11 or the dimension compression unit 12, and uses a plurality of feature extraction algorithms to calculate the features of the sample data set for each dimension compression method. And the features of the data set after dimension compression.
  • the feature calculator 13 may convert these features into a matrix or a vector.
  • the feature similarity calculation unit 14 uses a plurality of feature similarity calculation algorithms respectively corresponding to the plurality of feature extraction algorithms used in the feature calculation unit 13 to calculate the matrix or vector representing the features of the sample data set and the dimension-compressed matrix. The similarity with a matrix or vector representing the characteristics of the data set is calculated. It can be said that the higher the similarity is, the more similar the characteristics of the data set before and after the dimension compression are.
  • the feature similarity calculation unit 14 can determine the optimum dimensional compression method based on the similarity calculated in each dimensional compression method.
  • the output unit 15 outputs a proposal of an optimum dimensional compression method and a similarity list in each dimensional compression method.
  • the functions of the feature calculation unit 13 and the feature similarity calculation unit 14 will be described below with respect to three specific evaluation methods for evaluating the dimension compression method. Which of the three evaluation methods is used depends on the evaluation condition accepted by the input acceptance unit 11.
  • Evaluation method #1 a method of extracting the characteristics of the global distribution of each point and calculating the similarity
  • the characteristic extraction algorithm of the evaluation method #1 is as follows.
  • the relationship between each point (each data) of the data set of is matrixed.
  • the relationship between each point has a distance and an inner product, and can be selected by the user as needed.
  • the distance between the points in the data set before dimension compression is represented by the following matrix R A.
  • the matrix R B of the dimension-compressed data can be calculated in the same manner.
  • the feature similarity calculation algorithm of evaluation method #1 is as follows.
  • the feature similarity calculator 14 calculates the correlation coefficient between the matrix R A and the matrix R B. Specifically, the similarity is calculated using the Pearson product moment correlation coefficient.
  • Evaluation Method #2 Method of Extracting Feature of Local Distribution of Each Point and Calculating Similarity This evaluation method uses Trustworthiness calculation formula (Non-Patent Document 1).
  • the feature extraction algorithm of evaluation method #2 is as follows.
  • the feature similarity calculation algorithm of evaluation method #2 is as follows.
  • I a set of indexes of points from the point closest to b i to the point k (a set of points extracted by the feature calculation unit 13), and r(a j ,a i ) is in order from the point closest to a i.
  • the rank of a j when arranged is shown.
  • the feature similarity calculator 14 calculates the similarity by the following formula.
  • Method #3 Method of calculating similarity based on machine learning result
  • the feature extraction algorithm of the evaluation method #3 is as follows.
  • a vector R A that represents the characteristics of the data set before dimension compression by classifying the data set before dimension compression (data set for learning) and the data set after dimension compression (data set for learning) in advance by machine learning. And a machine learning model that outputs R B representing the characteristics of the dimension-compressed data set is constructed.
  • R A [r 1 A ,r 2 A ,...,r n A ]
  • R B [r 1 B ,r 2 B ,..., Vectors obtained by classification using a trained machine learning model r n B ]is extracted.
  • the feature similarity calculation algorithm of evaluation method #3 is as follows.
  • the feature similarity calculator 14 calculates the similarity by the following formula based on whether or not the components of the vectors R A and R B match.
  • FIG. 5 is a flowchart showing the processing of the feature calculation unit 13 and the feature similarity calculation unit 14.
  • the evaluation methods #1 to #3 described above can be used in the evaluation apparatus 10, and which of the evaluation methods #1 to #3 is to be used is accepted by the input accepting unit 11. I shall.
  • step S101 the feature calculator 13 determines whether to use the evaluation method #1. If the evaluation method #1 is used, the process proceeds to step S102, and if the evaluation method #1 is not used, the process proceeds to step S105.
  • step S102 the feature calculation unit 13 calculates the feature R A of the sample data set according to the above evaluation method #1.
  • step S103 the feature calculation unit 13 calculates the feature R B of the dimension-compressed data set according to the above evaluation method #1.
  • step S104 the feature similarity calculation unit 14 calculates the similarity according to the above evaluation method #1.
  • step S105 the feature calculation unit 13 determines whether to use the evaluation method #2. If the evaluation method #2 is used, the process proceeds to step S106. If the evaluation method #2 is not used, the process proceeds to step S109.
  • step S106 the feature calculation unit 13 extracts r(a j , a i ) according to the above evaluation method #2.
  • step S107 the feature calculation unit 13 extracts a set of indices from the point closest to b i to the k-th point according to the above evaluation method #2.
  • step S108 the feature similarity calculation unit 14 calculates the similarity according to the above evaluation method #2.
  • step S109 the feature calculation unit 13 determines whether to use the evaluation method #3. When the evaluation method #3 is used, the process proceeds to step S110, and when the evaluation method #3 is not used, the process ends.
  • step S110 the feature calculation unit 13 calculates the feature R A of the sample data set according to the above evaluation method #3.
  • step S103 the feature calculator 13 calculates the feature R B of the dimension-compressed data set according to the evaluation method #3 described above.
  • step S104 the feature similarity calculation unit 14 calculates the similarity according to the above evaluation method #3.
  • the feature similarity calculation unit 14 determines the optimum dimensional compression method based on the similarity calculated in each dimensional compression method. For example, the feature similarity calculation unit 14 may compare the obtained similarity with a threshold value and determine that one with all the similarity degrees higher than the threshold value is the optimal dimensional compression method. As a result of evaluation using the sample data set of, it may be determined that the one having a small variation in the similarity is the optimum dimensional compression method.
  • the dimensional compression methods when comparing and selecting the dimensional compression methods, can be quantitatively evaluated from a plurality of viewpoints, and the optimal dimensional compression method can be proposed.
  • the evaluation method #1 is a method capable of calculating the similarity of the distribution of global data
  • the evaluation method #2 is a method capable of calculating the correlation of the local distribution.
  • Method 3 is a method that can reflect evaluation results using actual data. By combining these evaluation methods, it is possible to evaluate the dimension compression method from various viewpoints.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数の次元圧縮手法を評価する評価装置は、複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部とを有する。

Description

評価装置、評価方法及びプログラム
 本発明は、次元圧縮手法を評価する評価装置、評価方法及びプログラムに関する。
 機械学習を適用する分野において、学習の高速化やデータの可視化を行う上で、学習用にあらかじめ与えられるサンプルデータと答えデータのセットについて、サンプルデータの特徴量(例えば、人体に関するデータセットにおける身長や体重などのような、サンプルデータを特徴づけるプロパティ)の数(次元)を圧縮することが試みられている。
 特徴量の次元圧縮は、主に機械学習やビッグデータ分析に使われる。あるサンプルデータセットが膨大な特徴量を持つ場合、機械学習、分析に膨大な時間が必要であり、人間がサンプルデータセットのばらつきを目視できないといった課題がある。そこでデータセットの特徴をできるだけ保持し、特徴量を次元圧縮することにより、可視化や高速化を行うことが可能になる。特徴量の次元圧縮手法については種々あり、適切な次元圧縮手法を評価するための手法として、従来では次元圧縮後のデータセットをグラフなどを用いて定性的に評価する手法がある。図1に示すように、サンプルデータセットを次元圧縮手法#1~#3で次元圧縮すると、それぞれの次元圧縮手法について次元圧縮後のデータセットが得られる。説明を簡単にするために、図1の各データセットの下に、次元圧縮前のデータセットの特徴を3次元のグラフで示し、次元圧縮後のデータセットの特徴を2次元のグラフで示す。グラフによる定性的な評価とは、次元圧縮手法#1~#3のうち、どの手法が元のサンプルデータセットの特徴をよりとらえているかをそれぞれのグラフから視覚的に評価する手法である。
 また、遺伝子解析について局所的な分布の相関に基づいて次元圧縮手法を評価する技術が提案されている(非特許文献1)。
Samuel Kaski, et. al.,"Trustworthiness and metrics in visualizing similarity of gene expression", BMC Bioinformatics, 13 October 2003
 上記のように特徴量の次元圧縮手法については種々あり、次元圧縮後のデータセットについてどの程度機械学習・分析に有意な情報が残されているかを評価することが望ましい。図1に示す従来の次元圧縮手法の評価は定性的な評価であるので、次元数が増加したときに評価が困難になることがあり、必ずしも適切な評価が行われるとは限らない。また、非特許文献1における次元圧縮手法の評価は、局所的な分布の相関を評価するものであり、局所的な分布の相関が小さい場合には適用が困難である。さらに、従来では、1つの手法による評価にとどまり、複数観点から評価することができないという課題がある。
 本発明は、複数の観点から次元圧縮手法を評価する技術を提供することを目的とする。
 本発明の一形態に係る評価装置は、
 複数の次元圧縮手法を評価する評価装置であって、
 複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、
 前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、
 前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
 を有することを特徴とする。
 また、本発明の一形態に係る評価方法は、
 複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
 複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出するステップと、
 前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出するステップと、
 前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
 を有することを特徴とする。
 また、本発明の一形態に係るプログラムは、
 上記の評価装置の各部としてコンピュータを機能させることを特徴とする。
 本発明によれば、複数の観点から次元圧縮手法を評価することが可能になる。
従来技術における次元圧縮手法の評価手法を示す図である。 本発明の実施の形態におけるネットワーク構成例を示す図である。 本発明の実施の形態における評価装置を構成するコンピュータのハードウェア構成例を示す図である。 本発明の実施の形態における評価装置の機能構成例を示す図である。 特徴計算部及び特徴相似度算出部の処理を示すフローチャートである。
 以下、図面に基づいて本発明の実施の形態を説明する。
 図2は、本発明の実施の形態におけるネットワーク構成例を示す図である。図2において、評価装置10は、インターネット又はLAN(Local Area Network)等のネットワークを介して1以上のユーザ端末20と接続される。
 評価装置10は、種々の次元圧縮手法に依存せず、次元圧縮前後のデータセットの特徴の類似性を、複数の観点から定量的に評価できるサーバ等の装置である。特徴の類似性を数値化するために、後述する特徴計算部により各データセットの特徴を算出し、後述する特徴相似度算出部により相似度を定量化し、最適な次元圧縮手法及び相似度の一覧をユーザ端末20に返却する。
 ユーザ端末20は、評価装置10に対するデータや評価条件の入力をユーザから受け付けたり、評価装置10による評価結果を出力(表示)したりする端末である。例えば、PC(Personal Computer)、スマートフォン、タブレット端末等がユーザ端末20として利用されてもよい。
 図3は、本発明の実施の形態における評価装置10を構成するコンピュータのハードウェア構成例を示す図である。評価装置10を構成するコンピュータは、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
 評価装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って評価装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図4は、本発明の実施の形態における評価装置10の機能構成例を示す図である。図4において、評価装置10は、入力受付部11、次元圧縮部12、特徴計算部13、特徴相似度算出部14及び出力部15等を有する。これら各部は、評価装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
 入力受付部11は、ユーザ端末20において入力されたサンプルデータセット(次元圧縮前のデータセット)と次元圧縮後のデータセットと評価条件を当該ユーザ端末20から受信し、サンプルデータセットと次元圧縮後のデータセットとをメモリ装置103等に格納する。
 入力受付部11がユーザ端末20から受信するサンプルデータセットは、トラフィックデータやセンサーデータのようなデータの集合である。例えば、各トラフィックデータは、IP、ポート、プロトコル、パケット数、長さ等の複数の特徴量で構成される。次元圧縮後のデータセットとは、サンプルデータセットの特徴量の数(次元)を圧縮した後のデータセットである。なお、後述する次元圧縮部12において次元圧縮する場合には、入力受付部11は次元圧縮後のデータセットを受け付ける必要はない。
 評価条件は、後述する複数の評価手法のうちどの評価手法を使用して次元圧縮手法を評価するか(複数選択可)を含み、また、次元圧縮部12において次元圧縮する場合には、評価条件は評価対象の次元圧縮手法(複数選択可)を含む。
 次元圧縮部12は、入力受付部11において次元圧縮後のデータセットを受け付けない場合に、入力受付部11において受け付けた評価対象の次元圧縮手法を用いて、サンプルデータセットの次元圧縮を実施し、次元圧縮後のデータセットを生成する。
 特徴計算部13は、入力受付部11又は次元圧縮部12からサンプルデータセット及び次元圧縮後のデータセットを受け取り、複数の特徴抽出アルゴリズムを用いて、各次元圧縮手法に対してサンプルデータセットの特徴と、次元圧縮後のデータセットの特徴とを抽出する。特徴計算部13は、これらの特徴を行列又はベクトルに変換してもよい。
 特徴相似度算出部14は、特徴計算部13で用いた複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、サンプルデータセットの特徴を表す行列又はベクトルと次元圧縮後のデータセットの特徴を表す行列又はベクトルとの相似度を算出する。相似度が高いほど、次元圧縮前後のデータセットの特徴が似ていると言うことができる。特徴相似度算出部14は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定することができる。
 出力部15は、最適な次元圧縮手法の提案、各次元圧縮手法における相似度一覧を出力する。
 以下に、次元圧縮手法を評価するための具体的な3つの評価手法に関して、特徴計算部13及び特徴相似度算出部14の機能を説明する。3つの評価手法のうちどの評価手法を使用するかは、入力受付部11で受け付けた評価条件に従う。
 (1)評価手法#1:各点の大局的な分布の特徴を抽出し、相似度を算出する手法
 評価手法#1の特徴抽出アルゴリズムは以下の通りである。
 特徴計算部13は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]について、それぞれのデータセットの各点(各データ)間の関係を行列化する。各点間の関係は距離及び内積があり、必要に応じてユーザが選択可能とする。各点間の関係を距離で表す場合、次元圧縮前のデータセットの各点間の距離は以下の行列RAで表される。
Figure JPOXMLDOC01-appb-M000001
 
また、各点間の関係を内積で表す場合、次元圧縮前の各データセットの各点間の内積は以下の行列RAで表される。
Figure JPOXMLDOC01-appb-M000002
 
 次元圧縮後データの行列RBについても同様に算出することができる。
 評価手法#1の特徴相似度計算アルゴリズムは以下の通りである。
 特徴相似度算出部14は、行列RAと行列RBとの間の相関係数を算出する。具体的には、ピアソンの積率相関係数を用いて相似度を算出する。
 (2)評価手法#2:各点の局所的な分布の特徴を抽出し、相似度を算出する手法
 本評価手法はTrustworthiness計算式(非特許文献1)を用いる。評価手法#2の特徴抽出アルゴリズムは以下の通りである。
 特徴計算部13は、次元圧縮前のデータ及び次元圧縮後のデータをTrustworthiness計算式を用いて分類し、その分類予測を特徴とする。具体的には、次元圧縮前のデータセットA=[a1,a2,…,an]について、aiから最も近いものから順に並べた際のajの順位を算出する。また、次元圧縮後のデータセットB=[b1,b2,…,bn]について、各点(各データ)に近い方からk番目の点までを抽出する。
 評価手法#2の特徴相似度計算アルゴリズムは以下の通りである。
 特徴相似度算出部14は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]について、以下の特徴ベクトルRを計算する。
Figure JPOXMLDOC01-appb-M000003
 
ここで、
Figure JPOXMLDOC01-appb-M000004
 
はbiに最も近いものからk番目までの点のインデックスの集合(特徴計算部13において抽出した点の集合)であり、r(aj,ai)は、aiから最も近いものから順に並べた際のajの順位(特徴計算部13において算出した順位)を表す。
 特徴相似度算出部14は、下記の式によって相似度を算出する。
Figure JPOXMLDOC01-appb-M000005
 
 (3)手法#3:機械学習結果により相似度を算出する手法
 評価手法#3の特徴抽出アルゴリズムは以下の通りである。
 予め、次元圧縮前のデータセット(学習用のデータセット)及び次元圧縮後のデータセット(学習用のデータセット)を機械学習で分類して、次元圧縮前のデータセットの特徴を表すベクトルRA及び次元圧縮後のデータセットの特徴を表すRBを出力する機械学習モデルが構築されているものとする。特徴計算部13は、次元圧縮前のデータセットA=[a1,a2,…,an]及び次元圧縮後のデータセットB=[b1,b2,…,bn]のそれぞれについて、学習済みの機械学習モデルを用いて分類して得られたベクトルRA=[r1 A,r2 A,…,rn A]及びRB=[r1 B,r2 B,…,rn B]を抽出する。
 評価手法#3の特徴相似度計算アルゴリズムは以下の通りである。
 特徴相似度算出部14では、ベクトルRA及びRBの各成分が一致しているか否かに基づいて下記の式で相似度を算出する。
Figure JPOXMLDOC01-appb-M000006
 
 上記の3つの手法によって、図4に示す次元圧縮手法#1~#Nにおいて、評価手法#1~#3の相似度の一覧が得られる。
 図5は、特徴計算部13及び特徴相似度算出部14の処理を示すフローチャートである。ここでは、評価装置10において上記の評価手法#1~#3が利用可能であるものとし、評価手法#1~#3のうちどの評価手法を使用するかは、入力受付部11において受け付けているものとする。
 ステップS101において、特徴計算部13は評価手法#1を使用するか否かを判断する。評価手法#1を使用する場合、ステップS102に進み、評価手法#1を使用しない場合、ステップS105に進む。
 ステップS102において、特徴計算部13は、上記の評価手法#1に従ってサンプルデータセットの特徴RAを算出する。
 ステップS103において、特徴計算部13は、上記の評価手法#1に従って次元圧縮後のデータセットの特徴RBを算出する。
 ステップS104において、特徴相似度算出部14は、上記の評価手法#1に従って相似度を算出する。
 ステップS105において、特徴計算部13は評価手法#2を使用するか否かを判断する。評価手法#2を使用する場合、ステップS106に進み、評価手法#2を使用しない場合、ステップS109に進む。
 ステップS106において、特徴計算部13は、上記の評価手法#2に従ってr(aj,ai)を抽出する。
 ステップS107において、特徴計算部13は、上記の評価手法#2に従ってbiに最も近いものからk番目までの点のインデックスの集合を抽出する。
 ステップS108において、特徴相似度算出部14は、上記の評価手法#2に従って相似度を算出する。
 ステップS109において、特徴計算部13は評価手法#3を使用するか否かを判断する。評価手法#3を使用する場合、ステップS110に進み、評価手法#3を使用しない場合、処理を終了する。
 ステップS110において、特徴計算部13は、上記の評価手法#3に従ってサンプルデータセットの特徴RAを算出する。
 ステップS103において、特徴計算部13は、上記の評価手法#3に従って次元圧縮後のデータセットの特徴RBを算出する。
 ステップS104において、特徴相似度算出部14は、上記の評価手法#3に従って相似度を算出する。
 さらに、特徴相似度算出部14は、それぞれの次元圧縮手法おいて算出された相似度に基づいて、最適な次元圧縮手法を決定する。例えば、特徴相似度算出部14は、得られた相似度と閾値とを比較して、全ての相似度が閾値より高いものが最適な次元圧縮手法であると決定してもよく、また、複数のサンプルデータセットを用いて評価した結果、相似度のばらつきが小さいものが最適な次元圧縮手法であると決定してもよい。
 本実施の形態によれば、次元圧縮手法の比較及び選定を行うにあたり、複数の観点から次元圧縮手法を定量的に評価することができ、最適な次元圧縮手法を提案することが可能となる。また、評価手法#1は大局的なデータの分布の相似度を計算することができる手法であり、評価手法#2は局所的な分布の相関を計算することができる手法であり、評価手法#3は実際のデータを用いた評価結果を反映することができる手法である。これらの評価手法を組み合わせることで、様々な観点から次元圧縮手法を評価することが可能になる。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
 10 評価装置
 11 入力受付部
 12 次元圧縮部
 13 特徴計算部
 14 特徴相似度算出部
 15 出力部
 20 ユーザ端末

Claims (7)

  1.  複数の次元圧縮手法を評価する評価装置であって、
     複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出する特徴計算部と、
     前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出する特徴相似度算出部と、
     前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力する出力部と、
     を有する評価装置。
  2.  前記複数の特徴抽出アルゴリズムのうち第1の特徴抽出アルゴリズムは、前記次元圧縮前のデータセット内の各データ間の距離又は内積を表す行列を前記第1の特徴として抽出し、前記次元圧縮後のデータセット内の各データ間の距離又は内積を表す行列を前記第2の特徴として抽出するアルゴリズムであり、
     前記第1の特徴抽出アルゴリズムに対応する第1の特徴相似度計算アルゴリズムは、前記第1の特徴と前記第2の特徴との相関係数を算出するアルゴリズムである、請求項1に記載の評価装置。
  3.  前記複数の特徴抽出アルゴリズムのうち第2の特徴抽出アルゴリズムは、学習用の次元圧縮前のデータセット及び学習用の次元圧縮後のデータセットを用いて機械学習によって構築された機械学習モデルを用いて、前記次元圧縮前のデータセット及び前記次元圧縮後のデータセットから、前記第1の特徴を表すベクトルと前記第2の特徴を表すベクトルとを抽出するアルゴリズムであり、
     前記第2の特徴抽出アルゴリズムに対応する第2の特徴相似度計算アルゴリズムは、前記第1の特徴を表すベクトルの各成分と前記第2の特徴を表すベクトルの各成分とが一致しているか否かに基づいて、相似度を算出するアルゴリズムである、請求項1又は2に記載の評価装置。
  4.  前記特徴相似度算出部は、前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度に基づいて、最適な次元圧縮手法を決定し、
     前記出力部は、前記決定された最適な次元圧縮手法を出力する、請求項1乃至3のうちいずれか1項に記載の評価装置。
  5.  次元圧縮前のデータセットを受け取る入力受付部と、
     前記複数の次元圧縮手法を用いて、前記次元圧縮前のデータセットの次元を圧縮した次元圧縮後のデータセットを生成する次元圧縮部と、
     を更に有する、請求項1乃至4のうちいずれか1項に記載の評価装置。
  6.  複数の次元圧縮手法を評価する評価装置が実行する評価方法であって、
     複数の特徴抽出アルゴリズムを用いて、前記複数の次元圧縮手法のそれぞれに対して、次元圧縮前のデータセット及び次元圧縮後のデータセットから、当該次元圧縮前のデータセットの第1の特徴と、当該次元圧縮後のデータセットの第2の特徴とを抽出するステップと、
     前記複数の特徴抽出アルゴリズムにそれぞれ対応する複数の特徴相似度計算アルゴリズムを用いて、前記第1の特徴と前記第2の特徴との間の相似度を算出するステップと、
     前記複数の次元圧縮手法のそれぞれに対して算出された前記相似度を出力するステップと、
     を有する評価方法。
  7.  請求項1乃至5のうちいずれか1項に記載の評価装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2020/002601 2019-01-31 2020-01-24 評価装置、評価方法及びプログラム WO2020158628A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/423,971 US20220092358A1 (en) 2019-01-31 2020-01-24 Evaluation apparatus, evaluation method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019016463A JP7131414B2 (ja) 2019-01-31 2019-01-31 評価装置、評価方法及びプログラム
JP2019-016463 2019-07-23

Publications (1)

Publication Number Publication Date
WO2020158628A1 true WO2020158628A1 (ja) 2020-08-06

Family

ID=71841311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002601 WO2020158628A1 (ja) 2019-01-31 2020-01-24 評価装置、評価方法及びプログラム

Country Status (3)

Country Link
US (1) US20220092358A1 (ja)
JP (1) JP7131414B2 (ja)
WO (1) WO2020158628A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227835A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
JP2017097718A (ja) * 2015-11-26 2017-06-01 株式会社リコー 識別処理装置、識別システム、識別処理方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006227835A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
JP2017097718A (ja) * 2015-11-26 2017-06-01 株式会社リコー 識別処理装置、識別システム、識別処理方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAKAGAWA YOSHIHIDE, KAZATO YUTA, NAKATANI YUICHI : "A study on theapplication of dimensional compression method tonetwork data", LECTURE PROCEEDINGS OF THE 2019 GENERAL CONFERENCE OF IEICE; COMMUNICATION 2; 2019.03.19-22, 5 March 2019 (2019-03-05), pages B-6-39, XP009522765, ISSN: 1349-1369 *
SHIGEO SATO; SHIGENOBU TAKAYAMA; SHINSUKE AZUMA; KEIGO FUJIMORI; TAKAYUKI HAYAKAWA; KENJI SHIRAI: "Evaluation of dimension compression method for time series data and consideration of business applicability", 9 March 2004 (2004-03-09), JP, pages 3-37 - 3-38, XP009523035, Retrieved from the Internet <URL:http://id.nii.ac.jp/1001/00169870/> *

Also Published As

Publication number Publication date
US20220092358A1 (en) 2022-03-24
JP7131414B2 (ja) 2022-09-06
JP2020123294A (ja) 2020-08-13

Similar Documents

Publication Publication Date Title
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
Kursa et al. Feature selection with the Boruta package
EP2866421B1 (en) Method and apparatus for identifying a same user in multiple social networks
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
US20230289828A1 (en) Data processing method, computer device, and readable storage medium
CN111368254B (zh) 多流形正则化非负矩阵分解的多视角数据缺失补全方法
CN108269122B (zh) 广告的相似度处理方法和装置
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
US20230123941A1 (en) Multiscale Quantization for Fast Similarity Search
Yan et al. Quantum image searching based on probability distributions
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
CN112529068A (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN111680181A (zh) 一种异常对象的识别方法及终端设备
CN116775497B (zh) 数据库测试用例生成需求描述编码方法
WO2020158628A1 (ja) 評価装置、評価方法及びプログラム
JP6078380B2 (ja) 文書解析装置、及びプログラム
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
US20140324523A1 (en) Missing String Compensation In Capped Customer Linkage Model
CN113064554B (zh) 基于分布式存储的最优存储节点匹配方法、装置及介质
CN114155410A (zh) 图池化、分类模型训练、重建模型训练方法和装置
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN113935387A (zh) 文本相似度的确定方法、装置和计算机可读存储介质
CN111475711A (zh) 信息推送方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20749529

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20749529

Country of ref document: EP

Kind code of ref document: A1