JPWO2019026523A1 - クラスタリングの評価値算出方法及びクラスタ数決定方法 - Google Patents
クラスタリングの評価値算出方法及びクラスタ数決定方法 Download PDFInfo
- Publication number
- JPWO2019026523A1 JPWO2019026523A1 JP2019533991A JP2019533991A JPWO2019026523A1 JP WO2019026523 A1 JPWO2019026523 A1 JP WO2019026523A1 JP 2019533991 A JP2019533991 A JP 2019533991A JP 2019533991 A JP2019533991 A JP 2019533991A JP WO2019026523 A1 JPWO2019026523 A1 JP WO2019026523A1
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- clusters
- value
- evaluation value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000008878 coupling Effects 0.000 claims abstract description 39
- 238000010168 coupling process Methods 0.000 claims abstract description 39
- 238000005859 coupling reaction Methods 0.000 claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 230000005484 gravity Effects 0.000 claims abstract description 33
- 238000000926 separation method Methods 0.000 claims abstract description 33
- 239000006185 dispersion Substances 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 15
- 230000000052 comparative effect Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000001953 sensory effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000001787 dendrite Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
n:クラスタリングの対象となるデータ数(全データ数)
x:データ
c:クラスタ数
ci:i番目のクラスタ
ni:クラスタciのデータ数
vi:クラスタciの重心(クラスタ重心)
D(x、vi):クラスタci内のデータxについてのクラスタ内距離指標値
D(vi,vj): クラスタciと他のクラスタcjとのクラスタ間距離指標値
dist(x、vi):クラスタci内のクラスタ重心とデータxとの距離(クラスタ内距離)
dist(vi,vj):クラスタciと他のクラスタcjとのクラスタ重心間の距離(クラスタ間距離)
m:基準点
D(vi,m):クラスタciの基準点クラスタ間距離指標値
dist(vi,m):クラスタciのクラスタ重心と基準点との距離(基準点クラスタ間距離)
E=Wb・Sep+Wa・(1/Comp)
E=Wb・(1/Sep)+Wa・Comp
E=Wb・Sep−Wa・Comp
E=Wa・Comp−Wb・Sep
di(上にバ−):i番目のクラスタにおけるクラスタ内距離の平均値
dj(上にバ−):j番目のクラスタにおけるクラスタ内距離の平均値
di,j:i番目とj番目の各クラスタの重心間の距離(クラスタ間距離)
11 評価値演算部
12 クラスタリング部
13 制御部
14 データ記憶部
E1(c) 評価値
E2(c) 評価値
Claims (11)
- 複数のデータをクラスタリングしたときのクラスタ数によるクラスタリング状態の評価値を演算装置で算出するクラスタリングの評価値算出方法において、
クラスタリングされたデータに関する情報を取得する取得ステップと、
取得した前記情報に基づいて前記評価値を算出する算出ステップと
を有し、
前記算出ステップは、
クラスタ内のデータの分散の程度を示す各々の前記クラスタについての第1の指標値を当該クラスタのデータ数に基づく第1の値で規格化した値の各前記クラスタの総和である内的結合度と、
前記クラスタ間の距離の指標となる各々の前記クラスタについての第2の指標値の総和を前記クラスタ数に基づく第2の値で規格化した外的分離度と
をそれぞれ求め、
前記内的結合度と前記外的分離度とを変数とする所定の演算式から前記評価値を算出する
ことを特徴とするクラスタリングの評価値算出方法。 - 各々の前記クラスタの前記第1の指標値は、当該クラスタ内の第1の代表点と当該クラスタ内の各データとの間のクラスタ内距離の和または二乗和であることを特徴とする請求項1に記載のクラスタリングの評価値算出方法。
- 前記第1の代表点は、前記クラスタ内のデータの重心であることを特徴とする請求項2に記載のクラスタリングの評価値算出方法。
- 前記第1の値は、前記クラスタ内のデータ数であることを特徴とする請求項1ないし3のいずれか1項に記載のクラスタリングの評価値算出方法。
- 各々の前記クラスタの前記第2の指標値は、当該クラスタ内の第2の代表点と他の前記クラスタ内の第2の代表点との間のクラスタ間距離のうち、最も小さい前記クラスタ間距離または最も小さい前記クラスタ間距離を二乗した値であることを特徴とする請求項1ないし4のいずれか1項に記載のクラスタリングの評価値算出方法。
- 各々の前記クラスタの前記第2の指標値は、全データの基準点と当該クラスタ内の第2の代表点との間の基準点クラスタ間距離または前記基準点クラスタ間距離を二乗した値であることを特徴とする請求項1ないし4のいずれか1項に記載のクラスタリングの評価値算出方法。
- 各々の前記クラスタの前記第2の指標値は、全データの基準点と当該クラスタ内の第2の代表点との間の基準点クラスタ間距離または前記基準点クラスタ間距離を二乗した値のいずれかに当該クラスタ内のデータ数に基づく重み付けをした値であることを特徴とする請求項1ないし4のいずれか1項に記載のクラスタリングの評価値算出方法。
- 前記基準点は、全データの重心であることを特徴とする請求項6または7に記載のクラスタリングの評価値算出方法。
- 前記第2の代表点は、前記クラスタ内のデータの重心であることを特徴とする請求項6ないし8のいずれか1項に記載のクラスタリングの評価値算出方法。
- 前記内的結合度と前記外的分離度との比を前記評価値として算出することを特徴とする請求項1ないし9のいずれか1項に記載のクラスタリングの評価値算出方法。
- 請求項1ないし10のいずれか1項に記載のクラスタリングの評価値算出方法を用いて、前記クラスタ数の異なるクラスタリングの結果に対する前記評価値をそれぞれ算出し、
各前記評価値のうちの極値、または最大値若しくは最小値の前記評価値に対応する前記クラスタ数を最適値として判定する
ことを特徴とするクラスタリング数決定方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017151146 | 2017-08-03 | ||
JP2017151146 | 2017-08-03 | ||
PCT/JP2018/025498 WO2019026523A1 (ja) | 2017-08-03 | 2018-07-05 | クラスタリングの評価値算出方法及びクラスタ数決定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019026523A1 true JPWO2019026523A1 (ja) | 2020-09-10 |
JP7205908B2 JP7205908B2 (ja) | 2023-01-17 |
Family
ID=65233805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019533991A Active JP7205908B2 (ja) | 2017-08-03 | 2018-07-05 | クラスタリングの評価値算出方法及びクラスタ数決定方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11610083B2 (ja) |
JP (1) | JP7205908B2 (ja) |
WO (1) | WO2019026523A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6637206B1 (ja) * | 2019-03-20 | 2020-01-29 | 株式会社 日立産業制御ソリューションズ | クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム |
JP7277682B2 (ja) * | 2019-07-03 | 2023-05-19 | 公立大学法人会津大学 | 3次元ネットワークオンチップによるスパイキングニューラルネットワーク |
JP6937359B2 (ja) * | 2019-12-25 | 2021-09-22 | 株式会社 日立産業制御ソリューションズ | クラスタ分割評価装置、クラスタ分割評価方法及びクラスタ分割評価プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666677B2 (en) * | 2009-12-23 | 2014-03-04 | The Governors Of The University Of Alberta | Automated, objective and optimized feature selection in chemometric modeling (cluster resolution) |
WO2012055100A1 (en) * | 2010-10-27 | 2012-05-03 | Nokia Corporation | Method and apparatus for identifying a conversation in multiple strings |
US8214365B1 (en) * | 2011-02-28 | 2012-07-03 | Symantec Corporation | Measuring confidence of file clustering and clustering based file classification |
EP3365841A4 (en) * | 2015-09-30 | 2019-06-19 | Just, Inc. | SYSTEMS AND METHODS FOR IDENTIFYING ENTITIES THAT HAVE TARGET PROPERTY |
US10242258B2 (en) * | 2015-09-30 | 2019-03-26 | Microsoft Technology Licensing, Llc | Organizational data enrichment |
US10762439B2 (en) * | 2016-07-26 | 2020-09-01 | International Business Machines Corporation | Event clustering and classification with document embedding |
CN107169417B (zh) * | 2017-04-17 | 2021-01-12 | 上海大学 | 基于多核增强和显著性融合的rgbd图像协同显著性检测方法 |
CN107480694B (zh) * | 2017-07-06 | 2021-02-09 | 重庆邮电大学 | 基于Spark平台采用两次评价的加权选择集成三支聚类方法 |
CN107368856B (zh) * | 2017-07-25 | 2021-10-19 | 深信服科技股份有限公司 | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 |
-
2018
- 2018-07-05 US US16/634,512 patent/US11610083B2/en active Active
- 2018-07-05 JP JP2019533991A patent/JP7205908B2/ja active Active
- 2018-07-05 WO PCT/JP2018/025498 patent/WO2019026523A1/ja active Application Filing
Non-Patent Citations (2)
Title |
---|
ARBELAITZ, OLATZ ET AL.: "An extensive comparative study of cluster validity indices", PATTERN RECOGNITION, vol. Vol.46, Issue 1, JPN6018036970, January 2013 (2013-01-01), pages 243 - 256, ISSN: 0004845356 * |
SAITTA, S. ET AL.: "A comprehensive validity index for clustering", INTELLIGENT DATA ANALYSIS, vol. 12, no. 6, JPN6018036971, 2008, pages 529 - 548, XP055571762, ISSN: 0004845355, DOI: 10.3233/IDA-2008-12602 * |
Also Published As
Publication number | Publication date |
---|---|
JP7205908B2 (ja) | 2023-01-17 |
US11610083B2 (en) | 2023-03-21 |
WO2019026523A1 (ja) | 2019-02-07 |
US20200272861A1 (en) | 2020-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020155755A1 (zh) | 基于谱聚类的异常点比例优化方法、装置及计算机设备 | |
WO2018001384A1 (zh) | 数据处理、数据识别方法和装置、计算机设备 | |
JP7205908B2 (ja) | クラスタリングの評価値算出方法及びクラスタ数決定方法 | |
US10713229B2 (en) | Index generating device and method, and search device and search method | |
US7720291B2 (en) | Iterative fisher linear discriminant analysis | |
US9563822B2 (en) | Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system | |
Wang et al. | CLUES: A non-parametric clustering method based on local shrinking | |
JP6378855B1 (ja) | 画像検索システム、画像検索方法およびプログラム | |
WO2014118980A1 (ja) | 情報変換方法、情報変換装置および情報変換プログラム | |
TWI567660B (zh) | 多類別物件分類方法及系統 | |
CN107832456B (zh) | 一种基于临界值数据划分的并行knn文本分类方法 | |
JPWO2014115362A1 (ja) | 識別器学習装置及び識別器学習方法 | |
JP2018018330A (ja) | データ検索プログラム、データ検索方法およびデータ検索装置 | |
JP6815296B2 (ja) | ニューラルネットワーク評価装置、ニューラルネットワーク評価方法、およびプログラム | |
CN111027609B (zh) | 一种图像数据加权分类方法和系统 | |
CN113269200A (zh) | 一种基于少数类样本空间分布的不平衡数据过采样方法 | |
Verma et al. | A hybrid K-mean clustering algorithm for prediction analysis | |
JP2007317185A (ja) | スパース線形判別分析(sparselineardiscriminantanalysis)のためのスペクトル法 | |
US20230351229A1 (en) | Methods and systems for identifying patterns in data using delimited feature-regions | |
Streib et al. | Using Ripley's K-function to improve graph-based clustering techniques | |
Godara et al. | Analysis of various clustering algorithms | |
JP5133218B2 (ja) | 文書分類装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN114443628B (zh) | 一种基于聚类的金融缺失数据处理方法 | |
JP2019096118A (ja) | パターン認識プログラム、装置、及び方法 | |
Wang et al. | Discriminative patch descriptor learning with focal triplet loss function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20200115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200205 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7205908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |