WO2023063485A1 - Data visualization method and device therefor - Google Patents

Data visualization method and device therefor Download PDF

Info

Publication number
WO2023063485A1
WO2023063485A1 PCT/KR2021/017808 KR2021017808W WO2023063485A1 WO 2023063485 A1 WO2023063485 A1 WO 2023063485A1 KR 2021017808 W KR2021017808 W KR 2021017808W WO 2023063485 A1 WO2023063485 A1 WO 2023063485A1
Authority
WO
WIPO (PCT)
Prior art keywords
variable
variables
cluster
data
clusters
Prior art date
Application number
PCT/KR2021/017808
Other languages
French (fr)
Korean (ko)
Inventor
최유리
피에 로말리자장
Original Assignee
주식회사 솔리드웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔리드웨어 filed Critical 주식회사 솔리드웨어
Publication of WO2023063485A1 publication Critical patent/WO2023063485A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • Embodiments of the present invention relate to a method and apparatus for visualizing data, and more particularly, to a method and apparatus for visualizing a result of data clustering.
  • Unsupervised learning is often used to understand and model unlabeled data. For example, customer information in a marketing database, a large-scale public survey, and a large-scale chemical compound library test result may be classified into a plurality of clusters using an unsupervised learning model. However, most of the data has a limitation in that it does not contain information that can guide the training of unsupervised learning models.
  • a common way to provide additional information is through visualizations such as diagrams and pictures.
  • Appropriate visualization can help (1) understand data structure, (2) interpret clustering results, (3) compare between clusters, and (4) detect outliers in data.
  • visualization methods for multidimensional data include line plots and scatter plots, projections, Chernoff faces, star and radar plots, correlation plots, There are matrix plots, parallel coordinates, heat maps, etc.
  • this visualization method does not know the target when there is no target variable, so the uncertainty of not knowing what important information to visualize increases.
  • visualizing high-dimensional data i.e. hundreds of variables, is often counterproductive and prevents a good understanding of the results.
  • many visualization methods have limitations on the number of variables that can be displayed simultaneously. In order to represent complex interactions between variables, it is necessary to represent the relationship between variables, but finding such interactions is computationally difficult because the number of interactions is significantly greater than the number of variables.
  • users manually select variables and visualization methods when visualizing data it is difficult to make accurate decisions and errors are likely to occur in situations where the data is not well known.
  • a technical problem to be achieved by an embodiment of the present invention is to provide a method and apparatus for efficiently visualizing by extracting main variables and main samples so that users can better understand the results of data clustering.
  • An example of a data visualization method according to an embodiment of the present invention for achieving the above technical problem is a data visualization method performed by a data visualization device, which includes a plurality of data samples composed of variable values for a plurality of variables. clustering into a plurality of clusters; identifying a major variable representing a difference between the plurality of clusters among the plurality of variables; Extracting a certain number of data samples for each cluster so that data samples including minimum, maximum, or average variable values for the main variable are included; and visualizing based on the main variable and the extracted data sample.
  • An example of a data visualization stop for achieving the above technical problem is a clustering unit for clustering a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters; a variable selection unit to determine a main variable representing a difference between the plurality of clusters among the plurality of variables; For each cluster, a sample selection unit for extracting a certain number of data samples so that data samples including minimum, maximum, or average variable values for the main variable are included; and a visualization unit for visualizing based on the main variable and the extracted data sample.
  • FIG. 1 to 3 are views showing an example of a plot used for data visualization according to an embodiment of the present invention
  • FIG. 4 is a flowchart illustrating an example of a data visualization method according to an embodiment of the present invention.
  • FIG. 5 is a diagram showing an example of a data sample according to an embodiment of the present invention.
  • FIG. 6 is a diagram showing an example of clustering according to an embodiment of the present invention.
  • FIG. 7 and 8 are diagrams showing an example of a method for identifying key variables according to an embodiment of the present invention.
  • FIG. 9 is a diagram showing an example of another method of extracting a main variable according to an embodiment of the present invention.
  • FIG. 10 is a diagram showing an example of a method of extracting a main data sample according to an embodiment of the present invention.
  • FIG. 11 is a diagram showing the configuration of an example of a data visualization device according to an embodiment of the present invention.
  • FIGS. 1 to 3 are diagrams illustrating an example of a plot used for data visualization according to an embodiment of the present invention.
  • FIG. 1 an example of a heat map displaying 12 variables for 4 clusters is shown.
  • the color reflects the normalized mean value of the variable within the cluster.
  • the heatmap provides an overview of the variable values in each cluster. Heatmaps can be useful for interpreting clusters and understanding differences between clusters, providing an overview of the relationship between different variables at the possible line.
  • FIG. 2 an example of a parallel coordinate diagram is shown.
  • Each line in the parallel coordinate plot represents a data sample. Variables are displayed on the vertical axis, except for the rightmost variable, and the color indicates clustering.
  • a parallel coordinate plot provides a detailed picture of the data samples within a cluster. Parallel coordinate plots can help evaluate the distribution of variable values within each cluster, are useful for interpreting and comparing clusters, and provide an overview of the relationships between different variables.
  • FIG. 3 a projection chart is shown. Each point in the figure is a multivariate data sample projected on a two-dimensional plane, and different colors represent different clusters. Projection charts can help visually assess the topological structure of data in terms of distances between data points, outliers, and density distributions.
  • This embodiment only shows an example of a visualization method for better understanding, but the present invention is not limited to the visualization methods of FIGS. 1 to 3 , and various conventional visualization methods may be applied to this embodiment.
  • FIG. 4 is a flowchart illustrating an example of a data visualization method according to an embodiment of the present invention.
  • a data visualization device clusters a plurality of data samples into a plurality of clusters (S400).
  • the data sample is data composed of variable values for a plurality of variables, and an example thereof is shown in FIG. 5 .
  • the device may perform clustering using various conventional clustering algorithms (eg, k-mean, etc.) such as an unsupervised learning model, and an example thereof is shown in FIG. 6 .
  • the device determines a major variable representing a difference between a plurality of clusters among a plurality of variables constituting the data sample (S410).
  • the number of main variables may be set in various ways according to embodiments. For example, if the number of variables in the data sample is 100, the device may set 10 as the number of main variables. An example of a specific method for determining a major variable will be reviewed again in FIGS. 7 to 9 .
  • the apparatus extracts a certain number of data samples for each cluster, but extracts data samples including at least one variable value among the minimum, maximum, and average values of the main variables (S420).
  • the number of data samples to be extracted may be variously set according to the embodiment. A specific example of a data sample extraction method will be reviewed again in FIG. 10 .
  • the device When the main variables and main data samples are extracted, the device performs visualization based on them and displays them (S430). For example, the device may display main variables and main data samples using various plots shown in FIGS. 1 to 3 .
  • FIG. 5 is a diagram showing an example of a data sample according to an embodiment of the present invention.
  • a data set 500 includes a plurality of data samples 520 .
  • Each data sample 520 includes variable values for a plurality of variables 510 .
  • the data set 500 of this embodiment includes M data samples 520, and each data sample includes variable values for n variables 510.
  • This embodiment is only an example to aid understanding, and the shape of the dataset may be variously modified according to the embodiment.
  • FIG. 6 is a diagram illustrating an example of clustering according to an embodiment of the present invention.
  • the device classifies a plurality of data samples 600 into a plurality of clusters 610 , 620 , and 630 .
  • the device may cluster data samples using various conventional clustering algorithms (eg, k-means, etc.).
  • the number of clusters 610, 620, and 630 may be set by a user or automatically.
  • FIG. 7 and 8 are diagrams illustrating an example of a method for determining a major variable according to an embodiment of the present invention.
  • the device generates a plurality of cluster combinations including at least two of the plurality of clusters (S700). For example, if a plurality of data samples are clustered into three clusters as shown in FIG. 8, three different combinations of (C1, C2), (C2, C3), and (C1, C3) are generated. The number of cluster combinations depends on the number of clusters.
  • the device compares the distribution of variable values for each variable in the two clusters to determine the cluster difference for each variable (S710). For example, referring to FIG. 8 , the device determines the cluster difference of each variable (X1 to X5) 810 for the C1&C2 cluster combination 820. That is, the distribution of the X1 variable values of the data samples belonging to the C1 cluster is compared with the distribution of the X1 variable values of the data samples belonging to the C2 cluster, and the difference is identified through a statistical method.
  • Various statistical methods for calculating the difference in the distribution of variable values for each variable in the two clusters may be applied to this embodiment. For example, the device may calculate a p-value of non-parametric statistical test comparing the distribution of variable values for each variable in two clusters of each cluster combination (820, 822, 824) and use it as a cluster difference.
  • the device selects a predefined number of variables as main variables based on the size of the cluster difference for each variable in a plurality of cluster combinations (S720). For example, the device may select as a main variable a variable showing a large difference in the distribution of values of each variable of the two clusters of each cluster combination, or select a variable with high importance as a main variable in a model approximating the clustering result.
  • the cluster difference of each variable 810 of two clusters of each cluster combination (820, 822, 824) is calculated and displayed as a p-value of non-parametric statistical test. Since the method for calculating the p-value of the non-parametric statistical test is already widely known, the description thereof will be omitted.
  • the p-value of comparing the distribution of the variable value of the X1 variable in the data samples belonging to the C1 cluster and the distribution of the variable value of the X1 variable in the data samples belonging to the C2 cluster is 0.131, and the variables X2 and X3
  • the p-values of ,X4,X5 are 0.185, 0.021, 0.082, and 0.016, respectively.
  • the device identifies a predefined number of p-values in order of smaller order among p-values that do not exceed a preset threshold value (eg, 0.05). 8 shows a case in which five p-values 830 selected in descending order are selected. The number of selected p-values may be variously modified according to embodiments.
  • a preset threshold value eg, 0.05
  • the device may select each variable corresponding to the selected p-value as the main variable. For example, variables X3 and X5 are selected in the clustering combination C1&C2 820, variable X3 is selected in the clustering combination C2&C3 822, and variables X1 and X4 are selected in the clustering combination C1&C3 824.
  • the device can finally select four variables ⁇ X1, X3, X4, X5 ⁇ as main variables, excluding overlapping variables.
  • FIG. 9 is a diagram showing an example of another method of extracting a main variable according to an embodiment of the present invention.
  • the device trains a tree-based classification model (eg, decision tree, ensemble learning, etc.) using labels of each cluster (S900). For example, when N clusters are created as shown in the example of FIG. 6 , data samples belonging to each cluster are labeled with values that distinguish each cluster. That is, a value representing the C1 cluster (eg, a first label) is assigned to data samples belonging to the C1 cluster, and a value representing the C2 cluster (eg, a second label) is assigned to data samples belonging to the C2 cluster. grant The device may train a tree-based classification model using labels assigned to each data sample.
  • a tree-based classification model eg, decision tree, ensemble learning, etc.
  • the device calculates the importance of each variable from the trained tree-based classification model (S910). Since the method itself for calculating the importance of each variable in the tree-based classification model is already a well-known technique, description thereof will be omitted.
  • the device selects a predetermined number of variables as main variables in order of importance (S920).
  • FIG. 10 is a diagram illustrating an example of a method of extracting a main data sample according to an embodiment of the present invention.
  • the apparatus extracts data samples having variable values corresponding to the minimum, maximum and/or average of the main variables for each cluster (S1000).
  • the main variables are ⁇ X1, X3, X4, X5 ⁇ .
  • the device extracts data samples with the minimum value, maximum value, or average (or the variable value with the closest average) for variable X1 among data samples belonging to C1 cluster, and the same for main variables X3, X4, and X5.
  • Each data sample is extracted in this way.
  • Data samples are extracted for the C2 and C3 clusters in the same way.
  • This embodiment describes an example of extracting data samples having variable values for the minimum, maximum, and average of each variable, but is not necessarily limited thereto, and extracts data samples having variable values belonging to various values having statistical significance. Can be modified to extract.
  • the apparatus extracts a certain number of data samples (eg, 500) at random (ie, uniform selection probability) for each cluster (S1010).
  • the number of data samples to be extracted for each cluster may be set in various ways according to embodiments.
  • the apparatus excludes overlapping data samples from the first data sample group extracted based on the main variable (step S1000) and the second data sample group randomly extracted (step S1010) (S1020). In this way, the device extracts data samples for each cluster. That is, in the case of FIG. 8, main data samples are extracted for each cluster of C1, C2, and C3.
  • FIG. 11 is a diagram showing the configuration of an example of a data visualization device according to an embodiment of the present invention.
  • the data visualization device 1100 includes a clustering unit 1110, a variable selection unit 1120, a sample selection unit 1130, and a visualization unit 1140.
  • the data visualization device 1100 may be implemented as a computing device including a memory, processor, input/output device, and the like. In this case, each component may be implemented as software, loaded into a memory, and then driven by a processor.
  • the clustering unit 1110 clusters a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters. An example of clustering is shown in FIG. 6
  • the variable selection unit 1120 determines a main variable representing a difference between the plurality of clusters among a plurality of variables.
  • the variable selector 1120 may determine a variable having a distribution showing a large difference for each cluster as a main variable. An example of this is shown in FIGS. 7 and 8 .
  • the variable selection unit 1120 may determine a variable having a high importance as a main variable in a model for approximating a clustering result. An example of this is shown in FIG. 9 .
  • the sample selector 1130 extracts a certain number of data samples for each cluster, but extracts data samples including minimum, maximum, or average variable values for the main variables.
  • An example of the sample selection unit is shown in FIG. 10 .
  • the visualization unit 1140 visualizes and displays the main variables and the extracted main data samples.
  • the visualization unit may visualize main variables and main data samples using the plots of FIGS. 1 to 3 .
  • Each embodiment of the present invention can also be implemented as computer readable codes on a computer readable recording medium.
  • a computer-readable recording medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, SSD, and optical data storage devices.
  • the computer-readable recording medium may be distributed to computer systems connected through a network to store and execute computer-readable codes in a distributed manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

A data visualization method and a device therefor are disclosed. The data visualization device groups, into a plurality of clusters, a plurality of data samples having variable values for a plurality of variables, identifies, among the plurality of variables, main variables indicating the difference between the plurality of clusters, extracts a certain number of data samples for each cluster, the extraction allowing data samples including minimum, maximum, or average variable values for the main variables to be included, and performs visualization on the basis of the main variables and the extracted data samples.

Description

데이터 시각화 방법 및 그 장치Data visualization method and its device
본 발명의 실시 예는 데이터를 시각화하는 방법 및 그 장치에 관한 것으로, 보다 상세하게는 데이터 군집화의 결과를 시각화하는 방법 및 그 장치에 관한 것이다.Embodiments of the present invention relate to a method and apparatus for visualizing data, and more particularly, to a method and apparatus for visualizing a result of data clustering.
비지도학습(unsupervised learning)은 레이블(label)이 지정되지 않은 데이터를 이해하고 모델링하는데 종종 사용된다. 예를 들어, 마케팅 데이터베이스의 고객 정보, 대규모 공공 설문 조사, 대규모 화학 화합물 라이브러리 검사 결과 등은 비지도학습모델을 이용하여 복수 개의 군집(cluster)으로 분류될 수 있다. 그러나 대부분의 데이터는 비지도학습모델의 훈련을 가이드할 수 있는 정보가 포함되어 있지 않다는 한계점이 있다.Unsupervised learning is often used to understand and model unlabeled data. For example, customer information in a marketing database, a large-scale public survey, and a large-scale chemical compound library test result may be classified into a plurality of clusters using an unsupervised learning model. However, most of the data has a limitation in that it does not contain information that can guide the training of unsupervised learning models.
Calinski-Harabazs 지수 또는 실루엣 지수처럼 훈련된 모델의 결과를 직접 평가하는 기존 방법은 결과 군집과 기본 데이터의 기하학적 특성에 의존하는 방법론이다. 이러한 평가 방식은 모델의 분석 목적과 잘 맞지 않을 수 있는 단점이 존재한다. 따라서 군집 결과를 이해하려면 추가 정보가 필요할 수 있다.Existing methods to directly evaluate the results of a trained model, such as the Calinski-Harabazs index or the silhouette index, are methodologies that rely on geometrical properties of the resulting clusters and underlying data. This evaluation method has a disadvantage that may not fit well with the analysis purpose of the model. Therefore, additional information may be needed to understand the clustering results.
추가 정보를 제공하는 일반적인 방법은 다이어그램과 그림 등의 시각화 방법이다. 적절한 시각화는 (1) 데이터 구조의 이해, (2) 군집화 결과의 해석, (3) 군집간의 비교, (4) 데이터 내 이상치 탐지 등에 도움을 줄 수 있다. A common way to provide additional information is through visualizations such as diagrams and pictures. Appropriate visualization can help (1) understand data structure, (2) interpret clustering results, (3) compare between clusters, and (4) detect outliers in data.
다차원 데이터의 시각화 방법의 예로, 라인플롯(line plot) 및 산점도(scatter plot), 프로젝션(projection), 체르노프 얼굴(Chernoff face), 별 및 레이더 플롯(star and radar plot), 상관 관계 플롯, 행렬 플롯, 평행 좌표도(parallel coordinates), 히트맵(heat map) 등이 존재한다. 그러나 이러한 시각화 방법은 타겟 변수가 없는 경우 타겟을 알지 못하므로 시각화하는 데 중요한 정보가 무엇인지 알 수 없는 불확실성이 커진다. 또한 고차원의 데이터, 즉 수백 가지 변수를 시각화는 것은 종종 역효과를 내고 결과에 대한 올바른 이해를 저해한다. 또한 많은 시각화 방법에는 동시에 표시할 수 있는 변수의 수에 제한이 있다. 변수 간 복잡한 상호작용을 표시하기 위해서는 변수 간의 관계를 표시하여야 하나, 상호작용의 수가 변수의 수보다 유의하게 크기 때문에 그러한 상호작용의 발견은 계산적으로 어려운 작업이다. 또한 데이터를 시각화할 때 사용자가 일일이 수작업으로 변수와 시각화 방법 등을 선택하는 경우에 데이터가 잘 알려지지 않은 상황에서는 정확한 결정을 내리기 어렵고 오류가 발생하기 쉽다.Examples of visualization methods for multidimensional data include line plots and scatter plots, projections, Chernoff faces, star and radar plots, correlation plots, There are matrix plots, parallel coordinates, heat maps, etc. However, this visualization method does not know the target when there is no target variable, so the uncertainty of not knowing what important information to visualize increases. Also, visualizing high-dimensional data, i.e. hundreds of variables, is often counterproductive and prevents a good understanding of the results. Also, many visualization methods have limitations on the number of variables that can be displayed simultaneously. In order to represent complex interactions between variables, it is necessary to represent the relationship between variables, but finding such interactions is computationally difficult because the number of interactions is significantly greater than the number of variables. In addition, when users manually select variables and visualization methods when visualizing data, it is difficult to make accurate decisions and errors are likely to occur in situations where the data is not well known.
본 발명의 실시 예가 이루고자 하는 기술적 과제는, 사용자가 데이터 군집화의 결과를 잘 이해할 수 있도록 주요변수와 주요 표본을 추출하여 효율적으로 시각화하는 방법 및 그 장치를 제공하는 데 있다. A technical problem to be achieved by an embodiment of the present invention is to provide a method and apparatus for efficiently visualizing by extracting main variables and main samples so that users can better understand the results of data clustering.
상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 데이터 시각화 방법의 일 예는, 데이터 시각화 장치가 수행하는 데이터 시각화 방법에 있어서, 복수 개의 변수에 대한 변수값으로 구성된 복수 개의 데이터샘플을 복수의 군집으로 군집화하는 단계; 상기 복수 개의 변수 중 상기 복수의 군집 사이의 차이를 나타내는 주요변수를 파악하는 단계; 각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 상기 주요변수에 대한 최소, 최대 또는 평균의 변수값을 포함하는 데이터샘플이 포함되도록 추출하는 단계; 및 상기 주요변수와 상기 추출된 데이터샘플을 기반으로 시각화하는 단계;를 포함한다.An example of a data visualization method according to an embodiment of the present invention for achieving the above technical problem is a data visualization method performed by a data visualization device, which includes a plurality of data samples composed of variable values for a plurality of variables. clustering into a plurality of clusters; identifying a major variable representing a difference between the plurality of clusters among the plurality of variables; Extracting a certain number of data samples for each cluster so that data samples including minimum, maximum, or average variable values for the main variable are included; and visualizing based on the main variable and the extracted data sample.
상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 데이터 시각화 정차의 일 예는, 복수 개의 변수에 대한 변수값으로 구성된 복수 개의 데이터샘플을 복수의 군집으로 군집화하는 군집화부; 상기 복수 개의 변수 중 상기 복수의 군집 사이의 차이를 나타내는 주요변수를 파악하는 변수선택부; 각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 상기 주요변수에 대한 최소, 최대 또는 평균의 변수값을 포함하는 데이터샘플이 포함되도록 추출하는 샘플선택부; 및 상기 주요변수와 상기 추출된 데이터샘플을 기반으로 시각화하는 시각화부;를 포함한다.An example of a data visualization stop according to an embodiment of the present invention for achieving the above technical problem is a clustering unit for clustering a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters; a variable selection unit to determine a main variable representing a difference between the plurality of clusters among the plurality of variables; For each cluster, a sample selection unit for extracting a certain number of data samples so that data samples including minimum, maximum, or average variable values for the main variable are included; and a visualization unit for visualizing based on the main variable and the extracted data sample.
본 발명의 실시 예에 따르면, 데이터 전체가 아닌 주요변수와 주요데이터를 선별하여 효율적인 데이터 시각화를 제공할 수 있다. According to an embodiment of the present invention, it is possible to provide efficient data visualization by selecting key variables and key data instead of all data.
도 1 내지 도 3은 본 발명의 실시 예에 따른 데이터 시각화에 이용되는 플롯의 일 예를 도시한 도면,1 to 3 are views showing an example of a plot used for data visualization according to an embodiment of the present invention;
도 4는 본 발명의 실시 예에 따른 데이터 시각화 방법의 일 예를 도시한 흐름도,4 is a flowchart illustrating an example of a data visualization method according to an embodiment of the present invention;
도 5는 본 발명의 실시 예에 따른 데이터샘플의 일 예를 도시한 도면,5 is a diagram showing an example of a data sample according to an embodiment of the present invention;
도 6은 본 발명의 실시 예에 따른 군집화의 일 예를 도시한 도면,6 is a diagram showing an example of clustering according to an embodiment of the present invention;
도 7 및 도 8은 본 발명의 실시 예에 따른 주요변수를 파악하는 방법의 일 예를 도시한 도면,7 and 8 are diagrams showing an example of a method for identifying key variables according to an embodiment of the present invention;
도 9는 본 발명의 실시 예에 따른 주요변수를 추출하는 다른 방법의 일 예를 도시한 도면,9 is a diagram showing an example of another method of extracting a main variable according to an embodiment of the present invention;
도 10은 본 발명의 실시 예에 따른 주요 데이터샘플을 추출하는 방법의 일 예를 도시한 도면, 그리고,10 is a diagram showing an example of a method of extracting a main data sample according to an embodiment of the present invention, and
도 11은 본 발명의 실시 예에 따른 데이터시각화장치의 일 예의 구성을 도시한 도면이다.11 is a diagram showing the configuration of an example of a data visualization device according to an embodiment of the present invention.
이하에서, 첨부된 도면들을 참조하여 본 발명이 실시 예에 따른 데이터 시각화 방법 및 그 장치에 대해 상세히 살펴본다.Hereinafter, a data visualization method and apparatus according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 1 내지 도 3은 본 발명의 실시 예에 따른 데이터 시각화에 이용되는 플롯의 일 예를 도시한 도면이다.1 to 3 are diagrams illustrating an example of a plot used for data visualization according to an embodiment of the present invention.
도 1을 참조하면, 4개의 군집에 대해 12개의 변수를 표시한 히트맵의 일 예가 도시되어 있다. 색상은 군집 내 변수의 정규화된 평균 값을 반영한다. 히트맵은 각 군집의 변수 값에 대한 개요를 제공한다. 히트맵은 군집을 해석하고 군집 간의 차이를 이해하는 데 유용할 수 있으며, 서로 다른 변수 간의 관계에 대해 가능선 선에서의 오버뷰를 제공한다. Referring to FIG. 1 , an example of a heat map displaying 12 variables for 4 clusters is shown. The color reflects the normalized mean value of the variable within the cluster. The heatmap provides an overview of the variable values in each cluster. Heatmaps can be useful for interpreting clusters and understanding differences between clusters, providing an overview of the relationship between different variables at the possible line.
도 2를 참조하면, 평행좌표도의 일 예가 도시되어 있다. 평행좌표도의 각 선은 데이터샘플을 나타낸다. 변수는 가장 오른쪽에 있는 변수를 제외하고 수직 축으로 표시되며, 색상은 군집을 나타낸다. 평행좌표도는 군집 내 데이터샘플에 대한 자세한 그림을 제공한다. 평행좌표도는 각 군집 내 변수값의 분포를 평가하는데 도움을 줄 수 있으며, 군집을 해석하고 비교하는 데 유용하고, 서로 다른 변수 간의 관계에 대한 오버뷰를 제공한다.Referring to FIG. 2, an example of a parallel coordinate diagram is shown. Each line in the parallel coordinate plot represents a data sample. Variables are displayed on the vertical axis, except for the rightmost variable, and the color indicates clustering. A parallel coordinate plot provides a detailed picture of the data samples within a cluster. Parallel coordinate plots can help evaluate the distribution of variable values within each cluster, are useful for interpreting and comparing clusters, and provide an overview of the relationships between different variables.
도 3을 참조하면, 프로젝션 차트가 도시되어 있다. 그림의 각 점은 2차원 평면에 투영된 다변량 데이터샘플이며, 서로 다른 색상은 서로 다른 군집을 나타낸다. 프로젝션 차트는 데이터 포인트 사이의 거리, 이상치 및 밀도 분포의 관점에서 데이터의 위상 구조를 시각적으로 평가하는데 도움을 줄 수 있다. Referring to Figure 3, a projection chart is shown. Each point in the figure is a multivariate data sample projected on a two-dimensional plane, and different colors represent different clusters. Projection charts can help visually assess the topological structure of data in terms of distances between data points, outliers, and density distributions.
본 실시 예는 이해를 돕기 위한 시각화 방법의 일 예를 도시하고 있을 뿐 본 발명이 도 1 내지 도 3의 시각화 방법에 한정되는 것은 아니며, 종래의 다양한 시각화 방법이 본 실시 예에 적용될 수 있다. This embodiment only shows an example of a visualization method for better understanding, but the present invention is not limited to the visualization methods of FIGS. 1 to 3 , and various conventional visualization methods may be applied to this embodiment.
도 4는 본 발명의 실시 예에 따른 데이터 시각화 방법의 일 예를 도시한 흐름도이다.4 is a flowchart illustrating an example of a data visualization method according to an embodiment of the present invention.
도 4를 참조하면, 데이터시각화장치(이하, '장치'라 함)는 복수 개의 데이터샘플을 복수의 군집으로 군집화한다(S400). 데이터샘플은 복수 개의 변수에 대한 변수값으로 구성된 데이터이며, 그 일 예가 도 5에 도시되어 있다. 장치는 비지도학습모델 등 종래의 다양한 군집화 알고리즘(예를 들어, k-mean 등)을 이용하여 군집화할 수 있으며, 그 일 예가 도 6에 도시되어 있다.Referring to FIG. 4 , a data visualization device (hereinafter referred to as 'device') clusters a plurality of data samples into a plurality of clusters (S400). The data sample is data composed of variable values for a plurality of variables, and an example thereof is shown in FIG. 5 . The device may perform clustering using various conventional clustering algorithms (eg, k-mean, etc.) such as an unsupervised learning model, and an example thereof is shown in FIG. 6 .
장치는 데이터샘플을 구성하는 복수 개의 변수 중 복수의 군집 사이의 차이를 나타내는 주요변수를 파악한다(S410). 주요변수의 개수는 실시 예에 따라 다양하게 설정될 수 있다. 예를 들어, 데이터샘플의 변수의 개수가 100개인 경우에, 장치는 주요변수의 개수로 10개를 설정할 수 있다. 주요변수를 파악하는 구체적인 방법의 일 예에 대해 도 7 내지 도 9에서 다시 살펴본다.The device determines a major variable representing a difference between a plurality of clusters among a plurality of variables constituting the data sample (S410). The number of main variables may be set in various ways according to embodiments. For example, if the number of variables in the data sample is 100, the device may set 10 as the number of main variables. An example of a specific method for determining a major variable will be reviewed again in FIGS. 7 to 9 .
장치는 각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 주요변수에 대한 최소, 최대 및 평균 중 적어도 하나 이상의 변수값을 포함하는 데이터샘플이 포함되도록 추출한다(S420). 추출하는 데이터샘플의 개수는 실시 예에 따라 다양하게 설정할 수 있다. 데이터샘플의 추출 방법의 구체적인 일 예에 대해 도 10에서 다시 살펴본다.The apparatus extracts a certain number of data samples for each cluster, but extracts data samples including at least one variable value among the minimum, maximum, and average values of the main variables (S420). The number of data samples to be extracted may be variously set according to the embodiment. A specific example of a data sample extraction method will be reviewed again in FIG. 10 .
장치는 주요변수와 주요 데이터샘플이 추출되면 이를 기반으로 시각화를 수행하여 표시한다(S430). 예를 들어, 장치는 도 1 내지 도 3에 도시된 각종 플롯을 이용하여 주요변수와 주요 데이터샘플을 표시할 수 있다.When the main variables and main data samples are extracted, the device performs visualization based on them and displays them (S430). For example, the device may display main variables and main data samples using various plots shown in FIGS. 1 to 3 .
도 5는 본 발명의 실시 예에 따른 데이터샘플의 일 예를 도시한 도면이다.5 is a diagram showing an example of a data sample according to an embodiment of the present invention.
도 5를 참조하면, 데이터셋(500)은 복수 개의 데이터샘플(520)을 포함한다. 각 데이터샘플(520)은 복수 개의 변수(510)에 대한 변수값을 포함한다. 예를 들어, 본 실시 예의 데이터셋(500)은 M개의 데이터샘플(520)을 포함하고, 각 데이터샘플은 n개의 변수(510)에 대한 변수값을 포함한다. 본 실시 예는 이해를 돕기 위한 하나의 예일 뿐 데이터셋의 형태는 실시 예에 따라 다양하게 변형될 수 있다.Referring to FIG. 5 , a data set 500 includes a plurality of data samples 520 . Each data sample 520 includes variable values for a plurality of variables 510 . For example, the data set 500 of this embodiment includes M data samples 520, and each data sample includes variable values for n variables 510. This embodiment is only an example to aid understanding, and the shape of the dataset may be variously modified according to the embodiment.
도 6은 본 발명의 실시 예에 따른 군집화의 일 예를 도시한 도면이다.6 is a diagram illustrating an example of clustering according to an embodiment of the present invention.
도 6을 참조하면, 장치는 복수 개의 데이터샘플(600)을 복수의 군집(610,620,630)으로 분류한다. 예를 들어, 장치는 종래의 다양한 군집화 알고리즘(예를 들어, k-means 등)을 이용하여 데이터샘플을 군집화할 수 있다. 군집(610,620,630)의 개수는 사용자에 의해 설정되거나 자동으로 설정될 수 있다. Referring to FIG. 6 , the device classifies a plurality of data samples 600 into a plurality of clusters 610 , 620 , and 630 . For example, the device may cluster data samples using various conventional clustering algorithms (eg, k-means, etc.). The number of clusters 610, 620, and 630 may be set by a user or automatically.
도 7 및 도 8은 본 발명의 실시 예에 따른 주요변수를 파악하는 방법의 일 예를 도시한 도면이다.7 and 8 are diagrams illustrating an example of a method for determining a major variable according to an embodiment of the present invention.
도 7 및 도 8을 함께 참조하면, 장치는 복수의 군집 중 적어도 두 군집을 포함하는 복수의 군집조합을 생성한다(S700). 예를 들어, 도 8과 같이 복수 개의 데이터샘플이 3개의 군집으로 군집화된다면, 군집조합은 (C1,C2), (C2,C3), (C1,C3)의 서로 다른 세 개의 조합이 생성된다. 군집의 개수에 따라 군집조합의 개수는 달라진다. Referring to FIGS. 7 and 8 together, the device generates a plurality of cluster combinations including at least two of the plurality of clusters (S700). For example, if a plurality of data samples are clustered into three clusters as shown in FIG. 8, three different combinations of (C1, C2), (C2, C3), and (C1, C3) are generated. The number of cluster combinations depends on the number of clusters.
장치는 각 군집조합에 대하여, 두 군집의 각 변수에 대한 변수값의 분포를 비교하여 각 변수별 군집차이를 파악한다(S710). 예를 들어, 도 8을 참조하면, 장치는 C1&C2 군집조합(820)에 대한 각 변수(X1~X5)(810)의 군집차이를 파악한다. 즉, C1 군집에 속한 데이터샘플들의 X1 변수값의 분포와 C2 군집에 속한 데이터샘플들의 X1 변수값의 분포를 비교하여 그 차이를 통계적 방법으로 파악한다. 두 군집의 변수별 변수값 분포의 차이를 산출하는 다양한 통계적 방법이 본 실시 예에 적용될 수 있다. 예를 들어, 장치는 각 군집조합(820,822,824)의 두 군집의 각 변수에 대한 변수값의 분포를 비교하는 비모수통계검증의 p-값을 산출하고 이를 군집차이로 사용할 수 있다. For each cluster combination, the device compares the distribution of variable values for each variable in the two clusters to determine the cluster difference for each variable (S710). For example, referring to FIG. 8 , the device determines the cluster difference of each variable (X1 to X5) 810 for the C1&C2 cluster combination 820. That is, the distribution of the X1 variable values of the data samples belonging to the C1 cluster is compared with the distribution of the X1 variable values of the data samples belonging to the C2 cluster, and the difference is identified through a statistical method. Various statistical methods for calculating the difference in the distribution of variable values for each variable in the two clusters may be applied to this embodiment. For example, the device may calculate a p-value of non-parametric statistical test comparing the distribution of variable values for each variable in two clusters of each cluster combination (820, 822, 824) and use it as a cluster difference.
장치는 복수의 군집조합의 각 변수별 군집차이의 크기를 기반으로 기 정의된 개수의 변수를 주요변수로 선택한다(S720). 예를 들어, 장치는 각 군집조합의 두 군집의 각 변수값의 분포의 차이가 크게 나타나는 변수를 주요변수로 선택하거나, 군집화 결과를 근사화하는 모형에서 중요도가 높은 변수를 주요변수로 선택할 수 있다. The device selects a predefined number of variables as main variables based on the size of the cluster difference for each variable in a plurality of cluster combinations (S720). For example, the device may select as a main variable a variable showing a large difference in the distribution of values of each variable of the two clusters of each cluster combination, or select a variable with high importance as a main variable in a model approximating the clustering result.
예를 들어, 도 8을 참조하면, 각 군집조합(820,822,824)의 두 군집의 각 변수(810)의 군집차이가 비모수통계검증의 p-값으로 산출되어 표시되어 있다. 비모수통계검증의 p-값의 산출 방법은 이미 널리 알려진 방법이므로 이에 대한 설명은 생략한다. C1&C2 군집조합(820)에서 C1 군집에 속한 데이터샘플들의 X1 변수의 변수값의 분포와 C2 군집에 속한 데이터샘플들의 X1 변수의 변수값의 분포를 비교한 p-값은 0.131이고, 변수 X2,X3,X4,X5의 p-값은 각각 0.185, 0.021, 0.082, 0.016이다 For example, referring to FIG. 8 , the cluster difference of each variable 810 of two clusters of each cluster combination (820, 822, 824) is calculated and displayed as a p-value of non-parametric statistical test. Since the method for calculating the p-value of the non-parametric statistical test is already widely known, the description thereof will be omitted. In the C1&C2 cluster combination 820, the p-value of comparing the distribution of the variable value of the X1 variable in the data samples belonging to the C1 cluster and the distribution of the variable value of the X1 variable in the data samples belonging to the C2 cluster is 0.131, and the variables X2 and X3 The p-values of ,X4,X5 are 0.185, 0.021, 0.082, and 0.016, respectively.
장치는 기 설정된 임계값(예를 들어, 0.05)을 초과하지 않는 p-값 중 작은 순으로 기 정의된 개수의 p-값을 파악한다. 도 8에는 작은 순으로 선택된 5개의 p-값(830)을 선택한 경우를 도시하고 있다. p-값의 선택 개수는 실시 예에 따라 다양하게 변형될 수 있다. The device identifies a predefined number of p-values in order of smaller order among p-values that do not exceed a preset threshold value (eg, 0.05). 8 shows a case in which five p-values 830 selected in descending order are selected. The number of selected p-values may be variously modified according to embodiments.
장치는 선택된 p-값에 해당하는 각 변수를 주요변수로 선택할 수 있다. 예를 들어, C1&C2 군집조합(820)에서는 변수 X3 및 X5가 선택되고, C2&C3 군집조합(822)에서는 변수 X3가 선택되고, C1&C3 군집조합(824)에서는 변수 X1 및 X4가 선택된다. 장치는 중복되는 변수를 제외하고 최종적으로 {X1,X3,X4,X5}의 4개의 변수를 주요변수로 선택할 수 있다. The device may select each variable corresponding to the selected p-value as the main variable. For example, variables X3 and X5 are selected in the clustering combination C1&C2 820, variable X3 is selected in the clustering combination C2&C3 822, and variables X1 and X4 are selected in the clustering combination C1&C3 824. The device can finally select four variables {X1, X3, X4, X5} as main variables, excluding overlapping variables.
도 9는 본 발명의 실시 예에 따른 주요변수를 추출하는 다른 방법의 일 예를 도시한 도면이다.9 is a diagram showing an example of another method of extracting a main variable according to an embodiment of the present invention.
도 9를 참조하면, 장치는 각 군집의 레이블을 이용하여 트리기반 분류모델(예를 들어, 결정트리(decision tree), 앙상블 학습(ensemble learning) 등)을 훈련시킨다(S900). 예를 들어, 도 6의 예와 같이 N개의 군집이 생성되면, 각 군집에 속한 데이터샘플에 각 군집을 구분하는 값을 레이블링한다. 즉, C1 군집에 속한 데이터샘플들에는 C1 군집을 나타내는 값(예를 들어, 제1 레이블)을 부여하고, C2 군집에 속한 데이터샘플들에는 C2 군집을 나타내는 값(예를 들어, 제2 레이블)을 부여한다. 장치는 각 데이터샘플에 대해 부여한 레이블을 이용하여 트리기반 분류모델을 훈련시킬 수 있다.Referring to FIG. 9 , the device trains a tree-based classification model (eg, decision tree, ensemble learning, etc.) using labels of each cluster (S900). For example, when N clusters are created as shown in the example of FIG. 6 , data samples belonging to each cluster are labeled with values that distinguish each cluster. That is, a value representing the C1 cluster (eg, a first label) is assigned to data samples belonging to the C1 cluster, and a value representing the C2 cluster (eg, a second label) is assigned to data samples belonging to the C2 cluster. grant The device may train a tree-based classification model using labels assigned to each data sample.
장치는 훈련된 트리기반 분류모델로부터 각 변수의 중요도를 계산한다(S910). 트리기반 분류모델에서 각 변수의 중요도를 산출하는 방법 그 자체는 이미 널리 알려진 기술이므로 이에 대한 설명은 생략한다. 변수의 중요도가 계산되면, 장치는 중요도가 높은 순으로 기 설정된 개수의 변수를 주요변수를 선택한다(S920). The device calculates the importance of each variable from the trained tree-based classification model (S910). Since the method itself for calculating the importance of each variable in the tree-based classification model is already a well-known technique, description thereof will be omitted. When the importance of variables is calculated, the device selects a predetermined number of variables as main variables in order of importance (S920).
도 10은 본 발명의 실시 예에 따른 주요 데이터샘플을 추출하는 방법의 일 예를 도시한 도면이다.10 is a diagram illustrating an example of a method of extracting a main data sample according to an embodiment of the present invention.
도 10을 참조하면, 장치는 각 군집에 대하여 주요변수에 대한 최소, 최대 및/또는 평균에 해당하는 변수값을 가진 데이터샘플을 추출한다(S1000). 예를 들어, 도 8의 예에서 주요변수는 {X1,X3,X4,X5}이다. 이 경우에, 장치는 C1 군집에 속한 데이터샘플들 중 변수 X1에 대한 최소값, 최대값 또는 평균(또는 평균가 가장 가까운 변수값)을 가진 데이터샘플을 추출하고, 주요변수 X3,X4,X5에 대해서도 동일한 방법으로 각각 데이터샘플을 추출한다. 이와 같은 방법을 C2,C3 군집에 대해서도 각각 데이터샘플을 추출한다. 본 실시 예는 각 변수의 최소, 최대, 평균에 대한 변수값을 가진 데이터샘플을 추출하는 예를 설명하고 있으나 반드시 이에 한정되는 것은 아니며, 통계적 의미가 있는 다양한 값에 속하는 변수값을 가진 데이터샘플을 추출하도록 변형될 수 있다.Referring to FIG. 10 , the apparatus extracts data samples having variable values corresponding to the minimum, maximum and/or average of the main variables for each cluster (S1000). For example, in the example of FIG. 8, the main variables are {X1, X3, X4, X5}. In this case, the device extracts data samples with the minimum value, maximum value, or average (or the variable value with the closest average) for variable X1 among data samples belonging to C1 cluster, and the same for main variables X3, X4, and X5. Each data sample is extracted in this way. Data samples are extracted for the C2 and C3 clusters in the same way. This embodiment describes an example of extracting data samples having variable values for the minimum, maximum, and average of each variable, but is not necessarily limited thereto, and extracts data samples having variable values belonging to various values having statistical significance. Can be modified to extract.
장치는 각 군집에 대하여 무작위(즉, 균일한 선택 확률)로 일정 개수(예를 들어, 500개 등)의 데이터샘플을 추출한다(S1010). 각 군집별 추출하는 데이터샘플의 개수는 실시 예에 따라 다양하게 설정될 수 있다. The apparatus extracts a certain number of data samples (eg, 500) at random (ie, uniform selection probability) for each cluster (S1010). The number of data samples to be extracted for each cluster may be set in various ways according to embodiments.
장치는 주요변수를 기반으로 추출(S1000 단계)한 제1 데이터샘플군과 무작위로 추출(S1010 단계)한 제2 데이터샘플군에서 중복되는 데이터샘플을 제외한다(S1020). 이와 같은 방법으로, 장치는 각 군집에 대하여 데이터샘플을 추출한다. 즉, 도 8의 경우 C1, C2, C3의 각 군집에 대하여 주요 데이터샘플을 추출한다.The apparatus excludes overlapping data samples from the first data sample group extracted based on the main variable (step S1000) and the second data sample group randomly extracted (step S1010) (S1020). In this way, the device extracts data samples for each cluster. That is, in the case of FIG. 8, main data samples are extracted for each cluster of C1, C2, and C3.
도 11은 본 발명의 실시 예에 따른 데이터시각화장치의 일 예의 구성을 도시한 도면이다.11 is a diagram showing the configuration of an example of a data visualization device according to an embodiment of the present invention.
도 11을 참조하면, 데이터시각화장치(1100)는 군집화부(1110), 변수선택부(1120), 샘플선택부(1130) 및 시각화부(1140)를 포함한다. 데이터시각화장치(1100)는 메모리, 프로세서, 입출력장치 등을 포함하는 컴퓨팅장치로 구현될 수 있다. 이 경우 각 구성은 소프트웨어로 구현되어 메모리에 탑재된 후 프로세서에 의해 구동될 수 있다. Referring to FIG. 11 , the data visualization device 1100 includes a clustering unit 1110, a variable selection unit 1120, a sample selection unit 1130, and a visualization unit 1140. The data visualization device 1100 may be implemented as a computing device including a memory, processor, input/output device, and the like. In this case, each component may be implemented as software, loaded into a memory, and then driven by a processor.
군집화부(1110)는 복수 개의 변수에 대한 변수값으로 구성된 복수 개의 데이터샘플을 복수의 군집으로 군집화한다. 군집화의 일 예가 도 6에 도시되어 있다 The clustering unit 1110 clusters a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters. An example of clustering is shown in FIG. 6
변수선택부(1120)는 복수 개의 변수 중 상기 복수의 군집 사이의 차이를 나타내는 주요변수를 파악한다. 변수선택부(1120)는 군집별로 큰 차이를 분포를 보이는 변수를 주요변수로 파악할 수 있다. 이에 대한 일 예가 도 7 및 도 8에 도시되어 잇다. 또는 변수선택부(1120)는 군집화 결과를 근사화하는 모형에서 중요도가 높은 변수를 주요변수로 파악할 수 있다. 이에 대한 일 예가 도 9에 도시되어 있다. The variable selection unit 1120 determines a main variable representing a difference between the plurality of clusters among a plurality of variables. The variable selector 1120 may determine a variable having a distribution showing a large difference for each cluster as a main variable. An example of this is shown in FIGS. 7 and 8 . Alternatively, the variable selection unit 1120 may determine a variable having a high importance as a main variable in a model for approximating a clustering result. An example of this is shown in FIG. 9 .
샘플선택부(1130)는 각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 상기 주요변수에 대한 최소, 최대 또는 평균의 변수값을 포함하는 데이터샘플이 포함되도록 추출한다. 샘플선택부의 일 예가 도 10에 도시되어 있다.The sample selector 1130 extracts a certain number of data samples for each cluster, but extracts data samples including minimum, maximum, or average variable values for the main variables. An example of the sample selection unit is shown in FIG. 10 .
시각화부(1140)는 주요변수와 추출된 주요 데이터샘플을 기반으로 시각화하여 표시한다. 예를 들어, 시각화부는 도 1 내지 도 3의 플롯을 이용하여 주요변수와 주요 데이터샘플을 시각화할 수 있다.The visualization unit 1140 visualizes and displays the main variables and the extracted main data samples. For example, the visualization unit may visualize main variables and main data samples using the plots of FIGS. 1 to 3 .
본 발명의 각 실시 예는 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, SSD, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.Each embodiment of the present invention can also be implemented as computer readable codes on a computer readable recording medium. A computer-readable recording medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, SSD, and optical data storage devices. In addition, the computer-readable recording medium may be distributed to computer systems connected through a network to store and execute computer-readable codes in a distributed manner.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at mainly with its preferred embodiments. Those skilled in the art to which the present invention pertains will be able to understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered from a descriptive point of view rather than a limiting point of view. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent scope will be construed as being included in the present invention.

Claims (10)

  1. 데이터 시각화 장치가 수행하는 데이터 시각화 방법에 있어서,In the data visualization method performed by the data visualization device,
    복수 개의 변수에 대한 변수값으로 구성된 복수 개의 데이터샘플을 복수의 군집으로 군집화하는 단계;clustering a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters;
    상기 복수 개의 변수 중 상기 복수의 군집 사이의 차이를 나타내는 주요변수를 파악하는 단계;identifying a major variable representing a difference between the plurality of clusters among the plurality of variables;
    각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 상기 주요변수에 대한 최소, 최대 또는 평균의 변수값을 포함하는 데이터샘플이 포함되도록 추출하는 단계; 및extracting a certain number of data samples for each cluster, but extracting data samples including minimum, maximum, or average variable values for the main variables; and
    상기 주요변수와 상기 추출된 데이터샘플을 기반으로 시각화하는 단계;를 포함하는 것을 특징으로 하는 데이터 시각화 방법.Visualizing based on the main variable and the extracted data sample; characterized in that it comprises a data visualization method.
  2. 제 1항에 있어서, 상기 주요변수를 파악하는 단계는,The method of claim 1, wherein the step of identifying the main variable,
    상기 복수의 군집 중 두 군집을 포함하는 복수의 군집조합을 생성하는 단계; generating a plurality of cluster combinations including two clusters among the plurality of clusters;
    각 군집조합에 대하여, 두 군집의 각 변수에 대한 변수값의 분포를 비교하여 각 변수별 군집차이를 파악하는 단계; 및Comparing distributions of variable values for each variable in two clusters for each cluster combination to identify cluster differences for each variable; and
    상기 복수의 군집조합의 각 변수별 군집차이의 크기를 기반으로 기 정의된 개수의 변수를 주요변수로 선택하는 단계;를 포함하는 것을 특징으로 하는 데이터 시각화 방법.and selecting a predefined number of variables as main variables based on the size of the cluster difference for each variable in the plurality of cluster combinations.
  3. 제 2항에 있어서, According to claim 2,
    상기 군집차이를 파악하는 단계는, 상기 두 군집의 각 변수에 대한 변수값의 분포를 비교하는 비모수통계검증의 p-값을 산출하는 단계;를 포함하고,The step of determining the cluster difference includes calculating a p-value of a non-parametric statistical test for comparing the distribution of variable values for each variable in the two clusters;
    상기 주요변수로 선택하는 단계는, 기 정의된 임계값을 초과하지 않는 p-값들 중 작은 순으로 일정 개수의 변수를 주요변수로 선택하는 단계를 포함하는 것을 특징으로 하는 데이터 시각화 방법.The step of selecting as the main variables comprises selecting a certain number of variables as main variables in the order of smallest among p-values that do not exceed a predefined threshold value.
  4. 제 1항에 있어서, 상기 추출하는 단계는,The method of claim 1, wherein the extracting step,
    각 군집에 대하여, 상기 최소, 최대 또는 평균의 변수값을 포함하는 제1 데이터샘플군을 추출하는 단계;extracting a first data sample group including the minimum, maximum, or average variable values for each cluster;
    각 군집에 대하여, 균일한 선택 확률로 기 정의된 개수의 제2 데이터샘플군을 추출하는 단계; 및extracting a predefined number of second data sample groups with uniform selection probability for each cluster; and
    각 군집에 대하여, 제1 데이터샘플군과 상기 제2 데이터샘플군의 중복 데이터샘플을 폐기하는 단계;를 포함하는 것을 특징으로 하는 데이터 시각화 방법.and discarding redundant data samples of the first data sample group and the second data sample group for each cluster.
  5. 제 1항에 있어서, 상기 시각화하는 단계는,The method of claim 1, wherein the visualizing step,
    상기 주요변수와 상기 추출된 데이터샘플을 히트맵 또는 평행좌표도를 이용하여 표시하는 단계;를 포함하는 것을 특징으로 하는 데이터 시각화 방법.and displaying the main variables and the extracted data samples using a heat map or a parallel coordinate diagram.
  6. 제 1항에 있어서, 상기 주요변수를 파악하는 단계는,The method of claim 1, wherein the step of identifying the main variable,
    각 군집의 레이블을 기반으로 트리 기반 분류모델을 훈련시키는 단계;training a tree-based classification model based on the label of each cluster;
    훈련된 상기 트리 기반 분류모델로부터 각 변수의 중요도를 계산하는 단계; 및calculating an importance of each variable from the trained tree-based classification model; and
    중요도가 높은 순으로 선택된 일정 개수의 변수를 주요변수로 선택하는 단계;를 포함하는 것을 특징으로 하는 데이터 시각화 방법.A data visualization method comprising: selecting a predetermined number of variables selected in order of importance as main variables.
  7. 복수 개의 변수에 대한 변수값으로 구성된 복수 개의 데이터샘플을 복수의 군집으로 군집화하는 군집화부;a clustering unit that clusters a plurality of data samples composed of variable values for a plurality of variables into a plurality of clusters;
    상기 복수 개의 변수 중 상기 복수의 군집 사이의 차이를 나타내는 주요변수를 파악하는 변수선택부;a variable selection unit to determine a main variable representing a difference between the plurality of clusters among the plurality of variables;
    각 군집에 대하여, 일정 개수의 데이터샘플을 추출하되 상기 주요변수에 대한 최소, 최대 또는 평균의 변수값을 포함하는 데이터샘플이 포함되도록 추출하는 샘플선택부; 및For each cluster, a sample selection unit for extracting a certain number of data samples so that data samples including minimum, maximum, or average variable values for the main variable are included; and
    상기 주요변수와 상기 추출된 데이터샘플을 기반으로 시각화하는 시각화부;를 포함하는 데이터 시각화 장치.Data visualization device comprising a; visualization unit for visualizing based on the main variable and the extracted data sample.
  8. 제 7항에 있어서, 상기 변수선택부는,The method of claim 7, wherein the variable selection unit,
    상기 복수의 군집 중 두 군집을 포함하는 복수 개의 군집조합을 생성하고, 각 군집조합에 대하여 두 군집의 각 변수에 대한 변수값의 분포를 비교하여 파악한 후 각 변수별 군집차이를 기반으로 기 정의된 개수의 변수를 주요변수로 선택하는 것을 특징으로 하는 데이터 시각화 장치.After generating a plurality of cluster combinations including two clusters among the plurality of clusters, comparing and identifying the distribution of variable values for each variable of the two clusters for each cluster combination, based on the cluster difference for each variable, a predefined Data visualization device, characterized in that for selecting the number of variables as the main variable.
  9. 제 7항에 있어서, 상기 변수선택부는,The method of claim 7, wherein the variable selection unit,
    각 군집의 레이블을 기반으로 훈련시킨 트리 기반 분류모델로부터 각 변수의 중요도를 계산하고, 중요도가 높은 순으로 일정 개수의 변수를 주요변수로 선택하는 것을 특징으로 하는 데이터 시각화 장치.A data visualization device that calculates the importance of each variable from a tree-based classification model trained based on the label of each cluster and selects a certain number of variables as main variables in order of importance.
  10. 제 1항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium on which a computer program for performing the method according to claim 1 is recorded.
PCT/KR2021/017808 2021-10-14 2021-11-30 Data visualization method and device therefor WO2023063485A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210136830A KR20230053384A (en) 2021-10-14 2021-10-14 Data visualization method and device
KR10-2021-0136830 2021-10-14

Publications (1)

Publication Number Publication Date
WO2023063485A1 true WO2023063485A1 (en) 2023-04-20

Family

ID=85988715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017808 WO2023063485A1 (en) 2021-10-14 2021-11-30 Data visualization method and device therefor

Country Status (2)

Country Link
KR (1) KR20230053384A (en)
WO (1) WO2023063485A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170079159A (en) * 2015-12-30 2017-07-10 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof
US20170364590A1 (en) * 2016-06-20 2017-12-21 Dell Software, Inc. Detecting Important Variables and Their Interactions in Big Data
US10176435B1 (en) * 2015-08-01 2019-01-08 Shyam Sundar Sarkar Method and apparatus for combining techniques of calculus, statistics and data normalization in machine learning for analyzing large volumes of data
KR101976689B1 (en) * 2018-11-29 2019-05-09 주식회사 솔리드웨어 Method and apparatus for automatically generating variables for data modeling
KR102039154B1 (en) * 2019-04-30 2019-10-31 서울시립대학교 산학협력단 Apparatus for visualizing data and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176435B1 (en) * 2015-08-01 2019-01-08 Shyam Sundar Sarkar Method and apparatus for combining techniques of calculus, statistics and data normalization in machine learning for analyzing large volumes of data
KR20170079159A (en) * 2015-12-30 2017-07-10 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof
US20170364590A1 (en) * 2016-06-20 2017-12-21 Dell Software, Inc. Detecting Important Variables and Their Interactions in Big Data
KR101976689B1 (en) * 2018-11-29 2019-05-09 주식회사 솔리드웨어 Method and apparatus for automatically generating variables for data modeling
KR102039154B1 (en) * 2019-04-30 2019-10-31 서울시립대학교 산학협력단 Apparatus for visualizing data and method thereof

Also Published As

Publication number Publication date
KR20230053384A (en) 2023-04-21

Similar Documents

Publication Publication Date Title
US9940433B2 (en) Discovering population structure from patterns of identity-by-descent
US20200005902A1 (en) Systems and methods for visualization of single-cell resolution characteristics
Guo Coordinating computational and visual approaches for interactive feature selection and multivariate clustering
WO2022105115A1 (en) Question and answer pair matching method and apparatus, electronic device and storage medium
US11804069B2 (en) Image clustering method and apparatus, and storage medium
Chang et al. A robust dynamic niching genetic algorithm with niche migration for automatic clustering problem
CN109977132B (en) Student abnormal behavior pattern analysis method based on unsupervised clustering pattern
US20090299646A1 (en) System and method for biological pathway perturbation analysis
KR19990083199A (en) System and method for detecting clusters of information
CN112035620A (en) Question-answer management method, device, equipment and storage medium of medical query system
Nama et al. Implementation of K-Means Technique in Data Mining to Cluster Researchers Google Scholar Profile
KR102163718B1 (en) AI Program for Determining Survey Respondents
WO2023063485A1 (en) Data visualization method and device therefor
KR102085161B1 (en) System and method for visualization of graph data and computer program for the same
JP2020087465A (en) Information processing device, information processing method and program
CN116401828A (en) Key event visual display method based on data characteristics
WO2022114363A1 (en) Unsupervised learning-based method and apparatus for generating supervised learning model, and method and apparatus for analyzing unsupervised learning model using same
WO2018165530A1 (en) Method of constructing a reusable low-dimensionality map of high-dimensionality data
CN109034067B (en) Method, system, equipment and storage medium for commodity image reproduction detection
WO2022114364A1 (en) Method and apparatus for applying user intent in unsupervised learning
WO2022211179A1 (en) Optimal model seeking method, and device therefor
KR102483745B1 (en) Spatial transcriptome analysis apparatus and method using the same
Kano et al. Visualization for genome function analysis using immersive projection technology
Zhang et al. Information visualization for DNA microarray data analysis: A critical review
WO2023095956A1 (en) Method, apparatus, and system for searching for and providing shape relationship information about 3d model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960750

Country of ref document: EP

Kind code of ref document: A1