KR102039154B1 - 데이터를 시각화하는 장치 및 방법 - Google Patents
데이터를 시각화하는 장치 및 방법 Download PDFInfo
- Publication number
- KR102039154B1 KR102039154B1 KR1020190051020A KR20190051020A KR102039154B1 KR 102039154 B1 KR102039154 B1 KR 102039154B1 KR 1020190051020 A KR1020190051020 A KR 1020190051020A KR 20190051020 A KR20190051020 A KR 20190051020A KR 102039154 B1 KR102039154 B1 KR 102039154B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- visualization
- variable
- learning
- data set
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
데이터를 시각화하는 장치는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징(feature) 데이터를 머신러닝 기반 모델에 입력하여 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 학습용 데이터셋을 시각화하도록 머신러닝 기반 모델을 학습하는 학습부, 실전용 데이터셋으로부터 기설정된 복수의 특징 데이터를 추출하는 특징 추출부, 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 머신러닝 기반 모델에 입력하여 복수의 시각화 데이터 중 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하는 시각화 데이터 선정부 및 선정된 적어도 하나의 시각화 데이터를 출력하는 시각화 데이터 출력부를 포함하고, 학습부는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 복수의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 학습할 수 있다.
Description
본 발명은 데이터를 시각화하는 장치 및 방법에 관한 것이다.
빅데이터 시대가 도래하면서 시각화 도구를 이용한 데이터 탐색 및 분석 방법은 필수적인 요소가 되었다. 이러한, 시각화 도구는 빅데이터의 전체적인 의미를 단시간에 직관적으로 인지시키기 위한 분석 기법으로 점차 주목받고 있다.
현재, 데이터베이스나 스프레드 시트를 활용하는 오피스 프로그램이나 어플리케이션을 통해 다량의 데이터의 각 분석 항목을 시각화할 수 있도록 다차원 차트를 제작할 수 있는 다양한 방법이 제공되고 있다.
시각화 도구는 입력 데이터의 시각화 표현 목적에 따라 그 종류가 다양하고, 입력 데이터 및 시각화 도구의 저작 방법 등에 대한 이해도가 높을수록 시각화 데이터의 결과도 다양하게 나타나게 된다. 또한, 사용자가 데이터 특징에 대한 이해도에 따라 표현할 수 있는 시각화 도구의 종류의 편차가 크게 나타난다.
기존의 시각화 도구의 저작 방법은 데이터 규모가 커질수록 해당 데이터를 시각화하는데 시간이 오래 걸리고, 해당 데이터의 특징을 짧은 시간 내에 파악하기 어려울 뿐 아니라, 해당 데이터에 적절한 시각화 도구를 선택하는 과정도 쉽지 않다.
또한, 일반 사용자들은 어떤 시각화 도구를 사용해야 확보된 데이터를 이용하여 원하는 목적에 맞는 효과적인 시각 효과를 얻을 수 있을지 잘 알지 못한다. 데이터를 시각화하여 표현하는 다양한 방법이 있음에도, 사용자는 시각화 도구의 종류, 표현 방법, 사용 방법 등을 잘 몰라서 시각화 도구를 적절하게 이용하지 못하는 경우가 많다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 시각화 결과의 유의미성을 분별할 수 있는 기설정된 복수의 특징 데이터를 학습용 데이터셋으로부터 추출하고, 이를 머신러닝 기반 모델에 입력하여 학습용 데이터셋을 시각화하고, 시각화 데이터를 표현하기 위해 사용되는 변수가 선택되도록 머신러닝 기반 모델을 학습시키고자 한다.
또한, 본 발명은 실전용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터를 학습된 머신러닝 기반 모델에 입력함으로써 실전용 데이터셋을 표현하는 시각화 데이터를 선정하여 추천하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 데이터를 시각화하는 장치는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징(feature) 데이터를 머신러닝 기반 모델에 입력하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 상기 학습용 데이터셋을 시각화하도록 상기 머신러닝 기반 모델을 학습하는 학습부; 실전용 데이터셋으로부터 상기 기설정된 복수의 특징 데이터를 추출하는 특징 추출부; 상기 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 상기 머신러닝 기반 모델에 입력하여 상기 복수의 시각화 데이터 중 상기 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하는 시각화 데이터 선정부; 및 상기 선정된 적어도 하나의 시각화 데이터를 출력하는 시각화 데이터 출력부를 포함하고, 상기 학습부는 상기 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 상기 복수의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 학습할 수 있다.
본 발명의 제 2 측면에 따른 데이터 시각화 장치에 의해 수행되는 데이터를 시각화하는 방법은 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징(feature) 데이터를 머신러닝 기반 모델에 입력하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 상기 학습용 데이터셋을 시각화하도록 상기 머신러닝 기반 모델을 학습하는 단계; 실전용 데이터셋으로부터 기설정된 복수의 특징 데이터를 추출하는 단계; 상기 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 상기 머신러닝 기반 모델에 입력하여 상기 복수의 시각화 데이터 중 상기 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하는 단계; 및 상기 선정된 적어도 하나의 시각화 데이터를 출력하는 단계를 포함하고, 상기 학습하는 단계는 상기 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 상기 복수의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 학습하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 시각화 결과의 유의미성을 분별할 수 있는 기설정된 복수의 특징 데이터를 학습용 데이터셋으로부터 추출하고, 이를 머신러닝 기반 모델에 입력하여 학습용 데이터셋을 시각화하고, 시각화 데이터를 표현하기 위해 사용되는 변수가 선택되도록 머신러닝 기반 모델을 학습시킬 수 있다.
또한, 본 발명은 실전용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터를 학습된 머신러닝 기반 모델에 입력함으로써 실전용 데이터셋을 표현하는 시각화 데이터를 선정하여 추천할 수 있다.
이를 통해, 본 발명은 사용자가 입력 데이터셋에 대한 이해도 및 시각화 도구의 저작 방법에 대한 이해도와 상관없이, 입력 데이터셋의 입력을 통해 해당 입력 데이터셋을 잘 표현하는 시각화 도구를 추천하여 제공할 수 있다.
또한, 본 발명은 사용자에게 시각화 데이터에 대한 접근성 및 표현의 용이성을 제공함으로써 입력 데이터셋에 대한 분석 작업의 소요 시간 및 비용을 절감하는 효과를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른, 데이터 시각화 장치의 블록도이다.
도 2는 시각화의 표현 목적에 따른 복수의 시각화 데이터의 분류를 설명하기 위한 도면이다.
도 3a 내지 3b는 본 발명의 일 실시예에 따른, 기설정된 복수의 특징 데이터를 설명하기 위한 도면이다.
도 4a 내지 4b는 본 발명의 일 실시예에 따른, 데이터를 시각화하기 위한 학습 및 시각화 데이터를 추천하기 위한 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 시각화 데이터의 시각화 적합성을 판단하는 방법을 설명하기 위한 도면이다.
도 6a 내지 6e는 본 발명의 일 실시예에 따른, 시각화 데이터를 표현하기 위해 사용되는 변수를 선택하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 데이터를 시각화하는 방법을 도시한 흐름도이다.
도 2는 시각화의 표현 목적에 따른 복수의 시각화 데이터의 분류를 설명하기 위한 도면이다.
도 3a 내지 3b는 본 발명의 일 실시예에 따른, 기설정된 복수의 특징 데이터를 설명하기 위한 도면이다.
도 4a 내지 4b는 본 발명의 일 실시예에 따른, 데이터를 시각화하기 위한 학습 및 시각화 데이터를 추천하기 위한 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 시각화 데이터의 시각화 적합성을 판단하는 방법을 설명하기 위한 도면이다.
도 6a 내지 6e는 본 발명의 일 실시예에 따른, 시각화 데이터를 표현하기 위해 사용되는 변수를 선택하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 데이터를 시각화하는 방법을 도시한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
복수의 시각화 데이터는 입력 데이터의 특징 값을 적절한 시각화 요소로 표현하여 정보를 전달할 수 있다. 도 2를 참조하면, 예를 들어, 4가지 유형의 시각화 데이터는 산점도 그래프, 막대 그래프, 라인 그래프 및 파이 차트를 포함할 수 있다.
여기서, 막대 그래프 및 라인 그래프는 데이터 간의 비교를 시각화하기 위한 목적으로 분류될 수 있고, 산점도 그래프는 변수 간의 관계 또는 분포를 시각화하기 위한 목적으로 분류될 수 있고, 파이 차트는 각 변수의 구성 비율을 시각화하기 위한 목적으로 분류될 수 있다.
산점도 그래프는 2개의 수치형 변수 데이터를 2차원 공간에 표현하여 두 변수의 함수 관계를 예상하거나 데이터의 분포를 확인하는데 이용될 수 있다. 막대 그래프는 주어진 값들이 뚜렷한 차이를 보이는 경우나 상대적 차이를 한눈에 알아보는데 사용될 수 있다.
또한, 라인 그래프는 범주형 특징값 또는 시계열 특징값을 갖는 데이터를 시각화하는데 용이할 수 있다. 파이차트는 전체 특징값 중 범주형 특징 값이 차지하는 비율을 확인할 때 사용될 수 있다.
도 1은 본 발명의 일 실시예에 따른, 데이터 시각화 장치(10)의 블록도이다.
도 1을 참조하면, 데이터 시각화 장치(10)는 학습부(100), 특징 추출부(110), 시각화 데이터 선정부(120) 및 시각화 데이터 출력부(130)를 포함할 수 있다. 여기서, 학습부(100)는 시각화 데이터 생성부(102) 및 시각화 적합성 정보 입력부(104)를 포함할 수 있다. 다만, 도 1에 도시된 데이터 시각화 장치(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
이하에서는 도 3a 내지 5를 함께 참조하여 도 1을 설명하기로 한다.
학습부(100)는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징(Feature) 데이터를 머신러닝 기반 모델에 입력하여 학습용 데이터셋을 시각화하도록 머신러닝 기반 모델을 학습할 수 있다.
여기서, 학습용 데이터셋은 머신러닝 기반 모델을 학습시키기 위한 데이터의 집합일 수 있다. 또한, 학습용 데이터셋은 머신러닝 기반 모델을 통해 복수의 시각화 데이터 중 어느 하나의 시각화 데이터로 시각화하여 분류하기 위한 데이터의 집합일 수 있다.
또한, 기설정된 복수의 특징 데이터는 시각화 대상이 되는 데이터로부터 시각화에 도움이 되며 인간의 선호도 및 합당성을 학습하기에 적절한 메타데이터 변수를 의미한다.
이때, 기설정된 복수의 특징 데이터는 머신러닝 기반 모델에 입력되는 인자로서 시각화 데이터에 대한 품질을 결정하고, 시각화 대상이 되는 데이터와 유의미한 관계를 갖는 시각화 데이터의 추천에 대한 정확도 성능을 결정하게 된다.
이러한, 기설정된 복수의 특징 데이터는, 예를 들어, 도 3a와 같이 26개의 독립변수와 1개의 종속변수를 포함하는 자동 시각화를 위한 메타데이터 변수로 구성될 수 있다.
도 3a를 참조하면, 기설정된 복수의 특징 데이터(301)를 구성하는 26개의 독립 변수에는 예를 들어, 2차원 시각화의 X축(가로축) 및 Y축(세로축) 각각에 대한 변수명, X축 변수(x1) 및 Y축 변수(x2) 각각에 대한 최소값(Min), 최대값(Max), 범위(Range), 평균치(Mean), 중앙치(Median), 왜곡도(Skewness), 첨도(Kurtosis), 표준 편차(Standard Deviation), X축 변수(x1) 및 Y축 변수(x2) 간의 상관 계수(Correlation), 컬럼(Columns)의 개수, 열(Rows)의 개수, 범주형(Categorical) 속성 정보, 수치형(Numerical) 속성 정보, 시계열(Series) 속성 정보 및 시각화 데이터의 타입 정보가 포함되고, 1개의 종속 변수에는 예를 들어, 복수의 시각화 데이터 별로 시각화 적합성 여부에 대한 값이 포함될 수 있다.
여기서, 범주형 속성 정보는 범주형 변수의 포함 유무에 대한 정보로서, X축 변수 및 Y축 변수 간의 특징 중 범주형 변수가 포함되는 경우에는 제 1 값(예컨대, '1')을 가지고, 범주형 변수가 포함되지 않는 경우에는 제 2 값(예컨대, '0')을 가질 수 있다.
또한, 수치형 속성 정보는 수치형 변수의 포함 유무에 대한 정보로서, X축 변수 및 Y축 변수 간의 특징 중 수치형 변수가 포함되는 경우에는 제 1 값(예컨대, '1')을 가지고, 수치형 변수가 포함되지 않는 경우에는 제 2 값(예컨대, '0')을 가질 수 있다.
또한, 시계열 속성 정보는 시계열 변수의 포함 유무에 대한 정보로서, X축 변수 및 Y축 변수 간의 특징 중 시계열 변수가 포함되는 경우에는 제 1 값(예컨대, '1')을 가지고, 시계열 변수가 포함되지 않는 경우에는 제 2 값(예컨대, '0')을 가질 수 있다.
또한, 시각화 데이터의 타입 정보는 시각화 데이터의 타입에 따른 값으로, 산점도 그래프의 경우, 제 1 값(예컨대, '0')을 가지고, 막대 그래프의 경우, 제 2 값(예컨대, '1')을 가지고, 라인 그래프의 경우, 제 3 값(예컨대, '2')을 가지며, 파이 차트의 경우, 제 4 값(예컨대,'3')을 가질 수 있다.
한편, 종속 변수는 시각화 대상이 되는 데이터를 복수의 시각화 데이터 별로 시각화하였을 때, 평가용 단말로부터 입력받은 시각화 데이터 별 시각화 적합성에 대한 정보로서, 시각화 데이터가 부적합한 경우, 제 1 값(예컨대, '0')을 가지고, 시각화 데이터가 적합한 경우, 제 2 값(예컨대, '1')을 가질 수 있다.
도 3b 내지 4a를 함께 참조하면, 특징 추출부(110)는 학습용 데이터셋(303)의 복수의 특징 변수로부터 X축 변수 및 Y축 변수의 쌍으로 구성된 적어도 하나의 특징쌍을 생성할 수 있다.
예를 들면, 특징 추출부(110)는 학습용 데이터셋(303)의 복수의 특징 변수가 5개이면, X축 변수(x1) 및 Y축 변수(x2)의 쌍으로 하는 20개의 특징쌍(x1, x2)을 생성할 수 있다. 예컨대, 학습용 데이터셋(303)의 변수 중 sepal_length와 sepal_width는 각각 X축 변수 및 Y축 변수가 되고, sepal_length와 sepal_width를 조합한 제 1 특징쌍(sepal_length, sepal_width)이 생성될 수 있다.
특징 추출부(110)는 학습용 데이터셋(303)으로부터 생성된 적어도 하나의 특징쌍을 이루는 복수의 특징 변수에 대한 복수의 변수값으로부터 27개의 변수로 구성된 기설정된 복수의 특징 데이터(305)를 추출할 수 있다. 예를 들면, 특징 추출부(110)는 학습용 데이터셋(303)의 복수의 특징 변수가 5개이면, 20개의 특징쌍(x1, x2)에 대한 기설정된 복수의 특징 데이터(305)를 추출할 수 있다.
학습부(100)는 추출된 적어도 하나의 특징쌍 별로 각 특징쌍에 대한 기설정된 복수의 특징 데이터를 머신러닝 기반 모델(40)에 입력하여 학습용 데이터셋(303)을 표현하는 복수의 시각화 데이터(42, 44, 46, 48)를 출력하여 학습용 데이터셋(303)을 시각화하도록 머신러닝 기반 모델(40)을 학습할 수 있다.
여기서, 복수의 시각화 데이터는 예를 들어, 산점도 그래프(42), 막대 그래프(44), 라인 그래프(46) 및 파이 차트(48)를 포함할 수 있다.
학습부(100)는 학습용 데이터셋(303)으로부터 추출된 기설정된 복수의 특징 데이터(305)로부터 복수의 시각화 데이터(42, 44, 46, 48)의 적어도 하나의 변수가 선택되도록 머신러닝 기반 모델(40)을 학습할 수 있다.
예를 들어, 학습부(100)는 학습용 데이터셋(303)으로부터 추출된 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터(305)로부터 복수의 시각화 데이터(42, 44, 46, 48)를 구성하는 적어도 하나의 변수가 선택되도록 머신러닝 기반 모델(40)을 학습할 수 있다.
여기서, 적어도 하나의 변수는 적어도 하나의 특징쌍의 변수로부터 선택될 수 있다. 이러한, 복수의 시각화 데이터를 구성하는 적어도 하나의 변수는 가로축의 정보, 세로축의 정보, 범주 정보 및 범주 간의 비율 정보를 포함할 수 있다.
예를 들면, 학습부(100)는 산점도 그래프(42), 막대 그래프(44) 및 라인 그래프(46)의 경우, 추출된 기설정된 복수의 특징 데이터(305)로부터 그래프를 구성하는 가로축 및 세로축에 대한 X축 변수 및 Y축 변수가 선택되도록 머신러닝 기반 모델(40)을 학습할 수 있다. 학습부(100)는 파이 차트(48)의 경우, 파이 차트(48)를 구성하는 범주 정보 및 범주 간의 비율 정보가 선택되도록 머신러닝 기반 모델(40)을 학습할 수 있다.
잠시, 도 6a 내지 6e를 참조하여, 시각화 데이터를 표현하기 위해 사용되는 변수를 선택하도록 학습하는 방법을 설명하기로 한다.
도 6a를 참조하면, 상관 계수를 이용한 제 1 산점도 그래프(601)와 제 2 산점도 그래프(603)를 비교하면, 제 1 산점도 그래프(601)의 경우, 상관계수 -0.71을 갖고, 제 2 산점도 그래프(603)의 경우, 상관계수 0.74를 갖는다.
이와 같이, 제 1 산점도 그래프(601)가 제 2 산점도 그래프(603)보다 낮은 상관 계수를 갖고 있지만 제 2 산점도 그래프(603)보다 유의미한 시각화를 잘 표현하고 있다.
다시 말해, 산점도 그래프는 상관계수만으로 시각화의 적합성 유무의 판단 기준이 될 수 없다. 따라서, 산점도 그래프로의 시각화를 함에 있어서 산점도 그래프와 관련된 유의미한 특징 데이터에 대한 학습이 필요하다.
도 6b를 참조하면, 산점도 그래프(605)는 두개의 변수(X축 변수, Y축 변수) 간의 분포와 관계를 시각화할 때 사용되는 그래프이다. 여기서, 분포는 산점도 그래프(605) 상에서 복수의 데이터가 위치하는 지점을 통해 확인되고, 관계는 상관계수로 파악될 수 있다. 산점도 그래프(605)의 가로축(609)과 세로축(607) 각각에 대응하는 변수는 수치형 속성 정보를 갖는 변수로 설정된다.
산점도 그래프(605)로 시각화하여 표현하는데 있어서, 기설정된 복수의 특징 데이터 중 관계 및 분포를 확인할 수 있는 특징 데이터(611)가 유의미한 데이터가 된다.
기설정된 복수의 특징 데이터에서 산점도 그래프(605)와 관련된 유의미한 특징 데이터(611)에는 X축 변수 및 Y축 변수 간의 상관 계수, 수치형 속성 정보, X축 변수 및 Y축 변수 각각에 대한 왜곡도, 첨도 및 중앙치가 포함될 수 있다.
여기서, 상관 계수는 X축 변수 및 Y축 변수 간의 관계를 확인할 때 사용되고, 수치형 속성 정보는 입력 데이터의 속성을 확인할 때 사용되고, 왜곡도, 첨도 및 중앙치는 입력 데이터의 분포에 대한 정보를 확인할 때 사용된다.
학습부(100)는 학습용 데이터셋으로부터 추출된 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터 중 산점도 그래프(605)와 관련된 유의미한 특징 데이터(611)에 기초하여 적어도 하나의 특징쌍 중 수치형 변수를 갖는 가로축의 정보(X축 변수) 및 세로축의 정보(Y축 변수)를 포함하는 특징쌍이 선택되도록 머신러닝 기반 모델을 학습할 수 있다.
도 6c를 참조하면, 막대 그래프(613)는 그룹화된 데이터 간의 수량을 비교할 때 사용되는 그래프이다. 막대 그래프(613)를 통한 시각화를 위해, 막대 그래프(613)의 가로축(615)에 대응하는 변수는 범주형 속성 정보를 갖는 변수로 설정되고, 세로축(617)에 대응하는 변수는 수치형 속성 정보를 갖는 변수로 설정된다.
막대 그래프(613)로 시각화하여 표현하는데 있어서, 기설정된 복수의 특징 데이터 중 비교 시각화를 나타내는데 적절한 특징 데이터(619)가 유의미한 데이터가 된다.
기설정된 복수의 특징 데이터에서 막대 그래프(613)와 관련된 유의미한 특징 데이터(619)에는 열의 개수, 범주형 속성 정보, X축 변수 및 Y축 변수 각각에 대한 최대값, 왜곡도 및 첨도가 포함될 수 있다.
학습부(100)는 학습용 데이터셋으로부터 추출된 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터 중 막대 그래프(613)와 관련된 유의미한 특징 데이터(619)에 기초하여 적어도 하나의 특징쌍 중 범주형 변수를 갖는 가로축의 정보(X축 변수)와 수치형 변수를 갖는 세로축의 정보(Y축 변수)를 포함하는 특징쌍이 선택되도록 머신러닝 기반 모델을 학습할 수 있다.
도 6d를 참조하면, 라인 그래프(621)는 범주형 또는 시계열의 데이터에 대한 경향을 이해하고 향후 흐름을 예측하는데 사용되는 그래프이다. 경향/흐름 시각화를 위해, 라인 그래프(621)의 가로축(623)에 대응하는 변수는 시계열 속성 정보(예컨대, 연도, 날짜 시간과 같은 시계열 속성)를 갖는 변수로 설정되고, 세로축(625)에 대응하는 변수는 수치형 속성 정보를 갖는 변수로 설정된다.
라인 그래프(621)로 시각화하여 표현하는데 있어서, 기설정된 복수의 특징 데이터 중 경향/흐름 시각화를 나타내는데 적절한 특징 데이터(627)가 유의미한 데이터가 된다.
기설정된 복수의 특징 데이터에서 라인 그래프(621)와 관련된 유의미한 특징 데이터(627)에는 시계열형 속성 정보, 열의 개수, X축 변수 및 Y축 변수 각각에 대한 비율 및 범위가 포함될 수 있다. 여기서, 열의 개수는 가로축(623)의 변수로서 사용될 수 있고, 범위는 시계열의 폭에 대한 설정 정보로서 이용될 수 있다.
학습부(100)는 학습용 데이터셋으로부터 추출된 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터 중 라인 그래프(621)와 관련된 유의미한 특징 데이터(627)에 기초하여 적어도 하나의 특징쌍 중 시계열형 변수를 갖는 가로축의 정보(X축 변수)와 수치형 변수를 갖는 세로축의 정보(Y축 변수)를 포함하는 특징쌍이 선택되도록 머신러닝 기반 모델을 학습할 수 있다.
도 6e를 참조하면, 파이 차트(629)는 범주형 데이터가 차지하는 비율을 표현할 때 사용되는 그래프이다. 범주형 구성 비율을 시각화하기 위해, 파이 차트(629)에서 복수의 부채꼴 각각에 대응하는 변수는 범주형 속성 정보를 갖는 변수로 설정되고, 각 부채꼴의 중심각은 구성 비율에 대한 속성 정보(즉, 수치형 속성 정보)를 갖는 변수로 설정된다.
파이 차트(629)로 시각화하여 표현하는데 있어서, 기설정된 복수의 특징 데이터 중 범주형 구성 비율의 시각화를 나타내는데 적절한 특징 데이터(631)가 유의미한 데이터가 된다.
기설정된 복수의 특징 데이터에서 파이 차트(629)와 관련된 유의미한 특징 데이터(631)에는 범주형 속성 정보, X축 변수 및 Y축 변수 각각에 대한 비율, 컬럼의 개수, 열의 개수 및 수치형 속성 정보가 포함될 수 있다.
학습부(100)는 학습용 데이터셋으로부터 추출된 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터 중 파이 차트(629)와 관련된 유의미한 특징 데이터(631)에 기초하여 적어도 하나의 특징쌍 중 범주형 변수를 갖는 범주 정보와 수치형 변수를 갖는 범주 간의 비율 정보를 포함하는 특징쌍이 선택되도록 머신러닝 기반 모델을 학습할 수 있다.
다시 도 1 및 4a를 함께 참조하면, 시각화 데이터 생성부(102)는 복수의 시각화 데이터(42, 44, 46, 48)를 생성하여 학습용 데이터셋(303)을 시각화할 수 있다.
예를 들어, 시각화 데이터 생성부(102)는 적어도 하나의 특징쌍에 대한 기설정된 복수의 특징 데이터(305)가 머신러닝 기반 모델(40)에 입력되면, 해당 기설정된 복수의 특징 데이터(305)로 구성된 산점도 그래프(42), 막대 그래프(44), 라인 그래프(46) 및 파인 차트(48) 각각을 생성할 수 있다.
시각화 데이터 생성부(102)는 각 시각화 데이터의 생성에 필요한 변수(기설정된 복수의 특징 데이터로부터 선택된 적어도 하나의 X축 변수 및 Y 축 변수)에 기초하여 학습용 데이터셋(303)을 시각화하는 복수의 시각화 데이터(42, 44, 46, 48)를 생성할 수 있다.
시각화 데이터 출력부(130)는 학습용 데이터셋(303)을 시각화하는 복수의 시각화 데이터(42, 44, 46, 48)를 출력할 수 있다.
시각화 적합성 정보 입력부(104)는 학습용 데이터셋(303)을 시각화한 복수의 시각화 데이터(42, 44, 46, 48) 별로 시각화 적합성에 대한 정보를 평가용 단말로부터 입력받을 수 있다.
예를 들면, 시각화 적합성 정보 입력부(104)는 기설정된 복수의 특징 데이터(305)로 구성된 산점도 그래프(42)에 대한 시각화 적합성 여부를 입력받을 수 있다.
예를 들면, 시각화 적합성 정보 입력부(104)는 학습용 데이터셋(303) 중 적어도 하나의 기설정된 복수의 특징 데이터(305)를 시각화한 산점도 그래프(42)가 학습용 데이터셋(303)의 특징을 잘 표현한 경우, 산점도 그래프(42)에 대하여 시각화 적합에 대응하는 값이 입력될 수 있다.
만일, 시각화 적합성 정보 입력부(104)는 해당 산점도 그래프(42)가 학습용 데이터셋(303)의 특징을 잘 표현하지 못한 경우, 산점도 그래프(42)에 대하여 시각화 부적합에 대응하는 값이 입력될 수 있다.
예를 들어, 도 5를 참조하면, 시각화 데이터 생성부(102)는 학습용 데이터셋으로부터 추출된 복수의 특징쌍 중 임의로 선택된 2개의 특징쌍 각각에 대한 기설정된 복수의 특징 데이터를 이용하여 제 1 파이 차트(501) 및 제 2 파이차트(503)를 생성할 수 있다.
이후, 시각화 적합성 정보 입력부(104)는 제 1 파이 차트(501) 및 제 2 파이차트(503) 각각에 대한 시각화 적합성에 대한 정보를 입력받을 수 있다.
제 1 파이 차트(501)의 경우, 제 1 파이 차트(501)에 사용된 기설정된 복수의 특징 데이터가 범주형 속성 정보를 갖고 있어서 좌석의 등급별 빈도수를 보여주고 있다. 이러한 기설정된 복수의 특징 데이터는 파이 차트로서의 시각화 조건에 적합하다고 판단될 수 있다.
제 2 파이차트(503) 의 경우, 제 2 파이차트(503) 에 사용된 기설정된 복수의 특징 데이터가 연속성 속성 정보를 갖고 있기 때문에 파이 차트로서의 시각화 조건에 적합하지 않다고 판단될 수 있다.
이처럼, 데이터를 시각화하기에 적합한 시각화 데이터를 판단하기 위해서는 다양한 입력 데이터로부터 기설정된 복수의 특징 데이터의 속성을 파악하고, 유의미한 패턴을 학습해야 한다.
이를 위해, 학습부(100)는 복수의 시각화 데이터 별로 시각화 적합성에 대한 정보에 기초하여 학습용 데이터셋(303)을 표현하는 적어도 하나의 시각화 데이터가 선정되고, 선정된 적어도 하나의 시각화 데이터에 대한 적어도 하나의 변수가 선택되도록 머신러닝 기반 모델(40)을 학습할 수 있다.
이어서, 도 1 및 도 4b를 통해 시각화 데이터를 추천하기 위한 방법을 설명하기로 한다.
특징 추출부(110)는 실전용 데이터셋(401)으로부터 기설정된 복수의 특징 데이터(403)를 추출할 수 있다.
예를 들어, 특징 추출부(110)는 실전용 데이터셋(401)으로부터 27개의 변수를 포함하는 기설정된 복수의 특징 데이터(403)를 추출할 수 있다.
특징 추출부(110)는 실전용 데이터셋(401)의 복수의 특징 변수로부터 X축 변수 및 Y축 변수의 쌍으로 구성된 적어도 하나의 특징쌍 각각에 대한 기설정된 복수의 특징 데이터(403)를 추출할 수 있다.
시각화 데이터 선정부(120)는 실전용 데이터셋(401)으로부터 추출된 복수의 특징 데이터(403)를 머신러닝 기반 모델(405)에 입력하여 복수의 시각화 데이터 중 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터(419)를 선정할 수 있다.
여기서, 머신러닝 기반 모델(40)은 시각화 적합성에 대한 정보에 기초하여 적어도 하나의 시각화 데이터의 변수 선택 및 시각화 데이터의 추천을 위해 학습된 모델일 수 있다.
본 발명의 머신러닝 기반 모델(40)은 예를 들어, 디시젼 트리(Decision Tree) 모델일 수 있다.
디시젼 트리 모델은 과적합(Overfitting)의 문제가 발생할 수 있다. 여기서, 과적합의 문제는 학습용 데이터셋에 의해 디시젼 트리 모델이 학습되었기 때문에 해당 학습용 데이터셋을 표현하는 적어도 하나의 시각화 데이터로 분류하는 분류 성능이 높은 반면, 실전용 데이터셋에 대하여는 분류 성능이 떨어지는 것을 의미한다.
이를 방지하기 위해, 본 발명은 디시젼 트리 모델에 가지치기(pruning) 기법을 사용함으로써 과적합 문제를 해결한다.
시각화 데이터 선정부(120)는 실전용 데이터셋을 시각화하여 표현하는데 적합한 적어도 하나의 시각화 데이터(419)를 머신러닝 기반 모델(405)을 통해 자동으로 선정하고, 선정된 적어도 하나의 시각화 데이터(403)의 생성에 필요한 변수를 머신러닝 기반 모델(405)을 통해 자동으로 선정할 수 있다.
예를 들면, 시각화 데이터 선정부(120)는 실전용 데이터셋을 시각화하여 표현하는데 적합한 그래프로서 산점도 그래프가 선정된 경우, 실전용 데이터셋으로부터 추출된 복수의 특징 데이터로부터 산점도 그래프의 생성에 필요한 가로축의 정보(X축 변수) 및 세로축의 정보(Y축 변수)를 선정할 수 있다.
다른 예로, 시각화 데이터 선정부(120)는 실전용 데이터셋을 시각화하여 표현하는데 적합한 그래프로서 파이 차트가 선정된 경우, 실전용 데이터셋으로부터 추출된 복수의 특징 데이터로부터 파이 차트의 생성에 필요한 범주 정보 및 범주 간의 비율 정보를 선정할 수 있다.
시각화 데이터 출력부(130)는 선정된 적어도 하나의 시각화 데이터(419)를 출력할 수 있다.
시각화 데이터 출력부(130)는 실전용 데이터셋을 적어도 하나의 변수를 이용하여 선정된 적어도 하나의 시각화 데이터로 표현하여 출력할 수 있다.
예를 들면, 시각화 데이터 출력부(130)는 산점도 그래프의 생성을 위해 선정된 가로축의 정보(X축 변수) 및 세로축의 정보(Y축 변수)를 이용하여 실전용 데이터셋을 산점도 그래프로 표현하여 출력할 수 있다.
다른 예로, 시각화 데이터 출력부(130)는 파이 차트의 생성을 위해 선정된 범주 정보 및 범주 간의 비율 정보를 이용하여 실전용 데이터셋을 파이 차트로 표현하여 출력할 수 있다.
기존에는 사용자가 시각화 도구(본 발명의 시각화 데이터)에 대한 이해도가 없는 경우, 데이터의 시각화 목적에 맞는 시각화 도구를 적절히 사용하지 못하는 경우가 많아 사용자에 따라 시각화 도구의 저작 효과에 대한 편차가 크게 나타났다.
또한, 사용자가 시각화 도구의 저작 방법을 알고 있더라도 사용자가 직접적으로 데이터를 가공하고, 칼럼 또는 변수 등을 조정해가면서 해당 데이터를 표현한 시각화 도구의 좋고 나쁨을 일일이 따져 가며 구분해야 했다.
하지만, 본 발명은 사용자가 입력 데이터(실전용 데이터셋)에 대한 이해도 및 시각화 도구의 저작 방법에 대한 이해도와 상관없이, 사용자가 원하는 입력 데이터를 데이터 시각화 장치에 입력만 하여도 해당 입력 데이터를 잘 표현한 시각화 도구를 추천받을 수 있고, 이에 따라 시각화 표현에 대한 편차를 줄여주는 효과를 제공할 수 있다.
한편, 당업자라면, 학습부(100), 시각화 데이터 생성부(102), 시각화 적합성 정보 입력부(104), 특징 추출부(110), 시각화 데이터 선정부(120) 및 시각화 데이터 출력부(130) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 7은 본 발명의 일 실시예에 따른, 데이터를 시각화하는 방법을 도시한 흐름도이다. 도 7을 참조하면, 단계 S701에서 데이터 시각화 장치는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터를 머신러닝 기반 모델에 입력하여 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 학습용 데이터셋을 시각화하도록 머신러닝 기반 모델을 학습할 수 있다. 여기서, 머신러닝 기반 모델은 예를 들면, 디시젼 트리(Decision Tree) 모델일 수 있다.
단계 S703에서 데이터 시각화 장치는 실전용 데이터셋으로부터 기설정된 복수의 특징 데이터를 추출할 수 있다.
단계 S705에서 데이터 시각화 장치는 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 머신러닝 기반 모델에 입력하여 복수의 시각화 데이터 중 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정할 수 있다.
단계 S707에서 데이터 시각화 장치는 선정된 적어도 하나의 시각화 데이터를 출력할 수 있다.
도 7에는 도시되지 않았으나, 단계 S701에서 데이터 시각화 장치(10)는 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 복수의 시각화 데이터의 적어도 하나의 변수가 선택되도록 학습할 수 있다.
도 7에는 도시되지 않았으나, 단계 S701에서 데이터 시각화 장치는 복수의 시각화 데이터를 생성하여 학습용 데이터셋을 시각화하고, 생성된 복수의 시각화 데이터 별로 시각화 적합성에 대한 정보를 입력받을 수 있다.
도 7에는 도시되지 않았으나, 단계 S701에서 데이터 시각화 장치는 시각화 적합성에 대한 정보에 기초하여 학습용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하고, 선정된 적어도 하나의 시각화 데이터의 적어도 하나의 변수를 선택하도록 학습할 수 있다.
상술한 설명에서, 단계 S701 내지 S707은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 데이터 시각화 장치
100: 학습부
102: 시각화 데이터 생성부
104: 시각화 적합성 정보 입력부
110: 특징 추출부
120: 시각화 데이터 선정부
130: 시각화 데이터 출력부
100: 학습부
102: 시각화 데이터 생성부
104: 시각화 적합성 정보 입력부
110: 특징 추출부
120: 시각화 데이터 선정부
130: 시각화 데이터 출력부
Claims (15)
- 데이터를 시각화하는 장치에 있어서,
학습용 데이터셋으로부터 추출되며, 메타데이터 변수인 기설정된 복수의 특징(feature) 데이터를 머신러닝 기반 모델에 입력하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 상기 학습용 데이터셋을 시각화하도록 상기 머신러닝 기반 모델을 학습하는 학습부;
실전용 데이터셋으로부터 상기 기설정된 복수의 특징 데이터를 추출하는 특징 추출부;
상기 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 상기 머신러닝 기반 모델에 입력하여 상기 복수의 시각화 데이터 중 상기 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하는 시각화 데이터 선정부; 및
상기 선정된 적어도 하나의 시각화 데이터를 출력하는 시각화 데이터 출력부를 포함하고,
상기 학습부는 상기 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 상기 복수의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 학습하되,
상기 학습부는 상기 복수의 시각화 데이터별 시각화 적합성에 대한 정보에 기초하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터 중 적어도 하나의 시각화 데이터를 선정하고, 상기 선정된 적어도 하나의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 상기 머신러닝 기반 모델을 학습하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 학습부는 상기 복수의 시각화 데이터를 생성하여 상기 학습용 데이터셋을 시각화하는 시각화 데이터 생성부; 및
상기 생성된 복수의 시각화 데이터 별로 시각화 적합성에 대한 정보를 입력받는 시각화 적합성 정보 입력부를 포함하는 것인, 데이터 시각화 장치.
- 삭제
- 제 1 항에 있어서,
상기 머신러닝 기반 모델은 디시젼 트리(Decision Tree) 모델인 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 복수의 시각화 데이터는 산점도 그래프, 막대 그래프, 라인 그래프 및 파이 차트 중 하나 이상을 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 기설정된 복수의 특징 데이터는 X축 변수 및 Y축 변수 간의 상관 계수(Correlation), 수치형(Numerical) 속성 정보, 상기 X 축 변수 및 상기 Y 축 변수 각각에 대한 왜곡도(Skewness), 첨도(Kurtosis) 및 중앙치(Median) 중 하나 이상을 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 기설정된 복수의 특징 데이터는 열(row)의 개수, 범주형(Categorial) 속성 정보, X축 변수 및 Y축 변수 각각에 대한 최대값(Max), 왜곡도 및 첨도 중 하나 이상을 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 기설정된 복수의 특징 데이터는 시계열형(Series) 속성 정보, 열의 개수, X축 변수 및 Y축 변수 각각에 대한 비율(Ratio) 및 범위(Range) 중 하나 이상을 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 기설정된 복수의 특징 데이터는 범주형 속성 정보, X축 변수 및 Y축 변수 각각에 대한 비율, 컬럼(column)의 개수, 열의 개수 및 수치형 속성 정보 중 하나 이상을 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 적어도 하나의 변수는 가로축의 정보, 세로축의 정보 및 데이터 간의 비율 정보를 포함하는 것인, 데이터 시각화 장치.
- 제 1 항에 있어서,
상기 시각화 데이터 선정부는 상기 적어도 하나의 시각화 데이터의 적어도 하나의 변수를 선정하고,
상기 시각화 데이터 출력부는 상기 실전용 데이터셋을 상기 적어도 하나의 변수를 이용하여 상기 선정된 적어도 하나의 시각화 데이터로 표현하는 것인, 데이터 시각화 장치.
- 데이터 시각화 장치에 의해 수행되는 데이터를 시각화하는 방법에 있어서,
학습용 데이터셋으로부터 추출되며, 메타데이터 변수인 기설정된 복수의 특징(feature) 데이터를 머신러닝 기반 모델에 입력하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터를 출력하여 상기 학습용 데이터셋을 시각화하도록 상기 머신러닝 기반 모델을 학습하는 단계;
실전용 데이터셋으로부터 기설정된 복수의 특징 데이터를 추출하는 단계;
상기 실전용 데이터셋으로부터 추출된 복수의 특징 데이터를 상기 머신러닝 기반 모델에 입력하여 상기 복수의 시각화 데이터 중 상기 실전용 데이터셋을 표현하는 적어도 하나의 시각화 데이터를 선정하는 단계; 및
상기 선정된 적어도 하나의 시각화 데이터를 출력하는 단계를 포함하고,
상기 학습하는 단계는 상기 학습용 데이터셋으로부터 추출된 기설정된 복수의 특징 데이터로부터 상기 복수의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수가 선택되도록 학습하는 단계를 포함하되,
상기 학습하는 단계는 상기 복수의 시각화 데이터별 시각화 적합성에 대한 정보에 기초하여 상기 학습용 데이터셋을 표현하는 복수의 시각화 데이터 중 적어도 하나의 시각화 데이터를 선정하는 단계; 및
상기 선정된 적어도 하나의 시각화 데이터를 표현하기 위해 사용되는 적어도 하나의 변수를 선택하도록 상기 머신러닝 기반 모델을 학습하는 단계를 포함하는 것인, 데이터 시각화 방법.
- 제 12 항에 있어서,
상기 학습하는 단계는
상기 복수의 시각화 데이터를 생성하여 상기 학습용 데이터셋을 시각화하는 단계; 및
상기 생성된 복수의 시각화 데이터 별로 시각화 적합성에 대한 정보를 입력받는 단계를 포함하는 것인, 데이터 시각화 방법.
- 삭제
- 제 12 항에 있어서,
상기 머신러닝 기반 모델은 디시젼 트리(Decision Tree) 모델인 것인, 데이터 시각화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190051020A KR102039154B1 (ko) | 2019-04-30 | 2019-04-30 | 데이터를 시각화하는 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190051020A KR102039154B1 (ko) | 2019-04-30 | 2019-04-30 | 데이터를 시각화하는 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102039154B1 true KR102039154B1 (ko) | 2019-10-31 |
Family
ID=68420946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190051020A KR102039154B1 (ko) | 2019-04-30 | 2019-04-30 | 데이터를 시각화하는 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102039154B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102223345B1 (ko) * | 2019-12-30 | 2021-03-04 | 부산대학교 산학협력단 | 완료 시간 예측을 위한 데이터 변환 장치 및 방법 |
WO2023063485A1 (ko) * | 2021-10-14 | 2023-04-20 | 주식회사 솔리드웨어 | 데이터 시각화 방법 및 그 장치 |
KR20230085033A (ko) * | 2021-12-06 | 2023-06-13 | (주)미소정보기술 | 데이터 소비 및 활용 위한 데이터 큐레이션 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101798149B1 (ko) | 2017-04-17 | 2017-11-16 | 주식회사 뉴스젤리 | 데이터 테이블 중 일부 영역 선택을 통한 차트 시각화 방법 |
KR20180079995A (ko) * | 2017-01-03 | 2018-07-11 | 주식회사 데일리인텔리전스 | 머신러닝을 기반으로 데이터를 분석하는 프로그램을 생성하기 위한 방법 |
KR101919076B1 (ko) * | 2017-12-20 | 2018-11-19 | (주)지오시스템리서치 | 시계열 데이터 예측 시스템 |
KR101925357B1 (ko) * | 2017-12-12 | 2019-02-26 | (주)위세아이텍 | 장비 건강상태 및 예측정비 요구들을 시각화하는 시스템 및 방법 |
JP2019045484A (ja) * | 2017-08-31 | 2019-03-22 | Ntn株式会社 | 状態監視方法および状態監視装置 |
-
2019
- 2019-04-30 KR KR1020190051020A patent/KR102039154B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180079995A (ko) * | 2017-01-03 | 2018-07-11 | 주식회사 데일리인텔리전스 | 머신러닝을 기반으로 데이터를 분석하는 프로그램을 생성하기 위한 방법 |
KR101798149B1 (ko) | 2017-04-17 | 2017-11-16 | 주식회사 뉴스젤리 | 데이터 테이블 중 일부 영역 선택을 통한 차트 시각화 방법 |
JP2019045484A (ja) * | 2017-08-31 | 2019-03-22 | Ntn株式会社 | 状態監視方法および状態監視装置 |
KR101925357B1 (ko) * | 2017-12-12 | 2019-02-26 | (주)위세아이텍 | 장비 건강상태 및 예측정비 요구들을 시각화하는 시스템 및 방법 |
KR101919076B1 (ko) * | 2017-12-20 | 2018-11-19 | (주)지오시스템리서치 | 시계열 데이터 예측 시스템 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102223345B1 (ko) * | 2019-12-30 | 2021-03-04 | 부산대학교 산학협력단 | 완료 시간 예측을 위한 데이터 변환 장치 및 방법 |
WO2023063485A1 (ko) * | 2021-10-14 | 2023-04-20 | 주식회사 솔리드웨어 | 데이터 시각화 방법 및 그 장치 |
KR20230085033A (ko) * | 2021-12-06 | 2023-06-13 | (주)미소정보기술 | 데이터 소비 및 활용 위한 데이터 큐레이션 |
KR102585817B1 (ko) | 2021-12-06 | 2023-10-06 | (주)미소정보기술 | 데이터 소비 및 활용 위한 데이터 큐레이션 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102039154B1 (ko) | 데이터를 시각화하는 장치 및 방법 | |
Chen et al. | Peakvizor: Visual analytics of peaks in video clickstreams from massive open online courses | |
Lobet et al. | Using a structural root system model to evaluate and improve the accuracy of root image analysis pipelines | |
CN108846066B (zh) | 一种可视化的数据分析方法及系统 | |
US11380087B2 (en) | Data analyzing device | |
JP2014130408A (ja) | グラフ作成プログラム、情報処理装置、およびグラフ作成方法 | |
KR20140067065A (ko) | 차트 추천 기법 | |
Cheng et al. | Visually exploring missing values in multivariable data using a graphical user interface | |
CN111104292A (zh) | 用于交互式仪表板的叙述系统及相关方法 | |
Torsney‐Weir et al. | Sliceplorer: 1D slices for multi‐dimensional continuous functions | |
JP6330665B2 (ja) | 可視化装置、可視化方法および可視化プログラム | |
CN117453805B (zh) | 一种不确定性数据的可视化分析方法 | |
US9792706B2 (en) | Graph processing system, graph processing method, and non-transitory computer readable medium | |
JPWO2021210172A5 (ja) | データ処理装置、システム、データ処理方法、およびプログラム | |
Lipman et al. | Guide to the NIST PMI CAD models and CAD system PMI modeling capability verification testing results | |
Derzon et al. | Forest plots in Excel: Moving beyond a clump of trees to a forest of visual information | |
JP2020149498A (ja) | データ処理装置、表示制御システム、データ処理方法およびプログラム | |
CN115169284A (zh) | 基于视觉化分析的凭证信息遗漏填补方法 | |
US11151763B2 (en) | Information presentation device, information presentation method, and storage medium | |
US11768852B2 (en) | System and method for data analysis and presentation of data | |
Bolte et al. | Measures in visualization space | |
JP6996360B2 (ja) | レポート作成プログラム、およびレポート作成方法 | |
CN114586025A (zh) | 分析装置、控制方法和程序 | |
CN110389734A (zh) | 显示控制装置、存储介质以及显示控制方法 | |
McAuley et al. | ExploroBOT: Rapid Exploration with Chart Automation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |