KR20170087434A - 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템 - Google Patents

테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템 Download PDF

Info

Publication number
KR20170087434A
KR20170087434A KR1020170087059A KR20170087059A KR20170087434A KR 20170087434 A KR20170087434 A KR 20170087434A KR 1020170087059 A KR1020170087059 A KR 1020170087059A KR 20170087059 A KR20170087059 A KR 20170087059A KR 20170087434 A KR20170087434 A KR 20170087434A
Authority
KR
South Korea
Prior art keywords
data
statistical analysis
unit
function
type
Prior art date
Application number
KR1020170087059A
Other languages
English (en)
Inventor
최현진
홍세환
곽기영
정현철
서태훈
Original Assignee
주식회사 인브레인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인브레인 filed Critical 주식회사 인브레인
Priority to KR1020170087059A priority Critical patent/KR20170087434A/ko
Publication of KR20170087434A publication Critical patent/KR20170087434A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 입력되는 테이블에 대한 탐색적 자료분석을 통해 추출한 컬럼별 특성 정보와 테이블에 대한 메타 데이터 정보를 이용하여 각 분석 함수별로 학습을 수행하고, 해당 테이블에 대한 각 통계 분석 함수별 점수 산정을 통해 최대값 점수를 갖는 함수를 통계 분석 함수로 추천하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템에 관한 것이다.
본 발명에 의하면, 통계 분석 전문가가 테이블에 대해 적합한 통계 분석 함수를 매칭하고, 해당 테이블의 특성 및 구조와 분석 함수에 대한 학습을 수행함으로써, 입력되는 테이블에 대한 컬럼별 특성 추출을 통해 해당 테이블의 분석에 적합한 통계 분석 함수를 자동으로 추천할 수 있다.
또한, 클라이언트와 서버 시스템으로 구성하여 서버에 학습 결과를 계속하여 누적시키면, 본 시스템이 어느 클라이언트 장치에 설치되어 동작하더라도 서버에 저장된 학습 결과를 토대로 입력되는 테이블을 분석하기에 가장 적합한 통계 분석 함수를 자동으로 추천할 수가 있다.

Description

테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템{Statistical analysis function recommendation system based on table structure and data characteristics}
본 발명은 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템에 관한 것으로, 더욱 상세하게는 테이블의 컬럼별 특성 정보를 추출하고 특성 정보와 통계 분석 함수를 학습시킴으로써, 테이블 구조와 특성에 맞는 통계 분석 함수를 자동으로 추천할 수 있는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템에 관한 것이다.
통계분석은 연구 목적에 의해 수집된 데이터를 분석하여 결론이나 정보를 얻는 일련의 과정이다. 연구 목적이 설정되면 그에 맞는 통계적 가설(statistical hypothesis)이나 모형(model)을 설정하고, 관련 데이터를 수집하여 정리하고 분석하여 가설 혹은 모형의 유의성(significance)을 검정한다. 이를 확증적 데이터 분석이라 한다. 대부분의 고전적 데이터 분석 방법은 이에 속한다.
데이터를 수집하기 전에 데이터 분석 목적을 설정한다. 데이터를 통하여 어떤 정보를 얻을 것인지 명확하게 설정해야 한다. 이것으로 적절한 표본 추출방법, 변수 설정, 함수 관계 설정, 데이터 수집 방법을 선택이 가능하다.
분석의 대상이 되는 데이터는 행렬의 형태로 입력되는데 열은 변수(variable), 행은 개체(subject)로 구성되어 있다. 행의 각 원소(셀)을 관측치(observation)라 한다. 변수는 관심의 대상이 되는 개체의 특성(항목)을 의미한다. 변수의 종류에 따라 통계 분석 방법이 결정된다. 다음은 변수의 종류를 정리한 것이다.
이산형 변수(discrete variable)는 측정 결과를 셀 수 있는 경우이다. 연속형 변수(continuous variable)는 측정 결과가 무한이 많은 변수이다.
이산형 변수에는 명목 변수(nominal variable)와 순위 변수(ordinal variable)가 있다. 명목 변수는 대상에 대해 측정하면 대상이 일정한 범주에 속하게 되어 대상에 이름이 붙여지지만 각 범주 간에 순위는 없는 항목을 말한다. 예를 들어, 성별, 인종, 혈액형, 질병여부(질병 있음, 질병 없음), 검사결과여부(양성, 음성) 등이 있다.
순위 변수는 대상에 대해 측정하면 대상이 일정한 범주에 속하게 하여 대상에 이름이 붙여지며 각 범주간에 순위가 있는 항목을 말한다. 예를 들어, 성적, 학력(중졸, 고졸, 대졸), 경제적 수준(상, 중, 하) 등이 있다.
연속형 변수는 대상들에 대해 측정하면 대상들이 서로 연속된 값을 갖게 하는 경우에 대한 변수를 말한다. 예를 들어, 온도, 키, 몸무게, 나이, 시간 등이 있다.
또한, 종속변수의 수와 유형, 독립변수의 수와 유형에 따라 적합한 통계 분석 방법을 선택해야 한다.
종속변수가 1개 인 경우는 종속변수의 유형 그리고 독립변수의 수와 유형에 따라 적합한 통계분석 방법이 다를 수 있다. 종속변수가 2개 인 경우도 독립변수의 수와 유형에 따라 적합한 통계분석 방법이 다르다.
예를 들면, 종속변수가 1개 이고, 종속변수의 유형이 범주형, 독립변수가 1개 라면, 적합한 통계분석 기법은 카이제곱 검정(Chi-squared test)이나, 종속변수가 1개 이고, 종속변수의 유형이 등간형, 독립변수가 1개 라면, 적합한 통계분석 기법은 일원배치 분산분석(One-way ANOVA)이다.
종속변수가 2개 이상이고, 종속변수의 유형이 등간형, 독립변수가 1개이면 적합한 통계분석 기법은 일원다변량분산분석(One-way MANOVA)이나, 종속변수가 2개 이상이고, 종속변수의 유형이 등간형, 독립변수가 2개 이상이면 적합한 통계분석 기법은 다변량 다중 선형 회귀분석(Multivariate multiple linear regression)이다.
이와 같이 분석의 대상이 되는 데이터, 즉 테이블의 컬럼별 속성의 유형과 특성에 따라 분석에 적합한 통계분석 함수는 서로 다르다. 상기에서는 일부 통계 분석 함수에 대해서만 예를 들어 설명하였으나, 종속변수의 개수와 독립변수의 개수, 종속변수와 독립변수의 유형 그리고 컬럼별 속성 정보에 따라 그에 적합한 통계 분석 함수는 서로 다를 수 밖에 없다.
데이터에 대한 통계 분석을 위해서 작업자가 적절한 분석 함수를 선택해야 하는데, 직접 육안으로 확인 후 수동으로 선택을 하거나, 통계 분석 전용 소프트웨어를 사용해야 한다. 이러한 통계 분석 전용 소프트웨어는 사용자가 분석하고자 하는 변수, 적용하고자 하는 통계 알고리즘을 명확하게 알고 있다는 전제 하에서는 적절한 결과를 도출할 수 있지만, 통계적인 지식이 상대적으로 부족한 사용자들이 사용하기에는 다소 어려움이 있는 게 현실이다.
따라서 테이블의 구조와 특성을 추출 후 해당 테이블의 분석에 적합한 통계 분석 함수를 자동으로 판단하여 작업자에게 추천할 수 있는 시스템이 절실히 필요하다.
공개특허 제10-2004-0077398호(통계적 학습 이론을 이용한 동적 추천 시스템)
본 발명은 상기와 같은 문제점을 개선하기 위하여 발명된 것으로, 입력되는 테이블에 대한 탐색적 자료분석을 통해 추출한 컬럼별 특성 정보와 테이블에 대한 메타 데이터 정보를 이용하여 각 분석 함수별로 학습을 수행하고, 해당 테이블에 대한 각 통계 분석 함수별 점수 산정을 통해 최대값 점수를 갖는 함수를 통계 분석 함수로 추천하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템을 제공하기 위한 것이다.
상기와 같은 목적을 달성하기 위하여, 본 발명은 테이블 데이터와 해당 테이블의 분석을 위한 통계 분석 함수를 입력 받는 자료입력부; 상기 자료입력부에서 입력 받은 테이블의 컬럼별 속성 정보를 추출하여, 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값을 분석하는 탐색적 자료분석부; 상기 탐색적 자료분석부의 분석 정보를 이용하여 테이블 컬럼별 데이터 유형이 연속형, 이산형, 순위형, 명목형 중 어디에 해당하는지 판단하는 데이터 유형 판단부; 상기 탐색적 자료분석부의 분석 정보를 이용하여 테이블 컬럼별 독립변수/종속변수 적합도를 산정하는 독립/종속변수 적합도 측정부; 상기 탐색적 자료분석부에서 분석한 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값과 상기 데이터 유형 판단부에서 판단한 컬럼별 데이터 유형 및 상기 독립/종속변수 적합도 측정부에서 산정한 컬럼별 독립변수/종속변수 적합도와 상기 자료입력부에서 입력 받은 해당 테이블의 분석을 위한 통계 분석 함수를 지도학습(supervised learning) 알고리즘을 이용하여 학습하여 각 함수별 테이블 특성을 학습하는 학습부; 상기 학습부의 학습 결과 얻어진 각 통계 분석 함수별로 해당 함수의 선택에 영향을 미치는 가중치를 저장하는 학습 결과 저장부; 및 상기 자료입력부에서 입력 받은 테이블 테이터에 대해 상기 탐색적 자료분석부를 통해 분석하고, 상기 데이터 유형 판단부를 통해 판단하며, 상기 독립/종속변수 적합도 측정부를 통해 산정한 특징들과 상기 학습 결과 저장부의 각 통계 분석 함수별 가중치를 적용하여 각 통계 분석 함수별 점수 산정을 통해 최대값 점수를 갖는 함수를 통계 분석 함수로 추천하는 통계 분석 함수 추천부를 포함하는 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템을 제공한다.
또한, 상기 자료입력부에서 입력 받은 테이블의 유형 정보를 추출하는 메타 데이터 추출부를 더 포함하고, 상기 학습부는 메타 데이터 추출부에서 추출한 테이블의 유형 정보를 추가하여 학습하는 것을 특징으로 한다.
그리고, 상기 학습부의 학습 결과, 각 통계 분석 함수의 결정에 영향을 미치는 가중치가 결정되고, 상기 가중치는 테이블의 컬럼별 특성으로 추출된 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값, 연속형, 이산형, 순위형, 명목형, 독립변수/종속변수 적합도 및 테이블의 유형 정보 각각에 부여되며, 상기 각각에 부여되는 가중치는 각 통계 분석 함수마다 다른 것을 특징으로 한다.
또한, 상기 데이터 유형 판단부는 테이블 컬럼별로 복수 개의 데이터 유형에 해당하는 것으로 판단할 수 있으며, 상기 학습부는 해당 테이블의 컬럼별로 학습하고, 특정 컬럼이 연속형, 이산형, 순위형, 명목형 중 복수 개의 데이터 유형에 해당하는 경우는 해당하는 모든 데이터 유형에 대해서 학습하여 가중치를 부여하되, 해당하는 복수 개의 데이터 유형 중 해당 테이블의 다른 컬럼과 데이터 유형이 일치하는 것이 있으면, 일치하는 데이터 유형(a)의 가중치를 일정 비율 높게 설정하고, 일치하지 않는 데이터 유형(b)의 가중치는 일정 비율 낮게 설정하는 것을 특징으로 한다.
또한, 일치하는 데이터 유형(a) 전체 가중치 증가분은 일치하지 않는 데이터 유형(b) 전체 가중치 감소분과 동일한 것을 특징으로 한다.
나아가, 상기 통계 분석 함수 추천부는, 로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정하는 함수별 점수 산출부; 및 상기 함수별 점수 산출부에서 산정된 통계 분석 함수별 점수를 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환 후 가장 큰 확률값을 갖는 통계 분석 함수를 추천하는 함수별 확률값 변환부를 구비하는 것을 특징으로 한다.
상기와 같은 구성의 본 발명에 따르면, 다음과 같은 효과를 도모할 수 있다.
우선, 통계 분석 전문가가 테이블에 대해 적합한 통계 분석 함수를 매칭하고, 해당 테이블의 특성 및 구조와 분석 함수에 대한 학습을 수행함으로써, 입력되는 테이블에 대한 컬럼별 특성 추출을 통해 해당 테이블의 분석에 적합한 통계 분석 함수를 자동으로 추천할 수 있다.
또한, 클라이언트와 서버 시스템으로 구성하여 서버에 학습 결과를 계속하여 누적시키면, 본 시스템이 어느 클라이언트 장치에 설치되어 동작하더라도 서버에 저장된 학습 결과를 토대로 입력되는 테이블을 분석하기에 가장 적합한 통계 분석 함수를 자동으로 추천할 수가 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템의 블록도이다.
도 2는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템을 구성하는 통계 분석 함수 추천부의 블록도이다.
도 3은 본 발명의 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템이 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 통계 분석 함수를 추천하는 예시도이다.
도 4는 테이블에서 추출된 특성값들에 의해 특정 통계 분석 함수가 사용될 확률을 계산하는 예시도이다.
도 5는 본 발명의 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템이 로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정하고, 이를 다시 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환하는 예시도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시 예를 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 실시 예로 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이다.
본 명세서에서 본 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.
그리고 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
따라서, 몇몇 실시 예에서, 잘 알려진 구성 요소, 잘 알려진 동작 및 잘 알려진 기술들은 본 발명이 모호하게 해석되는 것을 피하기 위하여 구체적으로 설명되지 않는다.
또한, 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하고, 본 명세서에서 사용된(언급된) 용어들은 실시 예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함하며, '포함(또는, 구비)한다'로 언급된 구성 요소 및 동작은 하나 이상의 다른 구성요소 및 동작의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.
또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 정의되어 있지 않은 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참고로 본 발명의 바람직한 실시 예에 대하여 설명한다.
도 1 및 도 2를 참고하면, 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템(100)은 자료입력부(110), 탐색적 자료분석부(120), 데이터 유형 판단부(130), 독립/종속변수 적합도 측정부(140), 메타 데이터 추출부(150), 학습부(160), 학습 결과 저장부(170), 가중치 DB(171) 및 통계 분석 함수 추천부(180)를 포함하며, 통계 분석 함수 추천부(180)는 함수별 점수 산출부(181)와 함수별 확률값 변환부(182)를 구비한다.
자료입력부(110)는 테이블 데이터와 해당 테이블의 분석을 위한 통계 분석 함수를 입력 받는다. 테이블은 2차원 형태로 데이터를 저장할 수 있는 구조를 가지며, 구조적으로는 속성으로 이루어지며, 내용적으로는 Row(Record)로 이루어진다.
탐색적 자료분석부(120)는 상기 자료입력부(110)에서 입력 받은 테이블의 컬럼별 속성 정보를 추출하여, 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값을 분석한다.
대표값은 자료전체를 대표하는 값으로서 자료의 분포에 대한 중앙집중의 경향을 나타낸다. 여기에는 평균값(Mean), 중앙값(Median), 최빈값(Mode) 등이 포함된다.
산포도는 대표값을 중심으로 자료들이 흩어져 있는 정도를 나타낸다. 이는 하나의 수치로서 표현되며 수치가 작을수록 자료들이 대표값에 밀집되어 있고, 클수록 자료들이 대표값을 중심으로 멀리 흩어져 있다. 산포도를 나타내는 척도에는 분산(Variance), 표준편차(Standard deviation), 범위(range) 등이 존재한다.
왜도는 분포의 비대칭도를 나타내고, 첨도는 분포의 봉우리가 얼마나 뾰족한가를 나타낸다.
정규분포는 어떠한 사물이든 집단이든 규격을 중심으로 해서 PLUS 와 MINUS 값으로 분포하면서 생성하게 마련이다. 인위적으로 만드는 것도 위와 같은 비율로 분포를 한다는 것이고 그냥 내버려두는 자연 상태에서도 상기와 같은 비율로 분포하고 있다는 것이다.
결측값은 존재하지 않는 값의 일종으로, 변수 등이며 값은 존재하는 것이지만, 그 시점에서 아직 정해져 있지 않은 값을 표시한다.
탐색적 자료분석(Exploratory data analysis)은 미국의 저명한 통계학자 John Tukey가 창안한 자료 분석 방법으로, 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법이다.
결국, 탐색적 자료분석부(120)는 자료입력부(110)에서 입력 받은 테이블의 컬럼별 속성 정보를 추출하여 분석함으로써, 숫자/문자 여부, 대표값이 얼마인지, 산포도 정도, 왜도/첨도 유무, 정규분포, 결측값을 분석하는 것이다.
데이터 유형 판단부(130)는 상기 탐색적 자료분석부(120)의 분석 정보를 이용하여 테이블 컬럼별 데이터 유형이 연속형, 이산형, 순위형, 명목형 중 어디에 해당하는지 판단한다. 연속형, 이산형, 순위형, 명목형의 의미에 대해서는 상기에서 자세히 설명하였으므로 생략한다.
독립/종속변수 접합도 측정부(140)는 상기 탐색적 자료분석부(120)의 분석 정보를 이용하여 테이블 컬럼별 독립변수/종속변수 적합도를 산정한다. 독립 변수는 입력값이나 원인을 나타내며, 종속 변수는 결과물이나 효과를 나타낸다. 종속변수는 독립변수의 조작 또는 통제 여하에 따라 영향을 받게 된다.
학습부(160)는 상기 탐색적 자료분석부(120)에서 분석한 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값과 상기 데이터 유형 판단부(130)에서 판단한 컬럼별 데이터 유형 및 상기 독립/종속변수 적합도 측정부(140)에서 산정한 컬럼별 독립변수/종속변수 적합도와 상기 자료입력부(110)에서 입력 받은 해당 테이블의 분석을 위한 통계 분석 함수를 지도학습(supervised learning) 알고리즘을 이용하여 학습하여 각 함수별 테이블 특성을 학습한다.
예를 들어, 통계 분석 함수는 집단 비교 분석, 교차 비교 분석, 분산 분석, 상관 관계 분석, 회귀 분석 등의 여러 가지가 있을 수 있다.
도 3을 참고하면, 탐색적 자료분석부(120)가 추출한 테이블의 컬럼별 특성인 결측값 유무, 왜도/첨도 유무, 정규 분포 등의 훈련용 데이터(Training Data)와 각 통계 분석 함수를 지도학습 알고리즘을 이용하여 각 함수별 테이블 특성을 학습한다. 레이블(label)이 붙은 훈련용 데이터로 지도학습 알고리즘을 훈련시키는데, 얻고자 하는 답으로 구성된 데이터로 알고리즘을 훈련시키는 것이다. 레이블은 통계 분석 함수가 될 것이다.
도 4를 참고하면, 테이블로부터 추출한 결측값 유무(a1), 왜도/첨도 유무(a2) 등이 함수의 특성을 결정하는 변수라고 하면, 학습이란 각 통계 분석 함수에 영향력을 미치는 β1, β2 등의 가중치를 선정하는 작업을 하는 것이다.
학습 결과 저장부(170)는 상기 학습부(160)의 학습 결과 얻어진 각 통계 분석 함수별로 해당 함수의 선택에 영향을 미치는 가중치를 가중치 DB(171)에 저장한다.
통계 분석 함수 추천부(180)는 상기 자료입력부(110)에서 입력 받은 테이블 테이터에 대해 상기 탐색적 자료분석부(120)를 통해 분석하고, 상기 데이터 유형 판단부(130)를 통해 판단하며, 상기 독립/종속변수 적합도 측정부(140)를 통해 산정한 특징들과 상기 학습 결과 저장부(170)의 각 통계 분석 함수별 가중치를 적용하여 각 통계 분석 함수별 점수 산정을 통해 최대값 점수를 갖는 함수를 통계 분석 함수로 추천한다.
메타 데이터 추출부(150)는 상기 자료입력부(110)에서 입력 받은 테이블의 유형 정보를 추출한다. 테이블의 유형 정보는 해당 테이블이 고객에 대한 정보를 가지고 있는지, 매출에 대한 자료인지와 같은 테이블의 특징을 나타내는 것이다. 이러한 테이블의 특징에 따라 테이블의 분석 함수가 달라질 수 있기 때문이다.
학습부(160)는 메타 데이터 추출부(150)에서 추출한 테이블의 유형 정보를 추가하여 학습한다.
학습부(160)의 학습 결과, 각 통계 분석 함수의 결정에 영향을 미치는 가중치가 결정되고, 상기 가중치는 테이블의 컬럼별 특성으로 추출된 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값, 연속형, 이산형, 순위형, 명목형, 독립변수/종속변수 적합도 및 테이블의 유형 정보 각각에 부여되며, 상기 각각에 부여되는 가중치는 각 통계 분석 함수마다 다르게 된다.
데이터 유형 판단부(130)는 테이블 컬럼별로 복수 개의 데이터 유형에 해당하는 것으로 판단할 수 있다. 즉, 컬럼별로 두 개 이상의 데이터 유형을 가질 수 있다. 예를 들어, 테이블의 특정 컬럼이 연속형이면서 순위형에 해당할 수 있다.
학습부(160)는 해당 테이블의 컬럼별로 학습하고, 특정 컬럼이 연속형, 이산형, 순위형, 명목형 중 복수 개의 데이터 유형에 해당하는 경우는 해당하는 모든 데이터 유형에 대해서 학습하여 가중치를 부여한다.
학습부(160)는 해당하는 복수 개의 데이터 유형 중 해당 테이블의 다른 컬럼과 데이터 유형이 일치하는 것이 있으면, 일치하는 데이터 유형(a)의 가중치를 일정 비율 높게 설정하고, 일치하지 않는 데이터 유형(b)의 가중치는 일정 비율 낮게 설정한다.
예를 들어, 테이블의 특정 컬럼이 연속형, 순위형에 해당한다고 하자. 연속형에 해당하는 다른 컬럼이 있으면 일치하는 데이터 유형(a)인 연속형의 가중치를 일정 비율 높게 설정한다. 순위형에 해당하는 다른 컬럼이 없으면 일치하지 않는 데이터 유형(b)인 순위형의 가중치는 일정 비율 낮게 설정하는 것이다. 여기서 일정 비율은 관리자에 의해 설정이 가능하며, 학습에 의해서 결정될 수도 있다.
그리고, 일치하는 데이터 유형(a) 전체 가중치 증가분은 일치하지 않는 데이터 유형(b) 전체 가중치 감소분과 동일하다.
예를 들어, 테이블 특정 컬럼의 데이터 유형이 세 가지에 해당한다고 하자. 이 중에서 해당 테이블의 다른 컬럼과 데이터 유형이 일치하는 것이 두 가지 있다면, 일치하는 두 가지 유형의 전체 가중치 증가분은 일치하지 않는 다른 한가지 가중치 감소분과 동일해야 한다.
도 2를 참고하면, 통계 분석 함수 추천부(180)는 함수별 점수 산출부(181) 및 함수별 확률값 변환부(182)로 구성된다.
함수별 점수 산출부(181)는 로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정한다.
함수별 확률값 변환부(182)는 상기 함수별 점수 산출부(181)에서 산정된 통계 분석 함수별 점수를 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환 후 가장 큰 확률값을 갖는 통계 분석 함수를 추천한다.
도 3을 참고하면, 학습(training)을 거친 후 적용(testing)할 때 테이블의 컬럼별 특성(feature)을 추출한 다음 각 통계 분석 함수별 점수(score)를 산출하는 과정을 볼 수 있다. Glm 2.0, lm 1.0, nnet 0.04 와 같이 각 통계 분석 함수별 점수가 다르다. 함수별 점수 산출부(181)는 로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정한 것이다.
각 함수별 점수를 산정하고, 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환 후 가장 큰 확률값을 갖는 통계 분석 함수를 추천하는 것이다.
도 5를 참고하면, 함수별 확률값 변환부(182)는 함수별 점수 산출부(181)에서 산정된 통계 분석 함수별 점수를 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환 후 가장 큰 확률값을 갖는 통계 분석 함수를 추천하는 것을 보여준다.
Softmax Regression(multinomial logistic regression)은 “0” 또는 “1”만 다루는 것이 아닌 multiple classes를 다루기 위해 logistic regression을 일반화한 기법이다.
도 5를 참고하면, 로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정하고, 이를 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 확률값으로 변환한다. glm 0.7, lm 0.2, nnet 0.01… 등과 같이 확률값으로 변환되며 모든 값을 합하면 1 이 된다. 결국, 해당 테이블의 분석을 위한 통계 분석 함수로는 glm 이 추천될 것이다.
이상과 같이 본 발명은 통계 분석 전문가가 테이블에 대해 적합한 통계 분석 함수를 매칭하고, 해당 테이블의 특성 및 구조와 분석 함수에 대한 학습을 수행함으로써, 입력되는 테이블에 대한 컬럼별 특성 추출을 통해 해당 테이블의 분석에 적합한 통계 분석 함수를 자동으로 추천할 수 있는 특징을 가지고 있다.
본 발명은 상기한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 되는 것임은 자명하다.
100...통계 분석 함수 추천 시스템
110...자료입력부
120...탐색적 자료분석부
130...데이터 유형 판단부
140...독립/종속변수 적합도 측정부
150...메타 데이터 추출부
160...학습부
170...학습 결과 저장부
171...가중치 DB
180...통계 분석 함수 추천부
181...함수별 점수 산출부
182...함수별 확률값 변환부

Claims (6)

  1. 테이블 데이터와 해당 테이블의 분석을 위한 통계 분석 함수를 입력 받는 자료입력부;
    상기 자료입력부에서 입력 받은 테이블의 컬럼별 속성 정보를 추출하여, 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값을 분석하는 탐색적 자료분석부;
    상기 탐색적 자료분석부의 분석 정보를 이용하여 테이블 컬럼별 데이터 유형이 연속형, 이산형, 순위형, 명목형 중 어디에 해당하는지 판단하는 데이터 유형 판단부;
    상기 탐색적 자료분석부의 분석 정보를 이용하여 테이블 컬럼별 독립변수/종속변수 적합도를 산정하는 독립/종속변수 적합도 측정부;
    상기 탐색적 자료분석부에서 분석한 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값과 상기 데이터 유형 판단부에서 판단한 컬럼별 데이터 유형 및 상기 독립/종속변수 적합도 측정부에서 산정한 컬럼별 독립변수/종속변수 적합도와 상기 자료입력부에서 입력 받은 해당 테이블의 분석을 위한 통계 분석 함수를 지도학습(supervised learning) 알고리즘을 이용하여 학습하여 각 함수별 테이블 특성을 학습하는 학습부;
    상기 학습부의 학습 결과 얻어진 각 통계 분석 함수별로 해당 함수의 선택에 영향을 미치는 가중치를 저장하는 학습 결과 저장부; 및
    상기 자료입력부에서 입력 받은 테이블 테이터에 대해 상기 탐색적 자료분석부를 통해 분석하고, 상기 데이터 유형 판단부를 통해 판단하며, 상기 독립/종속변수 적합도 측정부를 통해 산정한 특징들과 상기 학습 결과 저장부의 각 통계 분석 함수별 가중치를 적용하여 각 통계 분석 함수별 점수 산정을 통해 최대값 점수를 갖는 함수를 통계 분석 함수로 추천하는 통계 분석 함수 추천부를 포함하는 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템.
  2. 청구항 1에 있어서,
    상기 자료입력부에서 입력 받은 테이블의 유형 정보를 추출하는 메타 데이터 추출부를 더 포함하고,
    상기 학습부는 메타 데이터 추출부에서 추출한 테이블의 유형 정보를 추가하여 학습하는 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템.
  3. 청구항 2에 있어서,
    상기 학습부의 학습 결과, 각 통계 분석 함수의 결정에 영향을 미치는 가중치가 결정되고, 상기 가중치는 테이블의 컬럼별 특성으로 추출된 숫자/문자 여부, 대표값, 산포도, 왜도/첨도, 정규분포, 결측값, 연속형, 이산형, 순위형, 명목형, 독립변수/종속변수 적합도 및 테이블의 유형 정보 각각에 부여되며, 상기 각각에 부여되는 가중치는 각 통계 분석 함수마다 다른 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템.
  4. 청구항 3에 있어서,
    상기 데이터 유형 판단부는 테이블 컬럼별로 복수 개의 데이터 유형에 해당하는 것으로 판단할 수 있으며,
    상기 학습부는 해당 테이블의 컬럼별로 학습하고, 특정 컬럼이 연속형, 이산형, 순위형, 명목형 중 복수 개의 데이터 유형에 해당하는 경우는 해당하는 모든 데이터 유형에 대해서 학습하여 가중치를 부여하되,
    해당하는 복수 개의 데이터 유형 중 해당 테이블의 다른 컬럼과 데이터 유형이 일치하는 것이 있으면, 일치하는 데이터 유형(a)의 가중치를 일정 비율 높게 설정하고, 일치하지 않는 데이터 유형(b)의 가중치는 일정 비율 낮게 설정하는 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템.
  5. 청구항 4에 있어서,
    일치하는 데이터 유형(a) 전체 가중치 증가분은 일치하지 않는 데이터 유형(b) 전체 가중치 감소분과 동일한 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 함수 추천 시스템.
  6. 청구항 4에 있어서,
    상기 통계 분석 함수 추천부는,
    로지스틱 회귀(Logistic Regression) 함수를 이용하여 각 통계 분석 함수별 점수를 산정하는 함수별 점수 산출부; 및
    상기 함수별 점수 산출부에서 산정된 통계 분석 함수별 점수를 소프트맥스 회귀(Softmax Regression) 함수를 이용하여 각 통계 분석 함수별 확률값으로 변환 후 가장 큰 확률값을 갖는 통계 분석 함수를 추천하는 함수별 확률값 변환부를 구비하는 것을 특징으로 하는 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템.
KR1020170087059A 2017-07-10 2017-07-10 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템 KR20170087434A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170087059A KR20170087434A (ko) 2017-07-10 2017-07-10 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170087059A KR20170087434A (ko) 2017-07-10 2017-07-10 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템

Publications (1)

Publication Number Publication Date
KR20170087434A true KR20170087434A (ko) 2017-07-28

Family

ID=59422373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170087059A KR20170087434A (ko) 2017-07-10 2017-07-10 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템

Country Status (1)

Country Link
KR (1) KR20170087434A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048840A (ko) * 2017-10-31 2019-05-09 삼성에스디에스 주식회사 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치
CN112860685A (zh) * 2019-11-27 2021-05-28 微软技术许可有限责任公司 对数据集的分析的自动推荐
KR20210073206A (ko) * 2019-12-10 2021-06-18 김동훈 그래프 제공 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190048840A (ko) * 2017-10-31 2019-05-09 삼성에스디에스 주식회사 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치
CN112860685A (zh) * 2019-11-27 2021-05-28 微软技术许可有限责任公司 对数据集的分析的自动推荐
WO2021108053A1 (en) * 2019-11-27 2021-06-03 Microsoft Technology Licensing, Llc Automatic recommendation of analysis for dataset
KR20210073206A (ko) * 2019-12-10 2021-06-18 김동훈 그래프 제공 장치 및 방법

Similar Documents

Publication Publication Date Title
CN110222267B (zh) 一种游戏平台信息推送方法、系统、存储介质及设备
Yukselturk et al. Predicting dropout student: an application of data mining methods in an online education program
Ahmed et al. Clarify of the random forest algorithm in an educational field
CN108021984A (zh) 确定机器学习样本的特征重要性的方法及系统
CN107507016A (zh) 一种消息推送方法和系统
AU2017250467B2 (en) Query optimizer for combined structured and unstructured data records
KR20170087434A (ko) 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템
Lavielle et al. Automatic data binning for improved visual diagnosis of pharmacometric models
Lottering et al. A model for the identification of students at risk of dropout at a university of technology
He et al. Coding text answers to open-ended questions: Human coders and statistical learning algorithms make similar mistakes
US20210073237A1 (en) System and method for automatic difficulty level estimation
Runge et al. An interactive tool for the elicitation of subjective probabilities in probabilistic seismic‐hazard analysis
Kumar et al. APPLICATION OF RANKING BASED ATTRIBUTE SELECTION FILTERS TO PERFORM AUTOMATED EVALUATION OF DESCRIPTIVE ANSWERS THROUGH SEQUENTIAL MINIMAL OPTIMIZATION MODELS.
Yet et al. Estimating criteria weight distributions in multiple criteria decision making: a Bayesian approach
Costa et al. Automatic classification of computational thinking skills in elementary school math questions
Karim et al. Dominant requirements for student graduation in the faculty of informatics using the C4. 5 algorithm
Mani et al. An investigation of wine quality testing using machine learning techniques
RU2624546C1 (ru) Способ автоматической оценки квалификации и компетенции сотрудников
Lassébie et al. Speaking the same language: A machine learning approach to classify skills in Burning Glass Technologies data
CN110908919A (zh) 一种基于人工智能的应答测试系统及其应用
Roelands et al. Classifying businesses by economic activity using web-based text mining
CN113869973A (zh) 产品推荐方法、产品推荐系统和计算机可读存储介质
Acito Logistic Regression
Siregar et al. Person’s multiple intelligence classification based on tweet post using SentiStrength and processed on the Apache Spark framework
Zamri et al. College Course Recommender System based on Sentiment Analysis.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right