KR102045415B1 - 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치 - Google Patents

자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치 Download PDF

Info

Publication number
KR102045415B1
KR102045415B1 KR1020170144080A KR20170144080A KR102045415B1 KR 102045415 B1 KR102045415 B1 KR 102045415B1 KR 1020170144080 A KR1020170144080 A KR 1020170144080A KR 20170144080 A KR20170144080 A KR 20170144080A KR 102045415 B1 KR102045415 B1 KR 102045415B1
Authority
KR
South Korea
Prior art keywords
statistical model
error
statistical
optimal
model
Prior art date
Application number
KR1020170144080A
Other languages
English (en)
Other versions
KR20190048840A (ko
Inventor
문기효
김성준
노현빈
이찬구
한진환
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020170144080A priority Critical patent/KR102045415B1/ko
Priority to US16/104,746 priority patent/US20190129918A1/en
Publication of KR20190048840A publication Critical patent/KR20190048840A/ko
Application granted granted Critical
Publication of KR102045415B1 publication Critical patent/KR102045415B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)
  • Debugging And Monitoring (AREA)

Abstract

주어진 데이터의 통계적 특성을 가장 잘 나타낼 수 있는 최적 통계 모델을 자동으로 결정하는 방법이 제공된다. 본 발명의 일 실시예에 따른 최적 통계 모델 결정 방법은 최적 통계 모델 결정 장치에서 수행되는 방법에 있어서, 복수의 독립 변수 및 종속 변수로 구성된 분석 대상 데이터를 획득하는 제1 단계, 상기 분석 대상 데이터의 변량(variance)을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제2 단계, 상기 결정된 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제3 단계, 상기 m의 값을 변경해가며, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 제4 단계 및 상기 제1 오차에 기초하여, 상기 제4 단계의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제5 단계를 포함할 수 있다.

Description

자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치{Method FOR DETERMINING AN OPTIMAL StatisticAL MODEL AUTOMATICALLY and Apparatus tHEREOF}
본 발명은 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 다양한 통계 모델 중에서, 주어진 데이터의 통계적 특성을 가장 잘 나타내는 최적의 통계 모델을 자동으로 결정하는 방법 및 그 방법을 수행하는 장치에 관한 것이다.
대규모의 데이터가 주어진 경우, 해당 데이터에 대한 통계적 특성을 발견하고, 발견된 통계적 특성을 이용하여 미래를 예측하기 위해 다양한 통계 모델(statistical model)이 활용된다.
일반화 선형 모델(generalized linear model)은 통계 모델의 일종으로, 다양한 분야에서 주어진 데이터의 통계적 특성을 나타내는 용도로 활용되고 있다. 일반화 선형 모델은 선형 모델을 확장한 개념으로 연결 함수를 이용하여 해당 모델을 선형화 시킬 수 있는 모델을 의미한다. 따라서, 일반화 선형 모델을 이용하여 주어진 데이터를 모델링 하기 위해서는 종속 변수의 분포 타입과 연결 함수의 타입이 선택되어야 한다. 이때, 종속 변수의 분포 타입 및 연결 함수의 타입은 주어진 데이터의 통계적 특성을 결정하는 주요 인자이기 때문에, 상기 선택에 따라 통계 모델의 정확성이 좌우된다.
도 1에 도시된 바와 같이, 일반화 선형 모델에서 종속 변수의 분포 타입(1)과 연결 함수의 타입(3)은 다양하기 때문에, 두 가지 타입의 조합(5)에 따라 다수의 통계 모델 구축이 가능하다. 따라서, 주어진 데이터의 통계적 특성을 가장 잘 나타낼 수 있는 최적의 조합을 찾는 것은 매우 어려운 문제이다.
종래에는, 해당 분야의 전문가의 경험에 근거하여 종속 변수의 분포 타입과 연결 함수의 타입을 결정하였다. 그러나, 전문가의 경험에 의존하는 방식은, 선택된 종속 변수의 분포 타입과 연결 함수의 타입이 올바르지 않은 경우 통계 모델의 정확도가 크게 저하되는 문제를 야기한다. 또한, 구축된 통계 모델이 객관적으로 최적의 모델인지 알 수 없으며, 통계 모델의 정확도 문제로 인해 새로운 통계 모델을 다시 구축하는 경우에 추가적인 컴퓨팅 비용 및 시간 비용이 소요되는 문제가 있었다.
따라서, 전문가의 경험에 의존하지 않고, 객관적 기준에 따라, 주어진 데이터에 대한 최적의 통계 모델을 자동으로 결정할 수 있는 방법이 요구된다.
한국공개특허 제10-2013-0068251호 (2013.06.26 공개)
본 발명이 해결하고자 하는 기술적 과제는, 주어진 데이터의 통계적 특성을 가장 잘 나타내는 최적의 통계 모델을 결정하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 최적 통계 모델 결정 방법은, 최적 통계 모델 결정 장치에서 수행되는 방법에 있어서, 복수의 독립 변수 및 종속 변수로 구성된 분석 대상 데이터를 획득하는 제1 단계, 상기 분석 대상 데이터의 변량(variance)을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제2 단계, 상기 결정된 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제3 단계, 상기 m의 값을 변경해가며, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 제4 단계 및 상기 제1 오차에 기초하여, 상기 제4 단계의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제5 단계를 포함할 수 있다.
일 실시예에서, 상기 구축된 제1 통계 모델은 일반화 선형 모델(generalized linear model)에 기초한 통계 모델이고, 상기 제3 단계는, 상기 일반화 선형 모델에 대한 종속 변수의 분포 타입 및 연결 함수의 타입을 결정하는 제3-1 단계, 상기 결정된 종속 변수의 분포 타입 및 상기 결정된 연결 함수의 타입을 갖는 제2 통계 모델을 구축하는 제3-2 단계, 교차 검증(cross validation)을 통해 상기 제2 통계 모델에 대한 제2 오차를 산출하는 제3-3 단계, 및 상기 종속 변수의 분포 타입 및 상기 연결 함수의 타입 중 적어도 일부를 변경해가며, 상기 제3-1 단계 내지 상기 제3-3 단계를 반복 수행하는 제3-4 단계를 포함할 수 있다. 이때, 상기 제1 통계 모델은, 상기 제2 오차를 기초로 상기 제3-4단계의 수행 과정에서 구축된 복수의 제2 통계 모델 중에서 선정된 통계 모델일 수 있다.
일 실시예에서, 상기 제4 단계는, 상기 m의 값을 감소시키며, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 단계를 포함하되, 상기 결정된 m개의 독립 변수는, 상기 변량이 큰 상위 m개에 해당하는 독립 변수를 기초로 결정될 수 있다.
일 실시예에서, 상기 분석 대상 데이터는, 훈련용 데이터 및 평가용 데이터를 포함하되, 상기 제3 단계는, 상기 분석 대상 데이터 중에서 상기 훈련용 데이터를 이용하여, 상기 제1 통계 모델을 구축하고, 상기 훈련용 데이터를 기초로 상기 제1 통계 모델에 대한 제1-1 오차를 산출하는 단계 및 상기 분석 대상 데이터 중에서 상기 평가용 데이터를 이용하여, 상기 제1 통계 모델에 대한 교차 검증을 수행하고, 상기 교차 검증을 통해 상기 제1 통계 모델에 대한 제1-2 오차를 산출하는 단계를 포함하되, 상기 제1 오차는 상기 제1-1 오차 및 상기 제1-2 오차에 기초하여 결정될 수 있다.
일 실시예에서, 상기 제4 단계는, 지역적 최소점에 해당하는 제1 오차가 검출될 때까지, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 단계를 포함하되, 상기 최적 통계 모델은, 상기 구축된 복수의 제1 통계 모델 중에서, 상기 지역적 최소점에 해당하는 제1 오차가 산출된 통계 모델로 선정될 수 있다.
일 실시예에서, 상기 제1 오차는, 오차 산출에 이용된 데이터 값의 크기에 기초한 상대적 오차로 산출될 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 다른 일 실시예에 따른 최적 통계 모델 결정 방법은, 최적 통계 모델 결정 장치에서 수행되는 방법에 있어서, 훈련용 데이터 및 평가용 데이터를 포함하는 분석 대상 데이터를 획득하는 제1 단계, 상기 훈련용 데이터를 이용하여, 복수의 통계 모델을 구축하는 제2 단계, 상기 훈련용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제1 오차를 산출하는 제3 단계, 상기 평가용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제2 오차를 산출하는 제4 단계, 상기 제1 오차 및 상기 제2 오차를 기초로, 상기 복수의 통계 모델 각각에 대한 최종 오차를 산출하는 제5 단계 및 상기 최종 오차의 비교 결과에 기초하여, 상기 복수의 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제6 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치는, 프로세서, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 복수의 독립 변수 및 종속 변수로 구성된 분석 대상 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 상기 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제1 오퍼레이션, 상기 결정된 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제2 오퍼레이션, 상기 m의 값을 변경해가며, 상기 제1 오퍼레이션 및 상기 제2 오퍼레이션을 반복 수행하는 제3 오퍼레이션 및 상기 제1 오차에 기초하여, 상기 제3 오퍼레이션의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제4 오퍼레이션을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 다른 일 실시예에 따른 최적 통계 모델 결정 장치는, 프로세서, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 훈련용 데이터 및 평가용 데이터를 포함하는 분석 대상 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 상기 훈련용 데이터를 이용하여, 복수의 통계 모델을 구축하는 제1 오퍼레이션, 상기 훈련용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제1 오차를 산출하는 제2 오퍼레이션, 상기 평가용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제2 오차를 산출하는 제3 오퍼레이션, 상기 제1 오차 및 상기 제2 오차를 기초로, 상기 복수의 통계 모델 각각에 대한 최종 오차를 산출하는 제4 오퍼레이션 및 상기 최종 오차의 비교 결과에 기초하여, 상기 복수의 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제5 오퍼레이션을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 복수의 독립 변수 및 종속 변수로 구성된 분석 대상 데이터를 획득하는 제1 단계, 상기 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제2 단계, 상기 결정된 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제3 단계, 상기 m의 값을 변경해가며, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 제4 단계 및 상기 제1 오차에 기초하여, 상기 제4 단계의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제5 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 다른 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 훈련용 데이터 및 평가용 데이터를 포함하는 분석 대상 데이터를 획득하는 제1 단계, 상기 훈련용 데이터를 이용하여, 복수의 통계 모델을 구축하는 제2 단계, 상기 훈련용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제1 오차를 산출하는 제3 단계, 상기 평가용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제2 오차를 산출하는 제4 단계, 상기 제1 오차 및 상기 제2 오차를 기초로, 상기 복수의 통계 모델 각각에 대한 최종 오차를 산출하는 제5 단계 및 상기 최종 오차의 비교 결과에 기초하여, 상기 복수의 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제6 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.
도 1은 구축 가능한 일반화 선형 모델(generalized linear model)의 예시를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치의 입력 및 출력을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치를 나타내는 블록도이다.
도 4는 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치의 하드웨어 구성도이다.
도 5는 본 발명의 제1 실시예에 따른 최적 통계 모델 결정 방법을 개략적으로 설명하기 위한 도면이다.
도 6은 본 발명의 제1 실시예에 따른 최적 통계 모델 결정 방법을 나타내는 흐름도이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 독립 변수 결정 방법을 설명하기 위한 예시도이다.
도 8은 도 6에 도시된 후보 모델 선정 단계(S140)의 상세 흐름도이다.
도 9a 및 도 9b는 본 발명의 일 실시예에 따른 오차 산출 방법을 설명하기 위한 도면이다.
도 10은 본 발명의 제2 실시예에 따른 최적 통계 모델 결정 방법을 개략적으로 설명하기 위한 도면이다.
도 11은 본 발명의 제2 실시예에 따른 최적 통계 모델 결정 방법을 나타내는 흐름도이다.
도 12는 도 11에 도시된 후보 모델 선정 단계(S240)의 상세 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.
본 명세서에서, 통계 모델(statistical model)이란, 데이터의 통계적 특성을 나타낼 수 있는 모든 종류의 모델을 포괄하는 용어이다. 상기 통계 모델은 예를 들어 선형 모델(linear model), 일반화 선형 모델(generalized linear model) 등을 포함할 수 있으나, 본 발명의 범위가 상기 예시에 한정되는 것은 아니다.
이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 최적 모델 결정 장치(100)의 입력 및 출력을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치(100)는 분석 대상 데이터(10)를 입력으로 하여, 분석 대상 데이터(10)의 통계적 특성을 가장 잘 나타내는 최적의 통계 모델(30)을 출력하는 컴퓨팅 장치이다. 여기서, 상기 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 다만, 대규모의 데이터에 대하여 최적의 모델을 구축하는 경우라면, 최적 통계 모델 결정 장치(100)는 고성능의 서버 컴퓨팅 장치로 구현되는 것이 바람직할 수 있다.
최적 통계 모델 결정 장치(100)는 분석 대상 데이터(10)에 대한 복수의 통계 모델을 구축하고, 구축된 통계 모델에 대한 평가를 수행한다. 예를 들어, 독립 변수의 개수 및 종류를 달리하며 복수의 통계 모델이 구축될 수 있다. 다른 예를 들어, 타깃 모델이 일반화 선형 모델인 경우, 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 달리하며 복수의 통계 모델이 구축될 수 있다. 상기 예시에서, 일반화 선형 모델에 대한 종속 변수의 분포 타입과 연결 함수의 타입의 예는 하기의 표 1을 참조하고, 일반화 선형 모델에 따라 선형화 시킬 수 있는 통계 모델의 예시는 하기의 표 2를 참조하도록 한다.
종속 변수의 분포 타입 연결 함수의 타입
Gaussian real
Figure 112017108090954-pat00001
Identity
Figure 112017108090954-pat00002
Binomial integer
Figure 112017108090954-pat00003
Logit
Figure 112017108090954-pat00004
Poisson integer {
Figure 112017108090954-pat00005
}
Log
Figure 112017108090954-pat00006
Gamma real
Figure 112017108090954-pat00007
Inverse
Figure 112017108090954-pat00008
Inverse Gaussian real
Figure 112017108090954-pat00009
Inverse Squared
Figure 112017108090954-pat00010
통계 모델
Gaussian
Figure 112017108090954-pat00011
Binomial
Figure 112017108090954-pat00012
Poisson
Figure 112017108090954-pat00013
Gamma
Figure 112017108090954-pat00014
Inverse Gaussian
Figure 112017108090954-pat00015
최적 통계 모델 결정 장치(100)는 구축된 통계 모델에 대한 평가 결과를 기초로 분석 대상 데이터(10)에 대한 최적의 통계 모델(30)을 결정한다. 이에 대한 자세한 설명은 도 3이하의 도면을 참조하여 상세하게 설명하도록 한다.
분석 대상 데이터(10)는 복수의 독립 변수와 종속 변수로 구성될 수 있다. 이때, 상기 독립 변수는 당해 기술 분야에서 설명 변수(explanatory variable), 특징(feature), 독립 변인(independent variable), 예측 변수(predictor variable) 등 다양한 용어로 명명될 수 있으나, 용어의 통일을 위해 본 명세서에서는 독립 변수로 통칭하도록 한다. 독립 변수 및 종속 변수에 대한 개념은 당해 기술 분야의 종사자에게 자명한 사항이므로 더 이상의 설명은 생략하도록 한다.
최적 통계 모델(30)은 분석 대상 데이터(10)의 통계적 특성을 가장 잘 나타내는 통계 모델이다. 최적 통계 모델(30)은 이후 다른 데이터에 대해서 종속 변수가 가리키는 특징을 예측하기 위해 이용될 수 있다.
이하에서는, 이해의 편의를 위해, 최적 모델 결정 장치(100)의 타깃 모델이 일반화 선형 모델에 기초한 것을 가정하여 본 발명의 실시예들을 설명하도록 한다. 다만, 상기 일반화 선형 모델은 복수의 통계 모델을 일반화한 모델인 바, 이하에서 개시될 본 발명의 실시예들이 임의의 통계 모델에 실질적인 기술적 사상의 변경 없이 적용될 수 있음은 당해 기술 분야의 종사자에게 자명한 사항일 것이다.
이하에서는, 도 3 및 도 4를 참조하여, 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치(100)의 구성 및 동작에 대하여 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치(100)를 나타내는 블록도이다.
도 3을 참조하면, 최적 통계 모델 결정 장치(100)는 통계 모델 구축부(120), 통계 모델 평가부(140) 및 최적 모델 결정부(160)를 포함할 수 있다. 다만, 도 3에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 3에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 3에 도시된 최적 통계 모델 결정 장치(100)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 적어도 하나의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다.
각 구성 요소를 살펴보면, 통계 모델 구축부(120)는 분석 대상 데이터의 변량을 이용하여 m개의 독립 변수를 결정하고, m개의 독립 변수와 종속 변수와 관계를 나타내는 통계 모델을 구축한다. 이때, 통계 모델 구축부(120)는 m의 값을 변경시키면서, 반복적으로 복수의 통계 모델을 구축할 수 있다.
또한, 통계 모델 구축부(120)는 일반화 선형 모델에 대한 종속 변수의 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 복수의 통계 모델을 구축할 수 있다.
또한, 통계 모델 구축부(120)는 상기 m의 값과 상기 종속 변수의 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 복수의 통계 모델을 구축할 수 있다.
통계 모델 구축부(120)는 소정의 반복 종료 조건이 만족될 때까지, 통계 모델을 반복하여 구축할 수 있다. 예를 들어, 상기 반복 종료 조건은, 지역적 최소점(local minima)를 가리키는 오차가 검출되는 조건, 전역적 최소점(global minima)을 가리키는 오차가 검출되는 조건, 소정의 반복 횟수 등으로 다양하게 설정될 수 있다.
통계 모델 구축부(120)가 상기 반복 종료 조건을 이용하여 반복적으로 통계 모델을 구축하는 구체적인 과정은 도 5 내지 도 12를 참조하여 후술하도록 한다.
통계 모델 평가부(140)는 통계 모델 구축부(120)에 의해 구축된 통계 모델에 대한 오차를 산출한다. 통계 모델 평가부(140)가 통계 모델에 대한 오차는 산출하는 방법에 대한 자세한 설명은 수학식 1 내지 수학식 5를 참조하여 후술하도록 한다.
최적 모델 결정부(160)는 통계 모델 평가부(140)에 의해 산출된 오차를 이용하여 분석 대상 데이터에 대한 최적 모델을 결정한다. 구체적으로, 반복 종료 조건이 지역적 최소점을 가리키는 오차 검출인 경우, 최적 모델 결정부(160)는 상기 지역적 최소점에 해당하는 오차를 갖는 통계 모델을 최적 통계 모델로 결정한다. 유사하게, 반복 종료 조건이 전역적 최소점인 경우, 최적 모델 결정부(160)는 상기 전역적 최소점에 해당하는 오차를 갖는 모델을 최적 통계 모델로 결정한다. 또는, 상기 반복 종료 조건이 소정의 반복 횟수인 경우, 최적 모델 결정부(160)는 기 구축된 복수의 통계 모델 중에서, 최소 오차를 갖는 통계 모델을 최적 통계 모델로 결정한다.
도 3의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
도 4는 본 발명의 일 실시예에 따른 최적 통계 모델 결정 장치(100)의 하드웨어 구성도이다.
도 4를 참조하면, 최적 통계 모델 결정 장치(100)는 하나 이상의 프로세서(101), 버스(105), 프로세서(101)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(103)와, 최적 통계 모델 결정 소프트웨어(107a)를 저장하는 스토리지(107)를 포함할 수 있다. 다만, 도 4에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성요소들 외에 다른 범용적인 구성 요소(e.g. 네트워크 인터페이스)들이 더 포함될 수 있음을 알 수 있다.
프로세서(101)는 최적 통계 모델 결정 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(101)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(101)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 최적 통계 모델 결정 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(103)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(103)는 본 발명의 실시예들에 따른 최적 통계 모델 결정 방법을 실행하기 위하여 스토리지(107)로부터 하나 이상의 프로그램(107a)을 로드할 수 있다. 도 4에서 메모리(103)의 예시로 RAM이 도시되었다.
버스(105)는 최적 통계 모델 결정 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(105)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
스토리지(107)는 하나 이상의 프로그램(107a) 및 분석 대상 데이터(107b)를 비임시적으로 저장할 수 있다. 도 4에서 상기 하나 이상의 프로그램(107a)의 예시로 최적 통계 모델 결정 소프트웨어(107a)가 도시되었다.
스토리지(107)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
최적 통계 모델 결정 소프트웨어(107a)는 메모리(103)에 로드되어 프로세서(101)로 하여금 본 발명의 몇몇 실시예에 따른 최적 통계 모델 결정 방법을 수행하도록 하는 오퍼레이션을 포함할 수 있다.
예를 들어, 최적 통계 모델 결정 소프트웨어(107a)는 상기 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제1 오퍼레이션, 상기 결정된 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제2 오퍼레이션, 상기 m의 값을 변경해가며, 상기 제1 오퍼레이션 및 상기 제2 오퍼레이션을 반복 수행하는 제3 오퍼레이션 및 상기 제1 오차에 기초하여, 상기 제3 오퍼레이션의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제4 오퍼레이션을 포함할 수 있다.
다른 예를 들어, 최적 통계 모델 결정 소프트웨어(107a)는 상기 훈련용 데이터를 이용하여, 복수의 통계 모델을 구축하는 제1 오퍼레이션, 상기 훈련용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제1 오차를 산출하는 제2 오퍼레이션, 상기 평가용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제2 오차를 산출하는 제3 오퍼레이션, 상기 제1 오차 및 상기 제2 오차를 기초로, 상기 복수의 통계 모델 각각에 대한 최종 오차를 산출하는 제4 오퍼레이션 및 상기 최종 오차의 비교 결과에 기초하여, 상기 복수의 통계 모델 중에서 상기 분석 대상 데이터에 대한 최적 통계 모델을 선정하는 제5 오퍼레이션을 포함할 수 있다.
지금까지, 도 3 및 도 4를 참조하여 본 발명의 실시예에 따른 최적 통계 모델 결정 장치(100)의 구성 및 동작에 대하여 설명하였다. 다음으로, 도 5 내지 도 12를 참조하여 본 발명의 몇몇 실시예들에 따른 최적 통계 모델 결정 방법에 대하여 상세하게 설명한다.
이하에서 후술될 본 발명의 몇몇 실시예들에 따른 최적 통계 모델 결정 방법의 각 단계는, 컴퓨팅 장치에 의해 수행될 수 있다. 예를 들어, 상기 컴퓨팅 장치는 최적 통계 모델 결정 장치(100)일 수 있다. 다만, 설명의 편의를 위해, 상기 최적 통계 모델 결정 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다. 또한, 최적 통계 모델 결정 방법의 각 단계는 프로세서에 의해 실행되는 컴퓨터 프로그램의 각 오퍼레이션으로 구현될 수 있다.
먼저, 도 5 내지 도 9b를 참조하여, 본 발명의 제1 실시예에 따른 최적 통계 모델 결정 방법에 대하여 설명하도록 한다. 이해의 편의를 제공하기 위해, 도 5를 참조하여, 상기 제1 실시예에 따른 최적의 통계 모델 결정 방법에 대한 개략적인 설명을 하고, 상세한 과정에 대한 설명은 도 6 이하의 도면을 참조하여 수행하도록 한다.
도 5를 참조하면, 상기 제1 실시예에 따른 최적 통계 모델 결정 방법에서, 독립 변수의 개수를 기준으로 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며 복수의 통계 모델(210, 220)이 구축된다. 예를 들어, 제1 반복(1st iteration)에서 m개의 독립 변수를 기준으로 제1 복수의 통계 모델(210)이 구축되고, 제2 반복(2nd iteration)에서 m-1개의 독립 변수를 기준으로 제2 복수의 통계 모델(220)이 구축될 수 있다. 이때, 제1 복수의 통계 모델(210)은 m개의 독립 변수와 종속 변수의 관계를 나타내는 통계 모델이고, 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부가 상이한 통계 모델로 구성된다. 또한, 제2 복수의 통계 모델(220)은 m-1개의 독립 변수와 종속 변수의 관계를 나타내는 통계 모델이고, 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부가 상이한 통계 모델로 구성된다.
또한, 복수의 통계 모델(210, 220) 별로 소정의 조건을 만족하는 후보 통계 모델(211, 221)이 선정된다. 구체적으로, 제1 복수의 통계 모델(210)에서 제1 후보 통계 모델(211)이 선정되고, 제2 복수의 통계 모델(220)에서 제2 후보 통계 모델(221)이 선정된다.
마지막으로, 복수의 후보 통계 모델(211, 221) 중에서 분석 대상 데이터에 대한 최적 통계 모델(231)이 선정된다.
정리하면, 상기 제1 실시예에서, 동일한 독립 변수를 갖고 적어도 일부는 다른 종속 변수의 분포 타입 및 연결 함수의 타입을 갖는 복수의 통계 모델 별로 후보 통계 모델이 선정되고, 상기 선정된 후보 통계 모델 중에서, 최적 통계 모델이 선정된다. 이하에서는, 상기 제1 실시예에 따른 최적 통계 모델 결정 방법이 수행되는 상세한 과정에 대하여 설명하도록 한다.
도 6은 본 발명의 제1 실시예에 따른 최적 통계 모델 결정 방법을 나타내는 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 6을 참조하면, 단계(S100)에서, 최적 통계 모델 결정 장치(100)는 분석 대상 데이터를 획득한다. 전술한 바와 같이, 상기 분석 대상 데이터는 복수의 독립 변수와 종속 변수로 구성된 복수의 데이터를 포함한다.
단계(S120)에서, 최적 통계 모델 결정 장치(100)는 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정한다. 이때, 상기 변량은 데이터의 분포 변의 정도를 의미하는 것으로, 예를 들어, 분산(variation), 표준 편차(standard deviation) 등을 이용하여 측정될 수 있다. 또한, 상기 m개의 독립 변수는 분석 대상 데이터를 잘 나타낼 수 있는 주성분 변수에 대응되는 것으로 이해될 수 있다. 따라서, 단계(S120)에서 변량이 큰 순서를 기준으로 m개 독립 변수가 결정된다.
일 실시예에서, 상기 m개의 독립 변수는 주성분 분석(principal component analysis)을 통해 생성된 주성분 변수일 수 있다. 즉, 상기 m개의 독립 변수는 주성분 분석을 통해 도출된 주성분 변수 중에서 변량이 높은 상위 m개의 변수로 결정될 수 있다. 상기 주성분 분석은 당해 기술 분야에서 이미 널리 알려진 알고리즘이므로 이에 대한 자세한 설명은 생략하도록 한다. 본 실시예에 따르면, 주성분 분석을 통해 m개의 새로운 독립 변수가 생성되고, 상기 m개의 새로운 독립 변수는 주성분 분석을 특성에 의해 상호 간에 상관 관계는 적으며 분석 대상 데이터의 분포를 잘 나타내는 성질을 갖는다. 이에 따라, 독립 변수 간의 다중 공선성(multi-collinearity)이 최소화되고, 통계 모델의 정확도는 향상될 수 있다. 아울러, 실제로 통계 모델을 구축하는 데이터의 차원은 분석 대상 데이터보다 낮은 차원을 갖게 되기 때문에, 신속하게 통계 모델이 구축되는 효과가 있다.
다른 일 실시예에서, 상기 m개의 독립 변수는 분석 대상 데이터를 구성하는 기존 독립 변수 중에서 선정된 일부의 독립 변수일 수 있다. 본 실시예에서, 기존 독립 변수 각각에 대하여 분산 또는 표준 편차가 산출되고, 기존 독립 변수 중에서 상기 분산 또는 표준 편차가 높은 상위 m개의 독립 변수가 선정된다. 본 실시예에 따르더라도, 주성분에 대응되지 않는 일부 독립 변수가 제외되므로, 신속하고 정확하게 통계 모델이 구축되는 효과가 있다.
한편, 본 발명의 실시예에 따르면, 본 단계(S120)가 수행되기 전에, 분석 대상 데이터를 구성하는 복수의 독립 변수 중에서 독립 관계가 있지 않는 일부 독립 변수가 제외될 수 있다. 구체적으로, 최적 통계 모델 결정 장치(100)가 상기 복수의 독립 변수 중에서 독립 관계에 있지 않은 제1 독립 변수를 검출하고, 상기 제1 독립 변수의 검출에 응답하여, 상기 복수의 독립 변수 중에서 상기 제1 독립 변수를 제외할 수 있다. 이에 따라, 분석 대상 데이터를 구성하는 복수의 독립 변수 중에서 상기 제1 독립 변수를 제외한 나머지 독립 변수만을 기초로 분석 대상 데이터의 변량이 산출된다. 독립 관계 여부를 판정하기 위해서는, 당해 기술 분야에서 널리 알려진 적어도 하나의 통계 알고리즘이 이용될 수 있으며, 어떠한 알고리즘이 이용되더라도 무방하다. 본 실시예에 따르면, 중복된 독립 변수와 같이 불필요한 독립 변수가 제거되므로, 분석 대상 데이터가 정제되고 신속하게 통계 모델이 구축되는 효과가 있다.
단계(S140)에서, 최적 통계 모델 결정 장치(100)는 m개의 독립 변수와 종속 변수와의 관계를 나타내는 복수의 통계 모델을 구축하고, 구축된 복수의 통계 모델 중에서 후보 통계 모델을 선정한다. 정확하게는, 최적 통계 모델 결정 장치(100)가 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경하면서 m개의 독립 변수와 종속 변수와의 관계를 나타내는 복수의 통계 모델을 구축한다. 본 단계(S140)에 대한 설명은 이후 도 7을 참조하여 보다 상세하게 설명하도록 한다.
단계(S160)에서, 최적 통계 모델 결정 장치(100)는 지정된 반복 종료 조건이 만족되는지 판정하고, 만족하지 않는다는 판정에 응답하여, 단계(S120) 및 단계(S140)를 반복하여 수행한다. 이때, 독립 변수의 개수를 가리키는 m의 값은 매 반복 단계마다 변경된다.
일 실시예에서, 최적 통계 모델 결정 장치(100)는 상기 m의 값을 감소시키면서 단계(S120) 및 단계(S140)를 반복하여 수행할 수 있다. 이에 대한 예시는, 도 7a에 도시되어 있다. 도 7a를 참조하면, 매 반복 단계마다 m의 값이 순차적으로 감소하는 것을 확인할 수 있다. 특히, 도 7a는 m의 값이 "1"씩 감소되는 것을 예로써 도시하고 있으나, 감소 간격은 얼마든지 달라질 수 있다. 또한, 실시예에 따라, 상기 감소 간격은 기 설정된 고정 값 또는 상황에 따라 변동되는 변동 값이 될 수 도 있다. 예를 들어, 상기 감소 간격은 최적 통계 모델 결정 장치(100)의 컴퓨팅 성능이 고성능일수록 작은 값으로 결정될 수 있다.
다른 일 실시예에서, 최적 통계 모델 결정 장치(100)는 상기 m의 값을 증가시키면서 단계(S120) 및 단계(S140)를 반복하여 수행할 수 있다. 이에 대한 예시는, 도 7b에 도시되어 있다. 도 7b를 참조하면, 매 반복 단계마다 m의 값이 순차적으로 증가하는 것을 확인할 수 있다. 특히, 도 7b는 m의 값이 "1"씩 증가되는 것을 예로써 도시하고 있으나, 증가 간격은 얼마든지 달라질 수 있다. 또한, 실시예에 따라, 상기 증가 간격은 기 설정된 고정 값 또는 상황에 따라 변동되는 변동 값이 될 수 도 있다. 예를 들어, 상기 증가 간격은 최적 통계 모델 결정 장치(100)의 컴퓨팅 성능이 고성능일수록 작은 값으로 결정될 수 있다.
다른 일 실시예에서, 최적 통계 모델 결정 장치(100)는 상기 m의 값을 랜덤(random)하게 변경하면서 단계(S120) 및 단계(S140)을 반복하여 수행할 수도 있다.
다시 도 6을 참조하면, 단계(S160)에서, 반복 종료 조건을 만족한다는 판정에 응답하여, 최적 통계 모델 결정 장치(100)는 이후의 단계(S180)를 수행할 수 있다. 상기 반복 종료 조건은 실시예에 따라 다양하게 설정될 수 있다.
일 실시예에서, 상기 반복 종료 조건은 지역적 최소점(local minima)을 가리키는 후보 통계 모델의 오차가 검출되는 것이다. 이를 위해, 단계(S140)의 수행이 완료될 때마다, 최적 통계 모델 결정 장치(100)는 후보 통계 모델의 오차가 지역적 최소점에 해당하는지 여부를 판정한다. 예를 들어, i번째 반복(iteration)에서 선정된 i번째 후보 통계 모델까지 오차가 지속적으로 감소했고, 이후 i+1번째 반복에서 선정된 i+1번째 후보 통계 모델의 오차는 증가한 경우, 최적 통계 모델 결정 장치(100)는 상기 i번째 후보 통계 모델의 오차가 지역적 최소점에 해당하는 것으로 판정할 수 있다. 실시예에 따라, 반복 종료 조건에 포함되는 지역적 최소점은 첫번째 지역적 최소점일 수 있고, n번째(단, n은 2이 상의 자연수) 지역적 최소점이 될 수도 있다. 본 실시예에 따르면, 지역적 최소점에 해당하는 오차를 갖는 후보 모델이 검출될 때까지 반복이 수행되므로, 최적의 통계 모델을 결정하는데 소요되는 시간 비용 및 컴퓨팅 비용이 크게 감소되는 효과가 있다.
다른 일 실시예에서, 상기 반복 종료 조건은 전역적 최소점(global minima)을 갖는 오차가 검출되는 것이다. 본 실시예에 따르면, 상기 전역적 최소점을 갖는 오차를 검출하기 위해, 가능한 모든 조합에 대하여 통계 모델이 구축된다. 본 실시예에 따르면, 보다 최적의 통계 모델이 구축될 수 있을 것이나, 컴퓨팅 비용 및 시간 비용 측면에서는 비효율적일 수 있다.
또 다른 일 실시예에서, 상기 반복 종료 조건은 소정의 반복 횟수로 지정될 수 있다. 또는, 소정의 반복 횟수 이내를 가리키는 제1 조건과 지역적 최소점에 해당하는 오차 검출을 가리키는 제2 조건의 조합으로 상기 반복 종료 조건이 결정될 수도 있다.
전술한, 반복 종료 조건은 사용자에 의해 지정되는 조건 또는 최적 모델 장치(100)에 의해 자동으로 지정되는 조건일 수 있다. 예를 들어, 최적 통계 모델 결정 장치(100)는 전역적 최소점을 가리키는 오차 산출에 소요되는 컴퓨팅 비용(또는 연산 시간)과 장치(100)의 컴퓨팅 성능 중 적어도 일부에 기초하여 상기 반복 종료 조건을 자동으로 지정할 수 있다. 구체적인 예를 들어, 최적 통계 모델 결정 장치(100)는 독립 변수의 개수(e.g. m 값, 기존 독립 변수의 개수)가 임계 값 이상인 경우, 상기 반복 종료 조건을 지역적 최소점으로 결정하고, 반대의 경우 전역적 최소점으로 결정할 수 있다. 독립 변수의 개수가 많을수록, 전역적 최소점을 가리키는 오차 검출에 많은 시간과 컴퓨팅 비용이 소모될 것이기 때문이다. 다른 구체적인 예를 들어, 최적 통계 모델 결정 장치(100)는 장치(100)의 컴퓨팅 성능이 소정의 조건을 만족하는 고성능인 경우, 상기 반복 종료 조건을 전역적 최소점으로 결정하고, 반대의 경우 지역적 최소점으로 결정할 수 있다.
마지막으로, 단계(S160)에서, 최적 통계 모델 결정 장치(100)는 분석 대상 데이터에 대한 최적 통계 모델을 결정한다. 구체적으로, 반복 종료 조건이 지역적 최소점을 가리키는 오차 검출인 경우, 상기 지역적 최소점에 해당하는 오차를 갖는 후보 모델이 최적 통계 모델로 결정된다. 유사하게, 반복 종료 조건이 전역적 최소점을 가리키는 오차 검출인 경우, 상기 전역적 최소점에 해당하는 오차를 갖는 후보 모델이 최적 통계 모델로 결정된다.
다음으로, 도 8을 참조하여, 단계(S140)에서 수행되는 후보 통계 모델 선정 방법에 대하여 설명하도록 한다. 도 8은 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 반복적으로 통계 모델을 구축하고, 구축된 통계 모델 중에서 후보 통계 모델을 선정하는 과정을 도시하고 있다.
도 8을 참조하면, 단계(S141)에서, 최적 통계 모델 결정 장치(100)는 종속 변수의 분포 타입 및 연결 함수의 타입을 결정한다. 종속 변수의 분포 타입 및 연결 함수의 타입의 몇몇 예시는 표 1을 참조하도록 한다.
단계(S143)에서, 최적 통계 모델 결정 장치(100)는 결정된 분포 타입 및 연결 함수의 타입을 갖는 통계 모델을 구축한다. 자세하게는, 분석 대상 데이터를 이용하여 결정된 분포 타입 및 연결 함수의 타입을 갖는 통계 모델을 학습함으로써, 상기 통계 모델이 구축된다. 이때, 상기 통계 모델은 단계(S120)에서 결정된 m개의 독립 변수와 종속 변수와의 관계를 나타내고, 상기 결정된 분포 타입 및 연결 함수의 타입을 갖는 모델이다
단계(S145)에서, 최적 통계 모델 결정 장치(100)는 통계 모델의 오차를 산출한다. 상기 통계 모델의 오차를 산출하기 위해, k-접합 교차 검증(k-fold cross validation) 기법이 이용될 수 있다. k-접합 교차 검증(k-fold cross validation)은 도 9a에 도시된 바와 같이, 원본 데이터(270)를 훈련용 데이터(271)와 평가용 데이터(273)로 분할하고, 훈련용 데이터(271)로 학습된 모델을 평가용 데이터(273)로 검증하는 기법이다. 설정된 k 값에 따라, 상기와 같은 검증 과정이 k번 반복하여 수행될 수 있다. 특히 도 9a는 10-접합 교차 검증 기법을 도시하고 있다. 교차 검증은 이미 당해 기술 분야에서 널리 알려진 알고리즘이므로 더 이상의 설명은 생략하도록 한다.
일 실시예에서, 교차 검증을 통해 산출된 오차(이하, "예측 오차"로 칭하기로 함)가 통계 모델의 최종 오차로 결정된다.
다른 일 실시예에서, 훈련용 데이터를 통해 산출된 오차(이하, "훈련 오차"로 칭하기로 함)와 상기 예측 오차에 기초하여 통계 모델의 최종 오차가 결정된다. 이에 대한 예시는 도 9b에 도시되어 있다. 특히, 도 9b는 10-접합 교차 검증의 첫번째 단계에서 최종 오차를 구하는 과정을 예로써 도시하고 있다. 도 9b를 참조하면, 훈련용 데이터(271)를 통해 훈련 오차(283, et)가 산출되고, 평가용 데이터(273)를 통해 예측 오차(285, ep)가 결정되는 것을 확인할 수 있다. 최종적으로, 교차 검증의 첫 번째 단계에서, 최종 오차(287, e1)는 훈련 오차(283)와 예측 오차(285)의 가중치 합(weighted sum)으로 결정될 수 있다.
본 발명의 실시예에 따르면, 상기 최종 오차를 구하기 위해, 예측 오차에 훈련 오차보다 더 높은 가중치가 부여될 수 있다. 이에 대한 일 예시는 하기의 수학식 1에 표시되어 있다. 하기의 수학식 1에서, e, et, ep는 각각 최종 오차, 훈련 오차 및 예측 오차를 가리킨다. 또한, k는 k-접합 교차 검증에 대응되는 k 값을 가리킨다. 특히, 하기의 수학식 1은 예측 오차에 k-1/k 비율에 해당하는 가중치가 부여되고, 훈련 오차에 1/k 비율에 해당하는 가중치가 부여된 것을 표시하고 있다. 본 실시예에 따르면, 두가지 타입의 오차가 이용되고, 평가용 데이터를 통해 산출되는 예측 오차에 더 높은 가중치가 부여됨으로써, 보다 정확하게 각 통계 모델의 최종 오차가 산출될 수 있다. 이에 따라, 보다 정확하게 최적 통계 모델이 결정되는 효과가 있다.
Figure 112017108090954-pat00016
한편, 본 발명의 실시예에 따른, 각각의 오차(e.g. 훈련 오차, 예측 오차)는 데이터 값의 크기에 따라 상대적으로 결정되는 상대 오차로 산출된다. 예를 들어, 통계 모델이 하기의 수학식 2를 따르는 선형 모델인 경우, 훈련 오차(et)는 하기의 수학식 4에 따라 산출되고, 예측 오차(ep)는 하기의 수학식 5에 따라 산출될 수 있다. 또한, 통계 모델이 표 2에 표시된 모델인 경우에도, 표 1에 표시된 연결 함수를 적용시켜 선형화 시키고, 상기 수학식 1에 따라 해당 통계 모델의 오차가 산출될 수 있다.
Figure 112017108090954-pat00017
이해의 편의를 제공하기 위해, 각 수학식에 대하여 간략하게 설명하도록 한다. 상기 수학식 2에서, β는 선형 모델의 계수(coefficient)를 가리킨다. 상기 수학식 2는 당해 기술 분야의 종사자에게 자명한 사항인 바, 이에 대한 설명은 생략하도록 한다.
하기의 수학식 3은 통계 모델의 출력 값과 훈련용 데이터와의 차이(e.g. 거리)를 이용하여 절대적 훈련 오차를 구하는 수식이다. 하기의 수학식 3과 수학식 4를 비교하면, 하기의 수학식 4는 데이터의 크기를 가리키는 값(xi1 2+…+xim 2)이 분모에 위치한다. 따라서, 하기의 수학식 4에 따르면, 상기 데이터 값에 따른 상대적인 값으로 오차가 산출되게 된다. 참고로, 하기의 수학식 4에서, N1은 훈련용 데이터의 개수를 가리키는 것으로, 하기의 수학식 4는 평균 상대 오차를 구하는 수식으로 이해될 수 있다.
Figure 112017108090954-pat00018
Figure 112017108090954-pat00019
하기의 수학식 5는 통계 모델의 출력 값과 평가용 데이터와의 차이(e.g. 거리)를 이용하여 상대적 예측 오차(e.g. mean square error)를 구하는 수식이다. 하기의 수학식 5에서 N2는 평가용 데이터의 개수를 가리키고, 분자의 수식은 통계 모델의 출력 값과 i번째 평가용 데이터의 값(yi)과의 차이를 의미한다.
Figure 112017108090954-pat00020
다시, 도 8을 참조하면, 단계(S147)에서, 최적 통계 모델 결정 장치(100)는 지정된 반복 종료 조건이 만족되는지 여부를 판정한다. 상기 반복 종료 조건은 예를 들어 지역적 최소점을 가리키는 오차가 검출되는 조건, 전역적 최소점을 가리키는 오차가 검출되는 조건, 소정의 횟수 또는 이들의 조합 등으로 다양하게 지정될 수 있다. 단계(S147)의 반복 종료 조건이 단계(S160)의 반복 종료 조건과 독립적으로 지정될 수 있음은 물론이다.
단계(S149)에서, 반복 종료 조건 만족 판정에 응답하여, 최적 통계 모델 결정 장치(100)는 후보 통계 모델을 결정한다. 구체적으로, 반복 종료 조건이 지역적 최소점을 가리키는 오차 검출인 경우, 복수의 통계 모델 중에서, 지역적 최소점에 해당하는 오차(e.g. 최종 오차)를 갖는 통계 모델이 상기 후보 모델로 선정된다. 유사하게, 반복 종료 조건이 전역적 최소점을 가리키는 오차 검출인 경우, 복수의 통계 모델 중에서, 전역적 최소점에 해당하는 오차를 갖는 통계 모델이 상기 후보 모델로 선정된다. 반복 종료 조건이 소정의 횟수인 경우, 기 구축된 복수의 통계 모델 중에서, 최소 오차를 갖는 통계 모델이 상기 후보 통계 모델로 선정된다.
지금까지, 도 5 내지 도 9b를 참조하여, 본 발명의 제1 실시예에 따른 최적의 통계 모델 결정 방법에 대하여 설명하였다. 상술한 방법에 따르면, 통계 모델 구축 전에 주성분을 가리키는 독립 변수가 다시 결정되어, 통계 모델 구축에 소요되는 컴퓨팅 비용 및 시간 비용은 감소되고, 통계 모델의 정확도는 향상될 수 있다. 또한, 독립 변수의 개수와 일반화 선형 모델에 대한 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 복수의 통계 모델이 구축된다. 이때, 지역적 최소점을 갖는 통계 모델이 검출될 때까지, 상기 통계 모델이 구축되는 바, 최적 모델 결정에 소요되는 컴퓨팅 비용 및 시간 비용이 크게 감소될 수 있다. 아울러, 산출된 오차라는 객관적 기준에 근거하여, 최적 모델이 결정될 수 있다.
이하에서는, 도 10 내지 도 12를 참조하여, 본 발명의 제2 실시예에 따른 최적의 통계 모델 결정 방법에 대하여 설명하도록 한다. 중복된 설명을 배제하기 위해, 상기 제1 실시예에 따른 최적의 통계 모델 결정 방법과 동일 또는 유사한 부분에 대한 설명은 생략하도록 한다.
먼저, 도 10을 참조하여, 상기 제2 실시예에 따른 최적의 통계 모델 결정 방법에 대하여 개략적으로 설명하고, 이후 도 11 및 도 12를 참조하여 상세한 과정에 대하여 설명하도록 한다.
도 10을 참조하면, 상기 제1 실시예와 마찬가지로, 복수의 통계 모델(290) 중에서 후보 모델(291, 301)이 선정되고, 선정된 후보 모델(291, 301) 중에서 최적 통계 모델(301)이 결정된다. 그러나, 상기 제1 실시예와 다르게, 종속 변수의 분포 타입과 연결 함수의 타입을 기준으로 복수의 통계 모델(290, 300)이 구축된다. 이에 따라, 동일한 분포 타입 및 연결 함수 타입을 갖는 제1 복수의 통계 모델(290)에서 제1 후보 모델(291)이 선정되고, 동일한 분포 타입 및 연결 함수 타입을 갖는 제2 복수의 통계 모델(290)에서 제2 후보 모델(291)이 선정된다. 후보 모델을 선정하는 방법은 상기 제1 실시예와 유사하다.
제1 복수의 통계 모델(290)은 동일한 분포 타입 및 연결 함수 타입을 갖고, 적어도 일부는 상이한 독립 변수의 조합을 갖는 모델이다. 상기 독립 변수를 결정하는 방법 또한 상기 제1 실시예와 유사하다. 다만, 상기 제1 실시예에서, 제1 복수의 통계 모델(290)이 동일한 독립 변수의 조합을 갖고, 적어도 일부는 상이한 분포 타입 및 연결 함수 타입을 갖는 통계 모델로 구성된다는 차이점이 있다.
이하에서는, 상기 제2 실시예에 따른 최적 통계 모델 결정 방법이 수행되는 상세 과정에 대하여 설명하도록 한다.
도 11은 본 발명의 제2 실시예에 따른 최적 통계 모델 결정 방법을 나타내는 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 11을 참조하면, 단계(S200)에서, 최적 통계 모델 결정 장치(100)는 분석 대상 데이터를 획득한다.
단계(S220)에서, 최적 통계 모델 결정 장치(100)는 종속 변수의 분포 타입 및 연결 함수의 타입을 결정한다. 종속 변수의 분포 타입 및 연결 함수의 타입은 가능한 조합 내에서 선정되고, 순차, 역순, 랜덤 등 어떠한 방식으로 선정되더라도 무방하다.
단계(S240)에서, 최적 통계 모델 결정 장치(100)는 상기 결정된 종속 변수의 분포 타입 및 연결 함수의 타입을 갖는 복수의 통계 모델 중에서 후보 통계 모델을 선정한다. 이때, 상기 복수의 통계 모델은 전술한 바와 같이 동일한 종속 변수의 분포 타입 및 연결 함수의 타입을 갖고, 적어도 일부는 상이한 독립 변수와 종속 변수와의 관계를 나타내는 모델이다. 본 단계(S240)에 대한 자세한 설명은 도 12를 참조하여 후술하도록 한다.
단계(S260)에서, 최적 통계 모델 결정 장치(100)는 지정된 반복 종료 조건이 만족되는지 여부를 판정한다. 상기 반복 종료 조건은 상기 제1 실시예에 대한 설명 부분을 참조하도록 한다.
단계(S280)에서, 최적 통계 모델 결정 장치(100)는 최적 통계 모델을 결정한다. 자세하게는, 상기 반복 종료 조건이 지역적 최소점을 가리키는 오차 검출인 경우, 상기 지역적 최소점에 해당하는 오차를 갖는 후보 모델이 상기 최적 통계 모델로 결정된다. 유사하게, 상기 반복 종료 조건이 전역적 최소점을 갖는 오차 검출인 경우, 상기 전역적 최소점에 해당하는 오차를 갖는 후보 모델이 상기 최적 통계 모델로 결정된다. 상기 반복 종료 조건이 소정의 반복 횟수인 경우, 복수의 후보 통계 모델 중에서 최소 오차를 갖는 후보 모델이 상기 최적 통계 모델로 결정된다. 다음으로, 도 12를 참조하여, 단계(S240)에서 수행되는 상세 과정에 대하여 설명하도록 한다.
도 12는 본 발명의 일 실시예에 따른 후보 모델 결정 방법을 나타내는 흐름도이다.
도 12를 참조하면, 단계(S241)에서, 최적 통계 모델 결정 장치(100)는 분석 대상 데이터의 변량을 기초로 m개의 독립 변수를 결정한다. 이에 대한 설명은 상기 제1 실시예에 대한 설명 부분을 참조하도록 한다.
단계(S243)에서, 최적 통계 모델 결정 장치(100)는 m개의 독립 변수와 종속 변수와의 관계를 나타내는 통계 모델을 구축한다.
단계(S245)에서, 최적 통계 모델 결정 장치(100)는 구축된 통계 모델의 오차를 산출한다. 이에 대한 설명은 상기 제1 실시예에 대한 설명 부분을 참조하도록 한다.
단계(S245)에서, 최적 통계 모델 결정 장치(100)는 지정된 반복 종료 조건이 만족되는지 여부를 판정한다. 반복 종료 조건 불만족 판정에 응답하여, 단계(S241) 내지 단계(S245)가 반복하여 수행된다. 이때, m의 값이 변경될 수 있다. 상기 m의 값을 변경시키는 방법에 대한 설명은 상기 제1 실시예에 대한 설명 부분을 참조하도록 한다.
지정된 반복 종료 조건 만족 판정에 응답하여, 단계(S247)에서, 최적 통계 모델 결정 장치(100)는 복수의 통계 모델 중에서 후보 통계 모델을 선정한다. 자세하게는, 지정된 반복 종료 조건이 지역적 최소점을 가리키는 오차 검출인 경우, 상기 지역적 최소점에 해당하는 오차를 갖는 통계 모델이 후보 모델로 결정된다. 유사하게, 지정된 반복 종료 조건이 전역적 최소점을 가리키는 오차 검출인 경우, 상기 전역적 최소점에 해당하는 오차를 갖는 통계 모델이 후보 모델로 결정된다. 지정된 반복 종료 조건이 소정의 반복 횟수인 경우, 복수의 통계 모델 중에서 최소 오차를 갖는 통계 모델이 후보 모델로 선정된다.
지금까지, 도 10 내지 도 12를 참조하여 본 발명의 제2 실시예에 따른 최적 통계 모델 결정 방법에 대하여 설명하였다.
지금까지 도 2 내지 도 12를 참조하여 본 발명의 몇몇 실시예들에 대하여 설명하였다. 아울러, 본 발명의 몇몇 실시예들에 따른 효과를 언급하였다. 본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 도 2 내지 도 12를 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims (18)

  1. 최적 통계 모델 결정 장치에서 수행되는 방법에 있어서,
    복수의 독립 변수와 종속 변수에 관한 분석 대상 데이터를 획득하는 제1 단계;
    독립 변수의 변량(variance)을 기초로 m개(단, m은 1 이상의 자연수)의 독립 변수를 결정하는 제2 단계;
    상기 m개의 독립 변수와 상기 종속 변수와의 관계를 나타내는 제1 통계 모델을 구축하고, 상기 제1 통계 모델에 대한 제1 오차를 산출하는 제3 단계;
    상기 변량을 기초로 독립 변수를 추가하거나 제외하는 방식으로 상기 m의 값을 변경해가며, 상기 제3 단계를 반복 수행하는 제4 단계; 및
    상기 제1 오차에 기초하여, 상기 제4 단계의 수행 과정에서 구축된 복수의 제1 통계 모델 중에서 상기 분석 대상 데이터에 이용될 통계 모델을 선정하는 제5 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  2. 제1 항에 있어서,
    상기 제1 단계는,
    상기 복수의 독립 변수 중에서 독립 관계를 갖지 않는 제1 독립 변수를 검출하는 단계;
    상기 제1 독립 변수가 검출됨에 응답하여, 상기 복수의 독립 변수 중에서 상기 제1 독립 변수를 제외하는 단계; 및
    상기 제1 독립 변수를 제외한 나머지 독립 변수에 대한 변량을 산출하는 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  3. 제2 항에 있어서,
    상기 나머지 독립 변수의 개수가 임계 값 이상인지 여부를 판정하는 단계를 더 포함하고,
    상기 제4 단계는,
    상기 임계 값 이상이라는 제1 판정에 응답하여, 지역적 최소점(local minima)에 해당하는 제1 오차가 검출될 때까지, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 단계; 및
    상기 임계 값 미만이라는 제2 판정에 응답하여, 전역적 최소점(global minima)에 해당하는 제1 오차가 검출될 때까지, 상기 제2 단계 및 상기 제3 단계를 반복 수행하는 단계를 포함하되,
    상기 분석 대상 데이터에 이용될 통계 모델은,
    상기 제1 판정에 응답하여, 상기 구축된 복수의 제1 통계 모델 중에서 상기 지역적 최소점에 해당하는 제1 오차가 산출된 통계 모델로 선정되고,
    상기 제2 판정에 응답하여, 상기 구축된 복수의 제1 통계 모델 중에서 상기 전역적 최소점에 해당하는 제1 오차가 산출된 통계 모델로 선정되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  4. 제1 항에 있어서,
    상기 구축된 제1 통계 모델은 일반화 선형 모델(generalized linear model)에 기초한 통계 모델이고,
    상기 제3 단계는,
    상기 일반화 선형 모델에 대한 종속 변수의 분포 타입 및 연결 함수의 타입을 결정하는 제3-1 단계;
    상기 결정된 종속 변수의 분포 타입 및 상기 결정된 연결 함수의 타입을 갖는 제2 통계 모델을 구축하는 제3-2 단계;
    교차 검증(cross validation)을 통해 상기 제2 통계 모델에 대한 제2 오차를 산출하는 제3-3 단계; 및
    상기 종속 변수의 분포 타입 및 상기 연결 함수의 타입 중 적어도 일부를 변경해가며, 상기 제3-1 단계 내지 상기 제3-3 단계를 반복 수행하는 제3-4 단계를 포함하되,
    상기 제1 통계 모델은,
    상기 제2 오차를 기초로 상기 제3-4 단계의 수행 과정에서 구축된 복수의 제2 통계 모델 중에서 선정된 통계 모델인 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  5. 제4 항에 있어서,
    상기 제3-4 단계는,
    지역적 최소점에 해당하는 제2 오차가 검출될 때까지, 상기 제3-1 단계 내지 상기 제3-3 단계를 반복 수행하는 단계를 포함하되,
    상기 제1 통계 모델은,
    상기 구축된 복수의 제2 통계 모델 중에서, 상기 지역적 최소점에 해당하는 제2 오차가 산출된 통계 모델로 선정되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  6. 제1 항에 있어서,
    상기 제4 단계는,
    상기 변량이 기준치 미만인 독립 변수를 제외하는 방식으로 상기 m의 값을 감소시키며, 상기 제3 단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  7. 제1 항에 있어서,
    상기 m개의 독립 변수는,
    주성분 분석(principle component analysis)을 통해 생성된 주성분 변수인 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  8. 제1 항에 있어서,
    상기 제4 단계는,
    상기 변량이 기준치 이상인 독립 변수를 추가하는 방식으로 상기 m의 값을 증가시키며, 상기 제3 단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  9. 제1 항에 있어서,
    상기 분석 대상 데이터는,
    훈련용 데이터 및 평가용 데이터를 포함하되,
    상기 제3 단계는,
    상기 분석 대상 데이터 중에서 상기 훈련용 데이터를 이용하여, 상기 제1 통계 모델을 구축하고, 상기 훈련용 데이터를 기초로 상기 제1 통계 모델에 대한 제1-1 오차를 산출하는 단계; 및
    상기 분석 대상 데이터 중에서 상기 평가용 데이터를 이용하여, 상기 제1 통계 모델에 대한 교차 검증을 수행하고, 상기 교차 검증을 통해 상기 제1 통계 모델에 대한 제1-2 오차를 산출하는 단계를 포함하되,
    상기 제1 오차는 상기 제1-1 오차 및 상기 제1-2 오차에 기초하여 결정되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  10. 제9 항에 있어서,
    상기 제1 오차는,
    상기 제1-1 오차 및 상기 제1-2 오차의 가중치 합(weighted sum)으로 결정되되,
    상기 제1-1 오차보다 상기 제1-2 오차에 더 높은 가중치가 부여되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  11. 제1 항에 있어서,
    상기 제4 단계는,
    지역적 최소점에 해당하는 제1 오차가 검출될 때까지, 상기 제3 단계를 반복 수행하는 단계를 포함하되,
    상기 분석 대상 데이터에 이용될 통계 모델은,
    상기 구축된 복수의 제1 통계 모델 중에서, 상기 지역적 최소점에 해당하는 제1 오차가 산출된 통계 모델로 선정되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  12. 제1 항에 있어서,
    상기 제1 오차는,
    오차 산출에 이용된 데이터 값의 크기에 기초한 상대적 오차로 산출되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  13. 최적 통계 모델 결정 장치에서 수행되는 방법에 있어서,
    훈련용 데이터 및 평가용 데이터를 포함하는 분석 대상 데이터를 획득하는 제1 단계;
    상기 훈련용 데이터를 이용하여, 복수의 통계 모델을 구축하는 제2 단계;
    상기 훈련용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제1 오차를 산출하는 제3 단계;
    상기 평가용 데이터를 이용하여, 상기 복수의 통계 모델 각각에 대한 제2 오차를 산출하는 제4 단계;
    상기 제1 오차 및 상기 제2 오차를 기초로, 상기 복수의 통계 모델 각각에 대한 최종 오차를 산출하는 제5 단계; 및
    상기 최종 오차의 비교 결과에 기초하여, 상기 복수의 통계 모델 중에서 상기 분석 대상 데이터에 이용될 통계 모델을 선정하는 제6 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  14. 제13 항에 있어서,
    상기 복수의 통계 모델은 일반화 선형 모델에 기초한 통계 모델이고,
    상기 분석 대상 데이터는 복수의 독립 변수 및 종속 변수로 구성되며,
    상기 제2 단계는,
    상기 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제2-1 단계;
    상기 m개의 독립 변수 및 상기 종속 변수와의 관계를 나타내는 통계 모델을 생성하는 제2-2 단계; 및
    상기 m의 값을 변경해가며, 상기 제2-2 단계를 반복 수행하여, 상기 복수의 통계 모델을 생성하는 제2-3 단계를 포함하고,
    상기 제6 단계는,
    상기 복수의 통계 모델 중에서, 상기 최종 오차가 최소가 되는 후보 통계 모델을 선정하는 제6-1 단계;
    상기 일반화 선형 모델에 대한 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 상기 제2 단계 내지 상기 제5 단계 및 상기 제6-1 단계를 반복 수행하는 제6-2 단계; 및
    상기 제6-2 단계의 수행 과정에서 선정된 후보 통계 모델 중에서, 상기 분석 대상 데이터에 이용될 통계 모델을 선정하는 제6-3 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  15. 제13 항에 있어서,
    상기 복수의 통계 모델은 일반화 선형 모델에 기초한 통계 모델이고,
    상기 분석 대상 데이터는 복수의 독립 변수와 종속 변수에 관한 데이터이며,
    상기 제2 단계는,
    상기 분석 대상 데이터의 변량을 기초로 m개(단, m는 1 이상의 자연수)의 독립 변수를 결정하는 제2-1 단계; 및
    상기 일반화 선형 모델에 대한 종속 변수의 분포 타입 및 연결 함수의 타입 중 적어도 일부를 변경해가며, 상기 m개의 독립 변수 및 상기 종속 변수와의 관계를 나타내는 상기 복수의 통계 모델을 생성하는 제2-2 단계를 포함하고,
    상기 제6 단계는,
    상기 복수의 통계 모델 중에서, 상기 최종 오차가 최소가 되는 후보 통계 모델을 선정하는 제6-1 단계;
    상기 m의 값을 변경해가며, 상기 제2 단계 내지 상기 제5 단계 및 상기 제6-1 단계를 반복 수행하는 제6-2 단계; 및
    상기 제6-2 단계의 수행 과정에서 선정된 후보 통계 모델 중에서, 상기 분석 대상 데이터에 이용될 통계 모델을 선정하는 제6-3 단계를 포함하는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  16. 제15 항에 있어서,
    상기 제6-2 단계는,
    지역적 최소점에 해당하는 상기 후보 통계 모델의 최종 오차가 검출될 때까지, 상기 제2 단계 내지 상기 제5 단계 및 상기 제6-1 단계를 반복 수행하는 단계를 포함하되,
    상기 분석 대상 데이터에 이용될 통계 모델은,
    상기 선정된 후보 통계 모델 중에서, 상기 지역적 최소점에 해당하는 최종 오차가 산출된 후보 통계 모델로 선정되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  17. 제13 항에 있어서,
    상기 최종 오차는,
    상기 제1 오차 및 상기 제2 오차의 가중치 합(weighted sum)으로 결정되되,
    상기 제1 오차보다 상기 제2 오차에 더 높은 가중치가 부여되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
  18. 제13 항에 있어서,
    상기 제1 오차 및 상기 제2 오차 각각은,
    오차 산출에 이용된 입력 데이터의 크기에 기초한 상대적 오차로 산출되는 것을 특징으로 하는,
    최적 통계 모델 결정 방법.
KR1020170144080A 2017-10-31 2017-10-31 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치 KR102045415B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170144080A KR102045415B1 (ko) 2017-10-31 2017-10-31 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치
US16/104,746 US20190129918A1 (en) 2017-10-31 2018-08-17 Method and apparatus for automatically determining optimal statistical model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170144080A KR102045415B1 (ko) 2017-10-31 2017-10-31 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20190048840A KR20190048840A (ko) 2019-05-09
KR102045415B1 true KR102045415B1 (ko) 2019-11-15

Family

ID=66243983

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170144080A KR102045415B1 (ko) 2017-10-31 2017-10-31 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치

Country Status (2)

Country Link
US (1) US20190129918A1 (ko)
KR (1) KR102045415B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11133987B2 (en) * 2018-10-24 2021-09-28 Cox Communications, Inc. Systems and methods for network configuration management
KR102363444B1 (ko) 2019-07-11 2022-02-16 두산중공업 주식회사 최적의 보일러 연소 모델 선정 장치 및 방법
KR102090239B1 (ko) * 2019-10-04 2020-03-17 주식회사 모비젠 계층융합통계정보를 활용한 고속이상탐지방법 및 그 시스템
CN110807507B (zh) * 2019-10-21 2022-07-12 苏州浪潮智能科技有限公司 用于寻找目标的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101688412B1 (ko) * 2015-09-01 2016-12-21 주식회사 에스원 종속 변수의 예측 모델링 방법 및 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2708911C (en) * 2009-07-09 2016-06-28 Accenture Global Services Gmbh Marketing model determination system
KR20130068251A (ko) 2011-12-15 2013-06-26 한국전자통신연구원 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법
KR20170087434A (ko) * 2017-07-10 2017-07-28 주식회사 인브레인 테이블 구조 및 데이터 특성에 따른 통계 분석 함수 추천 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101688412B1 (ko) * 2015-09-01 2016-12-21 주식회사 에스원 종속 변수의 예측 모델링 방법 및 시스템

Also Published As

Publication number Publication date
KR20190048840A (ko) 2019-05-09
US20190129918A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
KR102045415B1 (ko) 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치
KR102107378B1 (ko) 하이퍼파라미터 자동 최적화 방법 및 그 장치
WO2019114413A1 (zh) 模型训练
KR101936029B1 (ko) 딥러닝 기반의 가치 평가 방법 및 그 장치
Roussouly et al. A new adaptive response surface method for reliability analysis
CN108304679A (zh) 一种自适应可靠性分析方法
Renardy et al. Global sensitivity analysis of biological multiscale models
RU2016130094A (ru) Определение траектории транспортного средства
CN106909738B (zh) 一种模型参数辨识方法
WO2018143019A1 (ja) 情報処理装置、情報処理方法およびプログラム記録媒体
US6931366B2 (en) Method and apparatus for analyzing a design
Schöbi et al. PC-Kriging: a new metamodelling method combining Polynomial Chaos Expansions and Kriging
WO2020105468A1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP6744767B2 (ja) 人流予測装置、パラメータ推定装置、方法、及びプログラム
Bansal et al. A new stochastic simulation algorithm for updating robust reliability of linear structural dynamic systems subjected to future Gaussian excitations
KR20210027590A (ko) 복수의 서브 모델을 포함한 다층 인공 신경망 성능 평가 장치 및 그 방법
JP7051025B2 (ja) シミュレーション実行システム、シミュレーション実行方法およびシミュレーション実行プログラム
US9245067B2 (en) Probabilistic method and system for testing a material
JP7152938B2 (ja) 機械学習モデル構築装置および機械学習モデル構築方法
JP4871194B2 (ja) パラメータ抽出方法及び当該パラメータ抽出方法を実行させるプログラムを具備するコンピュータ読み取り可能な記憶媒体
TWI677799B (zh) 模型構築系統及模型構築方法
JP2021022051A (ja) 機械学習プログラム、機械学習方法および機械学習装置
US11347904B2 (en) Techniques for modeling behaviors of systems via transformations of authoritative models
Isomura et al. Accurate connection strength estimation based on variational Bayes for detecting synaptic plasticity
CN114580139A (zh) 用于自动评估仿真模型的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant