KR20090005506A

KR20090005506A - 분포 적합 자동화 시스템 및 방법

Info

Publication number: KR20090005506A
Application number: KR1020070068598A
Authority: KR
Inventors: 장재성; 이세정; 오가영; 김정철
Original assignee: 에스케이 텔레콤주식회사
Priority date: 2007-07-09
Filing date: 2007-07-09
Publication date: 2009-01-14
Also published as: KR100879854B1

Abstract

본 발명은 실측/조사/수집을 통해 획득된 수치 데이터를 자동으로 모델링 하는 분포 적합 자동화 시스템 및 방법에 관한 것이다.

본 발명은 a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및 b) a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고, a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;를 포함하여, 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있기 때문에, 분포 적합의 현실성과 정확성을 획득할 수 있다는 장점이 있다.

Description

분포 적합 자동화 시스템 및 방법{System and Method for Autiomatic Distribution Fitting}

본 발명은 분포 적합 자동화 시스템 및 방법에 관한 것으로서, 보다 상세하게는 실측/조사/수집을 통해 획득된 수치 데이터를 자동으로 모델링 하는 분포 적합 자동화 시스템 및 방법에 관한 것이다.

현재, 실측/조사/수집을 통해 획득된 수치 데이터(예를 들어, 트래픽 데이터, 부품의 고장시간/고장률 등)를 모델링 하는 기법 중 일반적인 편미분에 의한 분포 적합 방식인 MLE(Maximum Likelihood Estimation) 방식은 대표적인 분포의 분포모수 적합에 대해서만 개발되어 있고, 혼합분포/절단분포/분포의 이동 등을 고려하지 않았기 때문에 실질적인 데이터셋과 차이가 있다.

따라서, 실측 데이터에 가까운 분포 적합화 결과를 추정하기 위해서는 사람이 수작업을 통해 획득된 수치 데이터를 모델링 해야만 하는 문제점이 발생한다.

본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 데이터셋에 가장 적합한 분포와 이에 대한 모수를 자동으로 추정할 수 있도록 하는 분포 적합 자동화 시스템 및 방법을 제공하는데 그 기술적 과제가 있다.

또한, 본 발명은 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있도록 하는 데 목적이 있다.

상술한 목적을 달성하기 위한 본 발명은 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템에서의 분포 적합 자동화 방법으로서,

a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및 b) 상기 a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고, 상기 a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포 의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;를 포함한다.

바람직하게, 상기 a) 단계의 분포모형을 결정하는 단계는, a-1) 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분한 후, 도수 밀도를 산출하는 단계; a-2) 도수 밀도에 따라 모드(Mode) 수를 산출하는 단계; 및 a-3) 상기 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분하는 단계;를 더 포함할 수 있다.

여기에서, 상기 a-2) 단계 이후 a-3) 단계 이전에, 산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 상기 최대 모드 수를 초과하지 않도록 모드 수를 조정하는 단계;를 더 포함할 수 있다.

바람직하게, 상기 a) 단계 이전에, 복수의 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 절차를 수행하는 단계;를 더 포함할 수 있다.

바람직하게, 상기 분포모형이 일반분포인 경우,

상기 b) 단계의 일반분포 적합화 단계는, b-1) 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정하는 단계; b-2) 상기 b-1) 단계에서 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 상기 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정하 는 단계; b-3) 상기 b-1) 단계 및 상기 b-2) 단계에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의하는 단계; b-4) 상기 b-3) 단계에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출하는 단계; b-5) 상기 b-2) 단계에서 구분한 이동 모수 구간별 이동 모수를 기초로 상기 b-3) 단계 내지 b-4) 단계를 수행하여 최적값을 산출하고, 이동 모수 구간별 최적값 중 우도 함수값이 최대인 값을 선택하는 단계; b-6) 상기 b-5) 단계에서 선택된 값을 중심으로 전후 범위에 대해 일정한 개수의 구간으로 재분리하는 단계; b-7) 상기 b-6) 단계에서 분리한 구간에 대해 상기 b-3) 단계 내지 b-6) 단계를 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출하는 단계; b-8) 복수의 후보 분포 각각에 대해 상기 b-1) 단계 내지 b-7) 단계를 수행하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정하는 단계;를 포함할 수 있다.

바람직하게, b-3) 단계는,

현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수 및 이동분포의 확률 분포 함수를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의하는 것을 특징으로 한다.

바람직하게, 상기 절단분포의 확률 분포 함수는,

이며, 상기

는 절단분포의 확률 분포 함수, 상기 f(x)는 본래의 확률 분포 함수, 상기 R은 오른쪽 절단값, 상기 L은 왼쪽 절단값인 것을 특징으로 한다.

바람직하게, 상기 이동분포의 확률 분포 함수는

이며, 상기 θ는 이동 모수인 것을 특징으로 한다.

바람직하게, 상기 b-4) 단계는, 상기 b-1) 단계에서 최대 우도 추정법(MLE)을 적용하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 단계인 것을 특징으로 한다.

바람직하게, 상기 b-7) 단계는, 최대 우도 함수값을 개선하는 과정에서 이전 우도 함수값과 비교하여 현재 우도 함수값의 개선 정도가 1 미만인 경우, 최대 우도 함수값의 개선 과정을 종료하는 단계;를 더 포함할 수 있다.

바람직하게, 상기 분포모형이 혼합분포인 경우, 상기 b) 단계의 혼합분포 적합화 단계는, b-1) 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 최적값 중 우도 함수값이 가장 큰 분포를 각각 선택하는 단계; b-2) 상기 b-1) 단계에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출하는 단계; b-3) 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출하는 단계; b-4) 상기 b-3) 단계에서 산출된 혼합분포 모수의 전체 데이터에 대한 개선 과정을 수행하는 단계; 및 b-5) 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 최적값을 산출하는 단계;를 포함할 수 있다.

다른 본 발명은 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템으로서,

수집된 데이터를 입력 받는 데이터 입력부; 상기 데이터 입력부를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단하는 분포 모형 판별부; 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하는 일반분포 적합 처리부; 및 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 혼합분포 적합 처리부;를 포함한다.

바람직하게, 분포 적합 자동화 시스템은 수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 수행부;를 더 포함할 수 있다.

바람직하게, 분포 적합 자동화 시스템은 상기 일반분포 적합 처리부 및 혼합분포 적합 처리부에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기 준에 따라 검정하는 적합도 검정부; 및 상기 분포 적합 자동화 시스템과 관련된 정보를 저장하는 데이터베이스;를 더 포함할 수 있다.

상술한 바와 같이 본 발명의 분포 적합 자동화 시스템 및 방법은 데이터셋에 가장 적합한 분포와 이에 대한 모수를 자동으로 추정할 수 있다는 장점이 있다.

또한, 본 발명은 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있기 때문에, 분포 적합의 현실성과 정확성을 획득할 수 있다는 장점이 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.

먼저, 도 1은 본 발명에 의한 분포 적합 자동화 시스템의 구성을 나타내는 도면으로서, 분포 적합 방법을 설명하기 위한 도 2를 참조하여 설명하기로 한다.

분포 적합 자동화 시스템(100)은 데이터 입력부(110), 전처리 수행부(120), 분포 모형 판별부(130), 일반분포 적합 처리부(140), 혼합분포 적합 처리부(150), 적합도 검정부(160) 및 데이터베이스(170)를 포함하여, 후보 분포별 혼합분포, 절단분포 및 이동분포를 고려하여 우도 함수값을 최대화 하도록 분포 적합 과정을 수 행한 후, 후보변수 중 우도함수 값이 최대인 분포를 선택(예를 들어, 도 2의 Gamma 분포)하는 과정을 통해 데이터 분포와 가장 적합한 확률분포와 이에 대한 모수를 추정한다.

상기 후보 분포는 정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 등으로, 이는 일 예시이며, 상기에서 기재하지 않은 또 다른 분포를 적용하는 것도 가능하다.

상기 분포 적합 자동화 시스템(100)은 수학식 1을 통해 우도 함수(Likelihood Function 또는 Log-likelihood function)를 산출한다.

x : measured data vector

x_i : nth element of vector x

f(x) : 확률 분포 함수(Probability density function)

θ : Parameter vector of distribution f

한편, 수학식 1에서 확률밀도함수를 분포의 혼합, 이동, 절단 등을 고려하기 위해 다음과 같이 적용한다. 혼합분포는 두 가지 이상의 분포가 혼합된 형태로, 확률 분포 함수가 각각 f1(x), f2(x)라고 할 때, 혼합분포의 확률 분포 함수는 수학식 2와 같으며, 두 개의 분포를 서로 혼합한 경우는 수학식 3과 같다.

여기에서, p는 혼합분포의 가중 모수이다.

절단분포는 오른쪽, 왼쪽 또는 양쪽이 절단된 분포로, 본래의 확률 분포 함수가 f(x)이고, 오른쪽 R값과 왼쪽 L값에 대해 절단되었다고 가정할 경우, 확률 분포 함수는 수학식 4와 같다.

이동분포는 확률 분포 함수 식을 x축으로 이동하는 분포이므로, 확률 분포함수는 수학식 5와 같다.

여기에서, θ는 이동 모수이다.

결과적으로, 혼합분포, 절단분포, 이동분포 모두를 고려할 때, 확률 분포 함수와 우도 함수는 수학식 6과 같다.

보다 상세히 설명하면, 데이터 입력부(110)는 수집된 데이터를 입력 받는다.

전처리 수행부(120)는 수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 등의 전처리 절차를 수행한다.

예를 들어, 전처리 수행부(120)는 데이터 수집 과정에서 발생한 공백(Null), 문자(Text) 및 0 이하의 데이터를 제거하고, 오버플로우(Overflow)를 교정하는 등의 오류 수정 작업을 수행하며, 기 설정된 조건에 따라 이상치 제거 작업을 수행한다.

분포 모형 판별부(130)는 데이터 입력부(110)를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단한다.

예를 들어, 분포 모형 판별부(130)는 도수 밀도에 따라 산출된 모드 수가1인 경우 일반분포로 간주하고, 모드 수가 2 이상인 경우 혼합분포로 간주하는 데, 이에 대한 상세한 설명은 후술하기로 한다.

일반분포 적합 처리부(140)는 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행한다.

혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행한다.

적합도 검정부(160)는 상기 일반분포 적합 처리부(140) 및 혼합분포 적합 처리부(150)에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기준에 따 라 검정한다.

데이터베이스(170)는 분포 적합 자동화 시스템(100)과 관련된 정보를 저장한다.

도 3은 본 발명에 의한 분포 적합 자동화 방법의 일 실시예를 설명하기 위한 흐름도이다.

먼저, 분포 적합 자동화 시스템(100)의 전처리 수행부(120)는 데이터 입력부(110)를 통해 수집된 데이터를 수신하면, 적합화 과정을 위한 전처리 절차를 수행한다(S101).

이어서, 분포 모형 판별부(130)는 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단한다(S103). 여기에서, 분포 모형 판별부(130)는 일반분포 또는 혼합분포 중 어느 분포인지 여부를 판단한다.

단계 S103의 결과, 분포모형이 일반분포인 경우, 일반분포 적합 처리부(140)는 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행한다(S105). 여기에서, 후보 분포는 정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 등으로, 이는 일 예시이며, 상기에서 기재하지 않은 또 다른 분포를 적용하는 것도 가능하다.

이후, 적합도 검정부(160)는 단계 S105의 결과 산출된 최적의 확률분포와 확률분포 모수를 기 설정된 조건에 따라 검정한다(S107).

한편, 단계 S103의 결과, 분포모형이 혼합분포인 경우, 혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행한다(S109).

도 4는 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 분포 모형 판별 단계(S103)를 보다 상세하게 설명하기로 한다.

분포 모형 판별부(130)는 단계 S101에서 수신한 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분한 후, 도수 밀도를 산출한다(S201).

예를 들어, 분포 모형 판별부(130)는 최소값으로부터 최대값의 구간을 10개의 구간으로 구분한 후, 수학식 7을 이용하여 도수 밀도를 산출한다.

(i)번째 구간의 도수밀도 = (i)번째 구간의 데이터 개수 / 전체 데이터 개수

이어서, 분포 모형 판별부(130)는 단계 S201에서 산출된 도수 밀도에 따라 모드(Mode)(최빈값) 수를 산출한다(S203).

예를 들어, 분포 모형 판별부(130)는 특정 구간의 도수 밀도가 좌우 인접 구간의 도수 밀도보다 값이 크면, 모드 수 1 증가하는 방식과 특정 구간의 도수 밀도가 1%에 미치지 못하면 구간에서 제외하는 방식을 적용하여 모드 수를 산출한다.

만약, 단계 S203에서 산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 최대 모드 수를 초과하지 않도록 모드 수를 조정한다(S205). 본 발명에서는 최대 모드 수를 2로 설정하는 것이 바람직하다.

분포 모형 판별부(130)는 단계 S203과 단계 S205를 통해 산출된 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분한다(S207).

단계 S207에서, 분포 모형 판별부(130)는 극대값이 1일 경우 일반분포로, 1 이상일 경우 혼합분포로 구분한다.

도 5는 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 일반분포 적합화 과정(S105)을 보다 상세하게 설명하기로 한다.

먼저, 일반분포 적합 처리부(140)는 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정한다(S301 ~ S305).

이어서, 일반분포 적합 처리부(140)는 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정한다(S307, S309).

예를 들어, 이동 모수 범위는 데이터가 존재하는 최소값으로부터 최대값까지의 구간(Range = 최대값 - 최소값)의 이전 구간으로, -Range/2으로부터 최소값까지의 범위를 의미한다.

일반분포 적합 처리부(140)는 단계 S303 및 S309에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의한다(S311).

여기에서, 일반분포 적합 처리부(140)는 현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수(수학식 4) 및 이동분포의 확률 분포 함수(수학식 5)를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의한다.

일반분포 적합 처리부(140)는 단계 S311에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출한다.

여기에서, 일반분포 적합 처리부(140)는 단계 S305에서 우도함수를 최대값으로 하는 모수값을 찾기 위하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 데, 이 때, 비선형 최적화 방법의 하나인 심플렉스(Simplex) 방식을 적용한다.

일반분포 적합 처리부(140)는 단계 S309에서 구분한 이동 모수 구간별 이동 모수를 기초로 단계 S309 내지 S311을 반복 수행하여 최적값을 산출하고, 이동 모수 구간별 최적 값 중 우도 함수값이 최대인 값을 선택한다(S313).

일반분포 적합 처리부(140)는 단계 S313에서 선택된 값을 중심으로 전후 범 위에 대해 일정한 개수의 구간으로 재분리 한다(S315).

이어서, 일반분포 적합 처리부(140)는 단계 S315에서 분리한 구간에 대해 단계 S311 내지 S313을 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출한다(S317).

여기에서, 일반분포 적합 처리부(140)는 최대 우도 함수값을 개선할 때, 도 6(우도 함수값에 - 표시 생략)에서 도시하는 것과 같이 이전 우도 함수값(-2000.340)과 비교하여 현재 우도 함수값(-1999.846)의 개선 정도가 1 미만인 경우, 이동 모수의 분리과정을 종료한다.

마지막으로, 일반분포 적합 처리부(140)는 복수의 후보 분포 각각에 대해 단계 S301 내지 S315를 수행하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정한다(S319).

단계 S319에서 산출된 최적의 확률분포는 도 7에서 도시하는 것과 같이, 분포의 이동 등을 반영한 상태로 표시된다.

도 8은 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 혼합분포 적합화 과정(S109)을 보다 상세하게 설명하기로 한다.

혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋(좌/우)에 대한 후보 분포별 최적값을 일반분포의 적합화 과정과 같이 산출하고, 최적값 중 우도 함수값이 가장 큰 분포 와 해당 분포의 모수를 각각 선택한다(S401, S403).

이어서, 혼합분포 적합 처리부(150)는 단계 S403에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출한다(S405). 여기에서, 혼합분포 적합 처리부(150)는 데이터셋의 최대값과 최소값을 절단 모수로 설정한다.

혼합분포 적합 처리부(150)는 단계 S405에서 가중함수의 선형검색을 통해 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출한다(S407).

예를 들어, 혼합분포 적합 처리부(150)에 의해서 가중 모수값을 0에서 1사이 0.01 단위로 삽입하여 우도함수값의 개선과정을 확인하고, 이를 통해 산출된 가중 모수값을 적용한 적합결과의 표시 예는 도 9에서 도시하는 것과 같다.

이후, 혼합분포 적합 처리부(150)는 이전 단계에서 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 전체 데이터에 대해, 우도 함수가 최대가 되는 모수값을 산출한다(S409).

여기에서, 혼합분포 적합 처리부(150)가 산출해야 하는 모수(가중 모수(w), 분포 모수(

), 절단 모수(

) 등)를 최적화하는 수식은 수학식 8과 같다.

sub to 0≤w≤1

where f(x) is a pdf of mixed distribution

예를 들어, 혼합 분포 적합 처리부(150)에 의해서 심플렉스 방식을 적용한 분포 적합 표시예는 도 10에서 도시하는 것과 같으며, 도 9에서 나타내는 분포 모형에 비해 실측 데이터에 더욱 가까운 것을 확인할 수 있다.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

이상과 같이, 본 발명에 따른 분포 적합 자동화 시스템은, 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정하여, 분포 적합의 현실성과 정확성을 획득할 필요성이 높은 것에 적합하다.

도 1은 본 발명에 의한 분포 적합 자동화 시스템의 구성을 나타내는 도면,

도 2는 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 1 예시도,

도 3은 본 발명에 의한 분포 적합 자동화 방법의 일 실시예를 설명하기 위한 흐름도,

도 4는 본 발명에 의한 분포 모형 판별 방법을 설명하기 위한 흐름도,

도 5는 본 발명에 의한 일반분포 적합화 방법을 설명하기 위한 흐름도,

도 6은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 2 예시도,

도 7은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 3 예시도,

도 8은 본 발명에 의한 혼합분포 적합화 방법을 설명하기 위한 흐름도,

도 9는 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 4 예시도,

도 10은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 5 예시도이다.

<도면의 주요부분에 대한 부호의 설명>

100 : 분포 적합 자동화 시스템 110 : 데이터 입력부

120 : 전처리 수행부 130 : 분포 모형 판별부

140 : 일반분포 적합 처리부 150 : 혼합분포 적합 처리부

160 : 적합도 검정부 170 : 데이터베이스

Claims

특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템에서의 분포 적합 자동화 방법으로서,

a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및

b) 상기 a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고,

상기 a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;

를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제1항에 있어서,

상기 a) 단계의 분포모형을 결정하는 단계는,

a-1) 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분 한 후, 도수 밀도를 산출하는 단계;

a-2) 도수 밀도에 따라 모드(Mode) 수를 산출하는 단계; 및

a-3) 상기 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분하는 단계;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제2항에 있어서,

상기 a-2) 단계 이후 a-3) 단계 이전에,

산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 상기 최대 모드 수를 초과하지 않도록 모드 수를 조정하는 단계;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제1항에 있어서,

상기 a) 단계 이전에,

복수의 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 절차를 수행하는 단계;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제1항에 있어서,

상기 분포모형이 일반분포인 경우,

상기 b) 단계의 일반분포 적합화 단계는,

b-1) 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정하는 단계;

b-2) 상기 b-1) 단계에서 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 상기 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정하는 단계;

b-3) 상기 b-1) 단계 및 상기 b-2) 단계에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의하는 단계;

b-4) 상기 b-3) 단계에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출하는 단계;

b-5) 상기 b-2) 단계에서 구분한 이동 모수 구간별 이동 모수를 기초로 상기 b-3) 단계 내지 b-4) 단계를 수행하여 최적값을 산출하고, 이동 모수 구간별 최적값 중 우도 함수값이 최대인 값을 선택하는 단계;

b-6) 상기 b-5) 단계에서 선택된 값을 중심으로 전후 범위에 대해 일정한 개수의 구간으로 재분리하는 단계;

b-7) 상기 b-6) 단계에서 분리한 구간에 대해 상기 b-3) 단계 내지 b-6) 단계를 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출하는 단계;

b-8) 복수의 후보 분포 각각에 대해 상기 b-1) 단계 내지 b-7) 단계를 수행 하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정하는 단계;

를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제5항에 있어서,

상기 b-3) 단계는,

현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수 및 이동분포의 확률 분포 함수를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의하는 것을 특징으로 하는 분포 적합 자동화 방법.
제6항에 있어서,

상기 절단분포의 확률 분포 함수는,

이며,

상기
는 절단분포의 확률 분포 함수, 상기 f(x)는 본래의 확률 분포 함수, 상기 R은 오른쪽 절단값, 상기 L은 왼쪽 절단값인 것을 특징으로 하는 분포 적합 자동화 방법.
제6항에 있어서,

상기 이동분포의 확률 분포 함수는

이며,

상기 θ는 이동 모수인 것을 특징으로 하는 분포 적합 자동화 방법.
제5항에 있어서,

상기 b-4) 단계는,

상기 b-1) 단계에서 최대 우도 추정법(MLE)을 적용하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 단계인 것을 특징으로 하는 분포 적합 자동화 방법.
제5항에 있어서,

상기 b-4) 단계에서,

비선형계획 최적화 방식인 심플렉스(Simplex) 방식을 적용하여 분포 모수를 산출하는 것을 특징으로 하는 분포 적합 자동화 방법.
제5항에 있어서,

상기 b-7) 단계는,

최대 우도 함수값을 개선하는 과정에서 이전 우도 함수값과 비교하여 현재 우도 함수값의 개선 정도가 1 미만인 경우, 최대 우도 함수값의 개선 과정을 종료하는 단계;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제1항에 있어서,

상기 분포모형이 혼합분포인 경우,

상기 b) 단계의 혼합분포 적합화 단계는,

b-1) 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 최적값 중 우도 함수값이 가장 큰 분포를 각각 선택하는 단계;

b-2) 상기 b-1) 단계에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출하는 단계;

b-3) 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출하는 단계;

b-4) 상기 b-3) 단계에서 산출된 혼합분포 모수의 전체 데이터에 대한 개선 과정을 수행하는 단계; 및

b-5) 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 최적값을 산출하는 단계;

를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,

상기 후보 분포는,

정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 또는 이들의 조합 중 어느 하나인 것을 특징으로 하는 분포 적합 자동화 방법.
특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템으로서,

수집된 데이터를 입력 받는 데이터 입력부;

상기 데이터 입력부를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단하는 분포 모형 판별부;

후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하는 일반분포 적합 처리부; 및

기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 혼합분포 적합 처리 부;

를 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
제14항에 있어서,

수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 수행부;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
제14항에 있어서,

상기 일반분포 적합 처리부 및 혼합분포 적합 처리부에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기준에 따라 검정하는 적합도 검정부; 및

상기 분포 적합 자동화 시스템과 관련된 정보를 저장하는 데이터베이스;

를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
제14항에 있어서,

상기 후보 분포는,

정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 또는 이들의 조합 중 어느 하나인 것을 특징으로 하는 분포 적합 자동화 시스템.