KR20090005506A - 분포 적합 자동화 시스템 및 방법 - Google Patents

분포 적합 자동화 시스템 및 방법 Download PDF

Info

Publication number
KR20090005506A
KR20090005506A KR1020070068598A KR20070068598A KR20090005506A KR 20090005506 A KR20090005506 A KR 20090005506A KR 1020070068598 A KR1020070068598 A KR 1020070068598A KR 20070068598 A KR20070068598 A KR 20070068598A KR 20090005506 A KR20090005506 A KR 20090005506A
Authority
KR
South Korea
Prior art keywords
distribution
parameter
value
candidate
probability
Prior art date
Application number
KR1020070068598A
Other languages
English (en)
Other versions
KR100879854B1 (ko
Inventor
장재성
이세정
오가영
김정철
Original Assignee
에스케이 텔레콤주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 텔레콤주식회사 filed Critical 에스케이 텔레콤주식회사
Priority to KR1020070068598A priority Critical patent/KR100879854B1/ko
Publication of KR20090005506A publication Critical patent/KR20090005506A/ko
Application granted granted Critical
Publication of KR100879854B1 publication Critical patent/KR100879854B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 실측/조사/수집을 통해 획득된 수치 데이터를 자동으로 모델링 하는 분포 적합 자동화 시스템 및 방법에 관한 것이다.
본 발명은 a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및 b) a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고, a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;를 포함하여, 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있기 때문에, 분포 적합의 현실성과 정확성을 획득할 수 있다는 장점이 있다.

Description

분포 적합 자동화 시스템 및 방법{System and Method for Autiomatic Distribution Fitting}
본 발명은 분포 적합 자동화 시스템 및 방법에 관한 것으로서, 보다 상세하게는 실측/조사/수집을 통해 획득된 수치 데이터를 자동으로 모델링 하는 분포 적합 자동화 시스템 및 방법에 관한 것이다.
현재, 실측/조사/수집을 통해 획득된 수치 데이터(예를 들어, 트래픽 데이터, 부품의 고장시간/고장률 등)를 모델링 하는 기법 중 일반적인 편미분에 의한 분포 적합 방식인 MLE(Maximum Likelihood Estimation) 방식은 대표적인 분포의 분포모수 적합에 대해서만 개발되어 있고, 혼합분포/절단분포/분포의 이동 등을 고려하지 않았기 때문에 실질적인 데이터셋과 차이가 있다.
따라서, 실측 데이터에 가까운 분포 적합화 결과를 추정하기 위해서는 사람이 수작업을 통해 획득된 수치 데이터를 모델링 해야만 하는 문제점이 발생한다.
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 데이터셋에 가장 적합한 분포와 이에 대한 모수를 자동으로 추정할 수 있도록 하는 분포 적합 자동화 시스템 및 방법을 제공하는데 그 기술적 과제가 있다.
또한, 본 발명은 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있도록 하는 데 목적이 있다.
상술한 목적을 달성하기 위한 본 발명은 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템에서의 분포 적합 자동화 방법으로서,
a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및 b) 상기 a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고, 상기 a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포 의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;를 포함한다.
바람직하게, 상기 a) 단계의 분포모형을 결정하는 단계는, a-1) 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분한 후, 도수 밀도를 산출하는 단계; a-2) 도수 밀도에 따라 모드(Mode) 수를 산출하는 단계; 및 a-3) 상기 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분하는 단계;를 더 포함할 수 있다.
여기에서, 상기 a-2) 단계 이후 a-3) 단계 이전에, 산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 상기 최대 모드 수를 초과하지 않도록 모드 수를 조정하는 단계;를 더 포함할 수 있다.
바람직하게, 상기 a) 단계 이전에, 복수의 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 절차를 수행하는 단계;를 더 포함할 수 있다.
바람직하게, 상기 분포모형이 일반분포인 경우,
상기 b) 단계의 일반분포 적합화 단계는, b-1) 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정하는 단계; b-2) 상기 b-1) 단계에서 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 상기 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정하 는 단계; b-3) 상기 b-1) 단계 및 상기 b-2) 단계에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의하는 단계; b-4) 상기 b-3) 단계에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출하는 단계; b-5) 상기 b-2) 단계에서 구분한 이동 모수 구간별 이동 모수를 기초로 상기 b-3) 단계 내지 b-4) 단계를 수행하여 최적값을 산출하고, 이동 모수 구간별 최적값 중 우도 함수값이 최대인 값을 선택하는 단계; b-6) 상기 b-5) 단계에서 선택된 값을 중심으로 전후 범위에 대해 일정한 개수의 구간으로 재분리하는 단계; b-7) 상기 b-6) 단계에서 분리한 구간에 대해 상기 b-3) 단계 내지 b-6) 단계를 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출하는 단계; b-8) 복수의 후보 분포 각각에 대해 상기 b-1) 단계 내지 b-7) 단계를 수행하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정하는 단계;를 포함할 수 있다.
바람직하게, b-3) 단계는,
현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수 및 이동분포의 확률 분포 함수를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의하는 것을 특징으로 한다.
바람직하게, 상기 절단분포의 확률 분포 함수는,
Figure 112007049791854-PAT00001
이며, 상기
Figure 112007049791854-PAT00002
는 절단분포의 확률 분포 함수, 상기 f(x)는 본래의 확률 분포 함수, 상기 R은 오른쪽 절단값, 상기 L은 왼쪽 절단값인 것을 특징으로 한다.
바람직하게, 상기 이동분포의 확률 분포 함수는
Figure 112007049791854-PAT00003
이며, 상기 θ는 이동 모수인 것을 특징으로 한다.
바람직하게, 상기 b-4) 단계는, 상기 b-1) 단계에서 최대 우도 추정법(MLE)을 적용하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 단계인 것을 특징으로 한다.
바람직하게, 상기 b-7) 단계는, 최대 우도 함수값을 개선하는 과정에서 이전 우도 함수값과 비교하여 현재 우도 함수값의 개선 정도가 1 미만인 경우, 최대 우도 함수값의 개선 과정을 종료하는 단계;를 더 포함할 수 있다.
바람직하게, 상기 분포모형이 혼합분포인 경우, 상기 b) 단계의 혼합분포 적합화 단계는, b-1) 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 최적값 중 우도 함수값이 가장 큰 분포를 각각 선택하는 단계; b-2) 상기 b-1) 단계에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출하는 단계; b-3) 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출하는 단계; b-4) 상기 b-3) 단계에서 산출된 혼합분포 모수의 전체 데이터에 대한 개선 과정을 수행하는 단계; 및 b-5) 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 최적값을 산출하는 단계;를 포함할 수 있다.
다른 본 발명은 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템으로서,
수집된 데이터를 입력 받는 데이터 입력부; 상기 데이터 입력부를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단하는 분포 모형 판별부; 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하는 일반분포 적합 처리부; 및 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 혼합분포 적합 처리부;를 포함한다.
바람직하게, 분포 적합 자동화 시스템은 수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 수행부;를 더 포함할 수 있다.
바람직하게, 분포 적합 자동화 시스템은 상기 일반분포 적합 처리부 및 혼합분포 적합 처리부에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기 준에 따라 검정하는 적합도 검정부; 및 상기 분포 적합 자동화 시스템과 관련된 정보를 저장하는 데이터베이스;를 더 포함할 수 있다.
상술한 바와 같이 본 발명의 분포 적합 자동화 시스템 및 방법은 데이터셋에 가장 적합한 분포와 이에 대한 모수를 자동으로 추정할 수 있다는 장점이 있다.
또한, 본 발명은 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정할 수 있기 때문에, 분포 적합의 현실성과 정확성을 획득할 수 있다는 장점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
먼저, 도 1은 본 발명에 의한 분포 적합 자동화 시스템의 구성을 나타내는 도면으로서, 분포 적합 방법을 설명하기 위한 도 2를 참조하여 설명하기로 한다.
분포 적합 자동화 시스템(100)은 데이터 입력부(110), 전처리 수행부(120), 분포 모형 판별부(130), 일반분포 적합 처리부(140), 혼합분포 적합 처리부(150), 적합도 검정부(160) 및 데이터베이스(170)를 포함하여, 후보 분포별 혼합분포, 절단분포 및 이동분포를 고려하여 우도 함수값을 최대화 하도록 분포 적합 과정을 수 행한 후, 후보변수 중 우도함수 값이 최대인 분포를 선택(예를 들어, 도 2의 Gamma 분포)하는 과정을 통해 데이터 분포와 가장 적합한 확률분포와 이에 대한 모수를 추정한다.
상기 후보 분포는 정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 등으로, 이는 일 예시이며, 상기에서 기재하지 않은 또 다른 분포를 적용하는 것도 가능하다.
상기 분포 적합 자동화 시스템(100)은 수학식 1을 통해 우도 함수(Likelihood Function 또는 Log-likelihood function)를 산출한다.
Figure 112007049791854-PAT00004
x : measured data vector
xi : nth element of vector x
f(x) : 확률 분포 함수(Probability density function)
θ : Parameter vector of distribution f
한편, 수학식 1에서 확률밀도함수를 분포의 혼합, 이동, 절단 등을 고려하기 위해 다음과 같이 적용한다. 혼합분포는 두 가지 이상의 분포가 혼합된 형태로, 확률 분포 함수가 각각 f1(x), f2(x)라고 할 때, 혼합분포의 확률 분포 함수는 수학식 2와 같으며, 두 개의 분포를 서로 혼합한 경우는 수학식 3과 같다.
Figure 112007049791854-PAT00005
Figure 112007049791854-PAT00006
여기에서, p는 혼합분포의 가중 모수이다.
절단분포는 오른쪽, 왼쪽 또는 양쪽이 절단된 분포로, 본래의 확률 분포 함수가 f(x)이고, 오른쪽 R값과 왼쪽 L값에 대해 절단되었다고 가정할 경우, 확률 분포 함수는 수학식 4와 같다.
Figure 112007049791854-PAT00007
이동분포는 확률 분포 함수 식을 x축으로 이동하는 분포이므로, 확률 분포함수는 수학식 5와 같다.
Figure 112007049791854-PAT00008
여기에서, θ는 이동 모수이다.
결과적으로, 혼합분포, 절단분포, 이동분포 모두를 고려할 때, 확률 분포 함수와 우도 함수는 수학식 6과 같다.
Figure 112007049791854-PAT00009
Figure 112007049791854-PAT00010
보다 상세히 설명하면, 데이터 입력부(110)는 수집된 데이터를 입력 받는다.
전처리 수행부(120)는 수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 등의 전처리 절차를 수행한다.
예를 들어, 전처리 수행부(120)는 데이터 수집 과정에서 발생한 공백(Null), 문자(Text) 및 0 이하의 데이터를 제거하고, 오버플로우(Overflow)를 교정하는 등의 오류 수정 작업을 수행하며, 기 설정된 조건에 따라 이상치 제거 작업을 수행한다.
분포 모형 판별부(130)는 데이터 입력부(110)를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단한다.
예를 들어, 분포 모형 판별부(130)는 도수 밀도에 따라 산출된 모드 수가1인 경우 일반분포로 간주하고, 모드 수가 2 이상인 경우 혼합분포로 간주하는 데, 이에 대한 상세한 설명은 후술하기로 한다.
일반분포 적합 처리부(140)는 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행한다.
혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행한다.
적합도 검정부(160)는 상기 일반분포 적합 처리부(140) 및 혼합분포 적합 처리부(150)에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기준에 따 라 검정한다.
데이터베이스(170)는 분포 적합 자동화 시스템(100)과 관련된 정보를 저장한다.
도 3은 본 발명에 의한 분포 적합 자동화 방법의 일 실시예를 설명하기 위한 흐름도이다.
먼저, 분포 적합 자동화 시스템(100)의 전처리 수행부(120)는 데이터 입력부(110)를 통해 수집된 데이터를 수신하면, 적합화 과정을 위한 전처리 절차를 수행한다(S101).
이어서, 분포 모형 판별부(130)는 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단한다(S103). 여기에서, 분포 모형 판별부(130)는 일반분포 또는 혼합분포 중 어느 분포인지 여부를 판단한다.
단계 S103의 결과, 분포모형이 일반분포인 경우, 일반분포 적합 처리부(140)는 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행한다(S105). 여기에서, 후보 분포는 정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 등으로, 이는 일 예시이며, 상기에서 기재하지 않은 또 다른 분포를 적용하는 것도 가능하다.
이후, 적합도 검정부(160)는 단계 S105의 결과 산출된 최적의 확률분포와 확률분포 모수를 기 설정된 조건에 따라 검정한다(S107).
한편, 단계 S103의 결과, 분포모형이 혼합분포인 경우, 혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행한다(S109).
도 4는 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 분포 모형 판별 단계(S103)를 보다 상세하게 설명하기로 한다.
분포 모형 판별부(130)는 단계 S101에서 수신한 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분한 후, 도수 밀도를 산출한다(S201).
예를 들어, 분포 모형 판별부(130)는 최소값으로부터 최대값의 구간을 10개의 구간으로 구분한 후, 수학식 7을 이용하여 도수 밀도를 산출한다.
(i)번째 구간의 도수밀도 = (i)번째 구간의 데이터 개수 / 전체 데이터 개수
이어서, 분포 모형 판별부(130)는 단계 S201에서 산출된 도수 밀도에 따라 모드(Mode)(최빈값) 수를 산출한다(S203).
예를 들어, 분포 모형 판별부(130)는 특정 구간의 도수 밀도가 좌우 인접 구간의 도수 밀도보다 값이 크면, 모드 수 1 증가하는 방식과 특정 구간의 도수 밀도가 1%에 미치지 못하면 구간에서 제외하는 방식을 적용하여 모드 수를 산출한다.
만약, 단계 S203에서 산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 최대 모드 수를 초과하지 않도록 모드 수를 조정한다(S205). 본 발명에서는 최대 모드 수를 2로 설정하는 것이 바람직하다.
분포 모형 판별부(130)는 단계 S203과 단계 S205를 통해 산출된 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분한다(S207).
단계 S207에서, 분포 모형 판별부(130)는 극대값이 1일 경우 일반분포로, 1 이상일 경우 혼합분포로 구분한다.
도 5는 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 일반분포 적합화 과정(S105)을 보다 상세하게 설명하기로 한다.
먼저, 일반분포 적합 처리부(140)는 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정한다(S301 ~ S305).
이어서, 일반분포 적합 처리부(140)는 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정한다(S307, S309).
예를 들어, 이동 모수 범위는 데이터가 존재하는 최소값으로부터 최대값까지의 구간(Range = 최대값 - 최소값)의 이전 구간으로, -Range/2으로부터 최소값까지의 범위를 의미한다.
일반분포 적합 처리부(140)는 단계 S303 및 S309에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의한다(S311).
여기에서, 일반분포 적합 처리부(140)는 현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수(수학식 4) 및 이동분포의 확률 분포 함수(수학식 5)를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의한다.
일반분포 적합 처리부(140)는 단계 S311에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출한다.
여기에서, 일반분포 적합 처리부(140)는 단계 S305에서 우도함수를 최대값으로 하는 모수값을 찾기 위하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 데, 이 때, 비선형 최적화 방법의 하나인 심플렉스(Simplex) 방식을 적용한다.
일반분포 적합 처리부(140)는 단계 S309에서 구분한 이동 모수 구간별 이동 모수를 기초로 단계 S309 내지 S311을 반복 수행하여 최적값을 산출하고, 이동 모수 구간별 최적 값 중 우도 함수값이 최대인 값을 선택한다(S313).
일반분포 적합 처리부(140)는 단계 S313에서 선택된 값을 중심으로 전후 범 위에 대해 일정한 개수의 구간으로 재분리 한다(S315).
이어서, 일반분포 적합 처리부(140)는 단계 S315에서 분리한 구간에 대해 단계 S311 내지 S313을 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출한다(S317).
여기에서, 일반분포 적합 처리부(140)는 최대 우도 함수값을 개선할 때, 도 6(우도 함수값에 - 표시 생략)에서 도시하는 것과 같이 이전 우도 함수값(-2000.340)과 비교하여 현재 우도 함수값(-1999.846)의 개선 정도가 1 미만인 경우, 이동 모수의 분리과정을 종료한다.
마지막으로, 일반분포 적합 처리부(140)는 복수의 후보 분포 각각에 대해 단계 S301 내지 S315를 수행하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정한다(S319).
단계 S319에서 산출된 최적의 확률분포는 도 7에서 도시하는 것과 같이, 분포의 이동 등을 반영한 상태로 표시된다.
도 8은 본 발명에 의한 분포 적합 자동화 방법을 설명하기 위한 흐름도로서, 도 3의 혼합분포 적합화 과정(S109)을 보다 상세하게 설명하기로 한다.
혼합분포 적합 처리부(150)는 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋(좌/우)에 대한 후보 분포별 최적값을 일반분포의 적합화 과정과 같이 산출하고, 최적값 중 우도 함수값이 가장 큰 분포 와 해당 분포의 모수를 각각 선택한다(S401, S403).
이어서, 혼합분포 적합 처리부(150)는 단계 S403에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출한다(S405). 여기에서, 혼합분포 적합 처리부(150)는 데이터셋의 최대값과 최소값을 절단 모수로 설정한다.
혼합분포 적합 처리부(150)는 단계 S405에서 가중함수의 선형검색을 통해 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출한다(S407).
예를 들어, 혼합분포 적합 처리부(150)에 의해서 가중 모수값을 0에서 1사이 0.01 단위로 삽입하여 우도함수값의 개선과정을 확인하고, 이를 통해 산출된 가중 모수값을 적용한 적합결과의 표시 예는 도 9에서 도시하는 것과 같다.
이후, 혼합분포 적합 처리부(150)는 이전 단계에서 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 전체 데이터에 대해, 우도 함수가 최대가 되는 모수값을 산출한다(S409).
여기에서, 혼합분포 적합 처리부(150)가 산출해야 하는 모수(가중 모수(w), 분포 모수(
Figure 112007049791854-PAT00011
), 절단 모수(
Figure 112007049791854-PAT00012
) 등)를 최적화하는 수식은 수학식 8과 같다.
Figure 112007049791854-PAT00013
sub to 0≤w≤1
where f(x) is a pdf of mixed distribution
예를 들어, 혼합 분포 적합 처리부(150)에 의해서 심플렉스 방식을 적용한 분포 적합 표시예는 도 10에서 도시하는 것과 같으며, 도 9에서 나타내는 분포 모형에 비해 실측 데이터에 더욱 가까운 것을 확인할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
이상과 같이, 본 발명에 따른 분포 적합 자동화 시스템은, 분포 적합화 과정을 수행할 때, 혼합분포, 절단분포 및 분포의 이동 등과 같이 다양한 분포 조건을 고려하여 실질적인 데이터셋에 가까운 결과를 추정하여, 분포 적합의 현실성과 정확성을 획득할 필요성이 높은 것에 적합하다.
도 1은 본 발명에 의한 분포 적합 자동화 시스템의 구성을 나타내는 도면,
도 2는 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 1 예시도,
도 3은 본 발명에 의한 분포 적합 자동화 방법의 일 실시예를 설명하기 위한 흐름도,
도 4는 본 발명에 의한 분포 모형 판별 방법을 설명하기 위한 흐름도,
도 5는 본 발명에 의한 일반분포 적합화 방법을 설명하기 위한 흐름도,
도 6은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 2 예시도,
도 7은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 3 예시도,
도 8은 본 발명에 의한 혼합분포 적합화 방법을 설명하기 위한 흐름도,
도 9는 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 4 예시도,
도 10은 본 발명에 의한 분포 적합 방법을 설명하기 위한 제 5 예시도이다.
<도면의 주요부분에 대한 부호의 설명>
100 : 분포 적합 자동화 시스템 110 : 데이터 입력부
120 : 전처리 수행부 130 : 분포 모형 판별부
140 : 일반분포 적합 처리부 150 : 혼합분포 적합 처리부
160 : 적합도 검정부 170 : 데이터베이스

Claims (17)

  1. 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템에서의 분포 적합 자동화 방법으로서,
    a) 분포 적합 자동화 시스템이 사용자에 의해 입력되는 복수의 데이터를 분석하여 분포모형을 판단하는 단계; 및
    b) 상기 a) 단계의 결과, 분포모형이 일반분포인 경우, 후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하고,
    상기 a) 단계의 결과, 분포모형이 혼합분포인 경우, 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 혼합분포의 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 단계;
    를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  2. 제1항에 있어서,
    상기 a) 단계의 분포모형을 결정하는 단계는,
    a-1) 복수 데이터의 최소값으로부터 최대값의 구간을 임의의 간격으로 구분 한 후, 도수 밀도를 산출하는 단계;
    a-2) 도수 밀도에 따라 모드(Mode) 수를 산출하는 단계; 및
    a-3) 상기 모드 수에 따라 일반분포 또는 혼합분포 중 어느 하나로 구분하는 단계;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  3. 제2항에 있어서,
    상기 a-2) 단계 이후 a-3) 단계 이전에,
    산출된 모드 수가 기 설정된 최대 모드 수를 초과하면, 상기 최대 모드 수를 초과하지 않도록 모드 수를 조정하는 단계;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  4. 제1항에 있어서,
    상기 a) 단계 이전에,
    복수의 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 절차를 수행하는 단계;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  5. 제1항에 있어서,
    상기 분포모형이 일반분포인 경우,
    상기 b) 단계의 일반분포 적합화 단계는,
    b-1) 후보 변수 데이터의 최소값과 최대값인 절단 모수를 산출하고, 복수의 후보 분포 중 어느 하나에 대해 최대 우도 추정법(MLE)을 적용하여 초기 모수를 추정하는 단계;
    b-2) 상기 b-1) 단계에서 산출된 데이터의 최소값과 최대값을 이용하여 이동 모수 범위를 산출하고, 상기 이동 모수 범위를 임의로 구분한 후 구분한 구간 중 가장 작은 값을 이동 모수로 설정하는 단계;
    b-3) 상기 b-1) 단계 및 상기 b-2) 단계에서 산출된 절단 모수 및 이동 모수를 이용하여 확률 분포 함수를 정의하는 단계;
    b-4) 상기 b-3) 단계에서 정의된 확률 분포 함수의 우도 함수를 최대화하는 분포 모수의 최적값을 산출하는 단계;
    b-5) 상기 b-2) 단계에서 구분한 이동 모수 구간별 이동 모수를 기초로 상기 b-3) 단계 내지 b-4) 단계를 수행하여 최적값을 산출하고, 이동 모수 구간별 최적값 중 우도 함수값이 최대인 값을 선택하는 단계;
    b-6) 상기 b-5) 단계에서 선택된 값을 중심으로 전후 범위에 대해 일정한 개수의 구간으로 재분리하는 단계;
    b-7) 상기 b-6) 단계에서 분리한 구간에 대해 상기 b-3) 단계 내지 b-6) 단계를 반복 수행하고, 여기서 획득된 최대 우도 함수값의 개선 과정 확인을 통해 최적값을 산출하는 단계;
    b-8) 복수의 후보 분포 각각에 대해 상기 b-1) 단계 내지 b-7) 단계를 수행 하여, 각각의 최적값을 산출하고, 산출된 최적값 중 우도 함수값이 가장 큰 해당 후보 분포를 최적의 확률분포로 설정하고, 설정된 확률분포에 대한 모수를 최적의 확률분포 모수로 설정하는 단계;
    를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  6. 제5항에 있어서,
    상기 b-3) 단계는,
    현재 적용하고 있는 후보 분포의 확률 분포 함수, 절단분포의 확률 분포 함수 및 이동분포의 확률 분포 함수를 이용하여 확률 분포 함수를 산출하고, 산출된 확률 분포 함수에 상기 절단 모수와 이동 모수를 적용하여 확률 분포 함수를 정의하는 것을 특징으로 하는 분포 적합 자동화 방법.
  7. 제6항에 있어서,
    상기 절단분포의 확률 분포 함수는,
    Figure 112007049791854-PAT00014
    이며,
    상기
    Figure 112007049791854-PAT00015
    는 절단분포의 확률 분포 함수, 상기 f(x)는 본래의 확률 분포 함수, 상기 R은 오른쪽 절단값, 상기 L은 왼쪽 절단값인 것을 특징으로 하는 분포 적합 자동화 방법.
  8. 제6항에 있어서,
    상기 이동분포의 확률 분포 함수는
    Figure 112007049791854-PAT00016
    이며,
    상기 θ는 이동 모수인 것을 특징으로 하는 분포 적합 자동화 방법.
  9. 제5항에 있어서,
    상기 b-4) 단계는,
    상기 b-1) 단계에서 최대 우도 추정법(MLE)을 적용하여 추정한 초기 모수를 초기값으로 하여 분포 모수의 최적값을 산출하는 단계인 것을 특징으로 하는 분포 적합 자동화 방법.
  10. 제5항에 있어서,
    상기 b-4) 단계에서,
    비선형계획 최적화 방식인 심플렉스(Simplex) 방식을 적용하여 분포 모수를 산출하는 것을 특징으로 하는 분포 적합 자동화 방법.
  11. 제5항에 있어서,
    상기 b-7) 단계는,
    최대 우도 함수값을 개선하는 과정에서 이전 우도 함수값과 비교하여 현재 우도 함수값의 개선 정도가 1 미만인 경우, 최대 우도 함수값의 개선 과정을 종료하는 단계;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  12. 제1항에 있어서,
    상기 분포모형이 혼합분포인 경우,
    상기 b) 단계의 혼합분포 적합화 단계는,
    b-1) 기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하고, 최적값 중 우도 함수값이 가장 큰 분포를 각각 선택하는 단계;
    b-2) 상기 b-1) 단계에서 선택된 각각의 분포를 혼합한 혼합분포의 확률 분포 함수를 산출하는 단계;
    b-3) 산출된 확률 분포 함수의 우도 함수값이 최대가 되는 가중 모수를 산출하는 단계;
    b-4) 상기 b-3) 단계에서 산출된 혼합분포 모수의 전체 데이터에 대한 개선 과정을 수행하는 단계; 및
    b-5) 산출된 모수를 초기값으로 하고, 모수에 대해 심플렉스 방식을 적용하여, 최적값을 산출하는 단계;
    를 포함하는 것을 특징으로 하는 분포 적합 자동화 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 후보 분포는,
    정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 또는 이들의 조합 중 어느 하나인 것을 특징으로 하는 분포 적합 자동화 방법.
  14. 특정 데이터에 대한 최적의 확률분포 및 확률분포의 모수를 추정하기 위한 분포 적합 자동화 시스템으로서,
    수집된 데이터를 입력 받는 데이터 입력부;
    상기 데이터 입력부를 통해 입력된 복수의 데이터 모형이 일반분포인지 또는 혼합분포인지 여부를 판단하는 분포 모형 판별부;
    후보 분포별 최적값을 산출하여, 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 일반분포 적합화를 수행하는 일반분포 적합 처리부; 및
    기 설정된 분리 조건에 따라 혼합분포의 데이터셋을 분리한 후, 분리된 각각의 데이터셋에 대한 후보 분포별 최적값을 산출하여 우도 함수값이 최대인 해당 후보 분포를 최적의 확률분포로 선택하고, 선택된 해당 후보 분포에 대한 모수를 최적의 확률분포 모수로 설정하는 혼합분포 적합화를 수행하는 혼합분포 적합 처리 부;
    를 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
  15. 제14항에 있어서,
    수집된 데이터에 대해 데이터 수집 과정에서 발생한 오류를 수정하고, 이상치를 제거하는 전처리 수행부;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
  16. 제14항에 있어서,
    상기 일반분포 적합 처리부 및 혼합분포 적합 처리부에 의해서 적합화된 확률분포 모수와 확률분포를 미리 설정된 기준에 따라 검정하는 적합도 검정부; 및
    상기 분포 적합 자동화 시스템과 관련된 정보를 저장하는 데이터베이스;
    를 더 포함하는 것을 특징으로 하는 분포 적합 자동화 시스템.
  17. 제14항에 있어서,
    상기 후보 분포는,
    정규(Normal) 분포, 로그 정규(Log-Normal) 분포, 지수(Exponential) 분포, 와이블(Weibull) 분포, 감마(Gamma) 분포, 일반 파레토(General Pareto) 분포, 균일(Uniform) 분포 또는 이들의 조합 중 어느 하나인 것을 특징으로 하는 분포 적합 자동화 시스템.
KR1020070068598A 2007-07-09 2007-07-09 분포 적합 자동화 시스템 및 방법 KR100879854B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070068598A KR100879854B1 (ko) 2007-07-09 2007-07-09 분포 적합 자동화 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070068598A KR100879854B1 (ko) 2007-07-09 2007-07-09 분포 적합 자동화 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20090005506A true KR20090005506A (ko) 2009-01-14
KR100879854B1 KR100879854B1 (ko) 2009-01-22

Family

ID=40487092

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070068598A KR100879854B1 (ko) 2007-07-09 2007-07-09 분포 적합 자동화 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR100879854B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102336679B1 (ko) * 2020-06-25 2021-12-09 켐아이넷(주) 모델선정지표 정규화 기반의 확률분포 선정 방법
KR102561776B1 (ko) * 2022-12-28 2023-08-02 (주)휴엔릭스 화학물질 누출사고의 피해등급 자동산정장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101507903B1 (ko) 2013-04-01 2015-04-07 (주)나노포인트 운전 위험 지수관련 이벤트 등록을 위한 관찰 기준 임계값 추정 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395170B2 (en) 2001-05-24 2008-07-01 Test Advantage, Inc. Methods and apparatus for data analysis
KR100706544B1 (ko) * 2005-07-29 2007-04-13 현대자동차주식회사 전산해석 신뢰도 분석방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102336679B1 (ko) * 2020-06-25 2021-12-09 켐아이넷(주) 모델선정지표 정규화 기반의 확률분포 선정 방법
KR102561776B1 (ko) * 2022-12-28 2023-08-02 (주)휴엔릭스 화학물질 누출사고의 피해등급 자동산정장치

Also Published As

Publication number Publication date
KR100879854B1 (ko) 2009-01-22

Similar Documents

Publication Publication Date Title
US11216741B2 (en) Analysis apparatus, analysis method, and non-transitory computer readable medium
CN110084271B (zh) 一种图片类别的识别方法和装置
EP2854053A1 (en) Defect prediction method and device
EP1835426A1 (en) Estimating software power consumption
CN105488539B (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
US7373332B2 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
CN108829878B (zh) 一种工业实验数据异常点检测方法及装置
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN105488599B (zh) 预测文章热度的方法和装置
KR100879854B1 (ko) 분포 적합 자동화 시스템 및 방법
US20190331721A1 (en) Noise spectrum analysis for electronic device
CN113642209B (zh) 基于数字孪生的结构植入故障响应数据获取及评判方法
CN104992050A (zh) 基于统计信号处理的时间序列特性评价的预测模型选择方法
CN112256881B (zh) 用户信息分类方法及装置
CN113762401A (zh) 自适应分类任务阈值调整方法、装置、设备及存储介质
CN105608460A (zh) 多分类器融合方法和系统
Kousathanas et al. A guide to general-purpose ABC software
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
US20060074826A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
CN114861800A (zh) 模型训练方法、概率确定方法、装置、设备、介质及产品
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
CN112785000A (zh) 面向大规模机器学习系统的机器学习模型训练方法及系统
CN110516659A (zh) 滚珠丝杠退化阶段识别方法、装置、设备及存储介质
CN115171781B (zh) 肿瘤变异位点是否为噪音的识别方法、系统、装置和介质
JP7393827B1 (ja) 出題最適化システム、出題最適化方法、及び出題最適化プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140115

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150112

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160111

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170103

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180104

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 11