KR100860410B1 - 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법 - Google Patents

두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법 Download PDF

Info

Publication number
KR100860410B1
KR100860410B1 KR1020060124040A KR20060124040A KR100860410B1 KR 100860410 B1 KR100860410 B1 KR 100860410B1 KR 1020060124040 A KR1020060124040 A KR 1020060124040A KR 20060124040 A KR20060124040 A KR 20060124040A KR 100860410 B1 KR100860410 B1 KR 100860410B1
Authority
KR
South Korea
Prior art keywords
file
variable
unique
files
regression tree
Prior art date
Application number
KR1020060124040A
Other languages
English (en)
Other versions
KR20080042642A (ko
Inventor
황정연
김세미
오기열
이석훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20080042642A publication Critical patent/KR20080042642A/ko
Application granted granted Critical
Publication of KR100860410B1 publication Critical patent/KR100860410B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/14Merging, i.e. combining at least two sets of record carriers each arranged in the same ordered sequence to produce a single set having the same ordered sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을 통해 하나의 파일을 구성하는 자료 결합 방법에 관한 것으로, 본 발명의 자료 결합 방법은 동일한 모집단에서 추출된 서로 다른 두 파일을 가지고서 첫 번째 파일의 수용파일에 있는 고유변수를 목적변수로 공통변수를 입력변수로 정한다. 그리고 두 번째 파일의 제공파일을 가지고서 고유변수를 목적변수로 공통변수를 입력변수로 정하여 나무구조를 수립하며, 수용파일의 모든 끝 노드에서 포함한 개체 수만큼 제공파일의 끝 노드 번호가 동일한 개체들을 가지고서 이중 회귀나무모형에 의한 나무구조를 다시 수립한다. 여기서 얻어진 결과에서 제공파일의 동일한 공통변수에 포함된 제공파일의 고유변수의 값을 임의의 복원추출(random sampling)에 의한 방법으로 수용파일의 고유변수 빈 영역(자료)에 포함시켜 하나의 완성된 파일로 결합하는 통계적 결합을 수행하는 것이다. 이러한 통계적 결합을 적용하면, 필요로 하는 자료 획득을 위한 시간 및 비용을 줄일 수 있고 이에 따른 경제적 효과와 효율성을 높일 수 있다.
Figure R1020060124040
회귀 나무, 통계, 결합, 수용, 제공, 공통, 이중, 고유, 변수, 파일

Description

두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을 통해 하나의 파일을 구성하기 위한 파일 결합 방법{Method for composing one file with the statistical matching using double regression tree model from two files}
도 1은 모집단에서 서로 다른 두 파일을 가지고서 하나의 완성된 파일로 결합한 통계적 결합을 나타낸 도면,
도 2는 도1과 같은 형태이지만 두 파일에서 첫 번째 파일에 없는 고유변수를 두 번째 제공파일의 고유변수를 통하여 하나의 완성된 파일로 결합을 나타낸 통계적 결합을 나타낸 도면,
도 3은 수용파일과 제공파일을 이용하여 회귀나무모형에 의한 나무구조의 예시도,
도 4는 두 파일(수용파일, 제공파일)을 이용하여 회귀나무모형에 의한 나무구조를 형성하기 위한 회귀나무모형 수행을 위한 도면,
도 5는 두 파일(수용파일, 제공파일)을 이용하여 회귀나무모형에 의한 나무구조를 형성한 결과를 가지고서 이중 회귀나무모형 수행을 위한 도면,
도 6은 동일한 모집단에서 얻어진 서로 다른 표본들로 구성된 두 파일을 가지고서 첫 번째 파일인 수용파일은 학습용 자료(training data), 두 번째 제공파일 은 검정용 자료(testing data)로 적용하여 회귀나무모형에 의한 분류를 수행하여 얻은 나무구조에 대한 결과를 나타낸 도면, 그리고
도 7은 도 6의 회귀나무모형에서 얻어진 나무구조에서 각 끝노드에 대하여 제공파일의 자료를 적용하여 이중 회귀나무모형을 수행한 다음 얻은 재분류된 나무구조에 대한 결과로서 도 6의 끝노드 개수 만큼 이중 회귀나무 모형을 동일하게 적용한 도면이다.
본 발명은 자료 결합 방법에 관한 것으로, 보다 상세하게는, 동일한 모집단에서 추출된 서로 다른 두 파일을 가지고서 통계적 결합으로 하나의 완성된 파일을 구성하는 자료 결합 방법에 관한 것이다.
현재 기업에서는 마케팅 의사결정과 전략수립에 있어 각종 데이터에 기반을 둔 접근 방법을 취하기 위하여 고객 거래 데이터 또는 고객 접촉에 의한 정보에만 의존하고 있는 것이 사실이다. 이에 일부에서는 이와 같은 접촉에 의해서만 수집된 단편적인 데이터를 결합 보완함으로써 데이터의 정보력을 높이거나 새로운 정보를 창출해 내려는 연구가 활발히 진행되고 있다.
예컨대 서로 다른 조사기관이 수행한 여론조사결과들은 조사목적에 따라서 특별한 항목을 관찰하게 되지만 그들 조사기관들은 공통적으로 조사하는 문항들을 포함하고 있다. 따라서 특별한 고유항목과 이들 공통적인 항목에 대한 관찰 값을 이용하여 각 조사기관에서 관찰된 특수항목들(고유변수)간의 관계를 추정하는 상황은 현실에서 많이 발생한다는 것이다.
이러한 자료의 결합을 데이터 퓨전(data fusion), 자료 결합(data matching) 또는 통계적 결합(statistical matching) 이라고 부른다
통계적 결합을 위한 모수적 방법은 동일한 모집단에서 임의로 추출된 서로 다른 두 표본으로부터 구성된 두 개의 파일에는 공통변수
Figure 112006090877270-pat00001
가 있고, 각각의 파일(데이터 베이스)은 서로 다른 고유변수
Figure 112006090877270-pat00002
Figure 112006090877270-pat00003
를 각각 갖고 있는 경우, 세 변수(Xi,Yi,Zi)에 대한 모수적 모형을 가정하게 된다. 대표적으로는 Kadane(1975, 2001)이 다변량 정규분포를 가정하고 통계적 결합을 시도한 것이다. 이때 일반적인 모수적 모형은 회귀모형을 사용한다. 그리고 비모수적인 모형으로는 종속변수 또는 고유변수가 이산형 자료인 경우에 의사결정나무(decision tree) 모형이라고 부른다. 또한 고유변수의 자료가 연속형 값을 갖는 경우는 의사 결정 나무 모형(decision tree model)을 회귀나무모형(regression tree model)이라고 말한다.
기존에는 의사결정나무모형을 이용하여 나무구조에 따라 분류하는 방법에만 적용하는데 그쳤으며, 종속변수(목적변수, 고유변수)가 항상 이진값을 갖는 경우에만 활용하였다.
즉, 의사결정나무(decision tree)모형에서는 분류를 위한 목적으로 적용하기 위해 항상 파일에 목적변수(고유변수)가 이진값을 갖는 형태의 자료에만 적용하였 다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제1 목적은, 동일한 모집단에서 추출된 서로 다른 두 파일로부터 하나의 완성된 파일을 얻기 위한 자료 결합 방법을 제공하는 데 있다.
본 발명의 제2 목적은, 서로 다른 두 파일 자료로부터 얻고자 하는 자료를 수집하는데 소요되는 비용 및 시간에 대한 경제성을 높이고 자료를 효율적으로 얻을 수 있는 자료 결합 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 실시예에 따른 자료 결합 방법은, 일반적인 상황에서 동일한 모집단으로부터 추출된 두 파일 수용파일(recipient file)과 제공파일(donor file)이 주어진 상태에서 공통으로 포함한 공통변수(common variable)
Figure 112006090877270-pat00004
가 존재하고, 서로 다른 종속변수인 고유변수(unique variable)
Figure 112006090877270-pat00005
값과
Figure 112006090877270-pat00006
값이 연속형 변수(continuous variable)를 갖는 경우에, 두 파일에 대하여 목적한 바의 하나의 파일로 결합을 수행하는 통계적 결합(statistical matching)을 수행하는 과정에서 이중 회귀나무모형에 의한 통계적 결합을 수행하는 것을 특징으로 한다.
본 실시예에서, 두 파일을 결합하여 목적한 바의 하나의 완성된 파일을 만들기 위한 통계적 결합방법으로써, 예를 들어, 주어진 파일(수용파일)에는 월 소득에 대한 자료와 일반적인 공통적으로 포함된 변수로만 구성되어 있을 때, 또 다른 월 소득에 따른 월 지출에 대한 것을 알고자 하는 경우 또다시 자료를 얻기 위한 설문지 및 서베이를 실시해야 하는 시간과 비용이 소요되는 문제를, 본 발명의 이중 회귀나무모형인 통계적 결합방법을 적용하여 월 지출에 대한 자료를 포함한 다른 파일(제공파일)의 자료를 이용하여 원하는 목적을 달성하도록 서로 다른 두 파일을 결합하여 알고자 하는 하나의 완성된 파일(정보)을 구축하기 위한 파일 결합 방법이다.
본 발명의 실시예에서는 목적변수가 이진값이 아닌 연속형 값을 갖는 경우 회귀나무(regression tree)모형을 적용하여 두 개의 파일을 목적한 하나의 파일로 구성한다.
본 발명은 수용파일에 있는 고유변수를 목적변수로 정하고 공통변수를 입력변수로 정하고, 수용파일은 학습용 자료(training data), 제공파일은 검정용 자료(testing data)로 이용하여 회귀나무모형에 의한 나무구조를 수립하여 수용파일의 모든 공통변수 끝노드에서 포함한 개체수 만큼 제공파일의 끝노드 번호가 동일한 개체들에서 포함된 제공파일의 고유변수의 값을 임의의 복원추출(random sampling)에 의한 방법으로 통계적 결합을 수행하는 방법이다. 그리고 본 발명은 1차로 얻어진 나무구조에서 각 끝노드에 포함된 제공파일의 자료를 이용하여 다시 이중 회귀나무모형을 적용한다. 그리하여 본 발명은 나무구조를 재형성하여 재분 류를 실시한 결과를 가지고서 통계적 결합을 수행하는 알고리즘이다.
예를 들어, 본 발명은 수용파일에는 제공파일과 동일한 공통변수(X)와 고유변수(Y)로 월 소득에 대한 자료만을 가지고 있을 때, 제공파일에만 존재하는 고유변수(Z) 월 지출에 대한 변수를 이중 회귀나무모형을 적용하여 수용파일에 결합하여 하나의 완성된 파일(X,Y,Z)을 만든다.
이에 의해, 본 발명은 목적하는 자료를 얻고자 하는 경우 별도의 시간과 자료 수집을 위한 리서치를 실시하는데 따른 많은 비용과 시간이 소요되는데 문제를 해결하여 서로 다른 자료로부터 각 자료에 포함된 공통변수에 기초하여 서로 다른 고유 변수 정보를 결합하여 얻고자하는 하나의 완성된 파일을 획득함으로써, 자료 획득을 위한 시간 및 비용을 줄일 수 있고 이에 따른 경제적 효과와 효율성을 높일 수 있다.
이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 모집단에서 서로 다른 두 파일을 가지고서 하나의 완성된 파일로 결합하는 통계적 결합 방법의 예를 도시한 도면이다.
도시된 바와 같이, 서로 다른 두 파일 수용파일과 제공파일은 각각 공통변수 X(22)를 입력변수로 갖는다. 또한 수용파일은 고유변수 Y(24)를 목적변수로 가지며, 제공파일은 고유 변수 Z(34)를 목적 변수로 갖는다.
이에 따라, 서로 다른 두 파일 수용파일과 제공파일을 결합하여 공통변수 X(22)와 고유변수 Y(24) 및 고유 변수 Z(34)를 포함하는 결합 파일(22, 24, 34)을 생성할 수 있다.
도 2는 본 발명의 바람직한 실시예에 따라 서로 다른 두 파일에서 첫 번째 파일에 없는 고유변수를 두 번째 제공파일의 고유변수를 통해 획득하여 하나의 완성된 파일로 결합하는 통계적 결합 방법을 나타낸 도면이다.
도시된 바와 같이, 서로 다른 두 파일 수용파일(X,Y)과 제공파일(X,Z)은 공통변수 X(120)를 가지며, 고유변수(목적변수)가 각각 서로 다른 Y(140) 및 Z(240)로 연속형 값을 갖는다.
이와 같이 수용파일의 고유변수 끝 단에 없는 정보가 제공파일의 고유변수 끝단에 존재하는 값이 결합됨을 알 수 있다.
이 경우, 수용파일(X,Y 120,140)과 제공파일(X,Z 120,240)의 공통변수 X(120)에 기초하여 제공파일(X,Z)의 고유변수 Z(240)를 수용파일(X,Y)의 고유변수 끝단에 결합하여 하나의 완성된 결합파일(X,Y,Z)(120,140,240)을 생성할 수 있다.
본 실시예에서 수용파일(X,Y)과 제공파일(X,Z)의 고유변수(목적변수)는 각각 서로 다른
Figure 112006090877270-pat00007
Figure 112006090877270-pat00008
로 연속형 값을 갖는다. 또한 공통변수들은 명목형 또는 순서형 값을 갖는다. 이 경우 통계적 결합 수행은 수용파일에 포함하지 않은 고유변수에 대하여 제공파일의 고유변수
Figure 112006090877270-pat00009
값을 수용 파일에 자료 결합하는 것이다.
이때 수용파일의 목적변수
Figure 112006090877270-pat00010
값을 뿌리 노드(root node)로 나머지
Figure 112006090877270-pat00011
공통변수들을 입력변수로 정하여 회귀나무모형를 수행한다. 그리고 여기서 종료하지 않고 다시 수용파일의 회귀나무 구조에서 얻어진 각 뿌리 노드에 대하여 제공파일을 검정용 자료로 적용하여 이중 회귀나무구조를 형성한다. 그리고 이중 회귀나무모형에 의한 나무구조형태의 재분류를 수행한다.
여기서 재분류된 규칙에 따라 종료된 상태에서 각 끝노드(terminal node)에 포함된 제공파일 개체들의 목적변수(고유변수)
Figure 112006090877270-pat00012
값을 수용파일의 끝노드에 포함된 개체 수 만큼 랜덤하게 복원추출하여 그 노드의 수용파일에 속한
Figure 112006090877270-pat00013
값으로 임의 할당하는 방식으로 개체들의 통계적 자료결합을 수행한다.
아래 표 1은 본 발명에서 사용되는 용어를 정의한 것이다.
용 어 의 미
통계적 결합 Statistical Matching: 두 파일을 하나의 파일로 결합
데이터 결합 Data Matching: 통계적 결합과 같은 의미
데이터 퓨전 Data Fusion: 통계적 결합과 같은 의미
수용 파일 Recipient File: 첫 번째 파일
제공 파일 Donor File: 두 번째 파일
결합 파일 Matching File: 두 파일을 하나의 파일로 결합한 파일
고유 변수 Unique Variable: 두 파일에 서로 포함하지 않은 변수로 종속변수
공통 변수 Common Variable: 두 파일에 공통으로 포함한 변수로 독립변수
목적 변수 Target Variable: 고유변수와 같은 의미를 가짐
입력 변수 Input Variable: 공통변수와 같은 의미를 가짐
도 3은 본 발명의 실시예에 따른 수용파일과 제공파일을 이용한 회귀나무모형에 의한 나무구조의 예를 도시한 도면이다.
뿌리노드(1)는 나무구조가 시작되는 처음의 노드로 이 노드로부터 하부의 노드가 분류된다. 자식노드는 하나의 상위 노드(예를 들어, 뿌리노드 1)로부터 분리되어 나간 2개 이상의 노드들을 의미한다. 예를 들어, 도면에서 노드 2번과 3번은 노드 1번(뿌리 노드)의 자식노드가 된다.
부모노드는 자식노드의 상위 노드를 의미한다. 예를 들어, 도면에서 노드 1번(뿌리노드)은 노드 2번과 3번의 부모노드가 된다.
끝 노드(terminal node) 또는 잎 노드(leaf node)는 각 나무뿌리의 아래 끝에 위치하고 있는 노드를 의미한다. 의사결정나무에서는 끝 노드의 개수만큼 분류규칙이 생성된다고 할 수 있다. 예를 들어, 도면에서 노드 4, 6, 8, 9, 10, 11번이 끝 노드에 해당한다.
중간 노드(internal node)는 나무구조의 중간에 있는 노드로 뿌리 노드와 끝 노드 사이에 있는 노드들을 의미한다. 예를 들어, 도면에서 노드 2, 3, 5, 7번이 중간 노드에 해당한다.
가지(branch)는 하나의 뿌리 노드에서 끝 노드까지 연결된 일련의 노드들을 의미하며, 이때 가지를 이루고 있는 노드의 개수를 깊이(depth)라고 한다. 즉, 가지라는 것은 의사결정나무 구조에서 처음 뿌리에서부터 시작하여 끝 노드까지의 하나의 줄기로 이어지는 것을 가지(branch)라고 한다. 예를 들어, 도면에서 노드 1, 2, 5, 8, 9번과 노드 1, 2, 4번이 각각 하나의 가지를 형성하고 있으며 깊이는 각각 3과 2이다.
본 발명의 실시예에 따라 회귀나무모형 또는 이중회귀나무모형에서 연속형 값을 갖는 고유변수인 목적변수에 대한 분류기준은 다음과 같은 기준에 따른다.
○ 분산분석에서
Figure 112006090877270-pat00014
통계량의 유의확률(
Figure 112006090877270-pat00015
value)
목적변수가 연속인 경우에는 두 개 이상의 그룹에 대해서 평균의 차이 유무에 대한 분산분석(ANOVA)의 검정결과로 얻어지는
Figure 112006090877270-pat00016
통계량의 유의확률(
Figure 112006090877270-pat00017
value)을 이용한다. 따라서 분리기준은 유의확률(
Figure 112006090877270-pat00018
value)에 의한 유의확률이 가장 작은 예측변수와 그때의 분리기준에 의해 자식 노드가 형성된다.
○ 분산의 감소량
예측오차를 최소화하는 것과 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적분리에 의하여 자식노드가 형성된다.
본 발명의 실시예에서 회귀나무모형에서 정지규칙과 가지치기 규칙은 아래의 규칙에 준하여 수행한다.
○ 정지규칙(stopping rule)
의사결정나무에서 정지규칙은 더 이상 분리가 일어나지 않고, 현재의 노드가 끝노드 또는 잎이 되도록 하는 규칙을 말한다. 각 알고리즘에 따라 정지규칙을 다르게 적용한다.
정지규칙은 아래 상황에 따라 적용된다.
① 모든 자료가 한 그룹에 속할 때
② 노드에 속하는 자료가 일정 수 이하일 때
③ 불순도의 감소량이 아주 작을 때
④ 뿌리 노드로부터 깊이가 일정 수 이상일 때
○ 가지치기 규칙(pruning rule)
성장이 끝난 나무의 가지를 임의의 크기로 제거하여 해당 크기를 갖는 나무 모형을 최종적인 예측 모형으로 선택하는 것이 예측력의 향상에 도움이 된다.
지나치게 많은 노드를 가지는 의사결정나무는 새로운 자료에 적용할 때 예측오차(prediction error)가 매우 클 가능성이 있다.
그리고 일반적으로 형성된 회귀나무에서 적절하지 않은 노드를 제거하여 적합한 크기를 갖는 부분 이중 회귀나무모형을 최종적인 예측모형으로 선택하는 것이 바람직하다.
본 발명의 실시예에서 통계적 자료결합을 수행하기 위한 이중 회귀나무모형의 알고리즘은 아래의 절차에 따라 수행된다.
(1) 동일한 모집단에서 얻어진 서로 다른 표본들로 구성된 두 파일을 가지고서 첫 번째 파일인 수용파일은 학습용 자료(training data), 두 번째 제공파일은 검정용 자료(testing data)로 적용한다. 그리고 수용파일에서 연속형
Figure 112006090877270-pat00019
변수를 목적변수(뿌리노드)로 정하고, 나머지
Figure 112006090877270-pat00020
공통변수 들을 입력변수로 지정하여 회귀나무모형에 의한 분류를 수행한다. 도 4는 본 발명의 실시예에 따라 두 파일(수용파일, 제공파일)을 이용하여 회귀나무모형에 의한 나무구조를 형성하기 위한 회귀나무모형 수행 도면이다.
(2) 회귀나무모형에서 설정한 정지규칙(stopping rule)은 F - 검정으로 기본값 유의수준 0.2를 적용한다. 그리고 분리규칙과 정지규칙은 나무의 최소 관측 개체수 10, 분할검색 요구 개체수 30, 노드 가지의 최대수 2, 나무의 최대깊이 6, 각 노드의 분할 규칙을 적용하여 회귀나무를 구축한다. 도 6은 동일한 모집단에서 얻어진 서로 다른 표본들로 구성된 두 파일을 가지고서 첫 번째 파일인 수용파일은 학습용 자료(training data), 두 번째 제공파일은 검정용 자료(testing data)로 적용하여 회귀나무모형에 의한 분류를 수행하여 얻은 나무구조에 대한 결과를 나타낸 도면이다.
(3) 수용파일(학습용파일)을 이용하여 분리가 종료된 상태에서 제공파일(검정파일)의 분류가 자동으로 적용된다. 이때 수용파일을 학습용파일로 적용하여 분리가 종료된 상태에서 각 끝 노드에 대하여 제공파일을 학습용 자료로 적용하여 다시 나무구조의 재분류규칙을 적용하기 위한 이중 회귀나무모형을 적용하여 재분리를 수행한다. 도 5는 두 파일(수용파일, 제공파일)을 이용하여 회귀나무모형에 의한 나무구조를 형성한 결과를 가지고서 이중 회귀나무모형 수행을 위한 도면이다.
(4) 이중 회귀나무모형은 제공파일의 목적변수
Figure 112006090877270-pat00021
값과 입력변수
Figure 112006090877270-pat00022
을 이용하여 재분류 규칙에 따라 분할이 종료된 상태에서 각 끝노드(terminal node)에 포함된 제공파일의 목적변수
Figure 112006090877270-pat00023
값을 수용파일의 끝노드에 포함된 개체수 만큼 랜덤하게 복원 추출하여 그 끝노드에 속한 수용파일의
Figure 112006090877270-pat00024
값으로 임의 할당하는 방식으로 개체들의 통계적 결합을 수행한다. 도 7은 도 6의 회귀나무모형에서 얻어진 나무구조에서 각 끝 노드에 대하여 제공파일의 자료를 적용하여 이중 회귀나무모형을 수행한 다음 얻은 재분류된 나무구조에 대한 결과로서 도 6의 끝 노드 개수만큼 이중 회귀나무 모형을 동일하게 적용한 도면이다.
(5) 수용파일에 결합된 제공파일의 고유변수
Figure 112006090877270-pat00025
값을 추정값
Figure 112006090877270-pat00026
값으로 결합하여 하나의 완성된 결합파일을 구성하는 통계적 결합을 완성한다.
본 발명은 의사결정나무의 회귀나무모형을 적용하고 재차 회귀나무모형을 적용하는 이중 회귀나무모형을 수행한다. 이 회귀나무모형은 비모수적인 통계모형으로 가정에 강건하고 분류와 변수선택을 동시에 수행하는 장점을 가지고 있다.
이중 회귀나무모형을 이용한 통계적 결합 방법은 일반적인 상황에서 모집단으로부터 서로 다른 두 파일에서 수용파일과 제공파일이 주어졌을 때, 목적변수 (고유변수)가 각각 서로 다른 고유변수
Figure 112006090877270-pat00027
값과
Figure 112006090877270-pat00028
값으로 연속형 값을 가진다. 공통변수들은 명목형 또는 순서형 값을 갖는 자료이다.
이 경우 이중 회귀나무모형에 의한 통계적 결합 수행은 수용파일에 포함되지 않은 고유변수에 대하여 제공파일의 고유변수 값을 수용파일에 자료 결합을 수행한다.
이때, 통계적 결합은 수용파일의 목적변수(고유변수)
Figure 112006090877270-pat00029
값을 뿌리노드(root node)로 정하고 나머지 공통변수들을 입력변수(독립변수) 정하여 회귀나무모형에 의한 나무구조의 분류를 수행한다. 그리고 수용파일을 검정용 자료로 적용하여 나무구조를 형성한 분류규칙에 따라 종료된 상태에서 각 끝 노드(terminal node)에 속한 제공파일의 목적변수
Figure 112006090877270-pat00030
값과 입력변수(공통변수)를 검정용 자료로 이용하여 재차 이중 회귀나무모형을 적용하여 나무구조에 따른 재분류를 수립한다.
이에 따른 결과 재분류 규칙에 따라 분할이 종료된 상태에서 각 끝 노드에 포함된 제공파일의 목적변수 값을 수용파일의 각 끝 노드에 포함된 개체 수만큼 랜덤하게 복원 추출하여 그 끝 노드에 속한 수용파일의 값으로 임의 할당하는 방식으로 개체들의 통계적 결합을 수행한다.
또한 각 끝 노드에 포함된 개체 수만큼 해당
Figure 112006090877270-pat00031
번째 개체에 대하여 끝 노드 번호가 동일한 공통변수 개체에 포함되어 있는 목적변수(고유변수)
Figure 112006090877270-pat00032
값을 수용파일의 추정
Figure 112006090877270-pat00033
값으로 임의의 복원추출(random sampling)에 의한 통계적 결합을 수행하여 완성된 하나의 파일을 구성한다.
본 발명을 적용한 예로서, 첫 번째 파일인 수용파일에는 월 소득변수와 공통변수, 두 번째 제공파일에는 월 지출변수와 공통변수를 갖고 있는 경우, 두 파일을 결합하여 월 소득에 따른 월 지출의 영향을 알고자 하는 경우, 이중 회귀나무모형을 적용하여 하나의 완성된 파일을 만드는 것이다.
또 다른 예로서 당뇨병환자의 이력 파일에 고지혈증 환자에 이력 파일을 결합하여 당뇨병 환자가 고지혈증으로 얼마나 영향을 갖는지를 알고자 하는 경우에 적용이 가능하다. 그 외 국민 여론조사 등의 필요로 하는 자료를 얻고자 할 경우, 별도의 시간과 자료 수집을 위한 리서치를 실시하는데 따른 많은 비용과 시간이 소요되는데 이러한 것을 줄이게 되므로 나타나는 경제적 효과와 효율성을 갖는다고 볼 수 있다.
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 및 균등한 타 실시가 가능할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부한 특허 청구범위에 의해서만 정해져야 할 것이다.
본 발명에 따르면, 동일한 모집단에서 서로 다른 표본들로부터 수집된 두 파일(수용파일, 제공파일) 모두 공통변수를 갖고 있고, 몇 개의 변수는 각각 독자적으로 연속형인 고유변수를 갖는 경우에 이들 두 파일을 공통변수에 기초하여 제공파일의 고유변수를 수용파일의 고유변수 빈 영역에 포함시켜 각 파일이 갖고 있는 변수들 간의 관계를 고찰하고 목적한 바의 하나의 완성된 파일로 결합하는 통계적 결합을 수행함으로써, 자료 획득을 위한 시간 및 비용을 줄일 수 있고 이에 따른 경제적 효과와 효율성을 높일 수 있다.

Claims (7)

  1. 각각의 공통변수 및 서로 다른 값을 갖는 연속형 고유변수를 포함하는 서로 다른 파일을 모집단으로 추출하는 단계;
    상기 추출된 서로 다른 파일의 수용파일 및 제공파일에서 상기 공통변수를 각각 입력변수로 설정하고, 상기 연속형 고유변수를 각각 목적변수로 설정하는 단계; 및
    상기 서로 다른 파일의 공통변수가 동일한 경우, 상기 수용파일에 대한 회귀나무모형의 나무구조를 수립한 후, 상기 제공파일에 대한 회귀나무모형의 나무구조를 재차 수립하는 이중회귀나무모형의 결과로 수립된 나무구조에 대해, 상기 공통변수에 기초하여 상기 제공파일에 포함된 고유변수를 상기 수용파일에 할당된 고유변수의 빈 영역에 추가하여 하나의 완성된 파일을 생성하는 단계를 포함하는 것을 특징으로 하는 자료를 결합하여 하나의 완성된 파일 결합 방법.
  2. 제 1항에 있어서,
    상기 파일 생성 단계에서는,
    상기 수용파일 및 제공파일에 대해 회귀나무모형을 통한 나무 구조를 생성하는 생성하는 단계;
    상기 수용파일의 나무 구조의 모든 끝 노드에서 포함한 개체 수만큼 상기 제공파일의 끝 노드 번호가 동일한 개체들을 가지고서 회귀나무모형을 다시 수립하여 이중회귀나무모형의 나무구조를 수립하는 단계; 및
    상기 이중회귀나무모형의 결과로 수립된 나무구조의 모든 끝 노드에서 포함된 상기 제공파일의 고유변수의 값을 임의의 복원추출에 의해 상기 수용파일의 끝 노드에 포함된 고유변수의 빈 영역에 포함시켜 하나의 파일로 결합 생성하는 통계적 결합을 수행하는 단계를 포함하는 것을 특징으로 하는 파일 결합 방법.
  3. 제 1항에 있어서,
    상기 추출된 서로 다른 파일 중 수용파일을 학습자료로, 제공파일을 검정용자료로 설정하는 단계를 더 포함하는 것을 특징으로 하는 파일 결합 방법.
  4. 제 3항에 있어서,
    상기 통계적 결합 단계에서는,
    상기 이중 회귀나무모형에 의한 결과로 수립된 나무구조에서 각 끝 노드에 포함된 상기 제공파일의 목적변수 값을 상기 수용파일의 끝 노드에 포함된 개체 수만큼 랜덤하게 복원 추출하여 그 끝 노드에 속한 상기 수용파일의 값으로 할당하여 개체들의 통계적 결합을 수행하는 것을 특징으로 하는 자료를 결합하여 하나의 완성된 하나의 파일 결합방법.
  5. 동일한 모집단에서 공통변수를 포함하고 서로 다른 표본들로 구성된 수용파일과 제공파일을 추출하는 단계; 및
    의사결정나무 분류방식에 따른 이중 회귀나무모형을 적용하여 상기 수용파일과 제공파일에 대한 나무구조를 수립한 후, 상기 수용파일과 제공파일을 하나의 완성된 파일로 자료를 결합하는 단계를 포함하는 것을 특징으로 하는 파일 결합 방법.
  6. 제 5항에 있어서,
    상기 동일한 모집단에서 추출한 서로 다른 표본들로 구성된 수용파일과 제공파일은 상기 공통변수에 대한 종속변수인 각각 서로 다른 종속변수인 고유변수를 가지며, 상기 서로 다른 고유변수는 연속형 값을 갖는 것을 특징으로 하는 파일 결합 방법.
  7. 제 5항에 있어서,
    상기 파일 결합 단계에서는,
    상기 이중 회귀나무모형을 수행한 결과로 수립된 나무구조에서 각 끝 노드에 포함된 제공파일의 목적변수 값을 수용파일의 끝 노드에 포함된 개체 수만큼 랜덤하게 복원 추출하여 그 끝 노드에 속한 수용파일의 고유변수 값으로 할당하여 상기 수용파일과 제공파일을 결합하여 하나의 완성된 자료로 결합하는 것을 특징으로 하는 파일 결합방법.
KR1020060124040A 2006-11-09 2006-12-07 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법 KR100860410B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020060110609 2006-11-09
KR20060110609 2006-11-09

Publications (2)

Publication Number Publication Date
KR20080042642A KR20080042642A (ko) 2008-05-15
KR100860410B1 true KR100860410B1 (ko) 2008-09-26

Family

ID=39649319

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060124040A KR100860410B1 (ko) 2006-11-09 2006-12-07 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법

Country Status (1)

Country Link
KR (1) KR100860410B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101851367B1 (ko) * 2016-07-28 2018-04-23 코리아크레딧뷰로 (주) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066862A (ko) * 2002-02-05 2003-08-14 이영섭 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는관심 노드 분류 방법
KR20030071938A (ko) * 2002-03-02 2003-09-13 김용대 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030066862A (ko) * 2002-02-05 2003-08-14 이영섭 데이터마이닝의 분류 의사 결정 나무에서 극단값을 가지는관심 노드 분류 방법
KR20030071938A (ko) * 2002-03-02 2003-09-13 김용대 데이터 마이닝을 위한 최적의 의사 결정 나무 선택 장치및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101851367B1 (ko) * 2016-07-28 2018-04-23 코리아크레딧뷰로 (주) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Also Published As

Publication number Publication date
KR20080042642A (ko) 2008-05-15

Similar Documents

Publication Publication Date Title
Lambora et al. Genetic algorithm-A literature review
CN106452825A (zh) 一种基于改进决策树的配用电通信网告警关联分析方法
CN110765582B (zh) 基于马尔可夫链的自组织中心K-means微电网场景划分方法
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN104702465A (zh) 一种并行网络流量分类方法
CN104636978A (zh) 一种基于多标签传播的重叠社区检测方法
CN112906790B (zh) 一种基于用电数据的独居老人识别方法和系统
CN111368147A (zh) 图特征处理的方法及装置
CN111026883A (zh) 电力业务数据的知识图谱构建方法、装置、设备和介质
Nancy et al. A comparison on performance of data mining algorithms in classification of social network data
CN110942098A (zh) 一种基于贝叶斯剪枝决策树的供电服务质量分析方法
CN115423603A (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
Wang et al. Reconstructing a bounded-degree directed tree using path queries
KR100860410B1 (ko) 두 파일에서 이중 회귀나무 모형을 이용하여 통계적 결합을통해 하나의 파일을 구성하기 위한 파일 결합 방법
CN105354343B (zh) 基于远程对话的用户特征挖掘方法
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
CN112435034A (zh) 一种基于多网络图聚合的营销套利黑产的识别方法
Mitrovic et al. Dyn2Vec: Exploiting dynamic behaviour using difference networks-based node embeddings for classification
Yu et al. Constructing traceability between features and requirements for software product line engineering
CN111428821A (zh) 一种基于决策树的资产分类方法
CN104317913B (zh) 属性组合的筛选方法和属性组合的筛选装置
Shastry et al. A novel data mining approach for soil classification
Jagadish et al. Learning a bounded-degree tree using separator queries
CN113313615A (zh) 一种对企业司法风险进行量化评分定级的方法及装置
CN106980989A (zh) 基于用户行为特性分析的商户推荐方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee