WO2019103472A1

WO2019103472A1 - 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 장치

Info

Publication number: WO2019103472A1
Application number: PCT/KR2018/014395
Authority: WO
Inventors: 이명재; 김종원
Original assignee: 고려대학교 산학협력단
Priority date: 2017-11-24
Filing date: 2018-11-22
Publication date: 2019-05-31
Also published as: KR102028511B1; KR20190060603A

Abstract

제1 잔차항 산출부가, 처리변수에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하는 단계, 제2 잔차항 산출부가, 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계 및 처리효과 추정부가, 제1 잔차항 및 제2 잔차항에 기초하여 처리변수가 결과변수에 미치는 처리효과 파라미터를 추정하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 이를 위한 장치에 관한 것이다.

Description

성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 장치

본 발명은 성향점수 잔차항을 최소자승회귀분석에 활용하여 처리효과를 추정하기 위한 방법 및 장치에 관한 것이다.

처리(Treatment)는 정부정책, 직업교육 프로그램 등과 같이 선택적으로 변경이 가능하며 결과에 영향을 줄 수 있는 변수들을 지칭하는 것으로, 예를 들어 처리가 “직업교육 프로그램”인 경우 결과는 “실업기간”을 의미할 수 있다.

종래에 처리 효과(Treatment Effect)를 추정하기 위해서는 매칭(Matching) 방법을 활용하였으며, 매칭은 “처리”를 받는 사람들의 그룹과 “처리”를 받지 않는 사람들의 그룹에서 성격변수(H)가 비슷한 사람들을 뽑아 그들 사이에서 결과를 비교하여 처리의 효과를 추정하는 방법이다.

이때, 성격변수란 결과에 영향을 미칠 수 있는 요소들로, 예컨대 성별, 학력 등과 같은 개인적인 요소가 포함될 수 있다.

그러나, 종래의 매칭 방법은 활용 시에 “가장 비슷한” 것이 얼마나 비슷해야 하는지, 몇 명의 사람들을 비교해야 하는지 등의 선택 문제가 많고, 통계적 유의성을 판별하기 어려운 문제점이 있다.

[선행기술문헌]

한국 등록특허공보 제10-0557476호(2006.02.24.)

본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 처리변수에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하고, 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하고, 제1 잔차항 및 제2 잔차항에 기초하여 처리변수가 결과변수에 미치는 처리효과 파라미터를 추정하기 위함이다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법은 제1 잔차항 산출부가, 처리변수에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하는 단계, 제2 잔차항 산출부가, 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계 및, 제1 잔차항 및 제2 잔차항에 기초하여 처리변수가 결과변수에 미치는 처리효과 파라미터를 추정하는 단계를 포함한다.

예컨대, 제1 잔차항을 산출하는 단계는, 처리변수모형 및 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하는 단계, 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하는 단계, 샘플 우도 함수가 최대값이 되도록 제1 파라미터 값을 결정하는 단계, 제1 파라미터 값 및 분포모형에 기초하여 성향점수를 산출하는 단계 및 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하는 단계를 포함한다.

예컨대, 제1 파라미터 값을 결정하는 단계는, 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 로그화 샘플 우도 함수를 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 제1 파라미터 값으로 결정하는 단계를 포함한다.

일 실시예에 따라, 제2 잔차항을 산출하는 단계는, 근사모형에 제1 파라미터 값을 적용하여 제1 파라미터 적용 근사모형을 생성하는 단계, 결과변수에서 제1 파라미터 적용 근사모형을 차감하여 제2 오차항을 결정하는 단계, 제2 오차항의 제곱이 최소가 되도록 하는 제2 파라미터의 값을 제2 파라미터 값으로 결정하는 단계, 제1 파라미터 적용 근사모형에 제2 파라미터 값을 적용하여 파라미터 적용 근사모형을 생성하는 단계 및 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계를 포함한다.

예를 들어, 처리효과 파라미터를 추정하는 단계는, 제1 잔차항과 처리효과 파라미터를 곱한 뒤, 제2 잔차항에서 제1 잔차항과 처리효과 파라미터를 곱한 결과를 차감하고, 차감한 결과를 제곱한 결과를 최소로 하는 처리효과 파라미터 값을 추정하는 단계를 포함한다.

상기한 목적을 달성하기 위하여, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치는, 처리변수에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하는 제1 잔차항 산출부, 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 제2 잔차항 산출부 및 제1 잔차항 및 제2 잔차항에 기초하여 처리변수가 결과변수에 미치는 처리효과 파라미터를 추정하는 처리효과 추정부를 포함한다.

예를 들어, 제1 잔차항 산출부는, 처리변수모형 및 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하고, 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하고, 샘플 우도 함수가 최대값이 되도록 제1 파라미터 값을 결정하고, 제1 파라미터 값 및 분포모형에 기초하여 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출한다.

예컨대, 제1 잔차항 산출부는, 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 로그화 샘플 우도 함수를 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 제1 파라미터 값으로 결정한다.

일 실시예에 따라, 제2 잔차항 산출부는, 근사모형에 제1 파라미터 값을 적용하여 제1 파라미터 적용 근사모형을 생성하고, 결과변수에서 제1 파라미터 적용 근사모형을 차감하여 제2 오차항을 결정하고, 제2 오차항의 제곱이 최소가 되도록 하는 제2 파라미터의 값을 제2 파라미터 값으로 결정하고, 결과변수에서 제 2 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출한다.

일 실시예에 따라, 처리효과 추정부는, 제1 잔차항과 처리효과 파라미터를 곱한 뒤, 제2 잔차항에서 제1 잔차항과 처리효과 파라미터를 곱한 결과를 차감하고, 차감한 결과를 제곱한 결과를 최소로 하는 상기 처리효과 파라미터 값을 추정한다.

본 발명의 일 실시예에 따르면, 처리변수에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 처리변수에서 성향점수를 차감한 제1 잔차항을 산출하고, 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하고, 제1 잔차항 및 제2 잔차항에 기초하여 처리변수가 결과변수에 미치는 처리효과 파라미터를 추정함으로써, 사용하기가 간단하고 통계적 유의성을 쉽게 판별할 수 있는 처리효과 추정 방법 및 장치를 제공할 수 있다.

도 1은 본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치를 설명하기 위한 구성도이다.

도 2는 본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법을 설명하기 위한 순서도이다.

도 3은 본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법에서 제1 잔차항을 산출하는 단계를 설명하기 위한 순서도이다.

도 4는 본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법에서 제2 잔차항을 산출하는 단계를 설명하기 위한 순서도이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다.

우선, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 장치에서 활용하는 처리(Treatment), 처리변수(D), 성격변수(H) 및 결과변수(Y)에 대하여 정의한다.

예를 들어, 처리(Treatment)는 정부정책 및 직업교육 프로그램 등과 같이 선택적으로 변경이 가능하며 결과변수(Y)에 영향을 줄 수 있는 변수들을 의미할 수 있다.

예컨대, 결과변수(Y)가 실업 기간인 경우 처리(Treatment)는 정부의 실업자 직업교육 정책을 의미할 수 있다.

예를 들어, 처리변수(D)는 이항변수로써, 특정 개인이 처리(Treatment)를 받았는지의 유무를 나타내며, D_i가 1이라는 것의 의미는 분석 대상 그룹의 i번째 개인은 처리(Treatment)를 받았음을 의미하며, D_j가 0이라는 것의 의미는 분석 대상 그룹의 j번째 개인은 처리(Treatment)를 받지 않았음을 의미할 수 있다.

예를 들어, 처리(Treatment)가 정부의 실업자 직업교육 정책인 경우 D_i가 1이라면 분석 대상 그룹의 i번째 개인은 실업자 직업교육을 받았음을 의미하고, D_i가 0이라면 분석 대상 그룹의 i번째 개인은 실업자 직업교육을 받지 않았음을 의미할 수 있다.

예컨대, 성격변수(H)는 결과변수(Y)에 영향을 줄 수 있는 변수들 중 통제 변수를 의미하며, 개인의 성격, 성별, 나이 등 결과변수(Y)에 영향을 줄 수 있는 통제변수를 의미할 수 있다.

예를 들어, 결과변수(Y)는 처리변수(D)에 대한 종속변수로써, 처리(Treatment)가 정부의 실업자 직업교육 정책인 경우, 결과변수(Y)는 “실업기간”을 의미할 수 있다.

예컨대, 처리(Treatment)가 정부의 실업자 직업교육 정책이고, 처리변수(D)가 정부의 실업자 직업교육을 받았는지 여부이며, 결과변수(Y)가 실업기간을 의미한다면, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법 및 장치는 직업교육이 실업기간에 미치는 영향인 처리효과 파라미터(γ)를 추정할 수 있다.

이하, 도 1을 참조하여 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치(100)를 설명한다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치(100)는 제1 잔차항 산출부(110), 제2 잔차항 산출부(120) 및 처리효과 추정부(130)를 포함한다.

제1 잔차항 산출부(110)는 처리변수(D)에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항(v)에 대한 분포모형에 기초하여 제1 파라미터 값(

) 및 성향점수(P(H_i))를 산출하고, 처리변수(D)에서 성향점수(P(H_i))를 차감한 제1 잔차항을 산출한다.

예컨대, 제1 잔차항 산출부(110)는, 처리변수모형 및 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하고, 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하고, 샘플 우도 함수가 최대값이 되도록 제1 파라미터 값(

)을 결정하고, 제1 파라미터 값(

) 및 분포모형에 기초하여 성향점수(P(H_i))를 산출하고, 처리변수(D)에서 상기 성향점수(P(H_i))를 차감한 제1 잔차항을 산출할 수 있다.

예컨대, 제1 잔차항 산출부(110)는, 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 로그화 샘플 우도 함수를 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 제1 파라미터 값(

)으로 결정한다.

제2 잔차항 산출부(120)는 제1 파라미터 값(

)에 기초하여 결과변수(Y)의 조건부평균값(

)에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값(

)을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수(Y)에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출한다.

예컨대, 제2 잔차항 산출부는, 근사모형에 제1 파라미터 값(

)을 적용하여 제1 파라미터 적용 근사모형을 생성하고, 결과변수(Y)에서 제1 파라미터 적용 근사모형을 차감하여 제2 오차항을 결정하고, 제2 오차항의 제곱이 최소가 되도록 하는 제2 파라미터(β)의 값을 상기 제2 파라미터 값(

)으로 결정하고, 제1 파라미터 적용 근사모형에 제2 파라미터 값(

)을 적용하여 파라미터 적용 근사모형을 생성하고, 결과변수(Y)에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출한다.

처리효과 추정부(130)는 제1 잔차항 및 제2 잔차항에 기초하여 처리변수(D)가 결과변수(Y)에 미치는 처리효과 파라미터(γ)를 추정한다.

예컨대, 처리효과 추정부(130)는, 제1 잔차항과 처리효과 파라미터(γ)를 곱한 뒤, 제2 잔차항에서 제1 잔차항과 처리효과 파라미터(γ)를 곱한 결과를 차감하고, 그 제곱한 결과를 최소로 하는 처리효과 파라미터 값을 추정한다.

본 발명의 실시예에 따른, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치(100)에 대한 보다 구체적인 설명은 이하 도 2 내지 도 4를 참조하여 후술하도록 하며, 중복되는 설명은 생략한다.

이하, 도 2를 참조하여, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법을 설명한다.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법은 제1 잔차항을 산출하는 단계(S210), 제2 잔차항을 산출하는 단계(S220) 및 제1 잔차항과 제2 잔차항에 기초하여 처리효과 파라미터를 추정하는 단계(S230)를 포함한다.

S210 단계는, 제1 잔차항 산출부(110)가, 처리변수(D)에 대한 처리변수모형 및 처리변수모형에 포함된 제1 오차항(v)에 대한 분포모형에 기초하여 제1 파라미터 값(

) 및 성향점수(P(H_i))를 산출하고, 처리변수(D)에서 성향점수(P(H_i))를 차감한 제1 잔차항을 산출하는 단계를 의미할 수 있다.

예를 들어, 처리변수(D)에 대한 처리변수모형은 회귀모형을 포함하되, 0 내지 1 사이의 범위를 가지는 이항 변수에 대하여 회귀 분석을 위해 활용되는 모형으로 기존에 공지된 각종 모형 중 적어도 하나를 의미할 수 있다.

예를 들어, 처리변수(D)가 이항 변수가 아니라 0,1,2,...,J의 값을 가지는 순서적(ordinal) 또는 범주형(categorical) 다항처리(multiple treatment)인 경우, 회귀 모형은 순서적(ordinal) 또는 범주형(categorical) 다항처리(multiple treatment)를 위한 각종 모형 중 적어도 하나를 의미할 수도 있다.

다시 말해, 처리변수모형은 처리변수(D)를 성격변수(H)에 대해 회귀 분석하기 위한 모형으로, 처리(Treatment)가 정부의 실업자 직업교육 정책인 경우, 처리변수(D)는 직업교육 여부를 의미하고, 성격변수(H)는 개인의 나이, 성별 등 각종 변수를 의미할 수 있다.

예를 들어, 처리변수모형이 로지스틱 회귀 분석(Logistic Regression)을 위한 모형인 경우, 처리변수모형은 아래 수학식 1과 같이 생성될 수 있으나, 본 발명은 이에 한정되지 않으며, 본 발명은 프로빗(Probit)을 비롯하여 다른 처리변수모형을 활용할 수 있다.

[수학식 1]

이때, D_i ^*는 i번째 개인에 대한 잠재변수(latent variable)로 연속 변수의 성질을 나타내며, H_i ^'는 i번째 개인에 대한 적어도 하나 이상의 성격변수(H)를 포함하는 성격벡터, α는 제1 파라미터 벡터, v_i는 i번째 개인에 대한 제1 오차항, D_i는 i번째 개인에 대한 처리변수, i는 1 내지 N의 범위를 가지는 주어진 자료 내에서 i번째 개인, H_i ^'α은 잠재변수(D_i ^*)의 회귀 모형을 의미한다.

예를 들어, 성격벡터(H_i ^')가 [M by 1] 벡터인 경우, 제1 파라미터 벡터(α)는 [M by 1] 벡터를 의미할 수 있으며, 이 경우, 벡터의 내적 연산에 의하여 H_i ^'α는 스칼라(scalar) 값을 가질 수 있다.

여기서, 잠재변수(D_i ^*)가 0 보다 크거나 같은 경우 처리변수(D_i)는 1이 되고, 잠재변수(D_i ^*)가 0 보다 작은 경우 처리변수(D_i)는 0이 될 수 있다.

한편, 제1 파라미터 벡터(α)는 로지스틱 회귀 분석(Logistic Regression)에서 추정하고자 하는 모수(parameter)로서 개인의 성격을 의미하는 성격변수(H_i)가 잠재변수(D_i)에 미치는 영향의 정도를 나타낸다.

한편, 제1 오차항(error term, v_i)은 잠재변수(D_i ^*)에서 성격변수(H_i)가 설명하지 못하는 부분을 나타낸다.

예를 들어, 제1 오차항(v_i)이 로지스틱 분포를 따르는 경우, 제1 오차항(v_i)에 대한 분포모형은 아래 수학식 2와 같을 수 있으나, 본 발명은 제1 오차항(v_i)이 로지스틱 분포를 따르는 경우에 한정되지 않고, 제1 오차항(v_i)은 로지스틱 분포 외에도 정규분포를 비롯한 각종 분포를 따를 수도 있다.

[수학식 2]

이때, G(v)는 제1 오차항(v_i)의 분포함수를 의미하며, 이러한 로지스틱 분포는 0을 중심으로 대칭이다.

이때, 수학식 1에 기재된 모형 및 수학식 2에 기재된 분포모형은 일 실시예로써, 본 발명은 수학식 1 및 수학식 2로 한정되지 않는다.

이제, 도 3을 참조하여 S210 단계를 계속 설명한다.

도 3에 도시된 바와 같이, S210 단계는 개인별 우도 함수를 결정하는 단계(S211), 샘플 우도 함수를 산출하는 단계(S213), 제1 파라미터 값을 결정하는 단계(S215), 성향점수를 산출하는 단계(S217) 및 제1 잔차항을 산출하는 단계를 포함한다.

S211 단계는, 처리변수모형 및 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하는 단계를 의미할 수 있다.

예를 들어, 처리변수모형이 상술한 수학식 1과 같고 분포모형이 상술한 수학식 2와 같은 경우, 개인별 우도 함수는 아래 수학식 3과 같이 산출될 수 있다.

한편, 처리변수모형 및 분포모형이 상술한 수학식 1 및 수학식 2와 다른 경우, 개인별 우도 함수는 기 공지된 최대 우도 추정 알고리즘(Maximum Likelihood Estimator)에서 결정하는 각종 우도 함수 결정 방식을 따를 수 있으며, 본 발명에 따른 개인별 우도 함수는 아래 수학식 3에 한정되지 않는다.

[수학식 3]

이때, G()는 제1 오차항(v_i)의 분포함수, H_i ^'는 i번째 개인에 대한 적어도 하나 이상의 성격변수(H)를 포함하는 성격벡터, α는 제1 파라미터 벡터, D_i는 i번째 개인에 대한 처리변수를 의미한다.

S213 단계는, 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하는 단계를 의미할 수 있다.

이때, 샘플 우도 함수(sample likelihood function)는 아래 수학식 4에 의해 결정된다.

[수학식 4]

이때, L(α)는 샘플 우도 함수를 의미한다.

S215 단계는, 샘플 우도 함수가 최대값이 되도록 제1 파라미터(α) 값을 결정하는 단계를 의미할 수 있다.

예를 들어, S215 단계는, 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 로그화 샘플 우도 함수를 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 제1 파라미터 값으로 결정하는 단계를 포함할 수 있다.

예를 들어, 상술한 S211 단계 내지 S215 단계는 일종의 최대 우도 추정 알고리즘(Maximum Likelihood Estimator)을 의미할 수 있으며, 처리변수(D)모형의 오차항이 로지스틱 분포를 따르는 경우 로지스틱 분포에 기반한 이항변수에 대한 최대 우도 추정 알고리즘(Maximum Likelihood Estimator)을 의미할 수 있고, 처리변수(D)모형의 오차항이 정규 분포를 따르는 경우 정규 분포에 기반한 이항변수에 대한 최대 우도 추정 알고리즘(Maximum Likelihood Estimator)을 의미할 수 있다.

이때, 샘플 우도 함수가 최대값이 되도록 하는 제1 파라미터(α)의 값인 제1 파라미터 값(

)을 추정하는 과정은 로지스틱 회귀 분석(logistic regression)결과를 의미할 수 있으나, 본 발명은 이에 한정되지 않는다.

예컨대, S215 단계에서 활용되는 로그화 샘플 우도 함수는 아래 수학식 5와 같이 표현될 수 있다.

[수학식 5]

한편, 로그화 샘플 우도 함수를 제1 파라미터(α)에 대해 미분한 결과는 아래 수학식 6과 같이 표현될 수 있다.

[수학식 6]

이때, 수학식 6을 0으로 만드는 제1 파라미터(α)의 값은 샘플 우도 함수가 최대값이 되도록 하는 제1 파라미터 값(

)을 의미할 수 있다.

S217 단계는, 제1 파라미터 값(

) 및 처리변수모형에 기초하여 성향점수를 산출하는 단계를 의미할 수 있다.

예를 들어, S217 단계는 상술한 수학식 2의 분포함수에 성격벡터(H_i ^')와 샘플 우도 함수가 최대값이 되도록 하는 제1 파라미터 값(

)을 대입하여, 성향점수를 산출하는 단계를 의미할 수 있으며 이러한 과정은 하기의 수학식 7과 같을 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 7]

이때, P(H_i)는 성향 점수, H_i는 i번째 개인에 대한 성격변수, G( )는 제1 오차항(v_i)의 분포함수, H_i ^'는 i번째 개인에 대한 성격벡터,

는 샘플 우도 함수가 최대값이 되도록 하는 제1 파라미터 값을 의미한다.

예를 들어, 성향 점수(Propensity Score)는 각 개인이 처리(Treatment)를 받았을 확률(처리변수(D)가 1인 확률)로 정의할 수 있다.

예를 들어, 처리(Treatment)가 정부의 실업자 직업교육 정책인 경우, 성향 점수(Propensity Score)는 각 개인이 직업 교육을 받을 확률인

로 정의할 수 있다.

S219 단계는, 각각의 개인에 대한 처리변수(D_i)에서 각 개인에 대한 성향점수(P(H_i))를 차감한 제1 잔차항(D_i-P(H_i))을 산출하는 단계를 의미할 수 있다.

예를 들어, S211 내지 S219 단계에서는 상술한 로지스틱 회귀 분석 외에도 프로빗(Probit) 회귀 분석 방식을 사용할 수도 있으며, D를 H에 회귀분석하는 최소자승법 및 기타 H를 예측하기 위하여 P(H)를 구하는 각종 방법이 활용가능하며, 상술한 로지스틱 회귀 분석 방식은 일 실시예에 불과하다.

다시 도 2를 참조하여, S220 단계를 계속 설명한다.

S220 단계는, 제2 잔차항 산출부(120)가, 제1 파라미터 값(

)에 기초하여 결과변수(Y)의 조건부평균값(

)을 산출하여 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 결과변수(Y)에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계를 의미할 수 있다.

이때, 근사모형은 결과변수(Y)의 조건부평균값을 근사하기 위해 활용되는 각종 모형을 의미할 수 있으며, 본 발명은 특정 근사모형으로 한정되지 않는다.

예를 들어, 근사모형이 다항식의 형태인 경우, 근사모형은 아래 수학식 8과 같이 도시될 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 8]

이때,

는 결과변수(Y)의 조건부평균값, β₀, β₁, β₂, β_n 각각은 제2 파라미터, Y_i는 i번째 개인에 대한 결과변수, H_i ^'는 i번째 개인에 대한 성격벡터, α는 제1 파라미터, n은 근사모형을 생성하기 위해 결정된 임의의 자연수를 의미한다.

예를 들어, S220 단계는 결과변수(Y)를 1, H^'α, (H^'α)², ... , (H^'α)ⁿ에 회귀분석하는 최소자승법(Least Squares Estimation)을 적용하는 단계를 의미할 수 있으나, 본 발명은 이에 한정되지 않는다.

이하, 도 4를 참조하여, S220 단계에 대하여 보다 구체적으로 설명한다.

도 4에 도시된 바와 같이, S220 단계는 제1 파라미터 적용 근사모형을 생성하는 단계(S221), 제2 오차항을 결정하는 단계(S223), 제2 파라미터 값을 결정하는 단계(S225), 파라미터 적용 근사모형을 생성하는 단계(S227) 및 제2 잔차항을 산출하는 단계(S229)를 포함한다.

S221 단계는, 근사모형에 제1 파라미터 값(

)을 적용하여 제1 파라미터 적용 근사모형을 생성하는 단계를 의미할 수 있다.

이때, 근사모형이 상술한 수학식 8과 같은 경우, 제1 파라미터 적용 근사모형은 아래 수학식 9와 같이 생성될 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 9]

이때,

는 제1 파라미터 값(

)을 적용했을 때, 결과변수(Y)의 조건부 평균값, β₀, β₁, β₂, β_n 각각은 제2 파라미터, Y_i는 i번째 개인에 대한 결과변수, H_i ^'는 i번째 개인에 대한 성격벡터,

는 샘플 우도 함수가 최대값이 되도록 하는 제1 파라미터 값, n은 근사모형을 생성하기 위해 결정된 임의의 자연수를 의미한다.

S223 단계는 결과변수(Y)에서 제1 파라미터 적용 근사모형을 차감하여 제2 오차항(u_i)을 결정하는 단계를 의미할 수 있다.

예를 들어, S223 단계는 각각의 개인별 결과변수(Y_i)에서 제1 파라미터 적용 근사모형을 차감하여 제2 오차항(u_i)을 결정하는 단계를 의미할 수 있다.

예컨대, 제1 파라미터 적용 근사모형이 상술한 수학식 9와 같은 경우, 제2 오차항(u_i)은 아래 수학식 10과 같이 산출될 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 10]

이때, u_i는 각각의 개인별 오차항, Y_i는 각각의 개인별 결과변수,

는 각각의 개인별 제1 파라미터 적용 근사모형을 의미한다.

S225 단계는, 제2 오차항(u_i)의 제곱이 최소가 되도록 하는 제2 파라미터(β)의 값을 제2 파라미터 값(

)으로 결정하는 단계를 의미할 수 있다.

보다 구체적으로, S225 단계는 각각의 개인별 제2 오차항(u_i)의 제곱의 총합이 최소가 되도록 하는 제2 파라미터(β)의 값을 제2 파라미터 값(

)으로 결정하는 단계를 의미할 수 있다.

상술한 수학식 9에서, β₀, β₁, β₂, β_n 각각은 최소자승법에서 추정하고자 하는 모수(parameter)로써, 1, H'α, (H'α)², (H'α)ⁿ이 결과변수(Y_i)에 미치는 영향의 정도를 나타내고, 제2 오차항(u_i)은 결과변수(Y_i)가 1, H'α, (H'α)², (H'α)ⁿ에 의하여 설명되지 않는 나머지 부분을 의미할 수 있다.

예를 들어, S225 단계에서 활용되는 개인별 제2 오차항(u_i)의 제곱의 총합은 아래 수학식 11과 같이 나타날 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 11]

이때, 상술한 수학식 11이 최소가 되도록 하는 제2 파라미터(β₀, β₁, β₂, β_n) 각각을 구하는 방법은 기존에 공지된 최소자승법과 동일하므로 그 구체적인 설명을 생략하며, 상술한 수학식 11이 최소가 되도록 하는 제2 파라미터 값은

,

과 같이 표현될 수 있다.

예를 들어, 상술한 수학식 11이 최소가 되도록 하는 적어도 하나의 제2 파라미터 값을 산출하기 위하여, 상술한 수학식을 제2 파라미터(β₀, β₁, β₂, β_n) 각각에 대하여 미분한 뒤, 도출된 1계조건을 모두 0으로 만드는 값을 제2 파라미터 값(

,

)으로 산출할 수 있으나, 본 발명은 이에 한정되지 않는다.

S227 단계는, 제1 파라미터 적용 근사모형에 제2 파라미터 값을 적용하여 파라미터 적용 근사모형을 생성하는 단계를 의미할 수 있다.

예를 들어, 제1 파라미터 적용 근사모형이 상기한 수학식 9와 같고 제2 파라미터 값이 (

,

)인 경우, 파라미터 적용 근사모형은 아래 수학식 12와 같이 산출될 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 12]

S229 단계는, 결과변수(Y_i)에서 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계를 의미할 수 있다.

이때, 제2 잔차항은 아래 수학식 13과 같이 산출될 수 있다.

[수학식 13]

계속, 도 2를 참조하여 S230 단계를 설명한다.

S230 단계는, 처리효과 추정부(130)가, 제1 잔차항 및 제2 잔차항에 기초하여 처리변수(D)가 결과변수(Y)에 미치는 처리효과 파라미터(γ)를 추정하는 단계를 의미할 수 있다.

예를 들어, S230 단계는 제1 잔차항과 처리효과 파라미터를 곱한 뒤, 제2 잔차항에서 제1 잔차항과 처리효과 파라미터를 곱한 결과를 차감하고, 이를 제곱한 결과를 최소로 하는 상기 처리효과 파라미터 값을 추정하는 단계를 포함할 수 있다.

예컨대, S230 단계는 제2 잔차항을 제1 잔차항에 단순 회귀 분석하는 최소자승법을 적용함으로써, 처리효과 파라미터(γ)를 추정할 수 있으며, 그 처리효과 파라미터(γ)는 성격변수(H)를 통제한 상태에서 처리변수(D)가 결과변수(Y)에 미치는 효과를 의미할 수 있다.

예컨대, S230 단계는 결과변수(Y)의 잔차항인 제2 잔차항을 종속 변수로하고 처리변수(D)의 잔차항인 제2 잔차항을 설명 변수로 하는 최소자승법을 의미할 수 도 있다.

이때, S230 단계는 아래 수학식 14와 같이 표현될 수 있으나, 본 발명은 이에 한정되지 않는다.

[수학식 14]

이때 Bi는 i번째 개인에 대한 제2 잔차항, Ai는 i번째 개인에 대한 제1 잔차항, γ는 처리효과 파라미터를 의미한다.

예를 들어, S230 단계는 상술한 수학식 14를 최소로 하는 처리효과 파라미터(γ)의 값을 추정하는 단계를 의미할 수 있다.

이때, 처리효과 파라미터(γ)의 의미는 아래 수학식 15와 같이 설명될 수 있다.

[수학식 15]

이때, γ는 처리효과 파라미터, N은 분석 대상 그룹에 포함되는 전체 개인의 수, Y_i ¹은 i번째 개인에 대하여 처리(treatment)가 수행되었을 때의 잠재적 결과변수, Y_i ⁰는 i 번째 개인에 대하여 처리(treatment)가 수행되지 않았을 때의 잠재적 결과변수를 의미한다.

예를 들어, 처리(Treatment)가 정부의 실업자 직업교육 정책인 경우, Y_i ¹은 i번째 개인이 직업교육을 받았을 때의 실업기간, Y_i ⁰는 i 번째 개인이 직업교육을 받지 않았을 때의 실업기간을 의미한다.

상술한 S230 단계의 예시는 최소자승법을 활용하는 것으로 작성되었으나, 일 실시예에 따르면 [P(H)×{1-P(H)}]^-0.5를 활용하는 가중최소자승법(weighted least squares estimator)를 활용할 수도 있으며, 이 경우, P(H)가 0 또는 1에 가까워 가중치가 무한대에 가까워지는 자료들을 제외하는 것도 가능하다.

예를 들어, 본 발명의 실시예에 따른 회귀분석을 활용하는 처리효과 추정 방법 및 장치는, 처리변수(D)가 이항변수인 경우로 설명되었으나, 처리변수(D)가 이항변수가 아니라, 0,1,2,...,J의 값을 갖는 순서적(ordinal) 혹은 범주형(categorical) 다항처리(multiple treatment)인 경우, 이항더미변수 Dj를 D=j의 경우로 정의(즉, D=j이면 Dj=1이며 아니면 Dj=0)하여 적용될 수도 있다.

이 경우, S210 단계에서 D가 1,2,...,J가 될 확률 P1(H), P2(H),...,PJ(H)를 다양한 확률기반 연산 기법으로 구할 수 있으며, 최종적으로 수학식 13과 유사한 종속변수를 D1-P1(X),...,DJ-PJ(X)에 회귀분석 하는 최소자승법을 적용하면, 그 추정계수들은 D=1,2,...,J가 각각 Y에 주는 효과가 될 수 있으며, 본 발명은 처리변수(D)가 이항변수인 경우로 한정되지 않는다.

본 발명의 우수성을 나타내기 위하여, 표 1은 본 발명(OLS-ps)에 의한 처리효과 추정방법과 기존 16개의 다른 처리효과 추정방법 (예컨대 매칭-M, 회귀조정방법-RI, 완전페어링-CP, 이중견고추정방법-DR 등)을 실제 자료를 사용하여 비교한 결과를 보여준다. 여기서 사용된 자료는 유럽의 “Survey of Health, Ageing and Retirement in Europe (SHARE)” 에서 추출된 은퇴와 소비에 대한 2004-2015 자료이다.

먼저, 복잡하고 시간이 많이 소요되는 비모수 추정방법을 사용하여 은퇴가 소비에 주는 영향을 정교하게 추정한 다음, 위의 17개 처리효과 추정방법들을 사용하여 은퇴가 소비에 주는 영향을 추정한 후, 그 17개의 추정값들이 비모수추정의 정교한 값과 얼마나 다른지를 비교하는 실험을 하였다. 그 결과, 표 1에서 볼 수 있듯이 본 발명(표1에서 OLS-ps열)이 압도적으로 작은 편차(bias)를 보였다는 것을 확인할 수 있다.

처리효과 추정 방법 종류	Bias
RI2-ps	0.89
M1-ps	1.26
M5-ps	1.00
MT1-ps	0.77
CP1-ps	1.06
OLS-ps	0.29
RI-lin	0.51
RI2-pgs	0.66
M1-pgs	0.70
M5-pgs	0.50
MT1-pgs	0.48
CP1-pgs	0.65
RI2-ppgs	0.99
M1-ppgs	1.17
MT1-ppgs	0.98
DR-c	0.39
CP1-ppgs	0.94

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

[부호의 설명]

100: 회귀분석을 활용하는 처리효과 추정 장치

110: 제1 잔차항 산출부

120: 제2 잔차항 산출부

130: 처리효과 추정부

Claims

제1 잔차항 산출부가, 처리변수에 대한 처리변수모형 및 상기 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 상기 처리변수에서 상기 성향점수를 차감한 제1 잔차항을 산출하는 단계;

제2 잔차항 산출부가, 상기 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 상기 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 상기 결과변수에서 상기 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 단계; 및

처리효과 추정부가, 상기 제1 잔차항 및 상기 제2 잔차항에 기초하여 상기 처리변수가 상기 결과변수에 미치는 처리효과 파라미터를 추정하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법.
제1항에 있어서,

상기 제1 잔차항을 산출하는 단계는,

상기 처리변수모형 및 상기 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하는 단계;

상기 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하는 단계;

상기 샘플 우도 함수가 최대값이 되도록 상기 제1 파라미터 값을 결정하는 단계;

상기 제1 파라미터 값 및 상기 분포모형에 기초하여 상기 성향점수를 산출하는 단계; 및

상기 처리변수에서 상기 성향점수를 차감한 상기 제1 잔차항을 산출하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법.
제2항에 있어서,

상기 제1 파라미터 값을 결정하는 단계는,

상기 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 상기 로그화 샘플 우도 함수를 상기 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 상기 제1 파라미터 값으로 결정하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법.
제1항에 있어서,

상기 제2 잔차항을 산출하는 단계는,

상기 근사모형에 상기 제1 파라미터 값을 적용하여 제1 파라미터 적용 근사모형을 생성하는 단계;

상기 결과변수에서 상기 제1 파라미터 적용 근사모형을 차감하여 제2 오차항을 결정하는 단계;

상기 제2 오차항의 제곱이 최소가 되도록 하는 제2 파라미터의 값을 상기 제2 파라미터 값으로 결정하는 단계;

상기 제1 파라미터 적용 근사모형에 상기 제2 파라미터 값을 적용하여 상기 파라미터 적용 근사모형을 생성하는 단계; 및

상기 결과변수에서 상기 파라미터 적용 근사모형을 차감한 상기 제2 잔차항을 산출하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법.
제1항에 있어서,

상기 처리효과 파라미터를 추정하는 단계는,

상기 제1 잔차항과 상기 처리효과 파라미터를 곱한 뒤, 상기 제2 잔차항에서 상기 제1 잔차항과 상기 처리효과 파라미터를 곱한 결과를 차감하고, 상기 차감한 결과를 제곱한 결과를 최소로 하는 상기 처리효과 파라미터 값을 추정하는 단계를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 방법.
처리변수에 대한 처리변수모형 및 상기 처리변수모형에 포함된 제1 오차항에 대한 분포모형에 기초하여 제1 파라미터 값 및 성향점수를 산출하고, 상기 처리변수에서 상기 성향점수를 차감한 제1 잔차항을 산출하는 제1 잔차항 산출부;

상기 제1 파라미터 값에 기초하여 결과변수의 조건부평균값에 대한 근사모형에 포함된 적어도 하나의 제2 파라미터 값을 산출하여 상기 근사모형에 적용함으로써 파라미터 적용 근사모형을 생성하고, 상기 결과변수에서 상기 파라미터 적용 근사모형을 차감한 제2 잔차항을 산출하는 제2 잔차항 산출부; 및

상기 제1 잔차항 및 상기 제2 잔차항에 기초하여 상기 처리변수가 상기 결과변수에 미치는 처리효과 파라미터를 추정하는 처리효과 추정부를 포함하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치.
제6항에 있어서,

상기 제1 잔차항 산출부는,

상기 처리변수모형 및 상기 분포모형에 대응되는 개인별 우도 함수(likelihood function)를 결정하고,

상기 개인별 우도 함수를 모두 곱하여 샘플 우도 함수(sample likelihood function)를 산출하고,

상기 샘플 우도 함수가 최대값이 되도록 상기 제1 파라미터 값을 결정하고,

상기 제1 파라미터 값 및 상기 분포모형에 기초하여 상기 성향점수를 산출하고,

상기 처리변수에서 상기 성향점수를 차감한 상기 제1 잔차항을 산출하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치.
제7항에 있어서,

상기 제1 잔차항 산출부는,

상기 샘플 우도 함수에 로그를 취하여 로그화 샘플 우도 함수를 산출하고, 상기 로그화 샘플 우도 함수를 상기 제1 파라미터에 대해 미분한 결과가 0이 되도록 하는 값을 상기 제1 파라미터 값으로 결정하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치.
제6항에 있어서,

상기 제2 잔차항 산출부는,

상기 근사모형에 상기 제1 파라미터 값을 적용하여 제1 파라미터 적용 근사모형을 생성하고,

상기 결과변수에서 상기 제1 파라미터 적용 근사모형을 차감하여 제2 오차항을 결정하고,

상기 제2 오차항의 제곱이 최소가 되도록 하는 제2 파라미터의 값을 상기 제2 파라미터 값으로 결정하고,

상기 제1 파라미터 적용 근사모형에 상기 제2 파라미터 값을 적용하여 상기 파라미터 적용 근사모형을 생성하고,

상기 결과변수에서 상기 파라미터 적용 근사모형을 차감한 상기 제2 잔차항을 산출하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치.
제6항에 있어서,

상기 처리효과 추정부는,

상기 제1 잔차항과 상기 처리효과 파라미터를 곱한 뒤, 상기 제2 잔차항에서 상기 제1 잔차항과 상기 처리효과 파라미터를 곱한 결과를 차감하고, 상기 차감한 결과를 제곱한 결과를 최소로 하는 상기 처리효과 파라미터 값을 추정하는, 성향점수 잔차항을 최소자승회귀분석에 활용하는 처리효과 추정 장치.