KR102670198B1 - 인과추론 분석 시스템 및 그 제어방법 - Google Patents

인과추론 분석 시스템 및 그 제어방법 Download PDF

Info

Publication number
KR102670198B1
KR102670198B1 KR1020220022738A KR20220022738A KR102670198B1 KR 102670198 B1 KR102670198 B1 KR 102670198B1 KR 1020220022738 A KR1020220022738 A KR 1020220022738A KR 20220022738 A KR20220022738 A KR 20220022738A KR 102670198 B1 KR102670198 B1 KR 102670198B1
Authority
KR
South Korea
Prior art keywords
causal inference
sampling
data
subject groups
reference point
Prior art date
Application number
KR1020220022738A
Other languages
English (en)
Other versions
KR20230125913A (ko
Inventor
이성우
Original Assignee
오브젠 주식회사
Filing date
Publication date
Application filed by 오브젠 주식회사 filed Critical 오브젠 주식회사
Priority to KR1020220022738A priority Critical patent/KR102670198B1/ko
Publication of KR20230125913A publication Critical patent/KR20230125913A/ko
Application granted granted Critical
Publication of KR102670198B1 publication Critical patent/KR102670198B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

본 발명은 인과추론 분석 시스템 및 그 제어방법에 관한 것이다. 본 발명에 따른 인과추론 분석 시스템의 제어방법은, 인과추론 분석 시스템이 수행하는 제어방법에 있어서, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와; 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와; 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와; 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함하는 것을 특징으로 한다.

Description

인과추론 분석 시스템 및 그 제어방법{CAUSAL INFERENCE ANALYSIS SYSTEM AND CONTROL METHOD THEREOF}
본 발명은 인과추론 분석 시스템 및 그 제어방법에 관한 것으로, 보다 상세하게는 인과추론에 이용되는 두 그룹간의 동질성 확보를 확인한 후 인과추론 분석을 수행하는 시스템 및 그 제어방법에 관한 것이다.
요즘 인터넷 환경과, 데이터 수집 툴 등의 다양화로 인해 많은 데이터들이 수집되고 있다.
그런데 이렇게 수집되는 데이터들은 그 자체로는 큰 의미가 없고 데이터가 만들어내는 숨겨진 맥락을 '정확히' 분석할 줄 알아야 한다.
특히 데이터로부터 인과추론이 가능하다면, 비즈니스 영역에서 상당히 큰 도움을 받을 수 있다.
여기서 인과(因果, Cause-Effect)는 원인과 결과다. 추론(推論)은 '있는 사실'을 근거로 추리하고 추정하여 결론을 이끌어내는 것이다. 즉, 인과추론이란 두 개의 사실을 두고 "정말 인과관계가 존재하는가?" "두 사실은 각각 원인과 결과인가?"를 평가하여 판단하는 방법론인 것이다.
여기서 '인과관계'는 '상관관계'와는 다른 것이다.
인과관계는 상술한 바와 같이 원인과 결과의 관계를 나타낸 것을 의미하고, 상관관계는 단지 서로 관련성이 있음을 의미할 뿐, 원인과 결과를 나타내는 것은 아니다.
인과관계 추론을 위해 다양한 시도들이 있다.
인과 추론을 하는 가장 확실한 방법은 실험 설계 단계부터 완전 무작위 배정(RCT: Randomized Controlled Trial)을 통해 얻어진 데이터에서 처치에 따른 반응의 효과를 비교하는 것이다.
예를 들어 마케팅 측면에서 광고를 집행한 후 광고를 본 구매자와 광고를 보지 않은 구매자간의 구매여부(구매율, 구매액 등)를 분석하여 광고를 원인으로 구매라는 결과가 발생하는 정도를 분석할 수 있는 것이다.
그러나 의료 실험과 같이 실험의 내용에 따라 윤리, 형평성 등의 문제로 무작위 실험을 하지 못하거나, 이미 과거에 실시한 캠페인 데이터를 이용해 인과 분석을 필요로 하는 경우가 있다.
이런 사후적인 인과 추론을 위해서는 최근에는 기계학습을 이용한 여러 툴들이 제시되고 있다.
그런데 사후적인 인과관계 추론의 결과에 신뢰성이 담보되기 위해서는 대상에 대한 샘플링이 적절하게 이루어져야 한다.
예를 들어 앞서 예에서 광고를 본 고객과 그렇지 않은 고객간에 광고 시청 여부를 제외한 다른 편향 속성이 존재하는 경우(예를 들어 광고를 본 고객의 연령대와 광고를 보지 않은 고객의 연령대가 구분되는 경우)에는 광고에 따른 구매 효과에 대한 분석을 신뢰할 수 없는 것이다.
이를 위해서는 다양한 속성을 지닌 대상들에 대한 랜덤 샘플링이 이루어져야 하는데, 이 경우에도 속성의 개수가 적은 경우에는 광고 시청 여부(T)와 구매 반응(Y)에 영향을 줄 수 있는 관찰하지 못한 속성변수가 있을 확률이 높기 때문에 적절한 랜덤 샘플링이 이루어졌다고 볼 수 없고, 분석툴을 이용한 결과 역시 신뢰할 수 없게 된다.
즉, 비교 대상간에는 분석하고자 하는 처치 여부(위의 예에서 광고 노출 여부)를 제외한 동질성이 인정되어야 그 분석 결과를 믿을 수 있게 되는데, 종래에는 각 대상의 속성의 개수가 부족한 경우에는 이를 극복할 방안이 없었다.
공개특허 제10-2009-0018806호
본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 비교 대상들의 속성의 개수가 적은 경우라도 별도의 알고리즘을 통해 비교 대상간의 동질성을 확인하여 인과추론 분석이 이루어지도록 하는 인과추론 분석 시스템 및 그 제어방법을 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명에 따른 인과추론 분석 시스템의 제어방법은, 인과추론 분석 시스템이 수행하는 제어방법에 있어서, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와; 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와; 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와; 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함할 수 있다.
여기서, 상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고, 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.
여기서, 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.
여기서, 상기 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.
여기서, 상기 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하는 단계와; 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계를 더 포함하고, 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행할 수 있다.
여기서, 상기 판단 결과 랜덤 추출 동질성 테스트를 기 설정된 횟수 이상 연속으로 통과하지 못한 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.
또, 상기한 목적을 달성하기 위해 본 발명에 따른 인과추론 분석 시스템은, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 분석 기간 선정부와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 그룹 선정부와; 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 샘플 그룹 추출부와; 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 샘플 검증부와; 상기 표본 확인부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 인과추론 분석 처리부를 포함할 수 있다.
여기서, 상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고, 상기 그룹 선정부는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.
여기서, 상기 샘플 검증부는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.
여기서, 상기 샘플 검증부에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.
여기서, 상기 샘플 그룹 추출부는 상기 샘플 검증부의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하고, 상기 샘플 검증부는 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단할 수 있다.
여기서, 상기 인과추론 분석 처리부는 상기 샘플 그룹 추출부와 상기 샘플 검증부의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.
이상 설명한 바와 같이 본 발명에 따르면, 인과추론 분석을 수행하고자 하는 대상의 속성의 개수가 적거나 또는 데이터양 자체가 적어서 인과추론 분석의 결과를 신뢰할 수 있는 경우에, 추출되는 샘플링 데이터에 대한 동질성 테스트를 미리 수행함으로써, 인과추론 분석의 신뢰성을 담보할 수 있다.
특히 인과추론 분석과 관련된 특정 캠페인이 시작되기 이전의 데이터에 대한 특정 캠페인의 반응 결과와 동일 또는 유사한 과거의 결과를 이용한 A/A 테스트를 통해 특정 캠페인과 관련된 각 샘플링 데이터 그룹간의 동질성 테스트를 수행함으로써 동질성 판단 자체에 대한 신뢰도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 인과추론 분석 시스템의 기능 블록도이고,
도 2 및 도 3은 도 1의 인과추론 분석 시스템이 추출 또는 이용하는 데이터에 대한 설명을 위한 도면이고,
도 4는 인과추론 분석툴을 이용하는 결과의 일 예이고,
도 5는 본 발명의 일 실시예에 따른 인과추론 분석 시스템의 제어흐름도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.
특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.
본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)은 기 저장된 데이터를 분석하여 특정 이벤트에 대한 반응을 참고하여 인과추론 분석을 수행하는 기능을 수행한다.
특히, 본 실시예에서 인과추론 분석 시스템(100)은 필요한 데이터가 미리 저장되어 있고 이러한 미리 저장된 데이터를 이용하여 인과 추론 분석을 수행한다고 가정한다.
미리 저장되는 데이터에는 예를 들어 각종 이벤트에 대한 고객의 반응 등이 포함될 수 있는데, 일 예로 인과추론 분석 시스템(100)은 마케팅용으로 특정 쿠폰을 지급하거나 또는 특정 광고를 온라인 고객들에게 노출시킨 후, 해당 특정 쿠폰이나 특정 광고에 노출된 고객들의 구매 결과와 그렇지 않은 고객들의 구매 결과를 비교하여 그 특정 쿠폰이나 특정 광고가 고객들의 구매에 미치는 영향 등을 분석할 수 있는 것이다.
이러한 인과추론 분석 시스템(100)의 구체적인 기능 블록의 일 예는 도 1에 도시된 바와 같다.
동 도면에 도시된 바와 같이, 인과추론 분석 시스템(100)은 분석 기간 선정부(110), 그룹 선정부(120), 샘플 그룹 추출부(130), 샘플 검증부(140), 인과 추론 분석 처리부(150)를 포함하여 구성될 수 있다.
분석 기간 선정부(110)는 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 기능을 수행한다.
앞서 언급한 바와 같이 인과추론 분석을 위한 데이터들은 미리 수집되어 있는데, 이러한 수집된 데이터는 인과추론 분석 시스템(100)의 자체 저장소(미 도시함)에 저장될 수도 있고, 또는 별도의 데이터베이스 서버(미 도시함)에 저장될 수 있는데, 분석 기간 선정부(110)는 자체 저장소 또는 별도의 데이터베이스 서버에 접속할 수 있는 인터페이스를 포함하여 구성될 수 있다.
여기서 특정 이벤트는 과거 특정 시점에 행해졌던 마케팅 분야의 각종 캠페인에 해당할 수 있다.
본 실시예에서는 특정 이벤트가 과거 특정 기간 동안 온라인 행사의 일환으로 행해졌던 쿠폰 제공 이벤트인 것을 일 예로 한다.
예를 들어 인과추론 분석 시스템(100)은 온라인 쇼핑몰에 접속한 고객들 중 일부에게 쿠폰을 제공하고 그 사실을 팝업창 등을 통해 알릴 수 있다.
그룹 선정부(120)는 기준 시점으로부터 종료 시점까지의 데이터 중 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 기능을 수행한다.
특히, 그룹 선정부(120)는 특정 이벤트(일 예로 특정 캠페인)에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.
예를 들어 그룹 선정부(120)는 특정 기간 동안 일부의 고객들에 대해 쿠폰 제공이 이루어진 경우, 그 쿠폰 제공이 이루어진 기간(즉, 기준 시점부터 종료 시점까지의 기간) 동안 해당 쿠폰 제공이 이루어진 제1 그룹과 쿠폰 제공이 이루어지지 않은 제2 그룹을 선정할 수 있는 것이다.
본 실시예에서는 이처럼 두 개의 대비 그룹을 선정하는 것을 일 예로 한다.
샘플 그룹 추출부(130)는 그룹 선정부(120)에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 기능을 수행한다.
예를 들어 샘플 그룹 추출부(130)는 제1 그룹에서 그 일부인 제1-1 그룹을 추출하고, 제2 그룹에서 그 일부인 제2-1 그룹을 추출할 수 있는 것이다.
이에 따라 일 예로 제1 그룹에 속하는 고객의 수가 1000명인 경우 제1-1 그룹은 그 1000명 중 일부인 300명일 수 있는 것이다. 이는 제2 그룹과 제2-1 그룹의 경우도 마찬가지이다.
이러한 샘플 그룹 추출부(130)에 추출된 샘플링 대상 그룹에 대해서는 후술하는 바와 같이 샘플 검증부(140)에 의해 랜덤 추출 동질성 테스트가 수행될 수 있는데, 샘플 검증부(140)의 테스트에 통과하지 못한 경우, 샘플 그룹 추출부(130)는 그룹 선정부(120)에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출할 수 있고, 이러한 과정은 기 설정된 횟수만큼 반복될 수 있다.
한편, 샘플 검증부(140)는 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단한다.
여기서 랜덤 추출 동질성 테스트는 소정의 대비 그룹 간에 랜덤 추출과 같은 동질성이 유지되는지 여부를 테스트 하는 것으로서, 편향된 추출이 이루어진 것은 아닌지를 판단하기 위한 것이다.
예를 들어 특정 그룹에 속하는 사람들 중에서 일부를 추출한 경우 그 추출된 일부가 해당 특정 그룹에 대한 대표성을 유지하기 위해서는 표본의 크기가 커야 하고, 또한 랜덤 추출(즉, 무작위 표집)이 이루어져야 하며, 모집단이 동질적이어야 한다.
즉, 모집단의 동질성이 높을수록 표본 오차가 줄어들 수 있는 것이다.
따라서 추출되는 모집단의 동질성 테스트는 상당히 중요한데, 본 제안발명에서 샘플 검증부(140)는 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 그들 그룹들이 모두 동질한 집단에 해당하는지를 판단하는 것이다.
특히, 샘플 검증부(140)는 기준 시점으로부터 종료 시점까지의 분석 기간을 산출한 후, 기준 시점으로부터 그 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.
예를 들어 기준 시점으로부터 종료 시점까지의 분석 기간이 1주간이라면, 샘플 검증부(140)는 기준 시점으로부터 이 그전의 1주간의 데이터를 이용하여 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 랜덤 추출 동질성 테스트를 수행할 수 있는 것이다.
이때 샘플 검증부(140)에서 수행하는 랜덤 추출 동질성 테스트는 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.
예를 들어 특정 이벤트에 대한 결과가 "상품 구매 여부"인 경우 샘플 검증부(140)는 기준 시점으로부터 이 그전의 1주간의 데이터를 이용하여 샘플 그룹들 상호간에 대해 "상품 구매 여부"를 기초로 동질성 테스트를 수행할 수 있는 것이다.
이 경우 제1-1 그룹과 제2-1 그룹간에 동질성 테스트 통과 여부는 예를 들어 각 그룹 내의 "상품 구매 비율"이 소정의 범위 내에서 유사한지 여부에 따라 결정될 수도 있다.
또한 샘플 검증부(140)는 앞서 언급한 바와 같이 샘플 그룹 추출부(130)에서 샘플링 대상 그룹들이 재 추출된 경우에도, 그 재 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 다시 수행하여 통과 여부를 판단할 수 있고, 이러한 과정은 기 설정된 횟수만큼 반복될 수 있다.
참고로 도 2 및 도 3에는 본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)의 그룹 선정부(120) 및 샘플 그룹 추출부(130)에서 추출 및 이용되는 데이터의 일 예를 나타내고 있다.
우선 도 2를 참고하면 특정 이벤트 시작 시점과 그 종료 시점이 나타나 있고, 그러한 이벤트 후의 경과 데이터가 도시되었다.
또한 도 2에는 그룹간 동질성 비교용 데이터가 나타나 있는데, 도시된 바와 같이 이벤트 시작 시점으로부터 더 과거의 데이터에 해당한다.
즉, 실제 인과추론 분석 처리를 위해서는 이벤트 후 경과 데이터의 적어도 일부가 이용되는 것이고, 인과추론 분석을 위한 데이터로서의 적절성을 판단하기 위해서는 그룹간 동질성 비교용 데이터 중 적어도 일부가 이용되는 것이다.
이하 편의상 도 2의 이벤트 후 경과 데이터는 제1 영역 데이터이고, 그룹간 동질성 비교용 데이터는 제2영역 데이터라 칭하기로 한다.
도 3에는 이러한 그룹간 동질성 비교용 데이터에 대해 보다 구체적으로 도시하였다.
도 3(a)는 그룹간 동질성 비교용 데이터에서 제1 그룹과 제2 그룹을 구분하여 나타낸 것이다.
여기서 제1 그룹은 앞서 예에서 언급한 바와 같이 쿠폰 제공이 이루어진 대상자 그룹에 해당하는 과거 데이터(기준 시점 이전 데이터)이고, 제2 그룹은 쿠폰 제공이 이루어지지 않은 대상자 그룹에 해당하는 과거 데이터(기준 시점 이전 데이터)일 수 있다.
도 3(b)는 이러한 제1 그룹 데이터 및 제2 그룹 데이터 중에서 일부를 샘플링 한 제1-1 그룹 데이터와 제2-1 그룹 데이터를 나타내고 있다.
한편, 인과 추론 분석 처리부(150)는 표본 확인부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 특정 이벤트와 관련된 인과추론 분석을 수행한다.
예를 들어 도 3(b)에 도시된 바와 같이 기준 시점 이전 데이터에서 샘플링된 제1-1 그룹 데이터와 제2-1 그룹 데이터에 대한 동질성 비교를 수행하여 동질성 테스트에 통과한 경우에는 인과 추론 분석 처리부(150)는 그 제1-1 그룹에 속하는 대상자의 제1 영역 데이터와 제2-1 그룹에 속하는 대상자의 제1 영역 데이터에 인과추론 분석을 수행하는 것이다.
랜덤 추출 동질성 테스트를 통과한 두 그룹이 존재하는 경우, 그 이후에 이루어지는 인과추론 분석과정은 직접 두 그룹간의 특정 이벤트에 대한 반응(Y값 : 반응률, 구매금액, 구매건수 등) 차이를 직접 비교하여 ATE(Average Treatment Effect)를 구하는 방법이나 Meta-learner를 활용한 CATE(Conditional Average Treatment Effect) 추정 방법 등 공지된 다양한 방법이 이용될 수 있다.
예를 들어 마케팅 캠페인 결과 데이터를 이용한 성과 분석이라면 추출 데이터셋으로부터 CATE를 추정해 고객군별 성과 비교, 고객 속성(X)별 반응(Y)에 대한 영향력 비교나 최적 비용 오퍼 대상고객군 Uplift 분석 등을 실시해 볼 수 있다.
참고로 도 4는 이러한 결과 분석 내용의 한 예시이다.
특히, 인과 추론 분석 처리부(150)는 샘플 그룹 추출부(130)와 샘플 검증부(140)의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.
예를 들어 샘플 검증부(140)에서의 테스트 결과 5회 이상 연속하여 동질성 테스트에 통과하지 않은 경우에는 더 이상의 진행을 중단하여 에러 메시지를 출력할 수 있다.
이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)의 전체적인 제어흐름을 설명한다.
인과추론 분석 시스템(100)은 기 저장된 데이터를 참조하여 특정 캠페인 시작 시점 및 종료 시점을 선정한다(단계 S1).
이어서 인과추론 분석 시스템(100)은 상술한 특정 캠페인 시간 시점 및 종료 시점 간의 데이터를 이용하여 대비 그룹을 선정한다.
예를 들어 쿠폰 제공이라는 캠페인에 대해 노출된 고객은 제1 그룹, 그렇지 않은 고객은 제2 그룹으로 선정할 수 있다(단계 S3).
이후, 인과추론 분석 시스템(100)은 제1 그룹 및 제2 그룹에서 샘플링 대상자 그룹을 선정하는데(단계 S5), 예를 들어 제1 그룹에 속하는 고객들 중 일부를 제1-1 그룹으로 선정하고, 제2 그룹에 속하는 고객들 중 일부를 제2-1 그룹으로 선정한다.
그리고 인과추론 분석 시스템(100)은 캠페인 시작 이전의 결과 데이터를 이용하여 샘플링 대상자 그룹간 동질성 테스트를 수행한다(단계 S7).
예를 들어 제1-1 그룹에 속하는 대상자들의 캠페인 시작 시점(쿠폰 제공 시점) 이전에 저장된 데이터들과 제2-1 그룹에 속하는 대상자들의 캠페인 시작 시점 이전에 저장된 데이터들에 대한 A/A 테스트를 수행하여 제1-1 그룹과 제2-1 그룹에 속하는 대상자들이 동질한지 여부를 판단하는 것이다.
일 예로 제1-1 그룹에 속하는 대상자들과 제2-1 그룹에 속하는 대상자들이 과거에 동일한 수준의 구매 패턴을 보인 경우, 인과추론 분석 시스템(100)은 해당 그룹들 상호간 동질성이 유지된다고 판단할 수 있다.
이때 구매 패턴 대신에 인과 추론을 하고자 하는 캠페인에 대한 결과와 동일한 결과를 기준으로 동질성 여부를 판단할 수도 있는데, 예를 들어 인과 추론을 하고자 하는 결과가 '매출액'인 경우 인과추론 분석 시스템(100)은 과거(즉, 쿠폰 제공 시점 이전)에 제1-1 그룹과 제2-1 그룹에 속하는 대상자들의 구매 액수가 비슷한 정도를 보인 경우에 한하여 제1-1 그룹과 제2-1 그룹간 동질성이 유지된다고 판단할 수 있다.
그룹간 동질성이 유지된다고 판단한 경우(단계 S9) 인과추론 분석 시스템(100)은 인과추론 분석을 수행하는데(단계 S11), 즉, 제1-1 그룹에 속하는 대상자들의 속성과 제2-1 그룹에 속하는 대상자들의 속성 및 그 대상자들이 캠페인 시작 시점으로부터 종료 시점까지 발생시킨 구매액을 이용하여 인과추론 분석을 수행할 수 있다.
예를 들어 각 고객들의 속성(X)에, 나이, 성별, 주소가 포함되어 있는 경우, 이러한 각 고객들의 나이, 성별, 주소와, 캠페인 노출(적용) 여부(T), 상품 구매액(반응 결과 Y)을 모두 고려하여 인과추론 분석을 수행할 수 있다.
여기서 각 대상자들의 속성(X), 캠페인 적용 여부(T), 반응 결과(Y)를 이용하여 인과추론 분석을 수행하는 것 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.
그룹간 동질성이 유지되지 않는다고 판단한 경우(단계 S9) 인과추론 분석 시스템(100)은 기 설정된 반복 횟수가 초과되지 않았다면(단계 S13) 샘플링 대상자 그룹을 재선정하고(단계 S15), 이에 대해 동질성 테스트를 수행(단계 S7)하는데, 이러한 과정은 기 설정된 횟수를 초과할 때까지(단계 S13) 반복될 수 있다.
만일 반복 횟수가 기 설정된 횟수를 초과할 때까지 그룹간 동질성 테스트를 통과하지 못한 경우 인과추론 분석 시스템(100)은 에러를 발생시켜 인과추론 분석을 종료한다(단계 S17).
한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.
이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 인과추론 분석 시스템의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.
또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.
100 : 인과추론 분석 시스템 110 : 분석 기간 선정부
120 : 그룹 선정부 130 : 샘플 그룹 추출부
140 : 샘플 검증부 150 : 인과 추론 분석 처리부

Claims (14)

  1. 인과추론 분석 시스템이 수행하는 제어방법에 있어서,
    (a) 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와;
    (b) 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와;
    (c) 상기 (b) 단계에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와;
    (d) 상기 (c) 단계에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와;
    (e) 상기 (d) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  2. 제1항에 있어서,
    상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고,
    상기 (b) 단계에서는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  3. 제1항에 있어서,
    상기 (d) 단계에서는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 (c) 단계에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  4. 제1항에 있어서,
    상기 (d) 단계에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트인 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  5. 제1항에 있어서,
    (f) 상기 (d) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 (b) 단계에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하는 단계와;
    (f) 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계를 더 포함하고,
    상기 (e) 단계에서는 상기 (f) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  6. 제5항에 있어서,
    상기 (e) 단계에서는 상기 (f) 단계의 판단 결과 랜덤 추출 동질성 테스트를 기 설정된 횟수 이상 연속으로 통과하지 못한 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
  7. 제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  8. 하드웨어와 결합되어 제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 응용 프로그램.
  9. 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 분석 기간 선정부와;
    상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 그룹 선정부와;
    상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 샘플 그룹 추출부와;
    상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 샘플 검증부와;
    상기 샘플 검증부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 인과추론 분석 처리부를 포함하는 것을 특징으로 하는 인과추론 분석 시스템.
  10. 제9항에 있어서,
    상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고,
    상기 그룹 선정부는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정하는 것을 특징으로 하는 인과추론 분석 시스템.
  11. 제9항에 있어서,
    상기 샘플 검증부는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하는 것을 특징으로 하는 인과추론 분석 시스템.
  12. 제9항에 있어서,
    상기 샘플 검증부에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트인 것을 특징으로 하는 인과추론 분석 시스템.
  13. 제9항에 있어서,
    상기 샘플 그룹 추출부는 상기 샘플 검증부의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하고,
    상기 샘플 검증부는 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 것을 특징으로 하는 인과추론 분석 시스템.
  14. 제13항에 있어서,
    상기 인과추론 분석 처리부는 상기 샘플 그룹 추출부와 상기 샘플 검증부의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단하는 것을 특징으로 하는 인과추론 분석 시스템.
KR1020220022738A 2022-02-22 인과추론 분석 시스템 및 그 제어방법 KR102670198B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220022738A KR102670198B1 (ko) 2022-02-22 인과추론 분석 시스템 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220022738A KR102670198B1 (ko) 2022-02-22 인과추론 분석 시스템 및 그 제어방법

Publications (2)

Publication Number Publication Date
KR20230125913A KR20230125913A (ko) 2023-08-29
KR102670198B1 true KR102670198B1 (ko) 2024-05-29

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046926A1 (en) 2014-05-23 2018-02-15 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
US20180225593A1 (en) 2007-05-15 2018-08-09 Intellireal, Llc Transforming property data into sufficiently sized, relatively homogeneous data segments for configuring automated modeling systems
US20200356894A1 (en) 2019-05-07 2020-11-12 Foursquare Labs, Inc. Visit prediction
US20220005371A1 (en) 2020-07-01 2022-01-06 EDUCATION4SIGHT GmbH Systems and methods for providing group-tailored learning paths
KR102392576B1 (ko) 2020-11-26 2022-04-29 숭실대학교 산학협력단 인공 지능 모델의 무결성 검증 방법과 이를 수행하기 위한 컴퓨팅 장치 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225593A1 (en) 2007-05-15 2018-08-09 Intellireal, Llc Transforming property data into sufficiently sized, relatively homogeneous data segments for configuring automated modeling systems
US20180046926A1 (en) 2014-05-23 2018-02-15 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
US20200356894A1 (en) 2019-05-07 2020-11-12 Foursquare Labs, Inc. Visit prediction
US20220005371A1 (en) 2020-07-01 2022-01-06 EDUCATION4SIGHT GmbH Systems and methods for providing group-tailored learning paths
KR102392576B1 (ko) 2020-11-26 2022-04-29 숭실대학교 산학협력단 인공 지능 모델의 무결성 검증 방법과 이를 수행하기 위한 컴퓨팅 장치 및 시스템

Similar Documents

Publication Publication Date Title
US7050932B2 (en) Method, system, and computer program product for outlier detection
US11631032B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
US9691032B2 (en) Knowledge discovery from belief networks
JP6744882B2 (ja) 行動パターン探索システム、および行動パターン探索方法
CN108921569B (zh) 一种确定用户投诉类型的方法及装置
US20200257964A1 (en) Machine learning system for various computer applications
US20120150825A1 (en) Cleansing a Database System to Improve Data Quality
Wu et al. Comparison of different machine learning algorithms for multiple regression on black friday sales data
CN112037038A (zh) 银行信贷风险预测方法及装置
Perišić et al. RFM-LIR feature framework for churn prediction in the mobile games market
Mutanen Customer churn analysis–a case study
Mutanen et al. Customer churn prediction–a case study in retail banking
US20220188876A1 (en) Advertising method and apparatus for generating advertising strategy
KR102670198B1 (ko) 인과추론 분석 시스템 및 그 제어방법
US20130091007A1 (en) Method and Apparatus for Automated Impact Analysis
Wang Churn Prediction for High-Value Players in Freemium Mobile Games: Using Random Under-Sampling.
Suzuki et al. Assessing the quality of Wikipedia editors through crowdsourcing
US11556734B2 (en) System and method for unsupervised abstraction of sensitive data for realistic modeling
KR20230125913A (ko) 인과추론 분석 시스템 및 그 제어방법
Subashini et al. Enhanced system for revealing fraudulence in credit card approval
US11861636B2 (en) Providing insights and suggestions for journeys
US11461728B2 (en) System and method for unsupervised abstraction of sensitive data for consortium sharing
JP4689701B2 (ja) 広告評価方法、コンピュータ読み取り可能な記録媒体、広告評価システム
US11798025B1 (en) Incremental sales modeling using proxy campaigns
Abbas et al. Churn Prediction of Customers in a Retail Business using Exploratory Data Analysis