KR20230125913A - Causal inference analysis system and control method thereof - Google Patents

Causal inference analysis system and control method thereof Download PDF

Info

Publication number
KR20230125913A
KR20230125913A KR1020220022738A KR20220022738A KR20230125913A KR 20230125913 A KR20230125913 A KR 20230125913A KR 1020220022738 A KR1020220022738 A KR 1020220022738A KR 20220022738 A KR20220022738 A KR 20220022738A KR 20230125913 A KR20230125913 A KR 20230125913A
Authority
KR
South Korea
Prior art keywords
data
causal
group
time point
specific event
Prior art date
Application number
KR1020220022738A
Other languages
Korean (ko)
Other versions
KR102670198B1 (en
Inventor
이성우
Original Assignee
오브젠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오브젠 주식회사 filed Critical 오브젠 주식회사
Priority to KR1020220022738A priority Critical patent/KR102670198B1/en
Publication of KR20230125913A publication Critical patent/KR20230125913A/en
Application granted granted Critical
Publication of KR102670198B1 publication Critical patent/KR102670198B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 인과추론 분석 시스템 및 그 제어방법에 관한 것이다. 본 발명에 따른 인과추론 분석 시스템의 제어방법은, 인과추론 분석 시스템이 수행하는 제어방법에 있어서, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와; 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와; 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와; 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함하는 것을 특징으로 한다.The present invention relates to a causal reasoning analysis system and a control method thereof. A control method of a causal reasoning analysis system according to the present invention includes the steps of selecting a reference time point and an end time point corresponding to a specific event from collected data; selecting a plurality of subject groups that are roughly classified in relation to the specific event among data from the reference point in time to the end point in time; extracting a plurality of sampling target groups corresponding to a part of each of the plurality of selected target target groups; performing a random extraction homogeneity test on the basis of data prior to the reference point in time with respect to the extracted sampled subject groups and determining whether or not they pass; and performing a causal inference analysis related to the specific event based on data corresponding to the corresponding sampled subject groups when the random extraction homogeneity test is passed as a result of the determination.

Description

인과추론 분석 시스템 및 그 제어방법{CAUSAL INFERENCE ANALYSIS SYSTEM AND CONTROL METHOD THEREOF}Causal inference analysis system and its control method {CAUSAL INFERENCE ANALYSIS SYSTEM AND CONTROL METHOD THEREOF}

본 발명은 인과추론 분석 시스템 및 그 제어방법에 관한 것으로, 보다 상세하게는 인과추론에 이용되는 두 그룹간의 동질성 확보를 확인한 후 인과추론 분석을 수행하는 시스템 및 그 제어방법에 관한 것이다.The present invention relates to a causal reasoning analysis system and a control method thereof, and more particularly, to a system and a control method for performing a causal reasoning analysis after confirming homogeneity between two groups used for causal reasoning.

요즘 인터넷 환경과, 데이터 수집 툴 등의 다양화로 인해 많은 데이터들이 수집되고 있다.Nowadays, a lot of data is being collected due to the diversification of the Internet environment and data collection tools.

그런데 이렇게 수집되는 데이터들은 그 자체로는 큰 의미가 없고 데이터가 만들어내는 숨겨진 맥락을 '정확히' 분석할 줄 알아야 한다.However, the data collected in this way does not mean much in itself, and it is necessary to know how to 'correctly' analyze the hidden context created by the data.

특히 데이터로부터 인과추론이 가능하다면, 비즈니스 영역에서 상당히 큰 도움을 받을 수 있다.In particular, if causal inference is possible from data, it can be of great help in the business field.

여기서 인과(因果, Cause-Effect)는 원인과 결과다. 추론(推論)은 '있는 사실'을 근거로 추리하고 추정하여 결론을 이끌어내는 것이다. 즉, 인과추론이란 두 개의 사실을 두고 "정말 인과관계가 존재하는가?" "두 사실은 각각 원인과 결과인가?"를 평가하여 판단하는 방법론인 것이다.Here, cause and effect are cause and effect. Inference is to draw conclusions by inferring and estimating based on 'existing facts'. In other words, causal inference is about two facts, "Does a causal relationship really exist?" It is a methodology for judging by evaluating "Are the two facts a cause and an effect, respectively?"

여기서 '인과관계'는 '상관관계'와는 다른 것이다.Here, 'causation' is different from 'correlation'.

인과관계는 상술한 바와 같이 원인과 결과의 관계를 나타낸 것을 의미하고, 상관관계는 단지 서로 관련성이 있음을 의미할 뿐, 원인과 결과를 나타내는 것은 아니다.As described above, the causal relationship means a relationship between cause and effect, and the correlation only means that there is a relationship between each other, but does not indicate a cause and effect.

인과관계 추론을 위해 다양한 시도들이 있다.There are various attempts to infer causal relationships.

인과 추론을 하는 가장 확실한 방법은 실험 설계 단계부터 완전 무작위 배정(RCT: Randomized Controlled Trial)을 통해 얻어진 데이터에서 처치에 따른 반응의 효과를 비교하는 것이다.The surest way to make causal inference is to compare the effect of the response according to treatment in the data obtained through a completely randomized controlled trial (RCT) from the design stage of the experiment.

예를 들어 마케팅 측면에서 광고를 집행한 후 광고를 본 구매자와 광고를 보지 않은 구매자간의 구매여부(구매율, 구매액 등)를 분석하여 광고를 원인으로 구매라는 결과가 발생하는 정도를 분석할 수 있는 것이다.For example, in terms of marketing, after running an advertisement, it is possible to analyze the extent to which the result of purchase is caused by the advertisement by analyzing the purchase (purchase rate, purchase amount, etc.) between the buyer who saw the advertisement and the buyer who did not see the advertisement. .

그러나 의료 실험과 같이 실험의 내용에 따라 윤리, 형평성 등의 문제로 무작위 실험을 하지 못하거나, 이미 과거에 실시한 캠페인 데이터를 이용해 인과 분석을 필요로 하는 경우가 있다.However, depending on the content of the experiment, such as medical experiments, random experiments cannot be conducted due to issues such as ethics and equity, or causal analysis is required using campaign data that has already been conducted in the past.

이런 사후적인 인과 추론을 위해서는 최근에는 기계학습을 이용한 여러 툴들이 제시되고 있다.For such ex post causal inference, several tools using machine learning have recently been proposed.

그런데 사후적인 인과관계 추론의 결과에 신뢰성이 담보되기 위해서는 대상에 대한 샘플링이 적절하게 이루어져야 한다.However, in order to ensure reliability in the results of ex post causal relationship inference, the sampling of the subject must be appropriately performed.

예를 들어 앞서 예에서 광고를 본 고객과 그렇지 않은 고객간에 광고 시청 여부를 제외한 다른 편향 속성이 존재하는 경우(예를 들어 광고를 본 고객의 연령대와 광고를 보지 않은 고객의 연령대가 구분되는 경우)에는 광고에 따른 구매 효과에 대한 분석을 신뢰할 수 없는 것이다.For example, in the previous example, if there is a bias attribute between customers who viewed the advertisement and those who did not, other than whether or not they watched the advertisement (for example, if the age group of customers who viewed the advertisement is different from the age group of customers who did not view the advertisement). , the analysis of the purchase effect according to the advertisement is unreliable.

이를 위해서는 다양한 속성을 지닌 대상들에 대한 랜덤 샘플링이 이루어져야 하는데, 이 경우에도 속성의 개수가 적은 경우에는 광고 시청 여부(T)와 구매 반응(Y)에 영향을 줄 수 있는 관찰하지 못한 속성변수가 있을 확률이 높기 때문에 적절한 랜덤 샘플링이 이루어졌다고 볼 수 없고, 분석툴을 이용한 결과 역시 신뢰할 수 없게 된다.To do this, random sampling must be performed on objects with various attributes. Even in this case, if the number of attributes is small, unobserved attribute variables that can affect whether or not to view an advertisement (T) and purchase response (Y) Since the probability of existence is high, it cannot be considered that proper random sampling has been performed, and the results using the analysis tool are also unreliable.

즉, 비교 대상간에는 분석하고자 하는 처치 여부(위의 예에서 광고 노출 여부)를 제외한 동질성이 인정되어야 그 분석 결과를 믿을 수 있게 되는데, 종래에는 각 대상의 속성의 개수가 부족한 경우에는 이를 극복할 방안이 없었다.In other words, the analysis result can be trusted only when homogeneity is recognized between the comparison objects except for whether or not the treatment to be analyzed (advertisement exposure in the example above) is recognized. there was no

공개특허 제10-2009-0018806호Patent Publication No. 10-2009-0018806

본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 비교 대상들의 속성의 개수가 적은 경우라도 별도의 알고리즘을 통해 비교 대상간의 동질성을 확인하여 인과추론 분석이 이루어지도록 하는 인과추론 분석 시스템 및 그 제어방법을 제공하는 것이다.The present invention has been devised to solve the above-mentioned conventional problems, and its purpose is causal reasoning that enables causal inference analysis to be performed by confirming homogeneity between comparison objects through a separate algorithm even when the number of attributes of comparison objects is small. It is to provide an analysis system and its control method.

상기한 목적을 달성하기 위해 본 발명에 따른 인과추론 분석 시스템의 제어방법은, 인과추론 분석 시스템이 수행하는 제어방법에 있어서, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와; 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와; 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와; 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함할 수 있다.In order to achieve the above object, the control method of the causal reasoning analysis system according to the present invention includes the steps of selecting a reference time point and an end time point corresponding to a specific event from collected data in the control method performed by the causal reasoning analysis system. and; selecting a plurality of subject groups that are roughly classified in relation to the specific event among data from the reference point in time to the end point in time; extracting a plurality of sampling target groups corresponding to a part of each of the plurality of selected target target groups; performing a random extraction homogeneity test on the basis of data prior to the reference point in time with respect to the extracted sampled subject groups and determining whether or not they pass; The method may include performing causal inference analysis related to the specific event based on data corresponding to the corresponding sampled subject groups when the random extraction homogeneity test is passed as a result of the determination.

여기서, 상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고, 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.Here, the specific event is a specific campaign targeting customers, and two target groups may be selected according to whether or not they have been exposed to the campaign.

여기서, 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.Here, after calculating the analysis period from the reference time point to the end time point, a comparison end time point corresponding to a previous past time point corresponding to the analysis period from the reference time point is selected, and A random sampling homogeneity test may be performed based on data from the reference point in time to the comparison end point in time.

여기서, 상기 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.Here, the random extraction homogeneity test performed may be an A/A test using the same result as that of the specific event.

여기서, 상기 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하는 단계와; 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계를 더 포함하고, 상기 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행할 수 있다.Here, if the determination result does not pass the random extraction homogeneity test, re-extracting a plurality of sampled subject groups corresponding to a part of each of the selected plurality of subject groups; Further comprising the step of performing a random extraction homogeneity test on the basis of the data prior to the reference point in time for each of the re-extracted plurality of sampled subject groups and determining whether the random extraction homogeneity test is passed as a result of the determination. Causal inference analysis related to the specific event may be performed based on data corresponding to the corresponding sampled subject groups.

여기서, 상기 판단 결과 랜덤 추출 동질성 테스트를 기 설정된 횟수 이상 연속으로 통과하지 못한 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.Here, as a result of the determination, if the random extraction homogeneity test is not passed a predetermined number of consecutive times, the causal reasoning analysis for the specific event may be stopped.

또, 상기한 목적을 달성하기 위해 본 발명에 따른 인과추론 분석 시스템은, 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 분석 기간 선정부와; 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 그룹 선정부와; 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 샘플 그룹 추출부와; 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 샘플 검증부와; 상기 표본 확인부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 인과추론 분석 처리부를 포함할 수 있다.In addition, the causal reasoning analysis system according to the present invention in order to achieve the above object, the analysis period selection unit for selecting a reference point in time and an end point corresponding to a specific event in the collected data; a group selector for selecting a plurality of subject groups that are roughly classified in relation to the specific event among data from the reference point in time to the end point in time; a sample group extraction unit for extracting a plurality of sampled subject groups corresponding to portions of each of the plurality of subject groups selected by the group selection unit; a sample verifying unit for performing a random extraction homogeneity test based on data prior to the reference point in time with respect to the sampled subject groups extracted from the sample group extracting unit and determining whether or not they pass; A causal reasoning analysis processing unit for performing a causal reasoning analysis related to the specific event based on data corresponding to the corresponding sampled subject groups when the random extraction homogeneity test is passed as a result of the determination of the sample checking unit may be included.

여기서, 상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고, 상기 그룹 선정부는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.Here, the specific event is a specific campaign targeting customers, and the group selector may select two target groups according to whether or not they have been exposed to the campaign.

여기서, 상기 샘플 검증부는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.Here, the sample verifying unit calculates an analysis period from the reference time point to the end time point, selects a comparison end time point corresponding to a previous past time point by the analysis period from the reference time point, and the sample group extraction unit Random extraction homogeneity test may be performed on the basis of data from the reference time point to the comparison end point for each of the sampled subject groups extracted from .

여기서, 상기 샘플 검증부에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.Here, the random extraction homogeneity test performed by the sample verification unit may be an A/A test using the same result as the result of the specific event.

여기서, 상기 샘플 그룹 추출부는 상기 샘플 검증부의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하고, 상기 샘플 검증부는 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단할 수 있다.Here, the sample group extraction unit re-extracts a plurality of sampling target groups corresponding to a part of each of the plurality of target groups selected by the group selection unit when the random extraction homogeneity test is not passed as a result of the determination of the sample verifying unit, The sample verifier may perform a random extraction homogeneity test on the basis of data prior to the reference point in time with respect to the re-extracted plurality of sampled subject groups to determine whether or not to pass.

여기서, 상기 인과추론 분석 처리부는 상기 샘플 그룹 추출부와 상기 샘플 검증부의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.Here, the causal reasoning analysis processing unit performs causal reasoning for a specific event when a sampling target group that has passed the random extraction homogeneity test is not found until the sample group extraction unit and the sample verification unit are repeatedly performed more than a predetermined number of times. analysis can be discontinued.

이상 설명한 바와 같이 본 발명에 따르면, 인과추론 분석을 수행하고자 하는 대상의 속성의 개수가 적거나 또는 데이터양 자체가 적어서 인과추론 분석의 결과를 신뢰할 수 있는 경우에, 추출되는 샘플링 데이터에 대한 동질성 테스트를 미리 수행함으로써, 인과추론 분석의 신뢰성을 담보할 수 있다.As described above, according to the present invention, when the number of attributes of the object to be performed causal inference analysis is small or the amount of data itself is small so that the result of causal inference analysis is reliable, the homogeneity test for the extracted sampling data By performing in advance, the reliability of causal inference analysis can be ensured.

특히 인과추론 분석과 관련된 특정 캠페인이 시작되기 이전의 데이터에 대한 특정 캠페인의 반응 결과와 동일 또는 유사한 과거의 결과를 이용한 A/A 테스트를 통해 특정 캠페인과 관련된 각 샘플링 데이터 그룹간의 동질성 테스트를 수행함으로써 동질성 판단 자체에 대한 신뢰도를 높일 수 있다.In particular, by performing a homogeneity test between each sampling data group related to a specific campaign through an A/A test using the same or similar past results as the response result of a specific campaign to data before the start of a specific campaign related to causal inference analysis The reliability of the homogeneity judgment itself can be increased.

도 1은 본 발명의 일 실시예에 따른 인과추론 분석 시스템의 기능 블록도이고,
도 2 및 도 3은 도 1의 인과추론 분석 시스템이 추출 또는 이용하는 데이터에 대한 설명을 위한 도면이고,
도 4는 인과추론 분석툴을 이용하는 결과의 일 예이고,
도 5는 본 발명의 일 실시예에 따른 인과추론 분석 시스템의 제어흐름도이다.
1 is a functional block diagram of a causal inference analysis system according to an embodiment of the present invention;
2 and 3 are views for explaining data extracted or used by the causal inference analysis system of FIG. 1,
4 is an example of a result using a causal reasoning analysis tool;
5 is a control flow diagram of a causal inference analysis system according to an embodiment of the present invention.

이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.Hereinafter, each embodiment according to the present invention is only one example to aid understanding of the present invention, and the present invention is not limited to these embodiments. In particular, the present invention may be composed of at least one or more combinations of individual components, individual functions, or individual steps included in each embodiment.

특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.In particular, although alphabets such as '(a)' are included in some claims of the claims for convenience, these alphabets do not prescribe the order of each step.

본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)은 기 저장된 데이터를 분석하여 특정 이벤트에 대한 반응을 참고하여 인과추론 분석을 수행하는 기능을 수행한다.The causal reasoning analysis system 100 according to an embodiment of the present invention performs a function of performing causal reasoning analysis by analyzing pre-stored data and referring to a response to a specific event.

특히, 본 실시예에서 인과추론 분석 시스템(100)은 필요한 데이터가 미리 저장되어 있고 이러한 미리 저장된 데이터를 이용하여 인과 추론 분석을 수행한다고 가정한다.In particular, in this embodiment, it is assumed that the causal reasoning analysis system 100 has previously stored necessary data and performs causal reasoning analysis using the previously stored data.

미리 저장되는 데이터에는 예를 들어 각종 이벤트에 대한 고객의 반응 등이 포함될 수 있는데, 일 예로 인과추론 분석 시스템(100)은 마케팅용으로 특정 쿠폰을 지급하거나 또는 특정 광고를 온라인 고객들에게 노출시킨 후, 해당 특정 쿠폰이나 특정 광고에 노출된 고객들의 구매 결과와 그렇지 않은 고객들의 구매 결과를 비교하여 그 특정 쿠폰이나 특정 광고가 고객들의 구매에 미치는 영향 등을 분석할 수 있는 것이다.Pre-stored data may include, for example, customer reactions to various events. For example, the causal reasoning analysis system 100 pays a specific coupon for marketing or exposes a specific advertisement to online customers, It is possible to analyze the effect of the specific coupon or specific advertisement on the purchase of customers by comparing the purchase results of customers exposed to the specific coupon or specific advertisement with the purchase results of customers who are not exposed to the specific coupon or advertisement.

이러한 인과추론 분석 시스템(100)의 구체적인 기능 블록의 일 예는 도 1에 도시된 바와 같다.An example of a specific functional block of the causal reasoning analysis system 100 is as shown in FIG. 1 .

동 도면에 도시된 바와 같이, 인과추론 분석 시스템(100)은 분석 기간 선정부(110), 그룹 선정부(120), 샘플 그룹 추출부(130), 샘플 검증부(140), 인과 추론 분석 처리부(150)를 포함하여 구성될 수 있다.As shown in the figure, the causal reasoning analysis system 100 includes an analysis period selection unit 110, a group selection unit 120, a sample group extraction unit 130, a sample verification unit 140, and a causal reasoning analysis processing unit. It may be configured to include (150).

분석 기간 선정부(110)는 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 기능을 수행한다.The analysis period selection unit 110 performs a function of selecting a reference time point and an end time point corresponding to a specific event in the collected data.

앞서 언급한 바와 같이 인과추론 분석을 위한 데이터들은 미리 수집되어 있는데, 이러한 수집된 데이터는 인과추론 분석 시스템(100)의 자체 저장소(미 도시함)에 저장될 수도 있고, 또는 별도의 데이터베이스 서버(미 도시함)에 저장될 수 있는데, 분석 기간 선정부(110)는 자체 저장소 또는 별도의 데이터베이스 서버에 접속할 수 있는 인터페이스를 포함하여 구성될 수 있다.As mentioned above, data for causal reasoning analysis is collected in advance, and the collected data may be stored in the causal reasoning analysis system 100's own storage (not shown), or a separate database server (not shown). shown), the analysis period selection unit 110 may be configured to include an interface capable of accessing its own storage or a separate database server.

여기서 특정 이벤트는 과거 특정 시점에 행해졌던 마케팅 분야의 각종 캠페인에 해당할 수 있다.Here, the specific event may correspond to various campaigns in the field of marketing conducted at a specific time in the past.

본 실시예에서는 특정 이벤트가 과거 특정 기간 동안 온라인 행사의 일환으로 행해졌던 쿠폰 제공 이벤트인 것을 일 예로 한다.In this embodiment, it is taken as an example that the specific event is a coupon providing event that was performed as part of an online event during a specific period in the past.

예를 들어 인과추론 분석 시스템(100)은 온라인 쇼핑몰에 접속한 고객들 중 일부에게 쿠폰을 제공하고 그 사실을 팝업창 등을 통해 알릴 수 있다.For example, the causal reasoning analysis system 100 may provide a coupon to some of the customers accessing the online shopping mall and notify the fact through a pop-up window or the like.

그룹 선정부(120)는 기준 시점으로부터 종료 시점까지의 데이터 중 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 기능을 수행한다.The group selector 120 performs a function of selecting a plurality of subject groups that are roughly classified with respect to a specific event among data from a reference point in time to an end point in time.

특히, 그룹 선정부(120)는 특정 이벤트(일 예로 특정 캠페인)에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정할 수 있다.In particular, the group selection unit 120 may select two target groups according to whether or not they have been exposed to a specific event (for example, a specific campaign).

예를 들어 그룹 선정부(120)는 특정 기간 동안 일부의 고객들에 대해 쿠폰 제공이 이루어진 경우, 그 쿠폰 제공이 이루어진 기간(즉, 기준 시점부터 종료 시점까지의 기간) 동안 해당 쿠폰 제공이 이루어진 제1 그룹과 쿠폰 제공이 이루어지지 않은 제2 그룹을 선정할 수 있는 것이다.For example, the group selection unit 120, when a coupon is provided to some customers during a specific period, the first coupon provided during the period during which the coupon is provided (ie, the period from the reference point to the end point). It is possible to select a group and a second group to which coupons are not provided.

본 실시예에서는 이처럼 두 개의 대비 그룹을 선정하는 것을 일 예로 한다.In this embodiment, selecting two contrast groups is an example.

샘플 그룹 추출부(130)는 그룹 선정부(120)에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 기능을 수행한다.The sample group extraction unit 130 performs a function of extracting a plurality of sampled subject groups corresponding to a portion of each of the plurality of subject groups selected by the group selection unit 120 .

예를 들어 샘플 그룹 추출부(130)는 제1 그룹에서 그 일부인 제1-1 그룹을 추출하고, 제2 그룹에서 그 일부인 제2-1 그룹을 추출할 수 있는 것이다.For example, the sample group extractor 130 may extract a 1-1 group that is a part of the first group and a 2-1 group that is a part of the second group.

이에 따라 일 예로 제1 그룹에 속하는 고객의 수가 1000명인 경우 제1-1 그룹은 그 1000명 중 일부인 300명일 수 있는 것이다. 이는 제2 그룹과 제2-1 그룹의 경우도 마찬가지이다.Accordingly, for example, if the number of customers belonging to the first group is 1000, the 1-1 group may be 300 customers, which is a part of the 1000 customers. This is also the case of the second group and the 2-1 group.

이러한 샘플 그룹 추출부(130)에 추출된 샘플링 대상 그룹에 대해서는 후술하는 바와 같이 샘플 검증부(140)에 의해 랜덤 추출 동질성 테스트가 수행될 수 있는데, 샘플 검증부(140)의 테스트에 통과하지 못한 경우, 샘플 그룹 추출부(130)는 그룹 선정부(120)에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출할 수 있고, 이러한 과정은 기 설정된 횟수만큼 반복될 수 있다.A random extraction homogeneity test may be performed by the sample verifying unit 140 as will be described later on the sampling target group extracted by the sample group extracting unit 130. In this case, the sample group extraction unit 130 may re-extract a plurality of sampled subject groups corresponding to a portion of each of the plurality of subject groups selected by the group selection unit 120, and this process may be repeated a predetermined number of times. can

한편, 샘플 검증부(140)는 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단한다.Meanwhile, the sample verification unit 140 performs a random extraction homogeneity test on the basis of data prior to the reference point in time for each of the sampled subject groups extracted by the sample group extraction unit 130, and determines whether or not they pass.

여기서 랜덤 추출 동질성 테스트는 소정의 대비 그룹 간에 랜덤 추출과 같은 동질성이 유지되는지 여부를 테스트 하는 것으로서, 편향된 추출이 이루어진 것은 아닌지를 판단하기 위한 것이다.Here, the random extraction homogeneity test is to test whether homogeneity, such as random extraction, is maintained between predetermined contrast groups, and is to determine whether or not biased extraction has been performed.

예를 들어 특정 그룹에 속하는 사람들 중에서 일부를 추출한 경우 그 추출된 일부가 해당 특정 그룹에 대한 대표성을 유지하기 위해서는 표본의 크기가 커야 하고, 또한 랜덤 추출(즉, 무작위 표집)이 이루어져야 하며, 모집단이 동질적이어야 한다.For example, when a portion of people belonging to a specific group is extracted, the sample size must be large and random sampling (i.e., random sampling) must be performed in order for the extracted portion to be representative of the specific group. It should be homogeneous.

즉, 모집단의 동질성이 높을수록 표본 오차가 줄어들 수 있는 것이다.That is, the higher the homogeneity of the population, the smaller the sampling error.

따라서 추출되는 모집단의 동질성 테스트는 상당히 중요한데, 본 제안발명에서 샘플 검증부(140)는 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 그들 그룹들이 모두 동질한 집단에 해당하는지를 판단하는 것이다.Therefore, the homogeneity test of the extracted population is very important. In the present proposed invention, the sample verification unit 140 determines whether the groups of the sampled subjects all belong to a homogeneous group based on data before the reference point in time for each other.

특히, 샘플 검증부(140)는 기준 시점으로부터 종료 시점까지의 분석 기간을 산출한 후, 기준 시점으로부터 그 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행할 수 있다.In particular, the sample verifying unit 140 calculates the analysis period from the reference time point to the end time point, selects the comparison end time point corresponding to the previous past time point by the analysis period from the reference time point, and selects the sample group extractor ( 130), a random extraction homogeneity test may be performed for each sampled subject group based on data from the reference time point to the comparison end point.

예를 들어 기준 시점으로부터 종료 시점까지의 분석 기간이 1주간이라면, 샘플 검증부(140)는 기준 시점으로부터 이 그전의 1주간의 데이터를 이용하여 샘플 그룹 추출부(130)에서 추출된 샘플링 대상자 그룹들 상호간에 대해 랜덤 추출 동질성 테스트를 수행할 수 있는 것이다.For example, if the analysis period from the reference time point to the end time point is 1 week, the sample verifying unit 140 uses the data of the previous week from the reference time point to the sampling target group extracted by the sample group extraction unit 130. It is possible to perform a random extraction homogeneity test for each other.

이때 샘플 검증부(140)에서 수행하는 랜덤 추출 동질성 테스트는 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트일 수 있다.At this time, the random extraction homogeneity test performed by the sample verifying unit 140 may be an A/A test using the same result as that of a specific event.

예를 들어 특정 이벤트에 대한 결과가 "상품 구매 여부"인 경우 샘플 검증부(140)는 기준 시점으로부터 이 그전의 1주간의 데이터를 이용하여 샘플 그룹들 상호간에 대해 "상품 구매 여부"를 기초로 동질성 테스트를 수행할 수 있는 것이다.For example, when the result of a specific event is "whether a product is purchased or not", the sample verifying unit 140 uses the data of one week before this from the reference point in time to determine whether or not a product has been purchased for each sample group. A homogeneity test can be performed.

이 경우 제1-1 그룹과 제2-1 그룹간에 동질성 테스트 통과 여부는 예를 들어 각 그룹 내의 "상품 구매 비율"이 소정의 범위 내에서 유사한지 여부에 따라 결정될 수도 있다.In this case, whether or not the homogeneity test is passed between the 1-1 group and the 2-1 group may be determined according to, for example, whether the "product purchase ratio" within each group is similar within a predetermined range.

또한 샘플 검증부(140)는 앞서 언급한 바와 같이 샘플 그룹 추출부(130)에서 샘플링 대상 그룹들이 재 추출된 경우에도, 그 재 추출된 샘플링 대상자 그룹들 상호간에 대해 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 다시 수행하여 통과 여부를 판단할 수 있고, 이러한 과정은 기 설정된 횟수만큼 반복될 수 있다.In addition, as mentioned above, the sample verifying unit 140, even when the sampled subject groups are re-extracted by the sample group extracting unit 130, randomizes the re-extracted sampled subject groups based on data prior to the reference point in time. The extraction homogeneity test may be performed again to determine whether or not it passes, and this process may be repeated a predetermined number of times.

참고로 도 2 및 도 3에는 본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)의 그룹 선정부(120) 및 샘플 그룹 추출부(130)에서 추출 및 이용되는 데이터의 일 예를 나타내고 있다.For reference, FIGS. 2 and 3 show examples of data extracted and used by the group selection unit 120 and the sample group extraction unit 130 of the causal reasoning analysis system 100 according to an embodiment of the present invention. .

우선 도 2를 참고하면 특정 이벤트 시작 시점과 그 종료 시점이 나타나 있고, 그러한 이벤트 후의 경과 데이터가 도시되었다.First, referring to FIG. 2 , a start time and an end time of a specific event are shown, and progress data after the event is shown.

또한 도 2에는 그룹간 동질성 비교용 데이터가 나타나 있는데, 도시된 바와 같이 이벤트 시작 시점으로부터 더 과거의 데이터에 해당한다.In addition, FIG. 2 shows data for comparison of homogeneity between groups, which, as shown, corresponds to data in the past from the start of the event.

즉, 실제 인과추론 분석 처리를 위해서는 이벤트 후 경과 데이터의 적어도 일부가 이용되는 것이고, 인과추론 분석을 위한 데이터로서의 적절성을 판단하기 위해서는 그룹간 동질성 비교용 데이터 중 적어도 일부가 이용되는 것이다.That is, at least a part of post-event progress data is used for actual causal inference analysis processing, and at least a part of data for comparison of homogeneity between groups is used to determine appropriateness as data for causal inference analysis.

이하 편의상 도 2의 이벤트 후 경과 데이터는 제1 영역 데이터이고, 그룹간 동질성 비교용 데이터는 제2영역 데이터라 칭하기로 한다.For convenience, the post-event data of FIG. 2 will be referred to as first region data, and the data for comparing homogeneity between groups will be referred to as second region data.

도 3에는 이러한 그룹간 동질성 비교용 데이터에 대해 보다 구체적으로 도시하였다.Figure 3 shows the data for comparison of homogeneity between these groups in more detail.

도 3(a)는 그룹간 동질성 비교용 데이터에서 제1 그룹과 제2 그룹을 구분하여 나타낸 것이다.3(a) shows the first group and the second group in the data for comparison of homogeneity between groups.

여기서 제1 그룹은 앞서 예에서 언급한 바와 같이 쿠폰 제공이 이루어진 대상자 그룹에 해당하는 과거 데이터(기준 시점 이전 데이터)이고, 제2 그룹은 쿠폰 제공이 이루어지지 않은 대상자 그룹에 해당하는 과거 데이터(기준 시점 이전 데이터)일 수 있다.Here, as mentioned in the previous example, the first group is past data (data before the reference point) corresponding to the target group to which coupons were provided, and the second group is past data (standard) corresponding to the target group to which coupons were not provided. data prior to the point in time).

도 3(b)는 이러한 제1 그룹 데이터 및 제2 그룹 데이터 중에서 일부를 샘플링 한 제1-1 그룹 데이터와 제2-1 그룹 데이터를 나타내고 있다.3(b) shows the 1-1 group data and the 2-1 group data obtained by sampling some of the first group data and the second group data.

한편, 인과 추론 분석 처리부(150)는 표본 확인부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 특정 이벤트와 관련된 인과추론 분석을 수행한다.On the other hand, the causal reasoning analysis processing unit 150 performs a causal reasoning analysis related to a specific event based on data corresponding to the corresponding sampling subject groups when the random extraction homogeneity test is passed as a result of the determination of the sample confirmation unit.

예를 들어 도 3(b)에 도시된 바와 같이 기준 시점 이전 데이터에서 샘플링된 제1-1 그룹 데이터와 제2-1 그룹 데이터에 대한 동질성 비교를 수행하여 동질성 테스트에 통과한 경우에는 인과 추론 분석 처리부(150)는 그 제1-1 그룹에 속하는 대상자의 제1 영역 데이터와 제2-1 그룹에 속하는 대상자의 제1 영역 데이터에 인과추론 분석을 수행하는 것이다.For example, as shown in FIG. 3(b), if the homogeneity test is passed by comparing the homogeneity of the 1-1 group data and the 2-1 group data sampled from data before the reference point, causal inference analysis The processing unit 150 performs causal inference analysis on the first area data of the subject belonging to the 1-1 group and the first area data of the subject belonging to the 2-1 group.

랜덤 추출 동질성 테스트를 통과한 두 그룹이 존재하는 경우, 그 이후에 이루어지는 인과추론 분석과정은 직접 두 그룹간의 특정 이벤트에 대한 반응(Y값 : 반응률, 구매금액, 구매건수 등) 차이를 직접 비교하여 ATE(Average Treatment Effect)를 구하는 방법이나 Meta-learner를 활용한 CATE(Conditional Average Treatment Effect) 추정 방법 등 공지된 다양한 방법이 이용될 수 있다.If there are two groups that have passed the random extraction homogeneity test, the causal inference analysis process performed after that directly compares the difference between the two groups in response to a specific event (Y value: response rate, purchase amount, number of purchases, etc.) Various well-known methods such as a method of obtaining an average treatment effect (ATE) or a method of estimating a conditional average treatment effect (CATE) using a meta-learner may be used.

예를 들어 마케팅 캠페인 결과 데이터를 이용한 성과 분석이라면 추출 데이터셋으로부터 CATE를 추정해 고객군별 성과 비교, 고객 속성(X)별 반응(Y)에 대한 영향력 비교나 최적 비용 오퍼 대상고객군 Uplift 분석 등을 실시해 볼 수 있다.For example, in the case of performance analysis using marketing campaign result data, CATE is estimated from the extracted dataset, and performance comparison by customer group, comparison of influence on response (Y) by customer attribute (X), or uplift analysis of target customer group with optimal cost offer is performed. can see.

참고로 도 4는 이러한 결과 분석 내용의 한 예시이다.For reference, FIG. 4 is an example of such result analysis.

특히, 인과 추론 분석 처리부(150)는 샘플 그룹 추출부(130)와 샘플 검증부(140)의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단할 수 있다.In particular, the causal reasoning analysis processing unit 150 is configured to perform the sample group extraction unit 130 and the sample verification unit 140 repeatedly until a predetermined number of times or more is performed, when the sampling subject group that has passed the random extraction homogeneity test is not found. You can discontinue causal inference analysis for that particular event.

예를 들어 샘플 검증부(140)에서의 테스트 결과 5회 이상 연속하여 동질성 테스트에 통과하지 않은 경우에는 더 이상의 진행을 중단하여 에러 메시지를 출력할 수 있다.For example, if the homogeneity test is not passed five times or more consecutively as a result of the test performed by the sample verifying unit 140, further processing may be stopped and an error message may be output.

이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 인과추론 분석 시스템(100)의 전체적인 제어흐름을 설명한다.Hereinafter, the overall control flow of the causal reasoning analysis system 100 according to an embodiment of the present invention will be described with reference to FIG. 5 .

인과추론 분석 시스템(100)은 기 저장된 데이터를 참조하여 특정 캠페인 시작 시점 및 종료 시점을 선정한다(단계 S1).The causal reasoning analysis system 100 selects a specific campaign start time and end time with reference to pre-stored data (step S1).

이어서 인과추론 분석 시스템(100)은 상술한 특정 캠페인 시간 시점 및 종료 시점 간의 데이터를 이용하여 대비 그룹을 선정한다.Subsequently, the causal reasoning analysis system 100 selects a contrast group using data between the above-described specific campaign time and end time.

예를 들어 쿠폰 제공이라는 캠페인에 대해 노출된 고객은 제1 그룹, 그렇지 않은 고객은 제2 그룹으로 선정할 수 있다(단계 S3).For example, customers exposed to a campaign of providing coupons may be selected as a first group, and customers who are not exposed to a campaign may be selected as a second group (step S3).

이후, 인과추론 분석 시스템(100)은 제1 그룹 및 제2 그룹에서 샘플링 대상자 그룹을 선정하는데(단계 S5), 예를 들어 제1 그룹에 속하는 고객들 중 일부를 제1-1 그룹으로 선정하고, 제2 그룹에 속하는 고객들 중 일부를 제2-1 그룹으로 선정한다.Thereafter, the causal reasoning analysis system 100 selects a sampling target group from the first group and the second group (step S5), for example, selects some of the customers belonging to the first group as the 1-1 group, Some of the customers belonging to the second group are selected as the 2-1 group.

그리고 인과추론 분석 시스템(100)은 캠페인 시작 이전의 결과 데이터를 이용하여 샘플링 대상자 그룹간 동질성 테스트를 수행한다(단계 S7).In addition, the causal reasoning analysis system 100 performs a homogeneity test between sampled subject groups using the result data before the start of the campaign (step S7).

예를 들어 제1-1 그룹에 속하는 대상자들의 캠페인 시작 시점(쿠폰 제공 시점) 이전에 저장된 데이터들과 제2-1 그룹에 속하는 대상자들의 캠페인 시작 시점 이전에 저장된 데이터들에 대한 A/A 테스트를 수행하여 제1-1 그룹과 제2-1 그룹에 속하는 대상자들이 동질한지 여부를 판단하는 것이다.For example, an A/A test is performed on the data stored before the start of the campaign for the subjects belonging to the 1-1 group (coupon provision time) and the data stored before the start of the campaign for the subjects belonging to the 2-1 group. It is to determine whether the subjects belonging to the 1-1 group and the 2-1 group are the same by performing.

일 예로 제1-1 그룹에 속하는 대상자들과 제2-1 그룹에 속하는 대상자들이 과거에 동일한 수준의 구매 패턴을 보인 경우, 인과추론 분석 시스템(100)은 해당 그룹들 상호간 동질성이 유지된다고 판단할 수 있다.For example, if the subjects belonging to the 1-1 group and the subjects belonging to the 2-1 group showed the same level of purchasing patterns in the past, the causal reasoning analysis system 100 determines that the homogeneity between the groups is maintained. can

이때 구매 패턴 대신에 인과 추론을 하고자 하는 캠페인에 대한 결과와 동일한 결과를 기준으로 동질성 여부를 판단할 수도 있는데, 예를 들어 인과 추론을 하고자 하는 결과가 '매출액'인 경우 인과추론 분석 시스템(100)은 과거(즉, 쿠폰 제공 시점 이전)에 제1-1 그룹과 제2-1 그룹에 속하는 대상자들의 구매 액수가 비슷한 정도를 보인 경우에 한하여 제1-1 그룹과 제2-1 그룹간 동질성이 유지된다고 판단할 수 있다.At this time, instead of the purchase pattern, homogeneity may be determined based on the same result as the result of the campaign to make causal inference. Homogeneity between the 1-1 group and the 2-1 group is limited only when the purchase amount of the subjects belonging to the 1-1 group and the 2-1 group in the past (ie, before the time of coupon provision) was similar. can be judged to be maintained.

그룹간 동질성이 유지된다고 판단한 경우(단계 S9) 인과추론 분석 시스템(100)은 인과추론 분석을 수행하는데(단계 S11), 즉, 제1-1 그룹에 속하는 대상자들의 속성과 제2-1 그룹에 속하는 대상자들의 속성 및 그 대상자들이 캠페인 시작 시점으로부터 종료 시점까지 발생시킨 구매액을 이용하여 인과추론 분석을 수행할 수 있다.When it is determined that homogeneity between groups is maintained (step S9), the causal reasoning analysis system 100 performs a causal reasoning analysis (step S11), that is, the attributes of subjects belonging to the 1-1 group and the 2-1 group Causal inference analysis may be performed using the attributes of the target audience and the purchase amount generated by the target audience from the start of the campaign to the end of the campaign.

예를 들어 각 고객들의 속성(X)에, 나이, 성별, 주소가 포함되어 있는 경우, 이러한 각 고객들의 나이, 성별, 주소와, 캠페인 노출(적용) 여부(T), 상품 구매액(반응 결과 Y)을 모두 고려하여 인과추론 분석을 수행할 수 있다.For example, if the attributes (X) of each customer include age, gender, and address, each customer's age, gender, address, campaign exposure (applied) (T), product purchase amount (reaction result Y ) can be considered to perform causal inference analysis.

여기서 각 대상자들의 속성(X), 캠페인 적용 여부(T), 반응 결과(Y)를 이용하여 인과추론 분석을 수행하는 것 그 자체는 공지된 기술에 해당하므로 보다 상세한 설명은 생략한다.Here, since performing causal inference analysis using the attributes (X) of each subject, whether a campaign is applied (T), and the response result (Y) per se corresponds to a known technique, a detailed description thereof will be omitted.

그룹간 동질성이 유지되지 않는다고 판단한 경우(단계 S9) 인과추론 분석 시스템(100)은 기 설정된 반복 횟수가 초과되지 않았다면(단계 S13) 샘플링 대상자 그룹을 재선정하고(단계 S15), 이에 대해 동질성 테스트를 수행(단계 S7)하는데, 이러한 과정은 기 설정된 횟수를 초과할 때까지(단계 S13) 반복될 수 있다.If it is determined that the homogeneity between groups is not maintained (step S9), the causal reasoning analysis system 100 re-selects the sampling subject group (step S15) if the predetermined number of iterations is not exceeded (step S13), and performs a homogeneity test for this group. (Step S7), and this process may be repeated until the predetermined number of times is exceeded (Step S13).

만일 반복 횟수가 기 설정된 횟수를 초과할 때까지 그룹간 동질성 테스트를 통과하지 못한 경우 인과추론 분석 시스템(100)은 에러를 발생시켜 인과추론 분석을 종료한다(단계 S17).If the inter-group homogeneity test is not passed until the number of iterations exceeds the preset number, the causal reasoning analysis system 100 generates an error and ends the causal reasoning analysis (step S17).

한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.Meanwhile, it goes without saying that the process of performing each of the above-described embodiments may be performed by a program or application stored in a predetermined recording medium (for example, computer-readable). Here, the recording medium includes all of an electronic recording medium such as RAM (Random Access Memory), a magnetic recording medium such as a hard disk, an optical recording medium such as a CD (Compact Disk), and the like.

이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 인과추론 분석 시스템의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.At this time, the program stored in the recording medium may be executed on hardware such as a computer or smart phone to perform each of the above-described embodiments. In particular, at least one of the functional blocks of the causal reasoning analysis system according to the present invention described above may be implemented by such a program or application.

또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다. In addition, the present invention is not limited to the specific embodiment described above, but can be implemented by various modifications and variations within the scope of the present invention. It will be apparent that such variations and modifications are included in the present invention provided they come within the scope of the appended claims.

100 : 인과추론 분석 시스템 110 : 분석 기간 선정부
120 : 그룹 선정부 130 : 샘플 그룹 추출부
140 : 샘플 검증부 150 : 인과 추론 분석 처리부
100: causal inference analysis system 110: analysis period selection unit
120: group selection unit 130: sample group extraction unit
140: sample verification unit 150: causal reasoning analysis processing unit

Claims (14)

인과추론 분석 시스템이 수행하는 제어방법에 있어서,
(a) 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 단계와;
(b) 상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 단계와;
(c) 상기 (b) 단계에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 단계와;
(d) 상기 (c) 단계에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계와;
(e) 상기 (d) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
In the control method performed by the causal reasoning analysis system,
(a) selecting a reference time point and an end time point corresponding to a specific event from the collected data;
(b) selecting a plurality of subject groups that are broadly classified in relation to the specific event among data from the reference point in time to the end point in time;
(c) extracting a plurality of sampled subject groups corresponding to a portion of each of the plurality of subject groups selected in step (b);
(d) performing a random extraction homogeneity test based on data prior to the reference point in time with respect to the sampled subject groups extracted in step (c) and determining whether or not they pass;
(e) performing a causal inference analysis related to the specific event based on data corresponding to the corresponding sampled subject groups when the random extraction homogeneity test is passed as a result of the determination in step (d). Control method of causal reasoning analysis system.
제1항에 있어서,
상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고,
상기 (b) 단계에서는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
According to claim 1,
The specific event is a specific campaign targeting customers,
The control method of the causal reasoning analysis system, characterized in that in the step (b), two target groups are selected according to whether they are exposed to the campaign.
제1항에 있어서,
상기 (d) 단계에서는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 (c) 단계에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
According to claim 1,
In the step (d), after calculating the analysis period from the reference time point to the end time point, a comparison end time point corresponding to a previous past time point by the analysis period from the reference time point is selected, and in the step (c) A control method of a causal inference analysis system, characterized in that for performing a random extraction homogeneity test based on data from the reference time point to the comparison end point for each of the sampled subject groups extracted from.
제1항에 있어서,
상기 (d) 단계에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트인 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
According to claim 1,
The control method of the causal reasoning analysis system, characterized in that the random extraction homogeneity test performed in step (d) is an A / A test using the same result as the result for the specific event.
제1항에 있어서,
(f) 상기 (d) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 (b) 단계에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하는 단계와;
(f) 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 단계를 더 포함하고,
상기 (e) 단계에서는 상기 (f) 단계의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
According to claim 1,
(f) re-extracting a plurality of sampled subject groups corresponding to a part of each of the plurality of subject groups selected in step (b) when the random extraction homogeneity test is not passed as a result of the determination in step (d); and ;
(f) performing a random extraction homogeneity test on the basis of data prior to the reference point in time with respect to the re-extracted plurality of sampled subject groups to determine whether they pass,
In the step (e), when the random extraction homogeneity test is passed as a result of the determination in step (f), causal inference analysis related to the specific event is performed based on data corresponding to the corresponding sampled subject groups. Control method of reasoning analysis system.
제5항에 있어서,
상기 (e) 단계에서는 상기 (f) 단계의 판단 결과 랜덤 추출 동질성 테스트를 기 설정된 횟수 이상 연속으로 통과하지 못한 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단하는 것을 특징으로 하는 인과추론 분석 시스템의 제어방법.
According to claim 5,
In the step (e), if the random extraction homogeneity test is not passed consecutively for more than a predetermined number of times as a result of the determination in the step (f), the control of the causal reasoning analysis system is characterized in that to stop the causal reasoning analysis for the specific event. method.
제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.A computer-readable recording medium recording a program for executing the method of any one of claims 1 to 6. 하드웨어와 결합되어 제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 응용 프로그램.An application program stored in a computer readable recording medium to be combined with hardware to execute the method of any one of claims 1 to 6. 수집된 데이터에서 특정 이벤트에 대응되는 기준 시점과 종료 시점을 선정하는 분석 기간 선정부와;
상기 기준 시점으로부터 상기 종료 시점까지의 데이터 중 상기 특정 이벤트와 관련하여 서로 대별되는 복수 개의 대상자 그룹을 선정하는 그룹 선정부와;
상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 추출하는 샘플 그룹 추출부와;
상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 샘플 검증부와;
상기 표본 확인부의 판단 결과 랜덤 추출 동질성 테스트를 통과한 경우 해당 샘플링 대상자 그룹들에 대응되는 데이터에 기초하여 상기 특정 이벤트와 관련된 인과추론 분석을 수행하는 인과추론 분석 처리부를 포함하는 것을 특징으로 하는 인과추론 분석 시스템.
an analysis period selector for selecting a reference time point and an end time point corresponding to a specific event in the collected data;
a group selector for selecting a plurality of subject groups that are broadly classified in relation to the specific event among data from the reference point in time to the end point in time;
a sample group extraction unit for extracting a plurality of sampled subject groups corresponding to portions of each of the plurality of subject groups selected by the group selection unit;
a sample verifying unit for performing a random extraction homogeneity test based on data prior to the reference point in time with respect to the sampled subject groups extracted from the sample group extracting unit and determining whether or not they pass;
Causal inference analysis processing unit for performing causal inference analysis related to the specific event based on data corresponding to the corresponding sampling subject groups when the random extraction homogeneity test is passed as a result of the determination of the sample confirmation unit. analysis system.
제9항에 있어서,
상기 특정 이벤트는 고객들을 대상으로 하는 특정 캠페인이고,
상기 그룹 선정부는 상기 캠페인에 노출되었는지 여부에 따라 두 개의 대상자 그룹을 선정하는 것을 특징으로 하는 인과추론 분석 시스템.
According to claim 9,
The specific event is a specific campaign targeting customers,
The causal reasoning analysis system, characterized in that the group selection unit selects two target groups according to whether or not they are exposed to the campaign.
제9항에 있어서,
상기 샘플 검증부는 상기 기준 시점으로부터 상기 종료 시점까지의 분석 기간을 산출한 후, 상기 기준 시점으로부터 상기 분석 기간만큼의 더 이전 과거 시점에 해당하는 비교 종료 시점을 선정하고, 상기 샘플 그룹 추출부에서 추출된 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점으로부터 상기 비교 종료 시점까지의 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하는 것을 특징으로 하는 인과추론 분석 시스템.
According to claim 9,
The sample verifying unit calculates the analysis period from the reference time point to the end time point, selects a comparison end time point corresponding to a previous past time point by the analysis period from the reference time point, and extracts the data from the sample group extraction unit. A causal inference analysis system, characterized in that for performing a random extraction homogeneity test based on data from the reference time point to the comparison end point for each of the sampled subject groups.
제9항에 있어서,
상기 샘플 검증부에서 수행하는 랜덤 추출 동질성 테스트는 상기 특정 이벤트에 대한 결과와 동일한 결과를 이용한 A/A 테스트인 것을 특징으로 하는 인과추론 분석 시스템.
According to claim 9,
Causal inference analysis system, characterized in that the random extraction homogeneity test performed by the sample verification unit is an A / A test using the same result as the result for the specific event.
제9항에 있어서,
상기 샘플 그룹 추출부는 상기 샘플 검증부의 판단 결과 랜덤 추출 동질성 테스트를 통과하지 못한 경우, 상기 그룹 선정부에서 선정된 복수 개의 대상자 그룹 각각의 일부에 해당하는 복수 개의 샘플링 대상자 그룹을 재추출하고,
상기 샘플 검증부는 상기 재 추출된 복수 개의 샘플링 대상자 그룹들 상호간에 대해 상기 기준 시점 이전 데이터를 기초로 랜덤 추출 동질성 테스트를 수행하여 통과 여부를 판단하는 것을 특징으로 하는 인과추론 분석 시스템.
According to claim 9,
The sample group extraction unit re-extracts a plurality of sampling target groups corresponding to a part of each of the plurality of target groups selected by the group selection unit when the random extraction homogeneity test is not passed as a result of the determination of the sample verifying unit,
The sample verification unit performs a random extraction homogeneity test based on data before the reference point in time with respect to the re-extracted plurality of sampled subject groups to determine whether or not they pass.
제13항에 있어서,
상기 인과추론 분석 처리부는 상기 샘플 그룹 추출부와 상기 샘플 검증부의 기 설정된 횟수 이상 반복 수행이 이루어질 때까지 랜덤 추출 동질성 테스트를 통과한 샘플링 대상자 그룹이 발견되지 않은 경우 해당 특정 이벤트에 대한 인과추론 분석을 중단하는 것을 특징으로 하는 인과추론 분석 시스템.
According to claim 13,
The causal inference analysis processing unit performs causal inference analysis on a specific event when no sampled subject group that has passed the random extraction homogeneity test is found until the sample group extraction unit and the sample verification unit are repeatedly performed more than a predetermined number of times. A causal inference analysis system, characterized in that to stop.
KR1020220022738A 2022-02-22 2022-02-22 Causal inference analysis system and control method thereof KR102670198B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220022738A KR102670198B1 (en) 2022-02-22 2022-02-22 Causal inference analysis system and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220022738A KR102670198B1 (en) 2022-02-22 2022-02-22 Causal inference analysis system and control method thereof

Publications (2)

Publication Number Publication Date
KR20230125913A true KR20230125913A (en) 2023-08-29
KR102670198B1 KR102670198B1 (en) 2024-05-29

Family

ID=87802405

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220022738A KR102670198B1 (en) 2022-02-22 2022-02-22 Causal inference analysis system and control method thereof

Country Status (1)

Country Link
KR (1) KR102670198B1 (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090018806A (en) 2006-06-15 2009-02-23 마이크로소프트 코포레이션 Declaration and consumption of a causality model for probable cause analysis
KR20110035171A (en) * 2009-09-30 2011-04-06 성균관대학교산학협력단 Method and apparatus for context estimating
US20180046926A1 (en) * 2014-05-23 2018-02-15 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
US20180225593A1 (en) * 2007-05-15 2018-08-09 Intellireal, Llc Transforming property data into sufficiently sized, relatively homogeneous data segments for configuring automated modeling systems
KR20200080401A (en) * 2018-12-18 2020-07-07 재단법인대구경북과학기술원 Method for estimating data classification rule, device and computer readable medium for performing the method
US20200356894A1 (en) * 2019-05-07 2020-11-12 Foursquare Labs, Inc. Visit prediction
US20220005371A1 (en) * 2020-07-01 2022-01-06 EDUCATION4SIGHT GmbH Systems and methods for providing group-tailored learning paths
KR102392576B1 (en) * 2020-11-26 2022-04-29 숭실대학교 산학협력단 Method for verifying integrity of aritificial intelligence model, computing device and system for executing the method
KR20220146735A (en) * 2021-04-23 2022-11-02 한국환경연구원 AI analysis-based environmental effect prediction model creation method and environmental effect prediction method using the same

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090018806A (en) 2006-06-15 2009-02-23 마이크로소프트 코포레이션 Declaration and consumption of a causality model for probable cause analysis
US20180225593A1 (en) * 2007-05-15 2018-08-09 Intellireal, Llc Transforming property data into sufficiently sized, relatively homogeneous data segments for configuring automated modeling systems
KR20110035171A (en) * 2009-09-30 2011-04-06 성균관대학교산학협력단 Method and apparatus for context estimating
US20180046926A1 (en) * 2014-05-23 2018-02-15 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
KR20200080401A (en) * 2018-12-18 2020-07-07 재단법인대구경북과학기술원 Method for estimating data classification rule, device and computer readable medium for performing the method
US20200356894A1 (en) * 2019-05-07 2020-11-12 Foursquare Labs, Inc. Visit prediction
US20220005371A1 (en) * 2020-07-01 2022-01-06 EDUCATION4SIGHT GmbH Systems and methods for providing group-tailored learning paths
KR102392576B1 (en) * 2020-11-26 2022-04-29 숭실대학교 산학협력단 Method for verifying integrity of aritificial intelligence model, computing device and system for executing the method
KR20220146735A (en) * 2021-04-23 2022-11-02 한국환경연구원 AI analysis-based environmental effect prediction model creation method and environmental effect prediction method using the same

Also Published As

Publication number Publication date
KR102670198B1 (en) 2024-05-29

Similar Documents

Publication Publication Date Title
WO2015122575A1 (en) Method for predicting personality trait and device therefor
CN112037038A (en) Bank credit risk prediction method and device
US10140345B1 (en) System, method, and computer program for identifying significant records
Susilo Unlocking the secret of E-loyalty: a study from Tiktok users in China
KR102537601B1 (en) Advertising method and apparatus for generating advertising strategy
CN112347457A (en) Abnormal account detection method and device, computer equipment and storage medium
US20130227642A1 (en) Apparatus and method for detecting illegal user
CN112330373A (en) User behavior analysis method and device and computer readable storage medium
KR20230125913A (en) Causal inference analysis system and control method thereof
CN112434223A (en) Information recommendation method and device
CN111510566A (en) Method and device for determining call label, computer equipment and storage medium
CN116318974A (en) Site risk identification method and device, computer readable medium and electronic equipment
JP5209089B2 (en) Posting information evaluation apparatus and posting information evaluation method
Subashini et al. Enhanced system for revealing fraudulence in credit card approval
CN113095888A (en) Message pushing method and device, storage medium and computer equipment
JP4689701B2 (en) Advertisement evaluation method, computer-readable recording medium, advertisement evaluation system
JP5118707B2 (en) Search log misuse prevention method and apparatus
CN110019942B (en) Video identification method and system
CN112949752B (en) Training method and device of business prediction system
CN111447082B (en) Determination method and device of associated account and determination method of associated data object
CN110889103B (en) Method and system for verifying sliding block and model training method thereof
CN114329187B (en) Recommendation method and device of content object, electronic equipment and readable medium
Zhang et al. Identifying “sloppy” users in TMS through operation logs
CN117893214A (en) Big data wind control processing method and system applying AI
Souza de Cursi Stochastic Processes

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right