KR102339181B1

KR102339181B1 - Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템

Info

Publication number: KR102339181B1
Application number: KR1020200029193A
Authority: KR
Inventors: 차지원; 강정모; 강태욱; 김세형; 박준용
Original assignee: 에스케이 주식회사
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2021-12-13
Also published as: KR20210113890A

Abstract

ML을 이용한 데이터 연관성 자동 탐색 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋을 이용하여 제1 ML 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 이용하여, 제2 ML 모델을 생성하며, 생성된 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정한다. 이에 의해, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색함으로써, 보다 적은 인력, 시간 및 비용으로 방대하고 다양한 데이터들 간의 연관성을 정확하게 밝혀내어 학술 연구, 비즈니스 창출에 활용할 수 있게 된다.

Description

Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템{Method and System for Automatic Data Association Detection using Machine Learning}

본 발명은 데이터 분석 기술에 관한 것으로, 더욱 상세하게는 ML(Machine Learning)을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 방법 및 시스템에 관한 것이다.

빅데이터들을 유용하게 활용하기 위해서는, 확보하고 있는 데이터들 간의 연관성을 밝혀내어 의미를 부여하는 것이 필요하며, 이는 데이터 분석에서도 매우 중요한 요소이다.

현재 연관 있는 데이터들 찾아내는 것은 수작업을 통해, 구체적으로 ERD(Entity Relationship Diagram) 등의 메타 데이터를 참조하여 추측하는 수준에 머무르고 있다.

이 방식은 많은 인력과 시간 및 비용을 소모한다는 문제도 있지만, 무엇보다도 분석 결과가 부정확하여 품질이 좋지 않다는 문제가 있다. 이는 데이터의 양이 방대해지고 종류가 다양해짐에 따라 더욱 심화된다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 보다 적은 인력, 시간 및 비용으로 데이터 분석 품질을 향상시키기 위한 방안으로, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋을 이용하여, 제1 ML 모델을 생성하는 제1 생성단계: 제1 데이터 셋과 제2 데이터 셋을 이용하여, 제2 ML 모델을 생성하는 제2 생성단계: 생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 단계;를 포함한다.

본 발명의 실시예에 따른 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하는 단계;를 더 포함하고, 제2 생성단계는, 통합된 데이터 셋을 이용하여, 제2 ML 모델을 생성할 수 있다.

판정단계는, 제2 ML 모델의 정확도인 제2 정확도가 제1 ML 모델의 정확도인 제1 정확도 보다 높으면, 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정할 수 있다.

판정단계는, 제2 정확도가 제1 정확도 보다 높으면, 제2 정확도에 기여한 Feature를 조사하는 단계; 및 조사된 Feature가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 단계;를 포함할 수 있다.

조사단계는, 통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출하는 단계; 및 추출된 Feature Importance들 중 임계치 이상인 Feature들을 선정하는 단계;를 포함하고, 판단 단계는, 선정된 Feature들 중 적어도 하나가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단할 수 있다.

판단 단계는, 선정된 Feature들 모두가 제2 데이터 셋에 포함되어 있지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단할 수 있다.

판정단계는, 제2 정확도가 제1 정확도 보다 높지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 단계;를 더 포함할 수 있다.

통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 date 형 데이터가 포함된 경우, date 형 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 제1 데이터 셋과 제2 데이터 셋을 통합하며, date 구간이 일치하지 않는 데이터는 폐기할 수 있다.

통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 category 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋의 row 개수가 임계치 이상으로 차이 나면, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터로 변환한 후에 제1 데이터 셋과 제2 데이터 셋을 통합할 수 있다.

통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 수치 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋 간 수치의 일치도가 임계치 이상인 데이터를 통합하고, 임계치 미만인 데이터는 폐기할 수 있다.

통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 포함된 데이터의 타입에 따라, 다수의 통합된 데이터 셋을 생성할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 데이터 연관성 자동 탐색 시스템은, 제1 데이터 셋을 이용하여 제1 ML 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 이용하여 제2 ML 모델을 생성하는 생성기: 및 생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 판정기;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색함으로써, 보다 적은 인력, 시간 및 비용으로 방대하고 다양한 데이터들 간의 연관성을 정확하게 밝혀내어 학술 연구, 비즈니스 창출에 활용할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 데이터 연관성 자동 탐색 시스템의 블럭도,
도 2는 본 발명의 다른 실시예에 따른 데이터 연관성 자동 탐색 방법의 설명에 제공되는 흐름도,
도 3은, 도 2에 도시된 방법의 부연 설명에 제공되는 도면,
도 4는 도 2의 S250단계의 상세 흐름도
도 5는 데이터 연관성 탐색의 일 예를 나타낸 도면, 그리고,
도 6은 데이터 저장소를 다수로 구현한 예를 나타낸 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 데이터 연관성 자동 탐색 시스템의 블럭도이다. 본 발명의 실시예에 따른 '데이터 연관성 자동 탐색 시스템'(이하, '연관성 탐색 시스템'으로 약칭)은 Auto ML(Machine Learning)을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 시스템이다.

이와 같은 기능을 수행하는 본 발명의 실시예에 따른 연관성 탐색 시스템은 데이터 저장소(110), 데이터 입력기(120), ML 모델 생성기(130), 데이터 연관성 판정기(140) 및 출력기(150)를 포함하여 구성된다.

데이터 저장소(110)는 다양한 다수의 데이터 셋들을 저장하고 있는 데이터레 이크(Data Lake)이다. 데이터 저장소(110)에 저장된 데이터 셋들 중에는 서로 연관성을 가지는 데이터 셋들이 존재한다. 본 발명의 실시예에 따른 연관성 탐색 시스템은 데이터 저장소(110)에 저장된 데이터 셋들 중 연관성을 가지는 데이터 셋들을 자동으로 탐색한다.

데이터 입력기(120)는 데이터 저장소(110)에 저장된 데이터 셋들 중 ML 모델 생성에 이용할 데이터 셋들을 선정하여 ML 모델 생성기(130)로 전달한다. ML 모델 생성기(130)은 데이터 입력기(120)로부터 전달되는 데이터 셋들을 이용하여 ML 모델들을 생성한다.

데이터 연관성 판정기(140)는 ML 모델 생성기(130)에 의해 생성된 ML 모델들을 분석하여, ML 모델들을 생성하는데 이용된 데이터 셋들 간의 연관성을 판정한다.

출력기(150)는 데이터 연관성 판정기(140)에 의한 판정 결과를 출력하는 통신 인터페이스, 디스플레이 등의 출력 수단이다.

도 1에 도시된 연관성 탐색 시스템에 의한 데이터 연관성 자동 탐색 과정에 대해, 이하에서 도 2를 참조하여 상세히 설명한다. 도 2는 본 발명의 다른 실시예에 따른 데이터 연관성 자동 탐색 방법의 설명에 제공되는 흐름도이다.

도 2에 도시된 절차는 데이터 저장소(110)에 저장된 다수의 데이터 셋들 중 데이터 셋-1과 데이터 셋-2의 연관성을 판정하는 것에 국한된 절차이다. 다른 데이터 셋의 조합에 대해서도 도 2에 도시된 절차가 반복되면서, 데이터 저장소(110)에 저장된 데이터 셋들 모두에 대해 데이터 연관성이 자동으로 탐색된다.

이를 테면, 데이터 저장소(110)에서 데이터 셋-1, 데이터 셋-2, 데이터 셋-3 및 데이터 셋-4가 저장되어 있다면, 도 2에 도시된 절차에 따라, 각각

1) 데이터 셋-1과 데이터 셋-2의 연관성을 판정,

2) 데이터 셋-1과 데이터 셋-3의 연관성을 판정,

3) 데이터 셋-1과 데이터 셋-4의 연관성을 판정,

4) 데이터 셋-2와 데이터 셋-3의 연관성을 판정,

5) 데이터 셋-2와 데이터 셋-4의 연관성을 판정,

6) 데이터 셋-3과 데이터 셋-4의 연관성을 판정하게 되는 것이다.

데이터 셋-1과 데이터 셋-2의 연관성 판정을 위해, 도 2에 도시된 바와 같이, 먼저 데이터 입력기(120)가 데이터 저장소(110)에 저장된 데이터 셋-1을 ML 모델 생성기(130)로 전달한다(S210).

그러면, ML 모델 생성기(130)는 S210단계에서 전달받은 데이터 셋-1을 이용하여 최적의 ML 모델-1을 생성한다(S220). 최적의 ML 모델-1 생성은, ML 모델-1을 셋-업한 후 데이터 셋-1로 학습시켜 정확도를 일정 수준으로 향상시키는 과정으로, Auto ML 소프트웨어를 이용하여 수행가능하다.

다음, 데이터 입력기(120)는 데이터 저장소(110)에 저장된 데이터 셋-1과 데이터 셋-2를 통합하여 새로운 데이터 셋을 생성하고, 통합된 데이터 셋을 모델 생성기(130)로 전달한다(S230). 데이터 셋들을 통합하여 새로운 데이터 셋을 생성하는 방법에 대해서는 상세히 후술한다.

ML 모델 생성기(130)는 S230단계에서 전달받은 통합된 데이터 셋을 이용하여 최적의 ML 모델-2를 생성한다(S240). 최적의 ML 모델-2 생성은, ML 모델-2를 셋-업한 후 데이터 셋-2로 학습시켜 정확도를 일정 수준으로 향상시키는 과정으로, ML 모델-1의 생성과 마찬가지로 Auto ML 소프트웨어를 이용하여 수행가능하다.

다음, 데이터 연관성 판정기(140)는 S220단계에서 생성된 ML 모델-1과 S240단계에서 생성된 ML 모델-2를 분석하여, 데이터 셋-1과 데이터 셋-2의 연관성을 판정한다(S250). S250단계에 대해서는 상세히 후술한다.

이후, 출력기(150)는 데이터 셋-1과 데이터 셋-2의 연관성에 대한 정보를 출력한다(S260).

전술한 바와 같이, 도 2에 제시한 위 절차는 데이터 저장소(110)에 저장된 데이터 셋-1과 데이터 셋-2의 연관성을 판정하는 과정이다. 이후, 다른 데이터 셋의 조합(데이터 셋-1과 데이터 셋-3, 데이터 셋-1과 데이터 셋-4, 데이터 셋-2와 데이터 셋-3, 데이터 셋-2와 데이터 셋-4, 데이터 셋-3과 데이터 셋-4)에 대해서도 연관성을 판정하면서, 데이터 저장소(110)에 저장된 데이터 셋들 모두에 대한 연관성을 탐색하게 된다.

도 3은, 도 2에 도시된 방법의 부연 설명에 제공되는 도면이다. 도 3에는, 도 2에서 수행되는 데이터 연관성 자동 탐색 방법을 도식적으로 나타내었다.

도 3에서, 상부의 "데이터 셋-1"은 도 2의 S210단계, "ML 모델-1"은 도 2의 S220단계, 하부의 "데이터 셋-1과 데이터 셋-2가 통합된 데이터 셋"은 도 2의 S230단계, "ML 모델-2"는 도 2의 S240단계, "데이터 연관성 판정"은 도 2의 S250단계에 각각 대응된다.

이하에서는, 전술한 데이터 연관성 판정 단계(S250)에 대해, 도 4를 참조하여 상세히 설명한다. 도 4는, 도 2의 S250단계의 상세 흐름도이다.

데이터 연관성을 판정을 위해, 도 4에 도시된 바와 같이, 먼저 데이터 연관성 판정기(140)는 S220단계에서 생성된 ML 모델-1의 정확도와 S240단계에서 생성된 ML 모델-2의 정확도를 비교한다(S251).

비교 결과, ML 모델-2의 정확도가 ML 모델-1의 정확도 보다 높으면(S251-Y), 데이터 연관성 판정기(140)는 S230단계에서 통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출한다(S252).

다음, 데이터 연관성 판정기(140)는 S252단계에서 추출된 Feature Importance가 임계치 이상(예를 들어, 상위 10% 이내를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 범위로 설정할 수도 있음)인 Feature들을 선정한다(S253).

그리고, S253단계에서 선정된 Feature들 중 적어도 하나가 데이터 셋-2에 포함되어 있으면(S254), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2는 서로 연관성이 있는 것으로 판정한다(S255).

Feature Importance가 임계치 이상인 Feature가 데이터 셋-2에 포함된 경우는, 데이터 셋-2가 ML 모델-2이 ML 모델-1 보다 정확도가 높아짐에 기여하였음을 의미하는데, 이는 데이터 셋-2가 데이터 셋-1과 연관성이 있는 것으로 해석하는 근거가 되는 것이다.

반면, S253단계에서 선정된 Feature들 중 데이터 셋-2에 포함된 것이 하나도없으면(S254-N), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2가 서로 연관성이 없는 것으로 판정한다(S256).

또한, ML 모델-2의 정확도가 ML 모델-1의 정확도 보다 높지 않은 경우에도(S251-N), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2가 서로 연관성이 없는 것으로 판정한다(S256).

이하에서는, 전술한 데이터 셋 통합 단계(S230)에 대해 상세히 설명한다. 데이터 셋의 종류에 따라 다음의 기법들이 적용될 수 있다.

첫째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "date" 형 데이터가 포함된 경우, 이 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 데이터 셋들을 통합하며, date 구간이 일치하지 않는 데이터는 폐기한다.

둘째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "category" 형 데이터가 포함된 경우, 먼저 데이터 셋-1과 데이터 셋-2의 row 개수를 비교한다. 비교 결과 row 개수가 임계치(예를 들어, 50%를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 수치로 설정할 수도 있음) 이상으로 차이가 나는 경우, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터(평균, 중간값, min, max, 표준편차 등)로 바꾼 후에 category 키를 이용하여 통합한다.

셋째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "수치" 형 데이터가 포함된 경우, 먼저 데이터 셋-1과 데이터 셋-2 간 수치의 일치도를 산정한다. 산정 결과 일치도가 임계치(예를 들어, 50%를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 수치로 설정할 수도 있음)를 넘는 경우에는 키 값으로 인식하여 통합하고, 그렇지 않은 데이터는 폐기한다.

한편, 데이터 셋-1과 데이터 셋-2에 동일 타입의 데이터가 2개 이상 중복되는 경우, 2개의 통합된 데이터 셋이 생성된다. 이를 테면, 데이터 셋-1과 데이터 셋-2에 date 형 데이터와 category 형 데이터가 모두 포함된 경우라면, date 형 데이터를 기준으로 통합한 데이터 셋과 category 형 데이터를 기준으로 통합한 데이터 셋, 2가지를 생성하게 된다.

데이터 셋-1과 데이터 셋-2로 2가지 이상의 통합된 데이터 셋이 생성된 경우, 통합된 데이터 셋 각각을 기초로 연관성 판정이 이루어지는데, 모두가 아닌 어느 하나에 의해 연관성이 있다고 판정되는 경우에도 데이터 셋-1과 데이터 셋-2는 연관성이 있다고 판정할 수 있다.

지금까지, 데이터 연관성 탐색 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시예에서 언급한 데이터 셋의 종류에 대해서는 제한이 없다. 즉, 데이터 셋들이 무엇인지와 관계 없이 본 발명의 기술적 사상이 적용될 수 있다. 이를 테면, 도 5에 도시된 바와 같이, "주택가격지수" 데이터 셋, "금리" 데이터 셋, "환율/주가" 데이터 셋, "부동산소비심리지수" 데이터 셋, "지역별 미분양 현황" 데이터 셋에 대해 분석을 통해, "주택가격지수" 데이터 셋과 "환율/주가" 데이터 셋가 연관성이 있음을 알아낼 수 있다. 나아가, "금리" 데이터 셋이 다른 데이터 셋과 연관성이 있음을 밝혀낼 수도 있고, "환율/주가" 데이터 셋, "부동산소비심리지수" 데이터 셋이나 "지역별 미분양 현황" 데이터 셋이 다른 어떤 데이터 셋과 연관성이 있음을 밝혀낼 수도 있다.

또한, 위 실시예에서는, 데이터 저장소(110)가 연관성 탐색 시스템에 구비되는 것으로 도시하고 설명하였는데 예시적인 것이다. 데이터 저장소(110)는 연관성 탐색 시스템의 외부에 구비될 수 있다.

나아가, 데이터 저장소의 개수에 대한 제한도 없다. 즉, 도 6에 도시된 바와 같이, 다수의 데이터 저장소를 상정할 수 있으며, 각기 다른 데이터 저장소에 저장된 데이터 셋들에 대해서도 데이터 셋을 통합/분석하여 연관성을 탐색할 수 있음은 물론이다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 데이터 저장소
120 : 데이터 입력기
130 : ML 모델 생성기
140 : 데이터 연관성 판정기
150 : 출력기

Claims

컴퓨팅 장치로 구현되는 데이터 연관성 자동 탐색 시스템에 의해 각 단계가 수행되는 데이터 연관성 자동 탐색 방법에 있어서,
제1 데이터 셋을 이용하여, 제1 ML(Machine Learning) 모델을 생성하는 제1 생성단계:
제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하는 단계;
통합된 데이터 셋을 이용하여, 제2 ML 모델을 생성하는 제2 생성단계:
생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 단계;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
삭제
청구항 1에 있어서,
판정단계는,
제2 ML 모델의 정확도인 제2 정확도가 제1 ML 모델의 정확도인 제1 정확도 보다 높으면, 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 3에 있어서,
판정단계는,
제2 정확도가 제1 정확도 보다 높으면, 제2 정확도에 기여한 Feature를 조사하는 단계; 및
조사된 Feature가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 단계;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 4에 있어서,
조사단계는,
통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출하는 단계; 및
추출된 Feature Importance들 중 임계치 이상인 Feature들을 선정하는 단계;를 포함하고,
판단 단계는,
선정된 Feature들 중 적어도 하나가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 5에 있어서,
판단 단계는,
선정된 Feature들 모두가 제2 데이터 셋에 포함되어 있지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 4에 있어서,
판정단계는,
제2 정확도가 제1 정확도 보다 높지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 1에 있어서,
통합 단계는,
제1 데이터 셋과 제2 데이터 셋에 date 형 데이터가 포함된 경우, date 형 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 제1 데이터 셋과 제2 데이터 셋을 통합하며, date 구간이 일치하지 않는 데이터는 폐기하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 1에 있어서,
통합 단계는,
제1 데이터 셋과 제2 데이터 셋에 category 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋의 row 개수가 임계치 이상으로 차이 나면, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터로 변환한 후에 제1 데이터 셋과 제2 데이터 셋을 통합하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 1에 있어서,
통합 단계는,
제1 데이터 셋과 제2 데이터 셋에 수치 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋 간 수치의 일치도가 임계치 이상인 데이터를 통합하고, 임계치 미만인 데이터는 폐기하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
청구항 1에 있어서,
통합 단계는,
제1 데이터 셋과 제2 데이터 셋에 포함된 데이터의 타입에 따라, 다수의 통합된 데이터 셋을 생성하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
제1 데이터 셋을 이용하여 제1 ML(Machine Learning) 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하고, 통합된 데이터 셋을 이용하여 제2 ML 모델을 생성하는 생성기: 및
생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 판정기;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 시스템.