KR102339181B1 - Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템 - Google Patents

Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템 Download PDF

Info

Publication number
KR102339181B1
KR102339181B1 KR1020200029193A KR20200029193A KR102339181B1 KR 102339181 B1 KR102339181 B1 KR 102339181B1 KR 1020200029193 A KR1020200029193 A KR 1020200029193A KR 20200029193 A KR20200029193 A KR 20200029193A KR 102339181 B1 KR102339181 B1 KR 102339181B1
Authority
KR
South Korea
Prior art keywords
data set
data
model
correlation
accuracy
Prior art date
Application number
KR1020200029193A
Other languages
English (en)
Other versions
KR20210113890A (ko
Inventor
차지원
강정모
강태욱
김세형
박준용
Original Assignee
에스케이 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이 주식회사 filed Critical 에스케이 주식회사
Priority to KR1020200029193A priority Critical patent/KR102339181B1/ko
Publication of KR20210113890A publication Critical patent/KR20210113890A/ko
Application granted granted Critical
Publication of KR102339181B1 publication Critical patent/KR102339181B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ML을 이용한 데이터 연관성 자동 탐색 방법 및 시스템이 제공된다. 본 발명의 실시예에 따른 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋을 이용하여 제1 ML 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 이용하여, 제2 ML 모델을 생성하며, 생성된 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정한다. 이에 의해, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색함으로써, 보다 적은 인력, 시간 및 비용으로 방대하고 다양한 데이터들 간의 연관성을 정확하게 밝혀내어 학술 연구, 비즈니스 창출에 활용할 수 있게 된다.

Description

Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템{Method and System for Automatic Data Association Detection using Machine Learning}
본 발명은 데이터 분석 기술에 관한 것으로, 더욱 상세하게는 ML(Machine Learning)을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 방법 및 시스템에 관한 것이다.
빅데이터들을 유용하게 활용하기 위해서는, 확보하고 있는 데이터들 간의 연관성을 밝혀내어 의미를 부여하는 것이 필요하며, 이는 데이터 분석에서도 매우 중요한 요소이다.
현재 연관 있는 데이터들 찾아내는 것은 수작업을 통해, 구체적으로 ERD(Entity Relationship Diagram) 등의 메타 데이터를 참조하여 추측하는 수준에 머무르고 있다.
이 방식은 많은 인력과 시간 및 비용을 소모한다는 문제도 있지만, 무엇보다도 분석 결과가 부정확하여 품질이 좋지 않다는 문제가 있다. 이는 데이터의 양이 방대해지고 종류가 다양해짐에 따라 더욱 심화된다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 보다 적은 인력, 시간 및 비용으로 데이터 분석 품질을 향상시키기 위한 방안으로, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 방법 및 시스템을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋을 이용하여, 제1 ML 모델을 생성하는 제1 생성단계: 제1 데이터 셋과 제2 데이터 셋을 이용하여, 제2 ML 모델을 생성하는 제2 생성단계: 생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 단계;를 포함한다.
본 발명의 실시예에 따른 데이터 연관성 자동 탐색 방법은, 제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하는 단계;를 더 포함하고, 제2 생성단계는, 통합된 데이터 셋을 이용하여, 제2 ML 모델을 생성할 수 있다.
판정단계는, 제2 ML 모델의 정확도인 제2 정확도가 제1 ML 모델의 정확도인 제1 정확도 보다 높으면, 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정할 수 있다.
판정단계는, 제2 정확도가 제1 정확도 보다 높으면, 제2 정확도에 기여한 Feature를 조사하는 단계; 및 조사된 Feature가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 단계;를 포함할 수 있다.
조사단계는, 통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출하는 단계; 및 추출된 Feature Importance들 중 임계치 이상인 Feature들을 선정하는 단계;를 포함하고, 판단 단계는, 선정된 Feature들 중 적어도 하나가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단할 수 있다.
판단 단계는, 선정된 Feature들 모두가 제2 데이터 셋에 포함되어 있지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단할 수 있다.
판정단계는, 제2 정확도가 제1 정확도 보다 높지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 단계;를 더 포함할 수 있다.
통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 date 형 데이터가 포함된 경우, date 형 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 제1 데이터 셋과 제2 데이터 셋을 통합하며, date 구간이 일치하지 않는 데이터는 폐기할 수 있다.
통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 category 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋의 row 개수가 임계치 이상으로 차이 나면, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터로 변환한 후에 제1 데이터 셋과 제2 데이터 셋을 통합할 수 있다.
통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 수치 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋 간 수치의 일치도가 임계치 이상인 데이터를 통합하고, 임계치 미만인 데이터는 폐기할 수 있다.
통합 단계는, 제1 데이터 셋과 제2 데이터 셋에 포함된 데이터의 타입에 따라, 다수의 통합된 데이터 셋을 생성할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 데이터 연관성 자동 탐색 시스템은, 제1 데이터 셋을 이용하여 제1 ML 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 이용하여 제2 ML 모델을 생성하는 생성기: 및 생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 판정기;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, ML을 활용하여 데이터들 간의 연관성을 자동으로 탐색함으로써, 보다 적은 인력, 시간 및 비용으로 방대하고 다양한 데이터들 간의 연관성을 정확하게 밝혀내어 학술 연구, 비즈니스 창출에 활용할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 데이터 연관성 자동 탐색 시스템의 블럭도,
도 2는 본 발명의 다른 실시예에 따른 데이터 연관성 자동 탐색 방법의 설명에 제공되는 흐름도,
도 3은, 도 2에 도시된 방법의 부연 설명에 제공되는 도면,
도 4는 도 2의 S250단계의 상세 흐름도
도 5는 데이터 연관성 탐색의 일 예를 나타낸 도면, 그리고,
도 6은 데이터 저장소를 다수로 구현한 예를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 데이터 연관성 자동 탐색 시스템의 블럭도이다. 본 발명의 실시예에 따른 '데이터 연관성 자동 탐색 시스템'(이하, '연관성 탐색 시스템'으로 약칭)은 Auto ML(Machine Learning)을 활용하여 데이터들 간의 연관성을 자동으로 탐색하는 시스템이다.
이와 같은 기능을 수행하는 본 발명의 실시예에 따른 연관성 탐색 시스템은 데이터 저장소(110), 데이터 입력기(120), ML 모델 생성기(130), 데이터 연관성 판정기(140) 및 출력기(150)를 포함하여 구성된다.
데이터 저장소(110)는 다양한 다수의 데이터 셋들을 저장하고 있는 데이터레 이크(Data Lake)이다. 데이터 저장소(110)에 저장된 데이터 셋들 중에는 서로 연관성을 가지는 데이터 셋들이 존재한다. 본 발명의 실시예에 따른 연관성 탐색 시스템은 데이터 저장소(110)에 저장된 데이터 셋들 중 연관성을 가지는 데이터 셋들을 자동으로 탐색한다.
데이터 입력기(120)는 데이터 저장소(110)에 저장된 데이터 셋들 중 ML 모델 생성에 이용할 데이터 셋들을 선정하여 ML 모델 생성기(130)로 전달한다. ML 모델 생성기(130)은 데이터 입력기(120)로부터 전달되는 데이터 셋들을 이용하여 ML 모델들을 생성한다.
데이터 연관성 판정기(140)는 ML 모델 생성기(130)에 의해 생성된 ML 모델들을 분석하여, ML 모델들을 생성하는데 이용된 데이터 셋들 간의 연관성을 판정한다.
출력기(150)는 데이터 연관성 판정기(140)에 의한 판정 결과를 출력하는 통신 인터페이스, 디스플레이 등의 출력 수단이다.
도 1에 도시된 연관성 탐색 시스템에 의한 데이터 연관성 자동 탐색 과정에 대해, 이하에서 도 2를 참조하여 상세히 설명한다. 도 2는 본 발명의 다른 실시예에 따른 데이터 연관성 자동 탐색 방법의 설명에 제공되는 흐름도이다.
도 2에 도시된 절차는 데이터 저장소(110)에 저장된 다수의 데이터 셋들 중 데이터 셋-1과 데이터 셋-2의 연관성을 판정하는 것에 국한된 절차이다. 다른 데이터 셋의 조합에 대해서도 도 2에 도시된 절차가 반복되면서, 데이터 저장소(110)에 저장된 데이터 셋들 모두에 대해 데이터 연관성이 자동으로 탐색된다.
이를 테면, 데이터 저장소(110)에서 데이터 셋-1, 데이터 셋-2, 데이터 셋-3 및 데이터 셋-4가 저장되어 있다면, 도 2에 도시된 절차에 따라, 각각
1) 데이터 셋-1과 데이터 셋-2의 연관성을 판정,
2) 데이터 셋-1과 데이터 셋-3의 연관성을 판정,
3) 데이터 셋-1과 데이터 셋-4의 연관성을 판정,
4) 데이터 셋-2와 데이터 셋-3의 연관성을 판정,
5) 데이터 셋-2와 데이터 셋-4의 연관성을 판정,
6) 데이터 셋-3과 데이터 셋-4의 연관성을 판정하게 되는 것이다.
데이터 셋-1과 데이터 셋-2의 연관성 판정을 위해, 도 2에 도시된 바와 같이, 먼저 데이터 입력기(120)가 데이터 저장소(110)에 저장된 데이터 셋-1을 ML 모델 생성기(130)로 전달한다(S210).
그러면, ML 모델 생성기(130)는 S210단계에서 전달받은 데이터 셋-1을 이용하여 최적의 ML 모델-1을 생성한다(S220). 최적의 ML 모델-1 생성은, ML 모델-1을 셋-업한 후 데이터 셋-1로 학습시켜 정확도를 일정 수준으로 향상시키는 과정으로, Auto ML 소프트웨어를 이용하여 수행가능하다.
다음, 데이터 입력기(120)는 데이터 저장소(110)에 저장된 데이터 셋-1과 데이터 셋-2를 통합하여 새로운 데이터 셋을 생성하고, 통합된 데이터 셋을 모델 생성기(130)로 전달한다(S230). 데이터 셋들을 통합하여 새로운 데이터 셋을 생성하는 방법에 대해서는 상세히 후술한다.
ML 모델 생성기(130)는 S230단계에서 전달받은 통합된 데이터 셋을 이용하여 최적의 ML 모델-2를 생성한다(S240). 최적의 ML 모델-2 생성은, ML 모델-2를 셋-업한 후 데이터 셋-2로 학습시켜 정확도를 일정 수준으로 향상시키는 과정으로, ML 모델-1의 생성과 마찬가지로 Auto ML 소프트웨어를 이용하여 수행가능하다.
다음, 데이터 연관성 판정기(140)는 S220단계에서 생성된 ML 모델-1과 S240단계에서 생성된 ML 모델-2를 분석하여, 데이터 셋-1과 데이터 셋-2의 연관성을 판정한다(S250). S250단계에 대해서는 상세히 후술한다.
이후, 출력기(150)는 데이터 셋-1과 데이터 셋-2의 연관성에 대한 정보를 출력한다(S260).
전술한 바와 같이, 도 2에 제시한 위 절차는 데이터 저장소(110)에 저장된 데이터 셋-1과 데이터 셋-2의 연관성을 판정하는 과정이다. 이후, 다른 데이터 셋의 조합(데이터 셋-1과 데이터 셋-3, 데이터 셋-1과 데이터 셋-4, 데이터 셋-2와 데이터 셋-3, 데이터 셋-2와 데이터 셋-4, 데이터 셋-3과 데이터 셋-4)에 대해서도 연관성을 판정하면서, 데이터 저장소(110)에 저장된 데이터 셋들 모두에 대한 연관성을 탐색하게 된다.
도 3은, 도 2에 도시된 방법의 부연 설명에 제공되는 도면이다. 도 3에는, 도 2에서 수행되는 데이터 연관성 자동 탐색 방법을 도식적으로 나타내었다.
도 3에서, 상부의 "데이터 셋-1"은 도 2의 S210단계, "ML 모델-1"은 도 2의 S220단계, 하부의 "데이터 셋-1과 데이터 셋-2가 통합된 데이터 셋"은 도 2의 S230단계, "ML 모델-2"는 도 2의 S240단계, "데이터 연관성 판정"은 도 2의 S250단계에 각각 대응된다.
이하에서는, 전술한 데이터 연관성 판정 단계(S250)에 대해, 도 4를 참조하여 상세히 설명한다. 도 4는, 도 2의 S250단계의 상세 흐름도이다.
데이터 연관성을 판정을 위해, 도 4에 도시된 바와 같이, 먼저 데이터 연관성 판정기(140)는 S220단계에서 생성된 ML 모델-1의 정확도와 S240단계에서 생성된 ML 모델-2의 정확도를 비교한다(S251).
비교 결과, ML 모델-2의 정확도가 ML 모델-1의 정확도 보다 높으면(S251-Y), 데이터 연관성 판정기(140)는 S230단계에서 통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출한다(S252).
다음, 데이터 연관성 판정기(140)는 S252단계에서 추출된 Feature Importance가 임계치 이상(예를 들어, 상위 10% 이내를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 범위로 설정할 수도 있음)인 Feature들을 선정한다(S253).
그리고, S253단계에서 선정된 Feature들 중 적어도 하나가 데이터 셋-2에 포함되어 있으면(S254), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2는 서로 연관성이 있는 것으로 판정한다(S255).
Feature Importance가 임계치 이상인 Feature가 데이터 셋-2에 포함된 경우는, 데이터 셋-2가 ML 모델-2이 ML 모델-1 보다 정확도가 높아짐에 기여하였음을 의미하는데, 이는 데이터 셋-2가 데이터 셋-1과 연관성이 있는 것으로 해석하는 근거가 되는 것이다.
반면, S253단계에서 선정된 Feature들 중 데이터 셋-2에 포함된 것이 하나도없으면(S254-N), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2가 서로 연관성이 없는 것으로 판정한다(S256).
또한, ML 모델-2의 정확도가 ML 모델-1의 정확도 보다 높지 않은 경우에도(S251-N), 데이터 연관성 판정기(140)는 데이터 셋-1과 데이터 셋-2가 서로 연관성이 없는 것으로 판정한다(S256).
이하에서는, 전술한 데이터 셋 통합 단계(S230)에 대해 상세히 설명한다. 데이터 셋의 종류에 따라 다음의 기법들이 적용될 수 있다.
첫째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "date" 형 데이터가 포함된 경우, 이 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 데이터 셋들을 통합하며, date 구간이 일치하지 않는 데이터는 폐기한다.
둘째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "category" 형 데이터가 포함된 경우, 먼저 데이터 셋-1과 데이터 셋-2의 row 개수를 비교한다. 비교 결과 row 개수가 임계치(예를 들어, 50%를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 수치로 설정할 수도 있음) 이상으로 차이가 나는 경우, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터(평균, 중간값, min, max, 표준편차 등)로 바꾼 후에 category 키를 이용하여 통합한다.
셋째, 통합하고자 하는 데이터 셋-1과 데이터 셋-2에 "수치" 형 데이터가 포함된 경우, 먼저 데이터 셋-1과 데이터 셋-2 간 수치의 일치도를 산정한다. 산정 결과 일치도가 임계치(예를 들어, 50%를 기본으로 설정하되, 데이터 셋에 따라 사용자가 지정한 다른 수치로 설정할 수도 있음)를 넘는 경우에는 키 값으로 인식하여 통합하고, 그렇지 않은 데이터는 폐기한다.
한편, 데이터 셋-1과 데이터 셋-2에 동일 타입의 데이터가 2개 이상 중복되는 경우, 2개의 통합된 데이터 셋이 생성된다. 이를 테면, 데이터 셋-1과 데이터 셋-2에 date 형 데이터와 category 형 데이터가 모두 포함된 경우라면, date 형 데이터를 기준으로 통합한 데이터 셋과 category 형 데이터를 기준으로 통합한 데이터 셋, 2가지를 생성하게 된다.
데이터 셋-1과 데이터 셋-2로 2가지 이상의 통합된 데이터 셋이 생성된 경우, 통합된 데이터 셋 각각을 기초로 연관성 판정이 이루어지는데, 모두가 아닌 어느 하나에 의해 연관성이 있다고 판정되는 경우에도 데이터 셋-1과 데이터 셋-2는 연관성이 있다고 판정할 수 있다.
지금까지, 데이터 연관성 탐색 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.
위 실시예에서 언급한 데이터 셋의 종류에 대해서는 제한이 없다. 즉, 데이터 셋들이 무엇인지와 관계 없이 본 발명의 기술적 사상이 적용될 수 있다. 이를 테면, 도 5에 도시된 바와 같이, "주택가격지수" 데이터 셋, "금리" 데이터 셋, "환율/주가" 데이터 셋, "부동산소비심리지수" 데이터 셋, "지역별 미분양 현황" 데이터 셋에 대해 분석을 통해, "주택가격지수" 데이터 셋과 "환율/주가" 데이터 셋가 연관성이 있음을 알아낼 수 있다. 나아가, "금리" 데이터 셋이 다른 데이터 셋과 연관성이 있음을 밝혀낼 수도 있고, "환율/주가" 데이터 셋, "부동산소비심리지수" 데이터 셋이나 "지역별 미분양 현황" 데이터 셋이 다른 어떤 데이터 셋과 연관성이 있음을 밝혀낼 수도 있다.
또한, 위 실시예에서는, 데이터 저장소(110)가 연관성 탐색 시스템에 구비되는 것으로 도시하고 설명하였는데 예시적인 것이다. 데이터 저장소(110)는 연관성 탐색 시스템의 외부에 구비될 수 있다.
나아가, 데이터 저장소의 개수에 대한 제한도 없다. 즉, 도 6에 도시된 바와 같이, 다수의 데이터 저장소를 상정할 수 있으며, 각기 다른 데이터 저장소에 저장된 데이터 셋들에 대해서도 데이터 셋을 통합/분석하여 연관성을 탐색할 수 있음은 물론이다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 데이터 저장소
120 : 데이터 입력기
130 : ML 모델 생성기
140 : 데이터 연관성 판정기
150 : 출력기

Claims (12)

  1. 컴퓨팅 장치로 구현되는 데이터 연관성 자동 탐색 시스템에 의해 각 단계가 수행되는 데이터 연관성 자동 탐색 방법에 있어서,
    제1 데이터 셋을 이용하여, 제1 ML(Machine Learning) 모델을 생성하는 제1 생성단계:
    제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하는 단계;
    통합된 데이터 셋을 이용하여, 제2 ML 모델을 생성하는 제2 생성단계:
    생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 단계;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    판정단계는,
    제2 ML 모델의 정확도인 제2 정확도가 제1 ML 모델의 정확도인 제1 정확도 보다 높으면, 제1 ML 모델과 제2 ML 모델을 분석하여 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  4. 청구항 3에 있어서,
    판정단계는,
    제2 정확도가 제1 정확도 보다 높으면, 제2 정확도에 기여한 Feature를 조사하는 단계; 및
    조사된 Feature가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 단계;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  5. 청구항 4에 있어서,
    조사단계는,
    통합된 데이터 셋에 포함된 Feature들에 대한 Feature Importance들을 추출하는 단계; 및
    추출된 Feature Importance들 중 임계치 이상인 Feature들을 선정하는 단계;를 포함하고,
    판단 단계는,
    선정된 Feature들 중 적어도 하나가 제2 데이터 셋에 포함되어 있으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 있는 것으로 판단하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  6. 청구항 5에 있어서,
    판단 단계는,
    선정된 Feature들 모두가 제2 데이터 셋에 포함되어 있지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  7. 청구항 4에 있어서,
    판정단계는,
    제2 정확도가 제1 정확도 보다 높지 않으면, 제1 데이터 셋과 제2 데이터 셋은 연관성이 없는 것으로 판단하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  8. 청구항 1에 있어서,
    통합 단계는,
    제1 데이터 셋과 제2 데이터 셋에 date 형 데이터가 포함된 경우, date 형 데이터를 일정한 date 단위로 변환한 후, 변환된 date를 기준으로 제1 데이터 셋과 제2 데이터 셋을 통합하며, date 구간이 일치하지 않는 데이터는 폐기하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  9. 청구항 1에 있어서,
    통합 단계는,
    제1 데이터 셋과 제2 데이터 셋에 category 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋의 row 개수가 임계치 이상으로 차이 나면, row 개수가 많은 데이터 셋의 데이터를 집합형 데이터로 변환한 후에 제1 데이터 셋과 제2 데이터 셋을 통합하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  10. 청구항 1에 있어서,
    통합 단계는,
    제1 데이터 셋과 제2 데이터 셋에 수치 형 데이터가 포함된 경우, 제1 데이터 셋과 제2 데이터 셋 간 수치의 일치도가 임계치 이상인 데이터를 통합하고, 임계치 미만인 데이터는 폐기하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  11. 청구항 1에 있어서,
    통합 단계는,
    제1 데이터 셋과 제2 데이터 셋에 포함된 데이터의 타입에 따라, 다수의 통합된 데이터 셋을 생성하는 것을 특징으로 하는 데이터 연관성 자동 탐색 방법.
  12. 제1 데이터 셋을 이용하여 제1 ML(Machine Learning) 모델을 생성하고, 제1 데이터 셋과 제2 데이터 셋을 새로운 데이터 셋으로 통합하고, 통합된 데이터 셋을 이용하여 제2 ML 모델을 생성하는 생성기: 및
    생성된 제1 ML 모델과 제2 ML 모델을 분석하여, 제1 데이터 셋과 제2 데이터 셋의 연관성을 판정하는 판정기;를 포함하는 것을 특징으로 하는 데이터 연관성 자동 탐색 시스템.
KR1020200029193A 2020-03-09 2020-03-09 Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템 KR102339181B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200029193A KR102339181B1 (ko) 2020-03-09 2020-03-09 Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200029193A KR102339181B1 (ko) 2020-03-09 2020-03-09 Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20210113890A KR20210113890A (ko) 2021-09-17
KR102339181B1 true KR102339181B1 (ko) 2021-12-13

Family

ID=77924205

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200029193A KR102339181B1 (ko) 2020-03-09 2020-03-09 Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102339181B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996375B1 (ko) * 2019-03-06 2019-07-03 (주)와이제이솔루션 기능 확장이 용이한 이상 예측 수처리 제어시스템
KR102003412B1 (ko) 2017-12-22 2019-07-24 주식회사 데이터젠 심뇌혈관질환 위험도 데이터 예측 방법 및 시스템
KR102068715B1 (ko) 2019-06-05 2020-01-21 (주)위세아이텍 변수 중요도에 따른 가중치가 적용된 변수를 이용한 이상값 탐지 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3306528B1 (en) * 2016-10-04 2019-12-25 Axis AB Using image analysis algorithms for providing traning data to neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102003412B1 (ko) 2017-12-22 2019-07-24 주식회사 데이터젠 심뇌혈관질환 위험도 데이터 예측 방법 및 시스템
KR101996375B1 (ko) * 2019-03-06 2019-07-03 (주)와이제이솔루션 기능 확장이 용이한 이상 예측 수처리 제어시스템
KR102068715B1 (ko) 2019-06-05 2020-01-21 (주)위세아이텍 변수 중요도에 따른 가중치가 적용된 변수를 이용한 이상값 탐지 장치 및 방법

Also Published As

Publication number Publication date
KR20210113890A (ko) 2021-09-17

Similar Documents

Publication Publication Date Title
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
KR101130524B1 (ko) 목표 변수를 위한 데이터 전망 자동 생성
CN109284363A (zh) 一种问答方法、装置、电子设备及存储介质
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN105159938B (zh) 检索方法和装置
US11533373B2 (en) Global iterative clustering algorithm to model entities' behaviors and detect anomalies
US11354345B2 (en) Clustering topics for data visualization
KR20200047006A (ko) 머신 러닝 기반의 근사모델 구축 방법 및 시스템
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
CN111666207B (zh) 一种众包测试任务选择方法及电子装置
CN110909230A (zh) 一种网络热点分析方法及系统
CN113297269A (zh) 数据查询方法及装置
CN110929105A (zh) 一种基于大数据技术的用户id关联方法
CN111078870A (zh) 评价数据处理方法、装置、介质和计算机设备
CN114328878A (zh) 一种信息回复方法、装置、介质
KR102339181B1 (ko) Machine Learning을 이용한 데이터 연관성 자동 탐색 방법 및 시스템
CN115204123B (zh) 协同编辑文档的分析方法、分析装置以及存储介质
WO2021021317A1 (en) Predictive model for ranking argument convincingness of text passages
CN112667869A (zh) 数据处理方法、设备、系统及存储介质
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN116090450A (zh) 一种文本处理方法及计算设备
CN111507878B (zh) 一种基于用户画像的网络犯罪嫌疑人侦查方法及系统
KR102085599B1 (ko) 네트워크 기반의 유망 융합기술 발굴 장치 및 방법, 이를 기록한 기록매체
Sekine et al. Visualization Tool for Extraction of Various Attributes and Corresponding Data for Dataset Quality Assessment
CN112100294A (zh) 一种面向网络平台的用户关系分析方法、装置及相关设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant