KR20160114241A

KR20160114241A - 빅 데이터 환경에서 의미론적 분석에 기반한 데이터마이닝을 위한 연관 규칙 생성 방법

Info

Publication number: KR20160114241A
Application number: KR1020150040268A
Authority: KR
Inventors: 윤희용; 김경태; 박나영; 박희정; 서영호; 이병준
Original assignee: 성균관대학교산학협력단
Priority date: 2015-03-23
Filing date: 2015-03-23
Publication date: 2016-10-05
Also published as: KR101666740B1

Abstract

본 발명의 실시예에 따른 컴퓨터를 이용한 데이터마이닝 연관 규칙 생성 방법은, 컴퓨터가, 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 단계, 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계 및 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계를 포함할 수 있다.

Description

빅 데이터 환경에서 의미론적 분석에 기반한 데이터마이닝을 위한 연관 규칙 생성 방법{METHOD FOR GENERATING ASSOCICATION RULES FOR DATA MINING BASED ON SEMANTIC ANALYSIS IN BIG DATA ENVIRONMENT}

본 발명은 데이터마이닝 기술에 관한 것으로, 더욱 상세하게는, 연관 규칙 기반의 데이터마이닝 기술에 관한 것이다.

최근 수요가 늘어나고 있는 사회 인식 컴퓨팅(Socially-aware Computing) 분야의 성패는, 수많은 사용자들이 생성하는 엄청난 분량의 데이터들을 저장하는 대규모 데이터베이스에서 유효한 데이터를 발굴해 내는, 이른바 빅 데이터(Big Data) 기법이 뒷받침되어야 한다. 특히, 사회 인식 컴퓨팅 서비스는 상황(context)에 따라 서비스되어야 하므로, 데이터마이닝의 속도도 중요하지만, 정확도도 중요하다.

실시간성을 확보하기 위해, 처리되어야 하는 데이터의 양을 최소화할 필요가 있다. 이를 위해, 데이터의 무결성(integrity)와 시간적 효율을 보장하는 한편 연관 규칙의 개수 자체를 줄이고 최적의 연관 규칙들을 찾는 기법들이 제안되었다.

최적의 연관 규칙들을 찾는 기존의 기법들로는 선험적 알고리즘(Apriori Algorithm)과 FP-성장 알고리즘(FP-growth Algorithm)이 있다.

선험적 알고리즘이나 FP-성장 알고리즘을 통해 산출된 연관 규칙들은 더 이상 감축이 쉽지 않으므로 최소한의 연관 규칙들이라 할 수 있다.

그러나, 기존의 방식들은 출현 빈도에 기초하기 때문에, 상대적으로 큰 데이터셋에서는 비효율적이다.

연관 규칙들의 수를 감축시키는 연관 규칙 감축 기법들은 통상적으로 이진 속성(binary attributes)을 가지는 데이터에 적용될 수 있다. 예를 들어 직접 해싱 및 프루닝(direct hashing and pruning) 기법, 파티셔닝 기법, 동적 아이템 셋 계수(dynamic item set counting) 기법 등이 그러한 기법들이다.

이러한 기존 기법들은 트랜잭션 상에 출현 빈도가 소정의 하한보다 큰 아이템을 선별하는 동작에 기반하는데, 아이템의 개수가 증가하면 연산 시간이 급격하게 증가하고, 아이템들 사이의 관계를 고려하지 않기 때문에 때때로 연관 규칙을 감축하지 못하는 경우가 발생하는 단점이 있다.

D. Sun, S. Teng, Wei Zhang, and Haibin Zhu, "An Algorithm to Improve the Effectiveness of Apriori," International Conference on Cognitive Informatics, pp. 385-390, 2007. W. Zhang, H. Liao, and N. Zhao, "Research on the FP Growth Algorithm about Association Rule Mining," International Seminar Business and Information Management, pp. 315-318, 2008. J. D. Holt and S. M. Chung, "Mining association rules in text databases using multipass with inverted hashing and pruning,"International Conference on Tools with Artificial Intelligence, pp. 46-56, 2002. 2008. B. Wan, S. Xu, and L. Yang, "Combination of Partition Table and Grid Index in Large-Scale Spatial Database Query,"International Conference on Information Science and Engineering, pp. 2007-2011, 2009. P. Paranjape and U. Deshpande, "An Optimistic Messaging Distributed Algorithm for Association Rule Mining," India Conference, pp. 1-5, 2009.

본 발명이 해결하고자 하는 과제는 빅 데이터 환경에서 데이터마이닝을 위한 연관 규칙 생성 방법을 제공하는 데에 있다.

본 발명이 해결하고자 하는 과제는 아이템의 개수가 증가하더라도 연산 시간이 크게 증가하지 않아 실시간성을 보장할 수 있는 데이터마이닝 연관 규칙 생성 방법을 제공하는 데에 있다.

본 발명이 해결하고자 하는 과제는 아이템들 사이의 관계를 추정할 수 있어 역의 관계 또는 등가의 관계를 가지는 아이템 세트 사이의 관계를 추출함으로써 사물 인터넷과 같은 빅 데이터 환경에서 빠르게 이벤트를 검출할 수 있는 데이터마이닝 연관 규칙 생성 방법을 제공하는 데에 있다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확히 이해될 수 있을 것이다.

본 발명의 일 측면에 따른 컴퓨터를 이용한 데이터마이닝 연관 규칙 생성 방법은 상기 컴퓨터가 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 단계, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계 및 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계를 포함할 수 있다.

일 실시예에 따라, 상기 후보 연관 규칙은 이진수로 표시될 수 있는 아이템들과 실제로 발생한 아이템들의 데이터 조합에 의한 이벤트 플래그로 구성되고, 상기 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 단계는, 상기 이벤트 플래그가 활성화된 데이터 조합으로서 상기 후보 연관 규칙들을 추출하는 단계를 포함할 수 있다.

일 실시예에 따라, 상기 이벤트 플래그는 소정 문턱값에 상응하는 횟수 이상 발생할 경우에 활성화되도록 설정될 수 있다.

일 실시예에 따라, 상기 유사도 값들을 산출하는 단계는 잠재 의미론적 분석 기법을 적용하면서, 후보 연관 규칙 행렬을 특이값 분해하여 특이값 행렬 및 우 정규 직교 행렬을 얻는 단계, 소정의 문턱값보다 작은 특이값들을 제거하면서 얻은 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬을 생성하는 단계 및 상기 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬의 행렬곱에 따른 의미 관련도 행렬로부터 아이템들 사이 및 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계를 포함할 수 있다.

일 실시예에 따라, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계는, 연관 규칙의 각 규칙 요소를, 이벤트 플래그에 대해 아이템이 역의 의미론적 관계이면 "0"으로, 동일 의미론적 관계이면 "1"으로 설정하고, 의미론적 관계를 결정할 수 없으면 제거함으로써, 감축된 연관 규칙을 생성하는 단계를 포함할 수 있다.

일 실시예에 따라, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계는, 상기 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮은 경우에는 이벤트 플래그에 대해 해당 아이템이 역의 의미론적 관계라고 판정하고, 아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높은 경우에는 이벤트 플래그에 대해 해당 아이템이 동일 의미론적 관계라고 판정하며, 아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮은 경우에는 의미론적 관계를 결정할 수 없다고 판정하는 단계를 포함할 수 있다.

일 실시예에 따라, 상기 유사도 값들을 산출하는 단계는 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계를 포함하고, 상기 데이터마이닝 연관 규칙 생성 방법은, 상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여, 감축된 최종 연관 규칙을 생성하는 단계를 더 포함할 수 있다.

일 실시예에 따라, 상기 감축된 최종 연관 규칙을 생성하는 단계는, 상기 감축된 연관 규칙 내에 동일한 규칙 요소들을 가지는 아이템들이 있을 경우에, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 상기 감축된 최종 연관 규칙을 생성하는 단계를 포함할 수 있다.

본 발명의 다른 측면에 따른 데이터마이닝 연관 규칙 생성 장치는 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 후보 연관 규칙 추출부, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 잠재 의미론적 분석부 및 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 연관 규칙 생성부를 포함할 수 있다.

일 실시예에 따라, 상기 후보 연관 규칙은 이진수로 표시될 수 있는 아이템들과 실제로 발생한 아이템들의 데이터 조합에 의한 이벤트 플래그로 구성되고, 상기 후보 연관 규칙 추출부는, 상기 이벤트 플래그가 활성화된 데이터 조합으로서 상기 후보 연관 규칙들을 추출하도록 동작할 수 있다.

일 실시예에 따라, 상기 잠재 의미론적 분석부는 잠재 의미론적 분석 기법을 적용하면서, 상기 후보 연관 규칙 행렬을 특이값 분해하여 특이값 행렬 및 우 정규 직교 행렬을 얻고, 소정의 문턱값보다 작은 특이값들을 제거하면서 얻은 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬을 생성하며, 상기 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬의 행렬곱에 따른 의미 관련도 행렬로부터 아이템들 사이 및 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하도록 동작할 수 있다.

일 실시예에 따라, 상기 연관 규칙 생성부는, 연관 규칙의 각 규칙 요소를, 이벤트 플래그에 대해 아이템이 역의 의미론적 관계이면 "0"으로, 동일 의미론적 관계이면 "1"으로 설정하고, 의미론적 관계를 결정할 수 없으면 제거함으로써, 상기 감축된 연관 규칙을 생성하도록 동작할 수 있다.

일 실시예에 따라, 상기 연관 규칙 생성부는, 상기 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮은 경우에는 이벤트 플래그에 대해 해당 아이템이 역의 의미론적 관계라고 판정하고, 아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높은 경우에는 이벤트 플래그에 대해 해당 아이템이 동일 의미론적 관계라고 판정하며, 아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮은 경우에는 의미론적 관계를 결정할 수 없다고 판정하도록 동작할 수 있다.

일 실시예에 따라, 상기 잠재 의미론적 분석부는, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하도록 동작하고, 상기 데이터마이닝 연관 규칙 생성 장치는, 상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여, 감축된 최종 연관 규칙을 생성하는 최종 연관 규칙 감축부를 더 포함할 수 있다.

일 실시예에 따라, 상기 최종 연관 규칙 감축부는, 상기 감축된 연관 규칙 내에 동일한 규칙 요소들을 가지는 아이템들이 있을 경우에, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 상기 감축된 최종 연관 규칙을 생성하도록 동작하는 단계를 포함할 수 있다.

본 발명의 또 다른 측면에 따른 데이터마이닝 시스템은 빅데이터를 저장하는 데이터베이스, 상기 데이터베이스에서 검색되거나 또는 외부에서 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하고, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하며, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 데이터마이닝 연관 규칙 생성 장치 및 상기 감축된 연관 규칙들을 기초로 상기 데이터베이스에 저장된 빅데이터를 소정의 분석 기법에 따라 분석하는 데이터 분석 장치를 포함할 수 있다.

본 발명의 또 다른 측면에 따른 데이터마이닝 시스템은 빅데이터를 저장하는 데이터베이스, 상기 데이터베이스에서 검색되거나 또는 외부에서 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하고, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하며, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하고, 상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여 중복된 아이템들을 제거하여 감축된 최종 연관 규칙들을 생성하는 데이터마이닝 연관 규칙 생성 장치 및 상기 감축된 최종 연관 규칙들을 기초로 상기 데이터베이스에 저장된 빅데이터를 소정의 분석 기법에 따라 분석하는 데이터 분석 장치를 포함할 수 있다.

본 발명의 데이터마이닝 연관 규칙 생성 방법에 따르면, 빅 데이터 환경에서 데이터마이닝을 위해 연관 규칙들을 생성할 수 있다.

본 발명의 데이터마이닝 연관 규칙 생성 방법에 따르면, 아이템의 개수가 증가하더라도 연산 시간이 크게 증가하지 않아 실시간성을 보장할 수 있다.

본 발명의 데이터마이닝 연관 규칙 생성 방법에 따르면, 아이템들 사이의 관계를 추정할 수 있어 역의 관계 또는 등가의 관계를 가지는 아이템 세트 사이의 관계를 추출함으로써 사물 인터넷과 같은 빅 데이터 환경에서 빠르게 이벤트를 검출할 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법을 예시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법을 구체적으로 설명하기 위해 이용될 입력 데이터셋을 예시한 표이다.
도 3은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 입력 데이터셋으로부터 이벤트 플래그 값이 1로 설정된 후보 연관 규칙들로서, 1의 개수가 적은 순서로 정렬된 후보 연관 규칙들을 예시한 표이다.
도 4는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 아이템들 사이의 유사도 값들을 예시한 표이다.
도 5는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 아이템들 사이의 유사도 값들에 기초하여 생성한 후보 연관 규칙들을 예시한 표이다.
도 6은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 에 기초하여 후보 연관 규칙 내의 아이템들을 추가로 감축하여 얻은 최종 연관 규칙을 예시한 표이다.
도 7은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법의 성능과 기존의 방법들의 성능을 지지도, 신뢰도, 감축률, 처리 시간 및 제거율 측면에서 각각 비교한 그래프들이다.
도 8은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 장치 및 이를 이용한 데이터마이닝 시스템을 예시한 블록도이다.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

연관 규칙(association rule)은, 데이터베이스에 대량의 트랜잭션들이 누적된 후에, 일정한 연관성을 가진 아이템들 사이의 규칙성(regularities)이 소정의 통계적 기법을 통해 발견됨에 따라, 데이터베이스와 연계된 트랜잭션들 사이의 상관관계를 발굴하는 과정에 의해 도출되는 관계이다. 다시 말해, 어떤 트랜잭션, 예를 들어 A 상품 구매가 일어날 때에, 다른 트랜잭션, 예를 들어 B 상품 검색도 일어난다면 두 트랜잭션들 사이에 연관(association)이 있다고 한다.

어떤 아이템 집합과 다른 아이템 집합 사이에 유사성이나 패턴이 존재한다면, 두 아이템 집합들 사이에 어떤 규칙적인 연관 관계가 도출된다.

연관의 정도는 지지도(Support)와 신뢰도(Credibility)로 측정될 수 있다. 주어진 데이터셋들 A와 B에 대해, 지지도 S는 이 연관 규칙이 주어진 데이터셋들에 얼마나 자주 적용되는지에 관한 지표이고, 신뢰도 C는 데이터셋 B에 속하는 항목이 데이터셋 A에 얼마나 자주 출현하는지에 관한 지표이다.

이에 따라, 지지도 S는 해당 연관 규칙의 효용성을 평가하는 지표이고, 신뢰도 C는 해당 연관 규칙에 의해 도출된 추론의 유효성을 평가하는 지표이다.

도 1은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법을 예시한 순서도이다.

도 1을 참조하면, 데이터마이닝 연관 규칙 생성 방법은, 단계(S11)에서, 센서 네트워크의 센서 검출값들과 같은, 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출한다.

이때 입력 데이터셋은 바람직하게는 이진수로 표시될 수 있는 아이템들, 실제로 발생한 아이템들의 데이터, 그리고 아이템들의 데이터에 관하여 실제 이벤트의 발생 여부에 관한 이벤트 플래그로 구성될 수 있다. 예를 들어, 입력 데이터셋은 다음 도 2와 같이 특정 아이템에 관하여 특정 조건의 미검출 시에 "0", 검출 시에 "1"로 표시되는 아이템들로 구성되는 데이터셋일 수 있다. 아이템은 예를 들어 센서 네트워크의 센서들의 출력값, 네트워크 노드들의 행위, 회원들의 물품 구매 행위 등이 있을 수 있다. 아이템의 데이터들은 입력 데이터셋의 선행 부분(antecedent portion)이라고도 하고, 이벤트 플래그는 입력 데이터셋의 결과 부분(decedent portion)이라고도 한다.

실시예에 따라, 본 발명은 아이템에 관하여 표현할 수 있는 상태가 3 가지 이상인 경우에도 적용될 수 있다. 즉, 입력 데이터셋의 아이템의 상태를 표현하는 이진값의 자리수가 2 이상일 수도 있다. 예를 들어, 만약 어떤 아이템에 관하여 표현할 수 있는 상태가 5 가지라면, 아이템은 3 비트의 이진수로 표시될 수 있다.

도 2를 참조하면, 도 2는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법을 구체적으로 설명하기 위해 이용될 입력 데이터셋을 예시한 표이다.

도 2에서, 입력 데이터셋을 구성하는 여섯 개의 아이템들(S₁, S₂, S₃, S₄, S₅, S₆), 예를 들어 여섯 개의 센서들로부터 발생할 수 있는 이진값들의 데이터 조합과 실제로 어떤 상황이 발생했을 때에 얻어지는 데이터 조합에 관한 이벤트 플래그(F)가 표시되어 있다.

그러한 아이템들(S₁, S₂, S₃, S₄, S₅, S₆)과 이벤트 플래그(F)로 구성된 입력 데이터셋에 관하여, 만약 어떤 상황에서 특정한 데이터 조합이 과거에, 예를 들어 적어도 한 차례 이상, 실제로 발생하였다면, 그러한 데이터 조합에 상응하는 상황일 때의 아이템들(S₁, S₂, S₃, S₄, S₅, S₆)의 상태가, 많든 적든, 서로 연관되어 있음을 의미한다.

예를 들어, 도 2에서 이벤트 플래그(F)가 1인 아이템들(S₁, S₂, S₃, S₄, S₅, S₆)의 데이터 조합, "000111", "001011", "010111", "011000", "011011"이다.

이는, 아이템들(S₁, S₂, S₃, S₄, S₅, S₆) 사이에, 만약 제1 내지 제5 아이템들(S₁, S₂, S₃, S₄, S₅)의 값이 "00011"이면, 이벤트 플래그(F)가 "1"인 이벤트가 실제로 일어났었기 때문에, 제6 아이템(S₆)의 값은 "1"일 것이라고 추론할 수 있는 어떤 연관 규칙의 가능성을 의미한다. 다만, 이러한 연관 규칙은 현 단계에서는 얼마나 효용이 높은지 알 수 없으므로, 본 명세서에서는 후보 연관 규칙으로 호칭한다.

이때, 이진수로 표현되는 입력 데이터셋의 데이터 조합들 중 이벤트 플래그(F)가 "1"인 데이터 조합의 이진수 표현은 이벤트 플래그(F)를 "1"로 만든 상황에 관한 후보 연관 규칙의 이진수 표현과 동일하다.

즉, 도 2에서 이벤트 플래그(F)가 1인 아이템들(S₁, S₂, S₃, S₄, S₅, S₆)의 데이터 조합, "000111"에 상응하는 상황에 관한 후보 연관 규칙도 "0001111"로 표시될 수 있다. 후보 연관 규칙의 마지막 값은 이벤트 플래그(F)의 값인 "1"이고, 데이터 조합 뒤에 이벤트 플래그(F)의 값이 추가되는 형태임을 유의한다.

이에 따라, 만약 도 2와 같은 입력 데이터셋으로부터 이벤트 플래그(F)가 "1"인 데이터 조합들이 추출된다면, 추출된 데이터 조합들이 곧 후보 연관 규칙들이다. 이벤트 플래그(F) 값이 "0"이면, 이벤트가 발생하지 않았기 때문에 아이템들 사이의 관계를 분석할 수 없고 후보 연관 규칙들을 도출하지 못하므로, 이벤트 플래그(F) 값이 "0"인 데이터 조합들은 배제되어야 한다.

실시예에 따라, 이벤트 플래그(F)는 소정 문턱값에 상응하는 횟수 이상 발생할 경우에 활성화되도록 설정될 수도 있다.

다시 도 1로 돌아가서, 선택적인 단계(S12)에서, 추출된 후보 연관 규칙들을 후보 연관 규칙을 구성하는 아이템들 내의, 즉 선행 부분의, 이진값 1의 개수가 적은 순서대로 또는 많은 순서대로 정렬한다. 이진값 1의 개수가 같은 후보 연관 규칙들 사이의 정렬은 임의적으로 이루어질 수 있다.

잠시 도 3을 참조하면, 도 3은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 입력 데이터셋으로부터 이벤트 플래그 값이 "1"로 설정된 후보 연관 규칙들로서, "1"의 개수가 적은 순서로 정렬된 후보 연관 규칙들을 예시한 표이다.

도 3에서, 도 2의 입력 데이터셋으로부터 이벤트 플래그(F) 값이 "1"인 데이터 조합들에 의해 다섯 개의 후보 연관 규칙들(R₁ 내지 R₅)이 추출됨을 알 수 있다. 고작 11 개의 데이터 조합들을 가지는 입력 데이터셋에서 데이터마이닝을 하기 위한 5 개의 연관 규칙들은 너무 많기 때문에 감축될 필요가 있다.

다시 도 1로 돌아가서, 단계(S13)에서, 컴퓨터는 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 LSA 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출한다. 실시예에 따라, 단계(S13)에서, 컴퓨터는 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출할 수도 있다.

본 발명의 데이터마이닝 연관 규칙 생성 방법은 감축된 후보 연관 규칙들을 생성하기 위해 잠재 의미론적 분석 기법(Latent Semantic Analysis)을 차용한다.

LSA 기법은 문서 및 용어 집합들 사이에서 관계를 분석하고 자연 언어를 처리하는 데에 사용되는 기술이지만, 본 발명은 후보 연관 규칙들 사이의 관계를 분석하는 데에 LSA 기법을 이용함으로써 전혀 새로운 데이터마이닝 연관 규칙 생성 기법으로 도약하였다.

잠재 의미론적 분석 기법은 언어 자료(corpus)로부터 학습된 벡터 기반 표현식을 이용하여 텍스트들을 비교하여 이들의 의미론적 실체를 획득하려는 시도이다. 개념적으로는, 잠재 의미론적 분석 기법은 동시성 정보(co-occurrence information)를 이용하여, 단어의 뜻뿐 아니라 형태도 발견함으로써 텍스트들 사이의 관련도를 측정한다. 동시적으로 등장하는 용어들(co-occurring terms)은 동일한 벡터 공간에서 동일한 차원들(축들)에 투영되고 그렇지 않은 용어들(non-co-occurring terms)은 동일한 벡터 공간에서 서로 다른 차원들에 투영된다.

예를 들어, "자동차"와 "승용차"라는 두 단어들은 여러 문서들에서 개별적으로 쓰여 있는데, 유사한 맥락에서 등장하고 비슷한 의미를 가지기 때문에 이를 잠재 의미론적 구조(latent semantic structure)라고 한다. 기존의 정보 추출 및 분류기들은 이 두 단어 사이의 관계성을 발견하기 어렵지만, LSA 기법은 "운전", "조향", "엔진"과 같은 다른 단어들을 통해 어떤 관계성을 찾아낼 수 있다. 이에 따라, "자동차"와 "승용차"는 잠재 의미론적 공간(latent semantic space) 내에서 동일한 차원들 상에 함께 매핑될 수 있다.

LSA 기법은 다변량 통계분석 방법으로서, 고차원의 데이터 공간에 대해 데이터를 가장 잘 설명하는 축(차원)을 찾아내고 설명력이 낮은 축을 제거함으로써 데이터에 내재된 구조를 밝히는 기법이며, 단어의 동시성을 잘 설명하는 축들을 찾아내기 위해 SVD(Singular Value Decomposition)을 이용한다.

M 개의 문서들에 N 개의 단어들이 나타나는 빈도를 행렬 요소로 하는 M×N 행렬 A_M×N는 다음 수학식 1과 같이 분해될 수 있다.

행렬 A의 특이값(singular value) 행렬 Σ에서 특이값들(σ₀, ..., σ_p-1)은 큰 값부터 작아지는 순서로 대각선을 따라 정렬된다. 특이값들은 AA^T의 고유값(eigenvalue)들을 제곱한 값들이다. 행렬 U, V는 각각 정규 직교(orthonormal) 행렬들이어서 U^TU=I 및 V^TV=I이다. 행렬 U는 각 차원들(dimensions)에서 문서들 사이의 관계를 설명할 수 있고, 행렬 V는 각 차원들에서 단어들 사이의 관계를 설명할 수 있다.

소정의 문턱값보다 낮은 특이값을 가지는 차원들은 무시될 수 있고, 원래의 특이값 행렬 Σ으로부터 잘려 나갈(truncated) 수 있다. 이 경우에, 행렬 U, V의 차원들도 마찬가지로 절단(truncation)될 수 있다. 절단을 통해 원래의 차원 공간보다 낮은 차원 공간을 가지게 되는 행렬을 의미론적 공간(semantic space)이라고 한다.

의미론적 공간을 이용하여 차원의 감축이 있은 후에, 단어들 사이의 관계, 문서들 사이의 관계 및 단어와 문서 사이의 관계를 찾을 수 있다.

문서들 사이의 관계를 찾기 위해서, 의미 관련도 행렬 B가 아래 수학식 2와 같이 구축된다. 의미 관련도 행렬 B의 각 행 벡터마다 계산되는 코사인 유사도(cosine similarity)가 각 문서들 사이의 최종적인 의미론적 관련도와 같다.

어포스트로피(')는 절단행렬을 의미한다.

단어들 사이의 관계를 찾기 위해서는, 의미 관련도 행렬 B가 아래 수학식 3과 같이 구축된다. 의미 관련도 행렬 B의 각 행 벡터마다 계산되는 코사인 유사도가 각 단어의 최종적인 의미론적 관련도와 같다.

단어와 문서 사이의 의미론적 관계는 절단된 행렬 A'에 대해 다음 수학식 3과 같이 도출될 수 있다.

한편, 본 발명의 연관 규칙 생성 방법은, LSA 기법을 적용하기 위해서, 연관 규칙이 복수의 아이템들 및 이벤트 플래그로 구성된다는 점에 착안하여, 아이템 또는 이벤트 플래그를 단어로 보고, 후보 연관 규칙을 문서로 보며, 단어들 사이의 관계를 관찰함으로써 후보 연관 규칙들을 추가로 감축하므로, 단어들 사이의 관계에 관한 수학식 2의 행렬식을 이용한다.

도 3의 후보 연관 규칙 표로부터 도출된 M×N 크기의 후보 연관 규칙 행렬 A_M×N가 SVD 분해되면 다음 수학식 5와 같이 표현된다.

여기서, M은 규칙의 개수이고, N은 아이템들과 이벤트 플래그를 합한 개수이며, 차원들의 수 P는 M과 N 중 작은 값이다. 후보 연관 규칙 행렬 A로부터 특이값 행렬 Σ이 먼저 구해지고, 수학식 5와 같은 관계를 만족하는 좌 정규 직교 행렬 R과 우 정규 직교 행렬 S가 산출될 수 있다. 최종적으로 수학식 2와 같은 관계식에 따라 아이템들 사이의 관계 및 아이템과 이벤트 플래그 사이의 관계만 이용할 것이므로, 행렬 R은 산출되더라도 이용되지 않고 다음 단계에서는 특이값 행렬 Σ와 행렬 S만 이용된다.

도 3의 후보 연관 규칙에 따른 후보 연관 규칙 행렬 A에 대해 특이값 행렬 Σ은 다음 수학식 6과 같이 산출된다. M은 5이고 N은 7이므로, 차원들의 수는 5이다.

수학식 6의 특이값들은 의미론적 공간에서 각 축들(차원들)의 설명력을 수치적으로 보여준다.

이어서, 각 차원에서 아이템들 사이 및 아이템과 이벤트 플래그 사이의 관계를 설명하는 우 정규 직교 행렬 S는 다음 수학식 7과 같이 산출된다.

수학식 7에 예시된 행렬 요소들의 값들을 관찰하면, 각 아이템들 사이 및 아이템과 이벤트 플래그 사이에 어떤 잠재적인 관련성이 있음을 볼 수 있다. 예를 들어, 아이템 S₁ 열에서는 0이 주로 나타나고, 아이템 S₂와 아이템 S₃에 해당되는 값들은 각 차원에서 편차가 크며, 아이템 S₃와 아이템 S₄에 해당되는 값들도 각 차원에서 편차가 크지만, 아이템 S₅와 아이템 S₆에 해당되는 값들은 모든 차원에서 서로 같다. 아이템 S₂와 아이템 S₃이 서로 상관이 높다는 것을 의미한다.

LSA 기법은, SVD로 끝나지 않고, 데이터 내의 노이즈를 줄이고 데이터의 설명에 불필요한 축을 감축시킬 수 있도록 특이값이 문턱값보다 작은 차원들을 제거할 수 있다.

이에 따라, 수학식 6의 특이값 행렬 Σ은 수학식 8과 같이 절단된 특이값 행렬 Σ'이 된다.

여기서 P'는 감축된 차원들의 개수이다. 원래의 차원 P는 5였지만, 감축된 차원 P'는 3이 되었다.

마찬가지로, 수학식 7의 행렬 S는 다음 수학식 9와 같이 절단된 행렬 S'가 된다.

이에 따라, 수학식 2의 의미 관련도 행렬 B를 아이템들 사이(또는 아이템과 이벤트 플래그 사이)의 관계에 관하여 적용하면, 수학식 8의 Σ'와 수학식 9의 S'를 행렬곱하여 다음 수학식 10과 같이 얻을 수 있다.

수학식 2에서 설명하였듯이, 의미 관련도 행렬 B의 각 행은 각 차원들에 각 아이템들(이벤트 플래그 포함)가 투영되는 정도를 나타낸다. 이에 따라, 다음 수학식 11과 같이 유사도가 산출될 수 있다.

여기서, B_pi 및 B_pj는 수학식 10의 의미 관련도 행렬 B의 p 번째 행의 i 번째 및 j 번째 열의 값들이고, p는 1≤p≤P'인 정수이다. 수학식 11은 i 번째 및 j 번째 아이템들(또는 이벤트 플래그) S_i 및 S_j 사이의 유사도 sim(S_i,S_j)를 코사인 유사도 산출 기법을 이용하여 산출한다. 수학식 11에 따라 산출된 유사도 값들은 도 4의 표와 같다.

도 4는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 아이템들 사이 및 이벤트 플래그와 아이템들 사이의 유사도 값들을 예시한 표이다.

도 4에서, "0"의 값은 두 아이템들 사이 또는 한 아이템과 이벤트 플래그 사이에 역의 의미론적 관계(inverse semantic relationship)가 있음을 의미하고, "1"의 값은 두 아이템들 사이 또는 한 아이템과 이벤트 플래그 사이에 동일 의미론적 관계(equivalent semantic relationship)가 있음을 의미한다.

이때, 수학식 11에서 산출되는 유사도 값들이 정확히 "0" 또는 "1"과 같지 않더라도, 중심 극한 정리(central limit theorem)에 기초하여 특정되는 소정의 하위 문턱값, 예를 들어 0.159보다 작으면 "0"과 동일하게 해석하고, 소정의 상위 문턱값, 예를 들어 0.841보다 크면 "1"과 동일하게 해석할 수 있다.

또한, 유사도 값이 하위 문턱값과 상위 문턱값 사이에 있으면, 의미론적으로 어떤 관계에 있다고 말하기 어렵다.

이에 따라, 만약 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮으면, 해당 아이템의 값과 이벤트 플래그 값은 거의 항상 반대라고 볼 수 있고, 만약 아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높으면, 해당 아이템의 값과 이벤트 플래그 값은 거의 항상 같다고 볼 수 있다. 또한 만약 아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮으면 의미론적 관계를 확정할 수 없다.

따라서, 도 3에 예시된 최초의 후보 연관 규칙들과 완전히 다른 새로운 연관 규칙이 도 4에 예시된 아이템과 이벤트 플래그 사이의 유사도에 기초하여 도출될 수 있다.

다시 도 1로 돌아가서, 단계(S14)에서, 유사도 값들에 기초하여 감축된 연관 규칙들을 생성한다.

구체적으로, 단계(S14)에서, 규칙 요소를, 이벤트 플래그(F)에 대해 아이템이 역의 의미론적 관계이면 "0"으로 설정하고, 동일 의미론적 관계이면 "1"으로 설정하며, 의미론적 관계를 결정할 수 없으면 "-", 즉 돈케어(don't care)로 제거함으로써, 감축된 연관 규칙들을 생성한다.

예를 들어, 도 5는 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 아이템들 사이의 유사도 값들에 기초하여 생성한 연관 규칙을 예시한 표이다.

도 5에서, 새롭게 감축된 연관 규칙(R_D)은, 이벤트 플래그(F)가 "1"인 이벤트 플래그(F)에 대해, 제1 아이템(S₁)이 역의 의미론적 관계를 가지므로 제1 아이템(S₁)에 상응하는 규칙 요소는 "0"이고, 제2, 제3 및 제4 아이템들(S₂, S₃, S₄)은 의미론적 관계를 결정할 수 없으므로 제2, 제3 및 제4 아이템들(S₂, S₃, S₄)에 상응하는 규칙 요소는 없으며, 제5 및 제6 아이템들(S₅, S₆)은 동일 의미론적 관계를 가지므로 제5 및 제6 아이템들(S₅, S₆)에 상응하는 규칙 요소는 "1"이 되도록 규칙 요소들을 각각 설정함으로써 생성될 수 있다.

새로 감축된 연관 규칙(R_1D)은 원래의 후보 연관 규칙들(R₁ 내지 R₅)에 비해 충분히 줄어든 개수이다.

다시 도 1로 돌아가서, 선택적인 단계(S15)에서, 컴퓨터는 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여 감축된 최종 연관 규칙을 생성한다.

구체적으로, 단계(S15)는 연관 규칙으로부터, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 감축된 최종 연관 규칙을 생성하는 단계이다.

좀더 구체적으로, 단계(S15)에서, 규칙 요소가 "0"인 아이템들의 수가 2 이상이거나 또는 규칙 요소가 "1"인 아이템들의 수가 2 이상인 경우에, 규칙 요소가 "0"인 아이템의 수가 1이 되거나 또는 규칙 요소가 "1"인 아이템의 수가 1 이 되도록, 아이템들을 제거함으로써, 감축된 최종 연관 규칙을 생성한다.

규칙 요소 값이 동일한 복수의 아이템들이 있다면, 이들 아이템들은 LSA 분석에 따르면 이벤트 플래그에 대해 의미론적으로 사실상 동일한 아이템들이므로 중복적으로 분석될 필요가 없다.

따라서, 연관 규칙에서 규칙 요소의 값이 동일한 복수의 아이템들 중 어느 하나의 아이템만 남기고 나머지 아이템들을 제거하더라도 동일한 결과를 가져올 것이다.

예를 들어 도 6은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법에서, 값이 동일한 규칙 요소들의 개수에 따라 연관 규칙 내의 아이템들을 추가로 감축하여 얻은 최종 연관 규칙을 예시한 표이다.

도 5의 연관 규칙(R_1D)을 살펴보면, 제5 및 제6 아이템들(S₅, S₆)의 규칙 요소들이 모두 "1"이며, 실제로 도 4에서 제5 및 제6 아이템들(S₅, S₆)의 유사도는 "1"이므로, 제5 및 제6 아이템들(S₅, S₆)은 이벤트의 발생에 관하여 의미론적으로 동일하다. 따라서, 제5 아이템(S₅) 또는 제6 아이템(S₆) 중 어느 하나만 연관 규칙에 포함되어도 무방하고, 다른 하나가 연관 규칙에 포함되지 않더라도, 입력 데이터셋에서 검색 결과는 동일하다.

이에 따라, 도 6의 최종 연관 규칙은, 도 5의 연관 규칙(R_1D)으로부터 제5 아이템(S₅)의 규칙 요소가 제거되면서, 제1 아이템(S1)의 규칙 요소 "0"과 제6 아이템의 규칙 요소 "1" 및 이벤트 플래그(F)만 남도록 감축되었다.

도 2의 예시적인 입력 데이터셋에 대하여, 본 발명의 기법과 기존의 기법들, 즉 선험적 알고리즘(Apriori Algorithm), FP-성장 알고리즘(FP-growth algorithm) 및 wTabular 알고리즘은 지지도, 신뢰도, 규칙 감축률, 아이템 감축률 및 데이터 기본 스캔 횟수에서 다음 표 1과 같이 비교될 수 있다.

구분	Apriori	FP-Growth	wTabular	본 발명
지지도	0.45	0.8	0.8	0.8
신뢰도	0.8	0.8	1	1
규칙 감축률	0.64	0.64	0.82	0.91
아이템 감축률	0	0	0.17	0.67
데이터베이스 스캔 횟수	n	1	1	1

본 발명에서, 도 6의 최종 연관 규칙은 도 3의 5 개의 후보 연관 규칙들 중 제4 후보 연관 규칙(R₄)만 빼고 4 개의 후보 연관 규칙들을 지지한다. 따라서 지지도는 4/5=0.8이다. 도 2의 입력 데이터셋에서 최종 연관 규칙에 의해 제1 아이템이 "0"이고 제6 아이템이 "1"인 경우에 "1"로 예측되는 이벤트 플래그들은 실제로도 모두 "1"이므로 신뢰도는 100%, 즉 1이다. 규칙 감축률은 입력 데이터셋에서 정렬된 13 개의 연관 규칙들이 1 개의 최종 연관 규칙으로 줄어들었으므로 1/13=0.91이다. 아이템 감축률은 6 개의 아이템들 중에 4 개 아이템들을 제거하였으므로 4/6=0.67이다. 데이터베이스 스캔 회수는 연관 규칙이 데이터베이스를 1회 스캔 후에 얻어지는 행렬들의 연산으로 도출되므로 1회이다.

도 7은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 방법의 성능과 기존의 방법들의 성능을 지지도, 신뢰도, 감축률, 처리 시간 및 제거율 측면에서 각각 비교한 그래프들이다.

도 7의 (a)을 참조하면, 데이터셋의 크기가 10만 개에서 100만개로 커지면서, 선험적(Apriori) 알고리즘의 지지도는 크게 하락하지만, 본 발명의 데이터마이닝 연관 규칙 생성 방법에 따른 지지도는 wTabular 알고리즘의 지지도만큼 하락하는 정도가 크게 줄어든다.

도 7의 (b)를 참조하면, 데이터셋의 크기가 10만 개에서 100만개 사이에 분포할 때에, 선험적 알고리즘의 신뢰도는 80% 안팎으로 좋지 않지만, 본 발명의 데이터마이닝 연관 규칙 생성 방법에 따른 신뢰도는 90% 안팎의 wTabular 알고리즘의 신뢰도와 비슷하거나 더 나은 수준을 보인다.

도 7의 (c)를 참조하면, 데이터셋의 크기가 10만 개에서 100만개 사이에 분포할 때에, 전혀 감축하지 않은 후보 연관 규칙들의 개수를 기준으로, 선험적 알고리즘은 약 65% 수준의 감축률을 나타내고, wTabular 알고리즘은 약 80%의 감축률을 나타내지만, 본 발명의 데이터마이닝 연관 규칙 생성 방법은 약 90%의 감축률을 보인다.

도 7의 (d)를 참조하면, 데이터셋의 크기가 10만 개에서 100만개로 10배 증가한 동안에, 선험적 알고리즘이 1/3 정도로 감축된 연관 규칙들을 도출하는 데에 걸리는 시간은 약 20배 증가한다. wTabular 알고리즘은, 비록 선험적 알고리즘의 경우보다는 덜 걸리기는 하지만, 데이터셋의 크기가 10배 증가하는 동안에, 1/5 정도로 감축된 연관 규칙들을 도출하는 데에 걸리는 시간이 약 20배 증가한다.

이에 비해, 본 발명의 데이터마이닝 연관 규칙 생성 방법은 1/9 정도로 감축된 연관 규칙들을 도출하면서 선험적 알고리즘 또는 wTabular 알고리즘의 경우에 비해 훨씬 빨리 절차를 처리할 수 있고, 데이터셋의 크기가 10배 증가하는 동안에, 감축된 연관 규칙들을 도출하는 데에 걸리는 시간이 약 5배 증가하는 수준으로 억제된다. 이는 wTabular 알고리즘이 아이템들 사이의 관계를 연산하기 위해서 n 개의 아이템들에 관하여 ₂C_n번의 반복 계산이 필요한 반면에, 본 발명의 알고리즘은 LSA와 유사도를 기초로 도출된 연산 규칙에서 동일한 규칙 요소를 가진 아이템들을 한 차례 조사하는 것으로 충분하기 때문이다.

또한 본 발명의 데이터마이닝 연관 규칙 생성 방법은 아이템들의 개수를 극적으로 줄일 수 있는 특징을 가진다.

도 7의 (e)를 참조하면, 데이터셋의 크기가 10만 개에서 100만개 사이에 분포할 때에, 전혀 감축하지 않은 아이템들의 개수를 기준으로, 선험적 알고리즘은 아이템 감축 효과가 없고, wTabular 알고리즘은 약 15%의 감축률을 나타내지만, 본 발명의 데이터마이닝 연관 규칙 생성 방법은 약 60% 안팎의 감축률을 보인다.

다시 말해, 본 발명의 데이터마이닝 연관 규칙 생성 방법은 더 높은 지지도와 신뢰도를 얻을 수 있고 더 적은 아이템들로 구성되는 더 적은 개수의 연관 규칙들을 더 빨리 도출할 수 있다.

연관 규칙의 개수가 더 적어지므로, 후속하여 빅 데이터를 분석할 때에 동일한 분석 기법을 적용한다면 더 빠르게 분석 결과를 도출할 수 있다.

도 8은 본 발명의 일 실시예에 따른 데이터마이닝 연관 규칙 생성 장치 및 이를 이용한 데이터마이닝 시스템을 예시한 블록도이다.

도 8을 참조하면, 데이터마이닝 시스템(80)은 데이터마이닝 연관 규칙 생성 장치(81), 데이터 분석 장치(82) 및 데이터베이스(83)를 포함할 수 있다.

구체적으로, 데이터마이닝 연관 규칙 생성 장치(81)는 데이터베이스(83)로부터 제공되거나 또는 센서 네트워크로부터 전송되는, 매 데이터셋마다 아이템들 및 이벤트 플래그를 포함하는 입력 데이터셋으로부터 후보 연관 규칙들을 추출하고, 후보 연관 규칙들로 구성된 후보 연관 규칙 행렬을 LSA 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 도출하며, 유사도 값에 기초하여 감축된 연관 규칙을 생성한다.

추가적으로, 데이터마이닝 연관 규칙 생성 장치(81)는, 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여 감축된 최종 연관 규칙을 생성할 수 있다.

한편, 데이터 분석 장치(82)는 최종적으로 감축된 연관 규칙들을 기초로 데이터베이스(83)에 저장된 빅데이터를 소정의 주지된 분석 기법에 따라 분석할 수 있다. 아래 실시예에 따라, 데이터 분석 장치(82)는 연관 규칙 생성부(813)에서 감축된 연관 규칙들 또는 최종 연관 규칙 감축부(814)에서 추가로 감축된 최종 연관 규칙들을 기초로 데이터베이스(83)에 저장된 빅데이터를 분석할 수 있다.

데이터마이닝 연관 규칙 생성 장치(81)가 연관 규칙을 생성하기 위해 기초하는 입력 데이터셋과 데이터베이스(83)에 저장된 빅데이터는 반드시 동일하여야 하는 것은 아니다. 다시 말해, 입력 데이터셋은 데이터베이스(83)에 저장된 빅데이터의 일부 또는 전부이거나, 실시간적으로 인가되는 센서 데이터이거나, 트레이닝을 위해 별도로 제공될 수도 있다.

좀더 구체적으로, 데이터마이닝 연관 규칙 생성 장치(81)는 후보 연관 규칙 추출부(811), 잠재 의미론적 분석부(812), 연관 규칙 생성부(813) 및 최종 연관 규칙 감축부(814)를 포함할 수 있다.

후보 연관 규칙 추출부(811)는 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출한다.

실시예에 따라, 입력 데이터셋은 바람직하게는 이진수로 표시될 수 있는 아이템들과 실제로 발생한 아이템들의 데이터 조합에 관한 이벤트 플래그로 구성될 수 있다.

실시예에 따라, 입력 데이터셋은 아이템의 상태를 표현하는 이진값의 자리수가 2 이상일 수도 있다.

실시예에 따라, 후보 연관 규칙 추출부(811)는 추출된 후보 연관 규칙들을 후보 연관 규칙을 구성하는 아이템들 내의 이진값 1의 개수가 적은 순서대로 또는 많은 순서대로 정렬할 수 있다.

실시예에 따라, 잠재 의미론적 분석부(812)는, LSA 기법을 적용하면서, 후보 연관 규칙 행렬을 특이값 분해하여 특이값 행렬 및 우 정규 직교 행렬을 얻고, 소정의 문턱값보다 작은 특이값들을 제거하면서 얻은 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬의 행렬곱에 따른 의미 관련도 행렬로부터 아이템들 사이 및 아이템과 이벤트 플래그 사이의 유사도 값들을 산출할 수 있다.

연관 규칙 생성부(813)는 유사도 값에 기초하여 감축된 연관 규칙을 생성한다.

실시예에 따라, 연관 규칙 생성부(813)는, 규칙 요소를, 이벤트 플래그에 대해 아이템이 역의 의미론적 관계이면 "0"으로, 동일 의미론적 관계이면 "1"으로 설정하고, 의미론적 관계를 결정할 수 없으면 제거함으로써, 감축된 연관 규칙을 생성한다.

좀더 구체적으로, 연관 규칙 생성부(813)는, 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮은 경우에는 이벤트 플래그에 대해 해당 아이템이 역의 의미론적 관계이고, 아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높은 경우에는 이벤트 플래그에 대해 해당 아이템이 동일 의미론적 관계이며, 아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮은 경우에는 의미론적 관계를 결정할 수 없다.

추가적으로, 최종 연관 규칙 감축부(814)는, 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여 감축된 최종 연관 규칙을 생성할 수 있다.

좀더 구체적으로, 최종 연관 규칙 감축부(814)는 감축된 연관 규칙 내에 동일한 규칙 요소들을 가지는 아이템들이 있을 경우에, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 감축된 최종 연관 규칙을 생성한다.

본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형예와 구체적인 실시예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.

또한, 본 발명에 따른 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, 광학 디스크, 자기 테이프, 플로피 디스크, 하드 디스크, 비휘발성 메모리 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

80 데이터마이닝 시스템
81 데이터마이닝 연관 규칙 생성 장치
811 후보 연관 규칙 추출부
812 잠재 의미론적 분석부
813 연관 규칙 생성부
814 최종 연관 규칙 감축부
82 데이터 분석 장치
83 데이터베이스

Claims

컴퓨터를 이용한 데이터마이닝 연관 규칙 생성 방법으로서,
상기 컴퓨터가,
주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 단계;
상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계; 및
상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 1에 있어서,
상기 후보 연관 규칙은 이진수로 표시될 수 있는 아이템들과 실제로 발생한 아이템들의 데이터 조합에 의한 이벤트 플래그로 구성되고,
상기 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 단계는,
상기 이벤트 플래그가 활성화된 데이터 조합으로서 상기 후보 연관 규칙들을 추출하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 2에 있어서,
상기 이벤트 플래그는 소정 문턱값에 상응하는 횟수 이상 발생할 경우에 활성화되도록 설정되는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 1에 있어서, 상기 유사도 값들을 산출하는 단계는
잠재 의미론적 분석 기법을 적용하면서, 후보 연관 규칙 행렬을 특이값 분해하여 특이값 행렬 및 우 정규 직교 행렬을 얻는 단계;
소정의 문턱값보다 작은 특이값들을 제거하면서 얻은 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬을 생성하는 단계; 및
상기 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬의 행렬곱에 따른 의미 관련도 행렬로부터 아이템들 사이 및 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 1에 있어서, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계는,
연관 규칙의 각 규칙 요소를, 이벤트 플래그에 대해 아이템이 역의 의미론적 관계이면 "0"으로, 동일 의미론적 관계이면 "1"으로 설정하고, 의미론적 관계를 결정할 수 없으면 제거함으로써, 감축된 연관 규칙을 생성하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 5에 있어서, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 단계는,
상기 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮은 경우에는 이벤트 플래그에 대해 해당 아이템이 역의 의미론적 관계라고 판정하고, 아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높은 경우에는 이벤트 플래그에 대해 해당 아이템이 동일 의미론적 관계라고 판정하며, 아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮은 경우에는 의미론적 관계를 결정할 수 없다고 판정하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 1에 있어서, 상기 유사도 값들을 산출하는 단계는
상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 단계를 포함하고,
상기 데이터마이닝 연관 규칙 생성 방법은,
상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여, 감축된 최종 연관 규칙을 생성하는 단계를 더 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
청구항 7에 있어서, 상기 감축된 최종 연관 규칙을 생성하는 단계는,
상기 감축된 연관 규칙 내에 동일한 규칙 요소들을 가지는 아이템들이 있을 경우에, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 상기 감축된 최종 연관 규칙을 생성하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 방법.
하드웨어에서 청구항 1 내지 청구항 8중 어느하나의 데이터마이닝 연관 규칙 생성 방법의 각 단계들을 수행할 수 있도록 작성되어 기록 매체에 기록된 프로그램.
주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하는 후보 연관 규칙 추출부;
상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하는 잠재 의미론적 분석부; 및
상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 연관 규칙 생성부를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 10에 있어서,
상기 후보 연관 규칙은 이진수로 표시될 수 있는 아이템들과 실제로 발생한 아이템들의 데이터 조합에 의한 이벤트 플래그로 구성되고,
상기 후보 연관 규칙 추출부는,
상기 이벤트 플래그가 활성화된 데이터 조합으로서 상기 후보 연관 규칙들을 추출하도록 동작하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 11에 있어서,
상기 이벤트 플래그는 소정 문턱값에 상응하는 횟수 이상 발생할 경우에 활성화되도록 설정되는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 10에 있어서, 상기 잠재 의미론적 분석부는
잠재 의미론적 분석 기법을 적용하면서, 상기 후보 연관 규칙 행렬을 특이값 분해하여 특이값 행렬 및 우 정규 직교 행렬을 얻고,
소정의 문턱값보다 작은 특이값들을 제거하면서 얻은 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬을 생성하며,
상기 절단된 특이값 행렬 및 절단된 우 정규 직교 행렬의 행렬곱에 따른 의미 관련도 행렬로부터 아이템들 사이 및 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하도록 동작하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 10에 있어서, 상기 연관 규칙 생성부는,
연관 규칙의 각 규칙 요소를, 이벤트 플래그에 대해 아이템이 역의 의미론적 관계이면 "0"으로, 동일 의미론적 관계이면 "1"으로 설정하고, 의미론적 관계를 결정할 수 없으면 제거함으로써, 상기 감축된 연관 규칙을 생성하도록 동작하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 14에 있어서, 상기 연관 규칙 생성부는,
상기 아이템과 이벤트 플래그 사이의 유사도 값이 "0" 또는 하위 문턱값보다 낮은 경우에는 이벤트 플래그에 대해 해당 아이템이 역의 의미론적 관계라고 판정하고,
아이템과 이벤트 플래그 사이의 유사도 값이 "1" 또는 상위 문턱값보다 높은 경우에는 이벤트 플래그에 대해 해당 아이템이 동일 의미론적 관계라고 판정하며,
아이템과 이벤트 플래그 사이의 유사도 값이 하위 문턱값보다 높거나 상위 문턱값보다 낮은 경우에는 의미론적 관계를 결정할 수 없다고 판정하도록 동작하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 10에 있어서, 상기 잠재 의미론적 분석부는,
상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하도록 동작하고,
상기 데이터마이닝 연관 규칙 생성 장치는,
상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여, 중복된 아이템들을 제거하여, 감축된 최종 연관 규칙을 생성하는 최종 연관 규칙 감축부를 더 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.
청구항 16에 있어서, 상기 최종 연관 규칙 감축부는,
상기 감축된 연관 규칙 내에 동일한 규칙 요소들을 가지는 아이템들이 있을 경우에, 동일한 규칙 요소를 가지는 아이템들 중 하나만 남기고 나머지 아이템들의 규칙 요소들을 제거하여 상기 감축된 최종 연관 규칙을 생성하도록 동작하는 단계를 포함하는 것을 특징으로 하는 데이터마이닝 연관 규칙 생성 장치.\
빅데이터를 저장하는 데이터베이스;
상기 데이터베이스에서 검색되거나 또는 외부에서 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하고, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하며, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하는 데이터마이닝 연관 규칙 생성 장치; 및
상기 감축된 연관 규칙들을 기초로 상기 데이터베이스에 저장된 빅데이터를 소정의 분석 기법에 따라 분석하는 데이터 분석 장치를 포함하는 데이터마이닝 시스템.
빅데이터를 저장하는 데이터베이스;
상기 데이터베이스에서 검색되거나 또는 외부에서 주어진 입력 데이터셋으로부터 후보 연관 규칙들을 추출하고, 상기 후보 연관 규칙들에 기초한 후보 연관 규칙 행렬을 잠재 의미론적 분석 기법을 통해 분석하여 아이템들 사이 및 각 아이템과 이벤트 플래그 사이의 유사도 값들을 산출하며, 상기 유사도 값에 기초하여 감축된 연관 규칙을 생성하고, 상기 감축된 연관 규칙으로부터, 규칙 요소의 동일성에 기초하여 중복된 아이템들을 제거하여 감축된 최종 연관 규칙들을 생성하는 데이터마이닝 연관 규칙 생성 장치; 및
상기 감축된 최종 연관 규칙들을 기초로 상기 데이터베이스에 저장된 빅데이터를 소정의 분석 기법에 따라 분석하는 데이터 분석 장치를 포함하는 데이터마이닝 시스템.