KR20190049536A

KR20190049536A - 연관 규칙의 단계적 추출 장치 및 방법

Info

Publication number: KR20190049536A
Application number: KR1020180130082A
Authority: KR
Inventors: 김홍기; 김응희; 임진묵; 안진현; 박준호
Original assignee: 서울대학교산학협력단
Priority date: 2017-10-30
Filing date: 2018-10-29
Publication date: 2019-05-09
Also published as: KR102071702B1

Abstract

본 발명은 연관 규칙의 단계적 추출 장치 및 방법을 개시한다. 본 발명의 일실시예에 따르면 연관 규칙의 단계적 추출 장치는 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정하는 결정부, 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 추출부 및 상기 단계적으로 추출된 계보(Genealogy)에 기초하여 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성하는 모델 생성 처리부를 포함할 수 있다.

Description

연관 규칙의 단계적 추출 장치 및 방법{APPARATUS AND METHOD OF EXTRACTING ASSOCIATION RULES IN PHASES}

본 발명은 데이터베이스의 데이터에 대한 연관 규칙을 단계적으로 추출하는 기술적 사상에 관한 것으로, 보다 구체적으로, 기존의 연관 규칙(Association rule)을 재정의 하고, 재정의된 연관 규칙을 단계적으로 추출 하는 장치 및 방법에 관한 것 이다.

본 발명에 대한 설명은 데이터베이스에 대한 정형화된 정의로부터 시작할 수 있다.

데이터베이스 D=(T, I, R)은 트랜잭션(Transaction) 집합 T, 아이템(Item) 집합 I, 그리고 트랜잭션과 아이템 간의 이진 관계 R(R⊆T×I)로 구성된다. 또한, 특정 트랜잭션 t∈T와 아이템 i∈I에 대한 다음과 같은 표기 (t, i)∈R은, '트랜잭션 t가 아이템 i를 갖는다'로 해석될 수 있다.

하기의 표 1은 행 중심 그리고 열 중심의 데이터베이스에 대한 예제를 설명한다.

[표 1]

표 1를 참조하면, 데이터베이스는 일반적으로 횡(트랜잭션) 중심 혹은 열(아이템) 중심으로 표현될 수 있다.

트랜잭션 집합과 부분 집합에 대한 함수는 하기 수학식 1에 의해 정의될 수 있다.

[수학식 1]

수학식 1에서, X는 아이템 집합 I의 부분 집합을 해석될 수 있고, T는 트랜잭션 집합을 해석될 수 있으며, Y는 트랜잭션 집합의 부분 집합을 해석될 수 있고, f는 트랜잭션 집합에 대한 함수로서, X에 대한 함수인 f는 X에 속한 모든 아이템들을 갖는 트랜잭션 집합을 해석될 수 있고, g는 트랜잭션 집합의 부분 집합에 대한 함수로서, Y에 속한 모든 트랜잭션들이 공유하는 아이템 집합으로 해석될 수 있다.

연관 규칙 Xi→Xj는 두 개의 상호 배반적인 아이템 집합 Xi와 Xj 간에 존재하는 규칙성을 나타내며, Xi를 연관 규칙의 전제, 그리고 Xj를 연관 규칙의 결론이라 지칭될 수 있다. 주어진 두 개의 문턱 값 minsup (Minimum support: 최소 지지도), minconf (Miniumu confidence: 최소 확신도)∈[0, 1]에 대해, 하기의 수학식 2와 같이 정의될 수 있다.

[수학식 2]

수학식 2에서, X는 아이템 집합의 부분 집합을 해석될 수 있고, T는 트랜잭션 집합을 해석될 수 있으며, sup은 지지도로 해석될 수 있고, minsup은 최소 지지도로 해석될 수 있으며, conf는 확신도로 해석될 수 있고, minconf는 최소 확신도로 해석될 수 있다.

수학식 2의 두 가지 조건을 만족하면, 데이터베이스 D=(T, I, R)은 Xi→Xj를 만족한다 할 수 있다 (단, Xi, Xj⊆I 그리고 Xi,∩Xj=_).

이때, sup(Xi→Xj)는 규칙 Xi→Xj의 지지도(Support), conf(Xi→Xj)는 규칙 Xi→Xj의 확신도(Confidence)라 각각 칭해질 수 있다.

특히, 특정 규칙의 지지도가 1인 규칙을 정밀한 연관 규칙(Exact association rule), 지지도가 1 미만인 규칙을 근사적 연관 규칙이라 분류할 수 있다.

표 1에 주어진 데이터베이스로부터 추출 가능한 연관 규칙 {i1, i3}→{i4, i5}를 예로 살펴보자. 연관 규칙 {i1, i3}→{i4, i5}의 지지도와 확신도인, sup({i1, i3}→{i4, i5})=0.3 그리고 conf({i1, i3}→{i4, i5})=0.5이므로, 최소 지지도와 최소 확신도가 0.3 그리고 0.5 이하로 각각 지정되었을 시, 연관 규칙 {i1, i3}→{i4, i5}는 표 1의 데이터베이스 내에서 유효한 연관 규칙이라 할 수 있다.

반면, 최소 확신도 및 지지도가 0.3 그리고 0.5보다 큰 값들로 지정되었을 경우, 연관 규칙 {i1, i3}→{i4, i5}는 유효하지 않은 연관 규칙으로 분류된다.

연관 규칙의 일반적인 활용 행태는 다음과 같이 설명될 수 있다. 먼저, 주어진 데이터베이스와 도메인 전문가가 지정한 최소 지지도 및 최소 확신도를 기반으로, 연관 규칙 Xi→Xj 집합을 추출하여 연관 규칙 저장소에 저장될 수 있다.

연관 규칙 저장소 구축 후, 사용자의 성향 혹은 특성을 집합 형식으로 기술한 후, 이와 일치하는 전제 Xi를 갖는 연관 규칙의 결론 Xj의 집합을 해당 사용자에게 추천할 수 있다.

이때, 사용자의 특성 혹은 성향은 집합(Set) 형식으로 표현됨으로, 보다 구체적이고 상세한 사용자 특성 기술에는 한계가 있으며, 이로 인해 실제 사용자에게 추천되는 연관 규칙의 결론에 대한 정확도 및 만족도 저하라는 종래 기술의 문제점 및 한계점이 존재한다.

비록, 연관 규칙의 전제의 형식을 이진 논리식으로 확장하여 집합 대비 높은 표현력을 지원하려는 연구가 있으나, 이진 논리식의 표현력 역시 보다 높은 수준의 혹은 복잡도의 표현력을 요구하는 분야에서의 활용에는 한계점이 존재할 수 있다.

연관 규칙 추출을 위해 개발 및 활용된 기존의 방법론들은 (1)도메인 전문가가 지정한 최소 지지도(minsup) 그리고 최소 확신도(minconf)에 대해 대용량의 데이터베이스로부터 효율적으로 일괄적인 연관 규칙 추출, (2)연관 규칙 추출의 효율성을 높이기 위해 데이터베이스로부터 인덱스 구조를 생성한 후, 연관 규칙 추출 그리고 (3)연관 규칙의 전제의 형태를 집합이 아닌 이진 논리식으로 확장하여, 이진 논리식에 부합하는 결론만을 추출과 같은 3가지 부류로 분류될 수 있다.

그러나, 첫 번째 부류에 속하는 알고리즘들의 경우, 데이터베이스로부터 추출되는 연관 규칙들을 저장하기 위한 별도의 저장소를 요구하며, 도메인 전문가가 최소 지지도(minsup) 및 최소 확신도(minconf)를 변경하여 적용해야 하는 상황이 발생하는 경우(특히, 보다 적은 값의 문턱 값을 설정할 경우), 높은 복잡도를 요구하는 알고리즘들이 다시 수행되어야 한다는 한계가 있다.

데이터베이스를 가공하여 연관 규칙 추출에 최적화된 인덱스 구조를 기반으로 하는 두 번째 부류에 속하는 알고리즘들의 경우, 데이터베이스의 업데이트 발생 시, 인덱스 구조 업데이트에 소요되는 자원이 발생하며, 특히, 기존의 트랜잭션이 삭제 혹은 변경될 경우, 인덱스 구조를 대폭 수정해야 하는 단점을 갖는다.

마지막으로 세 번째 경우에 속하는 방법론의 경우, 이진 논리식보다 높은 표현력을 기반으로 기술된 전제가 요구되는 분야에서의 활용에 명확한 한계가 있다 할 수 있다. 또한, 대부분의 연관 규칙 추출 방법론의 경우, 연관 규칙의 일괄적인 추출을 위해 설계 및 발명되었으나, 데이터베이스가 방대해 질 경우 높은 효율성을 갖는 알고리즘들 역시 사용자에게 즉각적인 결과 전달에는 어려움이 있다.

한국공개특허 제10-2009-0019185호, "데이터 스트림으로부터 연관규칙을 생성하는 방법 및 데이터 마이닝 시스템" 한국등록특허 제10-1078862호, "사용주체의 가중치를 이용한 개념격자 기반 질의용어 매핑지원 시스템 및 방법"

S.-J. Song, E.-H. Kim, H.-G. Kim, H. Kumar, Query-based association rule mining supporting user perspective, Computing 93 (1) (2011) 1-25. E.-H. Kim, H.-G. Kim, S.-H Hwang, S.-In Lee, FARM: an FCA-based Association Rule Miner 85 (2015) 277-297.

본 발명은 연관 규칙의 전제를 특정 형식(예: 집합 혹은 이진 논리식)으로 규정하지 않고, 보다 높은 표현력과 자유도를 허락하는 정합 논리식(Well-formed formula)으로 일반화하여, 이를 전제로 하는 하이퍼 연관 규칙의 결론 집합을 단계적으로 추출하는 것을 목적으로 할 수 있다.

본 발명은 대용량 데이터로부터의 효율적인 연관 규칙 추출을 지원하는 알고리즘으로서, FP-tree(Frequent pattern tree) 혹은 개념 격자(concept lattice)와 같이 데이터에 대한 사전 처리를 통한 특수한 데이터 구조 생성을 배제한 알고리즘을 제시하는 것을 목적으로 할 수 있다.

본 발명은 연관 규칙 결론의 정확도를 상승시키며, 이를 단계적으로 추출하여 대용량의 데이터에 대해 합리적인 시간 내의 결론 도출을 지원할 뿐만 아니라, 중복성이 있는 연관 규칙 추출을 방지하는 것을 목적으로 할 수 있다.

본 발명은 특정 개체 집합으로부터 생성되는 데이터를 활용하고자 하는 다양한 기술분야에서 활용 가능할 것으로 예상되며, 특히 데이터 마이닝(Data mining) 분야와 추천 시스템 분야 그리고 시장 및 소비 패턴 분석 분야에서의 활발하게 적용되는 것을 목적으로 할 수 있다.

본 발명은 사용자의 특성 혹은 성향이 기술되는 연관 규칙의 전제 형식을 정합 논리식으로 일반화하여, 연관 규칙 활용 영역 및 시나리오에 적합한 임의의 표현식을 지원하는 것을 목적으로 할 수 있다.

본 발명은 연관 규칙 전제를 정합 논리식으로 일반화하고, 일반화된 전제에 부합하는 결론을 표현 및 추출하기 위한 모델과 알고리즘을 각각 개발하는 것을 목적으로 할 수 있다.

본 발명의 일실시예에 따르면 연관 규칙의 단계적 추출 장치는 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정하는 결정부, 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 추출부 및 상기 단계적으로 추출된 계보(Genealogy)에 기초하여 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성하는 모델 생성 처리부를 포함할 수 있다.

상기 추출부는 상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하고, 상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하며, 사용자에게 상기 도출된 결론 집합을 추천하고, 상기 추천된 결론 집합을 상기 정합 논리식(well-formed formula)에 부합하는 상기 계보(Genealogy)로 추출할 수 있다.

상기 추출부는 상기 임계값에 상응하는 트랜잭션 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 수를 비교하고, 상기 임계값에 상응하는 아이템 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 아이템 집합의 수를 비교하여 상기 임계값 이상의 결론 집합을 도출할 수 있다.

상기 추출부는 상기 정합 논리식(well-formed formula)에 부합하는 복수의 트랜잭션 집합과 상기 복수의 트랜잭션 집합이 상호간에 공유하는 아이템 집합에 기반하여 상기 유충(Larva) 집합을 생성할 수 있다.

상기 추출부는 상기 도출된 결론 집합에 포함된 아이템들을 상기 아이템 집합에서 제외하고, 추가 유충(Larva) 집합을 생성할 수 있다.

상기 추출부는 상기 매개변수 중 지지도(support) 또는 확신도(confidence) 중 적어도 하나에 기반하여 양의 정수의 결론 집합을 도출할 수 있다.

상기 추출부는 상기 결론 집합을 구성하는 원소 중에서 부모(parent) 원소를 포함하지 않는 집합을 시조(Progenitor) 계보로 추출하고, 상기 결론 집합을 구성하는 원소 중에서 상기 부모(parent) 원소를 포함하는 집합을 자식(Progenitor) 계보로 추출할 수 있다.

상기 매개변수는 상기 데이터베이스, 정합 논리식(well-formed formula) 형태의 전제, 최소 지지도(minimum support) 또는 최소 확신도(minimum confidence) 중 적어도 하나를 포함할 수 있다.

상기 증식 알고리즘(propagation)은 결론 집합들을 전달하는 시조(progenitorsGen) 함수, 사용자에 의해 선택된 결론 집합을 하위로 제공하는 아이(childrenGen) 함수, 연산을 통해 상기 결론 집합들을 직접적으로 산출하는 크로스오버(crossover) 함수 중 적어도 하나를 포함할 수 있다.

상기 하이퍼 연관 규칙(hyper association rule)은 전제와 결론을 포함하고, 상기 전제는 트랜잭션 집합으로 사상(mapping)하는 함수를 포함하며, 상기 결론은 아이템 집합으로 사상(mapping)하는 함수를 포함할 수 있다.

상기 계보 모델은 상기 매개 변수에 대한 결론 집합들을 구성하는 원소 간의 부분 순서 관계를 포함할 수 있다.

본 발명의 일실시예에 따르면 연관 규칙의 단계적 추출 방법은 결정부에서, 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정하는 단계, 추출부에서, 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 단계 및 모델 생성 처리부에서, 상기 단계적으로 추출된 계보(Genealogy)에 기초하여 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성하는 단계를 포함할 수 있다.

상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 단계는, 상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하는 단계, 상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계, 사용자에게 상기 도출된 결론 집합을 추천하는 단계 및 상기 추천된 결론 집합을 상기 정합 논리식(well-formed formula)에 부합하는 상기 계보(Genealogy)로 추출하는 단계를 포함할 수 있다.

상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계는, 상기 임계값에 상응하는 트랜잭션 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 수를 비교하고, 상기 임계값에 상응하는 아이템 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 아이템 집합의 수를 비교하여 상기 임계값 이상의 결론 집합을 도출하는 단계를 포함할 수 있다.

상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하는 단계는, 상기 정합 논리식(well-formed formula)에 부합하는 복수의 트랜잭션 집합과 상기 복수의 트랜잭션 집합이 상호간에 공유하는 아이템 집합에 기반하여 상기 유충(Larva) 집합을 생성하는 단계 및 상기 도출된 결론 집합에 포함된 아이템들을 상기 아이템 집합에서 제외하고, 추가 유충(Larva) 집합을 생성하는 단계를 포함할 수 있다.

상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계는, 상기 매개변수 중 지지도(support) 또는 확신도(confidence) 중 적어도 하나에 기반하여 양의 정수의 결론 집합을 도출하는 단계를 포함할 수 있다.

본 발명은 연관 규칙의 전제를 특정 형식(예: 집합 혹은 이진 논리식)으로 규정하지 않고, 보다 높은 표현력과 자유도를 허락하는 정합 논리식(Well-formed formula)으로 일반화하여, 이를 전제로 하는 하이퍼 연관 규칙의 결론 집합을 단계적으로 추출할 수 있다.

본 발명은 대용량 데이터로부터의 효율적인 연관 규칙 추출을 지원하는 알고리즘으로서, FP-tree(Frequent pattern tree) 혹은 개념 격자(concept lattice)와 같이 데이터에 대한 사전 처리를 통한 특수한 데이터 구조 생성을 배제한 알고리즘을 제시할 수 있다.

본 발명은 연관 규칙 결론의 정확도를 상승시키며, 이를 단계적으로 추출하여 대용량의 데이터에 대해 합리적인 시간 내의 결론 도출을 지원할 뿐만 아니라, 중복성이 있는 연관 규칙 추출을 방지할 수 있다.

본 발명은 특정 개체 집합으로부터 생성되는 데이터를 활용하고자 하는 다양한 기술분야에서 활용 가능할 것으로 예상되며, 특히 데이터 마이닝(Data mining) 분야와 추천 시스템 분야 그리고 시장 및 소비 패턴 분석 분야에서의 활발하게 적용될 수 있다.

본 발명은 사용자의 특성 혹은 성향이 기술되는 연관 규칙의 전제 형식을 정합 논리식으로 일반화하여, 연관 규칙 활용 영역 및 시나리오에 적합한 임의의 표현식을 지원할 수 있다.

본 발명은 연관 규칙 전제를 정합 논리식으로 일반화하고, 일반화된 전제에 부합하는 결론을 표현 및 추출하기 위한 모델과 알고리즘을 각각 개발할 수 있다.

도 1은 본 발명의 일실시예에 따른 연관 규칙의 단계적 추출 장치의 구성 요소를 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 계보 모델을 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 증식 알고리즘의 동작 개념을 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 시조 함수(progenitorsGen function)의 알고리즘을 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 아이 함수(childrenGen function)의 알고리즘을 설명하는 도면이다.
도 6은 본 발명의 일실시예에 따른 크로스오버 함수(crossover function)의 알고리즘을 설명하는 도면이다.
도 7은 본 발명의 일실시예에 따른 탑 크로스오버 함수(topKcrossover function)의 알고리즘을 설명하는 도면이다.
도 8 및 도 9는 본 발명의 일실시예에 따른 연관 규칙의 단계적 추출 방법과 관련된 흐름도를 설명하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 기재된다.

실시예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.

하기에서 다양한 실시예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

그리고 후술되는 용어들은 다양한 실시예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.

"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.

본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.

어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.

예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.

또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.

즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.

이하 사용되는 '..부', '..기' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일실시예에 따른 연관 규칙의 단계적 추출 장치의 구성 요소를 설명하는 도면이다.

도 1을 참고하면, 연관 규칙의 단계적 추출 장치(100)는 결정부(110), 추출부(120) 및 모델 생성 처리부(130)를 포함할 수 있다.

본 발명의 일실시예에 따르면 결정부(110)는 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정할 수 있다.

일례로, 결정부(110)는 사용자로부터 입력된 매개변수에 대한 연관 규칙의 전제를 특정 형식(예: 집합 또는 이진 논리식)으로 규정하지 않고, 보다 높은 표현력과 자유도를 허락하는 정합 논리식으로 일반화할 수 있다.

예를 들어, 매개변수는 상기 데이터베이스, 정합 논리식(well-formed formula) 형태의 전제, 최소 지지도(minimum support) 또는 최소 확신도(minimum confidence) 중 적어도 하나를 포함할 수 있다.

일례로, 하이퍼 연관 규칙은 전제와 결론을 포함하고, 전제는 트랜잭션 집합으로 사상(mapping)하는 함수를 포함하며, 결론은 아이템 집합으로 사상(mapping)하는 함수를 포함할 수 있다.

예를 들어, 하이퍼 연관 규칙은 전제를 특정 트랜잭션 집합으로 사상하는 함수가 존재하고, 결론은 공집합이 아닌 아이템 집합으로 사상하는 함수를 포함할 수 있다.

예를 들어, 하이퍼 연관 규칙은 기존의 전통적인 연관 규칙 간의 상호 운용성이 보장될 수 있다.

본 발명의 일실시예에 따르면 추출부(120)는 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출할 수 있다.

따라서, 본 발명은 연관 규칙의 전제를 특정 형식(예: 집합 혹은 이진 논리식)으로 규정하지 않고, 보다 높은 표현력과 자유도를 허락하는 정합 논리식(Well-formed formula)으로 일반화하여, 이를 전제로 하는 하이퍼 연관 규칙의 결론 집합을 단계적으로 추출할 수 있다.

또한, 본 발명은 대용량 데이터로부터의 효율적인 연관 규칙 추출을 지원하는 알고리즘으로서, FP-tree(Frequent pattern tree) 혹은 개념 격자(concept lattice)와 같이 데이터에 대한 사전 처리를 통한 특수한 데이터 구조 생성을 배제한 알고리즘을 제시할 수 있다.

일례로, 추출부(120)는 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하고, 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출할 수 있다.

또한, 추출부(120)는 사용자에게 상기 도출된 결론 집합을 추천하고, 추천된 결론 집합을 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)로 추출할 수 있다.

본 발명의 일실시예에 따르면 추출부(120)는 임계값에 상응하는 트랜잭션 집합의 수와 적어도 하나 이상의 유충(Larva) 집합의 수를 비교하고, 임계값에 상응하는 아이템 집합의 수와 적어도 하나 이상의 유충(Larva) 집합의 아이템 집합의 수를 비교하여 임계값 이상의 결론 집합을 도출할 수 있다.

예를 들어, 임계값은 최소 지지도 및 최소 확신도에 기반하여 결정될 수 있으며, 최소 지지도 및 최소 확신도는 사용자에 의하여 임의로 설정될 수 도 있다.

일례로, 추출부(120)는 정합 논리식(well-formed formula)에 부합하는 복수의 트랜잭션 집합과 복수의 트랜잭션 집합이 상호간에 공유하는 아이템 집합에 기반하여 유충(Larva) 집합을 생성할 수 있다.

예를 들어, 추출부(120)는 도출된 결론 집합에 포함된 아이템들을 아이템 집합에서 제외하고, 추가 유충(Larva) 집합을 생성할 수 있다.

본 발명의 일실시예에 따르면 추출부(120)는 매개변수 중 지지도(support) 또는 확신도(confidence) 중 적어도 하나에 기반하여 양의 정수의 결론 집합을 도출할 수 있다.

따라서, 본 발명은 연관 규칙 결론의 정확도를 상승시키며, 이를 단계적으로 추출하여 대용량의 데이터에 대해 합리적인 시간 내의 결론 도출을 지원할 뿐만 아니라, 중복성이 있는 연관 규칙 추출을 방지할 수 있다.

본 발명의 일실시예에 따르면 모델 생성 처리부(130)는 단계적으로 추출된 계보(Genealogy)에 기초하여 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성할 수 있다. 상술한 계보 모델은 도 2를 이용하여 보다 구체적으로 설명한다.

도 2는 본 발명의 일실시예에 따른 계보 모델을 설명하는 도면이다.

도 2를 참고하면, 계보 모델(200)은 시조(progenitor) 모델(210) 부모(parent) 모델(220) 및 자식(child) 모델(230)을 포함할 수 있다.

예를 들어, 시조(progenitor) 모델(210)은 상위 모델이 존재하지 않는 계보 모델을 지칭할 수 있다.

또한, 부모(parent) 모델(220)은 시조(progenitor) 모델(210)과 자식(child) 모델(230)의 사이에 존재하며, 상위 모델로 시조(progenitor) 모델(210)이 존재하고, 하위 모델로 자식(child) 모델(230)이 존재하는 계보 모델을 지칭할 수 있다.

또한, 자식(child) 모델(230)은 상위 모델로 부모 모델(220)이 존재하는 계보 모델을 지칭할 수 있다.

계보 모델(200)은 적어도 하나 이상의 하이퍼 연관 규칙(Hyper-association rule)으로 구성될 수 있다.

하이퍼 연관 규칙은 정합 논리식인 전제를 특정 트랜잭션 집합으로 사상하는 함수가 존재하고, 결론은 공집합이 아닌 아이템 집합일 수 있다.

일측에 따르면, 주어진 데이터베이스 D=(T, I, R)에 대한 하이퍼 연관 규칙(Hyper-association rule)

는 전제

와 결론 X로 구성되며,

와 X는 하기와 같은 제약 조건을 갖는다.

보다 구체적으로, 정합 논리식(Well-formed formula)인 전제

를 특정 트랜잭션 집합으로 사상(Mapping)하는 함수

가 존재해야 하고(즉

), 하이퍼 연관 규칙의 결론 X는 공집합이 아닌 아이템 집합이며(

),

(단,

가 정합 논리식

를

에 등장하는 아이템 집합으로 사상시키는 함수, 즉

)인 제약 조건을 갖을 수 있다.

또한, 하이퍼 연관 규칙은 하기 수학식 3과 같이 지지도와 확신도에 기반하여 지지될 수 있다.

[수학식 3]

수학식 3에서, sup은 지지도로 해석될 수 있고,

는 전제로 해석될 수 있으며, X는 결론으로 해석될 수 있고, ψ는 사상 함수로 해석될 수 있으며, f는 함수로 해석될 수 있고, T는 트랜잭션 집합으로 해석될 수 있으며, conf는 확신도로 해석될 수 있다.

정합 논리식의

가 하이퍼 연관 규칙의 전제가 되기 위해서는,

를 트랜잭션 집합 그리고 아이템 집합으로 사상하는 사상 함수 ψ와 ξ가 존재해야 한다.

또한, 하이퍼 연관 규칙의 결론은 공집합이 아닌 아이템 집합으로 구성되며, 마지막으로, 정합 논리식 형태의 전제

에 등장하는 아이템들은 결론 X의 요소로 다시 등장할 수 없다.

특히, 마지막 조건을 통해 하이퍼 연관 규칙과 기존의 전통적인 연관 규칙 간의 상호운용성이 보장된다.

표 1에 기술된 데이터베이스로부터 생성 가능한 하이퍼 연관 규칙의 예제 리스트를 표 2와 같이 기술될 수 있다.

[표 2]

예를 들어, 사용자로부터 주어진 데이터베이스 D=(T, I, R)에 대한 두 개의 문턱 값(Threshold) minsup, miconf∈[0, 1]에 대하여, 하이퍼 연관 규칙

의 결론 X는 하기의 수학식 4와 같은 조건을 만족하는 경우, 결론 집합이라 할 수 있다.

[수학식 4]

[수학식 4]에서, sup은 지지도로 해석될 수 있고, minisup은 최소 지지도로 해석될 수 있으며, conf는 확신도로 해석될 수 있고, miniconf는 최소 확신도로 해석될 수 있다. 또한,

는 전제로 해석될 수 있고, X는 결론으로 해석될 수 있다.

하이퍼 연관 규칙의 결론 집합에 대한 첫 번째 조건은, 충분한 수의 트랜잭션들이 해당 규칙을 만족해야 한다는 것을 의미하며, 이는 전통적인 연관 규칙으로 나타낼 수 있다.

반면, 두 번째 조건의 경우, 정합 논리식 형태의 전제

를 만족하는 특정 트랜잭션 집합이 공유하는 최대 아이템 집합만이 결론 집합을 나타낼 수 있다.

표 1의 데이터베이스에 대해, 전제를

으로 하는 두 개의 하이퍼 연관 규칙

와

를 예로 들면, 첫 번째 하이퍼 연관 규칙의 전제와 결론을 만족하는 트랜잭션 집합은 {t1, t3, t5}이며, 두 번째 하이퍼 연관 규칙의 전제와 결론을 만족하는 트랜잭션 집합 역시 {t1, t3, t5}이될 수 있다.

이때, 첫 번째 하이퍼 연관 규칙의 결론은 두 번째 연관 규칙의 부분 집합이므로(즉, {i4, i5}⊂{i1, i3, i4, i5}), 결론 {i4, i5}은 결론 집합이라 할 수 없다.

다시 말해, 첫 번째 하이퍼 연관 규칙

는, 전제

을 만족하는 트랜잭션 집합 {t1, t3, t5}가 공유하는 아이템 집합의 일부분만을 나타내는 패턴이므로, 유의미하지 않은 결론으로 분류 될 수 있다.

반면, 결론 {i1, i3, i4, i5}의 경우, 트랜잭션 집합 {t1, t3, t5}가 공유하는 아이템 집합 전체를 나타내므로, 이는 전제 에 대한 결론 집합이라 할 수 있다.

하기의 표 3은 전제

과 minsup=0.2 그리고 minconf=0.3에 대해, 표 1의 데이터베이스로부터 추출 가능한 결론 집합을 설명하고 있다.

[표 3]

표 3을 통해 최소 지지도와 확신도가 0.2 그리고 0.3으로 각각 주어졌을 때, 표 1의 데이터베이스에 대한 전제

에 부합하는 결론 집합을 확인할 수 있다.

데이터베이스 D=(T, I, R)와 minsup, minconf 그리고 정합 논리식 형태의 전제

에 부합하는 모든 결론 집합을 C라 하면, 결론 집합 C의 두 원소 Xi와 Xj에 대하여, Xi가 Xj의 부분 집합일 경우, Xi를 Xj의 선조(Ancestor), Xj를 Xi의 후손(Descendant)이라 하며, 이를 Xi>Xj로 표기한다.

또한, 결론 집합 C의 두 원소 Xi와 Xj에 대하여, Xi>Xj이고

인 경우, Xi를 Xj의 부모(Parent), Xj는 Xi의 식(Child)라 지칭하고, 이를 Xi>Xj로 표기한다. 또한, 결론 집합 C의 원소 중, 부모를 갖지 않는 원소를 시조(Progenitor)라 정의할 수 있다. 여기서, 부모를 갖지 않는 원소를 포함하는 집합이 시조 모델(210)에 해당할 수 있다.

결론 집합에 대한 개념이 전제

가 주어졌을 시 추출해야 하는 결론들을 규정하였다면, 결론 집합 간의 선조-후손 그리고 부모-자식 관계에 대한 개념은, 결론 추출에 있어서의 부분 순서 관계(Partial order)를 정의할 수 있다.

선조-후손 관계 Xi>Xj는, 전제

와 선조 Xi를 만족하는 트랜잭션 중 일부의 트랜잭션만이 후손 Xj를 만족하는 것으로 해석할 수 있으므로, 선조인 Xi가 후손인 Xj 대비 보다 일반적인(General) 패턴을 나타낼 수 있다.

반면, Xj는 Xi 대비 보다 상세한(Specific) 패턴이라 할 수 있다. 부모-자식 관계인 XiXj는 선조-후손 관계의 특수한 경우로써, Xi가 Xj의 가장 상세한 선조일 경우 Xi를 Xj의 부모라 하고, Xj가 Xi의 가장 일반적인 후손일 경우 Xj를 Xi의 자식이라 한다.

나아가, 부모를 갖지 않는 결론 집합, 즉 가장 일반적인 결론 집합을 시조라 한다. 고로, 전제

가 주어졌을 시, 가장 먼저 시조들을 추출한 후, 시조들의 자식들에 대한 순차적인 추출을 통해 단계적인 정보 전달을 지원하는 개념이라 할 수 있다.

하기의 표 4는 표 3의 결론 집합들 간의 선조-후손 및 부모-자식 관계를 설명한다.

[표 4]

표 4에 따르면, 데이터베이스 D=(T, I, R)와 minsup, minconf 및 정합 논리식 형태의 전제

에 부합하는 결론 집합 C와 결론 집합 간의 부분 순서 관계 >를 계보(Genealogy)라 하고, 이를 G(D,

, minsup, minconf):=(C, >)이라 표기될 수 있다.

또한, 하이퍼 연관 규칙

의 결론 X가 C의 원소일 경우, 이를 유의미한 하이퍼 연관 규칙(Informative hyper-association rule)이라 한다.

계보 G는 (1) 데이터베이스, (2) 정합 논리식 형태의 전제, (3) 최소 지지도(Minimum support: minsup) 그리고 (4) 최소 확신도(Minimum confidence: minconf)를 매개변수로 하여, 주어진 매개변수에 대한 결론 집합 C와 결론 집합 C를 구성하는 원소 간의 부분 순서 관계로 구성된다.

또한, 집합 C의 원소 X를 결론으로 하는 하이퍼 연관 규칙

를 유의미한 하이퍼 연관 규칙으로 규정될 수 있다.

도 3은 본 발명의 일실시예에 따른 증식 알고리즘의 동작 개념을 설명하는 도면이다.

구체적으로, 도 3은 계보 모델을 단계적으로 추출하는 증식 알고리즘(Propagation Algorithm)의 동작 개념을 설명한다.

본 발명의 일실시예에 따르면 연관 규칙의 단계적 추출 장치는 입력(300)에 대하여 증식 알고리즘(310)을 이용하여 출력(320)을 출력할 수 있다.

일례로 증식 알고리즘(310)은 결론 집합들을 전달하는 시조(progenitorsGen) 함수(311), 사용자에 의해 선택된 결론 집합을 하위로 제공하는 아이(childrenGen) 함수(313), 연산을 통해 상기 결론 집합들을 직접적으로 산출하는 크로스오버(crossover) 함수(312) 중 적어도 하나를 포함할 수 있다.

보다 구체적으로, 연관 규칙의 단계적 추출 장치는 증식 알고리즘(310)의 시조(progenitorsGen) 함수(311)과 아이(childrenGen) 함수(313)는 크로스오버(crossover) 함수(312)의 매개변수를 구비하여, 크로스오버(crossover) 함수(312)로 매개변수를 전달, 시조 및 특정 유의미한 결론들의 자식들을 각각의 결론 집합을 생성할 수 있다. 여기서, 매개변수는 입력(300)에 상응할 수 있다.

연관 규칙의 단계적 추출 장치는 데이터베이스 D=(T, I, R)과 이에 대한 정합 논리식

가 주어졌을 때, (X×Y)로 표기되는 아이템 집합 X와 트랜잭션 집합 Y의 쌍인 유충(Larva)을 증식 알고리즘의 기본 요소로 활용하여 계보 모델을 생성할 수 있다(단,

그리고

).

시조(progenitorsGen) 함수(311) 및 아이(childrenGen) 함수(313)의 경우, 크로스오버(crossover) 함수(312)의 매개변수를 생성하는 역할을 하며, 크로스오버(crossover) 함수(312)가 실질적으로 유의미한 결론을 추출해내므로, 유충을 기반으로 한 증식 알고리즘의 핵심 원리는 크로스오버(crossover) 함수(312)에서 이루어지는 하기의 대표적인 연산에 기반할 수 있다.

연관 규칙의 단계적 추출 장치는 |Yi|≥|Yj|를 만족하는 두 개의 유충 (Xi×Yi)와 (Xj×Yj)에 대하여, Yi=Yj 일 경우, Xi를 Xi와 Xj의 합집합으로 대체하고, 유충 (Xj×Yj)는 더 이상 고려하지 않고, Yi⊃Yj 일 경우, 유충 (Xj×Yj)는 고려하지 않을 수 도 있다.

보다 구체적으로, 표 1에 기술된 데이터베이스로부터, 전제

, minsup=0.2 그리고 minconf=0.3에 대해 증식 알고리즘이 동작하는 구체적인 실시 예를 들면 다음과 같다.

시조(progenitorsGen) 함수(311)를 호출할 수 있다. 보다 구체적으로, 전제에 등장하는 아이템 i2를 제외한 모든 아이템 in들을 방문한 후,

가 충분히 많은 수의 트랜잭션으로 구성되었다면,

을 집합 L의 원소로 추가할 수 있다.

예를 들어, 트랜잭션 t1 하나만이 아이템 i10을 가지며 전제

를 만족함으로, 집합 L은 {({i1}×{t1, t3, t5, t6, t8, t9}), ({i3}×{t1, t3, t5, t6, t8, t9}), ({i4}×{t1, t3, t5, t6}), ({i5}×{t1, t3, t5}), ({i6}×{t1, t3, t6}), ({i7}×{t2, t3, t8, t9, t10}), ({i8}×{t2, t8, t9, t10}), ({i9}×{t2, t8, t10})}으로 구성될 수 있다.

시조(progenitorsGen) 함수(311)로부터 크로스오버(crossover) 함수(312)를 호출할 수 있다. 보다 구체적으로, 매개변수로 받은 집합 L의 원소들을 트랜잭션 집합의 크기를 기준을 내림차순 정렬할 수 있다. 따라서, 다음과 같이 정렬된 집합 L={({i1}×{t1, t3, t5, t6, t8, t9}), ({i3}×{t1, t3, t5, t6, t8, t9}), ({i7}×{t2, t3, t8, t9, t10}), ({i4}×{t1, t3, t5, t6}), ({i8}×{t2, t8, t9, t10}), ({i5}×{t1, t3, t5}), ({i6}×{t1, t3, t6}), ({i9}×{t2, t8, t10})}을 얻을 수 있다.

또한, 연관 규칙의 단계적 추출 장치는 가장 우선순위가 높은 ({i1}×{t1, t3, t5, t6, t8, t9})를 다른 요소들과 비교하며, 선조들을 생성할 수 있다.

연관 규칙의 단계적 추출 장치는 요소 ({i3}×{t1, t3, t5, t6, t8, t9}), ({i4}×{t1, t3, t5, t6}), ({i5}×{t1, t3, t5}), ({i6}×{t1, t3, t6})과의 비교를 통해 해당 요소들을 L로부터 삭제하고, 요소 ({i3}×{t1, t3, t5, t6, t8, t9})과의 비교를 통해 첫 번째 요소의 아이템 집합이 {i1}에서 {i1, i3}으로 업데이트할 수 있다. 또한, 업데이트 결과는 유의미한 결론 집합 C의 원소가 될 수 있다.

유사한 방식으로 요소 ({i7}×{t2, t3, t8, t9, t10})을 대상으로, 해당 요소보다 우선순위가 낮은 요소들과의 비교가 이루어지며, 결국 ({i8}×{t2, t8, t9, t10})과 ({i9}×{t2, t8, t10})가 삭제되며, 아이템 집합 {i7}이 C의 원소로 추가되어, 집합 C={{i1, i3}, {i7}}이 사용자에게 전달될 수 있다.

아이 함수(313)는 유의미한 결론 {i1, i3}을 매개변수로 하여 호출될 수 있다.

보다 구체적으로, 연관 규칙의 단계적 추출 장치는 사용자가 추천된 유의미한 결론 중, {i1, i3}에 관심이 있다고 가정하면, 아이 함수(313)는 F에 등장하는 아이템 i2와 매개변수로 받은 아이템 i1 및 i3를 배재한 아이템들을 방문하여 유충 집합 L을 {({i4}×{t1, t3, t5, t6}), ({i5}×{t1, t3, t5}), ({i6}×{t1, t3, t6}), ({i7}×{t3, t8, t9})}로 생성할 수 있다.

연관 규칙의 단계적 추출 장치는 아이 함수(313)로부터의 크로스오버(crossover) 함수(312)를 호출할 수 있다.

집합 L의 모든 요소들이 트랜잭션 집합의 크기를 기반으로 내림차순 정렬되어 있으므로, 별도의 우선순위 변환은 일어나지 않을 수 있다.

첫 번째 요소 ({i4}×{t1, t3, t5, t6})을 중심으로 한 트랜잭션 비교 작업에 의해, ({i5}×{t1, t3, t5})와 ({i6}×{t1, t3, t6})이 L로부터 삭제되고, {i4}은 집합 C의 원소가 된다. 또한 마지막 요소인 ({i7}×{t3, t8, t9})의 아이템 집합인 {i7}이 C의 원소로 추가되어, 아이 함수(313)로 집합 C={{i4}, {i7}}이 반환된다. 아이 함수(313)에 의해 C의 각 원소들과 매개변수 {i1, i3}과의 합집합 된 결과인 {i1, i3, i4}와 {i1, i3, i7}이, {i1, i3}의 자식으로써, 사용자에게 주어질 수 있다.

연관 규칙의 단계적 추출 장치는 유의미한 결론 {i1, i3, i4}를 매개변수로 한 아이 함수(313)를 호출할 수 있다.

예를 들어, 사용자가 추천된 유의미한 결론 중, {i1, i3, i4}에 관심있다고 가정하면, 아이 함수(313)는 {i1, i3, i4}를 매개변수로하여 호출되며, 집합 L은 {({i5}×{t1, t3, t5}), ({i6}×{t1, t3, t6})}로 구성될 수 있다.

연관 규칙의 단계적 추출 장치는 아이 함수(313)로부터의 크로스오버 함수(312)를 다시 호출할 수 있다.

집합 L의 두 요소를 구성하는 아이템 집합들인 {i5}와 {i6}이 반환되며, 아이 함수(313)에 의해 {i1, i3, i4, i5}와 {i1, i3, i4, i6}이 사용자에게 전달될 수 있다.

또한, 추가적인 아이 함수(313) 호출은 그 결과가 공집합이므로, 증식 알고리즘(310)은 종료할 수 있다.

예를 들어, 결론 집합은 유의미한 결론의 집합을 포함할 수 있다.

도 4는 본 발명의 일실시예에 따른 시조 함수(progenitorsGen function)의 알고리즘을 설명하는 도면이다.

구체적으로, 도 4는 시조 함수의 알고리즘을 유사 부호(pseudo code)로 나타내는 것을 예시한다.

도 4를 참고 하면, 시조(progenitorsGen) 함수(400)는 정합 논리식

를 만족하는 충분한 수의 트랜잭션 집합을 Y로, Y의 트랜잭션들이 공유하는 아이템(

에 등장하는 아이템 제외)을 X로 하는 유충들을 생성한 후, 이를 매개변수로하여, 크로스오버(crossover) 함수를 호출할 수 있다.

시조 함수(400)는 구문(410)에서 매개변수로 입력받는다.

또한, 시조 함수(400)는 구문(420)에서 최소 지지도(minisup)와 최소 확신도(miniconf)에 대한 조건을 if문을 이용하여 입력받고, for문에 기반하여 반복 한다.

또한, 시조 함수(400)는 구문(430)에서 return문을 이용하여 크로스오버(crossover) 함수를 호출할 수 있다.

도 5는 본 발명의 일실시예에 따른 아이 함수(childrenGen function)의 알고리즘을 설명하는 도면이다.

도 5를 참고하면, 아이 함수(500)는 매개변수인 유의미한 결론 X에 등장하는 아이템들까지 제외한 후, 유충 집합을 생성, 이를 크로스 오버(crossover) 함수의 매개변수로 전달할 수 있다.

아이 함수(500)는 구문(510)에서 매개변수로 입력받고, 결론 X를 출력할 수 있다.

또한, 아이 함수(500)는 구문(520)에서 최소 지지도(minisup)와 최소 확신도(miniconf)에 대한 조건을 if문을 이용하여 입력받고, for문에 기반하여 반복 한다.

또한, 아이 함수(500)는 구문(530)에서 크로스 오버(crossover) 함수의 매개변수로 전달할 수 있다.

또한, 아이 함수(500)는 구문(540)에서 결론 X에 등장하는 아이템들을 제외할 수 있다.

또한, 아이 함수(500)는 구문(550)에서 return 함수를 이용하여 결과를 C로 호출할 수 있다.

여기서, 결과 C는 도 1, 도 8 그리고 도 9에서 설명하는 결론 집합에 상응할 수 있다.

도 6은 본 발명의 일실시예에 따른 크로스오버 함수(crossover function)의 알고리즘을 설명하는 도면이다.

도 6을 참고하면, 크로스오버(crossover) 함수(600)는 앞서 설명된 크로스오버(crossover) 함수(600)의 핵심 원리에 따라, 주어진 매개변수인 유충 집합 내의 유충들의 트랜잭션 집합 비교를 통해 유충들을 성숙시키거나 제외함으로써, 결론 집합을 생성해낼 수 있다.

크로스오버 함수(600)는 구문(610)에서 매개변수로 입력받고, 결론 집합을 출력할 수 있다.

또한, 크로스오버 함수(600)는 구문(620)에서 if문을 이용하여 연산 조건을 입력받고, for문에 기반하여 반복될 수 있다.

또한, 크로스오버 함수(600)는 구문(630)에서 결론 X와 C를 결합할 수 있다.

또한, 크로스오버 함수(600)는 구문(640)에서 return 함수를 이용하여 결과를 C로서 호출할 수 있다.

도 7은 본 발명의 일실시예에 따른 탑 크로스오버 함수(topKcrossover function)의 알고리즘을 설명하는 도면이다.

도 7은 도 6의 설명에 따른 크로스오버 함수의 변형된 버전으로서 탑 크로스오버 함수(700)의 알고리즘을 설명한다.

탑 크로스오버 함수(700)는 사용자로부터 입력 받은 양의 정수 k를 기반으로, 지지도 및 확신도가 가장 높은 k개의 유의미한 결론 리스트 추출을 지원할 수 있다.

탑 크로스오버 함수(700)는 구문(710)에서 매개변수로 입력받고, 결론 집합을 출력할 수 있다.

또한, 탑 크로스오버 함수(700)는 구문(720) 및 구문(730)에서 if문을 이용하여 연산 조건을 입력받고, for문에 기반하여 반복될 수 있다.

또한, 탑 크로스오버 함수(700)는 구문(730)에서 결론 X와 C를 결합할 수 있다.

또한, 탑 크로스오버 함수(700)는 구문(740)에서 return 함수를 이용하여 결과를 C로서 호출할 수 있다.

도 3 내지 도 7에 대한 설명에 따르면, 본 발명은 사용자의 특성 혹은 성향이 기술되는 연관 규칙의 전제 형식을 정합 논리식으로 일반화하여, 연관 규칙 활용 영역 및 시나리오에 적합한 임의의 표현식을 지원할 수 있다.

또한, 본 발명은 연관 규칙 전제를 정합 논리식으로 일반화하고, 일반화된 전제에 부합하는 결론을 표현 및 추출하기 위한 모델과 알고리즘을 각각 개발할 수 있다.

도 8은 본 발명의 일실시예에 따른 연관 규칙의 단계적 추출 방법과 관련된 흐름도를 설명하는 도면이다.

도 8을 참고하면, 단계(801)에서 연관 규칙의 단계적 추출 방법은 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙을 결정할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정할 수 있다.

단계(802)에서 연관 규칙의 단계적 추출 방법은 증식 알고리즘을 이용하여 정합 논리식에 부합하는 계보를 단계적으로 추출할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 단계(801)에서 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출할 수 있다.

단계(803)에서 연관 규칙의 단계적 추출 방법은 부모-자식 관계를 나타내는 계보 모델을 생성할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 단계(802)에서 단계적으로 추출된 계보(Genealogy)에 기초하여 단계(801)에서 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성할 수 있다.

도 9는 본 발명의 일실시예에 따른 연관 규칙의 단계적 추출 방법과 관련된 흐름도를 설명하는 도면이다.

도 9를 참고하면, 단계(901)에서 연관 규칙의 단계적 추출 방법은 매개변수를 입력받을 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 사용자로부터 매개변수를 입력 받을 수 있다. 여기서, 매개변수는 데이터베이스의 데이터, 정합 논리식 형태의 전제, 최소 지지도 및 최소 확신도를 포함할 수 있다.

단계(902)에서 연관 규칙의 단계적 추출 방법은 매개변수 기반의 유충 집합을 생성할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 데이터베이스의 데이터, 정합 논리식 형태의 전제, 최소 지지도 및 최소 확신도에 부합하는 아이템 집합과 트랜잭션 집합의 결합 쌍으로 구성된 유충 집합을 생성할 수 있다.

단계(903)에서 연관 규칙의 단계적 추출 방법은 유충 집합으로부터 결론 집합을 도출할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 유충 집합으로부터, 주어진 전제 조건에 부합하는 결론 집합을 추출할 수 있다.

단계(904)에서 연관 규칙의 단계적 추출 방법은 결론 집합과 공집합의 일치 여부를 판단할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 단계(903)에서 도출된 결론 집합이 공집합인지 여부를 판단하여 단계(905)로 진행하거나, 해당 절차를 종료할 수 있다.

단계(905)에서 연관 규칙의 단계적 추출 방법은 결론 집합을 추천할 수 있다.

즉, 연관 규칙의 단계적 추출 방법은 사용자에게 추출된 결론 집합을 제공하고, 제공된 결론 집합 중 사용자가 관심 있는 결론이 존재한다면, 선택된 결론의 자식 결론 집합을 다시 추출하여 사용자에게 제공하거나, 사용자의 선택을 받은 결론이 존재하지 않을 경우, 해당 절차를 종료할 수 있다.

본 발명의 다른 실시예에 따르면 연관 규칙의 단계적 추출 방법은 결론 집합이 공집합이거나 결론 집합 중 사용자의 선택을 받은 결론이 존재하지 않을 경우, 단계(902)로 진행하여 재귀적으로 동작할 수 있다.

더하여, 본 발명의 산출물인 계보 모델과 증식 알고리즘은, 의료, 경영, 컴퓨터 공학 등과 같은 특정 분야에 특화된 방법론이 아닌, 특정 개체들로부터 생성된 데이터 간의 연관 관계(Associated relation)가 유의미한 효과를 낼 수 있는 모든 분야에서 적용 가능하다 할 수 있다.

특히, 정합 논리식 형태로 일반화된 전제에 부합하는 유의미한 결론은, 다양한 시나리오 혹은 상황에서 긍정적인 효과를 나타낼 수 있다.

또한, 부모-자식 관계를 기반한 단계적인 결론 추출과, 나아가 최상위 k개의 자식을 추출하는 알고리즘은, 대용량 데이터베이스로부터 합리적인 시간 내에 결론을 추출하여 사용자에게 제공할 수 있을 것으로 예상할 수 있다.

또한, 본 발명은 매개변수에 대해 동적인 연관 규칙을 단계적으로 추출할 수 있고, 데이터베이스로부터 즉각적으로 연관 규칙을 추출할 수 있으며, 정합 논리식으로 표현된 모든 전제에 대하여 연관 규칙을 추출할 수 있다.

따라서, 본 발명은 연관 규칙 저장을 위한 별도의 저장 공간 불필요하고, 데이터베이스 업데이트 시에 효율적인 대응이 가능하며, 도메인 전문가가 필요로 하는 다양한 형식의 전제 활용이 가능할 수 있다.

본 발명의 청구항 또는 명세서에 기재된 실시예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.

그러한 소프트웨어는 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 컴퓨터 판독 가능 저장 매체는, 적어도 하나의 프로그램(소프트웨어 모듈), 전자 장치에서 적어도 하나의 프로세서에 의해 실행될 때 전자 장치가 본 발명의 방법을 실시하게 하는 명령어들(instructions)을 포함하는 적어도 하나의 프로그램을 저장할 수 있다.

이러한 소프트웨어는, 휘발성(volatile) 또는 (ROM: Read Only Memory)과 같은 불휘발성(non-volatile) 저장장치의 형태로, 또는 램(RAM: random access memory), 메모리 칩(memory chips), 장치 또는 집적 회로(integrated circuits)와 같은 메모리의 형태로, 또는 컴팩트 디스크 롬(CD-ROM: Compact Disc-ROM), 디지털 다목적 디스크(DVDs: Digital Versatile Discs), 자기 디스크(magnetic disk) 또는 자기 테이프(magnetic tape) 등과 같은 광학 또는 자기적 판독 가능 매체에, 저장될 수 있다.

저장 장치 및 저장 미디어는, 실행될 때 일실시예들을 구현하는 명령어들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적절한 기계-판독 가능 저장 수단의 실시예들이다.

상술한 구체적인 실시예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다.

그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.

한편 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 다양한 실시예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.

그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 할 수 있다.

100: 연관 규칙의 단계적 추출 장치 110: 결정부
120: 추출부 130: 모델 생성 처리부

Claims

입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정하는 결정부;
상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 추출부; 및
상기 단계적으로 추출된 계보(Genealogy)에 기초하여 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성하는 모델 생성 처리부를 포함하는
연관 규칙의 단계적 추출 장치.
제1항에 있어서,
상기 추출부는 상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하고, 상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하며, 사용자에게 상기 도출된 결론 집합을 추천하고, 상기 추천된 결론 집합을 상기 정합 논리식(well-formed formula)에 부합하는 상기 계보(Genealogy)로 추출하는
연관 규칙의 단계적 추출 장치.
제2항에 있어서,
상기 추출부는 상기 임계값에 상응하는 트랜잭션 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 수를 비교하고, 상기 임계값에 상응하는 아이템 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 아이템 집합의 수를 비교하여 상기 임계값 이상의 결론 집합을 도출하는
연관 규칙의 단계적 추출 장치.
제2항에 있어서,
상기 추출부는 상기 정합 논리식(well-formed formula)에 부합하는 복수의 트랜잭션 집합과 상기 복수의 트랜잭션 집합이 상호간에 공유하는 아이템 집합에 기반하여 상기 유충(Larva) 집합을 생성하는
연관 규칙의 단계적 추출 장치.
제4항에 있어서,
상기 추출부는 상기 도출된 결론 집합에 포함된 아이템들을 상기 아이템 집합에서 제외하고, 추가 유충(Larva) 집합을 생성하는
연관 규칙의 단계적 추출 장치.
제2항에 있어서,
상기 추출부는 상기 매개변수 중 지지도(support) 또는 확신도(confidence) 중 적어도 하나에 기반하여 양의 정수의 결론 집합을 도출하는
연관 규칙의 단계적 추출 장치.
제2항에 있어서,
상기 추출부는 상기 결론 집합을 구성하는 원소 중에서 부모(parent) 원소를 포함하지 않는 집합을 시조(Progenitor) 계보로 추출하고, 상기 결론 집합을 구성하는 원소 중에서 상기 부모(parent) 원소를 포함하는 집합을 자식(Progenitor) 계보로 추출하는
연관 규칙의 단계적 추출 장치.
제1항에 있어서,
상기 매개변수는 상기 데이터베이스, 정합 논리식(well-formed formula) 형태의 전제, 최소 지지도(minimum support) 또는 최소 확신도(minimum confidence) 중 적어도 하나를 포함하는
연관 규칙의 단계적 추출 장치.
제1항에 있어서,
상기 증식 알고리즘(propagation)은 결론 집합들을 전달하는 시조(progenitorsGen) 함수, 사용자에 의해 선택된 결론 집합을 하위로 제공하는 아이(childrenGen) 함수, 연산을 통해 상기 결론 집합들을 직접적으로 산출하는 크로스오버(crossover) 함수 중 적어도 하나를 포함하는
연관 규칙의 단계적 추출 장치.
제1항에 있어서,
상기 하이퍼 연관 규칙(hyper association rule)은 전제와 결론을 포함하고,
상기 전제는 트랜잭션 집합으로 사상(mapping)하는 함수를 포함하며,
상기 결론은 아이템 집합으로 사상(mapping)하는 함수를 포함하는
연관 규칙의 단계적 추출 장치.
제1항에 있어서,
상기 계보 모델은 상기 매개 변수에 대한 결론 집합들을 구성하는 원소 간의 부분 순서 관계를 포함하는
연관 규칙의 단계적 추출 장치.
결정부에서, 입력된 매개변수의 연관 규칙 전제 형식을 정합 논리식(well-formed formula)으로 일반화하여 데이터베이스에 대한 적어도 하나의 하이퍼 연관 규칙(hyper association rule)을 결정하는 단계;
추출부에서, 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule)에 대하여 증식 알고리즘(propagation)을 이용하여 상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 단계; 및
모델 생성 처리부에서, 상기 단계적으로 추출된 계보(Genealogy)에 기초하여 상기 결정된 적어도 하나의 하이퍼 연관 규칙(hyper association rule) 간의 부모-자식 관계를 나타내는 계보 모델을 생성하는 단계를 포함하는
연관 규칙의 단계적 추출 방법.
제12항에 있어서,
상기 정합 논리식(well-formed formula)에 부합하는 계보(Genealogy)를 단계적으로 추출하는 단계는,
상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하는 단계;
상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계;
사용자에게 상기 도출된 결론 집합을 추천하는 단계; 및
상기 추천된 결론 집합을 상기 정합 논리식(well-formed formula)에 부합하는 상기 계보(Genealogy)로 추출하는 단계를 포함하는
연관 규칙의 단계적 추출 방법.
제13항에 있어서,
상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계는,
상기 임계값에 상응하는 트랜잭션 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 수를 비교하고, 상기 임계값에 상응하는 아이템 집합의 수와 상기 적어도 하나 이상의 유충(Larva) 집합의 아이템 집합의 수를 비교하여 상기 임계값 이상의 결론 집합을 도출하는 단계를 포함하는
연관 규칙의 단계적 추출 방법.
제13항에 있어서,
상기 매개변수에 기반한 적어도 하나 이상의 유충(Larva) 집합을 생성하는 단계는,
상기 정합 논리식(well-formed formula)에 부합하는 복수의 트랜잭션 집합과 상기 복수의 트랜잭션 집합이 상호간에 공유하는 아이템 집합에 기반하여 상기 유충(Larva) 집합을 생성하는 단계; 및
상기 도출된 결론 집합에 포함된 아이템들을 상기 아이템 집합에서 제외하고, 추가 유충(Larva) 집합을 생성하는 단계를 포함하는
연관 규칙의 단계적 추출 방법.
제13항에 있어서,
상기 생성된 적어도 하나 이상의 유충(Larva) 집합 중 임계값 이상의 결론 집합을 도출하는 단계는,
상기 매개변수 중 지지도(support) 또는 확신도(confidence) 중 적어도 하나에 기반하여 양의 정수의 결론 집합을 도출하는 단계를 포함하는
연관 규칙의 단계적 추출 방법.