KR101824928B1

KR101824928B1 - 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치

Info

Publication number: KR101824928B1
Application number: KR1020160088242A
Authority: KR
Inventors: 윤은일; 이강인; 양흥모; 김동규; 정우성; 이주대
Original assignee: 세종대학교 산학협력단
Priority date: 2016-07-12
Filing date: 2016-07-12
Publication date: 2018-02-02
Also published as: KR20180007248A

Abstract

불확실 가중화 빈발 아이템을 마이닝하는 방법은 불확실 가중화 빈발 아이템 마이닝 장치에서 수행된다. 상기 방법은 (a) 불확실 데이터베이스 내 불확실 데이터와 아이템에 대한 지지도 정보를 스캔하는 단계, (b) 상기 스캔된 정보를 기초로 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출하는 단계, (c) 상기 추출된 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축하여 불확실 가중화 빈발 아이템 트리를 생성하는 단계 및 (d) 상기 구축된 불확실 가중화 빈발 아이템 트리 자료구조를 이용하여 불확실 가중화 빈발 아이템셋을 추출하는 단계를 포함한다.

Description

다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치{METHOD FOR FREQUENT ITEMSET MINING FROM UNCERTAIN DATA WITH DIFFERENT ITEM IMPORTANCE AND UNCERTAIN WEIGHTED FREQUENT ITEM MINING APPARATUS PERFORMING THE SAME}

본 발명은 불확실 가중화 빈발 아이템 마이닝 기술에 관한 것으로, 보다 상세하게는 아이템 각각에 대한 존재확률(Existential probability) 정보와 고유의 중요도 정보를 고려하여 불확실 가중화 빈발 아이템을 마이닝할 수 있는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치에 관한 것이다.

종래의 빈발 패턴 마이닝 기술은 다양한 데이터로부터 사용자에 의해 설정된 최소 지지도 임계값 이상으로 빈번하게 발생하는 아이템 및 아이템 집합 또는 패턴을 추출한다. 종래의 빈발 패턴 마이닝 기술은 오직 다양한 형태와 특성을 가지는 데이터의 빈발한 정도만을 마이닝 요소로 설정하여 이용한다. 즉, 종래의 빈발 패턴 마이닝 기술은 아이템의 지지도 정보 외에 아이템의 존재확률 특성이나 고유의 중요도 정보와 같은 요소들을 고려하지 못하는 문제점을 가지고 있다.

한편, 종래의 빈발 패턴 마이닝 기술은 불확실 데이터에 대한 마이닝 방법을 제시하였으나, 이러한 종래 기술은 아이템 고유의 중요도 또는 가중치 요소를 마이닝 과정에 적용하지 못하고 결과를 도출하기 때문에 의미가 없거나 또는 불필요한 패턴 결과를 추출하는 과정에서 마이닝 성능과 마이닝 결과의 분석 능력이 저하될 수 있다.

한국등록특허 제10-1376444호는 데이터 스트림에서 가중치를 고려하여 하향식으로 트리를 탐색하는 패턴 마이닝 방법에 관한 것으로, 데이터 스트림이 가중치 내림차순으로 정렬된 트랜잭션을 가중치 패턴 트리에 삽입하고, 가중치 패턴 트리를 하향식으로 탐색하여 빈발 패턴을 추출하는 기술을 개시한다.

한국공개특허 제10-2012-0136677호는 가중치 지지도에 기반한 데이터 스트림 빈발 패턴 추출 방법에 관한 것으로, 한 번의 스캔으로 데이터 스트림에서 최근의 유용한 빈발 패턴을 추출하고, 가중치를 갖는 항목들에 대하여 시간 변화에 따른 가변성을 고려하여 의미 있는 최근 정보를 제공하는 기술을 개시한다.

한국등록특허 제10-1376444호 (2014.03.13 등록) 한국공개특허 제10-2012-0136677호 (2012.12.20 공개)

본 발명의 일 실시예는 불확실 데이터베이스 내 아이템에 대한 존재확률 정보와 고유의 중요도 정보를 고려함으로써 전체적인 마이닝 연산의 효율성을 향상시키는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치를 제공하고자 한다.

본 발명의 일 실시예는 트리에 저장되는 아이템의 특성에 따라 다른 형태의 노드에 선별적으로 저장하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치를 제공하고자 한다.

본 발명의 일 실시예는 분할 정복 방식과 재귀적 호출 방법을 이용하여 불확실 가중화 빈발 아이템셋을 효과적으로 마이닝하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치를 제공하고자 한다.

실시예들 중에서, 불확실 가중화 빈발 아이템을 마이닝하는 방법은 불확실 가중화 빈발 아이템 마이닝 장치에서 수행된다. 상기 방법은 (a) 불확실 데이터베이스 내 불확실 데이터와 아이템에 대한 지지도 정보를 스캔하는 단계, (b) 상기 스캔된 정보를 기초로 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출하는 단계, (c) 상기 추출된 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축하여 불확실 가중화 빈발 아이템 트리를 생성하는 단계 및 (d) 상기 구축된 불확실 가중화 빈발 아이템 트리 자료구조를 이용하여 불확실 가중화 빈발 아이템셋을 추출하는 단계를 포함한다.

상기 (a) 단계는 상기 불확실 데이터베이스 첫 번째 스캔을 통해 스캔할 트랜잭션이 존재하는지 파악하여 상기 트랜잭션을 구성하는 아이템에 대한 지지도 정보를 누적시키는 단계를 포함할 수 있다. 상기 (a) 단계는 상기 불확실 데이터베이스 두 번째 스캔을 통해 상기 아이템을 저장할 빈 프리픽스 트리를 생성하는 단계를 더 포함할 수 있다. 상기 프리픽스 트리는 일반 노드와 테일 노드를 포함할 수 있다.

상기 (a) 단계는 상기 아이템의 존재확률(Existential probability) 정보와 아이템 고유의 중요도 정보를 파악하는 단계를 포함할 수 있다. 상기 (a) 단계는 상기 파악된 아이템의 존재확률 정보를 기초로 아이템에 대한 기대 지지도 정보를 상기 불확실 데이터베이스에 갱신하는 단계를 더 포함할 수 있다. 상기 아이템 고유의 중요도 정보는 아이템의 종류에 따라 고정되어 설정되고, 상기 아이템의 존재확률 정보는 아이템을 포함하는 트랜잭션에 따라 상이하게 설정될 수 있다.

상기 (b) 단계는 상기 과추정 제약조건을 만족하지 못하는 상기 불확실 가중화 빈발 아이템을 삭제하는 단계를 포함할 수 있다. 상기 (b) 단계는 상기 추출된 불확실 가중화 빈발 아이템에 대한 지지도 내림차순 정보를 파악하는 단계를 포함할 수 있다.

상기 (b) 단계는 상기 파악된 지지도 내림차순 정보에 포함되지 않는 상기 불확실 가중화 빈발 아이템을 삭제하고, 남은 유효한 불확실 가중화 빈발 아이템을 내림차순으로 정렬하는 단계를 더 포함할 수 있다. 상기 과추정 제약조건은 사용자에 의해 설정된 최소 지지도 임계값에 해당할 수 있다.

상기 (c) 단계는 상기 불확실 가중화 빈발 아이템의 특성에 따라 다른 형태의 노드에 선별적으로 저장하는 단계를 포함할 수 있다.

상기 (d) 단계는 재귀적 지역 트리 생성 방식을 이용하여 상기 불확실 가중화 빈발 아이템셋을 추출하는 단계를 포함할 수 있다.

실시예들 중에서, 불확실 가중화 빈발 아이템 마이닝 장치는 불확실 데이터베이스 내 불확실 데이터와 아이템에 대한 지지도 정보를 스캔하는 데이터 스캔부, 상기 스캔된 정보를 기초로 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출하는 불확실 가중화 빈발 아이템 추출부, 상기 추출된 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축하여 불확실 가중화 빈발 아이템 트리를 생성하는 트리 구축부 및 상기 구축된 불확실 가중화 빈발 아이템 트리 자료구조를 이용하여 불확실 가중화 빈발 아이템셋을 추출하는 불확실 가중화 빈발 아이템셋 마이닝부를 포함한다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치는 불확실 데이터베이스 내 아이템에 대한 존재확률 정보와 고유의 중요도 정보를 고려함으로써 전체적인 마이닝 연산의 효율성을 향상시킬 수 있다.

본 발명의 일 실시예에 따른 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치는 트리에 저장되는 아이템의 특성에 따라 다른 형태의 노드에 선별적으로 저장할 수 있다.

본 발명의 일 실시예에 따른 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치는 분할 정복 방식과 재귀적 호출 방법을 이용하여 불확실 가중화 빈발 아이템셋을 효과적으로 마이닝할 수 있다.

도 1은 본 발명의 일 실시예에 따른 불확실 가중화 빈발 아이템 마이닝 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치를 나타내는 블록도이다.
도 3은 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하는 과정을 설명하는 순서도이다.
도 4는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템셋 마이닝을 위한 불확실 데이터베이스의 예시를 나타내는 도면이다.
도 5는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템 트리 구축을 위한 첫 번째 데이터 스캔과정을 설명하는 순서도이다.
도 6은 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템 트리 구축을 위한 두 번째 데이터 스캔과정을 설명하는 순서도이다.
도 7은 도 6의 불확실 데이터베이스에 대한 두 번째 데이터 스캔과정을 수행하는 과정에서 도출되는 확률 리스트 정보를 나타내는 도면이다.
도 8은 도 4의 불확실 데이터베이스에 대해 사용자로부터 설정된 최소 지지도 임계값이 2일 때 구축될 수 있는 불확실 가중화 빈발 아이템 트리를 나타내는 도면이다.
도 9는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템셋 마이닝을 위한 재귀적 지역 트리를 생성하는 과정을 설명하는 순서도이다.
도 10은 설정된 프리픽스 트리의 아이템 C에 대한 지역 트리 구축과정을 나타내는 도면이다.
도 11은 불확실 가중화 빈발 아이템 마이닝 알고리즘을 나타내는 도면이고, 도 12는 불확실 가중화 빈발 아이템셋 마이닝 알고리즘을 나타내는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명의 일 실시예에 따른 불확실 가중화 빈발 아이템 마이닝 시스템을 설명하는 도면이다.

도 1을 참조하면, 불확실 가중화 빈발 아이템 마이닝 시스템(10)은 사용자 단말(100) 및 불확실 가중화 빈발 아이템 마이닝 장치(200)를 포함하고, 이들은 네트워크를 통해 연결될 수 있다.

사용자 단말(100)은 사용자 제어에 의해 불확실 가중화 빈발 아이템 마이닝 장치(200)에 접속하여 불확실 가중화 빈발 아이템 마이닝을 요청할 수 있다. 사용자 단말(100)은 불확실 가중화 빈발 아이템 마이닝 장치(200)에서 제공된 불확실 가중화 빈발 아이템셋 마이닝 결과 정보를 디스플레이 할 수 있다. 사용자 단말(100)은 데스크톱, 노트북, 태블릿 PC 또는 스마트폰으로 구현될 수 있다.

불확실 가중화 빈발 아이템 마이닝 장치(200)는 트랜잭션을 구성하는 아이템 각각에 대한 존재확률(existential probability) 정보와 고유의 중요도 정보를 저장해둔 불확실 데이터베이스(미도시됨)와 연동될 수 있고, 사용자 단말(100)과 연결되어 불확실 가중화 빈발 아이템 마이닝을 수행할 수 있다. 불확실 가중화 빈발 아이템 마이닝 장치(200)는 불확실 가중화 빈발 아이템셋 마이닝 결과 정보를 사용자에게 제공할 수 있다.

도 2는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치를 나타내는 블록도이다.

도 2를 참조하면, 불확실 가중화 빈발 아이템 마이닝 장치(200)는 데이터 스캔부(210), 불확실 가중화 빈발 아이템 추출부(220), 트리 구축부(230), 불확실 가중화 빈발 아이템셋 마이닝부(240) 및 제어부(250)를 포함한다.

데이터 스캔부(210)는 불확실 데이터베이스와 연동하여 데이터를 두 번 스캔 할 수 있다. 데이터 스캔부(210)는 데이터 스캔과정을 통해 불확실 데이터베이스 내 트랜잭션을 구성하는 아이템 각각에 대한 존재확률 정보와 고유 중요도 정보를 파악할 수 있다. 또한, 데이터 스캔부(210)는 스캔과정에서 과추정 제약조건을 적용하여 아이템, 아이템 집합 또는 패턴의 손실 없이 마이닝을 수행할 수 있다.

불확실 가중화 빈발 아이템 추출부(220)는 데이터 스캔부(210)를 통해 적용된 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출할 수 있다. 여기에서, 과추정 제약조건은 사용자에 의해 설정된 최소 지지도 임계값에 해당할 수 있다. 불확실 가중화 빈발 아이템 추출부(220)는 추출된 불확실 가중화 빈발 아이템에 대한 정보와 해당 아이템에 대한 지지도 내림차순 정보를 파악할 수 있다.

트리 구축부(230)는 불확실 가중화 빈발 아이템 추출부(220)를 통해 파악된 불확실 가중화 빈발 아이템에 대한 지지도 내림차순 정보를 기초로 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축할 수 있다. 트리 구축부(230)는 구축된 트리에 불확실 가중화 빈발 아이템을 효율적으로 저장할 수 있다. 보다 구체적으로, 트리 구축부(230)는 불확실 가중화 빈발 아이템의 특성에 따라 다른 형태의 노드에 선별적으로 저장할 수 있다.

불확실 가중화 빈발 아이템셋 마이닝부(240)는 구축된 트리를 기반으로 한 재귀적 지역 트리 생성 방식을 통해 불확실 가중화 빈발 아이템셋을 추출할 수 있다. 보다 구체적으로, 불확실 가중화 빈발 아이템셋 마이닝부(240)는 불확실 가중화 빈발 아이템의 존재확률 정보와 고유의 중요도 정보를 고려하여 불확실 가중화 빈발 아이템셋을 추출할 수 있다. 불확실 가중화 빈발 아이템셋 마이닝부(240)는 불확실 가중화 빈발 아이템셋 마이닝 결과를 사용자 단말(100)을 통해 사용자에게 제공할 수 있다.

제어부(250)는 불확실 가중화 빈발 아이템 마이닝 장치(200)의 전체적인 동작을 제어하고, 데이터 스캔부(210), 불확실 가중화 빈발 아이템 추출부(220), 트리 구축부(230) 및 불확실 가중화 빈발 아이템셋 마이닝부(240) 간의 제어 흐름 또는 데이터 흐름을 제어할 수 있다.

도 3은 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하는 과정을 설명하는 순서도이다.

도 3을 참조하면, 데이터 스캔부(210)는 불확실 데이터베이스를 스캔 할 수 있다(단계 S310). 보다 구체적으로, 데이터 스캔부(210)는 불확실 데이터베이스를 구성하는 트랜잭션 각각의 아이템에 대한 존재확률 정보와 아이템 고유의 중요도 정보를 스캔 할 수 있다. 여기에서, 아이템 고유의 중요도 정보는 아이템의 가중치 정보를 포함할 수 있다. 일 실시예에서, 데이터 스캔부(210)는 스캔과정에서 아이템, 아이템 집합 또는 패턴의 손실 없이 마이닝을 수행하기 위해 과추정 제약조건을 적용할 수 있다.

불확실 가중화 빈발 아이템 추출부(220)는 데이터 스캔부(210)를 통해 적용된 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 선별하여 추출할 수 있다(단계 S320). 불확실 가중화 빈발 아이템 추출부(220)는 선별된 아이템들의 정보와 아이템들에 대한 지지도 내림차순 정보를 파악할 수 있다.

트리 구축부(230)는 불확실 가중화 빈발 아이템에 대한 지지도 내림차순 정보를 기초로 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축할 수 있다(단계 S330). 트리 구축부(230)는 구축된 트리 자료구조를 통해 불확실 가중화 빈발 아이템 트리를 획득할 수 있다(단계 S340).

불확실 가중화 빈발 아이템셋 마이닝부(240)는 불확실 가중화 빈발 아이템 트리를 기준으로 하여 재귀적 지역 트리 생성 방식을 통해 불확실 가중화 빈발 아이템셋을 추출할 수 있다(단계 S350). 보다 구체적으로, 불확실 가중화 빈발 아이템셋 마이닝부(240)는 아이템의 존재확률 정보와 고유의 중요도 정보를 고려하여 불확실 가중화 빈발 아이템셋을 추출할 수 있다. 불확실 가중화 빈발 아이템셋 마이닝부(240)는 추출된 불확실 가중화 빈발 아이템셋 결과를 획득하여 사용자에게 제공할 수 있다(단계 S360).

도 4는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템셋 마이닝을 위한 불확실 데이터베이스의 예시를 나타내는 도면이다.

도 4를 참조하면, 불확실 데이터베이스는 해당 데이터베이스를 구성하는 트랜잭션을 구분하기 위한 구분자(TID)(410), 각각의 트랜잭션에 포함되는 아이템(420), 아이템의 존재확률 정보(430) 및 아이템의 중요도 정보(440)를 포함할 수 있다. 여기에서, 아이템의 중요도 정보(440)는 아이템의 종류에 따라 고정되어 설정될 수 있고, 아이템의 존재확률 정보(430)는 해당 아이템을 포함하는 트랜잭션에 따라 상이하게 설정될 수 있다.

불확실 데이터베이스 내 트랜잭션은 서로 간에 중복된 아이템의 존재확률 정보(430)를 포함하고, 불확실 데이터베이스의 아이템은 서로 다른 존재확률 값을 포함한다. 불확실 가중화 빈발 아이템 마이닝 장치(200)는 불확실 데이터베이스 내 아이템을 효과적으로 저장하기 위해 아래의 특징들을 가지는 불확실 가중화 빈발 아이템 트리의 자료구조를 제안한다.

불확실 가중화 빈발 아이템 트리는 주어진 불확실 데이터베이스 UDB = {T1, T2, …, Tn} 와 불확실 데이터베이스의 가중치 정보 W = {w1, w2, …, wm}를 저장한다. 불확실 가중화 빈발 아이템 트리는 마이닝에 필요한 필수 데이터를 저장하는 하나의 헤더 테이블과 불확실 데이터베이스의 실제 아이템 정보를 저장하는 루트 트리로 구성된다. 헤더 테이블은 Item, ExpSup, Support, Weight, and Node link로 구성된다. 여기에서, 루트 트리는 하나의 루트 노드와 다수의 일반 노드들로 구성될 수 있고, 일반 노드는 하나의 아이템 레이블을 갖는다.

불확실 데이터베이스와 가중치 정보들은 불확실 가중화 빈발 아이템 트리에 저장된다. 보다 구체적으로, 먼저, 아이템들의 ExpSup과 Support 정보를 파악하기 위해 불확실 데이터베이스를 한 번 스캔 한다. ExpSup과 MaxW를 곱한 것이 주어진 최소 지지도 임계값(MinSup)보다 작은 아이템들을 불확실 데이터베이스로부터 제거할 수 있고, 여기에서, MaxW는 가중치 정보의 가중치 중 가장 큰 값을 의미한다. 불확실 가중화 빈발 아이템 트리의 헤더 테이블을 생성하고, 불확실 데이터베이스를 한번 더 스캔 한다. 여기에서, 각 트랜잭션의 아이템들은 지지도 내림차순으로 정렬되고 유효하지 않은 아이템들이 삭제된 후에 불확실 가중화 빈발 아이템 트리의 루트 트리에 순차적으로 삽입된다. 마지막으로 각 아이템을 삽일할 때마다 적절할 노드 링크를 연결한다.

제안된 불확실 가중화 빈발 아이템 트리는 각 노드가 1의 지지도 외에도 서로 다른 ExpSup 값을 가짐으로써 효율적으로 마이닝하기 위해 불확실 가중화 빈발 아이템 트리에 삽입되는 각 트랜잭션의 맨 끝 노드를 테일 노드에 삽입한다.

불확실 가중화 빈발 아이템 트리의 각각의 테일 노드는 하나의 불확실 가중화 빈발 아이템 코드가 연결되고, 불확실 가중화 빈발 아이템 코드는 하나ㅏ 이상의 구분자(TID) 정보를 저장한다. 즉, 임의의 테일 노드(N)와 불확실 데이터베이스(UDB)의 트랜잭션 수(K)가 주어지면 테일 노드의 불확실 가중화 빈발 아이템 코드는 테일 노드를 포함하는 트랜잭션들의 구분자들(TIDs)의 집합(N.L_TID)을 저장하고, 여기에서, 트랜잭션들의 구분자 집합 N.L_TID = {TID1, TID2, …, TIDi} (1 ≤≤ # of TIDs ≤≤ k)이다. 각 구분자(TID)에 해당하는 트랜잭션을 참조함으로써 불확실 가중화 빈발 아이템 트리의 모든 노드에 아이템들의 존재확률 정보를 저장하지 않고도 해당 존재확률 정보를 알 수 있다.

테일 노드는 가장 적은 수의 연산으로 불확실 가중화 빈발 아이템 트리 내 노드들의 존재확률 정보를 구별할 수 있는 식별자이다.

도 5는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템 트리 구축을 위한 첫 번째 데이터 스캔과정을 설명하는 순서도이다.

도 5를 참조하면, 데이터 스캔부(210)는 불확실 데이터베이스에 대한 첫 번째 스캔과정을 수행할 수 있고(단계 S510), 스캔할 트랜잭션이 존재하는지 파악할 수 있다(단계 S520). 데이터 스캔부(210)는 스캔할 트랜잭션이 존재한다면 해당 트랜잭션을 구성하는 각각의 아이템에 대해 지지도 정보를 누적시킬 수 있고(단계 S530), 각각의 아이템에 대한 존재확률 정보를 파악하여 기대 지지도 정보를 지속적으로 불확실 데이터베이스에 갱신할 수 있다(단계 S540). 일 실시예에서, 데이터 스캔부(210)는 스캔할 트랜잭션이 존재하지 않을 때까지 데이터 스캔을 수행하여 불확실 데이터베이스에 대한 각각의 아이템의 존재확률 정보를 파악할 수 있다.

데이터 스캔부(210)는 스캔할 트랜잭션이 존재하지 않는다면 사용자에 의해 설정된 과추정 제약조건, 즉, 최소 지지도 임계값을 만족하지 못하는 아이템을 파악하여 아이템을 삭제할 수 있다(단계 S550). 데이터 스캔부(210)는 아이템을 삭제한 후에 남은 유효한 아이템들을 대상으로 지지도 내림차순 정보를 파악할 수 있다(단계 S560).

데이터 스캔부(210)는 유효한 불확실 가중화 빈발 아이템들의 지지도 내림차순 정보까지 파악되면 불확실 데이터베이스의 특성을 모두 파악할 수 있고, 여기에서, 특성은 불확실 데이터베이스를 구성하는 아이템들에 대한 지지도, 기대 지지도 및 정렬 순서가 해당할 수 있다. 일 실시예에서, 데이터 스캔부(210)는 불확실 데이터베이스의 특성 정보를 기반으로 구축할 트리 자료구조의 헤더 테이블을 먼저 구축할 수 있다(단계 S570).

도 6은 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템 트리 구축을 위한 두 번째 데이터 스캔과정을 설명하는 순서도이다.

도 6을 참조하면, 데이터 스캔부(210)는 불확실 데이터베이스에 대한 첫 번째 데이터 스캔과정을 수행한 후에 두 번째 데이터 스캔과정을 수행할 수 있고(단계 S610), 트리 구축부(230)는 불확실 데이터베이스 내 아이템들을 저장할 빈 프리픽스 트리를 생성할 수 있다(단계 S620).

데이터 스캔부(210)는 첫 번째 데이터 스캔과정과 같이 스캔할 트랜잭션이 존재하는지 파악할 수 있고(단계 S630), 트랜잭션에 대해 첫 번째 데이터 스캔과정을 통해 파악된 유효한 아이템들의 지지도 내림차순 정보에 따라 해당 지지도 내림차순에 참여하지 않은 트랜잭션의 아이템들을 삭제할 수 있다(단계 S640). 일 실시예에서, 데이터 스캔부(210)는 기 파악한 지지도 내림차순 정보를 기초로 남은 트랜잭션의 아이템들을 정렬할 수 있고(단계 S650), 정렬된 트랜잭션의 아이템을 두 번째 데이터 스캔과정에서 생성한 빈 프리픽스 트리에 순차적으로 삽입할 수 있다(단계 S660).

데이터 스캔부(210)는 아이템 삽입 과정에서 새로운 노드가 생성되거나 기존 노드 정보 또는 노드 링크 정보가 갱신될 수 있고(단계 S670), 정렬된 트랜잭션의 마지막 아이템을 제외한 나머지 아이템들은 일반 노드에 삽입되거나 갱신될 수 있다. 여기에서, 마지막 아이템은 일반 노드가 아닌 테일 노드에 삽입되거나 갱신될 수 있고, 테일 노드는 추가적인 정보를 저장하는 다른 형태의 노드에 해당할 수 있다. 일 실시예에서, 데이터 스캔부(210)는 해당 트랜잭션 내 아이템의 존재확률 정보를 정리하여 저장하는 확률 리스트를 구축할 수 있고, 각각의 트랜잭션이 처리될 때마다 구축된 확률 리스트의 정보가 갱신될 수 있다.

데이터 스캔부(210)는 불확실 가중화 빈발 아이템 트리에 불확실 데이터베이스의 모든 정보를 저장하는 것은 비효율적이기 때문에 테일 노드에 필요한 최소한의 정보를 저장하고, 추가적인 사항은 구축된 확률 리스트를 참조하는 방식을 이용하여 마이닝의 효율성을 높일 수 있다. 또한, 데이터 스캔부(210)는 스캔할 트랜잭션이 존재하지 않는다면 완전한 불확실 가중화 빈발 아이템 트리를 획득할 수 있다(단계 S680).

도 7은 도 6의 불확실 데이터베이스에 대한 두 번째 데이터 스캔과정을 수행하는 과정에서 도출되는 확률 리스트 정보를 나타내는 도면이다.

도 7을 참조하면, 확률 리스트 정보는 도 4의 불확실 데이터베이스에 대해 사용자로부터 설정된 최소 지지도 임계값이 2일 때 구축될 수 있는 확률 리스트를 나타낸다.

확률 리스트는 트랜잭션 각각을 구별할 수 있는 구분자(710)와 각 트랜잭션 내에서 불필요한 아이템들을 삭제하고, 삭제되지 않고 남은 유효한 아이템들에 대해 지지도 내림차순으로 정렬한 후에 아이템 상태를 고려하여 확률 수치 데이터가 순차적으로 삽입된다. 확률 리스트의 아이템 각각의 이름은 불확실 가중화 빈발 아이템 트리의 저장 및 탐색의 효율성을 높이기 위해 인덱스 값으로 대체되어 표시된다(720).

보다 구체적으로, 불확실 데이터베이스의 첫 번째 스캔 과정 후에 아이템들의 지지도 내림차순 정보와 유효하지 않은 아이템들을 알 수 있다. 불확실 데이터베이스 내 각 트랜잭션마다 유효하지 않은 아이템들을 제거하고 지지도 내림차순으로 정렬한 결과를 저장함으로써 확률 리스트를 구축한다. 확률 리스트는 두 번째 스캔 과정을 통해 불확실 가중화 빈발 아이템 트리가 구축될 때 생성되고, 불확실 가중화 빈발 아이템 트리 내 각 노드의 존재확률 정보를 구별하기 위한 최소의 정보로 구성된다.

확률 리스트 내 각 구분자의 존재확률 정보에 해당하는 아이템의 인덱스 번호가 포함되고, 여기에서, 아이템의 인덱스 번호는 불확실 가중화 빈발 아이템 트리의 헤더 테이블 내 아이템 순서를 기초로 결정된다.

도 8은 도 4의 불확실 데이터베이스에 대해 사용자로부터 설정된 최소 지지도 임계값이 2일 때 구축될 수 있는 불확실 가중화 빈발 아이템 트리를 나타내는 도면이다.

도 8을 참조하면, 불확실 가중화 빈발 아이템 트리는 불확실 데이터베이스로부터 설정된 최소 지지도 임계값을 기준으로 생성된 데이터의 전체적인 특성 정보를 저장하는 헤더 테이블(810)과 불확실 데이터베이스 내 유효 아이템을 저장하는 프리픽스 트리(820)로 구성될 수 있다.

헤더 테이블(810)은 불확실 데이터베이스를 구성하는 유효 아이템에 대한 이름, 지지도, 기대 지지도, 가중치 정보, 노드 링크 정보를 포함할 수 있고, 여기에서, 노드 링크 정보는 구축된 프리픽스 트리(820)를 탐색할 때 같은 이름을 갖는 노드들을 선별하여 효율적으로 탐색할 수 있도록 하는 링크 데이터에 해당할 수 있다.

프리픽스 트리(820)는 일반 노드(830)와 테일 노드(840)를 포함할 수 있다. 보다 구체적으로, 일반 노드(830)는 저장되는 정렬된 트랜잭션에서 마지막 아이템을 제외한 나머지 아이템들을 저장하기 위해 사용되는 노드 형태이고, 최소한의 표현으로 불확실 데이터를 효과적으로 표현하기 위해 아이템의 이름 외에 별도의 정보는 저장하지 않는다. 테일 노드(840)는 일반 노드(830)에서 표현하지 않는 트랜잭션별 특성 정보를 구분하기 위해 사용되는 노드 형태이고, 아이템의 이름 외에 현재 테일 노드를 포함하는 경로의 구분자(TID) 정보를 추가로 저장한다. 일 실시예에서, 테일 노드(840)의 구분자(TID) 정보 내 인덱스 번호를 참조하여 확률 리스트에 저장된 아이템 별 존재확률 정보를 파악할 수 있다.

도 8에서 보이는 것과 같이, 불확실 데이터베이스의 첫 번째 스캔 과정을 후에는 아이템들의 ExpSup과 Support들은 {A: 5.3, 8}, {B: 6.0, 9}, {C: 4.8, 6}, {D: 5.7, 9}, {E 5.4, 8}, {F: 5.1, 8} and {G: 4.1, 8}와 같이 획득할 수 있다. 아이템들의 지지도 내림차순 정보와 인덱스 번호들은 {1:B, 2:D, 3:A, 4:E, 5:F, 6:G, 7:C}이다. 불확실 데이터베이스의 두 번째 스캔 과정에서 유효하지 않은 아이템을 제거하고 지지도 내림차순으로 정렬한 각 트랜잭션을 불확실 가중화 빈발 아이템 트리에 순차적으로 삽입될 수 있고, 확률 리스트도 생성될 수 있다.

불확실 가중화 빈발 아이템셋은 k개의 아이템들로 구성된 어떤 아이템셋 P {i1, i2, …, ik}가 주어지면 아이템셋 P를 구성하는 아이템들의 가중치들의 집합 WP는 WP = {w1, w2, …, wk}로 나타낸다.

불확실 가중화 빈발 아이템셋의 대표 가중치는 모든 가중치(W)의 평균 값 Avg(WP)으로 표시되면, 아래의 [수학식 1]과 같이 정의된다.

[수학식 1]

불확실 가중화 빈발 아이템셋 P의 Weighted ExpSup(WES)는 아래의 [수학식 2]와 같이 정의된다.

[수학식 2]

만약, WES(WP)가 사용자에 의해 주어진 최소 지지도 임계값(MinSup)보다 크거나 같다면 불확실 가중화 빈발 아이템셋 P는 유효한 불확실 가중화 빈발 아이템셋으로 결정된다.

불확실 데이터베이스에 포함되는 아이템들의 가중치 집합 W = {w1, w2, …, wk}가 주어지면 최대 가중치(Maximum weight) MaxW에는 Maximum({w1, w2, …, wk})에 해당하는 값이 할당된다.

[수학식 2]의 WES의 평균값을 최대 가중치로 대체한 과추정 제약조건(WESover) 계산 방법을 사용한다.

아이템 P에 대한 WESover(P)는 아래의 [수학식 3]과 같이 계산된다.

[수학식 3]

WESover는 어떠한 불확실 가중화 빈발 아이템을 손실하지 않는다.

도 9는 도 1에 있는 불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 불확실 가중화 빈발 아이템셋 마이닝을 위한 재귀적 지역 트리를 생성하는 과정을 설명하는 순서도이다.

도 9를 참조하면, 트리 구축부(230)는 헤더 테이블의 각 아이템을 상향식 순서에 프리픽스 트리에 설정할 수 있고(단계 S910), 분할 정복 방식 기반의 재귀적 호출 방법을 통해 지역 트리를 생성할 수 있다(단계 S920). 트리 구축부(230)는 지역 트리를 생성하는 과정을 반복함으로써 불확실 가중화 빈발 아이템셋을 마이닝할 수 있다.

트리 구축부(230)는 프리픽스 트리가 설정되면 헤더 테이블 내 노드 링크 정보를 통해 프리픽스 트리의 아이템과 관련된 경로 및 노드를 탐색할 수 있다(단계 S920). 트리 구축부(230)는 탐색과정을 통해 획득한 정보를 기초로 지역 트리 구축이 가능한지 여부를 판단할 수 있다(단계 S930).

트리 구축부(230)는 지역 트리 구축이 가능하다고 판단되면 도 6의 불확실 가중화 빈발 아이템 트리 구축을 위한 두 번째 데이터 스캔과정을 기초로 지역 트리를 구축할 수 있다(단계 S940). 트리 구축부(230)는 지역 트리를 생성하는 과정에서 지역 트리에 대한 헤더 테이블이 별도로 구축될 수 있고, 지역 트리에 참여하는 아이템들이 지역 트리의 프리픽스 트리 내 삽입될 수 있다. 보다 구체적으로, 트리 구축부(230)는 현재 프리픽스 트리의 아이템에 대한 지역 트리의 헤더 테이블 및 지역 트리 자료구조를 구축할 수 있다.

트리 구축부(230)는 지역 트리 구축이 완료되면 해당 지역 트리 내 헤더 테이블의 각 아이템을 상향식 순서에 따라 프리픽스 트리에 갱신할 수 있다(단계 S950). 트리 구축부(230)는 프리픽스 트리의 정보를 갱신한 후에 재귀적 호출 방법을 통해 지역 트리에 대한 지역 트리를 구축할 수 있다(단계 S960).

트리 구축부(230)는 현재 상태에 대한 분할 정복 방식 기반의 재귀적 호출을 모두 수행했는지 파악할 수 있고(단계 S970), 재귀적 호출을 완료하지 않았다면 프리픽스 트리에 설정하는 과정을 수행할 수 있다(단계 S910).

트리 구축부(230)는 재귀적 호출이 완료되면 처리할 헤더 테이블 내 아이템이 존재하는 여부를 파악할 수 있다(단계 S980). 일 실시예에서, 트리 구축부(230)는 처리할 아이템이 존재한다면 헤더 테이블의 각 아이템을 상향식 순서로 프리픽스 트리에 설정할 수 있다(단계 S910).

트리 구축부(230)는 재귀적 호출을 완료하고 처리할 헤더 테이블 내 아이템이 존재하지 않는다면 모든 필요한 마이닝 과정을 완료하였다는 것을 의미한다. 일 실시예에서, 트리 구축부(230)는 마이닝한 불확실 가중화 빈발 아이템셋 정보를 반환하고 마이닝 과정을 종료할 수 있다(단계 S990).

예를 들어, 불확실 가중화 빈발 아이템 트리의 헤더 테이블 내 각각의 아이템에 대해 지역 트리가 생성된다. 불확실 가중화 빈발 아이템 트리의 헤더 테이블 내 아이템들의 수가 k개라면 불확실 가중화 빈발 아이템 트리로부터 생성되는 지역 트리들은 T'1, T'2, …, T'k이다. 지역 트리는 하나의 헤더 테이블과 루트 트리를 포함하고, 재귀적으로 계속 생성될 수 있다.

지역 트리는 불확실 가중화 빈발 아이템들을 마이닝하기 위해 생성된 트리이기 때문에 불확실 가중화 빈발 아이템 트리에서 사용되는 불확실 가중화 빈발 아이템 코드의 정보 외에도 추가적인 정보들이 필요하다.

도 10은 설정된 프리픽스 트리의 아이템 C에 대한 지역 트리 구축과정을 나타내는 도면이다.

도 10을 참조하면, 지역 트리는 헤더 테이블(1010)과 실제 데이터를 저장하는 프리픽스 트리(1020)로 구성될 수 있고, 프리픽스 트리(1020)는 일반 노드(1030)와 테일 노드(1040)를 포함할 수 있다.

지역 트리의 테일 노드(1040)는 해당 테일 노드(1040)와 관련된 경로에 대한 아이템 인덱스 번호 정보와 누적된 존재확률 정보를 추가적으로 포함할 수 있고, 테일 노드(1040)의 정보를 활용하여 불확실 가중화 빈발 아이템셋 마이닝을 효과적으로 수행할 수 있다.

예를 들어, 도 10에서 보이는 것과 같이, 아이템 E의 테일 노드는 TID:080이고, 아이템 E의 테일 노드를 구성하는 아이템들의 인덱스는 1, 2, 6, 3 및 4이고 아이템 E의 테일 노드에 대한 축적된 프리픽스 트리의 존재확률 값은 0.9이다. 여기에서, 아이템 인덱스 번호는 불확실 가중화 빈발 아이템 트리의 헤더 테이블을 기초로 결정된다.

도 11은 불확실 가중화 빈발 아이템 마이닝 알고리즘을 나타내는 도면이다.

도 11을 참조하면, 불확실 가중화 빈발 아이템 마이닝 알고리즘은 불확실 가중화 빈발 아이템 마이닝을 위한 일련의 준비를 하고 불확실 가중화 빈발 아이템 트리 구축을 위한 최대 가중치를 계산하고(lines 1-2), 첫 번째 불확실 데이터베이스 스캔 과정을 통해 불확실 데이터베이스의 모든 아이템에 대한 존재확률 정보와 지지도 정보를 계산한다(lines 3-4). WESover (= ExpSup * MaxW) < MinSup인 every item을 표시하고(lines 5), 나머지 유효한 아이템들에 대해 지지도 내림차순을 계산하면(lines 6), 불확실 가중화 빈발 아이템 트리에 대한 헤더 테이블이 생성된다(lines 7).

두 번째 불확실 데이터베이스 스캔 과정을 통해 불확실 가중화 빈발 아이템 트리를 구축할 수 있다(lines 8-15). 보다 구체적으로, 불확실 가중화 빈발 아이템 트리 구축과정은 먼저, 불확실 데이터베이스의 각 트랜잭션에 대해 유효하지 않은 아이템들이 제거되고 남은 아이템들은 지지도 내림차순에 따라 정렬되고(lines 9-10), 정렬된 아이템들이 불확실 가중화 빈발 아이템 트리에 삽입되고 적절한 노드 링크들이 연결된다(lines 11-12).

마지막 아이템에 대해 테일 노드가 생성되고 해당 불확실 가중화 빈발 아이템 코드가 테일 노드를 참조하고(lines 13-14), 정렬된 아이템들의 존재확률 정보를 기초로 확률 리스트를 갱신한다(lines 15). 이러한 불확실 가중화 빈발 아이템 트리 구축 과정이 모든 트랜잭션에 대해 반복되면 완전한 불확실 가중화 빈발 아이템 트리를 생성할 수 있다.

도 12는 불확실 가중화 빈발 아이템셋 마이닝 알고리즘을 나타내는 도면이다.

도 12을 참조하면, 현재 불확실 가중화 빈발 아이템 트리의 헤더 테이블 각각의 아이템을 프리픽스 트리에 추가하고, 프리픽스 트리의 불확실 가중화 빈발 패턴 아이템 값이 주어진 최소 지지도 임계값보다 작지 않다면 해당 아이템을 결과값으로 출력한다(lines 2-4). 만약 프리픽스 트리가 불확실 가중화 빈발 아이템 트리라면 현재 처리되고 있는 아이템에 대한 최대 가중치를 다시 계산한다(lines 5-6).

첫 번째 불확실 가중화 빈발 아이템 트리의 스캔 과정을 통해 현재 프리픽스 트리와 아이템들의 존재확률 정보 및 지지도 값들을 계산하고(lines 8-9), 유효한 아이템들에 대한 지지도 내림차순 정보가 계산된다(lines 10-11). 상기 정보들을 바탕으로 지역 트리에 대한 헤더 테이블이 생성되고(lines 12), 두 번째 불확실 가중화 빈발 아이템 트리의 스캔 과정을 통해 지역 트리가 완성된다(lines 13-19).

생성된 지역 트리에 대해 다시 재귀 호출을 수행함으로써 분할 정복 방식의 프로세스를 진행하고(lines 20), 하나의 아이템에 대한 모든 과정이 완료되면 해당 아이템은 프리픽스 트리에서 제거되며(lines 21) 지금까지 출력된 불확실 가중화 빈발 아이템을 가지고 불확실 가중화 빈발 아이템셋 결과 정보로 반환한다.

상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 통상의 기술자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

[참조문헌]

1. R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules”, Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487-499, Sep. 1994.

2. C.F. Ahmed, S.K. Tanbeer, B.S. Jeong, Y.K. Lee, and H.J. Choi, “Single-pass incremental and interactive mining for weighted frequent patterns”, Expert Systems with Applications, vol. 39, no. 9, pp. 7976-7994, Jan. 2012.

3. C.F. Ahmed, S.K. Tanbeer, B.S. Jeong, and Y.K. Lee, “Efficient Tree Structures for High Utility Pattern Mining in Incremental Databases”, IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 12, pp. 1708-1721, Dec. 2009.

4. D. Burdick, M. Calimlim, J. Flannick, J. Gehrke, and T. Yiu, “MAFIA: A Maximal Frequent Itemset Algorithm”, IEEE Transactions on Knowledge and Data Engineering, vol. 17, no. 11, pp. 1490-1504, Jan. 2005.

5. J. Cai, X. Zhao, and Y. Xun, “Association rule mining method based on weighted frequent pattern tree in mobile computing environment”, International Journal of Wireless and Mobile Computing, vol. 6, no. 2, pp. 193-199, 2013.

6. L. Chang, T. Wang, D. Yang, H. Luan and S. Tang, “Efficient algorithms for incremental maintenance of closed sequential patterns in large databases”, Data & Knowledge Engineering, vol.68, pp.68-106, Jan. 2009.

7. A.F.A. Dafa-Alla, H.S. Shon, K.E.K. Saeed, M. Piao, U. Yun, K.J. Cheoi, and K.H. Ryu, “IMTAR: Incremental Mining of General Temporal Association Rules”, The Journal of Information Processing Systems, vol. 6, no. 2, pp. 163-176, 2010.

8. G. Fang, Z. Deng and H. Ma, “Network Traffic Monitoring Based on Mining Frequent Patterns”, Fuzzy Systems and Knowledge Discovery, vol. 7, pp. 571-575, Aug 2009.

9. G. Grahne and J.Zhu, “Fast Algorithms for Frequent Itemset Mining Using FP-Trees”, IEEE Transactions on Knowledge and Data Engineering, vol. 17, no. 10, pp. 1347-1362, Oct. 2005.

10. J. Han, J. Pei, Y. Yin and R. Mao, “Mining frequent patterns without candidate generation: a frequent-pattern tree approach”, Data Mining and Knowledge Discovery, vol. 8, no. 1, pp.53-87, Jan. 2004.

11. T.P. Hong, C.Y. Wang, and S.S. Tseng, “An incremental mining algorithm for maintaining sequential patterns using pre-large sequences”, Expert Systems with Applications, vol. 38, no. 6, pp. 7051-7058, 2011.

12. B. Kao, M. Zhang, C.L. Yip, D.W. Cheung, and U.M. Fayyad, “Efficient Algorithms for Mining and Incremental Update of Maximal Frequent Sequences”, Data Mining and Knowledge Discovery, vol. 10, no. 2, pp. 87-116, 2005.

13. S.K. Tanbeer, C.F. Ahmed, and B.S. Jeong, “Mining Regular Patterns in Incremental Transactional Databases”, Asia-Pacific Web Conference, pp. 375-377, 2010.

14. Y.S. Koh and G. Dobbie, “Efficient Single Pass Ordered Incremental Pattern Mining. Transactions on Large-Scale Data- and Knowledge-Centered Systems”, vol. 8, no. 1, pp. 137-156, 2013.

15. G. Lee, U. Yun, and K. H. Ryu, “Sliding Window based Weighted Maximal Frequent Pattern Mining over Data Streams,” Expert Systems with Applications, vol. 41, no. 2, pp. 694-708, Feb. 2014.

16. A. Kumar, S. Kumar, and S. Saxena, “An Efficient Approach for Incremental Association Rule Mining through Histogram Matching Technique”, International Journal of Information Retrieval Research, vol. 2, no. 2, pp. 29-42, 2012.

17. H. Li, S. Lee and M. Shan, “DSM-PLW: Single-pass mining of path traversal patterns over streaming Web click-sequences”, Computer Networks, vol.50, pp. 1474-1487, Jul. 2006.

18. H. Li, “A sliding window method for finding Top-k path traversal patterns over streaming Web click-sequences”, Expert Systems with Applications, vol. 36, no. 3, pp. 4382-4386, May 2008.

19. 19P.C.H. Ma and K.C.C. Chan, “Incremental Fuzzy Mining of Gene Expression Data for Gene Function Prediction”, IEEE Transactions on Biomedical Engineering, vol. 58, no. 5, pp. 1246-1252, 2011

20. C.M. Lin, Y.L. Hsieh, K.C. Yin, M.C. Hung, and D.L. Yang, “ADMiner: An Incremental Data Mining Approach Using a Compressed FP-tree”, Journal of Software, vol. 8, no. 8, pp. 2095-2103, 2013.

21. C.W. Lin, G.C. Lan, and T.P. Hong, “An incremental mining algorithm for high utility itemsets”, Expert Systems with Applications, vol. 39, no. 8, pp. 7173-7180, 2012.

22. C.W. Lin, T.P. Hong, and W.H. Lu, “The Pre-FUFP algorithm for incremental mining”, Expert Systems with Applications, vol. 36, no. 5, pp. 9498-9505, 2009.

23. K.W. Lin, M. Hsieh and V. S. Tseng, “A novel prediction-based strategy for object tracking in sensor networks by mining seamless temporal movement patterns”, Expert Systems with Applications, vol.37, no. 4, pp. 2799-2807, Apr. 2010.

24. W. Liu, Y. Zheng, S. Chawla, J. Yuan, and X. Xing, “Discovering spatio-temporal causal interactions in traffic data streams”, Proceedings of the 17th International Conference on Knowledge Discovery and Data Mining, pp. 1010-1018, Aug. 2011.

25. B. Mallick, D. Garg, and P. S. Grover, “Incremental mining of sequential patterns: Progress and challenges”, Intelligent Data Analysis, vol. 17, no. 3, pp. 507-530, 2013.

26. R.V. Priya, A. Vadivel and R. S. Thakur, “Maximal Pattern Mining Using Fast CP-Tree for Knowledge Discovery”, International Journal of Information Systems and Social Change, vol.3, no.1, pp.56-74, 2012.

27. D. Oguz and B. Ergenc, “Incremental Itemset Mining Based on Matrix Apriori Algorithm”, Proceedings of the 17th International Conference on Data Warehousing and Knowledge Discovery, pp. 192-204, 2012.

28. R.V. Priya and A. Vadivel, “Partition-based sorted pre-fix tree construction using global list to mine maximal patterns with incremental and interactive mining”, International Journal of Knowledge Engineering and Data Mining, vol. 2, no. 2/3, pp. 137-159, 2012.

29. G. Pyun, U. Yun, and K.H. Ryu, “Efficient frequent pattern mining based on Linear Prefix Tree”, Knowledge-Based Systems, vol. 55, pp. 125-139, Jan. 2014.

30. G. Pyun and U. Yun, “Mining top-k frequent patterns with combination reducing techniques”, Applied Intelligence, Jan. 2014, doi: 10.1007/s10489-013-0506-9.

31. H. Ryang, U. Yun, and K. Ryu, “Discovering High Utility Itemsets with Multiple Minimum Supports”, Intelligent Data Analysis, In Press, 2014.

32. A. Sallaberry, N. Pecheur, S. Bringay, M. roche and M. Teisseire, “Sequential patterns mining and gene sequence visualization to discover novelty from microarray data”, Journal of Biomedical Informatics, vol.44, pp. 760-774, Oct. 2011.

33. K. Sim, J. Li, V. Gopalkrishnan, and G. Liu, "Mining Maximal Quasi-Bicliques: Novel Algorithm and Applications in the Stock Market and Protein Networks", Statistical Analysis and Data Mining, vol. 2, no. 4, pp. 255-273, Nov. 2009.

34. M.Y. Su and S.C. Yeh, “An online response system for anomaly traffic by incremental mining with genetic optimization”, Journal of Communications and Networks, vol. 12, no. 4, pp. 375-381, 2010.

35. M.Y. Su, G.J. Yu, and C.Y. Lin, “A real-time network intrusion detection system for large-scale attacks based on an incremental mining approach”, Computers & Security, vol. 28, no. 5, pp. 301-309, 2009.

36. B. Vo, F. Coenen, and B. Le, “A new method for mining Frequent Weighted Itemsets based on WIT-trees”, Expert Systems with Applications, vol. 40, no. 4, pp.1256-1264, 2013.

37. E. Xu, W. Hsu, M.L. Lee, and D. Patel, “Incremental Mining of Top-k Maximal Influential Paths in Network Data”, Transactions on Large-Scale Data- and Knowledge-Centered Systems, vol. 10, pp. 173-199, 2013.

38. U. Yun, H. Shin, K.H. Ryu, and E. Yoon, “An efficient mining algorithm for maximal weighted frequent patterns in transactional databases”, Knowledge-Based Systems, vol. 33, pp. 53-64, 2012.

39. U. Yun and K.H. Ryu, “Efficient Mining of Maximal Correlated Weight Frequent Patterns”, Intelligent Data Analysis, vol. 17, no. 5, 2013.

40. U. Yun, G. Lee, and K.H. Ryu, “Mining maximal frequent patterns by considering weight conditions over data streams”, Knowledge Based Systems, vol. 55, pp. 49-65, 2014.

41. U. Yun, “On pushing weight constraints deeply into frequent itemset mining”, Intelligent Data Analysis, vol. 13, no. 2, pp. 359-383, 2009.

42. U. Yun, H. Ryang, and K. Ryu, “High Utility Itemset Mining with Techniques for Reducing Overestimated Utilities and Pruning Candidates”, Expert Systems with Applications, vol. 41, no. 8, pp. 3861-3878, Jun. 2014.

43. X. Zeng, J. Pei, K. Wang, and J. Li, "PADS: a simple yet effective pattern-aware dynamic search method for fast maximal frequent pattern mining", Knowledge and Information Systems, vol. 20, no. 3, pp. 375-391, Aug. 2009.

44. J. Pisharath, Y. Liu, B. Ozisikyilmaz, R. Narayanan, W. K. Liao, A. Choudhary, and G. Memik, “NU-MineBench version 2.0 dataset and technical report,” http://cucis.ece.northwestern.edu/projects/DMS /MineBench.html

Claims

불확실 가중화 빈발 아이템 마이닝 장치에서 수행되는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법에 있어서,
(a) 불확실 데이터베이스 내 불확실 데이터와 아이템에 대한 지지도 정보를 스캔하고, 상기 불확실 데이터베이스 첫 번째 스캔을 통해 스캔할 트랜잭션이 존재하는지 파악하여 상기 트랜잭션을 구성하는 아이템에 대한 지지도 정보를 누적시키며 상기 불확실 데이터베이스 두 번째 스캔을 통해 상기 아이템을 저장할 빈 프리픽스 트리를 생성하는 단계;
(b) 상기 스캔된 정보를 기초로 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출하는 단계;
(c) 상기 추출된 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축하여 불확실 가중화 빈발 아이템 트리를 생성하는 단계; 및
(d) 상기 구축된 불확실 가중화 빈발 아이템 트리 자료구조를 이용하여 불확실 가중화 빈발 아이템셋을 추출하는 단계를 포함하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
삭제
삭제
제1항에 있어서, 상기 프리픽스 트리는
일반 노드와 테일 노드를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 (a) 단계는
상기 아이템의 존재확률(Existential probability) 정보와 아이템 고유의 중요도 정보를 파악하는 단계를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제5항에 있어서, 상기 (a) 단계는
상기 파악된 아이템의 존재확률 정보를 기초로 아이템에 대한 기대 지지도 정보를 상기 불확실 데이터베이스에 갱신하는 단계를 더 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제5항에 있어서,
상기 아이템 고유의 중요도 정보는 아이템의 종류에 따라 고정되어 설정되고,
상기 아이템의 존재확률 정보는 아이템을 포함하는 트랜잭션에 따라 상이하게 설정되는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 (b) 단계는
상기 과추정 제약조건을 만족하지 못하는 상기 불확실 가중화 빈발 아이템을 삭제하는 단계를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 (b) 단계는
상기 추출된 불확실 가중화 빈발 아이템에 대한 지지도 내림차순 정보를 파악하는 단계를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제9항에 있어서, 상기 (b) 단계는
상기 파악된 지지도 내림차순 정보에 포함되지 않는 상기 불확실 가중화 빈발 아이템을 삭제하고, 남은 유효한 불확실 가중화 빈발 아이템을 내림차순으로 정렬하는 단계를 더 포함하는 것을 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 과추정 제약조건은
사용자에 의해 설정된 최소 지지도 임계값에 해당하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 (c) 단계는
상기 불확실 가중화 빈발 아이템에 대한 지지도 정보에 따라 다른 형태의 노드에 선별적으로 저장하는 단계를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
제1항에 있어서, 상기 (d) 단계는
재귀적 지역 트리 생성 방식을 이용하여 상기 불확실 가중화 빈발 아이템셋을 추출하는 단계를 포함하는 것을 특징으로 하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법.
불확실 데이터베이스 내 불확실 데이터와 아이템에 대한 지지도 정보를 스캔하고, 상기 불확실 데이터베이스 첫 번째 스캔을 통해 스캔할 트랜잭션이 존재하는지 파악하여 상기 트랜잭션을 구성하는 아이템에 대한 지지도 정보를 누적시키며 상기 불확실 데이터베이스 두 번째 스캔을 통해 상기 아이템을 저장할 빈 프리픽스 트리를 생성하는 데이터 스캔부;
상기 스캔된 정보를 기초로 과추정 제약조건을 만족하는 불확실 가중화 빈발 아이템을 추출하는 불확실 가중화 빈발 아이템 추출부;
상기 추출된 불확실 가중화 빈발 아이템을 저장하기 위한 트리 자료구조를 구축하여 불확실 가중화 빈발 아이템 트리를 생성하는 트리 구축부; 및
상기 구축된 불확실 가중화 빈발 아이템 트리 자료구조를 이용하여 불확실 가중화 빈발 아이템셋을 추출하는 불확실 가중화 빈발 아이템셋 마이닝부를 포함하는 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법을 수행하는 불확실 가중화 빈발 아이템 마이닝 장치.