KR20150079154A

KR20150079154A - 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법

Info

Publication number: KR20150079154A
Application number: KR1020130169195A
Authority: KR
Inventors: 장중혁
Original assignee: 대구대학교 산학협력단
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2015-07-08
Also published as: KR101639849B1

Abstract

본 발명은 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법에 관한 것으로, 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)을 설정하는 HAIs 설정단계와; 정감쇠율 및 역감쇠율을 복합적으로 실행하는 이중 감쇠율 실행단계 및; 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs)의 세트를 완성하는 단계로 이루어져 과거 발생 정보 중에서 중요성이 큰 정보에 높은 가중치를 부여하는 이중 감쇠율 기법을 적용하여 관심 정보 집합을 탐색함으로써 이전의 단순 마이닝 기법들에서는 탐색하지 못했던 고관심 정보를 효율적으로 탐색하여 관련된 여러 응용 분야에서 데이터 마이닝의 활용도를 높일 수 있고, 데이터 스트림에서 최근에 자주 발생하지 않으나 과거에는 빈번히 발생했던 것으로서 관심도가 큰 항목집합을 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)으로 정의하고, 정감쇠율 및 역감쇠율을 복합적으로 적용하는 이중 감쇠율 기법(duplex decay mechanism)으로 고도의 주의 항목집합을 효율적으로 탐색할 수 있는 각별한 장점이 있는 유용한 발명이다.

Description

이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법{Method for mining highly attention itemsets using a duplex decay mechanism}

이중 감쇠율 기법으로 고관심 정보

본 발명은 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법에 관한 것으로서, 더욱 상세하게는 과거 발생 정보 중에서 중요성이 큰 정보에 높은 가중치를 부여하는 이중 감쇠율 기법을 적용하여 관심 정보 집합을 탐색함으로써 이전의 단순 마이닝 기법들에서는 탐색하지 못했던 고관심 정보를 효율적으로 탐색하여 관련된 여러 응용 분야에서 데이터 마이닝의 활용도를 높일 수 있는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법에 관한 것이다.

최근, 다양한 컴퓨터 응용 분야는 데이터 스트림(data streams)의 형태로 데이터를 생성한다. 이러한 데이터 스트림(data streams)은 구성요소가 지속적으로 발생되는 무한 집합으로서 시간 흐름에 따른 가변성이 매우 큰 특징을 갖는다(비특허문헌 1, 2).

상기한 데이터 스트림의 하나는 이를 구성하는 구성요소 및 이의 특성이 시간흐름에 무관하게 유사한 형태를 유지하기도 하지만 시간 흐름에 따라 구성요소 또는 특성이 변화되기도 한다. 하나의 데이터 스트림에서 과거에는 자주 발생되었던 정보가 근래에는 발생 빈도가 현저히 줄어드는 경우도 이러한 변화의 대표적인 예라 할 수 있다.

실제 세계의 응용 분야에서 생성된 데이터의 형태로 변화를 고려하면, 많은 연구가 데이터 스트림에 포함된 다양한 종류의 기술을 찾기 위해 활발하게 수행되었다(비특허문헌 3 ∼ 6). 더구나 마이닝 알고리즘(비특허문헌 1, 7 ∼ 9)은 또한 마이닝 결과로 시간에 따른 데이터 스트림의 변화를 효율적으로 반영하도록 제안되어 왔다. 특히, 하나의 데이터 스트림에 포함되는 구성요소의 중요성을 발생 시점을 고려하여 차별화 함으로써 해당 데이터 스트림의 변화를 효과적으로 탐지하기 위한 연구들도 활발히 연구되고 있으며, 대표적인 것으로 감쇠율 기법(비특허문헌 1, 7)과 이동 윈도우 기법(비특허문헌 8, 9)이 제안되었다.

해당 기법들에서는 일반적으로 근래에 발생한 정보들은 큰 중요성을 갖는 것으로 간주되는 반면 과거에 발생한 정보들은 매우 낮은 중요성을 갖는 것으로 간주되거나 중요성이 무시되기도 한다. 하지만, 실제 응용 분야에서는 비록 오래전 과거에 발생된 정보라 할지라도 중요한 의미를 갖는 관심도가 큰 정보들이 존재하기도 한다. 'Oldies but goodies'라는 말처럼 희소성이나 역사성 측면에서 중요성을 인정받는 경우도 있으며, 현재 또는 최근의 해당 응용 분야 특성을 보다 효과적으로 분석하기 위해 과거의 정보들이 중요한 의미를 갖는 경우도 있다.

다음은 컴퓨터 상점에서 구매 히스토리로부터 발생하는 예시적인 데이터 집합이다.

[고객_A] 2009년 1사분기에 레이저 프린터, 스캐너, CD 버너 구입 → 2009년

2사분기이후 구매 없음

[고객_B] 2012년 1사분기 이전 구매 없음 → 2012년 1사분기에 레이저 프린

터, 스캐너 구입

위 예제에서 고객_A는 2009년 1사분기에는 많은 물품을 구입한 고객이었으나 그 이후에는 물품 구매기록이 없는 반면, 고객_B의 경우 2012년 1사분기에 처음으로 물품을 구매하였으며 그 이전에는 구매 기록이 없다. 해당 구매 기록이 포함된 데이터 스트림에 대해 최근 정보에 높은 가중치를 부여하는 기존의 정보 중요성 차별화 기법을 적용하는 경우 2012년 1사분기를 기준으로 고객_A 구매기록은 낮은 중요성을 갖는 과거 정보이므로 무시된다. 하지만, 고객_A와 같은 고객을 대상으로 하는 집중 마케팅을 통해 해당 고객이 다시 물품을 구매하도록 함으로써 해당 컴퓨터 상점의 판매 실적을 증대시킬 수 있을 것이다. 이러한 마케팅을 위해서는 최근 발생 정보에 집중된 기존의 정보 중요성 차별화 기법과는 다른 새로운 정보 중요성 차별화 기법을 필요로 한다.

고도의 주의 항목집합(HAIs)을 찾기 위해 데이트 스트림은 다음과 같이 연속적으로 생성된 트랜잭션의 무한한 세트로 볼 수 있다(비특허문헌 1). i) 어떤 특정 응용 도메인에서 정보의 단위로 사용되는 항목의 유한 집합을 I라 하고, ii) 항목집합 e는 e∈(2^I - {Ø})와 같은 항목의 집합이다. 여기서 2^I 는 I의 파워 세트이다. 항목 집합 e의 길이｜e｜는 m-항목 집합이라는 m항목을 갖는 항목집합 및 항목집합을 형성하는 항목의 수이다. iii) 트랜잭션은 항목집합, 그리고 고유한 트랜잭션 식별자 TID로 구성되어 있다. k번째(k ^th ) 차례에서 발생된 트랜잭션은 T _k 로 표시된다. iv) 새로운 트랜잭션(T _k )이 생성될 때 현재의 데이트 스트림(D _k )은 지금까지 생성된 모든 트랜잭션으로 구성된다. 즉, D _k = ＜T ₁ , T ₂ , ..., T _k ＞ 이고, D _k 에 있는 트랜잭션의 총수는｜D｜_k 로 나타낸다. 일반적으로 트랜잭션(T _k )이 데이트 스트림(D _k )에서 현재 생성될 때 항목집합(e)의 현재 카운트 C _k (e) 는 k 트랜잭션들 중 항목집합을 포함하는 트랜잭션의 수이다. 마찬가지로 항목집합(e)의 현재의 보조품Suppk(e)는 ｜D｜_k 에 대한 현재의 수 C _k (e) 의 비율이다. 데이터 스트림(D _k )에 대하여, 항목집합(e)의 현재의 보조품이 지원 임계값보다 더 적을 경우, 항목집합(e)은 주어진 지지도 임계값 minSupp(0＜minSupp≤1)에 대한 D _k 에서의 빈발 항목집합이다. 이러한 관찰에 기초하여 데이터 스트림과 주어진 지원 임계값에 대하여 고도의 주의 항목집합(HAIs)이란 과거에는 빈발 항목집합이었으나 근래에는 발생 빈도가 적은 항목집합을 의미하며, 데이터 스트림에 대한 고도의 주의 항목집합(HAIs)의 마이닝 문제는 고도의 주의 항목집합(HAIs)의 전체 집합을 찾는 데 있다.

시간 흐름에 따른 가변성이 큰 데이터 스트림의 특성을 고려하여 데이터 스트림 구성 요소의 중요성 발생 시간 축을 기준으로 차별화하기 위한 다양한 기법들(비특허문헌 1, 7 ∼ 9)이 연구되어 왔으며, 이들 기법들은 빈발 항목집합이나 순차패턴 등을 탐색하기 위한 데이터 스트림 마이닝 과정에 적용되어 보다 관심도가 큰 마이닝 결과를 얻는데 활용되어 왔다. 해당 방법들 중에서 대표적이 것으로 이동 윈도우 기법과 감쇠 기반 기법이 고려될 수 있다.

이동 윈도우 기법(비특허문헌 8, 9)은 일정 크기의 시간 윈도우를 정의하여 해당 범위 내에 포함되는 정보만 유효한 것으로 간주하고 범위에 포함되지 않는 정보는 무효한 것으로 간주하여 정보 중요성 차별화를 구현한다. 일반적으로 해당 기법에서는 시간 흐름에 따라 윈도우를 이동하면서 윈도우 크기만큼의 최근 시간 범위를 유효 범위로 정의한다. 감쇠 기반 기법(비특허문헌 1, 7, 13)은 하나의 데이터 스트림을 구성하는 구성요소들 중에서 최근에 발생한 구성요소는 상대적으로 높은 중요성을 갖는 것으로 간주하고 과거에 발생한 구성요소는 그 중요성이 시간 흐름에 따라 점차적으로 감쇠되도록 하는 기법이다. 이를 통해 일정 시점에서 발생한 정보가 해당 시점에서는 매우 중요한 정보로 간주되지만 시간 흐름에 따라 그 중요성이 감쇠되고 충분히 오랜 시간이 지난후에는 사실상 무효한 정보로 간주되도록 한다.

이러한 감쇠 기법은 데이터 마이닝 분야 외에도 다양한 형태로 응용되고 있다(비특허문헌 14, 15). 비특허문헌 14에서는 데이터 스트림에 대한 군집화 과정에서 분석 대상 데이터 스트림의 동적인 변화를 효율적으로 감지하기 위한 방법으로 밀도 감쇠 기법(density decaying technique)이 제안되었으며, 비특허문헌 15에서는 데이터 스트림에 대한 집합연산(aggregate) 수행 과정에서 데이터 스트림의 동적인 변화를 효율적으로 반영하기 위한 방법으로 감쇠 기법을 적용한 시간 감쇠 집합연산(time-decaying aggregates)을 제안하였다.

일반적으로 이동 윈도우 기법 및 감쇠 기반 기법은 최근에 발생된 정보 혹은 최근에 가까운 시점에 발생한 정보의 중요성을 높게 간주하고 이외의 정보는 무효하거나 중요성이 낮은 것으로 간주하며, 따라서 최근 정보에 집중된 분석 결과를 얻기 위한 데이터 스트림 마이닝에서는 매우 효과적으로 적용될 수 있다. 하지만 해당 기법들은 과거 일정 시점에 관심도가 큰 것으로 간주되었던 정보들을 탐색하거나, 특히 집중 마케팅 등을 위해 중요한 정보로 활용될 수 있는 과거 발생 정보들을 효과적으로 탐색하는 데에는 한계가 있다.

J.H.Chang and W.S.lee, "Finding Recently Frequent Itemsets Adaptively over Online Transactional Data Streams", Inform ation Systems, 31(8), pp.849-869,2006. S.K.Tanbeer, C.F.Ahmed,B.-S.Jeong, and Y.-K. Lee, "Sliding window-based frequent pattern mining over data streams", I nformation Sciences, 179(22), pp.3843-3865, 2009. Q.Huang and W.Ouyang, "Mining Sequential Patterns in Data Streams", in Proc. of the 6th Int'l Symposium on Neural Ne tworks, pp.865-874, 2009. H.T.Lam and T.Calders, "Mining top-K frequent items in a data stream with flexible sliding windows", in Proc.of the 16th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining, pp.283-292.2010. G.Mao,X.Wu.X.Zhu,G.Chen,and C.Liu, "Mining Maximal Freque nt Itemsets from Data Streams", Journal of Information Sci ence, 33(3), pp.251-262, 2007. J.X.Yu,Z.Chong,H.Lu,Z.Zhang,and A.Zhou, "A False Negative Approach to Mining Frequent Itemsets from High Speed Trans actional Data Streams", Information Sciences, 176(14), pp. 1986-2015, 2006. C.C.Aggarwal and P.S.Yu, "A framework for clustering uncertain data streams", in Proc. of the Int'l Conf. on Da ta Engineering, pp.150-159, 2008. C.-W.Li and K.-F. Jea, "An adaptive approximation method to discover frequent itemsets over sliding-window-based da ta streams", Expert Systems with Applications, 38(10), pp. 13386-13404, 2011. H.-F.Li and S.-Y.Lee, "Mining frequent itemsets over data streams using efficient window sliding techniques", Expert Systems with Applications, 36(2), pp.1466-1477, 2009. H.-F.Li,H.-Y.Huang, Y.-C. Chen, Y.-J.Liu, and S.-Y.Lee, "Fast and memory efficient mining of high utility itemsets in data streams", in Proc.of the Int'l Conf. on Data Eng ineering, pp.881-886, 2008. B.-E.Shie,P.S.Yu,V.S.Tseng, "Efficient algorithms for mi ning maximal high utility itemsets from datastreams with different models", Expert Systems with Applications, In Press(http://dx.doi.org/10.1016/j.eswa.2012.05.035),2012. V.S.Tseng,C.-W.Wu,B.-E.Shie, and P.S.Yu, "UP-Growth:An e fficient algorithm for high utility itemset mining", in Proc.of the 16th ACM SIGKDD In'l Conf.on Knowledge Disco very and Data Mining, pp.253-262, 2010. H.Chen,L.C.Shu,J.Xia, and A.Yin, "Mining frequent patter ns in a varying-size sliding window of online transaction al data streams", Information Sciences, In Press(http:// dx.doi.org/10.1016/j.ins.2012.05.007),2012. Y.Chen and L.Tu,"Density-based clustering for real-time stream data", in Proc.of the 13th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining,pp.133-142, 2007. E.Cohen and M.J.Strauss, "Maintaining time-decaying st ream aggregates", Journal of Algorithms, 59(1),pp.19- 36, 2006. J.H.Chang and W.S.Lee, "Efficient Mining Method for Retr ieving Sequential Patterns over Online Data Streams", Journal of Information Science, 31(2), pp. 420-432, 2005 A.Zhou,F.Cao,W.Qian, and C.Jin, "Tracking clusters in evo lving data streams over sliding windows", Knowledge and Information Systems, 15(2),pp.181-214, 2008. N.Gabsi, F.Clerot, and G.Hebrail, "Efficient trade-off be tween speed processing and accuracy in summarizing data stream", in Proc. of the 14th PAKDD, pp.343-353, 2010. R.Agrawal and R. sRIKANT, "Fast Algorithms for Mining Ass ociation Rules", in Proc. of the 20th International Conf. on Very Large Data Bases,pp.487-499,1994.

본 발명은 상기한 실정을 감안하여 데이터 마이닝 분야 및 데이터 마이닝 과정에서 최근 발생 정보에만 높은 가중치를 부여하는 종래 통상적인 마이닝 방법이 과거에 발생된 중요성이 높은 정보를 반영하지 못하는 문제점을 해결하고자 발명한 것으로서, 그 목적은 과거 발생 정보 중에서 중요성이 큰 정보에 높은 가중치를 부여하는 이중 감쇠율 기법을 적용하여 관심 정보 집합을 탐색함으로써 이전의 단순 마이닝 기법들에서는 탐색하지 못했던 고관심 정보를 효율적으로 탐색하여 관련된 여러 응용 분야에서 데이터 마이닝의 활용도를 높일 수 있는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법을 제공함에 있다.

본 발명의 다른 목적은 고유용 관심정보(비특허문헌 10 ∼ 12)의 하나로서 데이터 스트림에서 최근에 자주 발생하지 않으나 과거에는 빈번히 발생했던 것으로서 관심도가 큰 항목집합(즉, 과거 단골에 대한 집중형 마케팅 분야 등에서 활용도가 큰 항목집합)을 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)으로 정의하고, 이의 효율적 탐색을 위한 이중 감쇠율 메커니즘(duplex decay mechanism)을 제시하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법을 제공하는 데 있다.

상기한 목적을 달성하기 위한 본 발명 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법은 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)을 설정하는 HAIs 설정단계와; 정감쇠율 및 역감쇠율을 복합적으로 실행하는 이중 감쇠율 실행단계 및; 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs)의 세트를 완성하는 단계로 이루어진 것을 특징으로 한다.

본 발명은 과거 발생 정보 중에서 중요성이 큰 정보에 높은 가중치를 부여하는 이중 감쇠율 기법을 적용하여 관심 정보 집합을 탐색함으로써 이전의 단순 마이닝 기법들에서는 탐색하지 못했던 고관심 정보를 효율적으로 탐색하여 관련된 여러 응용 분야에서 데이터 마이닝의 활용도를 높일 수 있고, 데이터 스트림에서 최근에 자주 발생하지 않으나 과거에는 빈번히 발생했던 것으로서 관심도가 큰 항목집합을 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)으로 정의하고, 정감쇠율 및 역감쇠율을 복합적으로 적용하는 이중 감쇠율 기법(duplex decay mechanism)으로 고도의 주의 항목집합을 효율적으로 탐색할 수 있는 각별한 장점이 있다.

도 1은 감쇠율 d = b ^-( ^1/h ⁾를 갖는 정방향 감쇠 기전에서 정보의 감쇠된 중량의 변화를 나타낸 도면,
도 2는 감쇠율 d = b ^-( ^1/h ⁾를 갖는 역방향 감쇠 기전에서 정보의 감쇠된 중량의 변화를 나타낸 도면,
도 3은 하나의 데이트 스트림에 대한 HAI 집합, 역방향 빈번 항목집합(rever frequent itemset) 및 직접 빈번 항목집합(direct frequent itemset) 사이의 관계를 나타낸 도면,
도 4는 본 발명 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법을 실행하는 순서도,
도 5(a), 도 5(b)는 항목의 각 세트로부터 유래된 항목집합의 수를 나타낸 그래프,
도 6은 데이터 집합 DS _ aB에 대한 HAI 탐색실험에서 얻어진 빈발 항목집합의 수 및 항목집합의 수에 대한 분석 결과를 나타낸 그래프,
도 7(a)와 도 7(b)는 마이닝 기법에서 트랜잭션 당 메모리 사용량과 처리 시간을 나타낸 그래프,
도 8(a)와 도 8(b)는 데이터 집합 DS _ Web의 실험결과를 나타낸 그래프이다.

이하, 첨부된 도면을 참조하여 본 발명 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법을 바람직한 실시예로서 상세하게 설명한다.

도 1은 감쇠율 d = b ^-( ^1/h ⁾를 갖는 정방향 감쇠 기전에서 정보의 감쇠된 중량의 변화를 나타낸 도면, 도 2는 감쇠율 d = b ^-( ^1/h ⁾를 갖는 역방향 감쇠 기전에서 정보의 감쇠된 중량의 변화를 나타낸 도면, 도 3은 하나의 데이트 스트림에 대한 HAI 집합, 역방향 빈번 항목집합(rever frequent itemset) 및 직접 빈번 항목집합(direct frequent itemset) 사이의 관계를 나타낸 도면, 도 4는 본 발명 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법을 실행하는 순서도, 도 5(a), 도 5(b)는 항목의 각 세트로부터 유래된 항목집합의 수를 나타낸 그래프, 도 6은 데이터 집합 DS_aB에 대한 HAI 탐색실험에서 얻어진 빈발 항목집합의 수 및 항목집합의 수에 대한 분석 결과를 나타낸 그래프, 도 7(a)와 도 7(b)는 마이닝 기법에서 트랜잭션 당 메모리 사용량과 처리 시간을 나타낸 그래프, 도 8(a)와 도 8(b)는 데이터 집합 DS _ Web의 실험결과를 나타낸 그래프로서, 본 발명 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법은 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)을 설정하는 HAIs 설정단계와; 정감쇠율 및 역감쇠율을 복합적으로 실행하는 이중 감쇠율 실행단계 및; 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs)의 세트를 완성하는 단계로 이루어진다.

상기 이중 감쇠율 실행단계는 T _k 안의 항목집합의 수를 업데이트하는 업데이트단계와; HAIs 결과값을 찾는 HAIs 결과값 찾기 단계로 이루어진다.

상기 업데이트단계는 D _k 안의 각각의 새로운 트랜잭션 T _k 에 대하여 정방향 메커니즘

과 역방향 메커니즘

을 각각 업데이트하고,

도 업데이트 하며; T _k 안의 각각의 항목집합 e에 대하여 항목집합에 상응하는 노드가 ML안에 있다면,

와

를 업데이트 하고, 업데이트

로 정의하며, 그렇지 않으면, 그에 상응하는 노드는 ML로 새로 집어 넣는다.

또한, 상기 업데이트

는 e와 T _k 안의 단일 항목으로 구성된 T _k 안의 각각의 항목집합 에 대하여 항목집합의 상응하는 노드가 ML안에 있으면,

와

를 업데이트하고, 업데이트

로 정의하며, 그렇지 않으면, 상응하는 노드는 ML로 새로 집어 넣고, 리턴한다.

상기 HAIs 결과값 찾기 단계는 상응하는 노드가 ML에 있는 각각의 항목집합 e에 대하여

이고,

이면, 출력e는 HAI이고,

로 정의한다.

그리고 상기

는 e와 단일 항목으로 구성된 ML안의 각각의 항목집합 에 대하여

이고

이면, 출력ｅ′는 HAI 이고,

로 정의한다.

(감쇠율)

감쇠율 d∈(0, 1)은 고정된 감쇠 단위에 대한 중량의 감쇠 비율을 의미한다. 감쇠율에서, 사용자는 직접 감쇠율을 설정하는 것을 선택할 수도 있으며, 이것은 애플리케이션 도메인상에서 불안정 분석을 일으킬 수 있다. 따라서, 유연하게 오래된 정보의 페이딩율을 제어하고 애플리케이션 도메인상에서 안정된 분석을 지원하기 위해 감쇠율 d는 감쇠 기저(decay-base) b(b＞1) 와 감쇠 기저 생활(decay-base-life) h(h≥1)의 두 개의 독립적인 파라미터에 의해 b ^-( ^1/h ⁾ 로 정의된다. 감쇠 기저(decay-base) b 는 감쇠 단위당 중량 감소량을 결정한다. b 의 값이 커질수록 중량 감소의 량이 증가 된다. 감쇠 기저 생활(decay-base-life) h는 원래 중량이 1로 설정될 때 정보의 중량을 1/b 이 될 수 있도록 감쇠 유닛의 개수에 의해 정의된다. 감쇠율 d = b ^-( ^1/h ⁾ 의 매개변수 b 와 h를 제어함으로써 지수 함수와 같은 다른 단조 감쇠 함수로 표현될 수 있다.

(정방향 감쇠 메커니즘)

기존의 데이터 스트림 마이닝에서 활용된 정방향 감쇠 메커니즘(decay mechanis m)에서는 구성요소가 지속적으로 생성되는 하나의 데이터 스트림에서 현재 시점에 발생된 구성요소가 가장 큰 가중치를 갖고 시간의 흐름에 따라 해당 가중치가 감쇠된다(비특허문헌 1). 감쇠율 d = b ^-( ^1/h ⁾를 갖는 정방향 감쇠 메커니즘(decay mechanism)에서 하나의 데이터 스트림에서 현재 시점에서 새롭게 발생되는 구성요소의 가중치는 일반적으로 1로 부여되며, 시간 흐름에 따라 n시간 단위가 경과된 후 해당 구성요소의 가중치는 1 × d ⁿ으로 감소 된다.

도 1은 감쇠율 d = b ^-( ^1/h ⁾를 갖는 정방향 감쇠 기전에서 정보의 감쇠된 중량의 변화를 나타낸다.

감쇠율 d = b ^-( ^1/h ⁾를 갖는 정방향 감쇠 기전이 채용되었을 때, 데이터 스트림 D _k 에 대한 현재의 데이터 스트림 D _k 에 있는 트랜잭션들의 총수

는 아래의 수학식 1과 같다.

여기서 d 는 감쇠율, k 는 차례의 하한, D 는 차레의 상한,

는 데이터 스트림 D _k 에 있는 트랜잭션들의 총수를 각각 나타낸다. 마찬가지로 현재의 데이터 스트림 D _k 에 있는 항목집합 e의 수

는 아래의 수학식 2와 같다.

여기서 d 는 감쇠율, k 는 차례의 하한, D 는 차례의 상한,

는 데이터 스트림 D _k 에 있는 항목집합 e 의 수를 각각 나타낸다.

감쇠 기전이 데이터 스트림에 채용되면, 그것은 정의된 큰 감쇠 장치에 의해 영향을 받는다. 일반적으로 감쇠 장치의 크기가 작아지도록 설정되어 각 트랜잭션의 정보는 보다 정확하게 구별된다. 따라서, 임의의 고정 된 과립 없이 어떤 순간에 데이터 스트림을 통해 마이닝의 결과 세트를 찾기 위해 감쇠 장치는 데이터 스트림의 민감한 변화를 포착할 수 있도록 정확하게 하나의 트랜잭션을 포함한다. 이러한 이유 때문에 하나의 트랜잭션으로 정의된 가장 작은 감쇠 장치가 본 발명에서 사용되었다.

(역방향 감쇠 메커니즘)

역방향 감쇠 메커니즘(decay mechanism)에서는 구성요소가 지속적으로 생성되는 하나의 데이터 스트림에서 현재 시점에 발생된 구성요소가 가장 작은 가중치를 갖는 반면 해당 데이터 스트림의 구성요소 중 가장 오래된 것이 가장 큰 가중치를 갖는다. 감쇠율 d = b ^-( ^1/h ⁾를 갖는 역방향 감쇠 메커니즘(decay mechanism)에서 하나의 데이터 스트림에서 현재 시점에서 발생되는 구성요소는 발생 시점에 따라 가중치가 결정되며, 해당 구성요소에 부여된 가중치는 시간이 흐른 뒤에도 변경되지 않고 동일하게 유지된다. 반면 새롭게 발생되는 구성요소에 부여되는 가중치는 감쇠율 d로 감쇠된다.

일반적으로 하나의 데이터 스트림에서 맨 처음 발생된 구성요소의 가중치는 1로 부여되며, 예를 들어 현재 시점에서 발생된 구성요소의 가중치를 w라 할 때 n시간 단위가 경과된 후 해당 구성요소의 가중치는 w로 유지되지만 새롭게 발생되는 구성요소의 가중치는 w × d ⁿ으로 감소 된다.

도 2는 감쇠율 d = b ^-( ^1/h ⁾를 갖는 역방향 감쇠 메커니즘에서 정보의 감쇠된 중량의 변화를 나타낸다.

감쇠율 d = b ^-( ^1/h ⁾를 갖는 역방향 감쇠 메커니즘에서 데이터 스트림 D _k 의 첫번째 트랜잭션이 조회될 때 제공된 이전 트랜잭션이 없기 때문에 트랜잭션의 수는 명백하게 1이다. 계속해서 새로운 트랜잭션 T _k (k≥2)이 생성될 때 현재의 데이터 스트림 D _k 에 있는 트랜잭션들의 총수

는 아래의 수학식 3과 같다.

여기서 d 는 감쇠율, k 는 차례의 하한, R 은 차례의 상한,

는 데이터 스트림 D _k 에 있는 트랜잭션들의 총수를 각각 나타낸다. 마찬가지로 현재의 데이터 스트림 D _k 에서 항목집합 e의 수

는 아래의 수학식 4와 같다.

여기서 d 는 감쇠율, k 는 차례의 하한, R 은 차례의 상한,

(고도 주의 항목집합｛HAIs｝)

관심 정보 탐색을 위한 데이터 스트림 마이닝에서 고도 주의 항목집합(HAIs)은 하나의 데이터 스트림에서 현재 시점에서는 빈번히 발생되지 않으나 과거에는 발생빈도가 컸던 항목집합을 지칭하며, 정방향 감쇠율 및 역방향 감쇠율로 구성되는 이중 감쇠 기전에 기반하여 다음과 같이 정의된다.

데이터 스트림 D _k 에 있는 항목집합 e에 대하여, 정방향 감쇠 메커니즘이 채용되었을때 현재의 지지도

는 데이터 스트림에 있는 트랜잭션

의 총수에 대한 현재의 수

의 비에 의해 얻어진다. 마찬가지로 역방향 감쇠 메커니즘에 대하여 항목집합 e의 현재의 지지도

는 데이터 스트림에 있는 트랜잭션

의 총수에 대한 현재의 수

의 비에 의해 얻어진다. 본 발명에서는 현재 데이터 스트림의 트랜잭션에 나타나는 모든 항목집합 중에서 대이터 스트림 D _k 에 대하여 정방향 감쇠 메커니즘에 대한 항목집합 e의 현재의 지지도

는 설정된 최소 지원 S _min ∈(0, 1)보다 크거나 동일하고 직접 빈번 항목집합이라고 합니다. 또한, 역방향 감쇠 메커니즘에 대한 항목집합 e의 현재의 지지도

는 최소 지원 S _min 보다 크거나 동일하고 역방향 빈번 항목집합이라고 합니다. 역방향 빈번 항목집합 중 데이터 스트림 D _k 과 주어진 최소 지원 S _min 에 대하여 항목집합 e는 직접 빈번 항목집합이 아니고 본 발명에서 HAI로 정의된다. 즉,

와

를 만족할 때 항목집합 e는 HAI 이다.

도 3은 하나의 데이트 스트림에 대한 HAI 집합, 역방향 빈발 항목집합(rever frequent itemset) 및 정방향 빈발 항목집합(direct frequent itemset) 사이의 관계를 보여준다.

(HAIs의 실행 예)

표 4는 데이터 스트림의 예를 나타낸 것이다. 표 4에 나타낸 데이터 스트림 D _k 은 4개의 단위항목으로 구성되는 총 4개의 트랜잭션으로 구성된다. 이때 b 값이 2이고, h 값이 1인 감쇠율 d = b ^-( ^1/h ⁾(즉, d = 2^-1)을 적용하는 경우 각 트랜잭션의 가중치는 표 2에서와 같이 구해진다. 이러한 데이터 스트림 D _k 의 예에서 몇 개 항목집합의 지지도를 각 감쇠율에 대해 구하면 표 3에서와 같이 구해진다.

데이터 스트림 D _k 의 예

TID	트랜잭션
1	｛a, b, c｝
2	｛a, b, c, d｝
3	｛b, c｝
4	｛b, c, d｝

트랜잭션의 가중치

TID	트랜잭션의 가중치
TID	정방향 감쇠	역방향 감쇠
1	0.125	1
2	0.25	0.5
3	0.5	0.25
4	1	0.125

여러 항목집합의 지지도

항목집합 e	지지도
항목집합 e
ab	0.20	0.80
bc	1.00	1.00
bd	0.67	0.33
abc	0.20	0.80
bcd	0.67	0.33

해당 결과에서 항목집합 ab 및 abc의 경우 정방향 감쇠율에서는 지지도가 낮은 편이었으나 역방향 감쇠율에서는 매우 높은 지지도를 보인다. 반면, 항목집합 bd 및 bcd의 경우 정방향 감쇠율에서는 높은 지지도를 가지나 역방향 감쇠율에서는 상대적으로 낮은 지지도를 갖는다. 본 예에서 지지도 임계값 S _min 이 0.5로 설정된 경우 항목집합 bd 및 bcd의 경우 근래에 빈번히 발생한 빈발 항목집합은 될 수 있으나 HAI는 되지 못하는 반면 항목집합 ab 및 abc는 HAI로 탐색한다. 한편, 항목집합 bc와 같이 정방향 및 역방향 감쇠율 모두에서 지지도 임계값 이상을 갖는 경우에도 HAI가 되지 못한다. 본 예의 항목집합 ab 및 abc 등에서 보는 바와 같이 HAI는 데이터 스트림 초기의 과거 트랜잭션에서는 빈번히 발생되었으나 근래에 생성된 트랜잭션에서는 발생빈도가 낮은 것들로서 과거 단골에 대한 타겟 마케팅 등에 유용하게 활용될 수 있다.

(이중감쇠 방법)

하나의 데이터 스트림에 HAI를 효율적으로 탐색하기 위한 데이터 스트림 마이닝 기법은 정방향 및 역방향 감쇠율을 이용하여 분석 대상이 되는 데이터 스트림에서 발생되는 구성 요소의 중요성을 차별화하고 이를 바탕으로 HAIs를 탐색하며, 이를 이중감쇠(Duplex Decay mechanism for mining data streams) 기법이라 한다.

즉, 이중감쇠 기법은 양방향의 감쇠율을 활용하여 데이터 스트림에 발생한 구성요소의 중요성 차별화를 구현함으로써 HAIs를 효율적으로 탐색한다. 대다수 기존의 데이터 스트림 마이닝 기법들(비특허문헌16, 1, 17)에서는 지속적으로 확장되는 데이터 스트림에 대한 마이닝 결과 탐색 과정에서 메모리 사용량이 한정적으로 유지되고, 마이닝 결과를 필요로 하는 경우 비교적 짧은 시간에 이를 구할 수 있도록 지원한다. 반면, 각 시점에서 얻어진 마이닝 결과에는 다소간의 오차가 포함될 수 있다(비특허문헌 18).

이중감쇠 기법도 마이닝 수행 과정에서의 메모리 사용량 및 처리 시간을 감소시키기 위해서 비특허문헌 16 및 비특허문헌 1등에서 제안한 기법들을 적용하고 있고, 이중감쇠 기법의 주요 실행 과정은 도 4에 도시한 바와 같다.

(실험결과)

데이터 집합 DS_aB는 일련의 서브파트 part_A 및 part_B로 이루어진다. part_A는 일련의 항목 set_A에 의해 발생된 트랜잭션이고, part_B는 일련의 항목 set_B에 의해 발생된 트랜잭션이다. set_A와 set_B 사이에는 공통적인 항목이 없다. 각각의 서브파트는 비특허문헌 19에서 설명된 것과 동일한 방법에 의해 발생되고, 각각의 서브파트에서 전체 항목 수는 1000이다. 데이터 집합은 100,000 트랜잭션으로 구성되고, 그 중 10,000 트랜잭션이 part_A이고 나머지가 part_B이다. 데이터 집합 DS_Web은 포털 웹사이트의 웹페이지 접속 로그로부터 발생된다. 사용자에 의해 접속된 일련의 웹페이지들은 의미상 원자 단위의 활동, 즉 트랜잭션으로 인식된다. 트랜잭션은 동시에 빈번하게 접속되는 일련의 웹페이지 들을 찾기 위한 귀중한 정보를 제공할 수 있다. 그러나 사용자가 일정 기간 동안에 어느 웹페이지에도 접속하지 않으면 그에 상응하는 트랜잭션은 종료된 것으로 생각하고 새로운 트랜잭션이 사용자가 접속할 새로운 웹페이지를 위해 규정된다. 항목들의 전체 숫자, 즉 웹페이지의 숫자는 545이고 트랜잭션의 총 숫자는 260385이다. 데이터 집합 DS_Web의 트랜잭션의 최소길이, 트랜잭션의 최대길이 및 트랜잭션의 평균길이는 각각 2, 30 및 5이다. 모든 실험에서 온라인 데이터 스트림의 환경을 시뮬레이션하기 위해 각각의 데이터 집합 트랜잭션은 차례대로 하나씩 검색된다. 모든 실험들은 메인메모리 2GB의 3.0GHz Core2 Duo 장치에서 Linux를 이용하였고, 모든 프로그램은 C언어로 시행되었다.

양방향 감쇠 기법을 적용한 HAI 탐색 기법 및 데이터 스트림에서 이를 효율적으로 탐색하기 위한 이중 감쇠 방법의 특성을 검증하기 위해서 먼저 정방향 및 역방향 감쇠 기법 적용에 따른 마이닝 결과 집합의 변화를 분석하였다. 이를 위해서 집합 DS _ aB에 대한 빈발 항목집합에서 얻어진 마이닝 결과 집합의 항목집합 수를 분석하였으며 정방향 감쇠 기법 적용, 역방향 감쇠 기법 적용 및 감쇠 기법 미적용 등 세 가지 경우에 대해서 분석한 결과 도 5(a), 도 5(b)에서와 같은 결과를 얻었다.

본 실험에서 빈발항목 집합 탐색을 위한 지지도 임계값 Smin은 0.05%로 설정되었으며, b 값이 2이고, h 값이 10,000인 감쇠율 d = b ^-( ^1/h ⁾을 적용하였다.

이 실험에서 트랜잭션의 시리즈는 간격 10으로 분할되고, 각각은 10,000 트랜잭션으로 이루어진다. 각 구간의 졸료 시점에서 구해진 마이닝 결과집합에서 항목의 각 세트로부터 유도된 항목집합의 수를 비교하였다.

도 5(a)에서 데이터 집합 DS _ aB에서 첫 번째 구간은 모든 트랜잭션들이 set_A로부터 생선된 것들(즉, part _A에 속하는 트랜잭션들)로 구성되며, 따라서 해당 구간에서는 세 가지 감쇠 기법(즉, 정방향 감쇠 기법, 역방향 감쇠 기법 및 감쇠 기법 미적용) 모두 set _A로부터 유도된 항목집합들이 마이닝 결과로 다수 탐색된다. 하지만, 두 번째 구간 이후부터는 그 수가 확연한 차이를 보인다. 즉, 정방향 감쇠 기법이나 감쇠 기법 미적용의 경우 part_B에 속하는 트랜잭션들이 증가함에 따라 마이닝 결과 집합에서 set _A로부터 유도된 항목집합의 수(항목 set _A의 세트로부터 유래된 항목집합의 수)가 급격히 감소됨을 알 수 있다.

반면, 역방향 감쇠 기법의 경우 part _B에 속하는 트랜잭션들이 증가하더라도 마이닝 결과 집합에서 set _A로부터 유도된 항목집합의 수(항목 set _A의 세트로부터 유래된 항목집합의 수)가 많이 감소되지 않고 다수의 set _A로부터 유도된 항목집합들이 지속적으로 탐색된다.

한편, 도 5(b)에서 보듯이 두 번째 이후 구간에서는 세가지 경우 모두에서 part_B로부터 유도된 항목집합 다수가 지속적으로 탐색된다. 즉, 역방향 감쇠 기법의 경우 과거 발생 정보들 중 관심도가 큰 항목집합(본 실험에서는 set _A로부터 유도된 항목집합) 뿐만 아니라 근래에 발생된 정보들 중 관심도가 큰 항목집합(본 실험에서는 set _B로부터 유도된 항목집합)도 다수가 함께 탐색됨을 알 수 있다. 이러한 결과로부터 과거 단골 고객에 대한 집중형 마케팅 등을 위한 고관심 정보의 효율적 탐색을 위해서는 역방향 감쇠 기법을 단독으로 적용하기보다는 이중 감쇠 메커니즘과 같이 정방향 및 역방향 감쇠 기법이 복합적으로 적용될 필요가 있음을 알 수 있다. 즉, 본 발명에서 제안한 HAI가 해당 목적을 위해 유용하게 활용될 수 있을 것이다.

아래의 표4는 도 5(a) 및 도 5(b)와 동일한 실험에서 마이닝 결과로 얻어지는 몇 개 항목집합의 지지도 변화를 상세히 분석한 결과를 보여주며, 세 가지 감쇠 기법에 대해서 해당 항목집합들의 지지도 변화를 조사하였다. 해당 항목집합들은 set_A에 thrgksms 트랜잭션에서 발생된 항목집합으로서 정방향 감쇠 기법이나 감쇠 기법 미적용의 경우 part _B에 속하는 트랜잭션들이 증가함에 따라 지지도가 급격히 감소된다. 특히, 정방향 감쇠 기법의 경우 해당 항목집합들의 지지도가 매우 작은 수준(거의 0에 가까운 값)으로 감소되었다. 반면, 역방향 감쇠 기법의 경우 동일한 조건에서 지지도가 감소되기는 하나 감소폭이 상대적으로 적은 수준이다.

해당 실험의 Smin 값이 0.055임을 감안할 때, T ₁₀₀₀₀ 이 처리된 후 얻어진 마이닝 결과 집합에서 네 개의 항목집합들은 HAI로 탐색되지 못한다. 왜냐하면, 해당 항목들의 지지도가 역방향 감쇠 기법 및 정방향 감쇠 기법 모두에서 S _min 보다 크기 때문이다. 하지만 T ₁₀₀₀₀ 이 처리된 후 얻어진 마이닝 결과 집합에서 네 개의 항목집합들은 모두 HAI로 탐색된다. 왜냐하면, 해당 항목집합들의 지지도가 역방향 감쇠 기법의 경우는 S _min 보다 크고 정방향 감쇠 기법의 경우에는 S _min 보다 작기 때문이다.

지지도 변화 비교

Mechanism	역방향 감쇠			감쇠 없음			정방향 감쇠
TID (Itemsets)	10000	50000	100000	10000	50000	100000	10000	50000	100000
(1368,1692)	0.00281	0.00145	0.00141	0.00270	0.00054	0.00027	0.00260	x	x
(1227,1722)	0.00268	0.00138	0.00134	0.00260	0.00052	0.00026	0.00253	x	x
(1381,1640,1896)	0.00170	0.00088	0.00085	0.00170	0.00034	0.00017	0.00168	x	x
(1207,1381,1640,1896)	0.00161	0.00083	0.00081	0.00160	0.00032	0.00016	0.00157	x	x

도 6은 데이터 집합 DS _ aB에 대한 HAI 탐색실험(지지도 임계값 등의 실험조건은 도 5(a), 도 5(b)의 실험과 동일)에서 역방향 감쇠 기법 적용시 얻어진 빈발 항목집합의 수, 정방향 감쇠 기법 적용시 얻어진 빈발 항목집합의 수 및 이들 사이에 공통으로 포함되는 항목집합의 수에 대한 분석 결과를 보여준다.

본 실험에서 트랜잭션의 시리즈는 10 간격으로 나누고, 각각은 10,000 트랜잭션으로 구성된다. 각 구간의 종료 시점에서 마이닝 결과로 구해지는 빈발 항목집합의 수를 비교하였다. 도 6에서 보듯이 모든 트랜잭션들이 part _A에 속하는 것들로 구성되는 첫 번째 구간에서는 많은 수의 항목집합들이 두 감쇠 기법에서 공통으로 탐색되었다. 하지만, 두 번째 이후의 구간에서는 공통적으로 탐색되는 항목집합의 수가 크게 감소된다. 하지만, 해당 구간들에서도 역방향 감쇠 기법에서 탐색된 빈발 항목집합 중 일부가 정방향 감쇠 기법에서도 빈발 항목집합으로 탐색되며, 해당 항목집합들은 분석 대상 데이터 집합 전체에서 지속적으로 비번히 발생된 것들로서 기존의 일반적인 데이터 스트림 마이닝 기법(즉,감쇠 기법 미적용 또는 정방향 감쇠 기법만 적용)에서도 탐색된다.

이중 감쇠방법의 기본적인 실행은 마이닝 기법에서 트랜잭션 당 메모리 사용량과 처리 시간을 분석함으로써 확인할 수 있다. 본 발명에서 상기 데이터는 감쇠율 d = b ^-( ^1/h ⁾에서 b = 2일 때 h 값을 변화하면서 분석하였다.

본 실험을 위해 데이터 집합 DS _ aB이 사용되었고, Smin은 0.05%부터 시작하였다. 트랜잭션의 시리즈는 5 간격으로 나누고 각각은 20,000 트랜잭션으로 구성된다. 도 7(a)는 상기 방법에 따른 메모리 사용량을 나타낸다. 메모리 사용량은 각각의 간격에서 최대 사용량을 나타낸다. 도 7(b)는 각각의 간격에서 상기 방법의 트랜잭션 당 평균 처리시간을 나타낸다. 트랜잭션 당 처리 시간은 새로운 트랜잭션의 발생에서부터 업데이트 Cnt 과정이 종료될 때까지의 기간으로 측정된다.

도면에 나타낸 바와 같이 트랜잭션 수가 증가됨에 따라 메모리 사용량이 다소 증가하였으나 최대 사용량은 15MB를 넘지 않으며, 특히 충분히 많은 수의 트랜잭션이 처리된 후(즉, 4번째 구간 이후)에는 메모리 사용량이 거의 증가되지 않고 일정 수준으로 유지되고 있다.

메모리사용량에서와 마찬가지로 트랜잭션 수가 증가됨에 따라 트랜잭션당 처리시간이 다소 증가되었으나, 25밀리초 보자 적어 충분히 많은 수의 트랜잭션이 처리 된 후(즉, 4번째 구간 이후)에는 트랜잭션당 처리시강이 거의 증가되지 않고 일정 수준으로 유지되고 있다. 이러한 결과에서 보듯이 기존의 데이터 스트림 마이닝 기법들(비특허문헌 16, 1)과 마찬가지로 이중 감쇠 방법도 메모리 사용량 및 트랜잭션 처리 시간 측면에서 효율적으로 마이닝 결과를 얻을 수 있다.

도 8(a)와 도 8(b)는 데이터 집합 DS _ Web의 실험결과를 나타낸다. 본 실험에서 지지도 임계치는 0.5%에서부터 시작한다. 감쇠율 d = b ^-( ^1/h ⁾에서 b값은 2에서 시작하고 감쇠율에서 h를 위한 2개의 값이 사용된다. DS _ Web의 일련의 트랜잭션은 5개의 간격으로 나뉘는데 각각은 50,000 트랜잭션으로 구성되고 도면은 각각의 간격 끝에서 빈번한 항목 집합의 수를 나타낸다.

도면에 나타낸 바와 같이 도면에 제시된 두 경우(즉, h = 10,000 및 h = 50,000) 모두에서 정방향 감쇠 기법에서만 탐색된 항목집합의 수는 매우 적은 반면 역방향 감쇠 기법에서만 탐색된 항목집합은 그 수가 상당히 많은 편이다. 이러한 결과로부터 해당 데이터 집합 DS _ Web에서는 시간 흐름에 따라 트랜잭션을 구성하는 항목집합이 상당히 변화되었음을 알 수 있다. 즉, 데이터 집합 초창기에 빈번하게 발생된 항목집합들 중 다수가 시간 흐름에 따라 새롭게 생성된 트랜잭션에서는 포함되지 않은 것으로 판단된다. 이러한 특성을 갖는 데이터 집합은 본 발명에서 제안한 이중 감쇠 메커니즘을 적용한 이중 감쇠 방법을 통해 보다 유용한 관심 정보인 HAI를 탐색함으로써 분석 결과의 활용도를 높일 수 있다.

(결론)

시간 변화에 따른 구성요소 등의 가변성이 큰 데이터 스트림의 특징을 고려하여 하나의 데이터 스트림에서 구성요소의 중요성을 발생 시점을 고려하여 차별화하기 위한 여러 기법들이 제안되어 왔다. 해당 기법들에서는 일반적으로 근래에 발생한 정보들은 큰 중요성을 갖는 것으로 간주되는 반면 과거에 발생한 정보들은 매우 낮은 중요성을 갖는 것으로 간주되거나 중요성이 무시되기도 한다. 하지만 실제 응용 분야에서는 비록 오래 전 과거에 발생된 정보라 할지라도 관심도가 큰(혹은 중요한 의미를 갖는) 정보들이 존재하기도 하며, 회소성이나 역사성 측면에서 중요성을 인정받는 경우도 있다. 즉, 분석 결과의 효율성 및 활용성을 높이기 위해 과거의 정보들이 중요한 의미를 갖는 경우가 있다.

본 발명에서 데이터 마이닝 관심 분야 중의 하나인 고유성 관심 정보의 하나로서 고도의 주의 항목집합(HAIs)을 제시하고 이를 효율적으로 탐색하기 위한 이중 감쇠 메커니즘을 제안하였다. 또한, 하나의 데이터 스트림에서 HAIs를 효율적으로 탐색하기 위한 탐색 기법을 제시하였다. HAI는 하나의 데이터 스트림에서 최근에 자주 발생되지 않으나 과거에는 빈번히 발생했던 것으로 관심도가 큰 항목집합으로서 과거 단골에 대한 집중형 마케팅분야 등에서 활용도가 큰 항목집합을 지칭한다. 근래 발생 정보의 중요성은 높게 부여하는 반면 과거 발생정보는 중요성이 낮은 것으로 간주하거나 무시하는 기존의 정보 중요성 차별화 법들과 달리 HAI 및 이의 효율적 탐색을 위한 이중 감쇠 메커니즘은 분석 대상 데이터 스트림에서 시간축을 기준으로 보다 다양한 형태의 정보 중요성 차별화를 지원하여 고유성/고관심 항목집합을 탐색할 수 있도록 지원한다.

따라서 본 발명에서 나타낸 HAIs 및 이중 감쇠 메커니즘은 데이터 스트림을 발생시키는 다양한 컴퓨터 응용분야에서 효율적으로 사용될 수 있고, HAIs의 마이닝 기법으로 얻은 정보는 이 분야에 관련된 기업체 및 개인에게 도움을 제공할 수 있다.

지금까지 본 발명을 바람직한 실시예로서 설명하였으나, 본 발명은 이에 한정되지 않고 발명의 요지를 이탈하지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.

Claims

데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs; Highly Attention Itemsets)을 설정하는 HAIs 설정단계와; 정감쇠율 및 역감쇠율을 복합적으로 실행하는 이중 감쇠율 실행단계 및; 데이터 스트림 D _k 에서 고도의 주의 항목집합(HAIs)의 세트를 완성하는 단계로 이루어진 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
제 1항에 있어서, 상기 이중 감쇠율 실행단계는 T _k 안의 항목집합의 수를 업데이트하는 업데이트단계와; HAIs 결과값을 찾는 HAIs 결과값 찾기 단계로 이루어지는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
제 2항에 있어서, 상기 업데이트단계는 D _k 안의 각각의 새로운 트랜잭션 T _k 에 대하여 정방향 메커니즘에서의 트랜잭션들의 총수
와 역방향 메커니즘에서의 트랜잭션들의 총수
를 각각 업데이트하고,
도 업데이트 하며; T _k 안의 각각의 항목집합 e에 대하여 항목집합에 상응하는 노드가 ML안에 있다면,
와
를 업데이트하고, 업데이트
로 정의하며, 그렇지 않으면, 그에 상응하는 노드는 ML로 새로 집어 넣는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
제 3항에 있어서, 정방향 메커니즘에 있어서의 트랜잭션들의 총수
를 하기 수학식 1로부터 얻는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
수학식 1

여기서 d 는 감쇠율, k 는 차례의 하한, D 는 차례의 상한,
는 데이터 스트림 D _k 에 있는 트랜잭션들의 총수를 각각 나타낸다.
제 3항에 있어서, 데이터 스트림 D _k 에 있는 항목집합 e 의 수
는 하기 수학식 2로부터 얻는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
수학식 2

여기서 d 는 감쇠율, k 는 차례의 하한, D 는 차례의 상한,
는 데이터 스트림 D _k 에 있는 항목집합 e 의 수를 각각 나타낸다.
제 3항에 있어서, 역방향 메커니즘에 있어서의 트랜잭션들의 총수
를 하기 수학식 3으로부터 얻는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
수학식 3

여기서 d 는 감쇠율, k 는 차례의 하한, R 은 차례의 상한,
는 데이터 스트림 D _k 에 있는 트랜잭션들의 총수를 각각 나타낸다.
제 3항에 있어서, 데이터 스트림 D _k 에 있는 항목집합 e 의 수
는 하기 수학식 2로부터 얻는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
수학식 4

여기서 d 는 감쇠율, k 는 차례의 하한, R 은 차례의 상한,
는 데이터 스트림 D _k 에 있는 항목집합 e 의 수를 각각 나타낸다.
제 3항에 있어서, 상기 업데이트
는 e와 T _k 안의 단일 항목으로 구성된 T _k 안의 각각의 항목집합 에 대하여 항목집합의 상응하는 노드가 ML안에 있으면,
와
를 업데이트하고, 업데이트
로 정의하며, 그렇지 않으면, 상응하는 노드는 ML로 새로 집어 넣고, 리턴하는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
제 2항에 있어서, 상기 HAIs 결과값 찾기 단계는 상응하는 노드가 ML에 있는 각각의 항목집합 e에 대하여
이고,
이면, 출력e는 HAI이고,
로 정의하는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.
제 9항에 있어서, 상기
는 e와 단일 항목으로 구성된 ML안의 각각의 항목집합 에 대하여
이고
이면, 출력ｅ′는 HAI 이고,
로 정의하는 것을 특징으로 하는 이중 감쇠율 기법으로 고관심 정보를 마이닝하는 방법.