KR100776640B1 - System and method for finding the time sensitive frequent itemsets - Google Patents

System and method for finding the time sensitive frequent itemsets Download PDF

Info

Publication number
KR100776640B1
KR100776640B1 KR20050089986A KR20050089986A KR100776640B1 KR 100776640 B1 KR100776640 B1 KR 100776640B1 KR 20050089986 A KR20050089986 A KR 20050089986A KR 20050089986 A KR20050089986 A KR 20050089986A KR 100776640 B1 KR100776640 B1 KR 100776640B1
Authority
KR
South Korea
Prior art keywords
frequency
item
search
entry
appearance
Prior art date
Application number
KR20050089986A
Other languages
Korean (ko)
Other versions
KR20070035300A (en
Inventor
박태수
안찬민
이주홍
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR20050089986A priority Critical patent/KR100776640B1/en
Publication of KR20070035300A publication Critical patent/KR20070035300A/en
Application granted granted Critical
Publication of KR100776640B1 publication Critical patent/KR100776640B1/en

Links

Images

Abstract

본 발명은 데이터 마이닝 시스템에서 시간차를 이용하여 상대적인 빈발항목을 탐색할 수 있도록 한 시간차를 이용한 상대적인 빈발항목 탐색시스템 및 방법을 제공하며, 본 발명의 시스템은 입력 모듈을 통해 입력된 데이터 스트림에서 소정 트랜잭션 내에서 출현하는 항목들의 집계를 통해 빈발항목을 탐색하며, 소정 트랜잭션 동안 출현하는 항목들의 시간차를 이용하여 상대적인 빈발항목을 탐색하는 탐색 모듈 및 상기 탐색 모듈에서 탐색된 빈발항목을 저장하는 저장 모듈을 구비함을 특징으로 하며, 이러한 본 발명은 시간에 민감한 빈발항목을 탐색할 수 있으며, 빈발항목 탐색에 대한 정확도를 높일 수 있고, 한정적인 메모리를 효율적으로 사용할 수 있게 된다. The present invention provides a relatively frequent item search system and method using a time difference between a to explore the relative frequency entry with a time difference in the data mining system, the system of the present invention certain transactions from a data stream input through the input module, search the frequency entry through the aggregation of the items appearing in, and provided with a storage module for storing the frequency entry search in a given transaction, the navigation module and the search module using the time difference of the items to navigate a relatively frequent item which appears for characterized in that, and this invention is to explore the frequency sensitive item in time, it is possible to increase the accuracy of the frequency search item, it is possible to use a limited memory efficiently.
데이터 마이닝, 트랜잭션, 상대적 빈발항목, 시간차, 탐색, 데이터 스트림 Data Mining, transaction, relatively frequent entries, time difference, the navigation data stream

Description

시간차를 이용한 상대적인 빈발항목 탐색 시스템 및 방법{SYSTEM AND METHOD FOR FINDING THE TIME SENSITIVE FREQUENT ITEMSETS} Relative frequency item search system and method using a time difference {SYSTEM AND METHOD FOR FINDING THE TIME SENSITIVE FREQUENT ITEMSETS}

도 1은 본 발명에 따른 시스템 구성도. 1 is a system configuration according to the present invention.

도 2는 본 발명에 따른 상대적인 빈발항목 탐색을 위한 기본 요소를 나타낸 표. Figure 2 is a table illustrating a basis for the search item relative frequency according to the present invention.

도 3은 본 발명에 따른 상대적인 빈발항목을 설명하기 위한 도. 3 is a diagram illustrating the relative frequency items in accordance with the present invention.

도 4는 본 발명에 따른 시간차를 이용한 상대적인 빈발항목 탐색방법의 알고리즘. 4 is the relative frequency of the search algorithm entry method using a time difference in accordance with the present invention.

도 5는 도 4에 대한 흐름도. 5 is a flow diagram for the FIG.

도 6은 본 발명의 실험 예로서 빈발항목과 빈발항목에 대한 정확도를 나타낸 그래프. Figure 6 is a graph showing the accuracy of the frequency and frequency entry item as Experimental Example of the present invention.

도 7은 본 발명의 실험 예로서 최소 지지도에 따른 평균 수행시간을 나타낸 그래프. Figure 7 is a graph showing the average execution time of the minimum support as an experimental example of the present invention.

도 8은 본 발명의 실험 예로서 FP-Tree 메모리 사용량을 나타낸 그래프. Figure 8 is a graph showing the FP-Tree memory usage as in Experimental Example of the present invention.

<도면의 주요 부분에 대한 부호의 설명> <Description of the Related Art>

10 : 입력 모듈 20 : 탐색 모듈 10: Input Module 20: search module

30 : 저장 모듈 30: Storage Modules

본 발명은 데이터 마이닝 시스템에 관한 것으로, 특히 데이터 스트림에서 시간적 측면을 고려하여 상대적인 빈발항목을 탐색할 있도록 하는 시간차를 이용한 상대적인 빈발항목 탐색 시스템 및 방법에 관한 것이다. The present invention relates to a data mining system, to a relative frequency item search system and method using a time difference so that especially in consideration of the temporal aspects of the data stream to explore the relative frequency entries.

최근 들어 저장장치의 발전과 네트워크의 발달로 인하여 지속적으로 많은 양의 데이터가 빠른 시간 내에 증가되고 있다. Recent developments and ongoing large amounts of data, due to the development of a network of storage devices is increasing quickly. 예를 들어, 네트워크의 침입 탐지나 유비쿼터스, e-commerce등 많은 응용분야에서 대용량의 데이터가 발생되고 있으며, 이러한 응용 환경에서 가치 있는 정보를 추출하기 위한 많은 노력들이 여러 분야에 걸쳐 이뤄지고 있다. For example, there are large amounts of data being generated in many applications such as network intrusion detection and ubiquitous, e-commerce, there are many efforts to extract valuable information from these applications being made environment across multiple sectors.

일반적으로 데이터 마이닝의 대상이 되는 데이터 집합에서는 응용분야에 나타나는 모든 단위 정보들을 단위항목(item)으로 정의하고, 응용분야에서 의미적인 동시성(즉, 의미적으로 서로 함께 발생하는)을 갖는 단위 정보들의 모임을 트랜잭션(transaction)이라 정의한다. In general, of the unit information with the data set in the sense of concurrency (that is, for each occurrence with semantically) in the definition of all of the unit information to the unit entry (item), and applications that appear in applications where the destination of the data mining It is defined as a group transactions (transaction). 트랜잭션은 의미적인 동시성을 갖는 단위 항목들의 정보를 가지며, 데이터 마이닝의 분석 대상이 되는 데이터 집합은 해당 응용분야에서 발생된 트랜잭션들의 집합으로 정의된다. Transaction has a unit of information items having a mean concurrency, set of data that can be analyzed in data mining is defined as a set of transactions that occur in the application.

데이터 마이닝 기법을 통한 데이터 스트림에서의 가치 있는 정보 추출은 주 요 연구 분야 중 하나이며, 데이터 스트림은 매우 빠른 시간 내에 지속적으로 데이터가 증가되는 특성을 가지고 있다. Information extracted from the value in the data stream via data mining is one of the major areas of research, the data stream is continuous with the characteristics of the data is increased within a very short time. 따라서 데이터 마이닝에서 데이터 스트림을 처리하기 위한 다음과 같은 조건들이 요구되고 있다. Accordingly, the following conditions for processing a data stream in data mining is required.

첫째, 매우 빠른 시간 내에 증가하는 데이터를 한정적인 저장 공간에 모두 저장하는 것은 불가능하기 때문에 메모리 공간을 유연하게 사용하여 정보의 손실 없이 데이터를 효율적으로 저장하는 방법이 필요하다. First, storing all the data to be increased in a very short time to limiting storage space there is a need for a method to efficiently store the data without loss of information by using the flexibility of memory space as it is impossible to do.

둘째, 데이터 스트림에서는 데이터가 매우 빠른 시간 내에 생성되고 현 시점에서의 마이닝 결과가 중요하기 때문에 마이닝 결과를 원하는 즉시 생성해 주어야 한다. Second, the data is generated within a very short period of time in the data stream and must immediately produce the desired results due to the mining of the importance of the mining results at this time. 그러기 위해서는 데이터 스트림에서의 각 트랜잭션을 생성되는 즉시 오직 한번만 읽고 마이닝 결과를 즉각 생성해야 한다(장중혁, 이원석.,(2003). 데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색. 정보처리학회 논문지, 10-D(3).) To do it only once and read instantly generated for each transaction in the data stream should immediately create a mining results (intraday Hyuk, Lee, Won - Seok., (2003) Navigation frequent topic of open data-mining based on the data stream. Journal of Information Processing Society, 10-D (3).)

데이터 스트림에서 가장 기본적인 문제는 빈발항목들을 찾는 것이다(Charikar, M., Chen, K., & Farach-Colton, M., (2002). Finding Frequent Items in Data Streams. International Colloquium on Automata,Languages, and Programming, 508-515.). The most fundamental problem in the data stream is to find frequent item (Charikar, M., Chen, K., & Farach-Colton, M., (2002). Finding Frequent Items in Data Streams. International Colloquium on Automata, Languages, and Programming, 508-515.).

기존의 데이터 마이닝 기법은 정적인 트랜잭션들에 대해서 한번의 탐색으로 일정한 후보 빈발항목을 만든 후에 미리 정의된 특정 임계값 보다 높은 지지도를 가지는 빈발항목을 찾기 때문에 메모리의 사용량이 많고 처리 시간이 길다. Conventional data mining techniques are long because of the search for items with a high frequency approval rating than a pre-defined specific threshold made after a certain candidate frequency search item as the one with respect to the static transaction lot the amount of the memory process time.

또한, 데이터 스트림은 매우 많은 양의 데이터가 끊임없이 들어오기 때문에 모든 단위 항목들을 저장할 수 없으므로, 기존의 데이터 마이닝 기법을 데이터 스트림에 그대로 적용하는 것은 적합하지 않다. In addition, the data stream is coming, because a very large amount of data is constantly instance can not save all the unit entries, it is not appropriate to accept the traditional data mining techniques to the data stream. 따라서 데이터 스트림에서 빈발항목을 찾는 새로운 방안들이 연구되고 있다(장중혁, 이원석.,(2003). 데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색. 정보처리학회 논문지, 10-D(3)., Manku, GS, & Motwani, R.,(1994). Approximate frequency counts over data streams, In Proc. of the 28th Conference on Very Large Databases., Giannella, C., Han, J., Pei, J., Yan, X., & Yu, PS,(2003). Mining Frequent Patterns in Data Streams at Multiple Time Granularities, Next Generation Data Mining, AAAI/MIT. 등등). So being studied and new ways to find the frequent item in the data stream (intraday Hyuk, Lee, Won - Seok., (2003) Navigation frequent topic of open data-mining based on the data stream. Information Processing Society, 10-D (3)., Manku, GS, & Motwani, R., (1994). Approximate frequency counts over data streams, In Proc. of the 28th Conference on Very Large Databases., Giannella, C., Han, J., Pei, J., Yan , X., & Yu, PS, (2003). Mining Frequent Patterns in Data Streams at Multiple Time Granularities, Next Generation Data Mining, AAAI / MIT. etc.).

그러나 현재까지의 데이터 스트림에서의 빈발항목 탐색 방법들은 단순히 빈발항목의 집계를 통해 빈발항목을 탐색하거나 또는 일정한 크기의 슬라이딩 윈도우를 임의로 설정하여 그 시간, 즉 구간에 국한된 빈발항목을 탐색하고 있으며, 시간이 흐름에 따라 총체적으로 빈발항목을 집계하기 때문에 현 시점에서 빈발항목의 변화 및 시간이 흐름에 따른 상대적인 빈발항목을 간과하고 지나쳐 빈발항목 탐색의 정확도를 보장하지 못하고 있다. However, we explore the frequent entries unique to that time, that is the interval frequency entry search method in a data stream to date are simply browsing the frequent items via the aggregates of frequent item or set of sliding window of a predetermined size, optionally, time because the overall aggregate-prone topics depending on the flow of time, and it does not change frequently overlooked items at the present time the relative frequency of the flow of items and ensure the accuracy of past frequent topic search.

한편, 이전에 연구된 빈발항목에 대한 알고리즘들은 대부분 Apriori원칙에 기반을 두고 있다(Rakesh Agrawal,, & Ramakrishnan Srikant., (1994). Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, 487-499.). On the other hand, the algorithm for frequent item previous studies have put the majority based on the principle of Apriori (Rakesh Agrawal ,, & Ramakrishnan Srikant., (1994). Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, 487-499.).

이 원칙은 빈발항목의 모든 부분집합은 반드시 빈발항목이었어야 한다는 것 이다. This principle is all subsets of frequent items is a frequent topic was that it must be. Apriori알고리즘은 빈발항목의 최대 길이가 n이면 n+1까지 탐색하여 후보 집합을 생성하고, 빈발 항목을 탐색하기 때문에 메모리의 사용량이 크고 반복적인 데이터베이스 탐색으로 인하여 빈발항목을 탐색하는데 많은 시간이 소요된다. Apriori algorithm is a long time to search a frequency entry due to the iterative database search the amount of memory larger, because if the maximum length of the frequency entry n seek to the n + 1 to generate a candidate set, and the search for frequent item takes .

반면에, 분할-정복기법(divide-and-conquer)을 사용하는 FP-growth는 후보 집합을 생성하지 않는다(Han, J., & Yin, Y.,(2000). Mining frequent patterns without candidate generation. In Proc. IEEE Symposium on Foundations of Computer Science, 359-366.) On the other hand, split - FP-growth technique used to conquer (divide-and-conquer) does not generate a candidate set (Han, J., & Yin, Y, (2000) Mining frequent patterns without candidate generation... In Proc. IEEE Symposium on Foundations of Computer Science, 359-366.)

FP-growth는 길거나 짧은 빈발 항목을 마이닝하는데 매우 효율적이고, 확장성을 가지며, Apriori알고리즘보다 속도 측면에서 한 차원 앞선다는 것을 보여주고 있다. FP-growth is very effective in the mining or shorter frequent entries and has a scalable, it demonstrates that precedes a dimension in terms of speed than Apriori algorithm.

그러나 상기한 두 기법 모두 데이터 집합을 다중 탐색해야하며 새로운 트랜잭션이 발생하였을 때 전체를 재탐색해야 한다. However, the above two methods both have to navigate through multiple sets of data and should re-explore the entire time a new transaction hayeoteul occur. 또한, 데이터 집합이 지속적으로 빠르게 증가하면 가용 메모리의 한정성으로 인하여 성능이 낮아지는 단점이 있다. In addition, when the data set is continually growing rapidly there is a disadvantage that the performance decreases due to the limitation of the available memory.

또한, Count Sketch 알고리즘은 데이터 스트림에서 단위 항목들의 빈발도수에 중점을 두고 있으며(Charikar, M., Chen, K., & Farach-Colton, M., (2002). Finding Frequent Items in Data Streams. International Colloquium on Automata,Languages, and Programming, 508-515.), Lossy Counting 알고리즘은 최소 지지도와 최대 허용 오차 조건이 주어졌을 때 데이터 스트림에서 발생한 빈발항목들의 집합을 찾는다(Manku, GS, & Motwani, R.,(1994). Approximate frequency counts over data streams, In Proc. of the 28th Conference on Very Large Databases.). Also, Count Sketch algorithm is focused on the frequency of the units in the data stream, and also (Charikar, M., Chen, K., & Farach-Colton, M., (2002). Finding Frequent Items in Data Streams. International Colloquium on Automata, Languages, and Programming, 508-515.), Lossy Counting algorithm looks for a set of frequent itemsets generated in the data stream, given a minimum support and the maximum tolerance condition (Manku, GS, & Motwani, R ., (1994). Approximate frequency counts over data streams, In Proc. of the 28th Conference on Very Large Databases.).

그러나 이들 알고리즘들은 시간을 고려하지 않고 단순히 빈발항목을 탐색하는데 중점을 두고 있어 정확한 빈발항목을 탐색할 수 없는 단점이 있다. However, these algorithms have the disadvantage that can not navigate to the correct item Frequent're focused simply browse the frequent topic, without considering the time.

본 발명은 이러한 점을 감안한 것으로, 본 발명의 목적은 데이터 스트림에서 시간을 고려하여 일정 트랜잭션 동안 항목들이 출현하는 시간차를 이용하여 미처 발견하지 못한 상대적인 빈발항목을 탐색할 수 있도록 함으로써 빈발항목 탐색의 정확도를 개선하고 한정적인 메모리 자원을 효율적으로 사용 및 관리할 수 있도록 한 시간차를 이용한 상대적인 빈발항목 탐색 시스템 및 방법을 제공함에 있다. The present invention in consideration of this, an object of the present invention by making it possible to explore the relative frequency entries have not micheo found by using the time differences that for a certain transaction entry emerge, taking into account the time from the data stream frequent item search accuracy the frequency has a relative item search system and method for improving and using the time difference to the efficient use and management of limited memory resources to provide.

상기 본 발명의 목적을 달성하기 위한 본 발명에 따른 시간차를 이용한 상대적인 빈발항목 탐색 시스템은, 데이터 마이닝 시스템에서 빈발항목을 탐색함에 있어, 입력되는 데이터 스트림을 처리하는 입력 모듈; The relative frequency search item with a time difference according to the present invention for achieving the object of the present invention system, in the following a search frequency in the data mining system, to handle the incoming data stream input module; 상기 입력 모듈을 통해 입력된 데이터 스트림에서 소정 트랜잭션 내에서 출현하는 항목들의 집계를 통해 빈발항목을 탐색하며, 소정 트랜잭션 동안 출현하는 항목들의 시간차를 이용하여 상대적인 빈발항목을 탐색하는 탐색 모듈; Search module for searching the relative frequency from the item to a data stream input through the input module, a frequency search items via the aggregates of the items that occur within a given transaction, by using the time difference of the item which appears for a predetermined transaction; 및 상기 탐색 모듈에서 탐색된 빈발항목을 저장하는 저장 모듈;을 포함하는 것을 특징으로 한다. Characterized in that it comprises; and a storage module for storing the frequency search item in the search module.

상기 상대적인 빈발항목은 유동적인 트랜잭션 개수를 출현 빈도 간격에 대한 차의 합으로 나눈 값인 상대적인 출현빈도가 상기 빈발항목에 대한 상대적인 출현빈도보다 크며, 그 출현 시점이 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현빈도의 값을 뺀 결과가 0보다 작아지는 시점부터 0보다 커지는 시점까지인 것을 특징으로 한다. In the relative frequency entries are relative frequency of appearance is the frequent item relative greater than the frequency of appearance, and the appearance time of the immediately previous value of the relative frequency of appearance of the value divided by the sum of the difference of the fluid, the transaction number of the appearance frequency interval are that is the result of subtracting the value of the relative frequency of appearance from the time becomes smaller than 0 and the time is larger than 0, characterized.

상기 본 발명의 목적을 달성하기 위한 본 발명에 따른 시간차를 이용한 상대적인 빈발항목 탐색 방법은, 데이터 마이닝 시스템에서의 빈발항목 탐색 방법에 있어서, 데이터 스트림에 새로이 추가된 트랜잭션을 탐색하여 각 항목에 대한 출현빈도와 트랜잭션의 아이디 정보를 갱신하는 단계; Occurrence of the relative frequency entry method searches with a time difference according to the present invention for achieving the object of the present invention, each entry in frequent item search method in a data mining system, to search for newly added to the transaction in the data stream updating the ID information of the frequency and the transaction; 상기 추가된 트랜잭션에 출현하는 항목 중 기 정의된 최소 지지도보다는 작지만 최대 지지도 오차보다는 큰 값을 가지는 항목을 부분 빈발항목으로 추가하는 단계; Adding an item with a value greater than a smaller maximum error approval rating than the minimum support group definition of the items appearing in the said further transaction as a portion of frequent itemsets; 사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도 이상의 지지도를 갖는 항목의 정보를 출력하는 단계; The total frequency by the user of the request to the current number of steps of FIG outputs the information of the item having the largest and approval rating than minimum support; 및 상기 트랜잭션 동안 출현하는 항목들의 시간차를 이용하여 상대적인 빈발항목을 탐색하는 단계;를 포함하는 것을 특징으로 한다. It characterized in that it comprises a; and the step of searching the relative frequency entry using the time difference of the items that occur during the transaction.

또한, FP-Tree알고리즘을 이용하는 본 발명의 시간차를 이용한 상대적인 빈발항목 탐색 방법은, 데이터 마이닝 시스템에서의 FP-Tree알고리즘을 이용한 빈발항목 탐색 방법에 있어서, 데이터 스트림에 새로이 추가된 트랜잭션을 탐색하여 상기 트랜잭션에서 출현한 항목들이 상기 FP-Tree의 노드에 존재하면 각 항목에 대한 출현 빈도와 트랜잭션의 아이디 정보를 갱신하는 단계; Further, the relative frequency entry way navigation using the time difference of the present invention using FP-Tree algorithm, in the frequent item search method using a FP-Tree algorithm in the data mining system, to search for newly added to the transaction in the data stream the If an entry in the transaction occurrence are present in the nodes of the FP-Tree step of updating the ID information of the appearance frequency of each item with the transaction; 상기 추가된 트랜잭션에 출현하는 항목들이 상기 FP-Tree에 존재하는 노드에 없으면 최소 지지도보다는 작지만 최대 지지도 오차보다는 큰 값을 가지는 항목을 부분 빈발항목으로 구분하여 상 기 FP-Tree의 노드에 삽입하는 단계; Inserting the node in the period FP-Tree entries appearing in the said additional transactions are not in the node, it is present in the FP-Tree separated entries having a value greater than the smaller up approval rating errors than the minimum support as part frequent itemsets .; 사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도 이상의 지지도를 갖는 항목의 정보를 출력하는 단계; The total frequency by the user of the request to the current number of steps of FIG outputs the information of the item having the largest and approval rating than minimum support; 및 상기 트랜잭션 동안 출현하는 항목들의 시간차를 이용하여 상대적인 빈발항목을 탐색하는 단계;를 포함하는 것을 특징으로 한다. It characterized in that it comprises a; and the step of searching the relative frequency entry using the time difference of the items that occur during the transaction.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 보다 상세하게 설명한다. With reference to the accompanying drawings, the preferred embodiments of the present invention will be described in detail. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐 본 발명의 내용이 하기 실시 예에 한정되는 것은 아니다. The following Examples are not limited to the examples of this disclosure, the present invention as intended to illustrate the invention.

도 1은 본 발명을 구현하기 위한 시스템 구성도를 도시한 것으로, 크게 입력되는 데이터 스트림을 처리하는 입력 모듈(10), 상기 데이터 스트림에서 빈발항목을 탐색하는 탐색 모듈(20) 및 탐색된 빈발항목을 저장하는 저장 모듈(30)로 구성된다. 1 is that showing a system configuration for implementing the invention, largely the input module 10 to process the incoming data stream, the navigation for searching a frequent entries in the data stream the module 20 and the search frequency entry It consists of a storage module 30 to store.

상기 탐색 모듈(20)은 입력 모듈(10)을 통해 입력된 데이터 스트림에서 소정 트랜잭션 내에서 출현하는 항목들의 집계를 통해 빈발항목을 탐색하며, 소정 트랜잭션 동안 출현하는 항목들의 시간차를 이용하여 상대적인 빈발항목을 탐색하게 되며, 본 발명의 빈발항목 탐색은 상기 탐색 모듈(20)에서 행하게 된다. The search module 20, an input module 10, search a frequency entry through the aggregation of the items that occur within a given transaction in the data stream input via, and the relative frequency entry using the time difference of the item which appears for a predetermined transaction, and a way to navigate, search frequency entry of the invention is performed in the search module (20).

본 발명에서는 먼저, 데이터 스트림에서 빈발항목을 탐색하기 위해서 탐색대상이 되는 데이터 집합에 대해 정의한다. In the present invention, first, a set of data that is defined for the search object in order to search for the frequency in the data stream.

S N = {T 1 , T 2 , T 3 ,...,T N }는 현재까지 발생한 트랜잭션의 집합, 즉 전제 데이터 집합을 의미하며, 현재의 트랜잭션은 T t = {I 1 , I 2 , I 3 ,...,I N } (t=1,..,n)로 표현되 고, 각각의 트랜잭션은 TID라고 하는 고유한 식별인자인 아이디를 가진다. S N = {T 1, T 2, T 3, ..., T N} is a set of transactions that occurred up to now, that is, assuming the data set, and the current transaction is T t = {I 1, I 2, I 3, ..., being represented by I n} (t = 1, .., n), each transaction has a unique identification ID of factors that TID. 그리고 트랜잭션의 구성요소인 단위 항목에 대한 집합은 I = {i 1 , i 2 , i 3 ,...,i N }로 나타낸다. And set for a component of the transaction unit entry is represented by I = {i 1, i 2, i 3, ..., i N}.

그리고 FP-stream알고리즘(Giannella, C., Han, J., Pei, J., Yan, X., & Yu, PS,(2003). Mining Frequent Patterns in Data Streams at Multiple Time Granularities, Next Generation Data Mining, AAAI/MIT.)에서와 같이 사전에 사용자에 의해 정의되는 최소 지지도(S min ∈(0,1))와 최대 지지도 오차(e∈(0,S min ))를 이용하여 단일 항목을 빈발항목, 부분 빈발항목, 빈발하지 않은 항목으로 구분한다. And FP-stream algorithm (Giannella, C., Han, J., Pei, J., Yan, X., & Yu, PS, (2003). Mining Frequent Patterns in Data Streams at Multiple Time Granularities, Next Generation Data Mining , minimum support defined by the user in advance as in the AAAI / MIT.) (S min ∈ (0,1)) and a single frequency entry item and the maximum error approval rating (e∈ (0, S min) ) It will be divided into sections, frequent items, items that are not frequent.

출현 빈도가 최소 지지도 이상의 값을 가질 경우는 빈발항목으로 간주하고, 최소 지지도보다는 작지만 최대 지지도 오차 이상의 값을 가질 경우는 부분 빈발항목이라 정의한다. If the appearance frequency having a value equal to or greater than the minimum support case have a more considered a frequent item, rather than the small minimum support approval ratings up error value is defined as a portion of frequent itemsets. 최대 지지도 오차보다 작은 경우는 빈발하지 않은 항목으로 간주하여 처리하지 않는다. If approval rating less than the maximum error does not process was regarded as a non-recurrent items.

또한, 기존의 연구에서는 빈발항목과 부분 빈발항목에 대해 단지 집계 값의 비교를 통해서 빈발항목의 탐색함에 따라 시간에 민감한 상대적인 빈발항목을 간과하고 지나칠 수 있어 현재까지 집계된 값이 현재의 빈발항목보다는 작지만 상대적인 출현빈도수가 현재의 빈발항목에 비해 상대적으로 클 경우의 항목에 대한 고려가 필요할 것임에 따라 본 발명에서는 다음과 같이 상대적인 빈발항목에 대하여 정의한다. Also, rather than traditional research-prone items and parts frequently as the search for frequent entry by just comparing the aggregate value for the item can overlook and overly sensitive relatively frequent topic at the time the aggregate to the current value frequency of the current entry in a small, but the relative occurrence frequency in accordance with the present invention will require consideration of the item when compared with the entries in the current frequency is relatively large is defined with respect to the relative frequency entry as follows:

상대적인 빈발항목 집합 R은 현재의 빈발항목의 출현빈도보다 출현빈도가 작 지만 상대적인 출현빈도가 현재의 빈발항목의 상대적인 출현빈도보다 큰 항목들의 집합으로 정의된다. Relative frequent itemsets R is the occurrence frequency is small, but the relative occurrence frequency than the frequency of the current frequency entry is defined as a set of larger items than the relative frequency of appearance frequency of the current item. 여기서 f는 현재의 빈발 항목이고, c는 현재의 시점을 나타낸다. Where f is the current frequency of the item, c indicates the current point in time.

Figure 112005054250960-pat00001
Figure 112005054250960-pat00002

상대적인 출현빈도란 유동적인 트랜잭션의 개수 m(m<N)을 출현빈도 간격에 대한 차의 합으로 나눈 것이며, 상대적인 빈발항목을 탐색하기 위한 기준이 된다. The relative frequency is the appearance will divide the number of m (m <N) of the fluid transaction as the sum of the difference of the appearance frequency interval, is the basis for searching for the relative frequency entries.

Figure 112005054250960-pat00003

또한, 출현빈도는 지속적으로 입력되는 트랜잭션에 대해서 항목이 출현했는지 출현하지 않았는지를 파악하여 집계한 값이다. Further, the occurrence frequency is a value counted to determine if items that you have not emerged that the appearance with respect to transactions that are continuously input.

Figure 112005054250960-pat00004

Figure 112005054250960-pat00005

그리고 출현빈도 간격에 대한 차의 합을 구하는 것은 상대적인 빈발항목이 발생하는 시점을 파악하기 위한 것으로 현재 출현한 시점과 이전에 출현했던 시점 사이에 대한 시간차의 합으로 정의된다. And to obtain the difference of the sum of the appearance frequency interval is defined as the sum of the time difference between the time for which the current appearance appearance at the time of the previous one as to identify the point at which the relative frequency entry occurs. 여기서 y t 는 항목 x를 포함하는 트랜잭션 T t 가 발생한 시점을 의미한다. Where y t denotes the time of the transaction T t containing the items x occurs.

Figure 112005054250960-pat00006

상기의 상대적인 빈발항목 탐색을 위한 기본 요소는 도 2의 표에 나타낸 바와 같이, S min 는 최소 지지도, e는 최대 지지도 오차, f는 빈발항목, R은 상대 빈발 항목, A(x)는 항목 x에 대한 출현 판단 함수, F(x)는 항목 x의 출현빈도, C(x)는 항목 x에 대한 출현 간격의 총합, E m (x)는 항목 x의 상대적인 출현빈도이다. As shown in the basic element for the search relative frequent entries in the Figure 2 table, S min is a minimum support, e is up approval rating error, f is the frequency Also, R is the relative frequency Also, A (x) are items x emergence criterion function, F (x) for the frequency of appearance, C (x) is the sum of the item x, E m (x) of the emergence interval of the item x is the relative frequency of appearance of an item x.

이러한 내용을 바탕으로 상대적인 빈발항목에 대하여 살펴보면 다음과 같다. Based on this information, look for the relative frequency items are as follows:

도 3은 상대적인 빈발항목에 대한 개념도이다. Figure 3 is a schematic diagram of the relative frequency entry. 여기서, 각각의 I 1 , I 2 , I 3 는 최소 지지도 이상의 값을 가지는 빈발항목과 최소지지도 보다는 작지만 최대 지지도 오차보다는 큰 부분 빈발항목을 나타내고, 각각의 화살표의 점은 출현 빈도를 나타낸 것이다. Here, each of the I 1, I 2, I 3 represents a large part smaller than the frequency than the frequency entry item and the minimum support having a value equal to or greater than minimum support up approval rating errors, each point of the arrow shows the occurrence frequency.

또한, T N 는 현재까지의 트랜잭션을 의미한다. Further, N T refers to the transaction to the present. 첫 번째 줄의 I 1 을 살펴보면 현재까지의 출현빈도가 28로 가장 높은 것을 알 수 있다. Looking at the I 1 of the first line, it can be seen that the frequency of the currently highest in 28. 즉 빈발항목을 의미한다. That means frequent entry. 그리고 두 번째 줄과 세 번째 줄은 부분 빈발항목을 의미한다. The second line and third line means the portion of frequent items.

도 3에서 첫 번째 항목 즉 빈발항목에서는 초반에 출현빈도가 높고 중간으로 갈수록 출현간격이 점점 벌어지는 것을 알 수 있다. In Figure 3 the first item, i.e., item may be a high frequency of appearance frequency in the early seen that toward the middle appearance gap is going more. 그러나 두 번째 줄은 중간 부분에서 급격하게 출현빈도가 높아진 것을 볼 수 있다. However, the second line can be seen sharply increased the frequency of appearance in the middle.

그리고 상대적으로 첫 번째 항목에서 보다 더욱 빈번하게 출현하고 출현간격 또한 첫 번째 항목 보다 좁기 때문에 중간 부분에서는 두 번째 항목을 빈발항목으로 지정해야 정확한 것이라고 볼 수 있다. And relatively more frequent occurrence than in the first entry and also because of the emergence interval narrower than the first entry in the middle part can be seen that the two must specify the exact second item in the recurrent item. 즉, 두 번째 항목이 중간부분에서는 첫 번째 항목보다는 상대적인 빈발항목이 되는 것이다. In other words, the second item in the middle part will be the relative frequency items than the first item.

여기서 중요한 점은 상대적인 빈발항목으로 변경되는 시점에 대한 기준을 찾는 것이다. The important point here is to find a reference point for the change in the relative frequency entry. 따라서 본 발명에서는 다음과 같은 상대적인 빈발항목에 대한 기준을 제시한다. Therefore, the present invention proposes a standard for the relative frequency the following items.

1. 상대적인 출현빈도가 빈발항목에 대한 상대적인 출현빈도보다 커야한다. 1 it must be greater than the relative frequency of appearance of the item is the relative frequency of appearance frequency.

Figure 112005054250960-pat00007

2. 상대적인 빈발항목의 출현 시점은 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현빈도의 값을 뺀 결과가 0보다 작아지는 시점부터 0보다 커지는 시점까지이다. 2. The emergence of point of entry is the relative frequency and the time from the previous value of the relative frequency of appearance is the result obtained by subtracting the current value of the relative frequency of greater than from the point becomes less than 0.

Figure 112005054250960-pat00008
Figure 112005054250960-pat00009

Figure 112005054250960-pat00010

즉, 빈발항목에 대하여 상대적인 출현빈도가 높아지고 출현간격이 빈발항목에 비해 급격히 좁아졌을 때를 의미하는 것이다. That is, when the means increasing the relative frequency of appearance with respect to the frequent entries been rapidly narrowed as compared to the appearance frequency interval item.

상기와 같은 사항들을 바탕으로 하는 본 발명은 모든 빈발항목과 상대적인 빈발항목들을 상기 저장 모듈(30)인 메모리에서 효율적으로 유지, 관리하는 프리픽스 트리(prefix tree)구조의 FP-Tree 알고리즘을 이용하여 상대적인 빈발항목을 저장한다. The present invention that is based on the information as described above relative to use of a prefix tree (prefix tree) FP-Tree algorithm structure to efficiently maintain, manage all the frequent entries and relative frequency entry from the memory the storage module 30 Save the frequent items.

데이터 스트림에서 데이터는 무한집합이라고 간주한다. In the data stream data it is considered to be an infinite set. 그렇기 때문에 모든 항목들을 저장하는 것은 사실상 불가능하다. That is why it is virtually impossible to store all the items. 따라서 FP-Tree에서는 빈발항목과 상대적인 빈발항목을 효율적으로 유지, 관리하기 위하여 items, 출현 빈도, TID의 3가지 정보만을 저장함이 바람직하다. Thus, storing only three pieces of information items, the appearance frequency, TID is preferred to the FP-Tree to efficiently maintain and manage the frequency and the relative frequency entry item.

여기서, items은 빈발항목이나 부분 빈발항목들을 의미하고, 출현 빈도는 현재까지 items이 출현한 총 횟수가 된다. Here, the items are meant frequent item or part of frequent items, and the appearance frequency is the total number of items have emerged so far. 또한 TID는 현재의 트랜잭션 아이디를 뜻 하며, 상대적인 빈발항목이 발생하는 시점을 알 수 있는 척도로 사용된다. TID is also used as a measure to know the time and that means the current transaction ID of the item occurs relatively frequently.

도 4는 본 발명에 따른 FP-Tree 알고리즘을 나타낸 것이며, 도 5는 이에 대한 흐름도를 도시한 것으로, FP-Tree 알고리즘은 크게 4단계로 구성되며, 트랜잭션이 추가될 때마다 다음의 4단계를 반복적으로 수행하게 된다. 4 will showing the FP-Tree algorithm according to the present invention, Figure 5 is composed of as showing the flow chart, FP-Tree algorithm greatly step 4 of this, repeated these four steps of each additional transaction is performed.

제1단계(S110)는 데이터 스트림의 트랜잭션을 탐색하여 각 항목에 대한 출현 빈도를 갱신하는 단계로 새로운 트랜잭션이 추가되면 전체 데이터 집합 │S N │의 크기는 1씩 증가된다. Step 1 (S110) is when a step of updating the frequency of appearance of each item by searching the transaction in the data stream adding a new transaction is the complete set of data size of │S │ N is increased by one.

그리고 새로 추가된 트랜잭션에서 출현한 항목들이 FP-Tree의 노드에 존재하면 출현 빈도와 트랜잭션 아이디 값을 갱신 한다. And if occurrence in the new transaction entries are present in the nodes of the FP-Tree and updates the appearance frequency value with the transaction ID.

제2단계(S120)는 부분 빈발항목이 추가되는 단계로 새롭게 추가된 트랜잭션에 출현하는 항목들이 FP-Tree에 존재하는 노드에 없을 경우, 최소 지지도보다는 작지만 최대 지지도 오차보다는 큰 값을 가지는 항목을 부분 빈발항목으로 구분하여 FP-Tree의 노드로 삽입한다. In the case stage 2 (S120) is the items that occur with the new in the step of adding a portion frequency entry transaction is not in the nodes present in the FP-Tree, part of an item with a value greater than the smaller up approval rating errors than the minimum support separated by a frequent topic node is inserted into the FP-Tree.

여기서, 최대 지지도 오차보다 작은 항목들은 빈발항목이 될 가능성이 희박하기 때문에 제거된다. Here, the small items approval rating than the maximum error are removed because they less likely to be prone item. 그렇기 때문에 메모리 사용공간을 줄이고 FP-Tree의 노드에 삽입하는 추가적인 작업이 없으므로 수행시간을 줄일 수 있다. Therefore reducing the memory footprint can reduce execution time because there is no extra work that is inserted into the node of the FP-Tree.

제3단계(S130)는 현재의 빈발항목을 찾는 단계로 사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도(S min ) 이상의 지지도를 갖는 항목의 items, 출현 빈도, TID 정보를 출력해 준다. Step 3 (S130) is to output the items, the appearance frequency, TID information in the step of finding the current frequency entry in by the user's requirements to date also the total number of frequency with the approval rating the largest and least minimum support (S min) Item give.

제4단계(S140)는 상대적인 빈발항목을 찾는 단계로 빈발항목의 상대적인 출현빈도가 커졌을 때, 즉 출현 간격이 좁아졌을 경우에 현재의 빈발항목보다 상대적으로 빈번하게 출현하는 항목을 탐색하여 텍스트 파일로 정보를 출력한다. The time step 4 (S140) is the relative frequency of occurrence of frequent itemsets in finding a relative frequency entry becomes greater, that is, a text file by searching the entries for a relatively frequent occurrence in the current frequency items in the case where the appearance intervals been narrowed and outputs the information.

이와 같이 본 발명은 현재의 빈발항목 뿐만 아니라 간과하고 지나칠 수 있는 상대적인 빈발항목을 탐색함으로써 신뢰도 및 정확도을 보장해주며 빈발항목과 부분 빈발항목에 대한 items, 출현 빈도, TID만을 관리하기 때문에 한정적인 메모리를 효율적으로 사용할 수 있게 된다. Thus, the present invention is effective for limiting the memory by managing only the items, the appearance frequency, TID for by searching the relative frequency items that can be ignored, as well as the current frequency entry and pass gives guaranteeing reliability and jeonghwakdoeul frequent items and parts frequent itemsets to be able to use.

다음은 본 발명의 실험 예에 대하여 살펴보며, 실험 예에서는 상대적인 빈발항목과 FP-Tree에 대한 성능을 다양한 실험을 통하여 검증한다. The following is looked at with respect to the experimental example of the present invention in Experimental Example, we demonstrate the performance of the relative frequency entry and FP-Tree through various experiments.

데이터 집합은 "Rakesh Agrawal,, & Ramakrishnan Srikant., (1994). Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, 487-499."에서 제안된 데이터 생성 방법에 따라 T10.I4.D1000K, T20.I4.D1000K와 T10.I4.D100K, T15.I6.D1000K의 데이터 집합을 생성하여 사용한다. The dataset "Rakesh Agrawal ,, & Ramakrishnan Srikant., (1994). Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. Very Large Data Bases, 487-499." T10 according to the suggested data generation method .I4.D1000K, T20.I4.D1000K and T10.I4.D100K, is used to generate a set of data T15.I6.D1000K.

각 데이터 집합에서 T는 트랜잭션의 평균적인 길이를 의미하며, I는 잠재적인 최대 빈발 항목의 평균적인 길이를 의미한다. In each dataset T indicates the average length of the transaction and, I denotes the average length of a potential maximum frequent item. 또한 D는 데이터 집합에 대한 트랜잭션의 총수를 의미한다. In addition, D denotes the total number of transactions for the set of data. 본 발명에서 모든 실험들은 512MB 램(RAM)을 가진 AMD XP 2600+의 컴퓨터 환경에서 실험되었으며, C언어로 구현하였다. All experiments were experiments in the present invention in the computer environment of the AMD XP 2600+ with 512MB of RAM (RAM), was implemented in C language.

실험은 크게 3가지 부분으로 나누어져 실행된다. Experiments are run largely divided into three parts.

첫 번째는 빈발항목 및 상대적인 빈발항목 탐색의 정확도에 대한 검증이다. The first is the verification of the accuracy of the relative frequency of recurrent items and item search.

두 번째는 빈발항목과 상대적인 빈발항목을 탐색하는 수행 시간에 대한 검증이다. The second is a verification of the processing time to explore the frequent entry and the relative frequency entry.

마지막으로 세 번째는 빈발항목과 부분 빈발항목을 관리하는 FP-Tree에 대한 메모리 사용량에 대한 검증한다. Finally, the third should verify the memory usage for the FP-Tree to manage the frequent items and parts prone items.

도 6은 T10.I4.D1000K 데이터 집합을 이용한 상대적인 빈발항목과 빈발항목에 대한 정확도를 보여준다. Figure 6 shows the accuracy of the relative frequency and frequency entry item using T10.I4.D1000K dataset. 빈발항목이 상대적인 빈발항목보다 다소 높은 정확도를 보여주고 있다. The frequent entries show a slightly higher accuracy than the relative frequency entry.

그 이유는 상대적인 빈발항목은 빈발항목보다 시간의 영향을 많이 받아 수시로 변하기 때문에 빈발항목보다 탐색하는 것이 더욱 어렵기 때문이다. The reason is because it is more difficult to navigate than the frequent item because the relative frequency items take a lot longer than the effects of frequent items often change. 그럼에도 불구하고 높은 정확도를 보여주고 있다. Nonetheless shows the high degree of accuracy.

도 7은 최소지지도를 다양하게 변화시켰을 때 각 구간에 대한 평균 수행시간을 비교한 것이다. Figure 7 is a comparison of the average execution time for each time interval sikyeoteul vary the minimum support. 평균 수행시간은 새로운 트랜잭션이 추가되었을 때 빈발항목 및 상대적인 빈발항목을 탐색하는데 소요되는 평균적인 시간을 의미한다. The average execution time refers to the average time it takes to navigate to frequently entry and relative frequency entry when adding new transactions. 최소지지도가 낮을수록 평균 수행시간이 커진다. The lower the minimum support increases the average execution time.

그 이유는 최소지지도가 낮을수록 빈발항목과 부분빈발항목에 대한 허용범위가 넓어져서 빈발항목을 탐색하기 위한 비교 횟수가 증가되기 때문이다. The reason for this is because the number of comparisons to search for frequent topic widened the allowable range for the lower the minimum support frequent items and parts increased recurrent items. 즉 평균 수행시간과 최소지지도 사이에는 반비례 관계가 된다. That is, an inverse relationship between the average execution time and minimum support.

도 8은 각 데이터 집합에 따른 FP-Tree에서의 메모리 사용량을 보여준다. Figure 8 shows the memory usage in the FP-Tree for each data set. 각 데이터 집합 사이의 메모리 사용량에 대한 차이는 크지 않다. Difference in memory usage between each set of data is not significant.

그 이유는 FP-Tree알고리즘에서 최소 지지도와 최대 지지도 오차를 이용하여 빈발항목과 부분 빈발항목만을 관리함으로 메모리의 사용량이 작다. The reason for this small amount of memory managed by only frequent items and parts prone items using the minimum support and maximum approval ratings error in the FP-Tree algorithm. 각 데이터 집합 중 T15.I6.D1000K이 가장 많은 메모리를 사용한다. T15.I6.D1000K should use the most memory of each data set. T15.I6.D1000K는 잠재적인 최대 빈발항목의 평균적인 길이가 다른 데이터 집합에 비해 크기 때문에 상대적으로 좀 더 많은 메모리를 사용한다. T15.I6.D1000K is relatively little use more memory because the average length of a potential maximum frequent item size compared to other data sets.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 또는 변형하여 실시할 수 있다. Has been described with reference to a preferred embodiment of the invention, various modifications of the invention within the scope not departing from the spirit and scope of the invention defined in the claims of the skilled in the art is to in the art as described above, or it can be carried out by transformation.

이상에서 설명한 바와 같이, 본 발명은 전체 빈발도수와 빈발 간격에 따른 상대적인 빈발도수를 계산하여 빈발항목과 부분 빈발항목에 따른 상대적인 빈발도수를 비교하여 간과하고 지나칠 수 있는 상대적인 빈발항목을 탐색하며, 또한, FP-Tree에서 빈발항목과 부분 빈발항목을 효율적으로 관리하기 위하여 빈발항목이나 부분 빈발항목 등의 단위 항목, 출현 빈도, 트랙잭션의 아이디의 3가지 정보만을 저장함으로써 시간에 민감한 빈발항목을 탐색할 수 있으며, 빈발항목 탐색에 대한 정확도를 높일 수 있고, 한정적인 메모리를 효율적으로 사용할 수 있게 된다. As described above, the present invention explore the relative frequency items that can be neglected compared to the entire frequency can also relative to calculating the frequency also according to the frequency interval relative frequency according to the frequency entry as part frequent item number and pass and, also, a frequent item or part frequent items including unit entry, the appearance frequency, sensitive frequency entry on three only time by storing information in the identity of the transaction in order to manage the frequency entry as part frequent entries in the FP-Tree efficiently to explore, and it is possible to increase the accuracy of the frequency search item, it is possible to use a limited memory efficiently.

Claims (10)

  1. 입력 데이터 스트림을 데이터 마이닝하는 데이터 마이닝 시스템에서 빈발항목을 탐색함에 있어, I as a search frequency in the data mining system for data mining, the input data stream,
    입력되는 데이터 스트림을 처리하는 입력 모듈; An input module that handles the incoming data stream;
    상기 입력 모듈을 통해 입력된 데이터 스트림에서 소정 트랜잭션 내에서 출현하는 항목들의 집계를 통해 빈발항목을 탐색하며, 유동적인 트랜잭션 개수를 출현 빈도 간격에 대한 차의 합으로 나눈 값인 상대적인 출현빈도가 상기 빈발항목에 대한 상대적인 출현빈도보다 크며, 그 출현 시점이 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현빈도의 값을 뺀 결과가 0보다 작아지는 시점부터 0보다 커지는 시점까지인 상대적인 빈발항목을 탐색하는 탐색 모듈; Search the frequency entry through the aggregation of the items appearing in the predetermined transactions from a data stream input through the input module, and items that the relative occurrence frequency is calculated by dividing the sum of the difference of the fluid, the transaction number of the appearance frequency intervals the frequency to greater than the relative frequency of appearance of, the occurrence time of the right from the previous value of the relative occurrence frequency of searching for the relative frequency entry from the time that the result of subtracting the value of the current relative frequency of occurrence of which is less than zero and the time is larger than 0, navigation module; And
    상기 탐색 모듈에서 탐색된 빈발항목을 저장하는 저장 모듈; A storage module for storing the frequency search item in the search module;
    을 구비함을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색 시스템. Relative frequency entry navigation system using the time difference, characterized in that comprises a.
  2. 삭제 delete
  3. 삭제 delete
  4. 제 1 항에 있어서, 상기 저장 모듈에는 FP-Tree 알고리즘에 따라 탐색 결과가 저장되는 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색 시스템. The method of claim 1, wherein the storage module has a relative frequency entry navigation system using the time difference, characterized in that the search result is stored according to the FP-Tree Algorithm.
  5. 제 4 항에 있어서, 상기 저장 모듈에는 The method of claim 4, wherein the storage module,
    상기 빈발항목이나 부분 빈발항목을 포함하는 단위 항목, 현재까지 상기 단위 항목이 출현한 총 횟수인 출현 빈도, 트랜잭션의 아이디 등의 정보가 저장되는 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색 시스템. The frequency unit entry, wherein the current unit of item, total number of times the frequency of appearance, the appearance to the relative frequency entry navigation system using the time difference, characterized in that such identity of the transaction information is stored, including an item or part item frequency.
  6. 입력 데이터 스트림을 데이터 마이닝하는 데이터 마이닝 시스템에서의 빈발항목 탐색 방법에 있어서, In the frequency search method of the item in the data mining system for data mining, the input data stream,
    데이터 스트림에 새로이 추가된 트랜잭션을 탐색하여 각 항목에 대한 출현빈도와 트랜잭션의 아이디 정보를 갱신하는 단계; Updating the ID information of the appearance frequency of each item with the transaction by searching the newly added to the transaction data stream;
    상기 추가된 트랜잭션에 출현하는 항목 중 기 정의된 최소 지지도보다는 작지만 최대 지지도 오차보다는 큰 값을 가지는 항목을 부분 빈발항목으로 추가하는 단계; Adding an item with a value greater than a smaller maximum error approval rating than the minimum support group definition of the items appearing in the said further transaction as a portion of frequent itemsets;
    사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도 이상의 지지도를 갖는 항목의 정보를 출력하는 단계; The total frequency by the user of the request to the current number of steps of FIG outputs the information of the item having the largest and approval rating than minimum support; And
    상기 트랜잭션의 개수를 출현 빈도 간격에 대한 차의 합으로 나눈 값인 상대적인 출현빈도가 상기 빈발항목에 대한 상대적인 출현빈도보다 크며, 그 출현 시점이 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현빈도의 값을 뺀 결과가 0보다 작아지는 시점부터 0보다 커지는 시점까지인 상대적인 빈발항목을 탐색하는 단계; The relative occurrence frequency is calculated by dividing the number of the transaction as the sum of the difference of the appearance frequency interval is greater than the relative frequency of appearance for the frequent items, the occurrence time of the right from the previous value of the relative frequency of appearance of the current relative frequency of step of searching for the relative frequency entry from the time that the result of subtracting the value is smaller than 0 and the time is larger than 0;
    를 포함하는 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색방법. Relative frequency search entry method using a time difference, characterized in that it comprises a.
  7. 삭제 delete
  8. 제 6 항에 있어서, 상기 출력되는 정보는 The method of claim 6, wherein the information that the output is
    빈발항목을 포함하는 단위 항목, 현재까지 상기 단위 항목이 출현한 총 횟수인 출현 빈도, 트랜잭션의 아이디 등의 정보인 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색 방법. Unit entry, the current frequency to the appearance of the unit items are the total number of occurrence, the relative frequency search entry method using a time difference, characterized in that information such as the identity of the transaction, including the frequent entries.
  9. 입력 데이터 스트림을 데이터 마이닝하는 데이터 마이닝 시스템에서의 FP-Tree알고리즘을 이용한 빈발항목 탐색 방법에 있어서, In the frequent item search method using a FP-Tree Algorithm for Data Mining data mining system that the input data stream,
    데이터 스트림에 새로이 추가된 트랜잭션을 탐색하여 상기 트랜잭션에서 출현한 항목들이 상기 FP-Tree의 노드에 존재하면 각 항목에 대한 출현 빈도와 트랜잭션의 아이디 정보를 갱신하는 단계; When search for newly added to the transaction data stream for one item appeared in the transactions present in the nodes of the FP-Tree step of updating the ID information of the appearance frequency of each item with the transaction;
    상기 추가된 트랜잭션에 출현하는 항목들이 상기 FP-Tree에 존재하는 노드에 없으면 최소 지지도보다는 작지만 최대 지지도 오차보다는 큰 값을 가지는 항목을 부분 빈발항목으로 구분하여 상기 FP-Tree의 노드에 삽입하는 단계; Step of items appearing on the additional transactions are not in the node, is present in the FP-Tree separated entries having a value greater than the smaller up approval rating errors than the minimum support as part frequent entries into the node of the FP-Tree;
    사용자의 요구에 의해 현재까지 총 빈발도수가 가장 크고 최소 지지도 이상의 지지도를 갖는 항목의 정보를 출력하는 단계; The total frequency by the user of the request to the current number of steps of FIG outputs the information of the item having the largest and approval rating than minimum support; And
    상기 트랜잭션의 개수를 출현 빈도 간격에 대한 차의 합으로 나눈 값인 상대적인 출현빈도가 상기 빈발항목에 대한 상대적인 출현빈도보다 크며, 그 출현 시점이 바로 이전의 상대적인 출현빈도의 값에서 현재의 상대적인 출현빈도의 값을 뺀 결과가 0보다 작아지는 시점부터 0보다 커지는 시점까지인 상대적인 빈발항목을 탐색하는 단계; The relative occurrence frequency is calculated by dividing the number of the transaction as the sum of the difference of the appearance frequency interval is greater than the relative frequency of appearance for the frequent items, the occurrence time of the right from the previous value of the relative frequency of appearance of the current relative frequency of step of searching for the relative frequency entry from the time that the result of subtracting the value is smaller than 0 and the time is larger than 0;
    를 포함하는 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색방법. Relative frequency search entry method using a time difference, characterized in that it comprises a.
  10. 제 9 항에 있어서, 상기 출력되는 정보는 10. The method of claim 9, wherein the information that the output is
    빈발항목을 포함하는 단위 항목, 현재까지 상기 단위 항목이 출현한 총 횟수인 출현 빈도, 트랜잭션의 아이디 등의 정보인 것을 특징으로 하는 시간차를 이용한 상대적인 빈발항목 탐색 방법. Unit entry, the current frequency to the appearance of the unit items are the total number of occurrence, the relative frequency search entry method using a time difference, characterized in that information such as the identity of the transaction, including the frequent entries.
KR20050089986A 2005-09-27 2005-09-27 System and method for finding the time sensitive frequent itemsets KR100776640B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20050089986A KR100776640B1 (en) 2005-09-27 2005-09-27 System and method for finding the time sensitive frequent itemsets

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20050089986A KR100776640B1 (en) 2005-09-27 2005-09-27 System and method for finding the time sensitive frequent itemsets

Publications (2)

Publication Number Publication Date
KR20070035300A KR20070035300A (en) 2007-03-30
KR100776640B1 true KR100776640B1 (en) 2007-11-16

Family

ID=41637462

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20050089986A KR100776640B1 (en) 2005-09-27 2005-09-27 System and method for finding the time sensitive frequent itemsets

Country Status (1)

Country Link
KR (1) KR100776640B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101079063B1 (en) 2010-02-22 2011-11-07 주식회사 케이티 Apparatus and method for association rule mining using frequent pattern-tree for incremental data processing

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100899144B1 (en) * 2007-10-26 2009-05-27 연세대학교 산학협력단 Method and apparatus for finding maximal frequent itemsets over data streams
US7991884B2 (en) 2007-12-17 2011-08-02 Electronics And Telecommunications Research Institute Method for processing data to check an interactive communication sequence and system thereof
KR101128504B1 (en) * 2008-12-02 2012-03-27 한국전자통신연구원 Method for Stream Pattern Mining using Bitwise Map
KR101130734B1 (en) * 2010-08-12 2012-03-28 연세대학교 산학협력단 Method for generating context hierachyand, system for generating context hierachyand
KR101872420B1 (en) * 2017-01-10 2018-06-28 충북대학교 산학협력단 A method of single-pass mining of frequent simultaneous event groups for stream data, an apparatus for single-pass mining of frequent simultaneous event groups for stream data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020051601A (en) * 2000-12-23 2002-06-29 오길록 System and mechanism for discovering temporal realtion rules from interval data
KR20040026178A (en) * 2002-09-23 2004-03-30 이원석 Data Mining Method and Data Mining System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020051601A (en) * 2000-12-23 2002-06-29 오길록 System and mechanism for discovering temporal realtion rules from interval data
KR20040026178A (en) * 2002-09-23 2004-03-30 이원석 Data Mining Method and Data Mining System

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101079063B1 (en) 2010-02-22 2011-11-07 주식회사 케이티 Apparatus and method for association rule mining using frequent pattern-tree for incremental data processing

Also Published As

Publication number Publication date
KR20070035300A (en) 2007-03-30

Similar Documents

Publication Publication Date Title
Aggarwal et al. Evolutionary network analysis: A survey
Bodon A fast APRIORI implementation.
Koh et al. Finding sporadic rules using apriori-inverse
Zeng et al. Similarity measure and instance selection for collaborative filtering
Boulicaut et al. Free-sets: a condensed representation of boolean data for the approximation of frequency queries
Jiang et al. CFI-Stream: mining closed frequent itemsets in data streams
Hiemstra et al. Parsimonious language models for information retrieval
Du Mouza et al. Mobility patterns
US8255397B2 (en) Method and apparatus for document clustering and document sketching
US7337165B2 (en) Method and system for processing a text search query in a collection of documents
EP1468382B1 (en) Taxonomy generation
US7065523B2 (en) Scoping queries in a search engine
US8407164B2 (en) Data classification and hierarchical clustering
US8032532B2 (en) Efficient multifaceted search in information retrieval systems
US8051073B2 (en) System and method for measuring the quality of document sets
Metwally et al. Efficient computation of frequent and top-k elements in data streams
KR101153113B1 (en) Robust detector of fuzzy duplicates
US20120278321A1 (en) Visualization of concepts within a collection of information
Cui et al. Online search of overlapping communities
Benjelloun et al. Swoosh: a generic approach to entity resolution
JP4861961B2 (en) Relevance weighted navigation in information access and retrieval
Makanju et al. Clustering event logs using iterative partitioning
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US8073818B2 (en) Co-location visual pattern mining for near-duplicate image retrieval
Tanbeer et al. Sliding window-based frequent pattern mining over data streams

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20121107

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee