KR101307337B1 - System and method for Triangle Counting Sampling by using Map-Reduce - Google Patents

System and method for Triangle Counting Sampling by using Map-Reduce Download PDF

Info

Publication number
KR101307337B1
KR101307337B1 KR1020110133139A KR20110133139A KR101307337B1 KR 101307337 B1 KR101307337 B1 KR 101307337B1 KR 1020110133139 A KR1020110133139 A KR 1020110133139A KR 20110133139 A KR20110133139 A KR 20110133139A KR 101307337 B1 KR101307337 B1 KR 101307337B1
Authority
KR
South Korea
Prior art keywords
frequency
counting
sampling
triangle
nodes
Prior art date
Application number
KR1020110133139A
Other languages
Korean (ko)
Other versions
KR20130066352A (en
Inventor
김성열
윤진현
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020110133139A priority Critical patent/KR101307337B1/en
Publication of KR20130066352A publication Critical patent/KR20130066352A/en
Application granted granted Critical
Publication of KR101307337B1 publication Critical patent/KR101307337B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법에 대한 것으로서, 데이터 마이닝 엔진을 이용하여 클러스터들의 정보를 수집하기 위해 Hadoop의 Map-Reduce기술을 이용하여 Triangle Counting하여 종래 기술보다 빠른시간 안에 공유되는 에지가 많은 부분은 살려서 샘플링하여 보다 전체에서 뿐만 아니라 특정 부분에서도 정확하게 분산 데이터 처리를 하여 원하는 결과를 얻을 수 있는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법에 관한 것이다.
본 발명은 트라이앵글 카운팅 기법(Triangle counting Algorithm)으로 연결된 세노드(node)를 찾는 방법에 있어서, 데이터마이닝 엔진이 트라이앵글 카운팅 모듈을 통하여 전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 단계와, 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 3 노드 중 2 노드 값의 최소값을 취하는 단계와, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계와, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅하는 단계로 이루어지는 것을 특징으로 한다.
The present invention relates to a triangle counting sampling device using map reduce, and a method thereof. In order to collect information of clusters using a data mining engine, triangle counting is performed using Hadoop's Map-Reduce technology in a faster time than the prior art. The present invention relates to a triangle counting sampling device using a map reducer and a method thereof, in which a large portion of shared edges is sampled and distributed data is processed accurately in a specific part as well as in the whole.
The present invention relates to a method of finding three nodes connected by a triangle counting algorithm, in which a data mining engine counts the frequency of appearance of each node in total data through a triangle counting module, and two frequencies. Taking a minimum value of two node values among the three nodes through data having edges, and subsampling the sampling probability of the edges with a probability proportional to the frequency according to the frequency of appearance of the nodes. forming a subgraph, and counting triangles in the subgraph using the triangle counting technique.

Description

맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법{System and method for Triangle Counting Sampling by using Map-Reduce}Triangle Counting Sampling Apparatus and Method Using Map Reduce {System and method for Triangle Counting Sampling by using Map-Reduce}

본 발명은 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법에 대한 것으로서, 데이터 마이닝 엔진을 이용하여 클러스터들의 정보를 수집하기 위해 Hadoop의 Map-Reduce기술을 이용하여 Triangle Counting하여 종래 기술보다 빠른시간 안에 공유되는 에지가 많은 부분은 살려서 샘플링하여 보다 전체에서 뿐만 아니라 특정 부분에서도 정확하게 분산 데이터 처리를 하여 원하는 결과를 얻을 수 있는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법에 관한 것이다.The present invention relates to a triangle counting sampling device using map reduce, and a method thereof. In order to collect information of clusters using a data mining engine, triangle counting is performed using Hadoop's Map-Reduce technology in a faster time than the prior art. The present invention relates to a triangle counting sampling device using a map reducer and a method thereof, in which a large portion of shared edges is sampled and distributed data is processed accurately in a specific part as well as in the whole.

종래 기술인 한국공개특허 제2011-0069338호는 대용량의 데이터를 다수의 컴퓨팅 노드를 이용하여 MapReduce 방식으로 분산 병렬 처리하는 시스템으로서, 이미 수집되어 있는 대용량 저장 데이터는 물론 분산 병렬 처리 작업이 수행되는 동안에도 연속적으로 수집되는 대량의 스트림 데이터에 대해서 점진적인 MapReduce 기반 분산 병렬 처리 기능을 제공하기 위한 분산 병렬 처리 시스템에 대한 것이다.Korean Patent Publication No. 2011-0069338, which is a prior art, is a system for distributed parallel processing of a large amount of data by using a plurality of computing nodes in a MapReduce method. It is a distributed parallel processing system to provide incremental MapReduce based distributed parallel processing function for a large amount of stream data collected continuously.

Undirect Graph에서 Triangle Counting은 많은 알고리즘이 있다. 간단한 Triangle Counting 기법은 연결된 모든 세 node들을 일일이 찾기 때문에 O(

Figure 112011098621158-pat00001
)∼O(
Figure 112011098621158-pat00002
)의 계산이 필요하다. Triangle Counting하는 여러 알고리즘은 빠른시간안에 적은 계산으로, 실제 값과 적은 오차값을 목표로 한다. 실제 Hadoop의 Map-Reduce를 이용하여 Triangle Counting을 Sampling을 한 DOULION 역시 빠른 시간안에 적은 오차를 목표로 한다. DOULION의 핵심은 Map-Reduce를 이용하여 Samping을 통해 에지의 수를 줄여 계산 양을 축소하는 것이다.
Figure 112011098621158-pat00003
개의 에지만을 선택하기 때문에 전체 계산의 양이
Figure 112011098621158-pat00004
의 비율로 줄어들며 수식은 다음과 같다. Triangle Counting in the Undirect Graph has many algorithms. The simple Triangle Counting technique finds all three connected nodes one by one.
Figure 112011098621158-pat00001
) To O (
Figure 112011098621158-pat00002
) Needs to be calculated. Many algorithms with triangle counting aim at real values and small errors in a short time. In fact, Doulion, which has done triangle counting using Hadoop's Map-Reduce, also aims for small errors in a short time. The key to DOULION is to reduce the amount of computation by using Map-Reduce to reduce the number of edges through sampling.
Figure 112011098621158-pat00003
Since we only select four edges,
Figure 112011098621158-pat00004
It is reduced by the ratio of and the formula is as follows.

Figure 112011098621158-pat00005
Figure 112011098621158-pat00005

실제로 전체 Triangle Counting 값은 실제 값과 유사하다. 그러나 이런 적은 오차는 전체적으로 봤을 때의 경우에는 적은 오차이지만, 그래프의 많은 삼각형에 공유되는 에지가 많은 부분이 샘플링으로 빠질 경우에는 문제가 될 수가 있다. 만약에 도2와 같이 수식에서 제시한 k값이 극단적으로 높은, 많은 수로 공유되는 에지가 Sampling 과정에서 누락된다고 가정을 하자. In fact, the total Triangle Counting value is similar to the actual value. However, this small error is a small error as a whole, but it can be a problem when a lot of edges shared by many triangles in the graph fall into sampling. Suppose that a large number of shared edges are missing in the sampling process, as shown in FIG.

이러한 에지가 많은 수로 누락된다면, 전체적으로도 도1과 같이 실제 값과 오차가 커질 수도 있고, 작은 경우를 특정한 경우라면 더욱더 문제가 될 수 있다. 그래프의 일부분에서는 큰 오차를 가질 수 있어서 클러스터링 등에서 부정확한 결과를 얻을 수 있는 문제점이 있었다.If these edges are missing a large number, the actual value and the error may be large as shown in FIG. 1, and may be a problem in a small case. Part of the graph may have a large error, which may cause inaccurate results in clustering.

상술한 문제점을 해결하기 위하여, 본 발명은 새로운 Triangle Counting을 Sampling 방법을 제시하여 공유되는 에지가 많은 에지를 살리는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법을 제공하는 데 목적이 있다.In order to solve the above problems, an object of the present invention is to provide a triangle counting sampling apparatus using a map reducer that saves a large number of shared edges by presenting a new triangle counting sampling method and a method thereof.

어떤 에지가 공유가 많이 되는지는 결과에 해당하므로, 각 node들이 전체 데이터에서의 출현 빈도를 세고, 상기 출현 빈도에 따라서 빈도에 비례하는 다른 확률로 Sampling을 하여 특정한 경우 즉, 공유되는 에지가 많은 것은 누락을 피할 수 있는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치 및 그 방법을 제공하는 데 목적이 있다.Which edges are shared a lot is a result, so each node counts the frequency of appearance in the entire data, and according to the frequency of occurrence, sampling is performed with a different probability proportional to the frequency. It is an object of the present invention to provide a triangle counting sampling apparatus using map reduce and a method thereof, which can avoid omission.

본 발명은 트라이앵글 카운팅 기법(Triangle counting Algorithm)으로 연결된 세노드(node)를 찾는 방법에 있어서, 데이터마이닝 엔진이 트라이앵글 카운팅 모듈을 통하여 전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 단계와, 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하는 단계와, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계와, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅하는 단계로 이루어진다.The present invention relates to a method of finding three nodes connected by a triangle counting algorithm, in which a data mining engine counts the frequency of appearance of each node in total data through a triangle counting module, and two frequencies. Taking a minimum value of the number of connection edges among the two nodes connected to the edge through respective data consisting of edges having an edge; and sampling probability of the edge with a probability proportional to the frequency according to the appearance frequency of the nodes; Forming a subgraph, and counting triangles in the subgraph using the triangle counting technique.

상기 노드들이 늘어나도 처리 속도가 빨라지도록, 하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리한다.Hadoop's Map-Reduce is used to process the tasks of the nodes in parallel so that processing speeds up as the nodes grow.

상기 서브그래프는

Figure 112011098621158-pat00006
(V : vertex 값, E : edge 값)이다.The subgraph is
Figure 112011098621158-pat00006
(V: vertex value, E: edge value)

상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계에서, 빈도 측정 공식은 아래 <수학식2>이다.In the step of forming the sampling probability of the edge as a subgraph with a probability proportional to the frequency according to the appearance frequency of the nodes, the frequency measurement formula is expressed by Equation 2 below.

<수학식2>&Quot; (2) &quot;

Figure 112011098621158-pat00007
Figure 112011098621158-pat00007

본 발명은 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치에 있어서, 데이터마이닝 엔진을 포함하되, 상기 데이터마이닝 엔진은 전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 트라이앵글 카운팅 모듈로 구성되며, 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하고, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하여, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅한다.According to the present invention, in a triangle counting sampling apparatus using map reduce, the data mining engine includes a data mining engine, and the data mining engine includes a triangle counting module that counts the frequency of appearance of each node in the total data, and has two frequencies. Taking the minimum value of the number of connection edges among the two nodes connected to the edge through the data consisting of edges, and subsampling the sampling probability of the edge with a probability proportional to the frequency according to the frequency of appearance of the nodes. to form a subgraph and count triangles in the subgraph using the triangle counting technique.

상기 데이터마이닝 엔진은 상기 노드들이 늘어나도 처리 속도가 빨라지도록, 하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리한다.The data mining engine processes the work of the nodes in parallel using Hadoop's Map-Reduce so that the processing speed is increased even when the nodes are expanded.

본 발명에 따르면 클러스터 관리자가 효율적으로 자원을 분배하여, 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하고, 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하여, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅할 수 있다.According to the present invention, the cluster manager efficiently distributes resources, takes each data consisting of edges having two frequencies, takes the minimum value of the number of connection edges among the two nodes connected by the edge, and the frequency according to the frequency of appearance of the nodes. A sampling probability of the edge is formed as a subgraph with a proportional probability, and the triangle may be counted in the subgraph using the triangle counting technique.

본 발명에 따르면 데이터 마이닝 엔진을 이용하여 클러스터들의 정보를 수집하기 위해 Hadoop의 Map-Reduce기술을 이용하여 Triangle Counting하여 종래 기술보다 빠른시간 안에 공유되는 에지가 많은 부분은 살리도록 샘플링하여 보다 전체에서 뿐만 아니라 특정 부분에서도 정확하게 분산 데이터 처리를 하여 원하는 결과를 얻을 수 있다.According to the present invention, triangle counting is performed using Hadoop's Map-Reduce technology to collect information of clusters using a data mining engine. In addition, you can achieve the desired result by processing distributed data accurately in specific parts.

도1은 종래 기술에 따라 하나의 에지만을 공유하는 무수한 많은 삼각형을 지닌 그래프를 보여주는 도면.
도2는 DOULION의 문제점을 보이는 실험결과를 보여주는 그래프.
도3은 Hadoop의 Map-Reduce를 이용한 분산 처리 방법
도4는 본 발명에 따른 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치의 구성을 보여주는 도면.
도5는 본 발명에 따른 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법의 순서를 보여주는 도면.
도6은 본 발명에 따라 시뮬레이션한 그래프에서의 결과값을 비교하는 그래프(This paper : 본 발명).
도7은 본 발명의 일실시예에 따라 특수한 그래프에서의 성능을 보여주는 그래프.
1 shows a graph with a myriad of triangles sharing only one edge in accordance with the prior art;
Figure 2 is a graph showing the experimental results showing the problem of DOULION.
Figure 3 is a distributed processing method using Map-Reduce of Hadoop
4 is a view showing the configuration of a triangle counting sampling apparatus using map reduce according to the present invention;
5 is a view showing a sequence of a triangle counting sampling method using map reduce according to the present invention;
Figure 6 is a graph comparing the results in the graph simulated according to the present invention (This paper: the present invention).
7 is a graph showing performance in a special graph in accordance with one embodiment of the present invention.

이하 본 발명의 실시를 위한 구체적인 내용을 도면을 참고하여 자세히 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the drawings.

본 발명에 따른 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치는 데이터마이닝 엔진(100)을 포함하여, 가중치를 사용하여 Sampling을 하여 특정 그래프 즉, 하나의 에지만을 공유하는 무수히 많은 삼각형이 있을 때에 중요 에지가 누락 되는 것을 막아 실제 Count와 편차가 적은 우수한 성능을 얻을 수 있다.The triangle counting sampling apparatus using map reduce according to the present invention includes a data mining engine 100 and performs sampling using a weighting factor to make a critical edge when there are a large number of triangles sharing a specific graph, that is, only one edge. Excellent performance with little deviation from actual count can be obtained by preventing omission.

상기 데이터마이닝 엔진(100)은 전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 트라이앵글 카운팅 모듈(150)로 구성된다.The data mining engine 100 is composed of a triangle counting module 150 that counts the frequency of appearance of each node in the total data.

따라서 본 발명에 따라 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하고, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하여, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅한다.Accordingly, according to the present invention, the minimum value of the number of connection edges among two nodes connected to the edge is obtained through the data consisting of two frequency edges, and the edges have a probability proportional to the frequency according to the appearance frequency of the nodes. The sampling probability of is formed into a subgraph, and the triangle is counted in the subgraph using the triangle counting technique.

또한 상기 데이터마이닝 엔진(100)은 상기 노드들이 늘어나도 처리 속도가 빨라지도록, 하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리한다.In addition, the data mining engine 100 processes the work of the nodes in parallel using Hadoop's Map-Reduce so that the processing speed is increased even when the nodes are expanded.

또한 상기 서브그래프는

Figure 112011098621158-pat00008
(V : vertex 값, E : edge 값)이다.Also, the subgraph
Figure 112011098621158-pat00008
(V: vertex value, E: edge value)

상기 데이터마이닝 엔진(100)은, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하기 위한 빈도 측정 공식은 아래 <수학식2>이다.In the data mining engine 100, a frequency measurement formula for forming a sampling probability of the edge into a subgraph with a probability proportional to the frequency according to the appearance frequency of the nodes is expressed by Equation 2 below. to be.

Figure 112011098621158-pat00009
Figure 112011098621158-pat00009

따라서 상기 데이터 마이닝 엔진을 이용하여 클러스터들의 정보를 수집하여 Hadoop의 Map-Reduce기술을 이용하여 Triangle Counting하여 기존보다 빠른시간 안에 공유되는 에지가 많은 부분은 살려서 샘플링하여 보다 전체에서 뿐만 아니라 특정 부분에서도 정확하게 분산 데이터 처리를 하여 원하는 결과를 얻을 수 있다.
Therefore, by collecting the information of clusters using the data mining engine and triangle counting using Hadoop's Map-Reduce technology, the part that has many shared edges is sampled in a faster time than before. Distributed data processing can produce the desired results.

이하 본 발명의 실시를 위한 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법에 대하여 자세히 설명한다.Hereinafter, a triangle counting sampling method using map reduce for the implementation of the present invention will be described in detail.

먼저 데이터마이닝 엔진이 트라이앵글 카운팅 모듈을 통하여 전체 데이터에서 각 노드들의 출현 빈도를 카운팅한다.First, the data mining engine counts the frequency of appearance of each node in the total data through the triangle counting module.

그리고 두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 3 노드 중 2 노드 값의 최소값을 취한다.The minimum value of two node values of the three nodes is taken through the data consisting of edges having two frequencies.

계속하여 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성한다.Subsequently, the sampling probability of the edge is formed as a subgraph with a probability proportional to the frequency according to the appearance frequency of the nodes.

또한 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅한다.The triangle is counted in the subgraph using the triangle counting technique.

또한 상기 노드들이 늘어나도 처리 속도가 빨라지도록, 하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리하고, 여기에서 상기 서브그래프는,

Figure 112011098621158-pat00010
(V : vertex 값, E : edge 값)이다.In addition, the processing of the nodes is processed in parallel using Hadoop's Map-Reduce so that the processing speed is increased even when the nodes are expanded, wherein the subgraph is
Figure 112011098621158-pat00010
(V: vertex value, E: edge value)

또한 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계에서, 빈도 측정 공식은 상기 <수학식2>이다.In addition, in the step of forming a sampling probability of the edge as a subgraph with a probability proportional to the frequency according to the appearance frequency of the nodes, the frequency measurement formula is Equation (2).

구체적으로 살펴보면, Specifically,

1) Hadoop의 Map-Reduce를 이용하여 도3 같이 node(PC)들의 작업을 병렬로 처리가 가능하다. node가 늘어날수록 처리 속도는 빨라진다.1) Using Hadoop's Map-Reduce, it is possible to process the work of nodes (PCs) in parallel as shown in FIG. The more nodes, the faster the processing.

가) 전체 데이터에서 각 node들의 출현 빈도를 센다. A) Count the frequency of appearance of each node in the total data.

나) 에지로 이루어진 각 데이터들은 두 개의 빈도수를 가지게 된다. 이 때 우리는 두 node 값의 최소값을 취하게 된다.B) Each data consisting of edges has two frequencies. At this time, we take the minimum of two node values.

다) node들의 출현 빈도에 따라 빈도에 비례하는 확률로 에지의 Sampling 확률을 다르게 준다. C) According to the frequency of nodes, the sampling probability of the edge is different with the probability proportional to the frequency.

라) Sampling된 새로운 subgraph를

Figure 112011098621158-pat00011
이라 한다.D) new sampled subgraph
Figure 112011098621158-pat00011
Quot;

마) Triangle Counting Algorithm을 이용하여

Figure 112011098621158-pat00012
에서 삼각형을 센다. 실험 결과는 실제값과 작은 편차를 가진다.E) using the Triangle Counting Algorithm
Figure 112011098621158-pat00012
Count the triangles in The experimental result has a small deviation from the actual value.

로 나누어 질 수 있다.Can be divided into

따라서 본 발명에서는 그래프에서 node의 에지개수를 세어서 비례하는 확률로 Sampling하여 Triangle Counting을 하는 방법을 Hadoop의 Map-Reduce를 이용하여 보다 전체에서 뿐만 아니라 특정 부분에서도 정확하게 분산 데이터 처리를 하여 원하는 결과를 얻을 수 있다.Therefore, in the present invention, the method of triangle counting by sampling and counting the number of edges of nodes in the graph with proportional probability, using Hadoop's Map-Reduce, more accurately distributed data processing not only in the whole but also in specific parts, and the desired result is obtained. You can get it.

100 : 데이터마이닝 엔진
150 : 트라이앵글 카운팅 모듈
100: data mining engine
150: triangle counting module

Claims (8)

트라이앵글 카운팅 기법(Triangle counting Algorithm)으로 연결된 세노드(node)를 찾는 방법에 있어서,
데이터마이닝 엔진이 트라이앵글 카운팅 모듈을 통하여 전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 단계와;
두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하는 단계와;
상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계와;
상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅하는 단계;로 이루어지는 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법.
In a method for finding three nodes connected by a triangle counting algorithm,
Counting, by the data mining engine, the frequency of appearance of each node in the total data via the triangle counting module;
Taking a minimum value of the number of connection edges among the two nodes connected to the edge through respective data consisting of edges having two frequencies;
Forming a sampling probability of the edge into a subgraph with a probability proportional to the frequency of appearance of the nodes;
Counting triangles in the subgraph by using the triangle counting technique. Triangle counting sampling method using map reduce, characterized in that consisting of.
제1항에 있어서,
하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리하는 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법.
The method of claim 1,
A triangle counting sampling method using map reduce, wherein the operations of the nodes are processed in parallel using Hadoop's Map-Reduce.
제1항에 있어서,
상기 서브그래프는,
분석 대상 그래프 G(V,E)에서 샘플링 과정을 거친
Figure 112013045498558-pat00024
(V : vertex 값, E : edge 값)인 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법.
The method of claim 1,
The subgraph is,
Sampling from the analysis target graph G (V, E)
Figure 112013045498558-pat00024
Triangle counting sampling method using map reduce, characterized in that (V: vertex value, E: edge value).
제1항에 있어서,
상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하는 단계에서, 빈도 측정 공식은 아래 <수학식2>인 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 방법.
<수학식2>
Figure 112013045498558-pat00025

(α : 조정 가능한 파라미터로서 0과 1 사이의 값)
The method of claim 1,
In the step of forming a sampling probability of the edge as a subgraph with a probability proportional to the frequency according to the frequency of appearance of the nodes, the frequency measurement formula is Equation 2 below. Triangle counting sampling method using deuce.
&Quot; (2) &quot;
Figure 112013045498558-pat00025

(α: value between 0 and 1 as adjustable parameter)
맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치에 있어서,
데이터마이닝 엔진을 포함하되,
상기 데이터마이닝 엔진은,
전체 데이터에서 각 노드들의 출현 빈도를 카운팅하는 트라이앵글 카운팅 모듈;로 구성되며,
두 개의 빈도수를 가지는 에지(Edge)로 이루어진 각 데이터들을 통해 상기 에지로 연결된 2노드 중 연결 에지수의 최소값을 취하고, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하여, 상기 트라이앵글 카운팅 기법을 이용하여 상기 서브그래프에서 삼각형을 카운팅하는 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치.
In the triangle counting sampling apparatus using map reduce,
Include the data mining engine,
The data mining engine,
Triangle counting module for counting the frequency of appearance of each node in the total data;
Sampling of the edges with a probability proportional to the frequency according to the frequency of appearance of the nodes by taking the minimum value of the number of connection edges among the two nodes connected to the edge through the data consisting of two frequency edges. Forming a probability into a subgraph and counting triangles in the subgraph using the triangle counting technique.
제5항에 있어서,
상기 데이터마이닝 엔진은,
하둡(Hadoop)의 맵-리듀스(Map-Reduce)를 이용하여 상기 노드들의 작업을 병렬로 처리하는 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치.
The method of claim 5,
The data mining engine,
A triangle counting sampling device using map reduce, characterized in that the operations of the nodes are processed in parallel using Hadoop's Map-Reduce.
제6항에 있어서,
상기 서브그래프는,
분석 대상 그래프 G(V,E)에서 샘플링 과정을 거친
Figure 112013045498558-pat00026
(V : vertex 값, E : edge 값)인 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치.
The method according to claim 6,
The subgraph is,
Sampling from the analysis target graph G (V, E)
Figure 112013045498558-pat00026
Triangle counting sampling device using map reduce, characterized in that (V: vertex value, E: edge value).
제6항에 있어서,
상기 데이터마이닝 엔진은, 상기 노드들의 출현 빈도에 따라 빈도에 비례하는 확률로 상기 에지의 샘플링(sampling) 확률을 서브그래프(subgraph)로 형성하기 위한 빈도 측정 공식은 아래 <수학식2>인 것을 특징으로 하는 맵 리듀스를 이용한 트라이앵글 카운팅 샘플링 장치.
<수학식2>
Figure 112013045498558-pat00027

(α : 조정 가능한 파라미터로서 0과 1 사이의 값)
The method according to claim 6,
In the data mining engine, a frequency measurement formula for forming a sampling probability of the edge into a subgraph with a probability proportional to the frequency according to the appearance frequency of the nodes is expressed by Equation 2 below. Triangle counting sampling device using map reduce.
&Quot; (2) &quot;
Figure 112013045498558-pat00027

(α: value between 0 and 1 as adjustable parameter)
KR1020110133139A 2011-12-12 2011-12-12 System and method for Triangle Counting Sampling by using Map-Reduce KR101307337B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110133139A KR101307337B1 (en) 2011-12-12 2011-12-12 System and method for Triangle Counting Sampling by using Map-Reduce

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110133139A KR101307337B1 (en) 2011-12-12 2011-12-12 System and method for Triangle Counting Sampling by using Map-Reduce

Publications (2)

Publication Number Publication Date
KR20130066352A KR20130066352A (en) 2013-06-20
KR101307337B1 true KR101307337B1 (en) 2013-09-10

Family

ID=48862657

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110133139A KR101307337B1 (en) 2011-12-12 2011-12-12 System and method for Triangle Counting Sampling by using Map-Reduce

Country Status (1)

Country Link
KR (1) KR101307337B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776045A (en) * 2017-01-12 2017-05-31 武汉大学 One kind is based on pre-filtered Large Scale Graphs intermediate cam shape computational methods

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101940802B1 (en) * 2016-02-02 2019-01-22 한국전자통신연구원 System for calculating the number of the local triangular using the terminal resources and method thereof
KR101900576B1 (en) * 2016-12-29 2018-09-20 서울대학교산학협력단 Triangles counting method for graph stream
CN108737185A (en) * 2018-05-23 2018-11-02 哈尔滨工业大学 A kind of triangle count method and device in datagram stream based on random sampling
CN114389961B (en) * 2022-01-14 2024-03-08 北京中科通量科技有限公司 Graph flow triangle counting method and device based on node heat sampling

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090090984A (en) * 2008-02-22 2009-08-26 삼성전자주식회사 Method and apparatus for generating a mashup graph, and method and apparatus for recommending mashup services

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090090984A (en) * 2008-02-22 2009-08-26 삼성전자주식회사 Method and apparatus for generating a mashup graph, and method and apparatus for recommending mashup services

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776045A (en) * 2017-01-12 2017-05-31 武汉大学 One kind is based on pre-filtered Large Scale Graphs intermediate cam shape computational methods
CN106776045B (en) * 2017-01-12 2020-03-10 武汉大学 Large-scale graph triangle calculation method based on pre-filtering

Also Published As

Publication number Publication date
KR20130066352A (en) 2013-06-20

Similar Documents

Publication Publication Date Title
Deng et al. A scalable and fast OPTICS for clustering trajectory big data
US20210174121A1 (en) Method for extracting robot processing boundary of thin-walled part with small curvature based on three-dimensional point cloud
KR101307337B1 (en) System and method for Triangle Counting Sampling by using Map-Reduce
KR20190082062A (en) Method and apparatus for determining a matching relationship between point cloud data
CN108900476A (en) Based on Spark and the parallel network flow method for detecting abnormality that forest is isolated
CN103838803A (en) Social network community discovery method based on node Jaccard similarity
WO2015057190A1 (en) Analyzing a parallel data stream using a sliding frequent pattern tree
CN113746798B (en) Cloud network shared resource abnormal root cause positioning method based on multi-dimensional analysis
AU2016204093A1 (en) System and method for detecting outliers in real-time for a univariate time-series signal
CN102722732B (en) Image set matching method based on data second order static modeling
CN107527356B (en) Video tracking method based on lazy interaction mode
CN112288807A (en) Method and device for generating intersection data in high-precision map
CN111046895A (en) Method and device for determining target area
CN104869105A (en) Abnormal state online identification method
Zaarour et al. Automatic anomaly detection over sliding windows: Grand challenge
CN111027599B (en) Clustering visualization method and device based on random sampling
CN114091578A (en) Ship track clustering method based on curve length distance
CN109981630B (en) Intrusion detection method and system based on chi-square inspection and LDOF algorithm
CN111046248A (en) Two-class hierarchical graph sampling method based on approximation degree distribution
Zaarour et al. Grand challenge: Automatic anomaly detection over sliding windows
CN107943918B (en) Operation system based on hierarchical large-scale graph data
EP2829991B1 (en) Systems and methods for signal detection
Eyal et al. Distributed clustering for robust aggregation in large networks
Li et al. An FPGA-based tree crown detection approach for remote sensing images
CN113747487B (en) Method and system for detecting abnormal drift of flow of wireless base station based on Riemann manifold

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160901

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170901

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee