KR20110080465A

KR20110080465A - 병렬 연산에 의한 플로우 데이터 분석 방법

Info

Publication number: KR20110080465A
Application number: KR1020100000709A
Authority: KR
Inventors: 이영석; 강원철; 손현구
Original assignee: 충남대학교산학협력단
Priority date: 2010-01-06
Filing date: 2010-01-06
Publication date: 2011-07-13
Also published as: US20110167149A1; KR101079786B1

Abstract

본 발명은 플로우 데이터 분석 방법에 관한 것으로, 보다 상세하게는 (A) 메니져 노드에서 파일 시스템에 저장되어 있는 플로우 데이터를 분할하여 한 개 이상의 데이터 노드로 분배하는 플로우 데이터 입력 단계; (B) 각각의 데이터 노드에서 입력된 데이터로부터 (Key, Value) 쌍을 생성하고 임시 저장하는 맵 작업 단계; 및 (C) 맵 작업 단계에서 저장된 (Key, Value) 값으로부터 데이터 노드에서 (Key, SUM(Value))값을 계산하여 저장하는 리듀스 작업 단계;로 이루어 지는 맵(Map)-리듀스(Reduce) 방법에 의해 병렬연산하는 것을 특징으로 하는 네트워크 트래픽 모니터링을 위한 플로우 데이터 분석 방법에 관한 것이다.
본 발명의 플로우 데이터 분석 방법에 의하면 트래픽 모니터링 장비에서 플로우 데이터 기반의 트래픽 분석 작업을 수행할 때 기존에 하나의 서버에서 이루어지던 분석 작업을 다수의 서버에 분산하여 병렬로 처리할 수 있으므로, 최단시간에 Flow Data를 분석하여 그 결과를 사용자에게 전달할 수 있다.

Description

병렬 연산에 의한 플로우 데이터 분석 방법{Flow Data Analyze Method by Parallel Computation}

본 발명은 플로우 데이터 분석 방법에 관한 것으로, 보다 상세하게는 트래픽 모니터링 장비에서 플로우 데이터 기반의 트래픽 분석 작업을 수행할 때 기존에 하나의 서버에서 이루어지던 분석 작업을 다수의 서버에 분산하여 병렬로 처리할 수 있는 플로우 데이터 분석 방법에 관한 것이다.

네트워크에서 데이터가 전송되는 양의 정도를 나타내는 네트워크 트래픽을 측정·분석하는 일은 컴퓨터 네트워크 분야를 연구하는데 있어서 기본적이면서도 가장 중요한 분야 중 하나이다. 네트워크 트래픽의 측정은 네트워크의 운영 상태와 트래픽 특성 파악, 설계 및 계획, 유해한 트래픽의 차단, 과금, QoS(Quality of Service) 보장을 위해 필수적이다. 이러한 트래픽의 측정은 능동적 측정과 수동적 측정으로 나눌 수 있다.

능동적 측정은 시험 패킷들을 추가적으로 네트워크에 직접 실어 보내고, 수신 측에서 그 결과를 측정하는 방법으로 단방향 지연, 패킷 손실 및 지연 변이와 같이 얻고자 하는 메트릭(metrics)을 쉽게 구할 수 있는 장점이 있다. 그러나 사용자의 실제 트래픽을 측정하는 것이 아니라 부가적인 시험 트래픽을 기준으로 측정하기 때문에 측정 결과가 부정확하고 정상적인 네트워크 트래픽에 영향을 주는 단점이 있다.

수동적 측정 방법은 물리적인 링크 회선을 태핑(tapping)하거나 스위치 또는 라우터의 포트 미러링(mirroring) 기능을 이용하여 회선을 분리하고, 모니터링을 위한 하나의 회선을 따로 두어 트래픽을 측정하는 방법이다. 이 방법은 회선의 물리적인 태핑을 위해서 현재 운영 중인 네트워크를 일시적으로 중단해야 하는 문제가 있으나, 현재 운영 중인 네트워크에 전혀 영향을 주지 않으면서 회선에 흐르는 모든 트래픽을 수집할 수 있다. 따라서, 네트워크의 상황을 실시간으로 파악하여 관리하고 현재 네트워크 성능에 영향을 주지 않으면서 효율적으로 망을 운영하기를 원하는 네트워크 운영자의 요구에 걸맞기 때문에 능동적 측정 방법에 비해 더 많이 사용된다.

네트워크 트래픽의 분석방법에는 패킷 단위의 분석과 플로우 단위의 분석이 존재한다. 초기의 트래픽 분석은 패킷 단위로 이루어졌으나, 인터넷 사용자 수 및 네트워크와 트래픽의 규모가 급속도로 증가하면서 패킷의 모음인 플로우 단위의 분석이 등장하여 널리 사용되고 있다. 플로우 기반 분석 방법에서는 모든 패킷에 대해 패킷단위로 측정하고 분석하는 대신 공통된 특성(예로 들어, 소스 IP 주소(Source IP Address), 목적지 IP 주소(Destination IP Address), 소스 포트(Source Port), 목적지 포트(Destination Port) 및 프로토콜 ID, DSCP, 등)을 가지는 패킷들을 플로우라는 단위로 묶어서 분석한다. 이러한 플로우 기반 분석 방법은 패킷을 일정 기준에 따라 묶은 플로우를 기반으로 트래픽을 분석함으로써, 트래픽 분석 처리 지연시간을 크게 줄일 수 있다. 이러한 플로우 단위 분석방법으로는 IPFIX가 있으며, Flow-tools 등이 대표적인 분석 툴로 사용된다.

상기와 같은 플로우 단위 분석 툴의 경우 단일 서버에서 작동하게 된다. 그러나 최근 사용자 및 트래픽의 증가로 인해 패킷 분석보다는 높은 성능을 기대할 수 있다고 하더라도 단일 서버에서 작동하는 플로우 분석 역시 서버의 성능이 오버헤드로 작용하여 트래픽 분석 속도가 저하될 수 있다는 문제가 있다. 이러한 문제점은 수 100Mbps에서 수 10Gbps에 달하는 고속의 인터넷 망에서 대용량 트래픽을 처리하는 라우터로부터 대용량 플로우 데이터를 수집하여 분석하는 시스템에서 더욱 심각하게 발생한다. 따라서 트래픽 측정을 위하여 빠른 시간 내에 플로우 데이터를 분석하고 그 결과를 사용자에게 전달하기 위해서는 서버의 성능이 우수하여야 하므로 고성능의 서버를 필요로 하여 비용면에서 부담이 된다.

한편, Map-Reduce는 구글에서 발표한 대용량 데이터의 생성·처리를 위한 프로그래밍 모델로 대규모 웹 페이지의 데이터 가공을 위하여 광범위하게 사용되고 있다. 여기에서 Map은 (key, value) 쌍을 처리하여 또 다른 (key`, value`) 쌍을 생성하는 함수이다. 수 많은 노드에서 Map 함수가 동시에 수행되므로 각각의 (key`, value`) 데이터 셋이 생성된다. Reduce는 Map으로부터 생성된 (key`, value`) 데이터에 대하여 동일 key'에 대한 값을 병합하여 리스트 형태인 (key`, list(value`))로 생성한다. Reduce 함수도 수 많은 노드에서 동시에 수행되므로 각각의 (key`, list(value`))은 최종적으로 병합되어 list(value`)를 생성한다. 따라서 사용자는 자신의 Map 함수와 Reduce 함수를 작성하기만 하면, 하나의 클러스터 안에 있는 모든 노드들과 함께 병렬 연산이 가능하게 된다. Map-Reduce는 대용량 웹 문서에서 특정 단어가 포함된 라인의 추출(Distributed Grep), 특정 URL이 포함된 개수(Count of URL Access Frequency)를 비롯하여 여러가지 분산 데이처 처리에 응용되고 있다. 그러나, 아직 플로우 데이터 처리에 Map-Reduce를 응용하여 트래픽을 효과적으로 처리하고자 하는 시도는 이루어진 바 없다.

상기와 같은 종래 기술의 문제점을 해결하기 위하여 본 발명은 플로우 기반의 트래픽을 분석함에 있어서, 다수의 서버에서 분산 분석한 후 이를 병렬로 처리하여 트래픽 측정·분석 성능을 향상시킬 수 있는 플로우 데이터 분석 방법을 제공하는 것을 목적으로 한다.

전술한 목적을 달성하기 위한 본 발명은 (A) 메니져 노드에서 파일 시스템에 저장되어 있는 플로우 데이터를 분할하여 한 개 이상의 데이터 노드로 분배하는 플로우 데이터 입력 단계; (B) 각각의 데이터 노드에서 입력된 데이터로부터 (Key, Value) 쌍을 생성하고 임시 저장하는 맵 작업 단계; 및 (C) 맵 작업 단계에서 저장된 (Key, Value) 값으로부터 데이터 노드에서 (Key, SUM(Value))값을 계산하여 저장하는 리듀스 작업 단계;로 이루어 지는 맵(Map)-리듀스(Reduce) 방법에 의해 병렬연산하는 것을 특징으로 하는 네트워크 트래픽 모니터링을 위한 플로우 데이터 분석 방법에 관한 것이다.

상기 메니져 노드는 전체 시스템의 성능을 관리하고 일을 할당하는 서버이며, 데이터 노드는 실질적으로 데이터를 분석하고 가공하는 서버를 지칭한다. 본 발명은 종래 기술에서 플로우 데이터 분석이 단일 서버에서 이루어지는 것으로 인한 트래픽 분석 속도의 저하에 따른 문제점을 해소하기 위한 것이므로, 상기 데이터 노드는 한 개 이상인 것이 바람직하다. 도 4에서 확인할 수 있듯이, 데이터 노드의 수가 증가할수록 플로우 데이터의 분석 속도 역시 증가하므로 다수의 데이터 노드를 사용하는 것이 유리하다. 따라서, 데이터 노드의 수의 상한을 설정하는 것은 무의미하다. 다만, 플로우 데이터 분석의 대상이 되는 네트워크의 규모, 데이터 노드의 성 등의 환경과 경제성을 고려하여 적절한 데이터 노드의 수를 설정하는 것은 당업자에게는 용이할 것이다.

상기 Key 값과 Value 값은 분석하고자 하는 목적에 따라 미리 사용자에 의해 설정되어 있을 수 있다. Key로는 출발지 IP 주소, 도착지 IP 주소, 출발지 포트 번호 또는 도착지 포트 번호를 설정할 수 있으며, Value는 플로우 수, 패킷 수 또는 바이트 수를 사용할 수 있다. 설정된 Key와 Value에 따라 출발지 IP 주소별 패킷 수, 도착지 포트 번호 별 패킷 수와 같이 플로우 데이터를 분석할 수 있다.

상기 맵 작업 단계 전에는 데이터 분석과정에서의 오류 발생을 줄이기 위하여 정상 데이터를 선별하는 단계를 추가하는 것이 바람직하다. 보다 구체적으로, 플로우 데이터에 플로우의 시작 시간, 플로우의 종료 시간, 플로우의 출발지 IP주소, 플로우의 출발지 포트번호, 플로우의 도착지 IP주소, 플로우의 도착지 포트 주소, 프로토콜 타입, 플로우 생성갯수, 패킷의 개수 및 바이트 수 중의 모든 데이터가 포함된 데이터를 정상 데이터로 판단하고, 정상 데이터에 대해서만 맵 작업을 진행한다. 상기 선별 단계에서 정상이 아닌 것으로 판단된 데이터에 대해서는 맵 작업을 진행하지 않는다. 이러한 정상 데이터의 선별은 메니져 노드 또는 데이터 노드에서 진행될 수 있다.

또한, 상기 (C) 리듀스 작업 단계에서 생성된 (Key, SUM(Value)를 SUM(Value)값을 기준으로 오름차순 또는 내림차순으로 정렬하는 순위 결정 단계를 추가로 포함할 수 있다. 순위 결정 단계에 의하면, 플로우의 전송량이 많은 IP 주소 등을 용이하게 분석할 수 있다.

이상과 같이 본 발명에 의하면 트래픽 분석을 위해 Flow Data를 분석할 때 하나의 서버에서 분석 작업을 하는 것이 아니라 다수의 서버로 분산시켜 분산 분석을 할 수 있으므로, 최단시간에 Flow Data를 분석하여 그 결과를 사용자에게 전달 할 수 있다.

또한 본 발명에 의하면, 분산 분석은 하나의 서버가 성능이 뛰어나야 하는 단일 서버와 달리 보통의 성능이 가진 다수의 서버를 이용하므로 비용면에서 절감효과를 가져올 수 있다.

도 1은 본 발명에 의한 Map-Reduce 기반의 플로우 데이터 분석 방법을 간략하게 보여주는 흐름도이다.
도 2는 도 1의 Map 작업부(102)를 세분화하여 보여주는 흐름도이다.
도 3은 도 2의 데이터 분리(203) 및 데이터 기록(205) 과정을 세분화 하여 보여주는 흐름도이다.
도 4는 도 2의 Reduce 작업부(104)를 세분화하여 보여주는 흐름도이다.

이하 도면을 참조하여 본 발명을 상세하게 설명한다. 그러나, 이들은 예시적인 목적일 뿐 본 발명이 이에 한정되는 것은 아니다.

도 1은 본 발명에 따른 네트워크 트래픽 측정을 위한 플로우 데이터 분석의 전체 과정을 보여주는 간단한 흐름도이다. 도 1을 참조하면 본 발명의 플로우 데이터 분석은 플로우 데이터 입력 단계(101), 맵(Map) 작업 단계(102) 및 리듀스(Reduce) 작업 단계(103)로 구성된다. 도 2와 도 3은 각각 도 1의 맵 작업 단계 및 리듀스 작업 단계에 대한 상세 흐름도이다.

플로우 데이터 입력 단계(101)는 메니져 노드에서 파일 시스템에 저장되어 있는 플로우 데이터를 첫 라인부터 차례로 읽어서 데이터 노드에 할당하여 입력하는 단계이다.

맵 작업 단계(102)는 데이터 노드에서 입력된 플로우 데이터의 라인을 각각 분석하는 단계이다. 이때 데이터 노드는 하나 이상의 서버로 구성될 수 있으며, 상기 주 서버가 맵 작업 서버의 역할을 병행하여 수행할 수도 있다.

보다 구체적으로 맵 작업 단계를 도 2를 참조하여 설명하면 다음과 같다. 각 데이터 노드는 먼저 메니져 노드로부터 입력된 플로우 데이터의 라인을 읽은(201) 후, 상기 각 라인의 플로우 데이터의 구성값을 확인하여 전달된 라인이 정상 데이터인지 확인한다(202). 만일 각 라인에 플로우의 시작 시간, 플로우의 종료 시간, 플로우의 출발지 IP주소, 플로우의 출발지 포트번호, 플로우의 도착지 IP주소, 플로우의 도착지 포트 주소, 프로토콜 타입, 플로우 생성갯수, 패킷의 개수, 바이트 수 중에 빠진 데이터가 있다면, 정상 데이터가 아닌 것으로 판단한다. 정상 데이터의 확인은 데이터 분석과정에서의 오류 발생을 줄이기 위한 것으로 상기 플로우 데이터 입력 단계(101)에서 수행될 수도 있다. 즉, 플로우 데이터 입력 단계에서 플로우 데이터의 각 라인을 차례로 읽은 후 정상 데이터인지 확인하고, 정상 데이터인 경우에 한하여 데이터 노드에 할당하여 입력할 수도 있다. 플로우 데이터 입력 단계에서 정상 데이터의 확인이 이루어진 경우에는 맵 작업 단계에서는 본 과정을 생략할 수 있다.

상기 과정에서 데이터가 정상 데이터인 것으로 판명되면, 문자열 분석을 통하여 사용자 설정값에 의해 정의된 Key와 Value를 추출하여 (Key, Value)쌍을 생성한다(203). Key 와 Value는 쌍으로 생성되어야 하며, 쌍으로 생성되지 않은 값은 필요없는 값으로 버리게 된다. 이때, Key는 분류를 위한 값으로 트래픽의 측정?분석 목적에 따라 출발지 IP 주소, 도착지 IP 주소, 출발지 포트 번호 및 도착지 포트 번호 중 선택하여 사용할 수 있다. Value는 Key에 해당하는 트래픽을 측정할 수 있는 값으로 플로우 수, 패킷 수나 바이트 수와 같은 데이터를 이용할 수 있다. 이렇게 생성된 (Key, Value)쌍은 데이터 기록 과정(204)을 통하여 임시 저장소에 저장된다.

정상 데이터에 대해 기록 과정이 완료되면, 메니져 노드로부터 입력된 데이터가 더 있는 지를 확인하고(205) 다음 데이터가 있다면 다시 작업을 반복한다. 다음 데이터가 없다면 맵 분석 작업이 완료된 것이므로 작업을 종료한다.

상기 정상 데이터 확인 과정에서 데이터가 정상적이지 않다고 판명된 경우라면, 비정상 데이터에 대한 추가 작업은 진행하지 않고 데이터 기록 과정(204)의 모든 데이터를 읽었는지 확인하는 단계로 넘어간다.

리듀스 작업 단계(103)는 데이터 노드에서 임시 저장소에 저장된 (Key, Value)쌍을 읽어 플로우 데이터 별 결과를 생성하는 부분이다. 이때 데이터 노드는 맵 작업을 담당하는 데이터 노드와 동일하거나 혹은 별도로 지정될 수 있다. 또한 리듀스을 위한 데이터 노드 역시 하나 이상의 서버로 구성될 수 있으며, 상기 메니져 노드가 본 데이터 노드의 역할을 병행하여 수행할 수도 있다. 도 3을 참조하여, 리듀스 작업 단계를 상세히 설명한다.

도 3을 참조하면, 먼저 (Key, Value)리스트 읽기(301)에서는 상기 맵 작업 단계에서 임시 저장소에 저장한 (Key, Value) 쌍의 데이터 리스트 중 동일한 Key값을 갖는 (Key, Value) 쌍을 읽어온다. 읽어온 데이터의 Value 값을 더하여 새로운 Value 값인 SUM(Value)를 계산하고(302), (Key, SUM(Value))의 새로운 쌍을 생성한다(303). 예를 들어, (Key, Value)가 (IP 주소, 플로우 수)의 쌍으로 설정된 경우, 상기 작업에 의하면 (IP 주소, SUM(플루우 수))가 생성되므로 IP 주소에 따른 플로우 수의 총 양을 계산할 수 있다. 계산된 (Key, SUM(Value))는 데이터 기록 단계에서 저장(306)되어 트래픽 측정·분석에 사용될 수 있다. 데이터 기록이 완료되면, 맵 작업 단계에서 임시 저장소에 저장된 데이터를 모두 읽었는지 확인(307)하고, 데이터가 남아있다면 또 다른 Key를 선택하여 (Key, Value)리스트를 생성하여 위의 작업을 반복하게 된다.

만일, 데이터 확인 결과, 임시 저장소에 저장된 더 이상의 데이터가 없다면, 리듀스 작업을 종료하게 된다.

리듀스 작업을 종료한 데이터는 rrdtool 이나 php를 이용하여 시각화하여 네트워크 트래픽을 모니터링하는 데 이용할 수 있다. 예를 들어, IP 주소, 포트 번호에 대한 5분 간격의 바이트 카운트 변화량을 관측할 수 있으며, 최근에 가장 많이 사용된 IP 주소와 포트 번호를 정렬하여 사용자에게 네트워크의 상황을 보여 줄 수 있도록 한다.

상기 리듀스 작업 단계에서 생성된 (Key, SUM(Value))에 대해서는 필요에 따라 추가로 순위 결정을 할 수 있다(304). 예를 들어, 플로우 수가 많은 IP 주소 순위 또는 바이트 수가 많은 포트 번호 순위 등의 데이터가 필요한 경우에는 (Key, SUM(Value))값의 생성 후 데이터 기록 전에 다음과 같은 순위 결정 단계를 추가로 포함할 수 있다. SUM(Value) 값에 의한 순위 결정이 필요한 경우, Key, SUM(Value) 스위칭에 의해 (Key, SUM(Value))쌍을 (SUM(Value), Key) 쌍으로 변환한 후 SUM(Value) 값에 따라 정렬하는 것에 의해 순위를 결정할 수 있다(305).

도 5는 본 발명에 의한 플로우 데이터 분석 성능을 기존 방법인 flow-tools 사용 방법과 비교하여 보여주는 그래프이다. 도 1에서 데이터 노드 1~7은 본 발명의 플로우 데이터 분석을 데이터 노드의 수를 증가시켜 수행한 결과이다. x축은 사용한 데이터의 종류와 실험의 방법을 보여주고 y축은 동일한 작업을 수행하는 동안 걸린 시간을 나타낸다. 각 실험 결과는 작업 수행에 소요되는 시간을 나타내는 y 축의 수치가 작을수록 성능이 뛰어남을 나타낸다.

보다 구체적으로, /24 서브넷의 네트워크에서 수집된 각각 하루, 일주일, 한 달간의 플로우 데이터를 이용하여 기존의 방법인 flow-tools를 사용한 것과 Map Reduce의 메니져 노드와 별도로 데이터 노드의 수를 늘려가면서 성능을 비교하였다. 즉, 데이터 노드가 하나인 경우는 메니져 노드와 별도로 데이터 노드 하나를 사용하여 플로우 분석을 수행한 결과이다. 이 때 사용된 데이터 노드의 사양은 인텔 코어2 쿼드 2.83GHz, 메모리는 4GB 이다. 이 실험에서 맵 작업과 리듀스 작업에 할당되는 노드는 메니져 노드가 자동으로 할당한다.

도의 한 달간의 플로우 데이터 분석을 보게 되면, 기존의 Flow-tools를 이용한 것과 데이터 노드 7개를 이용한 것에는 약 400% 이상의 성능향상을 보인다. 이 그래프에서 볼 수 있는 것은 Map Reduce를 사용할 경우 단일 노드에서 기존의 방법, Flow-tools를 이용하는 것 보다 성능이 뛰어남을 알 수 있다.

Claims

네트워크 트래픽 모니터링을 위한 플로우 데이터 분석 방법에 있어서,
(A) 메니져 노드에서 파일 시스템에 저장되어 있는 플로우 데이터를 분할하여 한 개 이상의 데이터 노드로 분배하는 플로우 데이터 입력 단계;
(B) 각각의 데이터 노드에서 입력된 데이터로부터 (Key, Value) 쌍을 생성하고 임시 저장하는 맵 작업 단계; 및
(C) 맵 작업 단계에서 저장된 (Key, Value) 값으로부터 데이터 노드에서 (Key, SUM(Value))값을 계산하여 저장하는 리듀스 작업 단계;
로 이루어 지는 맵(Map)-리듀스(Reduce) 방법에 의해 병렬연산하는 것을 특징으로 하는 네트워크 트래픽 모니터링을 위한 플로우 데이터 분석 방법.
제 1 항에 있어서,
상기 Key는 출발지 IP 주소, 도착지 IP 주소, 출발지 포트 번호 또는 도착지 포트 번호이며, Value는 플로우 수, 패킷 수 또는 바이트 수인 것을 특징으로 하는 플로우 데이터 분석 방법.
제 1 항 또는 제 2 항에 있어서,
맵 작업 단계 전에 메니져 노드 또는 데이터 노드에서 플로우 데이터에 플로우의 시작 시간, 플로우의 종료 시간, 플로우의 출발지 IP주소, 플로우의 출발지 포트번호, 플로우의 도착지 IP주소, 플로우의 도착지 포트 주소, 프로토콜 타입, 플로우 생성갯수, 패킷의 개수 및 바이트 수 중의 모든 데이터가 포함된 정상 데이터 선별단계를 추가로 포함하여 정상 데이터에 대해서만 맵 작업을 진행하는 것을 특징으로 하는 플로우 데이터 분석 방법.
제 1 항 또는 제 2 항에 있어서,
(C) 리듀스 작업 단계에서 생성된 (Key, SUM(Value)를 SUM(Value)값을 기준으로 오름차순 또는 내림차순으로 정렬하는 순위 결정 단계를 추가로 포함하는 것을 특징으로 하는 플로우 데이터 분석 방법.