KR20190045651A

KR20190045651A - 데이터 스트림 환경에서 균일신뢰도를 지원하는 가변 크기 샘플링 방법

Info

Publication number: KR20190045651A
Application number: KR1020170138480A
Authority: KR
Inventors: 김하진; 길명선; 문양세
Original assignee: 강원대학교산학협력단
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2019-05-03
Also published as: US10673766B2; US20190124014A1; KR101987687B1

Abstract

본 발명의 데이터 스트림 환경에서 가변 크기 샘플링 방법에서, 미리 정해진 균일신뢰도의 하한(ε)을 항상 만족하는 윈도우의 최대 크기를 계산하는 단계, 윈도우의 최대 크기가 계산되면, 샘플링 하고자 하는 데이터 스트림을 입력 받는 단계, 상기 윈도우의 최대 크기와 현재까지 유입된 데이터 스트림 길이를 비교하는 단계, 상기 윈도우의 최대 크기가 상기 데이터 스트림 길이보다 크면, 샘플 크기 및 샘플링 비율 검사를 진행하는 단계, 상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 미만이면, 샘플 크기를 증가시키기 위해 슬롯을 생성한 후, 샘플링을 수행하는 단계 및 상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 이상이면, 슬롯을 생성하지 않고, 바로 샘플링을 수행하는 단계를 포함한다. 본 발명에 의하면, 데이터가 실시간 생성되는 스트림 환경에서 가변 크기 샘플링 시에 균일신뢰도의 저하를 방지하고, 샘플링 성능을 향상시키는 효과가 있다.

Description

데이터 스트림 환경에서 균일신뢰도를 지원하는 가변 크기 샘플링 방법 {Variable size sampling method for supporting uniformity confidence in data stream environment}

본 발명은 데이터 스트림 환경에서 샘플링 방법에 관한 것으로서, 더욱 상세하게는 데이터 스트림 환경에서 균일신뢰도를 지원하는 가변 크기 샘플링 방법에 관한 것이다.

스트림 환경이란 대용량 데이터 스트림이 실시간으로 생성되는 환경을 말한다. 일반적으로 이러한 대용량 데이터 스트림을 실시간 처리하는 것은 매우 어려울 뿐만 아니라 많은 처리 비용이 발생한다. 따라서, 데이터 스트림을 효율적으로 처리하기 위해서 데이터 특징과 패턴을 잘 반영하는 샘플링이 자주 사용된다.

스트림 환경에서의 샘플링은 크게 크기 고정 방법과 비율 고정 방법으로 나뉜다. 크기 고정 방법은 샘플 크기(개수)를 고정하여 샘플링을 수행하는 방법이고, 비율 고정 방법은 샘플 크기 대신 비율을 고정하여 샘플링을 수행하는 방법이다.

KSample은 슬롯 단위로 하나의 샘플 원소를 추출하는 대표적인 비율 고정 샘플링 방법으로서, 스트림 환경에서 동적으로 샘플 크기를 증가시켜 입력 스트림에 대한 샘플링 비율을 일정하게 유지하는 랜덤 샘플링 방법이다.

KSample은 샘플링 비율 p(∈[0,1])를 사용자로부터 입력 받아 샘플 크기가 항상 데이터 스트림의 P%(=p×100) 이상으로 유지되도록 샘플링한다. 즉, 끊임없이 유입되는 데이터 스트림의 P%를 샘플로 유지하기 위해 샘플 크기를 동적으로 증가시킨다. 예를 들어, p=0.1로 주어졌을 때, KSample은 스트림의 유입에 따라 동적으로 샘플 크기를 증가시켜 적어도 입력 데이터 스트림의 10%를 샘플로 유지한다.

도 1은 KSample의 동작 절차를 나타내는 도면이다.

도 1을 참조하면, KSample의 동작은 먼저, 샘플링 하고자 하는 데이터 스트림을 입력받는다(1).

그리고, 데이터 스트림이 유입되면 현재 샘플 크기가 데이터 스트림의 P% 이상인지 검사한다(2).

현재 샘플 크기가 데이터 스트림의 P% 미만이면, 슬롯을 생성하고(3), 샘플링을 수행하고(4), 이전 슬롯을 2차 저장소에 저장한다(5).

현재 샘플 크기가 데이터 스트림의 P% 이상이면, 샘플링만 수행한다(4).

여기서, 슬롯 생성(3) 과정은 샘플에 추가되는 단일 원소 메모리 공간인 슬롯을 하나 생성하는 과정이다.

그리고, 샘플링(4)은 현재 슬롯에 대한 샘플링을 수행하는 과정으로서, 데이터 스트림 원소가 슬롯에 선택될 확률과 임의로 생성한 난수 값을 비교하여, 슬롯에 선택될 확률이 난수 값보다 크거나 같다면 해당 원소를 슬롯에 삽입한다.

그리고, 2차 저장소 저장(5) 과정은 현재 슬롯이 생성되기 이전 슬롯에 저장되어 있던 샘플 원소를 2차 저장소에 저장하는 과정으로서, 이 과정은 메모리 제약을 극복하기 위한 조치이다.

도 2는 KSample의 알고리즘이다.

도 2를 참조하면, KSample은 샘플링 비율 p와 데이터 스트림 stream을 입력으로 받고, 비어있는 샘플 리스트 reservoir로 샘플링을 시작한다.

만약 현재 샘플 크기가 데이터 스트림의 P% 미만이라면, 즉 (p×sLegnth) 보다 작다면 새로운 슬롯을 생성하여 샘플 크기를 증가시킨다(라인 5-8).

그리고, 현재 슬롯에 새로 유입된 데이터 스트림 원소가 선택될 확률을 계산하고, 0과 1사이의 난수를 생성한다(라인 9-10).

생성된 난수 값이 해당 원소가 슬롯에 선택될 확률보다 작거나 같다면 데이터 스트림 원소를 현재 슬롯에 삽입한다(라인 11-12).

이처럼, 데이터 스트림의 원소가 하나씩 유입될 때마다 이와 같은 과정을 반복하여 진행한다. 만일 메모리 제약이 있다면 새로운 슬롯이 할당되었을 때(라인 6), 이전 슬롯을 2차 저장소에 저장하게 된다.

균일신뢰도(Uniformity Confidence, UC)는 특정 샘플링 알고리즘이 얼마나 많은 경우의 수를 고려하여 샘플을 생성하는지를 나타내는 성능 지표이다. 즉, 균일신뢰도가 높은 샘플링 알고리즘은 샘플링 과정에서 샘플 대상이 되는 데이터의 수를 가능한 많이 고려하여 샘플링한다고 할 수 있다. 균일신뢰도는 하기 수학식 1과 같이 “통계적으로 생성 가능한 모든 샘플의 경우의 수(the number of different samples of the same size possible statistically)”와 “특정 알고리즘을 통해 생성 가능한 샘플의 경우의 수(the number of different samples of the same size possible with the algorithm)”의 비율로 계산된다.

예를 들어, 10개의 데이터에서 크기 3인 샘플을 무작위로 추출할 때, 10개의 모든 데이터를 고려하는 샘플링의 균일신뢰도는 100%(=((10|3))/((10|3))×100)이다. 반면, 10개의 데이터 중 앞의 3개 데이터를 고려하지 못한다면, 즉 7개만 샘플 추출 범위에 포함시킨다면, 이 샘플링의 균일신뢰도는 29.17% (=((7|3))/((10|3))×100)가 된다. 스트림 환경과 같이 모든 데이터가 샘플 추출 범위가 될 수 없는 경우, 균일신뢰도의 향상을 위해 샘플링 알고리즘이 얼마나 많은 데이터를 고려하는지가 중요한 성능 요소이다.

데이터가 실시간 생성되는 스트림 환경에서는 제한된 메모리 문제로 인해 모든 데이터를 추출 범위로 샘플링 할 수 없고, 현재 시점에 메모리에 저장된 데이터만을 샘플 추출범위로 하여 샘플링을 수행한다. 이와 같이 모든 데이터를 추출범위로 샘플링 할 수 없는 경우, 샘플링 성능을 유지하기 위한 척도가 필요하다. 이때, 균일신뢰도는 샘플링 성능을 판단하는 기준이 될 수 있으며, 이를 향상시키는 것은 매우 중요하다고 할 수 있다.

KSample은 동적으로 샘플 크기를 증가시켜 데이터 스트림에 대한 샘플링 비율을 유지하므로 스트림 환경에 유용한 샘플링 알고리즘이다. 하지만 KSample은 샘플링 수행 시 모든 데이터 스트림을 고려하지 못하므로 메모리 손실 문제가 발생한다. 이 같은 메모리 손실로 인해 균일신뢰도가 매우 낮고 지속적으로 감소하는 문제가 발생한다.

도 3은 Reservoir 샘플링과 Ksample 샘플링의 균일신뢰도를 비교한 그래프이다.

도 3에서 KSample의 균일신뢰도 저하 문제를 구체적으로 보여주고 있다.

도 3을 참조하면, Reservoir 샘플링과 KSample(p=0.01)의 균일신뢰도를 비교한 그래프로서, Reservoir 샘플링의 균일신뢰도는 항상 100%로 유지되는 것을 알 수 있다. 이는 Reservoir 샘플링의 샘플 크기가 변하지 않아 모든 입력 스트림을 추출 범위로 하여 샘플링을 수행하기 때문이다.

반면 KSample의 경우, 메모리 손실 때문에 균일신뢰도가 현저하게 낮은 것을 알 수 있다. 또한, KSample의 균일신뢰도는 샘플링 초기부터 지속적으로 감소하는 현상을 보이는데, 도 3의 구간 ⓐ에서는 균일신뢰도의 급격한 초기 감소를 보이고, 구간 ⓑ에서는 균일신뢰도의 지속적인 감소를 확인할 수 있다. 여기서, KSample의 균일신뢰도가 초기에 많이 감소하는 현상을 초기 균일신뢰도 저하 문제라고 하고, KSample의 균일신뢰도가 지속적으로 감소하는 현상을 지속 균일신뢰도 저하 문제라고 한다.

대한민국 등록특허 10-0815866

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 데이터 스트림 환경에서 높은 균일신뢰도를 지원하는 가변 크기 샘플링 방법을 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명의 데이터 스트림 환경에서 가변 크기 샘플링 방법에서, 미리 정해진 균일신뢰도의 하한(ε)을 항상 만족하는 윈도우의 최대 크기를 계산하는 단계, 윈도우의 최대 크기가 계산되면, 샘플링 하고자 하는 데이터 스트림을 입력 받는 단계, 상기 윈도우의 최대 크기와 현재까지 유입된 데이터 스트림 길이를 비교하는 단계, 상기 윈도우의 최대 크기가 상기 데이터 스트림 길이보다 크면, 샘플 크기 및 샘플링 비율 검사를 진행하는 단계, 상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 미만이면, 샘플 크기를 증가시키기 위해 슬롯을 생성한 후, 샘플링을 수행하는 단계 및 상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 이상이면, 슬롯을 생성하지 않고, 바로 샘플링을 수행하는 단계를 포함한다.

본 발명의 일 실시예에서 상기 윈도우의 최대 크기가 상기 데이터 스트림 길이보다 작으면, 현재 윈도우에서 생성된 샘플을 저장소에 저장하는 단계 및 새로운 윈도우를 생성하여 상기 샘플 크기 및 샘플링 비율 검사를 진행하는 단계를 더 포함할 수 있다.

상기 샘플링을 수행하는 단계에서, 데이터 스트림 원소가 슬롯에 선택될 확률이 임의로 생성한 난수 값보다 크면, 해당 데이터 스트림을 슬롯에 삽입하여 기존 슬롯에 저장되어 있던 원소와 교체할 수 있다.

p(∈[0,1])는 샘플링 비율이라고 할 때, 상기 P%는 p×100이다.

ε은 균일신뢰도의 하한이고, p는 샘플링 비율이고, k는 현재까지 들어온 스트림 크기이고, m은 샘플 크기가 1 증가할 때 들어올 수 있는 최대 입력 스트림 크기라고 할 때,

의 수학식을 이용하여 샘플링 비율 p와 균일신뢰도 하한 ε을 만족하는 윈도우의 최대 크기를 계산할 수 있다.

본 발명에 의하면, 데이터가 실시간 생성되는 스트림 환경에서 가변 크기 샘플링 시에 균일신뢰도의 저하를 방지하고, 샘플링 성능을 향상시키는 효과가 있다.

도 1은 KSample의 동작 절차를 나타내는 도면이다.
도 2는 KSample의 알고리즘이다.
도 3은 Reservoir 샘플링과 Ksample 샘플링의 균일신뢰도를 비교한 그래프이다.
도 4는 p=0.3일 때, KSample의 동작 절차와 샘플링 스키마를 보여주는 도면이다.
도 5는 p=0.3일 때, KSample의 동작 절차와 균일신뢰도 계산 방법을 보여주는 도면이다.
도 6은 p=0.3이고, 입력 스트림이 6개일 때, KSample과 UC KSample의 동작 절차를 보여주는 도면이다.
도 7은 샘플 크기가 1 증가할 때, UC KSample의 동작 절차를 보여주는 도면이다.
도 8은 p=0.2이고, ε=70%일 때, UC KSample의 동작 절차를 보여주는 도면이다.
도 9는 본 발명의 일 실시예에 따른 UC KSample의 동작 절차를 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 스트림 환경에서 가변 크기 샘플링 방법을 보여주는 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 UC KSample의 알고리즘이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명은 데이터 스트림 환경에서 높은 균일신뢰도(Uniformity Confidence, UC)를 지원하는 가변 크기 샘플링 방법에 대한 것이다.

본 발명에서 데이터 스트림 환경에서 가변 크기 샘플링 방법을 수행하는 주체는 컴퓨터를 포함하는 단말 장치라고 할 수 있으며, 또는 컴퓨터 등의 단말 장치를 전반적으로 제어하는 제어부나 프로세서(processor)일 수 있다. 즉, 본 발명의 데이터 스트림 환경에서 가변 크기 샘플링 방법은 일종의 소프트웨어인 알고리즘으로 구성되며, 소프트웨어 알고리즘은 컴퓨터 등의 단말 장치의 제어부 또는 프로세서(processor)에서 실행될 수 있다.

즉, 본 발명에서 데이터 스트림 환경에서 가변 크기 샘플링 방법을 수행하는 주체는 컴퓨터를 전반적으로 제어하는 제어부 또는 제어 명령 신호 및 일련의 프로그램을 처리하는 중앙처리장치(CPU, Central Processing Unit)일 수 있다. 즉, 본 발명의 데이터 스트림 환경에서 가변 크기 샘플링 방법은 일종의 소프트웨어인 알고리즘 또는 로직으로 구성되며, 소프트웨어 알고리즘은 컴퓨터의 제어부 또는 중앙처리장치에서 실행될 수 있다.

본 명세서에서 p(∈[0,1])는 샘플링 비율이고, P%는 p×100이다.

KSample은 균일신뢰도 저하와 관련된 두 가지 문제가 있다.

먼저, KSample에서 초기에 균일신뢰도가 현저하게 낮아지는 현상인 초기 균일신뢰도 저하 문제는 두 가지 원인에서 기인한다.

첫째, 특정 슬롯에 선택될 수 있는 데이터 스트림의 범위가 제한적이기 때문이다. KSample은 데이터 스트림에 대한 샘플링 비율을 유지하기 위해 샘플 크기가 데이터 스트림의 P% 미만이 되면 샘플 크기를 동적으로 한 개씩 증가시킨다. 그런데, 이 때 각 슬롯에 저장될 수 있는 데이터 스트림의 범위가 제한된다.

도 4는 p=0.3일 때, KSample의 동작 절차와 샘플링 스키마를 보여주는 도면이다. 도 4에서 (a)는 KSample의 동작 절차이고, (b)는 샘플링 스키마이다.

도 4의 예에서, 샘플링 비율 p=0.3이고, 아홉 개의 스트림 데이터가 유입되었을 때, 각 슬롯의 샘플 추출 범위는 (a)와 같다. 즉, 첫 번째 슬롯의 샘플 추출 범위는 1-3번 데이터이고, 두 번째 슬롯의 샘플 추출 범위는 4-6번 데이터이고, 세 번째 슬롯의 샘플 추출 범위는 7-9번 데이터로 샘플 추출 범위가 제한된다.

이와 같이 특정 슬롯에 선택될 수 있는 스트림 데이터의 범위가 제한적이기 때문에 샘플링 스키마는 (b)와 같이 나타나며, 이는 통계적으로 생성 가능한 모든 샘플의 경우의 수에 크게 미치지 못하게 된다. 따라서 샘플 크기가 1일 때 100%로 유지되는 균일신뢰도는 샘플 범위 제한으로 인해 샘플 크기가 2 이상으로 증가하면서 균일신뢰도가 샘플링 초기에 현저하게 감소하게 된다.

초기 균일신뢰도 저하의 두 번째 원인은 샘플로 선택된 데이터가 2차 저장소로 이동하여 변하지 않기 때문이다. 샘플 슬롯의 추출 범위에 포함된 스트림 데이터들은 해당 슬롯에 샘플로 선택되기 위해 경쟁한다. 하지만 특정 슬롯으로 선택될 수 있는 데이터 스트림의 범위가 끝나고 새로운 슬롯이 생성되면, 도 4(a)와 같이 해당 슬롯에 샘플로 선택된 데이터는 2차 저장소로 이동하여 변경이 어려워진다.

이와 같이 특정 슬롯에 샘플로 선택된 데이터가 변경 될 수 없기 때문에 생성될 수 있는 샘플의 경우의 수가 감소하게 된다. 특히 KSample은 샘플 크기가 2 이상으로 증가하는 샘플링 초기에 생성 가능한 샘플의 경우의 수가 현저히 감소하여 균일신뢰도가 급히 감소한다. 초기 균일신뢰도 저하 문제의 두 가지 원인을 다음과 같이 구체적으로 기술하면 다음과 같다.

■ 샘플 범위 제한: 특정 샘플 슬롯으로 선택될 수 있는 스트림 데이터의 범위가 제한되어 균일신뢰도가 저하되는 성질이다.

■ 과거 샘플 불변: 특정 샘플 슬롯으로 선택될 수 있는 스트림 데이터의 범위가 끝나면 샘플로 선택된 데이터가 변경되지 않아 균일신뢰도가 저하되는 성질이다.

다음으로, KSample에서 입력 스트림의 증가에 따라 균일신뢰도가 지속적으로 감소하는 문제인 지속 균일신뢰도 저하 문제의 원인을 분석하면 다음과 같다.

지속 균일신뢰도 저하는 통계적으로 생성 가능한 샘플 경우의 수의 증가량보다 KSample에서 생성 가능한 샘플 경우의 수의 증가량이 더 작기 때문에 발생한다. 입력 스트림이 증가하면 모집단도 함께 증가하는데, 메모리 손실과 샘플 범위 제한으로 인해 모든 입력 스트림을 샘플 추출 범위로 할 수 없다. 따라서, 시간이 지남에 따라 통계적으로 생성 가능한 샘플 경우의 수와 KSample로 생성 가능한 샘플 경우의 수의 비율이 지속적으로 감소하게 된다.

도 5는 p=0.3일 때, KSample의 동작 절차와 균일신뢰도 계산 방법을 보여주는 도면이다. 도 5는 샘플링 비율 p=0.3일 때, KSample의 동작 절차와 이 때의 균일신뢰도 계산 결과를 나타낸다.

도 5를 참조하면, 데이터 스트림 길이가 3이고 샘플 크기가 1일 때 균일신뢰도는 100%(=((3|1))/((3|1))×100)이다.

데이터 스트림 길이가 6으로 증가하면 모집단이 증가하여 통계적으로 생성 가능한 샘플의 경우의 수는 15(=(6|2))가 된다. 그러나, 메모리 손실과 샘플 범위 제한으로 인해 KSample을 통해 생성할 수 있는 샘플의 경우의 수는 9(=(3|1)×(3|1))가 된다. 따라서 데이터 스트림 길이가 6일 때의 균일신뢰도는 60%(=(3|1)(3|1)/((6|2))×100)로 감소한다.

이와 같은 방식으로 데이터 스트림 길이가 9일 때의 균일신뢰도는 32.1%(=(3|1)(3|1)(3|1)/((9|3))×100)가 되고, 입력 스트림이 증가할수록 균일신뢰도는 점차 감소하게 된다. 지속 균일신뢰도 저하 문제의 원인을 구체적으로 기술하면 다음과 같다.

■ 샘플 추출 범위 증가: 통계적으로 생성 가능한 샘플 경우의 수의 증가량보다 KSample에서 생성 가능한 샘플 경우의 수의 증가량이 더 작기 때문에 두 경우의 수의 비율이 점점 감소하는 성질이다.

먼저, 초기 균일신뢰도 저하 문제의 원인인 샘플 범위 제한에 대한 요구사항을 샘플 범위 확장이라 부른다. 샘플 범위 확장은 샘플링 시 특정 샘플 슬롯으로 추출될 수 있는 스트림 데이터의 범위를 이미 선택된 샘플의 원소까지로 확장하는 것이다. 샘플링 시 고려하는 모집단의 범위가 증가하면, 생성될 수 있는 샘플의 경우의 수도 증가하게 되어 균일신뢰도가 증가한다.

도 6은 p=0.3이고, 입력 스트림이 6개일 때, KSample과 UC KSample의 동작 절차를 보여주는 도면이다. 도 6은 샘플링 비율 p=0.3이고 스트림 데이터가 여섯 개 유입되었을 때 KSample과 UC KSample의 동작 절차를 나타낸다.

도 6 (a)에서 KSample에서 첫 번째 샘플은 1-3번 데이터이고, 두 번째 샘플은 4-6번 데이터로 샘플 추출 범위가 제한되어 있다.

이에 반해, 도 6 (b)에서 UC KSample은 첫 번째 샘플로 선택된 원소 1을 두 번째 샘플 추출 범위에 포함시켜, 1, 4, 5, 6으로 이루어진 확장된 새로운 샘플 추출 범위에서 2개를 샘플로 추출한다.

과거 샘플 불변 문제의 해결을 위한 요구사항을 과거 샘플 변경이라 하는데, 이는 샘플의 특정 원소로 추출될 수 있는 데이터 스트림의 범위가 끝나도 이미 샘플로 선택된 데이터가 변경 가능하도록 하는 것이다. 이미 샘플로 선택되어 변경 불가능한 데이터가 다른 데이터로 변경될 수 있다는 것은 추출 가능한 샘플의 경우의 수가 증가하는 것이므로, 과거 샘플 변경을 허용하면 균일신뢰도를 향상시킬 수 있다.

도 6 (a)와 같이, KSample에서는 두 번째 슬롯이 생성되면 첫 번째 슬롯에 이미 선택된 원소 1은 2차 저장소로 이동하여 변경되지 않는다. 그러나, 도 6 (b)에서 보는 바와 같이, UC KSample에서는 첫 번째 슬롯에 선택된 원소 1이 2차 저장소로 이동하지 않고, 일정 요건이 충족될 때까지 메인 메모리에 유지되어 다른 스트림 원소로 변경되는 것을 허용한다.

마지막으로, 지속 균일신뢰도 저하 문제를 야기하는 샘플 추출 범위 증가를 해결하기 위한 요구사항은 균일신뢰도 기반 윈도우 사용이다. 균일신뢰도 기반 윈도우 사용은 샘플의 균일신뢰도가 주어진 하한(ε) 이상으로 항상 유지되는 윈도우 크기를 계산하고, 입력 스트림을 윈도우 단위로 나누어 샘플링을 수행하는 것이다. 다음 수학식 2는 이러한 윈도우 크기 계산 방법을 나타낸다.

샘플링 비율 p와 균일신뢰도 하한 ε을 만족하는 최대 윈도우 크기 계산 방법은 다음 수학식 2를 통해 계산된다.

여기서, ε은 균일신뢰도의 하한이고, p는 샘플링 비율이고, k는 현재까지 들어온 스트림 크기이고, m은 샘플 크기가 1 증가할 때 들어올 수 있는 최대 입력 스트림 크기이다.

수학식 2를 증명하면 다음과 같다.

도 7은 샘플 크기가 1 증가할 때, UC KSample의 동작 절차를 보여주는 도면이다. 즉, UC KSample에서 샘플 크기가 1 증가할 때 도 7과 같이 동작한다.

도 7을 참조하면, 현재까지 유입된 입력 스트림의 크기가 k일 때, UC KSample은 샘플 크기를 입력 스트림 데이터의 P%로 유지시키기 위해kp개를 샘플로 추출한다. 이후 입력 스트림이 m개 더 유입되어 샘플 크기가 1 증가하면, 이 때 m은 1 이상 1/p 이하의 범위를 갖는다.

k+m개의 스트림 데이터에서 kp+1개의 데이터를 샘플로 추출할 때, 통계적으로 생성 가능한 샘플의 경우의 수는 ((k+m)|(kp+1))이다. UC KSample은 샘플 범위 확장을 지원하기 때문에 m+kp개의 스트림 데이터에서 kp+1개의 샘플을 추출한다. 또한 UC KSample은 과거 샘플 불변을 지원하기 때문에 샘플링 과정에서 이미 추출된 샘플 kp개 중 x개를 변경할 수 있다. 만약 새로 유입된 스트림 데이터 개수 m이 kp+1보다 작다면 x는 kp+1m 이하여야 한다. 따라서 x는 max{0,(kp+1)m} 이상 r 이하의 범위를 갖는다.

정리하면, UC KSample을 통해 생성 가능한 샘플의 경우의 수는

가 된다.

균일신뢰도는 수학식 1과 같이 “통계적으로 생성 가능한 모든 샘플의 경우의 수”와 “특정 알고리즘을 통해 생성 가능한 샘플의 경우의 수”의 비율로 계산되기 때문에 UC KSample의 균일신뢰도는 수학식 2를 통해 계산된다. 샘플 크기가 증가할 때 균일신뢰도는 항상 하한보다 커야 하므로 수학식 2를 만족하는 최대 k와 m을 구한 후, k와 m을 더한 값을 윈도우 크기로 설정한다.

도 8은 p=0.2이고, ε=70%일 때, UC KSample의 동작 절차를 보여주는 도면이다.

도 8을 참조하면, p=0.2, ε=70%를 만족하는 최대 윈도우 크기는 30이다. 따라서, 스트림 데이터가 30개 들어올 때까지 샘플 크기를 입력 데이터 스트림의 20%로 유지하며 6개까지 샘플링을 진행한 후, 입력 데이터 스트림 길이가 30을 초과하면 새로운 윈도우로 샘플링을 수행한다.

도 9는 본 발명의 일 실시예에 따른 UC KSample의 동작 절차를 보여주는 도면이고, 도 10은 본 발명의 일 실시예에 따른 스트림 환경에서 가변 크기 샘플링 방법을 보여주는 흐름도이다.

도 9 및 도 10을 참조하면, 본 발명의 일 실시예에 따른 스트림 환경에서 가변 크기 샘플링 방법은 다음과 같다.

먼저, 사용자가 정한 균일신뢰도의 하한(ε)을 항상 만족하는 윈도우의 최대 크기를 계산한다(S101).

윈도우 크기가 계산되면, 샘플링 하고자 하는 데이터 스트림을 입력 받는다(S103).

그리고, 윈도우 크기와 현재까지 유입된 스트림 길이를 비교한다(S105).

윈도우 크기가 스트림 길이보다 크면, 샘플 크기 및 샘플링 비율 검사를 진행한다(S111).

반면, 윈도우 크기가 스트림 길이보다 작으면 균일신뢰도를 하한 이상으로 유지하기 위해, 현재 윈도우에서 생성된 샘플을 2차 저장소에 저장한다(S107). 그리고, 새로운 윈도우를 생성한다(S109). 여기서, S109 단계에서 새로운 윈도우를 생성하는 이유는 균일신뢰도를 하한 이상으로 유지하기 위함이다.

다음, 샘플 크기 및 샘플링 비율 검사를 진행한다(S111). 즉, 데이터 스트림에 대한 샘플링 비율을 유지하기 위해, 데이터 스트림이 유입될 때마다 현재 샘플 크기가 데이터 스트림의 P% 이상인지 확인한다(S111).

현재 샘플 크기가 데이터 스트림의 P% 미만이면, 샘플 크기를 증가시키는 슬롯 생성을 추가로 수행하고(S113), 샘플링을 수행한다(S115).

반면, 현재 샘플 크기가 데이터 스트림의 P% 이상이면, 슬롯을 생성하지 않고, 바로 샘플링을 수행한다(S115).

본 발명에서 S113 단계는 샘플에 추가되는 단일 원소 메모리 공간인 슬롯을 하나 생성하여 샘플 크기를 증가시키기 위함이다.

S115 단계는 현재 슬롯에 대한 샘플링을 수행하는 과정으로서, 데이터 스트림 원소가 슬롯에 선택될 확률이 임의로 생성한 난수 값보다 크면, 해당 데이터 스트림을 슬롯에 삽입하여 기존 슬롯에 저장되어 있던 원소와 교체한다.

도 11은 본 발명의 일 실시예에 따른 UC KSample의 알고리즘이다.

도 11을 참조하면, UC KSample은 샘플링 비율 p, 스트림 stream, 균일신뢰도의 하한 ε을 입력으로 받고, 비어있는 샘플 reservoir로 샘플링을 시작한다. 먼저, 균일신뢰도의 하한을 만족하는 최대 윈도우 크기 w를 수학식 2로 계산한다(라인 3).

만약 현재까지 유입된 스트림의 길이 sLength가 1이거나 현재 윈도우에 들어온 스트림 길이 wLength가 윈도우 크기보다 크다면 현재까지 생성된 샘플을 2차 저장소에 저장하고, 새로운 윈도우를 생성하여 샘플링을 다시 시작한다(라인 7-9).

그리고, 데이터 스트림 원소가 유입되면 각 원소에 대해 난수를 생성한다(라인 10).

만약 현재 샘플 크기가 (p×wLength)보다 작다면, 데이터 스트림 크기에 대한 샘플링 비율을 유지하기 위해, 샘플 크기를 하나 증가시키고 현재 들어온 데이터를 난수와 함께 샘플에 추가한다(라인 11-13).

그러나, 현재 샘플 크기가 (p×wLength)보다 크지 않다면, 현재 원소가 기존 샘플에 들어갈 수 있는지 검사하기 위해, 샘플에서 제일 작은 난수 값을 갖는 원소와 현재 들어온 원소의 난수 값을 비교한다(라인 16).

샘플에 포함된 가장 작은 난수 값보다 현재 데이터의 난수 값이 크다면 제일 작은 난수 값을 갖는 원소를 제거하고 현재 데이터를 샘플에 삽입한다(라인 16-17). 이와 같은 과정을 스트림 입력이 끝나거나 사용자가 샘플링을 멈출 때까지 반복한다(라인 4-19).

데이터가 실시간 생성되는 스트림 환경에서는 제한된 메모리 문제로 인해 모든 데이터를 추출 범위로 샘플링 할 수 없고, 현재 시점에 메모리에 저장된 데이터만을 샘플 추출범위로 하여 샘플링을 수행하기 때문에 샘플링 성능을 유지하기 위한 척도가 필요하다. 본 발명에서 균일신뢰도는 샘플링 성능을 판단하는 기준이 될 수 있으며, UC KSample은 이를 크게 향상시켜 스트림 환경에서 샘플링 성능을 향상시킨다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims

데이터 스트림 환경에서 가변 크기 샘플링 방법에서,
미리 정해진 균일신뢰도의 하한(ε)을 항상 만족하는 윈도우의 최대 크기를 계산하는 단계;
윈도우의 최대 크기가 계산되면, 샘플링 하고자 하는 데이터 스트림을 입력 받는 단계;
상기 윈도우의 최대 크기와 현재까지 유입된 데이터 스트림 길이를 비교하는 단계;
상기 윈도우의 최대 크기가 상기 데이터 스트림 길이보다 크면, 샘플 크기 및 샘플링 비율 검사를 진행하는 단계;
상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 미만이면, 샘플 크기를 증가시키기 위해 슬롯을 생성한 후, 샘플링을 수행하는 단계; 및
상기 샘플 크기 및 샘플링 비율 검사를 진행한 결과, 현재 샘플 크기가 상기 데이터 스트림의 미리 정해진 P% 이상이면, 슬롯을 생성하지 않고, 바로 샘플링을 수행하는 단계를 포함하는 가변 크기 샘플링 방법.
청구항 1에 있어서,
상기 윈도우의 최대 크기가 상기 데이터 스트림 길이보다 작으면, 현재 윈도우에서 생성된 샘플을 저장소에 저장하는 단계; 및
새로운 윈도우를 생성하여 상기 샘플 크기 및 샘플링 비율 검사를 진행하는 단계를 더 포함하는 것을 특징으로 하는 가변 크기 샘플링 방법.
청구항 2에 있어서,
상기 샘플링을 수행하는 단계에서, 데이터 스트림 원소가 슬롯에 선택될 확률이 임의로 생성한 난수 값보다 크면, 해당 데이터 스트림을 슬롯에 삽입하여 기존 슬롯에 저장되어 있던 원소와 교체하는 것을 특징으로 하는 가변 크기 샘플링 방법.
청구항 1에 있어서,
p(∈[0,1])는 샘플링 비율이라고 할 때, 상기 P%는 p×100인 것임을 특징으로 하는 가변 크기 샘플링 방법.
청구항 4에 있어서,
ε은 균일신뢰도의 하한이고, p는 샘플링 비율이고, k는 현재까지 들어온 스트림 크기이고, m은 샘플 크기가 1 증가할 때 들어올 수 있는 최대 입력 스트림 크기라고 할 때,

의 수학식을 이용하여 샘플링 비율 p와 균일신뢰도 하한 ε을 만족하는 윈도우의 최대 크기를 계산하는 것을 특징으로 하는 가변 크기 샘플링 방법.