TW201019138A - Probabilistic lossy counting - Google Patents

Probabilistic lossy counting Download PDF

Info

Publication number
TW201019138A
TW201019138A TW098126422A TW98126422A TW201019138A TW 201019138 A TW201019138 A TW 201019138A TW 098126422 A TW098126422 A TW 098126422A TW 98126422 A TW98126422 A TW 98126422A TW 201019138 A TW201019138 A TW 201019138A
Authority
TW
Taiwan
Prior art keywords
current
probability
item
stream
elements
Prior art date
Application number
TW098126422A
Other languages
English (en)
Inventor
Xenofontas Dimitropoulos
Paul T Hurley
Andreas Kind
Marc Stoecklin
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW201019138A publication Critical patent/TW201019138A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Complex Calculations (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

201019138 六、發明說明: 【發明所屬之技術領域】 本發明大體上係關於網路訊務分析之領域,且更具體言 之,係關於判定被給予一元素串流的頻繁命中項(heavy-hitter)。 【先前技術】 判定一網路中之最大訊務流對於許多網路管理應用為重 要的;將此判定稱作頻繁命中項問題。頻繁命中項資訊適 用於多種應用,諸如,識別阻斷服務(DoS)攻擊、監視訊 務增長趨勢、供應網路資源及鏈路容量,及識別可需要減 少使用之重負網路使用者。此外,對頻繁命中項之判定應 用於可核算(compute)頻繁命中項查詢以便最佳化該等查詢 之快取的搜索引擎及可留意頻繁點擊之廣告的動態内容提 供者。 判定頻繁命中項之問題涉及發現具有高於使用者選定臨 限值之頻率的元素串流内之特定元素。每一元素可表示一 流,且相同元素之序列可表示一流之位元組或封包。通常 將流定義為在一或多個封包標頭欄位中具有共同值之封包 的集合。最常見之流定義為以下封包標頭欄位之五元組: 源IP位址及目的地IP位址、源埠號及目的地埠號,及協定 號。一元素識別符可經儲存以用於每一訊務流,其中一相 應計數項監視此訊務流之發生次數。根據該等元素之各別 計數項而對該等元素排序將產生頻繁命中流之清單。然 而,此解決方案在一些情形中可能不可行。資料串流可具 142421.doc 201019138 有極大量之不同元素,纟可造成用於儲存元素識別符及計 數項之勢不可擋且不可預測的記憶體要求。考慮核算在— 個月之時段期間已產生最多訊務之訊務流之NetFi〇w收集 器的狀況。在-小型企業網路中,獨特五元組流在一個月 , 之日守丰又期間的數目可接近"意,其對應於用於儲存⑼位元 - 流識別符及64位元計數項之2.5 GByte之記龍1等大記 憶體要求禁止在NetFlow收集器中及在用於核算具有大量 ❿…素之資料串流之頻繁命中項的其他系統中使用簡單 冑决方案。使用大量碟片空間以儲存流識別符及計數項亦 可嚴重影響系統效能,從而減慢處理時間。 存在用於使用固定或有界記憶體資源來核算頻繁命中項 的替代技術。未命中計數藉由估計發現頻繁命中項之串流 元素的頻率來對資料串流之頻繁命中項作近似操作。 未命中計數可如下操作:將輸入元素串流分割成固定大小 的窗,且依序處理每一窗。對於一窗中之每一元素,將一 _ #目插人至-表_ ’或,若該元素已在該表中則更新該 素之頻率4數項。在每__窗之結尾’自該表移除低頻率 一、〜表口此維持相對小數目的項目。確定性誤差界 =亦、、=存以用於該表中之每—元素;該確定性誤差界限 於:刖窗之索引減一。誤差界限反映歸因於在一元素之 先刚窗之結尾自該表的可能先前移除所致的該元素之經 2計頻率之潛在誤差。具有小誤差界限之元素比具有大誤 ▲界限之相等頻率元素更可能自該表移除。然而,未命中 计數可仍需要大量記憶體及處理能力且經核算頻繁命中 142421.doc 201019138 項可包括誤肯定(false positive)。 存在對一種判定頻繁命中項之方法的需要,兮 ^ 忑方法係精 確的向時需要相對少量之記憶體及處理能力。 【發明内容】 一種機率未命中計數方法之一例示性實施例包括:將輸 入元素串流分割成複數個固定大小的窗;及藉由執行以^ 動作來依序處理該複數個窗中之每一者:對一 τ炎一备前窗中 之每一元素,判定對應於一當前元素之一項目是否存在於 一表.中;若對應於該當前元素之一項目存在於該表中則 遞增與該當前元素相關聯之一頻率計數項;若對應於該當 前元素之該項目不存在於該表中,則將_項目插人至對: 於該當前元素之-表中,其中插人—項目包含:基於該告 前窗之一索引ζ·來計算對應於該當前元素之一機率誤差^ 限△;及將對應於該當前元素之該機率誤差界限△及一頻率 計數項插入至該表中之對應於該當前元素的一項目中;及 在該當前窗之結尾,自該表移除所有元素,其令與該元素 相關聯之該頻率計數項及機率誤差界限△之總和:於或等 於該當前窗之該索引。 經由本發明之例示性實施例之技術來實現額外特徵。豆 他實施例在本文中經詳細描述且被認為是所主張之内容的 -部分。為更佳地理解例示性實施例之特徵,參考描述及 諸圖。 【實施方式】 現參看諸圖,其中相同元件在若干圖式中同樣地編號。 142421.doc • 6 - 201019138 提供一種用於機率未命中計數(PLC)之方法的實施例, 其中在下文詳細地論述例示性實施例。 與用於未命中計數令之確定性誤差界限相比,PLC基於 一任意訊務流之經估計大小而改變誤差界限。機率誤差界 ' 限使PLC比未命中計數更可能移除小大小之流。假定小大 小之流佔據網路訊務流之大部分,則小型流之移除顯著減 少核算頻繁命中項所需之記憶體。基於機率之誤差界限大 體上改良ΡΙΧ之記憶體消耗(相對於未命中計數)。PLc亦 可在低估計誤差之情況下比未命中計數產生更低比率之誤 肯定。對於未命中計數對PLC之詳細比較,參見Xen〇f〇ntas Dimitropoulos ^ Paul Hurley 及 Andreas Kind 之 •"Probabilistic Lossy Counting: An efficient algorithm for finding heavy hitters」,ACM SIGC〇MM c〇mputer
Communication Review ’ 遣時以,第 38卷,第 i期第 5至16頁》 瞻 與每一元素相關聯之誤差界限用以判定哪些元素自表移 除。若一元素之頻率及誤差界限之總和小於或等於給定臨 限值,則移除該元素,其造成具有大誤差界限之元素保持 在該表中歷時許多窗。該表中之項目的數目與#列佔據問 題類似。當元素停留在該表中歷時較多窗時,該表之平均 大小增大。因此,誤差界限之值對記憶體消耗具有直接影 響。PLC之機率誤差界限大體上小於未命中計數之確定性 块差界限。結果,低頻率元素停留在該表中歷時pLC中之 較少窗,從而造成較低記憶體消耗。機率誤差界限以所要 142421.doc 201019138 機率ι-δ(其中δ<<1)來保證元素之頻率的誤差小於該界限。 一資料串流可包含一元素集合Ε,其可為元素〜、 h、…、%之一序列。一訊務資料串流可藉由使獨特元素 與每一不同流相關聯且重複適當元素之多個複本以表示特 定流之封包或位元組而映射至一元素串流中。若N為輸入 串流在某-給定點處之長度,且5為(0,υ中之—值則頻 繁命中項演算法設法發現具有大於以之頻率的元素。 圖1展示一種用於執行機率未命令計數(PLC)之方法 1〇〇。在區塊101中,將一輸入串流分割成具有w=[1/e]個元 素之多個固定大小的窗,其中ε為誤差參數(ε<<1)。在區塊 102處,初始化元素(e)、頻率計數項(e)及誤差界限之表 以清空。開始區塊103,依序處理窗;每一窗藉由整數满 索引,以使得1$G[N/m;]。下文關於圖2更詳細地論述當前 窗中之元素的處理。在區塊104中,在每一窗之結尾針 對為當前窗之索引),自該表刪除項目。在區塊 處,處理針對下一窗而返回至區塊1〇3。在區塊1〇6中在 e+Δ^Ν之情況下的所有項目回應於頻繁命中項查詢而傳 回。 圖2展不一種用於處理一當前窗中之元素(區塊1〇3)的方 法200。在區塊201中,檢查當前窗中之每一元素^以判定 該元素是$已在該表中。㈣元素不在該Μ,則在區塊 202a中,針對該元素計算基於該當前窗之索引的機率誤 差界限A,且在區塊2021)中,將一新表項g(e,e,A)插入於 該表中,其中該元素之經估計頻率計數項e經初始化至工。 142421.doc -8 · 201019138 若e已在該表中,則在區塊203中,將其經估計頻率計數項 續增-。在區塊204處,當該當前表中不再存在元素時, 處理返回至圖1之區塊1〇4。 自該表移除一元素可引入其經估計頻率之後續誤差。若 經移除元素稍後重新進入該表,則其新頻率不反映較早移 除。顯然,此誤差僅可低估元素之真實頻率,因為頻率計 數項(e)僅當觀察到相應元素時方遞增。該表中之一元素的 真實頻率^在機率l-δ之情況下由+ 設界限。換言之, /=Ν/>ν=εΝ為針對與任何元素相關聯之估計誤差的機率界 限。PLC具有整體誤差界限εΝ,而該表中之每一元素具有 個別誤差界限△。針對插入至該表中之每一元素而計算誤 差界限△。 可如下執抒δ十算針對元素en之經估計頻率e的機率誤差 界限△’如圖2之區塊202a中所執行。插入於該表中之元素 可具有歸因於在先前窗之結尾該元素自該表之先前移除 所致的誤差。元素eni誤差等於在該元素最後插入於該表 中之前該元素的發生次數。若X為表示在某一點處插入於 該表中之元素的誤差的隨機變數,則誤差界限△可使用 ΡΓ(Χ>Δ)$δ來計算,其中δ為某一小機率,例如,〇.〇5。 網路訊務流之大小傾向於遵循齊夫(Zipfian)分布;因 此’為計算△’可使用幕定律累積分布。若γ為表示一元 素之真實頻率的隨機變數’則Pr(Y>y)=a/,其中 β為幕定律分布之參數。 與插入於該表中之元素相關聯的誤差等於此等元素之頻 142421.doc 201019138 率。此外,在窗/處插入於該表中之所有元素在機率1δ之 情況下具有小於或等於卜1之真實頻率。根據此兩個觀察, 其遵循Pr(X>x)=Pr(Υ>Χ| Υ9- i)。最後表達式使進入該表之 元素的誤差與此等元素之真實頻率相關。現假設一元素之 真實頻率由幂定律分布來描述。使用冪定律分布及彼α之 表達式Pr(Y>y)2l,吾人得到:
Pr(X> x) = Pr(Y> x\Y<i- 1) =Pr(i - 1 >Y>x) Pr(Y<i~l)
=Pr(Y >x) - Pr(Y > i~ i) 1 ~ Pr(Y> i- l) = a(x^-a-lf) < l-a(i-lf (1) 出 藉由將方程式⑴之右側設定成小機率u求出 Δ=ρνδ(1-〇-1)Ρ)+(Μ)Ρ (2) 方程式⑺因此給出用於針對具有幕定律頻率分布之資 串流核算區塊202a之機率誤差界限八的近似形式 計算用於方程式(2)中之幂定律參數β對計算機率誤差界 在機率W情況下’該表含有具有大二 之真實頻率的所有元素。此等元素之頻率分布為: Pr(Y>y|Y>i--1)=Pr(Y>y)/pr(Y>._i)^p^^^p 此頻率刀布m有與資料串流之整體頻率 相同的參數β的冪定律。因此, 參數 中具有叫之元素之頻率分布的羃^^由適應針對該表 旱刀布的幂定律來估計β。此做法 料 〇 142421.doc 10 201019138 具有使用經估計頻率e替代真實頻率c以用於核算p的限 制。實務中,經估計頻率幾乎與真實頻率相同,其中誤差 非常小。出於此原因,使用經估計頻率(e)替代真實頻率 0)以用於核算β引入可忽略之誤差。 . 在PLC之一替代實施例中,單一參數Α:可用以在圖2之步 . 驟202a中計算機率誤差界限△。參數WkD為系統之積極 (aggressive)程度之度量,且係基於上文方程式(2)。方程 式(2)相當於一函數,亦即: • Δ (/) ~ ki (3) 中A:為小於1之小位元(々為△及β之函數)。換言之,△隨著ζ· 而大致線性地增大,如可藉由參看方程式(2)之無窮大處的 限度所見。對於ζ·之較小值,△為約kz•。對於ζ·之較大值,△ 保持不變。形式上, k =lim Aj i’-^〇〇 i (4) 總之,如圖1中所展示,PLC藉由在每一窗之初,使用 • 方程式(2)或方程式(3)來核算在區塊i〇5a中於該窗期間插 入於該表中之每一新元素之機率誤差界限△而處理資料串 流。藉由適應針對具有ey-ι之元素之經估計頻率的幂定律 ’ 來週期性地估計參數β。 . 在圖1之區塊108中之頻繁命中項查詢的情況下,PLC傳 回該表中具有6^(·5-ε)Ν的元素。經傳回元素包括具有大於 sN(使用者選定臨限值)之頻率的真實頻繁命中項,及具有 〇<州與以之間的真實頻率的可能誤肯定。PLC可具有傳 回誤否定(亦即,省略頻繁命中項)之小機率。若元素之誤 142421.doc 11 201019138 差超過機率誤差界限,則發生誤否定。可藉由控制δ參數 而使誤否定之機率任意小。 具有與未命令计數之記憶體界限相同的記憶體界 限。記憶體界限對於任意資料串流為1/ε〗〇§(εΝ)且對於低 頻率元素隨機均一地出現之資料串流為7/ε,其為特徵化 真實世界資料串流已知之性質。此外,界限對於展現齊夫 分布之資料串流接近2/ε。
由長度w或(等效地)誤差參數£(因為冰=[1/£])為使用者選 定參數。w之選擇影響PLC之記憶體消耗及估計精確度。 PLC之誤差界限為w之函數,且經驗記憶體消耗線性地取 決於-較大窗造成在一窗内觀察到較大數目的不同元 素’且因此表項目之數目及記憶趙消耗隨著窗大小而增 大。此外’誤差參數ε判定整體誤差界限εΝ。 可使用各種做法以選擇6之適當值…選項為使用用於 核算頻繁命中項之可用記憶體資源及記憶體界限以導出w
之值。將6己’It體界限設定成可用記憶體資源及求出讀出 保證PLC料超㈣等可用記龍f源的參數選擇。此做
法為簡單的且提供對記憶體消耗之強力保證。鈇而,PLC 之經驗記憶體消耗可顯著低於記憶體界限。結果,pLc將 不充刀使用用於核算頻繁命中項之可用記憶體資源且系統 將被過度供應。 第-選項為使用訓練資料而經驗地評估在目標環境中之 PLC之記憶體消耗ePLC之記憶體消耗在最先少量窗中達 成其最大值,且接著隨著時間而降低。使用訓練資料,可 14242l.doc -12· 201019138 針對从之不同值量測最大記憶體消耗。選擇造成接近可用 記憶體資源之最大記憶體使用之W的值解決第一選項之過 度供應問題。然而’此做法針對目標環境而依賴於訓練資 料’且需要進行實驗以判定W。
第三選項為基於針對估計精確度之所要界限來選擇誤差 參數ε。舉例而言,設法發現具有大於…之頻率之頻繁命 中項的使用者可選擇ε之適當值,以使得針對估計誤差εΝ 之界限與針對頻繁命中項之臨限值比較為小的。 用於對PLC定尺寸之三種方法中之一者的選擇取決於使 用者之優先權及要求。第一選擇及第三選擇提供對pLc之 記憶體消耗及估計精確度的強力保證,而第二選擇利用較 佳可用記憶體資源且使操作適應於目標環境之細節。 圖3說明電腦300之實例,該電腦3〇〇具有可由如體現於 軟體中之一種用於機率未命中計數之方法之例示性實施例 利用的能力。上文所論述之各種操作可利用電腦3〇〇之該 等能力。該電腦300之該等能力中之一或多者可併入於本 文中所論述之任何元件、模組、應用程式及/或組件中。 該電腦300包括(但不限於)pc、工作站、膝上型電腦、 PDA、掌上型器件、伺服器、儲存器及其類似者。大體而 言’在硬體架構方面,該電腦3〇〇可包括一或多個處理器 310、記憶體320,及經由本端介面(未圖示)通信地輕接之 一或多個輸入及/或輸出(I/O)器件370。舉例而言,該本端 介面可為(仁不限於)一或多個匯流排或其他有線或無線連 接,如此項技術中已知。該本端介面可具有用於實現通信 142421.doc -13- 201019138 之額外元件,諸如,控制器 器、中繼器及接收器。另外 上述組件之間的適當通信的 料連接。 、緩衝器(快取記憶體)、驅動 ,該本端介面可包括用於實現 位址連接、控制連接及/或資 該處理器310為用於執行可儲存於記憶體320中之軟體的 硬體器件。處理器31〇可享眚卜先,, 斧貫上為任何定製或市售處理 器、中央處理單元(CPU)、資料信號處理器(Dsp),或與電 腦300相關聯之若干處理器中的辅助處理器,且該處理器 310可為基於半導體之微處理器(呈微晶片之形式)或巨集處 理器。 該記憶體320可包括揮發性記憶體元件(例如,隨機存取 記憶體(RAM),諸如’動態隨機存取記憶體(dram)、靜 態隨機存取記憶體(SRAM)等)及非料性記憶體元件(例 如,ROM、可抹除可程式化唯讀記憶體(EpR〇M)、電子可 抹除可程式化唯讀書己憶體(EEPR〇M)、可帛式化唯讀記憶 體(PROM)、磁帶、緊密光碟唯讀記憶體(cd_r〇m)、碟 片、磁碟、磁帶匣、錄音帶或其類似者等)之任何一者或 組合。此外,該記憶體320可併有電子、磁性、光學及/或 其他類型之儲存媒體。注意,該記憶體32〇可具有分散式 架構’其中各種組件彼此遠離地定位,但可由該處理器 3 10存取。 該記憶體320中之軟體可包括一或多個獨立程式,該等 程式中之每一者包含用於實施邏輯功能之可執行指令的有 序清單。該記憶體320中之軟體根據例示性實施例包括— I42421.doc 14 201019138 合適作業系統(O/S)350、編譯器340、原始碼33〇,及一或 多個應用程式360。如所說明,應用程式36〇包含用於實施 該等例示性實施例之特徵及操作的眾多功能組件。該電腦 300之應用程式360根據例示性實施例可表示各種應用程 式、核算單元、邏輯、功能單元、處理程序、操作、虛擬 實體’及/或模組,但該應用程式鳩並不意謂為限制。
該作業系統350控制其他電腦程式之執行,且提供排 程、輸入-輸出控制、檔案及資料管理、記憶體管理,及 通信控制及相關服務。發明者預期,用於實施例示性實施 例之應用程式360可適用於所有市售作業系統上。 應用程式360可為原始程式、可執行程式(目標碼)、指 令碼,或包含待執行之指令集的任何其他實體。在一原始 程式之情況下’繼而該程式通常經由可能包括於該記憶體 320或可能未包括於該記憶體32〇内之編譯器(諸如,編譯 器340)、組合器、解譯器或其類似者而轉譯,以便結合
O/S 350 —起適當地操作。此外,該應用程式36〇可作為I 下諸者寫人(a)具有資料及方法之類別的物件導向式程式設 計語言,或(b)具有常式、副常式及/或函式之程序程式設 計語言,例如(但不限於)c、c++、c#、Paseal、basic、 API 呼叫、HTML、XHTML、XML、ASP 指令碼、 FORTRAN、COBOL、Perl、java、ADA、NET及其類似 者。 該等I/O器件370可包括輸入器件,例如(但不限於)滑 鼠、鍵盤、掃描器、麥克風、相機等。此外,該等ι/〇器 142421.doc •15- 201019138 件3 70亦可包括輸出器件’例如(但不限於)印表機、顯示号 等。最終,該等I/O器件370可進一步包括傳達輸入及輸出 兩者之器件’例如(但不限於)NIC或調變器/解調變器(用於 存取遠端器件、其他檔案、器件、系統或網路)、射頻 (RF)或其他收發器、電話介面、橋接器、路由器等。該等 I/O器件370亦包括用於在諸如網際網路或企業内部網路之 各種網路上通信的組件。 若該電腦300為PC、工作站、智慧型器件或其類似者, 則該記憶體320中之軟體可進一步包括一基本輸入輸出系 ◎ 統(BIOS)(為簡化起見而省略)。該則〇8為在啟動時初始化 並測試軟體、啟動〇/S 350,及支援硬體器件之間的資料 之傳送的必需軟體常式集。該BI〇s儲存於諸如r〇m、 PKOM、EPROM、EEPROM或其類似者之某一類型的唯讀 記憶體中,以使得可當啟動該電腦3〇〇時執行該81〇§。 當該電腦300在操作中時,該處理器31〇經組態以執行儲 存於該記憶體320内之軟體,將資料傳達至該記憶體32〇及 自記憶體320傳達資料,且大體上根據該軟體控制該電腦 Ο 300之操作。該應用程式36〇及該〇/s 35〇整體或部分地由 該處理器310讀取,或許在該處理器31〇内得以緩衝,且接 · 著得以執行。 # 當該應用程式360實施於軟體中時,應注意,該應用程 式3 6 0可事實上儲存於任何電腦可讀媒體上以供任何電腦 相關系統或方法使用或結合任何電腦相關系統或方法一起 使用。在此文件之上下文中,電腦可讀媒體可為可含有或 142421.doc -16· 201019138 儲存電腦程式以供電腦相關系統或方法使用或結合電腦相 關系統或方法一起使用之電子、磁性、光學或其他實體器 件或構件。 該應用程式360可體現於任何電腦可讀媒體令以供指令 - 執行系、统、裝置或器件(諸如,基於電腦之系、统、 , 器之系統,或可提取來自該指令執行系統、裝置或器件之 指令且執行該等指令的其他系統)使用或結合指令執行系 統、裝置或器件(諸如基於電腦之系統、含處理器之系 統,或可提取來自該指令執行系統、裝置或器件之指令且 執行該等指令的其他系統)一起使用。在此文件之上下文 中’「電腦可讀媒體」可為可儲存、傳達、傳播或傳送程 式以供指令執行系統、裝置或器件使用或結合指令執行系 統、裝置或器件-起使用的任何構件。舉例而言,該電腦 可讀媒體可為(但不限於)電子、磁性、光學、電磁、紅外 線或半導體系統、裴置、器件或傳播媒體。 φ 電腦可讀媒體之更多特定實例(非詳盡清單)可包括以下 各者:具有一或多個導線之電連接(電子的)、攜帶型電腦 碟片(磁性或光學的)、隨機存取記憶體(RAM)(電子的)、 唯讀汜憶體(ROM)(電子的)、可抹除可程式化唯讀記憶體 ' (EPR〇M、EEPROM或快閃記憶體)(電子的)、光纖(光學 的),及攜帶型緊密光碟記憶體(CDR〇M、CD R/w)(光學 的)。注意,該電腦可讀媒體甚至可為紙張或另一合適媒 體(可在其上列印出或穿孔出程式),因為可經由(例如)對 紙張或其他媒體之光學掃描來以電子方式捕獲該程式,接 142421.doc -17· 201019138 著編譯、解譯或以合適方式另外處理該程式(若有必要), 且接著將該程式儲存於電腦記憶體中。 在例示性實施例中,在該應用程式36〇實施於硬體中 時’該應用程式360可藉由各自在此項技術中熟知之以下 技術之任何一者或組合來實施:具有用於對資料信號實施 邏輯功能之多個邏輯閘的一或多個離散邏輯電路、一具有 適當組合邏輯閘之特殊應用積體電路(ASIC)、一(多個)可 程式化閘陣列(PGA)、一場可程式化閘陣列(fpga)等。 例示性實施例之技術效應及益處包括藉由低記憶體消耗 _ 及較快處理精確判定頻繁命中項。 本文中所使用之術語僅出於描述特定實施例之目的且並 非意欲限制本發明。除非上下文另外清楚指示,否則如本 文中所使用,單數形式「一」及「該」意欲亦包括複數形 式。應進一步理解,當在本說明書中使用時,術語「包 含」規定所述特徵、整體、步驟、操作、元件及/或組件 之存在但並不排除存在或添加一或多個其他特徵、整 體、步驟、操作、元件、組件,及/或其群組。 © 以下申請專利範圍中之所有構件或步驟加功能元件之對 應結構、材料、動作及等效物意欲包括用於連同具體主張 _ 之其他所主張元件一起執行功能的任何結構、材料或動 作。雖然出於說明及描述之目的呈現對本發明之描述,但 該描述不意欲為詳盡的或限於所揭示形式之本發明。在不 脫離本發明之精神及範疇之情況下,許多修改及變化對於 一般熟習此項技術者將為顯而易見的。選擇並描述該實施 14242I.doc -18- 201019138 例以便最佳地解釋本發明之原理及實際應用,且使一般熟 習此項技術者能夠理解本發明之各種實施例(但預期經受 適用於特定用途的各種修改)。 【圖式簡單說明】 .圖1說明一種用於機率未命中計數之方法的一實施例; ,圖2說明一種用於處理一窗中之元素之方法的一實施 例;及 圖3說明可結合一種用於機率未命中計數之方法使用之 醪電腦的-實施例。 【主要元件符號說明】 300 310 320 330 340 350 360 370 電腦 處理器 記憶體 原始碼 編譯器 作業系統(0/S) 應用程式 輸入及/或輸出(I/O)器件 142421.doc

Claims (1)

  1. 201019138 七、申請專利範圍: 1. -種用於發現具有高於—臨限值之頻率之—輪入串产的 元素之方法,該方法包含: ' 將4輸入TG素串流分割成複數個固定大小的窗丨及 藉由執行以下動作來依序處理該複數個窗中之每一 對於一當前窗t之每-元素,判定對應於_ 素之一項目是否存在於一表中; …
    若對應於該當前元素之—項目存在於該表中則遞 增與該當前元素相關聯之一頻率計數項; 若對應於該當前元素之該項目不存在於該表中,則 將—項目插入至對應於該當前元素之一表令其中插 入—項目包含: 、 基於該當前窗之一索引,·來計算對應於該當前元素 之一機率誤差界限△;及 之該機率誤差界限A及一頻 之對應於該當前元素的一項 將對應於該當前元素 率計數項插入至該表中 目中;及 在該當前窗之結尾,自該表移除所有元素,其中與 确4素相關聯之該頻率計數項及該機率誤差界限△之 釔和小於或等於該當前窗之該索引。 2.如請求項1之方法,其中 公式: 甲核鼻忒機率誤差界限△包含應用 其中△為該機率誤差界限,β為幕 142421.doc 201019138 定律分布之一裊紅 去2| 數,δ為—小機率,且/為該當前窗之一 3. 如請求項1之方法 其中核算該誤差界限△包含應用公 "Ζ ’其中Α為積極程度之一度量且/為該當前窗之 4·如請求項丨之方法, 該輸串抓藉由使一元素與該 \ 之—流相關聯,且針對存在於該輸入_流中 之該机的母一分量重複該元素之多個複本而映射至一元 5. 如吻求項1之方法’其進—步包含針對該頻率計數項及 該機率誤差界限△之該總和超過該臨限值而傳回該 之元素。 6.種電腦程式產品,其包含一含有電腦程式碼之電腦可 讀儲存媒體,該電腦程式碼當由一電腦執行時實施一用 於發現具有高於-臨限值之頻率之—輸人串流的元素之 方法,其中該方法包含·· 將該輸入元素串流分割成複數個固定大小的窗;及 藉由執行以下動作來依序處理該複數個窗中之每一 者: 對於一當前窗中之每一元素’判定對應於—當前元 素之一項目是否存在於一表中; 若對應於該當前元素之一項目存在於該表中,則遞 增與該當前元素相關聯之一頻率計數項; 若對應於該當前元素之該項目不存在於該表中則 U2421.doc -2 - 201019138 項目插入至對應於該當前元素之一表中,其中插 入一項目包含: 基於該當前窗之一索引/來計算對應於該當前元素 之一機率誤差界限Δ ;及 將對應於該當前元素之該機率誤差界限Δ及一頻 率计數項插入至該表中之對應於該當前元素的一項 目中;及 在該當前窗之結尾,自該表移除所有元素其中與 該元素相關聯之該頻率計數項及該機率誤差界限△之 總和小於或等於該當前窗之該索引。 7.如請求項6之電腦程式產品,其中核算該機率誤差界限△ 包含應用公式: 一Δ=Ρ 其中△為該機率誤差界限,p為幕 &律刀布之一參數,δ為一小機率,且ί為該當前窗之一 索引。 8·如請求項6之電腦程式產品,其中核算該誤差界限Λ包含 2用公S : △〜内’纟中介為積極程度之一度量且ζ•為該當 月1J窗之一索引。 9.如請求項6之電腦程式產品,其中該輸入串流藉由使一 &素與該輸人串流中之—流相關聯’且針對存在於該輸 入串流中之該流的每一分量而重複該元素之多個複本而 映射至一元素串流上。 ,二求項6之電腦程式產品,其進一步包含用於針對該 頻率計數項及該機率誤差界限Λ之該總和超過該臨限值 而傳回該表中之元素的電腦程式碼。 142421.doc
TW098126422A 2008-08-20 2009-08-05 Probabilistic lossy counting TW201019138A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/194,784 US7937388B2 (en) 2008-08-20 2008-08-20 Probabilistic lossy counting

Publications (1)

Publication Number Publication Date
TW201019138A true TW201019138A (en) 2010-05-16

Family

ID=41697280

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098126422A TW201019138A (en) 2008-08-20 2009-08-05 Probabilistic lossy counting

Country Status (3)

Country Link
US (1) US7937388B2 (zh)
KR (1) KR20100022926A (zh)
TW (1) TW201019138A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495087B2 (en) 2011-02-22 2013-07-23 International Business Machines Corporation Aggregate contribution of iceberg queries
JP5818740B2 (ja) * 2012-04-17 2015-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation テキストデータストリームに含まれるアイテムの中から出現頻度の高いアイテムを特定する方法、装置及びコンピュータプログラム
RU2771593C1 (ru) * 2021-02-12 2022-05-06 Федеральное государственное бюджетное военное образовательное учреждение высшего образования "Черноморское высшее военно-морское ордена Красной Звезды училище имени П.С. Нахимова" Министерства обороны Российской Федерации Вероятностное устройство вычисления средней полной мощности

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100899144B1 (ko) * 2007-10-26 2009-05-27 연세대학교 산학협력단 데이터 스트림으로부터 최대 빈발항목집합을 탐색하는 방법및 장치

Also Published As

Publication number Publication date
KR20100022926A (ko) 2010-03-03
US7937388B2 (en) 2011-05-03
US20100049700A1 (en) 2010-02-25

Similar Documents

Publication Publication Date Title
CN105580318B (zh) 用于分析通过网络的数据通信量的方法和系统
US9703980B2 (en) Centralized throttling service
CN108173938B (zh) 服务器负载分流方法及装置
CN108737333B (zh) 一种数据检测方法以及装置
EP3005129B1 (en) Adaptive interrupt coalescing in a converged network
KR101781339B1 (ko) 클라이언트를 갱신하기 위한 방법 및 디바이스
JP5778321B2 (ja) イングレス制御を備えたトラフィック管理
US10095993B1 (en) Methods and apparatus for configuring granularity of key performance indicators provided by a monitored component
US9313604B1 (en) Network service request throttling system
US6901484B2 (en) Storage-assisted quality of service (QoS)
CN111124819B (zh) 全链路监控的方法和装置
CN106778260B (zh) 攻击检测方法和装置
CN110545246A (zh) 一种基于令牌桶的限流方法和装置
US20160134723A1 (en) Adaptive compression management for web services
CN106464584B (zh) 根据程序设计接口提供路由器信息
WO2017101576A1 (zh) 一种数据资源存储方法及装置
CN104734985A (zh) 数据接收流量控制方法及其系统
WO2018166297A1 (zh) 一种缓存分配方法,及设备
US10560385B2 (en) Method and system for controlling network data traffic in a hierarchical system
CN111290696A (zh) 一种应用程序组件的流控方法及装置
KR20160056944A (ko) 캐싱된 플로우들에 기초한 가속
TW201019138A (en) Probabilistic lossy counting
Yu et al. Hardware accelerator to speed up packet processing in NDN router
Xiang et al. Differentiated latency in data center networks with erasure coded files through traffic engineering
CN107277062B (zh) 数据包的并行处理方法及装置