TWI758632B

TWI758632B - 高效處理海量數據的資料蒐集系統

Info

Publication number: TWI758632B
Application number: TW108131430A
Authority: TW
Inventors: 陳朝煌
Original assignee: 阿證科技股份有限公司
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-03-21
Also published as: TW202109303A; US20210064662A1

Abstract

本發明係一種高效處理海量數據的資料蒐集系統，主要係由兩階以上的風險過濾模組以及一特殊資料擷取器所組成，該兩階以上的風險過濾模組及該特殊資料擷取器彼此串接；本發明可藉由該兩階以上的風險過濾模組過濾接收的原始資料，以濾除具有安全性疑慮的原始資料，並以該特殊資料擷取器取得需要的原始資料，藉此，本系統可自動化協助使用者嚴選出高可用度的原始資料，達到有效提升資料收集便利性及安全性之目的。

Description

高效處理海量數據的資料蒐集系統

本發明係關於一種資料蒐集系統，尤指一種可高效處理海量數據的資料蒐集系統。

隨著網際網路的蓬勃發展，其充斥著各種具有不同資訊的資料來源(各種不同的網站及網頁)，而隨著網站及網頁的數量的增長，存在於網際網路之資料量也以超過預期的速度成長，因此，用以在海量資料中搜尋資料的蒐集工具即因應而生。

目前針對特定海量資料的蒐集工具，多數採用關鍵字過濾或規則組合的過濾方法，對於需要從資料量持續爆炸成長的資訊來源中擷取所需的結果的資料蒐集系統來說，其存在大量運算資源的耗損，或是過多的規則或關鍵字彼此干擾過濾結果的問題，此外，傳統關鍵字或規則式的過濾方式，也容易蒐集到許多惡意的或是超出可用範圍的資料，不僅徒然消耗運算資源，更導致資訊安全性的疑慮。

因此，現有技術確實有待進一步提供更佳改良方案之必要性。

有鑑於上述現有技術之不足，本發明的主要目的在於提供一種高效處理大量數據的資料蒐集系統，不僅可由原始資料中挑選出所需的原始資料，更可濾除不同性質且具有安全疑慮的原始資料，藉此自動化協助使用者嚴選出高可用度的原始資料，有效提升資料收集的便利性及安全性。

為達成上述目的所採取的主要技術手段係令前述高效處理海量數據的資料蒐集系統包括：一首階風險過濾模組，接收複數原始資料；一二階風險過濾模組；以及一特殊資料擷取器，其中該首階風險過濾模組、該特殊資料擷取器以及該二階風險過濾模組彼此串接，以濾除具有安全性風險的原始資料並擷取需要的原始資料，使該系統輸出可用的原始資料。

本發明可藉由該首階風險過濾模組以及該二階風險過濾模組過濾接收的原始資料，以濾除不需要或具有安全性疑慮等具有風險的原始資料，並以該特殊資料擷取器取得需要的原始資料，藉此，本系統可自動化協助使用者嚴選出高可用度的原始資料，有效提升資料收集便利性及安全性的功效。

100:特殊資料擷取器

101:敏感行為偵測模組

102:個人資訊偵測模組

103:可執行物件偵測模組

201:首階風險過濾模組

202:二階風險過濾模組

203:三階風險過濾模組

204:可視資料產出模組

901:通訊模組

902:處理器

903:計算機可讀儲存媒體

904:輸入模組

905:輸出模組

1000:資料蒐集系統

2000:系統裝置

10201:通訊軟體帳號識別函式

10202:電郵通訊錄識別函式

10203:作業系統語系識別函式

10204:虹膜資料識別函式

10205:IPv4資料識別函式

10206:金融交易資料識別函式

10207:基因資料識別函式

10208:指紋資料識別函式

10209:聲紋資料識別函式

10210:人臉資料識別函式

10211:社群媒體回傳資料識別函式

20101:攻擊行為過濾器

20102:應用程式對外連線過濾器

20103:主機代管服務過濾器

20104:特定雲端服務過濾器

20105:ASP.Net網頁資料過濾器

20201:CPU攻擊性Java Script過濾器

20202:跨平台攻擊過濾器

20203:挖礦程式過濾器

20204:垃圾郵件過濾器

20205:假造身分攻擊過濾器

20206:協定偽裝攻擊過濾器

20207:地理圍欄資訊過濾器

20208:資訊封鎖行為過濾器

20209:推播服務過濾器

20210:可疑虛擬交易過濾器

20211:社交工程過濾器

20212:全幅單頁廣告過濾器

20213:手機網頁彈出廣告過濾器

20214:群發訊息過濾器

20215:社群媒體留言區URL過濾器

20301:中間人攻擊過濾器

20302:假冒基地台過濾器

20303:假冒上網熱點過濾器

20401:資料分類器

20402:正規化函式

20403:迴歸分析器

20404:視覺化模組

20405:主成份分析器

20406:資料群集分析器

20407:整合報告產生器

圖1 為本發明之資料蒐集系統之第一較佳實施例的架構示意圖。

圖2 為本發明之資料蒐集系統之第二較佳實施例的架構示意圖。

圖3 為本發明之資料蒐集系統之第三較佳實施例的架構示意圖。

圖4 為本發明之首階風險過濾模組之較佳實施例的架構示意圖。

圖5 為本發明之個人資訊偵測模組之較佳實施例的架構示意圖。

圖6 為本發明之二階風險過濾模組之較佳實施例的架構示意圖。

圖7 為本發明之三階風險過濾模組之較佳實施例的架構示意圖。

圖8 為本發明之可視資料產出模組之較佳實施例的架構示意圖。

圖9 為本發明之系統裝置之較佳實施例的系統架構示意圖。

關於本發明高效處理海量數據的資料蒐集系統之較佳實施例，請參考圖1所示，該資料蒐集系統1000包括一特殊資料擷取器100、一首階風險過濾模組201以及一二階風險過濾模組202，該特殊資料擷取器100、該首階風險過濾模組201以及該二階風險過濾模組202彼此串接，在此實施例中，以該首階風險過濾模組201、該特殊資料擷取器100、該二階風險過濾模組202的順序串接。於一較佳實施例中，亦可以該首階風險過濾模組201、該二階風險過濾模組202、該特殊資料擷取器100的順序串接(如圖2所示)。於其他較佳實施例中，該二階風險過濾模組202亦可串接於該首階風險過濾模組201之前，且本發明不以此為限制。

該首階風險過濾模組201用於接收複數原始資料，並對該些原始資料進行過濾/篩選，初步濾除具有安全性疑慮的原始資料，避免該資料蒐集系統1000產生資安漏洞，其中該些原始資料為包括多種內容(文字、影片、圖片、可執行物件等)的網站或網頁，且本發明不以此為限制。

該特殊資料擷取器100接收經該首階風險過濾模組201、該二階風險過濾模組202或該三階風險過濾模組203過濾後的原始資料，並進一步從中擷取/選取所需的原始資料，並且標記已識別的特殊資料。於本較佳實施例中，該特殊資料擷取器100包括一敏感行為偵測模組101、一個人資訊偵測模組102以及一可執行物件偵測模組103，該敏感行為偵測模組101係用以擷取與敏感行為有關的原始資料；該個人資訊偵測模組102係用以擷取與個人資訊有關的原始資料，例如使用者帳號、電子郵件通訊錄等；該可執行物件偵測模組103係用以擷取可執行的原始資料，例如EXE檔案、Java Script等。

該二階風險過濾模組202對接收的原始資料進行過濾，以濾除不需要或具有其他潛在安全性威脅的原始資料。

因此，藉由兩階以上或多階以上的風險過濾模組(該首階風險過濾模組201以及該二階風險過濾模組202)排除具有安全性疑慮的原始資料以及不需要的原始資料，並以該特殊資料擷取器100擷取需要的原始資料，該資料蒐集系統1000可自動化協助使用者嚴選出高可用度的原始資料，達到提升資料收集便利性及安全性的功效。

於本較佳實施例中，該資料蒐集系統1000更包括一可視資料產出模組204，其接收經多階風險過濾模組所過濾且經由該特殊資料擷取器100所擷取的原始資料，並將接收的原始資料進行分類、正規化、迴歸分析、主成分分析、資料群集分析、視覺化輸出後產生一整合性報告，藉此，使用者可快速且明確的得到具實用價值的原始資料的分析結果。

於本較佳實施例中，該資料蒐集系統1000更包括一三階風險過濾模組203，請參考圖3，該三階風險過濾模組203可配置於該二階風險過濾模組202之後，該三階風險過濾模組203用於對接收來自該二階風險過濾模組202處理後的原始資料進行過濾分析，以識別並標記具有潛在安全性威脅的原始資料，並將識別後的原始資料提供至該特殊資料擷取器100或該可視資料產出模組204，以有效提升過濾後的原始資料的可用性。

為具體說明本較佳實施例之首階風險過濾模組201，請參考圖4，該首階風險過濾模組201進一步包括了一攻擊行為過濾器20101、一應用程式對外連線過濾器20102、一主機代管服務過濾器20103、一特定雲端服務過濾器20104以及一ASP.Net網頁資料過濾器20105。

該攻擊行為過濾器20101用以過濾具攻擊行為的原始資料，避免該資料蒐集系統1000產生資安漏洞，該攻擊行為例如為網頁注入(Web Injection)攻擊、跨網站指令碼XSS(Cross-site scripting)攻擊等；該應用程式對外連線過濾器20102用於過濾具應用程式特定的對外連線的原始資料，避免內部資料被惡意傳送至外部裝置，造成該資料蒐集系統1000的資安漏洞；該主機代管服務過濾器20103用於過濾屬於特定主機代管服務的原始資料的資料封包；該特定雲端服務過濾器20104用於過濾以Java Applet實作的特定雲端服務的原始資料的相關資料封包，避免其安全性漏洞造成該資料蒐集系統1000的資安漏洞；該ASP.Net網頁資料過濾器20105用於過濾以ASP.Net實作的特定網頁資料的原始資料。藉此，該首階風險過濾模組201可濾除具有安全性疑慮的原始資料，不僅保護該資料蒐集系統1000，更可有效擷取出可用的原始資料。

為具體說明本較佳實施例之個人資訊偵測模組102，請參考圖5，該個人資訊偵測模組102進一步包括了一通訊軟體帳號識別函式10201、一電郵通訊錄識別函式10202、一作業系統語系識別函式10203、一虹膜資料識別函式10204、一IPv4資料識別函式10205、一金融交易資料識別函式10206、一基因資料識別函式10207、一指紋資料識別函式10208、一聲紋資料識別函式10209、一人臉資料識別函式10210、一社群媒體回傳資料識別函式10211。

該通訊軟體帳號識別函式10201用以識別並擷取通訊軟體(例如Line)的使用者帳號的原始資料；該電郵通訊錄識別函式10202用以識別與電子郵件通訊錄相關的原始資料；該作業系統語系識別函式10203用以識別原始資料的資料來源的作業系統語系；該虹膜資料識別函式10204用以識別與虹膜相關的生物資訊的原始資料；該IPv4資料識別函式10205用以識別原始資料的資料來源設備的相關IPv4資訊；該金融交易資料識別函式10206用以識別與金融交易相關的原始資料；該基因資料識別函式10207用以識別基因相關的生物資訊的原始資料；該指紋資料識別函式10208，用以識別指紋相關的生物資訊的原始資料；該聲紋資料識別函式10209用以識別聲紋相關的生物資訊的原始資料；該人臉資料識別函式10210用以識別人臉相關的生物資訊的原始資料；該社群媒體回傳資料識別函式10211用以識別社群媒體(例如：FaceBook)的回傳資料的原始資料。藉此，該個人資訊偵測模組102可快速且準確的擷取與個人資訊相關聯且可用的原始資料，提高資料蒐集的處理效率以提升資料蒐集的便利性。

為具體說明本較佳實施例之該二階風險過濾模組202，請參考圖6，該二階風險過濾模組202進一步包括了一CPU攻擊性Java Script過濾器20201、一跨平台攻擊過濾器20202、一挖礦程式過濾器20203、一垃圾郵件過濾器20204、一假造身分攻擊過濾器20205、一協定偽裝攻擊過濾器20206、一地理圍欄資訊過濾器20207、一資訊封鎖行為過濾器20208、一推播服務過濾器20209、一可疑虛擬交易過濾器20210、一社交工程過濾器20211、一全幅單頁廣告過濾器20212、一手機網頁彈出廣告過濾器20213、一群發訊息過濾器20214以及一社群媒體留言區URL過濾器20215。

該CPU攻擊性Java Script過濾器20201過濾以CPU為攻擊目標的JavaScript的原始資料，避免該資料蒐集系統1000內部資料遭到竊取，造成該資料蒐集系統1000的資安漏洞；該跨平台攻擊過濾器20202過濾與跨平台攻擊有關的原始資料，例如：遠端木馬程式，以避免該資料蒐集系統1000的控制權遭到竊取，造成該資料蒐集系統1000的資安漏洞；該挖礦程式過濾器20203，可過濾但不限於過濾隱藏於網頁中的挖礦腳本的原始資料，以避免該資料蒐集系統1000的運算資源未經許可被惡意取用，造成該資料蒐集系統1000額外的資源耗損；該垃圾郵件過濾器20204，用以過濾資料流中的垃圾郵件的原始資料，例如：廣告郵件，以減輕該資料蒐集系統1000的運算負擔並提升過濾後的原始資料的可用性；該假造身分攻擊過濾器20205過濾屬於假造身分攻擊的原始資料；該協定偽裝攻擊過濾器20206過濾屬於偽裝傳輸協定的原始資料；該地理圍欄資訊過濾器20207過濾屬於地理圍欄發送的區域性資訊的原始資料；該資訊封鎖行為過濾器20208過濾用於進行資訊封鎖的資料流的原始資料，避免該資料蒐集系統1000蒐集到不正確的原始資料，以減少該資料蒐集系統1000的資源損耗；該推播服務過濾器20209過濾由推播服務器所發送的原始資料，避免該資料蒐集系統1000蒐集到不需要的原始資料，以減少該資料蒐集系統1000的資源損耗；該可疑虛擬交易過濾器20210，用以過濾可疑的虛擬交易相關資料的原始資料，避免該資料蒐集系統1000蒐集到不需要或不正確的原始資料，例如：非法行為的原始資料，以減少該資料蒐集系統1000的資源損耗；該社交工程過濾器20211過濾屬於社交工程的原始資料，避免該資料蒐集系統1000蒐集到不需要或不正確的原始資料，例如：詐騙行為的原始資料，以減少該資料蒐集系統1000的資源損耗；該全幅單頁廣告過濾器20212，用以過濾但不限於過濾彈出式的全幅網頁廣告的原始資料，以減少該資料蒐集系統1000的資源損耗；該手機網頁彈出廣告過濾器20213，特別用以過濾屬於手機網頁的彈出式廣告的原始資料，以減少該資料蒐集系統1000的資源損耗；該群發訊息過濾器20214，特別用以過濾透過通訊軟體傳送的群發訊息(例如Line@)的原始資料，由於群發訊息的原始資料通常為廣告或宣傳訊息，因此藉由該群發訊息過濾器20214可避免該資料蒐集系統1000蒐集到不需要或不正確的原始資料，減少該資料蒐集系統1000的資源損耗；該社群媒體留言區URL過濾器20215，特別用以過濾被張貼於社群媒體(例如YouTube)的留言區裡的URL的原始資料，避免該資料蒐集系統1000蒐集到不需要或不正確的原始資料，減少該資料蒐集系統1000的資源損耗。

為具體說明本較佳實施例之三階風險過濾模組203，請參考圖7，該三階風險過濾模組203進一步包括一中間人攻擊過濾器20301、一假冒基地台過濾器20302以及一假冒上網熱點過濾器20303，其中該中間人攻擊過濾器20301過濾中間人攻擊所使用的封包資料的原始資料；該假冒基地台過濾器20302過濾假冒基地台所發出的封包的原始資料；該假冒上網熱點過濾器20303過濾假冒上網熱點所發出的封包的原始資料，藉此，避免該資料蒐集系統1000蒐集到不需要或不正確的原始資料，減少該資料蒐集系統1000的資源損耗。

為具體說明本較佳實施例之可視資料產出模組204，請參考圖8，該可視資料產出模組204進一步包括一資料分類器20401、一正規化(normalization)函式20402、一迴歸分析(Regression Analysis)器20403、一視覺化模組20404、一主成份分析(Principal components analysis，PCA)器20405、一資料群集分析(Cluster analysis)器20406以及一整合報告產生器20407，其中該資料分類器20401可依使用者的設定對蒐集到的原始資料進行分類；該正規化函式20402將分類好的原始資料進行正規化，以減少資料冗餘並增進原始資料的一致性；該迴歸分析器20403將以正規化的原始資料進行迴歸分析；該視覺化模組20404將分析的原始資料做視覺化輸出，例如產生圖表；該主成份分析器20405對所蒐集的原始資料進行主成份分析；該資料群集分析器20406根據各種不同的演算法分析所蒐集的原始資料，以判斷是否具有某種群集分佈；該整合報告產生器20407，將所蒐集的原始資料與各種分析的結果加上視覺化輸出，進一步產生一整合性報告。

於本較佳實施例中，該資料蒐集系統1000可以系統裝置來實現，例如一嵌入式系統設備平台、一使用者電腦或一伺服器主機等來實現。在其他實施例中，該資料蒐集系統1000亦可以雲端伺服器來實現，且本發明不以此為限制。為具體說明本較佳實施例之系統裝置2000，請參考圖9，該系統裝置2000至少包括一通訊模組901、一處理器902、一計算機可讀儲存媒體903、一輸入模組904以及一輸出模組905，其中該處理器902與該通訊模組901、該計算機可讀儲存媒體903、該輸出模組905以及該輸入模組904電連接。該通訊模組901用於接收來自外部網站或網頁的原始資料，該通訊模組901可以符合序列埠協定、無線通訊協定等協定的通訊電路來實現，且本發明不以此為限制；該計算機可讀儲存媒體903儲存可執行該資料蒐集系統1000的程式，其可以快閃記憶體等非揮發性記憶體來實現，且本發明不以此為限制；該處理器902用以讀取並執行該程式，其可以一個或多個處理器來實現；該輸入模組904可接收使用者以外部輸入裝置(如滑鼠、鍵盤、觸控螢幕等裝置)所輸入的設定或指令，以對該資料蒐集系統1000進行對應的設定；該輸出模組905用以將執行該程序所產生的整合性報告輸出至一顯示裝置，藉此，使用者可透過該顯示裝置所顯示的整合性報告便利且快速地檢視可用的原始資料。

綜以上所述，本發明主要藉由上述之資料蒐集系統自動地以多階的風險過濾模組重重濾除不需要或具有安全性疑慮的原始資料，並以特別配置的特殊資料擷取器挑選出所需要的原始資料，藉此快速且安全的協助使用者嚴選出高可用度的原始資料，達到有效提升資料收集便利性及安全性之目的。