TWI636369B - 即時串流紀錄資料分析系統與方法 - Google Patents

即時串流紀錄資料分析系統與方法 Download PDF

Info

Publication number
TWI636369B
TWI636369B TW105112081A TW105112081A TWI636369B TW I636369 B TWI636369 B TW I636369B TW 105112081 A TW105112081 A TW 105112081A TW 105112081 A TW105112081 A TW 105112081A TW I636369 B TWI636369 B TW I636369B
Authority
TW
Taiwan
Prior art keywords
module
data
exploration
log data
distributed computing
Prior art date
Application number
TW105112081A
Other languages
English (en)
Other versions
TW201738776A (zh
Inventor
陳志華
謝欣翰
林佳宏
官大勝
楊雅婷
謝佳珉
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW105112081A priority Critical patent/TWI636369B/zh
Priority to CN201610645282.XA priority patent/CN107305583B/zh
Publication of TW201738776A publication Critical patent/TW201738776A/zh
Application granted granted Critical
Publication of TWI636369B publication Critical patent/TWI636369B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明有關於一種即時串流紀錄資料分析系統與方法,係由複數個使用者設備、複數個線上網頁伺服器、複數個線上資料庫伺服器以及複數個管理者設備,以及系統內部的紀錄資料蒐集裝置、複數個分散式資料庫、紀錄資料分析模組、資料探勘主模組、分散式運算裝置、快取資料庫、以及組合節點裝置構成;本發明可將紀錄的串流資料加密或不加密再透過不同的探勘模組分散式的進行同步運算,並產製解密後之分析結果予管理者了解,更可將運算過程所得作為提升往後運算效率之系統與方法。

Description

即時串流紀錄資料分析系統與方法
本發明有關於一種即時串流紀錄資料分析系統與方法。
關於串流資料的紀錄或分析系統與方法,已存在若干種習知技術,然而其各自有其力有未逮之短處。
首先,目前已存在一種跨層日誌記錄追蹤系統與方法可以取得不同的日誌資料來源,紀錄大量的日誌資料和存取軌跡,並且作為犯罪追查之用途。然而,此方法雖然可可以紀錄日誌資料,但卻無法對紀錄進行分析,以及產製分析結果供管理者參考。
關於日誌資料記錄方法,係一種即時針對指定影像進行壓縮和儲存日誌資料之方法;然而,其雖然可以紀錄日誌資料,亦無法對紀錄進行分析及產製分析結果。
最後,現存一種計量通訊網路流量方法,係可以側錄方式紀錄封包,並適應不同種類之封包進行紀錄,但相同的,分析及產製分析結果供管理者參考同樣是無法透過此方法達成。
故應可知提供一種可以分析且產製結果,並非僅有紀錄的即時串流資料系統,是此領域所急需的技術。
本發明提出一種即時串流紀錄資料分析系統係由系統外部的複數個使用者設備、複數個線上網頁伺服器、複數個線上資料庫伺服器以及複數個管理者設備,以及本發明之系統內部的一紀錄資料蒐集裝置、複數個分散式資料庫、一紀錄資料分析模組、一資料探勘主模組、一分散式運算裝置、一快取資料庫、以及一組合節點裝置構成。
複數外部使用者設備,使用者可操作這些使用者設備連線至線上網頁伺服器,以向線上網頁伺服器要求網路服務和相關資訊與應用。
複數外部線上網頁伺服器,主要依使用者設備傳送的網路服務要求向線上資料庫伺服器存取所需相關資料後提供網路服務和相關資訊給外部使用者設備,其亦針對所有網路服務要求進行紀錄並將網路服務使用紀錄傳送至紀錄資料處理設備進行解析和儲存。
複數外部線上資料庫伺服器設備:線上資料庫伺服器設備可接收線上網頁伺服器設備的資料庫操作要求,並依其要求回覆相關資訊。並且針對每個資料庫操作要求進行紀錄,並可將資料庫操作紀錄傳送至紀錄資料蒐集裝置進行解析和儲存。
一紀錄資料蒐集裝置,用以解析來自線上網頁伺服器和線上資料庫伺服器的紀錄並依其紀錄之格式進行解析後分別儲存至分散式資料庫中,紀錄資料蒐集裝置亦可選擇性的具備加密功能,其包含有至少一私密金鑰、至少一公開金鑰、至少一任意整數值,即係解析後再透過上述三者以對 資料進行加密後再儲存至分散式資料庫中。
複數分散式資料庫主要可儲存經解析後的網路服務使用紀錄和資料庫操作紀錄,當分散式運算裝置進行分散式運算和紀錄分析時,提供紀錄資料供分散式運算裝置運算。
複數外部管理者設備,管理者操作管理者設備連線至紀錄資料分析模組,並經紀錄資料分析模組連線至資料探勘主模組以選擇適合的探勘子模組,再指派予分散式運算裝置進行運算。
一紀錄資料分析模組,由管理者手動或自動連線至資料主探勘模組並選擇其下適合的探勘子模組,再指派予分散式運算裝置進行運算,紀錄資料分析模組並可向組合節點裝置取得運算結果。
一資料主探勘模組,可包含複數個探勘子模組以供分散式運算裝置進行運算和分析。
複數個分散式運算裝置,可向分散式資料庫取得紀錄資料,並依選定的資料探勘模組進行指派任務給複數個節點設備和分散式運算模組,分別進行運算和分析,分散式運算裝置並可將計算結果暫存於快取資料庫,分散式運算裝置亦可選擇性的具有密文計算之功能,用以對密文資料進行運算。
複數個快取資料庫,用以儲存分散式運算裝置暫存各個紀錄資料的要求分析運算結果或相關參數,以作日後加速運算應用。
一組合節點裝置,用以擷取分散式運算裝置各個運算結果以進行整合和分析,再將分析結果回傳予紀錄資料 分析模組,相同地,組合節點裝置亦可額外配備解密功能,其具備有與紀錄資料蒐集裝置相對應的各該私密金鑰、該公開金鑰以及該任意整數值,才可對經分散式運算裝置密文計算得出之結果進行解密,解密後提供明文資料回傳至紀錄資料分析模組。
本發明之即時串流紀錄資料分析方法,其主要步驟包含下述之六步驟。
紀錄線上資料步驟:一紀錄資料蒐集裝置將自外部線上網頁伺服器和外部線上資料庫伺服器中蒐集並儲存外部複數使用者發出之網路服務要求以及回覆紀錄。
存入分散式資料庫步驟:紀錄資料蒐集裝置將前述網路服務要求以及回覆紀錄儲存至複數分散式資料庫。
選擇資料探勘模組步驟:外部管理者與一紀錄資料分析模組連結,以經由該紀錄資料分析模組對一資料探勘主模組進行請求自複數探勘子模組中選擇以使用。
指派工作予分散式運算裝置步驟:該資料探勘探勘主模組將按照外部管理者選擇的探勘子模組以指派複數分散式運算裝置對使用者網路服務要求與回覆紀錄進行運算。
暫存至快取資料庫裝置步驟:各該分散式運算裝置產出之運算結果將被暫存至一快取資料庫,以備未來分析使用。
回傳與顯示運算結果:與各該分散式運算裝置連結之一組合節點裝置將運算結果整合成一分析結果,並透過該紀錄資料分析模組傳輸至外部管理者設備以呈現該分析結果予外部使用者。
而本發明之即時串流紀錄資料分析方法亦具備 加解密之功能,其中,該紀錄資料蒐集裝置將通過至少一私密金鑰、一公開金鑰以及一任意整數值來對網路服務要求以及回覆紀錄資料進行加密,而各該分散式運算裝置則直接對密文狀態之網路服務要求以及回覆紀錄資料進行計算並產生運算結果,該組合節點裝置具備相對應之各該私密金鑰、該公開金鑰以及該任意整數值對該分析結果進行解密提供給外部管理者。
綜上所述,可知本發明之即時串流紀錄資料分析系統與方法可即時紀錄及解析線上網路服務要求紀錄資料和資料庫操作紀錄資料,亦可透過選擇不同的資料探勘子模組以進行紀錄資料分析。
本發明更結合分散式運算裝置和分散式資料庫,以即時進行分散式運算,而額外的快取資料庫,則提供暫存分散式運算裝置的運算結果和相關參數,以提升往後之分析效率。
且本發明可選擇性的利用加解密方法,以將資料加密後再儲存至分散式資料庫,使資料安全性得以確保,並且亦可以於資料處於密文狀態下進行運算,令運算效率更提升。
101‧‧‧使用者設備
102‧‧‧線上網頁伺服器
103‧‧‧線上資料庫伺服器
104‧‧‧管理者設備
105‧‧‧紀錄資料蒐集裝置
106‧‧‧分散式資料庫
107‧‧‧紀錄資料分析模組
108‧‧‧資料探勘主模組
109‧‧‧分散式運算裝置
110‧‧‧快取資料庫
111‧‧‧組合節點裝置
1081‧‧‧最近鄰居探勘子模組
1082‧‧‧多元加權線性迴歸探勘子模組
S201~S208‧‧‧方法步驟
圖1為本發明即時串流紀錄資料分析系統架構圖。
圖2為本發明即時串流紀錄資料含加解密分析之方法的方法步驟圖。
以下將以實施例結合圖式對本發明進行進一步說明,有鑒於對即時而大量資料運算以及分析之需求提升,本發明即提供一種即時串流紀錄資料分析系統,本發明之運作所需整體系統之架構如下,如圖1所示:系統外部的複數個使用者設備101、複數個線上網頁伺服器102、複數個線上資料庫伺服器103以及複數個管理者設備104,以及本發明之系統內部的一紀錄資料蒐集裝置105、複數個分散式資料庫106、一紀錄資料分析模組107、一資料探勘主模組108、複數分散式運算裝置109、一快取資料庫110、以及一組合節點裝置111組成,而資料探勘主模組108更可包含一最近鄰居探勘子模組1081以及一多元加權線性迴歸探勘子模組1082。
其中,本發明之紀錄資料蒐集裝置係可運用Splunk或Logstash等工具實施,其係用以收集線上網頁伺服器和線上資料庫伺服器傳輸而來之紀錄資料。
而本發明之分散式資料庫可結合NoSQL基礎之HBase或MongoDB進行開發,其功能係為可較永久的儲存紀錄資料蒐集裝置傳來的相關紀錄資料。
而本發明分散式運算裝置係運用Hadoop或MongoDB中之MapReduce開發模型以高效地將資料進行分割以及合併,可大幅提升運算分析速度。
另外,本發明更設置有快取資料庫,用以因應即時大量資料運算的負載需求,可同時蒐集各異質資料來源且進行即時分析和運算,並可避免重覆運算並將資料回饋予外部管理者。
更詳細來說,前述本發明之即時串流紀錄資料分 析系統各部分可解釋如下:外部複數使用者設備:所述使用者設備得為個人電腦、平板、智慧型手機、個人數位助理、車載設備等電子裝置,該些裝置可運用設置於其上之的瀏覽器元件(如Internet Explorer、Chrome、Firefox、Safari等瀏覽器)或其他可與網路連線之應用程式以連線至線上網頁伺服器,並透過線上網頁伺服器提出網路服務要求和資訊應用需求。
外部複數線上網頁伺服器:該些線上網頁伺服器可透過微軟Internet Information Services(IIS)、Apache等網頁伺服器元件進行開發,以架設提供多種網路服務功能之網頁提供外部使用者進行操作,線上網頁伺服器可依外部使用者設備傳送來的網路服務要求和資訊應用需求以向線上資料庫伺服器獲取被要求的資料後,再提供相對應的網路服務和資訊至外部使用者設備,而線上網頁伺服器亦會紀錄每個網路服務要求,可依據伺服器元件分別儲存網路服務使用紀錄資料(如IIS Log或Apache Log)且將網路服務使用紀錄資料傳送至紀錄資料蒐集裝置進行解析並儲存。
複數個線上資料庫伺服器:線上資料庫伺服器設備得運用微軟SQL Server、MySQL、Oracle DB、IBM DB2、PostgreSQL等資料庫伺服器元件進行實作開發,並提供各種資料庫操作方法(至少包含有新增、修改、刪除、查詢等)以令線上網頁伺服器得以存取;可接收線上網頁伺服器設備的資料庫操作要求,並依其要求回覆相關資訊。並且針對每個資料庫操作要求進行紀錄,並可分別依不同的資料庫元件產生資料庫操作紀錄,且將資料庫操作紀錄傳送至紀錄資料處理設備進行解析和儲存。
一紀錄資料蒐集裝置:紀錄資料蒐集裝置得運用Splunk、Logstash等紀錄和解析元件進行實作開發,並提供各種紀錄資料解析模組(至少包含有網路服務使用紀錄資料解析模組和資料庫操作紀錄資料解析模組)予使用者使用;其中,網路服務使用紀錄資料解析模組至少有IIS Log或Apache Log解析功能,以解析來自線上網頁伺服器的紀錄;此外,資料庫操作紀錄資料解析模亦包含有微軟SQL Server Log等解析功能,可解析來自線上資料庫伺服器的紀錄;當紀錄資料蒐集裝置解析完成後再依其紀錄格式進行解析後分別儲存至分散式資料庫中;舉一實例來說,可如下表一所示之範例為一IIS Log紀錄資料,紀錄資料蒐集裝置解析此資料,以分別獲取該紀錄資料的紀錄日期為2015-08-18、紀錄時間為09:12:15、客戶端IP為10.144.198.130、伺服器端IP為10.144.192.1、連結埠號為80、要求的網路服務係為”/index.html”、回應狀態碼則為200、客戶端使用瀏覽器為Mozilla/4.0+(compatible;MSIE+5.5;+Windows+2000+Server),紀錄資料蒐集裝置亦可選擇性的具備加密功能,其包含有至少一私密金鑰、至少一公開金鑰、至少一任意整數值,即係解析後再透過上述三者以對資料進行加密後再儲存至分散式資料庫中。
複數個分散式資料庫:分散式資料庫得運用HBase、MongoDB等分散式資料庫元作實作開發,用以儲存及操作巨量資料並可具備叢集互相備援以支援紀錄資料分析和處理;分散式資料庫主要係儲存經紀錄資料蒐集裝置解析後的網路服務使用紀錄和資料庫操作紀錄,並可於分散式運算裝置進行運算分析時持續提供紀錄資料以維持運算進程。
複數個管理者設備:管理者設備得為個人電腦、平板、智慧型手機、個人數位助理等裝置,設備中並有瀏覽器元件(得為Internet Explorer、Chrome、Firefox、Safari等瀏覽器)或其他可連線之應用程式連線至紀錄資料蒐集裝置,並經由紀錄資料蒐集裝置連線至資料探勘主模組,以選擇適合的探勘子模組來指派予分散式運算裝置進行運算,最後,再由組合節點裝置整合運算結果並回傳資料分析模組,由資料分析模組回覆予外部管理者設備。
一紀錄資料分析模組:紀錄資料分析模組得為一具有網路服務的伺服器,可經由網路服務之介面與外部管理者設備、資料探勘主模組、組合節點裝置相介接並傳送及接收資料;紀錄資料分析模組得由管理者以手動或自動方式連線至資料探勘主模組,以並選擇適合的探勘子模組並指派予分散式運算裝置進行運算,以及向組合節點裝置取得運算結果。
一資料主探勘模組:資料探勘主模組亦為一具有 網路服務的伺服器,可經網路服務介面與探勘子模組、分散式運算裝置介接且傳送接收資料,其可包含複數個探勘子模組以供分散式運算裝置進行運算和分析;其中,至少包含有最近鄰居探勘子模組,係以k個最近鄰居法(k-Nearest Neighbors Method)之邏輯進行演算之分散式運算模組,以及多元線性迴歸探勘子模組,係以多元線性迴歸(Multi Factor Line Regression Method)之邏輯進行演算之分散式運算模組,故資料主探勘模組將可依選定之探勘子模組指派給分散式運算裝置進行運算分析。
至少一分散式運算裝置:分散式運算裝置得運用Hadoop、MongoDB等分散式運算元作進行實作開發,並至少包含有複數個節點設備、複數個分散式運算模組以分析巨量資料。其中,節點設備可依紀錄資料分析設備選定之資料探勘模組產生複數個分散式運算模組,並可向分散式資料庫裝置取得紀錄資料,指派予分散式運算模組進行分析;分散式運算模組依選定的探勘子模組分別進行運算和分析紀錄資料。例如,運用Hadoop或MongoDB所提供的MapReduce分散式運算模組分別依指派之探勘子模組依任務執行分散式運算,再將運算結果整合傳送至組合節點裝置,各該分散式運算裝置亦被選擇性的設置有密文計算的功能,可用以對密文狀態的資料進行運算。
至少一快取資料庫:快取資料庫係運用關聯式資料庫或非關聯式資料庫元件以實施,用以儲存分散式運算裝置暫存各個紀錄資料分析運算結果以及相關參數,以加速運算使用;舉例來說,在分散式運算裝置執行最近鄰居探勘子模組之分散運算後,將取得相似度最高的複數筆紀錄資料, 並將各該紀錄資料傳送至快取資料庫以儲存,在往後的運算時可先自快取資料庫中獲取相似度最高的複數筆紀錄資料以比對分析。另舉例來說,若分散式運算裝置執行多元線性迴歸探勘子模組的分散式運算後,可產生線性迴歸模型參數(包含斜率或截距)儲存至快取資料庫,而往後即時運算進程中可利用快取資料庫中所儲存之線性迴歸模型參數,快取資料庫更被寫入新紀錄資料或刪除舊紀錄資料來避免重覆計算之冗時,當可大幅提升整體運算效率。
一組合節點設備:組合節點設備亦為一具有網路服務的伺服器,經由網路服務介面與紀錄資料蒐集裝置、分散式運算裝置介接以傳送接收資料,其擷取分散式運算裝置所產生的各運算結果以整合分析,再將其分析結果回傳予紀錄資料分析模組,另外,組合節點裝置亦可具解密功能,儲存有與紀錄資料蒐集裝置相對應的私密金鑰、公開金鑰以及任意整數值,使其得以對經分散式運算裝置密文計算得出之結果進行解密,解密後提供明文資料回傳至紀錄資料分析模組。
以下所揭露的另一實施例亦係關於本發明之即時串流紀錄資料分析系統,該系統架構中至少包含有一紀錄資料蒐集裝置、複數分散式資料庫、一資料探勘主模組、複數分散式運算裝置、一組合節點設備、以及複數快取資料庫;其中,資料主探勘模組包含有最近鄰居探勘子模組,其得以運用k最近鄰居法進行網路紀錄資料分析之演算以產生定位資訊,其系統運作如下所述。
系統包含一紀錄資料蒐集裝置,用以收集智慧型手機回報之經緯度座標資料(即訓練位置,在實施例中有m個 位置)和基地台訊號強度集合資料,紀錄資料蒐集裝置並紀錄和解析上述資料,其紀錄每個訓練位置(L={l 1,l 2,...,l m })以及訓練位置對應的基地台訊號強度集合資料(c i ={c 1 i ,c 2 i ,...,c n i })於分散式資料庫中;其中,c j i 代表集合中第j個基地台之訊號強度,j=1,…,n(在實施例中設有n個基地台);接著,往後當智慧型手機移動時,智慧型手機可測量及回報其附近的基地訊號強度集合(r={r 1,r 2,...,r n }),並將由系統中資料主探勘模組、分散式運算裝置、快取資料庫以最近鄰居探勘子模組來計算基地訊號強度集合r與分散式資料庫中所有位置及其訊號強度集合交叉比對以估算出智慧型手機當時可能的位置。
系統包含複數分散式資料庫裝置,係用以儲存每個訓練位置(L={l 1,l 2,...,l m })及其對應的基地台訊號強度集合資料(c i ={c 1 i ,c 2 i ,...,c n i });當分散式運算裝置在進行運算和紀錄分析時,分散式資料庫則提供其紀錄資料。
系統更包含一資料主探勘模組,其至少具備一最近鄰居探勘子模組,係用以評估每一個訊號強度集合r之位置loc(r);在本實施例中係應用歐幾里得距離(Euclidean Distance)運算方法,係採用下列公式(1)來將訊號強度集合(r={r 1,r 2,...,r n })與資料庫中的每一個位置l i 及其訊號強度集合(c i ={c 1 i ,c 2 i ,...,c n i })進行距離()之計算,再針對每一個訓練位置同樣進行歐幾里得距離運算,再透過公式(2)找出訊號強度最接近的位置h 1以及其他最接近的共k個位置(即{h 1,h 2,...,h k }),而資料主探勘模組會將最近鄰居探勘子模組指派予分散式運算裝置來執行。
複數分散式運算裝置可以包含有複數個節點設備,而每個節點設備須對應至少一分散式運算模組,分散式運算模組可依資料主探勘模組選定使用之探勘子模組進行運算,在此實施例中,分散式資料庫中共具有m個位置(即有m筆資料需進行比對),故可將此m筆資料均勻分派至每個節點設備再由每個節點設備中的分散式運算模組分別執行最近鄰居探勘子模組,以多工分別取得最接近的共k個位置(即{h 1,h 2,...,h k }),最接近的k個位置資訊將再被傳送至組合節點裝置,以供組合節點裝置運算產生最終之位置資訊。
而就如前所述,組合節點設備可接收來自分散式運算裝置運算所運算資訊以進行整合和產生分析的結果,就此實施例所說,組合節點設備係接收複數個節點設備下之分散式運算模組分別計算所得到之k個位置,再從集合中比對以取得k個絕對接近位置,運用下列公式(3)來產生訊號強度集合(r={h 1,h 2,...,h k })所對應的位置資訊l(r)
複數個快取資料庫主要係用以儲存由分散式運算裝置運算之結果和相關參數以供後續分析可快速取用以提升效率;在此實施例中,快取資料庫將由每個節點設備取得最接近的q×k個位置資訊(其中q×k小於mq為一正整數)及其所對應的基地台訊號集合並儲存起來,若之後須分析相同智慧型手機回報之基地台訊號強度集合時,即可對快取資料庫中最接近的q×k個位置資訊及其對應的基地台訊號集合 進行分析,而不須再重新比對原始之m筆資料。另外,該資料可用以分析智慧型手機移動之速度,例如,當智慧型手機移動速度緩慢抑或靜止時,q值可被設定為極小值(如:1),而當智慧型手機快速移動時,q值可被設定為較大之數值。
以下所揭露的另一實施例亦是本發明之一種即時串流紀錄資料分析系統,該系統架構中至少包含有一紀錄資料蒐集裝置、複數分散式資料庫、一資料探勘主模組、複數分散式運算裝置、一組合節點設備、以及複數快取資料庫;其中,資料主探勘模組包含有最近多元線性迴歸探勘子模組,其得以運用多元線性迴歸模組進行交通紀錄資料分析之演算以產出交通預測資訊,其系統運作如下所述;其中,資料探勘模組裝置至少包含有多元線性迴歸模組,並得以運用多元線性迴歸模組進行交通紀錄資料分析,並且產製交通預測資訊,詳述如下。
系統包含一紀錄資料蒐集裝置,用以收集設置於清潔車上之車載設備回傳之到站時間資訊,並由紀錄資料蒐集裝置解析到站時間資訊以運算產生清潔車途經由站到站之間的旅行時間,例如:欲表示第r筆資料的第i-n-j個清運站到第i-n個清運站間之旅行時間為t r i-n-j,i-n ;紀錄資料蒐集裝置係將如前述計算之每個旅行時間集合儲存至分散式資料庫,以供後續分析之運用。
系統包含複數分散式資料庫裝置,在此實施例中,分散式資料庫係運用HBase、MongoDB等分散式資料庫元件開發,以儲存每個站到站之間的旅行時間。
系統更包含一資料主探勘模組,其至少具備一多元線性迴歸探勘子模組,用以運算產生清潔車由各站到站之 間旅行時間的關聯性(如斜率、截距等);在本實施例中,係以分析歷史資料中的m筆資料來產生k個加權線性迴歸模型(t r i-n-j,i-n )為範例;第i-n個清運點到第i個清運點的預測旅行時間()可以運用多元加權線性迴歸模型(如公式(4)所示)進行運算獲得,在執行階段中主要將會依據第i-n個清運點的前k個清運點到達第i-n個清運點的旅行時間(即{t i-n-1,i-n ,t i-n-2,i-n ,...,t i-n-k,i-n })協同已經過訓練之多元加權線性迴歸模型,以預測第i-n個清運點到第i個清運點的預測旅行時間(如公式(5)所示)。
複數分散式運算裝置可以包含有複數個節點設備,而每個節點設備須對應至少一分散式運算模組,分散式運算模組可依資料主探勘模組選定使用之探勘子模組進行運 算,在此實施例中,因多元加權線性迴歸探勘子模組的模型大多利用加以及乘等運算因子且具結合律之特性,舉例來說可以依照歷史資料m筆之筆數均勻分配任務至各個節點設備,再於每個節點設備中的分散式運算模組分別執行多元加權線性迴歸,或是依待產製之k個加權線性迴歸模型平均分配於各節點設備,各節點設備中之分散式運算模組將分別執行各個多元加權線性迴歸探勘子模組;且在運算完畢之後,分散式運算裝置會將各多元加權線性迴歸模型之斜率(如)、截距(如)、以及權重(如)分別儲存於快取資料庫中以供後續分析使用。
而就如前所述,組合節點設備可接收來自分散式運算裝置運算所得到之資訊並進行整合以產生分析結果;在本實施例中,組合節點設備可接收複數個節點設備分別計算所得出之k個加權線性迴歸模型及其相關參數(即斜率、截距以及權重),再透過公式(5)之方式運算產生第i-n個清運點到第i個清運點的預測旅行時間。
在此實施例中,複數個快取資料庫主要將由各個節點設備計算得出之各個多元加權線性迴歸模型的斜率、截距以及其權重分別儲存於各該快取資料庫當中以作為分析之數據,此外,當後續輸入的資料有異動時,因多元加權線性迴歸模型應主要為加法及乘法運算且可能具結合律等數學特性,故若是搭配快取資料庫中暫存之歷史數據,只需要加入新增的資料或減去被刪除的資料即可快速調整多元加權線性迴歸模型所利用之斜率、截距或權重,而非再費時重新計算 原始的m筆資料以提升效率。
以下所揭露的另一實施例亦是本發明之即時串流紀錄資料分析方法的另一實施例,主要係在原先之即時串流紀錄資料分析系統上增加具備密文計算功能而生的即時串流紀錄資料分析方法,如圖2中所示,此方法主要包含有八步驟,分別為步驟S201:紀錄線上資料步驟、步驟S202:資料加密步驟、步驟S203:存入分散式資料庫步驟、步驟S204:選擇資料探勘子模組步驟、步驟S205:指派工作予分散式運算裝置並進行密文計算步驟、步驟S206:暫存運算結果至快取資料庫步驟、步驟S207:回傳和解密步驟以及步驟S208:顯示結果步驟等八步驟,各步驟之詳細實施內容將敘述在以下實施例中。
步驟S201:紀錄線上資料步驟:紀錄資料蒐集裝置將把外部線上網頁伺服器和外部線上資料庫伺服器的服務要求以及回應紀錄蒐集並儲存至分散式資料庫;例如:車載機1(外部使用者設備)於09:00:00、09:03:20、09:07:00等三時間分別抵達站點1、站點2、站點3;車載機2(外部使用者設備)於10:00:00、10:04:00、10:08:10等時點分別抵達站點1、站點2、站點3;另外,車載機3(外部使用者設備)於11:00:00、11:03:30、11:07:20等三時點分別到達相同的站點1、站點2、站點3;以及,車載機4(外部使用者設備)於12:00:00、12:03:40等兩時點分別抵達站點1、站點2,即如下表二中所示。
下列為表二,表示車載機到站時間:
而當上述四部車載機(外部使用者設備)到達各站點時,將經由中介軟體(例如:RESTful API)回報車載機之位置資訊和時間資訊傳輸至外部線上網頁伺服器和外部線上資料庫伺服器,而紀錄資料蒐集裝置將可對這些位置資訊和時間資訊紀錄進行儲存及分析,以計算出站到站時間之間的旅行時間,舉例來說:車載機1從站點1到站點2的旅行時間(t 1,2)為200秒、從站點2到站點3的旅行時間(t 2,3)為220秒,就如下表三所示。
下列為表三,係用以表示站到站之間的旅行時間(單位:秒):
步驟S202:資料加密步驟:紀錄資料蒐集裝置蒐集到外部線上網頁伺服器和外部線上資料庫伺服器的位置資訊和時間資訊紀錄後,即會透過一加密演算法對資料進行加密;紀錄資料蒐集裝置應計算所站到站之間的旅行時間,再分別計算出t 1,2乘上t 2,3的值以及t 1,2平方的值,以產生到站時間的相關參數值,如表四所示。
下列為表四,呈現到站時間的相關參數值:
資料加密步驟中,接著,紀錄資料蒐集裝置則可運用預設之一私密金鑰p、一公開金鑰q、一任意整數值z等參數值,再通過下列公式(6)對相關參數值進行加密,在本實施例中假設私密金鑰p之值為39,916,801、公開金鑰q之值為112,909、任意整數值z之值則為7,而計算之結果舉例來說:原為明文資料的數值44,000經由參數值及公式加密後可得出密文資料279,461,607,而其它範例結果則整理如下表五所示。
公式(6):f(x)=(x+p×z)mod(p×q),其中,x為原始之相關參數值,mod運算則為以後項之值作為前項之值的除數以取餘數之模除運算。
下列為表五,呈現加密後之相關參數值:
步驟S203:存入分散式資料庫步驟:本發明之紀錄資料蒐集裝置可選擇性地將資料以明文或密文方式儲存至複數分散式資料庫中,而在本實施例中,紀錄資料蒐集裝置係將表五所呈現之加密後的相關參數值儲存至各該分散式 資料庫中,而本發明可在資料庫中儲存密文的功能,是一種有效防範資料庫被侵入或資料被竊取時資料立即外洩之風險的方法。
步驟S204:選擇資料探勘子模組步驟:外部管理者可通過外部管理者設備連線至紀錄資料分析裝置,經由紀錄資料分析設備存取資料探勘主模組,以選擇外部管理者其欲使用的探勘子模組,在此一實施例中,外部管理者係選擇了使用多元線性迴歸子模組,故後續之範例將繼續以多元線性迴歸子模組作為分析和運算之主要工具。
步驟S205:指派工作予分散式運算裝置並進行密文計算步驟:資料探勘主模組可依照外部管理者選擇使用的探勘子模組,以指派複數分散式運算裝置執行運算分析,並由各該分散式運算裝置之下的複數個分散式運算模組對被分配的紀錄資料進行計算,且分散式運算裝置係採可以直接處理密文的方式對密文狀態的紀錄資料進行處理。
其中,各該分散式運算裝置將可依外部管理者所選定之多元線性迴歸子模組,通過前述的公式(4)以及公式(5)等等的運算需求,以其下分屬之複數個分散式運算模組分別進行運算以加總所需之參數值,加總後結果如下表六所示;在本實施例中,係以計算一組迴歸子模組參數a和b舉例說明,但本發明之運用不以此例為限,故各該分散式運算裝置可平行利用各該分散式運算模組來進行大量的迴歸子模組參數運算。
下列為表六,呈現加密後相關參數值之加總:
步驟S206:暫存運算結果至快取資料庫步驟:各該分散式運算裝置運算結果會被暫存至快取資料庫,快取資料庫亦可為複數個,暫存院算結果之目的主要係用以令往後資料分析效率提升;在本實施例中,已加總完車載機1、車載機2、車載機3的資料,而這加總結果將被暫存至快取資料庫裝置,後續若需使用時可直接套用加總結果,並不需要再重新加總車載機1、車載機2、車載機3的資料,當可節省許多時間。
步驟S207:回傳和解密步驟:各該分散式運算裝置將把運算完結果回傳至組合節點裝置,並由組合節點裝置以與加密方式相同之參數值將密文資料進行解密並整合為分析結果。當組合節點設備收到分散式運算裝置運算結果後,得運用與紀錄資料處理設備相同之一私密金鑰p、一公開金鑰q、一任意整數值z,運用公式(7)進行解密,在此實施例中設定私密金鑰p為39,916,801、公開金鑰q為112,909、任意整數值z為7。如:加總後結果之密文838,405,121經由解密後得到明文為152,300,整理如表七所示。
公式(7):g(x)=(x)mod(p),其中mod亦為模除運算。
下列為表七,呈現解密後相關參數值之加總:
而透過上表七所示之解密後的加總資料以及已知的資料筆數3筆(m=3),可運用前述公式(4)分別計算出a和b參數,如下列計算式(8)所示,而後透過下列計算式(9)以預測計算車載機4從站點2到站點3所需的旅行時間,其結果 估計約為236秒,故推知車載機4到達站點3的預測到站時間應為12:07:36。
步驟S208:顯示結果步驟:組合節點裝置將運算結果傳送至紀錄資料分析模組,再由紀錄資料分析模組通知外部管理者設備以於外部管理者設備上呈現本次分析結果;而本實施例中,當組合節點裝置計算出預測結果後,會將預測結果傳送至紀錄資料分析模組,再由紀錄資料分析模組通知外部管理者設備,以於外部管理者設備上呈現出車載機4到達站點3的預測到站時間為12:07:36給外部管理者知悉。
綜上所述,本發明於技術思想上實屬創新,也具備先前技術不及的多種功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出專利申請,懇請 貴局核准本件發明專利申請案以勵發明,至感德便。

Claims (6)

  1. 一種即時串流紀錄資料分析系統,其包含:一紀錄資料蒐集裝置,與外部線上網頁伺服器或外部線上資料庫伺服器連結,並依據格式解析被儲存於外部線上網頁伺服器或外部線上資料庫伺服器中的外部複數使用者透過各自使用者設備發出之網路服務要求以及被回覆紀錄;複數分散式資料庫,係用以儲存經該紀錄資料蒐集裝置解析後之使用者網路服務要求與回覆紀錄;一快取資料庫,係用以提供快速先行暫存以加速運算進程之設備;一資料探勘主模組,包含有複數個探勘子模組且個別提供模組化的相異演算法和演算邏輯用以進行運算和分析;一紀錄資料分析模組,與外部管理者設備連結,該紀錄資料分析模組係由管理者操控或自主連線至該資料探勘模組裝置並選定合適的探勘子模組,並指派進行運算任務之設備;至少一分散式運算裝置,各該分散式運算裝置自各該分散式資料庫獲取使用者網路服務要求與回覆紀錄並依據被該紀錄資料分析模組所選定的探勘子模組以及被指派之運算任務以分派給其內部運算模組分別執行,並將所獲取之運算及分析計算結果暫存於該快取資料庫;以及一組合節點裝置,自該分散式運算裝置中之各該節點設備以及各該分散式運算模組擷取並整合產生一分析結果,再將該分析結果回傳紀錄資料分析模組,其中該紀錄資料蒐集裝置將通過至少一私密金鑰、一公開金鑰以及一任意整數值來對網路服務要求以及回覆紀錄資料進行加密,且加密的公式如下:f(x)=(x+p*z)mod(p*q)其中x為被加密的資料、p為該私密金鑰、q為該公開金鑰、z為該任意整數值、f(x)為經加密過的該x且mod( )為以後項之值作為前項之值的除數以取餘數的模除運算,而各該分散式運算裝置則直接對密文狀態之網路服務要求以及回覆紀錄資料進行計算並產生運算結果,該組合節點裝置具備相對應之各該私密金鑰、該公開金鑰以及該任意整數值對該分析結果進行解密,且解密的公式如下:g(x)=(x)mod(p)其中g(x)為解密過的該f(x)。
  2. 如申請專利範圍第1項所述之即時串流紀錄資料分析系統,其中該資料探勘主模組更包含:一最近鄰居探勘子模組,係以k最近鄰居法(k-Nearest Neighbors Method)之邏輯進行演算之分散式運算模組;以及一多元線性迴歸探勘子模組,係以多元線性迴歸(Multi Factor Line Regression Method)之邏輯進行演算之分散式運算模組。
  3. 如申請專利範圍第1項所述之即時串流紀錄資料分析系統,其中各該分散式運算裝置更各自包含:複數節點設備,依據該紀錄資料分析模組選定之探勘子模組指派給複數個分散式運算模組,複數節點設備並向各該分散式資料庫獲取紀錄資料且進行分派,其中,各該分散式運算模組依據探勘子模組之運算進程進行運算及分析紀錄資料。
  4. 一種即時串流紀錄資料分析方法,其步驟包含:紀錄線上資料步驟:一紀錄資料蒐集裝置將自外部線上網頁伺服器和外部線上資料庫伺服器中蒐集並儲存外部複數使用者發出之網路服務要求以及回覆紀錄;存入分散式資料庫步驟:紀錄資料蒐集裝置將前述網路服務要求以及回覆紀錄儲存至複數分散式資料庫;選擇資料探勘模組步驟:外部管理者與一紀錄資料分析模組連結,以經由該紀錄資料分析模組對一資料探勘主模組進行請求自複數探勘子模組中選擇以使用;指派工作予分散式運算裝置步驟:該資料探勘探勘主模組將按照外部管理者選擇的探勘子模組以指派複數分散式運算裝置對使用者網路服務要求與回覆紀錄進行運算;暫存至快取資料庫裝置步驟:各該分散式運算裝置產出之運算結果將被暫存至一快取資料庫,以備未來分析使用;以及回傳與顯示運算結果:與各該分散式運算裝置連結之一組合節點裝置將運算結果整合成一分析結果,並透過該紀錄資料分析模組傳輸至外部管理者設備以呈現該分析結果予外部使用者,其中更包含下列步驟:該紀錄資料蒐集裝置通過至少一私密金鑰、一公開金鑰以及一任意整數值來對網路服務要求以及回覆紀錄資料進行加密,且加密的公式如下:f(x)=(x+p*z)mod(p*q),其中x為被加密的資料、p為該私密金鑰、q為該公開金鑰、z為該任意整數值、f(x)為經加密過的該x且mod( )為以後項之值作為前項之值的除數以取餘數的模除運算;各該分散式運算裝置則直接對密文狀態之網路服務要求以及回覆紀錄資料進行計算並產生運算結果;以及該組合節點裝置具備相對應之各該私密金鑰、該公開金鑰以及該任意整數值對該分析結果進行解密,且解密的公式如下:g(x)=(x)mod(p),其中g(x)為解密過的該f(x)。
  5. 如申請專利範圍第4項所述之即時串流紀錄資料分析方法,其中該資料探勘主模組更包含:一最近鄰居探勘子模組,係以k最近鄰居法(k-Nearest Neighbors Method)之邏輯進行演算之分散式運算模組;以及一多元線性迴歸探勘子模組,係以多元線性迴歸(Multi Factor Line Regression Method)之邏輯進行演算之分散式運算模組。
  6. 如申請專利範圍第4項所述之即時串流紀錄資料分析方法,其中各該分散式運算裝置更各自包含:複數節點設備,依據該紀錄資料分析模組選定之探勘子模組指派給複數個分散式運算模組,複數節點設備並向各該分散式資料庫獲取紀錄資料且進行分派,其中,各該分散式運算模組依據探勘子模組之運算進程進行運算及分析紀錄資料。
TW105112081A 2016-04-19 2016-04-19 即時串流紀錄資料分析系統與方法 TWI636369B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW105112081A TWI636369B (zh) 2016-04-19 2016-04-19 即時串流紀錄資料分析系統與方法
CN201610645282.XA CN107305583B (zh) 2016-04-19 2016-08-09 实时串流纪录数据分析系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105112081A TWI636369B (zh) 2016-04-19 2016-04-19 即時串流紀錄資料分析系統與方法

Publications (2)

Publication Number Publication Date
TW201738776A TW201738776A (zh) 2017-11-01
TWI636369B true TWI636369B (zh) 2018-09-21

Family

ID=60150389

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105112081A TWI636369B (zh) 2016-04-19 2016-04-19 即時串流紀錄資料分析系統與方法

Country Status (2)

Country Link
CN (1) CN107305583B (zh)
TW (1) TWI636369B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI655549B (zh) * 2017-12-28 2019-04-01 李耀庭 分散式運算系統
CN110175157B (zh) * 2019-04-24 2023-10-03 平安科技(深圳)有限公司 一种列存储文件的查询方法及查询装置
TWI719488B (zh) * 2019-05-23 2021-02-21 核桃運算股份有限公司 具有一使用者介面之資料追蹤裝置、方法及其電腦程式產品
CN110570255A (zh) * 2019-09-16 2019-12-13 山东浪潮通软信息科技有限公司 一种基于dmp的多源系统的市场需求数据实时分析的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104426973B (zh) * 2013-09-03 2018-03-23 中国移动通信集团公司 一种云数据库加密方法、系统及装置
CN103870591B (zh) * 2014-03-28 2017-04-12 武汉聪源科技有限责任公司 用于针对空间数据进行并行空间分析服务的方法及系统
CN104519140A (zh) * 2015-01-08 2015-04-15 浪潮(北京)电子信息产业有限公司 一种分布式并行计算的服务器系统及其管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Also Published As

Publication number Publication date
CN107305583A (zh) 2017-10-31
TW201738776A (zh) 2017-11-01
CN107305583B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
Hui et al. A novel secure data transmission scheme in industrial internet of things
US10560465B2 (en) Real time anomaly detection for data streams
Jiang et al. Energy big data: A survey
Wenxiu et al. Privacy-preserving data processing with flexible access control
CN112434313A (zh) 数据共享方法、系统、电子设备及存储介质
TWI636369B (zh) 即時串流紀錄資料分析系統與方法
Gahi et al. A secure database system using homomorphic encryption schemes
Yu et al. Toward data security in edge intelligent IIoT
CN113515760A (zh) 横向联邦学习方法、装置、计算机设备和存储介质
CN102314580A (zh) 一种基于向量和矩阵运算的支持计算的加密方法
US20190050435A1 (en) Object data association index system and methods for the construction and applications thereof
CN112508733A (zh) 一种基于北斗的电网时空大数据智能服务系统
CN115664629A (zh) 一种基于同态加密的智慧物联平台数据隐私保护方法
KR102040782B1 (ko) 서버 로그들로부터의 식별자들을 연결하기 위한 브리지 매치 식별자들 생성
CN116933299B (zh) 一种税电数据安全融合方法、税电节点、设备及介质
Bereş et al. A brief survey on smart grid data analysis in the cloud
CN112202919B (zh) 一种云存储环境下的图片密文存储、检索方法及系统
CN113505260A (zh) 人脸识别方法、装置、计算机可读介质及电子设备
Sultanov et al. Development of a centralized system for data storage and processing on operation modes and reliability indicators of power equipment
CN110071966A (zh) 基于云平台的区块链组网及数据处理方法
Xiao Compensation method of electronic commerce data transmission delay based on fuzzy encryption algorithm
CN113810475A (zh) 一种基于大数据架构的Wifi探针设备管控系统
CN112258373A (zh) 一种数据处理的方法和装置
Damayanti et al. Big Data Security Approach in Cloud
Alarabi et al. Two Level Based Privacy Protection Approach for Internet of Things Users in Cloud Computing