TWI569165B - The method of grouping external sites through proxy logs - Google Patents

The method of grouping external sites through proxy logs Download PDF

Info

Publication number
TWI569165B
TWI569165B TW104130244A TW104130244A TWI569165B TW I569165 B TWI569165 B TW I569165B TW 104130244 A TW104130244 A TW 104130244A TW 104130244 A TW104130244 A TW 104130244A TW I569165 B TWI569165 B TW I569165B
Authority
TW
Taiwan
Prior art keywords
log data
website
collection
external
analysis module
Prior art date
Application number
TW104130244A
Other languages
English (en)
Other versions
TW201710940A (zh
Inventor
Chien Chih Chen
Kai Fong Hong
Tzung Han Jeng
guang-hong Zhang
Kuo Sen Chou
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW104130244A priority Critical patent/TWI569165B/zh
Application granted granted Critical
Publication of TWI569165B publication Critical patent/TWI569165B/zh
Publication of TW201710940A publication Critical patent/TW201710940A/zh

Links

Description

通過代理日誌對外部網站分群之方法
本發明有關於一種通過代理日誌對外部網站分群之方法,特別是有關於一種收集代理伺服器的日誌資料,找出外部網站彼此之間關聯再進行分群以偵測惡意網站的方法。
進階持續性威脅(Advanced Persistent Threat,APT)係一種網路的威脅類型,其可以長時間潛伏於網路或是系統中以達成其目的(常為盜竊資料)且難以偵測,自趨勢2013的APT白皮書中,可以瞭解約有百分之八十的受駭組織幾乎無法察覺自身已遭受攻擊,更有許多高科技產業平均花上近一年才會察覺到攻擊,而此時企業可能已完全遭受掌控,因此可以了解若僅依靠一般的資安解決方案將難以處理APT的問題。
若要追本溯源的處理APT問題,首先必須了解APT的入侵方式,彙整各防護軟體如McAfee、RSA、Symantec所蒐集而來的資料,駭客針對特定對象實施的APT攻擊手法大致上可分為七個步驟:(1)偵查(Reconnaissance):駭客研究並選擇目標,例如搜尋攻擊目標網站的電子郵件地址、社交網路關係或是其他特定資訊等等資訊;(2)武裝 (Weaponization):駭客利用自動化工具將木馬程式(Trojan)和弱點攻擊程式結合並放置於可傳遞的載具內,例如PDF或Word文件檔案;(3)傳遞(Delivery):駭客將武器傳輸至攻擊目標環境,最普遍的武器載具運送方法為通過電子郵件附件、網站或USB儲存的媒體;(4)弱點攻擊(Exploitation):弱點攻擊通常針對應用程式或作業系統之弱點,但也可以利用使用者本身或作業系統自動執行程式的特性;(5)植入後門程式(Installation):植入後門程式以設法取得管理者之帳號、密碼及權限後,針對橫向未受攻擊的網路系統,潛伏取得其他重要人士之帳號密碼;(6)安裝C&C可遠端控制工具(Command and Control):安裝遠端下指令之工具,用以盜竊密碼、存取電子郵件、修改運行之程式,利用通道(Tunnel)或木馬程式(Trojan)將攻擊目標的內網資訊向外傳輸;(7)持續監控並完成任務(Action on Objectives):持續掌控資料庫伺服器或是主機,並持續盜竊資料向外傳輸。
由上述APT的攻擊步驟中,可以發現通過監控不同日誌紀錄,找出異常的活動行為為有效偵測APT的關鍵,所以對於資安領域的技術人員,如何有效率的處理巨量日誌資料並挖掘出可疑的惡意行為,是亟需解決之問題。
本發明提出一種通過代理日誌對外部網站分群之方法,利用惡意程式會透過相同的用戶代理連結到一個以上外部網站的特性,找到外部網站彼此間關聯再進行分群。本發明收集代理伺服器的日誌資料後,先過濾掉常見網路程式所用的用戶代理再進一步分群以偵測惡意網站。
本發明主要是利用TF-IDF(Term Frequency-Inverse Document Frequency)之概念,將字串(Term)置換成用戶代理(User Agent),將文件(Document)置換成由客戶端IP(Client IP)與終端IP(Destination Host IP)組成的頻道(channel),以此發想,並定義出一個UF-ICF(User Agent Frequency-Inverse Channel Frequency)的機制,用以過濾常見網路程式的用戶代理(User Agent)紀錄,保留篩選出有較大機率疑為惡意程式留下之紀錄,以達偵測惡意程式之目的。
本發明之通過代理日誌對外部網站分群之方法主要包含以下步驟:首先,一網站分析模組對一代理伺服器中儲存之至少一原始日誌資料進行存取,而該網站分析模組根據一過濾演算法對該至少一原始日誌資料內容進行過濾,以將該些原始日誌資料內容當中常規之網路程式用戶代理紀錄篩去,並將其餘內容產生一初步日誌資料;該網站分析模組再來根據一格式演算法將該初步日誌資料分群以產生一分群日誌資料,所述的格式演算法是該網站分析模組通過映射歸納(MapReduce)的架構,先把該些初步日誌資料中的客戶端IP(Client IP)和用戶代理(user-agent)作為鍵(key),把終端IP(Destination Host IP)作為值(value),以將該些初步日誌資料依據映射歸納當中的鍵和值進行對應分群,產生該外部網站集合資料;最後,該網站分析模組根據一聯集查找演算法分析該外部網站集合資料,以找出該外部網站集合中之不相交集合,產生一惡意網站分群資料。
而前述的該過濾演算法係表示為u i f i ×icf i ,而其中的 ,式中n i,j 係為該至少一原始日誌資料中一用戶代理(user-agent)i於由客戶端IP(Client IP)加上終端IP(Destination Host IP)組成的一頻道(channel)j中出現的連線次數,係為頻道j中所有用戶代理的總連線次數,而其中另外的 ,式中的|C|係為該些原始日誌資料內容由客戶端IP加上終端IP組成的頻道總數,其中|{j:u i cj}|係為所有包含用戶代理u i 的頻道總數。
前述本發明之通過代理日誌對外部網站分群之方法,該聯集查找演算法再包含有下列的步驟:首先,該網站分析模組以該外部網站集合資料中各集合內的元素為單位,找出各集合彼此間有無交集,若是集合間有交集,將有交集的集合併入一個集合,若沒有,則該些集合維持原集合,再來,該網站分析模組判斷經過合併步驟後的集合是否為與其他集合不相交的集合,若是,將該些集合篩選出來,產生該惡意網站分群資料,剩餘的集合則回到合併步驟再次執行,如此反覆執行以達本發明根據日誌資料的內容,找出惡意網站分群的功效,本發明係透過映射歸納(MapReduce)來實現聯集查找演算法,包含以下三個大步驟,分別為:選取(Elect)、分割(Partition)以及輸出(Emit),輸出的就是惡意網站資料。
A‧‧‧攻擊者
B‧‧‧攻擊者
C‧‧‧分析者
1‧‧‧控制伺服器
2‧‧‧控制伺服器
3‧‧‧控制伺服器
4‧‧‧控制伺服器
5‧‧‧殭屍電腦
6‧‧‧殭屍電腦
7‧‧‧殭屍電腦
8‧‧‧監控系統
9‧‧‧分群系統
S201~S203‧‧‧步驟流程
S301~S303‧‧‧步驟流程
圖1為本發明通過代理日誌對外部網站分群之方法中解釋惡意程式與中繼站相關性的示意圖。
圖2為本發明通過代理日誌對外部網站分群之方法實施流程圖。
圖3為本發明通過代理日誌對外部網站分群之方法中實施聯集查找演算法的流程圖。
圖4係為一代理伺服器日誌資料的範例示意圖。
圖5係為該代理伺服器日誌資料經過濾演算法篩去結果之實施範例示意圖。
圖6係該代理伺服器日誌資料經過格式演算法分群的實施範例示意圖。
圖7係該代理伺服器日誌資料經過聯集查找演算法中的選取步驟處理的實施範例示意圖。
圖8係該代理伺服器日誌資料經過聯集查找演算法中的分割及輸出步驟處理的實施範例示意圖。
為了使本發明的目的、技術方案及優點更加清楚明白,下面結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,但並不用於限定本發明。
圖1係為本發明通過代理日誌對外部網站分群之方法中用以解釋惡意程式與中繼站相關性的示意圖,因為惡意程式不僅只會連結到一個外部網站,且會用相同的用戶代理重複或週期性的訪問該些外部網站,而本發明的網站分析 模組於收集代理伺服器的日誌資料後,通過分群方式後將能從該些日誌資料中擷取出可能惡意網站資訊,以達到偵測惡意網站的效果,圖1中攻擊者A通過控制伺服器1、控制伺服器2連結到公司內網裡的殭屍電腦5,而攻擊者B通過制伺服器3、控制伺服器4分別連結到公司內網裡的殭屍電腦6、殭屍電腦7,該些殭屍電腦會重複或週期性的訪問該些控制伺服器,而監控系統8透過Proxy伺服器獲取並儲存了內網中的代理日誌資料,而分群系統9係為本發明用以分群分析該些代理日誌資料,而公司內的分析者C即可依據分析結果做出相應處理。
以下將以一個代理伺服器的日誌範例做為本發明之最佳實施例,並對本發明之步驟實施細節解說。
圖2係為本發明通過代理日誌對外部網站分群之方法實施流程圖,首先,步驟S201過濾掉代理伺服器日誌中常見網路程式的用戶代理紀錄,意在須處理之資料數量龐大,故首先進行顯而易見非來自惡意程式外部網站資料篩除的動作,再來,通過步驟S202將過濾後的代理伺服器日誌資料轉換成外部網站集合的格式,最後,步驟S203找到外部網站集合間的不相交集合。
請參照圖3,係為本發明通過代理日誌對外部網站分群之方法中實施聯集查找演算法的流程圖,首先,步驟S301以集合內的元素為單位,找到集合彼此間的交集,並將該些有交集的集合合併為一個集合,且將大小超過預設值的集合篩除,此步驟旨在將有關聯的集合歸納在一起,同時將大小已經超過預設值,亦即為惡意程式外部網站的機率微小的集合篩選出來除去,再來,步驟S302將判斷為不相交集合 的集合獨立篩選出來,並將餘下的的有交集的集合再次送往部S301篩選,最後,步驟S303重複進行步驟S301與S302直到所有集合被篩除或獨立篩選出來,即完成本發明之通過代理日誌對外部網站分群之方法,將高可能為利用惡意程式潛伏的外部網站分群出來。
請參照圖4,係為一代理伺服器日誌資料的範例示意圖,將其作為本發明所述代理伺服器中儲存之原始日誌資料,首先步驟S201時該網站分析模組通過該過濾演算法對該原始日誌資料過濾,首先計算該原始日誌資料中每一筆紀錄的UF-ICF(User Agent Frequency-Inverse Channel Frequency)值,並根據設定保留UF-ICF大於某固定值之紀錄;舉例來說,請參閱圖4中時間戳(Timestamp)10004的紀錄,該筆紀錄之用戶代理(user agent)係為malicious_2,而該筆紀錄之中由客戶端IP(Client IP)與終端IP(Destination Host IP)組成的頻道(channel)為10.10.10.2-CnC3;而整組資料集總共有14個由客戶端IP與終端IP組成的頻道,malicious_2在其中兩個頻道上留有紀錄,故根據演算法計算malicious_2的ICF=log(14/2),結果約略為0.85;另外,整組資料集中10.10.10.2-CnC3頻道的紀錄只有兩筆,其中的用戶代理分別為malicious_2以及api_captcha,故malicious_2在10.10.10.2-CnC3這個頻道的UF=1/(1+1),結果係為0.5,所以此筆紀錄的UF-ICF之值根據演算法計算為0.85×0.5=0.425。
再請參閱圖5,係為圖4之原始日誌資料經演算法篩去結果之示意圖,其中UF、ICF和UF-ICF欄位係為整個原始日誌資料集計算後之結果值,在本實施例中用以過濾 的預設值為0.2,故本發明之網站分析模組處理後將只保留UF-ICF大於0.2的紀錄,灰底色部分係為被過濾掉的紀錄,而保留下UF-ICF大於0.2的紀錄即為初步日誌資料。
請參閱圖6,接著係為本發明之步驟S202實施,網站分析模組透過MapReduce的架構根據一格式演算法將該初步日誌資料分群,即為將日誌資料中的客戶端IP跟用戶代理作為鍵(key),終端IP作為值(value)即可產生外部網站的集合,產生分群日誌資料,如圖6中根據{(key),(value)}之對應關係的四組分群日誌資料,分別為{(10.10.10.1 malicious_1),(CnC1,CnC2)}、{(10.10.10.2 malicious_2),(CnC2,CnC3)}、{(10.10.10.4 evil_1),(CnC4,CnC5)}以及{(10.10.10.5 evil_2),(CnC4,CnC6)}。
最後步驟203再對圖6中的值(value)集合{(CnC1,CnC2),(CnC2,CnC3),(CnC4,CnC5),(CnC4,CnC6)}實行聯集查找演算法,即可得到(CnC1,CnC2,CnC3)跟(CnC4,CnC5,CnC6)兩個集合的分群結果。
本發明透過MapReduce來實現聯集查找演算法,包含以下三個大步驟,分別為:選取(Elect)、分割(Partition)以及輸出(Emit)。在選取(Elect)過程中,首先是映射(Map)階段,取集合中最小的物件來代表集合R,並輸出成<R,物件集合>跟<物件,R>的鍵對應值(key:value)資料;經過下一個排序(Shuffle)階段由Map階段輸出的鍵對應值(key:value)資料依據其中的鍵(key)作排序整理,再輸出至下一個歸納(Reduce)階段;歸納階段透過MapReduce的架構將相同鍵的資料放在同一個reducer上,透過此步驟可以找到集合間的交集,因此在歸納階段將可以對各集合做聯集之處理,以圖7 中CnC4代表的集合為例,在歸納階段有「CnC4:CnC4,CnC5」,「CnC4:CnC4」,「CnC4:CnC4,CnC6」跟「CnC4:CnC4」等資料,針對這些資料做聯集之輸出結果即為「CnC4:CnC4,CnC5,CnC6」。
接著,經過選取(Elect)的完整MapReduce工作輸出的結果,將作為MapReduce下一個分割(Partition)步驟的輸入值。在分割(Partition)過程中,首先的Map階段將針對只有集合中只有單一物件的<key,value>資料置換為<value,key>之格式;再來同樣經過下一個排序(Shuffle)階段將由映射(Map)階段輸出的value,key資料依據鍵(key)排序整理,再輸出至下一個歸納(Reduce)階段;而在歸納(Reduce)階段,該集合中除了代表集合的物件外,其餘物件都於排序整理完的value,key資料內出現兩次且僅出現兩次,根據數學邏輯可判斷此集合不與其他集合相交,係為不相交集合。以圖8中CnC4代表的集合為例,在歸納(Reduce)階段CnC5跟CnC6皆剛好出現兩次,故判定集合「CnC4,CnC5,CnC6」為不相交集合。而分割(Partition)步驟的歸納(Reduce)階段,最後將未判定為不相交集合的集合資料,送回選取(Elect)步驟的MapReduce階段再重新做交集的判斷,至於已判定為不相交集合的部分(例如圖8中CnC4代表的集合),則為輸出(Emit)步驟的輸出結果。
本發明所提供之通過代理日誌對外部網站分群之方法,與其他先前技術相互比較時,更具備下列優點:
1.本發明提出的方法具有極佳延展性,在企業內日誌資料巨量增加的資料量中,僅須通過增加硬體設備並使用本方法即可簡單延展功能,持續進行惡意網 站分析。
2.本發明所提出之方法係利用客戶端IP跟用戶代理等資訊與外部網站間關聯對日誌資料進行分析,不會有先前技術中所需偵測查詢程序(query)等容易加密隱藏的資訊造成偵測不易的狀況。
上列詳細說明乃針對本發明之最佳實施例進行具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
綜上所述,本發明於技術思想上實屬創新,也具備先前技術不及的多種功效,已充分符合新穎性及進步性之法定發明專利要件,爰依法提出專利申請,懇請 貴局核准本件發明專利申請案以勵發明,至感德便。
S201~S203‧‧‧步驟流程

Claims (3)

  1. 一種通過代理日誌對外部網站分群之方法,其包含以下步驟:一網站分析模組對一代理伺服器中儲存之至少一原始日誌資料進行存取;該網站分析模組根據透過基於UF-ICF機制之一過濾演算法對該些原始日誌資料內容進行過濾,以將該至少一原始日誌資料內容當中常規之網路程式的用戶代理紀錄篩去,並根據其餘內容產生一初步日誌資料;該網站分析模組根據一格式演算法將該初步日誌資料依內容分群以產生一外部網站集合資料,該格式演算法係為該網站分析模組通過映射歸納(MapReduce)之架構,將該初步日誌資料內容中的客戶端IP(Client IP)和用戶代理(user-agent)作為鍵(key),且以該初步日誌資料內容中終端IP(Destination Host IP)作為值(value),以將該初步日誌資料依據鍵和值進行映射歸納架構的排序以產生該外部網站集合資料;以及該網站分析模組根據一聯集查找演算法分析該外部網站集合資料,找出該外部網站集合資料中之不相交集合以產生一惡意網站分群資料。
  2. 如申請專利範圍第1項所述之通過代理日誌對外部網站分 群之方法,其中該過濾演算法係為u i f i ×icf i ,其中 ,其中n i,j 係為該至少一原始日誌資料中一用戶代理(user-agent)i出現於由客戶端IP(Client IP)加上終端IP(Destination Host IP)組成的一頻道(channel)j中的連線次數,係為頻道j中所有用戶代理的總連線次數,其中 ,其中|C|係為該些原始日誌資料內容由客戶端IP加上終端IP組成的頻道總數,其中|{j:u i c i }|係表示所有包含用戶代理i的頻道總數量。
  3. 如申請專利範圍第1項所述之通過代理日誌對外部網站分群之方法,其中該聯集查找演算法包含以下步驟:該網站分析模組以該外部網站集合資料中各集合內的元素為單位,以找出各集合彼此間有無交集,若有交集,將有交集的集合合併為同一個集合,若無,維持原集合;以及該網站分析模組判斷經過合併步驟後的集合是否為與其他集合不相交的集合,若是,將該些經合併步驟判斷為與其他集合不相交之集合篩選出來,產生該惡意網站分群資 料,剩餘的集合則回到合併步驟再次執行。
TW104130244A 2015-09-14 2015-09-14 The method of grouping external sites through proxy logs TWI569165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW104130244A TWI569165B (zh) 2015-09-14 2015-09-14 The method of grouping external sites through proxy logs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104130244A TWI569165B (zh) 2015-09-14 2015-09-14 The method of grouping external sites through proxy logs

Publications (2)

Publication Number Publication Date
TWI569165B true TWI569165B (zh) 2017-02-01
TW201710940A TW201710940A (zh) 2017-03-16

Family

ID=58608161

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104130244A TWI569165B (zh) 2015-09-14 2015-09-14 The method of grouping external sites through proxy logs

Country Status (1)

Country Link
TW (1) TWI569165B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW548555B (en) * 2001-12-11 2003-08-21 Ind Tech Res Inst Web-page proxy using workgroup to improve performance and method thereof
TW201118589A (en) * 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages
WO2014133489A1 (en) * 2013-02-27 2014-09-04 Hewlett-Packard Development Company, L.P. Data synchronization
US20150033285A1 (en) * 2011-10-24 2015-01-29 International Business Machines Corporation Non-intrusive method and apparatus for automatically dispatching security rules in cloud environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW548555B (en) * 2001-12-11 2003-08-21 Ind Tech Res Inst Web-page proxy using workgroup to improve performance and method thereof
TW201118589A (en) * 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages
US20150033285A1 (en) * 2011-10-24 2015-01-29 International Business Machines Corporation Non-intrusive method and apparatus for automatically dispatching security rules in cloud environment
WO2014133489A1 (en) * 2013-02-27 2014-09-04 Hewlett-Packard Development Company, L.P. Data synchronization

Also Published As

Publication number Publication date
TW201710940A (zh) 2017-03-16

Similar Documents

Publication Publication Date Title
JP7274535B2 (ja) ネットワークデータ特性評価のシステムと方法
JP6894003B2 (ja) Apt攻撃に対する防御
US11068588B2 (en) Detecting irregularities on a device
US10530789B2 (en) Alerting and tagging using a malware analysis platform for threat intelligence made actionable
US10885393B1 (en) Scalable incident-response and forensics toolkit
JP6522707B2 (ja) マルウェアに対処するための方法及び装置
US11785040B2 (en) Systems and methods for cyber security alert triage
US20180124082A1 (en) Classifying logins, for example as benign or malicious logins, in private networks such as enterprise networks for example
US6742128B1 (en) Threat assessment orchestrator system and method
CN109495443B (zh) 一种基于主机蜜罐对抗勒索软件攻击的方法和系统
Noor et al. A machine learning framework for investigating data breaches based on semantic analysis of adversary’s attack patterns in threat intelligence repositories
AU2020213347A1 (en) Systems and methods for remote identification of enterprise threats
EP3851987A1 (en) Security sharing system
CA3017942A1 (en) Multi-host threat tracking
Kaur et al. Automatic attack signature generation systems: A review
EP3531324B1 (en) Identification process for suspicious activity patterns based on ancestry relationship
US20140344931A1 (en) Systems and methods for extracting cryptographic keys from malware
Meng et al. Adaptive non-critical alarm reduction using hash-based contextual signatures in intrusion detection
US10735457B2 (en) Intrusion investigation
Kara Cyber-espionage malware attacks detection and analysis: A case study
Wen et al. Detecting and predicting APT based on the study of cyber kill chain with hierarchical knowledge reasoning
TWI569165B (zh) The method of grouping external sites through proxy logs
Jaya et al. Dynamic Ransomware Detection for Windows Platform Using Machine Learning Classifiers
Najafi et al. NLP-based Entity Behavior Analytics for Malware Detection
Chu CCNA Cyber Ops SECOPS–Certification Guide 210-255: Learn the skills to pass the 210-255 certification exam and become a competent SECOPS associate

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees