TWI811545B

TWI811545B - 域名系統中惡意域名的偵測方法與偵測裝置

Info

Publication number: TWI811545B
Application number: TW109116347A
Authority: TW
Inventors: 黃瓊瑩; 曾奕中; 孫明功; 蔡東霖
Original assignee: 安碁資訊股份有限公司
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-08-11
Also published as: TW202145760A; US11956261B2; US20210360013A1; CN113691491A; EP3913888A1

Abstract

一種域名系統(Domain Name System, DNS)中惡意域名的偵測方法與偵測裝置。所述方法包括：獲得電子裝置的網路連線資料；從所述網路連線資料中擷取與至少一域名有關的日誌資料；分析所述日誌資料以產生與所述至少一域名有關的至少一數值特徵；將所述至少一數值特徵輸入至多類型預測模型，其包括第一類資料模型與第二類資料模型；以及由所述多類型預測模型根據所述至少一數值特徵預測所述至少一域名中是否存在與惡意程式或釣魚網站有關的惡意域名。

Description

域名系統中惡意域名的偵測方法與偵測裝置

本發明是有關於一種資訊安全技術，且特別是有關於一種域名系統(Domain Name System, DNS)中惡意域名的偵測方法與偵測裝置。

網域名稱(亦稱為域名)系統是網際網路的一項服務，其可作為將域名與網際網路協定(Internet Protocol, IP)位址相互對映的一個分散式資料庫，使人們更方便地存取網際網路。然而，由於域名本身的成長速度太快，每天都有數以萬計的域名產生，而這些域名除了大量且正常使用的網域名稱(亦稱為良性域名)外，同時也會有被用來進行具有危害行為的域名(亦稱為惡意域名。其中惡意域名稱常用於釣魚(Phishing)攻擊與惡意程式(Malware)之散播。釣魚網站通常是指會偽裝成銀行網站、線上購物或是儲存個人重要資訊的網站等類型的非官方網站，它試圖誘騙用戶在釣魚網站中輸入的用戶的真實帳號和密碼，藉此取得該用戶在該網站的存取權限。在攻擊成功後將對該用戶的個人隱私和財產造成一定的威脅、衝擊與傷害。此外，若惡意程式被安裝至用戶電腦，則攻擊者可利用該惡意程式控制受害用戶的電腦或取得受害用戶的重要資訊。

一般來說，電腦鑑識(Computer Forensics)人員可透過逆向工程(Reverse Engineering)來找尋惡意域名。但藉由人工分析與鑑定是需要花費不少的時間成本。即使不斷地取得、更新與掌握惡意域名清單，但這樣的速度仍然遠跟不上產生新的域名的速度。因此，實有需要針對惡意域名提出更為有效的偵測機制。

本發明提供一種域名系統中惡意域名的偵測方法與偵測裝置，可有效提高自動化惡意域名偵測的偵測效率。

本發明的實施例提供一種域名系統中惡意域名的偵測方法，其包括：獲得電子裝置的網路連線資料；從所述網路連線資料中擷取與至少一域名有關的日誌資料；分析所述日誌資料以產生與所述至少一域名有關的至少一數值特徵；將所述至少一數值特徵輸入至多類型預測模型，其包括第一類資料模型與第二類資料模型，其中第一類資料模型是基於與惡意程式有關的第一類惡意特徵所建立，且第二類資料模型是基於與釣魚網站有關的第二類惡意特徵所建立；以及由所述多類型預測模型根據所述至少一數值特徵預測所述至少一域名中是否存在與所述惡意程式或所述釣魚網站有關的惡意域名。

本發明的實施例另提供一種偵測裝置，其用以偵測域名系統中的惡意域名。所述偵測裝置包括網路介面與處理器。所述網路介面用以獲得電子裝置的網路連線資料。所述處理器耦接至所述網路介面。所述處理器用以從所述網路連線資料中擷取與至少一域名有關的日誌資料。所述處理器更用以分析所述日誌資料以產生與所述至少一域名有關的至少一數值特徵。所述處理器更用以將所述至少一數值特徵輸入至多類型預測模型，其包括第一類資料模型與第二類資料模型。所述第一類資料模型是基於與惡意程式有關的第一類惡意特徵所建立。所述第二類資料模型是基於與釣魚網站有關的第二類惡意特徵所建立。所述處理器更用以運行所述多類型預測模型以根據所述至少一數值特徵預測所述至少一域名中是否存在與所述惡意程式或所述釣魚網站有關的惡意域名。

基於上述，在獲得電子裝置的網路連線資料後，與至少一域名有關的日誌資料可從所述網路連線資料中擷取出來。接著，可對述日誌資料進行分析以產生與所述至少一域名有關的至少一數值特徵並將所述數值特徵輸入至多類型預測模型。特別是，所述多類型預測模型包括第一類資料模型與第二類資料模型。所述第一類資料模型是基於與惡意程式有關的第一類惡意特徵所建立。所述第二類資料模型是基於與釣魚網站有關的第二類惡意特徵所建立。接著，所述多類型預測模型可根據所述至少一數值特徵預測所述至少一域名中是否存在與所述惡意程式或所述釣魚網站有關的惡意域名。藉此，可有效提高自動化惡意域名偵測的偵測效率。

圖1是根據本發明的一實施例所繪示的域名分析系統的示意圖。請參照圖1，域名分析系統包括分析裝置1與電子裝置12。電子裝置12可經由網際網路101連接至伺服器13(1)~13(n)的至少其中之一。特別是，電子裝置12可藉由一或多個域名來連接至服器13(1)~13(n)的至少其中之一。一個域名可以是一串用一或多個點所分隔的字元組成(例如www.google.com)。

當電子裝置12欲連接至某一個域名時，透過域名系統的解析，此域名可以被指向伺服器13(1)~13(n)中的某一個伺服器13(i)的IP位址。此時，電子裝置12可根據此IP位址連接至伺服器13(i)。相較於記憶伺服器13(i)的IP位址，伺服器13(i)所使用的域名可更方便用戶記憶。

在一實施例中，分析裝置1可自動分析電子裝置12的網路連線資料。然後，分析裝置1可根據分析結果自動預測伺服器13(1)~13(n)中的任一者所使用的域名是否為惡意域名。須注意的是，在圖1的實施例中，分析裝置1與電子裝置12是各自獨立的電子裝置(或電腦裝置)。然而，在另一實施例中，分析裝置1亦可以藉由軟體或硬體的型式設置於電子裝置12內部。

在一實施例中，分析裝置1包括網路介面111、儲存裝置112、處理器113及預測模型114。網路介面111可用以連接至電子裝置12，以獲得電子裝置12的網路連線資料。例如，網路介面111可包括網路介面卡。儲存裝置112用以儲存所獲得的網路連線資料與預測模型114。例如，儲存裝置112可包括揮發性儲存電路與非揮發性儲存電路。揮發性儲存電路可包括隨機存取記憶體(Random Access Memory)。非揮發性儲存電路可包括快閃記憶體或傳統硬碟(Hard Disc Drive, HDD)。

預測模型114可包括一或多個人工智慧模型、一或多個機器學習模型及/或一或多個深度學習模型。例如，預測模型114可包括XGBoost模型等多決策樹模型或其他類型的演算法模型。預測模型114可用以自動根據從電子裝置12的網路連線資料中擷取出來的資料偵測某一域名是否為惡意域名。在一實施例中，預測模型114可進一步辨識所測得的惡意域名的類型是屬於惡意程式或釣魚網站。若某一惡意域名屬於惡意程式，則電子裝置12連接至使用此惡意域名的伺服器後就可能從此伺服器下載一或多個惡意程式而成為受感染的裝置。爾後，電子裝置12隨時可能成為殭屍電腦而受駭客操控。此外，若某一惡意域名屬於釣魚網站，則電子裝置12連接至使用此惡意域名的伺服器後，使用者傳送至此伺服器的機敏資訊都可能會被收集並用於盜取使用者的個資或錢財等等。

在一實施例中，預測模型114亦稱為多類型預測模型。預測模型114可包括多種類型的資料模型。預測模型114中的每一個資料模型可根據特定類型的惡意特徵所建立並可用以偵測屬於特定類型的惡意域名。在一實施例中，預測模型114中的每一個資料模型可獨立運作。在一實施例中，預測模型114中的多個資料模型也可相互合作。

在一實施例中，預測模型114至少包括第一類資料模型與第二類資料模型。第一類資料模型主要是基於與惡意程式有關的惡意特徵(亦稱為第一類惡意特徵)所建立。第二類資料模型主要是基於與釣魚網站有關的惡意特徵(亦稱為第二類惡意特徵)所建立。例如，在使用大量與惡意程式有關的惡意特徵來訓練預測模型114中的某一資料模型後，此第一類資料模型可被建立並可專用於偵測屬於惡意程式的惡意域名。類似地，在使用大量與釣魚網站有關的惡意特徵來訓練預測模型114中的某一資料模型後，此第二類資料模型可被建立並可專用於偵測屬於釣魚網站的惡意域名。須注意的是，在其他實施例中，預測模型114還可以包括其他類型的資料模型，以偵測其他類型的惡意域名。

在一實施例中，預測模型114是以軟體形式儲存於儲存裝置112中。然而，在另一實施例中，預測模型114亦可以是以實作為硬體電路而以硬體形式設置於分析裝置1中。此外，預測模型114可經由訓練而提高預測精準度。

處理器113耦接至網路介面111與儲存裝置112。處理器113負責分析電子裝置12的網路連線資料並將分析結果傳送至預測模型114進行惡意域名的預測。在一實施例中，處理器113亦可負責偵測裝置11的整體或部分運作。例如，處理器113可包括中央處理單元(CPU)、或是其他可程式化之一般用途或特殊用途的微處理器、數位訊號處理器(Digital Signal Processor, DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits, ASIC)、可程式化邏輯裝置(Programmable Logic Device, PLD)或其他類似裝置或這些裝置的組合。

圖2是根據本發明的一實施例所繪示的分析網路連線資料的示意圖。請參照圖1與圖2，在一實施例中，處理器113可使用封包側錄工具(例如Zeek)監測電子裝置12的網路連線資料21並將網路連線資料21轉換為日誌(log)資料。處理器113可從此日誌資料中擷取與至少一個域名有關的日誌資料(亦稱為DNS日誌資料)22。例如，DNS日誌資料22可包含A、AA、MX、NS、CNAME及TXT等不同類型的DNS查詢紀錄與回應記錄。

在一實施例中，處理器113可對DNS日誌資料22執行資料篩選。資料篩選可用以過濾DNS日誌資料22中的A記錄與AAAA記錄並產生DNS日誌資料23。A記錄反映至少一網際網路通訊協定第四版(IPv4)的位址資料。AAAA記錄反映至少一網際網路通訊協定第六版(IPv6)的位址資料。藉由對DNS日誌資料22執行資料篩選，DNS日誌資料22中A與AAAA類型的查詢與回應記錄可被保留於DNS日誌資料23中，而其他類型的查詢與回應記錄(例如MX、NS、CNAME及TXT等)可被移除。

在一實施例中，處理器113可對DNS日誌資料22執行白名單過濾。白名單過濾用以將DNS日誌資料22中已知的良性域名的相關日誌資料濾除，而只保留未記載於白名單上的其他域名的相關日誌資料於DNS日誌資料23中。藉此，可提高後續對於惡意域名的偵測效率。

DNS日誌資料23中的一筆日誌資料可包含至少4個資料欄位，其分別記載時間、查詢目標(即域名)、回應結果(即所查詢的域名所對應的IP位址)及此筆DNS紀錄的存活時間(Time To Live, TTL)。處理器113可分析DNS日誌資料23以產生與至少一域名有關的至少一數值特徵。例如，處理器113可分析DNS日誌資料23中與至少一域名的查詢行為、至少一域名與至少一IP位址的映射、至少一域名的字元組成、至少一域名的IP位址的變化及至少一域名的TTL的至少其中之一有關的資料，以獲得所述數值特徵。然後，處理器113可運行預測模型114以根據所述數值特徵預測DNS日誌資料23所涉及的域名中是否存在惡意域名。

圖3是根據本發明的一實施例所繪示的根據數值特徵產生預測結果的示意圖。請參照圖1與圖3，在一實施例中，處理器113可分析DNS日誌資料23以獲得屬於類型31的評估值301(1)~301(a)、屬於類型32的評估值302(1)~302(b)、屬於類型33的評估值303(1)~303(c)、屬於類型34的評估值304(1)~304(d)及屬於類型35的評估值305(1)~305(e)。評估值301(1)~301(a)、302(1)~302(b)、303(1)~303(c)、304(1)~304(d)及305(1)~305(e)皆可以數值的形式來反映可能存在的惡意域名的惡意特徵。此外，評估值301(1)~301(a)的總數、評估值302(1)~302(b)的總數、評估值303(1)~303(c)的總數、評估值304(1)~304(d)的總數及評估值305(1)~305(e)的總數皆可視實務需求加以調整，本發明不加以限制。

在一實施例中，處理器113可分析DNS日誌資料23中與至少一域名的查詢行為有關的資料(亦稱為第一資料)，以獲得屬於類型31的評估值301(1)~301(a)(亦稱為查詢行為評估值)。評估值301(1)~301(a)可分別反映電子裝置12對至少一個域名的查詢行為的統計特性。

在一實施例中，假設第一資料反映電子裝置12在某一天(Day1)的每一個小時內對某一域名(亦稱為第一域名)的查詢次數紀錄為[x1, x2,…, x24](例如x1為電子裝置12在Day1的0:00~0:59內對第一域名的查詢次數，x2為電子裝置12在Day1的1:00~1:59內對第一域名的查詢次數，依此類推)，且電子裝置12在另一天(Day2)的每一個小時內對第一域名的查詢次數紀錄為[y1, y2,…, y24](例如y1為電子裝置12在Day2的0:00~0:59內對第一域名的查詢次數，y2為電子裝置12在Day2的1:00~1:59內對第一域名的查詢次數，依此類推)，則評估值301(1)可根據以下方程式(1.1)產生:

(1.1)

評估值301(1)的數值越小，表示在以天為單位的多個時間範圍內電子裝置12對於同一個第一域名的查詢行為越一致，且電子裝置12有越高的機率已被惡意程式感染而反複與中繼站連線。此外，在其他實施例中，亦可以是以多天(例如三天)、周、月或年等單位來進行上述計算，本發明不加以限制。

在一實施例中，處理器113可根據第一資料獲得某一域名(例如第一域名)第一次出現的時間T1與最後一次出現的時間T2之間的差值(即時間差)。處理器113可根據此時間差產生評估值301(2)。例如，評估值301(2)可等於T1-T2。

在一實施例中，處理器113可根據第一資料獲得電子裝置12在一個時間範圍內連線至某一域名(例如第一域名)的總次數並根據此總次數決定評估值301(3)。例如，假設DNS日誌資料23反映電子裝置12在一個月內連線至第一域名20次，則評估值301(3)可設為20。

在一實施例中，處理器113可根據第一資料獲得多個第一時間範圍內對於某一域名(例如第一域名)的平均連線(或查詢)次數(亦稱為第一次數)與多個第二時間範圍內對於第一域名的平均連線(或查詢)次數(亦稱為第二次數)。例如，所述多個第一時間範圍可以是指某一時間點之前的多個時間範圍，而所述多個第二時間範圍可以是此時間點之後的多個時間範圍。處理器113可根據所述第一次數與所述第二次數之間的差異是否大於一個門檻值以判斷是否存在變異點。假設在某一時間點之前的平均連線次數(即第一次數)與此時間點之後的平均連線次數(即第二次數)之間的差值大於一門檻值，則可判定在此時間點出現一個變異點。處理器113可根據一預設時間範圍內出現的變異點之總數決定評估值301(4)。

在一實施例中，處理器113可根據第一資料獲得不同天(或其他時間單位)中相同時間範圍內(例如0:00~0:59)電子裝置12對於單一或多個域名的總連線(或查詢)次數並根據此總連線(或查詢)次數決定評估值301(5)。例如，假設電子裝置12在三天內的每天0:00~0:59分別連接至第一域名3次、5次及7次，則評估值301(5)可設為15(即15=3+5+7)。

在一實施例中，處理器113可分析DNS日誌資料23中與至少一域名與至少一IP位址的映射有關的資料(亦稱為第二資料)，以獲得屬於類型32的評估值302(1)~302(b)(亦稱為映射評估值)。評估值302(1)~302(b)可分別反映至少一個域名與至少一IP位址之間的映射的統計特性。

在一實施例中，處理器113可根據第二資料獲得某一域名(例如第一域名)所映射的一或多個IP位址所屬的國家的總數。處理器113可根據此總數決定評估值302(1)。

在一實施例中，處理器113可根據第二資料獲得某一域名(例如第一域名)所映射的一或多個IP位址的總數。處理器113可根據此總數決定評估值302(2)。

在一實施例中，處理器113可根據第二資料獲得某一域名(例如第一域名)所映射的多個IP位址。處理器113可獲得此些IP位址所映射的域名的總數。處理器113可根據此總數決定評估值302(3)。

在一實施例中，處理器113可根據第二資料查詢惡意資訊共享平台(Malware Information Sharing Platform, MISP)，以獲得某一域名(例如第一域名)所映射的一或多個IP位址是否曾被用於惡意用途。處理器113可根據查詢結果決定一個機率值，以反映第一域名屬於惡意域名的機率。處理器113可根據此機率值決定評估值302(4)。

在一實施例中，處理器113可分析DNS日誌資料23中與至少一域名的字元組成有關的資料(亦稱為第三資料)，以獲得屬於類型33的評估值303(1)~303(c)(亦稱為域名評估值)。評估值303(1)~303(c)可分別反映至少一個域名中的字元組成的統計特性。

在一實施例中，處理器113可根據第三資料獲得某一域名(例如第一域名)中出現數字的比例。處理器113可根據此比例決定評估值303(1)。

在一實施例中，處理器113可根據第三資料獲得某一域名(例如第一域名)中最有意義的字串的長度佔域名總長度的比例。處理器113可根據此比例決定評估值303(2)。以google.com為例，其中的google為最有意義的字串，則評估值303(2)可設為0.6(即6/10=0.6)。

在一實施例中，處理器113可根據第三資料獲得某一域名(例如第一域名)的Top Domain佔DNS日誌資料23中所有域名的比例。處理器113可根據此比例決定評估值303(3)。以google.com為例，其Top Domain為com，處理器113可根據com為Top Domain的域名佔所有域名中的比例並根據此比例決定評估值303(3)。

在一實施例中，處理器113可根據第三資料獲得某一域名(例如第一域名)的Third Domain的長度。以x111.google.com為例，其中的Third Domain為x111，其長度為4。因此，處理器113可將評估值303(4)設為4。

在一實施例中，處理器113可根據第三資料獲得某一域名(例如第一域名)的字串總長度。處理器113可根據此字串總長度決定評估值303(5)。

在一實施例中，處理器113可分析DNS日誌資料23中與至少一域名的TTL有關的資料(亦稱為第四資料)，以獲得屬於類型34的評估值304(1)~304(d)(亦稱為存活時間評估值)。評估值304(1)~304(d)可分別反映至少一個域名的存活時間的統計特性。

在一實施例中，處理器113可根據第四資料獲得某一域名(例如第一域名)的平均存活時間。例如，假設DNS日誌資料23中紀錄第一域名的多個TTL數值分別為86400、86400及86400，則第一域名的平均存活時間可為86400。處理器113可根據此平均存活時間決定評估值304(1)。

在一實施例中，處理器113可根據第四資料獲得某一域名(例如第一域名)的多個存活時間的標準差。處理器113可根據此標準差決定評估值304(2)。

在一實施例中，處理器113可根據第四資料獲得某一域名(例如第一域名)的多個存活時間中的不同的存活時間的數目並根據此數目決定評估值304(3)。例如，假設DNS日誌資料23中紀錄第一域名的多個TTL數值分別為86400、82000及86400，表示第一域名有2個不同的存活時間。因此，處理器113可將評估值304(3)設為2。

在一實施例中，處理器113可根據第四資料獲得某一域名(例如第一域名)的存活時間的改變次數。處理器113可根據此改變次數決定評估值304(4)。

在一實施例中，處理器113可根據第四資料獲得某一域名(例如第一域名)的存活時間中小於一預設時間長度的存活時間的總數。例如，此預設時間長度可為100秒或其他時間差度。處理器113可根據此總數決定評估值304(5)。

在一實施例中，處理器113可分析DNS日誌資料23中與至少一域名的IP位址的變化有關的資料(亦稱為第五資料)，以獲得屬於類型35的評估值305(1)~305(e)(亦稱為位址變化評估值)。評估值305(1)~305(e)可分別反映至少一個域名的IP位址之變化的統計特性。

在一實施例中，處理器113可根據第五資料獲得某一域名(例如第一域名)所使用過的IP位址中為一預設IP位址的總數。處理器113可根據此總數決定評估值305(1)。例如，此預設IP位址可為127.0.0.1、0.0.0.0及/或255.255.255.255。假設DNS日誌資料23反映第一域名曾經使用過一次127.0.0.1，則評估值305(1)可設為1。

在一實施例中，處理器113可根據第五資料獲得一預設IP位址佔某一域名(例如第一域名)所使用過的所有IP位址的比例。處理器113可根據此比例決定評估值305(2)。

在一實施例中，處理器113可根據第五資料獲得預設IP位址在某一域名(例如第一域名)所使用過的所有IP位址中發生變化的次數。處理器113可根據此總數決定評估值305(3)。例如，假設DNS日誌資料23反映第一域名曾經改變為使用127.0.0.1一次，則處理器113可將評估值305(3)設為1。

須注意的是，前述多個實施例中所提及的各類型之評估值的設定與產生方式僅為範例，而非用以限制本發明。在部分未提及的實施例中，更多類型的評估值可以根據DNS日誌資料23中所記載的上述資訊而產生，以反映一或多個域名所可能涉及的不同類型的惡意程式或釣魚網站的運作手法。此外，圖3中的評估值的類型也可以根據實務需求而增加或減少，本發明不加以限制。

在圖3的實施例中，預測模型114可根據與某一域名(例如第一域名)有關的評估值301(1)~301(a)、302(1)~302(b)、303(1)~303(c)、304(1)~304(d)及305(1)~305(e)進行運算並產生預測結果36。例如，預測模型114可使用XGBoost模型來執行預測。預測結果36可反映第一域名是否被預測為惡意域名。例如，在綜合考慮評估值301(1)~301(a)、302(1)~302(b)、303(1)~303(c)、304(1)~304(d)及305(1)~305(e)後，所產生的預測結果36可包括一個機率值。若此機率值高於一決策值(例如0.85)，處理器113可判定第一域名為惡意域名。反之，若此機率值不高於此決策值，則處理器113可判定第一域名非為惡意域名。

在一實施例中，預測模型114還可進一步根據與某一域名(例如第一域名)有關的評估值301(1)~301(a)、302(1)~302(b)、303(1)~303(c)、304(1)~304(d)及305(1)~305(e)識別可能為惡意域名的第一域名的類型為惡意程式或釣魚網站。換言之，在一實施例中，預測結果36還可反映第一域名的類型為惡意程式或釣魚網站。

在一實施例中，被預測為惡意域名的域名(例如第一域名)可被記載於一個清單中，以供後續使用或驗證。在一實施例中，被預測為惡意域名的域名可經由資安人員進行驗證。處理器113可使用此驗證結果來訓練預測模型114，以提高預測模型114的預測精準度。

在一實施例中，處理器113亦可提取機率值落於一預設範圍(例如0.4-0.6)的域名。所提取的域名可經由資安人員進行驗證。處理器113可使用此驗證結果來訓練預測模型114。

圖4是根據本發明的實施例所繪示的域名系統中惡意域名的偵測方法的流程圖。請參照圖4，在步驟S401中，獲得電子裝置的網路連線資料。在步驟S402中，從所述網路連線資料中擷取與至少一域名有關的日誌資料。在步驟S403中，分析所述日誌資料以產生與所述至少一域名有關的至少一數值特徵。在步驟S404中，將所述至少一數值特徵輸入至多類型預測模型，其包括第一類資料模型與第二類資料模型，其中第一類資料模型是基於與惡意程式有關的第一類惡意特徵所建立，且第二類資料模型是基於與釣魚網站有關的第二類惡意特徵所建立。在步驟S405中，由所述多類型預測模型根據所述至少一數值特徵預測所述至少一域名中是否存在與所述惡意程式或所述釣魚網站有關的惡意域名。

然而，圖4中各步驟已詳細說明如上，在此便不再贅述。值得注意的是，圖4中各步驟可以實作為多個程式碼或是電路，本發明不加以限制。此外，圖4的方法可以搭配以上範例實施例使用，也可以單獨使用，本發明不加以限制。

綜上所述，本發明的實施例提出將與至少一域名有關的大量日誌資訊改為以數值特徵的形式呈現，以反映或凸顯可能存在的惡意域名的行為。此外，藉由在多類型預測模型中分別設置專用於偵測惡意程式與釣魚網站的資料模型，則可增加對於惡意程式與釣魚網站的預測準確率。雖然人工分析與尋找惡意域名的速度遠遠趕不上新的域名的產生速度，但經過預測模型對所述數值特徵進行自動化分析後，惡意域名的偵測效率可被有效提升。

1:分析裝置 111:網路介面 112:儲存裝置 113:處理器 114:預測模型 12:電子裝置 13(1)~13(n):伺服器 101:網際網路 21:網路連線資料 22, 23:DNS日誌資料 31~35:類型 301(1)~301(a), 302(1)~302(b), 303(1)~303(c), 304(1)~304(d), 305(1)~305(e):評估值 36:預測結果 S401~S405:步驟

圖1是根據本發明的一實施例所繪示的域名分析系統的示意圖。圖2是根據本發明的一實施例所繪示的分析網路連線資料的示意圖。圖3是根據本發明的一實施例所繪示的根據數值特徵產生預測結果的示意圖。圖4是根據本發明的實施例所繪示的域名系統中惡意域名的偵測方法的流程圖。

S401~S405:步驟

Claims

一種域名系統(Domain Name System,DNS)中惡意域名的偵測方法，包括：獲得一電子裝置的一網路連線資料；從該網路連線資料中擷取與至少一域名有關的日誌資料；分析該日誌資料中與該至少一域名的字元組成有關的資料，以獲得與該至少一域名有關的至少一數值特徵，其中該至少一數值特徵包括至少一域名評估值，且該至少一域名評估值反映該至少一域名的該字元組成的一統計特性，其中該至少一域名包括第一域名，該統計特性包括第一字串在該第一域名中的佔比、第二字串在該至少一域名中的所有域名中的佔比、該第一域名中的第三字串的長度及該第一域名的字串總長度的至少其中之一；將該至少一數值特徵輸入至一多類型預測模型，其包括一第一類資料模型與一第二類資料模型，其中該第一類資料模型是基於與一惡意程式有關的一第一類惡意特徵所建立，且該第二類資料模型是基於與一釣魚網站有關的一第二類惡意特徵所建立；以及由該多類型預測模型根據該至少一數值特徵預測該至少一域名中是否存在與該惡意程式或該釣魚網站有關的一惡意域名。
如請求項1所述的偵測方法，其中從該網路連線資料中擷取與該至少一域名有關的該日誌資料的步驟包括：過濾該日誌資料中的A記錄與AAAA記錄，其中該A記錄反映至少一網際網路通訊協定第四版(IPv4)的位址資料，且該AAAA記錄反映至少一網際網路通訊協定第六版(IPv6)的位址資料。
如請求項1所述的偵測方法，更包括：分析該日誌資料中與該至少一域名的查詢行為、該至少一域名與至少一網際網路協定位址的映射、該至少一域名的網際網路協定位址的變化及該至少一域名的存活時間的至少其中之一有關的資料，以獲得與該至少一域名有關的該至少一數值特徵。
如請求項1所述的偵測方法，其中該至少一數值特徵包括至少一查詢行為評估值，且該至少一查詢行為評估值反映該電子裝置對該至少一域名的查詢行為的一統計特性。
如請求項1所述的偵測方法，其中該至少一數值特徵包括至少一映射評估值，且該至少一映射評估值反映該至少一域名與至少一網際網路協定位址之間的映射的一統計特性。
如請求項1所述的偵測方法，其中該至少一數值特徵包括至少一存活時間評估值，且該至少一存活時間評估值反映該至少一域名的存活時間的一統計特性。
如請求項1所述的偵測方法，其中該至少一數值特徵包括至少一位址變化評估值，且該至少一位址變化評估值反映該至少一域名的網際網路協定位址之變化的一統計特性。
如請求項1所述的偵測方法，其中由該多類型預測模型根據該至少一數值特徵預測該至少一域名中是否存在與該惡意程式或該釣魚網站有關的該惡意域名的步驟包括：由該預測模型根據該至少一數值特徵識別可能存在的該惡意域名的類型屬於該惡意程式或該釣魚網站。
一種偵測裝置，用以偵測域名系統中的惡意域名，該偵測裝置包括：一網路介面，用以獲得一電子裝置的一網路連線資料；以及一處理器，耦接至該網路介面，其中該處理器用以從該網路連線資料中擷取與至少一域名有關的日誌資料，該處理器更用以分析該日誌資料中與該至少一域名的字元組成有關的資料，以獲得與該至少一域名有關的至少一數值特徵，其中該至少一數值特徵包括至少一域名評估值，且該至少一域名評估值反映該至少一域名的該字元組成的一統計特性，其中該至少一域名包括第一域名，該統計特性包括第一字串在該第一域名中的佔比、第二字串在該至少一域名中的所有域名中的佔比、該第一域名中的第三字串的長度及該第一域名的字串總長度的至少其中之一，該處理器更用以將該至少一數值特徵輸入至一多類型預測模型，其包括一第一類資料模型與一第二類資料模型，其中該第一類資料模型是基於與一惡意程式有關的一第一類惡意特徵所建立，該第二類資料模型是基於與一釣魚網站有關的一第二類惡意特徵所建立，並且該處理器更用以運行該多類型預測模型以根據該至少一數值特徵預測該至少一域名中是否存在與該惡意程式或該釣魚網站有關的一惡意域名。
如請求項9所述的偵測裝置，其中該處理器從該網路連線資料中擷取與該至少一域名有關的該日誌資料的操作包括：過濾該日誌資料中的A記錄與AAAA記錄，其中該A記錄反映至少一網際網路通訊協定第四版(IPv4)的位址資料，且該AAAA記錄反映至少一網際網路通訊協定第六版(IPv6)的位址資料。
如請求項9所述的偵測裝置，其中該處理器更用以：分析該日誌資料中與該至少一域名的查詢行為、該至少一域名與至少一網際網路協定位址的映射、該至少一域名的網際網路協定位址的變化及該至少一域名的存活時間的至少其中之一有關的資料，以獲得與該至少一域名有關的該至少一數值特徵。
如請求項9所述的偵測裝置，其中該至少一數值特徵包括至少一查詢行為評估值，且該至少一查詢行為評估值反映該電子裝置對該至少一域名的查詢行為的一統計特性。
如請求項9所述的偵測裝置，其中該至少一數值特徵包括至少一映射評估值，且該至少一映射評估值反映該至少一域名與至少一網際網路協定位址之間的映射的一統計特性。
如請求項9所述的偵測裝置，其中該至少一數值特徵包括至少一存活時間評估值，且該至少一存活時間評估值反映該至少一域名的存活時間的一統計特性。
如請求項9所述的偵測裝置，其中該至少一數值特徵包括至少一位址變化評估值，且該至少一位址變化評估值反映該至少一域名的網際網路協定位址之變化的一統計特性。
如請求項9所述的偵測裝置，其中該處理器運行該多類型預測模型以根據該至少一數值特徵預測該至少一域名中是否存在與該惡意程式或該釣魚網站有關的該惡意域名的操作包括：運行該多類型預測模型以根據該至少一數值特徵識別可能存在的該惡意域名的類型屬於該惡意程式或該釣魚網站。