TW202249459A - 資料外洩偵測方法與裝置 - Google Patents
資料外洩偵測方法與裝置 Download PDFInfo
- Publication number
- TW202249459A TW202249459A TW110121326A TW110121326A TW202249459A TW 202249459 A TW202249459 A TW 202249459A TW 110121326 A TW110121326 A TW 110121326A TW 110121326 A TW110121326 A TW 110121326A TW 202249459 A TW202249459 A TW 202249459A
- Authority
- TW
- Taiwan
- Prior art keywords
- domain name
- system request
- name system
- malicious
- characters
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1475—Passive attacks, e.g. eavesdropping or listening without modification of the traffic monitored
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
- H04L2101/35—Types of network names containing special prefixes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2463/00—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
- H04L2463/144—Detection or countermeasures against botnets
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
- Testing Of Short-Circuits, Discontinuities, Leakage, Or Incorrect Line Connections (AREA)
Abstract
一種資料外洩偵測方法與裝置。所述方法包括:獲得電子裝置的網路連線資料;從所述網路連線資料中擷取與域名系統(Domain Name System, DNS)有關的日誌資料;分析所述日誌資料中的域名系統請求並根據分析結果獲得多個字元分布特徵值,其中所述多個字元分布特徵值反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態;以及由機器學習模型根據所述多個字元分布特徵值判斷所述域名系統請求是否屬於惡意域名系統請求,其中所述惡意域名系統請求用以夾帶洩資料至遠端主機。
Description
本發明是有關於一種資料外洩偵測技術,且特別是有關於一種資料外洩偵測方法與裝置。
網域名稱(亦稱為域名)系統(Domain Name System, DNS)是網際網路(Internet)的一項服務,其可作為將域名與網際網路協定(Internet Protocol, IP)位址相互對映的一個分散式資料庫,使人們更方便地存取網際網路。例如,當終端裝置需要開啟某一個域名的網頁時,終端裝置可發送域名系統請求(DNS request)給負責的域名系統伺服器(DNS server)。域名系統伺服器接收到此域名系統請求後,可解析此域名系統請求並發送域名系統回應(DNS response)給終端裝置,以藉由此域名系統回應告知終端裝置此域名所對應的IP位址。
一般來說,域名系統請求與域名系統回應並不會被多數的網路安全系統(例如防火牆)阻擋,以避免影響終端裝置執行正常的網路連線。然而,也是因為如此,一旦駭客或惡意程式藉由發送此域名系統請求來進行資料外洩,例如將終端裝置的機敏資料夾帶於域名系統請求而傳送給遠端主機,則大多數的網路安全系統恐難以偵測或防範。
本發明提供一種資料外洩偵測方法與裝置,可提高對駭客或惡意程式所使用以執行資料外洩的域名系統請求及/或域名的偵測效率。
本發明的實施例提供一種資料外洩偵測方法,其包括:獲得電子裝置的網路連線資料;從所述網路連線資料中擷取與域名系統有關的日誌資料;分析所述日誌資料中的域名系統請求並根據分析結果獲得多個字元分布特徵值,其中所述多個字元分布特徵值反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態;以及由機器學習模型根據所述多個字元分布特徵值判斷所述域名系統請求是否屬於惡意域名系統請求,其中所述惡意域名系統請求用以夾帶洩資料至遠端主機。
本發明的實施例另提供一種資料外洩偵測裝置,其包括儲存電路與處理器。所述儲存電路用以儲存電子裝置的網路連線資料與機器學習模型。所述處理器耦接至所述儲存電路並用以:從所述網路連線資料中擷取與域名系統有關的日誌資料;分析所述日誌資料中的域名系統請求並根據分析結果獲得多個字元分布特徵值,其中所述多個字元分布特徵值反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態;以及經由所述機器學習模型根據所述多個字元分布特徵值判斷所述域名系統請求是否屬於惡意域名系統請求,其中所述惡意域名系統請求用以夾帶外洩資料至遠端主機。
基於上述,在獲得電子裝置的網路連線資料後,可從所述網路連線資料中擷取與域名系統有關的日誌資料。接著,可分析所述日誌資料中的域名系統請求並根據分析結果獲得多個字元分布特徵值,其中所述多個字元分布特徵值反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態。然後,由機器學習模型根據所述多個字元分布特徵值來判斷所述域名系統請求是否屬於惡意域名系統請求,其中所述惡意域名系統請求用以夾帶洩資料至遠端主機。藉此,可有效提高對駭客或惡意程式所使用以執行資料外洩的域名系統請求及/或域名的偵測效率。
圖1是根據本發明的一實施例所繪示的域名分析系統的示意圖。請參照圖1,域名分析系統包括網路流量分析裝置(亦稱為資料外洩偵測裝置)11與電子裝置12。電子裝置12可經由網際網路101連接至遠端主機13。特別是,電子裝置12可藉由一或多個域名來連接至遠端主機13。一個域名可以是一串用一或多個點所分隔的字元組成(例如www.google.com)。
在一實施例中,電子裝置12為終端裝置。例如,電子裝置12可包括智慧型手機、筆記型電腦、桌上型電腦、工業電腦、伺服器、遊戲機或各類具有連網功能的電子裝置。此外,遠端主機13可為域名伺服器。例如,由駭客所架設的域名伺服器。
在一實施例中,當電子裝置12被駭客或惡意程式控制時,駭客或惡意程式可存取電子裝置12的機敏資料,例如使用者帳號、密碼及/或指紋資訊等。駭客或惡意程式可對此機敏資料進行編碼以產生一串類似亂碼的無意義資料。然後,駭客或惡意程式可根據此無意義資料產生相應的域名系統請求。例如,此無意義資料可被挾帶於此域名系統請求的域名中。例如,假設經編碼產生的無意義資料為“fd12f3d1f23ds1f23sd1fsdf1”,則所產生的域名系統請求可為“fd12f3d1f23ds1f23sd1fsdf1.XXXX.XX”。然後,駭客或惡意程式可控制電子裝置12將此域名系統請求傳送給遠端主機13。例如,經由電子裝置12的第53號通訊埠(port 53)將此域名系統請求傳送給遠端主機13。在收到此域名系統請求後,遠端主機13可將此域名系統請求的域名解碼以還原出原先電子裝置12中的機敏資料。藉此,即可達到資料外洩的目的。
在一實施例中,網路流量分析裝置11可對電子裝置12的網路流量進行監控。網路流量分析裝置11可由機器學習模型來偵測電子裝置12是否藉由將機敏資料夾帶於域名系統請求中的方式來執行資料外洩。
圖2是根據本發明的一實施例所繪示的網路流量分析裝置的示意圖。請參照圖2,網路流量分析裝置11可包括處理器21、儲存電路22及輸入/輸出介面23。處理器21用以負責網路流量分析裝置11的整體或部分運作。例如,處理器21可包括中央處理單元(CPU)或是其他可程式化之一般用途或特殊用途的微處理器、數位訊號處理器(Digital Signal Processor, DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits, ASIC)、可程式化邏輯裝置(Programmable Logic Device, PLD)或其他類似裝置或這些裝置的組合。
儲存電路22耦接至處理器21並用以儲存資料。例如,儲存電路22可包括揮發性儲存電路與非揮發性儲存電路。揮發性儲存電路用以揮發性地儲存資料。例如,揮發性儲存電路可包括隨機存取記憶體(Random Access Memory, RAM)或類似的揮發性儲存媒體。非揮發性儲存電路用以非揮發性地儲存資料。例如,非揮發性儲存電路可包括唯讀記憶體(Read Only Memory, ROM)、固態硬碟(solid state disk, SSD)及/或傳統硬碟(Hard disk drive, HDD)或類似的非揮發性儲存媒體。
輸入/輸出介面23耦接至處理器21並用以執行訊號的輸入與輸出。例如,輸入/輸出介面23可包括網路介面卡、顯示器、滑鼠、鍵盤、觸控板、觸控螢幕、揚聲器、麥克風、及/或電源供應電路等各式輸入/輸出裝置。本發明不限制所述輸入/輸出裝置的類型。
在一實施例中,儲存電路22中儲存有特徵擷取模組201與機器學習模型202。例如,特徵擷取模組201與機器學習模型202皆可以程式碼的形式儲存於儲存電路22中。處理器21可運行特徵擷取模組201以執行特徵值運算等邏輯操作。機器學習模型202可包括XGBoost模型等多決策樹模型或其他類型的機器學習模型。
在一實施例中,處理器21可獲得電子裝置12的網路連線資料。處理器21可將所述網路連線資料儲存於電路22中。例如,電子裝置12的網路連線資料可藉由監控電子裝置12的網路流量或讀取電子裝置12的網路連線記錄等方式獲得。
在一實施例中,處理器21可從所述網路連線資料中擷取與域名系統有關的日誌(log)資料。處理器21可藉由特徵擷取模組201分析所述日誌資料中的某一個域名系統請求並根據分析結果獲得多個字元分布特徵值。所述多個字元分布特徵值可反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態。接著,處理器21可運行機器學習模型202以根據所述多個字元分布特徵值判斷所述域名系統請求是否屬於惡意域名系統請求。特別是,所述惡意域名系統請求可用以夾帶外洩資料至遠端主機(例如圖1的遠端主機13)。
圖3是根據本發明的一實施例所繪示的分析域名系統請求以獲得多個字元分布特徵值的示意圖。請參照圖3,處理器21可從網路連線資料中擷取與域名系統有關的日誌資料(即DNS日誌301)。處理器21將DNS日誌301中的某一域名系統請求(亦稱為目標域名系統請求)輸入至特徵擷取模組201中進行特徵值運算。特徵擷取模組201可根據運算結果輸出多個特徵值V(1)~V(n)(即字元分布特徵值)。n可為任意大於1的正整數。
在一實施例中,所述多個字元分布特徵值包括多種類型的特徵值。以第一類特徵值與第二類特徵值為例,第一類特徵值可反映目標域名系統請求中的域名(亦稱為目標域名)在某一分類規則(亦稱為第一分類規則)下的字元分布狀態(亦稱為第一字元分布狀態),第二類特徵值可反映同一目標域名在另一分類規則(亦稱為第二分類規則)下的字元分布狀態(亦稱為第二字元分布狀態),且第一分類規則不同於第二分類規則。在一實施例中,所述分類規則亦可視為統計規則或邏輯規則。在一實施例中,透過同時(或平行)分析目標域名系統請求中的目標域名在不同分類規則下的字元分布狀態,可有效提高對所述惡意域名系統請求的偵測效率(例如偵測準確度)。
在一實施例中,特徵擷取模組201可分析目標域名系統請求以獲得多個評估參數。例如,所述多個評估參數可反映目標域名中包含於有意義的字串中的字元之總數、目標域名中的所有字元之總數、目標域名中的數字之總數、目標域名中的第三級域名中的不重複字元之總數、目標域名中的第一級域名與第二級域名以外的所有字元之總數、目標域名中的第三級域名中重複出現最多次的字元的出現次數、目標域名中的第三級域名中的數字與字母相鄰的發生次數、目標域名中的第三級域名中符合特定條件之字元的總數、目標域名中的第三級域名中不符合該特定條件之字元的總數及目標域名中的第三級域名的熵(entropy)值的至少其中之二。然後,特徵擷取模組201可根據所述多個評估參數獲得所述多個字元分布特徵值(即圖3的特徵值V(1)~V(n))。
在一實施例中,特徵擷取模組201可根據目標域名中包含於有意義的字串中的字元之總數以及目標域名中的所有字元之總數來獲得特徵值V(1)。例如,特徵擷取模組201可根據線上平台(例如google)所提供的字典來查詢目標域名中是否存在有意義的字串。例如,特徵擷取模組201可根據目標域名中包含於有意義的字串中的字元之總數佔目標域名中的所有字元之總數的比例來獲得特徵值V(1)。以“google.com”為例,由於其中的“google”屬於有意義的字串且其包含6個字元,故特徵擷取模組201可獲得特徵值V(1)為0.67(即6/9)。換言之,特徵值V(1)可反映目標域名中包含於有意義的字串中的字元在整個目標域名中的占比。
在一實施例中,特徵擷取模組201可根據目標域名中的數字之總數以及目標域名中的所有字元之總數來獲得特徵值V(2)。例如,特徵擷取模組201可根據目標域名中的數字之總數佔目標域名中的所有字元之總數的比例來獲得特徵值V(2)。以“x123.com”為例,其中屬於數字的字元有3個,且目標域名的總長度為4(相較於“x123”而言)或7(相較於“x123.com”而言),故特徵擷取模組201可獲得特徵值V(2)為0.75(即3/4)或0.43(即3/7)。換言之,特徵值V(2)可反映目標域名中出現數字的比例。
在一實施例中,特徵擷取模組201可根據目標域名中的所有字元之總數來獲得特徵值V(3)。例如,假設目標域名中的所有字元之總數為9,則特徵擷取模組201可獲得特徵值V(3)為9。換言之,特徵值V(3)可反映目標域名的長度。
在一實施例中,特徵擷取模組201可根據目標域名中的第三級域名中的不重複字元之總數來獲得特徵值V(4)。以“aabbcd11.google.com”為例,其中的第三級域名為“aabbcd11”且“aabbcd11”中的不重複字元有“a”、“b”、“c”、“d”及“1”。 特徵擷取模組201可根據“aabbcd11”中的不重複字元之總數(即5)獲得特徵值V(4)為5。換言之,特徵值V(4)可反映目標域名中的第三級域名中的不重複字元之總數。
在一實施例中,特徵擷取模組201可根據目標域名中的第一級域名與第二級域名以外的所有字元之總數來獲得特徵值V(5)。以“x111.google.com”為例,其中的第一級域名為“com”、第二級域名為“google”、且第三級域名為“x111”。因此,特徵擷取模組201可根據目標域名中的第一級域名與第二級域名以外的所有字元之總數(即目標域名中的第三級域名以後的所有字元之總數,例如“x111”的長度為4)獲得特徵值V(5)為4。換言之,特徵值V(5)可反映目標域名中的第一級域名與第二級域名以外的所有字元之總數。
在一實施例中,特徵擷取模組201可根據目標域名中重複出現最多次的字元的出現次數來獲得特徵值V(6)。以“ababaa.google.com”為例,其中的第三級域名為“ababaa”。在“ababaa”中,字元“a”重複出現4次,且字元“b”重複出現2次,故特徵擷取模組201可根據目標域名中重複出現4次的字元“a”獲得特徵值V(6)為4。換言之,特徵值V(6)可反映目標域名中重複出現最多次的字元的出現次數。
在一實施例中,特徵擷取模組201可根據目標域名中的第三級域名中的數字與字母相鄰的發生次數來獲得特徵值V(7)。以“c7e86e62.google.com”為例,其中的第三級域名為“c7e86e62”。在“c7e86e62”中,數字與字母相鄰的字元包括“c7”、“e8”及“6e”,故特徵擷取模組201可根據目標域名中3次的數字與字母相鄰的發生次數獲得特徵值V(7)為3。換言之,特徵值V(7)可反映目標域名中的第三級域名中的數字與字母相鄰的發生次數。
在一實施例中,特徵擷取模組201可根據目標域名中的第三級域名中符合特定條件之字元的總數來獲得特徵值V(8)。在一實施例中,符合特定條件之字元可包括預設出現頻率最高的多個字母及預設出現頻率最低的多個字母。以線上平台所統計的常見字母的出現頻率為例,以字母“e”、“t”、“a”、“o”及“i”的出現頻率最高,而字母“z”、“q”、“x”、“j”及“k”的出現頻率最低。特徵擷取模組201可根據目標域名中屬於上述出現頻率最高的字母的字母之總數與屬於上述出現頻率最低的字母的字母之總數來獲得特徵值V(8)。以“knowledge.google.com”為例,其中的第三級域名為“knowledge”。在“knowledge”中,屬於上述出現頻率最高的字母的字母包括“o”、“e”及“e”,其總數為3,且屬於上述出現頻率最低的字母的字母包括k”,其總數為1。因此,特徵擷取模組201可根據兩者總數的比例獲得特徵值V(8)為3(即3/1)。換言之,特徵值V(8)可反映目標域名中的第三級域名中較常出現的字元與較不常出現的字元之比例。
在一實施例中,特徵擷取模組201可根據目標域名中的第三級域名的熵(entropy)值來獲得特徵值V(9)。以“a1f5b6hds.google.com”為例,其中的第三級域名為“a1f5b6hds”。 特徵擷取模組201可根據“a1f5b6hds”的熵值(例如3.17)獲得特徵值V(9)為3.17。換言之,特徵值V(9)可反映目標域名中的第三級域名的熵值。在一實施例中,熵值也可以是以其他可反映目標域名中的第三級域名中的多個字元的複雜度或分散度的其他數值來取代。
須注意的是,上述特徵值V(1)~V(9)僅為範例。在一實施例中,特徵值V(1)~V(n)中更多其他類型的特徵值還可以根據不同的分類規則、統計規則或邏輯規則而藉由分析目標域名而獲得,本發明不加以限制。
圖4是根據本發明的一實施例所繪示的根據多個字元分布特徵值判斷域名系統請求是否屬於惡意域名系統請求的示意圖。請參照圖4,在一實施例中,處理器21可將特徵值V(1)~V(n)輸入至機器學習模型202中進行分析。機器學習模型202可根據特徵值V(1)~V(n)產生一個判斷結果。此判斷結果可反映目標域名系統請求是屬於惡意的域名系統請求401或正常的域名系統請求402。須注意的是,由於特徵值V(1)~V(n)涵蓋了目標域名在不同分類規則下的多種字元分布狀態,故機器學習模型202針對目標域名系統請求是否屬於惡意域名系統請求的偵測效率(例如偵測準確度)可被提高。例如,假設目標域名為“www.cht.com.tw”,則機器學習模型202有很高的機率會判定此目標域名屬於正常的域名系統請求402。然而,若目標域名為“er41d6s7f89rtr2s.com.tw”,則機器學習模型202有很高的機率會判定此目標域名屬於惡意域名系統請求401。其中,外洩的機敏資料可能就藉由目標域名中的第三級域名(例如“er41d6s7f89rtr2s”)來夾帶至遠端主機。此外,在訓練階段,亦可藉由持續使用訓練資料來訓練機器學習模型202,以提高機器學習模型202對惡意域名系統請求的偵測效率(例如偵測準確度)。
在一實施例中,圖2的儲存電路22中還儲存有驗證模組203。例如,驗證模組203可以程式碼的形式儲存於儲存電路22中。處理器21可藉由驗證模組203驗證機器學習模型202的判斷結果。例如,在機器學習模型202判定目標域名系統請求屬於惡意域名系統請求401後,驗證模組203可根據惡意域名系統請求401的發生頻率(亦稱為第一發生頻率),驗證機器學習模型202的判斷結果。
在一實施例中,驗證模組203可根據惡意域名系統請求401在某一時間範圍(亦稱為第一時間範圍)內的發生次數,決定惡意域名系統請求401的第一發生頻率。第一時間範圍包含當前偵測到惡意域名系統請求401的時間點。
在一實施例中,驗證模組203可判斷第一發生頻率是否高於一臨界值。若第一發生頻率高於所述臨界值,驗證模組203可判定當前機器學習模型202判定目標域名系統請求屬於惡意域名系統請求401的判斷結果是正確的。然而,若第一發生頻率不高於所述臨界值,驗證模組203可判定當前機器學習模型202判定目標域名系統請求屬於惡意域名系統請求401的判斷結果不是正確的。因此,驗證模組203可將目標域名系統請求標記為機器學習模型202針對惡意域名系統請求401的一個誤判。此外,驗證模組203可根據此誤判來調整機器學習模型202的決策邏輯。例如,驗證模組203可根據此誤判來調整機器學習模型202的某些權重參數之設定,以嘗試減少機器學習模型202往後發生類似誤判的機率。
在一實施例中,驗證模組203可獲得惡意域名系統請求402對應於另一時間範圍(亦稱為第二時間範圍)的發生頻率(亦稱為第二發生頻率)。例如,驗證模組203可根據惡意域名系統請求401在第二時間範圍內的發生次數,決定惡意域名系統請求401的第二發生頻率。第二時間範圍不同於第一時間範圍,且第二時間範圍不包含當前偵測到惡意域名系統請求401的時間點。驗證模組203可根據第二發生頻率決定所述臨界值。
圖5是根據本發明的一實施例所繪示的惡意域名系統請求對應於不同時間範圍的發生頻率的示意圖。請參照圖5,假設時間點T(0)~T(1)之間屬於第二時間範圍,且時間點T(2)~T(3)之間屬於第一時間範圍。其中,第一時間範圍包含當前偵測到新的惡意域名系統請求的時間點。第一時間範圍的時間長度(即T(D))等於第二時間範圍的時間長度(即T(D))。
在一實施例中,第二時間範圍是對應於離峰時段。也就是說,在第二時間範圍內,所偵測到的惡意域名系統請求的發生次數較少(例如3次)。然而,第一時間範圍是對應於當前時段。在第一時間範圍內,所偵測到的惡意域名系統請求的發生次數明顯較多(例如200次)。在一實施例中,驗證模組203可根據第二時間範圍內偵測到的惡意域名系統請求的發生次數(例如3次)(或所述第二發生頻率)決定所述臨界值。爾後,驗證模組203可判斷第一發生頻率是否高於所述臨界值(或第二發生頻率)。若第一發生頻率高於所述臨界值(例如當前時段內偵測到的200次惡意域名系統請求高於3次),則驗證模組203可判定目標域名系統請求屬於惡意域名系統請求的判斷結果是正確的。反之,若第一發生頻率不高於所述臨界值,則驗證模組203可判定目標域名系統請求屬於惡意域名系統請求的判斷結果不是正確並據以調整機器學習模型202。
圖6是根據本發明的一實施例所繪示的資料外洩偵測方法的流程圖。請參照圖6,在步驟S601中,獲得電子裝置的網路連線資料。在步驟S602中,從所述網路連線資料中擷取與域名系統有關的日誌資料。在步驟S603中,分析所述日誌資料中的域名系統請求並根據分析結果獲得多個字元分布特徵值,其中所述多個字元分布特徵值反映所述域名系統請求中的域名在不同分類規則下的字元分布狀態。在步驟S604中,由機器學習模型根據所述多個字元分布特徵值判斷所述域名系統請求是否屬於惡意域名系統請求,其中所述惡意域名系統請求用以夾帶洩資料至遠端主機。
然而,圖6中各步驟已詳細說明如上,在此便不再贅述。值得注意的是,圖6中各步驟可以實作為多個程式碼或是電路,本發明不加以限制。此外,圖6的方法可以搭配以上範例實施例使用,也可以單獨使用,本發明不加以限制。
綜上所述,本發明所提出的範例實施例可根據域名系統請求中的域名在不同分類規則下的字元分布狀態獲得多種字元分布特徵值,然後由機器學習模型根據所述多種字元分布特徵值偵測可能夾帶洩資料的惡意域名系統請求。此外,本發明所提出的範例實施例還可藉由不同偵測時段(例如離峰與尖峰時段)對於惡意域名系統請求的偵測頻率,來對機器學習模型的判斷結果進行驗證。藉此,可有效提高對駭客或惡意程式所使用以執行資料外洩的域名系統請求及/或域名的偵測效率。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
11:網路流量分析裝置
12:電子裝置
13:遠端主機
101:網路
21:處理器
22:儲存電路
23:輸入/輸出介面
201:特徵擷取模組
202:機器學習模型
203:驗證模組
301:DNS日誌
401:惡意的域名系統(DNS)請求
402:正常的域名系統(DNS)請求
T(0)~T(3):時間點
T(D):時間長度
S601~S604:步驟
圖1是根據本發明的一實施例所繪示的域名分析系統的示意圖。
圖2是根據本發明的一實施例所繪示的網路流量分析裝置的示意圖。
圖3是根據本發明的一實施例所繪示的分析域名系統請求以獲得多個字元分布特徵值的示意圖。
圖4是根據本發明的一實施例所繪示的根據多個字元分布特徵值判斷域名系統請求是否屬於惡意域名系統請求的示意圖。
圖5是根據本發明的一實施例所繪示的惡意域名系統請求對應於不同時間範圍的發生頻率的示意圖。
圖6是根據本發明的一實施例所繪示的資料外洩偵測方法的流程圖。
S601~S604:步驟
Claims (14)
- 一種資料外洩偵測方法,包括: 獲得一電子裝置的一網路連線資料; 從該網路連線資料中擷取與域名系統(Domain Name System, DNS)有關的日誌資料; 分析該日誌資料中的一域名系統請求並根據一分析結果獲得多個字元分布特徵值,其中該多個字元分布特徵值反映該域名系統請求中的一域名在不同分類規則下的字元分布狀態;以及 由一機器學習模型根據該多個字元分布特徵值判斷該域名系統請求是否屬於一惡意域名系統請求,其中該惡意域名系統請求用以夾帶一外洩資料至一遠端主機。
- 如請求項1所述的資料外洩偵測方法,其中該多個字元分布特徵值包括一第一類特徵值與一第二類特徵值, 該第一類特徵值反映該域名在一第一分類規則下的一第一字元分布狀態,該第二類特徵值反映該域名在一第二分類規則下的一第二字元分布狀態,且該第一分類規則不同於該第二分類規則。
- 如請求項1所述的資料外洩偵測方法,其中分析該日誌資料中的該域名系統請求並根據該分析結果獲得該多個字元分布特徵值的步驟包括: 分析該域名系統請求以獲得多個評估參數;以及 根據該多個評估參數獲得該多個字元分布特徵值, 其中該多個評估參數反映該域名中包含於有意義的字串中的字元之總數、該域名中的所有字元之總數、該域名中的數字之總數、該域名中的第三級域名中的不重複字元之總數、該域名中的第一級域名與第二級域名以外的所有字元之總數、該域名中的該第三級域名中重複出現最多次的字元的出現次數、該域名中的該第三級域名中的數字與字母相鄰的發生次數、該域名中的該第三級域名中符合特定條件之字元的總數、及該域名中的該第三級域名的熵(entropy)值的至少其中之二。
- 如請求項1所述的資料外洩偵測方法,更包括: 在該機器學習模型判定該域名系統請求屬於該惡意域名系統請求後,根據該惡意域名系統請求的一第一發生頻率,驗證該機器學習模型的一判斷結果。
- 如請求項4所述的資料外洩偵測方法,更包括: 根據該惡意域名系統請求在一第一時間範圍內的一發生次數,決定該惡意域名系統請求的該第一發生頻率。
- 如請求項4所述的資料外洩偵測方法,其中根據該惡意域名系統請求的該發生頻率,驗證該機器學習模型的該判斷結果的步驟包括: 若該發生頻率不高於一臨界值,將該域名系統請求標記為該惡意域名系統請求的誤判;以及 根據該誤判調整該機器學習模型的一決策邏輯。
- 如請求項6所述的資料外洩偵測方法,更包括: 獲得該惡意域名系統請求的一第二發生頻率;以及 根據該第二發生頻率決定該臨界值。
- 一種資料外洩偵測裝置,包括: 一儲存電路,用以儲存一電子裝置的一網路連線資料與一機器學習模型;以及 一處理器,耦接至該儲存電路並用以: 從該網路連線資料中擷取與域名系統(Domain Name System, DNS)有關的日誌資料; 分析該日誌資料中的一域名系統請求並根據一分析結果獲得多個字元分布特徵值,其中該多個字元分布特徵值反映該域名系統請求中的一域名在不同分類規則下的字元分布狀態;以及 經由該機器學習模型根據該多個字元分布特徵值判斷該域名系統請求是否屬於一惡意域名系統請求,其中該惡意域名系統請求用以夾帶一外洩資料至一遠端主機。
- 如請求項8所述的資料外洩偵測裝置,其中該多個字元分布特徵值包括一第一類特徵值與一第二類特徵值, 該第一類特徵值反映該域名在一第一分類規則下的一第一字元分布狀態,該第二類特徵值反映該域名在一第二分類規則下的一第二字元分布狀態,且該第一分類規則不同於該第二分類規則。
- 如請求項8所述的資料外洩偵測裝置,其中分析該日誌資料中的該域名系統請求並根據該分析結果獲得該多個字元分布特徵值的操作包括: 分析該域名系統請求以獲得多個評估參數;以及 根據該多個評估參數獲得該多個字元分布特徵值, 其中該多個評估參數反映該域名中包含於有意義的字串中的字元之總數、該域名中的所有字元之總數、該域名中的數字之總數、該域名中的第三級域名中的不重複字元之總數、該域名中的第一級域名與第二級域名以外的所有字元之總數、該域名中的該第三級域名中重複出現最多次的字元的出現次數、該域名中的該第三級域名中的數字與字母相鄰的發生次數、該域名中的該第三級域名中符合特定條件之字元的總數、及該域名中的該第三級域名的熵(entropy)值的至少其中之二。
- 如請求項8所述的資料外洩偵測裝置,其中該處理器更用以: 在該機器學習模型判定該域名系統請求屬於該惡意域名系統請求後,根據該惡意域名系統請求的一第一發生頻率,驗證該機器學習模型的一判斷結果。
- 如請求項11所述的資料外洩偵測裝置,其中該處理器更用以: 根據該惡意域名系統請求在一第一時間範圍內的一發生次數,決定該惡意域名系統請求的該第一發生頻率。
- 如請求項11所述的資料外洩偵測裝置,其中根據該惡意域名系統請求的該發生頻率,驗證該機器學習模型的該判斷結果的操作包括: 若該發生頻率不高於一臨界值,將該域名系統請求標記為該惡意域名系統請求的誤判;以及 根據該誤判調整該機器學習模型的一決策邏輯。
- 如請求項13所述的資料外洩偵測裝置,其中該處理器更用以: 獲得該惡意域名系統請求的一第二發生頻率;以及 根據該第二發生頻率決定該臨界值。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110121326A TWI796706B (zh) | 2021-06-11 | 2021-06-11 | 資料外洩偵測方法與裝置 |
EP22177935.8A EP4102771A1 (en) | 2021-06-11 | 2022-06-08 | Information leakage detection method and device using the same |
US17/834,943 US20220400133A1 (en) | 2021-06-11 | 2022-06-08 | Information leakage detection method and device using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110121326A TWI796706B (zh) | 2021-06-11 | 2021-06-11 | 資料外洩偵測方法與裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202249459A true TW202249459A (zh) | 2022-12-16 |
TWI796706B TWI796706B (zh) | 2023-03-21 |
Family
ID=82021149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110121326A TWI796706B (zh) | 2021-06-11 | 2021-06-11 | 資料外洩偵測方法與裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220400133A1 (zh) |
EP (1) | EP4102771A1 (zh) |
TW (1) | TWI796706B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11750650B1 (en) * | 2023-01-26 | 2023-09-05 | Intuit Inc. | Malicious message classificaton using machine learning models |
CN116366346B (zh) * | 2023-04-04 | 2024-03-22 | 中国华能集团有限公司北京招标分公司 | 一种dns流量还原方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2222048A1 (en) * | 2009-02-24 | 2010-08-25 | BRITISH TELECOMMUNICATIONS public limited company | Detecting malicious behaviour on a computer network |
US10742591B2 (en) * | 2011-07-06 | 2020-08-11 | Akamai Technologies Inc. | System for domain reputation scoring |
US10164989B2 (en) * | 2013-03-15 | 2018-12-25 | Nominum, Inc. | Distinguishing human-driven DNS queries from machine-to-machine DNS queries |
US9794229B2 (en) * | 2015-04-03 | 2017-10-17 | Infoblox Inc. | Behavior analysis based DNS tunneling detection and classification framework for network security |
US9876814B2 (en) * | 2015-05-11 | 2018-01-23 | Cisco Technology, Inc. | Detecting domains generated by a domain generation algorithm |
WO2016190861A1 (en) * | 2015-05-27 | 2016-12-01 | Hewlett Packard Enterprise Development Lp | Identifying algorithmically generated domains |
US10097568B2 (en) * | 2016-08-25 | 2018-10-09 | International Business Machines Corporation | DNS tunneling prevention |
CN106713303A (zh) * | 2016-12-19 | 2017-05-24 | 北京启明星辰信息安全技术有限公司 | 一种恶意域名检测方法及系统 |
CN108206814B (zh) * | 2016-12-20 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 一种防御dns攻击的方法、装置及系统 |
US11652845B2 (en) * | 2017-03-09 | 2023-05-16 | Nippon Telegraph And Telephone Corporation | Attack countermeasure determination apparatus, attack countermeasure determination method, and attack countermeasure determination program |
US10498751B2 (en) * | 2017-05-31 | 2019-12-03 | Infoblox Inc. | Inline DGA detection with deep networks |
US11601466B2 (en) * | 2017-09-13 | 2023-03-07 | Comcast Cable Communications, Llc | Identifying malware devices with domain name system (DNS) queries |
US11025648B2 (en) * | 2017-09-21 | 2021-06-01 | Infoblox Inc. | Detection of algorithmically generated domains based on a dictionary |
CN107786575B (zh) * | 2017-11-11 | 2020-07-10 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
CN108449349B (zh) * | 2018-03-23 | 2021-01-26 | 新华三大数据技术有限公司 | 防止恶意域名攻击的方法及装置 |
US11095666B1 (en) * | 2018-08-28 | 2021-08-17 | Ca, Inc. | Systems and methods for detecting covert channels structured in internet protocol transactions |
TWI740086B (zh) * | 2019-01-08 | 2021-09-21 | 安碁資訊股份有限公司 | 網域名稱辨識方法及網域名稱辨識裝置 |
CN110166422B (zh) * | 2019-04-01 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 域名行为识别方法、装置、可读存储介质和计算机设备 |
US11595357B2 (en) * | 2019-10-23 | 2023-02-28 | Cisco Technology, Inc. | Identifying DNS tunneling domain names by aggregating features per subdomain |
-
2021
- 2021-06-11 TW TW110121326A patent/TWI796706B/zh active
-
2022
- 2022-06-08 EP EP22177935.8A patent/EP4102771A1/en active Pending
- 2022-06-08 US US17/834,943 patent/US20220400133A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220400133A1 (en) | 2022-12-15 |
TWI796706B (zh) | 2023-03-21 |
EP4102771A1 (en) | 2022-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9479524B1 (en) | Determining string similarity using syntactic edit distance | |
CN105827594B (zh) | 一种基于域名可读性及域名解析行为的可疑性检测方法 | |
Yadav et al. | Detecting algorithmically generated malicious domain names | |
US20220400133A1 (en) | Information leakage detection method and device using the same | |
CN110830445B (zh) | 一种异常访问对象的识别方法及设备 | |
WO2021135919A1 (zh) | 基于机器学习的sql语句安全检测方法、装置、设备及介质 | |
CN107666490A (zh) | 一种可疑域名检测方法及装置 | |
JP6680945B2 (ja) | ログ分析装置、ログ分析方法およびログ分析プログラム | |
CN112929390B (zh) | 一种基于多策略融合的网络智能监控方法 | |
US11956261B2 (en) | Detection method for malicious domain name in domain name system and detection device | |
CN112866023A (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN110213255B (zh) | 一种对主机进行木马检测的方法、装置及电子设备 | |
CN114003903A (zh) | 一种网络攻击追踪溯源方法及装置 | |
US20190238572A1 (en) | Indicating malware generated domain names using n-grams | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
US10965697B2 (en) | Indicating malware generated domain names using digits | |
Manasrah et al. | DGA-based botnets detection using DNS traffic mining | |
US10911481B2 (en) | Malware-infected device identifications | |
JP5732372B2 (ja) | ソフトウェア検知ルール生成装置、ソフトウェア検知ルール生成方法およびソフトウェア検知ルール生成プログラム | |
CN111431884B (zh) | 一种基于dns分析的主机失陷检测方法及装置 | |
CN111541687B (zh) | 一种网络攻击检测方法及装置 | |
CN117354024A (zh) | 基于大数据的dns恶意域名检测系统及方法 | |
CN112583827A (zh) | 一种数据泄露检测方法及装置 | |
CN115529147B (zh) | 数据外泄检测方法与装置 | |
CN110851828A (zh) | 基于多维度特征的恶意url监测方法、装置和电子设备 |