TWI689839B

TWI689839B - 偵測網址可疑程度的方法

Info

Publication number: TWI689839B
Application number: TW108129139A
Authority: TW
Inventors: 陳少謙; 黃秀娟
Original assignee: 中華電信股份有限公司
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2020-04-01
Also published as: TW202109329A

Abstract

本發明提供一種偵測網址可疑程度的方法，包括：取得一待測網址，並將該待測網址拆解為一第一網域名稱及一第一路徑；將該第一網域名稱反轉為一第二網域名稱；將該第二網域名稱轉換並映射為多個第一向量；將該第一路徑轉換並映射為多個第二向量；將該些第一向量及該些第二向量輸入一長短期記憶模型，以由該長短期記憶模型輸出該待測網址的一可疑程度。

Description

偵測網址可疑程度的方法

本發明是有關於一種網路安全技術，且特別是有關於一種偵測網址可疑程度的方法。

為了誘騙使用者點擊惡意網址，網路犯罪者/詐騙者常會將其所架設的網站網址偽裝成受信任公司的網站網址，從而誘騙使用者連到其架設的假網站，以盜取使用者的線上帳號、密碼或個資、信用卡等機敏資料。這種手法經常搭配釣魚信件或是社交工程的方法，讓使用者更容易掉入詐騙者所設下的陷阱。

因此，若能在使用者受害前提前告知使用者一個網站是否有仿冒知名網站，或是待保護目標網站域名的嫌疑，就可以大幅的降低使用者的受害可能。

有鑑於此，本發明提供一種偵測網址可疑程度的方法，其可用於解決上述技術問題。

本發明提供一種偵測網址可疑程度的方法，包括：取得一待測網址，並將待測網址拆解為一第一網域名稱及一第一路徑；將第一網域名稱反轉為一第二網域名稱；將第二網域名稱轉換並映射為多個第一向量；將第一路徑轉換並映射為多個第二向量；將前述第一向量及前述第二向量輸入一長短期記憶模型，以由長短期記憶模型輸出待測網址的一可疑程度。

基於上述，本發明的方法可在取得待測網址之後，對應地判定此待測網址的可疑程度，藉以作為是否允許存取待測網址的依據。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

概略而言，本發明的方法是利用深度學習之方法偵測一個域名是否有仿冒知名網站域名，或是待保護目標網站域名嫌疑，並配合白名單回饋過濾與網址一般性單字過濾(包含頂級域名、與知名品牌相似但本身為一個常用單字的字串)以降低模型之誤報率，找出有仿冒域名嫌疑之風險域名，最後再利用知名品牌/待保護目標網站域名比對找出此網域所模仿的對象。

請參照圖1，其是依據本發明之一實施例繪示的系統架構圖。如圖1所示，系統100包括仿冒域名深度學習模組110、白名單回饋過濾模組120、白名單資料庫130及知名品牌/待保護目標網站域名比對模組140。在本發明的實施例中，仿冒域名深度學習模組110可用以偵測一個網址其域名為仿冒域名之機率。白名單回饋過濾模組120可用以過濾遭誤判的正常網址，並可根據使用者回饋進行修改。白名單資料庫130可用以提供企業自行註冊之仿冒域名清單。知名品牌/待保護目標網站域名比對模組140可用以找出遭仿冒的對象，但本發明可不限於此。

在一實施例中，仿冒域名深度學習模組110可在取得待測網址之後，輸出相關網域的名稱與此網域仿冒知名網站域名/待保護目標網站域名的可疑程度，並將待測網址的可疑程度送入白名單回饋過濾模組120中。

在一實施例中，白名單回饋過濾模組120可用於將一些正常網站自行註冊的仿冒域名從偵測中剃除。具體而言，為了防止他人假冒自己的網域，有些知名網站會搶先註冊與自己網域相似的域名，以防止這些域名遭有心人士利用（例如Facebook ^TM註冊了「www.facbook.com」的域名等）。在此情況下，若不進行額外的辨識操作，將可能產生誤報，亦即將不可疑網址誤報為可疑網址。因此，白名單回饋過濾模組120可確認此網域是否存在於白名單資料庫130中。

若此網域已存在於白名單資料庫130，即代表待測網址為不可疑。相反地，若此網域不存在於白名單中，就將此網域與可疑程度送入知名品牌/待保護目標網站域名比對模組140。

在一實施例中，知名品牌/待保護目標網站域名比對模組140可使用多種分割字元將域名切割成若干片段，並比較域名中的各片段是否存在與知名品牌/待保護目標網站域名相似的字串，以找出可疑網域所模仿的品牌。若比對成功，則輸出此網域與其可疑程度至回報偵測結果，並將偵測結果呈現給使用者。而使用者在收到偵測結果後若覺得此次偵測結果為誤報，則將誤報網域加入白名單資料庫130中並結束偵測。然而，若找不到與其相似的品牌，則輸出此網域並不可疑並結束偵測。

為使上述概念更為清楚，以下將具體說明系統100中各模組的操作細節。

請參照圖2，其是依據本發明之一實施例繪示的偵測網址可疑程度方法的流程圖。本實施例的方法可由圖1的仿冒域名深度學習模組110執行，以下即搭配圖1的內容說明圖2各步驟的細節。此外，為使圖2更易於理解，以下將另輔以圖3作說明。

首先，在步驟S210中，仿冒域名深度學習模組110可取得待測網址，並將待測網址拆解為第一網域名稱及第一路徑。在不同的實施例中，待測網址例如是使用者於網頁瀏覽器中輸入或點擊的網址，但可不限於此。

請參照圖3，其是依據本發明之一實施例繪示的估計待測網址可疑程度的示意圖。在本實施例中，係假設「gorgle.com/index.php」即為本發明所考慮的待測網址310，但其僅用以舉例，並非用以限定本發明可能的實施方式。

在圖3中，待測網址310例如可被拆解為第一網域名稱312a（即，「gorgle.com」）及第一路徑312b（即，「index.php」）。

之後，在步驟S220中，仿冒域名深度學習模組110可將第一網域名稱312a反轉為第二網域名稱322a（即，「moc.elgrog」）。在此情況下，由於網域名稱的架構為由後往前解析，所以若將網域名稱反轉則可以讓模型更好地學習網域架構。

在步驟S230中，仿冒域名深度學習模組110可將第二網域名稱322a轉換並映射為多個第一向量352a。具體而言，在一實施例中，仿冒域名深度學習模組110可先將第二網域名稱322a中的各個字元（下稱第一字元）轉換為對應的數字（下稱第一數字）。

以圖3為例，第二網域名稱322a中的各第一字元可經轉換為「12, 14, 2, -51, 4, 11, 6, 17, 14, 6」等第一數字332a，但可不限於此。之後，仿冒域名深度學習模組110可將上述第一數字332a填補至目標長度（以N表示）。在圖3中，仿冒域名深度學習模組110可在上述第一數字332a之後填補一定數量的0，以將上述第一數字填補至目標長度，但可不限於此。在一實施例中，若上述第一數字的原始長度已超過目標長度，則仿冒域名深度學習模組110可上述第一數字截短至目標長度，亦即丟棄超過目標長度的部分，但可不限於此。

之後，仿冒域名深度學習模組110可將填補後的上述第一數字342a映射為第一向量352a。在一實施例中，填補後的上述第一數字342a可個別被映射為具有特定維度（下稱M）的向量。並且，由於上述目標長度為N，則第一向量352a的數量亦為N。亦即，第一數字332a可經映射而產生N個M維的第一向量352a，但本發明可不限於此。

相似地，在步驟S240中，仿冒域名深度學習模組110可將第一路徑312b轉換並映射為多個第二向量352b。具體而言，在一實施例中，仿冒域名深度學習模組110可先將第一路徑312b中的各個字元（下稱第二字元）轉換為對應的數字（下稱第二數字）。以圖3為例，第一路徑312b中的各第二字元可經轉換為「8, 13, 3, 4, 23, -51, 15, 7, 15」等第二數字332b，但可不限於此。之後，仿冒域名深度學習模組110可將上述第二數字332b填補至目標長度（即，N）。在圖3中，仿冒域名深度學習模組110可在上述第二數字332b之後填補一定數量的0，以將上述第二數字填補至目標長度，但可不限於此。在一實施例中，若上述第二數字的原始長度已超過目標長度，則仿冒域名深度學習模組110可上述第二數字截短至目標長度，亦即丟棄超過目標長度的部分，但可不限於此。

之後，仿冒域名深度學習模組110可將填補後的上述第二數字342b映射為第二向量352b。在一實施例中，填補後的上述第二數字342b可個別被映射為具有特定維度（即，M）的向量。並且，由於上述目標長度為N，則第二向量352b的數量亦為N。亦即，第二數字332b可經映射而產生N個M維的第二向量352b，但本發明可不限於此。

接著，在步驟S250中，仿冒域名深度學習模組110可將前述第一向量352a及前述第二向量352b輸入長短期記憶（Long Short-Term Memory，LSTM）模型360，以由長短期記憶模型360輸出待測網址310的可疑程度P。在一實施例中，仿冒域名深度學習模組110可將第一向量352a（共N個）及第二向量352b（共N個）拼接為矩陣355，並將矩陣355輸入至長短期記憶模型360。在不同的實施例中，可選用各式已知的長短期記憶模型態樣來實現長短期記憶模型360，且其可為一個事先訓練好的模型，而其訓練樣本使用的是等量的正常域名網址與仿冒域名網址進行訓練，並在訓練完成後儲存訓練完成的模型以供偵測使用，但本發明可不限於此。

在一實施例中，可疑程度P可表徵為一可疑分數，其可介於0及1之間，代表有仿冒知名網站/待保護目標網站域名的可疑程度，但本發明可不限於此。

由上可知，本發明的方法可在取得待測網址之後，對應地判定此待測網址的可疑程度，藉以作為是否允許存取待測網址的依據。

在一實施例中，在取得可疑程度P之後，本發明還可基於以下圖4的機制來進一步確認是否允許連結至待測網址。並且，以下還將輔以圖5所示情境來進行例示性說明。

請參照圖4及圖5，其中圖4是依據圖2及圖3繪示的基於仿冒程度決定是否允許連結至待測網址的示意圖，而圖5是依據圖3繪示的估計仿冒程度的示意圖。

在本實施例中，在執行圖2的步驟S250以取得待測網址310的可疑程度P之後，白名單回饋過濾模組120可判斷待測網址310是否屬於白名單。舉例而言，白名單回饋過濾模組120可判斷待測網址310是否存在於白名單資料庫130所記錄的白名單中。若是，則代表待測網址310並非可疑，故可執行步驟S420以允許連結至待測網址310。

另一方面，若待測網址310不屬於白名單，則知名品牌/待保護目標網站域名比對模組140可執行步驟S430以取得待測網址310相對於特定目標域名的仿冒程度。

具體而言，在一實施例中，知名品牌/待保護目標網站域名比對模組140可將第一網域名稱312a拆解為多個字串510a、511a。舉例而言，知名品牌/待保護目標網站域名比對模組140可基於句點、斜線、底線或其他存在於第一網域名稱312a中的非文字符號以將第一網域名稱312a區分為字串510a、511a。

之後，知名品牌/待保護目標網站域名比對模組140可對字串510a、511a進行一般性單字過濾操作，以從字串510a、511a中取出第一字串520a。舉例而言，在進行上述一般性單字過濾操作時，知名品牌/待保護目標網站域名比對模組140可將字串510a、511a中的一般性單字（例如包括頂級域名、與知名品牌相似但本身為常用單字的字串）過濾，以降低誤報率，但可不限於此。在圖5中，由於字串511a（即，「com」）即屬於本發明所界定的一般性單字，故字串511a將被濾除，並只留下字串510a作為第一字串520a。

之後，知名品牌/待保護目標網站域名比對模組140可將第一字串520a反轉為第二字串530a（例如「elgrog」）。接著，知名品牌/待保護目標網站域名比對模組140可從待保護目標網站域名資料庫的多個目標網域名稱取得第一目標網域名稱520b。

在不同的實施例中，所述多個目標網域名稱例如是各式知名品牌/待保護目標網站域名。據此，在一實施例中，知名品牌/待保護目標網站域名比對模組140可從上述目標網域名稱中找出待測網址310最可能仿冒的對象作為特定網域名稱，並相應地估計上述仿冒程度。因此，知名品牌/待保護目標網站域名比對模組140可從上述目標網域名中選擇任一者作為第一目標網域名稱520b，並進行下列操作以判斷第一目標網域名稱520b是否即為上述特定網域名稱。

具體而言，在取得第一目標網域名稱520b之後，知名品牌/待保護目標網站域名比對模組140可將第一目標網域名稱520b反轉為第二目標網域名稱530b。之後，知名品牌/待保護目標網站域名比對模組140可取得第一字串520a相對於第一目標網域名稱520b的第一仿冒程度p1。

在一實施例中，第一仿冒程度p1可表徵為：

，其中

為第一字串520a，

為第一目標網域520b，w為介於0及1之間的權重值（其可由設計者依需求而設定），

代表

和

的前n個字母相同的比例，

代表

和

的相似度。在不同的實施例中，n可由設計者依需求而設定為任意整數值。舉例而言，在圖5的情境中，假設n為6，則由於第一字串520a及第一目標網域520b的前6個字母中有5個字母相同，故

例如是

。

之後，知名品牌/待保護目標網站域名比對模組140可取得第二字串530a相對於第二目標網域名稱530b的第二仿冒程度p2。在一實施例中，第二仿冒程度p2可表徵為：

，其中

為第二字串530a，

為第二目標網域530b，

代表

和

的前n個字母相同的比例，

代表

和

的相似度。在圖5的情境中，假設n為6，則由於第二字串530a及第二目標網域530b的前6個字母中有5個字母相同，故

例如是

。

應了解的是，由於以上所採用的計算方法比起一般的字串相似度比對更著重於發現字串中間遭到竄改的情形，由於域名仿冒者在仿冒時較常使用的手法是更改中間的文字，而不是更動頭尾的文字以減少被發現的機會，這使得上述手段在偵測域名仿冒時可以表現得比其他距離演算法更優秀。

之後，知名品牌/待保護目標網站域名比對模組140可以第一仿冒程度p1及第二仿冒程度p2中較高的一者作為第一目標網域名稱520b的候選仿冒程度SC。並且，反應於此候選仿冒程度SC高於一預設門限值，知名品牌/待保護目標網站域名比對模組140可以第一目標網域名稱520b作為特定目標域名，並以候選仿冒程度SC作為仿冒程度。

亦即，若第一目標網域名稱520b的候選仿冒程度SC高於預設門限值，則代表第一目標網域名稱520b可能即為待測網址310欲仿冒的特定目標域名，但本發明可不限於此。

另一方面，若候選仿冒程度SC不高於預設門限值，則知名品牌/待保護目標網站域名比對模組140可排除第一目標網域名稱520b，並從上述網域名稱中選擇另一者作為新的第一目標網域名稱。之後，知名品牌/待保護目標網站域名比對模組140可再重複上述操作，直至上述目標網域名稱皆已被排除。

在一實施例中，若知名品牌/待保護目標網站域名比對模組140未找到特定目標域名，則代表待測網址310為不可疑，並可接續允許使用者連結至待測網址310，但可不限於此。

在圖5的情境中，假設第一目標網域名稱520b的候選仿冒程度SC高於預設門限值。在此情況下，知名品牌/待保護目標網站域名比對模組140可回報可疑程度P，並不允許連結至該待測網址310。在一實施例中，知名品牌/待保護目標網站域名比對模組140可將可疑程度P回報至使用者的瀏覽器、暫時阻擋當下連線，並提供關聯於待測網址310的警告訊息等。在一實施例中，此警告訊息例如可用於告知使用者連結至待測網址310的危險性。並且，在一些實施例中，上述警告訊息還可包括對應於待測網址310的鏈結，以供使用者在確認危險性後可直接點擊。

在一實施例中，若判定上述鏈結被觸發，即代表使用者仍欲存取待測網址310，故知名品牌/待保護目標網站域名比對模組140可允許使用者連結至待測網址310。

在其他實施例中，本發明的方法還可用於讓某些域名持有者得知是否有他人在模仿自己的域名。

舉例而言，若一間公司想知道是否有人在模仿自己的品牌，可以藉由分析公司中的流量日誌來達成。流量日誌可擷取出網址連線紀錄，如下表1所示。

表1

在表1中，所需欄位共有三個分別是網域名稱、路徑和HTTP狀態碼，其中網域名稱以及路徑作為判斷可疑程度使用，而HTTP狀態碼則是為了判斷是否有成功連線，例如HTTP狀態碼顯示為4XX代表用戶端錯誤，而2XX則代表成功回應。使用上網路流量日誌蒐集完成後會先根據HTTP狀態碼將4XX濾除掉，濾除的目的是為了過濾失敗的連線與使用者的輸入錯誤(如拼字錯誤)。濾除完之後將剩下的資料進行網址模仿的判定，而其細節可參照圖2至圖5的說明，於此不另贅述。在偵測完成後，可輸出有模仿嫌疑的網址並結束偵測。

綜上所述，本發明提出使用長短期記憶模型來辨識網站域名是否有仿冒知名網站域名或是待保護目標網站域名之嫌疑，可有效識別網站域名是否有仿冒知名網站或是待保護目標網站域名的嫌疑。本專利提出將網址拆解成網域與路徑，並使用網域反轉之方法以提升仿冒域名偵測模型之準確率。本發明提出知名品牌/待保護目標網站域名比對方法，由於仿冒者為了隱藏仿冒行為經常更改字串中間一小部分，本發明將網域名稱以特殊符號拆解並加強比對字串中間的篡改行為來找出仿冒網域所模仿的對象。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:系統 110:仿冒域名深度學習模組 120:白名單回饋過濾模組 130:白名單資料庫 140:知名品牌/待保護目標網站域名比對模組 310:待測網址 312a:第一網域名稱 312b:第一路徑 322a:第二網域名稱 332a:第一數字 332b:第二數字 342a:填補後的第一數字 342b:填補後的第二數字 352a:第一向量 352b:第二向量 355:矩陣 360:長短期記憶模型 510a、511a:字串 520a:第一字串 520b:第一目標網域名稱 530a:第二字串 530b:第二目標網域名稱 p1:第一仿冒程度 p2:第二仿冒程度 P:可疑程度 SC:候選仿冒程度 S210~S250、S410~S440:步驟

圖1是依據本發明之一實施例繪示的系統架構圖。圖2是依據本發明之一實施例繪示的偵測網址可疑程度方法的流程圖。圖3是依據本發明之一實施例繪示的估計待測網址可疑程度的示意圖。圖4是依據圖2及圖3繪示的基於仿冒程度決定是否允許連結至待測網址的示意圖。圖5是依據圖3繪示的估計仿冒程度的示意圖。

S210~S250:步驟

Claims

一種偵測網址可疑程度的方法，包括：取得一待測網址，並將該待測網址拆解為一第一網域名稱及一第一路徑；將該第一網域名稱反轉為一第二網域名稱；將該第二網域名稱轉換並映射為多個第一向量；將該第一路徑轉換並映射為多個第二向量；將該些第一向量及該些第二向量輸入一長短期記憶模型，以由該長短期記憶模型輸出該待測網址的一可疑程度。
如申請專利範圍第1項所述的方法，其中該待測網址取自於該使用者在一瀏覽器上輸入或點擊的網址。
如申請專利範圍第1項所述的方法，其中該第二網域包括多個第一字元，且將該第二網域名稱轉換並映射為該些第一向量的步驟包括：將該些第一字元轉換為對應的多個第一數字；將該些第一數字填補至一目標長度；將填補後的該些第一數字映射為該些第一向量。
如申請專利範圍第3項所述的方法，其中該第一路徑包括多個第二字元，且將該第一路徑轉換並映射為多個第二向量的步驟包括：將該些第二字元轉換為對應的多個第二數字；將該些第二數字填補至該目標長度；將填補後的該些第二數字映射為該些第二向量。
如申請專利範圍第1項所述的方法，更包括：判斷該待測網址是否屬於一白名單；反應於該待測網址屬於該白名單，允許連結至該待測網址；反應於該待測網址不屬於該白名單，取得該待測網址相對於一特定目標域名的一仿冒程度；回報該可疑程度，並不允許連結至該待測網址。
如申請專利範圍第5項所述的方法，其中取得該待測網址相對於該特定目標域名的該仿冒程度的步驟包括： (a)將該第一網域名稱拆解為多個字串，並對該些字串進行一般性單字過濾操作，以從該些字串中取出一第一字串； (b)將該第一字串反轉為一第二字串； (c)從一待保護目標網站域名資料庫的多個目標網域名稱中取得一第一目標網域名稱； (d)將該第一目標網域名稱反轉為一第二目標網域名稱； (e)取得該第一字串相對於該第一目標網域名稱的一第一仿冒程度； (f)取得該第二字串相對於該第二目標網域名稱的一第二仿冒程度； (g)以該第一仿冒程度及該第二仿冒程度中較高的一者作為該第一目標網域名稱的一候選仿冒程度； (h)反應於該候選仿冒程度高於一預設門限值，以該第一目標網域名稱作為該特定目標域名，並以該候選仿冒程度作為該仿冒程度； (i)反應於該候選仿冒程度不高於該預設門限值，排除該第一目標網域名稱，從該些網域名稱中選擇另一者作為該第一目標網域名稱，並返回步驟(d)，直至該些目標網域名稱皆已被排除。
如申請專利範圍第6項所述的方法，其中該第一仿冒程度表徵為：
，其中
為該第一字串，
為該第一目標網域，w為介於0及1之間的權重值，
代表
和
的前n個字母相同的比例，
代表
和
的相似度。
如申請專利範圍第7項所述的方法，其中該第二仿冒程度表徵為：
，其中
為該第二字串，
為該第二目標網域，
代表
和
的前n個字母相同的比例，
代表
和
的相似度。
如申請專利範圍第7項所述的方法，更包括：反應於判定未有該特定目標域名，判定該待測網址為不可疑。
如申請專利範圍第5項所述的方法，更包括：提供關聯於該待測網址的一警告訊息，其中該警告訊息包括對應於該待測網址的一鏈結；以及反應於判定該鏈結被觸發，允許連結至該待測網址。