TWI623850B

TWI623850B - 針對惡意程式碼來評估檔案之電腦實施方法、系統及非暫時性電腦可讀媒體

Info

Publication number: TWI623850B
Application number: TW105132852A
Authority: TW
Inventors: 曹文光; 吳秉寰; 劉威志
Original assignee: 趨勢科技股份有限公司
Priority date: 2016-08-29
Filing date: 2016-10-12
Publication date: 2018-05-11
Also published as: TW201807612A; US10169581B2; US20180060576A1

Abstract

藉由將正常檔案及惡意檔案分成區段來準備一種用於訓練一機器學習模組之訓練資料集。一正常檔案之各區段經標記為正常的。一惡意檔案之各區段經標記為惡意的，而不管該區段是否為惡意的。該等正常檔案及惡意檔案之該等區段係用以訓練該機器學習模組。該經訓練之機器學習模組被封裝為一機器學習模型，其被提供至一端點電腦。在該端點電腦中，一未知檔案被分成區段，其等被輸入至該機器學習模型，以在任一惡意區段存在於該未知檔案中之情況下，識別該未知檔案之一惡意區段。

Description

針對惡意程式碼來評估檔案之電腦實施方法、系統及非暫時性電腦可讀媒體

本發明大體上係關於電腦安全，且更特定言之(但非排他性地)係關於用於評估針對惡意程式碼之電腦檔案之方法及系統。

機器學習技術通常用於偵測惡意軟體。目前，用於惡意軟體偵測之機器學習涉及監督學習以產生一機器學習模型。一般而言，準備已知惡意檔案及已知正常(即，良性)檔案之一訓練資料集。一惡意檔案被標記為「惡意的」，且一正常檔案被標記為「正常的」。訓練資料集被輸入至一機器學習模組，其採用一機器學習算法，諸如支援向量機(SVM)或隨機森林算法。機器學習模組自訓練資料集學習以做出關於一未知檔案是惡意還是正常之一預測。一經訓練之機器學習模組經封裝為被提供至一電腦系統之一機器學習模型。在電腦系統中接收之一未知檔案被輸入至機器學習模型，其將未知檔案分類為惡意的或正常的。

當前可用的機器學習模型係非常複雜的，且能夠以一高準確度對檔案進行分類。然而，儘管一典型機器學習模型可判斷一未知檔案是否係惡意的，但機器學習模型不能識別檔案之哪個區段或哪些區段係惡意的。

在一項實施例中，藉由將正常檔案及惡意檔案分成區段來準備一種用於訓練一機器學習模組之訓練資料集。一正常檔案之各區段經標記為正常的。一惡意檔案之各區段經標記為惡意的，而不管該區段是否為惡意的。該等正常檔案及惡意檔案之該等區段用以訓練該機器學習模組。該經訓練之機器學習模組經封裝為一機器學習模型，其被提供至一端點電腦。在該端點電腦中，一未知檔案被分成區段，其等被輸入至該機器學習模型以在任一惡意區段存在於該未知檔案中之情況下識別該未知檔案之一惡意區段。

在閱讀包含隨附圖式及申請專利範圍之本發明的全文之後，本發明之此等及其他特徵對於一般技術者將係顯而易見的。

100‧‧‧電腦系統

101‧‧‧處理器

102‧‧‧使用者輸入裝置

103‧‧‧匯流排

104‧‧‧顯示監視器

105‧‧‧電腦網路介面

106‧‧‧資料儲存裝置

108‧‧‧主記憶體

109‧‧‧電腦網路

110‧‧‧軟體模組

200‧‧‧後端電腦系統

201‧‧‧箭頭

202‧‧‧箭頭

203‧‧‧箭頭

204‧‧‧箭頭

205‧‧‧箭頭

206‧‧‧箭頭

210‧‧‧預處理器

211-1‧‧‧檔案區段

211-2‧‧‧檔案區段

211-3‧‧‧檔案區段

211-4‧‧‧檔案區段

211-5‧‧‧檔案區段

211-6‧‧‧檔案區段

211-7‧‧‧檔案區段

211-8‧‧‧檔案區段

211-n‧‧‧檔案區段

212-1‧‧‧檔案區段

212-2‧‧‧檔案區段

212-3‧‧‧檔案區段

212-4‧‧‧檔案區段

212-5‧‧‧檔案區段

212-6‧‧‧檔案區段

212-7‧‧‧檔案區段

212-8‧‧‧檔案區段

212-n‧‧‧檔案區段

220‧‧‧機器學習模組

230‧‧‧機器學習模型

300‧‧‧端點電腦系統

301‧‧‧箭頭

302‧‧‧箭頭

303‧‧‧箭頭

304‧‧‧箭頭

305‧‧‧箭頭

320‧‧‧惡意軟體偵測器

321-1‧‧‧檔案區段

321-2‧‧‧檔案區段

321-N‧‧‧檔案區段

圖1展示根據本發明之一實施例之一電腦系統之一示意圖。

圖2展示根據本發明之一實施例之一後端電腦系統之一邏輯圖。

圖3展示一惡意檔案之一實例性檔案區段。

圖4展示一正常檔案之一實例性檔案區段。

圖5展示根據本發明之一實施例之由一預處理器準備之一正常檔案。

圖6展示根據本發明之一實施例之由一預處理器準備之一惡意檔案。

圖7展示根據本發明之一實施例之用於識別惡意檔案之一系統。

不同圖式中之相同參考標記的使用指示相同或類似組件。

在本發明中，提供諸多特定細節(諸如設備、組件及方法之實例)以提供對本發明之實施例的透徹理解。然而，一般技術者將認識到，可在不具有特定細節之一或多者的情況下實踐本發明。在其他情況下，未展示或描述眾所周知之細節以避免混淆本發明之態樣。

現參考圖1，其展示根據本發明之一實施例之一電腦系統100之一示意圖。例如，電腦系統100可被用作一端點電腦系統或一後端電腦系統。電腦系統100可具有更少或更多組件，以滿足一特定應用之需求。電腦系統100可包含一或多個處理器101。電腦系統100可具有耦合其各種組件之一或多個匯流排103。電腦系統100可包含一或多個使用者輸入裝置102(例如，鍵盤、滑鼠)、一或多個資料儲存裝置106(例如，硬碟機、光碟、通用串列匯流排記憶體)、一顯示監視器104(例如，液晶顯示器、平板監視器)、一電腦網路介面105(例如，網路配接器、數據機)，及一主記憶體108(例如，隨機存取記憶體)。電腦網路介面105可經耦合至一電腦網路109，在此實例中，電腦網路109包含網際網路。

電腦系統100係用一或多個軟體模組110來程式化之一特定機器，其包括非暫時性地被儲存於主記憶體108中之指令，以由處理器101執行以致使電腦系統100執行對應之經程式化步驟。一製品可經體現為包含指令之電腦可讀儲存媒體，該等指令在由處理器101執行時，致使得電腦系統100可操作以執行一或多個軟體模組110之功能。在圖1之實例中，當電腦系統100被用作一後端電腦系統時，軟體模組110包括一預處理器及一機器學習模組。當電腦系統100被用作一端點電腦系統時，軟體模組110可包括具有一機器學習模型之一惡意軟體偵測器。

圖2展示根據本發明之一實施例之後端電腦系統200之一邏輯圖。後端電腦系統200可包括用於產生用於識別惡意檔案(亦稱為「惡意軟體」)及一惡意檔案之哪個區段具有惡意程式碼之一機器學習模型230的一或多個電腦。

在圖2之實例中，後端電腦系統200接收已知正常檔案及已知惡意檔案之樣本之一訓練資料集。在一項實施例中，已知正常檔案及已知惡意檔案係可執行檔案，諸如可攜式可執行(PE)格式之檔案。已知正常檔案及已知惡意檔案可以自可信客戶、誘捕系統及防病毒研究中心接收，僅舉幾個實例。已知正常檔案及已知惡意檔案可經掃描或測試，用於驗證惡意軟體。

預處理器210可包括用於將一檔案劃分為複數個區段並將一分類標籤指派至各個別區段之指令。在一項實施例中，預處理器210將一已知惡意檔案之各區段標記為惡意的，並將已知一正常檔案之各區段標記為正常的。與其中一整個檔案被指派一單個分類標籤之監督訓練形成顯著對照，預處理器210將一分類標籤指派至一檔案之各個別區段。

因為預處理器210將一惡意檔案之各區段標記為惡意的，而不管該區段是否為惡意的，所以惡意檔案的一些區段可最終被錯誤地標記。亦即，惡意檔案之一正常區段(即，不具有惡意程式碼之區段)亦將被標記為惡意的。此與先前方法明顯不同，其中訓練資料集中之樣本被正確地標記，且各標籤應用於一整個檔案，而非一檔案之個別區段。

在圖2之實例中，預處理器210自已知正常檔案之樣本接收一正常檔案，將正常檔案分成複數個檔案區段211(即，211-1、211-2、...、211-n)(參見箭頭201)，並將各檔案區段211標記為正常的(L：NORM)(參見箭頭202)。預處理器210將各檔案區段211標記為正常的，而不管檔案區段211是否實際上係正常的。類似地，預處理器210自已知惡意檔案之樣本接收一惡意檔案，將惡意檔案劃分為複數個檔案區段212(即，212-1、212-2、...、 212-n)(參見箭頭204)，並將各檔案區段212標記為惡意的(L：MAL)(參見箭頭205)。預處理器210將各檔案區段212標記為惡意的，而不管檔案區段212是否實際上係惡意的。各檔案區段可為足夠大以含有惡意程式碼之一可識別部分。檔案區段211及212之大小未必相同，此係因為一機器學習模組可適應不同的大小，或根據需要來填充/填補一檔案區段。圖3展示自一惡意PE檔案提取之一實例性檔案區段，且圖4展示自一正常PE檔案提取之一實例性檔案區段。

圖5展示根據本發明之一實施例之由預處理器210準備之一正常檔案。在圖5之實例中，預處理器210將正常檔案劃分為複數個檔案區段211，並將各檔案區段211標記為正常的(L：NORM)。在一正常檔案之情況下，各檔案區段211將最終被正確地標記，此係因為正常檔案來自已知正常檔案的樣本。

圖6展示根據本發明之一實施例之由預處理器210準備之一惡意檔案。在圖6之實例中，預處理器210將惡意檔案劃分為複數個檔案區段212，並將各檔案區段212標記為惡意的(L：MAL)。在一惡意檔案的情況下，一些檔案區段212將最終被錯誤地標記，此係因為一惡意檔案未必僅由惡意程式碼組成。儘管如此，預處理器210將一惡意檔案之一區段標記為惡意的，而不管該區段是否含有惡意程式碼。

在圖6之實例中，惡意檔案包括連續檔案區段212-1至212-8。一惡意程式碼序列213僅存在於區段212-5、212-6及212-7中。檔案區段212-5、212-6及212-7因此被正確地標記為惡意的。然而，檔案區段212-1、212-2、212-3、212-4及212-8不具有惡意程式碼，即正常。此導致檔案區段212-1、212-2、212-3、212-4及212-8被錯誤地標記為惡意的。

藉助於已知正常及已知惡意檔案之足夠數目的樣本，一適合機器學習算法將能夠忽略作為雜訊之不正確標記的檔案區段。對於可執行檔案尤其如此。例如，假設圖5之正常檔案係一流行可執行檔案之一乾淨(即，正常；未受感染)複本，且圖6之惡意檔案係同一流行可執行檔案之一受感染(即，惡意)複本，則機器學習算法將偵測正常檔案之檔案區段211-1、211-2、211-3、211-4及211-8被標記為正常，但具有相同內容之惡意檔案之對應檔案區段(即，檔案區段212-1、212-2、212-3、212-4及212-8)被標記為惡意的。機器學習算法將忽略作為雜訊之惡意檔案之不正確標記的檔案區段212及正常檔案的對應檔案區段211，並學習識別實際含有惡意程式碼的檔案區段212。

更具體而言，在圖5及圖6之實例中，機器學習算法將忽略作為雜訊之正常檔案的檔案區段211-1、211-2、211-3、211-4及211-8以及惡意檔案的檔案區段212-1、212-2、212-3、212-4及212-8，但將把正常檔案的檔案區段211-5、211-6及211-7視為正常檔案區段，並將惡意檔案的檔案區段212-5、212-6及212-7視為惡意檔案區段。

再參考圖2，機器學習模組220可包括實施一機器學習算法之指令。機器學習模組220可採用任何適合機器學習算法，諸如SVM或隨機森林，而不減損本發明之優點。機器學習模組220接收正常檔案(參見箭頭203)之檔案區段211及惡意檔案(參見箭頭206)之檔案區段212。機器學習模組220接收檔案區段211及212作為用於產生一機器學習模型230之預處理訓練資料集。更具體而言，使用經標記之檔案區段211及212來訓練機器學習模組220。經訓練之機器學習模組220經封裝為用於部署之一機器學習模型230。

可瞭解，藉由使用檔案區段211及212來訓練機器學習模組220，所得到機器學習模型230能夠偵測惡意檔案區段及正常檔案區段。機器學習模型230可部署於一後端電腦系統中，以輔助防病毒研究人員隔離惡意程式碼以用於研究或簽章開發。機器學習模型230亦可部署於一端點電腦系統中以保護一端點電腦系統免受惡意軟體攻擊，如現在參考圖7所描述。

圖7展示根據本發明之一實施例之用於識別惡意檔案之一系統。在圖7之實例中，該系統包含一端點電腦系統300及後端電腦系統200。如可瞭解，後端電腦系統200可結合複數個端點電腦系統300來工作，但為清楚繪示，圖7中僅展示一個端點電腦系統。

在圖7之實例中，端點電腦系統300自後端電腦系統200接收機器學習模型230(參見箭頭301)。一般而言，後端電腦系統200可經由網際網路向訂閱端點電腦系統300提供機器學習模型230。端點電腦系統300可包含一惡意軟體偵測器320。惡意軟體偵測器320可包括用於偵測惡意檔案之一或多個軟體模組。在一項實施例中，惡意軟體偵測器320包含機器學習模型230。

在圖7之實例中，端點電腦系統300接收用於評估之一未知檔案。一未知檔案係如此命名，此係因為檔案之分類係未知的，即，不知曉該檔案係惡意的或正常的。在一項實施例中，惡意軟體偵測器320對未知檔案進行分類，並識別含有惡意程式碼之檔案之特定部分(若檔案中存在任一惡意程式碼)。針對惡意軟體評估之一未知檔案在本文中亦稱為一「目標檔案」。

更具體而言，在圖7之實例中，惡意軟體偵測器320將一目標檔案劃分為複數個檔案區段321(即，321-1、321-2、...、321-n)(參見箭頭302)。目標檔案之檔案區段321經輸入至機器學習模型230(參見箭頭303)，其將檔案區段321之各者分類為正常的或惡意的(參見箭頭304)。

在一項實施例中，當目標檔案之至少一個檔案區段321由機器學習模型230分類為惡意的時，惡意軟體偵測器320認為目標檔案係惡意的。在此情況下，惡意軟體偵測器320可將由機器學習模型230分類之目標檔案之特定區段識別為惡意的。若目標檔案之檔案區段321中沒有一者由機器學習模型230分類為惡意的，則惡意軟體偵測器320可認為目標檔案係正常的。惡意軟體偵測器320可針對一偵測到之惡意檔案採取一回應動作，諸如將惡意檔案置於隔離中，阻止惡意檔案在端點電腦系統300中被接收，清除惡意檔案，警告一使用者或管理員等等。

有利地，惡意軟體偵測器320能夠確定一檔案是否為惡意的以及一惡意檔案之哪個區段含有惡意程式碼(參見箭頭305)。此允許對一目標檔案進行一更徹底之惡意程式碼之評估。此外，藉由識別含有惡意程式碼之一目標檔案之特定區段，可自目標檔案提取惡意程式碼以清除目標檔案，或輔助防病毒研究人員開發用於偵測惡意程式碼之一簽章。

已揭示用於偵測電腦檔案之惡意程式碼區段之方法及系統。雖然已提供本發明之特定實施例，但應瞭解，此等實施例係用於闡釋性目的，而非限制性的。對於閱讀本發明之一般技術者而言，諸多額外實施例將係顯而易見的。

Claims

一種針對惡意程式碼來評估一檔案之電腦實施方法，該方法包括：接收複數個正常檔案及複數個惡意檔案；將該等正常檔案之各者及該等惡意檔案之各者分成複數個檔案區段；將該等正常檔案之各檔案區段標記為一正常檔案區段；將該等惡意檔案之各檔案區段標記為一惡意檔案區段；使用包括該等正常檔案及該等惡意檔案之該等經標記之檔案區段之一機器學習訓練資料集來產生一機器學習模型；將一目標檔案分成複數個區段；及使用該機器學習模型來識別該目標檔案之哪個特定區段含有惡意程式碼。
如請求項1之電腦實施方法，其中使用該機器學習模型來識別該目標檔案之哪個特定區段含有惡意程式碼包括：使用該機器學習模型來分類該目標檔案之該等區段之各者。
如請求項1之電腦實施方法，其中藉由使用該訓練資料集來訓練一支援向量機來產生該機器學習模型。
如請求項1之電腦實施方法，進一步包括：經由一電腦網路，將該機器學習模型提供至一端點電腦系統，其中該端點電腦系統經由該電腦網路接收該目標檔案，且使用該機器學習模型來分類該目標檔案之個別區段。
如請求項1之電腦實施方法，其中該等正常檔案、該等惡意檔案及該目標檔案為可執行檔案。
如請求項1之電腦實施方法，其中該等正常檔案、該等惡意檔案及該目標檔案係採用可攜式可執行格式。
一種用於針對惡意程式碼來評估檔案之系統，該系統包括：一後端電腦系統，其經組態以將複數個正常檔案之各者分成檔案區段、將複數個惡意檔案之各者分成檔案區段、將該等正常檔案之各檔案區段標記為一正常檔案區段、將該等惡意檔案之各檔案區段標記為一惡意檔案區段，且使用包括該等正常檔案及該等惡意檔案之經標記之檔案區段之一機器學習訓練資料集來產生一機器學習模型；及一端點電腦，其經組態以經由一電腦網路接收該機器學習模型、接收一目標檔案、將該目標檔案分成複數個區段，及使用該機器學習模型來識別該目標檔案之哪個特定區段含有惡意程式碼。
如請求項7之系統，其中該端點電腦將該目標檔案之該等區段輸入至該機器學習模型中。
如請求項7之系統，其中該後端電腦系統藉由使用該訓練資料集訓練一支援向量機來產生該機器學習模型。
如請求項7之系統，其中該等正常檔案、該等惡意檔案及該目標檔案為可執行檔案。
如請求項7之系統，其中該等正常檔案、該等惡意檔案及該目標檔案係採用可攜式可執行格式。
如請求項7之系統，其中該端點電腦將該目標檔案分成複數個區段，且將該目標檔案之該等區段輸入至該機器學習模型中。
一種非暫時性電腦可讀媒體，其包括經儲存於其上之指令，該等指令在由一處理器執行時執行以下步驟：將複數個正常檔案之各者及複數個惡意檔案之各者分成複數個檔案區段；將該等正常檔案之各檔案區段標記為一正常檔案區段；將該等惡意檔案之各檔案區段標記為一惡意檔案區段；使用包括該等正常檔案及該等惡意檔案之經標記之檔案區段之一機器學習訓練資料集來產生一機器學習模型；及將該機器學習模型提供至一端點電腦系統，以偵測該端點電腦系統中之惡意檔案。
如請求項13之非暫時性電腦可讀媒體，其中藉由使用該訓練資料集訓練一支援向量機來產生該機器學習模型。
如請求項13之非暫時性電腦可讀媒體，其中該等正常檔案及該等惡意檔案為可執行檔案。
如請求項13之非暫時性電腦可讀媒體，其中該等正常檔案及該等惡意檔案係採用可攜式可執行格式。
如請求項13之非暫時性電腦可讀媒體，其中該機器學習模型係經由網際網路提供至該端點電腦系統。