TWI723664B

TWI723664B - 惡意圖像檔案淨化方法及系統

Info

Publication number: TWI723664B
Application number: TW108144473A
Authority: TW
Inventors: 雲首博; 周國森; 林華鵬; 潘建全; 吳永彬; 游啟勝
Original assignee: 中華電信股份有限公司
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2021-04-01
Also published as: TW202123045A

Abstract

本發明提供一種惡意圖像檔案淨化方法及系統。所述方法包括：取得待測圖像檔案；反應於判定副檔名匹配於檔頭資訊且屬於白名單，將待測圖像檔案解構為對應的第一元資料資訊及圖像元素資料；從第一元資料資訊取得待測圖像檔案的檔案格式及圖像描述資訊，並據以重製為第二元資料資訊；從圖像元素資料中取出像素資料區塊，並捨棄圖像元素資料中的其餘資料區塊；基於第二元資料資訊及像素資料區塊產生淨化後圖像檔案。

Description

惡意圖像檔案淨化方法及系統

本發明是有關於一種資訊安全技術，且特別是有關於一種惡意圖像檔案淨化方法及系統。

進階持續性滲透攻擊(Advanced Persistent Threat，APT)型態惡意程式或病毒，除了文件檔案型式散佈外，也有JPEG病毒與BMP圖片木馬等圖像類型，透過網頁或釣魚郵件，誘使網頁瀏覽用戶檢視檔案內容或是收件者開啟夾帶惡意程式的檔案，加上擬真度極高，容易讓用戶失去防備心。

因此，對於本領域技術人員而言，如何讓用戶在檢視圖像檔案的同時避免APT新型態攻擊，實為一項重要的資訊安全議題與技術。

有鑑於此，本發明提供一種惡意圖像檔案淨化方法及系統，其可用於解決上述技術問題。

本發明提供一種惡意圖像檔案淨化方法，包括：取得一待測圖像檔案，其中待測圖像檔案具有一檔頭資訊及一副檔名；判斷副檔名是否匹配於檔頭資訊且屬於一白名單；反應於判定副檔名匹配於檔頭資訊且屬於白名單，將待測圖像檔案解構為對應的一第一元資料資訊及一圖像元素資料；從第一元資料資訊取得待測圖像檔案的一檔案格式及一圖像描述資訊，並據以重製為一第二元資料資訊；從圖像元素資料中取出一像素資料區塊，並捨棄圖像元素資料中的其餘資料區塊；基於第二元資料資訊及像素資料區塊產生一淨化後圖像檔案。

本發明提供一種惡意圖像檔案淨化系統，包括檔頭過濾模組、圖像解構模組、圖像元資料重製模組、像素資料萃取模組及圖像合成模組。檔頭過濾模組經配置以：取得一待測圖像檔案，其中待測圖像檔案具有一檔頭資訊及一副檔名；判斷副檔名是否匹配於檔頭資訊且屬於一白名單。圖像解構模組經配置以反應於檔頭過濾模組判定副檔名匹配於檔頭資訊且屬於白名單，將待測圖像檔案解構為對應的一第一元資料資訊及一圖像元素資料。圖像元資料重製模組從第一元資料資訊取得待測圖像檔案的一檔案格式及一圖像描述資訊，並據以重製為一第二元資料資訊。像素資料萃取模組從圖像元素資料中取出一像素資料區塊，並捨棄圖像元素資料中的其餘資料區塊。圖像合成模組基於第二元資料資訊及像素資料區塊產生一淨化後圖像檔案。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

10:惡意圖像檔案庫

20:圖像淨化檔案庫

100:惡意圖像檔案淨化系統

101:檔頭過濾模組

102:圖像解構模組

103:圖像元資料重製模組

104:像素資料萃取模組

105:圖像合成模組

IM:待測圖像檔案

M1:第一元資料資訊

M2:第二元資料資訊

P1:圖像元素資料

P2:像素資料區塊

IM’:淨化後圖像檔案

S210~S260:步驟

圖1是依據本發明之一實施例繪示的惡意圖像檔案淨化系統示意圖。

圖2是依據本發明之一實施例繪示的惡意圖像檔案淨化方法流程圖。

請參照圖1，其是依據本發明之一實施例繪示的惡意圖像檔案淨化系統示意圖。在不同的實施例中，惡意圖像檔案淨化系統100可設置於企業內的網路閘道架構中或部署於用戶端電腦上，以將潛藏的惡意圖像檔案進行淨化，但可不限於此。

如圖1所示，惡意圖像檔案淨化系統100包括檔頭過濾模組101、圖像解構模組102、圖像元資料重製模組103、像素資料萃取模組104及圖像合成模組105，而這些模組可協同運作以實現本發明提出的惡意圖像檔案淨化方法，以下將作進一步說明。

請參照圖2，其是依據本發明之一實施例繪示的惡意圖像檔案淨化方法流程圖。本實施例的方法可由圖1的惡意圖像檔案淨化系統100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，檔頭過濾模組101可取得待測圖像檔案IM，其中待測圖像檔案IM具有檔頭資訊(header)及副檔名。在一實施例中，檔頭過濾模組101例如可從惡意圖像檔案庫10中取得待測圖像檔案IM。在不同的實施例中，惡意圖像檔案庫10中可儲存有各式惡意/潛在惡意圖像檔案，而檔頭過濾模組101可從而取出任一圖像檔案作為待測圖像檔案IM，以利進行後續分析，但可不限於此。

一般而言，檔頭資訊中可記錄有待測圖像檔案IM的相關資訊，其中包括待測圖像檔案IM的正確副檔名。在此情況下，檔頭過濾模組101即可藉由比對檔頭資訊中的正確副檔名是否匹配於所取得的副檔名來判斷待測圖像檔案IM的副檔名是否經過改寫。在一實施例中，若待測圖像檔案IM的副檔名被經過改寫，則代表待測圖像檔案IM可能是假冒圖像檔案的惡意程式(例如exe、dll及com檔案等)。

舉例而言，假設待測圖像檔案IM的檔名為「imag.png」(png為其副檔名)，而所取得的檔頭資訊例如是「[PNG image data,650 x 651,8-bit/color RGB,non-interlaced]」。在此情況下，檔頭過濾模組101可判定副檔名(即，png)匹配於檔頭資訊中的「PNG」，進而判定待測圖像檔案IM的副檔名未經過改寫。之後，檔頭過濾模組101可進一步判斷待測圖像檔案IM的副檔名是否屬於白名單。在一實施例中，若待測圖像檔案IM的副檔名不屬於白名單(其可記錄有一般的影像副檔名，例如jpg、bmp、png、gif、jpeg等)，即代表待測圖像檔案IM仍可能是假冒圖像檔案的惡意程式。

因此，若檔頭過濾模組101判定待測圖像檔案IM的副檔名未匹配於檔頭資訊，或是待測圖像檔案IM的副檔名不屬於白名單，則檔頭過濾模組101可終止待測圖像檔案IM的淨化流程，但本發明可不限於此。

另外，反應於檔頭過濾模組101判定上述副檔名匹配於檔頭資訊且屬於白名單，則圖像解構模組102可執行步驟S220以將待測圖像檔案IM解構為對應的第一元資料資訊M1及圖像元素資料P1。在一實施例中，圖像解構模組102可依據待測圖像檔案IM的不同的影像檔案類型格式定義，萃取其定義的第一元資料資訊M1(例如包括圖像檔案格式、圖像解析度資訊、以及像素值範圍資訊等)。此外，圖像解構模組102還可依據不同的影像檔案類型格式定義，擷取其定義的圖像元素資料區塊作為圖像元素資料P1，但可不限於此。

簡言之，一般的圖像檔案本質上即應包括元資料資訊及圖像元素資料等兩個成分，而圖像解構模組102可將此二成分個別取出，以供後續的圖像元資料重製模組103及像素資料萃取模組104使用，但可不限於此。

在步驟S240中，圖像元資料重製模組103可從第一元資料資訊M1取得待測圖像檔案IM的檔案格式及圖像描述資訊，並據以重製為第二元資料資訊M2。在一實施例中，圖像元資料重製模組103可依據不同的影像檔案類型格式定義與原圖像的檔案格式資訊內容，重新製作其檔案格式陳述語法。針對圖像解析度資訊，圖像元資料重製模組103可重新製作其解析度陳述語法。針對像素值範圍資訊，圖像元資料重製模組103可重新製作其像素值範圍陳述語法。

具體而言，由於圖像攻擊碼可能藏匿在第一元資料資訊M1中，而透過圖像元資料重製模組103進行的上述重製操作，可僅擷取原圖像的檔案格式與圖像描述資訊以產生乾淨的元資料資訊(即，第二元資料資訊M2)，進而消除潛藏的殼碼(shell code)攻擊碼。

此外，在步驟S250中，像素資料萃取模組104可從圖像元素資料P1中取出像素資料區塊P2，並捨棄圖像元素資料P1中的其餘資料區塊。在一實施例中，像素資料萃取模組104可依據第一元資料資訊M1記載的像素值範圍資訊，僅萃取像素資料區塊P2。針對其餘的資料區塊(即非定義內的資料區塊)，像素資料萃取模組104可予以捨棄，進而避免其他的惡意攻擊手法，例如在檔案末端夾雜大量資料區塊，意圖利用圖像瀏覽工具的漏洞，進行溢位攻擊或是潛藏的殼碼攻擊碼。

之後，在步驟S260中，圖像合成模組105可基於第二元資料資訊M2及像素資料區塊P2產生淨化後圖像檔案IM’。承先前所言，一般的圖像檔案本質上即應包括元資料資訊及圖像元素資料等兩個成分，而圖像合成模組105可藉由執行步驟S260以將第二元資料資訊M2及像素資料區塊P2合成為淨化後圖像檔案 IM’，藉以排除先前所提及的各式潛在危險。

然而，在一些實施例中，攻擊者可藉由相關的圖像隱碼術來將惡意像素值序列隱藏於像素資料區塊P2中。以VAWTRAK的惡毒銀行木馬程式為例，其被發現儲存在一個網站圖示當中。VAWTRAK在影像當中使用了一種稱為最低有效位元(least significant bit，LSB)的技巧來隱藏訊息。具體而言，VAWTRAK藉由稍微修改像素的顏色來暗藏其資訊。例如，假設某個像素的RGB等色彩通道的值原本是(0,0,0)(其等於純黑)，而當這些色彩通道被修改成(0,0,1)時，該像素會稍微沒那麼黑。在此情況下，該像素即可在人眼其實無法辨識的情況下攜帶一個位元的資訊。換言之，駭客只要將很多像素的顏色都稍微修改一下，就能將完整資訊暗藏在其中，知情的人只要利用反向演算法就能解開其中的訊息。但不知情的人，卻只會看到一幅優美的景色或任何其他的圖片。

有鑑於此，本發明另提出了可排除上述威脅的技術手段。具體而言，在一實施例中，在圖像合成模組105取得像素資料區塊P2之後，可從像素資料區塊P2找出多個特定像素，其中各特定像素具有多個色彩通道(例如RGB等色彩通道)，且各色彩通道包括多個位元值(例如8個位元值)。舉例而言，圖像合成模組105可從像素資料區塊P2中隨機取出多個像素來作為上述特定像素，或是藉由特殊設計的人工智慧演算法來從像素資料區塊P2找出即便被更動顏色亦不會過度影響觀看體驗的一或多個像素來作為上述特定像素，但可不限於此。

之後，圖像合成模組105可更動各特定像素的色彩通道之一的多個位元值中的一特定位元，以更新像素資料區域P2。在一實施例中，上述特定位元例如是LSB。換言之，在從像素資料區塊P2取得上述特定像素之後，圖像合成模組105可將各特定像素的任一色彩通道的LSB進行更動(例如由0更動為1，或是由1更動為0)，但可不限於此。

之後，圖像合成模組105可將第二元資料資訊M2及更新後的像素資料區塊P2合成為淨化後圖像檔案IM’。此外，圖像合成模組105還可在淨化後圖像檔案IM’上烙印一浮水條碼，以表示其為經過淨化後的圖像檔案，但可不限於此。

之後，圖像合成模組105例如可將淨化後圖像檔案IM’儲存於圖像淨化標案庫20，以供使用者依需求而存取。

綜上所述，本發明提出的方法及系統可將潛藏的惡意圖像檔案進行淨化，包含jpg、bmp、png、gif、jpeg...等各式各樣的圖像檔，最終生成淨化的圖像檔。例如，本發明可透過檔頭過濾模組檢核待測圖像檔案的副檔名與檔頭資訊，以濾除假冒圖像檔案的木馬程式。並且，本發明可透過圖像解構模組將待測圖像檔案分解為第一元資料資訊與圖像元素資料。之後，本發明可使用圖像元資料重製模組從第一元資料資訊中僅擷取檔案格式與圖像描述資訊，以此重製出第二元資料資訊，進而消除潛藏的殼碼攻擊碼。同時，本發明可透過像素資料萃取模組依據第一元資料資訊記載的像素值範圍資訊，僅萃取像素資料區塊，並捨棄其餘的資料區塊，以避免其他的惡意攻擊手法，例如於檔案末端夾雜大量資料區塊，意圖利用圖像瀏覽工具的漏洞，進行溢位攻擊或是潛藏的

碼攻擊碼。

此外，本發明還可藉由圖像合成模組更新像素資料區塊中某些特定像素的色彩通道，進而在不破壞人工檢視原圖色度的情況下，達到打亂圖像隱碼術隱藏的惡意像素值序列的效果。之後，透過圖像合成模組將第二元資料資訊與(更新後的)像素資料區塊組合為純化後圖像檔案，並烙上浮水條碼，以茲認證為經過淨化後的圖像檔案，使原惡意圖像檔案淨化為安全無慮的圖像檔案。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S260:步驟

Claims

一種惡意圖像檔案淨化方法，包括：取得一待測圖像檔案，其中該待測圖像檔案具有一檔頭資訊及一副檔名；判斷該副檔名是否匹配於該檔頭資訊且屬於一白名單；反應於判定該副檔名匹配於該檔頭資訊且屬於該白名單，將該待測圖像檔案解構為對應的一第一元資料資訊及一圖像元素資料；從該第一元資料資訊取得該待測圖像檔案的一檔案格式及一圖像描述資訊，並據以重製為一第二元資料資訊；從該圖像元素資料中取出一像素資料區塊，並捨棄該圖像元素資料中的其餘資料區塊；基於該第二元資料資訊及該像素資料區塊產生一淨化後圖像檔案。
如申請專利範圍第1項所述的方法，其中該圖像描述資訊包括該待測圖像檔案的一圖像檔案格式、一圖像解析度資訊及一像素值範圍資訊。
如申請專利範圍第1項所述的方法，其中基於該第二元資料資訊及該像素資料區塊產生該淨化後圖像檔案的步驟包括：從該像素資料區塊找出多個特定像素，其中各該特定像素具有多個色彩通道，且各該色彩通道包括多個位元值；更動各該特定像素的該些色彩通道之一的該些位元值中的一特定位元，以更新該像素資料區域；將該第二元資料資訊及更新後的該像素資料區塊合成為該淨化後圖像檔案。
如申請專利範圍第3項所述的方法，其中該特定位元為一最低有效位元。
如申請專利範圍第1項所述的方法，更包括：在該淨化後圖像檔案烙印一浮水條碼。
一種惡意圖像檔案淨化系統，包括：一檔頭過濾模組，其經配置以：取得一待測圖像檔案，其中該待測圖像檔案具有一檔頭資訊及一副檔名；判斷該副檔名是否匹配於該檔頭資訊且屬於一白名單；一圖像解構模組，其經配置以：反應於該檔頭過濾模組判定該副檔名匹配於該檔頭資訊且屬於該白名單，將該待測圖像檔案解構為對應的一第一元資料資訊及一圖像元素資料；一圖像元資料重製模組，其從該第一元資料資訊取得該待測圖像檔案的一檔案格式及一圖像描述資訊，並據以重製為一第二元資料資訊；一像素資料萃取模組，其從該圖像元素資料中取出一像素資料區塊，並捨棄該圖像元素資料中的其餘資料區塊；一圖像合成模組，其基於該第二元資料資訊及該像素資料區塊產生一淨化後圖像檔案。
如申請專利範圍第6項所述的系統，其中該圖像描述資訊包括該待測圖像檔案的一圖像解析度資訊及一像素值範圍資訊。
如申請專利範圍第6項所述的系統，其中該圖像合成模組經配置以：從該像素資料區塊找出多個特定像素，其中各該特定像素具有多個色彩通道，且各該色彩通道包括多個位元值；更動各該特定像素的該些色彩通道之一的該些位元值中的一特定位元，以更新該像素資料區域；將該第二元資料資訊及更新後的該像素資料區塊合成為該淨化後圖像檔案。
如申請專利範圍第8項所述的系統，其中該特定位元為一最低有效位元。
如申請專利範圍第6項所述的系統，其中該圖像合模組組更經配置以在該淨化後圖像檔案烙印一浮水條碼。