TWI650670B - 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法 - Google Patents

閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法 Download PDF

Info

Publication number
TWI650670B
TWI650670B TW106130895A TW106130895A TWI650670B TW I650670 B TWI650670 B TW I650670B TW 106130895 A TW106130895 A TW 106130895A TW 106130895 A TW106130895 A TW 106130895A TW I650670 B TWI650670 B TW I650670B
Authority
TW
Taiwan
Prior art keywords
file
format
graphic
header information
matches
Prior art date
Application number
TW106130895A
Other languages
English (en)
Other versions
TW201913439A (zh
Inventor
雲首博
周國森
林華鵬
潘建全
吳永彬
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW106130895A priority Critical patent/TWI650670B/zh
Application granted granted Critical
Publication of TWI650670B publication Critical patent/TWI650670B/zh
Publication of TW201913439A publication Critical patent/TW201913439A/zh

Links

Landscapes

  • Storage Device Security (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本發明提供一種閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法。在淨化方法中,判斷文件檔案之檔頭資訊是否匹配。過濾文件檔案中的嵌入語法及嵌入物件。依據文件檔案之類型,將過濾之文件檔案轉換為圖文格式,此圖文格式僅包括圖片及/或文字。萃取以前述圖文格式之文件檔案內的圖片物件及/或文件內容,以合成淨化文件檔案,讓用戶可直接存取此淨化文件檔案。

Description

閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法
本發明是有關於一種檔案資安技術,且特別是有關於一種閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法。
進階持續性威脅(Advanced Persistent Threat,APT)型態惡意程式或病毒,大多會透過諸如可攜式文件格式(Portable Document Format,PDF)、word、ppt等文件檔案形式散佈,並結合網頁或釣魚郵件,誘使用戶在網頁瀏覽的過程中檢視此等檔案內容或開啟夾帶惡意程式的檔案。對於一般用戶而言,惡意程式或病毒結合文件檔案的方式相當擬真,即容易讓用戶失去防備心。由此可知,如何讓用戶能安心存取文件檔案,係各企業重視的資訊安全議題及技術。
有鑑於此,本發明提供一種閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法,將原始文件檔案中的惡意程式、物件及語法濾除,再將其中的圖文內容重組成淨化文件檔案。
本發明的惡意文件檔案之淨化方法,適用於閘道裝置。而此淨化方法包括下列步驟。判斷文件檔案之檔頭資訊是否匹配。過濾文件檔案中的嵌入語法及嵌入物件。依據文件檔案之類型,將過濾之文件檔案轉換為圖文格式,此圖文格式僅包括圖片及/或文字。萃取以前述圖文格式之文件檔案內的圖片物件及/或文件內容,以合成淨化文件檔案。
本發明的閘道裝置包括儲存單元及處理單元。儲存單元記錄文件檔案及數個模組。處理單元耦接儲存單元,存取並執行儲存單元所儲存的那些模組。那些模組包括檔頭過濾模組、文件轉換模組、圖文萃取模組及圖文合成模組。檔頭過濾模組判斷文件檔案之檔頭資訊是否匹配。文件轉換模組過濾文件檔案中的嵌入語法及嵌入物件,並依據文件檔案之類型將過濾之文件檔案轉換為圖文格式,此圖文格式僅包括圖片及/或文字。圖文萃取模組萃取以圖文格式之文件檔案內的圖片物件及/或文字內容。而圖文合成模組將萃取的圖片物件及/或文字內容合成淨化文件檔案。
而本發明的非暫態電腦可讀取媒體,用於紀錄程式,且經由閘道裝置載入並執行下列步驟。判斷文件檔案之檔頭資訊是否匹配。過濾文件檔案中的嵌入語法及嵌入物件。依據文件檔案之類型,將過濾之文件檔案轉換為圖文格式,此圖文格式僅包括圖片及/或文字。萃取以前述圖文格式之文件檔案內的圖片物件及/或文件內容,以合成淨化文件檔案。
基於上述,透過惡意文件檔案的格式轉換與動態語法過濾後,生成圖文格式的文件檔案,並將自其中萃取的圖片物件及文字內容再重組成圖文格式的文件檔案。此淨化流程能過濾假冒惡意程式、文字格式的動態語法攻擊特徵碼與潛藏在圖片的攻擊碼,並將原惡意文件檔案淨化為安全無慮的pdf格式之文件檔案。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1係依據本發明一實施例說明閘道裝置1之元件方塊圖。請參照圖1,閘道裝置1至少包括但不僅限於輸入單元110、儲存單元130及處理單元150。閘道裝置1可以係伺服器、個人電腦、工作站等類型的電子裝置,並設於用戶設備及網際網路(Internet)或外部網路之間、或內建於用戶設備中。
輸入單元110可以係無線或有線通訊處理器(例如,支援藍芽、第4代行動通訊(4G)、WiFi、光纖、乙太網路(Ethernet)等)、光碟機、匯流排介面等可接收各類型文件檔案的輸入單元。
儲存單元130可以係任何型態的固定或可移動隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體(flash memory)、傳統硬碟(hard disk drive)、固態硬碟(solid-state drive)或類似元件或上述元件的組合如網路連接儲存設備(Network Attached Storage),並用以紀錄檔頭過濾模組131、文件轉換模組132、圖文萃取模組133、圖文合成模組134等軟體程式、淨化檔案庫135、文件檔案、淨化文件檔案、黑名單、白名單、過濾嵌入物件或語法查找表、圖片物件、文字內容、排版資訊、浮水印等相關資訊。前述模組、資料庫、檔案及資料待後續實施例再詳細說明。
處理單元150與輸入單元110及儲存單元130及連接,並可以是中央處理單元(CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(DSP)、可程式化控制器、特殊應用積體電路(ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理單元150用以執行閘道裝置1的所有作業,且可存取並執行輸入單元110及上述儲存單元130中記錄的模組。
為了方便理解本發明實施例的操作流程,以下將舉諸多實施例詳細說明本發明實施例中閘道裝置1對惡意文件檔案的淨化方法。圖2是依據本發明一實施例說明一種惡意文件檔案的淨化方法之流程圖。請參照圖2,本實施例的方法適用於圖1中通訊系統1中的各裝置。下文中,將搭配閘道裝置200的各項元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
經擷取網路封包、用戶上傳或透過外部或內件儲存媒介(例如,隨身碟、光碟、外接硬碟等)而使輸入單元110取得文件檔案後,此文件檔案將儲存於儲存單元130中,檔頭過濾模組131即可存取此文件檔案。接著,檔頭過濾模組131可分析判斷文件檔案之檔頭資訊是否匹配(步驟S210)。具體而言,檔頭過濾模組131係檢查此文件檔案之可攜式可執行(Portable Executable,PE)檔頭資訊與副檔名是否匹配。例如,待測知文件檔案為hinet.html檔案,而其PE檔頭經分析的資訊為[HTML document,UTF-8 Unicode text,with very long lines],因此其副檔名(.html)符合PE檔頭。反之,不匹配則視為假冒文件檔案的惡意程式(例如,exe、dll、com等檔案類型)。接著,檔頭過濾模組131透過特徵比對策略,而基於黑或白名單判斷文件檔案之檔頭資訊與副檔名是否已記錄在允許的副檔名清單及PE檔頭字清單中,以確認文件檔案是否受允許。而若待測之文件檔案的副檔名及檔頭資訊不匹配或並非白名單中允許的項目,則檔頭過濾模組131將此文件檔案直接過濾、刪除或儲存至隔離資料庫。反之,檔頭過濾模組131則將此文件檔案輸入至文件轉換模組132。
接著,文件轉換模組132會過濾此文件檔案中的嵌入語法及嵌入物件(步驟S230) ,並依據該文件檔案之類型將過濾之文件檔案轉換為圖文格式(步驟S250)。具體而言,文件轉換模組132會判斷此文件檔案是否為pdf文件格式,若是,則文件轉換模組132會分析pdf文件內容架構,並過濾諸如JavaScript字串、嵌入物件等以過濾攻擊特徵碼或動態語法。而若非pdf文件格式,則文件轉換模組132會分析非pdf文件格式的內容架構,並移除諸如物件連結與嵌入(Object Linking and Embedding,OLD)物件、Macro巨集語法及動態語法,並僅擷取資料內容,再統一轉換成pdf文件格式。透過去格式化方式,可消除如原html檔案內的跨網站指令碼(Cross-site scripting,XSS)等攻擊風險。
舉例而言,將hinet.html轉換成hinet.pdf文件格式,可消除html檔案內的XSS攻擊風險。而其他諸如htm、js、txt、docx、xls、xlsx、ppt、pptx等種類的非pdf文件格式皆僅對其擷取資料內容,並統一轉成pdf文件格式。
需說明的是,本發明實施例的圖文格式係採用pdf文件格式,於其他實施例中,此圖文格式亦可以係其他僅包括圖片及/或文字的文件格式(例如,XPS、doc等)。此外,嵌入語法及嵌入物件還有很多種,不僅限於前述範例所提及,本發明實施例不限制嵌入語法及嵌入物件的類型。
接著,圖文萃取模組133可萃取自文件轉換模組132取得並以圖文格式(本實施例係pdf文件格式)之文件檔案內的圖片物件及/或文字內容(步驟S270)。具體而言,圖文萃取模組133分析pdf格式之文件檔案的內容架構,萃取文字內容及/或圖片物件,並記錄圖文版面之排版(layout)資訊。而針對圖片物件,圖文萃取模組133可進一步降低圖片物件的像素並變更其圖片格式,以重製此圖片物件,從而消除潛藏於圖片中的攻擊風險。
舉例而言,待測之文件檔案係hinet.html檔案經轉換成hinet.pdf文件格式後,圖文萃取模組133即可對hinet.pdf萃取圖片物件及文字內容兩類資訊,並重製萃取的圖片物件。
接著,圖文合成模組134依據文件檔案的排版資訊,將自圖文萃取模組133所萃取之圖片物件及/或文字內容重新組合成pdf文件格式的淨化文件檔案。視情況需要,圖文合成模組134可進一步將組合後的淨化文件檔案烙上浮水印,以玆認證為經過淨化之文件檔案。最後,圖文合成模組134可將淨化文件檔案儲存至淨化檔案庫135,以供他人存取。
舉例而言,待測之文件檔案係hinet.html檔案經轉換成hinet.pdf文件格式,並經圖文萃取、圖片重製及重新組合,即可形成一個安全無慮的pdf格式之淨化文件檔案。
值得說明的是,前述惡意文件檔案之淨化方法亦可作為程式,並記錄在諸如等硬碟、軟碟、隨身碟、CD等非暫態電腦可讀取媒體中,且能透過任何類型的處理單元(例如,處理單元150)執行此程式。
綜上所述,本發明實施例可佈建於企業內的網路閘道式架構或用戶端電腦,將潛藏的惡意文件檔案過濾、去除嵌入物件或語法並去格式化、圖文萃取並重製圖片物件、重組為pdf文件格式,從而生成淨化文件檔案,讓使用者可直接存取此淨化文件檔案,而無須擔憂是否會遭受惡意程式攻擊。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1‧‧‧閘道裝置
110‧‧‧輸入單元
130‧‧‧儲存單元
131‧‧‧檔頭過濾模組
132‧‧‧文件轉換模組
133‧‧‧圖文萃取模組
134‧‧‧圖文合成模組
135‧‧‧淨化檔案庫
150‧‧‧處理單元
S210~S270‧‧‧步驟
圖1係依據本發明一實施例說明閘道裝置之元件方塊圖。 圖2是依據本發明一實施例說明一種惡意文件檔案的淨化方法之流程圖。

Claims (9)

  1. 一種惡意文件檔案之淨化方法,適用於一閘道裝置,該淨化方法包括:判斷一文件檔案之檔頭資訊是否匹配於該文件檔案的副檔名;當該文件檔案之檔頭資訊匹配於該文件檔案的副檔名時,過濾該文件檔案中的嵌入語法及嵌入物件;依據該文件檔案之類型,將過濾之該文件檔案轉換為一圖文格式,其中該圖文格式僅包括圖片及文字至少其中一者;以及萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者,以合成一淨化文件檔案,其中萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者的步驟包括:降低該文件檔案內之圖片物件的像素並變更其圖片格式,以重製該圖片物件。
  2. 如申請專利範圍第1項所述的惡意文件檔案之淨化方法,其中判斷該文件檔案之檔頭資訊是否匹配的步驟:檢查該文件檔案之檔頭資訊與副檔名是否匹配;以及透過一黑或白名單判斷該文件檔案之檔頭資訊與與副檔名是否是允許。
  3. 如申請專利範圍第1項所述的惡意文件檔案之淨化方法,其中該圖文格式係一可攜式文件格式(Portable Document Format,PDF),而將過濾之該文件檔案轉換為該圖文格式的步驟包括:擷取該文件檔案中的資料內容;以及透過去格式化方式,將僅具該資料內容的該文件檔案轉成該可攜式文件格式。
  4. 如申請專利範圍第1項所述的惡意文件檔案之淨化方法,其中合成該淨化文件檔案的步驟包括:依據該文件檔案的排版資訊將重製的該圖片物件及該文字內容重組成可攜式文件格式之該淨化文件檔案。
  5. 一種閘道裝置,包括:一儲存單元,記錄一文件檔案及多個模組;以及一處理單元,耦接該儲存單元,且存取並執行該儲存單元所儲存的該些模組,該些模組包括:一檔頭過濾模組,判斷該文件檔案之檔頭資訊是否匹配於該文件檔案的副檔名;一文件轉換模組,當該文件檔案之檔頭資訊匹配於該文件檔案的副檔名時,該文件轉換模組過濾該文件檔案中的嵌入語法及嵌入物件,並依據該文件檔案之類型將過濾之該文件檔案轉換為一圖文格式,其中該圖文格式僅包括圖片及文字至少其中一者;一圖文萃取模組,萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者;以及 一圖文合成模組,將萃取的圖片物件及文字內容至少其中一者合成一淨化文件檔案,其中在萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者的運作中,該圖文萃取模組降低該文件檔案內之圖片物件的像素並變更其圖片格式,以重製該圖片物件。
  6. 如申請專利範圍第5項所述的閘道裝置,其中該檔頭過濾模組檢查該文件檔案之檔頭資訊與副檔名是否匹配,並透過一黑或白名單判斷該文件檔案之檔頭資訊與與副檔名是否是允許。
  7. 如申請專利範圍第5項所述的閘道裝置,其中該圖文格式係一可攜式文件格式,而該文件轉換模組擷取該文件檔案中的資料內容,並透過去格式化方式,將僅具該資料內容的該文件檔案轉成該可攜式文件格式。
  8. 如申請專利範圍第5項所述的閘道裝置,其中該圖文合成模組依據該文件檔案的排版資訊將重製的該圖片物件及該文字內容重組成可攜式文件格式之該淨化文件檔案。
  9. 一種非暫態電腦可讀取媒體,紀錄一程式,且經由一閘道裝置載入並執行下列步驟:判斷一文件檔案之檔頭資訊是否匹配於該文件檔案的副檔名;當該文件檔案之檔頭資訊匹配於該文件檔案的副檔名時,過濾該文件檔案中的嵌入語法及嵌入物件;將過濾之該文件檔案轉換為一圖文格式,其中該圖文格式僅 包括圖片及文字至少其中一者;以及萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者,以合成一淨化文件檔案,其中萃取以該圖文格式之該文件檔案內的圖片物件及文字內容至少其中一者的步驟包括:降低該文件檔案內之圖片物件的像素並變更其圖片格式,以重製該圖片物件。
TW106130895A 2017-09-08 2017-09-08 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法 TWI650670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW106130895A TWI650670B (zh) 2017-09-08 2017-09-08 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106130895A TWI650670B (zh) 2017-09-08 2017-09-08 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法

Publications (2)

Publication Number Publication Date
TWI650670B true TWI650670B (zh) 2019-02-11
TW201913439A TW201913439A (zh) 2019-04-01

Family

ID=66213676

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106130895A TWI650670B (zh) 2017-09-08 2017-09-08 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法

Country Status (1)

Country Link
TW (1) TWI650670B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802040B (zh) * 2021-10-08 2023-05-11 精品科技股份有限公司 基於檔案屬性特徵之應用程式控管方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI723664B (zh) * 2019-12-05 2021-04-01 中華電信股份有限公司 惡意圖像檔案淨化方法及系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150033345A1 (en) * 2005-06-09 2015-01-29 Glasswall (lP) Limited Resisting the spread of unwanted code and data
TW201520813A (zh) * 2013-10-04 2015-06-01 葛雷斯渥(Ip)有限公司 惡意程式清除之行動內容資料管理裝置和方法
TW201640384A (zh) * 2014-11-26 2016-11-16 葛雷斯渥(Ip)有限公司 用於決定由檔案為基礎之內容所構成的風險之統計分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150033345A1 (en) * 2005-06-09 2015-01-29 Glasswall (lP) Limited Resisting the spread of unwanted code and data
TW201520813A (zh) * 2013-10-04 2015-06-01 葛雷斯渥(Ip)有限公司 惡意程式清除之行動內容資料管理裝置和方法
TW201640384A (zh) * 2014-11-26 2016-11-16 葛雷斯渥(Ip)有限公司 用於決定由檔案為基礎之內容所構成的風險之統計分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802040B (zh) * 2021-10-08 2023-05-11 精品科技股份有限公司 基於檔案屬性特徵之應用程式控管方法

Also Published As

Publication number Publication date
TW201913439A (zh) 2019-04-01

Similar Documents

Publication Publication Date Title
US11609994B2 (en) File sanitization technologies
Zampoglou et al. Detecting image splicing in the wild (web)
CN106302337B (zh) 漏洞检测方法和装置
US9305170B1 (en) Systems and methods for securely providing information external to documents
TWI534650B (zh) 電子檔案處理方法以及相關之處理裝置
JP2013537986A (ja) ウェブサイトスキャン装置及びその方法
TWI650670B (zh) 閘道裝置、非暫態電腦可讀取媒體及其惡意文件檔案之淨化方法
US8873863B2 (en) System and method for fingerprinting for comics
US10389687B2 (en) Secure document transmission
JP2007004784A5 (zh)
WO2017084557A1 (zh) 文件扫描方法及装置
WO2013117151A1 (zh) 文件快速扫描方法和系统
JP2013543178A (ja) 出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法
Abdullah et al. Carving thumbnail/s and embedded JPEG files using image pattern matching
CN111083307A (zh) 一种基于隐写术的文件检测和破解方法
RU2583712C2 (ru) Система и способ обнаружения вредоносных файлов определенного типа
TWI503695B (zh) 封包資料提取裝置、封包資料提取裝置之控制方法、控制程式及電腦可讀取之儲存媒體
EP2620887B1 (en) Method and device for electronic data auditing
WO2022120951A1 (zh) 一种电子证据信息的上链方法、装置、区块链节点设备
JP5643357B2 (ja) 電子デジタルデータ隠蔽検査装置、方法及びそのコンピュータ読み取り可能な記憶媒体
Dang-Nguyen et al. Practical analyses of how common social media platforms and photo storage services handle uploaded images
JP7287125B2 (ja) 情報処理装置、ファイル不具合対処方法、およびコンピュータプログラム
JP2008158596A (ja) 管理装置、管理方法および管理プログラム
WO2011085624A1 (zh) Web托管审查方法、装置及Web托管系统
JP6671693B2 (ja) 電子ファイルの無害化処理プログラム、電子ファイルの無害化処理方法および記録媒体