TWI528219B - 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 - Google Patents
辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 Download PDFInfo
- Publication number
- TWI528219B TWI528219B TW103134231A TW103134231A TWI528219B TW I528219 B TWI528219 B TW I528219B TW 103134231 A TW103134231 A TW 103134231A TW 103134231 A TW103134231 A TW 103134231A TW I528219 B TWI528219 B TW I528219B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- format
- captured
- electronic device
- special format
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0245—Filtering by information in the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Storage Device Security (AREA)
Description
本發明提供一種辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體,特別是關於一種辨識檔案中的特殊格式是否為機敏資料之方法、電子裝置及電腦可讀取記錄媒體。
辨識機敏資料的技術係使用於資料保護之相關議題。透過辨識機敏資料的機制,將可進一步辨識潛在高機密程度的機敏資料。
習知的機敏資料辨識技術僅針對個人資料或機密字串進行分析辨識,且機密等級大多和找到的類型和筆數成正比。對於筆數不多,卻包含大量機密描述的資料(如履歷、病歷等)無法提供正確的機密等級。此外,習知的機敏資料辨識技術為對大量已知資料的整個內容進行學習以取得已知資料的特徵後,再將上述特徵與待辨識資料進行特徵比對來判斷待辨識資料是否為機敏資料。故習知的機敏資料辨識技術只能找出和已知資料相同或相似的機敏資料,並無法找出和已知資料使用同樣範本或格式的機敏資料。
因此,若能提供筆數不多但卻包含大量機密描述的資料正確的機密程度,且可辨識出具有特殊範本或格式的機敏資料,將可避免資料外洩。
本發明實施例提供一種辨識機敏資料之方法,適用於一電子裝置。電子裝置儲存有複數個辨識群組。每一辨識群組對應到一特殊格式。以及每一辨識群組具有代表特殊格式之一格式特徵與具有代表特殊格式為機敏資料之複數個機敏因子。上述辨識機敏資料之方法的步驟如下。擷取多個資料其中之一,並將其定義為一擷取資料。擷取多個格式特徵其中之一,並將其定義為一擷取特徵。於電子裝置根據擷取特徵判斷擷取資料是否具有對應的特殊格式。若電子裝置判斷擷取資料具有對應的特殊格式,電子裝置判斷特殊格式所對應的多個機敏因子在擷取資料中的出現頻率是否大於等於一機敏門檻值。其中,若電子裝置判斷出現頻率大於等於一機敏門檻值,代表擷取資料中的特殊格式為機敏資料;若電子裝置判斷出現頻率小於機敏門檻值,代表擷取資料中的特殊格式不為機敏資料。於電子裝置判斷多個格式特徵中是否有未擷取的格式特徵。若電子裝置判斷多個格式特徵中有未擷取的格式特徵,則擷取尚未擷取的格式特徵,並改以定義未擷取的格式特徵為擷取特徵,以重新根據擷取特徵判斷擷取資料是否具有對應的特殊格式。而若電子裝置判斷多個格式特徵中沒有尚未擷取的格式特徵,則擷取多個資料之下一資料,並改以定義下一資料為擷取資料,以重新判斷擷取資料是否具有對應的特殊格式。
本發明實施例提供一種辨識機敏資料之電子裝置。電子裝置包含一儲存單元、一擷取單元與一辨識單元。儲存單元用以儲存複數個辨識群組。每一辨識群組對應到一特殊格式。以及每一辨識群組具有代表特殊格式之一格式特徵與具有代表特殊格式為機敏資料之複數個機敏因子。擷取單元電連接儲存單元,以擷取多個資料與多個辨識群組。而辨識單元為電連接擷取單元,並用以執行下列步驟。透過擷取單元擷取多個資料其中之一,並將其定義為一擷取資料。透過擷取單元擷取多個格式特徵其中之一,並
將其定義為一擷取特徵。根據擷取特徵判斷擷取資料是否具有對應的特殊格式。若辨識單元判斷擷取資料具有對應的特殊格式,辨識單元判斷特殊格式所對應的多個機敏因子在擷取資料中的一出現頻率是否大於等於一機敏門檻值。其中,若辨識單元判斷出現頻率大於等於一機敏門檻值,代表擷取資料中的特殊格式為機敏資料。若辨識單元判斷出現頻率小於機敏門檻值,代表擷取資料中的特殊格式不為機敏資料。接著判斷多個格式特徵中是否有尚未擷取的格式特徵。若辨識單元判斷多個格式特徵中有尚未擷取的格式特徵,則透過該擷取單元擷取未擷取的格式特徵,並改以定義未擷取的格式特徵為擷取特徵,以重新根據擷取特徵判斷擷取資料是否具有對應的特殊格式。而若辨識單元判斷多個格式特徵中沒有尚未擷取的格式特徵,則透過該擷取單元擷取多個資料之下一資料,並改以定義下一資料為擷取資料,以重新判斷擷取資料是否具有對應的特殊格式。
此外,本發明實施例還提供一種電腦可讀取記錄媒體記錄一組電腦可執行程式,當電腦可讀取記錄媒體被處理器讀取時,處理器可執行上述辨識機敏資料之方法中的步驟。
綜合以上所述,本發明實施例所提供的辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體可以判斷具有特殊格式的資料,其特殊格式是否為機敏資料。據此,本發明實施例所提供的辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體可以提供筆數不多但卻包含大量機密描述的資料正確的機密等級,且可辨識出具有特殊格式的機敏資料,進而避免資料外洩。
為使能更進一步瞭解本發明之特徵及技術內容,請參閱以下有關本發明之詳細說明與附圖,但是此等說明與所附圖式僅係用來說明本發明,而非對本發明的權利範圍作任何的限制。
10‧‧‧使用者電腦
20‧‧‧遠端伺服器
100‧‧‧電子裝置
110‧‧‧辨識單元
120‧‧‧擷取單元
130‧‧‧儲存單元
132‧‧‧辨識群組
140‧‧‧分類單元
FF‧‧‧格式特徵
CP‧‧‧機敏因子
DA‧‧‧資料
S210、S220、S230、S240、S250、S260、S270、S275‧‧‧步驟
圖1是本發明一實施例之辨識機敏資料之電子裝置的示意圖。
圖2A-2B是本發明一實施例之辨識機敏資料之方法的流程圖。
圖3A-3B是本發明一實施例之電子裝置判斷擷取資料具有表格的示意圖。
圖4A-4B是本發明另一實施例之電子裝置判斷擷取資料具有列表的示意圖。
圖5A-5B是本發明另一實施例之電子裝置判斷擷取資料具有樣式的示意圖。
圖6是本發明另一實施例之電子裝置判斷接收到的資料中的特殊格式,其內容是否為機敏資料的示意圖。
在下文中,將藉由圖式說明本發明之各種例示實施例來詳細描述本發明。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。此外,在圖式中相同參考數字可用以表示類似的元件。
本發明實施例提供一種辨識機敏資料之電子裝置,其利用代表特殊格式的格式特徵來判斷資料中是否有特殊格式,接著電子裝置再利用代表特殊格式為機敏資料的多個機敏因子進一步判斷資料中的特殊格式是否為機敏資料。另外,本發明實施例還提供對應執行於電子裝置中的一種辨識機敏資料之方法,其中辨識機敏資料之方法可以使用韌體、軟體或硬體電路的方式實現於電子裝置中。
首先,請參考圖1,圖1是本發明一實施例之辨識機敏資料之電子裝置的示意圖。如圖1所示,辨識機敏資料之電子裝置100是用來辨識電子裝置100所接收到的資料,其資料中的特殊
格式的內容是否為機敏資料,以避免資料外洩。在本實施例中,電子裝置100可為智慧型手機、桌上型電腦、筆記型電腦、或是其他可接收資料的電子裝置。
而電子裝置100可設置在使用者電腦與遠端伺服器之間(未繪於圖式中),以辨識使用者電腦與遠端伺服器之間所傳輸的資料中的特殊格式是否為機敏資料。又或者電子裝置100可電連接在使用者電腦上(未繪於圖式中),使得電子裝置100可以透過網路連線來擷取使用者電腦中的資料,並辨識所擷取的資料中的特殊格式是否為機敏資料。又或者電子裝置100可設置在使用者電腦內部(未繪於圖式中),故使用者電腦輸出資料時,電子裝置100可以辨識所輸出的資料中的特殊格式是否為機敏資料。本發明對電子裝置的設置位置不作限制。據此,電子裝置100可防止機敏資料遭到有心人士取得,避免資料外洩。
電子裝置100包含辨識單元110、擷取單元120與儲存單元130。儲存單元130儲存有複數個辨識群組132。每一辨識群組132會對應到一特殊格式,且每一辨識群組132具有代表對應的特殊格式之一格式特徵FF。意即每個辨識群組132具有格式特徵FF,以進一步提供辨識單元110辨識資料中的內容是否具有對應的特殊格式。舉例來說,若特殊格式為表格(FORM),則表格的格式特徵FF可為在多行中具有二個行結束處(End-of-Line)的特徵。再舉例來說,若特殊格式為列表(LIST),則列表的格式特徵FF可為具有多個「TAB」鍵所發出的訊息的特徵。再舉例來說,若特殊格式為使用者自行定義的樣板(TEMPLATE),則樣板的格式特徵FF可為使用者自行定義的特徵。在本實施例中,每個格式特徵FF包含至少一字元、至少一字串、至少一符號、至少一數字、至少一執行指令與至少一格式其中之一或其組合,本發明對此不作限制。
此外,每個辨識群組132皆具有代表對應的特殊格式為機敏資料之複數個機敏因子CP。意即每個辨識群組132具有多個機敏
因子CP,以進一步提供辨識單元110辨識資料中的特殊格式,其內容是否為機敏資料。舉例來說,若特殊格式為履歷表格(如圖3A所示),其機敏因子CP可為「姓名」、「身分證字號」、「行動電話」、與「聯絡地址」等字詞。再舉例來說,若特殊格式為通訊錄列表(如圖4A所示),其機敏因子CP可為「出生年月日」、「身高」、「體重」、「住址」、與「電話」等字詞。再舉例來說,若特殊格式為使用者自行定義的樣板(如圖5A所示),其機敏因子CP可為「計畫目的」與「客戶需求」等使用者自行定義的字詞。在本實施例中,每個辨識群組132所對應的多個機敏因子CP包含至少一字元、至少一字串、至少一符號、至少一數字、至少一執行指令與至少一格式其中之一或其組合,本發明對此不作限制。
而有關電子裝置100儲存多個辨識群組132至儲存單元130的方式為習知的儲存方式,所屬技術領域具通常知識者應知電子裝置100儲存多個辨識群組132至儲存單元130的方式,故在此不再贅述。在本實施例中,儲存單元130可為快閃記憶體晶片、唯讀記憶體晶片或隨機存取記憶體晶片等揮發性或非揮發性記憶晶片,且儲存單元130較佳為非揮發性記憶晶片。
此外,電子裝置100更具有顯示單元,用來顯示一辨識介面(未繪於圖式),以提供使用者於辨識介面中設定欲辨識的特殊格式(如使用者自行定義的字詞),進而可辨識接收到的資料,其特殊格式的內容是否為機敏資料。當然,若欲辨識的特殊格式及其對應的辨識群組132已事先設定於儲存單元130中,亦可不需要顯示單元,本發明對此不作限制。
擷取單元120電連接儲存單元130,並擷取多個資料與多個辨識群組132,以提供辨識單元110進一步辨識接收到的資料。辨識單元110電連接擷取單元120,且辨識單元110為電子裝置100的主要運算中心,用以執行各項分析、運算及控制。在本實施例中,辨識單元110可為中央處理器、微控制器或嵌入式控制器等處理
晶片。而辨識單元110與擷取單元120亦可整合至中央處理器、微控制器或嵌入式控制器等處理晶片之中,本發明對此不作限制。
辨識單元110用以執行下列步驟,以辨識接收到的資料,其特殊格式的內容是否為機敏資料。
請同時參考圖1與圖2A,首先,辨識單元110透過擷取單元120擷取複數個資料其中之一,並將其定義為一擷取資料,以進一步辨識擷取資料中的特殊格式的內容是否為機敏資料(步驟S210)。辨識單元110可透過擷取單元120由外部裝置擷取上述多個資料,或擷取預先儲存在儲存單元130中的多筆資料,本發明對此不作限制。
接著,辨識單元110透過擷取單元120擷取儲存在儲存單元130中的多個格式特徵FF其中之一,並將其定義為一擷取特徵(步驟S220)。而此時的擷取特徵為代表某個特殊格式(如表格或列表等特殊格式)。再來,辨識單元110將根據擷取特徵來判斷擷取資料是否具有對應的特殊格式(步驟S230)。意即,辨識單元110將判斷擷取資料中是否存在有一定數量的擷取特徵,以據此判斷擷取資料中是否存在有目前擷取的格式特徵FF的特殊格式。在本實施例中,特殊格式可以為表格、列表、使用者自訂的樣板、或其他具有規則性特徵的特殊格式,本發明對此不作限制。而特殊格式所對應的格式特徵FF可選自只有出現在特殊格式中的特徵選出,如特定鍵所發出的訊息、連續空格等特徵,本發明對此不作限制。
若辨識單元110判斷擷取資料具有對應的特殊格式,代表擷取資料中有對應擷取特徵的特殊格式。此時,辨識單元110將進一步判斷擷取資料中的特殊格式,其內容是否為機敏資料(步驟S240)。反之,若辨識單元110判斷擷取資料不具有對應的特殊格式,代表擷取資料中沒有對應擷取特徵的特殊格式。此時,辨識單元110將進一步判斷多個格式特徵FF中是否有尚未擷取的格式
特徵FF(步驟S270)。
舉例來說,若特殊格式為表格,其格式特徵FF為同一行中具有至少二個行結束處,如圖3A所示。因此,若擷取單元120擷取到代表表格的格式特徵FF時,辨識單元110將判斷表格的內容中,其同一行具有二個行結束處的數量是否大於等於一格式門檻值。若判斷為是,辨識單元110將認定擷取資料具有代表表格的特殊格式。反之,辨識單元110則認定擷取資料不具有代表表格的特殊格式。上述格式門檻值為根據實際的表格來設定,本發明對此不作限制。而辨識單元110在辨識完擷取資料是否具有代表表格的特殊格式後,將透過擷取單元120擷取表格中的內容(如圖3B所示),以進一步判斷表格中的內容是否為機敏資料。
再舉例來說,若特殊格式為列表,其格式特徵FF為多個「TAB」鍵所發出的訊息,如圖4A所示。因此,若擷取單元120擷取到代表列表的格式特徵FF時,辨識單元110將判斷列表的內容中具有上述訊息的數量是否大於等於一格式門檻值。若判斷為是,辨識單元110將認定擷取資料具有代表列表的特殊格式。反之,則辨識單元110認定擷取資料不具有代表列表的特殊格式。上述格式門檻值為根據實際的列表來設定,本發明對此不作限制。而辨識單元110在辨識完擷取資料是否具有代表列表的特殊格式後,將透過擷取單元120擷取列表中的內容(如圖4B所示),以進一步判斷列表中的內容是否為機敏資料。
再舉例來說,若特殊格式為使用者自訂的樣板,其格式特徵FF將為一自訂特徵,即格式特徵FF係透過使用者自行定義而產生。如圖5A所示,自訂特徵為「計畫目的」與「客戶需求」等特徵。因此,若擷取單元120擷取到代表自訂特徵的格式特徵FF時,辨識單元110將判斷樣板的內容中具有上述自訂特徵的數量是否大於等於一格式門檻值。若判斷為是,辨識單元110將認定擷取資料具有代表樣板的特殊格式。反之,辨識單元110則認定擷取
資料不具有代表樣板的特殊格式。上述格式門檻值為根據實際的樣板來設定,本發明對此不作限制。而辨識單元110在辨識完擷取資料是否具有代表樣板的特殊格式後,將透過擷取單元120擷取樣板中的內容(如圖5B所示),以進一步判斷樣板中的內容是否為機敏資料。
而於上述3個例子中,所屬技術領域具通常知識者應知辨識單元110透過擷取單元120擷取特殊格式(如表格、列表、以及樣板)中的內容之實施方式,故在此不再贅述。
請回到步驟S240,辨識單元110將判斷此特殊格式所對應的多個機敏因子CP在擷取資料中的出現頻率是否大於等於機敏門檻值,以據此判斷擷取資料中的特殊格式,其內容是否為機敏資料。機敏因子CP係代表對應的特殊格式為機敏資料的機率。故在特殊格式中出現越多的機敏因子CP,表示特殊格式為機敏資料的機率越高。有關機敏因子CP的設定已描述於前一實施例中,故在此不再贅述。據此,若辨識單元110判斷機敏因子CP的出現頻率大於等於一機敏門檻值,代表擷取資料中的特殊格式為機敏資料(步驟S250)。反之,若辨識單元110判斷機敏因子CP的出現頻率小於機敏門檻值,則代表擷取資料中的特殊格式不為機敏資料(步驟S260)。上述機敏門檻值為根據實際的多個機敏因子CP在擷取資料中的出現頻率來設定,本發明對此不作限制。
舉例來說,假設特殊格式為表格,如圖3A-3B所示。其中,表格具有4種作為機敏因子CP的字詞,分別為「姓名」、「身分證」、「行動電話」與「聯絡地址」。而每種字詞有可能出現同義字,如「姓名」的同義字為「名字」、「名稱」、「人名」、「Name」。故在判斷的過程中,辨識單元110會將同義字看成同一種字詞。在本實施例中,辨識單元110係透過一同義字函數STF(i)來計算每種字詞出現在表格中的重要程度,以得到每種字詞與表格之間的關聯性。本實施例的同義字函數STF(i)如下:
其中,nij代表第i種字詞在第j個表格中的出現次數;ωi代表第i種字詞的權重;ΣkNkj代表第j個表格中的所有k個字詞,且k≧0。
值得注意的是,辨識單元110會將同義字視為同一種字詞。意即,若辨識單元110找出表格中具有5個字詞,分別為「聯絡地址」、「姓名」、「名稱」、「人名」與「身分證」。此時,辨識單元110將「聯絡地址」視為第1種字詞,「姓名」、「名稱」、「人名」視為第2種字詞,而「身分證」則視為第3種字詞。假設每種字詞的權重被設定為:ω1為0.5,ω2為0.2,以及ω3為0.3。辨識單元110將透過同義字函數STF來計算每種字詞出現在表格中的重要程度。以第1種字詞來說,STF(1)=1/5*0.5=0.1;以第2種字詞來說,STF(2)=3/5*0.2=0.12;以第3種字詞來說,STF(3)=1/5*0.3=0.06。
接著,本實施例的辨識單元110遂再透過一資訊函數PIF計算表格中出現作為機敏因子CP的字詞的機率。本實施例的資訊函數PIF如下:
其中,Pt代表目前作為機敏因子CP的字詞的數量;Pn代表在表格中有出現作為機敏因子CP的字詞的數量。以上述例子來說,表格具有4種作為機敏因子CP的字詞,其分別為「姓名」、「身分證」、「行動電話」與「聯絡地址」。而辨識單元110從表格中找到5個字詞,分別為「聯絡地址」、「姓名」、「名稱」、「人名」與「身分證」,並將找到的5個字詞分類為3種字詞。此時,辨識單元110將計算出PIF=3/4,表示在表格中出現作為機敏因子CP的字詞的
機率為75%。
接著,辨識單元110透過一機敏資料函數PIFV,以據此計算表格所對應的4個機敏因子CP在擷取資料中的出現頻率。本實施例的機敏資料函數PIFV如下:PIFV=(Σ n STF(i))×PIF其中,ΣnSTF(i)代表每種字詞出現在表格中的重要程度的總和;PIF代表表格中出現作為機敏因子的字詞的機率。承接上述例子,PIFV=(0.1+0.12+0.06)*0.75=0.21,表示表格所對應的4個機敏因子CP在擷取資料中的出現頻率為0.21。
最後,辨識單元110將判斷出現頻率是否大於等於機敏門檻值。而承接上述例子,本實施例的機敏門檻值係設定為0.1。故辨識單元110將判斷機敏因子CP的出現頻率(為0.21)大於機敏門檻值(為0.1),代表擷取資料中的表格,其內容為機敏資料。據此,辨識單元110將可透過步驟S210-S260判斷出所擷取的資料中,其特殊格式是否為機敏資料。
據此,辨識單元110將可透過代表特殊格式的機敏資料CP辨識出擷取資料中特殊格式的機敏程度,以避免高機敏程度的資料外洩。
接著,辨識單元110將判斷多個格式特徵FF中是否有尚未擷取的格式特徵FF(步驟S270)。意即,辨識單元110將進一步判斷擷取資料中是否還存在有其他特殊格式。若辨識單元110判斷有未擷取的格式特徵FF,則回到步驟S220,以透過擷取單元120擷取尚未擷取的格式特徵FF。此時,辨識單元110將改以定義未擷取的格式特徵FF為擷取特徵,以重新根據重新定義的擷取特徵判斷擷取資料是否具有對應的特殊格式。承接上述例子,在判斷完表格的格式特徵FF後,若辨識單元110判斷出代表列表的格式特徵FF尚未被擷取時,辨識單元110將改以定義代表列表的格式特
徵FF(即格式特徵FF為多個「TAB」鍵所發出的訊息)為擷取特徵,以重新根據擷取特徵來判斷擷取資料是否具有列表的格式。
反之,若辨識單元110判斷沒有未擷取的格式特徵,代表擷取資料中已經沒有需要判斷的特殊格式。此時,辨識單元110將回到步驟S210,以擷取多筆資料中的下一筆資料。再來,辨識單元110將改以定義下一筆資料為擷取資料,以重新判斷擷取資料是否具有對應的特殊格式。
此外,請同時參考圖1、圖2A與圖2B,電子裝置100可更包含一分類單元140。分類單元140電連接辨識單元110,以對目前的擷取資料作分類。更進一步來說,若辨識單元110判斷沒有未擷取的格式特徵FF後,分類單元140更可以對目前的擷取資料進行分類,以進一步判斷擷取資料中的特殊格式為哪一種類(步驟S275)。而辨識單元110將在分類單元140分類完成目前的擷取資料後回到步驟S210,以擷取多筆資料中的下一筆資料。舉例來說,分類單元140將具有表格的擷取資料分類成履歷表、薪資表、病歷表或其他高機敏程度的表格。又或者分類單元140將具有列表的擷取資料分類成通訊錄、分機表或其他高機敏程度的列表。
在本實施例中,由於所有資料具有相關性,故分類單元140將根據特殊格式之多個機敏因子CP與上述機敏因子CP出現在所有資料中的次數來對目前的擷取資料進行分類。例如,分類單元140以5個字詞「履歷」、「姓名」、「身分證」、「行動電話」與「聯絡地址」作為機敏因子CP。分類單元140將根據上述5個字詞與上述5個字詞出現在所有資料中的次數來對目前的擷取資料進行分類。當然,若所有資料之間沒有關聯性,分類單元140亦可僅根據特殊格式之多個機敏因子CP來對目前的擷取資料進行分類,本發明對此不作限制。
另外,本實施例的分類單元140亦可利用分類演算法,如TFIDF(term frequency-inverse document frequency)、支持向量機
(support vector machines,SVM)、貝式分類法(bayesian classification)、或倒傳遞類神經網路(back propagation neural(BPN)network)等分類演算法對目前的擷取資料進行分類,以更準確的分類擷取資料。而所屬技術領域具通常知識者應知分類單元140利用分類演算法對目前的擷取資料進行分類的實施與運用方式,故不再贅述。
據此,分類單元140可對具有特殊格式的擷取資料進行分類。故所有資料在辨識結束後,使用者可以得知所有資料中的特殊格式為哪一種類,進而可對所有資料作控管。
以下將以使用者透過使用者電腦10傳送一個資料DA至遠端伺服器20為例子作說明。如圖6所示,電子裝置100為設置在使用者電腦10與遠端伺服器20之間,以判斷使用者電腦10所傳送的資料DA中的特殊格式,其內容是否為機敏資料。為了方便說明,本實施例的資料DA具有圖3A所示之表格,且此時所擷取的格式特徵FF為代表表格的特殊格式。
請同時參考圖1、圖3A與圖6,當使用者透過使用者電腦10傳送資料DA至遠端伺服器20的過程中,電子裝置100中的辨識單元110將透過擷取單元120擷取資料DA。此時,電子裝置100將進一步判斷資料DA中的特殊格式的內容是否為機敏資料,且暫時不會將資料DA傳送至遠端伺服器20,以避免機敏資料外洩。
首先,電子裝置100中的辨識單元110將根據目前所擷取的格式特徵FF(即代表表格的特殊格式)判斷出資料DA中存在有代表表格的特殊格式。有關辨識單元110判斷資料DA中是否存在有代表表格的特殊格式的方法已於上述實施例中作說明,故在此不再贅述。
接著,電子裝置100中的辨識單元110將根據代表表格的特殊格式所對應的多個機敏因子CP在資料DA中的出現頻率,判斷出資料DA中的表格,其內容為機敏資料。有關辨識單元110判
斷資料DA中代表表格的特殊格式,其內容是否為機敏資料的方法已於上述實施例中作說明,故在此不再贅述。
再來,電子裝置100中的辨識單元110將進一步判斷是否還有尚未辨識的格式特徵FF。在本實施例中,此時辨識單元110已經沒有未擷取的格式特徵FF,意即辨識單元110已判斷完資料DA中的特殊格式。接著,電子裝置100中的分類單元140將根據多個機敏因子CP對資料DA進行分類,並將資料DA分類為履歷資料。有關分類單元140對資料DA分類為履歷資料的方法已於上述實施例中作說明,故在此不再贅述。
此時,電子裝置100將判斷出由使用者電腦10所傳送的資料DA中的表格為履歷資料,且此履歷資料屬於機敏資料。而在電子裝置100判斷出資料DA中的表格屬於機敏資料後,遂可根據實際的資訊安全防護來進行後續處理。例如,電子裝置100不允許資料DA傳送至遠端伺服器20,並同時通知系統管理者使用者電腦10正在傳送機敏資料至遠端伺服器20。據此,電子裝置100可以辨識所輸出的資料DA中的特殊格式是否為機敏資料,以防止機敏資料遭到有心人士取得,避免重要的資料DA外洩。
另外,本發明亦可利用一種電腦可讀取記錄媒體,儲存前述辨識機敏資料之方法的電腦程式以執行前述之步驟。此電腦可讀取媒體可以是軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟知此項技術者可輕易思及具有相同功能之儲存媒體。
綜合以上所述,本發明實施例所提供的辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體可以判斷具有特殊格式的資料是否為機敏資料。據此,本發明實施例所提供的辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體可以提供筆數不多但卻包含大量機密描述的資料正確的機密等級,且可辨識出具有特殊格式的機敏資料,進而避免資料外洩。
以上所述僅為本發明之實施例,其並非用以侷限本發明之專利範圍。
100‧‧‧電子裝置
110‧‧‧辨識單元
120‧‧‧擷取單元
130‧‧‧儲存單元
132‧‧‧辨識群組
140‧‧‧分類單元
FF‧‧‧格式特徵
CP‧‧‧機敏因子
Claims (20)
- 一種辨識機敏資料之方法,適用於一電子裝置,該電子裝置儲存有複數個辨識群組,每一該辨識群組對應到一特殊格式,每一該辨識群組具有代表該特殊格式之一格式特徵與具有代表該特殊格式為該機敏資料之複數個機敏因子,且該辨識機敏資料之方法包含:擷取複數個資料其中之一,並將其定義為一擷取資料;擷取該些格式特徵其中之一,並將其定義為一擷取特徵;於該電子裝置根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式,若該電子裝置判斷該擷取資料具有對應的該特殊格式,判斷該特殊格式所對應的該些機敏因子在該擷取資料的該特殊格式的內容中的一出現頻率是否大於等於一機敏門檻值,其中若該電子裝置判斷該出現頻率大於等於一機敏門檻值,代表該擷取資料中的該特殊格式的內容為該機敏資料,且若該電子裝置判斷該出現頻率小於該機敏門檻值,代表該擷取資料中的該特殊格式的內容不為該機敏資料;及於該電子裝置判斷該些格式特徵中是否有未擷取的該格式特徵,若該電子裝置判斷該些格式特徵中有未擷取的該格式特徵,擷取未擷取的該格式特徵,並改以定義未擷取的該格式特徵為該擷取特徵,以重新根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式,且若該電子裝置判斷該些格式特徵中沒有未擷取的該格式特徵,擷取該些資料之下一資料,並改以定義該下一資料為該擷取資料,以重新判斷該擷取資料是否具有對應的該特殊格式。
- 如請求項第1項之辨識機敏資料之方法,其中,若該電子裝置判斷該擷取資料不具有對應的該特殊格式,判斷該些格式特徵中是否有未擷取的該格式特徵。
- 如請求項第1項之辨識機敏資料之方法,其中,於該電子裝置判斷該些格式特徵中沒有未擷取的該格式特徵後,更包含步驟:該電子裝置根據該些機敏因子與該些機敏因子出現在該些資料中的次數對該擷取資料進行分類。
- 如請求項第1項之辨識機敏資料之方法,其中,於根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式的步驟中,該擷取特徵包含同一行具有二個行結束處,且若該電子裝置判斷該特殊格式中同一行具有二個行結束處的數量大於等於一格式門檻值,該電子裝置判斷該擷取資料具有該特殊格式。
- 如請求項第1項之辨識機敏資料之方法,其中,於根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式的步驟中,該格式特徵包含一特定鍵所發出的一訊息,且若該特殊格式中具有該訊息的數量大於等於一格式門檻值,判斷該擷取資料具有該特殊格式。
- 如請求項第1項之辨識機敏資料之方法,其中,於根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式的步驟中,該格式特徵包含一自訂特徵,且若該特殊格式中具有該自訂特徵的數量大於一格式門檻值,判斷該擷取資料具有該特殊格式。
- 如請求項第1項之辨識機敏資料之方法,其中,每一該辨識群組之該些機敏因子包含至少一字元、至少一字串、至少一符號、至少一數字、至少一執行指令與至少一格式其中之一或其組合。
- 如請求項第1項之辨識機敏資料之方法,其中,每一該格式特 徵包含至少一字元、至少一字串、至少一符號、至少一數字、至少一執行指令與至少一格式其中之一或其組合。
- 一種辨識機敏資料之電子裝置,包含:一儲存單元,用以儲存複數個辨識群組,每一該辨識群組對應到一特殊格式,且每一該辨識群組具有代表該特殊格式之一格式特徵與具有代表該特殊格式為該機敏資料之複數個機敏因子;一擷取單元,電連接該儲存單元,以擷取該些資料與該些辨識群組;以及一辨識單元,電連接該擷取單元,且用以執行下列步驟:透過該擷取單元擷取該些資料其中之一,並將其定義為一擷取資料;透過該擷取單元擷取該些格式特徵其中之一,並將其定義為一擷取特徵;根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式,若該辨識單元判斷該擷取資料具有對應的該特殊格式,該辨識單元判斷該特殊格式所對應的該些機敏因子在該擷取資料的該特殊格式的內容中的一出現頻率是否大於等於一機敏門檻值,其中若該辨識單元判斷該出現頻率大於等於一機敏門檻值,代表該擷取資料中的該特殊格式的內容為該機敏資料,且若該辨識單元判斷該出現頻率小於該機敏門檻值,代表該擷取資料中的該特殊格式的內容不為該機敏資料;及判斷該些格式特徵中是否有未擷取的該格式特徵,若該辨識單元判斷該些格式特徵中有未擷取的該格式特徵,透過該擷取單元擷取未擷取的該格式特徵,並改以定義未擷取的該格式特徵為該擷取特徵,以重新根據該擷取特徵判斷該擷取資料是否具有對應的該特殊格式,且若該辨識單元判斷該些格式特徵中沒有未擷取的該格式特徵,透過該擷取單元擷取該些資料之 下一資料,並改以定義該下一資料為該擷取資料,以重新判斷該擷取資料是否具有對應的該特殊格式。
- 如請求項第9項之電子裝置,其中,若該辨識單元判斷該擷取資料不具有對應的該特殊格式,該辨識單元判斷該些格式特徵中是否有未擷取的該格式特徵。
- 如請求項第9項之電子裝置,其更包含一分類單元,該分類單元電連接該辨識單元,且若該辨識單元判斷該些格式特徵中沒有未擷取的該格式特徵,該分類單元根據該些機敏因子與該些機敏因子出現在該些資料中的次數對該擷取資料進行分類。
- 如請求項第9項之電子裝置,其中,該擷取特徵包含同一行具有二個行結束處,且若該辨識單元判斷該特殊格式中同一行具有二個行結束處的數量大於等於一格式門檻值,該辨識單元判斷該擷取資料具有該特殊格式。
- 如請求項第9項之電子裝置,其中,該格式特徵包含一特定鍵所發出的一訊息,且若該辨識單元判斷該特殊格式中具有該訊息的數量大於等於一格式門檻值,該辨識單元判斷該擷取資料具有該特殊格式。
- 如請求項第9項之電子裝置,其中,該格式特徵包含一自訂特徵,且若該辨識單元判斷該特殊格式中具有該自訂特徵的數量大於一格式門檻值,該辨識單元判斷該擷取資料具有該特殊格式。
- 如請求項第9項之電子裝置,其中,每一該辨識群組之該些機敏因子包含至少一字元、至少一字串、至少一符號、至少一數 字、至少一執行指令與至少一格式其中之一或其組合。
- 如請求項第9項之電子裝置,其中,每一該格式特徵包含至少一字元、至少一字串、至少一符號、至少一數字、至少一執行指令與至少一格式其中之一或其組合。
- 如請求項第9項之電子裝置,其中,該電子裝置係設置在一使用者電腦與一遠端伺服器之間,以辨識該使用者電腦與該遠端伺服器之間所傳輸的每一該資料中的該特殊格式是否為機敏資料。
- 如請求項第9項之電子裝置,其中,該電子裝置電連接一使用者電腦,且該電子裝置透過一網路連線擷取該使用者電腦之該些資料,以辨識每一該資料中的該特殊格式是否為機敏資料。
- 如請求項第9項之電子裝置,其中,該電子裝置設置在一使用者電腦內部,且當該使用者電腦輸出該些資料時,該電子裝置擷取該些資料,以辨識每一該資料中的該特殊格式是否為機敏資料。
- 一種電腦可讀取記錄媒體,其中,該電腦可讀取記錄媒體記錄一組電腦可執行程式,當該電腦可讀取記錄媒體被一處理器讀取時,該處理器執行該電腦可執行程式以實施如請求項第1項所述之步驟。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103134231A TWI528219B (zh) | 2014-10-01 | 2014-10-01 | 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 |
CN201410589483.3A CN105630762A (zh) | 2014-10-01 | 2014-10-28 | 辨识机密数据的方法及电子装置 |
US14/541,868 US20160098567A1 (en) | 2014-10-01 | 2014-11-14 | Method, electronic device, and non-transitory computer readable recording media for identifying confidential data |
JP2015020104A JP5952441B2 (ja) | 2014-10-01 | 2015-02-04 | 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103134231A TWI528219B (zh) | 2014-10-01 | 2014-10-01 | 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI528219B true TWI528219B (zh) | 2016-04-01 |
TW201614538A TW201614538A (en) | 2016-04-16 |
Family
ID=55633008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103134231A TWI528219B (zh) | 2014-10-01 | 2014-10-01 | 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160098567A1 (zh) |
JP (1) | JP5952441B2 (zh) |
CN (1) | CN105630762A (zh) |
TW (1) | TWI528219B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678822B2 (en) * | 2015-01-02 | 2017-06-13 | Tata Consultancy Services Limited | Real-time categorization of log events |
US10419401B2 (en) | 2016-01-08 | 2019-09-17 | Capital One Services, Llc | Methods and systems for securing data in the public cloud |
CN110740111B (zh) * | 2018-07-19 | 2022-01-25 | 中国移动通信集团有限公司 | 一种数据防漏方法、装置及计算机可读存储介质 |
CN110768978B (zh) * | 2019-10-22 | 2022-02-11 | 苏州科达科技股份有限公司 | 一种通信加密的验证方法、装置,计算机设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7483947B2 (en) * | 2003-05-02 | 2009-01-27 | Microsoft Corporation | Message rendering for identification of content features |
GB2404296A (en) * | 2003-07-23 | 2005-01-26 | Sony Uk Ltd | Data content identification using watermarks as distinct codes |
JP4747591B2 (ja) * | 2005-01-31 | 2011-08-17 | 日本電気株式会社 | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム |
US7613996B2 (en) * | 2005-08-15 | 2009-11-03 | Microsoft Corporation | Enabling selection of an inferred schema part |
US9569528B2 (en) * | 2008-10-03 | 2017-02-14 | Ab Initio Technology Llc | Detection of confidential information |
CN101763348B (zh) * | 2008-12-26 | 2011-12-07 | 英业达股份有限公司 | 动态表格式数据撷取系统与方法 |
JP2011018267A (ja) * | 2009-07-10 | 2011-01-27 | Ricoh Co Ltd | セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体 |
JP5629908B2 (ja) * | 2010-04-13 | 2014-11-26 | 株式会社日立製作所 | セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置 |
TWI484357B (zh) * | 2011-12-02 | 2015-05-11 | Inst Information Industry | 量化式資料分析方法以及量化式資料分析裝置 |
-
2014
- 2014-10-01 TW TW103134231A patent/TWI528219B/zh active
- 2014-10-28 CN CN201410589483.3A patent/CN105630762A/zh active Pending
- 2014-11-14 US US14/541,868 patent/US20160098567A1/en not_active Abandoned
-
2015
- 2015-02-04 JP JP2015020104A patent/JP5952441B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105630762A (zh) | 2016-06-01 |
US20160098567A1 (en) | 2016-04-07 |
JP5952441B2 (ja) | 2016-07-13 |
JP2016071839A (ja) | 2016-05-09 |
TW201614538A (en) | 2016-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019153612A1 (zh) | 问答数据处理方法、电子装置及存储介质 | |
WO2019153551A1 (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
US10380249B2 (en) | Predicting future trending topics | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN112613917B (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
JP5037627B2 (ja) | 顔認識を用いた画像の識別 | |
US11176453B2 (en) | System and method for detangling of interleaved conversations in communication platforms | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
WO2019062021A1 (zh) | 在应用程序中推送贷款广告的方法、电子装置及介质 | |
CN110245557A (zh) | 图片处理方法、装置、计算机设备及存储介质 | |
TWI528219B (zh) | 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體 | |
CN111814923B (zh) | 一种图像聚类方法、系统、设备和介质 | |
WO2019041524A1 (zh) | 聚类标签生成方法、电子设备及计算机可读存储介质 | |
WO2023029356A1 (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
US12086189B2 (en) | Document search device, document search program, and document search method | |
CN108763961B (zh) | 一种基于大数据的隐私数据分级方法和装置 | |
CN112102954A (zh) | 一种能够提供智慧医疗服务的大数据分析云平台系统 | |
CN107357782B (zh) | 一种识别用户性别的方法及终端 | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐系统 | |
WO2021175010A1 (zh) | 用户性别识别的方法、装置、电子设备及存储介质 | |
CN113722484A (zh) | 基于深度学习的谣言检测方法、装置、设备及存储介质 | |
US20190108309A1 (en) | Pathogenetic classification of genetic alterations | |
CN113254650B (zh) | 一种基于知识图谱的评估推送方法、系统、设备和介质 | |
CN106294292B (zh) | 章节目录筛选方法及装置 |