TWI484357B - 量化式資料分析方法以及量化式資料分析裝置 - Google Patents

量化式資料分析方法以及量化式資料分析裝置 Download PDF

Info

Publication number
TWI484357B
TWI484357B TW100144373A TW100144373A TWI484357B TW I484357 B TWI484357 B TW I484357B TW 100144373 A TW100144373 A TW 100144373A TW 100144373 A TW100144373 A TW 100144373A TW I484357 B TWI484357 B TW I484357B
Authority
TW
Taiwan
Prior art keywords
tested
data
file
feature vector
sentence
Prior art date
Application number
TW100144373A
Other languages
English (en)
Other versions
TW201324203A (zh
Inventor
Kuocheng Yeu
Chientsung Liu
Yian Tsai
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW100144373A priority Critical patent/TWI484357B/zh
Priority to US13/316,570 priority patent/US20130144602A1/en
Publication of TW201324203A publication Critical patent/TW201324203A/zh
Application granted granted Critical
Publication of TWI484357B publication Critical patent/TWI484357B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

量化式資料分析方法以及量化式資料分析裝置
本發明是有關於一種量化式資料分析方法,且特別是有關於一種與資訊安全相關的資料分析方法。
近年來,一些研究機構指出,全球企業因資料外洩所造成的損失,達1兆美元以上,一些研究報告也指出,2011年的資料外洩個案是2010年的五倍多,而企業安全的十大威脅中,「員工不經意中而洩漏重要資訊」和「資料被內部成員竊取」等威脅分別位在第二和第五名,由內部成員外洩機密的事件逐年增加,已與外部入侵竊取機密的比例相當。
為了保護企業內部的重要資料,許多企業均採用資訊安全(information security)管理系統來監控企業內部的各種資訊,避免重要資料外流而造成企業的重大損失。一般而言,這些企業的資訊安全政策會對電腦的檔案寫出權限、光碟燒錄權限、檔案列印權限、軟/硬體使用權限、網頁瀏覽權限、網路傳輸權限及記錄查詢...等做出設定與紀錄,以對企業內部的電腦資訊進行控管。
然而,目前企業內部所採用的資訊安全控管方法,大多無法十分準確有效地找出需要保密的文件,極有可能將一般員工的私人文件也當成機敏文件處理,造成員工的困擾;或是需要龐大的資源來對企業內部的文件進行管控,消耗了龐大的人力與物力成本。
因此,本發明之一態樣是在提供一種量化式資料分析方法,能夠有效且準確地對企業內部的文件或是應用程式進行管控,降低人力與物力成本。
依據本發明一實施例,量化式資料分析方法應用於一電腦系統當中,以判斷一待測文件是否具敏感性,此量化式資料分析方法係取得電腦系統當中之一樣本資料;對樣本資料之內容進行分段,以取得至少一原始資料段落;對原始資料段落進行劃分,以取得複數個原始文句;自原始文句當中擷取出複數個原始文句屬性;以及依據原始文句屬性,建立複數個訓練特徵向量。
本發明之另一態樣是在提供一種量化式資料分析裝置,能夠有效且準確地對企業內部的文件或是應用程式進行管控,降低人力與物力成本。
依據本發明之另一實施例,量化式資料分析裝置內建於一電子裝置當中,以判斷一待測文件或是正在執行之一應用程式是否具敏感性,此量化式資料分析裝置內含一文本特徵建置器以及一鄰似特徵搜尋器。文本特徵建置器含有一資料擷取器、一資料劃分器以及一文句分析器。資料擷取器取得一樣本資料或是一待測文件,並分別自樣本資料或是待測文件中,抽取出一原始資料或是一待測資料;資料劃分器對原始資料或是待測資料之內容進行分段,以取得至少一原始資料段落或是至少一待測資料段落,並對原始資料段落或是待測資料段落進行劃分,以取得複數個原始文句或是複數個待測文句。文句分析器自原始文句或是待測文句當中,擷取出數個原始文句屬性或是數個待測文句屬性,並依據原始文句屬性或是待測文句屬性,建立數個訓練特徵向量或是複數個待測特徵向量。鄰似特徵搜尋器依據待測特徵向量、訓練特徵向量,以及差異臨界值,決定待測文件是否為具敏感性。
以上實施例的量化式資料分析裝置以及量化式資料分析方法,係運用量化方式參考前後文之特徵,以文件內容為基礎進行分析,不因單一關鍵字而造成誤判;對於未知文件或稍作修改的已知文件皆能正確判斷,增加了可應用的層面。
以下實施例的量化式資料分析裝置以及量化式資料分析方法,係運用量化方式參考前後文之特徵,對文件內容為基礎進行分析,未知文件或稍作修改的已知文件皆能正確判斷;此外,使用者可自訂相似度門檻值,作為分類的依據,增加了比對的彈性。
請參見第1圖,其係繪示本發明一實施方式量化式資料分析方法之流程圖。量化式資料分析方法應用於一電腦系統當中,此電腦系統可為區域電腦系統、網際電腦系統,或是電話電腦系統,以判斷一待測文件是否具敏感性。量化式資料分析方法首先取得電腦系統當中之一樣本資料(步驟101),例如,至電腦系統的資料庫當中,取得企業、公司的教育訓練文件、營業秘密或商業祕密文件、企劃文書、規格說明書、企業宣傳文件等,公司或是企業不希望外流的資料,作為樣本資料,以這些樣本資料的內容為基礎,來判斷其他文件的內容是否具敏感性。
在取得樣本資料之後,對樣本資料之內容進行分段(步驟103),目地在取得至少一原始資料段落。接著,量化式資料分析方法會對所取得的原始資料段落進行劃分(步驟105),以取得數個原始文句。一般而言,可以使用句號來對原始資料段落進行劃分,每出現一個句號,代表一個句子的開始以及另一個句子的結束,藉此得到數個原始文句。
在步驟105取得數個原始文句之後,接著自這些原始文句當中擷取出數個原始文句屬性(步驟107),其中,這些文句屬性可以是字數、空白數目、逗號數目、引號數目、冒號數目、分號數目,以及英文與數字數目。也就是說,可以對一個原始文句內所含有的字數、空白數目、逗號數目、引號數目、冒號數目、分號數目,以及英文與數字數目進行累計加總,以得到加總數目。
最後再依據原始文句屬性,建立數個訓練特徵向量(步驟109),其中,這些訓練特徵向量是用來判斷待測文件是否具敏感性的基礎。舉例來說,在取得待測文件的某一些特徵向量之後,可以將待測文件的特徵向量與所建立的訓練特徵向量進行比對,以兩向量之間的差距為基礎,判斷待測文件是否為機敏文件。最後再將這些訓練特徵向量儲存至電腦系統之一資料庫(步驟111),以在資料庫當中累積訓練特徵向量。
請同時參照第2A圖、第2B圖以及第2C圖,其係繪示本發明兩種實施方式量化式資料分析方法之流程圖。在此兩實施方式當中,步驟101~步驟109係與第1圖的實施方式相同,都是對企業或公司的樣本資料建立訓練特徵向量。除了步驟101至步驟109以外,本實施方式當中的步驟201至步驟211則是用來決定差異臨界值T,這個差異臨界值T是用來判斷文件敏感性的參數之一。
量化式資料分析方法首先修改樣本資料(步驟201)。詳細來說,如果公司或是企業對資料敏感性的認定抱持較為嚴謹的態度,也就是說,即使待測文件與樣本資料之間存在不少的差異,此待測文件仍然可能被判斷為具敏感性,那麼在修改樣本資料時,就可以對樣本資料進行較大幅度的修改,以取得容忍度較大的差異臨界值T。
在步驟201之後,量化式資料分析方法會對修改後之樣本資料之內容進行分段(步驟203),以取得至少一修改資料段落,然後再對修改資料段落進行劃分(步驟205),以取得數個修改文句;接著,量化式資料分析方法會自修改文句當中擷取出數個修改文句屬性(步驟207),依據修改文句屬性,建立數個修改特徵向量(步驟209)。在此需要特別說明的是,修改特徵向量與訓練特徵向量的建立方法大致相同。
最後再依據訓練特徵向量以及修改特徵向量之間的差異大小,決定差異臨界值T(步驟211),這個差異臨界值T是用來判斷待測特徵向量是否具相似性。詳細來說,可以先將修改特徵向量減去訓練特徵向量得到一個原始差異矩陣,然後將原始差異矩陣乘以一個加權矩陣,來得到一個量化矩陣,再依據這個量化矩陣的數值,決定出差異臨界值T。
在差異臨界值T取得之後,量化式資料分析方法會繼續對需要檢驗的待測文件進行分析,待測文件的分析主要分成兩種方法,分別繪示於第2B圖以及第2C圖。如第2B圖的實施方式所繪示,量化式資料分析方法會繼續取得待測文件之一待測資料(步驟213),然後對待測資料之內容進行分段(步驟215),以取得至少一待測資料段落;接著繼續對待測資料段落進行劃分(步驟217),以取得數個待測文句,並自待測文句當中擷取出數個待測文句屬性(步驟219),然後依據待測文句屬性,建立數個待測特徵向量(步驟221)。在此需要特別說明的是,待測特徵向量群與修改特徵向量群、訓練特徵向量群的建立方法大致相同,各向量除了代表其來源文句,向量之間的順序也依循來源文句之順序。
當步驟221取得數個待測特徵向量之後,再依據待測特徵向量、訓練特徵向量,及差異臨界值T,逐一比對以決定待測文件是否具敏感性。詳細來說,係將待測特徵向量群依序且逐一與訓練特徵向量群各元素計算差異,如第2C圖所繪示,首先自待測特徵向量群中選取第一個待測特徵向量,作為現行待測特徵向量(步驟225)。
接著以現行待測特徵向量為基礎,搭配參數矩陣R,篩選訓練特徵向量子集合(步驟227),參數矩陣R用以初步篩選與待測特徵向量數值相似的訓練特徵向量子集合,參數矩陣R的各元素為對應特徵向量各元素之差(距離)。
挑選出之訓練特徵向量各元素與待測特徵向量各元素之距離(絕對值)應小於參數矩陣R對應之數值。舉例來說,待測特徵向量Q[3,4,5,6,7,8,9]搭配參數矩陣R[2,10,10,10,10,10,10],第一個元素(數值為3)適合的範圍為1至5,若訓練向量P11 [1,4,5,6,7,8,9],則符合挑選條件;若為訓練向量P12 [6,3,3,6,3,3,3],則因第一個元素(數值為6)與待測向量對應元素之差超過2,不符合挑選條件。
在此步驟227當中,被選取的訓練特徵向量於訓練特徵向量群之原始位置,不得小於先前循環發現具相似性訓練特徵向量之位置;若先前沒有發現具相似性之訓練特徵向量,則無此限制。
之後,逐一計算現行待測特徵向量與訓練特徵向量子集合各元素之差異(步驟229),然後判斷現行待測特徵向量是否具有相似性(步驟231),其中,若結果小於差異臨界值T,則判定現行待測特徵向量有相似性。
倘若在步驟231當中,若發現現行待測向量具相似性,則參考鄰近邊界值A(Adjacency margin A),檢查現行待測特徵向量先前的數個待測向量是否也具相似性(步驟235);倘若具相似性,則判定待測文件具敏感性(步驟237),結束檢查;其中係依據待測特徵向量、訓練特徵向量子集合當中的訓練特徵向量,以及一鄰近邊界值A,決定待測文件是否具敏感性。若發現待測文件中任意兩個具相似性之待測特徵向量的間隔距離小於或等於A,則代表待測文件具敏感性,此時量化式資料分析方法可回報一肯定值;反之,若所有具相似性之待測特徵向量的間隔距離均大於A,則代表待測文件不具敏感性,此時量化式資料分析方法可回報一否定值。
倘若待測文件不具敏感性,則選取下一個待測特徵向量作為現行待測特徵向量,然後重複前述步驟。倘若前述步驟循環無法找到任意距離在A內的具相似性待測特徵向量,則判定待測文件不具敏感性(步驟239)。
當判斷出待測文件具有敏感性之後,量化式資料分析方法可以拒絕傳輸此一具敏感性的待測文件、直接刪除此待測文件,或是作出其他處理。
請參見第3圖,其係繪示本發明一實施方式特徵向量說明示意圖。如第3圖所繪示,訓練特徵向量P1、P2、P3係對樣本資料301分析得來。當樣本資料301被修改之後,會得到修改後的樣本資料303,修改後的樣本資料303經過分析後,會得出修改特徵向量Q1、Q2、Q3。這些特徵向量則內含字數、空白數目、逗號數目、引號數目、冒號數目、分號數目,以及大寫字母數目等資訊。
請參見第4圖,其係繪示本發明一實施方式量化式資料分析裝置之方塊圖。量化式資料分析裝置400,內建於一電子裝置當中,以判斷一待測文件或是正在執行之一應用程式是否具敏感性,此量化式資料分析裝置含有文本特徵建置器405、鄰似特徵搜尋器415、訊息標註器417,以及資料庫413。文本特徵建置器405含有資料擷取器407、資料劃分器409,以及文句分析器411。
資料擷取器407用以取得樣本資料401或是待測文件403,並分別自樣本資料401或是待測文件403中,抽取出一原始資料或是一待測資料。資料劃分器409對抽取出的原始資料或是待測資料之內容進行分段,以取得至少一原始資料段落或是至少一待測資料段落。資料劃分器409並對原始資料段落或是待測資料段落進行劃分,以取得數個原始文句或是數個待測文句。文句分析器411自原始文句或是待測文句當中,擷取出數個原始文句屬性或是數個待測文句屬性,並依據原始文句屬性或是待測文句屬性,建立數個訓練特徵向量或是數個待測特徵向量。
鄰似特徵搜尋器415負責依據待測特徵向量、訓練特徵向量,以及差異臨界值T,決定待測文件是否為具敏感性。當鄰似特徵搜尋器415判定待測文件具敏感性時,訊息標註器417為待測文件加上標註,例如,可將文件標示為機密文件,以防止外流。除了加註標示之外,訊息標註器417還可以對具敏感性的待測文件作進一步的處理,例如,可以通知資訊安全系統拒絕傳輸此一具敏感性的待測文件、直接刪除此待測文件,或是作出其他處理。
請同時參見第5A圖、第5B圖以及第5C圖,其係分別繪示本發明三種實施方式當中電子裝置的應用示意圖,前述實施方式當中所提及的量化式資料分析裝置,則內建於這些電子裝置當中,以判斷待測文件或是正在執行之應用程式是否具敏感性。
在第5A圖當中,電子裝置為安全閘道器(Security Gateway)505,這個安全閘道器505負責管控由個人電腦傳遞至網際網路上的各種待測文件,以判斷在網路上傳遞之待測文件是否具敏感性。舉例來說,安全閘道器505會監控個人電腦501要往外傳遞的電子郵件,看看這些電子郵件是否夾帶具有敏感性的附加檔案,如果電子郵件所夾帶的附加檔案具有敏感性,則安全閘道器505可以攔截這封電子郵件,禁止電子郵件往外傳送。
在第5B圖當中,電子裝置係為網路節點509之一資料探索器(Explorer),資料探索器會探索區域網路之電腦主機515或是伺服器所內含之待測文件是否具敏感性。舉例來說,資料探索器會檢驗電腦主機515或是伺服器所提供的服務是否違反企業、公司內部的規定,例如,電腦主機515或是伺服器是否不當地提供網路芳鄰或是共享軟體(File Transfer Protocol;FTP)來分享資料。
另外,在第5C圖當中,電子裝置係為端點代理器525,以使用者行為為基礎監控並攔截檔案存取相關應用程式介面(API),如:開啟檔案應用程式介面527、列印檔案應用程式介面529以及燒錄檔案應用程式介面523。舉例而言,當使用者欲進行上述行為,端點代理器可於受監控之應用程式介面被呼叫的當下,自應用程式介面參數截取欲存取之檔案,並進行量化資料分析。若判定預存取之檔案具敏感性,則依既定政策阻擋或進一步處理;若否,則回歸原有運作流程。
以上實施例的量化式資料分析方法以及量化式資料分析裝置,係以文件內容為基礎進行分析,參考前後文之特徵,對於未知文件或稍作修改的已知文件皆能正確判斷,不會因為單一關鍵字而造成誤判;且提供效能選項,讓使用者根據硬體性能及系統資源自行調整搜尋範圍以及差異容忍度;使用者也可自訂相似度門檻值,作為分類的依據;除此之外,量化式資料分析方法以及量化式資料分析裝置還可以自機敏資料分段擷取量化特徵,每次學習的結果可作為後續調校的依據。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何在本發明所屬技術領域當中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
101~111...步驟
201~237...步驟
301...樣本資料
303...修改後的樣本資料
401...樣本資料
403...待測文件
405...文本特徵建置器
407...資料擷取器
409...資料劃分器
411...文句分析器
415...鄰似特徵搜尋器
417...訊息標註器
501...個人電腦
505...安全閘道器
509...網路節點
515...電腦主機
521...電腦主機
523~529...應用程式
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:
第1圖係繪示本發明一實施方式量化式資料分析方法之流程圖。
第2A圖、第2B圖以及第2C圖係繪示本發明兩種實施方式量化式資料分析方法之流程圖。
第3圖係繪示本發明一實施方式特徵向量說明示意圖。
第4圖係繪示本發明一實施方式量化式資料分析裝置之方塊圖。
第5A圖、第5B圖以及第5C圖係分別繪示本發明三種實施方式當中電子裝置的應用示意圖。
101~111...步驟

Claims (16)

  1. 一種量化式資料分析方法,應用於一電腦系統當中,以判斷一待測文件是否具敏感性,該量化式資料分析方法包含:取得該電腦系統當中之一樣本資料;對該樣本資料之內容進行分段,以取得至少一原始資料段落;對該原始資料段落進行劃分,以取得複數個原始文句;自該些原始文句當中擷取出複數個原始文句屬性;以及依據該些原始文句屬性,建立複數個訓練特徵向量,其中,該些訓練特徵向量係用以判斷該待測文件是否具敏感性。
  2. 如請求項1所述之量化式資料分析方法,更包含:將該些訓練特徵向量儲存至該電腦系統之一資料庫當中,以在該資料庫當中累積該些訓練特徵向量。
  3. 如請求項2所述之量化式資料分析方法,更包含:修改該樣本資料;對修改後之該樣本資料之內容進行分段,以取得至少一修改資料段落;對該修改資料段落進行劃分,以取得複數個修改文句;自該些修改文句當中擷取出複數個修改文句屬性;依據該些修改文句屬性,建立複數個修改特徵向量;以及依據該些訓練特徵向量以及該些修改特徵向量之間的差異大小,決定一差異臨界值。
  4. 如請求項3所述之量化式資料分析方法,更包含:取得該待測文件之一待測資料;對該待測資料之內容進行分段,以取得至少一待測資料段落;對該待測資料段落進行劃分,以取得複數個待測文句;自該些待測文句當中擷取出複數個待測文句屬性;依據該些待測文句屬性,建立複數個待測特徵向量;以及依據該些待測特徵向量、該些訓練特徵向量,以及該差異臨界值,決定該待測文件是否具敏感性。
  5. 如請求項4所述之量化式資料分析方法,其中係將該些待測特徵向量與該些訓練特徵向量相減以得出至少一差異特徵向量,然後依據該差異特徵向量與該差異臨界值之間的大小關係,決定該待測文件是否具敏感性。
  6. 如請求項4所述之量化式資料分析方法,其中該些待測文句屬性包含字數、空白數目、逗號數目、引號數目、冒號數目、分號數目,以及英文與數字數目。
  7. 如請求項3所述之量化式資料分析方法,更包含:取得該待測文件之一待測資料;對該待測資料之內容進行分段,以取得至少一待測資料段落;對該待測資料段落進行劃分,以取得複數個待測文句;自該些待測文句當中擷取出複數個待測文句屬性;依據該些待測文句屬性,建立複數個待測特徵向量;自該些待測特徵向量當中擇一,作為一現行待測特徵向量;依據該現行待測特徵向量,篩選出一訓練特徵向量子集合;計算該現行待測特徵向量與該訓練特徵向量子集合之各元素之差異;依據與各元素之差異,判斷該現行待測特徵向量是否具有相似性;當該現行待測特徵向量具相似性,參考一鄰近邊界值,檢查該現行待測特徵向量先前的複數個待測向量是否具相似性;以及當該些待測向量具相似性,判定該待測文件具敏感性。
  8. 如請求項7所述之量化式資料分析方法,其中係依據該現行待測特徵向量以及一參數矩陣,篩選出與該現行待測特徵向量數值相似之該訓練特徵向量子集合。
  9. 如請求項7所述之量化式資料分析方法,其中當判斷出該待測文件具敏感性時,回報一肯定值。
  10. 如請求項7所述之量化式資料分析方法,其中當判斷出該待測文件不具敏感性時,回報一否定值。
  11. 一種量化式資料分析裝置,內建於一電子裝置當中,以判斷一待測文件或是正在執行之一應用程式是否具敏感性,該量化式資料分析裝置包含:一文本特徵建置器,包含:一資料擷取器,以取得一樣本資料或是一待測文件,並分別自該樣本資料或是該待測文件中,抽取出一原始資料或是一待測資料;一資料劃分器,對該原始資料或是該待測資料之內容進行分段,以取得至少一原始資料段落或是至少一待測資料段落,並對該原始資料段落或是該待測資料段落進行劃分,以取得複數個原始文句或是複數個待測文句;以及一文句分析器,以自該些原始文句或是該些待測文句當中,擷取出複數個原始文句屬性或是複數個待測文句屬性,並依據該些原始文句屬性或是該些待測文句屬性,建立複數個訓練特徵向量或是複數個待測特徵向量;以及一鄰似特徵搜尋器,以依據該些待測特徵向量、該些訓練特徵向量,以及一差異臨界值,決定該待測文件是否為具敏感性。
  12. 如請求項11所述之量化式資料分析裝置,更包含一訊息標註器,當該鄰似特徵搜尋器判定該待測文件具敏感性時,為該待測文件加上標註。
  13. 如請求項11所述之量化式資料分析裝置,其中該電子裝置係為一安全閘道器,以判斷在網路上傳遞之該待測文件是否具敏感性。
  14. 如請求項11所述之量化式資料分析裝置,其中該電子裝置係為一資料探索器,以探索一區域網路之一電腦主機所內含之該待測文件是否具敏感性。
  15. 如請求項14所述之量化式資料分析裝置,其中該資料探索器所探索之該待測文件係為網路芳鄰或是共享軟體所分享的檔案。
  16. 如請求項11所述之量化式資料分析裝置,其中該電子裝置係為一端點代理器,以使用者行為為基礎監控並攔截檔案存取相關應用程式介面。
TW100144373A 2011-12-02 2011-12-02 量化式資料分析方法以及量化式資料分析裝置 TWI484357B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100144373A TWI484357B (zh) 2011-12-02 2011-12-02 量化式資料分析方法以及量化式資料分析裝置
US13/316,570 US20130144602A1 (en) 2011-12-02 2011-12-12 Quantitative Type Data Analyzing Device and Method for Quantitatively Analyzing Data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100144373A TWI484357B (zh) 2011-12-02 2011-12-02 量化式資料分析方法以及量化式資料分析裝置

Publications (2)

Publication Number Publication Date
TW201324203A TW201324203A (zh) 2013-06-16
TWI484357B true TWI484357B (zh) 2015-05-11

Family

ID=48524625

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100144373A TWI484357B (zh) 2011-12-02 2011-12-02 量化式資料分析方法以及量化式資料分析裝置

Country Status (2)

Country Link
US (1) US20130144602A1 (zh)
TW (1) TWI484357B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10965711B2 (en) * 2014-09-14 2021-03-30 Sophos Limited Data behavioral tracking
US9967282B2 (en) 2014-09-14 2018-05-08 Sophos Limited Labeling computing objects for improved threat detection
US10122687B2 (en) 2014-09-14 2018-11-06 Sophos Limited Firewall techniques for colored objects on endpoints
CN104317700A (zh) * 2014-09-28 2015-01-28 浪潮电子信息产业股份有限公司 一种文档自动化测试方法
TWI528219B (zh) * 2014-10-01 2016-04-01 財團法人資訊工業策進會 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體
CN105956740B (zh) * 2016-04-19 2019-12-31 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN109214202B (zh) * 2017-06-29 2020-09-15 西门子(中国)有限公司 数据分析诊断系统、装置、方法及存储介质
KR20190054454A (ko) 2017-11-13 2019-05-22 삼성전자주식회사 인공 신경망의 양자화 방법 및 장치
US11159551B2 (en) * 2019-04-19 2021-10-26 Microsoft Technology Licensing, Llc Sensitive data detection in communication data

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW316963B (zh) * 1995-12-19 1997-10-01 Intel Corp
US20020116641A1 (en) * 2001-02-22 2002-08-22 International Business Machines Corporation Method and apparatus for providing automatic e-mail filtering based on message semantics, sender's e-mail ID, and user's identity
US20060048224A1 (en) * 2004-08-30 2006-03-02 Encryptx Corporation Method and apparatus for automatically detecting sensitive information, applying policies based on a structured taxonomy and dynamically enforcing and reporting on the protection of sensitive data through a software permission wrapper
US20090119579A1 (en) * 2004-05-20 2009-05-07 Craig William Fellenstein System for Monitoring Personal Computer Documents for Sensitive Data
TW201113719A (en) * 2009-10-14 2011-04-16 Chunghwa Telecom Co Ltd Characteristic value comparison based content analysis method
TW201131489A (en) * 2009-11-30 2011-09-16 Ibm Managing electronic messages

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182765A1 (en) * 1996-02-09 2005-08-18 Technology Innovations, Llc Techniques for controlling distribution of information from a secure domain
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6240409B1 (en) * 1998-07-31 2001-05-29 The Regents Of The University Of California Method and apparatus for detecting and summarizing document similarity within large document sets
US7660819B1 (en) * 2000-07-31 2010-02-09 Alion Science And Technology Corporation System for similar document detection
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US8700533B2 (en) * 2003-12-04 2014-04-15 Black Duck Software, Inc. Authenticating licenses for legally-protectable content based on license profiles and content identifiers
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
SG121917A1 (en) * 2004-11-05 2006-05-26 Dramtech Asia Pacific Pte Ltd A method to transmit and update a transmitted electronic document
US8051487B2 (en) * 2005-05-09 2011-11-01 Trend Micro Incorporated Cascading security architecture
US8140664B2 (en) * 2005-05-09 2012-03-20 Trend Micro Incorporated Graphical user interface based sensitive information and internal information vulnerability management system
US8433915B2 (en) * 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US8256006B2 (en) * 2006-11-09 2012-08-28 Touchnet Information Systems, Inc. System and method for providing identity theft security
US11270267B2 (en) * 2007-12-12 2022-03-08 Avaya Inc. Sensitive information management
US8838554B2 (en) * 2008-02-19 2014-09-16 Bank Of America Corporation Systems and methods for providing content aware document analysis and modification
US8346532B2 (en) * 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW316963B (zh) * 1995-12-19 1997-10-01 Intel Corp
US20020116641A1 (en) * 2001-02-22 2002-08-22 International Business Machines Corporation Method and apparatus for providing automatic e-mail filtering based on message semantics, sender's e-mail ID, and user's identity
US20090119579A1 (en) * 2004-05-20 2009-05-07 Craig William Fellenstein System for Monitoring Personal Computer Documents for Sensitive Data
US20060048224A1 (en) * 2004-08-30 2006-03-02 Encryptx Corporation Method and apparatus for automatically detecting sensitive information, applying policies based on a structured taxonomy and dynamically enforcing and reporting on the protection of sensitive data through a software permission wrapper
TW201113719A (en) * 2009-10-14 2011-04-16 Chunghwa Telecom Co Ltd Characteristic value comparison based content analysis method
TW201131489A (en) * 2009-11-30 2011-09-16 Ibm Managing electronic messages

Also Published As

Publication number Publication date
US20130144602A1 (en) 2013-06-06
TW201324203A (zh) 2013-06-16

Similar Documents

Publication Publication Date Title
TWI484357B (zh) 量化式資料分析方法以及量化式資料分析裝置
CN104506545B (zh) 数据泄露防护方法及装置
AU2010202627B2 (en) Automated forensic document signatures
CN107577939B (zh) 一种基于关键字技术的数据防泄漏方法
US8280905B2 (en) Automated forensic document signatures
US9043247B1 (en) Systems and methods for classifying documents for data loss prevention
US20050288939A1 (en) Method and system for managing confidential information
Huang et al. A novel mechanism for fast detection of transformed data leakage
CN104956376A (zh) 虚拟化环境中应用和设备控制的方法和技术
US20230315846A1 (en) System and method for detecting leaked documents on a computer network
US20090192784A1 (en) Systems and methods for analyzing electronic documents to discover noncompliance with established norms
US9137317B2 (en) Data loss prevention of information using structured document templates and forms
Canelón et al. Unstructured data for cybersecurity and internal control
CN113449350A (zh) Usb外发敏感信息的管理方法、装置、设备及介质
Alhindi et al. Preventing Data Loss by Harnessing Semantic Similarity and Relevance.
CN103136306B (zh) 量化式数据分析方法以及量化式数据分析装置
Alhindi A framework for data loss prevention using document semantic signature
Yu et al. Research on Identification Method of Sensitive Data in Power System
US20240275818A1 (en) Security audit of data-at-rest
US20240184855A1 (en) Training of prediction network for automatic correlation of information
Kayhan et al. Unsupervised Threat Hunting using Continuous Bag-of-Terms-and-Time (CBoTT)
US10853508B2 (en) Method and system for reactive mining of computer screens
Zhan et al. Construction of Network Data Security Detection System Based on Data Mining Algorithm
CN103136306A (zh) 量化式数据分析方法以及量化式数据分析装置
van Ede Comprehending Security Events: Context-based Identification and Explanation