TWI605353B

TWI605353B - File classification system, method and computer program product based on lexical statistics

Info

Publication number: TWI605353B
Application number: TW105116818A
Authority: TW
Inventors: Yan-Ru Chen; Chun-Feng Lin; Yu-Jun Wang; ting-wei Xu
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2017-11-11
Also published as: CN107451168A; CN107451168B; TW201741909A

Description

基於詞彙統計之檔案分類系統、方法及其電腦程式產品

本發明係一種檔案分類技術手段，尤指一種透過分析檔案內容之詞彙進行檔案分類之技術手段。

為能方便的管理電子檔案，使用者大多會依照屬性將各個檔案放置在特定的資料夾，然而當各個檔案具有多個屬性時，前述之方案並無法讓使用者便捷的存取檔案。

為解決前述之問題，部分的使用者會透過人工方式對各個檔案設定屬性標籤，而使用者在點選各個標籤後即可開啟特定之檔案，舉例說明之，當使用者持有檔案「花蓮旅遊計畫書.doc」時，可對此檔案設定標籤「花蓮」以及標籤「旅遊」，因此當使用者點選其中一個標籤時，即可開啟該檔案。

惟上述之方案需藉由人工方式進行分類以及設定，因此使用者需耗費相當多的時間來執行重複性工作，而造成使用者相當大的困擾。而當檔案數量日益增加時，前述之管理方案會嚴重的降低使用者之操作意願。

綜上所述，如何提供一種可自動進行檔案分類技術方案乃本領域亟需解決之技術問題。

為解決前揭之問題，本發明之目的係提供一種可基於詞彙進行檔案分類之技術手段。

為達上述目的，本發明提出一種基於詞彙統計之檔案分類系統。前述之系統運行於具備運算能力之電子裝置，並包含讀取模組以及處理模組。前述之讀取模組係讀取一個或複數個檔案之檔案描述資訊以及一個或複數個使用者歷史操作資訊。前述之處理模組連接讀取模組，並自使用者歷史操作資訊萃取出一個或複數個詞彙資訊、計算詞彙資訊位於檔案描述資訊之權重值，並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤，其中清單標籤係用於建立特定檔案之連結。

為達上述目的，本發明提出一種基於詞彙統計之檔案分類方法。前述之方法運行於具備運算能力之電子裝置，並包含下列步驟：首先，讀取一個或複數個檔案之檔案描述資訊，以及一個或複數個使用者歷史操作資訊。接著，自使用者歷史操作資訊萃取出一個或複數個詞彙資訊，並計算詞彙資訊位於檔案描述資訊之權重值，並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤，其中清單標籤係用於建立特定檔案之連結。

為達上述目的，本發明提出一種基於詞彙統計之檔案分類電腦程式產品，當電腦裝置載入並執行該電腦程式產品，可完成前述方法所述之步驟。

綜上所述，本發明之基於詞彙統計之檔案分類系統及其方法可對檔案內容中之詞彙進行統計分析，並依權重值選取出特定之詞彙作為虛擬目錄清單之清單標籤，而得以提供使用者更為便捷的檔案管理方案。

1‧‧‧基於詞彙統計之檔案分類系統

11‧‧‧讀取模組

12‧‧‧處理模組

圖1係為本發明第一實施例基於詞彙統計之檔案分類系統之系統方塊圖。

圖2係為本發明第二實施例基於詞彙統計之檔案分類方法之方法流程圖。

圖3~圖5係為本發明第二實施例檔案分類方法之細部運作流程圖。

圖6係為本發明詞彙權重排序流程圖。

圖7係為本發明後綴數組之示意圖。

圖8係為本發明字典順序排序之示意圖。

圖9係為本發明最佳化虛擬目錄清單示意圖。

圖10係為本發明檔案分類畫面。

以下將描述具體之實施例以說明本發明之實施態樣，惟其並非用以限制本發明所欲保護之範疇。

請參閱圖1，其為本發明第一實施例基於詞彙統計之檔案分類系統1之系統方塊圖。前述之檔案分類系統進一步包含讀取模組11以及處理模組12。前述之讀取模組11用於讀取外部一個或複數個檔案之檔案描述資訊，及一個或複數個使用者歷史操作資訊。前述之處理模組12連接讀取模組11，並自使用者歷史操作資訊萃取出一個或複數個詞彙資訊，並計算詞彙資訊位於檔案描述資訊之權重值，並依據權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤，前述之清單標籤係用於建立特定檔案之連結。

於另一實施例中，前述之處理模組12係計算詞彙資訊位於檔案描述資訊之詞頻-逆向文件頻率權重值。於另一實施例中，前述之處理模組12係依據清單上限以挑選詞彙資訊作為清單標籤。於另一實施例中，前述之處理模組12依據權重值大小以挑選詞彙資訊以作為清單標籤。於另一實施例中，前述之使用者歷史操作資訊係使用者歷史操作資訊。

請參閱圖2，其為本發明第二實施例基於詞彙統計之檔案分類方法之方法流程圖。前述之方法運行於具備運算能力之電子裝置，並包含下列步驟：

S101：讀取一個或複數個檔案之檔案描述資訊。

S102：讀取一個或複數個使用者歷史操作資訊。

S103：自使用者歷史操作資訊萃取出一個或複數個詞彙資訊，並計算詞彙資訊位於檔案描述資訊之權重值，並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤，其中清單標籤係用於建立特定檔案之連結。

於另一實施例中，前述之方法更計算詞彙資訊位於檔案描述資訊之詞頻-逆向文件頻率權重值。於另一實施例中，更依據清單上限以挑選詞彙資訊作為清單標籤。於另一實施例中，前述之方法更依據權重值大小以挑選詞彙資訊以作為清單標籤。於另一實施例中，前述方法之使用者歷史操作資訊係使用者歷史操作資訊。

本發明於第三實施例更提供一種基於詞彙統計之檔案分類電腦程式產品，當電腦裝置載入並執行該電腦程式產品，可完成前述方法所述之步驟。

本發明茲以第二實施例之檔案分類方法進行說明，惟其第一實施例之檔案分類系統以及第三實施例之基於詞彙統計之檔案分類電腦程式產亦可達成相同或相似之技術功效。請參閱圖3~圖5，其為檔案分類方法之細部運作流程圖，圖3之步驟說明(S11~S15)如下：步驟S11：讀取檔案描述資訊以及使用者歷史操作資料。前述之檔案描述資訊進一步包含：(1).檔案資料屬性(如：檔案名稱、檔案類型、檔案標題、檔案主旨、檔案標記、檔案GPS經緯度座標資料)；(2).使用者對該檔案做的註解說明；(3).檔案內容或檔案內文；前述之使用者歷史操作資料進一步包含：(1).使用者習慣的書籤分類名稱；(2).使用者查詢資料輸入之關鍵字；或(3).使用者點選實體或虛擬目錄的項目名稱等。

步驟S12：此時會分析檔案描述資訊以及使用者歷史操作資料，以擷取使用者關注的詞彙。前述擷取使用者關注詞彙方法之步驟(圖4，S21~S23)說明如下：步驟S21：利用抽詞方法自檔案描述資訊中擷取詞彙，於此步驟主要是檔案描述資訊(例如：檔案內容、檔案資料屬性與檔案註解內容)進行詞性分析，包括前後詞判斷，以及同義字(Synonym)、一字多義字(Polysemy)、反義字(Antonym)、泛稱(Hypernym)、具體名稱(Hyponym)…等；而單字可能與前後文字組成單詞(例如勞「作」、「作」業、工「作」、杵「作」、「作」文、磨杵「作」針等)，並擷取語句中之重要詞彙並依其出現之頻率進行排序(S211~S213)：步驟S211：前述之抽詞方法可使用後綴數組(suffix array)抽詞方法。後綴數組的基本元素為給定一長字串(string)，其長度為L，後綴指的是從字串的某一個位置i(0<=i<L)開始到字串最末端字尾(string[L-1])的一個子串，表示為suffix(i)；L個suffix(i)按照字典順序排列，並依序儲存在一個數組SA[L]中，則SA[L]稱為後綴數組，其元素值儲存的是suffix(i)的起始字元在string中的位置；每一個suffix[i]對應在SA[k]數組中的一個位置，將這個對應的位置儲存為Rank[i]，時間複雜度為O(N)；對於任意兩個suffix[i]和suffix[j]，由於知曉其在Rank[L]中的前後位置，所以在O(1)的時間內就可以算得出他們的字典順序排列大小關係；建構SA[i]數組中相鄰元素的最長共同前綴(LCP，Longest Common Prefix)，Height[i]表示SA[i]和SA[i-1]的LCP(i,j)；H[i]=Height[Rank[i]表示Suffix[i]和字典順序排序在它前-一名的後綴子串的LCP大小。

而對於正整數i和j而言，最長共同前綴的定義如下：LCP(i,j)=lcp(Suffix(SA[i]),Suffix(SA[j]))=min(Height[k]|i+1<=k<=j)；也就是計算LCP(i,j)等同於查找Height數組中下表在i+1到j之間的元素最小值。以圖5之案例說明之，若LCP(0,3)，則最小值為2，則"aaaab"和"aabaaaab"的LCP為2；為了方便比較，創造後綴數組前都會在字串的末尾端添加一個$字元表示字元串列的結束，並且在字典順序中最小。本案採用倍增算法(Doubling Algorithm)來快速建構後綴數組。於倍增算法中，輸入為字串 string的所有suffix[i]；按照<=h進行搜尋排序，並且h的值在搜尋時取"1,2,4,8,......2^N"，每次搜尋保證後綴子串<=h有序；首先對h進行排序；當擴展到<=2h有序的時候，由於2h的前面h個字元已經比較過，所以只需要比較後面的h個字元，而後面的這h個字元恰好在前一次<=h有序的時候作為其他後綴的前h個字元已經比較過，所以一次搜尋中字元串列的時間複雜為O(N)；長度為N的字元串列需要進行logN次搜尋(h的值為2^N)，直到Rank[i]數組中沒有相等的字元串列；所以倍增算法的時間複雜度為O(NlogN)；前述步驟之虛擬程式碼如表1所示：

步驟S212：經抽詞方法所擷取出之詞彙會先利用預先給定之規則條件進行初步過濾，刪除非成詞之詞彙，例如：刪除標點符號、括號、引號等非成詞之詞彙。

步驟S213：利用預先收集之中英文停用詞(stop words)列表，進一步過濾擷取出之詞彙，刪除中文停用詞，例如：我、你、妳、他、她、是、的等停用詞，刪除英文停用詞，例如：I,me,you,your,he,his,am,are,is等停用詞；步驟S22：以空格分隔自使用者歷史操作資料擷取詞彙，由於使用者歷史操作資料(例如：使用者習慣的書籤分類名稱、搜尋關鍵字與使用者點選實體或虛擬目錄的項目名稱)多為單詞，因此於此步驟使用空格分隔擷取詞彙。

步驟S23：計算擷取出之每個詞彙於檔案描述資訊、使用者歷史操作資料之中之個別的TF-IDF數值。「TF-IDF演算法」計算步驟說明如下：步驟S231：先計算詞頻TF(Term Frequency)：假設dj是「某一特定文件」，ti是該文件中所使用單詞或單字的「其中一種」，那麼tfi的計算方法就是ti在每篇文章dj中出現次數的加總，除以所有詞彙在每篇文章的加總，其運算式如下所示：

步驟S232：再計算逆向文件頻率(inverse document frequency，IDF)是一個詞語普遍重要性的度量。某一特定詞彙的IDF，可以由所有文件總數除以包含該詞彙在文件總數中出現的文件數，再將得到的商取對數得到，其運算式如下所示：

步驟S233：將tfi*idfi來進行計算，以某一特定文件內的高單詞頻率，乘上該詞彙在文件總數中的低文件頻率，便可以產生TF-IDF權重值，且TF-IDF傾向於過濾掉常見的單詞，保留重要的詞彙，其運算式如下所示：TF-IDF _i=tf _i * idf _i

步驟S13：綜合檔案描述資訊，使用者歷史操作資料計算權重依權重公式進行虛擬目錄名稱之詞彙權重排序，其步驟說明如圖6所示：

S31：由用戶點選虛擬目錄項目之記錄，並對權重公式參數進行最佳化。

S32：對用戶使用之雲端儲存空間，新增更新檔案相關資訊，以及記錄使用者歷史操作資料。

S33：依權重公式計算擷取之詞彙之權重值，以產生詞彙清單。

S34：將詞彙清單由權重高至低排序，並排除超過清單上限或權重值低於門檻值之詞彙。

更進一步說明「虛擬目錄詞彙權重公式計算方法」，計算方法用一實施例說明如下：假設詞彙權重計算公式由五項因子組成分別為檔案內容之TF-IDF值、檔案註解之TF-IDF值、檔案資料屬性之TF-IDF值、書籤分類名稱之TF-IDF值、搜尋關鍵字之TF-IDF值，所以詞彙i的權重值_i=λ _content*+λ _comment*+λ _metadata*+λ _tag*+λ _keyword*+λ _ε。並以參數λ _content、λ _comment、λ _metadata、λ _tag、λ _keyword、λ _ε為變數，擷取出之詞彙構成一個算式，令已知之重要詞彙達到最大值為該算式理想值，n筆詞彙構成n個算式，可使用參數最佳化演算法求解(如：線性回歸演算法)，各參數λ之下邊界(lower bound)設定為0.1，而上邊界(upper bound)則以初始之訓練資料經參數最佳化演算法所求出之最佳解之最大值再加10為其上邊界(upper bound)之值；步驟S14：依排序的結果產生虛擬目錄清單，並將檔案歸納至合適或所屬的虛擬目錄，於該步驟中主要是產生的虛擬目錄詞彙，若詞彙ti有出現在第dj個檔案的檔案描述資訊中，則將第dj個檔案歸納至合適或所屬的虛擬目錄詞彙ti，再將所屬詞彙i的此些檔案依其ti出現在該檔案的出現次數由大到小排序。

步驟S15：產生最佳化虛擬目錄清單給使用者。

以下茲提供實際範例之以說明本案之技術思想。若記錄使用端在雲儲存系統記錄有如表2之檔案描述資訊與歷史操作資料：

此時輸入關鍵字「花蓮」進行查詢，和匯入使用者習慣的書籤，其書籤習慣的分類名稱為旅遊、美食、住宿、音樂等等。接著依序對文字檔案做抽詞方法運算，若「花東旅遊行程.doc」檔案內文為「…花蓮創意文化園區位於市區中心，地址是花蓮市中華路144號，前身是花蓮酒廠，園區內是日式建築，這裡有很大的廣場、日式風格的走廊，處處還可以看到前身酒廠的創意風格…」，而在進行後綴數組運算後可得如圖7所示之後綴數組，前述之後綴數組組合分別為酒廠、花蓮、花蓮市、花蓮酒廠、花蓮市中華路、花蓮市中華路144號、花蓮創意文化園區等內容。

請再參閱圖8，再依字典順序排序，找到「花蓮」的出現次數為6、「花蓮市」的出現次數為3，因此擷取出現次數最高之詞彙「花蓮」。

經過抽詞方法對每一個檔案內文做運算後，抽出的詞彙分別為花蓮、台東、旅遊、預算、太魯閣、玉里、池上、照片、美食、住宿、音樂等詞彙，分別計算這些詞彙在所有檔案內容的出現次數(表3)：

之後得到這些詞彙在檔案內容因子的TF值、IDF值、TF-IDF權重值(表4)：表4

以此類推去計算這些詞彙的檔案註解之TF-IDF值、檔案資料屬性之TF-IDF值、書籤分類名稱之TF-IDF值、搜尋關鍵字之TF-IDF值，後可得到表5之內容：

接著，再依虛擬目錄詞彙權重公式計算後可得到如表6之內容：

再依清單由權重高至低排序，並排除超過清單上限或預設最低值的詞彙。假設清單上限為4，並取前四大的權重值之詞彙後，可得到表7之內容：表7

接著將檔案歸納至合適或所屬的虛擬目錄，可得到如表8之內容：

最後則產生如圖9所示之最佳化虛擬目錄清單給使用端，使用端可在操作視窗中看到虛擬目錄清單連結。而點選虛擬清單之「花蓮」連結時，會出現如圖10之檔案分類畫面。

上列詳細說明係針對本發明之一可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

S101~S103‧‧‧步驟

Claims

一種基於詞彙統計之檔案分類系統，運行於具備運算能力之電子裝置，包含：讀取模組，讀取一個或複數個檔案之檔案描述資訊，以及一個或複數個使用者歷史操作資訊；以及處理模組，連接該讀取模組，該處理模組更自該使用者歷史操作資訊萃取出一個或複數個詞彙資訊，並計算該詞彙資訊位於該檔案描述資訊之權重值，並依該權重值自該詞彙資訊中挑選該詞彙資訊以作為虛擬目錄清單之清單標籤，其中該清單標籤係用於建立特定該檔案之連結。
如請求項1所述之檔案分類系統，其中該處理模組係計算該詞彙資訊位於該檔案描述資訊之詞頻-逆向文件頻率權重值。
如請求項1所述之檔案分類系統，其中該處理模組係依據清單上限以挑選該詞彙資訊作為該清單標籤。
如請求項1所述之檔案分類系統，其中該處理模組依據權重值大小以挑選該詞彙資訊以作為該清單標籤。
如請求項1所述之檔案分類系統，其中該等使用者歷史操作資訊係為標籤資訊。
一種基於詞彙統計之檔案分類方法，運行於具備運算能力之電子裝置，包含下列步驟：讀取一個或複數個檔案之檔案描述資訊，以及一個或複數個使用者歷史操作資訊；以及自該使用者歷史操作資訊萃取出一個或複數個詞彙資訊，並計算該詞彙資訊位於該檔案描述資訊之權重值，並依該權重值自該詞彙資訊中挑選該詞彙資訊以作為虛擬目錄清單之清單標籤，其中該清單標籤係用於建立特定該檔案之連結。
如請求項6所述之檔案分類方法，更計算該詞彙資訊位於該檔案描述資訊之詞頻-逆向文件頻率權重值。
如請求項6所述之檔案分類方法，更依據清單上限以挑選該詞彙資訊作為該清單標籤。
如請求項6所述之檔案分類方法，更依據權重值大小以挑選該詞彙資訊以作為該清單標籤。
如請求項6所述之檔案分類方法，其中該等使用者歷史操作資訊係為標籤資訊。
一種基於詞彙統計之檔案分類電腦程式產品，當電腦裝置載入並執行該電腦程式產品，可完成請求項6至10任一項所述之方法。