TWI605353B - File classification system, method and computer program product based on lexical statistics - Google Patents

File classification system, method and computer program product based on lexical statistics Download PDF

Info

Publication number
TWI605353B
TWI605353B TW105116818A TW105116818A TWI605353B TW I605353 B TWI605353 B TW I605353B TW 105116818 A TW105116818 A TW 105116818A TW 105116818 A TW105116818 A TW 105116818A TW I605353 B TWI605353 B TW I605353B
Authority
TW
Taiwan
Prior art keywords
file
information
vocabulary
list
weight value
Prior art date
Application number
TW105116818A
Other languages
English (en)
Other versions
TW201741909A (zh
Inventor
Yan-Ru Chen
Chun-Feng Lin
Yu-Jun Wang
ting-wei Xu
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Priority to TW105116818A priority Critical patent/TWI605353B/zh
Priority to CN201610786178.2A priority patent/CN107451168B/zh
Application granted granted Critical
Publication of TWI605353B publication Critical patent/TWI605353B/zh
Publication of TW201741909A publication Critical patent/TW201741909A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

基於詞彙統計之檔案分類系統、方法及其電腦程式產品
本發明係一種檔案分類技術手段,尤指一種透過分析檔案內容之詞彙進行檔案分類之技術手段。
為能方便的管理電子檔案,使用者大多會依照屬性將各個檔案放置在特定的資料夾,然而當各個檔案具有多個屬性時,前述之方案並無法讓使用者便捷的存取檔案。
為解決前述之問題,部分的使用者會透過人工方式對各個檔案設定屬性標籤,而使用者在點選各個標籤後即可開啟特定之檔案,舉例說明之,當使用者持有檔案「花蓮旅遊計畫書.doc」時,可對此檔案設定標籤「花蓮」以及標籤「旅遊」,因此當使用者點選其中一個標籤時,即可開啟該檔案。
惟上述之方案需藉由人工方式進行分類以及設定,因此使用者需耗費相當多的時間來執行重複性工作,而造成使用者相當大的困擾。 而當檔案數量日益增加時,前述之管理方案會嚴重的降低使用者之操作意願。
綜上所述,如何提供一種可自動進行檔案分類技術方案乃本領域亟需解決之技術問題。
為解決前揭之問題,本發明之目的係提供一種可基於詞彙進行檔案分類之技術手段。
為達上述目的,本發明提出一種基於詞彙統計之檔案分類系統。前述之系統運行於具備運算能力之電子裝置,並包含讀取模組以及處理模組。前述之讀取模組係讀取一個或複數個檔案之檔案描述資訊以及一個或複數個使用者歷史操作資訊。前述之處理模組連接讀取模組,並自使用者歷史操作資訊萃取出一個或複數個詞彙資訊、計算詞彙資訊位於檔案描述資訊之權重值,並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤,其中清單標籤係用於建立特定檔案之連結。
為達上述目的,本發明提出一種基於詞彙統計之檔案分類方法。前述之方法運行於具備運算能力之電子裝置,並包含下列步驟:首先,讀取一個或複數個檔案之檔案描述資訊,以及一個或複數個使用者歷史操作資訊。接著,自使用者歷史操作資訊萃取出一個或複數個詞彙資訊,並計算詞彙資訊位於檔案描述資訊之權重值,並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤,其中清單標籤係用於建立特定檔案之連結。
為達上述目的,本發明提出一種基於詞彙統計之檔案分類電腦程式產品,當電腦裝置載入並執行該電腦程式產品,可完成前述方法所述之步驟。
綜上所述,本發明之基於詞彙統計之檔案分類系統及其方法可對檔案內容中之詞彙進行統計分析,並依權重值選取出特定之詞彙作為 虛擬目錄清單之清單標籤,而得以提供使用者更為便捷的檔案管理方案。
1‧‧‧基於詞彙統計之檔案分類系統
11‧‧‧讀取模組
12‧‧‧處理模組
圖1係為本發明第一實施例基於詞彙統計之檔案分類系統之系統方塊圖。
圖2係為本發明第二實施例基於詞彙統計之檔案分類方法之方法流程圖。
圖3~圖5係為本發明第二實施例檔案分類方法之細部運作流程圖。
圖6係為本發明詞彙權重排序流程圖。
圖7係為本發明後綴數組之示意圖。
圖8係為本發明字典順序排序之示意圖。
圖9係為本發明最佳化虛擬目錄清單示意圖。
圖10係為本發明檔案分類畫面。
以下將描述具體之實施例以說明本發明之實施態樣,惟其並非用以限制本發明所欲保護之範疇。
請參閱圖1,其為本發明第一實施例基於詞彙統計之檔案分類系統1之系統方塊圖。前述之檔案分類系統進一步包含讀取模組11以及處理模組12。前述之讀取模組11用於讀取外部一個或複數個檔案之檔案描述資訊,及一個或複數個使用者歷史操作資訊。前述之處理模組12連接讀取模組11,並自使用者歷史操作資訊萃取出一個或複數個詞彙資訊,並計算詞彙資訊位於檔案描述資訊之權重值,並依據權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤,前述之清單標籤係用於建立特定檔案之連結。
於另一實施例中,前述之處理模組12係計算詞彙資訊位於檔案描述資訊之詞頻-逆向文件頻率權重值。於另一實施例中,前述之處理模組12係依據清單上限以挑選詞彙資訊作為清單標籤。於另一實施例中,前述之處理模組12依據權重值大小以挑選詞彙資訊以作為清單標籤。於另一實施例中,前述之使用者歷史操作資訊係使用者歷史操作資訊。
請參閱圖2,其為本發明第二實施例基於詞彙統計之檔案分類方法之方法流程圖。前述之方法運行於具備運算能力之電子裝置,並包含下列步驟:
S101:讀取一個或複數個檔案之檔案描述資訊。
S102:讀取一個或複數個使用者歷史操作資訊。
S103:自使用者歷史操作資訊萃取出一個或複數個詞彙資訊,並計算詞彙資訊位於檔案描述資訊之權重值,並依權重值自詞彙資訊中挑選詞彙資訊以作為虛擬目錄清單之清單標籤,其中清單標籤係用於建立特定檔案之連結。
於另一實施例中,前述之方法更計算詞彙資訊位於檔案描述資訊之詞頻-逆向文件頻率權重值。於另一實施例中,更依據清單上限以挑選詞彙資訊作為清單標籤。於另一實施例中,前述之方法更依據權重值大小以挑選詞彙資訊以作為清單標籤。於另一實施例中,前述方法之使用者歷史操作資訊係使用者歷史操作資訊。
本發明於第三實施例更提供一種基於詞彙統計之檔案分類電腦程式產品,當電腦裝置載入並執行該電腦程式產品,可完成前述方法所述之步驟。
本發明茲以第二實施例之檔案分類方法進行說明,惟其第一實施例之檔案分類系統以及第三實施例之基於詞彙統計之檔案分類電腦程式產亦可達成相同或相似之技術功效。請參閱圖3~圖5,其為檔案分類方法之細部運作流程圖,圖3之步驟說明(S11~S15)如下:步驟S11:讀取檔案描述資訊以及使用者歷史操作資料。前述之檔案描述資訊進一步包含:(1).檔案資料屬性(如:檔案名稱、檔案類型、檔案標題、檔案主旨、檔案標記、檔案GPS經緯度座標資料);(2).使用者對該檔案做的註解說明;(3).檔案內容或檔案內文;前述之使用者歷史操作資料進一步包含:(1).使用者習慣的書籤分類名稱;(2).使用者查詢資料輸入之關鍵字;或(3).使用者點選實體或虛擬目錄的項目名稱等。
步驟S12:此時會分析檔案描述資訊以及使用者歷史操作資料,以擷取使用者關注的詞彙。前述擷取使用者關注詞彙方法之步驟(圖4,S21~S23)說明如下:步驟S21:利用抽詞方法自檔案描述資訊中擷取詞彙,於此步驟主要是檔案描述資訊(例如:檔案內容、檔案資料屬性與檔案註解內容)進行詞性分析,包括前後詞判斷,以及同義字(Synonym)、一字多義字(Polysemy)、反義字(Antonym)、泛稱(Hypernym)、具體名稱(Hyponym)…等;而單字可能與前後文字組成單詞(例如勞「作」、「作」業、工「作」、 杵「作」、「作」文、磨杵「作」針等),並擷取語句中之重要詞彙並依其出現之頻率進行排序(S211~S213):步驟S211:前述之抽詞方法可使用後綴數組(suffix array)抽詞方法。後綴數組的基本元素為給定一長字串(string),其長度為L,後綴指的是從字串的某一個位置i(0<=i<L)開始到字串最末端字尾(string[L-1])的一個子串,表示為suffix(i);L個suffix(i)按照字典順序排列,並依序儲存在一個數組SA[L]中,則SA[L]稱為後綴數組,其元素值儲存的是suffix(i)的起始字元在string中的位置;每一個suffix[i]對應在SA[k]數組中的一個位置,將這個對應的位置儲存為Rank[i],時間複雜度為O(N);對於任意兩個suffix[i]和suffix[j],由於知曉其在Rank[L]中的前後位置,所以在O(1)的時間內就可以算得出他們的字典順序排列大小關係;建構SA[i]數組中相鄰元素的最長共同前綴(LCP,Longest Common Prefix),Height[i]表示SA[i]和SA[i-1]的LCP(i,j);H[i]=Height[Rank[i]表示Suffix[i]和字典順序排序在它前-一名的後綴子串的LCP大小。
而對於正整數i和j而言,最長共同前綴的定義如下:LCP(i,j)=lcp(Suffix(SA[i]),Suffix(SA[j]))=min(Height[k]|i+1<=k<=j);也就是計算LCP(i,j)等同於查找Height數組中下表在i+1到j之間的元素最小值。以圖5之案例說明之,若LCP(0,3),則最小值為2,則"aaaab"和"aabaaaab"的LCP為2;為了方便比較,創造後綴數組前都會在字串的末尾端添加一個$字元表示字元串列的結束,並且在字典順序中最小。本案採用倍增算法(Doubling Algorithm)來快速建構後綴數組。於倍增算法中,輸入為字串 string的所有suffix[i];按照<=h進行搜尋排序,並且h的值在搜尋時取"1,2,4,8,......2^N",每次搜尋保證後綴子串<=h有序;首先對h進行排序;當擴展到<=2h有序的時候,由於2h的前面h個字元已經比較過,所以只需要比較後面的h個字元,而後面的這h個字元恰好在前一次<=h有序的時候作為其他後綴的前h個字元已經比較過,所以一次搜尋中字元串列的時間複雜為O(N);長度為N的字元串列需要進行logN次搜尋(h的值為2^N),直到Rank[i]數組中沒有相等的字元串列;所以倍增算法的時間複雜度為O(NlogN);前述步驟之虛擬程式碼如表1所示:
步驟S212:經抽詞方法所擷取出之詞彙會先利用預先給定之規則條件進行初步過濾,刪除非成詞之詞彙,例如:刪除標點符號、括號、引號等非成詞之詞彙。
步驟S213:利用預先收集之中英文停用詞(stop words)列表,進一步過濾擷取出之詞彙,刪除中文停用詞,例如:我、你、妳、他、她、是、的等停用詞,刪除英文停用詞,例如:I,me,you,your,he,his,am,are,is等停用詞;步驟S22:以空格分隔自使用者歷史操作資料擷取詞彙,由於使用者歷史操作資料(例如:使用者習慣的書籤分類名稱、搜尋關鍵字與使用者點選實體或虛擬目錄的項目名稱)多為單詞,因此於此步驟使用空格分隔擷取詞彙。
步驟S23:計算擷取出之每個詞彙於檔案描述資訊、使用者歷史操作資料之中之個別的TF-IDF數值。「TF-IDF演算法」計算步驟說明如下:步驟S231:先計算詞頻TF(Term Frequency):假設dj是「某一特定文件」,ti是該文件中所使用單詞或單字的「其中一種」,那麼tfi的計算方法就是ti在每篇文章dj中出現次數的加總,除以所有詞彙在每篇文章的加總,其運算式如下所示:
步驟S232:再計算逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞彙的IDF,可 以由所有文件總數除以包含該詞彙在文件總數中出現的文件數,再將得到的商取對數得到,其運算式如下所示:
步驟S233:將tfi*idfi來進行計算,以某一特定文件內的高單詞頻率,乘上該詞彙在文件總數中的低文件頻率,便可以產生TF-IDF權重值,且TF-IDF傾向於過濾掉常見的單詞,保留重要的詞彙,其運算式如下所示:TF-IDF i =tf i * idf i
步驟S13:綜合檔案描述資訊,使用者歷史操作資料計算權重依權重公式進行虛擬目錄名稱之詞彙權重排序,其步驟說明如圖6所示:
S31:由用戶點選虛擬目錄項目之記錄,並對權重公式參數進行最佳化。
S32:對用戶使用之雲端儲存空間,新增更新檔案相關資訊,以及記錄使用者歷史操作資料。
S33:依權重公式計算擷取之詞彙之權重值,以產生詞彙清單。
S34:將詞彙清單由權重高至低排序,並排除超過清單上限或權重值低於門檻值之詞彙。
更進一步說明「虛擬目錄詞彙權重公式計算方法」,計算方法用一實施例說明如下:假設詞彙權重計算公式由五項因子組成分別為檔案內容之TF-IDF值、檔案註解之TF-IDF值、檔案資料屬性之TF-IDF值、書籤分類名稱之TF-IDF值、搜尋關鍵字之TF-IDF值,所 以詞彙i的權重值 i =λ content *+λ comment *+λ metadata *+λ tag *+λ keyword *+λ ε 。並以參數λ content λ comment λ metadata λ tag λ keyword λ ε 為變數,擷取出之詞彙構成一個算式,令已知之重要詞彙達到最大值為該算式理想值,n筆詞彙構成n個算式,可使用參數最佳化演算法求解(如:線性回歸演算法),各參數λ之下邊界(lower bound)設定為0.1,而上邊界(upper bound)則以初始之訓練資料經參數最佳化演算法所求出之最佳解之最大值再加10為其上邊界(upper bound)之值;步驟S14:依排序的結果產生虛擬目錄清單,並將檔案歸納至合適或所屬的虛擬目錄,於該步驟中主要是產生的虛擬目錄詞彙,若詞彙ti有出現在第dj個檔案的檔案描述資訊中,則將第dj個檔案歸納至合適或所屬的虛擬目錄詞彙ti,再將所屬詞彙i的此些檔案依其ti出現在該檔案的出現次數由大到小排序。
步驟S15:產生最佳化虛擬目錄清單給使用者。
以下茲提供實際範例之以說明本案之技術思想。若記錄使用端在雲儲存系統記錄有如表2之檔案描述資訊與歷史操作資料:
此時輸入關鍵字「花蓮」進行查詢,和匯入使用者習慣的書籤,其書籤習慣的分類名稱為旅遊、美食、住宿、音樂等等。接著依序對文字檔案做抽詞方法運算,若「花東旅遊行程.doc」檔案內文為「…花蓮創意文化園區位於市區中心,地址是花蓮市中華路144號,前身是花蓮酒廠,園區內是日式建築,這裡有很大的廣場、日式風格的走廊,處處還可以看到前身酒廠的創意風格…」,而在進行後綴數組運算後可得如圖7所示之後綴數組,前述之後綴數組組合分別為酒廠、花蓮、花蓮市、花蓮酒廠、花蓮市中華路、花蓮市中華路144號、花蓮創意文化園區等內容。
請再參閱圖8,再依字典順序排序,找到「花蓮」的出現次數為6、「花蓮市」的出現次數為3,因此擷取出現次數最高之詞彙「花蓮」。
經過抽詞方法對每一個檔案內文做運算後,抽出的詞彙分別為花蓮、台東、旅遊、預算、太魯閣、玉里、池上、照片、美食、住宿、音樂等詞彙,分別計算這些詞彙在所有檔案內容的出現次數(表3):
之後得到這些詞彙在檔案內容因子的TF值、IDF值、TF-IDF權重值(表4): 表4
以此類推去計算這些詞彙的檔案註解之TF-IDF值、檔案資料屬性之TF-IDF值、書籤分類名稱之TF-IDF值、搜尋關鍵字之TF-IDF值,後可得到表5之內容:
接著,再依虛擬目錄詞彙權重公式計算後可得到如表6之內容:
再依清單由權重高至低排序,並排除超過清單上限或預設最低值的詞彙。假設清單上限為4,並取前四大的權重值之詞彙後,可得到表7之內容: 表7
接著將檔案歸納至合適或所屬的虛擬目錄,可得到如表8之內容:
最後則產生如圖9所示之最佳化虛擬目錄清單給使用端,使用端可在操作視窗中看到虛擬目錄清單連結。而點選虛擬清單之「花蓮」連結時,會出現如圖10之檔案分類畫面。
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
S101~S103‧‧‧步驟

Claims (11)

  1. 一種基於詞彙統計之檔案分類系統,運行於具備運算能力之電子裝置,包含:讀取模組,讀取一個或複數個檔案之檔案描述資訊,以及一個或複數個使用者歷史操作資訊;以及處理模組,連接該讀取模組,該處理模組更自該使用者歷史操作資訊萃取出一個或複數個詞彙資訊,並計算該詞彙資訊位於該檔案描述資訊之權重值,並依該權重值自該詞彙資訊中挑選該詞彙資訊以作為虛擬目錄清單之清單標籤,其中該清單標籤係用於建立特定該檔案之連結。
  2. 如請求項1所述之檔案分類系統,其中該處理模組係計算該詞彙資訊位於該檔案描述資訊之詞頻-逆向文件頻率權重值。
  3. 如請求項1所述之檔案分類系統,其中該處理模組係依據清單上限以挑選該詞彙資訊作為該清單標籤。
  4. 如請求項1所述之檔案分類系統,其中該處理模組依據權重值大小以挑選該詞彙資訊以作為該清單標籤。
  5. 如請求項1所述之檔案分類系統,其中該等使用者歷史操作資訊係為標籤資訊。
  6. 一種基於詞彙統計之檔案分類方法,運行於具備運算能力之電子裝置,包含下列步驟:讀取一個或複數個檔案之檔案描述資訊,以及一個或複數個使用者歷史操作資訊;以及自該使用者歷史操作資訊萃取出一個或複數個詞彙資訊,並計算該詞彙 資訊位於該檔案描述資訊之權重值,並依該權重值自該詞彙資訊中挑選該詞彙資訊以作為虛擬目錄清單之清單標籤,其中該清單標籤係用於建立特定該檔案之連結。
  7. 如請求項6所述之檔案分類方法,更計算該詞彙資訊位於該檔案描述資訊之詞頻-逆向文件頻率權重值。
  8. 如請求項6所述之檔案分類方法,更依據清單上限以挑選該詞彙資訊作為該清單標籤。
  9. 如請求項6所述之檔案分類方法,更依據權重值大小以挑選該詞彙資訊以作為該清單標籤。
  10. 如請求項6所述之檔案分類方法,其中該等使用者歷史操作資訊係為標籤資訊。
  11. 一種基於詞彙統計之檔案分類電腦程式產品,當電腦裝置載入並執行該電腦程式產品,可完成請求項6至10任一項所述之方法。
TW105116818A 2016-05-30 2016-05-30 File classification system, method and computer program product based on lexical statistics TWI605353B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW105116818A TWI605353B (zh) 2016-05-30 2016-05-30 File classification system, method and computer program product based on lexical statistics
CN201610786178.2A CN107451168B (zh) 2016-05-30 2016-08-31 基于词汇统计的档案分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105116818A TWI605353B (zh) 2016-05-30 2016-05-30 File classification system, method and computer program product based on lexical statistics

Publications (2)

Publication Number Publication Date
TWI605353B true TWI605353B (zh) 2017-11-11
TW201741909A TW201741909A (zh) 2017-12-01

Family

ID=60485324

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105116818A TWI605353B (zh) 2016-05-30 2016-05-30 File classification system, method and computer program product based on lexical statistics

Country Status (2)

Country Link
CN (1) CN107451168B (zh)
TW (1) TWI605353B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698761B (zh) * 2018-06-01 2020-07-11 香港商阿里巴巴集團服務有限公司 針對訓練語料從詞頻表中進行負例採樣的方法及裝置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875808A (zh) * 2018-05-17 2018-11-23 延安职业技术学院 一种基于人工智能的图书分类方法
CN112487302B (zh) * 2020-11-04 2022-11-11 国网江苏省电力有限公司 一种基于用户行为的档案资源精准推送方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
TW201126359A (en) * 2010-01-25 2011-08-01 Ind Tech Res Inst Keyword evaluation systems and methods
JP2012104051A (ja) * 2010-11-12 2012-05-31 Kansai Electric Power Co Inc:The 文書インデックス作成装置
US20130262467A1 (en) * 2010-12-23 2013-10-03 Nokia Corporation Method and apparatus for providing token-based classification of device information
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN103186612B (zh) * 2011-12-30 2016-04-27 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103218355B (zh) * 2012-01-18 2016-08-31 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置
JP5836893B2 (ja) * 2012-07-02 2015-12-24 株式会社日立ソリューションズ ファイル管理装置、ファイル管理方法、及びプログラム
CN102929937B (zh) * 2012-09-28 2015-09-16 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN104142950A (zh) * 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
KR20160015838A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 컨텐츠 분류 방법 및 이를 위한 디바이스
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698761B (zh) * 2018-06-01 2020-07-11 香港商阿里巴巴集團服務有限公司 針對訓練語料從詞頻表中進行負例採樣的方法及裝置

Also Published As

Publication number Publication date
CN107451168A (zh) 2017-12-08
CN107451168B (zh) 2023-08-04
TW201741909A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
US11977570B2 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
US7783644B1 (en) Query-independent entity importance in books
US10853344B2 (en) Understanding tables for search
US7739258B1 (en) Facilitating searches through content which is accessible through web-based forms
US10387469B1 (en) System and methods for discovering, presenting, and accessing information in a collection of text contents
US9507867B2 (en) Discovery engine
US20120166414A1 (en) Systems and methods for relevance scoring
US10552467B2 (en) System and method for language sensitive contextual searching
US8812508B2 (en) Systems and methods for extracting phases from text
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
CA2747145A1 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
TWI605353B (zh) File classification system, method and computer program product based on lexical statistics
Zhang et al. The use of dependency relation graph to enhance the term weighting in question retrieval
Roy et al. Discovering and understanding word level user intent in web search queries
De Wilde et al. Semantic enrichment of a multilingual archive with linked open data
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Stanković et al. Improving document retrieval in large domain specific textual databases using lexical resources
Zhang et al. A semantics-based method for clustering of Chinese web search results
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
KR101693783B1 (ko) 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
TW201124860A (en) Method and apparatus for identifying synonym, and searching method and apparatus utilizing the same.
CN117851535A (zh) 基于事务逻辑的信息文件全结构存储及其无搜索引擎设计方法及系统
Grolmus et al. User Profile Identification Based on Text Mining