TW201822031A

TW201822031A - 以文字資訊建立圖表索引方法及其電腦程式產品

Info

Publication number: TW201822031A
Application number: TW105140773A
Authority: TW
Inventors: 許庭瑋; 王昱鈞; 林春風; 陳嬿如; 翁慈佳
Original assignee: 中華電信股份有限公司
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-16
Also published as: TWI636370B

Abstract

本發明係提供一種以文字資訊建立圖表索引方法及其電腦程式產品。前述方法包含下列步驟：讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合，以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序，以選出一個或多個候選詞彙、以及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。

Description

以文字資訊建立圖表索引方法及其電腦程式產品

本發明係一種索引方法及其電腦程式產品，尤指一種以文字資訊建立圖表索引方法及其電腦程式產品。

在現行的檔案管理系統中，為查詢特定檔案內文時，多藉由輸入特定關鍵字來查找關鍵字所位於之區域，並在此區域內尋找所需的文字資料。

由於習知技術僅能針對文字內容進行搜尋，而當使用者欲查詢特定圖表內容時，前述方案便無法有效的找到所應之圖表內容，而必須藉由人工方式在檔案中一頁一頁的搜尋，造成使用者的諸多不便。

綜上所述，如何提供一種可解決前揭問題之技術手段乃本領域亟需解決之技術問題。

為解決前揭之問題，本案之目的係提供一種以文字資訊建立圖表索引之技術方案。

為達上述目的，本案提出一種以文字資訊建立圖表索引方法，並包含下列步驟：讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合，以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序，以選出一個或多個候選詞彙、以及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。

為達上述目的，本案提出一種以文字資訊建立圖表索引之電腦程式產品，當電腦裝置載入並執行電腦程式產品，可完成以文字資訊建立圖表索引方法所述之步驟。

綜上所述，本案之以文字資訊建立圖表索引方法及其電腦程式產品藉由萃取重點關注詞彙以找出對應此關鍵字之圖表內容，而能有效的解決習知技術不足部分。

S11~S42‧‧‧步驟

圖1為本發明一實施範例之流程示意圖。

圖2為本案一範例檔案之結構示意圖。

圖3為本案一模型訓練步驟流程圖。

圖4為本案文章段落或句子之辨識流程圖。

圖5為本案文章段落或句子之分析流程圖。

圖6為本案實施範例之使用者瀏覽畫面示意圖。

以下將描述具體之實施例以說明本發明之實施態樣，惟其並非用以限制本發明所欲保護之範疇。

本發明於第一實施例提供一種以文字資訊建立圖表索引方法。此方法包含下列步驟：讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合，以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序，以選出一個或多個候選詞彙、以及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。

於另一實施例中，前述方法係透過命名實體辨識(Name Entity Recognition)分析法文章段落資訊或句子資訊之集合，以萃取重點關注詞彙。於另一實施例中，前述方法係透過詞彙統計抽詞法分析文章段落資訊或句子資訊之集合，以萃取重點關注詞彙。

於另一實施例中，前述方法之命名實體辨識法係提取特定專有名詞之詞彙。於另一實施例中，前述方法之專有名詞進一步包含人名詞彙、地名詞彙、組織名稱詞彙其中至少一。

於另一實施例中，前述方法之詞彙統計抽詞法係使用後綴數位抽詞法提取特定詞彙。於另一實施例中，前述方法係運行於雲端資料管理系統。

於另一實施例中，前述方法依據詞頻、逆向文件頻率以進行權重處理。於另一實施例中，前述方法係以高單詞頻率之詞彙，乘上詞彙在檔案總數中的低文件頻率，以產生對應之權重值以及過濾特定詞彙。

本發明於第二實施例更提供一種以文字資訊建立圖表索引之電腦程式產品，當電腦裝置載入並執行電腦程式產品，可完成前述方法所述之步驟。

以下本發明茲以第一實施例之以文字資訊建立圖表索引方法進行說明，惟第二實施例之以文字資訊建立圖表索引電腦程式產品亦可達到相同或相似之技術功效。

請接著參閱圖1，其本發明一實施範例之流程示意圖。於此實施範例中，以文字資訊建立圖表索引方法係運行於雲端資料管理系統，惟應用層面不在此限，流程步驟說明如下：

S11：蒐集檔案中與圖表相關的文章段落或句子。

S12：利用命名實體辨識技術，分析檔案中與圖表相關的文章段落或句子，擷取與圖表相關的重點關注詞彙。

S13：利用詞彙統計抽詞技術，分析檔案中與圖表相關的文章段落或句子，擷取與圖表相關的重點關注詞彙。

S14：將重點關注詞彙分別依據權重公式排序後，再二次結合算出權重排序，挑選出前n名重點關注詞彙指定給圖表。

S15：產生虛擬圖表訊息目錄或圖式索引，提供用戶搜尋。

前述步驟細部說明如下：S11係蒐集檔案中與圖表相關的文章段落或句子，此步驟收集檔案中的1.圖表自有的名稱、2.圖表前後出現的文章段落、3.檔案本文中提到圖表的關鍵字內容、4.檔案本文中提到圖表的關鍵字前後段落、5.檔案註解，或6.檔案標籤文字等文章段落或句子之集合。

請參閱圖2，其為一範例檔案之結構示意圖。若此檔案為一Word檔，且內容包含了段落內容(段落一~段落五)、圖式及其說明(圖2-2-1圖檔名稱A，以及圖2-2-2圖檔名稱B)。在執行時先利用自動剖析句子方式，將圖檔名稱A、圖2-2-1圖片上下出現的文章段落二與段落三前五行語句、檔案本文中有提及圖2-2-1之相關語句、再加上原有此檔案之註解或標籤等段落與句子蒐集起來當作後續辨識與抽詞的分析語料。

步驟S12利用命名實體辨識技術，分析檔案中與圖表相關的文章段落或句子以及擷取與圖表相關的重點關注詞彙，此步驗主要是將S11產生之文章段落或句子之集合進行分析，該細節方法包含步驟說明如下：命名實體辨識技術屬於自然語言處理項目之技術之一，提供在全文文件中，將常見的人名、地名、組織名等專有名詞詞彙擷取出來，此辨識技術需事前先建立一監督式(Supervised)模型，可依據圖3之模型訓練步驟建立辨識模型。說明如下：

S21：定義標籤種類；依據人名、地名、組織名設定標籤種類，標籤目前設定有：人名起始標籤(B_PER)、人名內部標籤(I_PER)、地名起始標籤(B_LOC)、地名內部標籤(I_LOC)、組織名起始標籤(B_ORG)、組織名內部標籤(I_ORG)、非專有名詞標籤(O)等七種分類。

S22：收集訓練語料。蒐集相關領域的眾多句子之集合以提供模型訓練用。

S23：定義特徵。針對單一文字或單詞定義出問題及判斷機率，例如此一單字或詞是否為百家姓，以1代表是，0代表否。特徵的狀況可能有很多，蒐集起來成為一組特徵向量集合。

S24：特徵字典與規則字典建立。

S25：模型訓練建立；依據條件隨機域(Conditional random fields，CRFs)訓練句子中的每個單字之「標籤-特徵向量」之組合。條件隨機域為無向性之圖模型(undirected graph model)，圖模型中的頂點代表隨機變數，頂點間的連線代表隨機變數間的相依關係，在條件隨機域當中，隨機變數Y的分佈為條件機率，給定的觀察值則為隨機變數X。原則上，條件隨機域的圖模型佈局是可以任意給定的，一般常用的佈局是鏈結式的架構，鏈結式架構不論在訓練(training)、推論(inference)、或是解碼(decoding)上，都存在有效率的演算法可供標籤的判別與演算。

S26：實際語料評估；給定句子測試模型之精確度，找出特徵向量並判斷模型之精確度。(如果語料有辨識錯誤的話，提供前處理加入字典檔或是後處理人工調整重新訓練模型)

當模型建立後，即可用來分析經由步驟S11)所蒐集的文章段落或句子。透過圖4之辨識流程，擷取與圖表相關的重點關注詞彙。辨識流程說明如下：

S31：特徵抽取。

S32：特徵字典與規則字典對應。

S33：模型辨識，給定欲分析之檔案中與圖表相關的文章段落或句子進行標籤辨識。

S34：輸出格式處理；模型預測出句子中的每個單字之標籤，依據標籤之B與I做斷詞。例如：「第六任董事長蔡力行先生」此句可被模型辨識為「O-O-O-O-O-O-B_PER-I_PER-I_PER-O-O」。則取出第一個B與最後一個I為止的詞彙為單一詞彙之結果。

S35：標註結果分析；將句子依據標籤做斷詞，擷取出專有名詞。

S13利用詞彙統計抽詞技術，分析檔案中與圖表相關的文章段落或句子，擷取與圖表相關的重點關注詞彙；此步主要是將S11)產生之文章段落或句子之集合進行分析，該細節方法包含步驟如下圖5：

S41：利用後綴數組抽詞法擷取詞彙。

S42：依據規則過濾詞彙。

S41：利用後綴數組抽詞法擷取詞彙。本案利用後綴數組Suffix array)方式，利用將字串轉為後綴數組的方式，擷取序列中最長前綴字串作為候選詞。基本演算概念如下，假設一長度為n的字串S，對每個存在於字串S的n個字符作0至n-1的索引，S[i]表示索引i的後綴字串，假設S=「abracadabra」，在索引之後結果如下表1所示

此字串總共有11個後綴，依字典順序排序後產生表2的後綴字串，其中之頻率為該後綴出現於所有後綴字串之前綴部分的次數：

上述後綴字串中頻率大於1者即為可能的候選詞，然而若該候選詞為其他候選詞所包含，且其頻率未高於較長的候選詞，則該候選詞會被濾除。依上例，最終可得到「a」和「abra」這兩個候選詞。

再舉一中文字串為範例：「自然科學與人文社會科學和新世代社會科學」(表3)，經由後綴數組Suffix array)排序可得到部分後綴數組如下表，再經由排序與頻率統計後會抽出如表4中「科學」出現3次、「社會科學」出現2次這兩個候選詞。

S42：依據規則過濾詞彙以及依據後綴數組方法可以從檔案中與圖表相關的文章段落或句子抓取出大量的可能候選詞，但亦含有大量無用的雜訊詞。這些雜訊詞彙不但會大幅耗費計算時間，且錯誤的詞組將會大幅影響圖表標籤之結果。故依據規則過濾詞彙，將無用的詞彙濾除。例如：

1.標點符號規則：抽取出來的詞彙中含有中英文標點符號的詞一律濾除。

2.起頭文字規則：抽取出來的詞彙開頭符合特定字元的詞彙一律濾除，如「在...」、「自...」。

3.末尾文字規則：抽取出來的詞彙結尾符合特定字元的詞彙一律濾除，主要為一些特定的詞語，如「...先生」、「...董事」等。

4.長詞優先(Maximum Matching)規則：與預先準備的規則字典S32)比對，如果規則字典有收錄該詞，則該詞於抽詞結果中的所有子字串皆予以濾除。例如規則字典中收錄「人力資源管理系統」一詞，則「人力資源管理」、「資源管理系統」、「資源管理」等皆全部濾除。

在步驟S14中將重點關注詞彙分別依據權重公式排序後，再二次結合算出權重排序，挑選出前n名重點關注詞彙指定給圖表；在此說明權重公式利用詞頻(Term-Frequency，TF)與逆向文件頻率(Inverse Document Frequency，IDF)來運算出重點關注詞彙之權重。在此權重公式又稱「TF-IDF演算法」計算方法如下：

S14.1：先計算詞頻TF(Term Frequency，TF)：假設dj是「某一特定文件」，ti是該文件中所使用單詞或單字的「其中一種」，那麼tfi的計算方法就是ti在每篇文章dj中出現次數的加總，除以所有詞彙在每篇文章的加總，如圖十運算式，主要是強調出現越多次的詞越重要。

S14.2：再計算逆向文件頻率(inverse document frequency，IDF)是一個詞語普遍重要性的度量。某一特定詞彙的IDF，可以由所有文件總數除以包含該詞彙在文件總數中出現的文件數，再將得到的商取對數得到，如圖十一運算式，主要是強調出現在越多文件的詞越不重要

S14.3：將tfi＊idfi來進行計算，以某一特定文件內的高單詞頻率，乘上該詞彙在文件總數中的低文件頻率，便可以產生TF-IDF權重值，且TF-IDF傾向於過濾掉常見的單詞，保留重要的詞彙，如圖十二運算式。

TF-IDF _i=tf _i＊idf _i

S14.4：詞彙權重計算公式由六項因子組成：圖表自有的名稱之TF-IDF值

圖表前後出現的文章段落之TF-IDF值

檔案本文中提到圖表的關鍵字內容之TF-IDF值

檔案本文中提到圖表的關鍵字前後段落之TF-IDF值

檔案註解之TF-IDF值

檔案標籤文字之TF-IDF值

詞彙_i權重值_i=λ_var1＊+λ_var2＊+λ_var3＊+λ_var4＊+λ_var5＊+λ_var6＊+λ_ε

其中參數λ_var1、λ_var2、λ_var3、λ_var4、λ_var5、λ_var6、λ_ε為變數，擷取出之詞彙構成一個算式。令已知之重要詞彙達到最大值為該算式理想值。n筆詞彙構成n個算式，可使用參數最佳化演算法求解(如：線性回歸演算法)，各參數λ之lower bound設定為0.1，而upper bound則以初始之訓練資料經參數最佳化演算法所求出之最佳解之最大值再加10為其upper bound之值。

接著將S12利用命名實體辨識技術與S13利用詞彙統計抽詞技術所擷取與圖表相關的重點之關注詞彙個別利用S14)TF-IDF演算法挑選出前m名之詞彙。再分別給S12命名實體辨識技術與所挑選出來的詞彙給予權重α、S13利用詞彙統計抽詞技術所挑選出來的詞彙給予權重β，其中α與β總合為1，重新算一權重分數，挑出前n名詞彙指定給圖表，成為圖表索引標籤。

於步驟S15產生虛擬圖表訊息目錄或圖式索引，提供用戶搜尋。依據S11至S14的步驟，可於系統中建立一虛擬圖表訊息目錄或圖示索引，提供用戶以重點關注詞彙方式尋找圖表，並且可以顯示出圖表所在之檔案名稱與路徑。

雲端資料管理系統所提供之使用者瀏覽畫面如圖6所示，其包含圖表搜尋欄位、虛擬圖表訊息目錄、圖表索引名稱、圖表縮圖、圖表所在檔案名稱與檔案路徑和檔案超連結。前述之圖表搜尋選項可提供用戶輸入關鍵字進行查詢。前述虛擬圖表訊息目錄則可顯示出當前所有圖表訊息之索引標籤目錄。舉例說明之，當使用者在圖表搜尋欄位輸入「相對論時」，可在資料中找到「相對論科學家之簡介.pptx」以及「當代數學公式.doc」二個檔案，並在檔案內找到與關鍵字關聯之圖像(愛因斯坦圖像以及相對論公式圖式)，得以快速得知檔案內對應圖表內容，並在點選圖表訊息之索引標籤目錄後可經由超連結前往此檔案之對應段落處。

上列詳細說明係針對本發明之一可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

Claims

一種以文字資訊建立圖表索引方法，包含：讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊；分析該文章段落資訊或該句子資訊之集合，以萃取複數個重點關注詞彙；對該等重點關注詞彙進行權重處理以及排序，以選出一個或多個候選詞彙；以及依據該候選詞產生虛擬圖表訊息目錄及圖式索引資訊。
如請求項1所述之以文字資訊建立圖表索引方法，其中係透過命名實體辨識分析法該文章段落資訊或該句子資訊之集合，以萃取該等重點關注詞彙。
如請求項2所述之以文字資訊建立圖表索引方法，其中係透過詞彙統計抽詞法分析該文章段落資訊或該句子資訊之集合，以萃取該等重點關注詞彙。
如請求項2所述之以文字資訊建立圖表索引方法，其中該命名實體辨識法係提取特定專有名詞之詞彙。
如請求項4所述之以文字資訊建立圖表索引方法，其中該專有名詞進一步包含人名詞彙、地名詞彙、組織名稱詞彙其中至少一。
如請求項3所述之以文字資訊建立圖表索引方法，其中該詞彙統計抽詞法係使用後綴數位抽詞法提取特定詞彙。
如請求項1所述之以文字資訊建立圖表索引方法，係運行於雲端資料管理系統。
如請求項1所述之以文字資訊建立圖表索引方法，係依據詞頻、逆向文件頻率以進行權重處理。
如請求項8所述之以文字資訊建立圖表索引方法，係以高單詞頻率之該詞彙，乘上該詞彙在該檔案總數中的低文件頻率，以產生對應之權重值以及過濾特定該詞彙。
一種以文字資訊建立圖表索引之電腦程式產品，當電腦裝置載入並執行該電腦程式產品，可完成如請求項1至9任一項所述之方法。