TW201822031A - 以文字資訊建立圖表索引方法及其電腦程式產品 - Google Patents

以文字資訊建立圖表索引方法及其電腦程式產品 Download PDF

Info

Publication number
TW201822031A
TW201822031A TW105140773A TW105140773A TW201822031A TW 201822031 A TW201822031 A TW 201822031A TW 105140773 A TW105140773 A TW 105140773A TW 105140773 A TW105140773 A TW 105140773A TW 201822031 A TW201822031 A TW 201822031A
Authority
TW
Taiwan
Prior art keywords
chart
information
text information
vocabulary
index
Prior art date
Application number
TW105140773A
Other languages
English (en)
Other versions
TWI636370B (zh
Inventor
許庭瑋
王昱鈞
林春風
陳嬿如
翁慈佳
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW105140773A priority Critical patent/TWI636370B/zh
Publication of TW201822031A publication Critical patent/TW201822031A/zh
Application granted granted Critical
Publication of TWI636370B publication Critical patent/TWI636370B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係提供一種以文字資訊建立圖表索引方法及其電腦程式產品。前述方法包含下列步驟:讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合,以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序,以選出一個或多個候選詞彙、以及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。

Description

以文字資訊建立圖表索引方法及其電腦程式產品
本發明係一種索引方法及其電腦程式產品,尤指一種以文字資訊建立圖表索引方法及其電腦程式產品。
在現行的檔案管理系統中,為查詢特定檔案內文時,多藉由輸入特定關鍵字來查找關鍵字所位於之區域,並在此區域內尋找所需的文字資料。
由於習知技術僅能針對文字內容進行搜尋,而當使用者欲查詢特定圖表內容時,前述方案便無法有效的找到所應之圖表內容,而必須藉由人工方式在檔案中一頁一頁的搜尋,造成使用者的諸多不便。
綜上所述,如何提供一種可解決前揭問題之技術手段乃本領域亟需解決之技術問題。
為解決前揭之問題,本案之目的係提供一種以文字資訊建立圖表索引之技術方案。
為達上述目的,本案提出一種以文字資訊建立圖表索引方法,並包含下列步驟:讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合,以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序,以選出一個或多個候選詞彙、以 及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。
為達上述目的,本案提出一種以文字資訊建立圖表索引之電腦程式產品,當電腦裝置載入並執行電腦程式產品,可完成以文字資訊建立圖表索引方法所述之步驟。
綜上所述,本案之以文字資訊建立圖表索引方法及其電腦程式產品藉由萃取重點關注詞彙以找出對應此關鍵字之圖表內容,而能有效的解決習知技術不足部分。
S11~S42‧‧‧步驟
圖1為本發明一實施範例之流程示意圖。
圖2為本案一範例檔案之結構示意圖。
圖3為本案一模型訓練步驟流程圖。
圖4為本案文章段落或句子之辨識流程圖。
圖5為本案文章段落或句子之分析流程圖。
圖6為本案實施範例之使用者瀏覽畫面示意圖。
以下將描述具體之實施例以說明本發明之實施態樣,惟其並非用以限制本發明所欲保護之範疇。
本發明於第一實施例提供一種以文字資訊建立圖表索引方法。此方法包含下列步驟:讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊、分析文章段落資訊或句子資訊之集合,以萃取複數個重點關注詞彙、對重點關注詞彙進行權重處理以及排序,以選出一個或多個候選詞 彙、以及依據候選詞產生虛擬圖表訊息目錄及圖式索引資訊。
於另一實施例中,前述方法係透過命名實體辨識(Name Entity Recognition)分析法文章段落資訊或句子資訊之集合,以萃取重點關注詞彙。於另一實施例中,前述方法係透過詞彙統計抽詞法分析文章段落資訊或句子資訊之集合,以萃取重點關注詞彙。
於另一實施例中,前述方法之命名實體辨識法係提取特定專有名詞之詞彙。於另一實施例中,前述方法之專有名詞進一步包含人名詞彙、地名詞彙、組織名稱詞彙其中至少一。
於另一實施例中,前述方法之詞彙統計抽詞法係使用後綴數位抽詞法提取特定詞彙。於另一實施例中,前述方法係運行於雲端資料管理系統。
於另一實施例中,前述方法依據詞頻、逆向文件頻率以進行權重處理。於另一實施例中,前述方法係以高單詞頻率之詞彙,乘上詞彙在檔案總數中的低文件頻率,以產生對應之權重值以及過濾特定詞彙。
本發明於第二實施例更提供一種以文字資訊建立圖表索引之電腦程式產品,當電腦裝置載入並執行電腦程式產品,可完成前述方法所述之步驟。
以下本發明茲以第一實施例之以文字資訊建立圖表索引方法進行說明,惟第二實施例之以文字資訊建立圖表索引電腦程式產品亦可達到相同或相似之技術功效。
請接著參閱圖1,其本發明一實施範例之流程示意圖。於此實施範例中,以文字資訊建立圖表索引方法係運行於雲端資料管理系統, 惟應用層面不在此限,流程步驟說明如下:
S11:蒐集檔案中與圖表相關的文章段落或句子。
S12:利用命名實體辨識技術,分析檔案中與圖表相關的文章段落或句子,擷取與圖表相關的重點關注詞彙。
S13:利用詞彙統計抽詞技術,分析檔案中與圖表相關的文章段落或句子,擷取與圖表相關的重點關注詞彙。
S14:將重點關注詞彙分別依據權重公式排序後,再二次結合算出權重排序,挑選出前n名重點關注詞彙指定給圖表。
S15:產生虛擬圖表訊息目錄或圖式索引,提供用戶搜尋。
前述步驟細部說明如下:S11係蒐集檔案中與圖表相關的文章段落或句子,此步驟收集檔案中的1.圖表自有的名稱、2.圖表前後出現的文章段落、3.檔案本文中提到圖表的關鍵字內容、4.檔案本文中提到圖表的關鍵字前後段落、5.檔案註解,或6.檔案標籤文字等文章段落或句子之集合。
請參閱圖2,其為一範例檔案之結構示意圖。若此檔案為一Word檔,且內容包含了段落內容(段落一~段落五)、圖式及其說明(圖2-2-1圖檔名稱A,以及圖2-2-2圖檔名稱B)。在執行時先利用自動剖析句子方式,將圖檔名稱A、圖2-2-1圖片上下出現的文章段落二與段落三前五行語句、檔案本文中有提及圖2-2-1之相關語句、再加上原有此檔案之註解或標籤等段落與句子蒐集起來當作後續辨識與抽詞的分析語料。
步驟S12利用命名實體辨識技術,分析檔案中與圖表相關的文章段落或句子以及擷取與圖表相關的重點關注詞彙,此步驗主要是將S11產生之文章段落或句子之集合進行分析,該細節方法包含步驟說明如下: 命名實體辨識技術屬於自然語言處理項目之技術之一,提供在全文文件中,將常見的人名、地名、組織名等專有名詞詞彙擷取出來,此辨識技術需事前先建立一監督式(Supervised)模型,可依據圖3之模型訓練步驟建立辨識模型。說明如下:
S21:定義標籤種類;依據人名、地名、組織名設定標籤種類,標籤目前設定有:人名起始標籤(B_PER)、人名內部標籤(I_PER)、地名起始標籤(B_LOC)、地名內部標籤(I_LOC)、組織名起始標籤(B_ORG)、組織名內部標籤(I_ORG)、非專有名詞標籤(O)等七種分類。
S22:收集訓練語料。蒐集相關領域的眾多句子之集合以提供模型訓練用。
S23:定義特徵。針對單一文字或單詞定義出問題及判斷機率,例如此一單字或詞是否為百家姓,以1代表是,0代表否。特徵的狀況可能有很多,蒐集起來成為一組特徵向量集合。
S24:特徵字典與規則字典建立。
S25:模型訓練建立;依據條件隨機域(Conditional random fields,CRFs)訓練句子中的每個單字之「標籤-特徵向量」之組合。條件隨機域為無向性之圖模型(undirected graph model),圖模型中的頂點代表隨機變數,頂點間的連線代表隨機變數間的相依關係,在條件隨機域當中,隨機變數Y的分佈為條件機率,給定的觀察值則為隨機變數X。原則上,條件隨機域的圖模型佈局是可以任意給定的,一般常用的佈局是鏈結式的架構,鏈結式架構不論在訓練(training)、推論(inference)、或是解碼(decoding)上,都存在有效率的演算法可供標籤的判別與演算。
S26:實際語料評估;給定句子測試模型之精確度,找出特徵向量並判斷模型之精確度。(如果語料有辨識錯誤的話,提供前處理加入字典檔或是後處理人工調整重新訓練模型)
當模型建立後,即可用來分析經由步驟S11)所蒐集的文章段落或句子。透過圖4之辨識流程,擷取與圖表相關的重點關注詞彙。辨識流程說明如下:
S31:特徵抽取。
S32:特徵字典與規則字典對應。
S33:模型辨識,給定欲分析之檔案中與圖表相關的文章段落或句子進行標籤辨識。
S34:輸出格式處理;模型預測出句子中的每個單字之標籤,依據標籤之B與I做斷詞。例如:「第六任董事長蔡力行先生」此句可被模型辨識為「O-O-O-O-O-O-B_PER-I_PER-I_PER-O-O」。則取出第一個B與最後一個I為止的詞彙為單一詞彙之結果。
S35:標註結果分析;將句子依據標籤做斷詞,擷取出專有名詞。
S13利用詞彙統計抽詞技術,分析檔案中與圖表相關的文章段落或句子,擷取與圖表相關的重點關注詞彙;此步主要是將S11)產生之文章段落或句子之集合進行分析,該細節方法包含步驟如下圖5:
S41:利用後綴數組抽詞法擷取詞彙。
S42:依據規則過濾詞彙。
S41:利用後綴數組抽詞法擷取詞彙。本案利用後綴數組Suffix array)方式,利用將字串轉為後綴數組的方式,擷取序列中最長前綴字串作為候選 詞。基本演算概念如下,假設一長度為n的字串S,對每個存在於字串S的n個字符作0至n-1的索引,S[i]表示索引i的後綴字串,假設S=「abracadabra」,在索引之後結果如下表1所示
此字串總共有11個後綴,依字典順序排序後產生表2的後綴字串,其中之頻率為該後綴出現於所有後綴字串之前綴部分的次數:
上述後綴字串中頻率大於1者即為可能的候選詞,然而若該候選詞為其他候選詞所包含,且其頻率未高於較長的候選詞,則該候選詞會被濾除。依上例,最終可得到「a」和「abra」這兩個候選詞。
再舉一中文字串為範例:「自然科學與人文社會科學和新世代社會科學」(表3),經由後綴數組Suffix array)排序可得到部分後綴數組如下表,再經由排序與頻率統計後會抽出如表4中「科學」出現3次、「社會科 學」出現2次這兩個候選詞。
S42:依據規則過濾詞彙以及依據後綴數組方法可以從檔案中與圖表相關的文章段落或句子抓取出大量的可能候選詞,但亦含有大量無用的雜訊詞。這些雜訊詞彙不但會大幅耗費計算時間,且錯誤的詞組將會大幅影響圖表標籤之結果。故依據規則過濾詞彙,將無用的詞彙濾除。例如:
1.標點符號規則:抽取出來的詞彙中含有中英文標點符號的詞一律濾除。
2.起頭文字規則:抽取出來的詞彙開頭符合特定字元的詞彙一律濾除,如「在...」、「自...」。
3.末尾文字規則:抽取出來的詞彙結尾符合特定字元的詞彙一律濾除,主要為一些特定的詞語,如「...先生」、「...董事」等。
4.長詞優先(Maximum Matching)規則:與預先準備的規則字典S32)比對,如果規則字典有收錄該詞,則該詞於抽詞結果中的所有子字串皆予以濾除。例如規則字典中收錄「人力資源管理系統」一詞,則「人力資源管理」、「資源管理系統」、「資源管理」等皆全部濾除。
在步驟S14中將重點關注詞彙分別依據權重公式排序後,再二次結合算出權重排序,挑選出前n名重點關注詞彙指定給圖表;在此說明權重公式利用詞頻(Term-Frequency,TF)與逆向文件頻率(Inverse Document Frequency,IDF)來運算出重點關注詞彙之權重。在此權重公式又稱「TF-IDF演算法」計算方法如下:
S14.1:先計算詞頻TF(Term Frequency,TF):假設dj是「某一特定文件」,ti是該文件中所使用單詞或單字的「其中一種」,那麼tfi的計算方法就是ti在每篇文章dj中出現次數的加總,除以所有詞彙在每篇文章的加總,如圖十運算式,主要是強調出現越多次的詞越重要。
S14.2:再計算逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞彙的IDF,可以由所有文件總數除 以包含該詞彙在文件總數中出現的文件數,再將得到的商取對數得到,如圖十一運算式,主要是強調出現在越多文件的詞越不重要
S14.3:將tfi*idfi來進行計算,以某一特定文件內的高單詞頻率,乘上該詞彙在文件總數中的低文件頻率,便可以產生TF-IDF權重值,且TF-IDF傾向於過濾掉常見的單詞,保留重要的詞彙,如圖十二運算式。
TF-IDF i =tf i idf i
S14.4:詞彙權重計算公式由六項因子組成:圖表自有的名稱之TF-IDF值
圖表前後出現的文章段落之TF-IDF值
檔案本文中提到圖表的關鍵字內容之TF-IDF值
檔案本文中提到圖表的關鍵字前後段落之TF-IDF值
檔案註解之TF-IDF值
檔案標籤文字之TF-IDF值
詞彙i權重值ivar1var2var3var4var5var6ε
其中參數λvar1、λvar2、λvar3、λvar4、λvar5、λvar6、λε為變數,擷取出之詞彙構成一個算式。令已知之重要詞彙達到最大值為該算式理想值。n筆詞彙構成n個算式,可使用參數最佳化演算法求解(如:線性回 歸演算法),各參數λ之lower bound設定為0.1,而upper bound則以初始之訓練資料經參數最佳化演算法所求出之最佳解之最大值再加10為其upper bound之值。
接著將S12利用命名實體辨識技術與S13利用詞彙統計抽詞技術所擷取與圖表相關的重點之關注詞彙個別利用S14)TF-IDF演算法挑選出前m名之詞彙。再分別給S12命名實體辨識技術與所挑選出來的詞彙給予權重α、S13利用詞彙統計抽詞技術所挑選出來的詞彙給予權重β,其中α與β總合為1,重新算一權重分數,挑出前n名詞彙指定給圖表,成為圖表索引標籤。
於步驟S15產生虛擬圖表訊息目錄或圖式索引,提供用戶搜尋。依據S11至S14的步驟,可於系統中建立一虛擬圖表訊息目錄或圖示索引,提供用戶以重點關注詞彙方式尋找圖表,並且可以顯示出圖表所在之檔案名稱與路徑。
雲端資料管理系統所提供之使用者瀏覽畫面如圖6所示,其包含圖表搜尋欄位、虛擬圖表訊息目錄、圖表索引名稱、圖表縮圖、圖表所在檔案名稱與檔案路徑和檔案超連結。前述之圖表搜尋選項可提供用戶輸入關鍵字進行查詢。前述虛擬圖表訊息目錄則可顯示出當前所有圖表訊息之索引標籤目錄。舉例說明之,當使用者在圖表搜尋欄位輸入「相對論時」,可在資料中找到「相對論科學家之簡介.pptx」以及「當代數學公式.doc」二個檔案,並在檔案內找到與關鍵字關聯之圖像(愛因斯坦圖像以及相對論公式圖式),得以快速得知檔案內對應圖表內容,並在點選圖表訊息之索引標籤目錄後可經由超連結前往此檔案之對應段落處。
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。

Claims (10)

  1. 一種以文字資訊建立圖表索引方法,包含:讀取檔案內與目標圖表關聯之文章段落資訊或句子資訊;分析該文章段落資訊或該句子資訊之集合,以萃取複數個重點關注詞彙;對該等重點關注詞彙進行權重處理以及排序,以選出一個或多個候選詞彙;以及依據該候選詞產生虛擬圖表訊息目錄及圖式索引資訊。
  2. 如請求項1所述之以文字資訊建立圖表索引方法,其中係透過命名實體辨識分析法該文章段落資訊或該句子資訊之集合,以萃取該等重點關注詞彙。
  3. 如請求項2所述之以文字資訊建立圖表索引方法,其中係透過詞彙統計抽詞法分析該文章段落資訊或該句子資訊之集合,以萃取該等重點關注詞彙。
  4. 如請求項2所述之以文字資訊建立圖表索引方法,其中該命名實體辨識法係提取特定專有名詞之詞彙。
  5. 如請求項4所述之以文字資訊建立圖表索引方法,其中該專有名詞進一步包含人名詞彙、地名詞彙、組織名稱詞彙其中至少一。
  6. 如請求項3所述之以文字資訊建立圖表索引方法,其中該詞彙統計抽詞法係使用後綴數位抽詞法提取特定詞彙。
  7. 如請求項1所述之以文字資訊建立圖表索引方法,係運行於雲端資料管理系統。
  8. 如請求項1所述之以文字資訊建立圖表索引方法,係依據詞頻、逆向文件 頻率以進行權重處理。
  9. 如請求項8所述之以文字資訊建立圖表索引方法,係以高單詞頻率之該詞彙,乘上該詞彙在該檔案總數中的低文件頻率,以產生對應之權重值以及過濾特定該詞彙。
  10. 一種以文字資訊建立圖表索引之電腦程式產品,當電腦裝置載入並執行該電腦程式產品,可完成如請求項1至9任一項所述之方法。
TW105140773A 2016-12-09 2016-12-09 Establishing chart indexing method and computer program product by text information TWI636370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105140773A TWI636370B (zh) 2016-12-09 2016-12-09 Establishing chart indexing method and computer program product by text information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105140773A TWI636370B (zh) 2016-12-09 2016-12-09 Establishing chart indexing method and computer program product by text information

Publications (2)

Publication Number Publication Date
TW201822031A true TW201822031A (zh) 2018-06-16
TWI636370B TWI636370B (zh) 2018-09-21

Family

ID=63258406

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105140773A TWI636370B (zh) 2016-12-09 2016-12-09 Establishing chart indexing method and computer program product by text information

Country Status (1)

Country Link
TW (1) TWI636370B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307265A (zh) * 2019-07-26 2021-02-02 珠海金山办公软件有限公司 一种在文档中查找图表的方法、系统、存储介质和终端
TWI820845B (zh) * 2022-08-03 2023-11-01 中國信託商業銀行股份有限公司 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201126359A (en) * 2010-01-25 2011-08-01 Ind Tech Res Inst Keyword evaluation systems and methods
CN103207879B (zh) * 2012-01-17 2016-03-30 阿里巴巴集团控股有限公司 图像索引的生成方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307265A (zh) * 2019-07-26 2021-02-02 珠海金山办公软件有限公司 一种在文档中查找图表的方法、系统、存储介质和终端
TWI820845B (zh) * 2022-08-03 2023-11-01 中國信託商業銀行股份有限公司 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置

Also Published As

Publication number Publication date
TWI636370B (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
WO2017130434A1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
US20150161242A1 (en) Identifying and Displaying Relationships Between Candidate Answers
US20130036076A1 (en) Method for keyword extraction
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Dong et al. The automated acquisition of suggestions from tweets
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Zhang et al. Stanford at TAC KBP 2016: Sealing Pipeline Leaks and Understanding Chinese.
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Kaur et al. Semantic-based integrated plagiarism detection approach for english documents
TWI636370B (zh) Establishing chart indexing method and computer program product by text information
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Ravi et al. Cross-domain academic paper recommendation by semantic linkage approach using text analysis and recurrent neural networks
Dinov et al. Natural language processing/text mining
Mahmoud et al. Arabic semantic textual similarity identification based on convolutional gated recurrent units
Figueroa et al. Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Muhammad et al. Revisiting the challenges and surveys in text similarity matching and detection methods.
Razzaqe et al. Text mining in unstructured text: techniques, methods and analysis
Bhole et al. Single Document Text Summarization Using Clustering Approach Implementing for News Article
Wu et al. A DCGRU-RMCRF Neural Network for Aspect-level Sentiment Analysis