TWI725568B - 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 - Google Patents
資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 Download PDFInfo
- Publication number
- TWI725568B TWI725568B TW108136323A TW108136323A TWI725568B TW I725568 B TWI725568 B TW I725568B TW 108136323 A TW108136323 A TW 108136323A TW 108136323 A TW108136323 A TW 108136323A TW I725568 B TWI725568 B TW I725568B
- Authority
- TW
- Taiwan
- Prior art keywords
- list
- category
- keywords
- text
- words
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一種資訊處理系統,包含至少一處理器、通訊介面及資料庫。通訊介面耦接於至少一處理器。資料庫連接於該一或多個處理器,以及資料庫經組配以儲存接收自通訊介面至少一文本。至少一處理器經組配以:使用至少一文本的多個字詞的基礎特徵資訊來獲得多個訓練字詞;分類該些訓練字詞以建立對應於第一類別的第一列表以及對應於第二類別的第二列表;使用在第一列表與第二列表中的多個關鍵詞於待標注文本中進行匹配,並分別計算出待標注文本關於第一列表及第二列表的信心值;以及根據信心值以將待標注文本標注為第一類別或第二類別。
Description
本案係有關於一種處理系統及處理方法,且特別是有關於一種資訊處理系統及資訊處理方法。
傳統的文本標注方法係透過人力(例如分析師)閱讀文章後,以分析師的經驗來逐一對文章進行標注。然而,這樣的方式相當耗費時間,並且,標注的結果也高度依賴於分析師的經驗。此外,由於文章需要由分析師來閱讀,在資料保密方面存在相當高的風險。
另一方面,機器學習方法來訓練分類模型的機制需要大量且精確的標注文章,才能夠確保分類模型的準確率。如果標注文章數量不足或品質不佳,亦會造成準確率低落。據此,如何同時提高分類準確度及資料保密性,於文本分類的領域而言係亟需解決的技術問題。
發明內容旨在提供本揭示內容的簡化摘要,以使閱讀者對本案內容具備基本的理解。此發明內容並非本揭示內容的完整概述,且其用意並非在指出本案實施例的重要/關鍵元件或界定本案的範圍。
根據本案之一實施例,揭示一種資訊處理系統,包含至少一處理器、通訊介面及資料庫。通訊介面耦接於至少一處理器。資料庫連接於該一或多個處理器,以及資料庫經組配以儲存接收自通訊介面至少一文本。至少一處理器經組配以:使用至少一文本的多個字詞的基礎特徵資訊來獲得多個訓練字詞;分類該些訓練字詞以建立對應於第一類別的第一列表以及對應於第二類別的第二列表;使用在第一列表與第二列表中的多個關鍵詞於待標注文本中進行匹配,並分別計算出待標注文本關於第一列表及第二列表的信心值;以及根據信心值以將待標注文本標注為第一類別或第二類別。
根據另一實施例,揭示一種資訊處理方法,包含:使用至少一文本的多個字詞的一基礎特徵資訊 來獲得多個訓練字詞;分類該些訓練字詞以建立對應於一第一類別的一第一列表以及對應於一第二類別的一第二列表;使用在該第一列表與該第二列表中的多個關鍵詞於一待標注文本中進行匹配,並分別計算出該待標注文本關於該第一列表及該第二列表的一信心值;以及根據該信心值以將該待標注文本標注為該第一類別或該第二類別。
根據另一實施例,揭示一種非暫態電腦可讀取記錄媒體,儲存多個程式碼,當該些程式碼被載入至少一處理器後,該至少一處理器執行該些程式碼以執行下列步驟:使用至少一文本的多個字詞的一基礎特徵資訊 來獲得多個訓練字詞;分類該些訓練字詞以建立對應於一第一類別的一第一列表以及對應於一第二類別的一第二列表;使用在該第一列表與該第二列表中的多個關鍵詞於一待標注文本中進行匹配,並分別計算出該待標注文本關於該第一列表及該第二列表的一信心值;以及根據該信心值以將該待標注文本標注為該第一類別或該第二類別。
以下揭示內容提供許多不同實施例或實例,以便實施本案之不同特徵。下文描述元件及排列之特定實例以簡化本案。當然,該等實例僅為示例性且並不欲為限制性。舉例而言,以下描述中在第二特徵上方或第二特徵上形成第一特徵可包括以直接接觸形成第一特徵及第二特徵的實施例,且亦可包括可在第一特徵與第二特徵之間形成額外特徵使得第一特徵及特徵可不處於直接接觸的實施例。另外,本案可在各實例中重複元件符號及/或字母。此重複係出於簡明性及清晰之目的,且本身並不指示所論述之各實施例及/或配置之間的關係。
參照第1圖,其係繪示根據本案的一些實施例的資訊處理系統100的功能方塊圖。如第1圖所示,資訊處理系統100包含處理器110、通訊介面120以及資料庫130。在一些實施例中,可由至少一處理器110來執行資料處理,使得資訊處理系統100運作於多執行緒(multithreading)環境。為便於說明,本案以下以處理器110進行實施例說明。
通訊介面120耦接於處理器110,經組配以與另一設備或系統(未繪示)傳送/接收文本資料。於一些實施例中,通訊介面120可以為,但不限於,支援全球行動通訊(Global System for Mobile communication,GSM)、長期演進通訊(Long Term Evolution,LTE)、全球互通微波存取(Worldwide interoperability for Microwave Access,WiMAX)、無線保真(Wireless Fidelity,Wi-Fi)、藍牙技術及有線網路的通訊晶片等。
資料庫130耦接於處理器110。在一些實施例中,資訊處理系統100可在系統外部設置外部資料庫(未繪示),而透過通訊介面130與處理器110通訊連接此外部資料庫,以存取系統外部的資料。
在一些實施例中,資料庫130經組配以透過通訊介面120儲存至少一文本。所述的文本可以為用以表示任何語言的檔案。
參照第2圖,其係繪示根據本案的一些實施例的資訊處理方法的流程圖。第2圖的資訊處理方法可由第1圖的資訊處理系統100來執行。為便於說明第2圖的資訊處理方法,各種相關的用語或元件將參照第1圖說明。
於步驟S210中,使用至少一文本的字詞的基礎特徵資訊來獲得多個訓練字詞。
於一些實施例中,處理器110使用文本中的字詞來作為訓練字典的關鍵字的基礎。
首先,處理器110透過自然語言處理技術來對文本中的字詞進行剖析,例如找出文本中的詞彙或斷詞。接著,處理器110根據一預設資料庫(未繪示)來取得此些字詞的基礎特徵資訊。基礎特徵資訊可以為但不限於字詞的相互訊息(mutual information,MI)、熵值(entropy)、字詞頻率(term frequency,TF)、組合變化值(accessor variety,AV)以及上下文關係值(position)。於一些實施例中,處理器110使用綜合權重計算公式,例如公式(1),來計算每一個字詞的參考值。
,0>α, β, γ, δ, ε>1 …公式(1)
於公式(1)中,
為字詞的參考值。
為字詞的相互訊息,
為字詞的熵值,
為字詞的字詞頻率,
為字詞與左右字詞之間的變化值,
為字詞於上下文之間的相對關係值,以及α、β、γ、δ及ε為機率值。其中,相互訊息為字詞與其他相鄰字詞之間的緊密程度或關聯性的估測值,熵值為字詞與其他相鄰字詞之間的自由程度的估測值。相互訊息與熵值為資訊理論(Information Theory)的一環,故於此不予詳述。
因此,透過調整公式(1)的各基礎特徵資訊的機率值,不同的機率值可以供後續找出多個關鍵詞的參考。
於步驟S220中,處理器110分類此些訓練字詞以建立分別對應於多個類別的多個列表。
在一些實施例中,處理器110可設定不同的閥值來決定關鍵詞的分類。舉例而言,於文本中偵測到訓練字詞為「人工智慧伺服器」、「智慧機器人」、「虛擬助手」、「自然語言」、「家電」等等,然而只有前四者的參考值大於第一閥值,則訓練字詞會被設定為有關於人工智慧(第一類別)的第一列表中的關鍵詞。舉另一例而言,於文本中偵測到的訓練字詞為「金融交易」、「比特幣」、「智能合約」、「銀行」,並且此些訓練字詞只有前三者的參考值大於第二閥值,則訓練字詞「金融交易」、「比特幣」、「智能合約」會被設定為有關於區塊鏈(第二類別)的第二列表中的關鍵詞。以此類推,處理器110可建立許多不同的列表。
於一些實施例中,第一列表的關鍵詞經組配為關於人工智慧的字典,第二列表的關鍵詞經組配為關於區塊鏈的字典。如此一來,資訊處理系統100可以此些字典檔為基礎,對一些待分類的文本進行內容上的分類或標注。值得一提的是,本案中的用語「列表」及「字典」係可交換地使用。
於步驟S225中,處理器110判斷是否完成字典的訓練。
於一些實施例中,步驟S210至步驟S220可被視為一個迴圈,而本案的建立列表的方法中,可以重複執行多次迴圈,對多個相同或不同的文本的字詞為基礎來重複地獲得多個訓練字詞,使得被分類到各類別的列表中的關鍵字更正確。舉例而言,在第L1個迴圈可能會把訓練字詞「銀行」分類到區塊鏈類別的第二列表,而作為第二列表的關鍵詞。然而,可能在第L2個迴圈時,將比較不符合「區塊鏈」之分類的訓練字詞「銀行」從第二列表中剔除。如此一來,執行多個迴圈可以不斷地更新與優化關鍵字的列表。
在一些實施例中,於執行字詞抽取演算法時,係以(term frequency-inverse document frequency,TF-IDF)技術中關於字詞的出現頻率及普遍程度資訊,運用至公式(2)中的邊值權重
,使得在計算各節點的權重值時,可以考慮到不同字詞的出現頻率及普遍程度的高低,使得於公式(2)中計算迭代的過程可以加速收斂。舉例而言,處理器110使用公式(2)計算N個訓練字詞的權重值。對此些權重值排序之後(例如由大到小),前數個(例如50個)訓練字詞會被設定為關鍵詞,即可被加入列表中。
於步驟S230中,處理器110使用此些列表的關鍵詞,於待標注文本中進行匹配,以計算出此些列表的信心值。
於一些實施例中,本案使用多字詞多字典匹配(multiple string multiple dictionary,MSMD)演算法來進行文本的標注。舉例而言,於步驟S220獲得多個列表作為多個字典D[1,…,d],每一個字典(例如字典1~字典d)為互斥類別。每一字典包含多個字詞S[1,…,s]。於匹配程序中,處理器110會從待標注文本中取一段主字串T,以逐一判斷各字典是否為T的匹配類別,例如搜尋各字典中是否存在與主字串T完全匹配的關鍵詞。
舉例而言,處理器110將第一列表中的關鍵詞設定為字典樹(Trie-Tree)的多個第一節點值(或稱第一模板字串),以及將第二列表中的關鍵詞設定為字典樹的多個第二節點值(或稱第二模板字串)。換言之,將所有關鍵字整合到一個字典樹。
接著,處理器110同時使用此些第一節點值與此些第二節點值來比對待標注文本的多個字詞。在進行匹配程序時,每一次以待標注文本的主字串T,自動搜尋字典樹的此些第一模板字串。主字串T的每一個字將逐一地與第一模板字串被比對。於一實施例中,當主字串T與第一模板字串中的任一個完全匹配時,則處理器110記錄此模板字串、待標注文本中出現此匹配的模板字串的次數,以及此匹配的模板字串出現在待標注文本中的位置。相似地,主字串T的每一個字將逐一地與第二模板字串被比對。當主字串T與第二模板字串中的任一個完全匹配時,則處理器110記錄此模板字串、待標注文本中出現此匹配的模板字串的次數,以及此匹配的模板字串出現在待標注文本中的位置。
於一些實施例中,字典樹的資料結構係以字串的相同前綴來儲存於節點中(例如每一個字元儲存於一個節點,使得字典樹的樹高為最長字串長度加一),因此每一個字串會對應於唯一的節點。於根據主字串T來搜尋字典樹時,會從字典樹的根節點進行搜尋,並逐層往子節點尋找。另一方面,由於字典樹中使用指標(pointer)來記錄字串,處理器110使用有限狀態機控制(例如Aho-Corasick演算法),配合各預先建構好的模板於搜尋字典樹的過程中修改指標,於搜尋主字串T中任一字元失敗時,於有限狀態機中進行退回狀態,轉向字典樹的其他分支以避免重複匹配相同的字首,因此可以減少搜尋主字串T的時間,提高搜尋字典樹的效率。
值得一提的是,本案不限於以字典樹演算法,任何的多字串搜尋演算法均屬於本案的實施範疇中。
此外,本案係將所有字典的所有關鍵詞依據相同前綴的規則來建立字典樹。由於一個字典樹中包含所有字典的所有關鍵詞,於匹配程序中,可以使一個主字串T同時對所有的字典來進行關鍵字匹配。相較於一般的作法(即一次只能對一個字典進行關鍵字匹配),本案同時多字典匹配的作法可大幅地提升關鍵字匹配的效率。
下文以兩個字典(列表)整合到一個字典樹為例,字典樹中對應於第一列表的多個關鍵詞為多個第一節點,以及字典樹中對應於第二列表的多個關鍵詞為多個第二節點。
於一些實施例中,處理器110記錄待標注文本的字詞當中與第一節點值匹配的字詞數目(即第一匹配數),以及記錄待標注文本的字詞當中與第二節點值匹配的字詞數目(即第二匹配數)。接著,處理器110將第一匹配數設定為第一列表的信心值,以及將第二匹配數設定為第二列表的信心值。
於步驟S240中,處理器110根據信心值來標注此標注文本為此些類別的至少其中一者。
於一些實施例中,處理器110於第一列表的信心值與第二列表的信心值當中取最大者。舉例而言,若第一列表的信心值為最大值,則將此待標注文本標注為第一列表對應的類別(例如人工智慧)。舉另一例而言,若第二列表的信心值為最大值,則將此待標注文本標注為第二列表對應的類別(例如區塊鏈)。於另一實施例中,亦可以一個以上的類別對待標注文本進行標注。
參照第3圖,其係繪示根據本案的另一些實施例的資訊處理方法的流程圖。本案的資訊處理方法還可以對現有的列表作更進一步的更新,讓各分類的關鍵字更精確。
於步驟S310中,處理器110使用新文本中的多個字詞的基礎特徵資訊來獲得多個第一關鍵詞、第二關鍵詞及第三關鍵詞中的至少一者。獲得關鍵詞的步驟參考前述步驟S210至S220的內容,於此不予重述。
於一些實施例中,處理器110可以透過通訊介面120接收新文本。新文本可以為任何可用於訓練所有列表的文本,例如已經儲存於資料庫130中的文本、前述的待標注文本、尚未被利用於訓練程序的文本等。
於一些實施例中,若於新文本中計算出可被分類為現有的類別中的關鍵詞時,則執行步驟S320。
於步驟S320中,處理器110根據此些第一關鍵詞更新對應於第一類別的第一列表及/或根據此些第二關鍵詞更新對應於第二類別的第二列表。
於另一實施例中,若於待標注文本中計算出無法被分類為現有的類別中的關鍵詞(例如第三關鍵詞)時,則執行步驟S330。
於步驟S330中,處理器110根據此些第三關鍵詞建立對應於第三類別的第三列表。
舉例而言,於文本中偵測到關鍵詞為「平板電腦」、「顯示器」、「光學薄膜」、「玻璃螢幕」等,此些關鍵詞既不屬於人工智慧(第一類別),也不屬於區塊鏈(第二類別)。因此,處理器110建立對應於電子訊息(第三類別)的第三列表。
復參照第1圖,資訊處理系統100還包含使用者介面140。使用者介面140耦接於處理器110。使用者介面140可以為圖形使用者介面、鍵盤、螢幕、滑鼠等,以提供使用者進行相關的操作。舉例而言,圖形使用者介面提供以建立好的多個列表及其關鍵字。
參照表一,表一為多個列表及其關鍵字的示意圖。
表一:多個列表(下稱字典檔案)
類別 | 關鍵字 |
人工智慧 | 人工智慧伺服器、智能機器人、虛擬助手、自然語言 |
區塊鏈 | 金融交易、比特幣、智能合約、其他數字貨幣 |
電子訊息 | 平板電腦、顯示器、光學薄膜、螢幕玻璃 |
半導體 | 前端半導體材料、主要晶片產品、儲存器晶片製造 |
大數據 | 資料採集、資料庫、虛擬機器 |
於一些實施例中,本案的多個列表可以對不同的標注需求提供對應的服務。舉例而言,若待標注文本為YAHOO新聞的多個文本,文本標注系統100可以使用例如表一的字典檔案來對所有的YAHOO新聞進行文本標注,此些內容請參照前述說明。例如,第一篇新聞被標注為與「區塊鏈」及「大數據」有關的文章,而第二篇文章被標注為與「半導體」有關的文章。
於另一些實施例中,若待標注文本為東森新聞的多個文本,則使用者介面140可經組配以接收操作指令,以供處理器110執行類別的修改。舉例而言,人工智慧(第一類別)可被修改為智能家電(第四類別),使得智能家電包含人工智慧的所有關鍵字。以此類推,區塊鏈(第二類別)可被修改為電子商務(第五類別),使得電子商務包含區塊鏈的所有關鍵字。
另一些實施例中,使用者介面140提供使用者(例如各領域專家)來評估字典檔案的各列表及其關鍵字是否正確,以及評估分類後的文本是否也被正確地標注。若發現有不適合的部分,各領域專家也可透過使用者介面140來修正有錯誤的部分,以避免重複標注或標準不一致的情況。
如此一來,本案的資訊處理系統100於完成一個階段的訓練,而建立字典檔案之後,可相容於不同標注需求的文本提供者。因此,在提供標注服務給不同的文本提供者時,不需要針對每個文本提供者重新進行字典檔案的訓練(或許只需進行微調),即可讓現有的字典檔案應用於不同的文本提供者。換言之,透過抽換字典的分類與輸入的文本,可快速地在不同的領域及資料來源進行轉換,提升工作效率。
在一些實施例中,基於表一的字典檔案中的五個分類標籤來對多間(例如195間)公司網站的文本進行標注。預先設計部分(例如15間)公司網站的文本已被分類於部分標籤,因此對剩餘的部分(例如80間)公司網站進行前述的文本標注步驟。舉例來說,對此15間已標注好的網站文本進行訓練步驟(例如前述步驟S210至步驟S225),得到字典檔案(例如表一)。接著,利用標注步驟(例如前述步驟S230至步驟S240),對80間公司的網站文本進行關鍵字標注,可得到第一精確度的標注結果。
另一方面,可使用80間公司的網站文本進行優化步驟(例如步驟S310至步驟S330),再次訓練字典檔案的分類及其關鍵字,以得到優化後的字典檔案。接著,對剩餘的部分(例如100間)公司網站,再次進行前述的文本標注步驟(例如前述步驟S230至步驟S240),此時,可得到第二精確度的標注結果,其中第二精確度高於第一精確度。以此類推,本案可不斷地優化,使得每一次的文本標注都可以優化字典檔案,提升下一次文本標注的精確度。
綜上所述,本案揭露的資訊處理系統及資訊處理方法提供高度彈性的文本標注方法,使用基礎特徵資訊來發現新字詞,並將詞頻逆向檔案頻率結合於字詞抽取演算法來提升設定關鍵詞的效率。相對於一般文本標注需要人力來完成,本案可不斷地訓練及精進字典的分類。此外,本案的自動化標注的方式可以同時達成線上資料標注及資料保護,避免因人工標注而導致資料洩漏的問題。
上文概述若干實施例之特徵,使得熟習此項技術者可更好地理解本案之態樣。熟習此項技術者應瞭解,可輕易使用本案作為設計或修改其他製程及結構的基礎,以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。熟習此項技術者亦應認識到,此類等效結構並未脫離本案之精神及範疇,且可在不脫離本案之精神及範疇的情況下產生本文的各種變化、替代及更改。
100 資訊處理系統
110 處理器
120 通訊介面
130 資料庫
140 使用者介面
S210~S240、S310~S330 步驟
以下詳細描述結合隨附圖式閱讀時,將有利於較佳地理解本揭示文件之態樣。應注意,根據說明上實務的需求,圖式中各特徵並不一定按比例繪製。實際上,出於論述清晰之目的,可能任意增加或減小各特徵之尺寸。
第1圖係繪示根據本案的一些實施例的資訊處理系統的功能方塊圖。
第2圖係繪示根據本案的一些實施例的資訊處理方法的流程圖。
第3圖係繪示根據本案的另一些實施例的資訊處理方法的流程圖。
100 資訊處理系統
110 處理器
120 通訊介面
130 資料庫
140 使用者介面
Claims (21)
- 一種資訊處理系統,包含:至少一處理器;一通訊介面,耦接於該至少一處理器;以及一資料庫,連接於該一或多個處理器,以及該資料庫經組配以儲存被接收自該通訊介面至少一文本,其中該至少一處理器經組配以:使用該至少一文本的多個字詞的一基礎特徵資訊來獲得多個訓練字詞;分類該些訓練字詞以建立對應於一第一類別的一第一列表以及對應於一第二類別的一第二列表;使用在該第一列表與該第二列表中的多個關鍵詞於一待標注文本中進行匹配,並分別計算出該待標注文本關於該第一列表及該第二列表的一信心值;根據該信心值以將該待標注文本標注為該第一類別或該第二類別;以及設定該第一列表的該些關鍵詞為一字典樹(Trie-Tree)的多個第一節點值以及設定該第二列表的該些關鍵詞為該字典樹的多個第二節點值,其中該字典樹的一根節點、該些第一節點值及該些第二節點值包括一相同前綴,使得該些第一節點值及該些第二節點值對應到一唯一字串。
- 如請求項1所述之資訊處理系統,其中 該至少一處理器還經組配以:使用該基礎特徵資訊及該基礎特徵資訊的一機率值,以計算該些訓練字詞的一參考值。
- 如請求項2所述之資訊處理系統,其中該至少一處理器還經組配以:響應於該參考值符合一第一閥值,設定該些訓練字詞為該第一列表的該些關鍵詞;以及響應於該參考值符合一第二閥值,設定該些訓練字詞為該第二列表的該些關鍵詞。
- 如請求項2所述之資訊處理系統,其中該至少一處理器還經組配以:使用該些訓練字詞的一出現頻率及一普遍程度資訊以計算各該訓練字詞的該參考值;以及將該參考值中符合一第一閥值之該些訓練字詞設定為該第一列表的該些關鍵詞,以及將該參考值中符合一第二閥值之該些訓練字詞設定為該第二列表的該些關鍵詞。
- 如請求項1所述之資訊處理系統,其中該至少一處理器還經組配以:使用該些第一節點值及該些第二節點值以比對該待標注文本的多個字詞。
- 如請求項5所述之資訊處理系統,其中該至少一處理器還經組配以:記錄一第一匹配數,以設定該第一匹配數為該第一列表的該信心值,其中該第一匹配數為對應於該第一列表的該些第一節點值與該待標注文本的該些字詞匹配的數目;以及記錄一第二匹配數,以設定該第二匹配數為該第二列表的該信心值,其中該第二匹配數為對應於該第二列表的該些第二節點值與該些字詞匹配的數目。
- 如請求項6所述之資訊處理系統,其中該至少一處理器還經組配以:以該第一列表及該第二列表的該信心值之最大者,標注該待標注文本為該第一類別或該第二類別。
- 如請求項1所述之資訊處理系統,其中該至少一處理器還經組配以:透過該通訊介面接收一新文本;使用該新文本中的多個字詞的該基礎特徵資訊,來獲得該新文本中的多個第一關鍵詞及/或多個第二關鍵詞;以及根據該些第一關鍵詞更新對應該第一類別的該第一列表及/或根據該些第二關鍵詞更新對應該第二類別 的該第二列表。
- 如請求項1所述之資訊處理系統,其中該至少一處理器還經組配以:透過該通訊介面接收一新文本;使用該新文本中的多個字詞的該基礎特徵資訊,來獲得該新本中的多個第三關鍵詞;以及根據該新文本中的該些第三關鍵詞建立對應於一第三類別的一第三列表。
- 如請求項8所述之資訊處理系統,還包含:一使用者介面,耦接該至少一處理器,其中該使用者介面經配置以接收一操作指令,以供該至少一處理器執行該操作指令以:修改該第一類別為一第四類別,使得該第四類別包含該些第一關鍵詞;及/或修改該第二類別為一第五類別,使得對應該第五類別的該第二列表包含該些第二關鍵詞。
- 一種資訊處理方法,包含:使用至少一文本的多個字詞的一基礎特徵資訊來獲得多個訓練字詞;分類該些訓練字詞以建立對應於一第一類別的一 第一列表以及對應於一第二類別的一第二列表;使用在該第一列表與該第二列表中的多個關鍵詞於一待標注文本中進行匹配,並分別計算出該待標注文本關於該第一列表及該第二列表的一信心值;根據該信心值以將該待標注文本標注為該第一類別或該第二類別;以及設定該第一列表的該些關鍵詞為一字典樹(Trie-Tree)的多個第一節點值以及設定該第二列表的該些關鍵詞為該字典樹的多個第二節點值,其中該字典樹的一根節點、該些第一節點值及該些第二節點值包括一相同前綴,使得該些第一節點值及該些第二節點值對應到一唯一字串。
- 如請求項11所述之資訊處理方法,還包含:使用該基礎特徵資訊及該基礎特徵資訊的一機率值,以計算該些訓練字詞的一參考值。
- 如請求項12所述之資訊處理方法,還包含:響應於該參考值符合一第一閥值,設定該些訓練字詞為該第一列表的該些關鍵詞;以及響應於該參考值符合一第二閥值,設定該些訓練字詞為該第二列表的該些關鍵詞。
- 如請求項12所述之資訊處理方法,還包含:使用該些訓練字詞的一出現頻率及一普遍程度資訊以計算各該訓練字詞的該參考值;以及將該參考值中符合一第一閥值之該些訓練字詞設定為該第一列表的該些關鍵詞,以及將該參考值中符合一第二閥值之該些訓練字詞設定為該第二列表的該些關鍵詞。
- 如請求項11所述之資訊處理方法,還包含:使用該些第一節點值及該些第二節點值以比對該待標注文本的多個字詞。
- 如請求項15所述之資訊處理方法,還包含:記錄一第一匹配數,以設定該第一匹配數為該第一列表的該信心值,其中該第一匹配數為對應於該第一列表的該些第一節點值與該待標注文本的該些字詞匹配的數目;以及記錄一第二匹配數,以設定該第二匹配數為該第二列表的該信心值,其中該第二匹配數為對應於該第二列表的該些第二節點值與該些字詞匹配的數目。
- 如請求項16所述之資訊處理方法,還包含:以該第一列表及該第二列表的該信心值之最大者,標注該待標注文本為該第一類別或該第二類別。
- 如請求項11所述之資訊處理方法,還包含:使用一新文本中的多個字詞的該基礎特徵資訊,來獲得該新文本中的多個第一關鍵詞及/或多個第二關鍵詞;以及根據該些第一關鍵詞更新對應該第一類別的該第一列表及/或根據該些第二關鍵詞更新對應該第二類別的該第二列表。
- 如請求項11所述之資訊處理方法,還包含:使用一新文本中的多個字詞的該基礎特徵資訊,來獲得該新本中的多個第三關鍵詞;以及根據該新文本中的該些第三關鍵詞建立對應於一第三類別的一第三列表。
- 如請求項18所述之資訊處理方法,還包含: 修改該第一類別為一第四類別,使得該第四類別包含該些第一關鍵詞;及/或修改該第二類別為一第五類別,使得對應該第五類別的該第二列表包含該些第二關鍵詞。
- 一種非暫態電腦可讀取記錄媒體,儲存多個程式碼,當該些程式碼被載入至少一處理器後,該至少一處理器執行該些程式碼以執行下列步驟:使用至少一文本的多個字詞的一基礎特徵資訊來獲得多個訓練字詞;分類該些訓練字詞以建立對應於一第一類別的一第一列表以及對應於一第二類別的一第二列表;使用在該第一列表與該第二列表中的多個關鍵詞於一待標注文本中進行匹配,並分別計算出該待標注文本關於該第一列表及該第二列表的一信心值;根據該信心值以將該待標注文本標注為該第一類別或該第二類別;以及設定該第一列表的該些關鍵詞為一字典樹(Trie-Tree)的多個第一節點值以及設定該第二列表的該些關鍵詞為該字典樹的多個第二節點值,其中該字典樹的一根節點、該些第一節點值及該些第二節點值包括一相同前綴,使得該些第一節點值及該些第二節點值對應到一唯一字串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108136323A TWI725568B (zh) | 2019-10-08 | 2019-10-08 | 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108136323A TWI725568B (zh) | 2019-10-08 | 2019-10-08 | 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202115599A TW202115599A (zh) | 2021-04-16 |
TWI725568B true TWI725568B (zh) | 2021-04-21 |
Family
ID=76604370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108136323A TWI725568B (zh) | 2019-10-08 | 2019-10-08 | 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI725568B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7130837B2 (en) * | 2002-03-22 | 2006-10-31 | Xerox Corporation | Systems and methods for determining the topic structure of a portion of text |
US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
TWM555499U (zh) * | 2017-09-04 | 2018-02-11 | Urad Co Ltd | 產品分類系統 |
-
2019
- 2019-10-08 TW TW108136323A patent/TWI725568B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7376635B1 (en) * | 2000-07-21 | 2008-05-20 | Ford Global Technologies, Llc | Theme-based system and method for classifying documents |
US7130837B2 (en) * | 2002-03-22 | 2006-10-31 | Xerox Corporation | Systems and methods for determining the topic structure of a portion of text |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN105468713A (zh) * | 2015-11-19 | 2016-04-06 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
TWM555499U (zh) * | 2017-09-04 | 2018-02-11 | Urad Co Ltd | 產品分類系統 |
Also Published As
Publication number | Publication date |
---|---|
TW202115599A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472033B (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
US20220382752A1 (en) | Mapping Natural Language To Queries Using A Query Grammar | |
Qi et al. | Compatibility-aware web API recommendation for mashup creation via textual description mining | |
US8380719B2 (en) | Semantic content searching | |
US20220019905A1 (en) | Enterprise knowledge graph building with mined topics and relationships | |
US20200365239A1 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
WO2019041521A1 (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
CN105378731A (zh) | 从被回答问题关联语料库/语料值 | |
US9311372B2 (en) | Product record normalization system with efficient and scalable methods for discovering, validating, and using schema mappings | |
EP3738083A1 (en) | Knowledge base construction | |
TW201337814A (zh) | 商品資訊發佈方法和裝置 | |
CN110909536A (zh) | 用于自动生成产品的文章的系统和方法 | |
CN113678118A (zh) | 数据提取系统 | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
JP2014197300A (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
US20200065395A1 (en) | Efficient leaf invalidation for query execution | |
JP2020098592A (ja) | ウェブページ内容を抽出する方法、装置及び記憶媒体 | |
CN115982390B (zh) | 一种产业链构建和迭代扩充开发方法 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
US20240248901A1 (en) | Method and system of using domain specific knowledge in retrieving multimodal assets | |
TWI725568B (zh) | 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體 | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
CN107491524B (zh) | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 |