TW201826145A - 從中文語料庫提取知識的方法和系統 - Google Patents

從中文語料庫提取知識的方法和系統 Download PDF

Info

Publication number
TW201826145A
TW201826145A TW107100561A TW107100561A TW201826145A TW 201826145 A TW201826145 A TW 201826145A TW 107100561 A TW107100561 A TW 107100561A TW 107100561 A TW107100561 A TW 107100561A TW 201826145 A TW201826145 A TW 201826145A
Authority
TW
Taiwan
Prior art keywords
words
chinese
aforementioned
word
phrases
Prior art date
Application number
TW107100561A
Other languages
English (en)
Other versions
TWI656450B (zh
Inventor
應樵 李
英輝 張
Original Assignee
香港商光訊網絡科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商光訊網絡科技有限公司 filed Critical 香港商光訊網絡科技有限公司
Publication of TW201826145A publication Critical patent/TW201826145A/zh
Application granted granted Critical
Publication of TWI656450B publication Critical patent/TWI656450B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本發明公開一種從主要用中文書寫的源語料庫(101)中提取知識(103)的方法、系統及電腦可讀介質,用於生成中文本體庫。前述方法包含步驟:從源語料庫(101)獲取字串(141),其中每個源語料庫(101)代表一個概念;將前述字串(141)分割成分割的詞語或單詞(142);對前述分割的詞語或單詞(142)應用詞性(POS)標記(113);由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義之短語或複合詞;從前述已分割的短語、詞語或單詞(142)中提取中文名詞短語、詞語或單詞(148);為前述提取結果推算詞頻;並儲存前述提取結果與前述概念之詞頻加權向量(149),用於生成另一個中文本體庫。

Description

從中文語料庫提取知識的方法和系統
本發明關於詞語切分領域,尤其關於一種從主要用中文書寫的源語料庫中提取知識的方法和系統,用於藉由自動詞語切分、詞性(POS)標記、中文名詞短語搭配及頻率推算來生成中文本體庫。
在訊息技術時代,每天從網路、企業電腦網路或其他資料庫上傳及下載大量資料。資料使用者總是希望從網路、企業電腦網路或其他資料庫搜索想要之特定訊息,但有時返回的訊息並不是恰當的。本體庫係對不同概念之間特定的相似性及聯繫之表示,其中每一個概念皆有其獨特的語義訊息,以提高搜索之準確性及預測關聯性。
本體庫可以用不同語言的知識生成。無論使用哪種語言,都必須處理此種語言中的語料並提取用於本體庫生成之關鍵短語。部分語言如中文,單詞間沒有明顯的分隔詞,相比英語,在語言處理中可能更難或更複雜,而且可能使知識提取變得困難。因此,很難有一種有效的分割方法來將中文文本語料庫分割成有意義的短語。
傳統上,中文文本語料庫的文本分割係藉由條件隨機域(Conditional Random Field,CRF)或隱馬爾可夫模型(HMM)來實現。 此兩種方法皆係基於圖案識別及預測的統計建模方法。然而,這些分割方法的基本單位係單詞或詞語而不是短語,因此所有漢字字串中的中文短語皆被分割成單詞或詞語用於語義相似性的推導。因此,先前技術之演算法不必要地增加用於識別之整體計數並導致用於進一步生成中文本體庫的有意義結果的減少。例如,中文短語如「金融危機」被分割成「金融」及「危機」而不是提取整個短語,其中最相關之訊息或知識可能因前述分割而不被感知。
US20090313243 A1公開一種方法來計算一個領域的語義資料來源中短語之相關性分數並基於此等短語之相關性分數來計算語義資料來源之權重。前述相關分數係根據一個短語於該領域語料庫中之頻率及該短語之預期頻率來計算。該方法具有本發明之某些特徵,但具有在處理單詞間沒有明確之分隔符號號或空格的中文短語時的低效及無能之缺點。
CN101169780 A公開一個基於語義本體庫之檢索系統。其中的文本索引處理單元係藉由分析文本內容、提取關鍵字及文件標識訊息建立文本索引之常規處理單元。該出版物中之語義搜索聚焦於關鍵字的關係及屬性,而沒有認識到詞語切分、標記及識別相關訊息之詞頻加權之重要性。
US7680648 B2公開用於改進文本分割之方法及系統。一系列字元可以被分割成多個分割字串之組合,所公開之方法引入出現頻率來識別與選擇其中的最佳可操作分割結果。該方法對沒有明確分隔符號的搜索查詢具有較佳的分割效果,但沒有搭配或名詞短語識別的概念,對中文句子的處理效果不明顯。
因此,需要一種用於從中文語料庫提取知識之更有效、更準確的方法和系統,理想為自動電腦可實現的方法和系統,以更佳地實現中文本體庫生成。
由於中文為連續書寫,單詞之間沒有明確的分隔符號或空格,因此自動電腦系統很難進行用於中文本體庫生成之文本分割及相關訊息提取。知識的提取精度總是取決於句子的分割方式,以及提取單詞標記的選擇。在中文語料庫中,含有兩個或兩個以上字元之短語及複合詞通常用於表達特定意義,而不是每一個詞語或單詞之個體意義,此種情況導致在分割過程中之複雜性及分歧。傳統的詞語切分方法可以識別出語料庫中之大部分單詞或詞語,例如,可以識別的詞語如「知識」及「產權」而不是將其分為「知」、「識」、「產」及「權」。然而,此兩個詞的組合「知識產權」為很難識別的。本發明之目的即係為了解決此種問題,提供一種從語料庫中提取有意義訊息之方法。
本發明之實施方式包含用於改進中文詞語切分的方法和系統。其包含搭配模組,其使用中文詞典作為參考語料庫,來識別及搭配頻繁同現之單詞或詞語。參考語料庫可以藉由從結構化之網路知識提取文章標題來自動建立,其中結構化網路知識為一種儲存於網路上的結構化訊息 的資料庫。例如,有幾個中文網路百科全書如百度百科(Baidu Baike)及中文維基百科(Chinese Wikipedia)等,其等為包含幾百萬篇文章之公共基礎知識。其中包含大量常用短語及複合詞,可以提供改進詞語切分之必要資源。
以下描述的係一種用指令編碼的方法、系統及電腦可讀介質,當處理器執行該指令時,處理器會執行前述方法,用於中文本體庫生成的中文文本語料庫之自動詞語切分及POS標記。前述方法包含步驟:從前述源語料庫獲取字串,其中每個源語料庫代表一個概念;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義之短語或複合詞;由前述分隔的短語、詞語或單詞提取中文名詞短語、詞語或單詞;推算前述提取結果之詞頻;並儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
理想地,從源語料庫獲取字串之步驟包含:從源語料庫接收主題、標題及主要文本內容,其中每個源語料庫表示一個概念。標題及主題對於確定概念之名稱非常有用,而主要文本則提供概念之描述。
理想地,源語料庫係主要用中文書寫,有時亦包含數字字元、標點符號、英語及其他語言字元,單詞之間沒有明顯的分隔。源語料庫包含網路及其他系統如網際網路、WAN、LAN、私人網路或單個電腦中的電子文檔。
理想地,分隔前述字串為分割的詞語或單詞包含步驟:藉由詞語切分確認分隔結果,該分割結果可以係一個單詞或詞語。
此外,分隔前述字串分割為分隔的詞語或單詞包含步驟:應用一個或多個詞語切分模型,其中前述詞語切分模型為隱馬爾可夫模型(HMM)及條件隨機域(CRF)。
理想地,應用POS標記分割的詞語或單詞包含步驟:提取與前述分割的單詞或詞語相關的POS訊息;及將POS標記分配給前述分割的單詞或詞語。
理想地,提取與前述分割的單詞或詞語相關之POS訊息係從用於中文的成熟POS標記模型中提取POS訊息,其中前述用於中文的成熟POS標記模型係從語言資料庫獲得的「中文樹庫(Chinese TreeBank,CTB)」。
此外,將POS標記分配給前述分隔的單詞或詞語,係藉由在向量空間中將前述POS特徵映射給前述分隔的單詞或詞語,其中前述映射可以透過構建索引或表格來完成。
理想地,搭配單個中文詞語或單詞成有意義的短語或複合詞包含步驟:對同現的中文詞語或單詞進行分組;從前述中文詞語或單詞組中發現潛在的中文短語或複合詞;從參考語料庫中尋找前述潛在的中文短語或複合詞;用POS標記儲存經確認的中文短語或複合詞;並去除相應的同現中文詞語或單詞。
理想地,同現中文名詞詞語或單詞之分組藉由確認被標注為名詞組之一系列兩個或多個中文詞語或單詞來進行。
理想地,從前述中文詞語或單詞組中發現潛在的中文短語或複合詞藉由使用n元語法(n-gram)模型以發現潛在的短語來進行,其中前 述n元語法模型確定各個潛在的中文單詞或詞語組合之同現概率分佈。
理想地,參考語料庫係一種常用的中文詞典,其可以從結構化知識網路中提取頻繁同現的單詞來構建,其中前述結構化知識網路係一種基於中文網路的百科全書。
理想地,結構化知識網路係用公共知識從百度百科、中文維基百科或任何其他合適的線上資料庫中提取文章標題。
此外,提取中文名詞短語、詞語或單詞包含步驟:過濾掉所有數字字元、標點符號、英語及其他語言字元。
此外,藉由下列等式來推算前述提取結果之詞頻: 其中0詞頻加權1。
理想地,儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫包含步驟:用其各自之詞頻加權計算結果於網路本體庫語言中映射前述中文名詞短語、詞語或單詞;並構建用於生成另一個中文本體庫之前述概念之詞頻加權向量之索引。
理想地,網路本體庫語言係RDF。
當前述源語料庫之規模很大時,從源語料庫提取知識之一種替代方法包含步驟:從前述源語料庫獲取字串,其中每個源語料庫代表一個概念;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的詞語或單詞提取中文名詞詞語或單詞;由前述分割的名詞詞語或單詞將單獨的中文名詞詞語或單詞搭配成有意義之短語或複合詞;推算前述提取結果之詞頻;並儲存提取結果及其各自概念之詞頻 加權向量用於生成另一個中文本體庫。
與先前技術相比,本發明具有如下功效:一種用於從中文語料庫提取知識之更有效、更準確的方法和系統,理想為自動電腦可實現的方法和系統,以更佳地實現中文本體庫生成。
101‧‧‧源語料庫
102‧‧‧知識提取系統
103‧‧‧知識
111‧‧‧獲取模組
112‧‧‧詞語切分器
113‧‧‧成熟的POS標記
114‧‧‧中文短語搭配單元
115‧‧‧中文名詞選擇器
116‧‧‧詞頻加權計數器
121‧‧‧n元語法模型
122‧‧‧中文短語搭配模組
123‧‧‧參考語料庫
141‧‧‧字串
142‧‧‧分割的詞語或單詞
143‧‧‧POS標記的詞語或單詞
145‧‧‧潛在中文短語
147‧‧‧POS標記的短語、詞語或單詞
148‧‧‧中文名詞短語、詞語或單詞
149‧‧‧具有詞頻加權向量之索引
圖1為說明知識提取系統之系統及資料內容之流程圖。
圖2為說明當源語料庫之規模很大時,知識提取系統之替代實施手段之流程圖。
圖3為說明詞頻加權計數系統之流程圖。
圖4為說明知識提取系統之資料內容之流程圖,用一個實施例顯示用於將字串轉換成具有詞頻加權向量之索引之步驟。
圖5為說明中文短語搭配單元之資料內容之流程圖,用一個實施例顯示用於從詞語或單詞確定中文名詞短語或複合詞之步驟。
現在將參考示例性實施手段詳細描述本發明,其中的實施例結合附圖進行說明,全文中相同的引用數字代表相同的內容。
所有附圖及以下描述僅藉由舉例說明與理想實施手段有關。應該注意,從以下討論中,在此所公開之結構及方法之替代實施手段 將很容易在不背離本申請所聲稱的原則的情況下做出,而不應被認為僅限於在此所記載之實施手段。
於此公開之系統、方法及電腦可讀介質之實施手段提供用於中文本體庫生成之中文文本語料庫之知識提取。前述方法包含步驟:從源語料庫獲取字串,其中每個源語料庫代表一個概念;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義的短語或複合詞;由前述分隔的短語、詞語或單詞提取中文名詞短語、詞語或單詞;推算前述提取結果之詞頻;並儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
現在參見附圖,圖1為說明從源語料庫101提取知識103用於中文本體庫生成之知識提取系統102之流程圖,其包含獲取模組111、詞語切分器112、成熟的POS標記113、中文短語搭配單元114、中文名詞選擇器115及詞頻加權計數器116。在一個實施手段中,知識提取系統102可以由如圖2所示流程圖之替代方式來實現,其包含獲取模組111、詞語切分器112、成熟的POS標記113、中文名詞選擇器115、中文短語搭配單元114及詞頻加權計數器116。從圖3可以看出,該流程圖說明詞頻加權計數器116之結構,其由中文名詞短語、詞語或單詞148生成具有詞頻加權向量之索引149,作為用於中文本體庫生成之知識103。圖4亦為一個流程圖,用一個實施例說明如何用詞頻率加權向量從源語料庫提取知識。圖5亦為一個流程圖,用一個實施例說明中文短語搭配單元114如何由POS標記的詞語或單詞143確定中文短語或複合詞。
本發明之由源語料庫101提取知識之方法可以由如圖1之流程圖來實現,其包含步驟:從前述源語料庫獲取字串;分隔前述字串;應用POS標記;搭配單獨的中文詞語或單詞;由其中提取中文名詞短語、詞語或單詞;推算詞頻並儲存結果。
在生成中文本體庫時,必須從源語料庫101中提取有用訊息的文本處理方法或系統,其中每個源語料庫101代表一個概念。概念係一個抽象觀念。由於名詞包含最具代表性的知識,人們可以藉由提取及瀏覽一個描述該概念之文本語料庫中的所有相關名詞詞語來理解一個概念,從而說出與該概念相關的一些事件、人、物、地點、時間、特徵及特性。上述所有訊息皆可以稱為概念之知識。資料使用者可以藉由相應的詞頻加權向量確定此等重要名詞詞語來獲得對源語料庫101的進一步理解。
源語料庫101可以係一個電子文檔,如來自網際網路、WAN、LAN、私人網路、單台電腦或其他發射裝置或通道之HTML頁面、可攜式文件格式(PDF)檔或者其他電腦可讀介質。前述電子文檔主要以中文書寫,且有時其亦包含單詞之間無明顯分隔之數字字元、標點符號、英文及其他語言字元。知識提取系統102係本發明之核心系統,其可以執行文本內容分析以確定源語料庫中用於中文本體庫生成103之最重要的知識。
獲取模組111從源語料庫101獲取字串141,其中前述字串141可以從電腦可讀介質中之主題、標題、正文、頁尾及其他文本內容的內容中獲得。字元之實施例可能包含中文、英語或其他語言字元;CJK符號、表情符號、Unicode、ASCII或其他字元集。在一個實施方式中,源語料庫101主要係由單詞間無明顯分隔或空格的中文或其他亞洲語言書寫,獲取模組 111可以從源語料庫101獲取所有字元,作為用於進一步從中提取有意義的知識之輸入資料。
詞語切分器112藉由詞語切分將前述字串141分割成分隔的詞語或單詞142,其中前述分隔的詞語或單詞142可為一個單詞或一個中文單詞之組合(中文詞語)。詞語切分為進行詞語切分之一種常見方法,其為一種操作,用於確定組合之單詞之邊界,由此產生之詞語當被放在一起時可能會具有不同的意義。在一個實施手段中,詞語切分可以藉由應用一個或多個詞語切分模型來進行,其中前述詞語切分模型為隱馬爾可夫模型(HMM)及條件隨機域(CRF)。於圖4中,該實施例演示詞語切分器112之操作。來自源語料庫101的標題及字串161藉由斜槓(/)被分隔成詞語或單詞的實體162。
成熟的POS標記113可以對分割後的詞語或單詞142應用POS標記以確定相應的詞語或單詞之詞性。此模組由用於中文的成熟POS標記模型提取POS訊息。在一個實施方式中,前述用於中文的成熟POS標記模型係由語言資料庫於下面的HTTP連結:https://catalog.ldc.upenn.edu/ldc2004t05獲得之「中文樹庫(CTB)」。成熟的POS標記模型之實施方式包含,但不限於,與相應的分割單詞或詞語142相關的前述POS標記被一起映射於一個向量空間中,其中前述映射可以藉由構建索引、表格、資料庫、陣列或任何其他電腦可讀索引媒體來完成。在圖4的實施例中,步驟163演示POS標記之確定以及與詞語或單詞一起之儲存。
在先前技術中,自動電腦系統難以提取中文本體庫生成之相關訊息。傳統的詞語切分方法,包含HMM、CRF及字格,僅能確認語料庫 中的大部單詞或詞語,由於詞語切分歧義,此等方法無法有效地確認有意義的中文短語或複合詞。有利的是,本發明之實施方式實施中文短語搭配單元114,其可以藉由POS標記之詞語或單詞143並搜索參考語料庫123中之常用同現詞語或單詞,從而確認出潛在的中文短語145。圖5演示中文短語搭配單元114的內部模組。由POS標記之詞語或單詞143,分組系統可以確認一系列具有相同POS標記之兩個或多個中文詞語或單詞,並儲存前述結果作為同現中文詞語或單詞組144,其中分組系統能在POS標記之詞語或單詞的字串中搜索並藉由儲存此等詞語或單詞一起作為一個組(若此等詞語或單詞彼此相鄰具有相同之POS標記)來確定各組的邊界。理想地,分組系統可以包含輸入計數器以測定各組詞語或單詞之數目。若一個組的輸入計數器的結果為1,此種之組不須任何搭配,剩下的搭配步驟可以跳過。輸入計數器可以提供n元語法模型121所需要之疊代次數計算之訊息。n元語法模型121為用於從同現中文詞語或單詞組144中確認所有潛在的中文短語或複合詞145之窮舉疊代方法,其中n元語法模型,基於每個組之輸入計數器之結果,將每個組相鄰之「n」個或小於「n」個之詞語或單詞疊代並結合在一起。如圖5演示之n元語法模型,模組164中的組1有三個詞語或單詞:知識、產權、署藉由運用n元語法模型,對於模組164中之組1,有6個潛在的中文名詞短語或複合詞,如下:知識、產權、部、知識產權、產權部、知識產權署。
中文短語搭配模組122可以在包含用於每個潛在的短語或複合詞145之普遍被接受的中文詞典之參考語料庫123中進行搜索,其中參考 語料庫123可以藉由從結構化知識網路中提取經常同現的詞語或單詞來構建。在一個實施手段中,結構化知識網路可以係具有公共知識的網路百科全書、維基百科®、百度百科®或任何其他合適的線上資料庫。百科全書中之每一篇文章皆由一個主題組成。中文短語搭配模組122可以從前述百科全書中的標題中搜索潛在的短語以確定其等同現詞語或單詞係通常相鄰使用的。理想地,電腦實施之數學方法可以用於實現由參考語料庫123測定每一個確定的短語或複合詞出現之概率,以確定最合適的搭配結果。在一個實施方式中,若該短語或複合詞亦可以在分割文本的其他地方找到,此種短語或複合詞將別選擇作為在由n元語法模型121確定之潛在中文短語或複合詞145之外的合適結果。經確認的中文短語或複合詞146可以帶著其POS標記被儲存並替換各自的同現中文詞語或單詞。
中文名詞選擇器115可從POS標記的短語、詞語或單詞147中提取中文名詞短語、詞語或單詞148。源語料庫101主要用中文編寫的,有時亦包含數字字元、標點符號、英語及其他語言字元,單詞之間沒有明顯的分隔。中文字元包含繁體漢字及簡體漢字。提取中文名詞有多種方法。一種方法為過濾掉所有不按國家標準(GB)、BIG5標準或CJK編碼的其他字元或標點符號。
在一個可替代的實施方式中,當源語料庫101之規模很大時,知識提取系統102可以按照圖2之流程實施,其包含步驟:從前述源語料庫獲取字串;分隔前述字串;應用POS標記;提取中文名詞詞語或單詞;搭配單獨的中文名詞詞語或單詞為名詞短語;推算詞頻並儲存結果。大規模之源語料庫101具有更多的詞語或單詞,其在n元語法模型121中產生明顯 更多的疊代次數,用於在參考語料庫123中進行搜索。藉由將中文名詞選擇器115置於中文短語搭配單元114之前,可以減少疊代次數,減少進行短語搭配所需的時間。於該實施手段中,中文名詞詞語或單詞藉由確定編碼標準並同時分組為同現中文詞語或單詞組144來進行過濾。此種之組可以利用n元語法模型121用於確定潛在的中文短語或複合詞145。
詞頻加權計數器116可從中文名詞短語、詞語或單詞148中推算詞頻加權向量169,並將結果儲存在用於中文本體庫生成103之索引中。所提取之中文名詞之詞頻(TF)加權計算如下: 其中0詞頻加權1。
若提取的中文名詞之詞頻加權向量接近於1,此種提取的中文名詞有很高之發生率,其與源語料庫101相關的更具代表性之知識。反之,若提取的中文名詞之詞頻加權向量接近0,則提取的中文名詞發生率很小,係一種不太有代表性之知識。由於名詞包含最具代表性之知識,因此詞頻加權向量有助於藉由確認最重要的名詞短語、詞語或單詞來為後續的中文本體庫生成量化知識。
詞頻加權計算結果與相應的中文名詞短語、單詞133在網路本體庫語言中映射。主要的本體庫可以藉由形式語言如OWL、RDF或RDFS編碼。亦可以使用其他本體庫語言。於一個實施手段中,中文名詞短語、詞語或單詞與詞頻加權被記錄在RDF三元組中。可以使用進一步之可視化介面或使用者介面來顯示包含前述RDF資料的表格。在不背離本發明之情況下,進一步可以使用資料庫儲存結果的其他實現方式。RDF格式之索引 134提供用於中文本體庫生成103之知識提取結果。
以上具體參考示例性實施方式及實施例對本發明進行描述,但可以理解,在本申請專利範圍之精神及範圍內,可以進行多種變化及改進。上述實施手段闡述本發明之可能範圍,但不限制本發明之範圍。

Claims (41)

  1. 一種由主要用中文書寫之源語料庫提取知識用於中文本體庫生成之方法,其特徵係,前述方法包含步驟:從前述源語料庫獲取字串,其中每個源語料庫代表至少一個或多個概念;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的詞語或單詞將單獨中文詞語或單詞搭配成有意義的短語或複合詞;由前述分隔的短語、詞語或單詞提取中文名詞短語、詞語或單詞;推算前述提取結果之詞頻;以及儲存前述提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
  2. 如申請專利範圍第1項所記載之方法,其中,前述從源語料庫獲取字串之步驟包含步驟:從源語料庫獲取主題、標題及主要文本內容。
  3. 如申請專利範圍第2項所記載之方法,其中,前述源語料庫係主要用中文書寫,有時亦包含數字字元、標點符號、英語及其他語言字元,單詞之間無明顯的分隔,包含但不限於網路及其他系統如網際網路、WAN、LAN、私人網路或單個電腦中之電子文檔。
  4. 如申請專利範圍第1項所記載之方法,其中,前述分隔前述字串為分割的詞語或單詞之步驟包含步驟:藉由詞語切分確認分隔結果,該分割結果可以係一個單詞或詞語形式之一系列單詞。
  5. 如申請專利範圍第4項所記載之方法,其中,前述詞語切分包含步驟:應用一個或多個詞語切分模型,且前述詞語切分模型為隱馬爾可夫模型及條件隨機域。
  6. 如申請專利範圍第1項所記載之方法,其中,前述對分割的詞語或單詞應用POS標記之步驟包含步驟:提取與前述分割的單詞或詞語相關之POS訊息;及將POS標記分配給前述分割的單詞或詞語。
  7. 如申請專利範圍第6項所記載之方法,其中,前述提取與前述分割的單詞或詞語相關之POS訊息之步驟係從用於中文的成熟POS標記模型中提取POS訊息,且前述用於中文的成熟POS標記模型係從語言資料庫獲得之「中文樹庫」或類似的其它模型。
  8. 如申請專利範圍第6項所記載之方法,其中,前述將POS標記分配給前述分隔的單詞或詞語之步驟,係藉由構建索引或表格並在向量空間中將前述POS特徵映射給前述分隔的單詞或詞語來完成。
  9. 如申請專利範圍第1項所記載之方法,其中,前述搭配單個的中文詞語或單詞成有意義之短語或複合詞包含步驟:對同現的中文詞語或單詞進行分組;從前述中文詞語或單詞組中發現潛在的中文短語或複合詞;從參考語料庫中尋找前述潛在的中文短語或複合詞; 用POS標記儲存經確認的中文名詞短語或複合詞;以及去除相應的同現中文名詞詞語或單詞。
  10. 如申請專利範圍第9項所記載之方法,其中,前述同現中文名詞詞語或單詞之分組步驟係藉由確認被標注為名詞組之一系列兩個或多個中文詞語或單詞來進行的。
  11. 如申請專利範圍第9項所記載之方法,其中,前述從前述中文名詞詞語或單詞組中發現潛在的中文名詞短語或複合詞之步驟係藉由使用n元語法模型以確認潛在的短語來進行,且前述n元語法模型確定各個潛在的中文單詞或詞語組合之同現概率分佈。
  12. 如申請專利範圍第11項所記載之方法,其中,前述藉由n元語法模型以確認潛在的短語之步驟係藉由搜索前述n元語法模型之結果來進行。
  13. 如申請專利範圍第9項所記載之方法,其中,前述參考語料庫係一種常用的中文詞典,其可以藉由從結構化知識網路中提取頻繁同現的單詞來構建,且前述結構化知識網路係一種基於中文網路之百科全書。
  14. 如申請專利範圍第13項所記載之方法,其中,前述結構化知識網路係具有公共知識之百度百科、中文維基百科或任何其他合適的線上資料庫。
  15. 如申請專利範圍第1項所記載之方法,其中,前述提取中文名詞短語、詞語或單詞之步驟包含步驟:過濾掉所有數字字元、標點符號、英語及其他語言字元。
  16. 如申請專利範圍第1項所記載之方法,其中,推算提取結果詞頻之步驟藉由下列等式來進行: 且,0 詞頻加權 1。
  17. 如申請專利範圍第1項所記載之方法,其中,前述儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫之步驟包含步驟:用其各自之詞頻加權計算結果在網路本體庫語言中映射前述中文名詞短語、詞語或單詞;以及構建用於生成另一個中文本體庫之前述概念之詞頻加權向量之索引。
  18. 如申請專利範圍第17項所記載之方法,其中,前述網路本體庫語言係RDF。
  19. 一種在源語料庫之規模很大時,由主要用中文書寫之源語料庫提取知識用於中文本體庫生成之替代方法,其特徵係,前述方法包含步驟:從前述源語料庫獲取字串,其中每個源語料庫代表至少一個或多個概念;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的短語、詞語或單詞提取中文名詞短語、詞語或單詞;由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義的短語或複合詞;推算前述提取結果之詞頻;以及儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
  20. 一種用於從源語料庫提取知識用於中文本體庫生成之系統,其特徵係包含:一個獲取模組,用於從源語料庫獲取字串;一個詞語切分器,用於分隔前述字串為分割的詞語或單詞;一個成熟的POS標記,用於對分割的詞語或單詞應用POS標記;一個n元語法模型,用於發現潛在的中文名詞短語或複合詞;一個中文短語搭配模組,用於將單獨的詞語或單詞搭配成有意義的短語或複合詞;一個中文名詞選擇器,用於提取中文名詞短語、詞語或單詞;一個詞頻加權計數器,用於推算前述提取結果的詞頻;以及一個資料庫,用於儲存前述提取結果及其各自概念在網路本體庫語言中之詞頻加權向量,用於中文本體庫生成。
  21. 如申請專利範圍第20項所記載之系統,其中,前述源語料庫包含網路及其他系統如網際網路、WAN、LAN、私人網路或單個電腦中的電子文檔。
  22. 如申請專利範圍第20項所記載之系統,其中,進一步包含可視化介面,用於顯示包含中文名詞短語、詞語或單詞以及用於前述概念之相應詞頻加權向量之表格。
  23. 如申請專利範圍第20項所記載之系統,其中,前述提取結果及詞頻加權向量藉由RDF編碼。
  24. 一種用指令編碼的電腦可讀介質,其特徵係,當由處理器執行時,使處理器執行從源語料庫中提取知識之方法,該方法包含步驟: 從前述源語料庫獲取字串;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義的短語或複合詞;由前述分隔的短語、詞語或單詞提取中文名詞短語、詞語或單詞;推算前述提取結果之詞頻;以及儲存前述提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
  25. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述從源語料庫獲取字串之步驟包含步驟:從源語料庫獲取主題、標題及主要文本內容。
  26. 如申請專利範圍第25項所記載之電腦可讀介質,其中,前述源語料庫係主要用中文書寫,有時亦包含數字字元、標點符號、英語及其他語言字元,單詞之間無明顯的分隔。前述源語料庫包含網路及其他系統如網際網路、WAN、LAN、私人網路或單個電腦中的電子文檔。
  27. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述分隔前述字串為分割的詞語或單詞之步驟包含步驟:藉由詞語切分確認分隔結果,該分割結果可以係一個單詞或詞語。
  28. 如申請專利範圍第27項所記載之電腦可讀介質,其中,進一步包含應用一個或多個詞語切分模型之步驟,且前述詞語切分模型為隱馬爾可夫模型及條件隨機域。
  29. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述對分割的詞語或單詞應用POS標記之步驟包含步驟:提取與前述分割的單詞或詞語相關之POS訊息;及將POS標記分配給前述分割的單詞或詞語。
  30. 如申請專利範圍第29項所記載之電腦可讀介質,其中,前述提取與前述分割的單詞或詞語相關的POS訊息之步驟係從用於中文的成熟POS標記模型中提取POS訊息,且前述用於中文的成熟POS標記模型係從語言資料庫獲得之「中文樹庫」。
  31. 如申請專利範圍第29項所記載之電腦可讀介質,其中,前述將POS標記分配給前述分隔的單詞或詞語之步驟,係藉由在向量空間中將前述POS特徵映射給前述分隔的單詞或詞語來完成,其中前述映射可以藉由構建索引或表格來完成。
  32. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述搭配單個的中文詞語或單詞成有意義的短語或複合詞包含步驟:對同現的中文詞語或單詞進行分組;從前述中文詞語或單詞組中發現潛在的中文短語或複合詞;從參考語料庫中尋找前述潛在的中文短語或複合詞;用POS標記儲存經確認的中文名詞短語或複合詞;以及去除相應的同現中文名詞詞語或單詞。
  33. 如申請專利範圍第32項所記載之電腦可讀介質,其中,前述同現中文名詞詞語或單詞之分組步驟係藉由確認被標注為名詞組之一系列兩個或多個中文詞語或單詞來進行。
  34. 如申請專利範圍第32項所記載之電腦可讀介質,其中,前述從前述中文名詞詞語或單詞組中發現潛在的中文名詞短語或複合詞之步驟係藉由使用n元語法模型以確認潛在的短語來進行,且前述n元語法模型確定各個潛在的中文單詞或詞語組合之同現概率分佈。
  35. 如申請專利範圍第32項所記載之電腦可讀介質,其中,前述參考語料庫係一種常用之中文詞典,其可以藉由從結構化知識網路中提取頻繁同現的單詞來構建,且前述結構化知識網路係一種基於中文網路之百科全書。
  36. 如申請專利範圍第35項所記載之電腦可讀介質,其中,前述結構化知識網路係具有公共知識之百度百科、中文維基百科或任何其他合適的線上資料庫。
  37. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述提取中文名詞短語、詞語或單詞的步驟包含步驟:過濾掉所有數字字元、標點符號、英語和其他語言字元。
  38. 如申請專利範圍第24項所記載之電腦可讀介質,其中,推算提取結果詞頻之步驟藉由下列等式來進行: 且,0 詞頻加權 1。
  39. 如申請專利範圍第24項所記載之電腦可讀介質,其中,前述儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫之步驟包含步驟:用其各自之詞頻加權計算結果於網路本體庫語言中映射前述中文 名詞短語、詞語或單詞;以及構建用於生成另一個中文本體庫之前述概念之詞頻加權向量之索引。
  40. 如申請專利範圍第39項所記載之電腦可讀介質,其中,前述網路本體庫語言係RDF。
  41. 一種用指令編碼的電腦可讀介質,其特徵係,當由處理器執行時,使處理器執行當源語料庫之規模很大時,從源語料庫中提取知識之替代方法,該方法包含步驟:從源語料庫獲取字串;分隔前述字串為分割的詞語或單詞;對前述分割的詞語或單詞應用POS標記;由前述分割的短語、詞語或單詞提取中文名詞短語、詞語或單詞;由前述分割的詞語或單詞將單獨的中文詞語或單詞搭配成有意義的短語或複合詞;推算前述提取結果之詞頻;以及儲存提取結果及其各自概念之詞頻加權向量用於生成另一個中文本體庫。
TW107100561A 2017-01-06 2018-01-05 從中文語料庫提取知識的方法和系統 TWI656450B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
HK17100180 2017-01-06
HK17100180.1 2017-01-06

Publications (2)

Publication Number Publication Date
TW201826145A true TW201826145A (zh) 2018-07-16
TWI656450B TWI656450B (zh) 2019-04-11

Family

ID=62893215

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107100561A TWI656450B (zh) 2017-01-06 2018-01-05 從中文語料庫提取知識的方法和系統

Country Status (3)

Country Link
CN (1) CN108319583B (zh)
HK (1) HK1258818A1 (zh)
TW (1) TWI656450B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738270B (zh) * 2019-03-29 2021-09-01 加拿大商知識研究有限公司 將文句短語映射至知識分類表之方法及系統

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069791B (zh) * 2019-05-22 2024-04-26 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法
CN113221553A (zh) * 2020-01-21 2021-08-06 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备以及可读存储介质
EP3885962A1 (en) 2020-03-28 2021-09-29 Tata Consultancy Services Limited Method and system for extraction of key-terms and synonyms for the key-terms
CN112163421B (zh) * 2020-10-09 2022-05-17 厦门大学 一种基于N-Gram的关键词提取方法
CN113268565B (zh) * 2021-04-27 2022-03-25 山东大学 一种基于概念文本的词向量快速生成方法和装置
CN113836902B (zh) * 2021-08-25 2024-04-26 广东外语外贸大学 一种短语语料库的构建方法、装置、设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024755A1 (en) * 2002-08-05 2004-02-05 Rickard John Terrell System and method for indexing non-textual data
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
CN101377770B (zh) * 2007-08-27 2017-03-01 微软技术许可有限责任公司 中文组块分析的方法及系统
CN102193912B (zh) * 2010-03-12 2013-11-06 富士通株式会社 短语划分模型建立方法、统计机器翻译方法以及解码器
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103257957B (zh) * 2012-02-15 2017-09-08 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN104484433B (zh) * 2014-12-19 2017-06-30 东南大学 一种基于机器学习的图书本体匹配方法
TWI563478B (en) * 2015-06-05 2016-12-21 Shu-Ming Hsieh Method of displaying architecture of English sentence
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN107480155A (zh) * 2016-06-08 2017-12-15 北京新岸线网络技术有限公司 一种视频搜索系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI738270B (zh) * 2019-03-29 2021-09-01 加拿大商知識研究有限公司 將文句短語映射至知識分類表之方法及系統

Also Published As

Publication number Publication date
TWI656450B (zh) 2019-04-11
CN108319583A (zh) 2018-07-24
CN108319583B (zh) 2021-11-26
HK1258818A1 (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
JP6466952B2 (ja) 文章生成システム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US8812504B2 (en) Keyword presentation apparatus and method
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Yalcin et al. An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Huang et al. AKMiner: Domain-specific knowledge graph mining from academic literatures
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Moncla et al. Automated geoparsing of paris street names in 19th century novels
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
Sagcan et al. Toponym recognition in social media for estimating the location of events
Yunus et al. Semantic method for query translation.
JP2021501387A (ja) 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム
Zheng et al. Multi-dimensional sentiment analysis for large-scale E-commerce reviews
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
WO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
Pertsas et al. Ontology-driven information extraction from research publications
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Al-Zyoud et al. Arabic stemming techniques: comparisons and new vision
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites