TWI512507B

TWI512507B - A method and apparatus for providing multi-granularity word segmentation results

Info

Publication number: TWI512507B
Application number: TW100108081A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2010-11-22
Filing date: 2011-03-10
Publication date: 2015-12-11
Also published as: HK1167028A1; US20150100307A1; US20160132492A1; US9223779B2; WO2012095696A2; US8892420B2; WO2012095696A3; US20120130705A1; CN102479191B; JP5788015B2; EP2643770A4; EP2643770A2; TW201222291A; JP2014500547A; CN102479191A

Description

提供多粒度分詞結果的方法及其裝置

本申請案關於文字資訊處理技術領域，尤其關於一種建立分詞詞典的方法、一種提供多粒度分詞結果的方法、一種建立分詞詞典的裝置以及一種提供多粒度分詞結果的裝置。

從是否具有詞邊界標記的角度，可以將世界範圍的語言文字分為兩種，其中一種為有詞邊界標記的語言，如英文、德文等，一般單詞之間採用空格作為詞邊界標記來劃界；另一種是無詞邊界標記語言，如中文、日文或韓文，在一個句子中單詞彼此之間沒有定界符。在搜尋引擎、機器翻譯、語音合成等應用中都關於語言本文的處理問題，電腦如何對給定的無詞邊界標記語言的本文進行分詞，將一個句子分成由切分單元組成的切分單元序列成為一個關鍵步驟。

分詞詞典中包含充分多的預先儲存的詞條(entry)，在進行分詞時按照一定的策略(例如由左到右的方向的正向最大匹配法、由右到左的方向的逆向最大匹配法、最小切分法等)將給定本文與分詞詞典中的詞條進行匹配。比如在最大匹配方法中，若在詞典中找到能夠匹配該輸入本文的最長的詞條，則識別出一個詞，將識別出的詞作為一個切分單元。依次類推，從而將給定本文分詞為由切分單元組成的切分單元序列(當然，切分單元不僅包含匹配成功的詞，也可能包含單字或者動態識別出來的詞)。

對於相同的給定本文，從分詞結果來看，如果作為分詞結果的切分單元序列中切分單元的長度越長，即切分單元序列中包含的切分單元的數目越少，分詞粒度越大；反之，如果作為分詞結果的切分單元序列中包含的切分單元的數目越多，分詞粒度越小。例如，給定的本文為“中華人民共和國成立了”，粒度較小的分詞結果為“中華-人民-共和國-成立-了”，粒度較大的分詞結果為“中華人民共和國-成立-了”。

不同應用對分詞結果粒度層次的要求不同。比如，在機器翻譯中，顆粒度應該大一些，“企業管理”就不要分成兩個詞。而在搜尋引擎的索引系統中，“企業管理”一般是被分成兩個詞。

僅僅對於同一類應用而言，對分詞結果粒度層次的要求也是不同的，下面以搜尋引擎這個應用為例進行說明。在搜尋引擎這個應用中，不同領域的搜尋引擎需要的切分粒度也是不一樣的。舉例來說，在電子商務領域，銷售者和購買者都要求有較高的搜尋召回率，搜尋系統為了做到這一點，索引粒度較小才好，相應的需要粒度較小的分詞結果；而在搜尋網頁時，由於存在海量的網際網路網頁，這時候搜尋的精準度對用戶尤其重要，搜尋系統為了做到這一點，搜尋系統需要粒度較大的分詞結果。其中，搜尋召回率和搜尋準確性是評價搜尋品質的重要指標。搜尋召回率是指搜尋到的相關文檔與所有相關文檔的比例，衡量的是查全率；搜尋準確性是指搜尋到的相關文檔與搜尋到的所有文檔的比例，衡量的是查準率。分詞粒度與搜尋召回率和搜尋準確性的關係為：一般來說，分詞粒度越小，搜尋召回率越高；分詞粒度越大，搜尋準確性越高。

即使對同一類應用在同一領域的不同使用階段而言，對分詞結果粒度層次的要求也不相同。仍以搜尋引擎這個應用為例，為了兼顧用戶對搜尋召回率和搜尋準確率的要求，在索引階段和排序階段對分詞結果粒度層次的要求也是有差異的。在索引階段，需要粒度較小的分詞結果，以便找到足夠多的網頁；在排序階段，出於搜尋準確性的需要，避免向用戶提供不相關的網頁，需要粒度較大的分詞結果。

為解決上述問題，現有技術主要採用兩種方案來提供多粒度層次的分詞結果：方案1：請參照圖1a所示，先進行最小粒度分詞，然後自下而上動態合併，其基本過程如下：採用粒度較小的分詞詞典A對給定本文進行分詞，在分詞過程中會產生不同的切分單元序列，例如給定本文S1S2S3S4S5S6S7可以被分為S1S2-S3S4-S5-S6S7、S1S2S3-S4S5-S6S7，然後根據預定選擇演算法從中選擇出一條作為最優切分單元序列，這裏假設為S1S2-S3S4-S5-S6S7，預定選擇演算法可以為基於統計模型的演算法等，在這裏不再詳述。

為了提供較大粒度的分詞結果，在序列S1S2-S3S4-S5-S6S7的基礎上進行合併，具體合併過程為判斷序列S1S2-S3S4-S5-S6S7中兩個切分單元的組合是否與包含較長詞條的分詞詞典B中包含的詞條匹配，若是對這兩個切分單元進行合併，從而獲得合併後的粒度較大的切分單元序列，這裏假設S1S2和S3S4可以合併、S5和S6S7可以合併，那麼合併後的粒度較大的切分單元序列為S1S2S3S4-S5S6S7。

採用這種方法，在分詞時會丟失部分語義項，例如語義單元S1S2S3和S4S5被丟失了。這裏以一個實際的例子進行說明，給定本文為“本不鏽鋼管用一級鋼鑄造”，其中“不鏽鋼管”實際上包含著“不鏽鋼”、“鋼管”兩個語義項。如果將“不鏽鋼管”在最小粒度切分為“不鏽鋼-管”，然後又合併為“不鏽鋼管”，那麼“鋼管”這個語義項就丟失了，導致搜尋“鋼管”時檢索不出來該本文；如果將“不鏽鋼管”在最小粒度切分為“不-鏽-鋼管”，然後又合併為“不鏽鋼管”，那麼“不鏽鋼”這個語義項就丟失了，導致搜尋“不鏽鋼”時檢索不出來該本文。另外也難以保證合併的準確性，假定給定本文最小粒度分詞獲得的切分單元序列為“本-不鏽鋼-管-用-一級-鋼-鑄造”，在合併時將遇到合併歧義，同時存在合併為“不鏽鋼管”或“管用”的可能性。如果在最小粒度分詞時獲得的切分單元序列為“本-不鏽鋼-管用-一級-鋼-鑄造”，則無法合併得到“不鏽鋼管”這個語義項。

方案2：請參照圖1b所示，先進行最大粒度分詞，然後自上而下切分，其基本過程如下：利用粒度較大的分詞詞典C，採用模型和演算法對給定本文S1S2S3S4S5S6S7進行動態分詞(選擇出最優切分單元序列)，獲得切分單元序列S1S2S3S4-S5S6S7；為了提供較小粒度的分詞結果，對S1S2S3S4-S5S6S7中的每個語義單元進行進一步切分，具體切分過程為判斷序列中S1S2S3S4-S5S6S7的每個切分單元是否包含分詞詞典C中的兩個或兩個以上其他粒度更小的詞條，若是將該切分單元進一步切分為兩個或兩個以上其他詞條，這裏假設S1S2S3S4可以被切分為S1S2和S3S4、S5S6S7可以被切分為S5和S6S7，則切分後獲得的較小粒度的分詞結果為S1S2-S3S4-S5-S6S7。

採用這種方法時，為了解決在最大粒度分詞時出現的歧義問題，需要在詞典中收錄更多的大粒度詞條。例如，給定本文為“企業管理科學技術”，如果詞典中收錄有“企業管理”、“管理科學”這些較大粒度的詞條，那麼“企業管理科學”可能被切分為“企業管理-科學”或“企業-管理科學”。解決這一歧義的方案為在詞典中再收錄“企業管理科學”這一更長的詞條，然而“企業管理科學”又會與“科學技術”發生切分歧義，可見這類由大粒度的詞條組成的集合是非閉合的，詞典規模的擴大會給詞典維護帶來困難。

可見，分詞詞典中的詞條粒度越大，分詞時會產生數目更多的不同的切分單元序列，即有更多的分詞路徑，從而存在較多的歧義問題，最大粒度切分的準確率難以得到保證。

當有了最大粒度的切分結果後，這些切分單元的小粒度詞可以通過查詞典的方式來得到。但是，隨著詞典規模的擴大，人工維護這些詞條以及這些詞條的小粒度詞並確保詞條的品質，代價是非常大的。

本申請案實施例提出一種用於提供多粒度分詞結果的方法，用以在提供多粒度分詞結果時，避免丟失語義項、或分詞準確性較低的問題。

對應地，本申請案實施例還提供了一種建立分詞詞典的方法、一種建立分詞詞典的裝置和一種提供多粒度分詞結果的裝置。

本申請案實施例提供的技術方案如下：一種建立分詞詞典的方法，包括：根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的獨立使用頻率值、和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為設定枚舉詞條集合中與訓練樣本詞條相同的詞條的標識，否則語義屬性的屬性值為不同於設定枚舉詞條集合中每個詞條的標識的標識；交疊屬性值包括訓練樣本詞條在訓練本文中與其他詞條發生交疊的概率值、和交疊部分是否為小粒度詞的標識；詞條的分類結果為該詞條是最小語義單元的標識或複合語義單元的標識；獲取待分類詞條，並確定該待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；根據獲得的該分類器，以及確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，對待分類詞條進行分類，確定該待分類詞條是否為最小語義單元；若確定出該待分類詞條為最小語義單元，則將該待分類詞條加入最小語義單元詞典。

一種提供多粒度分詞結果的方法，包括：建立最小語義單元詞典；並根據該最小語義單元詞典對給定本文進行分詞處理，獲取中間粒度分詞結果；以及根據比最小語義單元詞典粒度大的詞典對該中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；依次針對中間粒度分詞結果中的每個切分單元，在最小語義單元詞典中查找該切分單元包含的檢索單元，以及根據中間粒度分詞結果、以及查找到的檢索單元，確定粒度小於中間粒度分詞結果的第二粒度分詞結果。

一種建立分詞詞典的裝置，包括：分類器獲取模組，用於根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的使用頻率值、和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為設定枚舉詞條集合中與訓練樣本詞條相同的詞條的標識，否則語義屬性的屬性值為不同於設定枚舉詞條集合中每個詞條的標識的標識；交疊屬性值包括訓練樣本詞條與其他詞條發生交疊的概率值、和交疊部分是否為小粒度詞的標識；分類結果為預先標定的該訓練樣本詞條為最小語義單元的標識或複合語義單元的標識；待分類詞條獲取模組，用於獲取待分類詞條；屬性值確定模組，用於確定待分類詞條獲取模組獲取的該待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；分類結果確定模組，用於根據分類器獲取模組獲得的該分類器，以及屬性值確定模組確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，對待分類詞條進行分類，確定該待分類詞條是否為最小語義單元；第一詞條添加模組，用於在分類結果確定模組確定出該待分類詞條為最小語義單元時，將該待分類詞條加入最小語義單元詞典。

一種提供多粒度分詞結果的裝置，包括：分詞詞典建立模組，用於建立最小語義單元詞典；分詞處理模組，用於根據該分詞詞典建立模組建立的最小語義單元詞典對給定本文進行分詞處理，獲取中間粒度分詞結果；合併模組，用於根據比最小語義單元詞典粒度大的詞典對分詞處理模組獲得的中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；查找模組，用於依次針對分詞處理模組獲得的中間粒度分詞結果中的每個切分單元，在最小語義單元詞典中查找該切分單元對應的檢索單元；確定模組，用於分詞處理模組獲得的中間粒度分詞結果、以及查找模組查找到的檢索單元，確定粒度小於中間粒度分詞結果的第二粒度分詞結果。

本申請案實施例通過基於訓練樣本詞條的詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果獲取的分類器、以及待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，來確定待分類詞條是否為最小語義單元，以及在待分類詞條為最小語義單元時，將該待分類詞條加入最小語義單元詞典，並儲存最小語義單元中每個詞條的切分方式和對應的檢索單元，從而建立最小語義單元詞典。基於建立的最小語義詞典，對給定本文進行分詞處理，獲取中間粒度分詞結果；以及根據粒度大於最小語義單元詞典的分詞詞典對該中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；依次針對中間粒度分詞結果中的每個切分單元，在最小語義單元詞典中查找該切分單元對應的檢索單元，以及根據中間粒度分詞結果和查找到的檢索單元確定粒度小於中間粒度分詞結果的第二粒度分詞結果。通過上述方案能夠提供至少三種粒度層次的分詞結果，並避免了最大粒度分詞時出現的分詞不準確的問題，同時通過檢索單元來獲取小粒度分詞結果，避免了進行最小粒度分詞時丟失語義項的問題。

針對現有的提供多粒度分詞結果的技術存在因丟失語義項造成的召回率低的問題；或者，存在分詞詞典的規模過於龐大，分詞處理準確性較低的問題，本申請案實施例提出一種多粒度分詞方案，其基本思路如下：建立一個分詞詞典-─最小語義單元詞典，其中最小語義單元詞典中的詞條既具有合理的長度、同時又具有語義完整性，且不含有組合修飾特徵；該最小語義單元詞典中，儲存了詞條對應的檢索單元。在對給定詞條進行分詞時，基於建立的最小語義單元詞典對給定詞條進行分詞，獲得中間粒度分詞結果；利用包含粒度較大詞條的分詞詞典對中間粒度分詞結果進行合併，從而獲得較大粒度分詞結果；利用最小語義單元詞典中儲存的詞條對應的檢索單元，根據中間粒度分詞結果獲得較小粒度分詞結果。

下面將依據本申請案上述發明原理，詳細介紹一個實施例來對本申請案方法的主要實現原理進行詳細的闡述和說明。

實施例一

本實施例介紹如何建立規模合理的分詞詞典─最小語義單元詞典。建立最小語義單元詞典的過程如圖2所示：步驟201，根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條都具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的獨立使用頻率值和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定各類別的枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為包含與訓練樣本詞條相同的詞條的枚舉詞條集合的標識，否則語義屬性的屬性值為不同於任何設定枚舉詞條集合的標識的標識；交疊屬性值包括訓練樣本詞條與其他詞條發生交疊的概率值和交疊部分是否為小粒度詞的標識；分類結果為預先標定的該訓練樣本詞條為複合語義單元的標識或最小語義單元的標識；例如，訓練樣本詞條“企業管理”中包含4個字，因此該訓練樣本詞條的詞長屬性值為4。訓練樣本詞條“企業管理”中包含的小粒度詞為“企業”、“管理”，分別統計這2個小粒度詞在獨立使用詞條集合S1中出現的頻率值，從中選擇最高的頻率值作為訓練樣本詞條‘‘企業管理”的短語特徵屬性的屬性值中小粒度詞的獨立使用頻率值。這裏需要說明的是獨立使用詞條集合S1可以通過網際網路上的查詢日誌(query log)，錨定鏈結詞(anchor)等方式獲得。舉例來說，用戶在網際網路搜尋引擎中輸入搜尋關鍵字“資訊”，則“資訊”被記錄到了查詢日誌中，說明“資訊”可以被單獨地使用，另外用戶輸入的以逗號、空格等間隔符隔開的各個詞也可以看作可以獨立使用的詞。這裏假定小粒度詞“管理”在獨立使用詞條集合S1中出現的頻率值最高，為100萬次；如果該詞條沒有小粒度詞，則該頻率值為0。

短語構成規律是人們通過長時間對某種自然語言的研究獲得的常規短語的組成模式，對於漢語來說，通常短語是由“形容詞+名詞”、或“名詞+名詞”、或“動詞+名詞”等構成，短語構成規律可以用正則運算式的形式儲存。訓練樣本詞條“企業管理”是由兩個名詞性質的小粒度詞“企業”和“管理”組成的，那麼訓練樣本詞條“企業”符合短語構成規律，假定設定符合短語構成規律的標識為1，不符合短語構成規律的標識為0；因而，訓練樣本詞條“資訊系統工程”的短語特徵屬性的屬性值為(100萬，1)。

預先設定多個不同類別枚舉詞條集合，如影視節目名稱集合的標識為S21，影視節目名稱集合包含的詞條為S21={我的兄弟姐妹、活著、焦點訪談、潛伏、甲方乙方......}；書目名稱集合的標識為S22，書目名稱集合包含的詞條為S22={讀者、青年文摘、瑞麗......}；學科名稱集合的標識為S23，學科名稱集合包含的詞條為S23={資訊工程、心理學、哲學、企業管理、工商管理......}；地名集合的標識為S24，地名集合包含的詞條為S24={呼和浩特、北京、銀川、包頭......}。這裏訓練樣本詞條“企業管理”包含在學科名稱集合中，因此訓練樣本詞“企業管理”對應標識是S23。如果訓練樣本詞不包含在任何一個類別枚舉詞條集合中，那麼該訓練樣本詞條的語義屬性的屬性值為區分於任何類別枚舉詞條集合標識的標識，例如S20。

對於交疊屬性來說，通過統計該訓練樣本詞在訓練本文中與詞典中包含的其他詞條發生交疊的概率值。交疊是指在包含該訓練樣本詞條的訓練本文中，該訓練樣本詞條中的部分字與其之前或其之後的連續的其他字組成了詞典中的另一個詞條的情況。例如假定訓練樣本詞條為“企業管理”，在包含上下文“......眾所周知，企業管理科學是一門新興的學科......”的訓練本文中，“企業管理”與“管理科學”在“管理”上出現了交疊。在兩個詞存在交疊時，其交疊部分可以是有語義含義的小粒度詞，如這個例子中的“管理”，也可以是單字，例如“甲方乙方”與“方才”在包含上下文“......甲方乙方才上映......”的訓練本文中發生了交疊，“甲方乙方”的小粒度詞是“甲方/乙方”，而交疊部分是“方”，不是“甲方乙方”的小粒度詞。依據類似的原理，可以統計出在訓練本文中出現該訓練樣本詞條的情況下訓練樣本詞條與詞典中的其他詞條發生交疊的概率。可以設定交疊部分為小粒度詞對應的標識為1，交疊部分不為小粒度詞對應的標識為0。假定在本實施例中訓練樣本詞條“企業管理”與其他詞條發生交疊的概率為2%，與其他詞交疊部分“管理”為小粒度詞，那麼訓練樣本詞條“企業管理”的交疊屬性值為(2%，1)；在本實施例中訓練樣本詞條“企業管理”被標定為複合語義單元。因而訓練樣本詞條“企業管理”的屬性值和標定結果如表1所示。

根據表1所示的訓練集中各訓練樣本詞條的屬性值和標定的分類結果，可以通過機器學習方法訓練出分類器，例如GBDT(Gradient Boosted Decision Tree)、最大熵、支持向量機(SVM,Support Vector Machine)等。獲得分類器的方法很多，在這裏不再贅述。本實施例中的分類器是基於訓練集中詞條的詞長屬性值、短語特徵屬性值、語義屬性值、交疊屬性值來建立的，可以用於依據待分類詞條的詞長屬性值、短語特徵屬性值、語義屬性值、交疊屬性值來確定待分類詞條的分類結果為複合語義單元或是最小語義單元，通常來說詞長屬性值較大的詞條、短語特徵屬性中第一元素值數值較高且符合常規短語組成模式的詞條被分類器確定為複合語義單元的概率較高，反之，被分類器確定為最小語義單元的概率較高。

步驟202，從現有分詞詞典、網際網路等其他資源中獲取待分類詞條；在本實施例中，以待分類詞條“五大連池”、“菊花茶”、“不鏽鋼管”等為例來進行說明。

步驟203，確定步驟202獲取的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；確定待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值的過程與步驟201中確定訓練集中訓練樣本詞條的上述4個屬性的屬性值的方式類似，在這裏不在詳述。確定出的待分類詞條“五大連池”等的各屬性值資訊如表2所示。

步驟204，將步驟203確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值輸入步驟201獲得的分類器中，獲得待分類詞條的的分類結果；在本實施例中“五大連池”、“菊花茶”、“不鏽鋼管”的分類結果為最小語義單元，“筆記本電腦包”和“迷你轎車”的分類結果為複合語義單元，複合語義單元的粒度大於最小語義單元。

步驟205，針對該待分類詞條，判斷步驟204獲得的分類結果是否為最小語義單元，若是，則進入步驟206，否則進入步驟207；步驟206，將待分類詞條加入最小語義單元詞典，進入步驟208；將待分類詞條“五大連池”、“菊花茶”、“不鏽鋼管”加入最小語義單元詞典；步驟207，將待分類詞條加入複合語義單元詞典，處理結束；在本實施例中，將“筆記型電腦包”和“迷你轎車”加入複合語義單元詞典。基於最小語義單元詞典對待切分本文進行分詞處理獲得切分單元序列後，可以利用複合語義單元詞典對切分單元序列進行合併，從而獲得較大粒度的分詞結果。

步驟208，儲存該待分類詞條的切分方式以及對應的檢索單元。

該切分方式包括切分和不切分兩種，切分方式和對應的檢索單元可以是人為輸入的，或者根據現有的分詞詞典獲取的。

當該待分類詞條的切分方式為切分時，該待分類詞條對應的檢索單元為該待分類詞條包含的小粒度詞；當該待分類詞條的切分方式為不切分時，該待分類詞條對應的檢索單元為該待分類詞條本身。

是否切分決定於兩點：(1)是否是一個專有名詞，如是，則不能再切分。比如“五大連池”；(2)語義上是否可以再切分，如果已經形成固定用法，不包含子語義，如“黃金周”，“大哥大”，則不再切分；反之，如“潤膚乳”，“菊花茶”則切分。上述專有名詞和固定用法是預先設定的。

最小分詞單元詞典中詞條的儲存結構如表3所示。

圖2中的上述步驟也可以被理解為將現有分詞詞典中的詞條(當然也包含通過其他途徑獲得的詞)分類到最小語義單元詞典和複合語義單元詞典中。

與現有的大粒度分詞詞典相比，上述方案確定出的最小語義單元詞典詞條的長度普遍較小，包含的詞條數量也較小，從而減少了根據分詞詞典進行分詞時，存在切分歧義的幾率，因而提高了分詞處理的準確性，也降低了維護詞典的難度。

實施例二

本實施例中介紹基於實施例一建立的最小語義單元詞典、複合語義單元詞典，獲得多粒度分詞結果的過程，具體過程請參見圖3所示：步驟301，根據實施例一獲得的最小語義單元詞典對給定本文進行分詞處理，將分詞處理獲得的切分單元序列作為獲取到的中間粒度分詞結果，該中間粒度分詞結果的切分單元序列由最小語義單元組成，並行進入步驟302和步驟303；按照設定的匹配策略將給定本文與最小語義單元詞典中的詞條進行匹配，利用現有消歧模型解決出現的切分歧義問題。例如，給定的本文為“本不鏽鋼管用一級鋼鑄造”，根據最小語義單元詞典進行由左到右的方向的詞典查詢：假定最大匹配的字元數為6個字，則首先從最左側取出給定本文中的6個字“本不鏽鋼管用”，判斷是否與最小語義單元詞典中的詞條一致，若一致，則在第一條分詞序列中記錄下由這6個字組成的切分單元；若不一致則去掉最右側一個字，再次比較剩餘的5個字“本不鏽鋼管”逐次類推；然後，從給定本文中“本”之後的下一個字“不”字開始，再次取出6個字“不鏽鋼管用一”，判斷是否與最小語義單元詞典中的詞條一致，若一致，則在第一條分詞序列中記錄下由這6個字組成的切分單元；若不一致則去掉最右側一個字，再次比較剩餘的5個字‘‘不鏽鋼管用”逐次類推......。依據最小語義單元詞典，獲得該給定本文中包含的所有最小語義單元。

查詢到的所有最小語義單元可能會構成多種切分單元序列(多種分詞路徑)，即出現切分歧義。在出現切分歧義時，根據消歧模型來從中選擇出一種切分單元序列，例如條件隨機場(CRF,conditional random field)模型，隱馬爾科夫模型(HMM,Hidden Markov model)，最大熵(ME,Maximum Entropy)模型等。這些消歧模型都基於對訓練語料統計資訊的學習，依據上下文的各種特徵進行本文的切分。以此類推，獲得的切分單元序列為“本-不鏽鋼管-用-一級-鋼-鑄造”。

而如果按照現有的最小粒度分詞，自下而上動態合併的方案，最小粒度分詞獲得的切分單元序列為“本-不鏽鋼-管-用-一級-鋼-鑄造”，在合併時有可能合併為“本-不鏽鋼-管用-一級-鋼-鑄造”，丟失了語義項“鋼管”，可見出現了切分錯誤的問題，搜尋到了與“管用”相關的問題，造成後續搜尋時準確性降低的問題，同時無法搜尋到關於“鋼管”的文檔，搜尋召回率也會降低。本申請案基於最小語義單元進行分詞，降低了出現切分歧義的幾率，從而較好的解決了上述問題。

又如，給定本文為“企業管理科學技術”，按照最小語義單元詞典進行分詞獲得的切分單元序列為“企業-管理-科學-技術”，而如果按照現有的最大粒度分詞，自上而下切分的方案，最大粒度分詞時“企業管理”與“管理科學”、“管理科學”與“科學技術”、“管理”與“理科”均存在切分歧義的問題。基於最大粒度進行分詞，所需的詞條數量會非常大，由此帶來大量的不必要的分詞歧義，並進而導致切分準確性不高的問題。最小語義單元中的詞條具有組合修飾特徵的幾率較小，因而根據最小語義單元進行分詞能夠提高切分的準確性。

步驟302，根據粒度比最小語義單元粒度大的分詞詞典，例如實施例一獲得的複合語義單元詞典和現有消歧模型對步驟301獲得的該中間粒度分詞結果中的切分單元進行合併，獲得第一粒度分詞結果，第一粒度分詞結果為粒度大於該中間粒度分詞結果的較大粒度分詞結果；以中間粒度分詞結果“企業-管理-科學-技術”為例來進行說明，假定粒度較大的分詞詞典中包括“企業管理”、“科學技術”詞條，那麼當切分單元序列“企業-管理-科學-技術”中的兩個切分單元合併後與粒度較大的分詞詞典中的詞條相同時，可以將這兩個切分單元合併為一個大粒度的切分單元，合併後的較大粒度分詞結果為“企業管理-科學技術”。

步驟303，將給定本文作為根節點，將步驟301獲得的中間粒度分詞結果中的每個切分單元依次作為根節點的子節點；請參照圖4所示，按照從左到右的順序，依次將每個切分單元對應的節點附加在根節點上；步驟304，針對步驟301獲得的中間粒度分詞結果中的每個切分單元，在最小語義單元詞典(如表3所示)中查找該切分單元對應的檢索單元，進入步驟305；請參照表3，對於給定本文“本不鏽鋼管用一級鋼鑄造”而言，中間粒度分詞結果為“本-不鏽鋼管-用-一級-鋼-鑄造”，其中切分單元“不鏽鋼管”包含的檢索單元分別為“不鏽鋼”、“鋼管”。

步驟305，將該詞條對應的檢索單元依次作為該切分單元對應節點的葉節點，從而形成切詞結果樹，如圖4所示，圖4中葉節點用加粗黑框表示；步驟306，依次獲得步驟305生成的切詞結果樹中各葉節點，將依次獲得的葉節點作為第二粒度分詞結果，第二粒度分詞結果為粒度小於該中間粒度分詞結果的較小粒度分詞結果。例如，按照從左到右的順序遍曆整個切詞結果樹，獲得所有的葉節點。對於給定本文“本不鏽鋼鋼管用一級鋼鑄造”，得到較小粒度分詞結果為“本-不鏽鋼-鋼管-用-一級-鋼-鑄造”。

實施例二提供的方案中，首先利用實施例一中建立的最小語義單元詞典，對給定本文進行分詞處理得到中間粒度分詞結果，然後一方面根據粒度大於最小語義單元詞典的詞典對獲得的中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；另一方面根據最小語義單元中儲存的各詞條對應的檢索單元和中間粒度分詞結果，獲得粒度小於中間粒度分詞結果的第二粒度分詞結果，從而能夠提供給定本文對應的至少三個粒度層次的分詞結果，能夠滿足各種應用對分詞結果粒度層次的不同要求，避免現有技術提供多粒度層次分詞結果時存在的因丟失語義項而造成的召回率低的問題及切分準確性不高的問題。

對應方法實施例一，本申請案實施例提供了一種建立分詞詞典的裝置，其結果圖如圖5所示，該裝置包括分類器獲取模組501、待分類詞條獲取模組502、屬性值確定模組503、分類結果確定模組504、第一詞條添加模組505，其中：分類器獲取模組501，用於根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的獨立使用頻率值、和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為設定枚舉詞條集合中與訓練樣本詞條相同的詞條的標識，否則語義屬性的屬性值為不同於設定枚舉詞條集合中每個詞條的標識的標識；交疊屬性值包括訓練樣本詞條與其他詞條發生交疊的概率值、和交疊部分是否為小粒度詞的標識；分類結果為預先標定的該訓練樣本詞條為最小語義單元的標識或複合語義單元的標識；待分類詞條獲取模組502，用於獲取待分類詞條；屬性值確定模組503，用於確定待分類詞條獲取模組502獲取的該待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；分類結果確定模組504，用於根據分類器獲取模組501獲得的該分類器，以及屬性值確定模組503確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，對待分類詞條進行分類，確定該待分類詞條是否為最小語義單元；第一詞條添加模組505，用於在分類結果確定模組504確定出該待分類詞條為最小語義單元時，將該待分類詞條加入最小語義單元詞典。

較佳地，圖5中的裝置還包括第二詞條添加模組506，用於在第二確定模組504確定出該待分類詞條並非為最小語義單元時，將該待分類詞條加入複合語義單元詞典。

較佳地，圖5中的裝置還包括檢索單元儲存模組507，用於第一詞條添加模組505將待分類詞條加入最小語義單元詞典後，在最小語義單元詞典中儲存該待分類詞條的切分方式以及該待分類詞條對應的檢索單元，該切分方式為切分或不切分，當該待分類詞條的切分方式為切分時，該待分類詞條對應的檢索單元為該待分類詞條包含的小粒度詞；當該待分類詞條的切分方式為不切分時，該待分類詞條對應的檢索單元為該待分類詞條本身。

對應方法實施例二，本申請案實施例還提供了一種提供多種粒度分詞結果的裝置，其結構示意圖如圖6所示，該裝置包括：分詞詞典建立模組601、分詞處理模組602、合併模組603、查找模組604、確定模組605，其中：分詞詞典建立模組601，用於建立最小語義單元詞典；分詞處理模組602，用於根據該分詞詞典建立模組601建立的最小語義單元詞典對給定本文進行分詞處理，獲取中間粒度分詞結果；合併模組603，用於根據比最小語義單元詞典粒度大的詞典和消歧模型對分詞處理模組602獲得的中間粒度分詞結果進行合併，獲得較大粒度分詞結果；查找模組604，用於依次針對分詞處理模組602獲得的中間粒度分詞結果中的每個切分單元，在分詞詞典建立模組601建立的最小語義單元詞典中查找該切分單元對應的檢索單元；確定模組605，用於分詞處理模組602獲得的中間粒度分詞結果、以及查找模組604查找到的檢索單元，確定較小粒度分詞結果。

請參照圖7，圖6中的分詞處理模組602具體包括分詞子模組701、第一確定子模組702和第二確定子模組703，其中：分詞子模組701，用於根據分詞詞典建立模組601建立的最小語義單元詞典對給定本文進行分詞；第一確定子模組702，用於在分詞子模組701分詞獲得唯一切分單元序列時，將該切分單元序列作為中間粒度分詞結果；第二確定子模組703，用於在分詞子模組701分詞獲得至少兩個不同的切分單元序列時，基於消歧模型選擇出一個切分單元序列作為中間粒度分詞結果。

請參照圖8，圖6中的確定模組605具體包括切詞結果樹建立子模組801和確定子模組802，其中：切詞結果樹建立子模組801，用於將給定本文作為根節點，將中間粒度分詞結果中的每個切分單元依次作為根節點的子節點；對於中間粒度分詞結果中的每個切分單元，將該切分單元對應的檢索單元依次作為該切分單元對應節點的葉節點，形成切詞結果樹；確定子模組802，用於依次獲得切詞結果樹建立子模組801建立的切詞結果樹中各葉節點，將依次獲得的葉節點作為較小粒度分詞結果。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以通過程式來指令相關的硬體來完成，該程式可以儲存於一電腦可讀取儲存介質中，如：ROM/RAM、磁碟、光碟等。

顯然，本領域的技術人員可以對本申請案進行各種改動和變型而不脫離本申請案的精神和範圍。這樣，倘若本申請案的這些修改和變型屬於本申請案申請專利範圍及其等同技術的範圍之內，則本申請案也意圖包含這些改動和變型在內。

圖1a為第一種提供多種粒度分詞結果的現有方案的示意圖；

圖1b為第二種提供多種粒度分詞結果的現有方案的示意圖；

圖2為本申請案實施例一提供的建立最小語義單元分詞詞典的原理流程圖；

圖3為本申請案實施例二提供的基於建立的最小語義單元分詞詞典，根據給定本文獲得多粒度分詞結果的原理流程圖；

圖4為本申請案實施例二中切詞結果樹的示意圖；

圖5為本申請案實施例提供的建立分詞詞典的裝置的結構示意圖；

圖6為本申請案實施例提供的提供多種粒度分詞結果的裝置的結構示意圖；

圖7為本申請案實施例提供的提供多種粒度分詞結果的裝置中分詞處理模組的結構示意圖；

圖8為本申請案實施例提供的提供多種粒度分詞結果的裝置中確定模組的結構示意圖。

Claims

一種建立分詞詞典的方法，其特徵在於，該方法包括：根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條(entry)具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的獨立使用頻率值、和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為設定枚舉詞條集合中與訓練樣本詞條相同的詞條的標識，否則語義屬性的屬性值為不同於設定枚舉詞條集合中每個詞條的標識的標識；交疊屬性值包括訓練樣本詞條在訓練本文中與其他詞條發生交疊的概率值、和交疊部分是否為小粒度詞的標識；詞條的分類結果為該詞條是最小語義單元的標識或複合語義單元的標識；從現有分詞詞典、網際網路等其他資源中獲取待分類詞條，並確定該待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；根據獲得的該分類器，以及確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，對待分類詞條進行分類，以確定該待分類詞條是否為最小語義單元；以及若確定出該待分類詞條為最小語義單元，則將該待分類詞條加入最小語義單元詞典。
如申請專利範圍第1項所述的方法，其中，在確定出該待分類詞條並非為最小語義單元時，將該待分類詞條加入複合語義單元詞典。
如申請專利範圍第1項所述的方法，其中，將待分類詞條加入最小語義單元詞典後，還包括：儲存該待分類詞條的切分方式以及該待分類詞條對應的檢索單元，該切分方式為切分或不切分，當該待分類詞條的切分方式為切分時，該待分類詞條對應的檢索單元為該待分類詞條包含的小粒度詞；當該待分類詞條的切分方式為不切分時，該待分類詞條對應的檢索單元為該待分類詞條本身。
一種基於申請專利範圍第1項所述方法而建立的最小語義單元詞典提供多粒度分詞結果的方法，其特徵在於，該方法包括：建立最小語義單元詞典；並根據該最小語義單元詞典對給定本文進行分詞處理，獲取中間粒度分詞結果；以及根據比最小語義單元詞典粒度大的詞典對該中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；依次針對中間粒度分詞結果中的每個切分單元，在最小語義單元詞典中查找該切分單元包含的檢索單元，以及根據中間粒度分詞結果以及查找到的檢索單元，確定粒度小於中間粒度分詞結果的第二粒度分詞結果。
如申請專利範圍第4項所述的方法，其中，根據最小語義單元詞典對給定本文進行分詞，獲取中間粒度分詞結果，具體包括：根據最小語義單元詞典對給定本文進行分詞，以及在分詞獲得唯一切分單元序列時，將該切分單元序列作為中間粒度分詞結果，以及在分詞獲得至少兩個不同的切分單元序列時，基於消歧模型選擇出一個切分單元序列作為中間粒度分詞結果。
如申請專利範圍第4項所述的方法，其中，根據中間粒度分詞結果、以及查找到的檢索單元獲得粒度小於中間粒度分詞結果的第二粒度分詞結果，具體包括：將給定本文作為根節點，將中間粒度分詞結果中的每個切分單元依次作為根節點的子節點；對於中間粒度分詞結果中的每個切分單元，將該切分單元對應的檢索單元依次作為該切分單元對應節點的葉節點，形成切詞結果樹；以及依次獲得切詞結果樹中各葉節點，將依次獲得的葉節點作為較小粒度分詞結果。
如申請專利範圍第4至6項中任一項所述的方法，其中，該粒度大於最小語義單元詞典的分詞詞典為複合語義單元詞典。
一種建立分詞詞典的裝置，其特徵在於，該裝置包括：分類器獲取模組，用於根據預先標定的訓練集獲得分類器，該訓練集中的每個訓練樣本詞條具有詞長屬性、短語特徵屬性、語義屬性、交疊屬性以及分類結果，其中：該詞長屬性的屬性值為訓練樣本詞條包含的字數；該短語特徵屬性的屬性值包括訓練樣本詞條的小粒度詞的使用頻率值、和該訓練樣本詞條是否符合短語構成規律的標識；當訓練樣本詞條與設定枚舉詞條集合中包含的詞條相同時，語義屬性的屬性值為設定枚舉詞條集合中與訓練樣本詞條相同的詞條的標識，否則語義屬性的屬性值為不同於設定枚舉詞條集合中每個詞條的標識的標識；交疊屬性值包括訓練樣本詞條與其他詞條發生交疊的概率值、和交疊部分是否為小粒度詞的標識；分類結果為預先標定的該訓練樣本詞條為最小語義單元的標識或複合語義單元的標識；待分類詞條獲取模組，用於從現有分詞詞典、網際網路等其他資源中獲取待分類詞條；屬性值確定模組，用於確定待分類詞條獲取模組獲取的該待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值；分類結果確定模組，用於根據分類器獲取模組獲得的該分類器，以及屬性值確定模組確定出的待分類詞條的詞長屬性、短語特徵屬性、語義屬性以及交疊屬性的屬性值，對待分類詞條進行分類，確定該待分類詞條是否為最小語義單元；以及第一詞條添加模組，用於在分類結果確定模組確定出該待分類詞條為最小語義單元時，將該待分類詞條加入最小語義單元詞典。
如申請專利範圍第8項所述的裝置，其中，還包括：第二詞條添加模組，用於在分類結果確定模組確定出該待分類詞條為非最小語義單元時，將該待分類詞條加入複合語義單元詞典。
一種提供多粒度分詞結果的裝置，其特徵在於，該裝置包括：分詞詞典建立模組，用於建立最小語義單元詞典；分詞處理模組，用於根據該分詞詞典建立模組建立的最小語義單元詞典對給定本文進行分詞處理，獲取中間粒度分詞結果；合併模組，用於根據比最小語義單元詞典粒度大的詞典對分詞處理模組獲得的中間粒度分詞結果進行合併，獲得粒度大於中間粒度分詞結果的第一粒度分詞結果；查找模組，用於依次針對分詞處理模組獲得的中間粒度分詞結果中的每個切分單元，在最小語義單元詞典中查找該切分單元對應的檢索單元；以及確定模組，用於根據分詞處理模組獲得的中間粒度分詞結果、以及查找模組查找到的檢索單元，確定粒度小於中間粒度分詞結果的第二粒度分詞結果。