TWI764480B

TWI764480B - 新詞識別方法和裝置

Info

Publication number: TWI764480B
Application number: TW109146521A
Authority: TW
Inventors: 張家豪
Original assignee: 香港商慧科訊業有限公司
Priority date: 2020-11-02
Filing date: 2020-12-28
Publication date: 2022-05-11
Also published as: TW202219791A; CN114444491A

Abstract

本發明公開了一種新詞識別方法和裝置。新詞識別方法包括：獲得候選詞；計算所述候選詞的內部凝固度；根據計算出的內部凝固度和預設的內部凝固度閾值，判斷所述候選詞是否為新詞。本發明的技術方案通過將任意候選詞的內部凝固度與預設的內部凝固度閾值進行比較，從而快速且準確地從任意來源的文本中識別新詞。

Description

新詞識別方法和裝置

本發明涉及自然語言處理領域，尤其涉及一種新詞識別方法和裝置。

隨著互聯網和信息技術的發展，新詞的出現頻率越來越高，流行速度也越來越快。雖然新詞的出現能夠有效地豐富語言表達，但是卻給中文信息處理帶來了挑戰。事實上，在對語言文字進行處理的過程中，由於新詞的存在,詞法分析器在分詞時常常出現不能識別的"詞碎片"，這極大地影響了分詞的精度，從而降低了分析結果的準確性。

新詞識別主要提供精準分詞的目的，進而可以應用在文字云、熱詞分析、詞向量模型等方面，讓新的名詞(例如：新冠肺炎、氮化鎵、瑞德西韋等等)能夠被識別出來。現有的新詞發現的方法可以分為兩類。第一類是基於分類的方法，第二類是基於標註的方法。基於分類的方法是先從語料庫中抽取候選字符串，然後依據規則或統計信息再判斷候選字符串是不是新詞。基於標註的方法則是新詞發現與中文分詞相結合，在分詞的基礎上發現新詞。但是，現有的新詞發現方法的新詞識別準確率和召回率都不能達到令人滿意的水平。特別是在識別較長的新詞時，現有的新詞發現方法的新詞識別準確率和召回率都不能得到保證。

因此，需要提供一種能夠改善新詞、特別是較長新詞的識別準確率和召回率的方法。

有鑑於此，本發明提出了一種新詞識別方法和裝置，其能解決以上技術問題。

本發明的技術方案如下：一種新詞識別方法，包括：獲取候選詞；計算所述候選詞的內部凝固度；根據計算出的內部凝固度和預設的凝固度閾值，判斷所述候選詞是否為新詞。

根據本發明一優選實施例，所述候選詞是從文章中獲取的n-gram候選詞。

根據本發明一優選實施例，計算所述候選詞的內部凝固度包括：計算所述候選詞的點互信息；根據所述點互信息計算所述內部凝固度。

根據本發明一優選實施例，根據所述點互信息計算所述內部凝固度包括，將所述點互信息與詞長懲罰係數相乘。

根據本發明一優選實施例，所述懲罰係數為

，其中n為候選詞的長度。

根據本發明一優選實施例，所述候選詞的詞長為3以上時，將所述點互信息與詞懲罰係數相乘，得到內部凝固度包括：將所述點互信息中的最小值與所述懲罰係數相乘，得到內部凝固度。

根據本發明一優選實施例，所述新詞識別方法還包括，對所述候選詞進行詞性分析，若能夠得出候選詞的詞性，則將候選詞判斷為非新詞；若不能得出候選詞的詞性，則對候選詞進行切詞，若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。

根據本發明一優選實施例，所述新詞識別方法還包括，將所述候選詞與現有詞庫進行對比，若所述候選詞未包括在現有詞庫中，則將所述候選詞判斷為新詞。

一種新詞識別裝置，包括：獲取單元，用於獲取候選詞；計算單元，用於計算所述候選詞的內部凝固度；判斷單元，用於根據計算出的內部凝固度和預設的凝固度閾值，判斷所述候選詞是否為新詞。

根據本發明一優選實施例，所述計算單元包括：點互信息計算單元，用於計算所述候選詞的點互信息；凝固度計算單元，用於根據所述點互信息計算所述內部凝固度。

根據本發明一優選實施例，所述凝固度計算單元被配置為將所述點互信息與詞長懲罰係數相乘。

根據本發明一優選實施例，所述懲罰係數為

，其中n為候選詞的長度。

根據本發明一優選實施例，所述凝固度計算單元被配置為當所述候選詞的詞長為3以上時，將所述點互信息中的最小值與所述懲罰係數相乘，得到內部凝固度。

根據本發明一優選實施例，新詞識別裝置還包括詞性分析單元，詞性分析單元被配置為對所述候選詞進行詞性分析，若能夠得出候選詞的詞性，則將候選詞判斷為非新詞；若不能得出候選詞的詞性，則對候選詞進行切詞，若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。

根據本發明一優選實施例，所述新詞識別裝置還包括詞庫對比單元，用於將所述候選詞與現有詞庫進行對比，若所述候選詞未包括在現有詞庫中，則將所述候選詞判斷為新詞。

一種計算機可讀存儲介質，其上存儲有計算機程序，其特徵在於，所述計算機程序被處理器執行時執行以上描述的方法。

由以上技術方案可以看出，本發明的技術方案通過將任意候選詞的內部凝固度與預設的凝固度閾值進行比較，從而快速且準確地從任意來源的文本中識別新詞。進一步地，本發明的技術方案中引入了詞長度懲罰，在不過於損失較長詞的前提下，使得新詞識別準確率和召回率得到顯著的提升。利用本發明的技術方案識別出的新詞，在對包括新詞的中文信息進行分析時，詞法分析器可以對中文信息進行準確的分詞，從而提高了分析結果的準確性。

為了使本發明的目的、技術方案和優點更加清楚，下面結合附圖和具體實施例對本發明進行詳細描述。

第一圖為根據本發明的實施例的新詞識別方法的流程圖。如第一圖所示，本發明的新詞識別方法包括以下步驟：步驟11：獲取候選詞；步驟12：計算候選詞的內部凝固度；步驟13：根據計算出的內部凝固度和預設的凝固度閾值，判斷候選詞是否為新詞。

優選地，根據本實施例的新詞識別方法還可以包括：步驟14：對所述候選詞進行詞性分析，將具有特定詞性的候選詞判斷為非新詞；步驟15：將所述候選詞與詞庫進行對比，若所述候選詞未包括在詞庫中，則將所述候選詞判斷為新詞。

在步驟11中，獲取需要識別的候選詞。候選詞可以是從一篇或多篇文章中抽取的n-gram候選詞。在抽取n-gram候選詞的同時，可以統計計算每個n-gram候選詞的詞頻，用於計算其出現概率。候選詞的數量至少為一個。根據本發明的方法可以對一個候選詞進行處理，也可以對多個候選詞同時分別進行處理。候選詞的總數量取決於文章的篇幅，本發明對此不做限定。作為候選詞來源的文章可以是互聯網上的文章，例如新聞網站或社交網絡的文章。本領域技術人員應當理解，本發明的方法也可以從其他任何來源的文章中提取候選詞。

在步驟12中，計算候選詞的內部凝固度。計算候選詞的內部凝固度可以包括計算候選詞的點互信息，以及根據點互信息計算內部凝固度。凝固度表示候選詞中的字與字之間的緊密程度。例如，在文本“華為公司專賣手機”中,“為公”、“司專”、“賣手”等候選詞的凝固度較低,而“華為”、“公司”、“專賣”等詞的凝固度較高。候選詞的內部凝固度可以通過採用候選詞的點互信息（PMI）表示。點互信息是通過根據統計獨立性計算詞與詞間的共現度而得到的。點互信息的具體計算方法如下：

公式（1）

公式（1）中的1號詞和2號詞是候選詞分解出的詞，例如候選詞“玻璃”可以分解成1號詞“玻”和2號詞“璃”。 p(1號詞,2號詞)表示1號詞和2號詞共現的概率。 p(1號詞)表示1號詞出現的概率， p(2號詞)表示2號詞出現的概率。以上概率計算的語料庫可以是候選詞所在的一篇或多篇文章，也可以是其他預設的語料庫。

當候選詞的長度為3字以上時，每個候選詞會有多個點互信息。例如，當候選詞為“電影院”時，候選詞可以分解成“電影”（1號詞）和“院”（2號詞），或者“電”（1號詞）和“影院”（2號詞）。因此，候選詞“電影院”可以計算出兩個點互信息。因此，當候選詞的長度為3以上時，可以選取所有點互信息中的最小值作為該候選詞的內部凝固度。

根據本發明優選的實施方式，候選詞的內部凝固度可以為對以上計算出的點互信息（PMI）施加長度懲罰後的計算結果。事實上，PMI相當於一個詞所能獲得的成詞分數值，而加上長度懲罰即為在這個分數值除上某個數,進而導致分數值降低,故稱為“懲罰”。在本實施例中，可以將內部凝固度表示為以上計算出的點互信息與長度懲罰係數的乘積。經過反複試驗，選定懲罰係數為

=

(1號詞長度+2號詞長度)。使用該懲罰係數可以在識別較長的新詞的時得到令人滿意的準確率和召回率。在應用程度懲罰係數的情況下，候選詞的內部凝固度也稱為改良點互信息，其計算公式如下：

公式（2）

同樣地，當候選的長度為3以上時，每個候選詞會有多個改良點互信息。在這種情況下，可以取所有改良點互信息中的最小值作為該候選詞的內部凝固度。

在步驟13中，根據計算出的內部凝固度和預設的凝固度閾值，判斷候選詞是否為新詞。具體地，可以通過將計算出的內部凝固度與預設的凝固度閾值進行比較，判斷候選詞是否為新詞。例如，若候選詞的凝固度高於預設的凝固度閾值，則判斷候選詞為新詞，若候選詞的凝固度小於預設的凝固度閾值，則判斷候選詞為非新詞。經過反複試驗，當預設的凝固度閾值等於4時，可以獲得令人滿意的新詞識別率和召回率。因此，凝固度閾值優選等於4。

在步驟14中，對候選詞進行詞性分析，若能夠得出候選詞的詞性，則將候選詞判斷為非新詞；若不能得出候選詞的詞性，則對候選詞進行切詞，若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。事實上，如果可以直接得出候選詞的詞性，那麼顯然這個候選詞不是新詞，因為已經出現在詞性分析工具的字典當中。在這種情況下，不需要對候選詞進行切詞。例如當候選詞為“武漢”時，可直接得到這個候選詞的詞性為名詞，那麼“武漢”就不是新詞。如果無法直接得到候選詞的詞性，那麼該候選詞並不在詞性分析工具的字典當中，但仍有可能是非新詞，需要對候選詞進行切詞，並判斷切詞後的詞是否具有特定詞性（例如:助詞、介詞、代名詞等）。若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。例如，當候選詞為“在武漢”時，不能直接得到這個候選詞的詞性。在這種情況下，需要對“在武漢”進行切詞，得到“在”和“武漢”。由於“在”的詞性為介詞，所以候選詞“在武漢”不屬於新詞。另外，當候選詞中包括例如助詞或代名詞性的詞時，也會被判斷為非新詞。例如，候選詞“藏得夠”和“我買”中包括助詞和代名詞，因此這些候選詞會被判斷為非新詞。當候選詞中不包括以上特定詞性的詞時，候選詞被判斷為新詞。例如，候選詞“新冠肺炎”經過切詞後，得到“新冠”和“肺炎”兩個詞並且這兩個詞不屬於特定詞性，因此“新冠肺炎”被判斷為新詞。

在步驟15中，將候選詞與現有詞庫中的詞彙進行對比。現有詞庫為經過一段時間的算法運行或是現成詞庫(例如:Jieba)等所收集的詞庫。如果候選詞與現有詞庫中的詞彙相同，則該候選詞為非新詞。反之，若候選詞未出現在現有詞庫中，則可以判斷候選詞為新詞。需要注意的是，步驟13、14和15的執行順序可以任意設定。通過這三個步驟對候選詞進行逐步篩選，有助於提高新詞識別的準確率和召回率。

以上是對本發明所提供的方法進行的詳細描述，下面結合實施例對本發明提供的裝置進行詳細描述。

第二圖為根據本發明的實施例的新詞識別裝置的結構圖。如第二圖所示，新詞識別裝置包括以下單元：獲取單元21，用於獲取候選詞；計算單元22，用於計算候選詞的內部凝固度；判斷單元23，用於根據計算出的內部凝固度和預設的凝固度閾值，判斷候選詞是否為新詞。

優選地，根據本實施例的新詞識別方法還可以包括：詞性分析單元24，用於對所述候選詞進行詞性分析，將具有特定詞性的候選詞判斷為非新詞；詞庫對比單元25，用於將所述候選詞與詞庫進行對比，若所述候選詞未包括在詞庫中，則將所述候選詞判斷為新詞。

獲取單元21負責獲取需要識別的候選詞。候選詞可以是從一篇或多篇文章中抽取的n-gram候選詞。在抽取n-gram候選詞的同時，可以計算每個候選詞的詞頻。候選詞的數量至少為一個。根據本發明的方法可以對一個候選詞進行處理，也可以對多個候選詞同時進行處理。候選詞的總數量取決於文章的篇幅，本發明對此不做限定。作為候選詞來源的文章可以是互聯網上的文章，例如新聞網站或社交網絡的文章。本領域技術人員應當理解，本發明的方法也可以從其他任何來源的文章中提取候選詞。

計算單元22負責計算候選詞的內部凝固度。計算單元22可以包括點互信息計算單元和凝固度計算單元。點互信息計算單元用於計算所述候選詞的點互信息。凝固度計算單元用於根據點互信息計算內部凝固度。凝固度表示候選詞裡面字與字之間的緊密程度。例如，在文本“華為公司專賣手機”中,“為公”、“司專”、“賣手”等候選詞的凝固度較低,而“華為”、“公司”、“專賣”等詞的凝固度較高。候選詞的內部凝固度可以通過採用候選詞的點互信息（PMI）表示。因此，計算單元22可以包括點互信息計算單元和凝固度計算單元。點互信息是通過根據統計獨立性計算詞與詞間的共現度而得到的。點互信息的具體計算方法如下：

公式（4）

公式（1）中的1號詞和2號詞是候選詞分解出的詞。例如候選詞“玻璃”可以分解成1號詞“玻”和2號詞“璃”。 p(1號詞,2號詞)表示1號詞和2號詞共現的概率。 p(1號詞)表示1號詞出現的概率， p(2號詞)表示2號詞出現的概率。以上概率計算的語料庫可以是候選詞所在的一篇或多篇文章，也可以是其他預設的語料庫。

當候選的長度為3以上時，每個候選詞會有多個點互信息。例如，當候選詞為“電影院”時，候選詞可以分解成“電影”（1號詞）和“院”（2號詞），或者“電”（1號詞）和“影院”（2號詞）。因此，候選詞“電影院”可以計算出兩個點互信息。因此，當候選詞的長度為3以上時，可以取所有點互信息中的最小值作為該候選詞的內部凝固度。

根據本發明優選的實施方式，候選詞的內部凝固度可以為對以上計算出的點互信息（PMI）施加長度懲罰後的計算結果。事實上，PMI相當於一個詞所能獲得的成詞分數值，而加上長度懲罰即為在這個分數值除上某個數，進而導致分數值降低，故稱為“懲罰”。在本實施例中，可以將內部凝固度表示為以上計算出的點互信息與長度懲罰係數的乘積。經過反複試驗，選定懲罰係數為

=

公式（5）

判斷單元23負責根據計算出的內部凝固度和預設的凝固度閾值，判斷候選詞是否為新詞。具體地，判斷單元23可以通過將計算出的內部凝固度與預設的凝固度閾值，判斷候選詞是否為新詞。例如，若候選詞的凝固度高於預設的凝固度閾值，則判斷候選詞為新詞，若候選詞的凝固度小於預設的凝固度閾值，則判斷候選詞為非新詞。經過反複試驗，當預設的凝固度閾值等於4時，可以獲得令人滿意的新詞識別率和召回率。因此，凝固度閾值優選等於4。

詞性分析單元24負責對候選詞進行詞性分析，若能夠得出候選詞的詞性，則將候選詞判斷為非新詞；若不能得出候選詞的詞性，則對候選詞進行切詞，若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。事實上，如果可以直接得出候選詞的詞性，那麼顯然這個候選詞不是新詞，因為已經出現在詞性分析工具的字典當中。在這種情況下，不需要對候選詞進行切詞。例如當候選詞為“武漢”時，可直接得到這個候選詞的詞性為名詞，那麼“武漢”就不是新詞。如果無法直接得到候選詞的詞性，那麼該候選詞並不在詞性分析工具的字典當中，但仍有可能是非新詞，需要對候選詞進行切詞，並判斷切詞後的詞是否具有特定詞性（例如：助詞、介詞、代名詞等）。若經切詞得到的詞具有特定詞性，則將候選詞判斷為非新詞。例如，當候選詞為“在武漢”時，不能直接得到這個候選詞的詞性。在這種情況下，需要對“在武漢”進行切詞，得到“在”和“武漢”。由於“在”的詞性為介詞，所以候選詞“在武漢”不屬於新詞。另外，當候選詞中包括例如助詞或代名詞性的詞時，也會被判斷為非新詞。例如，候選詞“藏得夠”和“我買”中包括助詞和代名詞，因此這些候選詞會被判斷為非新詞。當候選詞中不包括以上特定詞性的詞時，候選詞被判斷為新詞。例如，候選詞“新冠肺炎”經過切詞後，得到“新冠”和“肺炎”兩個詞並且這兩個詞不屬於特定詞性，因此“新冠肺炎”被判斷為新詞。

詞庫對比單元25負責將候選詞與現有詞庫中的詞彙進行對比。現有詞庫為經過一段時間的算法運行或是現成詞庫(例如:Jieba)等所收集的詞庫。如果候選詞與現有詞庫中的詞彙相同，則該候選詞為非新詞。反之，或候選詞未出現在現有詞庫中，則可以判斷候選詞為新詞。需要注意的是，判斷單元23、詞性分析單元24和詞庫對比單元25對候選詞的處理順序可以任意設定。通過這三個單元對候選詞進行逐步篩選，有助於提高新詞識別的準確率和召回率。

以上描述的裝置實施例僅是示意性的。各單元的劃分可以是基於邏輯功能的劃分，在實際實現時可以採用其他的劃分方式。例如多個單元可以結合或者可以集成到另一個單元或系統中。上述各個單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

上述各個單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個計算機可讀存儲介質中。基於這樣的理解，本發明的技術方案可以採用軟體產品的形式體現，該計算機軟體產品存儲在一個存儲介質中，包括若干指令用以使計算機設備的處理器執行本發明各個實施例的方法的全部或部分步驟。存儲介質包括但不限於閃存碟、唯讀存儲器（ROM）、隨機存取存儲器（RAM）、移動硬碟、磁碟或者光碟等可以存儲程序代碼的介質。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。

11、12、13、14、15:歩驟

21:獲取單元

22:計算單元

23:判斷單元

24:詞性分析元

25:詞庫對比元

參照附圖，本發明的公開內容將變得更易理解。本領域技術人員容易理解的是，這些附圖僅僅用於舉例說明本發明的技術方案，而並非意在對本發明的保護範圍構成限定。

圖中：第一圖為根據本發明的實施例的新詞識別方法的流程圖；第二圖為根據本發明的實施例的新詞識別裝置的結構圖。

11、12、13、14、15:歩驟

Claims

一種新詞識別方法，包括：從文章中獲取n-gram候選詞；根據所述文章中或一預設語料庫中詞與詞間的共現度，得到所述候選詞的點互信息，根據所述點互信息得到所述候選詞的內部凝固度；根據所述候選詞的所述內部凝固度和預設的凝固度閾值，決定所述候選詞是否為新詞，其中當所述候選詞的所述內部凝固度高於所述預設的凝固度閾值，所述候選詞為新詞，當所述候選詞的所述內部凝固度小於所述預設的凝固度閾值，所述候選詞為非新詞。
根據請求項1所述的新詞識別方法，其中根據所述點互信息得到所述內部凝固度包括，取得所述點互信息與詞長懲罰係數的乘積，其中所述詞長懲罰係數為1/log ₂(n)，其中n為所述候選詞的長度。
根據請求項2所述的新詞識別方法，其中當所述候選詞的詞長為3以上時，取得所述點互信息與詞長懲罰係數的乘積，得到所述內部凝固度包括：得到所述點互信息中的最小值與所述詞長懲罰係數的乘積，以得到所述內部凝固度。
根據請求項1至3中任一項所述的新詞識別方法，其中所述新詞識別方法還包括，進行所述候選詞的詞性分析，當所述候選詞具有詞性，所述候選詞為非新詞；當所述候選詞不具有詞性，進行所述候選詞的切詞，若所述候選詞經切詞得到的詞具有特定詞性，所述候選詞為非新詞。
根據請求項1至4中任一項所述的新詞識別方法，其中所述新詞識別方法還包括，進行所述候選詞與現有詞庫的對比，若所述候選詞未包括在現有詞庫中，所述候選詞為新詞。
一種新詞識別裝置，包括：獲取單元，用於從文章中獲取n-gram候選詞；計算單元，用於根據所述文章中或一預設語料庫中詞與詞間的共現度，計算所述候選詞的點互信息，根據所述點互信息計算所述候選詞的內部凝固度；判斷單元，用於根據計算出的所述候選詞的所述內部凝固度和預設的凝固度閾值，判斷所述候選詞是否為新詞，其中當所述候選詞的所述內部凝固度高於所述預設的凝固度閾值，所述候選詞為新詞，當所述候選詞的所述內部凝固度小於所述預設的凝固度閾值，所述候選詞為非新詞。
根據請求項6所述的新詞識別裝置，其中所述計算單元包括：點互信息計算單元，用於計算所述候選詞的所述點互信息；凝固度計算單元，用於根據所述點互信息計算所述候選詞的所述內部凝固度。
根據請求項7所述的新詞識別裝置，其中所述凝固度計算單元被配置為將所述點互信息與詞長懲罰係數相乘，其中所述詞長懲罰係數為1/log ₂(n)，其中n為所述候選詞的長度。
根據請求項8所述的新詞識別裝置，其中所述凝固度計算單元被配置為當所述候選詞的詞長為3以上時，將所述點互信息中的最小值與所述詞長懲罰係數相乘，得到所述內部凝固度。
根據請求項6至9中任一項所述的新詞識別裝置，其中新詞識別裝置還包括詞性分析單元，所述詞性分析單元被配置為對所述候選詞進行詞性分析，若能夠得出候選詞的詞性，將候選詞判斷為非新詞；若不能得出候選詞的詞性，對候選詞進行切詞，若經切詞得到的詞具有特定詞性，將候選詞判斷為非新詞。
根據請求項6至9中任一項所述的新詞識別裝置，其中所述新詞識別裝置還包括詞庫對比單元，用於將所述候選詞與現有詞庫進行對比，若所述候選詞未包括在現有詞庫中，將所述候選詞判斷為新詞。
一種計算機可讀存儲介質，其上存儲有計算機程序，其特徵在於，所述計算機程序被處理器執行時執行請求項1至5中任一項所述的方法。