TW201804341A - 字串的分詞方法、裝置及設備 - Google Patents

字串的分詞方法、裝置及設備 Download PDF

Info

Publication number
TW201804341A
TW201804341A TW106118549A TW106118549A TW201804341A TW 201804341 A TW201804341 A TW 201804341A TW 106118549 A TW106118549 A TW 106118549A TW 106118549 A TW106118549 A TW 106118549A TW 201804341 A TW201804341 A TW 201804341A
Authority
TW
Taiwan
Prior art keywords
word
segmentation result
segmentation
string
reverse
Prior art date
Application number
TW106118549A
Other languages
English (en)
Inventor
張增明
Original Assignee
阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集團服務有限公司 filed Critical 阿里巴巴集團服務有限公司
Publication of TW201804341A publication Critical patent/TW201804341A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

本發明提供一種字串的分詞方法、裝置及設備,該方法包括:獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。本發明不僅提高了分割成功率,還提高了分割結果中的各單詞語義正確的機率。

Description

字串的分詞方法、裝置及設備
本申請涉及電腦技術,尤其涉及一種字串的分詞方法、裝置及設備。
自然語言處理是運用電腦對自然語言進行分析和理解,從而使電腦在某種程度上具有人的語言能力。在對英文文本進行自然語言處理時,經常會遇到不符合自然語言規則的髒資料,導致自然語言處理效果大打折扣。因此,需要先對英文文本進行分詞預處理,得到包含多個英文單詞的正常自然語言,然後再使用自然語言模型進行處理。
現有技術中的髒資料主要包括因空格字元缺失造成多個單詞連在一起形成的字串、摻雜有干擾字元的字串等。現有技術對英文文本進行分詞的具體過程如下:按順序依次讀取待分割的字串的一個字母,添加到已經取得的字母們的後面,組成一個子字串,然後檢查此子字串是否能在預先獲取的英文詞典中查到。如果能查到,則說明該子字串是一個單詞,先將其從原字串中分割出來。然後對剩下的字串重複使用這種方法,最終完成單詞分割,或者剩下 的字串沒法分割直接輸出。
然而,現有技術對英文文本進行分詞的方法,在待分割的字串中前一單詞與後一單詞的首碼組成單詞、或摻雜有干擾字元等情況下,會出現分割不當導致語意錯誤、甚至無法分割的現象。
本發明提供一種字串的分詞方法、裝置及設備,不僅提高了分割成功率,還提高了分割結果中的各單詞語義正確的機率。
第一方面,本發明提供一種字串的分詞方法,包括:獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
作為一種可實現的方式,所述獲取待分割的字串的正向分割結果,包括: 對所述待分割的字串進行正向分割的操作,判斷是否獲取到第一單詞;若是,將除去所述第一單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;若否,對所述待分割的字串的正向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到正向分割結果。
本實施例提供的正向分割方法,為一層一層的正向遞進式分割方式,經過一層一層的嘗試,克服了干擾字元,最終得到了正向分割結果。
作為一種可實現的方式,所述獲取待分割的字串反向分割結果,包括:對所述待分割的字串進行反向分割的操作,判斷是否獲取到第二單詞;若是,將除去所述第二單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;若否,對所述待分割的字串的反向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串 進行反向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到反向分割結果。
本實施例提供的反向分割方法,為一層一層的反向遞進式分割方式,經過一層一層的嘗試,克服了干擾字元,最終得到了反向分割結果。
作為一種可實現的方式,還包括:獲取待分割的文本,對所述待分割的文本進行符號刪除操作,得到所述待分割的字串。
作為一種可實現的方式,還包括:建構正向字典樹和反向字典樹;所述對所述待分割的字串進行正向分割的操作,包括:根據所述正向字典樹,對所述待分割的字串進行正向分割的操作;所述對所述待分割的字串進行反向分割的操作,包括:根據所述反向字典樹,對所述待分割的字串進行反向分割的操作。
本實施例根據字典樹來對字串進行正向分割或反向分割,由於公共查詢路徑的存在,可以在讀取到的子字串增加一個字元後,基於該字元增加前的查詢路徑繼續向下一級節點查詢,從而可以避免重複查詢,最大限度地減少無謂的字串比較,減少查詢時間,提高查詢效率。
作為一種可實現的方式,所述正向字典樹的每個第一節點中儲存有所述第一節點對應的單詞的詞頻,所述反向字典樹的每個第二節點中儲存有所述第二節點對應的單詞的詞頻;所述獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,包括:從所述第一單詞對應的第一節點中獲取所述第一單詞的詞頻;從所述第二單詞對應的第二節點中獲取所述第二單詞的詞頻。
作為一種可實現的方式,所述建構正向字典樹和反向字典樹之前,還包括:建構語料庫,所述語料庫包括單詞庫和所述單詞庫中的單詞的詞頻;所述建構正向字典樹和反向字典樹,包括:根據所述語料庫,建構正向字典樹和反向字典樹,並將各單詞的詞頻儲存至對應的第一節點和第二節點。
作為一種可實現的方式,所述預設文本包括:滿足預設使用條件的文本以及待分割的文本;所述建構語料庫,包括:根據滿足預設使用條件的詞典,得到單詞庫;確定所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數;根據所述單詞庫、所述單詞庫中的單詞在所述滿足預 設使用條件的文本以及所述待分割的文本中出現的次數,建構所述語料庫。
作為一種可實現的方式,所述確定單詞庫中的單詞在所述待分割的文本中出現的次數,包括:根據所述待分割的文本中的空白字元,獲取至少一個第一字串;將所述至少一個第一字串與所述單詞庫中的單詞進行匹配,得到與所述單詞庫中的單詞匹配的至少一個第二字串;根據各所述第二字串在所述待分割的文本中出現的次數,確定單詞庫中的單詞在所述待分割的文本中出現的次數。
本實施例建構的語料庫,該語料庫中的單詞的詞頻是藉由待分割的文本進行修正的,與待分割的文本具有一定的相關性,使得語料庫中的單詞的詞頻更接近待分割的文本的應用情況,從而可以使得分割結果的語義與待分割的文本表達的語義更接近,提高了字串分割的正確性。
作為一種可實現的方式,所述根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,包括:對所有所述第一單詞的詞頻進行求和處理,得到第一詞頻和值;對所有所述第二單詞的詞頻進行求和處理,得到第二詞頻和值; 若所述第一詞頻和值大於所述第二詞頻和值,則確定所述待分割的字串的分割結果為正向分割結果;若所述第二詞頻和值大於所述第一詞頻和值,則確定所述待分割的字串的分割結果為反向分割結果。
作為一種可實現的方式,所述正向分割和所述反向分割均採用最長單詞分割方式。
第二方面,本發明提供一種字串的分詞方法,包括:向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;向用戶輸出所述分割結果。
本實施例提供的字串的分詞方法,透過向雲端伺服器發送用戶輸入的待分割的文本,以使雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;由於雲端伺服器藉由雙向分割字串,可以識別字串頭或字串尾的干擾字元,提高了分割成功率,基於詞頻來確定最終的分割結果,提高了分割結果中的各單詞語義正確的機率,接收雲端伺服器回饋的待分割的字串的分割結果資 訊,分割結果資訊包括待分割的字串的分割結果;向用戶輸出分割結果,用戶可以獲知分割結果,使得用戶可以獲知最終的查詢結果對應的查詢單詞,提高了用戶的體驗。
作為一種可實現的方式,所述向用戶輸出所述分割結果,包括:在顯示介面上顯示所述分割結果。作為一種可實現的方式,所述分割結果資訊中還包括所述分割結果對應的分割類型,所述分割類型為正向分割或反向分割;所述在顯示介面上顯示所述分割結果,包括:在顯示介面上顯示所述分割結果以及所述分割結果的分割類型。
作為一種可實現的方式,若所述分割結果為正向分割結果,則所述分割資訊中還包括反向分割結果;或者若所述分割結果為反向分割結果,則所述分割資訊中還包括正向分割結果;所述在顯示介面上顯示所述分割結果,包括:在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果。
作為一種可實現的方式,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞的詞頻和所述反向分割結果中的各所述第二單詞的詞頻;在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果之後, 還包括:獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;根據所述詞頻顯示指令,顯示各所述第一單詞的詞頻和/或各所述第二單詞的詞頻;或者在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,包括:在所述顯示介面上顯示所述正向分割結果、所述正向分割結果中的第一單詞的詞頻,以及所述反向分割結果、所述反向分割結果中的第二單詞的詞頻。
作為一種可實現的方式,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞對應的第一詞頻和值以及所述反向分割結果中的各所述第二單詞對應的第二詞頻和值;在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果之後,還包括:獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;根據所述詞頻顯示指令,顯示所述第一詞頻和值和/或所述第二詞頻和值;或者在所述顯示介面上顯示所述正向分割結果和所述反向 分割結果,包括:在所述顯示介面上顯示所述正向分割結果、所述第一詞頻和值,以及所述反向分割結果、所述第二詞頻和值。
作為一種可實現的方式,所述在所述顯示介面上顯示所述正向分割結果和所述反向分割結果之後,還包括:獲取所述用戶對所述顯示介面上的所述正向分割結果或反向分割結果的操作資訊,根據所述操作資訊確定待處理的分割結果;向所述雲端伺服器發送所述待處理的分割結果,以使所述雲端伺服器對所述待處理的分割結果進行自然語言處理。
協力廠商面,本發明提供一種字串的分詞裝置,包括:第一分割模組,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;第二分割模組,用於獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;詞頻獲取模組,用於獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;結果確定模組,用於根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
第四方面,本發明提供一種字串的分詞裝置,包括:發送模組,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;接收模組,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;輸出模組,用於向用戶輸出所述分割結果。
第五方面,本發明提供一種字串的分詞設備,包括:包括:輸入裝置,用於獲取待分割的文本;處理器,耦合至所述輸入裝置,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
第六方面,本發明提供一種雲端伺服器,包括:輸入裝置,用於獲取待分割的文本; 處理器,耦合至所述輸入裝置,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
第七方面,本發明提供一種字串的分詞設備,包括:輸出設備,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入裝置,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;處理器,耦合至所述輸出設備和所述輸入裝置,用於根據所述分割結果資訊,控制所述輸入裝置向用戶輸出所述分割結果。
第八方面,本發明提供一種用戶設備,包括:輸出設備,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據 正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入裝置,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;處理器,耦合至所述輸出設備和所述輸入裝置,用於根據所述分割結果資訊,控制所述輸入裝置向用戶輸出所述分割結果。
本實施例藉由獲取包括至少一個第一單詞的正向分割結果,並獲取包括至少一個第二單詞的反向分割結果,藉由雙向分割字串,識別字串頭或字串尾的干擾字元,提高了分割成功率,然後獲取各第一單詞的詞頻和各第二單詞的詞頻,根據各第一單詞的詞頻以及各第二單詞的詞頻,確定待分割的字串的分割結果,基於詞頻來確定最終的分割結果,提高了分割結果中的各單詞語義正確的機率。
100‧‧‧使用者設備
200‧‧‧雲端伺服器
10‧‧‧第一分割模組
11‧‧‧第二分割模組
12‧‧‧詞頻獲取模組
13‧‧‧結果確定模組
14‧‧‧文本獲取模組
15‧‧‧字典樹建構模組
16‧‧‧語料庫建構模組
17‧‧‧回饋模組
18‧‧‧結果獲取模組
19‧‧‧處理模組
20‧‧‧發送模組
21‧‧‧接收模組
22‧‧‧輸出模組
23‧‧‧指令獲取模組
24‧‧‧操作資訊獲取模組
25‧‧‧確定模組
30‧‧‧輸入設備
31‧‧‧處理器
32‧‧‧記憶體
33‧‧‧通信匯流排
34‧‧‧輸出設備
40‧‧‧輸入設備
41‧‧‧處理器
42‧‧‧記憶體
43‧‧‧通信匯流排
44‧‧‧輸出設備
50‧‧‧輸入設備
51‧‧‧處理器
52‧‧‧記憶體
53‧‧‧通信匯流排
54‧‧‧輸出設備
60‧‧‧輸入設備
61‧‧‧處理器
62‧‧‧記憶體
63‧‧‧通信匯流排
64‧‧‧輸出設備
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明一實施例提供的字串的分詞場景示意圖;圖2為本發明一實施例提供的字串的分詞方法流程示意圖;圖3為本發明一實施例提供的正向分割示意圖;圖4為本發明一實施例提供的反向分割示意圖;圖5為本發明一實施例提供的正向和反向分割示意圖;圖6為本發明一實施例提供的正向分割示意圖;圖7為本發明一實施例提供的反向分割示意圖;圖8為本發明一實施例提供的正向字典樹的示意圖;圖9為本發明一實施例提供的反向字典樹的示意圖;圖10為本發明一實施例提供的字串的分詞方法流程示意圖;圖11為本發明一實施例提供的字串的分詞方法流程示意圖;圖12為本發明一實施例提供的字串的分詞方法的信令流程圖;圖13為本發明一實施例提供的字串的分詞方法的顯示介面示意圖;圖14為本發明一實施例提供的字串的分詞方法的顯示介面示意圖;圖15為本發明一實施例提供的字串的分詞方法的顯示介面示意圖; 圖16為本發明一實施例提供的字串的分詞方法的顯示介面示意圖;圖17為本發明一實施例提供的字串的分詞方法的顯示介面示意圖;圖18為本發明一實施例提供的字串的分詞方法的顯示介面示意圖;圖19為本發明一實施例提供的字串的分詞裝置的結構示意圖;圖20為本發明一實施例提供的字串的分詞裝置的結構示意圖;圖21為本發明一實施例提供的字串的分詞裝置的結構示意圖;圖22為本發明一實施例提供的字串的分詞裝置的結構示意圖;圖23為本發明一實施例提供的字串的分詞設備的硬體結構示意圖;圖24為本發明一實施例提供的雲端伺服器的硬體結構示意圖;圖25為本發明一實施例提供的字串的分詞設備的硬體結構示意圖。
圖26為本發明一實施例提供的用戶設備的硬體結構示意圖。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的元件。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本發明的一些方面相一致的裝置和方法的例子。
圖1為本發明一實施例提供的字串的分詞場景示意圖。如圖1所示,用戶透過用戶設備100輸入待分割的文本,對於用戶而言,即用戶輸入的字串,然後用戶設備100將該待分割的文本發送給雲端伺服器200。由於用戶輸入的字串可能存在髒資料,因此,雲端伺服器200對用戶輸入的字串進行分詞處理。在一個具體的應用場景中,本實施例提供的字串的分詞方法可以應用到自然語言處理的處理過程中,該字串的分詞方法是對自然語言進行預處理,以得到包含多個語義正確的英文單詞的自然語言,然後該自然語言作為自然語言模型的輸入,由自然語言模型對該自然語言進行進一步的處理。例如,該自然語言模型可以為亮點詞彙提取模型。在一個具體的應用場景中,用戶設備100上可以安裝電商平台對應的應用程式,也可以安裝瀏覽器,用戶可以透過該瀏覽器來瀏覽電商網站。當用戶透過應用程式或電商網站來購買商品時,用戶先查詢商品,具體地,用戶在電商平台對應的應用程式或電商網站的輸入介面上輸入字串,然後用戶設備100將該字串發送給雲端伺服器200。由於該字串中可能存在髒資料,所 以應用本發明提供的字串的分詞方法,雲端伺服器200對該字串進行分詞,得到多個英文單詞,然後雲端伺服器200藉由亮點詞彙提取模型對該多個英文單詞進行提取,獲取商品的標題、屬性等資訊,即能夠描述此商品的元素、風格等特徵的亮點詞彙,然後根據該亮點詞彙向用戶提供該用戶需要的商品。可選地,雲端伺服器200在得到單詞分割結果之後,還可以向用戶設備回饋該單詞分割結果,以使用戶獲知單詞分割結果,從而得知雲端服務器具體藉由哪些單詞來查詢匹配商品。進一步還可以向用戶設備回饋正向分割結果或者反向分割結果,由用戶來選擇單詞分割結果,然後用戶設備100向雲端伺服器200回饋用戶選擇的單詞分割結果,雲端伺服器200根據用戶選擇的單詞分割結果進行後續的處理。
本發明在此示出了一個具體的應用場景,在具體實現過程中,該字串的分詞方法還可以應用到網頁搜索等場景中。或者,當用戶設備,例如電腦、手機、平板等設備的處理功能比較強大時,還可以由用戶設備來完成字串的分詞方法。對於本發明的字串的分詞方法的應用場景,本實施例此處不做特別限制。下面首先採用詳細的實施例,來說明上述雲端伺服器對字串進行分詞的方法。
圖2為本發明一實施例提供的字串的分詞方法流程示意圖。該字串的分詞方法可以由字串的分詞裝置來實現。該裝置可以藉由軟體和/或硬體來實現。該分詞裝置還可以被配置到雲端伺服器、電腦、手機、平板等設備中。該 方法包括:步驟101、獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;步驟102、獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;步驟103、獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;步驟104、根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
在本實施例中,獲取用戶設備發送的待分割的文本,然後根據該待分割的文本獲取待分割的字串。然後對該待分割的字串進行分詞,本領域技術人員可以理解,該待分割的字串為連續的不帶任何符號的字串。同時,用戶輸入的待分割的文本,若不帶任何符號,則該待分割的文本即待分割的字串。進一步地,若該待分割的文本中包括空格以及各種標點符號,則對待分割的文本進行符號刪除操作,即刪除空格和標點符號的操作,最終得到連續的待分割的字串。
在獲取到字串之後,執行步驟101和步驟102,藉由對待分割的字串分別進行正向分割和反向分割,獲取正向分割結果和反向分割結果。本領域技術人員可以理解,本 實施例中對待分割的字串進行正向分割以獲取正向分割結果,與對待分割的字串進行反向分割以獲取反向分割結果的過程,沒有嚴格的時序關係。
下面以幾個具體的例子,來說明對字串進行正向分割和反向分割的過程。
一個具體的實施例,圖3為本發明一實施例提供的正向分割示意圖。如圖3所示,本實施例對字串floorlengthsleevelessdressst進行正向分割,最終的正向分割結果為多個第一單詞:floor length sleeveless dress。
具體的正向分割過程為:從左到右取字元,每取一次查一次詞典,來判斷是否取到一個單詞,當取到floor時,還會繼續嘗試floorl、floorle、floorlen直至取完整個字串,或者達到預設字串長度,該預設字串長度為單詞的最長長度,然後在所有單詞中,取長度最長的單詞作為分割結果,由於後續沒有單詞,則floor即為分割結果。
因此,本領域技術人員可以理解,sleeveless的長度為10,而sleeve的長度為6,則sleeveless為分割結果,而sleeve以及less卻不是最終的分割結果。本實施例採用單詞最長的分割方式,最能符合語義。一般情況下兩個單詞寫在一起,還是單詞的例子不多,但是如果寫在一起還是單詞,則更符合語義。
需要說明的是,在具體實現過程中,本實施例的正向分割或者反向分割,還可以採用現有技術中的其它分割方式,本實施例此處不做特別限制。
然而,在對該字串floorlengthsleevelessdressst進行反向分割時,由於存在干擾字元st,則反向分割結果為一個錯誤的第二單詞。
另一個具體的例子,圖4為本發明一實施例提供的反向分割示意圖。如圖4所示,本實施例對字串ssfloorlengthsleevelessdress進行反向分割。
具體的反向分割過程為:從右到左取字元,每取一次查一次詞典,來判斷是否取到一個單詞,具體的分割過程與正向分割過程類似,本實施例此處不再贅述。最終的反向分割結果為多個第二單詞:floor length sleeveless dress。
然而,在對該字串ssfloorlengthsleevelessdress進行正向分割時,由於存在干擾字元ss,則正向分割結果為一個錯誤的第一單詞。
又一個具體的例子,對字串sleepshirt進行正向分割,正向分割結果為sleeps hirt;對字串sleepshirt進行反向分割,反向分割結果為sleep shirt。
在步驟103中,獲取各第一單詞的詞頻和各第二單詞的詞頻。該詞頻為預先確定的各單詞在預設文本中出現的次數。該預設文本可以為英文文學全集或者英文教材等。
具體的,以上述各實施例為例來進行說明。在圖3所示的實施例中,在對floorlengthsleevelessdressst進行正向分割時,得到的正向分割結果為多個正確的第一單詞:floor length sleeveless dress,而對該 floorlengthsleevelessdressst進行反向分割時,則得到一個錯誤的第二單詞。此時,則第二單詞的詞頻為無限小。
在圖4所示的實施例中,在對字串ssfloorlengthsleevelessdress進行反向分割時,得到的反向分割結果為多個正確的第二單詞:floor length sleeveless dress,進行正向分割時,則得到一個錯誤的第一單詞。此時,則第一單詞的詞頻為無限小。
在上述實施例中,在對sleepshirt進行正向分割或者反向分割時,可以得到兩個正確的第一單詞和兩個正確的第二單詞。圖5為本發明一實施例提供的正向和反向分割示意圖。如圖5所示,正向分割結果為sleeps hirt,sleeps的詞頻為100,hirt的詞頻為10;反向分割結果為sleep shirt,sleep的詞頻為10000,shirt的詞頻為9000。
本領域技術人員可以理解,如果在正向分割或反向分割過程中,如果該字串本身即為一個正確的單詞,則該單詞的詞頻為無限大。
在步驟104中,根據各第一單詞的詞頻以及各第二單詞的詞頻,確定待分割的字串的分割結果。具體地,可以對所有第一單詞的詞頻進行求和處理,得到第一詞頻和值;對所有第二單詞的詞頻進行求和處理,得到第二詞頻和值;若第一詞頻和值大於第二詞頻和值,則確定待分割的字串的分割結果為正向分割結果;若第二詞頻和值大於第一詞頻和值,則確定待分割的字串的分割結果為反向分割結果。
以圖3至圖5所示的實施例為例,在圖3所示的實施例中,無法得到反向分割結果,則第二單詞的詞頻為無限小,則分割結果為正向分割結果。在圖4所示的實施例中,無法得到正向分割結果,則第一單詞的詞頻為無限小,則分割結果為反向分割結果。在圖5所示的實施例中,第一詞頻和值為110,而第二詞頻和值為19000,則分割結果為反向分割結果。
本領域技術人員可以理解,在具體實現過程中,還可以設置詞頻臨限值,然後確定正向分割結果中大於該詞頻臨限值的單詞的數量,確定反向分割結果中大於該詞頻臨限值的單詞的數量,將數量大的正向分割結果或反向分割結果作為最終的分割結果。同時,還可以對該詞頻進行各種變形處理,然後確定分割結果。即只要根據各第一單詞的詞頻和第二單詞的詞頻,來確定分割結果中的各單詞為比較常用的單詞,從而保證語義正確的實現方式,都在本發明的保護範圍之內。
本實施例藉由獲取包括至少一個第一單詞的正向分割結果,並獲取包括至少一個第二單詞的反向分割結果,藉由雙向分割字串,識別字串頭或字串尾的干擾字元,提高了分割成功率,然後獲取各第一單詞的詞頻和各第二單詞的詞頻,根據各第一單詞的詞頻以及各第二單詞的詞頻,確定待分割的字串的分割結果,基於詞頻來確定最終的分割結果,提高了分割結果中的各單詞語義正確的機率。
由上述實施例可知,在圖3所示的實施例中,如果反 向分割將無法得到正確的第二單詞,在圖4所示的實施例中,如果正向分割,將無法得到正確的第一單詞。在本實施例中,對單詞分割方法還做了進一步的改進,使得在存在干擾字元的情況下,圖3實施例中的字串也可以得到多個正確的第二單詞,圖4實施例中的字串也可以得到多個正確的第一單詞,下面結合圖6和圖7進行詳細說明。
圖6為本發明一實施例提供的正向分割示意圖。如圖6所示,對待分割的字串ssfloorlengthsleevelessdressst進行正向分割,判斷是否獲取到第一單詞,由於存在干擾字元ss,因此無法獲取到第一單詞,則對待分割的字串的正向的首字元進行刪除處理,即刪除正向的第一個字元s,得到處理後的待分割的字串。然後將處理後的待分割的字串作為新的待分割的字串,並繼續執行對待分割的字串進行正向分割的操作,由於存在干擾字元s,則依然無法獲取到第一單詞,則刪除處理後的待分割的字串的正向的第一個字元s。然後,將處理後的待分割的字串作為新的待分割的字串,並繼續執行對待分割的字串進行正向分割的操作,可以得到第一單詞floor,此時,將除去第一單詞的待分割的字串作為新的待分割的字串,繼續執行對待分割的字串進行正向分割的操作,藉由重複執行對待分割的字串進行正向分割的操作,直至對待分割的字串分割結束,得到正向分割結果。
本領域技術人員可以理解,對於字串中間位置存在的干擾字元,在除去已經分割出來的第一單詞後,該中間位 置的干擾字元就變成了剩餘字串的首字元,在進行正向分割沒有得到正確的第一單詞時,還可以將該中間位置的干擾字元刪除,然後繼續進行正向分割,直至對待分割的字串分割結束,得到正向分割結果。最終,正向分割結果為floor length sleeveless dress。
本實施例提供的正向分割方法,為一層一層的正向遞進式分割方式,經過一層一層的嘗試,克服了干擾字元,最終得到了正向分割結果。
圖7為本發明一實施例提供的反向分割示意圖。如圖7所示,對待分割的字串ssfloorlengthsleevelessdressst進行反向分割,判斷是否獲取到第二單詞,由於存在干擾字元st,因此無法獲取到第二單詞,則對待分割的字串的反向的首字元進行刪除處理,即刪除反向的第一個字元t,得到處理後的待分割的字串。然後將處理後的待分割的字串作為新的待分割的字串,並繼續執行對待分割的字串進行反向分割的操作,由於存在干擾字元s,則依然無法獲取到第二單詞,則刪除處理後的待分割的字串的反向的第一個字元s。然後,將處理後的待分割的字串作為新的待分割的字串,並繼續執行對待分割的字串進行反向分割的操作,可以得到第二單詞dress,此時,將除去第二單詞的待分割的字串作為新的待分割的字串,並繼續執行對待分割的字串進行反向分割的操作。藉由重複執行對待分割的字串進行正向分割的操作,直至對待分割的字串分割結束,得到反向分割結果。
本領域技術人員可以理解,對於字串中間位置存在的干擾字元,在除去已經分割出來的第二單詞後,該中間位置的干擾字元就變成了剩餘字串的首字元,在進行反向分割沒有得到正確的第二單詞時,還可以將該中間位置的干擾字元刪除,然後繼續進行反向分割,直至對待分割的字串分割結束,得到反向分割結果。最終,反向分割結果為floor length sleeveless dress。
本實施例提供的反向分割方法,為一層一層的反向遞進式分割方式,經過一層一層的嘗試,克服了干擾字元,最終得到了反向分割結果。
進一步地,在上述實施例的基礎上,為了提高查詢單詞的效率,本申請還可以在單詞分割之前,即正向單詞分割之前和反向單詞分割之前,預先建構正向字典樹和反向字典樹,使得在分割單詞時,可以根據正向字典樹,對待分割的字串進行正向分割,根據反向字典樹,對待分割的字串進行反向分割。
具體地,字典樹是一種樹形結構,是一種雜湊樹的變種。它的優點是:利用字串的公共首碼來減少查詢時間,最大限度地減少無謂的字串比較,查詢效率比雜湊樹高。它有3個基本性質:根節點不包含字元,除根節點外每一個節點都只包含一個字元;從根節點到某一節點,路徑上經過的字元連接起來,為該節點對應的字串;每個節點的所有子節點包含的字元都不相同。
另外,節點中可以儲存一些資料,比如該單詞的頻率 等。正向字典樹的每個第一節點中儲存有第一節點對應的單詞的詞頻,反向字典樹的每個第二節點中儲存有第二節點對應的單詞的詞頻。對應地,從第一單詞對應的第一節點中獲取第一單詞的詞頻;從第二單詞對應的第二節點中獲取第二單詞的詞頻。
圖8為本發明一實施例提供的正向字典樹的示意圖。所謂正向字典樹,即由根節點到各級子節點,按照單詞中各個字元正向排列順序建立的字典樹。如圖8所示,在正向字典樹中,“expend(消費)”和“expense(費用)”兩個單詞具有相同首碼“expen”,藉由正向字典樹表示後,可以使這兩個單詞的查詢路徑具有公共部分(即由正向字典樹中虛線連接的5個節點構成的一段路徑)。
圖9為本發明一實施例提供的反向字典樹的示意圖。所謂反向字典樹,即由根節點到各級子節點,按照單詞中各個字元反向排列順序建立的字典樹。如圖9所示,具有相同尾碼“less”的兩個單詞“endless”和“useless”也在反向字典樹中存在公共查詢路徑(虛線連接),即藉由反向字典樹可以使得具有相同尾碼的兩個或兩個以上的單詞具有一段相同的查詢路徑。
本實施例根據字典樹來對字串進行正向分割或反向分割,由於公共查詢路徑的存在,可以在讀取到的子字串增加一個字元後,基於該字元增加前的查詢路徑繼續向下一級節點查詢,從而可以避免重複查詢,最大限度地減少無謂的字串比較,減少查詢時間,提高查詢效率。
進一步地,在上述實施例的基礎上,還可以預先建構語料庫。語料庫包括單詞庫和單詞庫中的單詞的詞頻,然後根據語料庫來建構正向字典樹和反向字典樹,並將各單詞的詞頻儲存至對應的第一節點和第二節點。下面採用結合圖10來說明本發明建構預料庫的具體實現過程。
圖10為本發明一實施例提供的字串的分詞方法流程示意圖。如圖10所示,該方法包括:步驟201、根據滿足預設使用條件的詞典,得到單詞庫。
獲取滿足預設使用條件的詞典,該滿足預設使用條件的詞典可以為詞彙量超過預設值的詞典,也可以為下載頻率超過預設次數的詞典等,提取該詞典中的單詞,所有的單詞構成了單詞庫。
步驟202、確定單詞庫中的單詞在滿足預設使用條件的文本以及待分割的文本中出現的次數。
其中,滿足預設使用條件的文本可以為英文文學全集、英文教材、英文報紙等使用頻率超過預設值的文本。確定單詞庫中的單詞在這些文本中出現的次數。
在確定單詞庫中的單詞在待分割文本中出現的次數時,根據待分割的文本中的空白字元,獲取至少一個第一字串;將至少一個第一字串與單詞庫中的單詞進行匹配,得到與單詞庫中的單詞匹配的至少一個第二字串;根據各第二字串在待分割的文本中出現的次數,確定單詞庫中的單詞在待分割的文本中出現的次數。
具體地,將待分割的文本去掉標點符號,按照空格分出一個一個的第一字串,對於這些第一字串,如果不在字典庫中,則捨棄,剩下的都是單詞,即第二字串,然後統計第二字串在待分割文本中出現的次數,即單詞庫中的單詞在待分割文本中出現的次數。
步驟203、根據單詞庫、單詞庫中的單詞在滿足預設使用條件的文本以及待分割的文本中出現的次數,建構語料庫。
其中,語料庫中包括單詞庫以及單詞庫中的單詞的詞頻。若同一單詞即出現在滿足預設使用條件的文本中,又出現在待分割的文本中,則該單詞的詞頻為該單詞在滿足預設使用條件的文本中出現的次數與待分割的文本中出現的次數的加和。
本實施例建構的語料庫,該語料庫中的單詞的詞頻是藉由待分割的文本進行修正的,與待分割的文本具有一定的相關性,使得語料庫中的單詞的詞頻更接近待分割的文本的應用情況,從而可以使得分割結果的語義與待分割的文本表達的語義更接近,提高了字串分割的正確性。
當本實施例的字串的分詞方法由雲端伺服器來執行時,本實施例中的雲端伺服器還可以與用戶設備進行交互,以使得用戶可以獲知分割結果。下面採用詳細的實施例來進行詳細說明。
圖11為本發明一實施例提供的字串的分詞方法流程示意圖。該字串的分詞方法可以由字串的分詞裝置來實 現。該裝置可以藉由軟體和/或硬體來實現。該分詞裝置還可以被配置到用戶設備中,例如電腦、手機、平板等設備。在本實施例中,以該分詞裝置被配置到用戶設備為例,進行詳細說明。如圖11所示,該方法包括:步驟301、向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;步驟302、接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;步驟303、向用戶輸出所述分割結果。
在步驟301中,用戶藉由用戶設備上安裝的應用程式或者瀏覽器瀏覽電商平台時,當用戶需要查詢某一商品時,用戶設備獲取用戶輸入的待分割的文本,然後向雲端伺服器發送用戶輸入的待分割的文本。具體地,用戶可以藉由語音或者文字輸入待分割的文本。
雲端伺服器在獲取到待分割的文本之後,根據該待分割的文本,獲取待分割的字串,然後對該待分割的字串進行分詞處理,可以得到正向分割結果、正向分割結果中的各第一單詞的詞頻、第一詞頻和值,反向分割結果、反向分割結果中的各第二單詞的詞頻、第二詞頻和值,以及最終的分割結果。雲端伺服器對待分割的字串進行分詞處理 的具體實現方式,可參見上述圖2至圖10所示的實施例,本實施例此處不再贅述。
在步驟302中,雲端伺服器在得到分割結果之後,向用戶設備回饋待分割的字串的分割結果資訊,該分割結果資訊包括分割結果。
在步驟303中,用戶設備在獲取到分割結果之後,向用戶輸出分割結果。具體地,用戶設備可以藉由語音或文字的形式輸出分割結果。
本實施例提供的字串的分詞方法,藉由向雲端伺服器發送用戶輸入的待分割的文本,以使雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;由於雲端伺服器藉由雙向分割字串,可以識別字串頭或字串尾的干擾字元,提高了分割成功率,基於詞頻來確定最終的分割結果,提高了分割結果中的各單詞語義正確的機率,接收雲端伺服器回饋的待分割的字串的分割結果資訊,分割結果資訊包括待分割的字串的分割結果;向用戶輸出分割結果,用戶可以獲知分割結果,使得用戶可以獲知最終的查詢結果對應的查詢單詞,提高了用戶的體驗。
下面結合圖12,以一個具體的例子,來說明用戶設備與雲端伺服器的交互過程。圖12為本發明一實施例提供的字串的分詞方法的信令流程圖。如圖12所示,該方法包括:步驟401、用戶設備獲取用戶輸入的待分割的文本; 步驟402、用戶設備向雲端伺服器發送用戶輸入的待分割的文本;步驟403、雲端伺服器根據待分割的文本得到待分割的字串,確定待分割的字串的分割結果;步驟404、雲端伺服器向用戶設備發送待分割的字串的分割結果資訊;步驟405、用戶設備向用戶輸出分割結果資訊;步驟401至步驟405的具體實現方式,可參見上述圖11所示的實施例。可選地,在步驟405之後,還可以執行步驟406至步驟408。
步驟406、用戶設備獲取用戶確定的待處理的分割結果;步驟407、用戶設備向雲端伺服器發送待處理的分割結果;步驟408、對待處理的分割結果進行自然語言處理。
本實施例藉由用戶設備與雲端伺服器的交互,使得用戶不僅可以獲知分割結果資訊,還可以確定待處理的分割結果,提高了用戶體驗。
下面採用具體的實施例,對本實施例中的用戶設備獲取用戶輸入的待分割的文本,以及用戶設備向用戶輸出分割結果資訊進行詳細說明。在本實施例中,以透過電商平台進行購物為例,來進行詳細說明。本領域技術人員可以理解,該場景僅為示意性的場景,該方法還可以應用到網頁搜索等場景中,本實施例對具體的場景不做特別限制。
圖13為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。在本實施例中,用戶可在用戶設備的顯示介面的搜索框中輸入待查看的商品的類型。如圖13所示,用戶在顯示介面的搜索框中輸入了“slee pshirt”的文本,則用戶設備將該文本發送給雲端伺服器。雲端伺服器在獲取到待分割的文本後,對該待分割的文本進行處理,得到待分割的字串“sleepshirt”。然後雲端伺服器對該待分割的字串進行分割處理,具體的分割處理過程以及分割處理結果,可參見圖5所示的實施例,本實施例此處不再贅述。
在本實施例中,當雲端伺服器獲取到分割結果之後,雲端伺服器向用戶設備返回分割結果資訊。用戶設備在接收到分割結果資訊之後,根據該分割結果資訊向用戶輸出分割結果。下面結合圖14至圖18來具體說明用戶設備輸出分割結果的實現過程。
圖14為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。在本實施例中,分割結果資訊中包括待分割的字串的分割結果,則對應地在用戶設備的顯示介面上顯示該分割結果。如圖14所示,在顯示介面上顯示有分割結果“sleep shirt”。
圖15為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。在本實施例中,分割結果資訊中包括待分割的字串的分割結果、分割結果對應的分割類型,分割類型為正向分割或反向分割。對應地,在用戶設備的顯示介 面上顯示該分割結果以及分割結果的分割類型。如圖15所示,在顯示介面上顯示有分割結果“sleep shirt”,並顯示有分割結果的分割類型“反向分割”。
圖16為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。在本實施例中,分割結果資訊中包括正向分割結果、反向分割結果,以及最終的分割結果。對應地,在用戶設備的顯示介面上顯示正向分割結果和反向分割結果,並標注待分割字串對應的分割結果。如圖16所示,在顯示介面上顯示有反向分割結果“sleep shirt”以及正向分割結果“sleeps hirt”,並藉由灰色背影標注待分割字串對應的分割結果為反向分割結果。
圖17為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。本實施例在圖16實施例的基礎上,分割結果資訊中還包括正向分割結果中的各第一單詞的詞頻和反向分割結果中的各第二單詞的詞頻。對應地,在圖17所示的顯示介面上,顯示有反向分割結果以及反向分割結果中的各第二單詞的詞頻,還顯示有正向分割結果以及正向分割結果中的各第一單詞的詞頻。在本實施例中,用戶設備在獲取到分割結果資訊之後,可以直接在顯示介面上顯示圖17所示的內容,也可以先在顯示介面上顯示如圖16所示的內容,然後當獲取到用戶操作顯示介面觸發的詞頻顯示指令後,根據詞頻顯示指令,顯示各第一單詞的詞頻和/或各第二單詞的詞頻。本領域技術人員可以理解,當根據詞頻顯示指令顯示各第一單詞的詞頻和各第二 單詞的詞頻時,具體的顯示內容可如圖17所示。
圖18為本發明一實施例提供的字串的分詞方法的顯示介面示意圖。本實施例在圖16實施例的基礎上,分割資訊中還包括正向分割結果中的各第一單詞對應的第一詞頻和值以及反向分割結果中的各第二單詞對應的第二詞頻和值。對應地,在圖18所示的顯示介面上,顯示有反向分割結果以及各第二單詞對應的第二詞頻和值,還顯示有正向分割結果以及各第一單詞對應的第一詞頻和值。在本實施例中,用戶設備在獲取到分割結果資訊之後,可以直接在顯示介面上顯示圖18所示的內容,也可以先在顯示介面上顯示如圖16所示的內容,然後當獲取到用戶操作顯示介面觸發的詞頻顯示指令後,根據詞頻顯示指令,顯示所述第一詞頻和值和/或所述第二詞頻和值。本領域技術人員可以理解,當根據詞頻顯示指令顯示第一詞頻和值和第二詞頻和值時,具體的顯示內容可如圖18所示。
在上述圖16至圖18所示的實施例中,用戶可以藉由操作顯示介面來決定雲端伺服器的待處理的分割結果。具體地,用戶可以藉由點擊、滑動等操作方式來操作正向分割結果或反向分割結果。用戶設備可以根據用戶對正向分割結果或反向分割結果的操作方式,來獲取操作資訊,根據操作資訊來確定待處理的分割結果。在本實施例中,在用戶執行點擊“sleep shirt”輸出框的操作時,用戶設備根據該點擊操作來獲取操作資訊,具體的操作資訊為反向分割結果被用戶選擇,用戶設備根據該操作資訊確定待處 理的分割結果為反向分割結果。然後,用戶設備將待處理的分割結果回饋給雲端伺服器,由雲端伺服器對待處理的分割結果進行後續處理。
在本實施例中,由於同時在顯示介面上顯示了正向分割結果以及反向分割結果,則用戶可以根據正向分割結果以及反向分割結果來確定自己需要查詢或搜索的物件,提高了搜索的準確性和有效性。進一步地,本實施例還在顯示介面上顯示詞頻,用戶在看到該詞頻後,能夠快速做出更正確的判斷,提高了用戶體驗。
以下將詳細描述根據本申請的一個或多個實施例的字串的分詞裝置。該字串的分詞裝置可以被實現在各種設備上,例如,服務端設備、伺服器、網路服務器等。本領域技術人員可以理解,該字串的分詞裝置均可使用市售的硬體元件藉由本方案所教導的步驟進行配置來構成。例如,下述實施例中的涉及控制功能、更新功能的模組可以使用來自德州儀器公司、英特爾公司、ARM公司等企業的單晶片、微控制器、微處理器等元件實現。
下述為本申請裝置實施例,可以用於執行本申請方法實施例。對於本申請裝置實施例中未披露的細節,請參照本申請方法實施例。
圖19為本發明一實施例提供的字串的分詞裝置的結構示意圖。如圖19所示,該裝置包括:第一分割模組10,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞; 第二分割模組11,用於獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;詞頻獲取模組12,用於獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;結果確定模組13,用於根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
本申請實施例提供的字串的分詞裝置,可以執行上述方法實施例,其實現原理和技術效果類似,在此不再贅述。
圖20為本發明一實施例提供的字串的分詞裝置的結構示意圖。本實施例在圖19實施例的基礎上實現,具體如下:可選地,所述第一分割模組10具體用於,對所述待分割的字串進行正向分割的操作,判斷是否獲取到第一單詞;若是,將除去所述第一單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;若否,對所述待分割的字串的正向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串 進行正向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到正向分割結果。
可選地,所述第二分割模組11具體用於,對所述待分割的字串進行反向分割的操作,判斷是否獲取到第二單詞;若是,將除去所述第二單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;若否,對所述待分割的字串的反向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到反向分割結果。
可選地,還包括:文本獲取模組14,用於獲取待分割的文本,對所述待分割的文本進行符號刪除操作,得到所述待分割的字串。
可選地,還包括:字典樹建構模組15,用於建構正向字典樹和反向字典樹;所述第一分割模組10具體用於,根據所述正向字典樹,對所述待分割的字串進行正向分割的操作;所述第二分割模組11具體用於, 根據所述反向字典樹,對所述待分割的字串進行反向分割的操作。
可選地,所述正向字典樹的每個第一節點中儲存有所述第一節點對應的單詞的詞頻,所述反向字典樹的每個第二節點中儲存有所述第二節點對應的單詞的詞頻;所述詞頻獲取模組12具體用於,從所述第一單詞對應的第一節點中獲取所述第一單詞的詞頻;從所述第二單詞對應的第二節點中獲取所述第二單詞的詞頻。
可選地,還包括:語料庫建構模組16,用於建構語料庫,所述語料庫包括單詞庫和所述單詞庫中的單詞的詞頻;所述字典樹建構模組15具體用於,根據所述語料庫,建構正向字典樹和反向字典樹,並將各單詞的詞頻儲存至對應的第一節點和第二節點。
可選地,所述預設文本包括:滿足預設使用條件的文本以及待分割的文本;所述語料庫建構模組16具體用於,根據滿足預設使用條件的詞典,得到單詞庫;確定所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數;根據所述單詞庫、所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數, 建構所述語料庫。
可選地,所述語料庫建構模組16具體用於,根據所述待分割的文本中的空白字元,獲取至少一個第一字串;將所述至少一個第一字串與所述單詞庫中的單詞進行匹配,得到與所述單詞庫中的單詞匹配的至少一個第二字串;根據各所述第二字串在所述待分割的文本中出現的次數,確定單詞庫中的單詞在所述待分割的文本中出現的次數。
可選地,所述結果確定模組13具體用於,對所有所述第一單詞的詞頻進行求和處理,得到第一詞頻和值;對所有所述第二單詞的詞頻進行求和處理,得到第二詞頻和值;若所述第一詞頻和值大於所述第二詞頻和值,則確定所述待分割的字串的分割結果為正向分割結果;若所述第二詞頻和值大於所述第一詞頻和值,則確定所述待分割的字串的分割結果為反向分割結果。
可選地,還包括:回饋模組17;所述文本獲取模組14具體用於,獲取用戶設備發送的所述待分割的文本;所述回饋模組17用於,向所述用戶設備回饋所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述 待分割的字串的分割結果,以使所述用戶設備向用戶輸出所述分割結果。
可選地,還包括:結果獲取模組18和處理模組19,所述結果獲取模組18用於,獲取所述用戶設備發送的待處理的分割結果;所述處理模組19用於,對所述待處理的分割結果進行自然語言處理。
本申請實施例提供的字串的分詞裝置,可以執行上述方法實施例,其實現原理和技術效果類似,在此不再贅述。
圖21為本發明一實施例提供的字串的分詞裝置的結構示意圖。如圖21所示,該裝置包括:發送模組20,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;接收模組21,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;輸出模組22,用於向用戶輸出所述分割結果。
本申請實施例提供的字串的分詞裝置,可以執行上述方法實施例,其實現原理和技術效果類似,在此不再贅述。
圖22為本發明一實施例提供的字串的分詞裝置的結構示意圖。如圖22所示,本實施例在圖21所示實施例的基礎上實現,具體如下:所述輸出模組22具體用於,在顯示介面上顯示所述分割結果。
可選地,所述分割結果資訊中還包括所述分割結果對應的分割類型,所述分割類型為正向分割或反向分割;所述輸出模組22具體用於,在顯示介面上顯示所述分割結果以及所述分割結果的分割類型。
可選地,若所述分割結果為正向分割結果,則所述分割資訊中還包括反向分割結果;或者若所述分割結果為反向分割結果,則所述分割資訊中還包括正向分割結果;所述輸出模組22具體用於,在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果。
可選地,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞的詞頻和所述反向分割結果中的各所述第二單詞的詞頻;所述顯示裝置還包括:指令獲取模組23,用於獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;所述輸出模組22還用於,根據所述詞頻顯示指令,顯示各所述第一單詞的詞頻和/或各所述第二單詞的詞頻; 或者所述輸出模組22具體用於,在所述顯示介面上顯示所述正向分割結果、所述正向分割結果中的第一單詞的詞頻,以及所述反向分割結果、所述反向分割結果中的第二單詞的詞頻。
可選地,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞對應的第一詞頻和值以及所述反向分割結果中的各所述第二單詞對應的第二詞頻和值;所述顯示裝置還包括:指令獲取模組23,用於獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;所述輸出模組22還用於,根據所述詞頻顯示指令,顯示所述第一詞頻和值和/或所述第二詞頻和值;或者所述輸出模組22具體用於,在所述顯示介面上顯示所述正向分割結果、所述第一詞頻和值,以及所述反向分割結果、所述第二詞頻和值。
可選地,還包括:操作資訊獲取模組24,用於獲取所述用戶對所述顯示介面上的所述正向分割結果或反向分割結果的操作資訊,確定模組25,用於根據所述操作資訊確定待處理的分割結果;所述發送模組20還用於,向所述雲端伺服器發送所述待處理的分割結果,以使所述雲端伺服器對所述待處理的分割結果進行自然語言處理。
本申請實施例提供的字串的分詞裝置,可以執行上述方法實施例,其實現原理和技術效果類似,在此不再贅述。
圖23為本發明一實施例提供的字串的分詞設備的硬體結構示意圖。如圖23所示,該字串的分詞設備可以包括輸入設備30、處理器31、記憶體32和至少一個通信匯流排33以及輸出設備34。通信匯流排33用於實現元件之間的通信連接。記憶體32可能包含高速RAM記憶體,也可能還包括非易失性記憶體NVM,例如至少一個磁碟記憶體,記憶體32中可以儲存各種程式,用於完成各種處理功能以及實現本實施例的方法步驟。
在本實施例中,輸入設備30,用於獲取待分割的文本;處理器31,耦合至所述輸入設備30,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
輸出設備34,用於向用戶設備回饋所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的 字串的分割結果,以使所述用戶設備向用戶輸出所述分割結果。
可選地,該處理器31還用於執行上述圖2至圖10所述的方法,輸入設備30對應執行輸入操作,輸出設備34對應執行輸出操作,具體實現過程,可參見上述實施例,本實施例此處不再贅述。
圖24為本發明一實施例提供的雲端伺服器的硬體結構示意圖。如圖24所示,該雲端伺服器可以包括輸入設備40、處理器41、記憶體42和至少一個通信匯流排43以及輸出設備44。通信匯流排43用於實現元件之間的通信連接。記憶體42可能包含高速RAM記憶體,也可能還包括非易失性記憶體NVM,例如至少一個磁碟記憶體,記憶體42中可以儲存各種程式,用於完成各種處理功能以及實現本實施例的方法步驟。
在本實施例中,輸入設備40,用於獲取待分割的文本;處理器41,耦合至所述輸入設備40,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果 為所述正向分割結果或所述反向分割結果。
輸出設備44,用於向用戶設備回饋所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果,以使所述用戶設備向用戶輸出所述分割結果。
可選地,該處理器41還用於執行上述圖2至圖10所述的方法,輸入設備40對應執行輸入操作,輸出設備44對應至少輸出操作,具體實現過程,可參見上述實施例,本實施例此處不再贅述。
圖25為本發明一實施例提供的字串的分詞設備的硬體結構示意圖。如圖25所示,該字串的分詞設備可以包括輸入設備50、處理器51、記憶體52和至少一個通信匯流排53以及輸出設備54。通信匯流排53用於實現元件之間的通信連接。記憶體52可能包含高速RAM記憶體,也可能還包括非易失性記憶體NVM,例如至少一個磁碟記憶體,記憶體52中可以儲存各種程式,用於完成各種處理功能以及實現本實施例的方法步驟。
其中,輸出設備54,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入設備50,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的 分割結果為所述正向分割結果或所述反向分割結果;處理器51,用於根據所述分割結果資訊,控制所述輸入設備向用戶輸出所述分割結果。
可選地,該處理器51還用於執行上述圖11至圖18所示的方法,輸入設備50對應執行輸入操作,輸出設備54對應至少輸出操作,具體實現過程,可參見上述實施例,本實施例此處不再贅述。
圖26為本發明一實施例提供的用戶設備的硬體結構示意圖。如圖26所示,該字串的分詞設備可以包括輸入設備60、處理器61、記憶體62和至少一個通信匯流排63以及輸出設備64。通信匯流排63用於實現元件之間的通信連接。記憶體62可能包含高速RAM記憶體,也可能還包括非易失性記憶體NVM,例如至少一個磁碟記憶體,記憶體62中可以儲存各種程式,用於完成各種處理功能以及實現本實施例的方法步驟。
其中,輸出設備64,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入設備60,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;處理器61,用於根據所述分割結果資訊,控制所述 輸入設備向用戶輸出所述分割結果。
可選地,該處理器61還用於執行上述圖11至圖18所示的方法,輸入設備60對應執行輸入操作,輸出設備64對應至少輸出操作,具體實現過程,可參見上述實施例,本實施例此處不再贅述。
在上述圖23至圖26所示的實施例中,上述處理器例如可以為中央處理器(Central Processing Unit,簡稱CPU)、特殊應用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式邏輯裝置(PLD)、現場可程式閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現。
上述輸入裝置可以包括多種輸入裝置,例如可以包括面向用戶的用戶介面、面向設備的設備介面、軟體的可程式設計介面、收發信機中的至少一個。可選的,該面向設備的設備介面可以是用於設備與設備之間進行資料傳輸的有線介面、還可以是用於設備與設備之間進行資料傳輸的硬體插入介面(例如USB介面、串口等);可選的,該面向用戶的用戶介面例如可以是面向用戶的控制按鍵、用於接收語音輸入的語音輸入裝置以及用戶接收用戶觸摸輸入的觸摸感知設備(例如具有觸摸感應功能的觸控式螢幕、觸控板等);可選的,上述軟體的可程式設計介面例如可以是供用戶編輯或者修改程式的入口,例如晶片的輸入引腳介面或者輸入介面等;可選的,上述收發信機可以是具有通信功能的射頻收發晶片、基帶處理晶片以及收發 天線等。
上述輸出設備可以包括多種輸出設備,例如可以包括面向用戶的用戶介面、面向設備的設備介面、軟體的可程式設計介面、收發信機中的至少一個。可選的,該面向設備的設備介面可以是用於設備與設備之間進行資料傳輸的有線介面、還可以是用於設備與設備之間進行資料傳輸的硬體插入介面(例如USB介面、串口等);可選的,該面向用戶的用戶介面例如可以是面向用戶的顯示裝置或語音輸出設備;可選的,上述軟體的可程式設計介面例如可以是供用戶編輯或者修改程式的入口,例如晶片的輸入引腳介面或者輸入介面等;可選的,上述收發信機可以是具有通信功能的射頻收發晶片、基帶處理晶片以及收發天線等。
在本發明實施例中使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本發明。在本發明實施例和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。
應當理解,本文中使用的術語“和/或”僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字元“/”,一般表示前後關聯物件是一種“或”的關係。
應當理解,儘管在本發明實施例中可能採用術語第 一、第二、第三等來描述XXX,但這些XXX不應限於這些術語。這些術語僅用來將XXX彼此區分開。例如,在不脫離本發明實施例範圍的情況下,第一XXX也可以被稱為第二XXX,類似地,第二XXX也可以被稱為第一XXX。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的商品或者系統不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種商品或者系統所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的商品或者系統中還存在另外的相同要素。
上述可讀儲存媒體可以是由任何類型的易失性或非易失性儲存裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可抹除可程式唯讀記憶體(EEPROM),可抹除可程式唯讀記憶體(EPROM),可程式唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
最後應說明的是:以上各實施例僅用以說明本申請案的技術方案,而非對其限制;儘管參照前述各實施例對本申請案進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本申 請案各實施例技術方案的範圍。

Claims (46)

  1. 一種字串的分詞方法,其特徵在於,包括:獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
  2. 根據申請專利範圍第1項所述的方法,其中,所述獲取待分割的字串的正向分割結果,包括:對所述待分割的字串進行正向分割的操作,判斷是否獲取到第一單詞;若是,將除去所述第一單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;若否,對所述待分割的字串的正向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作; 重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到正向分割結果。
  3. 根據申請專利範圍第1項所述的方法,其中,所述獲取待分割的字串反向分割結果,包括:對所述待分割的字串進行反向分割的操作,判斷是否獲取到第二單詞;若是,將除去所述第二單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;若否,對所述待分割的字串的反向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到反向分割結果。
  4. 根據申請專利範圍第1至3項中任一項所述的方法,其中,還包括:獲取待分割的文本,對所述待分割的文本進行符號刪除操作,得到所述待分割的字串。
  5. 根據申請專利範圍第2或3項所述的方法,其中,還包括:建構正向字典樹和反向字典樹;所述對所述待分割的字串進行正向分割的操作,包括: 根據所述正向字典樹,對所述待分割的字串進行正向分割的操作;所述對所述待分割的字串進行反向分割的操作,包括:根據所述反向字典樹,對所述待分割的字串進行反向分割的操作。
  6. 根據申請專利範圍第5項所述的方法,其中,所述正向字典樹的每個第一節點中儲存有所述第一節點對應的單詞的詞頻,所述反向字典樹的每個第二節點中儲存有所述第二節點對應的單詞的詞頻;所述獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,包括:從所述第一單詞對應的第一節點中獲取所述第一單詞的詞頻;從所述第二單詞對應的第二節點中獲取所述第二單詞的詞頻。
  7. 根據申請專利範圍第6項所述的方法,其中,所述建構正向字典樹和反向字典樹之前,還包括:建構語料庫,所述語料庫包括單詞庫和所述單詞庫中的單詞的詞頻;所述建構正向字典樹和反向字典樹,包括:根據所述語料庫,建構正向字典樹和反向字典樹,並將各單詞的詞頻儲存至對應的第一節點和第二節點。
  8. 根據申請專利範圍第7項所述的方法,其中,所述 預設文本包括:滿足預設使用條件的文本以及待分割的文本;所述建構語料庫,包括:根據滿足預設使用條件的詞典,得到單詞庫;確定所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數;根據所述單詞庫、所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數,建構所述語料庫。
  9. 根據申請專利範圍第8項所述的方法,其中,所述確定單詞庫中的單詞在所述待分割的文本中出現的次數,包括:根據所述待分割的文本中的空白字元,獲取至少一個第一字串;將所述至少一個第一字串與所述單詞庫中的單詞進行匹配,得到與所述單詞庫中的單詞匹配的至少一個第二字串;根據各所述第二字串在所述待分割的文本中出現的次數,確定單詞庫中的單詞在所述待分割的文本中出現的次數。
  10. 根據申請專利範圍第1項所述的方法,其中,所述根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,包括:對所有所述第一單詞的詞頻進行求和處理,得到第一詞頻和值; 對所有所述第二單詞的詞頻進行求和處理,得到第二詞頻和值;若所述第一詞頻和值大於所述第二詞頻和值,則確定所述待分割的字串的分割結果為正向分割結果;若所述第二詞頻和值大於所述第一詞頻和值,則確定所述待分割的字串的分割結果為反向分割結果。
  11. 根據申請專利範圍第1至3項中任一項所述的方法,其中,所述正向分割和所述反向分割均採用最長單詞分割方式。
  12. 根據申請專利範圍第4項所述的方法,其中,所述獲取待分割的文本,包括:獲取用戶設備發送的所述待分割的文本;所述確定所述待分割的字串的分割結果之後,還包括:向所述用戶設備回饋所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果,以使所述用戶設備向用戶輸出所述分割結果。
  13. 根據申請專利範圍第12項所述的方法,其中,所述分割結果資訊中還包括所述分割結果對應的分割類型,所述分割類型為正向分割或反向分割。
  14. 根據申請專利範圍第12項所述的方法,其中,若所述分割結果為正向分割結果,則所述分割資訊中還包括反向分割結果;或者若所述分割結果為反向分割結果,則所述分割資訊中 還包括正向分割結果。
  15. 根據申請專利範圍第14項所述的方法,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞的詞頻和所述反向分割結果中的各所述第二單詞的詞頻。
  16. 根據申請專利範圍第14項所述的方法,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞對應的第一詞頻和值以及所述反向分割結果中的各所述第二單詞對應的第二詞頻和值。
  17. 根據申請專利範圍第12項所述的方法,其中,所述向所述用戶設備回饋所述待分割的字串的分割結果資訊之後,還包括:獲取所述用戶設備發送的待處理的分割結果;對所述待處理的分割結果進行自然語言處理。
  18. 一種字串的分詞方法,其特徵在於,包括:向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;向用戶輸出所述分割結果。
  19. 根據申請專利範圍第18項所述的方法,其中,所述向用戶輸出所述分割結果,包括:在顯示介面上顯示所述分割結果。
  20. 根據申請專利範圍第19項所述的方法,其中,所述分割結果資訊中還包括所述分割結果對應的分割類型,所述分割類型為正向分割或反向分割;所述在顯示介面上顯示所述分割結果,包括:在顯示介面上顯示所述分割結果以及所述分割結果的分割類型。
  21. 根據申請專利範圍第19項所述的方法,其中,若所述分割結果為正向分割結果,則所述分割資訊中還包括反向分割結果;或者若所述分割結果為反向分割結果,則所述分割資訊中還包括正向分割結果;所述在顯示介面上顯示所述分割結果,包括:在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果。
  22. 根據申請專利範圍第21項所述的方法,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞的詞頻和所述反向分割結果中的各所述第二單詞的詞頻;在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果之後,還包括: 獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;根據所述詞頻顯示指令,顯示各所述第一單詞的詞頻和/或各所述第二單詞的詞頻;或者在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,包括:在所述顯示介面上顯示所述正向分割結果、所述正向分割結果中的第一單詞的詞頻,以及所述反向分割結果、所述反向分割結果中的第二單詞的詞頻。
  23. 根據申請專利範圍第21項所述的方法,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞對應的第一詞頻和值以及所述反向分割結果中的各所述第二單詞對應的第二詞頻和值;在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果之後,還包括:獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;根據所述詞頻顯示指令,顯示所述第一詞頻和值和/或所述第二詞頻和值;或者在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,包括: 在所述顯示介面上顯示所述正向分割結果、所述第一詞頻和值,以及所述反向分割結果、所述第二詞頻和值。
  24. 根據申請專利範圍第21至23項中任一項所述的方法,其中,所述在所述顯示介面上顯示所述正向分割結果和所述反向分割結果之後,還包括:獲取所述用戶對所述顯示介面上的所述正向分割結果或反向分割結果的操作資訊,根據所述操作資訊確定待處理的分割結果;向所述雲端伺服器發送所述待處理的分割結果,以使所述雲端伺服器對所述待處理的分割結果進行自然語言處理。
  25. 一種字串的分詞裝置,其特徵在於,包括:第一分割模組,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞;第二分割模組,用於獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;詞頻獲取模組,用於獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;結果確定模組,用於根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
  26. 根據申請專利範圍第25項所述的裝置,其中,所 述第一分割模組具體用於,對所述待分割的字串進行正向分割的操作,判斷是否獲取到第一單詞;若是,將除去所述第一單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;若否,對所述待分割的字串的正向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行正向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到正向分割結果。
  27. 根據申請專利範圍第25項所述的裝置,其中,所述第二分割模組具體用於,對所述待分割的字串進行反向分割的操作,判斷是否獲取到第二單詞;若是,將除去所述第二單詞的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;若否,對所述待分割的字串的反向的首字元進行刪除處理,得到處理後的待分割的字串,將處理後的待分割的字串作為新的待分割的字串,並返回執行對待分割的字串進行反向分割的操作;重複執行對所述待分割的字串進行正向分割的操作,直至對所述待分割的字串分割結束,得到反向分割結果。
  28. 根據申請專利範圍第25至27項中任一項所述的裝置,其中,還包括:文本獲取模組,用於獲取待分割的文本,對所述待分割的文本進行符號刪除操作,得到所述待分割的字串。
  29. 根據申請專利範圍第25至27項中任一項所述的裝置,其中,還包括:字典樹建構模組,用於建構正向字典樹和反向字典樹;所述第一分割模組具體用於,根據所述正向字典樹,對所述待分割的字串進行正向分割的操作;所述第二分割模組具體用於,根據所述反向字典樹,對所述待分割的字串進行反向分割的操作。
  30. 根據申請專利範圍第29項所述的裝置,其中,所述正向字典樹的每個第一節點中儲存有所述第一節點對應的單詞的詞頻,所述反向字典樹的每個第二節點中儲存有所述第二節點對應的單詞的詞頻;所述詞頻獲取模組具體用於,從所述第一單詞對應的第一節點中獲取所述第一單詞的詞頻;從所述第二單詞對應的第二節點中獲取所述第二單詞的詞頻。
  31. 根據申請專利範圍第30項所述的裝置,其中,還包括:語料庫建構模組,用於建構語料庫,所述語料庫包 括單詞庫和所述單詞庫中的單詞的詞頻;所述字典樹建構模組具體用於,根據所述語料庫,建構正向字典樹和反向字典樹,並將各單詞的詞頻儲存至對應的第一節點和第二節點。
  32. 根據申請專利範圍第31項所述的裝置,其中,所述預設文本包括:滿足預設使用條件的文本以及待分割的文本;所述語料庫建構模組具體用於,根據滿足預設使用條件的詞典,得到單詞庫;確定所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數;根據所述單詞庫、所述單詞庫中的單詞在所述滿足預設使用條件的文本以及所述待分割的文本中出現的次數,建構所述語料庫。
  33. 根據申請專利範圍第32項所述的裝置,其中,所述語料庫建構模組具體用於,根據所述待分割的文本中的空白字元,獲取至少一個第一字串;將所述至少一個第一字串與所述單詞庫中的單詞進行匹配,得到與所述單詞庫中的單詞匹配的至少一個第二字串;根據各所述第二字串在所述待分割的文本中出現的次數,確定單詞庫中的單詞在所述待分割的文本中出現的次數。
  34. 根據申請專利範圍第28項所述的裝置,其中,還 包括:回饋模組;所述文本獲取模組具體用於,獲取用戶設備發送的所述待分割的文本;所述回饋模組用於,向所述用戶設備回饋所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果,以使所述用戶設備向用戶輸出所述分割結果。
  35. 根據申請專利範圍第34項所述的裝置,其中,還包括:結果獲取模組和處理模組,所述結果獲取模組用於,獲取所述用戶設備發送的待處理的分割結果;所述處理模組用於,對所述待處理的分割結果進行自然語言處理。
  36. 一種字串的分詞裝置,其特徵在於,包括:發送模組,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;接收模組,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;輸出模組,用於向用戶輸出所述分割結果。
  37. 根據申請專利範圍第36項所述的分詞裝置,其 中,所述輸出模組具體用於,在顯示介面上顯示所述分割結果。
  38. 根據申請專利範圍第37項所述的分詞裝置,其中,所述分割結果資訊中還包括所述分割結果對應的分割類型,所述分割類型為正向分割或反向分割;所述輸出模組具體用於,在顯示介面上顯示所述分割結果以及所述分割結果的分割類型。
  39. 根據申請專利範圍第37項所述的分詞裝置,其中,若所述分割結果為正向分割結果,則所述分割資訊中還包括反向分割結果;或者若所述分割結果為反向分割結果,則所述分割資訊中還包括正向分割結果;所述輸出模組具體用於,在所述顯示介面上顯示所述正向分割結果和所述反向分割結果,並標注所述待分割字串對應的分割結果。
  40. 根據申請專利範圍第39項所述的分詞裝置,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞的詞頻和所述反向分割結果中的各所述第二單詞的詞頻;所述顯示裝置還包括:指令獲取模組,用於獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;所述輸出模組還用於,根據所述詞頻顯示指令,顯示各所述第一單詞的詞頻和/或各所述第二單詞的詞頻;或者 所述輸出模組具體用於,在所述顯示介面上顯示所述正向分割結果、所述正向分割結果中的第一單詞的詞頻,以及所述反向分割結果、所述反向分割結果中的第二單詞的詞頻。
  41. 根據申請專利範圍第39項所述的分詞裝置,其中,所述分割資訊中還包括所述正向分割結果中的各所述第一單詞對應的第一詞頻和值以及所述反向分割結果中的各所述第二單詞對應的第二詞頻和值;所述顯示裝置還包括:指令獲取模組,用於獲取所述用戶操作所述顯示介面觸發的詞頻顯示指令;所述輸出模組還用於,根據所述詞頻顯示指令,顯示所述第一詞頻和值和/或所述第二詞頻和值;或者所述輸出模組具體用於,在所述顯示介面上顯示所述正向分割結果、所述第一詞頻和值,以及所述反向分割結果、所述第二詞頻和值。
  42. 根據申請專利範圍第39至41項中任一項所述的分詞裝置,其中,還包括:操作資訊獲取模組,用於獲取所述用戶對所述顯示介面上的所述正向分割結果或反向分割結果的操作資訊,確定模組,用於根據所述操作資訊確定待處理的分割結果;所述發送模組還用於,向所述雲端伺服器發送所述待處理的分割結果,以使所述雲端伺服器對所述待處理的分 割結果進行自然語言處理。
  43. 一種字串的分詞設備,其特徵在於,包括:輸入裝置,用於獲取待分割的文本;處理器,耦合至所述輸入裝置,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
  44. 一種雲端伺服器,其特徵在於,包括:輸入裝置,用於獲取待分割的文本;處理器,耦合至所述輸入裝置,用於獲取待分割的字串的正向分割結果,所述正向分割結果包括至少一個第一單詞,並獲取所述待分割的字串的反向分割結果,所述反向分割結果包括至少一個第二單詞;獲取各所述第一單詞的詞頻和各所述第二單詞的詞頻,所述詞頻為預先確定的各單詞在預設文本中出現的次數;根據各所述第一單詞的詞頻以及各所述第二單詞的詞頻,確定所述待分割的字串的分割結果,其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果。
  45. 一種字串的分詞設備,其特徵在於,包括: 輸出設備,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入裝置,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;處理器,耦合至所述輸出設備和所述輸入裝置,用於根據所述分割結果資訊,控制所述輸入裝置向用戶輸出所述分割結果。
  46. 一種用戶設備,其特徵在於,包括:輸出設備,用於向雲端伺服器發送用戶輸入的待分割的文本,以使所述雲端伺服器獲取待分割的字串,並根據正向分割結果中的各第一單詞的詞頻以及反向分割結果中的各第二單詞的詞頻確定分割結果;輸入裝置,用於接收所述雲端伺服器回饋的所述待分割的字串的分割結果資訊,所述分割結果資訊包括所述待分割的字串的分割結果;其中,所述待分割的字串的分割結果為所述正向分割結果或所述反向分割結果;處理器,耦合至所述輸出設備和所述輸入裝置,用於根據所述分割結果資訊,控制所述輸入裝置向用戶輸出所述分割結果。
TW106118549A 2016-07-13 2017-06-05 字串的分詞方法、裝置及設備 TW201804341A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610552115.0A CN107622044A (zh) 2016-07-13 2016-07-13 字符串的分词方法、装置及设备
??201610552115.0 2016-07-13

Publications (1)

Publication Number Publication Date
TW201804341A true TW201804341A (zh) 2018-02-01

Family

ID=60952791

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106118549A TW201804341A (zh) 2016-07-13 2017-06-05 字串的分詞方法、裝置及設備

Country Status (3)

Country Link
CN (1) CN107622044A (zh)
TW (1) TW201804341A (zh)
WO (1) WO2018010579A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657738B (zh) * 2018-10-25 2024-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN109522550B (zh) * 2018-11-08 2023-04-07 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质
CN109800435B (zh) * 2019-01-29 2023-06-20 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN111078083A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读内容的确定方法及电子设备
CN110532112B (zh) * 2019-08-29 2022-10-04 维沃移动通信有限公司 一种对象提取方法及移动终端
CN111310450B (zh) * 2020-03-23 2023-07-14 中国建设银行股份有限公司 一种字符串分词方法、装置、设备及存储介质
CN113569027B (zh) * 2021-07-27 2024-02-13 北京百度网讯科技有限公司 一种文档标题处理方法、装置及电子设备
CN113591440B (zh) * 2021-07-29 2023-08-01 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN117422071B (zh) * 2023-12-19 2024-03-15 中南大学 一种文本词项多重分割标注转换方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN102915299B (zh) * 2012-10-23 2015-04-08 海信集团有限公司 一种分词方法及装置
CN103699524A (zh) * 2013-12-18 2014-04-02 百度在线网络技术(北京)有限公司 分词方法和移动终端
CN103646018B (zh) * 2013-12-20 2016-06-29 大连大学 一种基于hash散列表词典结构的中文分词方法
CN103678282B (zh) * 2014-01-07 2016-05-25 苏州思必驰信息科技有限公司 一种分词方法及装置
CN104899187A (zh) * 2014-03-06 2015-09-09 武汉元宝创意科技有限公司 人机交互的分词与语义标示的方法与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備

Also Published As

Publication number Publication date
WO2018010579A1 (zh) 2018-01-18
CN107622044A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
TW201804341A (zh) 字串的分詞方法、裝置及設備
US11023505B2 (en) Method and apparatus for pushing information
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
TWI636452B (zh) 語音識別方法及系統
US10073840B2 (en) Unsupervised relation detection model training
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
US20150067476A1 (en) Title and body extraction from web page
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
KR101393794B1 (ko) 입력기의 종류를 결정하는 단말기 및 방법
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
JP2018081702A (ja) 文抽出方法及びシステム
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫系统
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
US9946813B2 (en) Computer-readable recording medium, search support method, search support apparatus, and responding method
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN109074547B (zh) 基于消息内容的文本消息排序
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN108763202A (zh) 识别敏感文本的方法、装置、设备及可读存储介质
US11468346B2 (en) Identifying sequence headings in a document
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
WO2021139076A1 (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质
US11494555B2 (en) Identifying section headings in a document