TWI664540B

TWI664540B - Search word error correction method and device, and weighted edit distance calculation method and device

Info

Publication number: TWI664540B
Application number: TW106129000A
Authority: TW
Inventors: 胡軍; 陳英傑; 王天暢; 葉澄燦
Original assignee: 大陸商北京奇藝世紀科技有限公司
Priority date: 2016-08-31
Filing date: 2017-08-25
Publication date: 2019-07-01
Also published as: WO2018040899A1; US20190179855A1; US11574012B2; CN106326484A; KR20190020119A; CA3029588A1; AU2017317878B2; SG11201900084PA; MY193919A; JP6997781B2; EP3508992A4; KR102204971B1; TW201812619A; AU2017317878A1; CA3029588C; EP3508992A1; JP2019526142A

Abstract

本發明提供一種搜索詞糾錯方法及裝置。該方法包括：識別出錯誤的搜索詞；利用加權編輯距離演算法，計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重；根據所述加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。本發明可提高對錯誤搜索詞的糾錯準確率。

Description

搜索詞糾錯方法及裝置、以及加權編輯距離計算方法及裝置

本發明關於電腦技術領域，特別是關於一種搜索詞糾錯方法及裝置。

用戶輸入搜索詞中往往包含大量的錯別字，導致搜索結果不能滿足用戶的需求。錯誤搜索詞產生的原因比較複雜，主要包括：同音字選字錯誤、拼音拼寫錯誤、字形輸入錯誤等。為了解決上述問題，可以採用糾錯提示的方式，在搜尋網頁面提示用戶輸入的搜索詞可能不準確，並根據其輸入的搜索詞，推薦相關可能的搜索詞。傳統糾錯技術，大多採用編輯距離技術將原詞與詞典中的詞條比較，然後，選擇與原詞編輯距離最小的K個詞條。編輯操作包括：1)將一個字符替換成另一個字符，2)插入一個字符，3)刪除一個字符。這種編輯操作並未考慮替換字符之間的關係，很多情況下，這種傳統的編輯距離效果並不是很好。

為了提高搜索詞糾錯準確率，本發明實施例提供一種搜索詞糾錯方法及裝置。

根據本發明一個方面，提供一種搜索詞糾錯方法，包括：識別出錯誤的搜索詞；利用加權編輯距離演算法，計算所述搜索詞與預先獲取的熱詞(hot word)之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重；根據所述加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。

較佳的，所述利用加權編輯距離演算法，計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離，包括：定義狀態轉移方程式，用於表示所述搜索詞與熱詞之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示搜索詞和熱詞之間對應位置的字符；根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解所述狀態轉移方程式在相應操作的解；根據所述狀態轉移方程式的解，得到所述加權編輯距離。

較佳的，所述狀態轉移方程式為：edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；其中，i、j為所述兩個狀態量，f(i,j)為操作代價值，f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，得到各權重對應的代價值。

較佳的，還包括：通過查找預先設置的形近字映射表或音近字映射表，確定所述搜索詞與所述熱詞是否互為形近字或音近字。

較佳的，還包括：設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。

較佳的，所述識別出錯誤的搜索詞，包括：基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比；根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比，確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。

較佳的，所述根據所述加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示，包括：將熱詞搜索次數進行歸一化處理；根據所述加權編輯距離與熱詞搜索次數歸一化處理結果，計算推薦綜合得分；選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞，進行糾錯提示。

根據本發明的另一個方面，提供一種加權編輯距離計算方法，包括：獲取源字符串和目標字符串；計算所述源字符串和所述目標字符串之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從所述源字符串轉換到所述目標字符串的不同操作分別設置不同數值的權重。

較佳的，所述計算所述源字符串和所述目標字符串之間的加權編輯距離，包括：定義狀態轉移方程式，用於表示所述源字符串和所述目標字符串之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示源字符串和所述目標字符串之間對應位置的字符；根據為不同操作所設置的不同數值的權重，求解所述狀態轉移方程式在相應操作的解；根據所述狀態轉移方程式的解，得到所述加權編輯距離。

根據本發明的又一個方面，提供一種搜索詞糾錯裝置，包括：錯誤搜索詞識別單元，用於識別出錯誤的搜索詞；加權編輯距離計算單元，用於利用加權編輯距離演算法，計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重；糾錯提示單元，用於根據所述加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。

較佳的，所述加權編輯距離計算單元包括：狀態轉移方程式定義子單元，用於定義狀態轉移方程式，用於表示所述搜索詞與熱詞之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示搜索詞和熱詞之間對應位置的字符；方程式求解子單元，用於根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解所述狀態轉移方程式在相應操作的解，作為所述加權編輯距離。

較佳的，還包括：形近字或音近字確定單元，用於查找預先設置的形近字映射表或音近字映射表，確定所述搜索詞與所述熱詞是否互為形近字或音近字。

較佳的，還包括：操作權重設置單元，用於設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。

較佳的，所述錯誤搜索詞識別單元包括：日誌查找及計算子單元，用於基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比；識別結果確定子單元，用於根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比，確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。

較佳的，所述糾錯提示單元包括：歸一化處理子單元，用於將熱詞搜索次數進行歸一化處理；推薦綜合得分計算子單元，用於根據所述加權編輯距離與熱詞搜索次數歸一化處理結果，計算推薦綜合得分；推薦詞確定子單元，用於選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞，進行糾錯提示。

根據本發明的再一個方面，提供一種加權編輯距離計算裝置，包括：獲取單元，用於獲取源字符串和目標字符串；計算單元，用於計算所述源字符串和所述目標字符串之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從所述源字符串轉換到所述目標字符串的不同操作分別設置不同數值的權重。

較佳的，所述計算單元包括：狀態轉移方程式定義子單元，用於定義狀態轉移方程式，用於表示所述源字符串和所述目標字符串之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示源字符串和所述目標字符串之間對應位置的字符；狀態轉移方程式求解子單元，用於根據為不同操作所設置的不同數值的權重，求解所述狀態轉移方程式在相應操作的解，作為所述加權編輯距離。

可見，本發明實施例提供一種基於加權編輯距離的搜索詞糾錯方法及裝置，通過為刪除字符操作、插入字符操作、形近字或音近字替換操作、非形近字或音近字替換操作以及交換字符操作，分別設置不同的權重，從而在加權編輯距離計算過程中，充分涵蓋了從搜索詞到熱詞轉換過程中可能涉及的各種操作，從而可更加快速、準確的計算出從搜索詞到熱詞之間的編輯距離，提高搜索詞糾錯準確性。

S101~S103‧‧‧步驟

S201~S202‧‧‧步驟

301‧‧‧錯誤搜索詞識別單元

302‧‧‧加權編輯距離計算單元

303‧‧‧糾錯提示單元

304‧‧‧形近字或音近字確定單元

305‧‧‧操作權重設置單元

3011‧‧‧日誌查找及計算子單元

3012‧‧‧識別結果確定子單元

3021‧‧‧狀態轉移方程式定義子單元

3022‧‧‧方程式求解子單元

3031‧‧‧歸一化處理子單元

3032‧‧‧推薦綜合得分計算子單元

3033‧‧‧推薦詞確定子單元

圖1是本發明一個實施例提供的一種搜索詞糾錯方法流程圖。

圖2是本發明一個實施例提供的一種加權編輯距離計算方法流程圖。

圖3是本發明一個實施例提供的一種搜索詞糾錯裝置結構示意圖。

為使本發明的上述目的、特徵和優點能夠更加明顯易懂，下面結合圖式和具體實施方式對本發明作進一步詳細的說明。

如前分析的，現有技術中基於編輯距離的糾錯方案並未考慮替換字符之間的關係，比如形近字、音近字等，也未考慮字符串內鄰近字符之間的交換操作，因此這種傳統的編輯距離效果並不理想。

本發明實施例提供一種基於加權編輯距離的搜索詞糾錯方法及裝置，通過為刪除字符操作、插入字符操作、形近字或音近字替換操作、非形近字或音近字替換操作以及交換字符操作，分別設置不同的權重，從而在加權編輯距離計算過程中，充分涵蓋了從搜索詞到熱詞轉換過程中可能涉及的各種操作，從而可更加快速、準確的計算出從搜索詞到熱詞之間的編輯距離，提高搜索詞糾錯準確性。

參見圖1，為本發明實施例提供的一種搜索詞糾錯方法流程圖，該方法包括以下。

S101：識別出錯誤的搜索詞。

對搜索詞進行糾錯，是針對錯誤的搜索詞進行糾錯，因此首先需要識別出錯誤的搜索詞。搜索詞之所以錯誤，包括很多種情況，例如，因同音字選字錯誤產生的搜索詞、因拼音拼寫錯誤產生的搜索詞、因字形輸入錯誤產生的搜索詞，這就導致搜索結果不能滿足用戶的需求。在具體實現中，可以基於搜索日誌，識別出錯誤的搜索詞：通過搜索詞點擊率、搜索結果完全匹配的結果個數、以及基於語言模型的搜索詞概率，可有效識別出錯誤的搜索詞。

本發明實施例中，提供以下包括步驟1至步驟2識別錯誤的搜索詞的方法。

步驟1：基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比。

具體的，首先，計算待識別搜索詞的搜索點擊率。例如，從搜索日誌中獲取使用者針對待識別搜索詞的搜索次數和點擊搜索結果次數；將點擊搜索結果次數除以搜索次數，得到搜索點擊率。

其次，對待識別搜索詞進行分詞處理，得到多個詞特徵。

繼而，利用統計語言模型和各個詞特徵，計算待識別搜索詞出現的概率。

然後，計算待識別搜索詞的全匹配結果數和相關結果數，其中，全匹配結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的全部內容的結果的個數，相關結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的部分內容的結果的個數。

最後，計算全匹配結果數和相關結果數的比值，得到全匹配占比。

步驟2：根據待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比，確定待識別搜索詞為錯誤搜索詞或正常搜索詞。

通過融合待識別搜索詞的多維度特徵(即搜索點擊率、各個所述詞特徵、待識別搜索詞出現的概率、全匹配結果數和全匹配占比)，並基於多維度特徵對待識別搜索詞進行識別，降低了對待識別搜索詞進行識別的難度，從而提高了對待識別搜索詞的識別能力，有利於識別出待識別搜索詞是否為錯誤搜索詞。

S102：利用加權編輯距離演算法，計算搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重。

熱詞，是指網路或當下常用或流行的詞，在實際操作中，可通過點擊率確定眾多熱片語成熱詞表。在熱詞表的產生過程中，需要過濾掉點擊率低、搜索結果少的詞語，以保證熱詞的準確性。本發明實施例中，通過將錯誤的搜索詞糾正為編輯距離相近的熱詞，從而為用戶提供更好的體驗。

本領域技術人員理解，編輯距離(Edit Distance)，又稱萊文斯坦(Levenshtein)距離，是指兩個字符串之間，由一個轉成另一個所需的最少編輯操作次數。傳統的編輯操作包括將一個字符替換成另一個字符，插入一個字符，刪除一個字符。一般來說，編輯距離越小，兩個字符串的相似度越大。

傳統的編輯距離操作包括：將一個字符替換成另一個字符，插入一個字符，刪除一個字符，每一種操作對應的距離都是1。這些操作中並不包括字符串內臨近字符之間的交換操作，也沒有考慮音近字或形近字替換操作的特殊性。交換操作可以通過兩次替換操作實現，比如CD->DD->DC，按照傳統編輯距離演算法，對應的距離是2。考慮到實際搜索過程中，使用者將兩個字符輸入錯位的概率非常高，交換操作的距離為2是不合理的。另外，因此，用戶出現音近字或形近字導致的搜索詞輸入錯誤的概率也較高，如果對此特殊的替換操作沒有特別處理，也設置距離為1，顯然也是不合理的。

因此，本發明實施例中提出了一種加權編輯距離方法，包括以下5種操作，並分別設置不同的權重。

1)插入字符操作，權重為1； 2)刪除字符操作，權重為1；3)非形近字或者音近字的替換操作，權重為1；4)形近字或音近字的替換操作，權重為w1；5)交換字符操作，權重為w2。

為了得到更好的效果，w1和w2的取值需特別注意，一般而言，需要滿足w1<w2<1。經過實驗得到，較佳的，設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。

由於上述考慮了各種可能的操作，並且分別賦予不同的權重，因此採取這種加權編輯距離應用於糾錯，計算字符串之間的相似度，精度更高。

加權編輯距離(也稱“動態規劃”)可為不同操作設置不同的權重，解決上述問題。其思路是：通過描述出操作的狀態，並且以一個狀態轉移方程式進行求解。

對於編輯距離問題，牽涉到源字符串str1(本實施例中的搜索詞)和目標字符串str2(本實施例中的熱詞)，顯然一個狀態量是不能描述這種兩元關係，因此，就使用了i,j兩個量來描述一個狀態。對於編輯距離的某個狀態，從源字符串str1的1->i到目標字符串str2的1->j的最優編輯距離用edit[i,j]來表示，那麼，目標就是得到一個狀態轉移方程式，即怎樣從ti<i、tj<j的這些子狀態轉移到i、j。在本發明實施例的加權編輯距離的操作中，包括插入字符操作、刪除字符操作、音近字或形近字字符替換操作、非音近字或形近字字符替換操作、交換字符操作，那麼子狀態就由這五種操作方式轉移得到現在狀態。

參見圖2，是本發明一個實施例提供的一種加權編輯距離計算方法流程圖，包括以下步驟：

S201：定義狀態轉移方程式，用於表示搜索詞與熱詞之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示搜索詞和熱詞之間對應位置的字符。

S202：根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解狀態轉移方程式在相應操作的解，得到加權編輯距離。

本發明實施例中，熱詞與錯誤搜索詞之間的相似度採用一種加權編輯演算法實現。首先，定義狀態轉移方程式edit(i,j)，表示第一個字符串長度為i的子串到第二個字符串長度為j的子串的加權編輯距離，str1(i)表示第一個字符串的第i+1個字符，str2(j)表示第二個字符串的第j+1個字符。下面，提供一種基於動態規劃的加權編輯距離計算方法邏輯實現實例：A．if i==0 and j==0,edit(i,j)=0；B．if i==0 and j>0,edit(i,j)=j；C．if i>0 and j==0,edit(i,j)=i；D．ifi1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(I,j-1)+1,edit(i-1,j-1)+f(i,j)}，其中：

D1. if str1(i-1)==str2(j-1),f(i,j)=0

D2. if str1(i-1),str2(j-1)互為形近字或音近字，f(i,j)=w1

D3. if i2 and j2 and str1(i-2)==str2(j-1)and str1(i-1)==str2(j-2),f(i,j)=1-w2

D4. 其他情況下，f(i,j)=1

其中，步驟A，B，C初始化函數edit(i,j)，步驟D1表示字符str1(i-1)和字符str2(j-1)相同，步驟D2表示字符str1(i-1)和字符str2(j-1)互為形近字或者音近字的替換操作，步驟D3表示交換操作，步驟D4表示插入、刪除以及非形近字或音近字的替換操作；f(i,j)為操作代價值，f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，得到各權重對應的代價值。由此可以計算錯誤搜索詞和熱詞之間的編輯距離。

在步驟D2中，可以通過預先設置的音近字映射表或形近字映射表，來判斷搜索詞與熱詞之間是否互為音近字或形近字。例如，對於漢字而言，音近字映射表可以首先提取漢字的拼音，然後找到該拼音所包含的所有漢字，從而建立音近字映射表。同理，對於非漢語的其他語種，也可以採取類似的方式建立映射表。

S103：根據加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。

具體的，選擇推薦詞可由以下步驟完成：1、將熱詞搜索次數進行歸一化處理；2、根據加權編輯距離與熱詞搜索次數歸一化處理結果，計算推薦綜合得分；3、選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞。

在選擇推薦詞時，需要綜合考慮編輯距離和熱詞熱度的影響。假設加權編輯距離為edit_score，熱詞搜索次數為impression_count，採用對數公式將熱詞搜索次數歸一化到0-1之間，例如，歸一化公式為：hot_index=min(log(impression_count+1)/20,1)

那麼，推薦綜合得分為：final_score=hot_index * edit_score

最後，選擇推薦綜合得分最高且加權編輯距離小於預定值的k個熱詞作為糾錯提示的推薦詞，進行糾錯提示。

需要說明的是，對於方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本發明實施例並不受所描述的動作順序的限制，因為依據本發明實施例，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所涉及的動作並不一定是本發明實施例所必須的。

參照圖3，是本發明實施例提供的一種搜索詞糾錯裝置結構示意圖。該裝置包括以下：錯誤搜索詞識別單元301，用於識別出錯誤的搜索詞。

對搜索詞進行糾錯，是針對錯誤的搜索詞進行糾錯，因此首先需要識別出錯誤的搜索詞。在具體實現中，可以基於搜索日誌，識別出錯誤的搜索詞：通過搜索詞點擊率、搜索結果完全匹配的結果個數、以及基於語言模型的搜索詞概率，可有效識別出錯誤的搜索詞。

加權編輯距離計算單元302，用於利用加權編輯距離演算法，計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在所述加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重。

1)插入字符操作，權重為1；2)刪除字符操作，權重為1；3)非形近字或者音近字的替換操作，權重為1；4)形近字或音近字的替換操作，權重為w1；5)交換字符操作，權重為w2。

糾錯提示單元303，用於根據所述加權編輯距離和熱詞熱度，選取預定數目的熱詞作為糾錯推薦詞。

較佳的，所述加權編輯距離計算單元302包括：狀態轉移方程式定義子單元3021，用於定義狀態轉移方程式，用於表示所述搜索詞與熱詞之間的加權編輯距離，其中，在狀態轉移方程式中定義兩個狀態量，用於分別表示搜索詞和熱詞之間對應位置的字符；方程式求解子單元3022，用於根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解所述狀態轉移方程式在相應操作的解，作為所述加權編輯距離。

較佳的，該裝置還包括：形近字或音近字確定單元304，用於查找預先設置的形近字映射表或音近字映射表，確定所述搜索詞與所述熱詞是否互為形近字或音近字。

較佳的，該裝置還包括：操作權重設置單元305，用於設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。為了得到更好的效果，w1和w2的取值需特別注意，一般而言，需要滿足w1<w2<1。經過實驗得到，較佳的，設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。由於上述考慮了各種可能的操作，並且分別賦予不同的權重，因此採取這種加權編輯距離應用於糾錯，計算字符串之間的相似度，精度更高。

較佳的，所述錯誤搜索詞識別單元301包括：日誌查找及計算子單元3011，用於基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比。

具體的，首先，計算待識別搜索詞的搜索點擊率，例如，從搜索日誌中獲取使用者針對待識別搜索詞的搜索次數和點擊搜索結果次數；將點擊搜索結果次數除以搜索次數，得到搜索點擊率；其次，對待識別搜索詞進行分詞處理，得到多個詞特徵；繼而，利用統計語言模型和各個詞特徵，計算待識別搜索詞出現的概率；然後，計算待識別搜索詞的全匹配結果數和相關結果數，其中，全匹配結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的全部內容的結果的個數，相關結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的部分內容的結果的個數；最後，計算全匹配結果數和相關結果數的比值，得到全匹配占比。

識別結果確定子單元3012，用於根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比，確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。

較佳的，所述糾錯提示單元303包括：歸一化處理子單元3031，用於將熱詞搜索次數進行歸一化處理；推薦綜合得分計算子單元3032，用於根據所述加權編輯距離與熱詞搜索次數歸一化處理結果，計算推薦綜合得分；推薦詞確定子單元3033，用於選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞，進行糾錯提示。

對於裝置實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖及/或方框圖來描述的。應理解可由電腦程式指令實現流程圖及/或方框圖中的每一流程及/或方框、以及流程圖及/或方框圖中的流程及/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可存儲在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中，使得存儲在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上，使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的步驟。

儘管已描述了本發明實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附權利要求意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發明所提供的一種關係型數據庫的調度方法及系統，進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

Claims

一種搜索詞糾錯方法，包括以下步驟：識別出錯誤的搜索詞；利用加權編輯距離演算法，計算該搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在該加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重；以及根據該加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。
如請求項1所記載之搜索詞糾錯方法，其中該利用加權編輯距離演算法，計算該搜索詞與預先獲取的熱詞之間的加權編輯距離包括以下步驟：定義狀態轉移方程式，用於表示該搜索詞與該熱詞之間的加權編輯距離，其中，在該狀態轉移方程式中定義兩個狀態量，用於分別表示該搜索詞和該熱詞之間對應位置的字符，該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數，該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作；根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解該狀態轉移方程式在相應操作的解；根據該狀態轉移方程式的解，得到該加權編輯距離。
如請求項2所記載之搜索詞糾錯方法，其中該狀態轉移方程式為：edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}其中，A．if i==0 and j==0,edit(i,j)=0；B．if i==0 and j>0,edit(i,j)=j；C．if i>0 and j==0,edit(i,j)=i；D．if i1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中，i、j為該兩個狀態量，f(i,j)為操作代價值，f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，得到各權重對應的代價值。
如請求項1至3中任一項所記載之搜索詞糾錯方法，其進一步包括以下步驟：通過查找預先設置的形近字映射表或音近字映射表，確定該搜索詞與該熱詞是否互為形近字或音近字。
如請求項1至3中任一項所記載之搜索詞糾錯方法，其進一步包括以下步驟：設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
如請求項1至3中任一項所記載之搜索詞糾錯方法，其中該識別出錯誤的搜索詞包括以下步驟：基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比；根據待識別搜索詞的該搜索點擊率、該詞特徵、該出現概率、該全匹配結果數和該全匹配占比，確定該待識別搜索詞為錯誤搜索詞或正常搜索詞。
如請求項1至3中任一項所記載之搜索詞糾錯方法，其中該根據該加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示包括以下步驟：將熱詞搜索次數進行歸一化處理；根據該加權編輯距離與熱詞搜索次數歸一化處理結果，計算推薦綜合得分；選擇推薦綜合得分最高且該加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞，進行糾錯提示。
一種加權編輯距離計算方法，包括以下步驟：獲取源字符串和目標字符串；計算該源字符串和該目標字符串之間的加權編輯距離，其中，在該加權編輯距離計算過程中，針對從該源字符串轉換到該目標字符串，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重。
如請求項8所記載之加權編輯距離計算方法，其中該計算該源字符串和該目標字符串之間的加權編輯距離包括以下步驟：定義狀態轉移方程式，用於表示該源字符串和該目標字符串之間的加權編輯距離，其中，在該狀態轉移方程式中定義兩個狀態量，用於分別表示該源字符串和該目標字符串之間對應位置的字符，該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數，該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作；根據為不同操作所設置的不同數值的權重，求解該狀態轉移方程式在相應操作的解；根據該狀態轉移方程式的解，得到該加權編輯距離。
一種搜索詞糾錯裝置，包括：錯誤搜索詞識別單元，用於識別出錯誤的搜索詞；加權編輯距離計算單元，用於利用加權編輯距離演算法，計算該搜索詞與預先獲取的熱詞之間的加權編輯距離，其中，在該加權編輯距離計算過程中，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重；以及糾錯提示單元，用於根據該加權編輯距離和熱詞熱度，選取預定數目的熱詞進行糾錯提示。
如請求項10所記載之搜索詞糾錯裝置，其中該加權編輯距離計算單元包括：狀態轉移方程式定義子單元，用於定義狀態轉移方程式，用於表示該搜索詞與該熱詞之間的加權編輯距離，其中，在該狀態轉移方程式中定義兩個狀態量，用於分別表示該搜索詞和該熱詞之間對應位置的字符，該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數，該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作；方程式求解子單元，用於根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，求解該狀態轉移方程式在相應操作的解，作為該加權編輯距離。
如請求項11所記載之搜索詞糾錯裝置，其中該狀態轉移方程式為：edit(i,j)=min{edit(i-1,i)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}其中，A．if i==0 and j==0,edit(i,j)=0；B．if i==0 and j>0,edit(i,j)=j；C．if i>0 and j==0,edit(i,j)=i；D．if i1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中，i、j為該兩個狀態量，f(i,j)為操作代價值，f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重，得到各權重對應的代價值。
如請求項10至12中任一項所記載之搜索詞糾錯裝置，其進一步包括：形近字或音近字確定單元，用於查找預先設置的形近字映射表或音近字映射表，確定該搜索詞與該熱詞是否互為形近字或音近字。
如請求項10至12中任一項所記載之搜索詞糾錯裝置，其進一步包括：操作權重設置單元，用於設置各操作權重滿足如下關係：形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
如請求項10至12中任一項所記載之搜索詞糾錯裝置，其中該錯誤搜索詞識別單元包括：日誌查找及計算子單元，用於基於搜索日誌，解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比；識別結果確定子單元，用於根據待識別搜索詞的該搜索點擊率、該詞特徵、該出現概率、該全匹配結果數和該全匹配占比，確定該待識別搜索詞為錯誤搜索詞或正常搜索詞。
如請求項10至12中任一項所記載之搜索詞糾錯裝置，其中該糾錯提示單元包括：歸一化處理子單元，用於將熱詞搜索次數進行歸一化處理；推薦綜合得分計算子單元，用於根據該加權編輯距離與該熱詞搜索次數歸一化處理結果，計算推薦綜合得分；推薦詞確定子單元，用於選擇推薦綜合得分最高且該加權編輯距離小於預定值的預定數目的熱詞，作為糾錯的推薦詞，進行糾錯提示。
一種加權編輯距離計算裝置，包括：獲取單元，用於獲取源字符串和目標字符串；計算單元，用於計算該源字符串和該目標字符串之間的加權編輯距離，其中，在該加權編輯距離計算過程中，針對從該源字符串轉換到該目標字符串，針對從搜索詞轉換到熱詞的操作，分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作，設置不同數值的權重。
如請求項17所記載之加權編輯距離計算裝置，其中該計算單元包括：狀態轉移方程式定義子單元，用於定義狀態轉移方程式，用於表示該源字符串和該目標字符串之間的加權編輯距離，其中，在該狀態轉移方程式中定義兩個狀態量，用於分別表示該源字符串和該目標字符串之間對應位置的字符，該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數，該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作；狀態轉移方程式求解子單元，用於根據為不同操作所設置的不同數值的權重，求解該狀態轉移方程式在相應操作的解，作為該加權編輯距離。