TWI664540B - Search word error correction method and device, and weighted edit distance calculation method and device - Google Patents

Search word error correction method and device, and weighted edit distance calculation method and device Download PDF

Info

Publication number
TWI664540B
TWI664540B TW106129000A TW106129000A TWI664540B TW I664540 B TWI664540 B TW I664540B TW 106129000 A TW106129000 A TW 106129000A TW 106129000 A TW106129000 A TW 106129000A TW I664540 B TWI664540 B TW I664540B
Authority
TW
Taiwan
Prior art keywords
word
search
characters
weighted
character
Prior art date
Application number
TW106129000A
Other languages
English (en)
Other versions
TW201812619A (zh
Inventor
胡軍
陳英傑
王天暢
葉澄燦
Original Assignee
大陸商北京奇藝世紀科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京奇藝世紀科技有限公司 filed Critical 大陸商北京奇藝世紀科技有限公司
Publication of TW201812619A publication Critical patent/TW201812619A/zh
Application granted granted Critical
Publication of TWI664540B publication Critical patent/TWI664540B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本發明提供一種搜索詞糾錯方法及裝置。該方法包括:識別出錯誤的搜索詞;利用加權編輯距離演算法,計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重;根據所述加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。本發明可提高對錯誤搜索詞的糾錯準確率。

Description

搜索詞糾錯方法及裝置、以及加權編輯距離計算方法及裝置
本發明關於電腦技術領域,特別是關於一種搜索詞糾錯方法及裝置。
用戶輸入搜索詞中往往包含大量的錯別字,導致搜索結果不能滿足用戶的需求。錯誤搜索詞產生的原因比較複雜,主要包括:同音字選字錯誤、拼音拼寫錯誤、字形輸入錯誤等。為了解決上述問題,可以採用糾錯提示的方式,在搜尋網頁面提示用戶輸入的搜索詞可能不準確,並根據其輸入的搜索詞,推薦相關可能的搜索詞。傳統糾錯技術,大多採用編輯距離技術將原詞與詞典中的詞條比較,然後,選擇與原詞編輯距離最小的K個詞條。編輯操作包括:1)將一個字符替換成另一個字符,2)插入一個字符,3)刪除一個字符。這種編輯操作並未考慮替換字符之間的關係,很多情況下,這種傳統的編輯距離效果並不是很好。
為了提高搜索詞糾錯準確率,本發明實施例提供一種搜索詞糾錯方法及裝置。
根據本發明一個方面,提供一種搜索詞糾錯方法,包括:識別出錯誤的搜索詞;利用加權編輯距離演算法,計 算所述搜索詞與預先獲取的熱詞(hot word)之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重;根據所述加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。
較佳的,所述利用加權編輯距離演算法,計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離,包括:定義狀態轉移方程式,用於表示所述搜索詞與熱詞之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示搜索詞和熱詞之間對應位置的字符;根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,求解所述狀態轉移方程式在相應操作的解;根據所述狀態轉移方程式的解,得到所述加權編輯距離。
較佳的,所述狀態轉移方程式為:edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),};其中,ij為所述兩個狀態量,f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。
較佳的,還包括:通過查找預先設置的形近字映射表 或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。
較佳的,還包括:設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
較佳的,所述識別出錯誤的搜索詞,包括:基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比;根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。
較佳的,所述根據所述加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示,包括:將熱詞搜索次數進行歸一化處理;根據所述加權編輯距離與熱詞搜索次數歸一化處理結果,計算推薦綜合得分;選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
根據本發明的另一個方面,提供一種加權編輯距離計算方法,包括:獲取源字符串和目標字符串;計算所述源字符串和所述目標字符串之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從所述源字符串轉換到所述目標字符串的不同操作分別設置不同數值的權重。
較佳的,所述計算所述源字符串和所述目標字符串之 間的加權編輯距離,包括:定義狀態轉移方程式,用於表示所述源字符串和所述目標字符串之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示源字符串和所述目標字符串之間對應位置的字符;根據為不同操作所設置的不同數值的權重,求解所述狀態轉移方程式在相應操作的解;根據所述狀態轉移方程式的解,得到所述加權編輯距離。
根據本發明的又一個方面,提供一種搜索詞糾錯裝置,包括:錯誤搜索詞識別單元,用於識別出錯誤的搜索詞;加權編輯距離計算單元,用於利用加權編輯距離演算法,計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重;糾錯提示單元,用於根據所述加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。
較佳的,所述加權編輯距離計算單元包括:狀態轉移方程式定義子單元,用於定義狀態轉移方程式,用於表示所述搜索詞與熱詞之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示搜索詞和熱詞之間對應位置的字符;方程式求解子單元,用於根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不 同數值的權重,求解所述狀態轉移方程式在相應操作的解,作為所述加權編輯距離。
較佳的,所述狀態轉移方程式為:edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),};其中,ij為所述兩個狀態量,f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。
較佳的,還包括:形近字或音近字確定單元,用於查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。
較佳的,還包括:操作權重設置單元,用於設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
較佳的,所述錯誤搜索詞識別單元包括:日誌查找及計算子單元,用於基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比;識別結果確定子單元,用於根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。
較佳的,所述糾錯提示單元包括:歸一化處理子單元,用於將熱詞搜索次數進行歸一化處理;推薦綜合得分計算 子單元,用於根據所述加權編輯距離與熱詞搜索次數歸一化處理結果,計算推薦綜合得分;推薦詞確定子單元,用於選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
根據本發明的再一個方面,提供一種加權編輯距離計算裝置,包括:獲取單元,用於獲取源字符串和目標字符串;計算單元,用於計算所述源字符串和所述目標字符串之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從所述源字符串轉換到所述目標字符串的不同操作分別設置不同數值的權重。
較佳的,所述計算單元包括:狀態轉移方程式定義子單元,用於定義狀態轉移方程式,用於表示所述源字符串和所述目標字符串之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示源字符串和所述目標字符串之間對應位置的字符;狀態轉移方程式求解子單元,用於根據為不同操作所設置的不同數值的權重,求解所述狀態轉移方程式在相應操作的解,作為所述加權編輯距離。
可見,本發明實施例提供一種基於加權編輯距離的搜索詞糾錯方法及裝置,通過為刪除字符操作、插入字符操作、形近字或音近字替換操作、非形近字或音近字替換操作以及交換字符操作,分別設置不同的權重,從而在加權編輯距離計算過程中,充分涵蓋了從搜索詞到熱詞轉換過程中可能涉及的各種操作,從而可更加快速、準確的計算 出從搜索詞到熱詞之間的編輯距離,提高搜索詞糾錯準確性。
S101~S103‧‧‧步驟
S201~S202‧‧‧步驟
301‧‧‧錯誤搜索詞識別單元
302‧‧‧加權編輯距離計算單元
303‧‧‧糾錯提示單元
304‧‧‧形近字或音近字確定單元
305‧‧‧操作權重設置單元
3011‧‧‧日誌查找及計算子單元
3012‧‧‧識別結果確定子單元
3021‧‧‧狀態轉移方程式定義子單元
3022‧‧‧方程式求解子單元
3031‧‧‧歸一化處理子單元
3032‧‧‧推薦綜合得分計算子單元
3033‧‧‧推薦詞確定子單元
圖1是本發明一個實施例提供的一種搜索詞糾錯方法流程圖。
圖2是本發明一個實施例提供的一種加權編輯距離計算方法流程圖。
圖3是本發明一個實施例提供的一種搜索詞糾錯裝置結構示意圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合圖式和具體實施方式對本發明作進一步詳細的說明。
如前分析的,現有技術中基於編輯距離的糾錯方案並未考慮替換字符之間的關係,比如形近字、音近字等,也未考慮字符串內鄰近字符之間的交換操作,因此這種傳統的編輯距離效果並不理想。
本發明實施例提供一種基於加權編輯距離的搜索詞糾錯方法及裝置,通過為刪除字符操作、插入字符操作、形近字或音近字替換操作、非形近字或音近字替換操作以及交換字符操作,分別設置不同的權重,從而在加權編輯距離計算過程中,充分涵蓋了從搜索詞到熱詞轉換過程中可能涉及的各種操作,從而可更加快速、準確的計算出從搜索詞到熱詞之間的編輯距離,提高搜索詞糾錯準確性。
參見圖1,為本發明實施例提供的一種搜索詞糾錯方法流程圖,該方法包括以下。
S101:識別出錯誤的搜索詞。
對搜索詞進行糾錯,是針對錯誤的搜索詞進行糾錯,因此首先需要識別出錯誤的搜索詞。搜索詞之所以錯誤,包括很多種情況,例如,因同音字選字錯誤產生的搜索詞、因拼音拼寫錯誤產生的搜索詞、因字形輸入錯誤產生的搜索詞,這就導致搜索結果不能滿足用戶的需求。在具體實現中,可以基於搜索日誌,識別出錯誤的搜索詞:通過搜索詞點擊率、搜索結果完全匹配的結果個數、以及基於語言模型的搜索詞概率,可有效識別出錯誤的搜索詞。
本發明實施例中,提供以下包括步驟1至步驟2識別錯誤的搜索詞的方法。
步驟1:基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比。
具體的,首先,計算待識別搜索詞的搜索點擊率。例如,從搜索日誌中獲取使用者針對待識別搜索詞的搜索次數和點擊搜索結果次數;將點擊搜索結果次數除以搜索次數,得到搜索點擊率。
其次,對待識別搜索詞進行分詞處理,得到多個詞特徵。
繼而,利用統計語言模型和各個詞特徵,計算待識別搜索詞出現的概率。
然後,計算待識別搜索詞的全匹配結果數和相關結果數,其中,全匹配結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的全部內容的結果的個數,相關結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的部分內容的結果的個數。
最後,計算全匹配結果數和相關結果數的比值,得到全匹配占比。
步驟2:根據待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比,確定待識別搜索詞為錯誤搜索詞或正常搜索詞。
通過融合待識別搜索詞的多維度特徵(即搜索點擊率、各個所述詞特徵、待識別搜索詞出現的概率、全匹配結果數和全匹配占比),並基於多維度特徵對待識別搜索詞進行識別,降低了對待識別搜索詞進行識別的難度,從而提高了對待識別搜索詞的識別能力,有利於識別出待識別搜索詞是否為錯誤搜索詞。
S102:利用加權編輯距離演算法,計算搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重。
熱詞,是指網路或當下常用或流行的詞,在實際操作中,可通過點擊率確定眾多熱片語成熱詞表。在熱詞表的 產生過程中,需要過濾掉點擊率低、搜索結果少的詞語,以保證熱詞的準確性。本發明實施例中,通過將錯誤的搜索詞糾正為編輯距離相近的熱詞,從而為用戶提供更好的體驗。
本領域技術人員理解,編輯距離(Edit Distance),又稱萊文斯坦(Levenshtein)距離,是指兩個字符串之間,由一個轉成另一個所需的最少編輯操作次數。傳統的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個字符串的相似度越大。
傳統的編輯距離操作包括:將一個字符替換成另一個字符,插入一個字符,刪除一個字符,每一種操作對應的距離都是1。這些操作中並不包括字符串內臨近字符之間的交換操作,也沒有考慮音近字或形近字替換操作的特殊性。交換操作可以通過兩次替換操作實現,比如CD->DD->DC,按照傳統編輯距離演算法,對應的距離是2。考慮到實際搜索過程中,使用者將兩個字符輸入錯位的概率非常高,交換操作的距離為2是不合理的。另外,因此,用戶出現音近字或形近字導致的搜索詞輸入錯誤的概率也較高,如果對此特殊的替換操作沒有特別處理,也設置距離為1,顯然也是不合理的。
因此,本發明實施例中提出了一種加權編輯距離方法,包括以下5種操作,並分別設置不同的權重。
1)插入字符操作,權重為1; 2)刪除字符操作,權重為1;3)非形近字或者音近字的替換操作,權重為1;4)形近字或音近字的替換操作,權重為w1;5)交換字符操作,權重為w2。
為了得到更好的效果,w1和w2的取值需特別注意,一般而言,需要滿足w1<w2<1。經過實驗得到,較佳的,設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
由於上述考慮了各種可能的操作,並且分別賦予不同的權重,因此採取這種加權編輯距離應用於糾錯,計算字符串之間的相似度,精度更高。
加權編輯距離(也稱“動態規劃”)可為不同操作設置不同的權重,解決上述問題。其思路是:通過描述出操作的狀態,並且以一個狀態轉移方程式進行求解。
對於編輯距離問題,牽涉到源字符串str1(本實施例中的搜索詞)和目標字符串str2(本實施例中的熱詞),顯然一個狀態量是不能描述這種兩元關係,因此,就使用了i,j兩個量來描述一個狀態。對於編輯距離的某個狀態,從源字符串str1的1->i到目標字符串str2的1->j的最優編輯距離用edit[i,j]來表示,那麼,目標就是得到一個狀態轉移方程式,即怎樣從ti<i、tj<j的這些子狀態轉移到i、j。在本發明實施例的加權編輯距離的操作中,包括插入字符操作、刪除字符操作、音近字或形近字字符替換操作、非 音近字或形近字字符替換操作、交換字符操作,那麼子狀態就由這五種操作方式轉移得到現在狀態。
參見圖2,是本發明一個實施例提供的一種加權編輯距離計算方法流程圖,包括以下步驟:
S201:定義狀態轉移方程式,用於表示搜索詞與熱詞之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示搜索詞和熱詞之間對應位置的字符。
S202:根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,求解狀態轉移方程式在相應操作的解,得到加權編輯距離。
本發明實施例中,熱詞與錯誤搜索詞之間的相似度採用一種加權編輯演算法實現。首先,定義狀態轉移方程式edit(i,j),表示第一個字符串長度為i的子串到第二個字符串長度為j的子串的加權編輯距離,str1(i)表示第一個字符串的第i+1個字符,str2(j)表示第二個字符串的第j+1個字符。下面,提供一種基於動態規劃的加權編輯距離計算方法邏輯實現實例:A.if i==0 and j==0,edit(i,j)=0;B.if i==0 and j>0,edit(i,j)=j;C.if i>0 and j==0,edit(i,j)=i;D.ifi1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(I,j-1)+1,edit(i-1,j-1)+f(i,j)},其中:
D1. if str1(i-1)==str2(j-1),f(i,j)=0
D2. if str1(i-1),str2(j-1)互為形近字或音近字,f(i,j)=w1
D3. if i2 and j2 and str1(i-2)==str2(j-1)and str1(i-1)==str2(j-2),f(i,j)=1-w2
D4. 其他情況下,f(i,j)=1
其中,步驟A,B,C初始化函數edit(i,j),步驟D1表示字符str1(i-1)和字符str2(j-1)相同,步驟D2表示字符str1(i-1)和字符str2(j-1)互為形近字或者音近字的替換操作,步驟D3表示交換操作,步驟D4表示插入、刪除以及非形近字或音近字的替換操作;f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。由此可以計算錯誤搜索詞和熱詞之間的編輯距離。
在步驟D2中,可以通過預先設置的音近字映射表或形近字映射表,來判斷搜索詞與熱詞之間是否互為音近字或形近字。例如,對於漢字而言,音近字映射表可以首先提取漢字的拼音,然後找到該拼音所包含的所有漢字,從而建立音近字映射表。同理,對於非漢語的其他語種,也可以採取類似的方式建立映射表。
S103:根據加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。
具體的,選擇推薦詞可由以下步驟完成:1、將熱詞搜 索次數進行歸一化處理;2、根據加權編輯距離與熱詞搜索次數歸一化處理結果,計算推薦綜合得分;3、選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞。
在選擇推薦詞時,需要綜合考慮編輯距離和熱詞熱度的影響。假設加權編輯距離為edit_score,熱詞搜索次數為impression_count,採用對數公式將熱詞搜索次數歸一化到0-1之間,例如,歸一化公式為:hot_index=min(log(impression_count+1)/20,1)
那麼,推薦綜合得分為:final_score=hot_index * edit_score
最後,選擇推薦綜合得分最高且加權編輯距離小於預定值的k個熱詞作為糾錯提示的推薦詞,進行糾錯提示。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。
參照圖3,是本發明實施例提供的一種搜索詞糾錯裝置結構示意圖。該裝置包括以下:錯誤搜索詞識別單元301,用於識別出錯誤的搜索詞。
對搜索詞進行糾錯,是針對錯誤的搜索詞進行糾錯, 因此首先需要識別出錯誤的搜索詞。在具體實現中,可以基於搜索日誌,識別出錯誤的搜索詞:通過搜索詞點擊率、搜索結果完全匹配的結果個數、以及基於語言模型的搜索詞概率,可有效識別出錯誤的搜索詞。
加權編輯距離計算單元302,用於利用加權編輯距離演算法,計算所述搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在所述加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重。
熱詞,是指網路或當下常用或流行的詞,在實際操作中,可通過點擊率確定眾多熱片語成熱詞表。在熱詞表的產生過程中,需要過濾掉點擊率低、搜索結果少的詞語,以保證熱詞的準確性。本發明實施例中,通過將錯誤的搜索詞糾正為編輯距離相近的熱詞,從而為用戶提供更好的體驗。
本領域技術人員理解,編輯距離(Edit Distance),又稱萊文斯坦(Levenshtein)距離,是指兩個字符串之間,由一個轉成另一個所需的最少編輯操作次數。傳統的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個字符串的相似度越大。
傳統的編輯距離操作包括:將一個字符替換成另一個字符,插入一個字符,刪除一個字符,每一種操作對應的 距離都是1。這些操作中並不包括字符串內臨近字符之間的交換操作,也沒有考慮音近字或形近字替換操作的特殊性。交換操作可以通過兩次替換操作實現,比如CD->DD->DC,按照傳統編輯距離演算法,對應的距離是2。考慮到實際搜索過程中,使用者將兩個字符輸入錯位的概率非常高,交換操作的距離為2是不合理的。另外,因此,用戶出現音近字或形近字導致的搜索詞輸入錯誤的概率也較高,如果對此特殊的替換操作沒有特別處理,也設置距離為1,顯然也是不合理的。
因此,本發明實施例中提出了一種加權編輯距離方法,包括以下5種操作,並分別設置不同的權重。
1)插入字符操作,權重為1;2)刪除字符操作,權重為1;3)非形近字或者音近字的替換操作,權重為1;4)形近字或音近字的替換操作,權重為w1;5)交換字符操作,權重為w2。
糾錯提示單元303,用於根據所述加權編輯距離和熱詞熱度,選取預定數目的熱詞作為糾錯推薦詞。
較佳的,所述加權編輯距離計算單元302包括:狀態轉移方程式定義子單元3021,用於定義狀態轉移方程式,用於表示所述搜索詞與熱詞之間的加權編輯距離,其中,在狀態轉移方程式中定義兩個狀態量,用於分別表示搜索詞和熱詞之間對應位置的字符;方程式求解子單元3022,用於根據為插入字符操作、 刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,求解所述狀態轉移方程式在相應操作的解,作為所述加權編輯距離。
較佳的,所述狀態轉移方程式為:edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),};其中,ij為所述兩個狀態量,f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。
較佳的,該裝置還包括:形近字或音近字確定單元304,用於查找預先設置的形近字映射表或音近字映射表,確定所述搜索詞與所述熱詞是否互為形近字或音近字。
較佳的,該裝置還包括:操作權重設置單元305,用於設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。為了得到更好的效果,w1和w2的取值需特別注意,一般而言,需要滿足w1<w2<1。經過實驗得到,較佳的,設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。由於上述考慮了各種可能的操作,並且分別賦予不同的權重,因此採取這種加權編輯距離應用於糾 錯,計算字符串之間的相似度,精度更高。
較佳的,所述錯誤搜索詞識別單元301包括:日誌查找及計算子單元3011,用於基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比。
具體的,首先,計算待識別搜索詞的搜索點擊率,例如,從搜索日誌中獲取使用者針對待識別搜索詞的搜索次數和點擊搜索結果次數;將點擊搜索結果次數除以搜索次數,得到搜索點擊率;其次,對待識別搜索詞進行分詞處理,得到多個詞特徵;繼而,利用統計語言模型和各個詞特徵,計算待識別搜索詞出現的概率;然後,計算待識別搜索詞的全匹配結果數和相關結果數,其中,全匹配結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的全部內容的結果的個數,相關結果數為針對待識別搜索詞的所有搜索結果中包含待識別搜索詞的部分內容的結果的個數;最後,計算全匹配結果數和相關結果數的比值,得到全匹配占比。
識別結果確定子單元3012,用於根據待識別搜索詞的所述搜索點擊率、所述詞特徵、所述出現概率、所述全匹配結果數和所述全匹配占比,確定所述待識別搜索詞為錯誤搜索詞或正常搜索詞。
通過融合待識別搜索詞的多維度特徵(即搜索點擊率、各個所述詞特徵、待識別搜索詞出現的概率、全匹配結果數和全匹配占比),並基於多維度特徵對待識別搜索詞 進行識別,降低了對待識別搜索詞進行識別的難度,從而提高了對待識別搜索詞的識別能力,有利於識別出待識別搜索詞是否為錯誤搜索詞。
較佳的,所述糾錯提示單元303包括:歸一化處理子單元3031,用於將熱詞搜索次數進行歸一化處理;推薦綜合得分計算子單元3032,用於根據所述加權編輯距離與熱詞搜索次數歸一化處理結果,計算推薦綜合得分;推薦詞確定子單元3033,用於選擇推薦綜合得分最高且所述加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體 等)上實施的電腦程式產品的形式。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖及/或方框圖來描述的。應理解可由電腦程式指令實現流程圖及/或方框圖中的每一流程及/或方框、以及流程圖及/或方框圖中的流程及/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可存儲在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得存儲在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實 施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種關係型數據庫的調度方法及系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (18)

  1. 一種搜索詞糾錯方法,包括以下步驟:識別出錯誤的搜索詞;利用加權編輯距離演算法,計算該搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在該加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重;以及根據該加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。
  2. 如請求項1所記載之搜索詞糾錯方法,其中該利用加權編輯距離演算法,計算該搜索詞與預先獲取的熱詞之間的加權編輯距離包括以下步驟:定義狀態轉移方程式,用於表示該搜索詞與該熱詞之間的加權編輯距離,其中,在該狀態轉移方程式中定義兩個狀態量,用於分別表示該搜索詞和該熱詞之間對應位置的字符,該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數,該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作;根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,求解該狀態轉移方程式在相應操作的解;根據該狀態轉移方程式的解,得到該加權編輯距離。
  3. 如請求項2所記載之搜索詞糾錯方法,其中該狀態轉移方程式為:edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}其中,A.if i==0 and j==0,edit(i,j)=0;B.if i==0 and j>0,edit(i,j)=j;C.if i>0 and j==0,edit(i,j)=i;D.if i1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中,ij為該兩個狀態量,f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。
  4. 如請求項1至3中任一項所記載之搜索詞糾錯方法,其進一步包括以下步驟:通過查找預先設置的形近字映射表或音近字映射表,確定該搜索詞與該熱詞是否互為形近字或音近字。
  5. 如請求項1至3中任一項所記載之搜索詞糾錯方法,其進一步包括以下步驟:設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
  6. 如請求項1至3中任一項所記載之搜索詞糾錯方法,其中該識別出錯誤的搜索詞包括以下步驟:基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比;根據待識別搜索詞的該搜索點擊率、該詞特徵、該出現概率、該全匹配結果數和該全匹配占比,確定該待識別搜索詞為錯誤搜索詞或正常搜索詞。
  7. 如請求項1至3中任一項所記載之搜索詞糾錯方法,其中該根據該加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示包括以下步驟:將熱詞搜索次數進行歸一化處理;根據該加權編輯距離與熱詞搜索次數歸一化處理結果,計算推薦綜合得分;選擇推薦綜合得分最高且該加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
  8. 一種加權編輯距離計算方法,包括以下步驟:獲取源字符串和目標字符串;計算該源字符串和該目標字符串之間的加權編輯距離,其中,在該加權編輯距離計算過程中,針對從該源字符串轉換到該目標字符串,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重。
  9. 如請求項8所記載之加權編輯距離計算方法,其中該計算該源字符串和該目標字符串之間的加權編輯距離包括以下步驟:定義狀態轉移方程式,用於表示該源字符串和該目標字符串之間的加權編輯距離,其中,在該狀態轉移方程式中定義兩個狀態量,用於分別表示該源字符串和該目標字符串之間對應位置的字符,該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數,該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作;根據為不同操作所設置的不同數值的權重,求解該狀態轉移方程式在相應操作的解;根據該狀態轉移方程式的解,得到該加權編輯距離。
  10. 一種搜索詞糾錯裝置,包括:錯誤搜索詞識別單元,用於識別出錯誤的搜索詞;加權編輯距離計算單元,用於利用加權編輯距離演算法,計算該搜索詞與預先獲取的熱詞之間的加權編輯距離,其中,在該加權編輯距離計算過程中,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重;以及糾錯提示單元,用於根據該加權編輯距離和熱詞熱度,選取預定數目的熱詞進行糾錯提示。
  11. 如請求項10所記載之搜索詞糾錯裝置,其中該加權編輯距離計算單元包括:狀態轉移方程式定義子單元,用於定義狀態轉移方程式,用於表示該搜索詞與該熱詞之間的加權編輯距離,其中,在該狀態轉移方程式中定義兩個狀態量,用於分別表示該搜索詞和該熱詞之間對應位置的字符,該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數,該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作;方程式求解子單元,用於根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,求解該狀態轉移方程式在相應操作的解,作為該加權編輯距離。
  12. 如請求項11所記載之搜索詞糾錯裝置,其中該狀態轉移方程式為:edit(i,j)=min{edit(i-1,i)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}其中,A.if i==0 and j==0,edit(i,j)=0;B.if i==0 and j>0,edit(i,j)=j;C.if i>0 and j==0,edit(i,j)=i;D.if i1 and j1,edit(i,j)=min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中,ij為該兩個狀態量,f(i,j)為操作代價值,f(i,j)根據為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作所設置的不同數值的權重,得到各權重對應的代價值。
  13. 如請求項10至12中任一項所記載之搜索詞糾錯裝置,其進一步包括:形近字或音近字確定單元,用於查找預先設置的形近字映射表或音近字映射表,確定該搜索詞與該熱詞是否互為形近字或音近字。
  14. 如請求項10至12中任一項所記載之搜索詞糾錯裝置,其進一步包括:操作權重設置單元,用於設置各操作權重滿足如下關係:形近字或音近字的替換操作權重<交換字符操作權重<插入字符操作權重=刪除字符操作權重=非形近字或音近字的替換操作權重。
  15. 如請求項10至12中任一項所記載之搜索詞糾錯裝置,其中該錯誤搜索詞識別單元包括:日誌查找及計算子單元,用於基於搜索日誌,解析或計算出待識別搜索詞的搜索點擊率、詞特徵、出現概率、全匹配結果數和全匹配占比;識別結果確定子單元,用於根據待識別搜索詞的該搜索點擊率、該詞特徵、該出現概率、該全匹配結果數和該全匹配占比,確定該待識別搜索詞為錯誤搜索詞或正常搜索詞。
  16. 如請求項10至12中任一項所記載之搜索詞糾錯裝置,其中該糾錯提示單元包括:歸一化處理子單元,用於將熱詞搜索次數進行歸一化處理;推薦綜合得分計算子單元,用於根據該加權編輯距離與該熱詞搜索次數歸一化處理結果,計算推薦綜合得分;推薦詞確定子單元,用於選擇推薦綜合得分最高且該加權編輯距離小於預定值的預定數目的熱詞,作為糾錯的推薦詞,進行糾錯提示。
  17. 一種加權編輯距離計算裝置,包括:獲取單元,用於獲取源字符串和目標字符串;計算單元,用於計算該源字符串和該目標字符串之間的加權編輯距離,其中,在該加權編輯距離計算過程中,針對從該源字符串轉換到該目標字符串,針對從搜索詞轉換到熱詞的操作,分別為插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作,設置不同數值的權重。
  18. 如請求項17所記載之加權編輯距離計算裝置,其中該計算單元包括:狀態轉移方程式定義子單元,用於定義狀態轉移方程式,用於表示該源字符串和該目標字符串之間的加權編輯距離,其中,在該狀態轉移方程式中定義兩個狀態量,用於分別表示該源字符串和該目標字符串之間對應位置的字符,該加權編輯距離為從該搜索詞到熱詞之間所需要的最少編輯操作次數,該編輯操作包括插入字符操作、刪除字符操作、形近字或音近字的替換操作、非形近字或音近字的替換操作、交換字符操作;狀態轉移方程式求解子單元,用於根據為不同操作所設置的不同數值的權重,求解該狀態轉移方程式在相應操作的解,作為該加權編輯距離。
TW106129000A 2016-08-31 2017-08-25 Search word error correction method and device, and weighted edit distance calculation method and device TWI664540B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610799830.4A CN106326484A (zh) 2016-08-31 2016-08-31 搜索词纠错方法及装置
??201610799830.4 2016-08-31

Publications (2)

Publication Number Publication Date
TW201812619A TW201812619A (zh) 2018-04-01
TWI664540B true TWI664540B (zh) 2019-07-01

Family

ID=57786348

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106129000A TWI664540B (zh) 2016-08-31 2017-08-25 Search word error correction method and device, and weighted edit distance calculation method and device

Country Status (11)

Country Link
US (1) US11574012B2 (zh)
EP (1) EP3508992A4 (zh)
JP (1) JP6997781B2 (zh)
KR (1) KR102204971B1 (zh)
CN (1) CN106326484A (zh)
AU (1) AU2017317878B2 (zh)
CA (1) CA3029588C (zh)
MY (1) MY193919A (zh)
SG (1) SG11201900084PA (zh)
TW (1) TWI664540B (zh)
WO (1) WO2018040899A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018022474A1 (en) * 2016-07-25 2018-02-01 Siemens Healthcare Diagnostics Inc. Methods and apparatus for troubleshooting instrument malfunctions
CN106326484A (zh) 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
RU2684578C2 (ru) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Языконезависимая технология исправления опечаток, с возможностью верификации результата
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
CN108062373A (zh) * 2017-12-12 2018-05-22 焦点科技股份有限公司 一种具有纠错功能的关键词下拉联想的方法
CN109992749A (zh) * 2017-12-29 2019-07-09 珠海金山办公软件有限公司 一种文字显示方法、装置、电子设备及可读存储介质
CN110196833B (zh) * 2018-03-22 2023-06-09 腾讯科技(深圳)有限公司 应用程序的搜索方法、装置、终端及存储介质
JP6660974B2 (ja) * 2018-03-30 2020-03-11 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
US10963717B1 (en) * 2018-12-21 2021-03-30 Automation Anywhere, Inc. Auto-correction of pattern defined strings
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN110163498B (zh) * 2019-05-15 2021-08-03 广州视源电子科技股份有限公司 课件原创度评分方法、装置、存储介质及处理器
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
CN110909535B (zh) * 2019-12-06 2023-04-07 北京百分点科技集团股份有限公司 命名实体校对方法、装置、可读存储介质及电子设备
CN113095066A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN111310442B (zh) * 2020-02-06 2021-12-28 北京字节跳动网络技术有限公司 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
WO2021227059A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
CN112131461A (zh) * 2020-09-09 2020-12-25 重庆易宠科技有限公司 一种商品搜索方法、系统、终端及计算机可读存储介质
CN112069374B (zh) * 2020-09-18 2024-04-30 中国工商银行股份有限公司 一种银行多个客户编号的识别方法及装置
CN112613522B (zh) * 2021-01-04 2023-03-14 重庆邮电大学 一种基于融合字形信息的服药单识别结果纠错方法
CN112929131B (zh) * 2021-02-22 2022-05-27 天津师范大学 一种基于加权编辑距离的标记码传输方法
CN112560452B (zh) * 2021-02-25 2021-05-18 智者四海(北京)技术有限公司 一种自动生成纠错语料的方法和系统
CN113705202A (zh) * 2021-08-31 2021-11-26 北京金堤科技有限公司 搜索输入信息纠错方法、装置以及电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4283898B2 (ja) 1995-10-20 2009-06-24 富士通株式会社 文章校正装置
US6073099A (en) * 1997-11-04 2000-06-06 Nortel Networks Corporation Predicting auditory confusions using a weighted Levinstein distance
WO2000036530A1 (fr) * 1998-12-15 2000-06-22 Matsushita Electric Industrial Co., Ltd. Methode de recherche et dispositif correspondant, support enregistre
US7617202B2 (en) * 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US7321892B2 (en) * 2005-08-11 2008-01-22 Amazon Technologies, Inc. Identifying alternative spellings of search strings by analyzing self-corrective searching behaviors of users
US7590626B2 (en) 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US20090083255A1 (en) 2007-09-24 2009-03-26 Microsoft Corporation Query spelling correction
JP5308786B2 (ja) * 2008-11-20 2013-10-09 Kddi株式会社 文書データ検索装置
CN101777042B (zh) * 2010-01-21 2013-01-16 西南科技大学 信息检索领域中基于神经网络和标签库的语句相似度算法
CN102915314B (zh) * 2011-08-05 2018-07-31 深圳市世纪光速信息技术有限公司 一种纠错对自动生成方法及系统
US10176168B2 (en) 2011-11-15 2019-01-08 Microsoft Technology Licensing, Llc Statistical machine translation based search query spelling correction
CN102831177B (zh) * 2012-07-31 2015-09-02 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
KR101483433B1 (ko) * 2013-03-28 2015-01-16 (주)이스트소프트 오타 교정 시스템 및 오타 교정 방법
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
JP5846340B2 (ja) 2013-09-20 2016-01-20 三菱電機株式会社 文字列検索装置
CN103927329B (zh) * 2014-03-19 2017-03-29 北京奇虎科技有限公司 一种即时搜索方法和系统
GB2535439A (en) * 2015-01-06 2016-08-24 What3Words Ltd A method for suggesting candidate words as replacements for an input string received at an electronic device
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102063508A (zh) * 2011-01-10 2011-05-18 浙江大学 基于广义后缀树的中文搜索引擎模糊自动补全方法

Also Published As

Publication number Publication date
WO2018040899A1 (zh) 2018-03-08
US20190179855A1 (en) 2019-06-13
US11574012B2 (en) 2023-02-07
CN106326484A (zh) 2017-01-11
KR20190020119A (ko) 2019-02-27
CA3029588A1 (en) 2018-03-08
AU2017317878B2 (en) 2020-11-19
SG11201900084PA (en) 2019-03-28
MY193919A (en) 2022-11-01
JP6997781B2 (ja) 2022-01-18
EP3508992A4 (en) 2019-09-04
KR102204971B1 (ko) 2021-01-20
TW201812619A (zh) 2018-04-01
AU2017317878A1 (en) 2019-01-31
CA3029588C (en) 2023-07-11
EP3508992A1 (en) 2019-07-10
JP2019526142A (ja) 2019-09-12

Similar Documents

Publication Publication Date Title
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
US10089303B2 (en) Customizable and low-latency interactive computer-aided translation
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
US11693894B2 (en) Conversation oriented machine-user interaction
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
WO2015176518A1 (zh) 一种回复信息推荐方法及装置
CN105068997B (zh) 平行语料的构建方法及装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN104142915A (zh) 一种添加标点的方法和系统
US20220414332A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
CN109522397B (zh) 信息处理方法及装置
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN106610990A (zh) 情感倾向性分析的方法及装置
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
CN113064985A (zh) 人机对话方法、电子设备及存储介质
CN107066533B (zh) 搜索查询纠错系统及方法
JP2016102866A (ja) 誤認識修正装置およびプログラム
JP2017059216A (ja) クエリ校正システムおよび方法
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备
JP6425732B2 (ja) 文章検索システム、極性判定ルール修正システム、文章検索方法及び極性判定ルール修正方法
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics