TW200951743A - Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server - Google Patents
Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server Download PDFInfo
- Publication number
- TW200951743A TW200951743A TW97120924A TW97120924A TW200951743A TW 200951743 A TW200951743 A TW 200951743A TW 97120924 A TW97120924 A TW 97120924A TW 97120924 A TW97120924 A TW 97120924A TW 200951743 A TW200951743 A TW 200951743A
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- similar
- query
- words
- query condition
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
200951743 九、發明說明: 【發明所屬之技術領域】 本發明疋有關於一種資料查詢方法及系統,特別是指 一種允許輸入的查詢條件或資料庫之内容有誤的具搜尋相 似特性字詞之能力的資料查詢方法及系統。 【先前技術】
隨著科技發展,人們已習慣利用各種搜尋引擎來查詢 包含特定内容的資料。以網際網路來說,著名之搜尋引擎 例如Google、Yah〇0,使用者需輸入關鍵字當作查詢條件; 另有例如酷比(Seupi。)搜尋引擎,查詢條件除了關鍵字之 外’還可以是整篇或段落文章。前述查詢條件,通常是由 使用者以鍵盤鍵入的方式輸入,或由網頁文章進行選取, 但也可能透過手寫辨識裝置輸入查詢條件,或透過光學字 元辨識(Optical Character Rec〇gnition,〇CR)技術將紙本 轉換得到的數位文字資料。再以語音查詢搜尋引擎來說, 使用者輸入查詢條件的方式更有別於前者,是利用例如電 活語音的方式輸入。 然而,不論是鍵入關鍵字,或手寫辨識、光學字元辨 識、語音辨識技術,都難以確保百分之百的正確率,實際 上常會發生鍵入相似形狀或發音之字或詞,或辨識成相: 形狀或發音的字或詞的狀況。舉例來說,使用者欲杳绚「 遠東飯店」,若以倉頡輸入法打字或透過光學字元辨識,輸 入條件可能會變成形狀相似的「還東飯店」,因為「遠與 「還」,以及「東」與「柬」形狀非常相似;若以注音輸二 200951743 法打字或透過語音辨識,可能會變成「元通飯店」, 遠」與「=」’以及「東」與「通」在發音上非常相似。’ 以目前技術來說,當所輸入的查詢條件因為打錯 辨識錯誤而與使用者想查詢的内容有所出入,搜尋 無法查詢到所需要的資料。 、 另一方面,也有可能使用者所輸入的查詢條件是正確 的,但搜尋引擎所連結的資料庫中資料内容有錯別字,甚 至有些資料因為翻譯、口傳,或存在別名的原目,以致有 〇 $同的文字型態,例如「遠東飯店」也常被稱「遠東大飯 店」,在此情況下’搜尋引擎也可能查詢不到所需要的資料 〇 為解決上述問題,目前大多是著重於提高光學字元辨 識及語音辨識技術的辨識正確率,但即便辨識正確率可利 用校正方式而稍微提高,但輸入關鍵字時打錯字、資料庫 本身存在錯別字缺陷,或者所查詢的名稱有別名等狀況, 仍無法克服。 ❹ 【發明内容】 因此,本發明之目的,即在提供一種利用文字特性擴 大查詢範圍的方法,使資料搜尋的條件可擴及形、音等文 字特性與該條件相似者。 ^本發明之另一目的,在於提供—種具搜尋相似特性字 詞之能力的資料查詢方法,可在不校正輸入的查詢條件以 及資料庫内容的情況下,依據查詢條件的字或詞的形、音 等文字特性,查詢到所需要的資料。 200951743 本發明之再-目的,在於提供一種利用文字特性擴大 -μ圍m使資料搜尋的條件可擴及形、 特性與該條件相似者。 《哥又子 本發明之又-目的’在於提供—種搜尋引擎飼服器, :不权正輸入的查詢條件以及資料庫内容的 2查詢條件的字或詞的形、音等特性,查詢到所需要的資 〇 於是,本發明搜尋引擎伺服器是包含一利用文 擴大查詢範圍的系統,及一與利用文字特性擴大查詢範 的系統連接的搜尋單元。搜尋單元還與—f料庫連接。 利用文字特性擴大查詢範圍的系統包括一供接收一查 =條件的接㈣組、—與純料連接且㈣取查詢料 =的肺模組、至少—與該麻模組連接且將被梅取 組的編…-與該棟取模 及該比對模組連接之替換棋组對模組’及-舆該操取模組 ^述編碼器所採編碼方式與文字的一種特性相關。比 =組㈣似字表上列舉具有相似特性的字,該等具相似 d的子Γ先以該至少一編碼器編碼處理過’比對模組將 :二之字的字碼與該相似字表比對’得到比對結果為相 2子。替換模組以比對模组所得到的相似字對該查 2的對應字進行替換,得到至少—筆「相似查詢條件」: 則依Γ查詢條件」與「相似查詢條件」在該資 進仃搜⑦’並料合查詢條件㈣相似查詢條件之 200951743 資料輸出。 本發明之搜尋引擎伺服器執行具搜尋相似特性字詞之 能力的資料查詢方法,包含以下步驟: (A)接收一查詢條件。 ⑻擁取查詢條件中的字及/或詞,對應地組成—字組 或詞組或字詞組,以下簡稱字詞組。 ’ (C)針對該字詞財的字及/或詞,依其至少-特性以
與該特性相關的編碼方式進行編碼,產生㈣之字碼及 詞碼。 取 ⑻使每-字碼及/或詞碼與一事前建立的相似字q 表進行比對’#中,該相似字詞表上列舉具有相似特性的 字、詞其中至少一 ’並以與步驟(c)所採相同的編碼方式 進行過編碼處理。 ⑻以比對結果為相似的字及/或詞對該查詢條件中的 對應字及/或詞進行替換,得到至少—筆「相似查詢條件」, 定義該查詢條件與該相似查詢條件總稱為「擴大查詢條件」 資料庫中進行搜 (F)依據該「擴大查詢條件」,在一 尋,將符合「擴大查詢條件」之資料輸出。 【實施方式】 有關本發明之前述及其他技術内容、特點與功效,在 以下配合參考圖式之—個較佳實施例的詳細 清楚的呈現。 τ π 參閱圖1,本發明搜尋引擎伺服器 100之較佳實施例包 200951743 及-資系統〗,及-與該系統1 $圍= 的搜尋單元2。該利用文字特性擴大查詢 1圍的系、統1也可獨立安裝至其他習用的搜尋引擎,使習 用搜尋引擎也能具有搜尋相似特性之字詞的能力。 ❹ 該系統i則包括-供接收-查詢條件3G的接收模组n 、一與接收模,组U連接且用以操取查詢條件3〇巾的字及詞 =產生字詞組㈣取模組12、與摘取模組12連接且用以對 子及闺進行編碼的一形編碼器131與一音編碼器…、一與 擷取模組12連接且内建一相似字詞们4〇的比對模組14’,、 及彼此相互連接之一用以產生「相似查詢條件η」的替換 模組15,與-用以產生「減字查詢條件%的減字模組μ 其中,本實施例之擷取模組12是以擷取查詢條件3〇 中的字及詞舉例說明,比對模缸14中的「相似字詞表」内 '容包含字及詞,但不以此為限。本發明之擷取模組12也可 以设定為只擷取字,或只擷取詞;當擷取模組12設定為只 〇 擷取字,比對模組14的相似字詞表140應縮減為「相似字 表」;當擷取模組12設定為只擷取詞,比對模組14的相似 字詞表140應縮減為「相似詞表」。此外,雖本實施例之擷 取模組12是設定為擷取字及詞,但若由該查詢條件3〇中 擷取不出詞,也會有字詞組中只包含字的情況。事實上, 詞乃複數個字所組成,原則上只要取字作後續運算即可達 到本發明之目的,但由於有些口語連音的關係’有些詞不 容易被細分出字’這狀況在網路盛行的現代更加常見,因 200951743 此以針對字及詞都進行擁取較佳。 夺配合參_ 2,該搜尋引擎舰器⑽執行本發明之具 搜尋相似特性字詞之能力的資料查詢方法,該方法的較佳 實施例包含以下步驟·· 步驟S广接收模組u接收查詢條件%。該查詢條件 3〇 -般來說是使用者以鍵入方式輸入的關鍵字但也可以 是透過選取、手寫辨識' 光學字元辨識,或語音輸入等方 ❹ Ο 式輸入的關鍵字、句子,或文章段落。以下以查詢條件30 為「遠東飯店」舉例說明。 步驟S2 —擷取模組12擷取查詢條件30「遠東飯店」中 的字及詞,組成内容為「遠東、飯店、遠、東、飯、 的子詞组。 接著,字詞組分別制形編碼器131及音編碼器132 進行編碼步驟S31、S32 ’該二編碼步驟可同步進行,也可一 先一後進行且順序不限。 一步驟SS1—形編碼器131將字詞組中的每一字、每一詞 進行編碼’而產生字形碼及詞形碼。本實施例以編 碼方,為倉領輸人法舉例說明,因此例如「遠東」的詞形 二卜土口女木田」,「遠」的字形碼為「卜土口女」,東 曰字形瑪*「木田」。當然,編碼方式不以此為限也可以 =輪入法、四角號碼檢字法、大易、無蝦米、速成輸 法等任何與字形相關的編碼方式 步驟S32—音編碼器132將字詞組中的每一字、每— 依發音進行編碼,而產生字音碼及詞音碼。本實施例以 詞 編 10 200951743 碼方式為羅馬拼音舉例說明,因此例如「遠東」的詞音碼 為「yuandong」,「遠」的字音碼為ryuan」,東的字音碼為 dong」。當然,編碼方式不以此為限,也可以是注音、通 用拼a、漢語拼音等任何與發音相關的編碼方式。 上述字形碼、詞形碼、字音碼,及詞音碼仍存於擷取 模組12的字詞組中’並由比對模組14進行接續的步驟 心2與S43。比對模組14中的相似字詞表14〇上列舉具有 相似特性的字及詞,並已事先經形編輯器131以倉頡輸入 法進行過編碼處理,產生「相似字詞形表」,也經音編輯器 132以羅馬拼音進行過編碼處理,產生「相似字詞音表」。 步驟Sq —接續步驟Ssi,將字詞組中的字形碼、詞形 碼與相似字詞形表」進行比對,尋找形相似者,一般來 說,先比詞在比字,但不以此為限❶在本實施例,相似與 否的判斷是利用量化的相似度,其計算方式例如: 1' 遠」的字形碼是「卜土口女」,而相似字詞形表中 的「還」的字形碼是「卜田中女」,則四碼中二碼, 「還」字與「遠」字的相似度為2/4 = 5〇% 。 2· 東」的字形碼是「木田」,而相似字詞形表中的「 東」的字形碼是「木田火」,則三碼中二碼,「柬」 字與「東」字的形相似度為2/3 = 67% 。 步驟Sc—接續步驟I2,將字詞組中的字音碼、詞音 碼與相似字詞音表」進行比對,尋找發音相似者,_般 來說,先比詞在比字’但不以此為限。在本實施例,相似 與否的判斷是利用量化的相似度,其計算方式例如: 11 200951743 1. 遠」的字音碼是「yuan」,而相似字詞音表中的「 兀」的字音碼是「yuan」,則四碼完全相同,「元」 子與遠」字的音相似度為4/4= 100% 。 2. 東」的字音碼是「dung」,而相似字詞音表中的「 通」的字音碼是「tung」,則四碼中三碼,「通」字 與東」字的相似度為3/4= 75% 。 ❹
本發明判斷是否相似的方式不以量化相似度為限,且 P便汁算相似度’也不以上述計算公式為限’可以調整為 其他計算公式。舉例來說,^音編碼3 132是採注音編碼 ,「遠/的字音碼是「u弓v」,「旋」的字音碼是「Tu弓 /」,旋」字與「遠」字的音相似度可等於[2*2 (因為重疊 兩碼)]’[3 (遠有三碼)+4 (旋有四碼)]=4/7=57%。 步驟Sc—比對模組14預設一相似度的門檻值,例如 5〇% ,尚於該門檻值之字詞被判斷為相似,接著進行步驟
Ss,相等或低於該門檻值之字詞,則被判斷為不相似,將不 進行後續演算流程。因此,以上述例子來說,「還」及「東 」的形相似度高於門檻值,「元」及「通」的音相似度也高 於門根值。 值得一提的是’本發明也可以只針對字形或發音其中 的單一種文字特性去擴大查詢條件,也就是說,本發明可 以只採形編碼器131、音編碼器132其中之一進行編碼,只 用一種比對方式,不一定形、音兩種編碼及比對步驟都進 行。 步驟Ssl—替換模組15將相似度高於門檻值的字及詞 12 200951743 ,對查詢條件30「遠東飯店」中的對應字及詞進行替換, 得到例如「還東飯店」、「遠柬飯店」、「元東飯店」、「遠通 飯店」等「相似查詢條件31」,同時計算得分。分數計算方 式舉例如下,但不以此方式為限。 「還東飯店」:(50% +100% +100% +100% )/4=87 % 「遠束飯店」:(100% +67% +100% +100% )/4=^ 7外 「元東飯店」:(100% +100% +1〇〇% +1〇〇% )/4== 1〇⑽ 「遠通飯店」:(100% +75% +100% +100% )/4=:93 75% 步驟S52—替換模組15接著判斷「相似查詢條件31」 的分數是否高於一預設的門檻值,在此的門檻值可與比對 拉組14的相同,也可提高為例如75%或降低,若高於該門 檻值,則進入步驟S53—連同原查詢條件3〇定義為「擴大 查詢條件33」,若相等或低於該門檻值,則不列入計算。 步驟一減字模組16預設有減字量,並將查詢條件 3〇與相似查詢條件31進行減字,得到「減字查詢條件π 」並計算得分。舉例來說,減字模組16預設減字數量為一 ,則「遠柬飯店」經過減字模組16處理後,得到「柬飯店 」、「遠飯店」、「遠柬店」、「遠東飯」這四個「減字查詢條 件32」。減字查詢條件32的分數需以原分數乘上一權重, 本例因四字減一字,權重為3/4,因此該四個減字查詢條件 32 的分數皆為 91.75% *3/4=68.81%。 步驟S62—減字模組16接著判斷「減字查詢條件32」 的刀數疋否间於一預設的門檻值,在此的門檻值可與替換 Μ組15的75% 4目同,也可補微降低或提高。若高於該門檀 13 200951743 值,則進入步驟一併入「擴大查詢條件33」,若相等或 低於該門植值,則不列入計算。 步驟S7—搜尋單元2設定「容許間隔距離d」,在此以 d=2舉例說明,搜尋單元2針對每一查詢條件3〇、相似查 詢條件31,及減字查詢條件32的字與字之間插入空 : ,'=r OC* 格數n$d,得到「容許間隔的查詢條件」,並併入「擴大杳 詢條件33」,再以該「擴大查詢條件33」在資料庫4 尋資料。 © 當然,該步驟的演算方式不以上述為限,原則是當查 詢條件30、相似查詢條件31 ’或減字查詢條件32的字詞 出現在資料庫4之一資料中但出現的位置不同,只要字與 子之間的間隔距離在該設定的字元間隔距離d之内,則該 資料在下一步驟中將被認定為符合「擴大查詢條件」。 步驟S「搜尋單元2在資料庫4中搜尋符合「擴大查 詢條件33」的資料,並針對搜尋到的資料計算得分。舉例 來說,有一資料内容出現「遠東大旅店」,以查詢條件3〇「 ® 冑東飯店」來說,一般搜尋引擎是不可能找出該資料的, 但本發明經過㈣模組15以相似字形替換得到「遠柬飯店 (9175% )」,又經過減字模組16得到「遠柬店(68.81% ) 」,且容許間格距離,因此找到「遠柬大旅店」的第一、二 、五個字符合擴大查詢條件—「遠柬店」,分數可以是 68.81% *3/5=41.29% 〇 步驟S9-搜尋單元2接㈣斷該諸的分數是否高於 -預設的門檻值’在此的門插值可與前述相同,但通常也 14 200951743 列如· ’若高於該門檻值,則進行輸出,若相 :“亥門檻值,則不輸出。輸出方式可依得分作遞減 1二使最高分的資料出現在最前面,方便使用者選擇分 數咼者。 一 X上可知,右使用者輸入關鍵字時誤植錯別字,或
❹ 光學字元辨識、語音辨識有誤,甚或資料庫中的資料内容 % X般搜尋引擎來說幾乎不可能找回使用者真正想 搜=的資料,但㈣本發明之搜尋引冑,依然有機會找到 =料’且每-份輸出的f料包含得分,使用者可利用該 得分選擇要看的資料。歸納上述,本發明利用文字特性擴 ^查詢範圍的方法’使資料搜尋的條件可擴及形、音等文 子=性與該條件相似者,藉此在不校正輸人的查詢條件以 及資料庫内容的情況下’使用者仍可查詢到所需要的資料 ’確實可達到本發明之目的。 惟以上所述者,僅為本發明之較佳實施例而已,當不 能以此限定本發明實狀㈣,即A凡依本發明中請專利 範圍及發明說明内容所作之簡單的等效變化與修飾,皆仍 屬本發明專利涵蓋之範圍内。 【圖式簡單說明】 圖1是一方塊圖,說明本發明搜尋引擎的較佳實施例 :及 圖2是一流程圖,說明該搜尋引擎的演算流程。 15 200951743 【主要元件符號說明】 100 .·· •…搜尋引擎伺服器 30.......... 查詢條件 1........ •…利用文字特性擴 31.......... 相似查詢條件 大查詢範圍的系統 32.......... 減字查詢條件 11…… •…接收模組 33.......... 擴大查詢條件 12…… •…擷取模組 4 ........... 資料庫 131 ···· •…形編碼器 S! 、 S2·"· 步驟 132 ···· •…音編碼器 S31、S32 步驟 ❹ 14…… •…比對模組 S41 〜S43 * 步驟 140 ···· •…相似字詞表 S51〜S53 · 步驟 15…… •…替換模組 Sei~S63 ' 步驟 16…… •…減字模組 S7〜S9 … 步驟 2........ …·搜尋單元 16
Claims (1)
- 200951743 十、申請專利範圍: h 一種利用文字特性擴大查詢範圍的方法,包含以下步驟 (I) 接收一查詢條件; (II) 擷取該查詢條件中的字,並將所擷取之字依 至夕一特性以與該特性相關的編碼方式進行編碼; (iii )與一相似字表進行比對該相似字表上列舉 ❹ 具有相似特性的字,並以與步驟(Π )所採相同的編碼 方式進行過編碼處理;及 (w)以比對結果為相似的字對該查詢條件中的對 應子進仃替換,得到至少一筆「相似查詢條件」,與該杳 '•旬條件加總成為「擴大查詢條件」。 :據申印專利範圍第1項所述之利用文字特性擴大查詢 、圍的方法,其中,該步驟(ϋ )將所擷取的字依字形 進仃編碼,獲得—對應之字形碼;該相似字表上❹ 形相似的字。 』舉予 ® 3.依據申請專利範圍Μ 範圍的方法,其中 之利用文字特性擴大查詢 的詞H 該步驟(Η)還操取該查詢條件中 :二、、該d依子形進行編碼,獲得-對應之詞形碼 ,該相似字表楯祺炎4 』〜碼 字及^相似字詞表,其中列舉字形相似的 圍中第1項所述之利用文字特性擴大查詢 進行編碼,獲得-對將所擁取的字依字音 子應之子θ碼;該相似字表上列舉發 17 200951743 音相似的字。 5.=據申請專利範圍第4項所述之利用文 :圍的方法’其中,該步驟⑻還操取該查= 、心並將該詞依字音進行編碼,獲得_對應之詞音碼 字:似字表擴張為相似字詞表’其中列舉發音相似的 6·=申請專利範圍第!項所述之利用文字特性擴大杳詢 ❿ =的方法,其中,該步驟⑻將所揭取的字依字形 仃編碼’獲得__對應之字形碼,還依字音進行編碼, 獲得一對應之字音碼;該相似字表上列舉字形相似的字 ’還列舉發音相似的字。 7. 依據申請專利範圍第6項所述之利用文字特性擴大查詢 知圍的方法,其中,該步驟⑻義取該查詢條件中 的阑,並將該詞分別依字形及字音進行編碼,獲得對應 之一詞形碼及一詞音碼;該相似字表擴張為相似字詞表 ’其中列舉字形相㈣字及詞,以及發音相似的字及詞 〇 8. 依據申請專利範圍第2、3、6、7項中任一項所述之具搜 尋相似特性字詞之能力的資料查詢方法,其中,該步驟 (11)疋以倉頡、五筆輸入法、四角號碼檢字法、大易 、無瑕米、速成輸入法其中之一編碼方式進行編碼。 9·,據申請專利範圍第4、5、6、7項中任一項所述之具搜 尋相似特性字詞之能力的資料查詢方法,其中,該步驟 (11 )疋以注音、羅馬拼音、通用拼音、漢語拼音其中 18 200951743 編碼方式進行編碼 之 10·依據申請專利蘇園笛7 1 & 用寻㈣圍第1〜7項中任一項所述之利 =大^範圍的方法,其中,該步驟(iii)的比對社 果量化為-相似度,當該相似度高於—門襤值,則W 驟(IV)進行替換。 步 比依據巾請專利範圍第1G項中任—項所述之利用文字特 擴大查詢範圍的方法,其中, ' 右再r該步驟(W)所得到的「 ❹ 目似查詢條件」還利用該相似度計算分數,只有分 一門捏值的相似查詢條件,才併入「擴大查詢停件。 12. 依據申請專利範 条件」 寻刊乾圍第1〜7項中任一項所述之利用文 大查為範圍的方法更包含一步驟(V)將該查詢條 、該相似查詢條件進行減字,得到「減字查詢條件」 並併入該「擴大查詢條件」。 13, 依據申請專利範圍第Μ項中任一項所述之利用文字特 性擴大查詢範圍的方法,更包含-步驟(vi)設定一「 容許間隔距離d」’在每一查詢條件及相似查詢條件的字 與字之間插入空格,空格數…,得到「容許間隔的查 旬條件」’並併入該「擴大查詢條件」。 14·依據申清專利範圍第12項所述之利用文字特性擴大查詢 ★的方法更包含一步驟(vi )設定一「容許間隔距 離d」’在每一查詢條件、相似查詢條件,及減字查詢條 件的字與字之間插入空格’空格數心’得到「容許間 =的4詢條件」’並併人該「擴大查詢條件」。 5·種具搜尋相似特性字詞之能力的資料查詢方法,包含 19 200951743 以下步驟: (A) 接收一查詢條件; (B) 掘取該查詢條件中的字、詞其中至少一, 成一字詞組; (C )針對該字詞組中的字及/或詞,依其至少一特 性以與該特性相關的編碼方式進行編碼,產生對應之字 碼及/或詞碼; (D )使每一字碼及/或詞碼與一事前建立的相似字 ❹ ㈣表進行比對,其中,該相似字詞表上列舉具有相似特 性的字、詞其中至少—,並以與步驟(C )所採相同的 編碼方式進行過編碼處理; (E )以比對結果為相似的字及/或詞對該查詢條件 中的對應字及/或詞進行替換,得到至少一筆「相似查詢 條件」,冑義該查詢條件與該相似查詢條件總稱為「擴大 查詢條件」;及 F )依據該「擴大查詢條件 貝科犀中進; 搜尋,將符合「擴大查詢條件」之資料輸出 16.依據中請專利範圍第15項所述之具搜尋㈣特性字詞 月匕力的資料查詢方法’其中,該步驟(c)是依字形 字音其中至少一特性,對字及/或詞進行編碼。 Π.域申請專㈣圍第16項料之具搜尋相似特性字詞 忐,的資料查詢方法,其中,該步驟(C )是以倉領 筆輸入法、四角號碼檢字法、大易、無瑕米、速成; 入法其中之一編碼方式進行編碼。 20 200951743 18·依射請專利範圍第16項所述之具搜尋相似特性字詞之 能力的資料查詢方法’其中,該步驟(c)是以注音、 羅馬拼音、通㈣音、漢語拼音其中之—編碼方式進行 編碼。 19_依據申請㈣範圍第15項所述之具搜尋相㈣性字詞之 能力的資料查詢方法’其中,該步驟(D)所作的比對 結果以量化的相似度表示;該步驟⑻只有相似度達 ❹ -門檻值的字及/或詞才對該查詢條件中的對應字及/或 詞進行替換。 20·依射請專利範圍第15〜19項中卜項所述之具搜尋相 似特性字詞之能力的資料查詢方法,其中,該步驟⑶ )所作的比對結果以量化的相似度表示;相似度與碼的 相同率相關。 參 21•依據申請專利範圍第15〜19項中任—項所述之具搜尋相 似特性字詞之能力的資料查詢方法,其中,該㈣(D )所作的比對結果以量化的相似度表示;該步驟⑻ 還利用該相似度對該「相似查詢條件」計算分數,只有 達-門播值的相似查詢條件,才併入「擴大查詢條件」。 22. 依據申請專利範圍第21項所述之具搜尋相似特性字★司之 能力的資料查詢方法,其中’該步驟(D)之相似度斑 碼的相同率相關;該步驟⑻中,「相似查詢條件」的 分數等於所替換的字及/或詞的相似度的累加值除以^「 相似查詢條件」的字數。 23. 依據申請專利範圍第21項所述之具搜尋相似特性字詞之 21 200951743 能力的資料查詢方法’更包含一步驟(F)之前的步驟( G ),設定減字量,並針對該查詢條件及「相似查詢條件 」進行減字,得到「減字查詢條件」並併入該「擴大杳 詢條件」。 24.依據申請專利範圍第23項所述之具搜尋相似特性字詞之 能力的資料查詢方法,其中,該步驟(G)還利用該相 似度對該「減字查詢條件」計算分數,只有達一門檻值 的減字查詢條件,才併入「擴大查詢條件」。 〇 25·依據申請專利範圍第15〜19項中任一項所述之具搜尋相 似特性字詞之能力的資料查詢方法,其中,該步驟⑺ 還設定「容許間隔距離」,若該「擴大查詢條件」的字詞 出現在該資料庫之-資料中但出現的位置不同,但字與 字之間的間隔距離在該設定的字元間隔距離之内,則該 資料被認定為符合該擴大查詢條件。 之 26.依據申請專利範圍第21項所述之具搜尋相似特性字詞 能力的資料查詢方法,其中,該步驟(F)還設定「容許 © f日1隔距離」’㈣「擴大查詢條件」的字詞出現在該資料 庫之-資料中但出現的位置不同,但字與字之間的間隔 距離在㈣定的字元間隔距離之内,則該資料被認定為 符合該擴大查詢條件。 27. —種利用文子特性擴大香詢筋圍沾么从 一 J靶圍的系統,安裝於一搜尋 引擎,並包含: 供擷取該查詢條 一接收模組,供接收一查詢條件 一擷取模組,與該接收模紐連接 22 200951743 件中的字; 至少-編碼器,與該擷取模組連接,將被擷取之字 進行編碼後存回_取模組,每〜糾n所採編碼方式 與文字的一種特性相關; 子模、’且與該揭取模組連接,内建一相似字表 ,該:似字表上列舉具有相似特性的字,該等具相似特 ί生的字事先以4至少—編碼器編碼處理過,該比對模組 ㈣㈣取之字的字碼與該相似字表比對,得到比對結 φ 果為相似的字;及 ;換模、组,與該擷取模組及該比對模組連接,以 該比對模組所得㈣相似字對該查詢條件中的對應字進 行替換,得到至少一筆「相似查詢條件」。 28·依據中請專利範圍第27項所述之㈣文字特性擴大查詢 範圍的系、統,其中’該摘取模組將所操取的字依字形進 行編碼,獲得一對應之字形碼;該相似字表上列舉字形 相似的字。 © 29.依據申請專利範圍第28項所述之利用文字特性擴大查詢 範圍的系統,其中,該擷取模組還擷取該查詢條件中的 詞,並將該詞依字形進行編碼,獲得一對應之詞形碼; 該相似字表擴張為相似字詞表,其中列舉字形相似的字 及詞。 30.依據申請專利範圍第27項所述之利用文字特性擴大查詢 範圍的系統,其中,該擷取模組將所擷取的字依字音進 打編碼,獲得一對應之字音碼;該相似字表上列舉發音 23 200951743 相似的字。 31.依據巾請專利_第3()項所述之㈣文字純擴大 範圍的系統’其中,該擁取模組還擷取該查詢條件^ 詞’並將㈣依字音進行料,獲得-對應之詞音碑 該相似字表擴張為相似字詞表,其^舉❹# 及詞。 于 32.依射請專利範圍第27項所述之利用文字特性擴大杳詢 φ 範圍的系統,其中,該操取模組將所操取的字依字形進 ^碼’料一對應之字形碼,還依字音進行編碼,獲 付一f應之子音碼;該相似字表上列舉字形相似的字, 還列舉發音相似的字。 33.依據申請專利範圍第32項所 範圍的系統,其中,該擁 子,’生擴大查詢 詞,並將該詞分別依字 个仟1^的 一s 子办及子日進仃編碼,獲得對應之 一 3形碼及一詞音碼;該 其中列舉字形相似的字及1 張為相似字詞表, 相似的子及詞,以及發音相似的字及詞。 ❹34.依據申請專利範圍第28、29、μ M m ir ^ έ* ^ 33項中任一項所述之 利用文子特性擴大查詢範 a ,. . i5 固的系統,其中,該擷取模組 米、速五筆輸入法、四角號碼檢字法、大易、無蝦 h㈣^ 其中之—編碼方式進行編碼。 35.依據申請專利範圍第3〇、3 Mm ^ ^ 2 33項中任一項所述之 是以主:特性擴大查詢範圍的系統,其中,該掏取模組 ’ 9、羅馬拼音、通用拼音 碼方式進行編喝。 ⑧曰”甲之編 24 200951743 36 37 〇 38. 39. 鲁 依據申請專利範圍第27〜33項中任一項所述之利用文字 特性擴大查詢範圍的系統,其中,該比對模組將比對結 果量化為一相似度,當該相似度高於一門檻值,則該替 換模組進行替換。 依據申請專利範圍第36項所述之利用文字特性擴大查詢 範圍的系統’其中’該替換模組還針對所得到的「相似 查詢條件」制該相似度計算分數,只有分數達一門檀 值的相似查詢條件,才併入「擴大查詢條件」。 依據申4專利㈣帛27〜33項中任—項所述之利用文字 特性擴大查詢範圍的系統’更包含一減字模組,將該查 詢條件與該㈣㈣條料行減纟 件」並併入該「擴大查詢條件」。 條 一種搜尋引擎伺服器,包含: —利用文字特性擴大查詢範圍的系統,該系統包括 一接收模組,供接收一查詢條件, 二一擷取模組,與該接收模組連接,供擷取該查 詢條件中的字, 〜至少一編碼器,與該擷取模組連接,將被擷取 之字進行編碼後存回該擷取模組’每一編碼器所採 編碼方式與文字的一種特性相關, 八—比對模組,與該擷取模組連接,内建一相似 予表,該相似字表上列舉具有相似特性的字,該等 具相似特性的字事先以該至少一編碼器編碼處理過 ’該比對模組將該被擷取之字的字碼與該相似字表 25 200951743 比對’得到比對結果為相似的字,及 一替換模組’與該擷取模組及該比對模組連接 ’以該比對模組所得到的相似字對該查詢條件中的 對應字進行替換,得到至少一筆「相似查詢條件」; 及 」’ 一搜尋單元,與該利用文字特性擴大查詢範圍的系 統以及一資料庫連接,依據該查詢條件與該相似查詢條 件在該資料庫中進行搜尋,並將符合查詢條件與該相似 © 查詢條件之資料輸出。 40. 依據申請專利範圍第39項所述之搜尋引擎伺服器,其中 ,該擷取模組將所擷取的字依字形進行編碼,獲得一對 應之字形碼;該相似字表上列舉字形相似的字。 41. 依據申請專利範圍第4〇項所述之搜尋引擎伺服器,其中 ’該擷取模組還擷取該查詢條件中的詞,並將該詞依字 形進行編碼,獲得一對應之詞形碼;該相似字表擴張為 相似字詞表,其中列舉字形相似的字及詞。 ❹42.依據申請專利範圍第39項所述之搜尋引擎伺服器,其中 ,該擷取模組將所擷取的字依字音進行編碼獲得一對 應之字音碼;該相似字表上列舉發音相似的字。 43. 依據申請專利範圍第42項所述之搜尋引擎伺服器,其中 ’該擷取模組還擷取該查詢條件中的詞,並將該詞依字 音進仃編碼,獲得一對應之詞音碼;該相似字表擴張為 相似字詞表,其中列舉發音相似的字及詞。 44. 依據申請專利範圍第39項所述之搜尋引擎伺服器,其中 26 200951743 ’該擁取模組將所擁取的字依字形進行編碼,獲得一對 應之字形碼,隸字音進行編碼,獲得—制之字音瑪 ;該相似字表上列舉字形相似的字,還列舉發音相似的 45·依據中請專利範圍第44項所述之搜尋引擎聽器,丘中 ’該掘取模組_取該查詢條件中的詞,並將該詞分別 依子形及子a進行編碼,獲得對應之一詞形碼及一詞音瑪二該相似字表擴張為相似字詞表,其中列舉字形相似 的子及詞,以及發音相似的字及詞。 46.依據申請專利範圍第4〇、41、44、45項中任一項所述之 搜尋引擎龍H,#巾,錢取模組是以倉頡、五筆輸 入法、四角號碼檢字法、大易m速成輸入法其 中之一編碼方式進行編碼。 47.依據中請專利範圍第42、43、4[ 45項中任—項所述之 搜尋引擎词服器,其中,該揭取模組是以注音、羅馬拼 音、通用拼音、漢語拼音其中之一編碼方式進行編碼。 © 48.依據申請專利範圍帛39〜45項中任一項所述之搜尋引擎 伺服器,其中,該比對模組將比對結果量化為—相似度 ,當該相似度高於一門檻值,則該替換模組進行替換。 49_依據申請專利範圍第48項所述之搜尋引擎伺服器,其中 ,該替換模組還針對所得到的「相似查詢條件」利用該 相似度計算分數,只有分數達一門檻值的相似查詢條件 ,才併入「擴大查詢條件」。 50.依據申凊專利範圍第39〜45項中任一項所述之搜尋引擎 27 200951743 伺服器,更包含一減字模組,將該查詢條件與該相似查 詢條件進行減字,得到「減字查詢條件」並併入該「擴 大查詢條件」。 5 1.依據申请專利範圍第3 9〜45項中任一項所述之搜尋引擎 伺服器,其中,該搜尋單元設定一「容許間隔距離d」, 並在每一查詢條件及相似查詢條件的字與字之間插入空 格,空格數nS d,得到「容許間隔的查詢條件」,並併 入該「擴大查詢條件」。 φ 52.依據申請專利範圍第50項所述之搜尋引擎伺服器,其中 ,該搜尋單元設定一「容許間隔距離d」,在每一查詢條 件、相似查詢條件,及減字查詢條件的字與字之間插入 空格,二秸數n备d ,得到「容許間隔的查詢條件」,並 併入該「擴大查詢條件」。 28
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW97120924A TW200951743A (en) | 2008-06-05 | 2008-06-05 | Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW97120924A TW200951743A (en) | 2008-06-05 | 2008-06-05 | Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server |
Publications (1)
Publication Number | Publication Date |
---|---|
TW200951743A true TW200951743A (en) | 2009-12-16 |
Family
ID=44871831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW97120924A TW200951743A (en) | 2008-06-05 | 2008-06-05 | Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW200951743A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI486799B (zh) * | 2010-08-27 | 2015-06-01 | Alibaba Group Holding Ltd | A method and a device for determining a weight value of a search word, a search result generating method, and a device |
TWI507897B (zh) * | 2010-05-14 | 2015-11-11 | Alibaba Group Holding Ltd | Search methods and devices |
-
2008
- 2008-06-05 TW TW97120924A patent/TW200951743A/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI507897B (zh) * | 2010-05-14 | 2015-11-11 | Alibaba Group Holding Ltd | Search methods and devices |
TWI486799B (zh) * | 2010-08-27 | 2015-06-01 | Alibaba Group Holding Ltd | A method and a device for determining a weight value of a search word, a search result generating method, and a device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7810030B2 (en) | Fault-tolerant romanized input method for non-roman characters | |
CN105957518B (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
JP5608766B2 (ja) | ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 | |
US20100332225A1 (en) | Transcript alignment | |
US8688725B2 (en) | Search apparatus, search method, and program | |
JP2003514304A (ja) | スペルミス、タイプミス、および変換誤りに耐性のある、あるテキスト形式から別のテキスト形式に変換する言語入力アーキテクチャ | |
JP2003527676A (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
JPWO2008016102A1 (ja) | 類似度計算装置及び情報検索装置 | |
US20080091660A1 (en) | System and method for searching information using synonyms | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
Ahmed | Lexical normalisation of twitter data | |
JP2016102866A (ja) | 誤認識修正装置およびプログラム | |
CN110555091A (zh) | 一种基于词向量的联想词生成方法及装置 | |
TW200951743A (en) | Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server | |
Saloot et al. | Toward tweets normalization using maximum entropy | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP3366253B2 (ja) | 音声合成装置 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
US20230306963A1 (en) | Intuitive dictation | |
JP6003127B2 (ja) | 言語モデル作成プログラム及び言語モデル作成装置 | |
JP5866084B2 (ja) | 検索装置 | |
Allauzen et al. | Voice Query Refinement. | |
JP2000235567A (ja) | 声調符号無入力式中国語文字変換装置 |