TW202022635A - 自適應性調整關連搜尋詞的系統及其方法 - Google Patents

自適應性調整關連搜尋詞的系統及其方法 Download PDF

Info

Publication number
TW202022635A
TW202022635A TW107145181A TW107145181A TW202022635A TW 202022635 A TW202022635 A TW 202022635A TW 107145181 A TW107145181 A TW 107145181A TW 107145181 A TW107145181 A TW 107145181A TW 202022635 A TW202022635 A TW 202022635A
Authority
TW
Taiwan
Prior art keywords
search
word
related word
text
search term
Prior art date
Application number
TW107145181A
Other languages
English (en)
Other versions
TWI681304B (zh
Inventor
沈民新
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW107145181A priority Critical patent/TWI681304B/zh
Priority to CN201910088844.9A priority patent/CN111324705B/zh
Application granted granted Critical
Publication of TWI681304B publication Critical patent/TWI681304B/zh
Publication of TW202022635A publication Critical patent/TW202022635A/zh

Links

Images

Abstract

一種自適應性調整關連搜尋詞的系統,包括一輸入裝置、一記錄蒐集模組、一門檻值設定模組以及一演化模組。輸入裝置用以接收一搜尋詞。記錄蒐集模組用以判斷搜尋詞的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值。門檻值設定模組用以設定滿足第一或第二門檻值的搜尋記錄的數量。當搜尋詞的累計搜尋次數介於第一門檻值與第二門檻值之間時,演化模組對中期搜尋流程進行優化,以進一步找出索引文本中及歷史搜尋記錄中與搜尋詞的內容或屬性相關最大化的至少一關連詞及/或至少一歷史搜尋詞。

Description

自適應性調整關連搜尋詞的系統及其方法
本發明是有關於一種自適應性調整關連搜尋詞的系統及其方法。
現代搜尋系統通常會在搜尋結果中同時回饋給用戶和搜尋詞相關的其它搜尋詞,用以協助用戶快速釐清查詢目標,其原因在於用戶使用的搜尋關鍵詞常常無法以簡短的詞彙精確地描述其搜尋意圖,或是用戶給定的搜尋詞或搜尋目標有多種描述方式或岐義性而造成用戶與文本間的詞彙用語不匹配,或是用戶對於搜尋目標事物的理解或知識不足而誤用錯誤的搜尋詞,又或是用戶打字錯誤如同音或近音等等因素。一般而言,關連搜尋詞的擷取技術可根據資料來源區分為基於索引文本內容的方法和基於歷史查詢記錄的方法。以文本為基礎的方法在搜尋系統上線前期,立即可以根據索引文本內容中詞彙之間的相關分析提供關連搜尋詞的建議清單,但其缺點是僅能根據固定的文本內容提供建議,無法根據後期累積的歷史查詢記錄分析預測用戶的搜尋意圖。雖然基於歷史查詢記錄的方法則可以根據不斷累積的用戶資料提供最新的搜尋意圖預測,從而得到更好的關連搜尋詞的建議清單,但卻無法在系統前期立刻提供建議,需要經過長時間的用戶使用,才能累積數量足夠的分析資料來源。習知方法中亦有利用權重整合方法結合上述兩種方法,使得不論在搜尋系統的前期沒有用戶歷史資料階段以或是後期累積足夠歷史資料階段,均可以推薦關連搜尋詞。
然而,權重整合方法同樣有權重組合的資料來源問題,人工設定往往無法達到最佳效果,通常需要累積足夠的搜尋記錄資料,才能以統計模型或機器學習方式訓練得到第一組最佳權重組合,並且仍有不同垂直領域的轉移學習的困難問題。因此, 上述擷取技術分別適用於不同上線時期的搜尋系統,由於搜尋記錄多寡不同,因而無法隨時提供適合建議用戶的關連搜尋詞,有必要提出改進之道。
本發明係有關於一種自適應性調整關連搜尋詞的系統及其方法,可根據系統累積的搜尋記錄的數量自我調整關連搜尋詞,以提供適合建議用戶的關連搜尋詞。
根據本發明之一方面,提出一種自適應性調整關連搜尋詞的系統,包括一輸入裝置、一記錄蒐集模組、一門檻值設定模組以及一演化模組。輸入裝置用以接收用戶輸入並產出一搜尋詞。記錄蒐集模組用以判斷搜尋詞的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值。門檻值設定模組用以設定滿足第一或第二門檻值的搜尋記錄的數量。演化模組用以根據搜尋記錄的數量多寡調整一搜尋流程,其中當搜尋詞的累計搜尋次數大於第一門檻值時,演化模組根據一歷史搜尋記錄找出與搜尋詞的內容或屬性相關的至少一歷史搜尋詞。當搜尋詞的累計搜尋次數小於第二門檻值時,演化模組執行一初期搜尋流程,以找出一文本中與搜尋詞的內容或屬性相關的至少一關連詞。當搜尋詞的累計搜尋次數介於第一門檻值與第二門檻值之間時,演化模組對中期搜尋流程進行優化,以進一步找出文本中及歷史搜尋記錄中與搜尋詞的內容或屬性相關最大化的至少一關連詞及/或至少一歷史搜尋詞。
根據本發明之一方面,提出一種自適應性調整關連搜尋詞的方法,包括下列步驟。輸入流程用以接收用戶輸入並產出一搜尋詞。記錄蒐集流程用以判斷搜尋詞的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值。門檻值設定流程用以設定滿足第一或第二門檻值的搜尋記錄的數量。演化流程,用以根據搜尋記錄的數量多寡調整一搜尋流程,其中當搜尋詞的累計搜尋次數大於第一門檻值時,演化流程根據一歷史搜尋記錄找出與搜尋詞的內容或屬性相關的至少一歷史搜尋詞。當搜尋詞的累計搜尋次數小於第二門檻值時,演化流程執行一初期搜尋流程,以找出一文本中與搜尋詞的內容或屬性相關的至少一關連詞。當搜尋詞的累計搜尋次數介於第一門檻值與第二門檻值之間時,演化流程對中期搜尋流程進行優化,以進一步找出文本中及歷史搜尋記錄中與搜尋詞的內容或屬性相關最大化的至少一關連詞及/或至少一歷史搜尋詞。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
以下係提出實施例進行詳細說明,實施例僅用以作為範例說明,並非用以限縮本發明欲保護之範圍。以下是以相同/類似的符號表示相同/類似的元件做說明。以下實施例中所提到的方向用語,例如:上、下、左、右、前或後等,僅是參考所附圖式的方向。因此,使用的方向用語是用來說明並非用來限制本發明。
依照本發明之一實施例,提出一種自適應性調整關連搜尋詞的系統,例如是具有自我調整搜尋流程的搜尋引擎。對於初期導入本系統的搜尋引擎而言,在未累積足夠數量的搜尋記錄之前,本系統可在初期根據已建立索引的文本及索引詞表,比對出文本中與搜尋詞的文字內容或特徵屬性相關的至少一關連詞,以建立一初期的關連搜尋詞表。接著,在中期累積一定數量的搜尋記錄之後,本系統可根據一定數量的歷史搜尋記錄以及初期已建立索引的文本,比對出文本中及歷史搜尋記錄中與搜尋詞的內容或屬性相關最大化的至少一關連詞及/或至少一歷史搜尋詞,以建立一中期的關連搜尋詞表。之後,在後期累積足夠數量的搜尋記錄之後,本系統可直接根據用戶輸入的搜尋詞,找出與搜尋詞的內容或屬性相關的至少一歷史搜尋詞,以建立一後期的關連搜尋詞表。
由上述可知,本系統可根據不同時期所累積的搜尋記錄的數量來達到自我優化的功能,使其演化模組可順利由前期無用戶行為記錄(搜尋記錄)的階段演進至後期以用戶行為記錄(搜尋記錄)為主的階段,進而提供適合建議用戶的關連搜尋詞。
請參照第1圖,依照本發明之一實施例,自適應性調整關連搜尋詞的系統100包括一輸入裝置110、一記錄蒐集模組120、一門檻值設定模組130以及一演化模組140。輸入裝置110用以接收用戶輸入並產出一搜尋詞112。記錄蒐集模組120用以判斷搜尋詞112的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值(以門檻值132表示)。門檻值設定模組130用以設定滿足第一或第二門檻值的搜尋記錄的數量。此外,演化模組140用以根據搜尋記錄的數量多寡調整一搜尋流程。
在一實施例中,輸入裝置110可為一使用者介面,用以讀取用戶輸入的資料,包括文字、符號及/或語音等。以電腦或遠端伺服器為例,輸入裝置110可為連接至電腦或遠端伺服器的手持電子裝置,本發明不以此為限,輸入裝置110可將用戶欲檢索的搜尋詞112輸入至電腦或遠端伺服器中,再透過導入本系統100的搜尋引擎102尋找線上或本地文本資料庫的資料。資料庫可包含記錄資料庫124及文本資料庫126。文本資料庫126用以儲存欲搜尋的文本114的來源,包括文本檔案及/或資料庫欄位:文本檔案例如產品說明書檔案、廣告文案檔案、產品測試報告檔案、網頁檔案等;資料庫欄位例如商品資料庫的資料欄位,資料欄位例如商品名稱、關鍵字、商品描述、品牌等。記錄資料庫124用以儲存用戶的歷史搜尋記錄126。
記錄蒐集模組120用以蒐集用戶對本系統100之操作內容,包括輸入搜尋詞、點擊位置、點擊次數、瀏覽時間等資訊,以及各搜尋詞112的內容或屬性。記錄蒐集模組120將上述資料蒐集完成後即成為歷史搜尋記錄126,並進一步儲存至記錄資料庫124。搜尋詞112的內容或屬性可為產品中文名稱、英文名稱、簡稱、廠牌、型號、功能及其他廠牌的名稱等,本發明不以此為限,搜尋詞112的內容或屬性可根據辭典中的詞義或使用者自訂的語意或人工編輯的開放資料(如Wikipedia、DBpedia、Open Directory Project)或統計式專有名詞辨識(Name Entity Recognition)等方式來決定。當搜尋詞112的內容或屬性決定之後,本系統100再根據搜尋詞112的內容或屬性尋找相關的關連詞148。
另外,本系統100還可透過搜尋引擎102對搜尋詞112的解析及語法重建,過濾文本114及/或歷史搜尋記錄126中與搜尋詞112的內容或屬性不相關的詞彙,以確保資料擷取的正確性與周延性。
此外,門檻值設定模組130用以設定滿足第一或第二門檻值的搜尋記錄的數量。搜尋記錄的數量不限定為只有同一詞彙的搜尋詞112累積的數量,亦可為不同詞彙但語意相近的同一類型的搜尋詞112累積的數量。當不同用戶對於同一類型的搜尋詞112或相似的搜尋詞112進行搜尋,本系統100可對同一類型或相似的搜尋詞112的搜尋記錄進行累加或進行權重處理,當系統100累加的搜尋記錄的數量達到一門檻值132時,本系統100的演化模組140再根據搜尋記錄的數量多寡自適應性調整搜尋流程,如第2、3及4圖所示。
請參照第1圖,本系統100更可包括一斷詞模組146、一記錄關連詞產生模組160以及一文本關連詞產生模組150。索引詞表144包含一組字串列表,每一字串可以由一至多個文數字或符號組成,索引詞表可經由人工預先設定,或是一般通用字典或專業領域字典,或是經由斷詞模組146分析文本114內容後,彙集所有字串詞組而成為索引詞表144,或可以是混合前述方式之組合,例如結合專業領域字典及文本經斷詞模組146分析後之所有詞彙。文本114的內容可以是文件、網頁或是資料庫的指定資料表或資料欄位,例如搜尋系統的標的若是商品,則文本114的內容可以是商品資料庫中商品資料表的商品名稱、商品描述、商品關鍵字等資料庫欄位,以及商品說明網頁內容。
斷詞模組146可將用戶輸入的搜尋詞112(例如中文字詞)分為有意義的詞組。例如:用戶輸入的搜尋詞112為晶片讀卡機,斷詞模組146可將晶片讀卡機分為晶片以及讀卡機,或者只有讀卡機。因此,當搜尋詞112不存在文本114中時,斷詞模組146根據索引詞表144進行字節解析、字詞解析或字詞比對等方式,將搜尋詞112拆解為至少一索引詞,以供搜尋引擎102進一步搜尋文本114中出現的索引詞。上述的中文字詞可採用基於辭典的斷詞算法、正向最大匹配算法、逆向最大匹配算法或雙向最大匹配算法、或以語料庫為基礎的統計斷詞算法如條件隨機場(Conditional Random Fields, CRF)或深度神經網路 (Deep Neural Networks, DNN)等進行分詞,本發明不以此為限。
此外,文本關連詞產生模組150可根據索引詞表144,用以分析文本114中與搜尋詞112最相關的前M個索引詞,以產生一文本關連詞表152。M例如為5個或大於5個的正整數。如上所述,在一實施例中,文本關連詞產生模組150可藉由搜尋詞112與索引詞單獨出現或共同出現在文本114中的機率計算一關連強度,關連強度越強,表示關連程度越強,反之,關連強度越弱,表示關連程度越差。上述的關連強度的計算可藉由關連關則學習法、逐點互信息演算法(Pointwise Mutual Information, PMI)、PMI改進演算法、KL散度演算法(Kullback–Leibler divergence)、標準化Google距離演算法、基於Wordnet距離的演算法來達成,本發明不以此為限。
另外,記錄關連詞產生模組160,用以分析歷史搜尋記錄122中任兩個歷史搜尋詞之間的關連程度,找出與搜尋詞112最相關的前N個歷史搜尋詞,以產生一記錄關連詞表162。N例如為5個或大於5個的正整數。如上所述,在一實施例中,記錄關連詞產生模組160可藉由目前搜尋詞112與歷史搜尋詞的內容或屬性單獨出現或共同出現在歷史搜尋記錄122中的機率計算一關連強度,關連強度越強,表示關連程度越強,反之,關連強度越弱,表示關連程度越差。此外,關連程度除了比對詞彙內容出現位置之外,亦可以根據搜尋詞在歷史搜尋記錄122中的其它屬性,例如點擊位置、點擊次數、瀏覽時間等屬性計算關連程度,上述的關連強度的計算例如採用逐點互信息演算法(Pointwise Mutual Information, PMI),但亦可藉由其他演算法,例如關連關則學習法、PMI改進演算法、KL散度演算法(Kullback–Leibler divergence)、標準化Google距離演算法、基於wordnet距離的演算法來達成,本發明不以此為限。
請參照第1圖,為了對中期搜尋流程進行優化,本系統100更包括一關連詞鑑別度計算模組170以及一關連詞推薦模組174。關連詞鑑別度計算模組170可根據文本114、索引詞表144、記錄關連詞表162以及文本關連詞表152計算各關連詞148的鑑別值172。鑑別值172是用以判斷關連詞148的獨特程度,也就是用以衡量關連詞148在文本114中差異程度的一種指標。並且可以用以增進關連詞表的多元化程度,避免推薦的關連詞過於雷同的問題。當關連詞148只出現在某一文本114中,鑑別值越高;當關連詞148同時出現在多個文本114中,鑑別值越低。例如,在多個文本114中,某一個關連詞148的獨特程度與關連詞148出現在此些文本114中的篇數的頻率(document frequency,簡稱DF)成反比的關係,即逆向文件頻率(inverse document frequency,簡稱IDF)。因此,關連詞鑑別度計算模組170可採用例如逆向文件頻率算法、殘餘逆向文件頻率(RIDF)算法或鑑別力算法(discrimination power),本發明不以此為限,來計算各關連詞148的鑑別值172,並建立關連詞148與鑑別值172的匹配表。
在一實施例中,當某一個關連詞148存在於索引詞表144中,關連詞鑑別度計算模組170直接計算該索引詞的鑑別值。當某一個關連詞148不存在於索引詞表144中,斷詞模組146將某一個關連詞148進行分詞後,關連詞鑑別度計算模組170再針對分詞後的各索引詞計算鑑別值,再將該些鑑別值以取其中最小值、或最大值、或算術平均值、或加權平均值等方式估計該關連詞148的鑑別值。
在一實施例中,本系統100更包含一新詞辨識模組142可從一給定詞彙中擷取出不包含在索引詞表中的新詞。新詞辨識模組142的計算方式可以透過語言規則如音韻規則或文法規則或構詞規則等方式,或是透過統計模型如隱藏式馬爾可夫模型 (Hidden Markov Model, HMM)、條件隨機場(Conditional Random Fields, CRF)、支持向量機(Support Vector Machine, SVM)、深度神經網路(Deep Neural Network, DNN),或是透過特定統計量如逐點互信息(Pointwise Mutual Information, PMI)演算法等方式計算。當某一個關連詞148不存在於索引詞表144中,新詞辨識模組142從該關連詞148中擷取出辨識為新詞之部分字串後,給予評估之鑑別值,新詞鑑別值的計算方式可以是一預先設定之固定數值,或是動態由索引詞表144中所有詞彙鑑別度之最大值或最大值之加權數值。而該關連詞中非新詞的字串部分則可繼續依據索引詞表144計算,若是存在於索引詞表144中,關連詞鑑別度計算模組170直接計算該索引詞的鑑別值。最後取得新詞與非新詞部分字組之鑑別值,再將該些鑑別值以取其中最小值、或最大值、或算術平均值、或加權平均值等方式估計該關連詞148的鑑別值。若是該非新詞的字串部分不存在於索引詞表144中,斷詞模組146將該字串進行分詞後得到至少一索引詞,關連詞鑑別度計算模組170再針對分詞後的各索引詞計算鑑別值,最後取得新詞與非新詞部分字組之鑑別值,再將該些鑑別值以取其中最小值、或最大值、或算術平均值、或加權平均值等方式估計該關連詞148的鑑別值。
此外,關連詞推薦模組174用以比較記錄關連詞表162中各關連詞148的鑑別值以及文本關連詞表152中各關連詞148的鑑別值,並根據各關聯詞148的鑑別值的排序,從文本關連詞表152及記錄關連詞表162中挑選鑑別值較高的前P個關連詞148。P例如是5個或大於5個的正整數。如此,即可完成適合建議的關連搜尋詞表176。
請參照第1及2圖,其中第2圖繪示依照本發明一實施例的自適應性調整關連搜尋詞176的系統100進行初期搜尋流程的示意圖,其包含步驟S11-S14。請參照步驟S11及S12,判斷搜尋詞112是否在搜尋記錄中,若有,進一步判斷搜尋詞112的累計搜尋次數是否小於第二門檻值。當符合上述兩個條件,演化模組140執行一初期搜尋流程,此時,由於搜尋詞112未存在於歷史搜尋記錄122中或搜尋詞112的累計搜尋次數非常少,因此搜尋引擎102無法根據目前的搜尋詞112找出適合建議的歷史搜尋詞。請參照步驟S13及S14,判斷搜尋詞112是否在一文本114中,若沒有,斷詞模組146根據索引詞表144將搜尋詞112拆解為至少一索引詞,並回到步驟S11中,進一步判斷索引詞是否在搜尋記錄中。當搜尋詞112存在一文本114中,文本關連詞產生模組150可根據內建的文本114及索引詞表144找出一文本114中與搜尋詞112的內容或屬性相關的至少一關連詞148。
接著,請參照第1及3圖,其中第3圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統100對中期搜尋流程進行優化的示意圖。本實施例之流程步驟與上述實施例相同,不同之處在於:在步驟S12中,當搜尋詞112的累計搜尋次數大於第二門檻值且小於第一門檻值時,系統100累積一定數量的搜尋記錄,可供演化模組140執行一中期搜尋流程。此時,記錄關連詞產生模組160可根據一歷史搜尋記錄122找出與搜尋詞112的內容或屬性相關的至少一歷史搜尋詞。因此,搜尋引擎102除了可根據目前的搜尋詞112找出適合建議的關連詞148之外,還可根據內建的文本114及索引詞表144找出適合建議的關連詞148,之後,再透過關連詞鑑別度計算模組170及新詞辨識模組142產生關連詞之鑑別值,再透過關連詞推薦模組174之挑選,進一步找出與搜尋詞112的內容或屬性相關最大化的至少一關連詞148及/或至少一歷史搜尋詞,用以取得最適化的搜尋關連詞表176。
接著,請參照第1及4圖,其中第4圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統100進行後期搜尋流程的示意圖,其省略初期階段中步驟S13及S14的文本搜尋流程,僅進行步驟S11及S12之判斷步驟即可。在本實施例中,當搜尋詞112出現在歷史搜尋記錄122中,且搜尋詞112的累計搜尋次數大於第一門檻值且大於第二門檻值時,由於系統100已累積足夠數量的歷史搜尋記錄122,因此可供演化模組140執行一後期搜尋流程。此時,記錄關連詞產生模組160可根據一歷史搜尋記錄122找出與搜尋詞112的內容或屬性相關的至少一歷史搜尋詞。因此,搜尋引擎102不需根據內建的文本114及索引詞表144找出適合建議的關連詞148,而是直接根據目前的搜尋詞112從一歷史搜尋記錄122中找出適合建議的關連詞148。第一門檻值與第二門檻值為搜尋詞112的累計搜尋次數,可根據一般性統計大樣本數概念決定(樣本數大於30),或是根據相同領域與相似規模的搜尋系統進行決定,例如在購物搜尋領域,可以依據相似產品數量的案例中,達到用戶覺得滿意的記錄關連詞所需足夠之累計搜尋次數,用以設定第一與第二門檻值。或是可以在搜尋系統100使用過程中,由領域專家依據搜尋結果動態調整第一與第二門檻值,用以調整初期階段進化到後期階段的快慢程度,或由中期或後期階段退化回前一期階段。
在一實施例中,上述自適應性調整關連搜尋詞176的方法可以實作為一軟體程式,此軟體程式可儲存於非暫態電腦可讀取媒體(non-transitory computer readable medium),例如硬碟、光碟、隨身碟、記憶體等程式儲存裝置,當處理器從非暫態電腦可讀取媒體載入此軟體程式時,可執行如第2、3及4圖的方法流程,將一個初期搜尋流程進化為一中期搜尋流程,再由一中期搜尋流程進化為一後期搜尋流程。
在一實施例中,自適應性調整關連搜尋詞的系統100可包括處理器及程式儲存裝置,處理器能夠執行一或多個電腦可執行指令,程式儲存裝置儲存可由處理器執行的電腦程式模組,其中電腦程式模組在由處理器執行時使處理器進行如第2、3、4圖所示各步驟的操作。
在另一實施例中,上述的記錄蒐集模組120、門檻值設定模組130、演化模組140、新詞辨識模組142、文本關連詞產生模組150、記錄關連詞產生模組160、關連詞鑑別度計算模組170、關連詞推薦模組174可以個別被實施為軟體單元或硬體單元,亦可以部分模組合併以軟體實施、部分模組合併以硬體實施。以軟體實施的模組,可視為一操作流程,即記錄蒐集流程、門檻值設定流程、演化流程、新詞辨識流程、文本關連詞產生流程、記錄關連詞產生流程、關連詞鑑別度計算流程、關連詞推薦流程等,可被處理器載入而執行對應的功能。以硬體實施的模組,例如可被實施為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)、數位邏輯電路、或現場可程式邏輯閘陣列(field programmable gate array,FPGA)。
本發明上述實施例所揭露之自適應性調整關連搜尋詞的系統及其方法,可根據系統累積的搜尋記錄的數量自我調整關連搜尋詞,以提供適合建議用戶的關連搜尋詞,因而能夠減少系統程式開發所需的人力以及時間成本,並且沒有需要預先學習第一組權重組合的問題,亦沒有垂直領域轉換學習的問題。此外,本發明同時亦考慮到搜尋詞推薦流程可以隨搜尋記錄變化而不斷演化的情形,建立正確率更高的搜尋詞推薦機制,如此能夠避免單一化搜尋詞推薦流程可能產生與搜尋詞的內容或屬性不相關的關連詞的問題,增加管理的便利性並提高使用彈性。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:自適應性調整關連搜尋詞的系統102:搜尋引擎110:輸入裝置112:搜尋詞114:文本120:記錄蒐集模組122:歷史搜尋記錄124:記錄資料庫126:文本資料庫130:門檻值設定模組132:門檻值140:演化模組142:新詞辨識模組144:索引詞表146:斷詞模組148:關連詞150:文本關連詞產生模組152:文本關連詞表160:記錄關連詞產生模組162:記錄關連詞表170:關連詞鑑別度計算模組172:鑑別值174:關連詞推薦模組176:關連搜尋詞表
第1圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統的示意圖。 第2圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統進行初期搜尋流程的示意圖。 第3圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統對中期搜尋流程進行優化的示意圖。 第4圖繪示依照本發明一實施例的自適應性調整關連搜尋詞的系統進行後期搜尋流程的示意圖。
100:自適應性調整關連搜尋詞的系統
102:搜尋引擎
110:輸入裝置
112:搜尋詞
114:文本
120:記錄蒐集模組
122:歷史搜尋記錄
124:記錄資料庫
126:文本資料庫
130:門檻值設定模組
132:門檻值
140:演化模組
142:新詞辨識模組
144:索引詞表
146:斷詞模組
148:關連詞
150:文本關連詞產生模組
152:文本關連詞表
160:記錄關連詞產生模組
162:記錄關連詞表
170:關連詞鑑別度計算模組
172:鑑別值
174:關連詞推薦模組
176:關連搜尋詞表

Claims (18)

  1. 一種自適應性調整關連搜尋詞的系統,包括: 一輸入裝置,用以接收一搜尋詞; 一記錄蒐集模組,用以判斷該搜尋詞的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值; 一門檻值設定模組,用以設定滿足該第一或該第二門檻值的搜尋記錄的數量;以及 一演化模組,用以根據搜尋記錄的該數量多寡調整一搜尋流程,其中當該搜尋詞的累計搜尋次數大於該第一門檻值時,該演化模組根據一歷史搜尋記錄找出與該搜尋詞的內容或屬性相關的至少一歷史搜尋詞, 其中,當該搜尋詞的累計搜尋次數小於該第二門檻值時,該演化模組執行一初期搜尋流程,以找出一文本中與該搜尋詞的內容或屬性相關的至少一關連詞, 其中,當該搜尋詞的累計搜尋次數介於該第一門檻值與該第二門檻值之間時,該演化模組對中期搜尋流程進行優化,以進一步找出該文本中及該歷史搜尋記錄中與該搜尋詞的內容或屬性相關最大化的該至少一關連詞及/或該至少一歷史搜尋詞。
  2. 如申請專利範圍第1項所述之系統,更包括: 一索引詞表;以及 一文本關連詞產生模組,根據該索引詞表,用以分析該文本中與該搜尋詞最相關的前M個索引詞,以產生一文本關連詞表;以及 一記錄關連詞產生模組,用以分析該歷史搜尋記錄中任兩個歷史搜尋詞之間的關連程度,找出與該搜尋詞最相關的前N個歷史搜尋詞,以產生一記錄關連詞表。
  3. 如申請專利範圍第2項所述之系統,其中該文本關連詞產生模組根據該搜尋詞與該些索引詞單獨出現或共同出現在該文本中的機率計算一關連強度。
  4. 如申請專利範圍第2項所述之系統,其中該記錄關連詞產生模組根據該搜尋詞與該些歷史搜尋詞的內容或屬性單獨出現或共同出現在該歷史搜尋記錄中的機率計算一關連強度。
  5. 如申請專利範圍第2項所述之系統,更包括: 一關連詞鑑別度計算模組,根據該索引詞表、該記錄關連詞表以及該文本關連詞表計算各該關連詞的鑑別值;以及 一關連詞推薦模組,用以比較該記錄關連詞表中各該關連詞的鑑別值以及該文本關連詞表中各該關連詞的鑑別值,並根據各該關聯詞的鑑別值的排序,從該文本關連詞表及該記錄關連詞表中挑選鑑別值較高的前P個關連詞。
  6. 如申請專利範圍第5項所述之系統,其中該關連詞鑑別度計算模組根據各該關連詞出現在該文本中的一差異程度計算鑑別值,該差異程度與各該關連詞出現在單一該文本或複數個該文本中的頻率有關。
  7. 如申請專利範圍第2項所述之系統,更包括: 一斷詞模組,用以接收該搜尋詞,當該搜尋詞不存在該文本中時,該斷詞模組根據該索引詞表將該搜尋詞拆解為至少一索引詞。
  8. 如申請專利範圍第5項所述之系統,更包括: 一新詞辨識模組,用以辨識該關連詞是否包含未存在於該索引詞表之一新詞,其中當該關連詞包含該新詞時,該關連詞鑑別度計算模組根據該關連詞及包含的該新詞計算該關連詞的鑑別值。
  9. 如申請專利範圍第1至8項其中之一項所述之系統,其中該系統以一處理器執行或由該處理器載入的一軟體程式執行。
  10. 一種自適應性調整關連搜尋詞的方法,包括: 一輸入流程,用以接收一搜尋詞; 一記錄蒐集流程,用以判斷該搜尋詞的累計搜尋次數是否大於一第一門檻值或小於一第二門檻值; 一門檻值設定流程,用以設定滿足該第一或該第二門檻值的搜尋記錄的數量;以及 一演化流程,用以根據搜尋記錄的該數量多寡調整一搜尋流程,其中當該搜尋詞的累計搜尋次數大於該第一門檻值時,該演化流程根據一歷史搜尋記錄找出與該搜尋詞的內容或屬性相關的至少一歷史搜尋詞, 其中,當該搜尋詞的累計搜尋次數小於該第二門檻值時,該演化流程執行一初期搜尋流程,以找出一文本中與該搜尋詞的內容或屬性相關的至少一關連詞, 其中,當該搜尋詞的累計搜尋次數介於該第一門檻值與該第二門檻值之間時,該演化流程對中期搜尋流程進行優化,以進一步找出該文本中及該歷史搜尋記錄中與該搜尋詞的內容或屬性相關最大化的該至少一關連詞及/或該至少一歷史搜尋詞。
  11. 如申請專利範圍第10項所述之方法,更包括: 建立一索引詞表;以及 一文本關連詞產生流程,根據該索引詞表,用以分析該文本中與該搜尋詞最相關的前M個索引詞,以產生一文本關連詞表;以及 一記錄關連詞產生流程,用以分析該歷史搜尋記錄中任兩個歷史搜尋詞之間的關連程度,找出與該搜尋詞最相關的前N個歷史搜尋詞,以產生一記錄關連詞表。
  12. 如申請專利範圍第11項所述之方法,其中該文本關連詞產生流程根據該搜尋詞與該些索引詞單獨出現或共同出現在該文本中的機率計算一關連強度。
  13. 如申請專利範圍第11項所述之方法,其中該記錄關連詞產生流程根據該搜尋詞與些歷史搜尋詞的內容或屬性單獨出現或共同出現在該歷史搜尋記錄中的機率計算一關連強度。
  14. 如申請專利範圍第11項所述之方法,更包括: 一關連詞鑑別度計算流程,根據該索引詞表、該記錄關連詞表以及該文本關連詞表計算各該關連詞的鑑別值;以及 一關連詞推薦流程,用以比較該記錄關連詞表中各該關連詞的鑑別值以及該文本關連詞表中各該關連詞的鑑別值,並根據各該關聯詞的鑑別值的排序,從該文本關連詞表及該記錄關連詞表中挑選鑑別值較高的前P個關連詞。
  15. 如申請專利範圍第14項所述之方法,其中該關連詞鑑別度計算流程根據各該關連詞出現在該文本中的一差異程度計算鑑別值,該差異程度與各該關連詞出現在單一該文本或複數個該文本中的頻率有關。
  16. 如申請專利範圍第11項所述之方法,更包括: 一斷詞流程,用以接收該搜尋詞,當該搜尋詞不存在該文本中時,該斷詞流程根據該索引詞表將該搜尋詞拆解為至少一索引詞。
  17. 如申請專利範圍第14項所述之方法,更包括: 一新詞辨識流程,用以辨識該關連詞是否包含未存在於該索引詞表之一新詞,其中當該關連詞包含該新詞時,該關連詞鑑別度計算流程根據該關連詞及包含的該新詞計算該關連詞的鑑別值。
  18. 如申請專利範圍第11至17項其中之一項所述之方法,其中該方法以一處理器執行或由該處理器載入的一軟體程式執行。
TW107145181A 2018-12-14 2018-12-14 自適應性調整關連搜尋詞的系統及其方法 TWI681304B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107145181A TWI681304B (zh) 2018-12-14 2018-12-14 自適應性調整關連搜尋詞的系統及其方法
CN201910088844.9A CN111324705B (zh) 2018-12-14 2019-01-29 自适应性调整关联搜索词的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107145181A TWI681304B (zh) 2018-12-14 2018-12-14 自適應性調整關連搜尋詞的系統及其方法

Publications (2)

Publication Number Publication Date
TWI681304B TWI681304B (zh) 2020-01-01
TW202022635A true TW202022635A (zh) 2020-06-16

Family

ID=69942676

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145181A TWI681304B (zh) 2018-12-14 2018-12-14 自適應性調整關連搜尋詞的系統及其方法

Country Status (2)

Country Link
CN (1) CN111324705B (zh)
TW (1) TWI681304B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI787651B (zh) * 2020-09-16 2022-12-21 洽吧智能股份有限公司 文字區段標籤方法與系統
TWI755995B (zh) * 2020-12-24 2022-02-21 科智企業股份有限公司 對工程資料進行篩選以得到特徵的方法與系統、對工程資料進行多次篩選以得到特徵的方法、產生預測模型的方法以及將工程資料線上特徵化的系統

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
US20090037399A1 (en) * 2007-07-31 2009-02-05 Yahoo! Inc. System and Method for Determining Semantically Related Terms
US9043313B2 (en) * 2008-02-28 2015-05-26 Yahoo! Inc. System and/or method for personalization of searches
CN102184173A (zh) * 2009-10-31 2011-09-14 佛山市顺德区汉达精密电子科技有限公司 因特网数据的搜寻方法
US9191355B2 (en) * 2011-09-12 2015-11-17 Crytek Gmbh Computer-implemented method for posting messages about future events to users of a social network, computer system and computer-readable medium thereof
CN102629257B (zh) * 2012-02-29 2014-02-19 南京大学 一种基于关键字的电子商务网站商品推荐方法
CN103365839B (zh) * 2012-03-26 2017-12-12 深圳市世纪光速信息技术有限公司 一种搜索引擎的推荐搜索方法和装置
GB201418402D0 (en) * 2014-10-16 2014-12-03 Touchtype Ltd Text prediction integration
CN105653533B (zh) * 2014-11-13 2019-10-25 腾讯数码(深圳)有限公司 一种更新分类关联词集合的方法和装置
CN106649334B (zh) * 2015-10-29 2020-09-15 北京国双科技有限公司 关联词语集合的处理方法及装置
US10229210B2 (en) * 2015-12-09 2019-03-12 Oracle International Corporation Search query task management for search system tuning
CN105930376B (zh) * 2016-04-12 2019-08-02 Oppo广东移动通信有限公司 一种搜索方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法

Also Published As

Publication number Publication date
CN111324705A (zh) 2020-06-23
TWI681304B (zh) 2020-01-01
CN111324705B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
CN106874441B (zh) 智能问答方法和装置
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US20180300315A1 (en) Systems and methods for document processing using machine learning
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
US11334608B2 (en) Method and system for key phrase extraction and generation from text
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US8751218B2 (en) Indexing content at semantic level
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
US9361362B1 (en) Synonym generation using online decompounding and transitivity
US20160098645A1 (en) High-precision limited supervision relationship extractor
US20130060769A1 (en) System and method for identifying social media interactions
US11790174B2 (en) Entity recognition method and apparatus
CN108027814B (zh) 停用词识别方法与装置
US20150006563A1 (en) Transitive Synonym Creation
TWI681304B (zh) 自適應性調整關連搜尋詞的系統及其方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
US20150370781A1 (en) Extended-context-diverse repeats
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
CN107239455B (zh) 核心词识别方法及装置
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN108536665A (zh) 一种确定语句一致性的方法及装置
US11314794B2 (en) System and method for adaptively adjusting related search words
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置