TW200830125A

TW200830125A - System and method for searching information

Info

Publication number: TW200830125A
Application number: TW96101422A
Authority: TW
Inventors: Chung-I Lee; Chien-Fa Yeh; Yao-Huei Sie
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2007-01-15
Filing date: 2007-01-15
Publication date: 2008-07-16
Also published as: TWI427492B

Description

200830125 九、發明說明：【發明所屬之技術領域】本發明涉及一種資訊搜尋系統及方法。【先如技術】目4，Ik著資訊技術的不斷發展，特別是網際網路應用的飛速普及，電子資訊爆炸似的豐富起來。如何對所述海里、無序的資訊進行有效的搜尋是一個亟待解決的問題。 f 通常，對於用戶搜尋，所返回的搜尋結果一般是包含了文檔表示（例如標題、摘要）或文檔鏈結的一個列表，用戶在此列表中進一步查找和/或選取實際相關或有用的文檔。但是’對於非常大的文播庫，例如網際網路搜尋引擎的網頁庫，系統返回給用戶的搜尋結果通常包含了成百上千的相關文檔。對用戶而言，在大量的返回結果中查找出有用資訊是一種很大的負擔，而且品質、類別等有很大不 ( 同的文檔（如網頁）無序地羅列在一起很容易掩蓋用戶真正需要的内容。當前的主流搜尋引擎（例如www.Google.com， search.Yahoo.com，search.MSN.com，www.Baidu.com)都是基於用戶輸入的關鍵字僅僅進行平面搜尋，並不做任何處理。因此，對於包含了多義的、應用寬泛或者搭配多樣的關鍵字的搜尋（例如，“筆記本”、“病毒” 、“mp3” 等），返回的搜尋結果通常是包含了很多主題不相關、混雜在一起的文槽。 6 200830125 由上可知，現有的資訊搜尋存在以下缺點：一是返回給用戶的搜尋結果不夠直觀；二是用戶要浪費大量的時間 β在搜尋結果中進行查找，效率極為低下；三是用戶在搜尋結果中進行查找時容易漏掉有用資訊。【發明内容】鑒於以上内容，有必要提供一種資訊搜尋系統及方法，其可快速方便地對資訊進行搜尋，並以聚類分類的方式呈現搜尋結果。 ί % 一種資訊搜尋系統，該系統包括網頁伺服器和搜尋伺服器，所述的網頁伺服器包括輸入模組，用於接收用戶輸入的搜尋關鍵字；所述的搜尋伺服器包括：獲取模組，用於根據輸入的關鍵字獲取搜尋結果；確定模組，用於確定聚類名稱，並將搜尋結果中的文檔歸入確定的聚類名稱，及將搜尋結果中的文檔分入其出現概率最高的領域，並取得分類結果；生成模組，用於根據確定的聚類名稱及歸入丨所述聚類名稱下的文檔生成聚類圖形，及根據取得的分類結果及生成的聚類圖形生成聚類分類圖形；所述的網頁伺服器庫伺服器還包括輸出模組，用於將生成的聚類分類圖形返回給用戶。一種資訊搜尋方法，該方法包括以下步驟：（a)接收用戶輸入的搜尋關鍵字；（b)根據輸入的關鍵字獲取搜尋結果；（c )確定聚類名稱，並將搜尋結果中的文檔歸入確定的聚類名稱；（d)將搜尋結果中的文檔分入其出現概率最高的領域，並取得分類結果；（e)根據確定的聚類名稱 7 200830125 及歸入所述聚類名稱下的文檔生成聚類圖形，及根據取得的分類結果及生成的聚類圖形生成聚類分類圖形；（f)將生成的聚類分類圖形返回給用戶。相較於習知技術，所述資訊搜尋系統及方法，可以快速方便地進行搜尋並獲取搜尋結果，而後對搜尋結果進行聚類和分類，直觀條理地將搜尋結果呈現給用戶。因而可以有效提高用戶後期的查找效率及保障用戶不漏掉有用資訊。【實施方式】參閱圖1所示，是本發明資訊搜尋系統較佳實施例的硬體架構圖。該系統採用三層（或多層）架構：資料層，包括索引伺服器103 ;邏輯事務層，包括搜尋伺服器102 ; 以及表示層，包括網頁伺服器101和分散的用戶端111、 113及115。以上所述各設備透過内部網路104相連，從而實現各設備間協同工作。其中，所述用戶端111、113及115是用戶介面，負責提交用戶輸入的搜尋關鍵字及向用戶展示搜尋結果。所述網頁伺服器101負責接收用戶端111、113及115 提交的搜尋關鍵字；將搜尋結果返回給用戶端111、113 及115 ;以及為用戶端111、113及115提供搜尋關鍵字的輸入頁面和搜尋結果的返回頁面。所述搜尋伺服器102負責根據網頁伺服器101接收的搜尋關鍵字對索引伺服器103進行搜尋。所述索引伺服器103與網際網路106相連，負責從該 200830125 網際職_域取讀，制所述⑽構建成索引 (index)，以供搜尋伺服器1〇2搜尋。其中，所述文檔可以是網頁，也可以是新聞，還可以是圖片。參閱圖2所不，疋網頁飼服器101、搜尋伺服器102 及索引伺服器103之間的關聯圖。本發明所稱的模組是完成特定功能的電腦程式段，比程式更適合於描述軟體在電腦中的執行過程。因此本發明 (以下對軟體都以模組描述。所述網頁伺服器101包括輸入杈組301、輸出杈組307。所述搜尋伺服器1〇2包括獲取模組302、處理模組303、計异模級3〇4、確定模組3〇5、生成杈組306及分類資料庫1〇8 ;所述分類資料庫1〇8用於存儲不同領域的語料庫，及建立對應不同領域的語言模型 (Language Mode),以便對搜尋結果分類。所述索引伺服為103包括有索引資料庫1〇9 ;所述索引資料庫1〇9存儲了索引伺服器103構建的所有索引（inciex)。 ί 所述輸入模組301用於接收用戶透過用戶端111、113 及115輸入的搜尋關鍵字。所述獲取模組302用於根據輸入模組301輸入的關鍵子獲取搜尋結果，所述搜尋結果由一個或多個文槽組成。具體步驟如下：獲取模組302首先嘗試從搜尋伺服器1〇2 的Cache中獲取所述關鍵字對應的搜尋結果；如果搜尋伺服器102的Cache中存有所述關鍵字對應的搜尋結果，獲取模組302從Cache中獲取搜尋結果；否則，獲取模組302 根據所述關鍵字，搜尋索引資料庫109並獲取搜尋結果。 200830125 所述處理模組303用於對搜尋結果進行前置處理。所述前置處理包括定義門檻值、斷詞及過濾無效詞。所述門檻值包括聚類名稱門檻值和相關度門檻值。所述斷詞即是將文檔斷成一個個詞。所述過濾無效詞即是將無效詞濾除 (因為無效詞不表達具體含義，對聚類沒有任何意義），所述無效詞包括副詞、語氣詞、數量詞等，如中文中的“這” “呢” “個，，和英語中的“a” “the” “this” 。 f . 所述計算模組304用於利用TF-IDF公式計算文檔中每個詞的權重（用Weight表示）。其中，TF( Term Frequency ) 代表詞頻 ’ IDF (Inverse Document Frequency)代表詞的常用程度。Weighted) = TF(t，d) * log(N/nt)。其中，TF(t，d) 代表詞t在文檔d中出現的次數（即詞頻），l〇g(N/nt)即為 IDF，N代表搜尋結果中所有文檔的總數，nt代表搜尋結果中出現詞t的文檔數。所述確定模組305用於確定聚類名稱。具體而言，確 I 定模組305首先將計算出的權重Weight與上述定義的聚類名稱Π檻值比較，選出達到聚類名稱門檻值的詞；然後濾除所述達到聚類名稱門植值的詞中的標點符號；最後依據最長詞原則對所述達到聚類名稱門檻值的詞進行過濾，以確定聚類名稱。例如，現假設經過前兩個步驟得到兩個詞： “車站’’、“汽車站，，，確定模組305濾除“車站，，，將 ‘‘汽車站確定為聚類名稱。因為依據最長詞原則，較長的詞更具有代表意義。所述計算模組3〇4還用於利用TF-IDF公式，計算上 200830125 述確定的聚類名稱與搜尋結果中每個文檔的相關度。所述確定模組3仍還用於依照上述計算的聚類名稱與每個文構的相關度以及定義的相關度門播值，將相關度達到相關度門檻值的文檔歸入上述確定的聚類名稱下。所述計异模組304還用於將搜尋結果中的每個文檔與分類資料庫108中不同領域的語言模型做概率分析，科算搜尋結果中的每個文檔在所述不同領域的語言模型中出 ('現的概率。計算公式如下：P(FC|InPut) = P(FC， Input)/P(Input)，其中，lnput表示搜尋結果中的一個文檔， FC (Field Class)表示一個領域的語言模型，p(Input)= 2fcP(FC, Input) 〇所述確定模組305還用於根據上述計算的每個文檔在不同領域的語言模型中出現的概率，將搜尋結果中的文檔依次分入其出現概率最高的領域；並取得分類結果。在本較佳是實施例中，所述分類結果以雜湊表（Hash Table) I 的形式表示。所述生成模組306用於根據確定的聚類名稱及歸入所述聚類名稱下的文檔，生成聚類圖形（請參考圖6);及根據取得的分類結果及生成的聚類圖形，生成聚類分類圖形 (請參考圖7)。所述輸出模組307用於將生成的聚類分類圖形返回給用戶端111、113及115，從而為用戶呈現一個直觀條理的搜尋結果。以上所述各模組也可包括於單獨電腦設備中，而包含 11 200830125 上述模組的單獨電腦設備亦可完成本發明所述各項功能。 • 參閱圖3所示，是本發明資訊搜尋方法較佳實施例的 •作業流程圖。步驟S401，輸入模組301接收用戶透過用戶端ιη、 113及115輸入的搜尋關鍵字。步驟S402，獲取模組302根據輸入模組3〇1輸入的關鍵字’獲取搜尋結果，所述搜哥結果由一個或多個文槽組成。具體步驟如下··獲取模組302首先嘗試從搜尋伺服器 1 102的Cache中獲取所述關鍵字對應的搜尋結果；如果搜尋伺服器102的Cache中已有所述關鍵字對應的搜尋結果，獲取模組302從Cache中獲取搜尋結果；否則，獲取模組302根據所述關鍵字，搜尋索引資料庫1〇9並獲取搜尋結果。步驟S403，確定模組305對所述搜尋結果聚類，而後生成模組306根據聚類結果，生成聚類圖形（具體内容將 # 在圖4中詳細描述）。 ^ , 步驟S404，確定模組305對所述搜尋結果分類，而後生成模組306根據分類結果及生成的聚類圖形，生成聚類分類圖形（具體内容將在圖5中詳細描述）。步驟S405 ’輸出模組307將生成的聚類分類圖形返回給用戶端111、113及115，從而為用戶呈現一個直觀條理的搜尋結果。參閱圖4所示，是本發明步驟S403對搜尋結果聚類的具體流程圖。 12 200830125 • 步驟S500，首先處理模組3〇3對搜尋結果進行前置處理。所述前置處理包括定義門檻值、斷詞及過濾無效詞。所述門檻值包括聚類名稱門檻值和相關度門檻值。所述斷詞即是將文檔斷成一個個詞。所述過濾無效詞即是將無效詞濾除（因為無效詞不表達具體含義，對聚類沒有任何意義）’所述無效詞包括副詞、語氣詞、數量詞等，如中文中的“這”“呢，’“個”和英語中的V， “the” “this，，。 f 步驟S501，確定模組305確定聚類名稱。具體步驟如下··第一步，計算模組304利用TF-IDF公式計算文檔中每個詞的權重（用Weight表示）。其中，TF( Term Frequency) 代表同頻，IDF (Inverse Document Frequency)代表詞的常用程度。Weight(t，d) = TF(t，d) * log(N/nt)。其中，TF(t，d) 代表詞t在文檔d中出現的次數（即詞頻），l〇g(N/nt)即為 IDF’ N代表搜尋結果中所有文檔的總數，m代表搜尋結果中出現詞t的文檔數。第二步，確定模組305將計算出的 i 權重與上述定義的聚類名稱門檻值比較，選出達到聚類名稱門彳監值的詞。第三步，確定模組3〇5濾除上述達到聚類名稱門檀值的詞中的標點符號。第四步，確定模組3〇5依據最長詞原則對上述達到聚類名稱門檻值的詞進行過濾，以確定聚類名稱。例如，現假設經過前三個步驟得到兩個凋·車站”、“汽車站，，，確定模組305濾除“車站”，將汽車站’’確定為聚類名稱。因為依據最長詞原則，較長的詞更具有代表意義。步驟S502,確定模組305將搜尋結果中的文檔歸入上 13 200830125 述確定的聚類名稱。具體而言，首先計算模組304利用 TF-IDF公式計算上迷確定的聚類名稱與搜尋结果中每個文槽的相關度；然後確^模組3G5依照上述定義的相關度門樓值’將相關度達到相關度m監值的文槽歸入上述確定的聚類名稱下。步驟S503,生成模組3〇6根據上述確定的聚類名稱及歸入所述聚類名稱下的文檔，生成聚類圖形（請參考圖6)。參閱圖5所示，是本發明步驟S4〇4對搜尋結果分類的具體流程圖。步驟S601，首先進行準備步驟。也即是，對所述分類資料庫108進行訓練··將不同領域的語料庫加入該分類資料庫1〇8，並建立對應不同領域的語言模型（Language Mode)，以便對搜尋結果分類。所述語料庫包括電子語料庫、機械語料庫、醫學語料庫、設計語料庫及軟體語料庫。步驟S602，確定模組3〇5對搜尋結果進行分類。具體步驟如下：第一步，計算模組3〇4將搜尋結果中的每個文槽與上述不同領域的語言模型做概率分析，即是計算搜尋結果中的每個文檔在所述不同領域的語言模型中出現的概率。計算公式如下：P(FC|Inpiit) = P(FC，Input)/P(Input)，其中，Input表示搜尋結果中的一個文檔，fc( Field Class) 表示一個領域的語言模型，P(Input) = Σκ：ρ〇^，Ιηριι〇。第二步，確定模組305將搜尋結果中的文樓依次分入其出現概率最高的領域。第三步，確定模組305取得分類結果。在本較佳是實施例中，所述分類結果以雜凑表（Hash Table ) 14 200830125 的形式表示。步驟S603,生成模組306根據上述取得的分類結果及 β生成的聚類圖形，生成聚類分類圖形（請參考圖7)。應當說明的是，上述聚類圖形及聚類分類圖形僅為本發明的採用的實施例，其可以為樹狀圖形，也可以為圈狀圖形，還可以由包含搜尋結果的其他聚類圖形及聚類分類圖形代替。本發明所提供的資訊搜尋系統及方法，在輸入搜尋關 f 鍵字後，所有的搜尋、聚類、分類步驟均可自動進行，無需人為干預，速度極為快捷。以上所述僅為本發明之較佳實施例而已，且已達廣泛之使用功效，凡其他未脫離本發明所揭示之精神下所完成之均等變化或修飾，均應包含在下述之申請專利範圍内。【圖式簡單說明】圖1是本發明資訊搜尋系統較佳實施例的硬體架構 ( 圖。圖2是圖1中網頁伺服器、搜尋伺服器及索引伺服器之間的關聯圖。圖3是本發明資訊搜尋方法較佳實施例的作業流程圖。圖4是本發明對搜尋結果聚類較佳實施例的具體流程圖。圖5是本發明對搜尋結果分類較佳實施例的具體流程圖0 15 200830125 圖6是搜尋結果的聚類圖形較佳實施例的示意圖。圖7是搜尋結果的聚類分類圖形較佳實施例的示意 *圖。【主要元件符號說明】網頁伺服器 101 搜尋伺服器 102 索引伺服器 103 内部網路 104 網際網路 106 用戶端電腦 111 用戶端電腦 113 用戶端電腦 115 輸入模組 301 獲取模組 302 處理模組 303 計算模組 304 確定模組 305 生成模組 306 輸出模組 307 分類資料庫 108 索引資料庫 109 16

Claims

200830125 十、申請專利範圍包括網頁伺服器和搜尋伺服 1· 一種資訊搜尋系統器，其中：用於接收用戶輸所述的網頁伺服器包括輸入模組入的搜尋關鍵字；所述的搜尋伺服器包括·· 獲取模組，㈣根據輸人的_字獲取搜尋結果，所=搜尋結果包括一個或多個文權；定核、.且用於_定聚類名稱，並將搜尋結果中的 t槽歸入確定的聚類名稱，及將搜尋結果中的文槽刀入其出現概率最高的領域，並取得分類結果； f成模組，用於_確定的聚類名稱及歸人所述聚社名稱下的文檔生絲類圖形，及根據取得的分類、-果及生成的聚類圖形生成聚類分類圖形；、頁飼服器還包括輸出模組，用於將生成的 ♦頸为類圖形返回給用戶。申'^專利㈣第1項所述之資訊搜尋系統，並中，所述的搜尋伺服器還包括： /、 5理：組’用於對所述搜尋結果進行前置處理，所二置處理包括定義門捏值、斷詞及過濾、無效詞；二=貧料庫，用於存儲不同領域的語言模型；二异模ί ’用於計算搜尋結果文檀中的每個詞的權 ’外异聚類名稱與搜尋結果中的每個文槽的相關又’及計算搜尋結果中的每個文檀在所述不同領域 17 200830125 的語言模型中出現的概率。 3.如申請專職圍第2韻述之魏搜尋系統，其中，所述的Η捏值包括聚類名稱門播值和相關度門檀值。 4· 一種資訊搜尋方法，該方法包括以下步驟：接收用戶輸入的搜尋關鍵字；根據輸入的關鍵字獲取搜尋結果，· 確定聚類名稱，並將搜尋結果中的文槽歸入確聚類名稱；將搜尋結果中的文標分人其出現概率最高的領域，並取得分類結果；根據確定的聚類名稱及歸入所述聚類名稱下的文檔生成聚類圖形，及根據取得的分類結果及生成的聚類圖形生成聚類分類圖形；及將生成的聚類分類圖形返回給用戶。 5·如申請專利範圍第4項所述之資訊搜尋方法，其中，所述步驟確定聚類名稱，並將搜尋結果中的文檔歸入確定的聚類名稱包括以下步驟：對搜尋結果進行前置處理，所述的前置處理包括定義門檻值、斷詞及過濾無效詞，所述的門檻值包括，聚類名稱門檻值和相關度門檻值；計异搜尋結果文檔中的每個詞的權重，根據計算出的權重和定義的聚類名稱門檻值確定聚類名稱；計算聚類名稱與搜尋結果中的每個文檔的相關度， 18 200830125 及將相關度達到相關度門檻值的文檔歸入相應的聚類名稱。 6·如申請專利範圍第4項所述之資訊搜尋方法，其中，所述步驟將搜尋結果中的文檔分入其出現概率最高的領域，並取得分類結果包括以下步驟：河同領域的語言模型計算搜尋結果中的每個文檔在不中出現的概率；最高的領域，將搜尋結果中的文檔分入其出現概率並取得分類結果。 19