TW201324210A

TW201324210A - 網路資訊檢索系統及檢索方法

Info

Publication number: TW201324210A
Application number: TW100147228A
Authority: TW
Inventors: Hong-Yu Yang
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2011-12-14
Filing date: 2011-12-19
Publication date: 2013-06-16
Also published as: US20130159275A1; CN102567473A

Abstract

本發明提供一種網路資訊檢索系統及檢索方法。該網路資訊檢索系統包括輸入確定模組用於確認用戶輸入的搜索關鍵字；檢索模組在網路中搜索與該搜索關鍵字內容相匹配的網頁；內容提取模組對檢索到的所有網頁的位址及網頁記載的文字資訊和圖片資訊進行提取；去重處理模組獲取該內容提取模組提取的該些網頁的位址及該些網頁記載的文字資訊和圖片資訊，並根據該提取出的文字資訊判斷該些網頁是否引用了源位址，若確定該網頁中的文字資訊和圖片資訊引用自一源位址，則該去重處理模組將該引用了源位址的網頁去除，只保留該源位址對應的網頁。

Description

網路資訊檢索系統及檢索方法

本發明涉及一種網路資訊檢索系統及檢索方法。

隨著資訊技術的發展，搜索引擎作為一個輔助用戶檢索資訊的工具，在人們的日常生活中變得不可或缺。搜索引擎一般是將搜索到的所有與用戶輸入關鍵字相關的資料全部顯示給用戶，從而使得搜索結果往往有數十頁甚至數百頁之多。在數量龐大的搜索結果中，由於不同資源之間的相互引用，或不同網頁之間相同內容的複製導致搜索結果中存在大量重複資訊，這些重複資訊不但造成了資源的浪費，也給用戶的檢索工作帶來諸多不便。

為瞭解決上述問題，本發明提供一種網路資訊檢索系統，該網路資訊檢索系統包括一輸入確定模組，用於回應用戶的輸入操作，確認用戶輸入的搜索關鍵字；一檢索模組，用於根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁；一內容提取模組，用於從該檢索模組檢索到的所有網頁中提取網頁的位址及網頁記載的文字資訊和圖片資訊；一去重處理模組，用於獲取該內容提取模組提取的該些網頁的網址及該些網址對應的文字資訊和圖片資訊，並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址，若確定該網頁中的內容引用自一源位址，則該去重處理模組將該引用了該源位址的網頁去除，只保留該源位址對應的網頁。

本發明還提供一種網路資訊檢索方法，包括步驟：回應用戶的輸入操作，確認用戶輸入的搜索關鍵字；根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁；對檢索到的所有網頁的位址及網頁記載的文字資訊和圖片資訊進行提取；獲取提取的該些網頁的網址及該些網頁記載的文字資訊和圖片資訊，並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址；當該些網頁引用了源地址時，將引用該源地址的網頁去除，只保留該網頁內容所引用的源位址對應的網頁作為最終顯示的網頁。

本發明中的網路資訊檢索系統及檢索方法，去除了檢索結果中大量的重複資源，方便用戶快速的找到所需內容。

下面結合附圖，對本發明中的網路資訊檢索系統及檢索方法作進一步的詳細描述。

請參考圖1，本發明一較佳實施方式中的網路資訊檢索系統100用於根據用戶輸入的搜索關鍵字在網路中檢索與該搜索關鍵字相關內容，並對檢索到的內容中重複的部分去除，從而減少了網路資源的浪費，同時也方便用戶快捷的找到所需內容。在本實施方式中，該網路資訊檢索系統100可以運行於個人電腦、智慧手機等作為客戶終端的電子裝置中，也可以運行於服務商的伺服器中。在本實施方式中，該網路資訊檢索系統包括一輸入確定模組10、一檢索模組20、一內容提取模組30、一去重處理模組40以及一顯示模組50。

該輸入確定模組10用於回應用戶通過鍵盤等輸入裝置進行的輸入操作，確定用戶輸入的搜索關鍵字。該檢索模組20用於根據該用戶輸入的搜索資訊在網路中搜索與該搜索關鍵字內容相匹配的網頁。

該內容提取模組30用於從該檢索模組20檢索到的所有網頁中提取網頁的位址及網頁記載的文字資訊和圖片資訊。在本實施方式中，該內容提取模組30通過預先構建的內容解析器將網頁的網址、該網頁中的文字和圖片資訊及該些資訊引用的源位址提取出來。

該去重處理模組40獲取該內容提取模組30提取的該些網頁的網址及該些網頁記載的文字資訊和圖片資訊，並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址，若該去重處理模組40確定該網頁中的內容引用自一源位址，則該去重處理模組40將該引用了源位址的網頁去除，只保留源位址對應的網頁。例如，當網址為www.abc.com的網頁中注明其文字資訊和圖片資訊引用自一網頁www.xyz.com時，該去重處理模組40將該網址為www.abc.com的網頁去除，只保留網址為www.xyz.com的網頁。當該去重處理模組40確定該些保留的網頁中的內容沒有引用其他源位址時，再將該些保留的網頁中的文字資訊和圖片資訊進行比較，並判斷該些保留網頁中的文字資訊和圖片資訊的相似度是否超過一預先設定的閾值，其中，所述的相似度以網頁內容中文字和圖片的重複程度來表徵。當該去重處理模組40確定該些保留的網頁中至少兩個網頁內容的相似度超過該閾值時，則保留該些網頁中文字內容最多的一個網頁或時間最早的一個網頁，將其他與該網頁內容相似的網頁去除，直到該去重處理模組40確定該些保留的網頁中任何兩個網頁內容的相似度沒有超過該閾值，則確認該些保留的網頁為最終顯示的網頁。顯然，若該去重處理模組40在去除掉引用源位址的網頁後，確認在剩下的網頁中任意兩個網頁內容的相似度均小於該閾值，則確定該些剩下的網頁均為最終顯示的網頁。在其他實施方式中，該去重處理模組40根據用戶的設置確定保留和去除網頁的條件，從而確定最終顯示的網頁。

該顯示模組50顯示該去重處理模組40確定的該些最終顯示的網頁。在其他實施方式中，該顯示模組50還用於根據用戶輸入命令確定是否顯示被去除的網頁。

請參閱圖2，一種網路資訊檢索方法，應用於一網路資訊檢索系統中，該方法包括如下步驟：

S201：該輸入確定模組10回應用戶通過鍵盤等輸入裝置進行的輸入操作，確定用戶輸入的搜索關鍵字。

S202：該檢索模組20根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字相匹配的網頁。

S203：該內容提取模組30提取該檢索模組20檢索到的所有網頁的網址及網頁記載的文字資訊和圖片資訊。

S204：該去重處理模組40獲取該內容提取模組30提取的該些網頁的網址及該些網址對應的文字資訊和圖片資訊，並根據該提取出的網頁中記載的文字資訊判斷該些網頁中的內容是否引用了源位址，若是，則執行步驟S205；若否，則執行步驟S208。

S205：該去重處理模組40將該引用了源位址的網頁去除，只保留該源位址對應的網頁。

S206：該去重處理模組40繼續將當前保留的網頁中的文字資訊和圖片資訊進行比較，並判斷該些保留網頁中的任意兩個網頁記載的文字資訊和圖片資訊的相似度是否超過一預先設定的閾值，其中，所述的相似度以網頁內容中文字和圖片的重複程度來表徵。若是，則執行步驟S207；若否，則執行步驟S208。

S207：該去重處理模組40控制保留該些網頁中文字內容最多的一個網頁或時間最早的一個網頁作為最終顯示的網頁，將其他與該網頁內容相似的網頁去除。在其他實施方式中，該去重處理模組40根據用戶設置的條件確定保留和去除網頁。

S208：該去重處理模組40控制該顯示模組50最終保留的網頁顯示給用戶。

100．．．網路資訊檢索系統

10．．．輸入確定模組

20．．．檢索模組

30．．．內容提取模組

40．．．去重處理模組

50．．．顯示模組

圖1係本發明一實施方式中網路資訊檢索系統的功能模組示意圖。

圖2係本發明一實施方式中網路資訊檢索方法流程圖。