TW201324210A - 網路資訊檢索系統及檢索方法 - Google Patents
網路資訊檢索系統及檢索方法 Download PDFInfo
- Publication number
- TW201324210A TW201324210A TW100147228A TW100147228A TW201324210A TW 201324210 A TW201324210 A TW 201324210A TW 100147228 A TW100147228 A TW 100147228A TW 100147228 A TW100147228 A TW 100147228A TW 201324210 A TW201324210 A TW 201324210A
- Authority
- TW
- Taiwan
- Prior art keywords
- webpage
- webpages
- information
- content
- module
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 13
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 23
- 230000000717 retained effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 abstract description 3
- 238000012958 reprocessing Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本發明提供一種網路資訊檢索系統及檢索方法。該網路資訊檢索系統包括輸入確定模組用於確認用戶輸入的搜索關鍵字;檢索模組在網路中搜索與該搜索關鍵字內容相匹配的網頁;內容提取模組對檢索到的所有網頁的位址及網頁記載的文字資訊和圖片資訊進行提取;去重處理模組獲取該內容提取模組提取的該些網頁的位址及該些網頁記載的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁是否引用了源位址,若確定該網頁中的文字資訊和圖片資訊引用自一源位址,則該去重處理模組將該引用了源位址的網頁去除,只保留該源位址對應的網頁。
Description
本發明涉及一種網路資訊檢索系統及檢索方法。
隨著資訊技術的發展,搜索引擎作為一個輔助用戶檢索資訊的工具,在人們的日常生活中變得不可或缺。搜索引擎一般是將搜索到的所有與用戶輸入關鍵字相關的資料全部顯示給用戶,從而使得搜索結果往往有數十頁甚至數百頁之多。在數量龐大的搜索結果中,由於不同資源之間的相互引用,或不同網頁之間相同內容的複製導致搜索結果中存在大量重複資訊,這些重複資訊不但造成了資源的浪費,也給用戶的檢索工作帶來諸多不便。
為瞭解決上述問題,本發明提供一種網路資訊檢索系統,該網路資訊檢索系統包括一輸入確定模組,用於回應用戶的輸入操作,確認用戶輸入的搜索關鍵字;一檢索模組,用於根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁;一內容提取模組,用於從該檢索模組檢索到的所有網頁中提取網頁的位址及網頁記載的文字資訊和圖片資訊;一去重處理模組,用於獲取該內容提取模組提取的該些網頁的網址及該些網址對應的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址,若確定該網頁中的內容引用自一源位址,則該去重處理模組將該引用了該源位址的網頁去除,只保留該源位址對應的網頁。
本發明還提供一種網路資訊檢索方法,包括步驟:回應用戶的輸入操作,確認用戶輸入的搜索關鍵字;根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁;對檢索到的所有網頁的位址及網頁記載的文字資訊和圖片資訊進行提取;獲取提取的該些網頁的網址及該些網頁記載的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址;當該些網頁引用了源地址時,將引用該源地址的網頁去除,只保留該網頁內容所引用的源位址對應的網頁作為最終顯示的網頁。
本發明中的網路資訊檢索系統及檢索方法,去除了檢索結果中大量的重複資源,方便用戶快速的找到所需內容。
下面結合附圖,對本發明中的網路資訊檢索系統及檢索方法作進一步的詳細描述。
請參考圖1,本發明一較佳實施方式中的網路資訊檢索系統100用於根據用戶輸入的搜索關鍵字在網路中檢索與該搜索關鍵字相關內容,並對檢索到的內容中重複的部分去除,從而減少了網路資源的浪費,同時也方便用戶快捷的找到所需內容。在本實施方式中,該網路資訊檢索系統100可以運行於個人電腦、智慧手機等作為客戶終端的電子裝置中,也可以運行於服務商的伺服器中。在本實施方式中,該網路資訊檢索系統包括一輸入確定模組10、一檢索模組20、一內容提取模組30、一去重處理模組40以及一顯示模組50。
該輸入確定模組10用於回應用戶通過鍵盤等輸入裝置進行的輸入操作,確定用戶輸入的搜索關鍵字。該檢索模組20用於根據該用戶輸入的搜索資訊在網路中搜索與該搜索關鍵字內容相匹配的網頁。
該內容提取模組30用於從該檢索模組20檢索到的所有網頁中提取網頁的位址及網頁記載的文字資訊和圖片資訊。在本實施方式中,該內容提取模組30通過預先構建的內容解析器將網頁的網址、該網頁中的文字和圖片資訊及該些資訊引用的源位址提取出來。
該去重處理模組40獲取該內容提取模組30提取的該些網頁的網址及該些網頁記載的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址,若該去重處理模組40確定該網頁中的內容引用自一源位址,則該去重處理模組40將該引用了源位址的網頁去除,只保留源位址對應的網頁。例如,當網址為www.abc.com的網頁中注明其文字資訊和圖片資訊引用自一網頁www.xyz.com時,該去重處理模組40將該網址為www.abc.com的網頁去除,只保留網址為www.xyz.com的網頁。當該去重處理模組40確定該些保留的網頁中的內容沒有引用其他源位址時,再將該些保留的網頁中的文字資訊和圖片資訊進行比較,並判斷該些保留網頁中的文字資訊和圖片資訊的相似度是否超過一預先設定的閾值,其中,所述的相似度以網頁內容中文字和圖片的重複程度來表徵。當該去重處理模組40確定該些保留的網頁中至少兩個網頁內容的相似度超過該閾值時,則保留該些網頁中文字內容最多的一個網頁或時間最早的一個網頁,將其他與該網頁內容相似的網頁去除,直到該去重處理模組40確定該些保留的網頁中任何兩個網頁內容的相似度沒有超過該閾值,則確認該些保留的網頁為最終顯示的網頁。顯然,若該去重處理模組40在去除掉引用源位址的網頁後,確認在剩下的網頁中任意兩個網頁內容的相似度均小於該閾值,則確定該些剩下的網頁均為最終顯示的網頁。在其他實施方式中,該去重處理模組40根據用戶的設置確定保留和去除網頁的條件,從而確定最終顯示的網頁。
該顯示模組50顯示該去重處理模組40確定的該些最終顯示的網頁。在其他實施方式中,該顯示模組50還用於根據用戶輸入命令確定是否顯示被去除的網頁。
請參閱圖2,一種網路資訊檢索方法,應用於一網路資訊檢索系統中,該方法包括如下步驟:
S201:該輸入確定模組10回應用戶通過鍵盤等輸入裝置進行的輸入操作,確定用戶輸入的搜索關鍵字。
S202:該檢索模組20根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字相匹配的網頁。
S203:該內容提取模組30提取該檢索模組20檢索到的所有網頁的網址及網頁記載的文字資訊和圖片資訊。
S204:該去重處理模組40獲取該內容提取模組30提取的該些網頁的網址及該些網址對應的文字資訊和圖片資訊,並根據該提取出的網頁中記載的文字資訊判斷該些網頁中的內容是否引用了源位址,若是,則執行步驟S205;若否,則執行步驟S208。
S205:該去重處理模組40將該引用了源位址的網頁去除,只保留該源位址對應的網頁。
S206:該去重處理模組40繼續將當前保留的網頁中的文字資訊和圖片資訊進行比較,並判斷該些保留網頁中的任意兩個網頁記載的文字資訊和圖片資訊的相似度是否超過一預先設定的閾值,其中,所述的相似度以網頁內容中文字和圖片的重複程度來表徵。若是,則執行步驟S207;若否,則執行步驟S208。
S207:該去重處理模組40控制保留該些網頁中文字內容最多的一個網頁或時間最早的一個網頁作為最終顯示的網頁,將其他與該網頁內容相似的網頁去除。在其他實施方式中,該去重處理模組40根據用戶設置的條件確定保留和去除網頁。
S208:該去重處理模組40控制該顯示模組50最終保留的網頁顯示給用戶。
100...網路資訊檢索系統
10...輸入確定模組
20...檢索模組
30...內容提取模組
40...去重處理模組
50...顯示模組
圖1係本發明一實施方式中網路資訊檢索系統的功能模組示意圖。
圖2係本發明一實施方式中網路資訊檢索方法流程圖。
100...網路資訊檢索系統
10...輸入確定模組
20...檢索模組
30...內容提取模組
40...去重處理模組
50...顯示模組
Claims (10)
- 一種網路資訊檢索系統,該網路資訊檢索系統包括:
一輸入確定模組,用於回應用戶的輸入操作,確認用戶輸入的搜索關鍵字;
一檢索模組,用於根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁;
一內容提取模組,用於從該檢索模組檢索到的所有網頁中提取網頁的位址及網頁記載的文字資訊和圖片資訊;
一去重處理模組,用於獲取該內容提取模組提取的該些網頁的網址及該些網址對應的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址,若確定該網頁中的內容引用自一源位址,則該去重處理模組將該引用了該源位址的網頁去除,只保留該源位址對應的網頁。 - 如申請專利範圍第1項所述之網路資訊檢索系統,其中,該去重處理模組還用於將該些保留的網頁中的文字資訊和圖片資訊進行比較,並判斷該些保留網頁中的文字資訊和圖片資訊的相似度是否超過一預先設定的閾值,所述的相似度以網頁中文字資訊和圖片資訊的重複程度來表徵;當該些保留的網頁中至少兩個網頁中文字資訊和圖片資訊的相似度超過該閾值時,則進一步保留該些網頁中文字內容最多的一個網頁或時間最早的一個網頁,將其他與該網頁內容相似的網頁去除;直到該些保留的網頁中任何兩個網頁內容的相似度都沒有超過該閾值,則確定該些被保留的網頁為最終顯示的網頁。
- 如申請專利範圍第2項所述之網路資訊檢索系統,其中,該網路資訊檢索系統還包括一顯示模組用於顯示該去重處理模組確定最終顯示的網頁。
- 如申請專利範圍第3項所述之網路資訊檢索系統,其中,該網路資訊檢索系統為運行於作為客戶終端的電子裝置中。
- 如申請專利範圍第3項所述之網路資訊檢索系統,其中,該網路資訊檢索系統運行於服務商的伺服器中。
- 如申請專利範圍第2項所述之網路資訊檢索系統,其中,該內容提取模組通過預先構建的內容解析器將網頁的位址、該網頁中的文字和圖片資訊及該些資訊引用的源位址提取出來。
- 如申請專利範圍第2項所述之網路資訊檢索系統,其中,該去重處理模組根據用戶的設置確定保留和去除網頁的條件。
- 一種網路資訊檢索方法,應用於一網路資訊檢索系統中,其改良在於,該方法包括如下步驟:
回應用戶的輸入操作,確認用戶輸入的搜索關鍵字;
根據該用戶輸入的搜索關鍵字在網路中搜索與該搜索關鍵字內容相匹配的網頁;
對檢索到的所有網頁的位址及網頁記載的文字資訊和圖片資訊進行提取;
獲取提取的該些網頁的網址及該些網頁記載的文字資訊和圖片資訊,並根據該提取出的文字資訊判斷該些網頁中的內容是否引用了源位址;
當該些網頁引用了源地址時,將引用該源地址的網頁去除,只保留該網頁內容所引用的源位址對應的網頁作為最終顯示的網頁。 - 如申請專利範圍第8項所述之網路資訊檢索方法,其中,該方法還包括步驟:
將該些保留的網頁中的文字資訊和圖片資訊進行比較,並判斷該些保留網頁中的文字和圖片資訊的相似度是否超過一預先設定的閾值,其中,所述的相似度以網頁中記載的文字資訊和圖片資訊的重複程度來表徵;
當兩個或兩個以上網頁中文字資訊和圖片資訊的相似度超過該閾值時,將該些網頁中文字內容最多的一個網頁或時間最早的一個網頁作為最終顯示的網頁,將其他與該網頁內容相似的網頁去除。 - 如申請專利範圍第9項所述之網路資訊檢索方法,其中,該方法還包括步驟將確定最終顯示的網頁顯示給用戶。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104181407A CN102567473A (zh) | 2011-12-14 | 2011-12-14 | 网络信息检索系统及检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201324210A true TW201324210A (zh) | 2013-06-16 |
Family
ID=46412883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100147228A TW201324210A (zh) | 2011-12-14 | 2011-12-19 | 網路資訊檢索系統及檢索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130159275A1 (zh) |
CN (1) | CN102567473A (zh) |
TW (1) | TW201324210A (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544283B (zh) * | 2013-10-24 | 2017-02-01 | 青岛英网资讯股份有限公司 | 网站信息合并去重方法 |
CN103984776B (zh) * | 2014-06-05 | 2017-05-03 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN105991312B (zh) * | 2015-01-30 | 2019-06-18 | 深圳市腾讯计算机系统有限公司 | 一种网络资源的排重方法及装置 |
CN104881470B (zh) * | 2015-05-28 | 2018-05-08 | 暨南大学 | 一种面向海量图片数据的重复数据删除方法 |
CN109376317B (zh) * | 2015-10-22 | 2021-10-15 | 潍坊久宝智能科技有限公司 | 一种浏览器中切换网址链接的装置 |
CN106095771A (zh) * | 2016-05-07 | 2016-11-09 | 深圳职业技术学院 | 写作辅助方法及装置 |
CN106126616B (zh) * | 2016-06-21 | 2020-01-10 | 东软集团股份有限公司 | 汇聚网络素材的方法和装置 |
CN107291916A (zh) * | 2017-06-28 | 2017-10-24 | 上海尚工机器人技术有限公司 | 网络信息整合引擎 |
CN108460098B (zh) * | 2018-02-01 | 2023-04-07 | 北京百度网讯科技有限公司 | 信息推荐方法、装置和计算机设备 |
CN110532489A (zh) * | 2019-08-30 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 页面的展示方法、装置、设备及介质 |
CN113918804A (zh) * | 2020-07-08 | 2022-01-11 | 上海会麦信息科技有限公司 | 商品信息检索系统及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913208A (en) * | 1996-07-09 | 1999-06-15 | International Business Machines Corporation | Identifying duplicate documents from search results without comparing document content |
US7158961B1 (en) * | 2001-12-31 | 2007-01-02 | Google, Inc. | Methods and apparatus for estimating similarity |
US20040093331A1 (en) * | 2002-09-20 | 2004-05-13 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analyses |
US7185088B1 (en) * | 2003-03-31 | 2007-02-27 | Microsoft Corporation | Systems and methods for removing duplicate search engine results |
US8145630B1 (en) * | 2007-12-28 | 2012-03-27 | Google Inc. | Session-based dynamic search snippets |
CN101645082B (zh) * | 2009-04-17 | 2011-04-20 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
US8380722B2 (en) * | 2010-03-29 | 2013-02-19 | Microsoft Corporation | Using anchor text with hyperlink structures for web searches |
CN102063498B (zh) * | 2010-12-31 | 2013-01-30 | 百度在线网络技术(北京)有限公司 | 基于内容特征信息对链接进行去重处理的方法与设备 |
-
2011
- 2011-12-14 CN CN2011104181407A patent/CN102567473A/zh active Pending
- 2011-12-19 TW TW100147228A patent/TW201324210A/zh unknown
-
2012
- 2012-08-13 US US13/572,713 patent/US20130159275A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20130159275A1 (en) | 2013-06-20 |
CN102567473A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201324210A (zh) | 網路資訊檢索系統及檢索方法 | |
JP2012515382A (ja) | サイトの構造を視覚化することおよび検索結果またはリンクされたページのためのサイトナビゲーションを可能にすること | |
TW201013433A (en) | Filtering method for the same or similar documents | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
CN105224518A (zh) | 文本相似度的计算方法及系统、相似文本的查找方法及系统 | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
US7284006B2 (en) | Method and apparatus for browsing document content | |
WO2015196981A1 (zh) | 一种鉴别图片垃圾文件的方法及装置 | |
CN107943893A (zh) | 一种基于互联网的搜索处理方法及装置 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
US20160328110A1 (en) | Method, system, equipment and device for identifying image based on image | |
WO2015024429A1 (zh) | 获取网页中影视主体的方法及装置 | |
JPWO2008142791A1 (ja) | 差分算出プログラム、差分算出装置および差分算出方法 | |
WO2016155643A1 (zh) | 一种基于输入的显示候选词的方法和装置 | |
WO2014086251A1 (en) | Method and device for accessing websites via keywords | |
CN104462075A (zh) | 一种互联网人物信息的属性提取方法 | |
JP2008226110A (ja) | 情報処理装置、情報処理方法および制御プログラム | |
JP5287099B2 (ja) | 検索装置、情報処理装置、検索方法、プログラム及び記録媒体 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
JP2007188225A (ja) | 要約文抽出システム | |
US20210217422A1 (en) | Method for establishing link to display relevant data of keyword and electronic device employing the method | |
CN108038221B (zh) | 一种信息抓取方法及装置 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
JP5585686B2 (ja) | 検索装置、検索方法及び検索プログラム | |
US8832082B2 (en) | Presentation of search results with diagrams |