TWI549004B - Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database - Google Patents
Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database Download PDFInfo
- Publication number
- TWI549004B TWI549004B TW100108078A TW100108078A TWI549004B TW I549004 B TWI549004 B TW I549004B TW 100108078 A TW100108078 A TW 100108078A TW 100108078 A TW100108078 A TW 100108078A TW I549004 B TWI549004 B TW I549004B
- Authority
- TW
- Taiwan
- Prior art keywords
- webpage
- product
- initial
- keyword
- webpages
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 51
- 230000009193 crawling Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 15
- 230000003993 interaction Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
Description
本申請案係有關網路資料處理領域,特別有關基於網上交易平台的檢索方法、裝置和伺服器。
基於網上交易平台的搜索,一般都是接收用戶輸入的查詢關鍵字之後,會將包括了查詢關鍵字的一些產品顯示給用戶,這些包括了查詢關鍵字的產品就是用戶可能會感興趣的產品。這些產品一般可以透過與關鍵字相關聯的形式,使得某個輸入相關聯的關鍵字,就可以得到與該關鍵字相關聯的產品。
當用戶搜索某一款具體的產品時,現有技術一般採用如下方式:根據產品的名稱、類目或/和屬性進行關鍵字匹配,只是這種搜索方式只能適用於純產品類目詞或產品名稱和屬性等關鍵字。當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,就有可能在存在這類產品的情況下還是搜索不到結果。例如,對於“適合女士用的手機”的關鍵字,由於資料庫中保存的資料一般是根據產品名稱、類目或屬性等關鍵字建立的,並沒有保存僅僅具有描述性質的關鍵字的資訊,因此就無法搜索到用戶需要的結果。舉例來講,“飛利浦588”是一款普遍被認為適合女士用的手機,但是當用戶直接在網上交易平台中搜索“適合女士用的手機”是無法搜索到這款手機的。
由以上對現有技術的分析可知,現有技術在實現網上交易平台的檢索時,由於不能完全和用戶的需求相匹配,所以如果出現搜索不到用戶感興趣的結果時,就需要用戶變換查詢詞繼續搜索,這樣就增加了用戶和伺服器之間的交互次數,在伺服器端也會增加對於查詢詞的匹配過程,就會增加伺服器的操作量,進一步影響網上交易平台伺服器的運行速度和性能。
總之,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創新的提出一種基於網上交易平台的檢索方法,以解決現有技術中無法搜索到用戶需求的結果,導致影響網上交易平台伺服器運行速度和性能的技術問題。
本申請案所要解決的技術問題在於提供一種基於網上交易平台的檢索方法,用以解決現有技術中無法搜索到用戶需求的結果而導致的影響網上交易平台伺服器運行速度和性能的技術問題。
本申請案還提供了一種基於網上交易平台的檢索裝置和伺服器,用以確保上述方法在實際中的實現及應用。
為了解決上述問題,本申請案揭示一種網頁資料庫的建立方法,包括:抓取網頁;分析所述網頁的關鍵字,以得到所述網頁上所涉及到
的產品關鍵字;按照預定規則分析所述產品關鍵字,以得到與所述網頁相關的至少一個產品標識;將所述網頁、至少一個產品標識,以及,網頁和產品標識之間的關聯保存至預定的資料庫。
本申請案揭示一種基於網上交易平台的檢索方法,包括:依據瀏覽器目前提交的查詢詞,從預定的網頁資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預定的網頁資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;對所述初始網頁進行相關性處理以得到滿足預定條件的相關網頁;對所述相關網頁所涉及到的產品標識所對應的至少一個產品進行相關處理;將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示。
本申請案揭示一種基於網上交易平台的檢索裝置,包括:查詢初始網頁模組,用以依據查詢詞,從預定的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預定的資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;獲取相關網頁模組,用於對所述初始網頁進行相關性
處理以得到滿足預定條件的相關網頁;產品相關處理模組,用以對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;排序展示模組,用以將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示。
與現有技術相比,本申請案包括以下優點:
在本申請案中,預先已經將網頁上出現的產品資訊和網頁做了關聯,因此,依據用戶輸入的關鍵字在網上交易平台上做檢索的時候,就會考慮到產品的網頁資訊,即是只要有論壇或者網頁討論過某個產品,就可以在檢索產品的時候依據這個產品和網頁之間的關聯而檢索到相關產品。這避免了當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,而產品的網頁資訊中具備關鍵字的相關資訊,但卻出現搜索不到產品的情況的發生,提高了用戶的查詢效率。透過本申請案,用戶不需要重複搜索相關產品,這減少了用戶與搜索引擎伺服器之間的交互次數,降低了搜索引擎伺服器的重複運行次數,從而提高搜索引擎伺服器的運行速度、操作效率和操作性能。當然,實施本申請案的任一產品並不一定需要同時達到以上所述的所有優點。
下面將結合本申請案實施例中的附圖,對本申請案實施例中的技術方案進行清楚、完整地描述,顯然,所描述
的實施例僅僅是本申請案一部分實施例,而不是全部的實施例。基於本申請案中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬於本申請案所保護的範圍。
本申請案可用於多個通用或專用的計算裝置環境或配置中。例如:個人電腦、伺服器、手持設備或攜帶型設備、平板型設備、多處理器裝置、包括以上任何裝置或設備的分散式計算環境等等。
本申請案可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地說,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本申請案,在這些分散式計算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
本申請案的主要思想之一可以包括,在本申請案實施例中,首先需要對於網路爬蟲(web crawler)所抓取到的網頁進行預處理,具體過程是:針對抓取到的網頁識別出該網頁內容所主要涉及到的某幾種具體的產品,並將這些產品的產品標識與該網頁對應關聯起來,並將這種關聯關係以及關聯中所涉及到的網頁和產品標識都儲存在預先設定的一個網頁資料庫中,以供後續從該網頁資料庫中再調用關聯。上述預處理過程可以離線進行,亦即,只要爬蟲抓取到了網頁,就可以進行同樣的預處理過程,以建立網頁
資料庫。搜索引擎伺服器在接收到瀏覽器所提交的查詢詞時,依據該查詢詞可以從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁,並對得到的初始網頁進行相關性處理,以得到滿足預定條件的相關網頁,而對涉及到的產品標識所對應的至少一個產品所述相關網頁,則繼續進行相關處理;並將進行過相關處理之後的至少一個產品按照相關性值而進行排序,最後將排序之後的多個產品向用戶端展示,具體可以展示該產品的價格或者銷量等資訊。
可見,採用本申請案實施例進行搜索,最終得到的產品不僅與用戶輸入的查詢詞相關,同時還和某個網頁上是否涉及到該產品相關,這樣就可以避免當用戶輸入描述性質的關鍵字時直接依據關鍵字檢索而得不到相關結果的現象。例如,對於查詢詞“適合女士用的手機”來講,如果在某個論壇或者網頁上,出現了討論“適合女士用的手機”的內容,而這個內容中涉及到了很多適合女士用的手機,包括“飛利浦588”,那麽資料庫中就會保存這個網頁和“飛利浦588”之間關聯,而後續搜索引擎伺服器在檢索適合女士用的手機時,就會出現銷售“飛利浦588”產品的相關網頁,再把這些產品資訊進行展示的時候,就不需要用戶重複搜索相關產品,從而減少了用戶與搜索引擎伺服器之間的交互次數,降低了搜索引擎伺服器的重複運行次數,提高了搜索引擎伺服器的運行速度、操作效率和操作性能。
參考圖1,示出了本申請案一種網頁資料庫的建立方
法實施例的流程圖,可以包括以下步驟:
步驟101:抓取網頁。
這裏的網頁是爬蟲伺服器所抓取到的網頁,爬蟲伺服器無需觸發條件,一旦啟動之後便會不停地抓取網頁。
步驟102:分析所述網頁的關鍵字,以得到所述網頁上所涉及到的產品關鍵字。
當爬蟲從互聯網上抓取到網頁時,對抓取到的網頁進行分析,即是針對網頁中的內容進行提煉,去發現該網頁內容中出現的產品關鍵字,例如,在某個論壇上出現了討論“適合女士用的手機”的帖子,則本步驟會將用戶討論結果中出現的適合女士用的手機都獲取到。
所述步驟102在實際應用中,具體可以採用如下方式實現:
步驟A1:提取所述網頁上的文本內容。
在爬蟲伺服器所抓取到的網頁中,不一定只有文本資訊,有時也會有圖片或者廣告視頻等其他資訊,因此,本步驟需要首先提取出網頁的文本內容。例如,論壇裏關於某個產品的討論資訊等。
步驟A2:對所述文本內容進行分析,以得到所述網頁的相關關鍵字。
在本步驟可以採用分詞器對所述文本內容進行分詞,實施分詞器所得到的各個關鍵字,即為所述網頁的相關關鍵字。當然,本步驟也可以採用其他的一些工具對網頁的文本內容進行分詞處理,分詞的方式並不影響本申請案的
實現。
步驟A3:從所述相關關鍵字中獲取到與產品相關的產品關鍵字。
在本步驟中即是對從所述文本內容中所得到的所有相關關鍵字進行分析,以找到和產品相關的產品關鍵字。例如。假設步驟A2中得到的相關關鍵字有“的”、“因此”、“諾基亞5530”、“聯想”等,則本步驟可以獲取到“諾基亞5530”和“聯想”作為產品關鍵字。
步驟103:按照預定規則分析所述產品關鍵字,以得到與所述網頁相關的至少一個產品標識。
所述步驟103在實際應用中,具體可以採用如下方式而得到與所述網頁相關的至少一個產品標識:
步驟B1:檢測所述產品關鍵字中出現機率高於一定閾值的候選關鍵字。
在本步驟中,因為一個網頁中可能出現的產品關鍵字有很多個,例如同時出現了“諾基亞5530”、“聯想”和“三星”等產品關鍵字,出現的機率分別為10次,5次和1次。而預先設定的閾值為2,則本步驟中則會篩選出候選關鍵字為“諾基亞5530”和“聯想”。
步驟B2:判斷所述候選關鍵字與所述網頁的文本內容是否相關。
在本步驟中,假設目前網頁為一個討論手機性能的帖子,而“諾基亞5530”和“聯想”這兩個候選關鍵字都和手機有關,則在步驟B1中得到的候選關鍵字均與網頁
相關的產品標識。但是,如果出現了“寶潔”的候選關鍵字,很顯然與手機性能無關,則並不會將“寶潔”作為與目前網頁相關的一個產品標識。
步驟104:將所述網頁、至少一個產品標識、以及網頁和產品標識之間的關聯保存至預定的資料庫。當根據查詢詞在該資料庫中檢索時,根據檢索到的與查詢詞匹配的網頁時,根據匹配的網頁與產品標識的關係,以輸出該產品標識。
在本步驟中,依據獲取到的產品可以將對應的產品標識與其出現的網頁進行關聯。這裏的關聯可以理解為,該網頁和對應的產品標識之間遵循某種聯繫,當獲取到網頁時即可對應獲取到產品標識。
當一個網頁上出現多個產品時,還可以依據產品出現的次數,以及在網頁出現的位置資訊等,設定各個產品與網頁進行關聯時的權重。例如,當某個產品在網頁上出現的次數最多,或者出現在網頁所在模板中比較重要的板塊上,就可以將該產品的產品標識與該網頁的關聯設定較高的權重。因此,一個網頁可以關聯多個產品,且這多個產品之間按照權重關係可以進行排序。
當對網頁和產品做好關聯之後,即可將網頁和至少一個的產品標識之間的關聯保存至資料庫中,並且在保存時,將該網頁的相關內容以及產品資訊也一併保存至資料庫中,以便於後續再調用時可以獲取到網頁內容和產品資訊,例如,價格、銷售量等。
參考圖2,示出了本申請案一種基於網上交易平台的檢索方法實施例一的流程圖,可以包括以下步驟:
步驟201:依據瀏覽器目前提交的查詢詞,從預定的網頁資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的網頁資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。
在本實施例中,用戶在網上交易平台提供的輸入框輸入查詢詞之後,由瀏覽器提交至後台搜索引擎系統,搜索引擎系統從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁。這裏關鍵字和網頁之間的映射關係可以採用現有技術實現,即是採用現有技術中對網頁和關鍵字之間的匹配來實現本步驟依據查詢詞對初始網頁的檢索。
這裏預定的資料庫中保存的網頁,以及該網頁涉及到的至少一個產品標識,則是解決本申請案所要解決的技術問題的一個關鍵。這裏的產品標識(pid)是與該產品一一對應的唯一數位ID。
步驟202:對所述初始網頁進行相關性處理以得到滿足預定條件的相關網頁。
在本步驟中,需要對從預定的資料庫中所獲取到的初始網頁進行相關性處理,這裏為了找出更滿足用戶需求的相關網頁,可以採用執行兩次相關性計分的處理過程。例如,可以首先採用BM25演算法對初始網頁進行第一次相關性計分,並按照分數從大到小而對所述初始網頁進行排序。所述第一次相關性計分的目的是減少在第二次相關性
計分時的系統運算量,為進行第二次相關性計分選取數目較少且與查詢詞更為相關的網頁。
在進行第二次相關性計分之前,為了在第二次相關性計分的時候減少計算量,可以對排序後的初始網頁取前幾個初始網頁執行第二次相關性計分。這裏取多少個初始網頁可以依據實際需求有所不同,例如,1000個或者800個等等。取了前幾個初始網頁之後,再對這幾個第一層相關性得分較高的初始網頁進行第二次相關性計分處理,將採用邏輯更為複雜精細的方式進行以得到相關網頁。其中一些具體的計分規則可以為:當某些關鍵字不斷重複連續出現時,則認為該關鍵字為無用資訊,並將該關鍵字所處的網頁得分減去一個預定的數值;或者,同時進行關鍵字所處的類目與網頁中關聯的產品標識所處的類目之間的匹配程度過濾,可以包括如果關鍵字中提及的品牌與網頁中關聯的產品標識的品牌不相符時,將該關鍵字所處的網頁得分減去一個預定的數值;如果關鍵字中提及的型號與網頁中關聯的產品標識的型號不相符,同樣將該關鍵字所處的網頁得分減去一個預定的數值。
步驟203:對所述相關網頁所涉及到的產品標識所對應的至少一個產品進行相關處理。
所述相關網頁可能有很多個,那麽對於每個相關網頁所涉及到的產品標識也需要進行計分。具體上,因為不同的相關網頁所涉及到的產品有可能相同,那麽在執行本步驟時,可以首先將那些權重最大的產品標識都相同的網頁
聚合到一起,即是比較各個相關網頁中權重最重的產品標識,相同產品標識的相關網頁則聚合到一個組中,而該組即是該相同產品標識的網頁組,該組中包括多個相同產品標識的不同相關網頁。
得到不同的網頁組之後,則可對各個產品標識組中的相關網頁計分,而計分過程中可以依據聚合到該產品標識下的網頁數量,各個網頁的第二次相關性得分,以及,該產品標識的某些屬性,例如:價格,上市時間等,該產品與查詢詞之間的相關性得分等因素,為產品標識計分的。具體實現的過程可以例如,在執行本步驟的內容時,將得到的第二次相關性得分直接相加,並從結果中選擇出幾個相關性得分高的產品,再按照這些產品的價格而對網頁進行排序,按照順序給涉及到的產品標識進行計分。
需要說明的是,在本步驟中,因為一個網頁組聚合了多個網頁,則該網頁組中各個網頁的產品標識分數是相同的,這些產品標識分數可以作為該各個相關網頁的屬性,儲存到各個相關網頁中。
步驟204:將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示。
對產品標識計分之後,按照產品標識得分的大小可以對各個網頁涉及到的產品從大到小進行排序,可以取前幾個產品而向用戶端展示其資訊。這樣的話,展示的產品資訊就和網頁上是否涉及到了該產品的相關資訊有關,因此,就避免了有的網店賣家採用購買廣告的方式而將某個
關鍵字和自己的產品相關聯,也避免了因為用戶輸入的是描述性質的查詢詞而導致查詢不到相關結果的情況。因此,採用本申請案實施例,在展示產品的過程中考慮了產品的網頁資訊,當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,而產品的網頁資訊中具備關鍵字的相關資訊,但卻出現搜索不到產品的情況,提高了用戶的查詢效率。本實施例不需要用戶重複搜索相關產品,減少了用戶與搜索引擎伺服器之間的交互次數,降低了搜索引擎伺服器的重複運行次數,從而提高搜索引擎伺服器的運行速度、操作效率和操作性能。
參考圖3,示出了本申請案一種基於網上交易平台的檢索方法實施例二的流程圖,可以包括以下步驟:
步驟301:依據瀏覽器目前提交的查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的資料庫用以保存網頁,以及該網頁涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。
在本實施例中,針對瀏覽器提交的查詢詞在提取關鍵字時,可以利用現有的工具,例如分詞器、詞性標注工具等,這樣還可以降低本實施例的實施成本。
本步驟在前述實施例已經詳細介紹,在此不再贅述。在建立該預定的資料庫的過程中,很多討論“適合女士用的手機”的網頁,並且該頁面與具體的某一個產品標識(例如“飛利浦588”)建立了對應的關聯關係,則該出現“適合女士用的手機”的網頁,以及網頁和具體產品,
例如“飛利浦588”之間的關聯都保存至了該資料庫中。那麽在接收到瀏覽器所提交的查詢詞時,對於“適合女士用的手機”查詢詞就會檢索到討論該關鍵字的諸多網頁。
步驟302:採用預定演算法對所述初始網頁進行第一次相關性計分,所述第一次相關性計分的分數與初始網頁中特定的產品關鍵字的第一參數成正比,與第二參數成反比;所述第一參數為在目前的一個初始網頁中出現的機率,所述第二參數為在網頁資料庫中的所有網頁中出現的機率。
在本步驟中,現有技術中有很多種相關性演算法可以執行,例如BM25,本步驟即是採用現有技術中任一種相關性演算法對所有的初始網頁進行相關性計分,這樣每個初始網頁就對應一個相關性分數,再按照相關性分數而從大到小的順序給所述初始網頁進行排序。
以BM25為例,對網頁進行BM25演算法處理之後,每一個網頁所得到的分數與兩個參數有關,第一參數是在一個網頁中特定的產品關鍵字出現的機率大小,第二參數是在網頁資料庫的所有網頁中出現的機率大小,且第一參數的機率越大則對應網頁的第一次相關性分數就越高,並且第二參數的機率越小對應網頁的第一次相關性分數就越高。舉例來講,對於關鍵字“的”,因為是語氣助詞,所以在一個網頁中出現的機率會非常高,但是因為其在所有網頁中出現的機率也大,亦即其出現的機率較大的網頁個數較多,所以其第一次相關性分數就相對較低。在本申請
案實施例中,第一次相關性分數的大小分別與第一參數和第二參數所成比例的具體比值,可以依據實際應用的需求而有所改變。
步驟303:對進行第一次相關計分之後的初始網頁按照預設閾值而獲取分數較高的前幾個網頁,並依據產品關鍵字在網頁中出現的機率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前幾個網頁進行第二次相關性計分,以得到相關網頁。
在本步驟中,對於排序之後的初始網頁,可以按照預設的一個閾值獲取前幾個網頁。例如,只獲取前1000個初始網頁,這1000個初始網頁的相關性分數高於剩餘的初始網頁。此處需要對截取得到的前幾個網頁進行第二次相關性計分,以得到1000個初始網頁的第二次相關性分數。
在本步驟中,假設查詢詞為“國慶假期去哪里玩”,則所述查詢詞的相鄰關鍵字可以為“國慶”和“假期”,那麽當“國慶”和“假期”在一個網頁中以“國慶假期”的方式出現時,就認為該查詢詞的相鄰關鍵字在網頁中同時出現的距離最近,那麽該網頁的第二次相關性計分的分數就會較高。並且,假設“國慶”和“假期”同時出現了,但是是以“國慶的假期”這樣的方式出現,假設該網頁中預設大小的窗口為20,只要“國慶的假期”的大小不大於20,就認為該查詢詞中相鄰的關鍵字在網頁中預
設大小的視窗內同時出現,相應的該網頁的第二次相關性計分的分數也會較高。
需要說明的是,在實際應用中有很多種情況,因此,除了這三個參數之外,本領域技術人員可以根據需求的不同而增加其他參數的設定,均不影響本申請案的實現。
步驟304:對所述相關網頁中產品標識相同的網頁進行分組,以得到多組產品標識相同的網頁組。
針對獲取得到的最終的1000個初始網頁,可以比較各個初始網頁關聯的產品標識是否相同,對於只與一個產品標識關聯的初始網頁只需比較這一個產品標識,而與多個產品標識相關聯的初始網頁則可以依據產品標識的出現次數或者出現的位置資訊來選擇權重最大的一個產品標識而參與比較。最終需要將產品標識都相同的網頁聚合到一個網頁組中,以產生多組產品標識相同的網頁組。
步驟305:對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性而得分以及產品屬性進行相關性計分。
在本步驟中,需要針對每個產品標識相同的網頁組中所涉及到的產品進行相關性計分。此處進行相關性處理時依據該網頁組中的網頁數量、各個網頁的第二次相關性分數,以及產品本身的屬性,例如,價格資訊、銷量資訊等,同時還可以依據該產品與用戶輸入的查詢詞之間的相關性分數,以對各網頁組中涉及到的產品進行計分。需要說明的是,在實際應用場合中,因為用戶需求或者網路運
行情況等可能有所不同,那麽此處各個依據在進行相關性計分的過程中所占的比重也可以不完全相同。
前述步驟即是透過獲取這個網頁上關聯的產品,將所有“適合女士用的手機”檢索出來。
步驟306:將所述計分結果作為各個網頁組中的網頁屬性而進行儲存。
在本步驟中,可以將步驟305中對各個產品進行相關性計分的分數作為各個網頁組中的網頁屬性而進行儲存。當然,在實際應用中,也可以不進行儲存,是否在網頁中儲存其涉及到的產品的相關性分數並不影響本申請案實施例的實現,本步驟並不是實現本申請案實施例的必要過程。
步驟307:按照所述各個產品的計分結果而對各個網頁重新排序,以得到重新排序之後的網頁。
在步驟305對各個產品進行相關性計分之後,依據這個計分結果而從大到小地在各個網頁組內對各個網頁重新排序。
步驟308:在產品標識相同的網頁組中截取排序之後的前預設個數的網頁作為該產品的檢索結果。
針對產品標識相同的網頁組,可以截取排序之後前預定個數的網頁作為該產品的檢索結果,如果用戶檢索了相關的關鍵字,後續可以透過關鍵字檢索到相關網頁,再從相關網頁和產品之間的關聯而檢索到對應的產品。
步驟309:將檢索結果在瀏覽器上向用戶端展示。
在本步驟中則將檢索到的對應產品資訊在用戶端上進行展示。
對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請案並不受所描述的動作順序的限制,因為依據本申請案,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作和模組並不一定是本申請案所必須的。
與上述本申請案一種基於網上交易平台的檢索方法實施例一所提供的方法相對應,參見圖4,本申請案還提供了一種基於網上交易平台的檢索裝置實施例三,在本實施例中,該裝置可以包括:
查詢初始網頁模組501,用於依據瀏覽器目前提交的查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。
獲取相關網頁模組502,用以對所述初始網頁進行相關性處理以得到滿足預定條件的相關網頁。
產品相關處理模組503,用以對所述相關網頁所涉及到的產品標識所對應的至少一個產品進行相關處理。
展示模組504,用以將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示。
本實施例所述的裝置可以集成到基於網上交易平台的
搜索引擎伺服器上,也可以單獨作為一個實體與搜索引擎伺服器相連,另外,需要說明的是,當本申請案所述的方法採用軟體來予以實現時,可以作為搜索引擎的伺服器新增的一個功能,也可以單獨編寫相應的程式,本申請案不限定所述方法或裝置的實現方式。
本實施例中,可以在依據用戶輸入的查詢詞檢索產品的時候,考慮到網頁上曾經出現該產品的情況,例如,在百度知道上有專門討論關於該查詢詞相關的產品等,就可以在檢索產品的時候依據這個產品和網頁之間的關聯檢索到相關產品。這樣就會使得用戶即使只是輸入一些描述性質的查詢詞,也能夠檢索到滿足其描述的產品,提高了用戶的查詢效率。因此採用本申請案實施例檢索產品一般情況下都能檢索到用戶所需求的產品,也不需要用戶重複搜索相關產品,因而減少了用戶與搜索引擎伺服器之間的交互次數,降低了搜索引擎伺服器的重複運行次數,從而提高搜索引擎伺服器的運行速度、操作效率和操作性能。
與上述本申請案一種基於網上交易平台的檢索方法實施例二所提供的方法相對應,參見圖5,本申請案還提供了一種基於網上交易平台的檢索裝置的較佳實施例四,在本實施例中,該裝置具體可以包括:
查詢初始網頁模組501,用以依據瀏覽器目前提交的查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。
第一相關性處理子模組601,用以採用預定演算法而對所述初始網頁進行第一次相關性計分,所述第一次相關性計分的分數與初始網中特定的產品關鍵字的第一參數成正比,與第二參數成反比,所述第一參數為在目前的一個初始網頁中出現的機率,所述第二參數為在網頁資料庫中的所有網頁中出現的機率。
第二相關性處理子模組602,用以對進行第一次相關計分之後的初始網頁按照預設閾值而獲取分數較高的前幾個網頁,並依據產品關鍵字在網頁中出現的機率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前幾個網頁進行第二次相關性計分,以得到相關網頁。
聚合分組子模組603,用以對所述相關網頁中產品標識相同的網頁進行分組,以得到多組產品標識相同的網頁組。
產品相關處理子模組604,用以對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性而進行相關性計分。
儲存子模組605,用以將所述計分結果作為各個網頁組中的網頁屬性進行儲存。
重新排序子模組606,用以按照所述各個產品的計分結果而對各個網頁重新排序,以得到重新排序之後的網頁。
獲取檢索結果子模組607,用以在產品標識相同的網頁組中截取排序之後前預設個數的網頁作為該產品的檢索結果。
與上述本申請案一種基於網上交易平台的檢索方法和裝置實施例相對應,本申請案還提供了一種基於網上交易平台的搜索引擎伺服器的實施例,在本實施例中,該伺服器具體可以包括:前述裝置實施例揭示的任一裝置。
需要說明的是,本說明書中的各個實施例均採用遞進的方式來予以描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分來予以說明即可。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上對本申請案所提供的一種基於網上交易平台的檢索方法、裝置及搜索引擎伺服器進行了詳細介紹,本文中應用了具體個例對本申請案的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請案的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請案的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請案的限制。
101‧‧‧抓取網頁
102‧‧‧分析所述網頁的關鍵字,以得到所述網頁上所涉及到的產品關鍵字
103‧‧‧按照預定規則分析所述產品關鍵字,以得到與所述網頁相關的至少一個產品標識
104‧‧‧將所述網頁、至少一個產品標識、以及網頁和產品標識之間的關聯保存至預定的資料庫
201‧‧‧依據瀏覽器目前提交的查詢詞,從預定的網頁資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的網頁資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯
202‧‧‧對所述初始網頁進行相關性處理以得到滿足預定條件的相關網頁
203‧‧‧對所述相關網頁所涉及到的產品標識所對應的至少一個產品進行相關處理
204‧‧‧將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示
301‧‧‧依據瀏覽器目前提交的查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的資料庫用以保存網頁,以及該網頁涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯
302‧‧‧採用預定演算法對所述初始網頁進行第一次相關性計分
303‧‧‧對進行第一次相關計分之後的初始網頁按照預設閾值而獲取分數較高的前幾個網頁,並依據產品關鍵字在網頁中出現的機率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前幾個網頁進行第二次相關性計分,以得到相關網頁
304‧‧‧對所述相關網頁中產品標識相同的網頁進行分組,以得到多組產品標識相同的網頁組
305‧‧‧對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性而得分以及產品屬性進行相關性計分
306‧‧‧將所述計分結果作為各個網頁組中的網頁屬性而進行儲存
步驟307‧‧‧按照所述各個產品的計分結果而對各個網頁重新排序,以得到重新排序之後的網頁
308‧‧‧在產品標識相同的網頁組中截取排序之後的前預設個數的網頁作為該產品的檢索結果
309‧‧‧將檢索結果在瀏覽器上向用戶端展示
501‧‧‧查詢初始網頁模組
502‧‧‧獲取相關網頁模組
503‧‧‧產品相關處理模組
504‧‧‧展示模組
601‧‧‧第一相關性處理子模組
602‧‧‧第二相關性處理子模組
603‧‧‧聚合分組子模組
604‧‧‧產品相關處理子模組
605‧‧‧儲存子模組
606‧‧‧重新排序子模組
607‧‧‧獲取檢索結果子模組
為了更清楚地說明本申請案實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請案的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖而獲得其他的附圖。
圖1是本申請案實施例一中建立預定的資料庫的流程圖;圖2是本申請案的一種基於網上交易平台的檢索方法實施例一的流程圖;圖3是本申請案的一種基於網上交易平台的檢索方法實施例二的流程圖;圖4是本申請案的一種基於網上交易平台的檢索裝置實施例三的結構方塊圖;圖5是本申請案的一種基於網上交易平台的檢索裝置
實施例四的結構方塊圖。
201‧‧‧依據瀏覽器目前提交的查詢詞,從預定的網頁資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預定的網頁資料庫用以保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯
202‧‧‧對所述初始網頁進行相關性處理以得到滿足預定條件的相關網頁
203‧‧‧對所述相關網頁所涉及到的產品標識所對應的至少一個產品進行相關處理
204‧‧‧將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示
Claims (7)
- 一種網頁資料庫的建立方法,其特徵在於,包括步驟:抓取網頁;分析該網頁的關鍵字,以得到該網頁上所涉及的產品關鍵字;按照預定規則來分析該產品關鍵字,以得到與該網頁相關的至少一個產品標識;以及將該網頁、該至少一個產品標識,以及網頁和產品標識之間的關聯保存至預定的資料庫,其中,按照預定規則來分析該產品關鍵字之該步驟具體包括:檢測該產品關鍵字中出現機率高於一定閾值的候選關鍵字;以及判斷該候選關鍵字與該網頁的文本內容是否相關。
- 如申請專利範圍第1項所述的方法,其中,分析該網頁的關鍵字以得到該網頁上所涉及的產品關鍵字之該步驟具體包括:提取該網頁上的文本內容;對該文本內容進行分析以得到該網頁的相關關鍵字;以及從該相關關鍵字中獲取與產品相關的產品關鍵字。
- 一種基於網上交易平台的檢索方法,其特徵在於,包括步驟: 依據查詢詞,從預定的網頁資料庫中查詢而得到與該查詢詞匹配的初始網頁;該預定的網頁資料庫用以保存網頁及其涉及的至少一個產品標識,和網頁和產品標識之間的關聯;對該初始網頁進行相關性處理以得到滿足預定條件的相關網頁;對該相關網頁涉及的產品標識所對應的至少一個產品進行相關處理;以及將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示,其中,對該初始網頁進行相關性處理以得到滿足預定條件的相關網頁之該步驟具體包括:採用預定演算法而對該初始網頁進行第一次相關性計分,該第一次相關性計分的分數與該初始網頁中特定的產品關鍵字的第一參數成正比,與第二參數成反比,該第一參數為在目前的一個初始網頁中出現的機率,該第二參數為在網頁資料庫中的所有網頁中出現的機率;以及對進行第一次相關計分之後的初始網頁按照預設閾值而獲取分數較高的前幾個網頁,並依據產品關鍵字在網頁中出現的機率、該查詢詞的相鄰關鍵字在網頁中同時出現的距離和該查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對該前幾個網頁進行第二次相關性計分,以得到相關網頁。
- 如申請專利範圍第3項所述的方法,其中,對該 相關網頁涉及的產品標識所對應的至少一個產品進行相關處理之該步驟具體包括:對該相關網頁中產品標識相同的網頁進行分組,以得到多組產品標識相同的網頁組;對各網頁組中產品標識對應的產品,依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性而進行相關性計分;以及將該計分結果作為各個網頁組中的網頁屬性而進行儲存。
- 如申請專利範圍第3項所述的方法,其中,該將進行過相關處理之後的至少一個產品按照相關性值進行排序之該步驟具體包括:按照該各個產品的計分結果而對各個網頁重新排序,以得到重新排序之後的網頁;以及在產品標識相同的網頁組中截取排序之後的前預設個數的網頁作為該產品的檢索結果。
- 一種基於網上交易平台的檢索裝置,其特徵在於,包括:查詢初始網頁模組,用以依據查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的初始網頁;該預定的資料庫用以保存網頁及其涉及的至少一個產品標識,和網頁和產品標識之間的關聯;獲取相關網頁模組,用以對該初始網頁進行相關性處理而得到滿足預定條件的相關網頁; 產品相關處理模組,用以對該相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;以及排序展示模組,用以將進行過相關處理之後的至少一個產品按照相關性值而向用戶端展示,其中,該獲取相關網頁模組具體包括:第一相關性處理子模組,用以採用預定演算法而對該初始網頁進行第一次相關性計分,該第一次相關性計分的分數與初始網中特定的產品關鍵字的第一參數成正比,與第二參數成反比,該第一參數為在目前的一個初始網頁中出現的機率,該第二參數為在網頁資料庫中的所有網頁中出現的機率;以及第二相關性處理子模組,用以對進行第一次相關計分之後的初始網頁按照預設閾值而獲取分數較高的前幾個網頁,並依據產品關鍵字在網頁中出現的機率、該查詢詞的相鄰關鍵字在網頁中同時出現的距離和該查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對該前幾個網頁進行第二次相關性計分,以得到相關網頁。
- 如申請專利範圍第6項所述的裝置,其中,該產品相關處理模組具體包括:聚合分組子模組,用以對該相關網頁中產品標識相同的網頁進行分組,以得到多組產品標識相同的網頁組;產品相關處理子模組,用以對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性而進行相關性計分;以及 儲存子模組,用以將該計分結果作為各個網頁組中的網頁屬性而進行儲存。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010529419.8A CN102456057B (zh) | 2010-11-01 | 2010-11-01 | 基于网上交易平台的检索方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201220097A TW201220097A (en) | 2012-05-16 |
TWI549004B true TWI549004B (zh) | 2016-09-11 |
Family
ID=46024769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100108078A TWI549004B (zh) | 2010-11-01 | 2011-03-10 | Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database |
Country Status (7)
Country | Link |
---|---|
US (1) | US20130290138A1 (zh) |
EP (1) | EP2635961A4 (zh) |
JP (2) | JP5923510B2 (zh) |
CN (1) | CN102456057B (zh) |
HK (1) | HK1166402A1 (zh) |
TW (1) | TWI549004B (zh) |
WO (1) | WO2012061076A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103839004A (zh) * | 2012-11-26 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 检测恶意文件的方法和设备 |
CN104750692B (zh) * | 2013-12-25 | 2018-05-15 | 中国移动通信集团公司 | 一种信息处理方法、信息检索方法及其对应的装置 |
CN104866483B (zh) * | 2014-02-21 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种信息检索的方法及装置 |
CN105005917A (zh) * | 2015-07-07 | 2015-10-28 | 上海晶赞科技发展有限公司 | 一种通用的关联不同电商网站单品的方法 |
US10387568B1 (en) * | 2016-09-19 | 2019-08-20 | Amazon Technologies, Inc. | Extracting keywords from a document |
US20180197221A1 (en) * | 2017-01-06 | 2018-07-12 | Dragon-Click Corp. | System and method of image-based service identification |
CN107301253B (zh) * | 2017-08-23 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种提高多站点搜索关键字准确性的方法及装置 |
JP7421726B2 (ja) * | 2020-02-27 | 2024-01-25 | Ec認証株式会社 | 認証システム |
US11016980B1 (en) | 2020-11-20 | 2021-05-25 | Coupang Corp. | Systems and method for generating search terms |
CN113516504B (zh) * | 2021-05-20 | 2024-07-19 | 深圳马六甲网络科技有限公司 | 一种商品推荐方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070158A (en) * | 1996-08-14 | 2000-05-30 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
CN101354706A (zh) * | 2007-07-25 | 2009-01-28 | 阿里巴巴集团控股有限公司 | 一种收集网页信息的方法及装置 |
TW200917070A (en) * | 2007-07-20 | 2009-04-16 | Yahoo Inc | System and method to facilitate matching of content to advertising information in a network |
US20090210890A1 (en) * | 2008-02-15 | 2009-08-20 | Yahoo! Inc. | Real-time data collection via hierarchical web page parsing |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6484149B1 (en) * | 1997-10-10 | 2002-11-19 | Microsoft Corporation | Systems and methods for viewing product information, and methods for generating web pages |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
TW556103B (en) * | 2001-05-04 | 2003-10-01 | Ibm | Web page annotation systems |
US20040138946A1 (en) * | 2001-05-04 | 2004-07-15 | Markus Stolze | Web page annotation systems |
JP4360167B2 (ja) * | 2003-09-30 | 2009-11-11 | ソニー株式会社 | キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム |
JP2006031108A (ja) * | 2004-07-12 | 2006-02-02 | Shinichiro Fujitani | ウエブ上の商品・サービスの検索システム |
JP4731896B2 (ja) * | 2004-12-07 | 2011-07-27 | 新日鉄ソリューションズ株式会社 | 情報処理装置、情報検索方法及びプログラム |
US9715542B2 (en) * | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
US8583633B2 (en) * | 2007-11-30 | 2013-11-12 | Ebay Inc. | Using reputation measures to improve search relevance |
US20100121790A1 (en) * | 2008-11-13 | 2010-05-13 | Dennis Klinkott | Method, apparatus and computer program product for categorizing web content |
JP5284064B2 (ja) * | 2008-12-03 | 2013-09-11 | ヤフー株式会社 | 商品idサーバ装置、および商品idサーバ装置の制御方法 |
JP5277941B2 (ja) * | 2008-12-18 | 2013-08-28 | 大日本印刷株式会社 | 関連商品提示方法、関連商品提示システム、プログラム、記録媒体 |
JP2010205060A (ja) * | 2009-03-04 | 2010-09-16 | Nomura Research Institute Ltd | 文書内画像検索方法および文書内画像検索システム |
-
2010
- 2010-11-01 CN CN201010529419.8A patent/CN102456057B/zh active Active
-
2011
- 2011-03-10 TW TW100108078A patent/TWI549004B/zh active
- 2011-10-24 WO PCT/US2011/057524 patent/WO2012061076A1/en active Application Filing
- 2011-10-24 EP EP11838483.3A patent/EP2635961A4/en not_active Withdrawn
- 2011-10-24 JP JP2013536703A patent/JP5923510B2/ja not_active Expired - Fee Related
- 2011-10-24 US US13/389,996 patent/US20130290138A1/en not_active Abandoned
-
2012
- 2012-07-19 HK HK12107084.8A patent/HK1166402A1/zh unknown
-
2016
- 2016-04-18 JP JP2016082971A patent/JP6346218B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070158A (en) * | 1996-08-14 | 2000-05-30 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
TW200917070A (en) * | 2007-07-20 | 2009-04-16 | Yahoo Inc | System and method to facilitate matching of content to advertising information in a network |
CN101354706A (zh) * | 2007-07-25 | 2009-01-28 | 阿里巴巴集团控股有限公司 | 一种收集网页信息的方法及装置 |
US20090210890A1 (en) * | 2008-02-15 | 2009-08-20 | Yahoo! Inc. | Real-time data collection via hierarchical web page parsing |
Also Published As
Publication number | Publication date |
---|---|
JP2014500541A (ja) | 2014-01-09 |
WO2012061076A1 (en) | 2012-05-10 |
JP2016131045A (ja) | 2016-07-21 |
JP6346218B2 (ja) | 2018-06-20 |
HK1166402A1 (zh) | 2012-10-26 |
CN102456057A (zh) | 2012-05-16 |
TW201220097A (en) | 2012-05-16 |
EP2635961A1 (en) | 2013-09-11 |
CN102456057B (zh) | 2016-08-17 |
EP2635961A4 (en) | 2016-06-01 |
US20130290138A1 (en) | 2013-10-31 |
JP5923510B2 (ja) | 2016-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI549004B (zh) | Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database | |
TWI609278B (zh) | Method and system for recommending search words | |
US9934293B2 (en) | Generating search results | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
JP5778255B2 (ja) | 垂直検索に基づいたクエリの方法、システム、および装置 | |
TW201805839A (zh) | 資料處理方法、設備及系統 | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
TW201319842A (zh) | 搜尋方法、搜尋裝置及搜尋引擎系統 | |
CN104050243B (zh) | 一种将搜索与社交相结合的网络搜索方法及其系统 | |
TW201401088A (zh) | 搜索方法和裝置 | |
TW201426357A (zh) | 搜索資料排序的方法和裝置,資料搜索的方法和裝置 | |
CN111428100A (zh) | 一种数据检索方法、装置、电子设备及计算机可读存储介质 | |
CN114090877A (zh) | 职位信息推荐方法、装置、电子设备及存储介质 | |
US20140344114A1 (en) | Methods and systems for segmenting queries | |
JP2004348607A (ja) | コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体 | |
TWI483129B (zh) | Retrieval method and device | |
TWI605351B (zh) | Query method, system and device based on vertical search | |
Chikkamannur et al. | An ameliorated methodology for ranking the tuple | |
CN117407512A (zh) | 问答方法、装置、电子设备以及存储介质 | |
TWI484356B (zh) | Retrieval methods, devices and systems | |
TWI471740B (zh) | Used in online trading platform for retrieval methods and systems | |
CN115422485A (zh) | 信息发送方法、装置、电子设备和存储介质 | |
TW201209613A (en) | Method and device for determining weight of search word and method and device for generating search result |