TW201220097A - capable of performing relevancy processing for at least one product corresponding to product identifiers referenced in relevant web pages - Google Patents

capable of performing relevancy processing for at least one product corresponding to product identifiers referenced in relevant web pages Download PDF

Info

Publication number
TW201220097A
TW201220097A TW100108078A TW100108078A TW201220097A TW 201220097 A TW201220097 A TW 201220097A TW 100108078 A TW100108078 A TW 100108078A TW 100108078 A TW100108078 A TW 100108078A TW 201220097 A TW201220097 A TW 201220097A
Authority
TW
Taiwan
Prior art keywords
webpage
product
initial
keyword
correlation
Prior art date
Application number
TW100108078A
Other languages
English (en)
Other versions
TWI549004B (zh
Inventor
Xiao-Wen Pan
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of TW201220097A publication Critical patent/TW201220097A/zh
Application granted granted Critical
Publication of TWI549004B publication Critical patent/TWI549004B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Description

201220097 六、發明說明 【發明所屬之技術領域】 本申請案係有關網路資料處理領域,特別有關基於網 上交易平台的檢索方法、裝置和伺服器。 【先前技術】 基於網上交易平台的搜索,一般都是接收用戶輸入的 査詢關鍵字之後,會將包括了查詢關鍵字的一些產品顯示 給用戶’這些包括了查詢關鍵字的產品就是用戶可能會感 興趣的產品。這些產品一般可以透過與關鍵字相關聯的形 式’使得某個輸入相關聯的關鍵字,就可以得到與該關鍵 字相關聯的產品。 當用戶搜索某一款具體的產品時,現有技術一般採用 如下方式:根據產品的名稱、類目或/和屬性進行關鍵字 匹配,只是這種搜索方式只能適用於純產品類目詞或產品 名稱和屬性等關鍵字》當用戶輸入的查詢詞沒有包括產品 具體名稱或者屬性等時,就有可能在存在這類產品的情況 下還是搜索不到結果。例如,對於“適合女士用的手機” 的關鍵字,由於資料庫中保存的資料一般是根據產品名 稱、類目或屬性等關鍵字建立的,並沒有保存僅僅具有描 述性質的關鍵字的資訊,因此就無法搜索到用戶需要的結 果。舉例來講,“飛利浦588 ”是一款普遍被認爲適合女 士用的手機,但是當用戶直接在網上交易平台中搜索 “適合女士用的手機”是無法搜索到這款手機的。 -5- 201220097 由以上對現有技術的分析可知,現有技術在實現網上 交易平台的檢索時,由於不能完全和用戶的需求相匹配, 所以如果出現搜索不到用戶感興趣的結果時,就需要用戶 變換査詢詞繼續搜索,這樣就增加了用戶和伺服器之間的 交互次數,在伺服器端也會增加對於査詢詞的匹配過程, 就會增加伺服器的操作量,進一步影響網上交易平台伺服 器的運行速度和性能》 總之,目前需要本領域技術人員迫切解決的一個技術 問題就是:如何能夠創新的提出一種基於網上交易平台的 檢索方法,以解決現有技術中無法搜索到用戶需求的結 果,導致影響網上交易平台伺服器運行速度和性能的技術 問題。 【發明內容】 本申請案所要解決的技術問題在於提供一種基於網上 交易平台的檢索方法,用以解決現有技術中無法搜索到用 戶需求的結果而導致的影響網上交易平台伺服器運行速度 和性能的技術問題》 本申請案還提供了一種基於網上交易平台的檢索裝置 和伺服器,用以確保上述方法在實際中的實現及應用。 爲了解決上述問題,本申請案揭示一種網頁資料庫的 建立方法,包括: 抓取網頁; 分析所述網頁的關鍵字,以得到所述網頁上所涉及到 201220097 的產品關鍵字; 按照預定規則分析所述產品關鍵字,以得到與所述網 頁相關的至少一個產品標識; 將所述網頁、至少一個產品標識,以及,網頁和產品 標識之間的關聯保存至預定的資料庫。 本申請案揭示一種基於網上交易平台的檢索方法,包 括: 依據瀏覽器目前提交的查詢.詞,從預定的網頁資料庫 中查詢得到與該查詢詞匹配的初始網頁;所述預定的網頁 資料庫用以保存網頁及其涉及到的至少一個產品標識, 和,網頁和產品標識之間的關聯; 對所述初始網頁進行相關性處理以得到滿足預定條件 的相關網頁; 對所述相關網頁所涉及到的產品標識所對應的至少一 個產品進行相關處理; 將進行過相關處理之後的至少一個產品按照相關性値 而向用戶端展示。 本申請案揭示一種基於網上交易平台的檢索裝置,包 括: 查詢初始網頁模組,用以依據查詢詞,從預定的資料 庫中査詢得到與該査詢詞匹配的初始網頁;所述預定的-資 料庫用以保存網頁及其涉及到的至少一個產品標識,和, 網頁和產品標識之間的關聯; 獲取相關網頁模組,用於對所述初始網頁進行相關性 201220097 處理以得到滿足預定條件的相關網頁; 產品相關處理模組,用以對所述相關網頁涉及到的產 品標識所對應的至少一個產品進行相關處理; 排序展示模組,用以將進行過相關處理之後的至少一 個產品按照相關性値而向用戶端展示。 與現有技術相比,本申請案包括以下優點: 在本申請案中,預先已經將網頁上出現的產品資訊和 網頁做了關聯,因此,依據用戶輸入的關鍵字在網上交易 平台上做檢索的時候,就會考慮到產品的網頁資訊,即是 只要有論壇或者網頁討論過某個產品,就可以在檢索產品 的時候依據這個產品和網頁之間的關聯而檢索到相關產 品。這避免了當用戶輸入的查詢詞沒有包括產品具體名稱 或者屬性等時,而產品的網頁資訊中具備關鍵字的相關資 訊,但卻出現搜索不到產品的情況的發生,提高了用戶的 査詢效率。透過本申請案,用戶不需要重複搜索相關產 品,這減少了用戶與搜索引擎伺服器之間的交互次數,降 低了搜索引擎伺服器的重複運行次數,從而提高搜索引擎 伺服器的運行速度、操作效率和操作性能。當然,實施本 申請案的任一產品並不一定需要同時達到以上所述的所有 優點。 【實施方式】 下面將結合本申請案實施例中的附圖,對本申請案實 施例中的技術方案進行清楚、完整地描述,顯然,所描述 -8- 201220097 的實施例僅僅是本申請案一部分實施例,而不是全部的實 施例。基於本申請案中的實施例,本領域普通技術人員所 獲得的所有其他實施例,都屬於本申請案所保護的範圍。 本申請案可用於多個通用或專用的計算裝置環境或配 置中。例如:個人電腦、伺服器、手持設備或攜帶型設 備、平板型設備、多處理器裝置、包括以上任何裝置或設 備的分散式計算環境等等。 本申請案可以在由電腦執行的電腦可執行指令的一般 上下文中描述,例如程式模組。一般地說,程式模組包括 執行特定任務或實現特定抽象資料類型的常式、程式、物 件、元件、資料結構等等。也可以在分散式計算環境中實 踐本申請案,在這些分散式計算環境中,由透過通信網路 而被連接的遠端處理設備來執行任務。在分散式計算環境 中’程式模組可以位於包括儲存設備在內的本地和遠端電 腦儲存媒體中。 本申請案的主要思想之一可以包括,在本申請案實施 例中,首先需要對於網路爬蟲(web crawler)所抓取到的網 頁進行預處理,具體過程是:針對抓取到的網頁識別出該 網頁內容所主要涉及到的某幾種具體的產品,並將這些產 品的產品標識與該網頁對應關聯起來,並將這種關聯關係 以及關聯中所涉及到的網頁和產品標識都儲存在預先設定 的一個網頁資料庫中,以供後續從該網頁資料庫中再調用 關聯。上述預處理過程可以離線進行,亦即,只要爬蟲抓 取到了網頁,就可以進行同樣的預處理過程,以建立網頁 -9 - 201220097 資料庫。搜索引擎伺服器在接收到瀏覽器所提交的查詢詞 時,依據該査詢詞可以從預定的資料庫中査詢而得到與該 查詢詞匹配的初始網頁,並對得到的初始網頁進行相關性 處理,以得到滿足預定條件的相關網頁,而對涉及到的產 品標識所對應的至少一個產品所述相關網頁,則繼續進行 相關處理;並將進行過相關處理之後的至少一個產品按照 相關性値而進行排序,最後將排序之後的多個產品向用戶 端展示,具體可以展示該產品的價格或者銷量等資訊。 可見,採用本申請案實施例進行搜索,最終得到的產 品不僅與用戶輸入的査詢詞相關,同時還和某個網頁上是 否涉及到該產品相關,這樣就可以避免當用戶輸入描述性 質的關鍵字時直接依據關鍵字檢索而得不到相關結果的現 象》例如,對於査詢詞“適合女士用的手機”來講,如果 在某個論壇或者網頁上,出現了討論“適合女士用的手 機”的內容,而這個內容中涉及到了很多適合女士用的手 機,包括“飛利浦58 8 ” ,那麽資料庫中就會保存這個網 頁和“飛利浦5 8 8 ”之間關聯,而後續搜索引擎伺服器在 檢索適合女士用的手機時,就會出現銷售“飛利浦5 8 8 " 產品的相關網頁,再把這些產品資訊進行展示的時候,就 不需要用戶重複搜索相關產品,從而減少了用戶與搜索引 擎伺服器之間的交互次數,降低了搜索引擎伺服器的重複 運行次數,提高了搜索引擎伺服器的運行速度、操作效率 和操作性能。 參考圖1,示出了本申請案一種網頁資料庫的建立方 -10- 201220097 法實施例的流程圖,可以包括以下步驟: 步驟1 0 1 :抓取網頁。 這裏的網頁是爬蟲伺服器所抓取到的網頁,爬蟲伺服 器無需觸發條件,一旦啓動之後便會不停地抓取網頁。 步驟1 02 :分析所述網頁的關鍵字,以得到所述網頁 上所涉及到的產品關鍵字。 當爬蟲從互聯網上抓取到網頁時,對抓取到的網頁進 行分析,即是針對網頁中的內容進行提煉,去發現該網頁 內容中出現的產品關鍵字,例如,在某個論壇上出現了討 論“適合女士用的手機”的帖子,則本步驟會將用戶討論 結果中出現的適合女士用的手機都獲取到。 所述步驟102在實際應用中,具體可以採用如下方式 實現: 步驟A1 :提取所述網頁上的文本內容。 在爬蟲伺服器所抓取到的網頁中,不一定只有文本資 訊,有時也會有圖片或者廣告視頻等其他資訊,因此,本 步驟需要首先提取出網頁的文本內容。例如,論壇裏關於 某個產品的討論資訊等。 步驟A2 :對所述文本內容進行分析,以得到所述網 頁的相關關鍵字。 在本步驟可以採用分詞器對所述文本內容進行分詞, 實施分詞器所得到的各個關鍵字,即爲所述網頁的相關關 鍵字。當然,本步驟也可以採用其他的一些工具對網頁的 文本內容進行分詞處理,分詞的方式並不影響本申請案的 -11 - 201220097 實現。 步驟A 3 :從所述相關關鍵字中獲取到與產品相關的 產品關鍵字。 在本步驟中即是對從所述文本內容中所得到的所有相 關關鍵字進行分析,以找到和產品相關的產品關鍵字。例 如。假設步驟A2中得到的相關關鍵字有“的”、“因 此”、“諾基亞55 3 0” 、 “聯想”等,則本步驟可以獲 取到“諾基亞5 53 0”和“聯想”作爲產品關鍵字。 步驟1 03 :按照預定規則分析所述產品關鍵字,以得 到與所述網頁相關的至少一個產品標識。 所述步驟103在實際應用中,具體可以採用如下方式 而得到與所述網頁相關的至少一個產品標識: 步驟B1:檢測所述產品關鍵字中出現機率高於一定 閩値的候選關鍵字。 在本步驟中,因爲一個網頁中可能出現的產品關鍵字 有很多個,例如同時出現了“諾基亞5 5 3 0 ” 、 “聯想” 和“三星”等產品關鍵字,出現的機率分別爲1 〇次,5 次和1次。而預先設定的閾値爲2,則本步驟中則會篩選 出候選關鍵字爲“諾基亞5 5 3 0”和“聯想”。 步驟B2:判斷所述候選關鍵字與所述網頁的文本內 容是否相關。 在本步驟中,假設目前網頁爲一個討論手機性能的帖 子,而“諾基亞55 3 0 ”和“聯想”這兩個候選關鍵字都 和手機有關,則在步驟B1中得到的候選關鍵字均與網頁 -12- 201220097 相關的產品標識。但是,如果出現了 "寶潔”的候選關鍵 字,很顯然與手機性能無關,則並不會將“寶潔”作爲與 目前網頁相關的一個產品標識。 步驟104:將所述網頁、至少一個產品標識、以及網 頁和產品標識之間的關聯保存至預定的資料庫。當根據查 詢詞在該資料庫中檢索時,根據檢索到的與查詢詞匹配的 網頁時,根據匹配的網頁與產品標識的關係,以輸出該產 品標識。 在本步驟中,依據獲取到的產品可以將對應的產品標 識與其出現的網頁進行關聯。這裏的關聯可以理解爲,該 網頁和對應的產品標識之間遵循某種聯繫,當獲取到網頁 時即可對應獲取到產品標識。 當一個網頁上出現多個產品時,還可以依據產品出現 的次數,以及在網頁出現的位置資訊等,設定各個產品與 網頁進行關聯時的權重。例如,當某個產品在網頁上出現 的次數最多,或者出現在網頁所在模板中比較重要的板塊 上,就可以將該產品的產品標識與該網頁的關聯設定較高 的權重。因此,一個網頁可以關聯多個產品,且這多個產 品之間按照權重關係可以進行排序。 當對網頁和產品做好關聯之後,即可將網頁和至少一 個的產品標識之間的關聯保存至資料庫中,並且在保存 時,將該網頁的相關內容以及產品資訊也一倂保存至資料 庫中,以便於後續再調用時可以獲取到網頁內容和產品資 訊,例如,價格、銷售量等。 -13- 201220097 參考圖2,示出了本申請案—種基於網上交易平台的 檢索方法實施例一的流程圖,可以包括以下步驟: 步驟201:依據瀏覽器目前提交的査詢詞,從預定的 網頁資料庫中査詢而得到與該查詢詞匹配的初始網頁;所 述預定的網頁資料庫用以保存網頁及其涉及到的至少一個 產品標識,和,網頁和產品標識之間的關聯》 在本實施例中,用戶在網上交易平台提供的輸入框輸 入査詢詞之後,由瀏覽器提交至後台搜索引擎系統,搜索 引擎系統從預定的資料庫中查詢而得到與該査詢詞匹配的 初始網頁。這裏關鍵字和網頁之間的映射關係可以採用現 有技術實現,即是採用現有技術中對網頁和關鍵字之間的 匹配來實現本步驟依據査詢詞對初始網頁的檢索。 這裏預定的資料庫中保存的網頁,以及該網頁涉及到 的至少一個產品標識,則是解決本申請案所要解決的技術 問題的一個關鍵。這裏的產品標識(pid )是與該產品一 一對應的唯一數位ID。 步驟202 :對所述初始網頁進行相關性處理以得到滿 足預定條件的相關網頁》 在本步驟中,需要對從預定的資料庫中所獲取到的初 始網頁進行相關性處理,這裏爲了找出更滿足用戶需求的 相關網頁,可以採用執行兩次相關性計分的處理過程。例 如,可以首先採用BM25演算法對初始網頁進行第一次相 關性計分,並按照分數從大到小而對所述初始網頁進行排 序。所述第一次相關性計分的目的是減少在第二次相關性 -14- 201220097 計分時的系統運算量,爲進行第二次相關性計分選取數目 較少且與查詢詞更爲相關的網頁。- 在進行第二次相關性計分之前,爲了.在第二次相關性 計分的時候減少計算量,可以對排序後的初始網頁取前幾 個初始網頁執行第二次相關性計分。這裏取多少個初始網 頁可以依據實際需求有所不同,例如,1 000個或者800 個等等。取了前幾個初始網頁之後,再對這幾個第一層相 關性得分較高的初始網頁進行第二次相關性計分處理,將 採用邏輯更爲複雜精細的方式進行以得到相關網頁。其中 一些具體的計分規則可以爲:當某些關鍵字不斷重複連續 出現時,則認爲該關鍵字爲無用資訊,並將該關鍵字所處 的網頁得分減去一個預定的數値;或者,同時進行關鍵字 所處的類目與網頁中關聯的產品標識所處的類目之間的匹 配程度過濾,可以包括如果關鍵字中提及的品牌與網頁中 關聯的產品標識的品牌不相符時,將該關鍵字所處的網頁 得分減去一個預定的數値;如果關鍵字中提及的型號與網 頁中關聯的產品標識的型號不相符,同樣將該關鍵字所處 的網頁得分減去一個預定的數値。 步驟203 :對所述相關網頁所涉及到的產品標識所對 應的至少一個產品進行相關處理。 所述相關網頁可能有很多個,那麽對於每個相關網頁 所涉及到的產品標識也需要進行計分》具體上,因爲不同 的相關網頁所涉及到的產品有可能相同,那麽在執行本步 驟時,可以首先將那些權重最大的產品標識都相同的網頁 -15- 201220097 聚合到一起,即是比較各個相關網 識,相同產品標識的相關網頁則聚 即是該相同產品標識的網頁組,該 標識的不同相關網頁。 得到不同的網頁組之後,則可 相關網頁計分,而計分過程中可以 下的網頁數量,各個網頁的第二次 產品標識的某些屬性,例如:價格 與査詢詞之間的相關性得分等因素 具體實現的過程可以例如,在執行 到的第二次相關性得分直接相加, 相關性得分高的產品,再按照這些 行排序,按照順序給涉及到的產品 需要說明的是,在本步驟中, 多個網頁,則該網頁組中各個網頁 的,這些產品標識分數可以作爲該 儲存到各個相關網頁中。 步驟204 :將進行過相關處理 照相關性値而向用戶端展示。 對產品標識計分之後,按照產 對各個網頁涉及到的產品從大到小 個產品而向用戶端展示其資訊。這 訊就和網頁上是否涉及到了該產>5 此,就避免了有的網店賣家採用購 頁中權重最重的產品標 合到一個組中,而該組 組中包括多個相同產品 對各個產品標識組中的 依據聚合到該產品標識 相關性得分,以及,該 ,上市時間等,該產品 *爲產品標識計分的* 本步驟的內容時,將得 並從結果中選擇出幾個 產品的價格而對網頁進 標識進行計分。 因爲一個網頁組聚合了 的產品標識分數是相同 各個相關網頁的屬性, 之後的至少一個產品按 品標識得分的大小可以 進行排序,可以取前幾 樣的話,展示的產品資 的相關資訊有關,因 買廣告的方式而將某個 -16- 201220097 關鍵字和自己的產品相關聯,也避免了因爲用戶輸入的是 描述性質的查詢詞而導致查詢不到相關結果的情況。因 此,採用本申請案實施例,在展示產品的過程中考慮了產 品的網頁資訊,當用戶輸入的查詢詞沒有包括產品具體名 稱或者屬性等時,而產品的網頁資訊中具備關鍵字的相關 資訊,但卻出現搜索不到產品的情況,提高了用戶的查詢 效率。本實施例不需要用戶重複搜索相關產品,減少了用 戶與搜索引擎伺服器之間的交互次數,降低了搜索引擎伺 服器的重複運行次數,從而提高搜索引擎伺服器的運行速 度、操作效率和操作性能。 參考圖3,示出了本申請案一種基於網上交易平台的 檢索方法實施例二的流程圖,可以包括以下步驟: 步驟301:依據瀏覽器目前提交的査詢詞,從預定的 資料庫中查詢而得到與該查詢詞匹配的初始網頁;所述預 定的資料庫用以保存網頁,以及該網頁涉及到的至少一個 產品標識’和’網頁和產品標識之間的關聯。 在本實施例中,針對瀏覽器提交的查詢詞在提取關鍵 字時,可以利用現有的工具,例如分詞器、詞性標注工具 等,這樣還可以降低本實施例的實施成本。 本步驟在前述實施例已經詳細介紹,在此不再贅述》 在建立該預定的資料庫的過程中,很多討論“適合女士用 的手機”的網頁,並且該頁面與具體的某一個產品標識 (例如“飛利浦58 8 ” )建立了對應的關聯關係,則該出 現“適合女士用的手機”的網頁,以及網頁和具體產品, -17- 201220097 例如“飛利浦588 ”之間的關聯都保存至了該資料庫中。 那麽在接收到瀏覽器所提交的査詢詞時,對於“適合女士 用的手機”査詢詞就會檢索到討論該關鍵字的諸多網頁。 步驟302:採用預定演算法對所述初始網頁進行第— 次相關性計分,所述第一次相關性計分的分數與初始網頁 中特定的產品關鍵字的第一參數成正比,與第二參數成反 比;所述第一參數爲在目前的一個初始網頁中出現的機 率,所述第二參數爲在網頁資料庫中的所有網頁中出現的 機率。 在本步驟中,現有技術中有很多種相關性演算法可以 執行,例如BM25,本步驟即是採用現有技術中任一種相 關性演算法對所有的初始網頁進行相關性計分,這樣每個 初始網頁就對應一個相關性分數,再按照相關性分數而從 大到小的順序給所述初始網頁進行排序。 以BM25爲例,對網頁進行BM25演算法處理之後, 每一個網頁所得到的分數與兩個參數有關,第一參數是在 一個網頁中特定的產品關鍵字出現的機率大小,第二參數 是在網頁資料庫的所有網頁中出現的機率大小,且第一參 數的機率越大則對應網頁的第一次相關性分數就越高,並 且第二參數的機率越小對應網頁的第一次相關性分數就越 高。舉例來講,對於關鍵字“的”,因爲是語氣助詞,所 以在一個網頁中出現的機率會非常高,但是因爲其在所有 網頁中出現的機率也大,亦即其出現的機率較大的網頁個 數較多,所以其第一次相關性分數就相對較低。在本申請 -18- 201220097 案實施例中,第一次相關性分數的大小分別與第一參數和 第二參數所成比例的具體比値,可以依據實際應用的需求 而有所改變。 步驟303:對進行第一次相關計分之後的初始網頁按 照預設閬値而獲取分數較高的前幾個網頁,並依據產品關 鍵字在網頁中出現的機率、所述查詢詞的相鄰關鍵字在網 頁中同時出現的距離和所述査詢詞中的相鄰關鍵字在網頁 中預設大小的窗口內是否同時出現,對所述前幾個網頁進 行第二次相關性計分,以得到相關網頁。 在本步驟中,對於排序之後的初始網頁,可以按照預 設的一個閩値獲取前幾個網頁。例如,只獲取前1〇〇〇個 初始網頁,這1000個初始網頁的相關性分數高於剩餘的 初始網頁。此處需要對截取得到的前幾個網頁進行第二次 相關性計分,以得到1 000個初始網頁的第二次相關性分 數。 在本步驟中,假設査詢詞爲“國慶假期去哪里玩”, 則所述查詢詞的相鄰關鍵字可以爲“國慶”和"假期”, 那麽當“國慶”和“假期”在一個網頁中以“國慶假期” 的方式出現時,就認爲該查詢詞的相鄰關鍵字在網頁中同 時出現的距離最近,那麽該網頁的第二次相關性計分的分 數就會較高。並且,假設“國慶”和“假期”同時出現 了,但是是以“國慶的假期”這樣的方式出現,假設該網 頁中預設大小的窗口爲20,只要“國慶的假期”的大小 不大於20,就認爲該查詢詞中相鄰的關鍵字在網頁中預 -19- 201220097 設大小的視窗內同時出現,相應的該網頁的第 計分的分數也會較高。 需要說明的是,在實際應用中有很多種情 除了這三個參數之外,本領域技術人員可以根 同而增加其他參數的設定,均不影響本申請案 步驟3 04 :對所述相關網頁中產品標識相 行分組,以得到多組產品標識相同的網頁組。 針對獲取得到的最終的1000個初始網頁 各個初始網頁關聯的產品標識是否相同,對於 品標識關聯的初始網頁只需比較這一個產品標 個產品標識相關聯的初始網頁則可以依據產品 次數或者出現的位置資訊來選擇權重最大的一 而參與比較β最終需要將產品標識都相同的網 個網頁組中,以產生多組產品標識相同的網頁 步驟305:對各網頁組中產品標識對應的 網頁組中網頁數量、各個網頁的相關性而得分 性進行相關性計分。 在本步驟中,需要針對每個產品標識相同 所涉及到的產品進行相關性計分。此處進行相 依據該網頁組中的網頁數量、各個網頁的第二 數,以及產品本身的屬性,例如,價格資訊 等,同時還可以依據該產品與用戶輸入的查詢 關性分數,以對各網頁組中涉及到的產品進行 說明的是,在實際應用場合中,因爲用戶需求 二次相關性 況,因此’ 據需求的不 的實現。 同的網頁進 ,可以比較 只與一個產 識,而與多 標識的出現 個產品標識 頁聚合到一 組。 產品依據該 以及產品屬 的網頁組中 關性處理時 次相關性分 、銷量資訊 詞之間的相 計分。需要 或者網路運 -20- 201220097 行情況等可能有所不同,那麽此處各個依據在進行相關性 計分的過程中所占的比重也可以不完全相同。 前述步驟即是透過獲取這個網頁上關聯的產品,將所 有“適合女士用的手機”檢索出來。 步驟3 06 :將所述計分結果作爲各個網頁組中的網頁 屬性而進行儲存" 在本步驟中,可以將步驟3 05中對各個產品進行相關 性計分的分數作爲各個網頁組中的網頁屬性而進行儲存。 當然,在實際應用中,也可以不進行儲存,是否在網頁中 儲存其涉及到的產品的相關性分數並不影響本申請案實施 例的實現,本步驟並不是實現本申請案實施例的必要過 程。 步驟307:按照所述各個產品的計分結果而對各個網 頁重新排序,以得到重新排序之後的網頁。 在步驟3 05對各個產品進行相關性計分之後,依據這 個計分結果而從大到小地在各個網頁組內對各個網頁重新 排序。 步驟3 08 :在產品標識相同的網頁組中截取排序之後 的前預設個數的網頁作爲該產品的檢索結果。 針對產品標識相同的網頁組,可以截取排序之後前預 定個數的網頁作爲該產品的檢索結果,如果用戶檢索了相 關的關鍵字,後續可以透過關鍵字檢索到相關網頁’再從 相關網頁和產品之間的關聯而檢索到對應的產品° 步驟309:將檢索結果在瀏覽器上向用戶端展示。 -21 - 201220097 在本步驟中則將檢索到的對應產品資訊在用戶端上進 行展示。在具體應用時,例如當關鍵字爲“適合女士用的 手機”時’檢索結果的產品展現形式可以參考圖4所示。 對於前述的各方法實施例,爲了簡單描述,故將其都 表述爲一系列的動作組合,但是本領域技術人員應該知 悉,本申請案並不受所描述的動作順序的限制,因爲依據 本申請案,某些步驟可以採用其他順序或者同時進行。其 次,本領域技術人員也應該知悉,說明書中所描述的實施 例均屬於較佳實施例,所涉及的動作和模組並不一定是本 申請案所必須的。 與上述本申請案一種基於網上交易平台的檢索方法實 施例一所提供的方法相對應,參見圖5,本申請案還提供 了一種基於網上交易平台的檢索裝置實施例三,在本實施 例中,該裝置可以包括: 査詢初始網頁模組501,用於依據瀏覽器目前提交的 査詢詞,從預定的資料庫中査詢而得到與該查詢詞匹配的 初始網頁;所述預定的資料庫用以保存網頁及其涉及到的 至少一個產品標識,和,網頁和產品標識之間的關聯。 獲取相關網頁模組502,用以對所述初始網頁進行相 關性處理以得到滿足預定條件的相關網頁。 產品相關處理模組503 ’用以對所述相關網頁所涉及 到的產品標識所對應的至少一個產品進行相關處理。 展示模組504,用以將進行過相關處理之後的至少一 個產品按照相關性値而向用戶端展示。 -22- 201220097 本實施例所述的裝置可以集成到基於網上交易平台的 搜索引擎伺服器上’也可以單獨作爲一個實體與搜索引擎 伺服器相連,另外,需要說明的是,當本申請案所述的方 法採用軟體來予以實現時,可以作爲搜索引擎的伺服器新 增的一個功能,也可以單獨編寫相應的程式,本申請案不 限定所述方法或裝置的實現方式。 本實施例中,可以在依據用戶輸入的査詢詞檢索產品 的時候,考慮到網頁上曾經出現該產品的情況,例如,在 百度知道上有專門討論關於該查詢詞相關的產品等,就可 以在檢索產品的時候依據這個產品和網頁之間的關聯檢索 到相關產品。這樣就會使得用戶即使只是輸入一些描述性 質的查詢詞,也能夠檢索到滿足其描述的產品,提高了用 戶的査詢效率。因此採用本申請案實施例檢索產品一般情 況下都能檢索到用戶所需求的產品,也不需要用戶重複搜 索相關產品,因而減少了用戶與搜索引擎伺服器之間的交 互次數,降低了搜索引擎伺服器的重複運行次數,從而提 高搜索引擎伺服器的運行速度、操作效率和操作性能。 與上述本申請案一種基於網上交易平台的檢索方法實 施例二所提供的方法相對應,參見圖6,本申請案還提供 了一種基於網上交易平台的檢索裝置的較佳實施例四,在 本實施例中,該裝置具體可以包括: 査詢初始網頁模組5 0 1,用以依據瀏覽器目前提交的 查詢詞,從預定的資料庫中查詢而得到與該查詢詞匹配的 初始網頁;所述預定的資料庫用以保存網頁及其涉及到的 -23- 201220097 至少一個產品標識,和,網頁和產品標識之 第一相關性處理子模組60 1,用以採用 對所述初始網頁進行第一次相關性計分,所 性計分的分數與初始網中特定的產品關鍵字 正比,與第二參數成反比,所述第一參數爲 初始網頁中出現的機率,所述第二參數爲在 的所有網頁中出現的機率。 第二相關性處理子模組602,用以對進 計分之後的初始網頁按照預設閩値而獲取分 個網頁,並依據產品關鍵字在網頁中出現的 詢詞的相鄰關鍵字在網頁中同時出現的距離 中的相鄰關鍵字在網頁中預設大小的窗口 現,對所述前幾個網頁進行第二次相關性計 關網頁。 聚合分組子模組603,用以對所述相關 識相同的網頁進行分組,以得到多組產品標 組。 產品相關處理子模組604,用以對各網 識對應的產品依據該網頁組中網頁數量、各 性得分以及產品屬性而進行相關性計分。 儲存子模組605,用以將所述計分結果 組中的網頁屬性進行儲存。 重新排序子模組606,用以按照所述各 結果而對各個網頁重新排序,以得到重新3 間的關聯。 預定演算法而 述第一次相關 的第一參數成 在目前的一個 網頁資料庫中 行第一次相關 數較高的前幾 機率、所述查 和所述查詢詞 內是否同時出 分,以得到相 網頁中產品標 識相同的網頁 頁組中產品標 個網頁的相關 作爲各個網頁 個產品的計分 非序之後的網 -24 - 201220097 頁。 獲取檢索結果子模組607,用以在產品標識相同的網 頁組中截取排序之後前預設個數的網頁作爲該產品的檢索 結果。 與上述本申請案一種基於網上交易平台的檢索方法和 裝置實施例相對應,本申請案還提供了一種基於網上交易 平台的搜索引擎伺服器的實施例,在本實施例中,該伺服 器具體可以包括:前述裝置實施例揭示的任一裝置。 需要說明的是,本說明書中的各個實施例均採用遞進 的方式來予以描述,每個實施例重點說明的都是與其他實 施例的不同之處,各個實施例之間相同相似的部分互相參 見即可。對於裝置類實施例而言,由於其與方法實施例基 本相似,所以描述的比較簡單,相關之處參見方法實施例 的部分來予以說明即可。 最後,還需要說明的是,在本文中,諸如第一和第二 等之類的關係術語僅僅用來將一個實體或者操作與另一個 實體或操作區分開來,而不一定要求或者暗示這些實體或 操作之間存在任何這種實際的關係或者順序。而且,術語 “包括”、“包含”或者其任何其他變體意在涵蓋非排他 性的包含’從而使得包括一系列要素的過程、方法、物品 或者設備不僅包括那些要素,而且還包括沒有明確列出的 其他要素,或者是還包括爲這種過程、方法、物品或者設 備所固有的要素。在沒有更多限制的情況下,由語句“包 括一個......”限定的要素,並不排除在包括所述要素的過 -25- 201220097 程、方法、物品或者設備中還存在另外的相同要素。 以上對本申請案所提供的一種基於網上交易平台的檢 索方法、裝置及搜索引擎伺服器進行了詳細介紹,本文中 應用了具體個例對本申請案的原理及實施方式進行了闡 述,以上實施例的說明只是用於幫助理解本申請案的方法 及其核心思想;同時,對於本領域的一般技術人員,依據 本申請案的思想,在具體實施方式及應用範圍上均會有改 變之處,綜上所述,本說明書內容不應理解爲對本申請案 的限制。 【圖式簡單說明】 爲了更清楚地說明本申請案實施例中的技術方案,下 面將對實施例描述中所需要使用的附圖作簡單地介紹,顯 而易見地,下面描述中的附圖僅僅是本申請案的一些實施 例,對於本領域普通技術人員來講,在不付出創造性勞動 性的前提下,還可以根據這些附圖而獲得其他的附圖。 圖1是本申請案實施例一中建立預定的資料庫的流程 圖, 圖2是本申請案的一種基於網上交易平台的檢索方法 實施例一的流程圖: 圖3是本申請案的一種基於網上交易平台的檢索方法 實施例二的流程圖; 圖4是本申請案方法實施例二中檢索結果的展示示意 圖, -26- 201220097 圖5是本申請案的一種基於網上交易平台的檢索裝置 實施例三的結構方塊圖; 圖6是本申請案的一種基於網上交易平台的檢索裝置 實施例四的結構方塊圖。 【主要元件符號說明】 501 :查詢初始網頁模組 502 :獲取相關網頁模組 503 :產品相關處理模組 5 04 :展示模組 601 :第一相關性處理子模組 602 :第二相關性處理子模組 603 :聚合分組子模組 604 :產品相關處理子模組 605 :儲存子模組 606 :重新排序子模組 607 :獲取檢索結果子模組 -27-

Claims (1)

  1. 201220097 七、申請專利範圍 1. 一種網頁資料庫的建立方法,其特徵在於,包括 步驟: 抓取網頁; 分析該網頁的關鍵字,以得到該網頁上所涉及的產品 關鍵字; 按照預定規則來分析該產品關鍵字,以得到與該網頁 相關的至少一個產品標識:以及 將該網頁、該至少一個產品標識,以及網頁和產品標 識之間的關聯保存至預定的資料庫。 2. 如申請專利範圍第1項所述的方法,其中,分析 該網頁的關鍵字以得到該網頁上所涉及的產品關鍵字之該 步驟具體包括: 提取該網頁上的文本內容; 對該文本內容進行分析以得到該網頁的相關關鍵字; 以及 從該相關關鍵字中獲取與產品相關的產品關鍵字。 3. 如申請專利範圍第1項所述的方法,其中,按照 預定規則來分析該產品關鍵字之該步驟具體包括: 檢測該產品關鍵字中出現機率高於一定閩値的候選關 鍵字:以及 判斷該候選關鍵字與該網頁的文本內容是否相關。 4. 一種基於網上交易平台的檢索方法,其特徵在 於,包括步驟: -28- 201220097 依據査詢詞,從預定的網頁資料庫中查詢而 查詢詞匹配的初始網頁;該預定的網頁資料庫用 頁及其涉及的至少一個產品標識,和網頁和產品 的關聯; 對該初始網頁進行相關性處理以得到滿足預 相關網頁; 對該相關網頁涉及的產品標識所對應的至少 進行相關處理;以及 將進行過相關處理之後的至少一個產品按照 而向用戶端展示。 5.如申請專利範圍第4項所述的方法,其 初始網頁進行相關性處理以得到滿足預定條件的 之該步驟具體包括: 採用預定演算法而對該初始網頁進行第一次 分,該第一次相關性計分的分數與該初始網頁中 品關鍵字的第一參數成正比,與第二參數成反比 參數爲在目前的一個初始網頁中出現的機率,該 爲在網頁資料庫中的所有網頁中出現的機率;以 對進行第一次相關計分之後的初始網頁按照 而獲取分數較高的前幾個網頁,並依據產品關鍵 中出現的機率、該查詢詞的相鄰關鍵字在網頁中 的距離和該查詢詞中的相鄰關鍵字在網頁中預設 口內是否同時出現,對該前幾個網頁進行第二次 分,以得到相關網頁。 得到與該 以保存網 標識之間 定條件的 一個產品 相關性値 中,對該 相關網頁 相關性計 特定的產 ,該第一 第二參數 及 預設閩値 字在網頁 同時出現 大小的窗 相關性計 -29- 201220097 6.如申請專利範圍第4項所述的方法,其中,對該 相關網頁涉及的產品標識所對應的至少~個產品進行相關 處理之該步驟具體包括: 對該相關網頁中產品標識相同的網頁進行分組,以得 到多組產品標識相同的網頁組; 對各網頁組中產品標識對應的產品,依據該網頁組中 網頁數量、各個網頁的相關性得分以及產品屬性而進行相 關性計分;以及 將該計分結果作爲各個網頁組中的網頁屬性而進行儲 存。 7-如申請專利範圍第4項所述的方法,其中,該將 進行過相關處理之後的至少一個產品按照相關性値進行排 序之該步驟具體包括: 按照該各個產品的計分結果而對各個網頁重新排序, 以得到重新排序之後的網頁;以及 在產品標識相同的網頁組中截取排序之後的前預設個 數的網頁作爲該產品的檢索結果。 8. 一種基於網上交易平台的檢索裝置,其特徵在 於,包括: 查詢初始網頁模組,用以依據査詢詞,從預定的資料 庫中査詢而得到與該查詢詞匹配的初始網頁;該預定的資 料庫用以保存網頁及其涉及的至少一個產品標識,和網頁 和產品標識之間的關聯; 獲取相關網頁模組,用以對該初始網頁進行相關性處 -30- 201220097 理而得到滿足預定條件的相關網頁; 產品相關處理模組,用以對該相關網頁涉及到的產品 標識所對應的至少一個產品進行相關處理;以及 排序展示模組,用以將進行過相關處理之後的至少一 個產品按照相關性値而向用戶端展示。 9. 如申請專利範圍第8項所述的裝置,其中,該獲 取相關網頁模組具體包括: 第一相關性處理子模組,用以採用預定演算法而對該 初始網頁進行第一次相關性計分,該第一次相關性計分的 分數與初始網中特定的產品關鍵字的第一參數成正比,與 第二參數成反比,該第一參數爲在目前的一個初始網頁中 出現的機率,該第二參數爲在網頁資料庫中的所有網頁中 出現的機率;以及 第二相關性處理子模組,用以對進行第一次相關計分 之後的初始網頁按照預設閾値而獲取分數較高的前幾個網 頁,並依據產品關鍵字在網頁中出現的機率、該査詢詞的 相鄰關鍵字在網頁中同時出現的距離和該查詢詞中的相鄰 關鍵字在網頁中預設大小的窗口內是否同時出現,對該前 幾個網頁進行第二次相關性計分,以得到相關網頁。 10. 如申請專利範圍第8項所述的裝置,其中,該產 品相關處理模組具體包括: 聚合分組子模組,用以對該相關網頁中產品標識相同 的網頁進行分組,以得到多組產品標識相同的網頁組; 產品相關處理子模組,用以對各網頁組中產品標識對 -31 - 201220097 應的產品依據該網頁組中網頁數量、各個網頁的相關性得 分以及產品屬性而進行相關性計分;以及 儲存子模組,用以將該計分結果作爲各個網頁組中的 網頁屬性而進行儲存。 + 32-
TW100108078A 2010-11-01 2011-03-10 Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database TWI549004B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010529419.8A CN102456057B (zh) 2010-11-01 2010-11-01 基于网上交易平台的检索方法、装置和服务器

Publications (2)

Publication Number Publication Date
TW201220097A true TW201220097A (en) 2012-05-16
TWI549004B TWI549004B (zh) 2016-09-11

Family

ID=46024769

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100108078A TWI549004B (zh) 2010-11-01 2011-03-10 Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database

Country Status (7)

Country Link
US (1) US20130290138A1 (zh)
EP (1) EP2635961A4 (zh)
JP (2) JP5923510B2 (zh)
CN (1) CN102456057B (zh)
HK (1) HK1166402A1 (zh)
TW (1) TWI549004B (zh)
WO (1) WO2012061076A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839004A (zh) * 2012-11-26 2014-06-04 腾讯科技(深圳)有限公司 检测恶意文件的方法和设备
CN104750692B (zh) * 2013-12-25 2018-05-15 中国移动通信集团公司 一种信息处理方法、信息检索方法及其对应的装置
CN104866483B (zh) * 2014-02-21 2020-02-07 腾讯科技(深圳)有限公司 一种信息检索的方法及装置
CN105005917A (zh) * 2015-07-07 2015-10-28 上海晶赞科技发展有限公司 一种通用的关联不同电商网站单品的方法
US10387568B1 (en) * 2016-09-19 2019-08-20 Amazon Technologies, Inc. Extracting keywords from a document
US20180197221A1 (en) * 2017-01-06 2018-07-12 Dragon-Click Corp. System and method of image-based service identification
CN107301253B (zh) * 2017-08-23 2020-02-04 杭州安恒信息技术股份有限公司 一种提高多站点搜索关键字准确性的方法及装置
JP7421726B2 (ja) * 2020-02-27 2024-01-25 Ec認証株式会社 認証システム
US11016980B1 (en) 2020-11-20 2021-05-25 Coupang Corp. Systems and method for generating search terms
CN113516504A (zh) * 2021-05-20 2021-10-19 深圳马六甲网络科技有限公司 一种商品推荐方法、装置、设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6484149B1 (en) * 1997-10-10 2002-11-19 Microsoft Corporation Systems and methods for viewing product information, and methods for generating web pages
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
TW556103B (en) * 2001-05-04 2003-10-01 Ibm Web page annotation systems
US20040138946A1 (en) * 2001-05-04 2004-07-15 Markus Stolze Web page annotation systems
JP4360167B2 (ja) * 2003-09-30 2009-11-11 ソニー株式会社 キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
JP2006031108A (ja) * 2004-07-12 2006-02-02 Shinichiro Fujitani ウエブ上の商品・サービスの検索システム
JP4731896B2 (ja) * 2004-12-07 2011-07-27 新日鉄ソリューションズ株式会社 情報処理装置、情報検索方法及びプログラム
US9715542B2 (en) * 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US8688521B2 (en) * 2007-07-20 2014-04-01 Yahoo! Inc. System and method to facilitate matching of content to advertising information in a network
CN101354706A (zh) * 2007-07-25 2009-01-28 阿里巴巴集团控股有限公司 一种收集网页信息的方法及装置
US8583633B2 (en) * 2007-11-30 2013-11-12 Ebay Inc. Using reputation measures to improve search relevance
US20090210890A1 (en) * 2008-02-15 2009-08-20 Yahoo! Inc. Real-time data collection via hierarchical web page parsing
US20100121790A1 (en) * 2008-11-13 2010-05-13 Dennis Klinkott Method, apparatus and computer program product for categorizing web content
JP5284064B2 (ja) * 2008-12-03 2013-09-11 ヤフー株式会社 商品idサーバ装置、および商品idサーバ装置の制御方法
JP5277941B2 (ja) * 2008-12-18 2013-08-28 大日本印刷株式会社 関連商品提示方法、関連商品提示システム、プログラム、記録媒体
JP2010205060A (ja) * 2009-03-04 2010-09-16 Nomura Research Institute Ltd 文書内画像検索方法および文書内画像検索システム

Also Published As

Publication number Publication date
JP2014500541A (ja) 2014-01-09
HK1166402A1 (zh) 2012-10-26
EP2635961A4 (en) 2016-06-01
US20130290138A1 (en) 2013-10-31
EP2635961A1 (en) 2013-09-11
JP5923510B2 (ja) 2016-05-24
WO2012061076A1 (en) 2012-05-10
TWI549004B (zh) 2016-09-11
JP6346218B2 (ja) 2018-06-20
CN102456057A (zh) 2012-05-16
CN102456057B (zh) 2016-08-17
JP2016131045A (ja) 2016-07-21

Similar Documents

Publication Publication Date Title
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
JP5778255B2 (ja) 垂直検索に基づいたクエリの方法、システム、および装置
US9672283B2 (en) Structured and social data aggregator
WO2018028443A1 (zh) 数据处理方法、设备及系统
WO2018014759A1 (zh) 一种聚类数据表的展现方法、装置和系统
US9934293B2 (en) Generating search results
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
TW201319842A (zh) 搜尋方法、搜尋裝置及搜尋引擎系統
JP2013531289A (ja) 検索におけるモデル情報群の使用
WO2021196541A1 (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN103814353B (zh) 基于搜索的通用导航
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
TW201426357A (zh) 搜索資料排序的方法和裝置,資料搜索的方法和裝置
CN107330076B (zh) 一种网络舆情信息展示系统及方法
US10255246B1 (en) Systems and methods for providing a searchable concept network
US20130332440A1 (en) Refinements in Document Analysis
US7716209B1 (en) Automated advertisement publisher identification and selection
JP2004348607A (ja) コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体
US20220188895A1 (en) Product feature extraction from structured and unstructured texts using knowledge base
TWI483129B (zh) Retrieval method and device
TW202240426A (zh) 資訊去識別化之行為向量化方法及系統
Siddiqui et al. Qualitative approaches in content mining-a review
TWI605351B (zh) Query method, system and device based on vertical search
CN117407512A (zh) 问答方法、装置、电子设备以及存储介质
Pitchandi et al. Content based segregation of pertinent documents using adaptive progression