TW201411380A - 資料的動態獲取方法、裝置及系統 - Google Patents

資料的動態獲取方法、裝置及系統 Download PDF

Info

Publication number
TW201411380A
TW201411380A TW101142221A TW101142221A TW201411380A TW 201411380 A TW201411380 A TW 201411380A TW 101142221 A TW101142221 A TW 101142221A TW 101142221 A TW101142221 A TW 101142221A TW 201411380 A TW201411380 A TW 201411380A
Authority
TW
Taiwan
Prior art keywords
search term
threshold
score
search
keyword
Prior art date
Application number
TW101142221A
Other languages
English (en)
Other versions
TWI567572B (zh
Inventor
lin-feng Zhang
Peng Huang
Xi-Pu Wang
wen-bin Zheng
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201411380A publication Critical patent/TW201411380A/zh
Application granted granted Critical
Publication of TWI567572B publication Critical patent/TWI567572B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明公開了一種資料的動態獲取方法、裝置及系統。其中,該方法包括:接收搜尋請求串,並從搜尋請求串中讀取搜尋詞;根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數;將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化;根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示。透過本發明,能夠實現即時的動態化推廣產產品資料資訊。

Description

資料的動態獲取方法、裝置及系統
本發明涉及電腦領域,具體而言,涉及一種資料的動態獲取方法、裝置及系統。
現有技術中用於展現相關產品的推廣平臺的實施過程中,首先需要用戶在競價管理伺服器的系統中對搜尋詞進行競價處理,當網站前端搜尋某個詞的時候,就會展示出該搜尋詞的產品資訊,即為搜尋詞與其對應的多個產品資訊分別設置一個固定的靜態閾值,從而使得在網站上對用戶在後臺完成的競價詞推廣的獲取和展示是靜態的。
實施過程中,賣家用戶首先在競價管理伺服器的系統上選擇關鍵字和該關鍵字相應的推廣產品,然後調用演算法模組計算相關性得到一個關鍵字與產品資訊之間的相關性閾值分數,這個分數會存入資料庫。引擎伺服器會從資料庫中下載這些閾值分數並建立索引庫。當用戶在網站前端的用戶端透過搜尋詞發生搜尋行為後,從索引庫中獲取與該搜尋詞相對應的產品資訊的所有閾值分數,並將各個閾值分數與預先設定的靜態閾值進行比較,將閾值分數大於靜態閾值分數的產品資訊過濾出來進行顯示,這種在搜尋引擎上實現的過濾方法雖然實現了一定的過濾方式,但過於簡單和靜態化,它對所有的查詢詞都是統一標準對待,顯然當關鍵字與產品資訊之間的相關性閾值分數發生動 態變化的情況下,不能夠滿足使搜尋結果更加靈活、準確的問題。
由此可知,現有用戶端上實現的搜尋詞下的推廣資料資訊的方法過於簡單和單一化,導致很多搜尋詞下展現的推廣資料資訊的品質(和詞的相關性)比較差,展現的推廣產品和搜尋詞的相關性有可能會比自然搜尋的結果差很多。
目前針對相關技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活、不準確的問題,目前尚未提出有效的解決方案。
針對相關技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活、不準確的問題,目前尚未提出有效的解決方案,為此,本發明的主要目的在於提供一種資料的動態獲取方法、裝置及系統,以解決上述問題。
為了實現上述目的,根據本發明的一個態樣,提供了一種資料的動態獲取方法,該方法包括:接收搜尋請求串,並從搜尋請求串中讀取搜尋詞;根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數;將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值 分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化;根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數。
進一步地,在根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數之前,方法還包括:從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數;根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數;將各個搜尋詞及每個搜尋詞的動態閾值分數以資料字典的格式保存至閾值詞典;其中,文本特徵因數是搜尋詞與資料資訊所匹配的特徵權重值,資料分析特徵因數是搜尋詞所對應的分析參數特徵權重值。
進一步地,根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數的步驟包括:採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取搜尋詞的第一閾值分數Score 0,其中,fi是搜尋詞所對應的文本特徵因數,i是小於等於N的整數,N為自然數;採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取搜尋詞的第二閾值分數Score 1,其中,f'k是搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為 自然數;根據線性回歸模型Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取搜尋詞的動態閾值分數,其中,p 1是第一閾值分數的占空比,p 2是第二閾值分數的占空比。
進一步地,在將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行查詢之前,方法還包括:從競價管理伺服器或日誌詞典中獲取關鍵字及與關鍵字連結的每個資料資訊的文本特徵因數;根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數;將各個關鍵字及每個關鍵字所對應的閾值分數保存至閾值資料庫;根據閾值資料庫中每個關鍵字及其對應的所有閾值分數創建索引表;其中,根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數的步驟包括:採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取關鍵字的閾值分數,其中,fj是關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
進一步地,在接收搜尋請求串,並從搜尋請求串中讀取搜尋詞之前,方法還包括:接收即時消息以監測日誌詞典的一致性,在監測到特徵因數發生變化的情況下,更新日誌詞典。
為了實現上述目的,根據本發明的另一態樣,提供了一種資料的動態獲取裝置,該裝置包括:接收模組,用於接收搜尋請求串,並從搜尋請求串中讀取搜尋詞;查詢模組,與接收模組連接,用於根據搜尋詞在閾值詞典中進行 查詢,以獲取搜尋詞所對應的動態閾值分數;過濾模組,與查詢模組連接,用於將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化;處理模組,與過濾模組連接,用於根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數。
為了實現上述目的,根據本發明的另一態樣,提供了一種資料的動態獲取系統,該系統包括:用戶端,用於發送搜尋請求串;搜尋引擎伺服器,與用戶端建立通信,用於接收搜尋請求串,並從搜尋請求串中讀取搜尋詞,在根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數之後,將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化,並根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個 搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數。
進一步地,系統還包括:競價管理伺服器,用於提供文本特徵因數;日誌伺服器,用於保存日誌詞典,以提供資料分析特徵因數和/或文本特徵因數;第一閾值計算伺服器,用於從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數,在根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數之後,將各個搜尋詞及每個搜尋詞的動態閾值分數以資料字典的格式保存至閾值搜尋資料表,以傳回給網站的前端頁面進行動態顯示;其中,文本特徵因數是搜尋詞與資料資訊所匹配的特徵權重值,資料分析特徵因數是搜尋詞所對應的分析參數特徵權重值。
進一步地,第二閾值計算伺服器包括:第一計算裝置,用於採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取搜尋詞的第一閾值分數Score 0,其中,fi是搜尋詞所對應的文本特徵因數,i是小於等於N的整數,N為自然數;第二計算裝置,用於採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取搜尋詞的第二閾值分數Score 1,其中,f'k是搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為自然數;處理裝置,用於根據線性回歸模型Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取搜尋詞的動態閾值分數,其中,p 1是第一閾值分數 的占空比,p 2是第二閾值分數的占空比。
進一步地,系統還包括:第二閾值計算伺服器,用於從競價管理伺服器或日誌詞典中獲取關鍵字及與關鍵字連結的每個產品的資料資訊的文本特徵因數,在根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數之後,將各個關鍵字及每個關鍵字所對應的閾值分數保存至閾值資料庫。
進一步地,第二閾值計算伺服器包括:第三計算裝置,用於採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取關鍵字的閾值分數,其中,fj是關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
進一步地,系統還包括:監測裝置,用於接收即時消息以監測日誌詞典的一致性,在監測到特徵因數發生變化的情況下,更新日誌詞典。
透過本發明,採用接收搜尋請求串,並從搜尋請求串中讀取搜尋詞;根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數;將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化;根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包 括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數,上述方案將搜尋詞在閾值詞典中得到的動態閾值分數作為過濾條件在索引資料表中進行過濾,由於閾值詞典中存儲的動態閾值分數會根據特徵因數的即時更新而動態變化,因此獲取到的當前搜尋詞所對應的資料資訊的資料,會由於比對的動態閾值分數的變化而動態更新,因此最後顯示在網站前端頁面上的結果也是會更新的,從而解決了相關現有技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活的問題,進而實現了即時的動態化推廣產產品資料資訊的效果。
需要說明的是,在不衝突的情況下,本發明中的實施例及實施例中的特徵可以相互組合。下面將參考圖式並結合實施例來詳細說明本發明。
圖1是根據本發明實施例的資料的動態獲取系統的結構示意圖;圖2是根據圖1所示的資料的動態獲取系統的詳細結構示意圖。
如圖1所示,該資料的動態獲取系統可以包括:用戶端10和搜尋引擎伺服器30。
其中,用戶端10,用於發送搜尋請求串;搜尋引擎伺服器30,與用戶端10建立通信,用於接收搜尋請求串,並從搜尋請求串中讀取搜尋詞,在根據搜尋詞在閾值詞 典中進行查詢,以獲取搜尋詞所對應的動態閾值分數之後,將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當索引資料表中的關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化,並根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數。由於上述實施例中的文本特徵因數和資料分析特徵因數會即時變更,因此,根據特徵因數變化的動態閾值分數也是即時變化的。上述實施例中的關鍵字為索引資料表中的索引詞,關鍵字與索引資訊對應。
上述方案將搜尋詞在閾值詞典中得到的動態閾值分數作為過濾條件在索引資料表中進行過濾,由於閾值詞典中存儲的動態閾值分數會根據特徵因數的即時更新而動態變化,因此獲取到的當前搜尋詞所對應的資料資訊的資料,會由於比對的動態閾值分數的變化而動態更新,因此最後顯示在網站前端頁面上的結果也是會更新的,從而解決了相關現有技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活的問題,進而本發明可以實現即時的動態化推廣產產品資料資訊的效果。
具體的,本發明上述實施例中的索引資料表中的資料是資料資訊的結構化資料,該索引資料表中的資料資訊可以包括如下一個或多個參數:產品標題、產品屬性、產品公司資訊、產品對應競價詞、產品對應價格、產品和競價詞的相關係分值等資訊,具體格式與搜尋引擎的結構相似的,具體結構可以採用倒排、正排索引的結構形式。
較佳地,本發明上述實施例中的特徵因數中包括的文本特徵因數和資料分析特徵因數,其中,文本特徵因數可以包括搜尋詞與產品本身的文本資訊的匹配參數,資料分析特徵因數可以包括搜尋詞的點擊率、所對應的各個產品的擊率、搜尋詞本身熱度、用戶推廣產品地域資訊以及搜尋詞連結的產品數(用戶數)等因素(比如買家和網站推廣資料的資訊挖掘、網站產品的歷史CTR資訊、賣家的競爭程度狀況、推廣產品和詞的相關性和自然搜尋結果的對比情況等)。例如搜尋詞的點擊率和地域資訊等是會根據實際情況動態變化,由此可以看出資料分析特徵因數是動態變化的,從而動態閾值分數是根據動態變化的資料分析特徵因數即時變更。
具體的,上述方案中動態閾值分數可以從後臺提供的處理伺服器中的閾值服務來計算得到,即後臺的閾值服務透過調用搜尋詞在日誌詞典中已經記錄的特徵因數來進行閾值計算得到動態閾值分數,並將所有搜尋詞及其對應的動態閾值分數保存到閾值詞典中,作為搜尋引擎在接收到用戶端發出的搜尋請求之後,進行過濾處理的過濾條件, 從而進一步獲取當前搜尋詞所對應的產產品資料資訊,由於日誌詞典中記錄的特徵因數包括了會根據歷史情況即時發生變化的資料分析特徵因數,因此,計算得到的動態閾值分數也會即時變更,從而使得過濾條件會根據特徵因數的變化而發生調整,解決了相關現有技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活的問題,進而實現了動態化推廣產產品資料資訊,提高了推廣資料資訊結果的效果。而且由於資料分析特徵因數中包括點擊率等體現搜尋詞品質的因數,因此,本發明也進一步提高了搜尋結果的準確性。
較佳地,本發明上述實施例中的用戶端10可以實現把搜尋請求串發送給搜尋引擎伺服器30,該搜尋請求串由多個條件組裝,搜尋引擎伺服器30的系統能夠解析該請求串,並調用後臺閾值詞典中已經計算好的動態閾值分數,將得到的動態閾值分數作為過濾條件對索引表中的關鍵字進行過濾,從而傳回搜尋結果的資料,最後搜尋結果會在用戶端10上的SearchWeb進行展示。
本發明上述實施例中的系統還可以包括:競價管理伺服器50,用於提供文本特徵因數;日誌伺服器70,用於保存日誌詞典,以提供資料分析特徵因數和/或文本特徵因數;第一閾值計算伺服器90,用於從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數,在根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數之後,將各個搜尋詞及每個搜 尋詞的動態閾值分數以資料字典的格式保存至閾值搜尋資料表;其中,文本特徵因數是搜尋詞與資料資訊所匹配的特徵權重值,資料分析特徵因數是搜尋詞所對應的分析參數特徵權重值。
具體的,如圖2所示,上述實施例中的第一閾值計算伺服器90可以從競價管理伺服器50拉取搜尋詞及搜尋詞所對應的資料資訊(包括文本特徵因數),並從日誌伺服器70的日誌詞典中獲取網站完成搜尋請求後的日誌資訊,該日誌資訊可以由資料分析資料庫DW得到的資料分析特徵因數和/或文本特徵因數構成。第一閾值計算伺服器90在獲取到搜尋詞以及所有的文本特徵因數和資料分析特徵因數之後,可以計算得到每個搜尋詞的動態閾值分數,例如,可以計算每個搜尋詞query和用戶推廣產品的相關性閾值,同時會計算該搜尋詞和網站自然搜尋結果前20名產品的相關性閾值,計算過程中除了考慮上述搜尋詞和產品的文本相關性閾值,計算得到動態閾值分數,還會考慮透過對歷史產品的點擊率ctr、詞本身熱度、推廣產品區域資訊以及詞連結的產品數(用戶數)等商業因素計算得到第二閾值分數,並基於第一閾值分數和第二閾值分數得到該搜尋詞最終所對應的動態閾值分數,並將所有搜尋詞及其閾值分數保存至閾值詞典中。上述實施例中,賣家用戶透過競價管理伺服器50為閾值處理系統提供用於計算搜尋詞和資料資訊的相關性閾值分數的文本特徵因數。
具體的實施過程可以如下描述:當前端用戶端網站上買家透過輸入一個搜尋詞來在線請求賣家資料資訊,例如此時用戶搜尋了MP3這個詞,網站的搜尋網址searchweb就會產生一個攜帶了該搜尋詞MP3的請求串來訪問搜尋引擎伺服器30的搜尋引擎系統,引擎拿到這個請求串後會調用演算法的介面函數,得到一個動態閾值分數和動態的廣告位置數n,然後用該分數重寫出過濾條件,比如:product?q=MP3&filter=bidword.mlrScore:9399999~2147483647&n=4,其中,product?q表徵資料資訊(例如產品資訊),MP3表徵搜尋詞,filter表徵過濾條件,bidword.mlrScore表徵動態閾值分數,n表徵廣告位置數;其中,引擎內部可以從資料庫DB中讀取網站所有的產品和關鍵字之間連結之後的相關性分數mlrScore,並且對mlrScore建立了特定的索引,搜尋引擎可以解析這樣的請求串而傳回相應的滿足過濾條件的資料資訊。
較佳地,上述實施例中的第一閾值計算伺服器90可以包括:第一計算裝置,用於採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取搜尋詞的第一閾值分數Score 0,其中,fi是搜尋詞所對應的文本特徵因數,i是小於等於N的整數,N為自然數;第二計算裝置,用於採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取搜尋詞的第二閾值分數Score 1,其中,f'k是搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為自然數;處理裝置,用於根據線性回歸模型 Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取搜尋詞的動態閾值分數,其中,p 1是第一閾值分數的占空比,p 2是第二閾值分數的占空比。
具體的,搜尋詞和產品對應的文本相關性計算考慮因數可以包括:f1是搜尋詞與產品描述中相同單詞的主題title長度的比率;f2是搜尋詞占包含搜尋詞的主題title的比率;f3是搜尋詞占包含搜尋詞的關鍵字keywords的比率;f4用於搜尋詞與產品描述中主題title的序列匹配比率;f5是搜尋詞與產品描述中關鍵字keywords序列的匹配比率;其中,f4和f5不僅考慮搜尋詞query和資料資訊的字元匹配,還考慮字元序列的匹配,若字串完全匹配並且字元序列完全一致得滿分,否則得0分。對於這些特徵的擬合即特徵值權重的確定,採用線性回歸模型。相關性得分Score 0=F0(f1,...,f5),f1,f2,...,f5表示這五個特徵,F0表示線性回歸模型訓練的模型函數,上面特徵進行擬合後得出的分值score0即為相關性得分。
而考慮搜尋詞的歷史狀態所對應的閾值得分:Score 1=F1(f'1,...,f'k),關鍵字的歷史狀態類似於相關性得分的訓練及預測。該函數Score=F(score 0,score 1p 1×p 2是將文本特徵因數所對應的文本相關性得分,以及資料分析特徵因數所對應的慮關鍵字的歷史狀態閾值得分擬合在一起,該分值為最終詞和產品的得分閾值,它反映了產品的文本匹配得分和商業規則的得分,F同樣是指線性回歸模型。
本發明上述實施例中的系統還可以包括:第二閾值計 算伺服器,用於從競價管理伺服器或日誌詞典中獲取關鍵字及與關鍵字連結的每個資料資訊的文本特徵因數,在根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數之後,將各個關鍵字及每個關鍵字所對應的閾值分數保存至所述閾值資料庫。該實施例中的第二閾值計算伺服器所實現的功能可以合併入競價管理伺服器中完成,即在競價管理伺服器中執行根據文本特徵因數進行閾值計算而獲取每個關鍵字的閾值。
在上述實施例中,後臺會預先設置關鍵字和資料資訊之間的連結關係(例如可以為同一個關鍵字建立針對不同產品的連結關係),並將每個連結關係中關鍵字與資料資訊的所有文本特徵因數發送給競價管理伺服器進行閾值計算,獲取關鍵字與其相關聯的每個產品之間的閾值分數,並將獲取到的所有閾值分數保存到閾值資料庫。在搜尋引擎伺服器30發生搜尋動作之前,會基於閾值資料庫中的閾值分數創建索引表,當搜尋前段的用戶端10向搜尋引擎伺服器30發送搜尋詞時,可以調用閾值詞典中的已經計算得到的搜尋詞所對應的動態閾值分數作為過濾條件,來過濾索引表中閾值分數大於等於動態閾值分數的搜尋詞對應所有索引資訊,即只有超過動態閾值分數的閾值分數所對應的資料資訊就是符合該搜尋詞過濾規則的資料。
本發明上述實施例中,如圖2中的第二閾值計算伺服器還可以包括:第三計算裝置,採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取關鍵字的閾值 分數,其中,fj是關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
由上述分析可知,本發明中的搜尋引擎伺服器30在接收到搜尋詞之後會調用用於計算閾值的動態庫介面程式,而且從閾值詞典中獲取該搜尋詞對應的所有動態閾值分數,從而傳回一個對應該搜尋詞query的動態閾值分數,該動態閾值分數目前支援不同pid(用於標識網站頁面的不同區域)的自適應。搜尋引擎伺服器30在調取透過計算得到搜尋詞query的動態閾值分數之後,在請求串拼接該過濾條件,然後再用該拼接後的請求串與已經創建好的索引表中的閾值分數進行比對,從而得到小於該動態閾值分數的閾值分數所對應的推廣資料資訊就沒有機會被展示,而滿足閾值過濾的產品最多可以展示的位置數不能大於演算法模組動態計算出來的位置數上限,保證對網站自然搜尋的影響風險。
下面可以以賣電子產品的用戶為例說明獲取動態閾值分數的業務流程。首先,賣家用戶在競價管理伺服器50上選中關鍵字MP3進行競價,然後給該關鍵字MP3設置了500個產品作為賣家需要進行推廣的資料資訊,從而針對同一個關鍵字MP3連結500條不同的資料資訊,顯然這500個資料資訊和MP3這個關鍵字的相關性情況各有差異,競價管理伺服器50會將該關鍵字MP3及其500個連結關係(關鍵字和資料資訊)以請求(例如http server中的url請求串)的方式發送給閾值計算伺服器90來訪 問閾值服務,計算得到每個連結關係的閾值分數,該閾值分數可以用於確定關鍵字MP3和每個資料資訊之間的相關性的大小,同時閾值處理伺服器也可以透過讀取日誌伺服器70中的日誌資訊進行閾值計算,從而得到關鍵字MP3的所有文本相關性的閾值分數,最後可以將所有的閾值分數傳回給競價管理伺服器50,並由競價管理伺服器50發送至閾值資料庫DB進行保存,這些閾值的分數可以供搜尋引擎服務下載使用,從而減少線上系統中很多無用資料帶來的壓力。
上述實施例中的系統還可以包括:監測裝置,用於接收即時消息以監測日誌詞典的一致性,在監測到特徵因數發生變化的情況下。更新日誌詞典。
具體的,本發明上述實施例中的監測裝置主要透過即時發送notify消息(例如,在競價管理伺服器50中,賣家用戶對資料資訊進行了修改或者新增了產品,系統都會捕獲到相應行為轉化產生一條消息,然後該消息會把相應的變更欄位資訊或者新增的整條資料資訊發給搜尋引擎伺服器30進行索引的更新),從而即時根據網站推廣活動資訊、用戶的即時瀏覽行為和點擊資訊、推廣產品的點擊率ctr等資訊,對閾值索引資料表進行更新,從而使得每個搜尋詞query的展現閾值即時調整,不需要人工干預和做全量計算。而對於新出現的關鍵字query(流量日誌中沒有的),系統會給一個預設值。
由上可知,系統提供給搜尋引擎伺服器30和競價管 理伺服器50的日誌詞典中的詞典索引資料需要保持一致,具體的,本發明上述實施例可以採用在資料發送成功之後,對檔案大小、檔案md5值、磁片容量等資料進行的驗證,若發現有不一致和異常情況(磁片容量不夠了,只傳輸了一部分資料過去)進行報警,人工進行處理。例如有一個統一管理的任務用於同步詞典資料,該任務每天會定時對詞典資料進行多方的分發,並且對分發的詞典進行md5值的驗證,確認傳輸過去的詞典已經是新的並且是一致的情況下才進行後續的處理,發現不一致就進行報警,進行人工干預和修復問題。而且要隨著網站資料的變化做到同步的增量更新,不然會導致用戶在後臺系統得到的詞連結情況和引擎展示傳回不一致問題,比如在推廣平臺得到的用戶在該詞下的產品是優質的,認為可以曝光的,可是在引擎誤被過濾了,永遠都沒有曝光機會,出現類似的不一致。由此可知,實現日誌字典中的資料一致性其實就是做好一些驗證工作,也就是讓流程停下來,否則會導致日誌字典中的資料不一致而導致用戶的投訴。
具體的,本發明上述實施例中的用戶在競價管理伺服器50上設置需要推廣的廣告產品與關鍵字之間的文本特徵因數之後,可以根據關鍵字query請求閾值服務,得到相應的相關性閾值資訊,從而可以根據這個閾值分析進行判斷該關鍵字和資料資訊的連結關係和優良狀況。在賣家用戶發現其連結的產品沒有高效的曝光機會時會主動從競價管理伺服器50上來優化其產品資訊和推廣方案,賣家 用戶也可以根據不同關鍵字的推廣競爭激烈情況來決定推廣策略,從而提高整個網站推廣產品的品質,利於P4P業務的長期良性競爭發展。
圖3是根據本發明實施例的資料的動態獲取方法的流程圖,如圖3所示該方法包括如下步驟:
步驟S102,圖1中的搜尋引擎伺服器30可以接收搜尋請求串,並從搜尋請求串中讀取搜尋詞。
步驟S104,該搜尋引擎伺服器30根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數。該步驟中可以透過調用動態閾值介面函數來完成。
步驟S106,搜尋引擎伺服器30會將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數即時變化。上述實施例中的關鍵字為索引資料表中的索引詞,關鍵字與索引資訊對應。
步驟S108,圖1所示的搜尋引擎伺服器30根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行動態顯示。其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:即時變更的文本特徵因數和資料分析特徵因數。
上述方案將搜尋詞在閾值詞典中的得到動態閾值分數 作為過濾條件在索引資料表中進行過濾,由於閾值詞典中存儲的動態閾值分數會根據特徵因數的即時更新而動態變化,因此獲取到的當前搜尋詞所對應的資料資訊的資料,會由於比對的動態閾值分數的變化而動態更新,因此最後顯示在網站前端頁面上的結果也是會更新的,從而解決了相關現有技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活的問題,進而實現了即時的動態化推廣產產品資料資訊的效果。
本發明上述實施例中的特徵因數中包括的文本特徵因數和資料分析特徵因數,其中,文本特徵因數可以包括搜尋詞與產品本身的文本資訊的匹配參數,資料分析特徵因數可以包括搜尋詞的點擊率、所對應的各個產品的擊率、搜尋詞本身熱度、用戶推廣產品地域資訊以及搜尋詞連結的產品數(用戶數)等因素(比如買家和網站推廣資料的資訊挖掘、網站產品的歷史CTR資訊、賣家的競爭程度狀況、推廣產品和詞的相關性和自然搜尋結果的對比情況等)。例如搜尋詞的點擊率和地域資訊等是會根據實際情況動態變化,由此可以看出資料分析特徵因數是動態變化的,從而動態閾值分數是根據動態變化的資料分析特徵因數即時變更。
較佳地,本發明上述實施例中的用戶端10可以實現把搜尋請求串發送給搜尋引擎伺服器30,該搜尋請求串由多個條件組裝,搜尋引擎伺服器30的系統能夠解析該請求串,並調用後臺閾值詞典中已經計算好的動態閾值分 數,將得到的動態閾值分數作為過濾條件對索引表中的關鍵字進行過濾,從而傳回搜尋結果的資料,最後搜尋結果會在用戶端10上的搜尋頁面SearchWeb進行展示。
具體的,如圖4所示,上述過程中,搜尋引擎伺服器30接收受到用戶端10的搜尋頁面SearchWeb的請求串後以及日誌資訊,會對請求串進行重寫,然後可以調用動態閾值介面的處理類::init,會在後臺的演算法模組中實現透過閾值計算伺服器對每個請求串的搜尋詞以及日誌詞典中該搜尋詞所對應的特徵因數進行閾值計算而得到該搜尋詞的一個動態閾值分數,其中動態閾值分數表徵關鍵字和資料資訊之間的動態綜合相關性情況,然後把該動態閾值分數加入到一個過濾條件中,並且對傳回的結果個數進行重寫,最後用重寫後的請求串請求搜尋引擎伺服器30內核的查詢模組完成查詢工作,並傳回相應的搜尋結果給用戶端10的搜尋頁面SearchWeb用於展示。
本發明上述實施例中,在根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數之前,方法還可以包括如下步驟:從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數;根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數;將各個搜尋詞及每個搜尋詞的動態閾值分數以資料字典的格式保存至閾值詞典;其中,文本特徵因數是搜尋詞與資料資訊所匹配的特徵權重值,資料分析特徵因數是搜尋詞所對應的分析參數特徵權重值。
具體的,第一閾值計算伺服器90可以從競價管理伺服器50拉取搜尋詞及搜尋詞所對應的資料資訊,並從日誌伺服器70的日誌詞典中獲取網站完成搜尋請求後的日誌資訊,該日誌資訊由資料分析資料庫DW得到的資料分析特徵因數和文本特徵因數構成,閾值計算伺服器90在獲取到搜尋詞以及所有的文本特徵因數和資料分析特徵因數之後,可以計算得到每個搜尋詞的動態閾值分數,例如,可以計算每個搜尋詞query和用戶推廣產品的相關性閾值,同時會計算該搜尋詞和網站自然搜尋結果前20名產品的相關性閾值,計算過程中除了考慮上述搜尋詞和產品的文本相關性閾值,計算得到動態閾值分數,還會考慮透過對歷史產品的ctr、點擊率、詞本身熱度、推廣產品區域資訊以及詞連結的產品數(用戶數)等商業因素計算得到第二閾值分數,並基於第一閾值分數和第二閾值分數得到該搜尋詞最終所對應的動態閾值分數,並將所有搜尋詞及其動態閾值分數保存至閾值詞典中。上述實施例中,賣家用戶透過競價管理伺服器50為閾值處理系統提供用於計算搜尋詞和資料資訊的相關性閾值分數的文本特徵因數。
本發明上述實施例中,根據文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數的步驟包括:採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取搜尋詞的第一閾值分數Score 0,其中,fi是搜尋詞所對應的文本特徵因數,i是小於等於N的整 數,N為自然數;採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取搜尋詞的第二閾值分數Score 1,其中,f'k是搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為自然數;根據線性回歸模型Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取搜尋詞的動態閾值分數,其中,p 1是第一閾值分數的占空比,p 2是第二閾值分數的占空比。
具體的,當搜尋詞和產品對應的的文本相關性計算考慮因素可以包括:f1是搜尋詞與產品描述中相同單詞的主題title長度的比率;f2是搜尋詞占包含搜尋詞的主題title的比率;f3是搜尋詞占包含搜尋詞的關鍵字keywords的比率;f4用於搜尋詞與產品描述中主題title的序列匹配比率;f5是搜尋詞與產品描述中關鍵字keywords序列的匹配比率;其中,f4和f5不僅考慮搜尋詞query和資料資訊的字元匹配,還考慮字元序列的匹配,若字串完全匹配並且字元序列完全一致得滿分,否則的0分。對於這些特徵的擬合即特徵值權重的確定,採用線性回歸模型。相關性得分Score 0=F0(f1,...,f5),f1,f2,...,f5表示這五個特徵,F0表示線性回歸模型訓練的模型函數,上面特徵進行擬合後得出的分值score0即為相關性得分。
而考慮搜尋詞的歷史狀態所對應的閾值得分:Score 1=F1(f'1,...,f'k),搜尋詞的歷史狀態所對應的閾值類似於相關性得分的訓練及預測。
該函數Score=F(score 0,score 1p 1×p 2是將文本特徵因數所對應的文本相關性得分,以及資料分析特徵因數所對應的慮關鍵字的歷史狀態閾值得分擬合在一起,該分值為最終詞和產品的得分閾值,它反映了產品的文本匹配得分和商業規則的得分,F同樣是指線性回歸模型。
由上分析可知,如圖5所示的詳細業務流程圖。賣家用戶設置推廣資訊,該推廣資訊包括需要推廣的關鍵字和資料資訊之間的關係列表,即設置關鍵字與產品本身的文本資訊的匹配參數,在競價管理伺服器50獲取到上述推廣資訊之後,將會將它們發送給第一閾值計算伺服器90,第一閾值計算伺服器90在從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數之後,會根據文本特徵因數和資料分析特徵因數進行閾值計算,從而獲取到每個搜尋詞的動態閾值分數,然後,將各個搜尋詞及每個搜尋詞的動態閾值分數以資料字典的格式保存至閾值詞典中;其中,文本特徵因數是搜尋詞與資料資訊所匹配的特徵權重值,資料分析特徵因數是搜尋詞所對應的分析參數特徵權重值。接著根據閾值分數在競價管理伺服器中查詢獲取到預先設置的連結結果,該連結結果為每個搜尋詞與產品資訊之間的相關性分數,最後競價管理伺服器會拼裝索引詞對應的產品資訊。
本發明上述實施例中,在將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行查詢之前,方法還可以包括:從後臺用戶端的競價管 理伺服器或日誌詞典中獲取關鍵字及與關鍵字連結的每個產品的資料資訊的文本特徵因數;根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數;將各個關鍵字及每個關鍵字所對應的閾值分數保存至閾值資料庫;根據閾值資料庫中每個關鍵字及其對應的所有閾值分數創建索引表;其中,根據文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數的步驟包括:採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取關鍵字的閾值分數,其中,fj是關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
本發明上述實施例中,在接收搜尋請求串,並從搜尋請求串中讀取搜尋詞之前,方法還可以包括:接收即時消息以監測日誌詞典的一致性,在監測到特徵因數發生變化的情況下。更新日誌詞典。
需要說明的是,在圖式的流程圖示出的步驟可以在諸如一組電腦可執行指令的電腦系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
圖6是根據本發明實施例的資料的動態獲取裝置的結構示意圖。如圖6所示,該裝置可以包括:接收模組101,用於接收搜尋請求串,並從搜尋請求串中讀取搜尋詞;查詢模組103。與接收模組連接,用於根據搜尋詞在閾值詞典中進行查詢,以獲取搜尋詞所對應的動態閾值分數; 過濾模組105,與查詢模組連接,用於將搜尋詞作為查詢條件,搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與搜尋詞相同且關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,動態閾值分數根據特徵因數變化;處理模組107,與過濾模組連接,用於根據索引資訊獲取搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,特徵因數包括:文本特徵因數和資料分析特徵因數。
上述方案將搜尋詞在閾值詞典中的得到動態閾值分數作為過濾條件在索引資料表中進行過濾,由於閾值詞典中存儲的動態閾值分數會根據特徵因數的即時更新而動態變化,因此獲取到的當前搜尋詞所對應的產品資訊的資料,會由於比對的動態閾值分數的變化而動態更新,因此最後顯示在網站前端頁面上的結果也是會更新的,從而解決了相關現有技術在搜尋引擎上實現的產品資料推廣的方法單一,使得搜尋結果不靈活的問題,進而實現了即時的動態化推廣產產品資料資訊的效果。
從以上的描述中,可以看出,本發明實現了如下技術效果:本發明實施例提供的動態化推廣產品將會降低用戶競價管理伺服器50的平臺和搜尋引擎伺服器30間的耦合,用戶透過用戶競價管理伺服器50的平臺進行競價推廣 行為的時候就可以知道推廣產品的品質和展現情況,可以針對不同的搜尋詞給出動態和多樣化的推廣產品資訊,並且可以根據網站流量、推廣資訊的即時變化而動態變化,這種方案有利於用戶主動去優化和競價,從而促進業務競價的良性發展。
顯然,本領域的技術人員應該明白,上述的本發明的各模組或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分佈在多個計算裝置所組成的網路上,可選地,它們可以用計算裝置可執行的程式碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個積體電路模組,或者將它們中的多個模組或步驟製作成單個積體電路模組來實現。這樣,本發明不限制於任何特定的硬體和軟體結合。
以上所述僅為本發明的較佳實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
此處所說明的圖式用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式 中:圖1是根據本發明實施例的資料的動態獲取系統的結構示意圖;圖2是根據圖1所示的資料的動態獲取系統的詳細結構示意圖;圖3是根據本發明實施例的資料的動態獲取方法的流程圖;圖4是根據圖3所示實施例中的搜尋引擎伺服器的業務流程圖;圖5是根據圖3所示實施例中的競價管理伺服器獲取競價閾值的業務流程圖;圖6是根據本發明實施例的資料的動態獲取裝置的結構示意圖。

Claims (12)

  1. 一種資料的動態獲取方法,其特徵在於,包括:接收搜尋請求串,並從該搜尋請求串中讀取搜尋詞;根據該搜尋詞在閾值詞典中進行查詢,以獲取該搜尋詞所對應的動態閾值分數;將該搜尋詞作為查詢條件,該搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與該搜尋詞相同且該關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,該動態閾值分數根據特徵因數變化;根據該索引資訊獲取該搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,該閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,該索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,該特徵因數包括:文本特徵因數和資料分析特徵因數。
  2. 根據申請專利範圍第1項所述的方法,其中,在根據該搜尋詞在閾值詞典中進行查詢,以獲取該搜尋詞所對應的動態閾值分數之前,該方法還包括:從日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數;根據該文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數;將該各個搜尋詞及每個搜尋詞的動態閾值分數以資料 字典的格式保存至該閾值詞典;其中,該文本特徵因數是該搜尋詞與資料資訊所匹配的特徵權重值,該資料分析特徵因數是該搜尋詞所對應的分析參數特徵權重值。
  3. 根據申請專利範圍第2項所述的方法,其中,根據該文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數的步驟包括:採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取該搜尋詞的第一閾值分數Score 0,其中,fi是該搜尋詞所對應的文本特徵因數,i是小於等於N的整數,N為自然數;採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取該搜尋詞的第二閾值分數Score 1,其中,f'k是該搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為自然數;根據線性回歸模型Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取該搜尋詞的動態閾值分數,其中,p 1是該第一閾值分數的占空比,p 2是該第二閾值分數的占空比。
  4. 根據申請專利範圍第1項所述的方法,其中,在將該搜尋詞作為查詢條件,該搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行查詢之前,該方法還包括:從競價管理伺服器或日誌詞典中獲取關鍵字及與該關鍵字連結的每個資料資訊的文本特徵因數; 根據該文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數;將該各個關鍵字及每個關鍵字所對應的閾值分數保存至該閾值資料庫;根據該閾值資料庫中每個關鍵字及其對應的所有閾值分數創建該索引表;其中,根據該文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數的步驟包括:採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取該關鍵字的閾值分數,其中,fj是該關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
  5. 根據申請專利範圍第1至4項中任一項所述的方法,其中,在接收搜尋請求串,並從該搜尋請求串中讀取搜尋詞之前,該方法還包括:接收即時消息以監測該日誌詞典的一致性,在監測到該特徵因數發生變化的情況下,更新該日誌詞典。
  6. 一種資料的動態獲取系統,其特徵在於,包括:用戶端,用於發送搜尋請求串;搜尋引擎伺服器,與該用戶端建立通信,用於接收搜尋請求串,並從該搜尋請求串中讀取搜尋詞,在根據該搜尋詞在閾值詞典中進行查詢,以獲取該搜尋詞所對應的動態閾值分數之後,將該搜尋詞作為查詢條件,該搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與該搜尋詞相同且該關鍵字的閾值分 數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,該動態閾值分數根據特徵因數變化,並根據該索引資訊獲取該搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,該閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,該索引資料表包括:關鍵字以及關鍵字與每個資料資訊之間的閾值分數,該特徵因數包括:文本特徵因數和資料分析特徵因數。
  7. 根據申請專利範圍第6項所述的系統,其中,該系統還包括:競價管理伺服器,用於提供文本特徵因數;日誌伺服器,用於保存日誌詞典,以提供資料分析特徵因數和/或該文本特徵因數;第一閾值計算伺服器,用於從該日誌詞典中獲取各個搜尋詞的文本特徵因數和資料分析特徵因數,在根據該文本特徵因數和資料分析特徵因數進行閾值計算,以獲取每個搜尋詞的動態閾值分數之後,將該各個搜尋詞及每個搜尋詞的動態閾值分數以資料字典的格式保存至該閾值搜尋資料表,以傳回給網站的前端頁面進行動態顯示;其中,該文本特徵因數是該搜尋詞與資料資訊所匹配的特徵權重值,該資料分析特徵因數是該搜尋詞所對應的分析參數特徵權重值。
  8. 根據申請專利範圍第7項所述的系統,其中,該第二閾值計算伺服器包括: 第一計算裝置,用於採用線性回歸模型Score 0=F0(f1,f2,...,fi)進行擬合計算,以獲取該搜尋詞的第一閾值分數Score 0,其中,fi是該搜尋詞所對應的文本特徵因數,i是小於等於N的整數,N為自然數;第二計算裝置,用於採用線性回歸模型Score 1=F1(f'1,...,f'k)進行擬合計算,以獲取該搜尋詞的第二閾值分數Score 1,其中,f'k是該搜尋詞所對應的資料分析特徵因數,k是小於等M的整數,M為自然數;處理裝置,用於根據線性回歸模型Score=F(score 0,score 1p 1×p 2進行擬合計算,以獲取該搜尋詞的動態閾值分數,其中,p 1是該第一閾值分數的占空比,p 2是該第二閾值分數的占空比。
  9. 根據申請專利範圍第6項所述的系統,其中,該系統還包括:第二閾值計算伺服器,用於從競價管理伺服器或日誌詞典中獲取關鍵字及與該關鍵字連結的每個產品的資料資訊的文本特徵因數,在根據該文本特徵因數進行閾值計算,以獲取每個關鍵字所對應的一個或多個閾值分數之後,將該各個關鍵字及每個關鍵字所對應的閾值分數保存至該閾值資料庫。
  10. 根據申請專利範圍第9項所述的系統,其中,該第二閾值計算伺服器包括:第三計算裝置,用於採用線性回歸模型Score'=F'(f1,f2,...,fj)進行擬合計算,以獲取該關鍵字的閾 值分數,其中,fj是該關鍵字所對應的文本特徵因數,j是小於等於J的整數,J為自然數。
  11. 根據申請專利範圍第6至10項中任一項所述的系統,其中,該系統還包括:監測裝置,用於接收即時消息以監測該日誌詞典的一致性,在監測到該特徵因數發生變化的情況下,更新該日誌詞典。
  12. 一種資料的動態獲取裝置,其特徵在於,包括:接收模組,用於接收搜尋請求串,並從該搜尋請求串中讀取搜尋詞;查詢模組,與該接收模組連接,用於根據該搜尋詞在閾值詞典中進行查詢,以獲取該搜尋詞所對應的動態閾值分數;過濾模組,與該查詢模組連接,用於將該搜尋詞作為查詢條件,該搜尋詞所對應的動態閾值分數作為過濾條件在索引資料表中進行過濾,以獲取當關鍵字與該搜尋詞相同且該關鍵字的閾值分數大於等於該搜尋詞的動態閾值分數時,所對應的一個或多個索引資訊,其中,該動態閾值分數根據特徵因數變化;處理模組,與該過濾模組連接,用於根據該索引資訊獲取該搜尋詞所對應的資料資訊,並傳回給網站的前端頁面進行顯示;其中,該閾值詞典包括:搜尋詞及每個搜尋詞所對應的動態閾值分數,該索引資料表包括:關鍵字以及關鍵字 與每個資料資訊之間的閾值分數,該特徵因數包括:文本特徵因數和資料分析特徵因數。
TW101142221A 2012-09-13 2012-11-13 Data acquisition method, device and system TWI567572B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210339669.4A CN103678365B (zh) 2012-09-13 2012-09-13 数据的动态获取方法、装置及系统

Publications (2)

Publication Number Publication Date
TW201411380A true TW201411380A (zh) 2014-03-16
TWI567572B TWI567572B (zh) 2017-01-21

Family

ID=50234435

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101142221A TWI567572B (zh) 2012-09-13 2012-11-13 Data acquisition method, device and system

Country Status (6)

Country Link
US (1) US10025807B2 (zh)
EP (1) EP2895969A4 (zh)
JP (1) JP5916959B2 (zh)
CN (1) CN103678365B (zh)
TW (1) TWI567572B (zh)
WO (1) WO2014043200A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346769B1 (en) * 2014-03-14 2019-07-09 Walmart Apollo, Llc System and method for dynamic attribute table
US10733555B1 (en) 2014-03-14 2020-08-04 Walmart Apollo, Llc Workflow coordinator
US10565538B1 (en) 2014-03-14 2020-02-18 Walmart Apollo, Llc Customer attribute exemption
US9785712B1 (en) * 2014-06-20 2017-10-10 Amazon Technologies, Inc. Multi-index search engines
CN104504134B (zh) * 2014-12-31 2017-10-27 北京国双科技有限公司 推广信息属性数据的获取方法和装置
CN105512230B (zh) * 2015-11-30 2020-05-22 北京金山安全软件有限公司 数据存储方法及装置
CN105512232B (zh) * 2015-11-30 2020-02-28 北京金山安全软件有限公司 数据存储方法及装置
CN106022163A (zh) * 2016-05-17 2016-10-12 上海凭安网络科技有限公司 一种基于第三方自动混淆的查询方法及系统
US11200217B2 (en) * 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching
CN106021562B (zh) * 2016-05-31 2019-05-24 北京京拍档科技有限公司 用于电商平台的基于主题相关的推荐方法
CN109934631B (zh) * 2019-03-13 2022-03-25 联想(北京)有限公司 问答信息处理方法、装置及计算机设备
CN111897840A (zh) * 2020-08-14 2020-11-06 北京字节跳动网络技术有限公司 一种数据搜索方法、装置、电子设备及存储介质
CN112000479B (zh) * 2020-08-24 2022-11-25 辽宁省中科知产高新产业技术研究有限公司 一种基于大数据的处理方法、系统及服务器平台
CN112883225B (zh) * 2021-02-02 2022-10-11 聚好看科技股份有限公司 一种媒体资源搜索、显示方法及设备

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04262460A (ja) 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6714933B2 (en) 2000-05-09 2004-03-30 Cnet Networks, Inc. Content aggregation method and apparatus for on-line purchasing system
US5946678A (en) 1995-01-11 1999-08-31 Philips Electronics North America Corporation User interface for document retrieval
JPH09101991A (ja) 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JP3607462B2 (ja) 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20020078045A1 (en) 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US7398461B1 (en) * 2002-01-24 2008-07-08 Overture Services, Inc. Method for ranking web page search results
US7216121B2 (en) * 2002-12-31 2007-05-08 International Business Machines Corporation Search engine facility with automated knowledge retrieval, generation and maintenance
JP2005018530A (ja) 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
US7836010B2 (en) 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
US7505969B2 (en) 2003-08-05 2009-03-17 Cbs Interactive, Inc. Product placement engine and method
US7346615B2 (en) * 2003-10-09 2008-03-18 Google, Inc. Using match confidence to adjust a performance threshold
US20050131872A1 (en) 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US7562068B2 (en) 2004-06-30 2009-07-14 Microsoft Corporation System and method for ranking search results based on tracked user preferences
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
WO2007064874A2 (en) 2005-12-01 2007-06-07 Adchemy, Inc. Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US7657506B2 (en) 2006-01-03 2010-02-02 Microsoft International Holdings B.V. Methods and apparatus for automated matching and classification of data
US7814112B2 (en) 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US20080059458A1 (en) 2006-09-06 2008-03-06 Byron Robert V Folksonomy weighted search and advertisement placement system and method
US20080097982A1 (en) 2006-10-18 2008-04-24 Yahoo! Inc. System and method for classifying search queries
US20080104101A1 (en) * 2006-10-27 2008-05-01 Kirshenbaum Evan R Producing a feature in response to a received expression
US7966309B2 (en) 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US20080263009A1 (en) 2007-04-19 2008-10-23 Buettner Raymond R System and method for sharing of search query information across organizational boundaries
US20080313142A1 (en) 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
CN101378187B (zh) 2007-08-29 2012-07-18 鸿富锦精密工业(深圳)有限公司 电源保护电路
CN100557612C (zh) 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
US7895206B2 (en) 2008-03-05 2011-02-22 Yahoo! Inc. Search query categrization into verticals
US7877404B2 (en) 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US20100138402A1 (en) 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
US8396742B1 (en) * 2008-12-05 2013-03-12 Covario, Inc. System and method for optimizing paid search advertising campaigns based on natural search traffic
US20100153366A1 (en) 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
CN102460470B (zh) * 2009-06-11 2014-12-03 杜比实验室特许公司 基于指纹的内容识别趋势分析
CN102612691B (zh) * 2009-09-18 2015-02-04 莱克西私人有限公司 给文本评分的方法和系统
CN102053983B (zh) * 2009-11-02 2013-09-25 阿里巴巴集团控股有限公司 一种垂直搜索的查询方法、系统和装置
CN102054008A (zh) * 2009-11-05 2011-05-11 北京四维图新科技股份有限公司 网络信息获取方法和装置
CN102289436B (zh) * 2010-06-18 2013-12-25 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN102339296A (zh) 2010-07-26 2012-02-01 阿里巴巴集团控股有限公司 一种查询结果的排序方法和装置
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US10275782B2 (en) * 2010-12-28 2019-04-30 Excalibur Ip, Llc Variation of minimum advertisement relevance quality threshold based on search query attributes
US8977640B2 (en) * 2011-02-28 2015-03-10 Yahoo! Inc. System for processing complex queries

Also Published As

Publication number Publication date
CN103678365A (zh) 2014-03-26
JP5916959B2 (ja) 2016-05-11
TWI567572B (zh) 2017-01-21
WO2014043200A2 (en) 2014-03-20
US20140074851A1 (en) 2014-03-13
EP2895969A4 (en) 2016-06-08
EP2895969A2 (en) 2015-07-22
US10025807B2 (en) 2018-07-17
CN103678365B (zh) 2017-07-18
WO2014043200A3 (en) 2014-07-31
JP2015528611A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
TWI567572B (zh) Data acquisition method, device and system
US10534781B2 (en) Website traffic optimization
WO2019095417A1 (zh) 广告实时推荐方法、装置、终端设备及存储介质
US11410087B2 (en) Dynamic query response with metadata
US20120030210A1 (en) Discerning human intent based on user-generated metadata
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
AU2011202277B2 (en) Methods, Apparatus and Articles of Manufacture to Rank Web Site Influence
US10445753B1 (en) Determining popular and trending content characteristics
KR20160020429A (ko) 맥락적 모바일 애플리케이션 광고 기법
TW201430741A (zh) 商品資訊的發佈與瀏覽方法、裝置及系統
US9465881B2 (en) User displays using N-way paginated merge of information from diverse sources
US20170024776A1 (en) Externality-based advertisement bid and budget allocation adjustment
US20130254014A1 (en) Automatic Information Placement
US20140067786A1 (en) Enhancing product search engine results using user click history
US20150339700A1 (en) Method, apparatus and system for processing promotion information
KR102523130B1 (ko) 개선된 검색을 위한 변형들의 사용자 활동 데이터의 이용
US10936675B2 (en) Developing an item data model for an item
US9292515B1 (en) Using follow-on search behavior to measure the effectiveness of online video ads
TW201316191A (zh) 資訊查詢方法和裝置
US10331713B1 (en) User activity analysis using word clouds
CN112184370A (zh) 一种推送产品的方法和装置
CN112991033A (zh) 一种确定物品价值属性的方法和装置
CN106874500B (zh) 一种诊断物料展现的方法、装置、设备及存储介质
US20160098773A1 (en) Infusing product popularity insights into search results for product research queries
JP2017076376A (ja) 算出装置、算出方法および算出プログラム