TWI735516B - 使用者行為資料的處理方法及裝置 - Google Patents
使用者行為資料的處理方法及裝置 Download PDFInfo
- Publication number
- TWI735516B TWI735516B TW106102500A TW106102500A TWI735516B TW I735516 B TWI735516 B TW I735516B TW 106102500 A TW106102500 A TW 106102500A TW 106102500 A TW106102500 A TW 106102500A TW I735516 B TWI735516 B TW I735516B
- Authority
- TW
- Taiwan
- Prior art keywords
- dimension
- search term
- user
- item
- data
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明公開了一種使用者行為資料的處理方法及裝置。其中,該方法包括:獲取使用者行為資料,確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。本發明解決了單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
Description
本發明涉及電腦領域,具體而言,涉及一種使用者行為資料的處理方法及裝置。
目前,使用者在使用網際網路產品(例如在門戶網站進行購物)時會產生大量的結構化資料,商家往往會透過上述結構化資料來實現人群定向以此分析出使用者的興趣,比如,DMP的標籤人群定向技術,利用使用者的基礎資訊和基礎行為,完成圈人打標定向的活動,進一步向定向的使用者組推送廣告或應用。
這裡需要說明的,在使用者使用網際網路產品時也會產生大量的非結構化資料(例如文本資料),同上述結構化資料相比,文本資料中的使用者的評論、標題也可以更加反映出使用者更加細細微性的興趣偏好,從文本資料中挖掘的商業資訊會更有價值,因此,在相關技術中,單純的透過上述結構化資料來實現人群定向,定位結果不夠準確。
針對上述單純的透過結構化資料來實現人群定向,定 位結果不夠準確的問題,目前尚未提出有效的解決方案。
本發明實施例提供了一種使用者行為資料的處理方法及裝置,以至少解決單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
根據本發明實施例的一個方面,提供了一種使用者行為資料的處理方法,包括:獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
根據本發明實施例的另一方面,還提供了一種使用者行為資料的處理裝置,包括:第一獲取單元,用於獲取使用者行為資料,其中,使用者行為資料包括多個使用者存 取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;第一確定單元,用於確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;第二獲取單元,用於在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;第三獲取單元,根據每個使用者在每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;第二確定單元,根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
在本發明實施例中,採用獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲 取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組,解決了單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
10‧‧‧電腦終端
50‧‧‧第一獲取單元
52‧‧‧第一確定單元
54‧‧‧第二獲取單元
56‧‧‧第三獲取單元
58‧‧‧第二確定單元
102‧‧‧處理器
104‧‧‧記憶體
106‧‧‧傳輸模組
521‧‧‧第一獲取模組
523‧‧‧統計模組
524‧‧‧第一計算模組
541‧‧‧第二獲取模組
542‧‧‧第一確定模組
543‧‧‧第二計算模組
581‧‧‧第三獲取模組
582‧‧‧第四獲取模組
584‧‧‧第三處理模組
A‧‧‧電腦終端
此處所說明的圖式用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式中:圖1是根據本發明實施例的一種使用者行為資料的處理方法的電腦終端的硬體結構方塊圖;圖2是根據本發明實施例的一種使用者行為資料的處理方法的流程圖;圖3是根據本發明實施例的一種可選地使用者行為資料的處理方法的示意圖;圖4是根據本發明實施例的一種可選地使用者行為資料的處理方法的示意圖;圖5是根據本發明實施例的一種使用者行為資料的處理裝置的結構示意圖;圖6是根據本發明實施例的一種可選地使用者行為資料的處理裝置的結構示意圖; 圖7是根據本發明實施例的一種可選地使用者行為資料的處理裝置的結構示意圖;圖8是根據本發明實施例的一種可選地使用者行為資料的處理裝置的結構示意圖;以及圖9是根據本發明實施例的一種使用者行為資料的處理方法的電腦終端的硬體結構方塊圖。
為了使本技術領域的人員更好地理解本發明方案,下面將結合本發明實施例中的圖式,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
需要說明的是,本發明的說明書和申請專利範圍及上述圖式中的術語“第一”、“第二”等是用於區別類似的物件,而不必用於描述特定的順序或先後次序。應該理解這樣使用的資料在適當情況下可以互換,以便這裡描述的本發明的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地 列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
本申請中專業術語解釋如下:ETL:是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。ETL一詞較常用在資料倉庫,但其物件並不限於資料倉庫。ETL是構建資料倉庫的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉庫模型,將資料載入到資料倉庫中去。
LR:Logistic regression的簡稱,一種常用的線性分類器。
SVM:支持向量機SVM(Support Vector Machine)是一個有監督的學習模型,通常用來進行模式識別、分類、以及回歸分析。
Lucene:Lucene是apache軟體基金會4 jakarta專案組的一個子項目,是一個開放原始程式碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。
根據本發明實施例,還提供了一種使用者行為資料的處理方法的實施例,需要說明的是,在圖式的流程圖示出 的步驟可以在諸如一組電腦可執行指令的電腦系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的循序執行所示出或描述的步驟。
本申請實施例一所提供的方法實施例可以在電腦終端或者類似的運算裝置中執行。以運行在電腦終端上為例,圖1是本發明實施例的一種使用者行為資料的處理方法的電腦終端的硬體結構方塊圖。如圖1所示,電腦終端10可以包括一個或多個(圖中僅示出一個)處理器102(處理器102可以包括但不限於微處理器MCU或可程式設計邏輯器件FPGA等的處理裝置)、用於儲存資料的記憶體104、以及用於通信功能的傳輸模組106。本領域普通技術人員可以理解,圖1所示的結構僅為示意,其並不對上述電子裝置的結構造成限定。例如,電腦終端10還可包括比圖1中所示更多或者更少的元件,或者具有與圖1所示不同的配置。
記憶體104可用於儲存應用軟體的軟體程式以及模組,如本發明實施例中的使用者行為資料的處理方法對應的程式指令/模組,處理器102透過運行儲存在記憶體104內的軟體程式以及模組,從而執行各種功能應用以及資料處理,即實現上述的應用程式的漏洞檢測方法。記憶體104可包括高速隨機記憶體,還可包括非易失性記憶體,如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態記憶體。在一些實例中,記憶體104可進一步 包括相對於處理器102遠端設置的記憶體,這些遠端存放器可以透過網路連接至電腦終端10。上述網路的實例包括但不限於網際網路、企業內部網、局域網、移動通信網及其組合。
傳輸裝置106用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦終端10的通信供應商提供的無線網路。在一個實例中,傳輸裝置106包括一個網路介面卡(Network Interface Controller,NIC),其可透過基站與其他網路設備相連從而可與網際網路進行通訊。在一個實例中,傳輸裝置106可以為射頻(Radio Frequency,RF)模組,其用於透過無線方式與網際網路進行通訊。
在上述運行環境下,本申請提供了如圖2所示的使用者行為資料的處理方法。圖2是根據本發明實施例一的使用者行為資料的處理方法的流程圖,該方法可以包括:
步驟S22,獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合。
在上述步驟S22中,上述使用者可以為門戶網站(比如購物網站)的存取使用者USER,上述目標物件可以為門戶網站中的產品ITEM,上述產品ITEM可以為商品、視頻、音樂等,在存取使用者USER對門戶網站的產品ITEM進行點擊、搜索查詢、評論、收藏網頁等行為之 後,會產生大量的存取資料集合(比如文本資料),網站伺服器可以獲取上述使用者存取目標物件產生的存取資料集合。需要說明的是,網站伺服器獲取的每條存取資料集合都可以使用三個維度去描述:類目CATEGORY,即上述分類資訊,用於表述產品ITEM的分類,屬性PROPERTY,用於表述產品ITEM的自有屬性,關鍵字KEYWORD,用於表述產品ITEM的名稱,每個關鍵字可以帶詞頻或者TFIDF的權重。需要說明的是,在用於描述產品ITEM的三個維度中,每個產品ITEM只能有一個類目CATEGORY,每個產品ITEM可以有多個屬性PROPERTY。
需要說明的是,本方案可以透過有目標的監督學習演算法(例如LR、SVM)將使用者的原始行為資料進行統計匯總,然後,將USER對ITEM產品的行為分解成上述三個維度,可選地,本方案中產品ITEM的資料規範可以為下表一,使用者USER行為的資料規範可以為下表二。
下面以使用者USER存取購物網站TB為例,在購物網站TB中會有很多產品,產品的分類可以為美妝、母嬰、食品、視頻、歌曲等類目,使用者可以對分類下的具體產品進行操作,比如,使用者USER可以點擊TB頁面中電影分類下的“周星馳電影”索引按鈕,則使用者USER所選擇操作的目標物件則為“周星馳電影”產品,“周星馳電影”產品可以採用三個維度(類目、屬性、關鍵字)去表述,上述“周星馳電影”產品的類目為電影,屬性為視頻,關鍵字為周星馳電影。
步驟S24,確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項。
在上述步驟S24中,在用於表述產品ITEM的三個維度中,每個維度都可以包括多個檢索項,上述多個檢索項可以是每個維度的多個屬性,使用者可以對每個維度下的具體的檢索項進行操作,然後,本方案可以根據使用者對每個檢索項的具體操作來確定使用者對於每個檢索項的偏好分值。
仍舊以使用者USER存取購物網站TB為例,使用者 USER在TB頁面所選擇的目標物件“周星馳電影”產品的三個維度中,上述“周星馳電影”產品的類目CATEGORY為“電影”,類目CATEGORY“電影”可以包括第一檢索項“國內電影”,第二檢索項“喜劇電影”等,上述“周星馳電影”產品的屬性PROPERTY為“視頻”,屬性PROPERTY“視頻”可以包括第三檢索項“高清視頻”,第四檢索項“標清視頻”。需要說明的是,產品的關鍵字的屬性可以為其本身。使用者USER可以對上述第一檢索項、第二檢索項、第三檢索項、第四檢索項等多個檢索項進行任意操作,本方案可以根據使用者USER對多個檢索項的具體操作行為(例如操作次數)來確定使用者對第一檢索項、第二檢索項、第三檢索項、第四檢索項等多個檢索項的偏好分值。
步驟S26,在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值。
在上述步驟S26中,如果網站的運營商希望透過搜索詞來實現人群定向,即網站的運營商希望圈定對搜索詞A感興趣的任意一個或多個使用者,即根據搜索詞來定位成一組使用者,以此進一步進行對該定位的使用者組進行相應的資料推送、分析等應用,例如,在將某一詞彙作為搜索詞來定位不同消費群體的興趣愛好之後,可以向定位為同一組的使用者推送關於上述搜索詞有關的廣告資訊,即一種可選示例中,此處網站的運營商可以直接向伺服器輸 入上述待定位的檢索詞,也可以向伺服器提供一份文本,伺服器可以透過分詞篩選從該文本中得到待定位的搜索詞。
需要說明的是,運營商輸入的搜索詞也可以用三個維度來描述,每個維度也可以包括多個定位檢索項,需要說明的是,描述待定位搜索詞的三個維度下每個維度的屬性為“定位檢索項”,上述存取使用者存取的產品的三個維度下每個維度的屬性為“檢索項”二者不同。本方案在接收到運營商輸入的搜索詞彙之後,可以透過查詢擴展出與上述搜索詞相對應的多個定位檢索項TERM,上述多個定位檢索項TERM可以包含於用於描述搜索詞的三個維度中。本方案可以透過預設的演算法來獲取每個定位檢索項TREM對應的每個維度上的權重值。需要說明的是,運營商希望將對搜索詞感興趣的使用者進行分組。
仍舊以使用者USER存取購物網站TB為例,在網站伺服器採集了大量的使用者的行為資料之後,購物網站TB的網站運營商可以向網站伺服器輸入文本TXT,資料處理終端可以對上述文本TXT進行分詞篩選處理,產生搜索詞“周星馳電影”,在資料處理終端中預存了用於表述“周星馳電影”的三個維度,在每個維度中預存著多個定位檢索項TERM,資料處理終端可以查詢到與“周星馳電影”有對應關係的多個定位檢索項TERM之後,可以透過預設的演算法來獲取每個定位檢索項TERM對應每個維度的權重值。需要說明的是,上述網站服務商輸入的TXT 文本可以為描述網站相關產品的文本內容,本方案可以對上述文本內容進行分詞篩選,從而得到上述搜索詞。
步驟S28,根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值。
在上述步驟S28中,本方案可以根據上述步驟S24中得到的每個維度上的資料集合所包含的檢索項的偏好分值以及步驟S26中的每個定位檢索項對應每個維度上的資料集合的權重值來計算每個使用者與搜索詞之間的耦合關係所確定的行為權重值,需要說明的是,上述行為權重值可以用於表徵每個使用者對於網站運營商輸入的待定位的搜索詞感興趣的程度。
需要說明的是,在使用者存取門戶網站時,透過對網站中搜索詞的操作(點擊、流覽、下載等操作)可以產生使用者與搜索詞之間的耦合關係,例如,使用者對搜索詞進行點擊操作時,使用者的行為與搜索詞之間就會產生第一耦合關係,第一耦合關係可以用於表徵使用者對上述搜索詞的感興趣程度,使用者點擊的次數越多,第一耦合關係越大,根據第一耦合關係確定的行為權重值就越大,也表明使用者對搜索詞的感興趣程度越大。
仍舊以使用者USER存取購物網站TB為例,網站伺服器的資料處理終端可以根據網站營運商輸入的待定位的搜索詞“周星馳電影”來查詢得到與“周星馳電影”對應 的多個定位檢索項,然後計算每個定位檢索項對於每個所屬維度的第一權重值,然後獲取使用者USER對於TB網站中產品“周星馳電影”的每個檢索項的偏好分,然後根據上述第一權重值以及上述偏好分來計算產生使用者的對於“周星馳電影”的行為權重值,該行為權重值可以用於表徵使用者對於“周星馳電影”的感興趣程度。
步驟S30,根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
在上述步驟S30中,本方案可以根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值的大小來挑選出符合預定條件的多個使用者,然後將上述符合預定條件的多個使用者確定為與上述搜索詞相關的使用者組。較佳地,本實施例也可以將上述耦合關係確定的權重值大於0的使用者確定為使用者組。需要說明的是,在確定出搜索詞的使用者組之後,運營商可以對上述使用者組中的每個使用者推送相關的廣告資訊。
本申請上述實施例一公開的方案中,如果想對產品感興趣的人群進行定位,首先,本方案可以獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;然後,確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資 料集合包含至少一個檢索項;接著,在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;接著,根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;最後,本方案可以根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。容易注意到,本方案可以從網站伺服器中獲取到的使用者的行為資料,根據使用者的行為資料產生使用者針對產品的檢索項的偏好分,然後根據運營商輸入的搜索詞來產生搜索詞中每條定位檢索項對於所屬維度的第一權重值,最後根據上述偏好分和第一權重值來產生使用者的行為權重值,透過使用者的行為權重值可以直觀的看出使用者對應檢索詞的感興趣程度,進而對使用者進行分組,與現有技術相比,本方案對網站伺服器產生的文本資料進行了有效的利用,而且,與現有分析結構化資料來定位人群的技術相比,本方案產生的人群定位結果更加準確。由此,本申請提供的上述實施例一的方案解決了單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
在本申請提供的一種可選實施例中,步驟S24,確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值的步驟可以包括:
步驟S241,分別獲取關鍵字集合中包含的至少一個第一檢索項、屬性資訊集合中包含的至少一個第二檢索項和分類資訊集合中包含的至少一個第三檢索項。
步驟S242,分別統計每個維度上的資料集合中檢索項的人均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數。
步驟S243,根據每個維度上的資料集合中檢索項的人均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數,計算得到使用者對應每個維度上的資料集合所包含的檢索項的偏好分值。
在上述步驟S241至步驟S243中,本方案可以透過獲取產品的三個維度中的每個維度中的每個檢索項,然後根據使用者對每個檢索項的存取次數以及每個檢索項的人均存取次數來計算使用者對於每個維度中的每個檢索項的偏好分,然後形成文檔(Document),與搜尋引擎類似,每篇文檔(Document)可以包括三個域(field):CATEGORY,PROPERTY,KEYWORD。每個域包含若干檢索項(term),在文檔中可以描述使用者對於每個檢索項的偏好分。由於人群定位(圈人)的結果一般即時性要求不高,資料體量(百萬至十億)也遠遠小於文本搜索系統(億到千億),所以文檔不需要維護倒排索引,技術實現相對文本搜索系統要簡單。
在本申請提供的一種可選實施例中,步驟S243,根據每個維度上的資料集合中檢索項的人均存取次數,以及 使用者存取每個維度上的資料集合中檢索項的存取次數,計算得到使用者對應每個維度上的資料集合所包含的檢索項的偏好分值可以透過如下計算公式計算得到使用者對應任意一個維度上的資料集合所包含的檢索項的偏好分值tf(t,d):,其中,wi為在第i個維度上的資料集合中發生存取行為的權重值,Ni為在第i個維度上的資料集合中使用者對檢索項t執行存取行為後所統計的存取次數;ni為在第i個維度上的資料集合中檢索項t的人均存取次數,檢索項t為資料集合中的任意一個檢索項,其中,存取行為包括如下任意一種類型:點擊、收藏和點評。
在本申請提供的一種可選實施例中,步驟S26,在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值的步驟可包括:
步驟S261,獲取待定位的搜索詞,並根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項。
步驟S262,根據查詢得到的多個定位檢索項,確定搜索詞對應每個維度上的資料集合的維度關係。
步驟S263,根據搜索詞對應每個維度上的資料集合的維度關係,計算得到每個定位檢索項對應每個維度上的資料集合的權重值。
在上述步驟S261至步驟S263中,本方案可以根據運 營商輸入的待定位的搜索詞還進行查詢,以得到與待定位的搜索詞對應的多個定位檢索項,需要說明的是,上述多個定位檢索項存在與用於描述上述待定位的搜索詞的三個維度中,本方案可以先確定搜索詞對應每個維度上的資料集合的維度關係,然後根據該維度關係計算得到每個定位檢索項對應每個維度上的資料集合的權重值。
在本申請提供的一種可選實施例中,在上述步驟S262中,可以透過如下計算公式確定搜索詞對應每個維度上的資料集合的維度關係:,其中,A表示三個維度上的資料集合中包含任意一個搜索詞的資料集合,B表示三個維度上的資料集合中包含任意一個定位檢索項t的資料集合。
在上述公式中,本方案可以產生搜索詞到ITEM的三個維度的關係,當運營商輸入搜索詞進行人群定向的過程中,本方案透過查詢擴展產生搜索詞到ITEM的三個維度的關係,即WORD-CATEGORY,WORD-PROPERTY,KEYWORD-KEYWORD,本方案可以使用傑卡德距離演算法(Jaccord Distance),考量搜索詞到其他維度在ITEM上的共現關係。
在本申請提供的一種可選實施例中,在上述步驟S263中,本方案可以透過如下計算公式計算得到每個定位檢索項對應每個維度上的資料集合的權重值:,其中,r(w,t)為搜索詞對應每個維 度上的資料集合的維度關係,w為搜索詞w與檢索項t的相關性,I(w)為搜索詞在文本中的詞頻。
需要說明的是,在上述公式中,權重計算可以簡單的使用加權求和,最終得到查詢擴展後的標籤定義,在本方案中,上述文檔中的每一個域都可以賦一個權重值。
在本申請提供的一種可選實施例中,步驟S261中獲取待定位的搜索詞的步驟包括:
步驟S2611,在接收到查詢使用者輸入的關鍵字之後,確定輸入的關鍵字為待定位的搜索詞。
在上述步驟S2611中,上述查詢使用者可以為希望實現人群定位的運營商,在運營商輸入關鍵字後,本方案可以直接確定運營商輸入的關鍵字為待定位的搜索詞。
步驟S2612,在接收到查詢使用者輸入的文本之後,對文本進行分詞處理,分詞處理得到的至少一個關鍵字為待定位的搜索詞。
在上述步驟S2612中,如果運營商輸入的為一個文本TXT,本方案可以對上述文本TXT進行分詞篩選,然後將經過分詞處理得到的至少一個關鍵字為待定位的搜索詞。
需要說明的是,上述步驟S2611以及步驟S2612中為兩個並列的方案,在本方案中,運營商既可以輸入關鍵字,也可以輸入文本。
在本申請提供的一種可選實施例中,步驟S28,根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計 算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值的步驟包括:
步驟S281,獲取定位檢索項在使用者行為資料中的IDF值idf(t)。
步驟S282,獲取定位檢索項在多個文檔中的最高權重值coord(q,d)。
步驟S283,同一個文檔中查詢的搜索詞的歸一化處理,得到歸一化的搜索詞分值queryNorm(q,d)。
步驟S284,定位檢索項在多個文檔的權重值進行歸一化處理,得到多個文檔的歸一分值norm(t.field)。
步驟S285,透過如下計算公式獲取每個使用者與搜索詞之間的耦合關係所確定的行為權重值Score(q,d)。
Score(q,d)=coord(q,d)*queryNorm(q,d)* tf(t,d)*idf2(t)*t.boost*norm(t.field),其中,tf(t,d)為使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,t.boost為每個定位檢索項對應每個維度上的資料集合的權重值,f.boost為每個維度上的資料集合的權重值。
需要說明的是,與標準的搜索評分演算法不同的是,本方案中使用的演算法忽略的文檔(Document)的權重d.boost,查詢(Query)的整體權重q.boost,而且每個TERM對應的f.boost只有一個,也就是每個TERM對應只有一個域。
下面結合圖3至圖4介紹本申請的一種可選實施例,本實施例可以包括步驟如下;
步驟A,資料提取抽象模組將使用者行為資料導入資料倉庫,如ODPS、Hadoop,進行ETL過程,產出合乎資料規範的離線資料。
在上述步驟A中,本實施例需要抽象出兩個主體:USER(使用者),表示圈人的主體,最終產出的人群即是整體USER的子集,USER可以有一個TAG的屬性,用來描述使用者的人口統計特徵,如性別,年齡。ITEM(物品), 表示使用者發生行為的物件,包括但不限於商品、視頻、音樂等。每個ITEM會由三個維度去描述:CATEGORY(類目),表示ITEM的分類,是一種多對一的關係,即每個ITEM有且只有一個CATEGORY。PROPERTY(屬性),表示ITEM的自有屬性,是一個多對多的關係,比如音樂作為ITEM就可以有作曲人、作詞人、歌手、風格等多個屬性。KEYWORD(關鍵字),表示ITEM的描述資訊,每個關鍵字可以帶詞頻或者TFIDF的權重。需要說明的是,三個維度只有KEYWORD是必須的,其他可以不在資料中體現(CATEGORY唯一,PROPERTY為空)。
步驟B,使用者文檔產生模組將USER對ITEM的行為,分解為UESR對ITEM的三個維度的偏好分,即:UESER-CATEGORY,USER-PROPERTY,USER-KEYWORD。本方案可以採用有目標的監督學習演算法(例如LR、SVM)對資料進行統計匯總,再歸一化到0-1。所有偏好的匯總產生每個使用者自己的偏好文檔(Document),參考圖4,與搜尋引擎類似,一篇文檔(Document)包括三個域(field):CATEGORY,PROPERTY,KEYWORD。每個域包含若干檢索項(term),描述使用者對某個類目,某個詞的偏好分。因為圈人的結果一般即時性要求不高,資料體量(百萬至十億)也遠遠小於文本搜索系統(億到千億),所以文檔不需要維護倒排索引,技術實現相對文本搜索系統要簡單。
步驟C,關鍵字相關性計算模組計算搜索詞到ITEM 的三個維度的關係,當輸入關鍵字進行圈人的過程中,提供查詢擴展的功能。計算搜索詞到ITEM的三個維度的關係,即WORD-CATEGORY,WORD-PROPERTY,KEYWORD-KEYWORD。
步驟D,標籤定義產生模組透過使用者提供的文本或者關鍵字輸入,提供文本系統需要先進行分詞篩選處理得到關鍵字,查詢擴展出相應的定位檢索項(term)。標籤定義產生模組根據搜索詞到ITEM的三個維度的關係,最終產生每個定位檢索項在每個維度上的權重,權重計算可以簡單的使用加權求和。最終得到查詢擴展後的標籤定義,相當於搜索系統中的查詢(Query)。
步驟E,打分模組根據Lucened的搜索評分演算法來根據每個定位檢索項在每個維度上的權重以及UESR對ITEM的三個維度的偏好分產生使用者行為權重值,該使用者行為權重值可以用於表徵用於對ITEM的感興趣大小。需要說明的是,上述評分演算法可以為BM25演算法。
綜上,本發明提供了一套通用的解決方案,運營商只需提供關鍵字,即可完成一個特定人群圈定,並且可以提供可解釋的人群定義,可以提高產品反覆運算效率,減少開發成本,從而可以完成更加精準的人群定向,提升了運營商的廣告服務效果。
需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技 術人員應該知悉,本發明並不受所描述的動作順序的限制,因為依據本發明,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作和模組並不一定是本發明所必須的。
透過以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到根據上述實施例的方法可借助軟體加必需的通用硬體平臺的方式來實現,當然也可以透過硬體,但很多情況下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體(如ROM/RAM、磁碟、光碟)中,包括若干指令用以使得一台終端設備(可以是手機,電腦,伺服器,或者網路設備等)執行本發明各個實施例的方法。
根據本發明實施例,還提供了一種用於實施上述使用者行為資料的處理方法的使用者行為資料的處理裝置,如圖5所示,該裝置可以包括:第一獲取單元50,用於獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合。
上述使用者可以為門戶網站(比如購物網站)的存取使用者USER,上述目標物件可以為門戶網站中的產品ITEM,上述產品ITEM可以為商品、視頻、音樂等,在存取使用者USER對門戶網站的產品ITEM進行點擊、搜索查詢、評論、收藏網頁等行為之後,會產生大量的存取資料集合(比如文本資料),網站伺服器可以獲取上述使用者存取目標物件產生的存取資料集合。需要說明的是,網站伺服器獲取的每條存取資料集合都可以使用三個維度去描述:類目CATEGORY,即上述分類資訊,用於表述產品ITEM的分類,屬性PROPERTY,用於表述產品ITEM的自有屬性,關鍵字KEYWORD,用於表述產品ITEM的名稱,每個關鍵字可以帶詞頻或者TFIDF的權重。需要說明的是,在用於描述產品ITEM的三個維度中,每個產品ITEM只能有一個類目CATEGORY,每個產品ITEM可以有多個屬性PROPERTY。
第一確定單元52,用於確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項。
在用於表述產品ITEM的三個維度中,每個維度都可以包括多個檢索項,上述多個檢索項可以是每個維度的多個屬性,使用者可以對每個維度下的具體的檢索項進行操作,然後,本方案可以根據使用者對每個檢索項的具體操作來確定使用者對於每個檢索項的偏好分值。
第二獲取單元54,用於在獲取待定位的搜索詞之 後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值。
如果網站的運營商希望透過搜索詞來實現人群定向,即網站的運營商希望圈定對搜索詞A感興趣的任意一個或多個使用者,即根據搜索詞來定位成一組使用者,以此進一步進行對該定位的使用者組進行相應的資料推送、分析等應用,例如,在將某一詞彙作為搜索詞來定位不同消費群體的興趣愛好之後,可以向定位為同一組的使用者推送關於上述搜索詞有關的廣告資訊,即一種可選示例中,此處網站的運營商可以直接向伺服器輸入上述待定位的檢索詞,也可以向伺服器提供一份文本,伺服器可以透過分詞篩選從該文本中得到待定位的搜索詞。
第三獲取單元56,根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值。
在使用者存取門戶網站時,透過對網站中搜索詞的操作(點擊、流覽、下載等操作)可以產生使用者與搜索詞之間的耦合關係,例如,使用者對搜索詞進行點擊操作時,使用者的行為與搜索詞之間就會產生第一耦合關係,第一耦合關係可以用於表徵使用者對上述搜索詞的感興趣程度,使用者點擊的次數越多,第一耦合關係越大,根據第一耦合關係確定的行為權重值就越大,也表明使用者對 搜索詞的感興趣程度越大。
第二確定單元58,根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
本方案可以根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值的大小來挑選出符合預定條件的多個使用者,然後將上述符合預定條件的多個使用者確定為與上述搜索詞相關的使用者組。較佳地,本實施例也可以將上述耦合關係確定的權重值大於0的使用者確定為使用者組。需要說明的是,在確定出搜索詞的使用者組之後,運營商可以對上述使用者組中的每個使用者推送相關的廣告資訊。
本申請上述實施例二公開的方案中,如果想對產品感興趣的人群進行定位,首先,本方案可以獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;然後,確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;接著,在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;接著,根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個 維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;最後,本方案可以根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。容易注意到,本方案可以從網站伺服器中獲取到的使用者的行為資料,根據使用者的行為資料產生使用者針對產品的檢索項的偏好分,然後根據運營商輸入的搜索詞來產生搜索詞中每條定位檢索項對於所屬維度的第一權重值,最後根據上述偏好分和第一權重值來產生使用者的行為權重值,透過使用者的行為權重值可以直觀的看出使用者對應檢索詞的感興趣程度,進而對使用者進行分組,與現有技術相比,本方案對網站伺服器產生的文本資料進行了有效的利用,而且,與現有分析結構化資料來定位人群的技術相比,本方案產生的人群定位結果更加準確。由此,本申請提供的上述實施例二的方案解決了單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
在本申請提供的一種可選實施例中,如圖6所示,第一確定單元52包括:第一獲取模組521,用於分別獲取關鍵字集合中包含的至少一個第一檢索項、屬性資訊集合中包含的至少一個第二檢索項和分類資訊集合中包含的至少一個第三檢索項;統計模組523,用於分別統計每個維度上的資料集合中檢索項的人均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數;第一計算模組524,用於根據每個維度上的資料集合中檢索項的人 均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數,計算得到使用者對應每個維度上的資料集合所包含的檢索項的偏好分值。
在本申請提供的一種可選實施例中,第一計算模組524包括:子計算模組5241,用於透過如下計算公式計算得到使用者對應任意一個維度上的資料集合所包含的檢索項的偏好分值tf(t,d):,其中,wi為在第i個維度上的資料集合中發生存取行為的權重值,Ni為在第i個維度上的資料集合中使用者對檢索項t執行存取行為後所統計的存取次數;ni為在第i個維度上的資料集合中檢索項t的人均存取次數,檢索項t為資料集合中的任意一個檢索項,其中,存取行為包括如下任意一種類型:點擊、收藏和點評。
在本申請提供的一種可選實施例中,如圖7所示,第二獲取單元54包括:第二獲取模組541,用於獲取待定位的搜索詞,並根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項;第一確定模組542,用於根據查詢得到的多個定位檢索項,確定搜索詞對應每個維度上的資料集合的維度關係;第二計算模組543,用於根據搜索詞對應每個維度上的資料集合的維度關係,計算得到每個定位檢索項對應每個維度上的資料集合的權重值。
在本申請提供的一種可選實施例中,上述裝置還包括:第一計算單元,用於透過如下計算公式確定搜索詞對應每個維度上的資料集合的維度關係: ,其中,A表示三個維度上的資料集合中包含任意一個搜索詞的資料集合,B表示三個維度上的資料集合中包含任意一個定位檢索項t的資料集合。
在本申請提供的一種可選實施例中,上述裝置還包括:第二計算單元,用於透過如下計算公式計算得到每個定位檢索項對應每個維度上的資料集合的權重值:,其中,r(w,t)為搜索詞對應每個維度上的資料集合的維度關係,w為搜索詞w與檢索項t的相關性,I(w)為搜索詞在文本中的詞頻。
在本申請提供的一種可選實施例中,第二獲取模組541包括:第二確定模組5411,用於在接收到查詢使用者輸入的關鍵字之後,確定輸入的關鍵字為待定位的搜索詞;或者,第一處理模組5412,用於在接收到查詢使用者輸入的文本之後,對文本進行分詞處理,分詞處理得到的至少一個關鍵字為待定位的搜索詞。
在本申請提供的一種可選實施例中,如圖8所示,第二確定單元58包括:第三獲取模組581,用於獲取定位檢索項在使用者行為資料中的IDF值idf(t);第四獲取模組582,用於獲取定位檢索項在多個文檔中的最高權重值coord(q,d);第二處理模組583,將同一個文檔中查詢的搜索詞的歸一化處理,得到歸一化的搜索詞分值queryNorm(q,d);第三處理模組584,定位檢索項在多個文檔的權重值進行歸一化處理,得到多個文檔的歸一分值norm(t.field);第三計 算模組585,用於透過如下計算公式獲取每個使用者與搜索詞之間的耦合關係所確定的行為權重值Score(q,d): Score(q,d)=coord(q,d)*queryNorm(q,d)* tf(t,d)*idf2(t)*t.boost*norm(t.field),其中,tf(t,d)為使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,t.boost為每個定位檢索項對應每個維度上的資料集合的權重值,f.boost為每個維度上的資料集合的權重值。
本發明的實施例可以提供一種電腦終端,該電腦終端可以是電腦終端群中的任意一個電腦終端設備。
可選地,在本實施例中,上述電腦終端可以位於電腦網路的多個網路設備中的至少一個網路設備。
在本實施例中,上述電腦終端可以執行應用程式的漏洞檢測方法中以下步驟的程式碼:獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
可選地,圖9是根據本發明實施例的一種電腦終端的結構方塊圖。如圖9所示,該電腦終端A可以包括:一個或多個(圖中僅示出一個)處理器、記憶體。
其中,記憶體可用於儲存軟體程式以及模組,如本發 明實施例中的安全性漏洞檢測方法和裝置對應的程式指令/模組,處理器透過運行儲存在記憶體內的軟體程式以及模組,從而執行各種功能應用以及資料處理,即實現上述的系統漏洞攻擊的檢測方法。記憶體可包括高速隨機記憶體,還可以包括非易失性記憶體,如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態記憶體。在一些實例中,記憶體可進一步包括相對於處理器遠端設置的記憶體,這些遠端存放器可以透過網路連接至終端A。上述網路的實例包括但不限於網際網路、企業內部網、局域網、移動通信網及其組合。
處理器可以透過傳輸裝置調用記憶體儲存的資訊及應用程式,以執行下述步驟:獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定 的行為權重值,確定待定位的搜索詞所定位的使用者組。
可選的,上述處理器還可以執行如下步驟的程式碼:分別獲取關鍵字集合中包含的至少一個第一檢索項、屬性資訊集合中包含的至少一個第二檢索項和分類資訊集合中包含的至少一個第三檢索項;分別統計每個維度上的資料集合中檢索項的人均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數;根據每個維度上的資料集合中檢索項的人均存取次數,以及使用者存取每個維度上的資料集合中檢索項的存取次數,計算得到使用者對應每個維度上的資料集合所包含的檢索項的偏好分值。
可選的,上述處理器還可以執行如下步驟的程式碼:透過如下計算公式計算得到使用者對應任意一個維度上的資料集合所包含的檢索項的偏好分值tf(t,d):,其中,wi為在第i個維度上的資料集合中發生存取行為的權重值,Ni為在第i個維度上的資料集合中使用者對檢索項t執行存取行為後所統計的存取次數;ni為在第i個維度上的資料集合中檢索項t的人均存取次數,檢索項t為資料集合中的任意一個檢索項,其中,存取行為包括如下任意一種類型:點擊、收藏和點評。
可選的,上述處理器還可以執行如下步驟的程式碼:獲取待定位的搜索詞,並根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項;根據查詢得到的多個定位檢索項,確定搜索詞對應每個維度上的資料集合的維度關 係;根據搜索詞對應每個維度上的資料集合的維度關係,計算得到每個定位檢索項對應每個維度上的資料集合的權重值。
可選的,上述處理器還可以執行如下步驟的程式碼:在接收到查詢使用者輸入的關鍵字之後,確定輸入的關鍵字為待定位的搜索詞;或者,在接收到查詢使用者輸入的文本之後,對文本進行分詞處理,分詞處理得到的至少一個關鍵字為待定位的搜索詞。
可選的,上述處理器還可以執行如下步驟的程式碼:獲取定位檢索項在使用者行為資料中的IDF值idf(t);獲取定位檢索項在多個文檔中的最高權重值coord(q,d);將同一個文檔中查詢的搜索詞的歸一化處理,得到歸一化的搜索詞分值queryNorm(q,d);定位檢索項在多個文檔的權重值進行歸一化處理,得到多個文檔的歸一分值norm(t.field);透過如下計算公式獲取每個使用者與搜索詞之間的耦合關係所確 定的行為權重值Score(q,d):Score(q,d)=coord(q,d)*queryNorm(q,d)* tf(t,d)*idf2(t)*t.boost*norm(t.field),其中,tf(t,d)為使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,t.boost為每個定位檢索項對應每個維度上的資料集合的權重值,f.boost為每個維度上的資料集合的權重值。
採用本發明實施例,提供了一種使用者行為資料的處理方法。透過獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值, 其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
解決了單純的透過結構化資料來實現人群定向,定位結果不夠準確的技術問題。
本領域普通技術人員可以理解,圖所示的結構僅為示意,電腦終端也可以是智慧手機(如Android手機、iOS手機等)、平板電腦、掌聲電腦以及移動網際網路設備(Mobile Internet Devices,MID)、PAD等終端設備。圖10其並不對上述電子裝置的結構造成限定。例如,電腦終端10還可包括比圖10中所示更多或者更少的元件(如網路介面、顯示裝置等),或者具有與圖10所示不同的配置。
本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以透過程式來指令終端設備相關的硬體來完成,該程式可以儲存於一電腦可讀儲存媒體中,儲存媒體可以包括:快閃記憶體碟、唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體 (Random Access Memory,RAM)、磁片或光碟等。
本發明的實施例還提供了一種儲存媒體。可選地,在本實施例中,上述儲存媒體可以用於保存上述實施例一所提供的使用者行為資料的處理方法所執行的程式碼。
可選地,在本實施例中,上述儲存媒體可以位於電腦網路中電腦終端群中的任意一個電腦終端中,或者位於移動終端群中的任意一個移動終端中。
可選地,在本實施例中,儲存媒體被設置為儲存用於執行以下步驟的程式碼:獲取使用者行為資料,其中,使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;在獲取待定位的搜索詞之後,根據搜索詞查詢得到與搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;根據每個維度上的資料集合所包含的檢索項的偏好分值和獲取每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與搜索詞之間的耦合關係所確定的行為權重值;根據每個使用者與搜索詞之間的耦合關係所確定的行為權重值,確定待定位的搜索詞所定位的使用者組。
上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
在本發明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可透過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以整合到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是透過一些介面,單元或模組的間接耦合或通信連接,可以是電性或其它的形式。
作為分離部件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的部件可以是或者也可以不是實體單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以整合在一個處理單元中,也可以是各個單元單獨實體存在,也可以兩個或兩個以上單元整合在一個單元中。上述整合的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
整合的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存媒體中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台電腦設備(可為個人電腦、伺服器或者網路設備等)執行本發明各個實施例方法的全部或部分步驟。而前述的儲存媒體包括:USB隨身碟、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以儲存程式碼的媒體。
以上僅是本發明的較佳實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護範圍。
Claims (24)
- 一種使用者行為資料的處理方法,係運行在電腦終端上,其特徵在於,包括下列步驟:該電腦終端中的處理器獲取使用者行為資料,其中,該使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,該存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;該處理器確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;該處理器在獲取待定位的搜索詞之後,根據該搜索詞查詢得到與該搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;該處理器根據在該每個維度上的資料集合所包含的檢索項的偏好分值和獲取該每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與該搜索詞之間的耦合關係所確定的行為權重值;以及該處理器根據該每個使用者與該搜索詞之間的耦合關係所確定的行為權重值,確定該待定位的搜索詞所定位的使用者組。
- 如請求項1的方法,其中,該處理器確定使用者對應每個維度上的資料集合所包含的檢索項的偏 好分值,包括:該處理器分別獲取該關鍵字集合中包含的至少一個第一檢索項、該屬性資訊集合中包含的至少一個第二檢索項和該分類資訊集合中包含的至少一個第三檢索項;該處理器分別統計每個維度上的資料集合中檢索項的人均存取次數,以及該使用者存取該每個維度上的資料集合中檢索項的存取次數;以及該處理器根據該每個維度上的資料集合中檢索項的人均存取次數,以及該使用者存取該每個維度上的資料集合中檢索項的存取次數,計算得到該使用者對應每個維度上的資料集合所包含的檢索項的偏好分值。
- 如請求項2的方法,其中,該處理器根據該每個維度上的資料集合中檢索項的人均存取次數,以及該使用者存取該每個維度上的資料集合中檢索項的存取次數,計算得到該使用者對應每個維度上的資料集合所包含的檢索項的偏好分值:透過如下計算公式計算得到該使用者對應任意一個維度上的資料集合所包含的檢索項的偏好分值tf(t,d): 偏好分,其中,wi為在第i個維度上的資料集合中發生存取行為的權重值,Ni為在第i個維度上的資料集合中該使用者對檢索項t執行該存取行為後所統計的存取次數;ni為在第i個維度上的資料集合中檢索項t的人均存取次數,檢索項t為資料集合中的任意一個檢索項,其中, 該存取行為包括如下任意一種類型:點擊、收藏和點評。
- 如請求項3的方法,其中,在獲取待定位的搜索詞之後,根據該搜索詞查詢得到與該搜索詞具有對應關係的多個定位檢索項,並獲取該每個定位檢索項對應每個維度上的資料集合的權重值,包括:該處理器獲取該待定位的搜索詞,並根據該搜索詞查詢得到與該搜索詞具有對應關係的多個定位檢索項;該處理器根據查詢得到的該多個定位檢索項,確定該搜索詞對應該每個維度上的資料集合的維度關係;以及該處理器根據該搜索詞對應該每個維度上的資料集合的維度關係,計算得到該每個定位檢索項對應每個維度上的資料集合的權重值。
- 如請求項6的方法,其中,獲取該待定位的搜索詞的步驟包括:該處理器在接收到查詢使用者輸入的關鍵字之後,確定該輸入的關鍵字為該待定位的搜索詞;或者,該處理器在接收到該查詢使用者輸入的文本之後,對該文本進行分詞處理,該分詞處理得到的至少一個關鍵字為該待定位的搜索詞。
- 如請求項7的方法,其中,在該定位檢索項為多個文檔中分詞根據該每個維度上的資料集合所包含的檢索項的偏好分值和該每個定位檢索項對應每個維度上的資料集合的權重值,計算得到該每個使用者與該搜索詞之間的耦合關係所確定的行為權重值,包括:該處理器獲取該定位檢索項在該使用者行為資料中的IDF值idf(t);該處理器獲取該定位檢索項在多個文檔中的最高權重值coord(q,d);該處理器將同一個文檔中查詢的該搜索詞進行歸一化處理,得到歸一化的搜索詞分值queryNorm(q,d);該處理器將該定位檢索項在該多個文檔的權重值進行歸一化處理,得到多個文檔的歸一分值norm(t.field);以及 該處理器透過如下計算公式獲取該每個使用者與該搜索詞之間的耦合關係所確定的行為權重值Score(q,d):
- 一種使用者行為資料的處理裝置,其 特徵在於,包括:第一獲取單元,用於獲取使用者行為資料,其中,該使用者行為資料包括多個使用者存取目標物件之後所產生的存取資料集合,該存取資料集合至少包括如下三個維度上的資料集合:關鍵字集合、屬性資訊集合和分類資訊集合;第一確定單元,用於確定使用者對應每個維度上的資料集合所包含的檢索項的偏好分值,其中,每個維度上的資料集合包含至少一個檢索項;第二獲取單元,用於在獲取待定位的搜索詞之後,根據該搜索詞查詢得到與該搜索詞具有對應關係的多個定位檢索項,並獲取每個定位檢索項對應每個維度上的資料集合的權重值;第三獲取單元,根據該每個維度上的資料集合所包含的檢索項的偏好分值和獲取該每個定位檢索項對應每個維度上的資料集合的權重值,計算得到每個使用者與該搜索詞之間的耦合關係所確定的行為權重值;以及第二確定單元,根據該每個使用者與該搜索詞之間的耦合關係所確定的行為權重值,確定該待定位的搜索詞所定位的使用者組。
- 如請求項13的裝置,其中,該第一確定單元包括:第一獲取模組,用於分別獲取該關鍵字集合中包含的至少一個第一檢索項、該屬性資訊集合中包含的至少一個 第二檢索項和該分類資訊集合中包含的至少一個第三檢索項;統計模組,用於分別統計每個維度上的資料集合中檢索項的人均存取次數,以及該使用者存取該每個維度上的資料集合中檢索項的存取次數;以及第一計算模組,用於根據該每個維度上的資料集合中檢索項的人均存取次數,以及該使用者存取該每個維度上的資料集合中檢索項的存取次數,計算得到該使用者對應每個維度上的資料集合所包含的檢索項的偏好分值。
- 如請求項15的裝置,其中,該第二獲取單元包括: 第二獲取模組,用於獲取該待定位的搜索詞,並根據該搜索詞查詢得到與該搜索詞具有對應關係的多個定位檢索項;第一確定模組,用於根據查詢得到的該多個定位檢索項,確定該搜索詞對應該每個維度上的資料集合的維度關係;以及第二計算模組,用於根據該搜索詞對應該每個維度上的資料集合的維度關係,計算得到該每個定位檢索項對應每個維度上的資料集合的權重值。
- 如請求項18的裝置,其中,該第二獲取模組包括:第二確定模組,用於在接收到查詢使用者輸入的關鍵字之後,確定該輸入的關鍵字為該待定位的搜索詞;或者,第一處理模組,用於在接收到該查詢使用者輸入的文本之後,對該文本進行分詞處理,該分詞處理得到的至少一個關鍵字為該待定位的搜索詞。
- 如請求項19的裝置,其中,該第二確定單元包括:第三獲取模組,用於獲取該定位檢索項在該使用者行為資料中的IDF值idf(t);第四獲取模組,用於獲取該定位檢索項在多個文檔中的最高權重值coord(q,d);第二處理模組,將同一個文檔中查詢的該搜索詞進行歸一化處理,得到歸一化的搜索詞分值queryNorm(q,d);第三處理模組,將該定位檢索項在該多個文檔的權重值進行歸一化處理,得到多個文檔的歸一分值norm(t.field);以及第三計算模組,用於透過如下計算公式獲取該每個使用者與該搜索詞之間的耦合關係所確定的行為權重值Score(q,d):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106102500A TWI735516B (zh) | 2017-01-23 | 2017-01-23 | 使用者行為資料的處理方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106102500A TWI735516B (zh) | 2017-01-23 | 2017-01-23 | 使用者行為資料的處理方法及裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201828196A TW201828196A (zh) | 2018-08-01 |
TWI735516B true TWI735516B (zh) | 2021-08-11 |
Family
ID=63960509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106102500A TWI735516B (zh) | 2017-01-23 | 2017-01-23 | 使用者行為資料的處理方法及裝置 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI735516B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884218A (zh) * | 2021-02-03 | 2021-06-01 | 叮当快药科技集团有限公司 | 基于标签进行人群规划的数据处理方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125500A1 (en) * | 2008-11-18 | 2010-05-20 | Doapp, Inc. | Method and system for improved mobile device advertisement |
CN102760138A (zh) * | 2011-04-26 | 2012-10-31 | 北京百度网讯科技有限公司 | 用户网络行为的分类方法和装置及对应的搜索方法和装置 |
US20130073546A1 (en) * | 2011-09-16 | 2013-03-21 | Microsoft Corporation | Indexing Semantic User Profiles for Targeted Advertising |
TW201403517A (zh) * | 2012-07-13 | 2014-01-16 | Facebook Inc | 基於強化搜尋的目標鎖定連結方法 |
CN103632294A (zh) * | 2013-12-20 | 2014-03-12 | 互动通天图信息技术有限公司 | 基于媒体和第三方数据平台的用户数据整合方法 |
CN103838756A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 一种确定推送信息的方法及装置 |
CN104021209A (zh) * | 2014-06-19 | 2014-09-03 | 北京博雅立方科技有限公司 | 关键词投放效果的统计方法及浏览客户端 |
CN104090888A (zh) * | 2013-12-10 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 一种用户行为数据的分析方法和装置 |
-
2017
- 2017-01-23 TW TW106102500A patent/TWI735516B/zh active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125500A1 (en) * | 2008-11-18 | 2010-05-20 | Doapp, Inc. | Method and system for improved mobile device advertisement |
CN102760138A (zh) * | 2011-04-26 | 2012-10-31 | 北京百度网讯科技有限公司 | 用户网络行为的分类方法和装置及对应的搜索方法和装置 |
US20130073546A1 (en) * | 2011-09-16 | 2013-03-21 | Microsoft Corporation | Indexing Semantic User Profiles for Targeted Advertising |
TW201403517A (zh) * | 2012-07-13 | 2014-01-16 | Facebook Inc | 基於強化搜尋的目標鎖定連結方法 |
CN103838756A (zh) * | 2012-11-23 | 2014-06-04 | 阿里巴巴集团控股有限公司 | 一种确定推送信息的方法及装置 |
CN104090888A (zh) * | 2013-12-10 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 一种用户行为数据的分析方法和装置 |
CN103632294A (zh) * | 2013-12-20 | 2014-03-12 | 互动通天图信息技术有限公司 | 基于媒体和第三方数据平台的用户数据整合方法 |
CN104021209A (zh) * | 2014-06-19 | 2014-09-03 | 北京博雅立方科技有限公司 | 关键词投放效果的统计方法及浏览客户端 |
Also Published As
Publication number | Publication date |
---|---|
TW201828196A (zh) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017121272A1 (zh) | 用户行为数据的处理方法及装置 | |
EP2823410B1 (en) | Entity augmentation service from latent relational data | |
US20150262069A1 (en) | Automatic topic and interest based content recommendation system for mobile devices | |
US7917514B2 (en) | Visual and multi-dimensional search | |
US7739221B2 (en) | Visual and multi-dimensional search | |
US10102307B2 (en) | Method and system for multi-phase ranking for content personalization | |
WO2018028443A1 (zh) | 数据处理方法、设备及系统 | |
Leung et al. | Pmse: A personalized mobile search engine | |
Kong et al. | Predicting search intent based on pre-search context | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
US20070214131A1 (en) | Re-ranking search results based on query log | |
US20110035374A1 (en) | Segment sensitive query matching of documents | |
US8712999B2 (en) | Systems and methods for online search recirculation and query categorization | |
CN103400286A (zh) | 一种基于用户行为进行物品特征标注的推荐系统及方法 | |
CN102999560A (zh) | 用社交网络特征提高姓名和其它搜索查询的搜索引擎结果页面的相关性 | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
US10410273B1 (en) | Artificial intelligence based identification of item attributes associated with negative user sentiment | |
US20200159856A1 (en) | Expanding search engine capabilities using ai model recommendations | |
Pera et al. | Exploiting the wisdom of social connections to make personalized recommendations on scholarly articles | |
Sun et al. | A hybrid approach for article recommendation in research social networks | |
Joorabchi et al. | Towards linking libraries and Wikipedia: automatic subject indexing of library records with Wikipedia concepts | |
TWI735516B (zh) | 使用者行為資料的處理方法及裝置 | |
Bamboat et al. | Web content mining techniques for structured data: A review | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
US20170255691A1 (en) | Information processing system, information processing method, and program |