TWI652584B - 文本資訊的匹配、業務對象的推送方法和裝置 - Google Patents

文本資訊的匹配、業務對象的推送方法和裝置 Download PDF

Info

Publication number
TWI652584B
TWI652584B TW103134249A TW103134249A TWI652584B TW I652584 B TWI652584 B TW I652584B TW 103134249 A TW103134249 A TW 103134249A TW 103134249 A TW103134249 A TW 103134249A TW I652584 B TWI652584 B TW I652584B
Authority
TW
Taiwan
Prior art keywords
text information
category
text
sub
combination
Prior art date
Application number
TW103134249A
Other languages
English (en)
Other versions
TW201546633A (zh
Inventor
何煒
李波
謝可
林鋒
Original Assignee
阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集團服務有限公司 filed Critical 阿里巴巴集團服務有限公司
Publication of TW201546633A publication Critical patent/TW201546633A/zh
Application granted granted Critical
Publication of TWI652584B publication Critical patent/TWI652584B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

本發明實施例提供了一種文本資訊的匹配、業務對象的推送方法和裝置,所述的文本資訊的匹配方法包括:獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;以及按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。本發明實施例拋棄開放式的從第一文本資訊直接尋找擴展詞的擴展思路,轉而投向閉區間,查找有限數量的第一文本資訊集合的每一者相匹配的有限數量的第二文本資訊中的一者或者多者,節省了不必要的匹配計算量,減少系統資源的浪費,提高了匹配計算的效率。

Description

文本資訊的匹配、業務對象的推送方法和裝置
本發明係關於網路通訊的技術領域,特別是係關於一種文本資訊的匹配方法、一種業務對象的推送方法、一種文本資訊的匹裝置和一種業務對象的推送裝置。
隨著網路的迅速發展,網路資訊急劇增加。用戶為了在海量的網路資訊中尋找所需的網路資訊,通常使用搜尋引擎進行搜尋。
搜尋引擎指自動從網際網路搜集信息,經過一定整理以後,提供給用戶進行查詢的系統。網路資訊浩瀚萬千,而且毫無秩序,所有的網路資訊像汪洋上的一個個小島,網頁連結是這些小島之間縱橫交錯的橋樑,而搜尋引擎,則為用戶繪製一幅一目了然的資訊地圖,供用戶隨時查閱。
在諸如相關查詢等功能上,搜尋引擎通常執行特定的查詢詞改寫策略,對用戶輸入的查詢詞Q進行改寫,將查詢詞擴展到與查詢意圖相同或相近的相近詞Q’(即擴展詞)。通常,Q’是必須綁定有業務對象的擴展詞,否則無 法達到解決業務對象曝光量少的目的。因此,搜尋引擎往往是先通過各種改寫策略,將Q改寫為Q’,然後將Q’中的無效擴展詞(即未綁定有業務對象的擴展詞)剔除掉,保留有效擴展詞(即綁定有業務對象的擴展詞)集合。
對用戶輸入的查詢詞Q進行改寫,以將其擴展到查詢意圖相同或相近的相近詞Q’的擴展技術主要有以下幾種:
1、針對兩個查詢詞是否有一個相同的關鍵字(token)相匹配,判斷查詢詞之間的內容相似性(Content Based),繼而將Q改寫成Q’。
2、針對兩個查詢詞是否有相同的中心詞或者產品詞,判斷查詢詞之間的語義相似性(Syntax Based),繼而將Q改寫成Q’。
3、針對兩個查詢詞是否出現在同一個用戶點擊流中,判斷查詢詞之間的用戶行為關聯度(Session Based),繼而將Q改寫成Q’。
4、針對兩個查詢詞下用戶點擊的相同文檔的數量判斷查詢詞之間的文檔聚合程度(Document Based),繼而將Q改寫成Q’。
但是,上述四種擴展技術無謂地增加了<Q,Q’>擴展對中,無效擴展詞的計算量,大量浪費系統資源。
此外,上述四種擴展技術由於內部運算機制存在差異,因此擴展出的Q和Q’相關性尺度不一,因此無法對<Q,Q’>擴展對進行評價。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:如何提出一種文本資訊的匹配,減少匹配計算量,減少系統資源的浪費,統一評價尺度。
本發明實施例所要解決的技術問題是提供一種文本資訊的匹配方法和一種業務對象的推送方法,用以減少匹配計算量,減少系統資源的浪費,統一評價尺度。
相應的,本發明實施例還提供了一種文本資訊的匹配裝置和一種業務對象的推送裝置,用以保證上述方法的實現及應用。
為了解決上述問題,本發明實施例公開了一種文本資訊的匹配方法,包括:獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;以及按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
較佳地,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊 中的一者或者多者的步驟包括:按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合;計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;以及將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
較佳地,所述按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合的步驟包括:對所述第一文本資訊進行分詞處理,獲得文本分詞;對所述第二文本資訊建立倒排索引;在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;以及將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
較佳地,所述按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合的步驟還包括:對所述文本分詞匹配的第二文本資訊進行去重處理; 所述將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合的步驟包括:將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
較佳地,所述第一文本資訊對應的類目包括第一子類目和第一父類目,所述第二文本資訊對應的類目包括第二子類目和第二父類目;所述從所述擴展文本資訊組合中提取特徵文本資訊組合的步驟包括:獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;以及提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
較佳地,所述第二文本資訊對應有業務對象;通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值: RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
較佳地,所述有限數量的第一文本資訊包括在一定時間範圍內獲得的查詢詞,所述有限數量的第二文本資訊包括在一定時間內獲得的競價詞。
本發明實施例還公開了一種業務對象的推送方法,包括:接收客戶端側提交的第一文本資訊;確定所述第一文本資訊映射的第二文本資訊;所述第二文本資訊對應有業務對象;以及將所述業務對象推送至客戶端側;其中,所述第一文本資訊與所述第二文本資訊通過以下方式確定映射關係:獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;以及按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
較佳地,所述確定所述第一文本資訊映射的第二文本資訊的步驟包括:線上計算所述第一文本資訊映射的第二文本資訊。
較佳地,所述確定所述第一文本資訊映射的第二文本資訊的步驟包括:在預置的映射關係字典中查找所述第一文本資訊映射的第二文本資訊;其中,所述映射關係字典為離線計算所述第一文本資訊映射的第二文本資訊所產生的字典。
本發明實施例還公開了一種文本資訊的匹配裝置,包括:文本資訊獲取單元,用於獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;文本資訊匹配單元,用於按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
較佳地,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述文本資訊匹配單元包括:擴展文本資訊組合組成模組,用於按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;特徵文本資訊組合提取模組,用於從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合; 特徵值計算模組,用於計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;映射關係設置模組,用於將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
較佳地,所述擴展文本資訊組合組成模組包括:分詞子模組,用於對所述第一文本資訊進行分詞處理,獲得文本分詞;索引子模組,用於對所述第二文本資訊建立倒排索引;第一查找子模組,用於在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;組成子模組,用於將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
較佳地,所述擴展文本資訊組合組成模組還包括:去重子模組,對所述文本分詞匹配的第二文本資訊進行去重處理;所述組成子模組包括:去重組合子模組,用於將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
較佳地,所述第一文本資訊對應的類目包括第一子類目和第一父類目,所述第二文本資訊對應的類目包括第二子類目和第二父類目; 所述特徵文本資訊組合提取模組包括:第一獲取子模組,用於獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;第二查找子模組,用於查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;第二獲取子模組,用於獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;第三查找子模組,用於查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;提取子模組,用於提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
較佳地,所述第二文本資訊對應有業務對象;通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值:RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
較佳地,所述有限數量的第一文本資訊包括在一定時 間範圍內獲得的查詢詞,所述有限數量的第二文本資訊包括在一定時間內獲得的競價詞。
本發明實施例還公開了一種業務對象的推送裝置,包括:文本資訊接收單元,用於接收客戶端側提交的第一文本資訊;文本資訊確定單元,用於確定所述第一文本資訊映射的第二文本資訊;所述第二文本資訊對應有業務對象;業務對象推送單元,用於將所述業務對象推送至客戶端側;其中,所述第一文本資訊與所述第二文本資訊通過調用以下單元確定映射關係:文本資訊獲取單元,用於獲取待匹配的第一文本資訊和第二文本資訊;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;文本資訊匹配單元,用於按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
較佳地,所述文本資訊確定單元包括:線上計算模組,用於線上計算所述第一文本資訊映射的第二文本資訊。
較佳地,所述文本資訊確定單元包括:字典查找模組,用於在預置的映射關係字典中查找所 述第一文本資訊映射的第二文本資訊;其中,所述映射關係字典為離線計算所述第一文本資訊映射的第二文本資訊所產生的字典。
與背景技術相比,本發明實施例包括以下優點:本發明實施例拋棄開放式的從第一文本資訊直接尋找擴展詞的擴展思路,轉而投向閉區間,查找有限數量的第一文本資訊集合的每一者相匹配的有限數量的第二文本資訊中的一者或者多者,節省了不必要的匹配計算量,減少系統資源的浪費,提高了匹配計算的效率。
本發明實施例按照預置的組合規則將第一文本資訊和第二文本資訊組成擴展文本資訊組合,並從所述擴展文本資訊組合中提取類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合,拋棄開放式的從第一文本資訊直接尋找擴展詞的擴展思路,轉而投向閉區間的從第一文本資訊和第二文本資訊的組合中保留第二文本資訊的特徵值最優的一個或多個結果,既保證了召回第二文本資訊,同時又避免召回了不必要的第二文本資訊,進一步節省了不必要的匹配計算量,減少系統資源的浪費,提高了匹配計算的效率。
本發明實施例以特徵值作為選取第二文本資訊的標準,提供了統一的評價尺度,保證在該評價尺度下所選的第二文本資訊是全域最佳的。
400‧‧‧裝置
401‧‧‧文本資訊獲取單元
402‧‧‧文本資訊匹配單元
500‧‧‧裝置
501‧‧‧文本資訊接收單元
502‧‧‧文本資訊確定單元
503‧‧‧業務對象推送單元
圖1是本發明的一種文本資訊的匹配方法實施例的步驟流程圖;圖2是本發明的另一種文本資訊的匹配方法實施例的步驟流程圖;圖3是本發明的一種業務對象的推送方法實施例的步驟流程圖;圖4是本發明的一種文本資訊的匹配裝置實施例的結構框圖;以及圖5是本發明的一種業務對象的推送裝置實施例的結構框圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合圖式和實施方式對本發明作進一步詳細的說明。
參照圖1,示出了本發明的一種文本資訊的匹配方法實施例的步驟流程圖,所述方法100具體可以包括如下步驟:步驟101,獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合可以包括有限數量的第一文本資訊,所述第二文本資訊集合可以包括有限數量的第二文本資訊;步驟102,按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文 本資訊中的一者或者多者。
在先的技術是一種開放式的匹配機制,將用戶輸入的查詢詞Q進行改寫,將其擴展到查詢意圖相同或相近的相近詞Q’,進而篩選出有效擴展詞。而用戶所輸入的查詢詞是未知的,可以造成無限數量的改寫,而有效擴展詞是有限的,造成了<Q,Q’>擴展對,無效擴展詞的計算量,大量浪費系統資源。
本發明實施例拋棄開放式的從第一文本資訊直接尋找擴展詞的擴展思路,轉而投向閉區間,查找有限數量的第一文本資訊中的每一者相匹配的有限數量的第二文本資訊中的一者或者多者,節省了不必要的匹配計算量,減少系統資源的浪費,提高了匹配計算的效率。
參照圖2,示出了本發明的另一種文本資訊的匹配方法實施例的步驟流程圖,所述方法200具體可以包括如下步驟:
步驟201,獲取待匹配的第一文本資訊集合和第二文本資訊集合;應用本發明實施例,可以預先採集第一文本資訊集合和第二文本資訊集合,並儲存在資料庫中,在進行匹配時再從該資料庫中提取第一文本資訊集合和第二文本資訊集合。
以電子商務(Electronic Commerce,簡稱EC)的廣告系統為示例,廣告系統可以包含儲存廣告主的廣告資料和競價詞,以及提供用戶搜尋、展現相應廣告資料的服 務。
則在本示例中,第一文本資訊集合可以為用戶提交的查詢詞(query)集合,即所述有限數量的第一文本資訊可以包括在一定時間範圍內獲得的查詢詞,該查詢詞可以為用戶在搜尋框輸入的請求查詢與其關聯的網路資訊的詞彙,例如,可以為最近1個月內用戶提交的查詢詞所組成的集合,以體現用戶最近的興趣傾向。
第二文本資訊集合可以為競價詞(bidword)集合,即所述有限數量的第二文本資訊集合可以包括在一定時間內獲得的競價詞。競價詞可以為廣告主為廣告資料購買的詞彙,用戶通過該競價詞詞彙搜尋到了廣告主的廣告資料(造成曝光)並造成點擊,則廣告系統可以按照廣告主購買該競價詞的計價扣取廣告主帳戶的單次點擊的廣告費。
而在實際應用中,查詢詞不一定是被廣告主購買過的競價詞。因此,在電子商務的廣告系統中,通常將查詢詞Q改寫為擴展詞Q’,而擴展詞Q’必須是有廣告資料綁定的競價詞,否則無法達到解決廣告資料曝光量少的目的。
步驟202,按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;在本發明實施例中,可以預置組合規則對第一文本資訊和第二文本資訊進行選擇性組合。
在本發明的一種較佳實施例中,步驟202可以包括如下子步驟:
子步驟S11,對所述第一文本資訊進行分詞處理,獲 得文本分詞;下面介紹一些常用的分詞方法:
1、基於字串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配,若在詞典中找到某個字串,則匹配成功(識別出一個詞)。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言資訊來進一步提高切分的準確率。
2、基於特徵掃描或標誌切分的分詞方法:是指優先在待分析字串中識別和切分出一些帶有明顯特徵的詞,以這些詞作為中斷點,可將原字串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標注結合起來,利用豐富的詞類資訊對分詞決策提供幫助,並且在標注過程中又反過來對分詞結果進行檢驗、調整,從而提高切分的準確率。
3、基於理解的分詞方法:是指通過讓電腦類比人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。
4、基於統計的分詞方法:是指,中文資訊中由於字 與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現資訊,以及計算兩個漢字X、Y的相鄰共現概率。互現資訊可以體現漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典。
在分詞處理之後,以查詢詞作為第一文本資訊的示例,其獲得文本分詞可以如下:<查詢詞1,文本分詞1,文本分詞2,......,文本分詞n>
<查詢詞2,文本分詞3,文本分詞4,......,文本分詞m>
例如,當讀入一個查詢詞“blue mp3 player”後,進行分詞,而英文分詞目前可以針對空格(或者連續空格)進行分詞,則在分詞處理後的文本分詞可以為“blue”、“mp3”和“player”。
子步驟S12,對所述第二文本資訊建立倒排索引;在實際應用中,倒排索引中的每一項可以包括一個屬性值和具有該屬性值的各記錄的位址。由於不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。
帶有倒排索引的檔稱為倒排索引檔,簡稱倒排檔(inverted file),其索引物件是文檔或者文檔集合(例 如競價詞)中的單詞等。
在建立倒排索引之後,以競價詞作為第二文本資訊的示例,倒排索引檔可以如下:<單詞1,競價詞1,競價詞2,......,競價詞n>
<單詞2,競價詞3,競價詞4,......,競價詞m>
其中,單詞可以為競價詞中所包含的詞彙。
子步驟S13,在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;在具體實現中,可以查找與文本分詞匹配的屬性值(例如單詞),再依據該屬性值(例如單詞)與記錄的位址(例如競價詞)的映射關係,確定與文本資訊匹配的第二文本資訊,即第一文本資訊召回的第二文本資訊。
以電子商務的廣告系統作為示例,假設有一個競價詞的集合B1,B1中包含3個競價詞:“red mp3”,“black mp3”和“ipod mp3 player”。
應用本發明實施例中,可以首先處理“red mp3”這個競價詞,它由2個單詞“red”和“mp3”組成,那麼建立倒排索引可以為:red->red mp3
mp3->red mp3
即表示通過“red”或者“mp3”這兩個單詞都可以找到“red mp3”這個競價詞。
同理,“black mp3”處理完後,倒排索引可以變為:red->red mp3
black->black mp3
mp3->red mp3,black mp3
同理,“ipod mp3 player”處理完後,倒排索引可以變為:ipod->ipod mp3 player
red->red mp3
black->black mp3
player->ipod mp3 player
mp3->red mp3,black mp3,ipod mp3 player
當讀入一個查詢詞“blue mp3 player”後,先進行分詞,而英文分詞目前可以針對空格(或者連續空格)進行分詞,則在本示例中分詞處理後的文本分詞可以為“blue”、“mp3”和“player”。
然後,再拿“blue”、“mp3”和“player”分別在B1的倒排索引查找匹配的競價詞。
由於“blue”在倒排索引中沒有命中,所以最終“mp3”和“player”和索引關聯成如下結構:mp3->red mp3,black mp3,ipod mp3 player
player->ipod mp3 player
所以查詢詞“blue mp3 player”通過分詞後的單詞匹配最後關聯到的競價詞集合為:blue mp3 player->red mp3,black mp3,ipod mp3 player,ipod mp3 player
又例如,如果查詢詞是“women dress”,其分詞處理 之後的文本分詞可以為“women”和“dress”,那麼在B1產生的倒排索引中,每個文本分詞都無法關聯上任意一個競價詞,則“women dress”沒有召回任何競價詞。
子步驟S14,將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
在具體實現中,可以以擴展文本資訊組合確定第一文本資訊與第二文本資訊的匹配關係。
在組成擴展文本資訊組合之後,以競價詞作為第二文本資訊的示例,擴展文本資訊組合可以如下:<查詢詞1,競價詞2>
<查詢詞2,競價詞5>
......
<查詢詞m,競價詞n>
在本發明的一種較佳實施例中,步驟202可以包括如下子步驟:子步驟S21,對所述第一文本資訊進行分詞處理,獲得文本分詞;子步驟S22,對所述第二文本資訊建立倒排索引;子步驟S23,在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;子步驟S24,對所述文本分詞匹配的第二文本資訊進行去重處理;子步驟S25,將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組 合。
在具體實現中,由於部分第二文本資訊可能被重複召回,則此時需要進行去重處理。
例如,在上述示例中,B1中的“ipod mp3 player”分別被單詞“mp3”和“player”各召回一次,需要去除重複,所以“blue mp3 player”實際召回了“red mp3”,“black mp3”和“ipod mp3 player”這三個競價詞。
步驟203,從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合;在具體實現中,所述第一文本資訊和所述第二文本資訊可以具有對應的類目;所述第一文本資訊對應的類目可以包括第一子類目和第一父類目,所述第二文本資訊對應的類目可以包括第二子類目和第二父類目;在本發明的一種較佳實施例中,步驟203可以包括如下子步驟:子步驟S31,獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;子步驟S32,查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;子步驟S33,獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目; 子步驟S34,查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;子步驟S35,提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
本發明實施例中,可以預測第一文本資訊(例如查詢詞)以及第一文本資訊(例如查詢詞)對應的每個候選第二文本資訊(例如競價詞)的類目結果,過濾掉其中與第一文本資訊(例如查詢詞)類目不匹配的候選競價詞。
在具體實現中,類目預測可以採用排序學習演算法(L2R)對第一文本資訊(例如查詢詞)候選的第一子類目進行排序,基於第一文本資訊(例如查詢詞)在第一子類目下的統計特徵和RankSVM(排序向量空間模型)權重進行訓練,計算第一文本資訊(例如查詢詞)在第一子類目類目的相關性得分。
在類目預測時可以給出每個第一文本資訊(例如查詢詞)置信度最高的N(N為正整數,例如3)個第一子類目,此外再根據預設的父子類目關係樹<子類目,父類目>的映射關係,找到上述N個第一子類目各自對應的M(M為正整數,例如3)個置信度最高的第一父類目。
同理,對第二文本資訊(例如競價詞)可以獲得X(X為正整數,例如3)個第二子類目各自對應的Y(Y為正整數,例如3)個第二父類目。
然後分別計算第一文本資訊(例如查詢詞)對應的第一父類目和第一子類目,和第二文本資訊(例如競價詞)對應的第二父類目第二子類目,查看兩者是否有匹配的類目,如果全部不匹配,則過濾第一文本資訊和第二文本資訊。另外,若子-子類目匹配、子-父類目匹和父-子類目匹配,則保留第一文本資訊和第二文本資訊,但是,父-父類目匹配可以認為是弱關係,仍需要進行過濾。
則匹配原則可以如下表所示:
其中,“”可以表示保留,“X”可以表示過濾。
例如,第一文本資訊“ipod mp3 player”通過類目預測計算出置信度最高的三個子類目分別是C1,C2,C3,而C1,C2,C3各自對應的父類目為PC1,PC2,PC3。
同樣,計算出被“ipod mp3 player”召回的第二文本資訊“blue mp3 player”置信度最高的三個子類目為D1,D2,D3,而D1,D2,D3各自對應的父類目為PD1,PD2,PD3。
如果C1和D2,或者,C2和D3匹配,則可以稱之為子-子類目匹配;如果C1和PD3,或者,PC3和PD2匹配,則可以稱之為子-父類目匹配;如果PC2和D3匹配,則可以稱之為父-子類目匹配;如果PC2和PD3匹 配,則可以稱之為父-父類目匹配。
步驟204,計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;本發明實施例可以針對保留下來的第一文本資訊(例如查詢詞)和第二文本資訊(例如競價詞)組成特徵文本資訊,計算第二文本資訊(例如競價詞)的特徵值。該特徵值可以為體現特徵文本資訊組合所包含的第二文本資訊特徵的數值,該特徵值可以由本領域技術人員根據實際的第二文本資訊進行設定,例如,在電子商務的廣告系統中,該特徵值可以為營收指標。
在具體實現中,所述第二文本資訊可以對應有業務對象,在不同的業務領域中可以具有不同的業務對象,例如,在電子商務的廣告系統中,業務對象可以為廣告資料。
在具體實現中,可以通過以下公式計算所述特徵文本資訊組合的特徵值:RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
用戶深度可以用於體現業務對象的用戶喜好程度,例如,在電子商務的廣告系統中,ASN可以為標識一個競價詞被多少個廣告主購買的指標,可以由購買該競價詞的廣告主數量(比如前一天廣告主數量)表示。
權重可以由本領域技術人員根據實際的業務對象進行 設定,例如,在電子商務的廣告系統中,CPC可以為廣告資料的平均點擊單價。
以電子商務的廣告系統作為示例,真實的營收指標RPM1=COV * CTR2 * CPC,其中,COV為覆蓋率,即進入廣告系統且有展示的廣告資料的流量/所有進入廣告系統的流量,CTR2為點擊率,即廣告資料的有效點擊量/廣告資料的曝光量。
在實際應用中,可以以RPM1=ASN*CPC作為預估的營收指標,即用ASN*CPC擬合的最大化來實現RPM1的最大化。因為在假設每個廣告資料點擊率不變的情況下,增加用戶深度ASN,即增加了搜尋網頁上廣告資料展示的數量,會導致CTR2的增加(網頁上展示的廣告資料越多,獲得點擊的概率越大)。所以在ASN未飽和的情況下,通過提高ASN可以間接提高CTR2。
步驟205,將特徵值順序排序在前的一個或多個特徵文本資訊所包含的第一文本資訊和第二文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
本發明實施例中可以選擇特徵值最高一個或多個的第二文本資訊及該第二文本資訊對應的第一文本資訊作為最終的相互映射的文本資訊對。
以電子商務的廣告系統作為示例,相互映射的第一文本資訊和第二文本資訊的形式可以如下:<查詢詞1,競價詞2=180,競價詞122=150,......,競價詞30=72>
......
<查詢詞m,競價詞90=350,競價詞46=330,......,競價詞55=280>
其中,競價詞之後的數值“180”、“150”等可以為該競價詞的營收指標RPM1的數值。
在電子商務的廣告系統中,應用本發明實施例,可以統一<查詢詞Q,競價詞B>評價標準,從全域<查詢詞Q,競價詞B>對集合中,通過用戶深度ASN和平均點擊單價CPC的最大化來保證廣告資料營收的最大化。
本發明實施例按照預置的組合規則將第一文本資訊和第二文本資訊組成擴展文本資訊組合,並從所述擴展文本資訊組合中提取類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合,拋棄開放式的從第一文本資訊直接尋找擴展詞的擴展思路,轉而投向閉區間的從第一文本資訊和第二文本資訊的組合中保留第二文本資訊的特徵值最優的一個或多個結果,保證了召回第二文本資訊,同時又避免召回了不必要的第二文本資訊,進一步節省了不必要的匹配計算量,減少系統資源的浪費,提高了匹配計算的效率。
本發明實施例以特徵值作為選取第二文本資訊的標準,提供了統一的評價尺度,保證在該評價尺度下所選的第二文本資訊是全域最優的。
參照圖3,示出了本發明的一種業務對象的推送方法實施例的步驟流程圖,所述方法300具體可以包括如下步 驟:步驟301,接收客戶端側提交的第一文本資訊;步驟302,確定所述第一文本資訊映射的第二文本資訊;所述第二文本資訊對應有業務對象;步驟303,將所述業務對象推送至客戶端側;其中,所述第一文本資訊與所述第二文本資訊通過以下方式確定映射關係:子步驟S41,獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合可以包括有限數量的第一文本資訊,所述第二文本資訊集合可以包括有限數量的第二文本資訊;子步驟S42,按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
在本發明的一種較佳實施例中,步驟302可以包括如下子步驟:
子步驟S51,線上計算所述第一文本資訊映射的第二文本資訊。
應用本發明實施例,在第二文本資訊資料量小,即計算第一文本和第二文本的映射關係資料量小的場景下,可以直接線上上進行映射關係的計算(即子步驟S41-子步驟S42)。
以電子商務的廣告系統作為示例,當用戶輸入一個查詢詞,廣告系統可以直接線上查詢和遍歷所有競價詞集 合,即時地計算出每個查詢詞和候選競價詞之間的最大營收指標RPM1,挑選最優者返回給廣告系統,在廣告系統PID(Position Id,展示廣告的區域id)區域進行廣告資料的推送,比如搜尋網頁左側搜尋結果中的廣告區域、搜尋網頁右側廣告推薦區域和搜尋網頁底部廣告區域均屬於不同的PID區域。
在本發明的另一種較佳實施例中,步驟302可以包括如下子步驟:
子步驟S52,在預置的映射關係字典中查找所述第一文本資訊映射的第二文本資訊;其中,所述映射關係字典可以為離線計算所述第一文本資訊映射的第二文本資訊所產生的字典。
在第二文本資訊資料量大,即計算第一文本和第二文本的映射關係資料量大的場景下,可以離線進行映射關係的計算(即子步驟S41-子步驟S42)。在具體實現中,本發明實施例還可以依據預設的時間規則(例如定時)提前得到所有滿足條件的<查詢詞,競價詞>,然後建立字典,供線上服務查詢。
以某個電子商務網站的廣告系統作為示例,涉及所有查詢詞集合和所有競價詞集合B的全量笛卡爾計算,每天總計算量為40萬億次級別(1000萬個查詢詞* 400萬個競價詞),因此可以採用分散式雲計算平臺,例如hadoop進行計算。
hadoop的分散式主要包括兩部分,一是分散式檔案 系統HDFS,另外是分散式運算框架,即MapReduce。MapReduce任務過程被分為兩個處理階段:Map階段和Reduce階段。每個階段都以鍵(key)\值(value)對作為輸入(Input)和輸出(Output),並由用戶選擇它們的類型。用戶還需具體定義兩個函數:映射函數(map)和規約函數(reduce)。Map把用戶輸入的資料(key,value)通過用戶自訂的映射過程轉變為一組中間鍵值對的集合。而Reduce則會對產生的臨時中間鍵值對進行規約處理。這個規約的規則也是用戶自訂的,通過指定的Reduce來實現,最後Reduce會輸出最終結果。map函數的輸出經由MapReduce框架處理後,最後分發到reduce函數。
在本示例中,可以使用32000個Map資源可以在8小時內完成計算,滿足每日更新<查詢詞,競價詞>的性能需求。
在本發明的一種較佳實施例中,所述第一文本資訊和所述第二文本資訊具有對應的類目;子步驟S42可以包括如下子步驟:子步驟S61,按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;子步驟S62,從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合;子步驟S63,計算所述特徵文本資訊組合所包含的第 二文本資訊的特徵值;子步驟S64,將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
在本發明的一種較佳實施例中,所述子步驟S61可以包括如下子步驟:子步驟S611,對所述第一文本資訊進行分詞處理,獲得文本分詞;子步驟S612,對所述第二文本資訊建立倒排索引;子步驟S613,在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;子步驟S614,將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,子步驟S61還可以包括如下子步驟:子步驟S615,對所述文本分詞匹配的第二文本資訊進行去重處理;在本發明實施例中,步驟子步驟S614可以包括如下子步驟:子步驟S6141,將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,所述第一文本資訊對應的類目可以包括第一子類目和第一父類目,所述第二文 本資訊對應的類目可以包括第二子類目和第二父類目;子步驟S62可以包括如下子步驟:子步驟S621,獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;子步驟S622,查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;子步驟S623,獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;子步驟S624,查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;子步驟S625,提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
在具體實現中,所述第二文本資訊可以對應有業務對象;可以通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值:RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
在本發明實施例的一種較佳示例中,所述有限數量的 第一文本資訊可以包括在一定時間範圍內獲得的查詢詞,所述有限數量的第二文本資訊可以包括在一定時間內獲得的競價詞。
對於本發明實施例而言,由於子步驟S41-子步驟S42與文本資訊的匹配方法實施例基本相似,本發明實施例在此不再詳述,相關之處參見同基於用戶行為的特徵提取的方法實施例的部分說明即可。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。
參照圖4,示出了本發明一種文本資訊的匹配裝置實施例的結構框圖,所述裝置400具體可以包括如下模組: 文本資訊獲取單元401,用於獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合可以包括有限數量的第一文本資訊,所述第二文本資訊集合可以包括有限數量的第二文本資訊;文本資訊匹配單元402,用於按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
在本發明的一種較佳實施例中,所述第一文本資訊和 所述第二文本資訊具有對應的類目;所述文本資訊匹配單元402可以包括如下模組:擴展文本資訊組合組成模組,用於按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;特徵文本資訊組合提取模組,用於從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合;特徵值計算模組,用於計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;映射關係設置模組,用於將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
在本發明的一種較佳實施例中,所述擴展文本資訊組合組成模組可以包括如下子模組:分詞子模組,用於對所述第一文本資訊進行分詞處理,獲得文本分詞;索引子模組,用於對所述第二文本資訊建立倒排索引;第一查找子模組,用於在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;組成子模組,用於將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,所述擴展文本資訊組合組成模組還可以包括如下子模組:去重子模組,對所述文本分詞匹配的第二文本資訊進行去重處理;所述組成子模組進一步可以包括如下子模組:去重組合子模組,用於將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,所述第一文本資訊對應的類目可以包括第一子類目和第一父類目,所述第二文本資訊對應的類目可以包括第二子類目和第二父類目;所述特徵文本資訊組合提取模組可以包括如下子模組:第一獲取子模組,用於獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;第二查找子模組,用於查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;第二獲取子模組,用於獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;第三查找子模組,用於查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類 目;提取子模組,用於提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
在本發明實施例的一種較佳示例中,所述第二文本資訊可以對應有業務對象;可以通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值:RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
在本發明實施例的一種較佳示例中,所述有限數量的第一文本資訊可以包括在一定時間範圍內獲得的查詢詞,所述有限數量的第二文本資訊可以包括在一定時間內獲得的競價詞。
參照圖5,示出了本發明一種業務對象的推送裝置實施例的結構框圖,所述裝置500具體可以包括如下模組:文本資訊接收單元501,用於接收客戶端側提交的第一文本資訊;文本資訊確定單元502,用於查找所述第一文本資訊映射的第二文本資訊;所述第二文本資訊對應有業務對象;業務對象推送單元503,用於將所述業務對象推送至 客戶端側;其中,所述第一文本資訊與所述第二文本資訊可以通過調用以下單元確定映射關係:文本資訊獲取單元,用於獲取待匹配的第一文本資訊和第二文本資訊;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;文本資訊匹配單元,用於按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者。
在本發明的一種較佳實施例中,所述文本資訊確定單元502可以包括如下模組:線上計算模組,用於線上計算所述第一文本資訊映射的第二文本資訊。
在本發明的一種較佳實施例中,所述文本資訊確定單元502可以包括如下模組:字典查找模組,用於在預置的映射關係字典中查找所述第一文本資訊映射的第二文本資訊;其中,所述映射關係字典為離線計算所述第一文本資訊映射的第二文本資訊所產生的字典。
在本發明的一種較佳實施例中,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述文本資訊匹配單元可以包括如下模組:擴展文本資訊組合組成模組,用於按照預置的組合規 則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;特徵文本資訊組合提取模組,用於從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合;特徵值計算模組,用於計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;映射關係設置模組,用於將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
在本發明的一種較佳實施例中,所述擴展文本資訊組合組成模組可以包括如下子模組:分詞子模組,用於對所述第一文本資訊進行分詞處理,獲得文本分詞;索引子模組,用於對所述第二文本資訊建立倒排索引;第一查找子模組,用於在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;組成子模組,用於將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,所述擴展文本資訊組合組成模組還可以包括如下子模組:去重子模組,對所述文本分詞匹配的第二文本資訊進 行去重處理;所述組成子模組進一步可以包括如下子模組:去重組合子模組,用於將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
在本發明的一種較佳實施例中,所述第一文本資訊對應的類目可以包括第一子類目和第一父類目,所述第二文本資訊對應的類目可以包括第二子類目和第二父類目;所述特徵文本資訊組合提取模組可以包括如下子模組:第一獲取子模組,用於獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;第二查找子模組,用於查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;第二獲取子模組,用於獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;第三查找子模組,用於查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;提取子模組,用於提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/ 或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
在本發明實施例的一種較佳示例中,所述第二文本資訊可以對應有業務對象;可以通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值:RPM1=ASN* CPC
其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
在本發明實施例的一種較佳示例中,所述有限數量的第一文本資訊可以包括在一定時間範圍內獲得的查詢詞,所述有限數量的第二文本資訊可以包括在一定時間內獲得的競價詞。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲 存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media),如調變的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖 中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本進步性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二 等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種文本資訊的匹配方法、一種業務對象的推送方法、一種文本資訊的匹配和一種業務對象的推送裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (15)

  1. 一種文本資訊的匹配方法,包括:獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;以及按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者,其中,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者的步驟包括:按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合。
  2. 根據申請專利範圍第1項所述的方法,其中,所述按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者的步驟包括:計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;以及將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
  3. 根據申請專利範圍第2項所述的方法,其中,所述按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合的步驟包括:對所述第一文本資訊進行分詞處理,獲得文本分詞;對所述第二文本資訊建立倒排索引;在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;以及將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
  4. 根據申請專利範圍第3項所述的方法,其中,所述按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合的步驟還包括:對所述文本分詞匹配的第二文本資訊進行去重處理;所述將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合的步驟包括:將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
  5. 根據申請專利範圍第2項所述的方法,其中,所述第一文本資訊對應的類目包括第一子類目和第一父類目,所述第二文本資訊對應的類目包括第二子類目和第二父類目;所述從所述擴展文本資訊組合中提取特徵文本資訊組合的步驟包括:獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;以及提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
  6. 根據申請專利範圍第2項所述的方法,其中,所述第二文本資訊對應有業務對象;通過以下公式計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值:RPM1=ASN* CPC其中,RPM1為特徵值,ASN為所述業務對象對應的用戶深度,CPC為所述業務對象對應的權重。
  7. 根據申請專利範圍第1項所述的方法,其中,所述有限數量的第一文本資訊包括在一定時間範圍內獲得的查詢詞,所述有限數量的第二文本資訊包括在一定時間內獲得的競價詞。
  8. 一種業務對象的推送方法,包括:接收客戶端側提交的第一文本資訊;確定所述第一文本資訊映射的第二文本資訊;所述第二文本資訊對應有業務對象;以及將所述業務對象推送至客戶端側;其中,所述第一文本資訊與所述第二文本資訊通過以下方式確定映射關係:獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;以及按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者,其中,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者的步驟包括:按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合。
  9. 根據申請專利範圍第8項所述的方法,其中,所述確定所述第一文本資訊映射的第二文本資訊的步驟包括:線上計算所述第一文本資訊映射的第二文本資訊。
  10. 根據申請專利範圍第8項所述的方法,其中,所述確定所述第一文本資訊映射的第二文本資訊的步驟包括:在預置的映射關係字典中查找所述第一文本資訊映射的第二文本資訊;其中,所述映射關係字典為離線計算所述第一文本資訊映射的第二文本資訊所產生的字典。
  11. 一種文本資訊的匹配裝置,包括:文本資訊獲取單元,用於獲取待匹配的第一文本資訊集合和第二文本資訊集合;所述第一文本資訊集合包括有限數量的第一文本資訊,所述第二文本資訊集合包括有限數量的第二文本資訊;文本資訊匹配單元,用於按照預置的規則查詢出與所述有限數量的第一文本資訊中的每一者相匹配的所述有限數量的第二文本資訊中的一者或者多者,其中,所述第一文本資訊和所述第二文本資訊具有對應的類目;所述文本資訊匹配單元包括:擴展文本資訊組合組成模組,用於按照預置的組合規則將所述第一文本資訊和所述第二文本資訊組成擴展文本資訊組合;特徵文本資訊組合提取模組,用於從所述擴展文本資訊組合中提取特徵文本資訊組合,所述特徵文本資訊組合為類目匹配的第一文本資訊和第二文本資訊所組成的擴展文本資訊組合。
  12. 根據申請專利範圍第11項所述的裝置,其中,所述文本資訊匹配單元包括:特徵值計算模組,用於計算所述特徵文本資訊組合所包含的第二文本資訊的特徵值;映射關係設置模組,用於將特徵值順序排序在前的一個或多個第二文本資訊及對應的第一文本資訊,設置為相互映射的第一文本資訊和第二文本資訊。
  13. 根據申請專利範圍第12項所述的裝置,其中,所述擴展文本資訊組合組成模組包括:分詞子模組,用於對所述第一文本資訊進行分詞處理,獲得文本分詞;索引子模組,用於對所述第二文本資訊建立倒排索引;第一查找子模組,用於在所述倒排索引中查找與所述文本分詞匹配的第二文本資訊;組成子模組,用於將所述文本分詞所屬的第一文本資訊,與所述匹配的第二文本資訊組成擴展文本資訊組合。
  14. 根據申請專利範圍第13項所述的裝置,其中,所述擴展文本資訊組合組成模組還包括:去重子模組,對所述文本分詞匹配的第二文本資訊進行去重處理;所述組成子模組包括:去重組合子模組,用於將所述文本分詞所屬的第一文本資訊,與所述去重處理之後的第二文本資訊組成擴展文本資訊組合。
  15. 根據申請專利範圍第12項所述的裝置,其中,所述第一文本資訊對應的類目包括第一子類目和第一父類目,所述第二文本資訊對應的類目包括第二子類目和第二父類目;所述特徵文本資訊組合提取模組包括:第一獲取子模組,用於獲取所述擴展文本資訊中包含的第一文本資訊對應的,置信度順序排序在前的一個或多個第一子類目;第二查找子模組,用於查找所述一個或多個第一子類目所屬的,置信度順序排序在前的一個或多個第一父類目;第二獲取子模組,用於獲取所述擴展文本資訊中包含的第二文本資訊對應的,置信度順序排序在前的一個或多個第二子類目;第三查找子模組,用於查找所述一個或多個第二子類目所屬的,置信度順序排序在前的一個或多個第二父類目;提取子模組,用於提取所述第一子類目與所述第二子類目,和/或,所述第一子類目與所述第二父類目,和/或,所述第一父類目與所述第二子類目匹配的擴展文本資訊組合,作為特徵文本資訊組合。
TW103134249A 2014-06-05 2014-10-01 文本資訊的匹配、業務對象的推送方法和裝置 TWI652584B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410247068.XA CN105183733A (zh) 2014-06-05 2014-06-05 一种文本信息的匹配、业务对象的推送方法和装置
??201410247068.X 2014-06-05

Publications (2)

Publication Number Publication Date
TW201546633A TW201546633A (zh) 2015-12-16
TWI652584B true TWI652584B (zh) 2019-03-01

Family

ID=54767401

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103134249A TWI652584B (zh) 2014-06-05 2014-10-01 文本資訊的匹配、業務對象的推送方法和裝置

Country Status (4)

Country Link
US (1) US20150356072A1 (zh)
CN (1) CN105183733A (zh)
TW (1) TWI652584B (zh)
WO (1) WO2015188006A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI703459B (zh) * 2019-07-25 2020-09-01 中華電信股份有限公司 用於可定址索引之搜尋系統及搜尋方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919542B (zh) * 2015-12-24 2020-04-21 北京国双科技有限公司 规则匹配方法及装置
CN106934409B (zh) * 2015-12-29 2021-04-20 优信拍(北京)信息科技有限公司 一种数据匹配方法及装置
US10565627B2 (en) * 2015-12-30 2020-02-18 Google Llc Systems and methods for automatically generating remarketing lists
US10606899B2 (en) * 2016-05-23 2020-03-31 International Business Machines Corporation Categorically filtering search results
CN106250490A (zh) * 2016-08-01 2016-12-21 乐视控股(北京)有限公司 一种文本基因提取方法、装置及电子设备
CN108241713B (zh) * 2016-12-27 2021-12-28 南京烽火星空通信发展有限公司 一种基于多元切分的倒排索引检索方法
CN108363707B (zh) * 2017-01-26 2020-01-24 百度在线网络技术(北京)有限公司 用于生成网页的方法和装置
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
CN110019162B (zh) * 2017-12-04 2021-07-06 北京京东尚科信息技术有限公司 实现属性归一的方法和装置
JP6977565B2 (ja) * 2018-01-04 2021-12-08 富士通株式会社 検索結果出力プログラム、検索結果出力装置および検索結果出力方法
CN110580276B (zh) * 2018-06-08 2022-06-28 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN109460458B (zh) * 2018-10-29 2020-09-29 清华大学 查询改写意图的预测方法及装置
CN109582863B (zh) * 2018-11-19 2020-08-04 珠海格力电器股份有限公司 一种推荐方法及服务器
US11068541B2 (en) 2019-02-15 2021-07-20 International Business Machines Corporation Vector string search instruction
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN111782773B (zh) * 2020-08-20 2024-03-22 支付宝(杭州)信息技术有限公司 基于级连模式的文本匹配方法及装置
CN113505194B (zh) * 2021-06-15 2022-09-13 北京三快在线科技有限公司 改写词生成模型的训练方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010014868A1 (en) * 1997-12-05 2001-08-16 Frederick Herz System for the automatic determination of customized prices and promotions
US8611919B2 (en) * 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US9129312B1 (en) * 2004-08-25 2015-09-08 Amazon Technologies, Inc. Bidding on pending, query term-based advertising opportunities
US7921106B2 (en) * 2006-08-03 2011-04-05 Microsoft Corporation Group-by attribute value in search results
US8918328B2 (en) * 2008-04-18 2014-12-23 Yahoo! Inc. Ranking using word overlap and correlation features
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8260680B2 (en) * 2008-12-18 2012-09-04 Yahoo! Inc. System and method for a data driven meta-auction mechanism for sponsored search
US20110035259A1 (en) * 2009-08-07 2011-02-10 Yahoo! Inc. Cost and participation models for exchange third-party integration in online advertising
US20110040616A1 (en) * 2009-08-14 2011-02-17 Yahoo! Inc. Sponsored search bid adjustment based on predicted conversion rates
US8631004B2 (en) * 2009-12-28 2014-01-14 Yahoo! Inc. Search suggestion clustering and presentation
CN102799591B (zh) * 2011-05-26 2015-03-04 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置
US9104960B2 (en) * 2011-06-20 2015-08-11 Microsoft Technology Licensing, Llc Click prediction using bin counting
KR101783721B1 (ko) * 2011-09-27 2017-10-11 네이버 주식회사 대역 ip를 이용한 집단 타겟팅 시스템 및 그 방법
US9152698B1 (en) * 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
CN103577432B (zh) * 2012-07-26 2017-07-14 阿里巴巴集团控股有限公司 一种商品信息搜索方法和系统
US9430782B2 (en) * 2012-12-17 2016-08-30 Facebook, Inc. Bidding on search results for targeting users in an online system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI703459B (zh) * 2019-07-25 2020-09-01 中華電信股份有限公司 用於可定址索引之搜尋系統及搜尋方法

Also Published As

Publication number Publication date
US20150356072A1 (en) 2015-12-10
CN105183733A (zh) 2015-12-23
TW201546633A (zh) 2015-12-16
WO2015188006A1 (en) 2015-12-10

Similar Documents

Publication Publication Date Title
TWI652584B (zh) 文本資訊的匹配、業務對象的推送方法和裝置
US10042896B2 (en) Providing search recommendation
CN104424291B (zh) 一种对搜索结果进行排序的方法及装置
WO2018014759A1 (zh) 一种聚类数据表的展现方法、装置和系统
CN105765573B (zh) 网站通信量优化方面的改进
TW201805839A (zh) 資料處理方法、設備及系統
TW201423450A (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
TW201319842A (zh) 搜尋方法、搜尋裝置及搜尋引擎系統
US20130339369A1 (en) Search Method and Apparatus
CN108304444A (zh) 信息查询方法及装置
TW201923629A (zh) 資料處理方法及裝置
García-Moya et al. Storing and analysing voice of the market data in the corporate data warehouse
US20140006369A1 (en) Processing structured and unstructured data
Moya et al. Integrating web feed opinions into a corporate data warehouse
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN104123285A (zh) 搜索结果的导航方法及装置
CN111625718A (zh) 一种基于用户搜索关键词数据的用户画像构建方法
CN107665442B (zh) 获取目标用户的方法及装置
CN103226601A (zh) 一种图片搜索的方法和装置
CN113343095A (zh) 一种模型训练以及信息推荐方法及装置
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
CN110309189B (zh) 实体词的热度获取方法及装置
TWI547888B (zh) A method of recording user information and a search method and a server
Li et al. Research on hot news discovery model based on user interest and topic discovery
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs