TW201732655A - 目標特徵資料的挖掘方法和其裝置 - Google Patents

目標特徵資料的挖掘方法和其裝置 Download PDF

Info

Publication number
TW201732655A
TW201732655A TW106102683A TW106102683A TW201732655A TW 201732655 A TW201732655 A TW 201732655A TW 106102683 A TW106102683 A TW 106102683A TW 106102683 A TW106102683 A TW 106102683A TW 201732655 A TW201732655 A TW 201732655A
Authority
TW
Taiwan
Prior art keywords
feature
feature data
frequency
data
filtering
Prior art date
Application number
TW106102683A
Other languages
English (en)
Inventor
Jun Zhou
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201732655A publication Critical patent/TW201732655A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施例提供了一種目標特徵資料的挖掘方法和裝置,該方法包括:對第一特徵資料統計特徵頻次;根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。本發明實施例基本不影響模型的性能,在保證機器學習的效果的同時,大大減少了特徵的數量,從而大大減少所需的機器數量、資源數量,大大減少訓練的時間、提高訓練的速度,從而大大降低了訓練成本。

Description

目標特徵資料的挖掘方法和其裝置
本發明涉及計算機處理的技術領域,特別是涉及一種目標特徵資料的挖掘方法和一種目標特徵資料的挖掘裝置。
機器學習(Machine Learning,ML)是一門多領域交叉學科,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科,主要用於人工智慧,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
資料和特徵是機器學習中尤為重要的兩個方面,他們很大程度上影響了機器學習的效果。
以預估某資訊的點擊率(CTR,Click through rate)為例,CTR的預估至少需要兩方面的資料,一方面是資訊本身的資料,另一方面是用戶的資料,假設採集了所有的資料,那麼可以利用這些資料評估用戶點擊這個資訊的可能性(也就是機率)。
資訊的特徵是比較多的,如資訊大小、資訊文本、資 訊所屬行業、資訊圖片等等,用戶資料的特徵也是比較多的,如用戶的年齡、性別、地域、職業、學校、手機平臺等等,此外,還有反饋的特徵,如每個資訊的實時CTR等等。
但是,提升CTR是個長期的過程,用戶在變,資訊的創意也在變,因此會一直在增加的新特徵。
再考慮到大量的ID類特徵跟其他特徵進行交叉,即ID類特徵跟其他特徵相乘,可能達到百億資料量甚至千億資料量的特徵。
假設有10萬個ID類特徵,有10萬個資訊,兩者進行交叉,即直接相乘就得到了100億特徵規模。
海量的特徵,使用機器學習進行訓練,往往需要上萬台機器,佔用大量資源,不間斷訓練一天甚至更長的時間,訓練速度慢、資源消耗大從而導致訓練成本極高。
目前,為降低特徵的數量,一般會預先設定一個頻次閾值,凡頻次小於該頻次閾值的特徵,全部過濾。
這種方式籠統地過濾特徵,可能會把大量有效的特徵過濾掉,從而造成機器學習的效果顯著下降。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種目標特徵資料的挖掘方法和相應的一種目標特徵資料的挖掘裝置。
為了解決上述問題,本發明實施例公開了一種目標特 徵資料的挖掘方法,包括:對第一特徵資料統計特徵頻次;根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
較佳地,還包括:採用所述目標特徵資料訓練指定的模型。
較佳地,所述對第一特徵資料統計特徵頻次的步驟包括:將第一特徵資料分配至一個或多個第一工作節點;由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
較佳地,所述根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料的步驟包括:當所述第一特徵資料的特徵頻次小於預設的低頻閾值時,確定所述第一特徵資料為低頻特徵資料;過濾所述第一特徵資料,獲得第二特徵資料。
較佳地,所述根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料的步驟包括: 將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併過濾獲得的第二特徵資料和特徵頻次。
較佳地,所述根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料的步驟包括:對所述第二特徵資料配置一隨機數值;當所述第二特徵資料的特徵頻次與所述隨機數值的乘積小於預設的中頻閾值時,確定所述第二特徵資料為中頻特徵資料;過濾所述第二特徵資料,獲得目標特徵資料。
較佳地,所述根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料的步驟包括:將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資料,獲得目標 特徵資料;由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
較佳地,還包括:採用第一原始特徵資料訓練第一測試模型;採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;當所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所述第一候選閾值為低頻閾值。
較佳地,還包括:採用第二原始特徵資料訓練第三測試模型;採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型;計算第一特徵機率和第二特徵機率;當所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值;其中,所述第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在所述第三測試模型的分數的機 率;所述第二特徵機率為正樣本在所述第四測試模型的分數大於,負樣本在所述第四測試模型的分數的機率。
本發明實施例還公開了一種目標特徵資料的挖掘裝置,包括:特徵頻次統計模組,用於對第一特徵資料統計特徵頻次;低頻特徵過濾模組,用於根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;中頻特徵過濾模組,用於根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
較佳地,還包括:模型訓練模組,用於採用所述目標特徵資料訓練指定的模型。
較佳地,所述特徵頻次統計模組包括:第一分配子模組,用於將第一特徵資料分配至一個或多個第一工作節點;頻次統計子模組,用於由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;第一傳輸子模組,用於由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;第一合併子模組,用於由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
較佳地,所述低頻特徵過濾模組包括:低頻特徵確定子模組,用於在所述第一特徵資料的特徵頻次小於預設的低頻閾值時,確定所述第一特徵資料為低頻特徵資料;第二特徵資料獲得子模組,用於過濾所述第一特徵資料,獲得第二特徵資料。
較佳地,所述低頻特徵過濾模組包括:第二分配子模組,用於將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第一過濾子模組,用於由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;第二傳輸子模組,用於由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;第二合併子模組,用於由所述第二工作節點合併過濾獲得的第二特徵資料和特徵頻次。
較佳地,所述中頻特徵過濾模組包括:隨機數值配置子模組,用於對所述第二特徵資料配置一隨機數值;中頻特徵確定子模組,用於在所述第二特徵資料的特徵頻次與所述隨機數值的乘積小於預設的中頻閾值時,確定所述第二特徵資料為中頻特徵資料;目標特徵資料獲得子模組,用於過濾所述第二特徵資料,獲得目標特徵資料。
較佳地,所述中頻特徵過濾模組包括:第三分配子模組,用於將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第二過濾子模組,用於由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料;第三傳輸子模組,用於由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;第三合併子模組,用於由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
較佳地,還包括:第一測試模型訓練模組,用於採用第一原始特徵資料訓練第一測試模型;第二測試模型訓練模組,用於採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;測試模組,用於對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;低頻閾值確定模組,用於在所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所述第一候選閾值為低頻閾值。
較佳地,還包括:第三測試模型訓練模組,用於採用第二原始特徵資料訓練第三測試模型; 第四測試模型訓練模組,用於採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型;機率計算子模組,用於計算第一特徵機率和第二特徵機率;中頻閾值確定模組,用於在所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值;其中,所述第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在所述第三測試模型的分數的機率;所述第二特徵機率為正樣本在所述第四測試模型的分數大於,負樣本在所述第四測試模型的分數的機率。
本發明實施例包括以下優點:本發明實施例過濾低頻特徵資料至少部分中頻特徵資料,獲得的目標特徵資料具有高頻特徵資料,可能具有部分中頻特徵資料,基於這樣的目標特徵資料訓練模型,基本不影響模型的性能,在保證機器學習的效果的同時,大大減少了特徵的數量,從而大大減少所需的機器數量、資源數量,大大減少訓練的時間、提高訓練的速度,從而大大降低了訓練成本。
201‧‧‧特徵頻次統計模組
202‧‧‧低頻特徵過濾模組
203‧‧‧中頻特徵過濾模組
圖1是本發明的一種目標特徵資料的挖掘方法實施例 的步驟流程圖;圖2是本發明的一種目標特徵資料的挖掘裝置實施例的結構框圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
參照圖1,示出了本發明的一種目標特徵資料的挖掘方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101,對第一特徵資料統計特徵頻次;在具體實現中,可以通過網路日誌採集源資料,如對源資料進行解析,去掉無意義的資訊,如字段“-”,獲得結構化的第一特徵資料,如用戶ID,用戶訪問的商品ID,訪問時間,用戶行為(如點擊,購買,評價),等等。
例如,網站日誌為:118.112.27.164---[24/Oct/2012:11:00:00+0800]"GET/b.jpg?cD17Mn0mdT17L2NoaW5hLmFsaWJhYmEuY29tL30mbT17R0VUfSZ zPXsyMDB9JnI9e2h0dHA6Ly9mdy50bWFsbC5jb20vP3NwbT0zLjE2OTQwN i4xOTg0MDEufSZhPXtzaWQ9MTdjMDM2MjEtZTk2MC00NDg0LWIwNTY tZDJkMDcwM2NkYmE4fHN0aW11PTEzNTEwNDc3MDU3OTZ8c2RhdGU9 MjR8YWxpX2FwYWNoZV9pZD0xMTguMTEyLjI3LjE2NC43MjU3MzI0Nz U5ODMzMS43fGNuYT0tfSZiPXstfSZjPXtjX3NpZ251ZD0wfQ==&pageid=7f 0000017f00000113511803054674156071647816&sys=ie6.0|windowsXP|1366* 768|zh-cn&ver=43&t=1351047705828 HTTP/1.0" 200-"Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1;SV1;.NET CLR 2.0.50727)" 118.112.27.164.135104760038.6 1^sid%3D17c03621-e960-4484-b056-d2d0703cdba8%7Cstime%3D1351047705796%7Csdate%3D24|cna=-^-^aid=118.112.27.164.72573247598331.7
過濾後獲得的結構化的第一特徵資料為:1,b2b-1633112210,1215596848,1,07/Aug/2013:08:27:22
在本發明實施例中,可以對第一特徵資料進行過濾,獲得目標特徵資料,以訓練指定的模型。
若第一特徵資料的數量較少,則可以在單個計算機中進行過濾,若第一特徵資料的數量較多,則可以在多個計算機中進行過濾,如分布式系統(Distributed System),Hadoop、ODPS(Open Data Processing Service)等等。
分布式系統可以指一個由多個互相連接的處理資源組成的計算機系統,它們在整個系統的控制下協同執行同一個任務,這些資源可以是地理上相鄰的,也可以是在地理上分散的。
為使本領域技術人員更好地理解本發明實施例,在本發明實施例中,將Hadoop作為分布式系統的一種實施例進行說明。
HadooP主要包括兩部分,一是分布式文件系統(HadooP Distributed File System,HDFS),另外是分布式計算框架,即MapReduce。
HDFS是一個高度容錯性的系統,能提供高吞吐量的資料訪問,適合那些有著超大資料集(large data set)的應用程序。
MapReduce是一套從海量源資料提取分析元素最後返回結果集的編程模型,其基本原理可以是將大的資料分析分成小塊逐個分析,最後再將提取出來的資料匯總分析。
在Hadoop中,用於執行MapReduce的機器角色有兩個:一個是JobTracker,另一個是TaskTracker。
其中,JobTracker可以用於調度工作,TaskTracker可以用於執行工作。
進一步而言,在Hadoop中TaskTracker可以指所述分布式系統的處理節點,該處理節點可以包括一個或多個映射(Map)節點和一個或多個化簡(Reduce)節點。
在分布式計算中,MapReduce負責處理了並行編程中分布式儲存、工作調度、負載均衡、容錯均衡、容錯處理以及網路通信等複雜問題,把處理過程高度抽象為兩個函數:映射函數(map函數)和規約函數(reduce函數),map函數可以把任務分解成多個任務,reduce函數可以把分解後的多任務處理的結果匯總起來。
在Hadoop中,每個MapReduce的任務可以被初始化為一個Job,每個Job又可以分為兩種階段:map階段和reduce階段。這兩個階段分別用兩個函數表示,即map函數和reduce函數。
map函數可以接收一個<key,value>形式的輸入 (Input),然後同樣產生一個<key,value>形式的中間輸出(Output),Hadoop函數可以接收一個如<key,(list of values)>形式的輸入(Input),然後對這個value集合進行處理,每個reduce函數產生0或1個輸出(Output),reduce函數的輸出也是<key,value>形式的。
在具體實現中,可以提取預先採集的第一特徵資料統計特徵頻次,即該第一特徵資料的數量,進而基於該特徵頻次進行過濾。
在本發明的一個實施例中,步驟101可以包括如下子步驟:子步驟S11,將第一特徵資料分配至一個或多個第一工作節點;在分布式系統中,具有第一工作節點和第二工作節點進行過濾。
例如,在Hadoop、ODPS等分布式系統中,第一工作節點為Map節點,第二工作節點為Reduce節點。
為了保證統計的完整性,在分配第一特徵資料時,一般保證每個第一工作節點(如Map節點)上分配的第一特徵資料資料都不重疊、即彼此不相同。
需要說明的是,第一特徵資料可以為資料ID的形式進行表示。
假設有三個第一特徵資料,userid1、userid2和userid3,第一工作節點A分配到第一特徵資料為userid1,第一工作節點B分配到的第一特徵資料為 userid2和userid3,並不分配userid1。
在實際應用中,以哈希取餘(hash(x)%N)分配法為例,每個第一工作節點(如Map節點)配置有序號,對每個第一特徵資料計算一個哈希值,然後將該哈希值除以一個指定的值,取餘數,將該第一特徵資料分配至序號的值與該餘數相同的第一工作節點(如Map節點)中。
當然,上述分配方法只是作為示例,在實施本發明實施例時,可以根據實際情況設置其他分配方法,如隨機分配法(random(x)%N)等,本發明實施例對此不加以限制。
子步驟S12,由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;子步驟S13,由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;在本發明實施例中,第一工作節點(如Map節點)可以對所分配的第一特徵資料進行統計,獲得其特徵頻次,透傳至第二工作節點(如Reduce節點)中。
例如,定義映射函數(map函數)為統計第一特徵資料的特徵頻次。
其中,統計結果的資料格式可以為(第一特徵資料,特徵頻次)。
子步驟S14,由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
在第二工作節點(如Reduce節點)中,可以對第一 工作節點(如Map節點)的統計結果進行合併,獲得最終的結果。
例如,定義規約函數(reduce函數)為合併Map節點的統計結果。
其中,合併結果的資料格式可以為(第一特徵資料,特徵頻次)。
步驟102,根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;在本發明實施例中,可以按照特徵頻次,將第一特徵資料劃分出低頻特徵資料、中頻特徵資料和高頻特徵資料。
其中,低頻特徵資料,可以指特徵頻次最低的、佔據第一特徵資料總量第一比例的特徵資料;中頻特徵資料,可以指特徵頻次較高(高於低頻特徵資料的特徵頻次、低於高頻特徵資料的特徵頻次)的、佔據第一特徵資料總量第二比例的特徵資料;高頻特徵資料,可以指特徵頻次最高的、佔據第一特徵資料總量第三比例的特徵資料;由於低頻特徵資料、中頻特徵資料和高頻特徵資料為各不相同的特徵資料,因此,若第一特徵資料中僅包括低頻特徵資料、中頻特徵資料和高頻特徵資料,對於中頻特徵資料,可以認為是在第一特徵資料中、除低頻特徵資料和高頻特徵資料之外的特徵資料。
當然,上述特徵資料的劃分方式只是作為示例,在實 施本發明實施例時,可以根據實際情況設置其他特徵資料的劃分方式,如超低頻特徵資料、低頻特徵資料、中頻特徵資料、高頻特徵資料、超高頻特徵資料等等,本發明實施例對此不加以限制。另外,除了上述特徵資料的劃分方式外,本領域技術人員還可以根據實際需要採用其它特徵資料的劃分方式,本發明實施例對此也不加以限制。
應用本發明實施例,可以預先訓練低頻閾值,用於過濾低頻特徵資料。
具體而言,當第一特徵資料的特徵頻次小於預設的低頻閾值時,確定第一特徵資料為低頻特徵資料,則可以過濾該第一特徵資料,獲得第二特徵資料。
由於過濾了低頻特徵資料,那麼,第二特徵資料中包括中頻特徵資料和高頻特徵資料。
假設有5個第一特徵資料及其特徵頻次:(f1,2)、(f2,4)、(f3,7)、(f4,8)、(f5,9)
若過濾第一特徵資料中占第一特徵資料總數量20%-25%的低頻特徵資料,則可以設置低頻閾值為3,這樣第一特徵資料f1會被過濾掉。
需要說明的是,在不同領域中,低頻閾值也有所不同,並且,其第一比例不同也會使得低頻閾值也有所不同,因此,本領域技術人員可以根據實際情況設定低頻閾值,本發明實施例對此不加以限制。
在本發明的一個實施例中,可以通過如下方式訓練低頻閾值: 子步驟S21,採用第一原始特徵資料訓練第一測試模型;所謂第一原始特徵資料,實質也為特徵資料,具有特徵頻次,在本發明實施例中,可以指未過濾低頻特徵資料的源資料,其包括低頻特徵資料、中頻特徵資料、高頻特徵資料。
對於未過濾低頻特徵資料的原始特徵資料,可以進行機器學習,訓練得到第一測試模型。
子步驟S22,採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;在具體實現中,可以預先設定第一候選閾值,作為原始的低頻閾值。
從第一原始特徵資料中過濾特徵頻次小於第一候選閾值的特徵頻次,視為從原始特徵資料過濾了低頻特徵。
採用過濾了低頻特徵的第一原始特徵資料進行機器學習,訓練得到第二測試模型。
子步驟S23,對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;子步驟S24,當所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所述第一候選閾值為低頻閾值。
所謂A/B測試(A/B Testing),可以指為同一個目標(如低頻閾值)制定A、B兩個方案(如,第一測試模型、第二測試模型),讓一部分用戶使用A方案,另一 部分用戶使用B方案,記錄下用戶的使用情況(如在第一測試模型進行測試獲得第一分數,在第二測試模型進行測試獲得第二分數),判斷哪個方案更符合目標。
以網頁資訊為例,採用第一測試模型提取第一網頁資訊(如廣告資料、新聞資料等),採用第二測試模型提取第二網頁資訊(如廣告資料、新聞資料等)。
對於訪問的客戶端,按照50%的機率選擇第一測試模型或者第二測試模型進行服務,即展示第一網頁資訊、第二網頁資訊。
記錄第一網頁資訊的第一點擊機率作為第一分數,記錄第二網頁資訊的第二點擊率作為第二分數。
若第一分數和第二分數弱相等(即兩者差值小於預設的第一差距閾值),則可以認為該第一候選閾值適合作為低頻閾值,否則,選取新的第一候選閾值,重新進行訓練。
在本發明的一個實施例中,步驟102可以包括如下子步驟:子步驟S31,將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;在分布式系統中,具有第一工作節點和第二工作節點進行過濾。
例如,在Hadoop、ODPS等分布式系統中,第一工作節點為Map節點,第二工作節點為Reduce節點。
在本發明實施例,可以通過哈希取餘(hash(x) %N)分配法、隨機分配法(random(x)%N)等方式,將第一特徵資料及特徵頻次分配至一個或多個第一工作節點。
需要說明的是,第一特徵資料可以為資料ID的形式進行表示。
子步驟S32,由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;子步驟S33,由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;在本發明實施例中,第一工作節點(如Map節點)可以從所分配的第一特徵資料過濾低頻特徵,獲得第二特徵資料,透傳至第二工作節點(如Reduce節點)中。
例如,定義映射函數(map函數)為當第一特徵資料的特徵頻次小於預設的低頻閾值時,確定第一特徵資料為低頻特徵資料,過濾該第一特徵資料。
其中,過濾結果的資料格式可以為(第二特徵資料,特徵頻次)。
需要說明的是,由於第一特徵資料及其特徵頻次是配對的,因此,過濾了低頻特徵資料,其特徵頻次也會一同過濾,所保留的第二特徵資料,其特徵頻次也會一同保留。
子步驟S34,由所述第二工作節點合併過濾獲得的第二特徵資料和特徵頻次。
在第二工作節點(如Reduce節點)中,可以對第一工作節點(如Map節點)的過濾結果進行合併,獲得最終的結果。
例如,定義規約函數(reduce函數)為合併Map節點的過濾結果。
其中,合併結果的資料格式可以為(第二特徵資料,特徵頻次)。
步驟103,根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
由於中頻特徵資料對於模型訓練是有用的,因此在本發明實施例中,可以通過隨機的方式從第二特徵資料過濾中頻特徵資料。
至於哪部分會被過濾掉,是隨機的,即平等對待中頻特徵資料。
過濾之後剩餘的目標特徵資料除了包括高頻特徵資料,可能包括中頻特徵資料,也可能不包括中頻特徵資料。
應用本發明實施例,預先訓練中頻閾值,用於過濾中頻特徵資料。
具體而言,可以通過泊松分佈(poission分佈)等方式對第二特徵資料配置一隨機數值(即隨機產生的數值)。
當第二特徵資料的特徵頻次與隨機數值的乘積小於預設的中頻閾值時,則可以確定該第二特徵資料為中頻特徵 資料,過濾該第二特徵資料,獲得目標特徵資料。
以泊松分佈(poission分佈)為例,由於泊松分佈(poission分佈)可以產生(0,1)之間的浮點數作為隨機數值,因此,可以以0.1作為中頻特徵,符合以下公式的第二特徵資料可以認為是中頻特徵:特徵頻次*p<0.1
其中,P為泊松分佈產生的隨機數值。
需要說明的是,在不同領域中,中頻閾值也有所不同,並且,其第二比例不同也會使得低頻閾值也有所不同,因此,本領域技術人員可以根據實際情況設定中頻閾值,本發明實施例對此不加以限制。
在本發明的一個實施例中,可以通過如下方式訓練低頻閾值:子步驟S41,採用第二原始特徵資料訓練第三測試模型;所謂第二原始特徵資料,實質也為特徵資料,具有特徵頻次,在本發明實施例中,可以指未過濾中頻特徵資料的源資料,其包括低頻特徵資料、中頻特徵資料、高頻特徵資料。
對於未過濾中頻特徵資料的第二原始特徵資料,可以進行機器學習,訓練得到第三測試模型。
子步驟S42,採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型; 在具體實現中,可以預先設定第二候選閾值,作為原始的中頻閾值。
從第二原始特徵資料中過濾特徵頻次與隨機數值的乘積小於第二候選閾值的特徵頻次,視為從原始特徵資料過濾了中頻特徵。
採用過濾了中頻特徵的第二原始特徵資料進行機器學習,訓練得到第四測試模型。
子步驟S43,計算第一特徵機率和第二特徵機率;子步驟S44,當所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值。
在具體實現中,可以提取測試資料(包括正樣本、負樣本),對第三測試模型和第四測試模型計算AUC(Area under Curve)值。
其中,AUC值為Roc(Receiver Operating Characteristic)曲線下的面積,介於0.1和1之間,可以直觀的評價分類器的好壞,一般AUC值越大,分類器的性能越好。
具體而言,AUC值是一個機率值,當隨機挑選一個正樣本以及負樣本,當前的分類器根據計算得到的Score值(分數值)將這個正樣本排在負樣本前面的機率就是AUC值。
一般而言,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。
那麼,在本發明實施例中,第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在第三測試模型的分數的機率;第二特徵機率為正樣本在第四測試模型的分數大於,負樣本在第四測試模型的分數的機率。
因此,在計算AUC的值時,使用AUC的一個性質(它和Wilcoxon-Mann-Witney Test是等價的)來進行計算。
Wilcoxon-Mann-Witney Test就是測試任意給一個正類樣本和一個負類樣本,正類樣本的score有多大的機率大於負類樣本的score。
方法一:統計所有的M×N(M為正樣本的數目,N為負樣本的數目)個正負樣本對中,有多少個組中的正樣本的score大於負樣本的score。
當二元組中正負樣本的score相等的時候,按照0.5計算,然後除以MN:
方法二:對score從大到小排序,然後令最大score對應的sample的rank為n,第二大score對應sample的rank為n-1,以此類推。
把所有的正樣本的rank相加,再減去正樣本的score 為最小的那M個值的情況。得到的就是所有的樣本中有多少對正樣本的score大於負樣本的score,再除以M×N:AUC=((所有的正例位置相加)-M*(M+1))/(M*N)
若第一特徵機率和第二特徵機率弱相等(即兩者差值小於預設的第二差距閾值),則可以認為該第二候選閾值適合作為中頻閾值,否則,選取新的第二候選閾值,重新進行訓練。
在本發明的一個實施例中,步驟103可以包括如下子步驟:子步驟S51,將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;在分布式系統中,具有第一工作節點和第二工作節點進行過濾。
例如,在Hadoop、ODPS等分布式系統中,第一工作節點為Map節點,第二工作節點為Reduce節點。
在本發明實施例,可以通過哈希取餘(hash(x)%N)分配法、隨機分配法(random(x)%N)等方式,將第一特徵資料及特徵頻次分配至一個或多個第一工作節點。
需要說明的是,第一特徵資料可以為資料ID的形式進行表示。
子步驟S52,由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資 料,獲得目標特徵資料;子步驟S53,由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;在本發明實施例中,第一工作節點(如Map節點)可以從所分配的第二特徵資料過濾中頻特徵,獲得目標特徵資料,透傳至第二工作節點(如Reduce節點)中。
例如,定義映射函數(map函數)為當第二特徵資料的特徵頻次與隨機數值的乘積小於預設的中頻閾值時,確定第二特徵資料為中頻特徵資料,則過濾該第二特徵資料。
其中,過濾結果的資料格式可以為(目標特徵資料,特徵頻次)。
需要說明的是,由於第二特徵資料及其特徵頻次是配對的,因此,過濾了中頻特徵資料,其特徵頻次也會一同過濾,所保留的目標特徵資料,其特徵頻次也會一同保留。
子步驟S54,由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
在第二工作節點(如Reduce節點)中,可以對第一工作節點(如Map節點)的過濾結果進行合併,獲得最終的結果。
例如,定義規約函數(reduce函數)為合併Map節點的過濾結果。
其中,合併結果的資料格式可以為(目標特徵資料, 特徵頻次)。
對於過濾了低頻特徵資料和至少部分中頻特徵資料的目標特徵資料,可以採用該目標特徵資料訓練指定的模型,例如,SVM((Support Vector Machine,支持向量機),邏輯回歸模型,深度學習DP模型,等等,本發明實施例對此不加以限制。
很多情況下,低頻特徵資料、中頻特徵資料的數量大約佔據特徵資料總數的80%-90%,高頻特徵資料大約佔據特徵資料總數的10%-20%。
所以,理想情況下,僅保留10%-20%的高頻特徵資料,即可訓練模型。
但是,很多中頻特徵資料能夠比較好捕獲用戶長尾需求,往往不能直接丟棄。
至於低頻特徵資料,出現頻率很低,在特徵資料的總量很大的情況下,過濾後對模型性能基本沒有影響。
例如,決定用戶是否要買一本書,可以考慮的特徵資料非常多,包括:低頻特徵資料:天氣;中頻特徵資料:書的封面;高頻特徵資料:書的質量。
實際上,大多數用戶購書基本不考慮天氣,較少考慮書的封面,而著重考慮書的質量。
因此,過濾天氣這個低頻特徵資料或者書的封面這個中頻特徵資料,保留書的質量這個高頻特徵資料或者書的 封面這個中頻特徵資料,對訓練購書模型的性能基本沒有影響。
由此可見,獲取到的是整個群體的特徵,考慮群體中主要的特徵(如書的質量),而過濾次要的特徵(如天氣),對模型性能基本不會產生影響。
目前,通過一個頻次閾值過濾特徵,不區分低頻特徵資料、中頻特徵資料還是高頻特徵資料,籠統地過濾特徵,可能會把大量有效的特徵資料(如中頻特徵、甚至高頻特徵)過濾掉,從而造成機器學習的效果顯著下降。
本發明實施例過濾低頻特徵資料至少部分中頻特徵資料,獲得的目標特徵資料具有高頻特徵資料,可能具有部分中頻特徵資料,基於這樣的目標特徵資料訓練模型,基本不影響模型的性能,在保證機器學習的效果的同時,大大減少了特徵的數量,從而大大減少所需的機器數量、資源數量,大大減少訓練的時間、提高訓練的速度,從而大大降低了訓練成本。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。
參照圖2,示出了本發明的一種目標特徵資料的挖掘 裝置實施例的結構框圖,具體可以包括如下模組:特徵頻次統計模組201,用於對第一特徵資料統計特徵頻次;低頻特徵過濾模組202,用於根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;中頻特徵過濾模組203,用於根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
在本發明的一個實施例中,該裝置還可以包括如下模組:模型訓練模組,用於採用所述目標特徵資料訓練指定的模型。
在本發明的一個實施例中,所述特徵頻次統計模組201可以包括如下子模組:第一分配子模組,用於將第一特徵資料分配至一個或多個第一工作節點;頻次統計子模組,用於由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;第一傳輸子模組,用於由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;第一合併子模組,用於由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
在本發明的一個實施例中,所述低頻特徵過濾模組 202可以包括如下子模組:低頻特徵確定子模組,用於在所述第一特徵資料的特徵頻次小於預設的低頻閾值時,確定所述第一特徵資料為低頻特徵資料;第二特徵資料獲得子模組,用於過濾所述第一特徵資料,獲得第二特徵資料。
在本發明的另一個實施例中,所述低頻特徵過濾模組202可以包括如下子模組:第二分配子模組,用於將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第一過濾子模組,用於由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;第二傳輸子模組,用於由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;第二合併子模組,用於由所述第二工作節點合併過濾獲得的第二特徵資料和特徵頻次。
在本發明的一個實施例中,所述中頻特徵過濾模組203可以包括如下子模組:隨機數值配置子模組,用於對所述第二特徵資料配置一隨機數值;中頻特徵確定子模組,用於在所述第二特徵資料的特徵頻次與所述隨機數值的乘積小於預設的中頻閾值時,確定所述第二特徵資料為中頻特徵資料; 目標特徵資料獲得子模組,用於過濾所述第二特徵資料,獲得目標特徵資料。
在本發明的另一個實施例中,所述中頻特徵過濾模組203可以包括如下子模組:第三分配子模組,用於將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第二過濾子模組,用於由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料;第三傳輸子模組,用於由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;第三合併子模組,用於由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
在本發明的一個實施例中,該裝置還可以包括如下模組:第一測試模型訓練模組,用於採用第一原始特徵資料訓練第一測試模型;第二測試模型訓練模組,用於採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;測試模組,用於對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;低頻閾值確定模組,用於在所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所 述第一候選閾值為低頻閾值。
在本發明的一個實施例中,該裝置還可以包括如下模組:第三測試模型訓練模組,用於採用第二原始特徵資料訓練第三測試模型;第四測試模型訓練模組,用於採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型;機率計算子模組,用於計算第一特徵機率和第二特徵機率;中頻閾值確定模組,用於在所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值;其中,所述第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在所述第三測試模型的分數的機率;所述第二特徵機率為正樣本在所述第四測試模型的分數大於,負樣本在所述第四測試模型的分數的機率。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或計算機程序產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用儲存媒體(包括但不限於磁盤儲存器、CD-ROM、光學記憶體等)上實施的計算機程序產品的形式。
在一個典型的配置中,所述計算機設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和隨機存取記憶體。隨機存取記憶體可能包括計算機可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性隨機存取記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。隨機存取記憶體是計算機可讀媒體的示例。計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是計算機可讀指令、資料結構、程序的模組或其他資料。計算機的儲存媒體的例子包括,但不限於相變隨機存取記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他隨機存取記憶體技術、光碟唯讀記憶體(CD-ROM)、數字多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁盤儲存或其他磁性儲存設備或任何其他 非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,計算機可讀媒體不包括非持續性的電腦可讀媒體(transitory media),如調製的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可儲存在能引導計算機或其他可編程資料處理終端設備以特定方式工作的計算機可讀記憶體中,使得儲存在該計算機可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程資料處理終端設備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用於實 現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域習知技術者一旦得知了基本的進步性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的目標特徵資料的挖掘方法和目標特徵資料的挖掘裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思 想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (18)

  1. 一種目標特徵資料的挖掘方法,包括:對第一特徵資料統計特徵頻次;根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
  2. 根據申請專利範圍第1項的方法,其中,還包括:採用所述目標特徵資料訓練指定的模型。
  3. 根據申請專利範圍第1項的方法,其中,所述對第一特徵資料統計特徵頻次的步驟包括:將第一特徵資料分配至一個或多個第一工作節點;由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
  4. 根據申請專利範圍第1項的方法,其中,所述根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料的步驟包括:當所述第一特徵資料的特徵頻次小於預設的低頻閾值時,確定所述第一特徵資料為低頻特徵資料; 過濾所述第一特徵資料,獲得第二特徵資料。
  5. 根據申請專利範圍第1或2或3或4項的方法,其中,所述根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料的步驟包括:將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併過濾獲得的第二特徵資料和特徵頻次。
  6. 根據申請專利範圍第1項的方法,其中,所述根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料的步驟包括:對所述第二特徵資料配置一隨機數值;當所述第二特徵資料的特徵頻次與所述隨機數值的乘積小於預設的中頻閾值時,確定所述第二特徵資料為中頻特徵資料;過濾所述第二特徵資料,獲得目標特徵資料。
  7. 根據申請專利範圍第1或2或3或6項的方法,其中,所述根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料的步驟包括: 將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料;由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
  8. 根據申請專利範圍第1或4項的方法,其中,還包括:採用第一原始特徵資料訓練第一測試模型;採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;當所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所述第一候選閾值為低頻閾值。
  9. 根據申請專利範圍第1或6項的方法,其中,還包括:採用第二原始特徵資料訓練第三測試模型;採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型; 計算第一特徵機率和第二特徵機率;當所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值;其中,所述第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在所述第三測試模型的分數的機率;所述第二特徵機率為正樣本在所述第四測試模型的分數大於,負樣本在所述第四測試模型的分數的機率。
  10. 一種目標特徵資料的挖掘裝置,包括:特徵頻次統計模組,用於對第一特徵資料統計特徵頻次;低頻特徵過濾模組,用於根據所述特徵頻次過從所述第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;中頻特徵過濾模組,用於根據所述特徵頻次過從所述第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料。
  11. 根據申請專利範圍第10項的裝置,其中,還包括:模型訓練模組,用於採用所述目標特徵資料訓練指定的模型。
  12. 根據申請專利範圍第10項的裝置,其中,所述特徵頻次統計模組包括:第一分配子模組,用於將第一特徵資料分配至一個或 多個第一工作節點;頻次統計子模組,用於由所述第一工作節點統計所分配的第一特徵資料的特徵頻次;第一傳輸子模組,用於由所述第一工作節點將已統計的第一特徵資料和特徵頻次傳輸至第二工作節點;第一合併子模組,用於由所述第二工作節點合併已統計的第一特徵資料和特徵頻次。
  13. 根據申請專利範圍第10項的裝置,其中,所述低頻特徵過濾模組包括:低頻特徵確定子模組,用於在所述第一特徵資料的特徵頻次小於預設的低頻閾值時,確定所述第一特徵資料為低頻特徵資料;第二特徵資料獲得子模組,用於過濾所述第一特徵資料,獲得第二特徵資料。
  14. 根據申請專利範圍第10或11或12或13項的裝置,其中,所述低頻特徵過濾模組包括:第二分配子模組,用於將所述第一特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第一過濾子模組,用於由所述第一工作節點根據所分配的特徵頻次過從所分配的第一特徵資料過濾低頻特徵資料,獲得第二特徵資料;第二傳輸子模組,用於由所述第一工作節點將過濾獲得的第二特徵資料和特徵頻次傳輸至第二工作節點;第二合併子模組,用於由所述第二工作節點合併過濾 獲得的第二特徵資料和特徵頻次。
  15. 根據申請專利範圍第10項的裝置,其中,所述中頻特徵過濾模組包括:隨機數值配置子模組,用於對所述第二特徵資料配置一隨機數值;中頻特徵確定子模組,用於在所述第二特徵資料的特徵頻次與所述隨機數值的乘積小於預設的中頻閾值時,確定所述第二特徵資料為中頻特徵資料;目標特徵資料獲得子模組,用於過濾所述第二特徵資料,獲得目標特徵資料。
  16. 根據申請專利範圍第10或11或12或15項的裝置,其中,所述中頻特徵過濾模組包括:第三分配子模組,用於將所述第二特徵資料及所述特徵頻次分配至一個或多個第一工作節點;第二過濾子模組,用於由所述第二工作節點根據所分配的特徵頻次過從所分配的第二特徵資料過濾至少部分中頻特徵資料,獲得目標特徵資料;第三傳輸子模組,用於由所述第一工作節點將過濾獲得的目標特徵資料和特徵頻次傳輸至第二工作節點;第三合併子模組,用於由所述第二工作節點合併過濾獲得的目標特徵資料和特徵頻次。
  17. 根據申請專利範圍第10或13項的裝置,其中,還包括:第一測試模型訓練模組,用於採用第一原始特徵資料 訓練第一測試模型;第二測試模型訓練模組,用於採用過濾了特徵頻次小於第一候選閾值之後的第一原始特徵資料訓練第二測試模型;測試模組,用於對所述第一測試模型和所述第二測試模型進行A/B測試,獲得第一分數和第二分數;低頻閾值確定模組,用於在所述第一點擊率與所述第二點擊率之間的差值小於預設的第一差距閾值時,確認所述第一候選閾值為低頻閾值。
  18. 根據申請專利範圍第10或15項的裝置,其中,還包括:第三測試模型訓練模組,用於採用第二原始特徵資料訓練第三測試模型;第四測試模型訓練模組,用於採用過濾了特徵頻次與隨機數值的乘積小於第二候選閾值之後的第二原始特徵資料訓練第四測試模型;機率計算子模組,用於計算第一特徵機率和第二特徵機率;中頻閾值確定模組,用於在所述第一特徵機率與所述第二特徵機率之間的差值小於預設的第二差距閾值時,確認所述第二候選閾值為中頻閾值;其中,所述第一特徵機率為正樣本在所述第三測試模型的分數大於,負樣本在所述第三測試模型的分數的機率; 所述第二特徵機率為正樣本在所述第四測試模型的分數大於,負樣本在所述第四測試模型的分數的機率。
TW106102683A 2016-02-05 2017-01-24 目標特徵資料的挖掘方法和其裝置 TW201732655A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610082536.1A CN107045511B (zh) 2016-02-05 2016-02-05 一种目标特征数据的挖掘方法和装置

Publications (1)

Publication Number Publication Date
TW201732655A true TW201732655A (zh) 2017-09-16

Family

ID=59499365

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106102683A TW201732655A (zh) 2016-02-05 2017-01-24 目標特徵資料的挖掘方法和其裝置

Country Status (4)

Country Link
US (1) US20200272933A1 (zh)
CN (1) CN107045511B (zh)
TW (1) TW201732655A (zh)
WO (1) WO2017133568A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI773483B (zh) * 2021-08-12 2022-08-01 國立臺東專科學校 感測資料處理方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108226395B (zh) * 2017-12-28 2020-09-04 广东中联兴环保科技有限公司 工业园区大气环境突发性预警阈值确定方法及装置
WO2019218334A1 (en) * 2018-05-18 2019-11-21 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for user analysis
CN111353626B (zh) * 2018-12-21 2023-05-26 阿里巴巴集团控股有限公司 数据的审核方法、装置及设备
CN110825966B (zh) * 2019-10-31 2022-03-04 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
CN112906309B (zh) * 2021-03-30 2024-04-30 第四范式(北京)技术有限公司 机器学习模型的分布式训练方法、装置和系统
US11892989B2 (en) * 2022-03-28 2024-02-06 Bank Of America Corporation System and method for predictive structuring of electronic data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4811433B2 (ja) * 2007-09-05 2011-11-09 ソニー株式会社 画像選択装置、画像選択方法、およびプログラム
CN101706807B (zh) * 2009-11-27 2011-06-01 清华大学 一种中文网页新词自动获取方法
CN102509174B (zh) * 2011-11-01 2014-07-09 冶金自动化研究设计院 一种基于工业过程数据的报警限自学习系统的方法
CN103020712B (zh) * 2012-12-28 2015-10-28 东北大学 一种海量微博数据的分布式分类装置及方法
CN104008143B (zh) * 2014-05-09 2017-02-08 启秀科技(北京)有限公司 基于数据挖掘的职业能力指标体系构建方法
CN104391835B (zh) * 2014-09-30 2017-09-29 中南大学 文本中特征词选择方法及装置
CN104702492B (zh) * 2015-03-19 2019-10-18 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN104899190B (zh) * 2015-06-04 2017-10-03 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及分词处理方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI773483B (zh) * 2021-08-12 2022-08-01 國立臺東專科學校 感測資料處理方法

Also Published As

Publication number Publication date
CN107045511A (zh) 2017-08-15
US20200272933A1 (en) 2020-08-27
WO2017133568A1 (zh) 2017-08-10
CN107045511B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
TW201732655A (zh) 目標特徵資料的挖掘方法和其裝置
US11979433B2 (en) Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds
US10565172B2 (en) Adjusting application of a set of data quality rules based on data analysis
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN105162875B (zh) 大数据群体任务分配方法及装置
US20150051946A1 (en) Weighting sentiment information
US11082509B1 (en) Determining session intent
JP2018116688A5 (zh)
CN105005582A (zh) 多媒体信息的推荐方法及装置
US11016730B2 (en) Transforming a transactional data set to generate forecasting and prediction insights
CN103077254A (zh) 网页获取方法和装置
CN105022807A (zh) 信息推荐方法及装置
Okewu et al. Design of a learning analytics system for academic advising in Nigerian universities
Keyvanpour A survey on community detection methods based on the nature of social networks
US8738628B2 (en) Community profiling for social media
Holder et al. Current and future challenges in mining large networks: Report on the second sdm workshop on mining networks and graphs
Longhini et al. A language-agnostic approach to exact informative tweets during emergency situations
Khan et al. Impact of big data over telecom industry
CN104063456A (zh) 基于向量查询的自媒体传播图谱分析方法和装置
Kaufhold et al. Big data and multi-platform social media services in disaster management
Edosio Big data paradigm-analysis, application, and challenges
Hristozov et al. Analytical Competences in Big Data Era: Taxonomy
CN114065641A (zh) 多分类梯度提升树的构建方法、装置及电子设备
Demigha The impact of Big Data on AI
US20200110996A1 (en) Machine learning of keywords