TWI718422B - 對模型預測值進行融合的方法、裝置和設備 - Google Patents
對模型預測值進行融合的方法、裝置和設備 Download PDFInfo
- Publication number
- TWI718422B TWI718422B TW107135970A TW107135970A TWI718422B TW I718422 B TWI718422 B TW I718422B TW 107135970 A TW107135970 A TW 107135970A TW 107135970 A TW107135970 A TW 107135970A TW I718422 B TWI718422 B TW I718422B
- Authority
- TW
- Taiwan
- Prior art keywords
- predicted value
- interval
- prediction
- model
- value
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公開了一種對模型預測值進行融合的方法、裝置和設備,其中對模型預測值進行融合的方法包括:基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱;根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵;以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。
Description
本說明書涉及機器學習技術領域,尤其涉及一種對模型預測值進行融合的方法、裝置和設備。
機器學習演算法是一類能從資料中自動分析獲得規律,並利用規律對未知資料進行預測的演算法,被廣泛應用於諸多領域中。 在實際應用中,包括線上預測模型和離線預測模型,其中,離線預測模型通常以定時任務來實現,其優勢是可以納入維度較高的特徵、並使用較為複雜的演算法,從而達到較為精準的預測效果;然而,由於特徵較多且演算法複雜,預測過程通常較為耗時。相比於離線預測模型,線上預測模型可以使用維度較低的特徵以及較為簡單的演算法來達到更高效的預測,其缺點便是特徵不夠豐富,準確度不高。可見,線上預測模型和離線預測模型各具優勢,如何將兩者進行合理的融合是目前業內極待解決的問題。
針對上述技術問題,本說明書實施例提供一種對模型預測值進行融合的方法、裝置和設備,技術方案如下: 在一個方面,提出的一種對模型預測值進行融合的方法,包括: 基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型預測得到,第二預測值由離線預測模型預測得到; 根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵; 以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。 在一個方面,提出的一種對模型預測值進行融合的方法,包括: 獲取目標使用者在第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值; 獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在第二時間段內產生的業務特徵來確定的; 獲取對線上預測模型的第一預測值和離線預測模型的第二預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間; 根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 在一個方面,提出的一種對模型預測值進行融合的裝置,包括: 分箱單元,基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型預測得到,第二預測值由離線預測模型預測得到; 特徵轉換單元,根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵; 訓練單元,以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。 在一個方面,提出的一種對模型預測值進行融合的裝置,包括: 線上分值預測單元,獲取目標使用者在觸發時刻前的第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值,所述線上預測模型用於預測使用者的標籤; 離線分值獲得單元,獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在過去的第二時間段內產生的業務特徵來確定的,所述離線預測模型用於預測使用者的標籤; 區間確定單元,根據預先對線上預測模型的預測值和離線預測模型的預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間; 分值融合單元,根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 在一個方面,提出的一種電腦設備,包括: 處理器; 用於儲存處理器可執行指令的記憶體; 所述處理器被配置為: 基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型預測得到,第二預測值由離線預測模型預測得到; 根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵; 以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。 在一個方面,提出的一種電腦設備,包括: 處理器; 用於儲存處理器可執行指令的記憶體; 所述處理器被配置為: 線上分值預測單元,獲取目標使用者在觸發時刻前的第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值,所述線上預測模型用於預測使用者的標籤; 離線分值獲得單元,獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在過去的第二時間段內產生的業務特徵來確定的,所述離線預測模型用於預測使用者的標籤; 區間確定單元,根據預先對線上預測模型的預測值和離線預測模型的預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間; 分值融合單元,根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 本說明書實施例所提供的技術方案所產生的效果包括: 通過機器學習得到的模型來對所述線預測模型的預測值和所述離線預測模型的預測值進行融合,最終利用融合得到的分值來對使用者的標籤進行預測,從而在提高了對使用者的標籤進行預測的準確性的同時,還滿足了業務對低時延的要求。 應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本說明書實施例。 此外,本說明書實施例中的任一實施例並不需要達到上述的全部效果。
為了使本領域技術人員更好地理解本說明書實施例中的技術方案,下面將結合本說明書實施例中的附圖,對本說明書實施例中的技術方案進行詳細地描述,顯然,所描述的實施例僅僅是本說明書的一部分實施例,而不是全部的實施例。基於本說明書中的實施例,本領域中具有通常知識者所獲得的所有其他實施例,都應當屬於保護的範圍。 參見圖1所示,在本說明書一實施例中,一種對模型預測值進行融合的方法,其用來對線上預測模型所得到的分值和離線預測模型所得到的分值進行融合,該方法可以包括下述步驟101~104,其中: 步驟101:獲取目標使用者在第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值。 步驟102:獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在第二時間段內產生的業務特徵來確定的。 本文中,所述線上預測模型和所述離線預測模型均為利用機器學習演算法構建的用來對使用者的標籤進行預測的模型。這兩個模型所需預測的使用者標籤可以是與具體業務相關的,比如:對於一種網路支付業務,所需預測的使用者標籤可以分為:“高風險使用者”、“中風險使用者”、“低風險使用者”,等等。對於一種資訊推薦業務,所需預測的使用者標籤可以分為:“體育類”、“教育類”、“財經類”,等等。線上預測模型和離線預測模型都是採用一定數量的訓練樣本來訓練的,這些訓練樣本中的每一樣本可以包括:樣本使用者在參與特定業務(如網路支付業務)的過程中所產生的一種或多種行為資料,以及樣本使用者被確定的標籤。其中,可以採用同一批樣本來對上述線上預測模型和離線預測模型進行訓練,也可以採用兩批不同的樣本來對線上預測模型和離線預測模型進行訓練,本文不作限制。 在本說明書實施例中,離線預測模型可以是通過定時任務來實現的,如:每天在指定時刻或指定時間段執行一次離線的分值預測,該預測過程可以是針對全量使用者的;而線上預測模型可以由特定使用者的操作來觸發,如:使用者點擊某個網頁的行為便可以觸發一次線上預測模型的分值計算過程。 因為離線預測模型相較於線上預測模型,通常採用更高維度的特徵資料,特徵資料的時間幅度也可以更長,且可以採用更加複雜的演算法。如圖1所示,以特定例子來說,在T日,離線預測模型可以獲取每一使用者在T-1日在參與特定業務的過程中所產生的業務資料(特徵A),根據獲得的業務資料(特徵A)進行相應的處理,可以得到輸入特徵並輸入到離線預測模型中,得到各使用者的離線預測分值(即文中的第二預測值)並寫入到資料庫X中。而對於線上預測模型,可以不斷採集使用者的線上特徵資料(特徵B)並寫入到資料庫Y中,其中,所述線上特徵資料可以是使用者在參與特定業務的過程中所產生的準即時的業務資料,例如:線上預測的觸發時刻為t1,則線上特徵資料可以是t0~t1(如3分鐘)這段時間段內所產生的業務資料。可見,在用來發起預測流程的使用者請求到來後,排程器需要做兩個任務,其一是從資料庫X中讀取最近一次由離線預測模型計算獲得的與目標使用者對應的第二預測值;其二是從資料庫Y中讀取該目標使用者的線上特徵資料來進行接下來的線上預測模型的分值預測過程。 至此,對於任何一個目標使用者,都可以通過線上預測模型獲得一個預測分值,和通過離線預測模型獲得一個預測分值。 步驟103:根據預先對線上預測模型的預測值和離線預測模型的預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間。 步驟104:根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,其中,所述融合預測值用來確定所述目標使用者的標籤。 在一可選的實施例中,步驟104可以具體包括: 步驟1041:基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重。其中,所述模型的待訓練參數包括與分箱得到的各區間對應的權重。 步驟1042:利用所述第一權重和所述第二權重來確定融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 由於上述步驟103~步驟104需要基於分箱結果和與分箱得到的各區間對應的權重來實現,故,在詳細介紹步驟103~步驟104之前,需要介紹一種確定融合權重的方法。如圖2所示,在一實施例中,該方法包括步驟201~步驟203,其中: 步驟201:基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型預測得到,第二預測值由離線預測模型預測得到。 該步驟201中提及的樣本可以與用來訓練上述離線預測模型及/或線上預測模型的樣本相同,當然,也可以是不同的樣本,對此不作限制。 在一實施例中,所述設定分箱法可以為基於熵的分箱法。基於熵的分箱法是在分箱時考慮因變量的取值,使得分箱後達到最小熵(minimumentropy)。基於熵的分箱法的好處是能夠在高分值區域展示較好的區分性。當然,所述設定分箱法還可以是基於基尼的分箱法、或等頻分箱法等。 步驟202:根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵。 在一個例子中,假設第一預測值和第二預測值都是介於0~1之間,則對線上預測模型的預測值進行分箱後,所得到的分割點包括:0、0.1、0.13、0.15、0.2、0.3、0.5、1;對離線預測模型的預測值進行分箱後,所得到的分割點包括:0、0.03、0.05、0.08、0.09、0.11、0.13、1;也就是說,線上預測模型和離線預測模型的輸出值在分箱後分別得到7個區間。 在一實施例中,可以採用one-hot規則來實現步驟202的特徵轉化。假設一個樣本的第一預測值為0.17,第二預測值為0.12,則由於0.17處於第4個區間(0.15,0.2)內,0.12處於第6個區間(0.11,0.13)內,採用one-hot規則可以將第一預測值:0.17轉換為第一區間特徵:on-bin-0001000(“on-bin”為線上預測模型的標識),將第二預測值:0.12轉換為第二區間特徵:off-bin-0000010(“off-bin”為離線預測模型的標識)。按照同樣的方法,可以逐一對其他樣本中的第一預測值和第二預測值進行特徵轉化。 步驟203:以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。 其中,所述轉化後的樣本資料除了所述第一區間特徵、所述第二區間特徵以及樣本的標籤之外,還可以包括其他資料。即,所述“構成”並不是封閉的。 在以上例子中,在特徵轉化前,某條樣本資料例如為: {0.17,0.12,“中風險使用者”}; 在特徵轉化後,得到的新的一條樣本資料例如為: {0001000,0000010,“中風險使用者”} 本文待訓練的模型可以為線性模型或非線性模型,在採用線性模型的一種實施例中,所述模型的待訓練參數可以包括與分箱得到的各區間對應的權重,所述權重可以用於對線預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。待訓練的模型可以是邏輯回歸(Logistic Regression,LR)模型,其中,可以為分箱得到的各區間分別分配一個權重,並將該權重作為LR模型的參數進行訓練,最終可以求解出各個權重值。上述權重可以為相應區間的一個評分,該評分不僅是在不同模型特徵間(線上、離線模型),也是在各個分數區間之間做了一個全域的重要性權衡和學習。 沿用上文提到的例子,最終可以得到以下權重: 區間(0,0.1)的權重on-bin-1=1.054, …… 區間(0.5,1)的權重on-bin-7=4.439; 區間(0,0.03)的權重off-bin-1=0.604, …… 區間(0.13,1)的權重off-bin-7=3.237。 接下來,繼續結合以上具體例子來對上述步驟103至步驟104進行說明。假設對於某個目標使用者,通過線上預測模型獲得的第一預測值為0.66,通過離線預測模型獲得的第二預測值為0.25,則結合上述例子,首先在步驟103中,確定所述第一預測值0.4所處的第一區間為:(0.5,1),所述第二預測值0.25所處的第二區間為:(0.13,1)。隨後在步驟1041中,基於預先確定的與分箱得到的各區間對應的權重,可以獲得與所述第一區間:(0.5,1)對應的第一權重是:4.439,與所述第二區間:(0.13,1)對應的第二權重是:3.237。 最終,在步驟1042中,可以根據上述第一權重和第二權重來確定最終的融合預測值,在可選的實施例中,可以將所述第一權重和所述第二權重進行求和,並將求和結果作為融合預測值,即融合預測值=4.439+3.237=7.676。當然,融合的具體方式並不限於求和,如:求平均等。最終,可以根據具體業務來決定如何運用所述融合預測值。 本說明書實施例所提供的技術方案所產生的效果包括: 通過機器學習得到的權重來對所述線預測模型的預測值和所述離線預測模型的預測值進行融合,最終利用融合得到的分值來對使用者的標籤進行預測,從而在提高了對使用者的標籤進行預測的準確性的同時,還滿足了業務對低時延的要求。此外,利用基於熵的分箱和邏輯回歸模型,將線上模型分值和離線模型分值進行有效整合,使得線上離線分值之間的可比性在機器學習過程中得到自適應調整。 相應於上述方法實施例,本說明書實施例還提供一種對模型預測值進行融合的裝置。 參見圖3所示,在一實施例中,在融合權重的訓練階段,一種確定融合權重的裝置300可以包括: 分箱單元301,被配置為:基於給定的若干樣本,按照設定分箱法來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型預測得到,第二預測值由離線預測模型預測得到; 特徵轉換單元302,被配置為:根據分箱的結果,將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵; 訓練單元303,被配置為:以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。 參見圖4所示,在一實施例中,在分值融合階段,一種對模型預測值進行融合的裝置400可以包括: 線上分值預測單元401,被配置為:獲取目標使用者在觸發時刻前的第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值,所述線上預測模型用於預測使用者的標籤; 離線分值獲得單元402,被配置為:獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在過去的第二時間段內產生的業務特徵來確定的,所述離線預測模型用於預測使用者的標籤; 區間確定單元403,被配置為:根據預先對線上預測模型的預測值和離線預測模型的預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間; 權重確定單元404,被配置為:根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 在一可選實施例中,所述分值融合單元404可包括: 權重確定子單元,基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重; 融合子單元,利用所述第一權重和所述第二權重來確定融合預測值,所述融合預測值用來確定所述目標使用者的標籤。 在一實施例中,所述融合子單元可以被配置為: 將所述第一權重和所述第二權重進行求和,並將求和結果作為融合預測值。 上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。 本說明書實施例還提供一種電腦設備(如伺服器),其至少包括記憶體、處理器及儲存在記憶體上並可在處理器上執行的電腦程式,其中,處理器執行所述程式時實現前述方法。 圖5示出了本說明書實施例所提供的一種更為具體的計算設備硬體結構示意圖,該設備可以包括:處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040和匯流排1050。其中處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040通過匯流排1050實現彼此之間在設備內部的通信連接。 處理器1010可以採用通用的CPU(Central Processing Unit,中央處理器)、微處理器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、或者一個或多個積體電路等方式實現,用於執行相關程式,以實現本說明書實施例所提供的技術方案。 記憶體1020可以採用ROM(Read Only Memory,唯讀記憶體)、RAM(Random Access Memory,隨機存取記憶體)、靜態儲存設備,動態儲存設備等形式實現。記憶體1020可以儲存作業系統和其他應用程式,在通過軟體或者韌體來實現本說明書實施例所提供的技術方案時,相關的程式碼保存在記憶體1020中,並由處理器1010來調用執行。 輸入/輸出介面1030用於連接輸入/輸出模組,以實現資訊輸入及輸出。輸入輸出/模組可以作為組件配置在設備中(圖中未示出),也可以外接於設備以提供相應功能。其中輸入設備可以包括鍵盤、滑鼠、觸控螢幕、麥克風、各類感測器等,輸出設備可以包括顯示器、喇叭、振動器、指示燈等。 通信介面1040用於連接通信模組(圖中未示出),以實現本設備與其他設備的通信互動。其中通信模組可以通過有線方式(例如USB、網線等)實現通信,也可以通過無線方式(例如行動網路、WIFI、藍牙等)實現通信。 匯流排1050包括一通路,在設備的各個組件(例如處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040)之間傳輸資訊。 需要說明的是,儘管上述設備僅示出了處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040以及匯流排1050,但是在具體實施過程中,該設備還可以包括實現正常執行所必需的其他組件。此外,本領域中具有通常知識者可以理解的是,上述設備中也可以僅包含實現本說明書實施例方案所必需的組件,而不必包含圖中所示的全部組件。 通過以上的實施方式的描述可知,本領域中具有通常知識者可以清楚地瞭解到本說明書實施例可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本說明書實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式反應出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本說明書實施例各個實施例或者實施例的某些部分所述的方法。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、筆記型電腦、行動電話、相機電話、智慧型手機、個人數位助理、媒體播放器、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。 本說明書中的各個實施例均採用漸進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置實施例而言,由於其基本相似於方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的模組可以是或者也可以不是物理上分開的,在實施本說明書實施例方案時可以把各模組的功能在同一個或多個軟體及/或硬體中實現。也可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域中具有通常知識者在不付出進步性勞動的情況下,即可以理解並實施。 以上所述僅是本說明書實施例的具體實施方式,應當指出,對於本領域中具有通常知識者來說,在不脫離本說明書實施例原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本說明書實施例的保護範圍。
201‧‧‧步驟202‧‧‧步驟203‧‧‧步驟300‧‧‧裝置301‧‧‧分箱單元302‧‧‧特徵轉換單元303‧‧‧訓練單元400‧‧‧裝置401‧‧‧線上分值預測單元402‧‧‧離線分值獲得單元403‧‧‧區間確定單元404‧‧‧分值融合單元1010‧‧‧處理器1020‧‧‧記憶體1030‧‧‧輸入/輸出介面1040‧‧‧通信介面1050‧‧‧匯流排
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書實施例中記載的一些實施例,對於本領域中具有通常知識者來講,還可以根據這些附圖獲得其他的附圖。 圖1是本說明書實施例提供的一種對模型預測值進行融合的方法的流程示意圖; 圖2是本說明書實施例提供的一種確定融合權重的過程; 圖3是本說明書實施例提供的一種對模型預測值進行融合的裝置(權重訓練階段)的結構示意圖; 圖4是本說明書實施例提供的一種對模型預測值進行融合的裝置(分值融合階段)的結構示意圖; 圖5是用於配置本說明書實施例裝置的一種設備的結構示意圖。
Claims (9)
- 一種對模型預測值進行融合的方法,用於確定使用者的分類,包括:基於給定的若干樣本,按照設定基於熵的、或基於基尼的、或等頻分箱法基於因變量進行取值來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型對所述使用者在第一時間段內產生的樣本業務資料進行預測得到,第二預測值由離線預測模型對所述使用者在第二時間段內產生的樣本業務資料進行預測得到;根據分箱的結果,透過one-hot規則將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵;以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值;根據所述最終的預測值確定使用者的分類標籤;其中,所述模型的待訓練參數包括與分箱得到的各區間對應的權重,所述權重用於對線預測模型的預測值和離 線預測模型的預測值進行融合得到最終的預測值。
- 一種對模型預測值進行融合的方法,用於確定使用者的分類,包括:獲取目標使用者在第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值;獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在第二時間段內產生的業務特徵來確定的;獲取對線上預測模型的第一預測值和離線預測模型的第二預測值基於因變量進行取值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間;根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤;根據所述融合預測值確定所述目標使用者的分類標籤;其中,所述利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合得到最終的融合預測值,包括: 基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重,所述模型的待訓練參數包括與分箱得到的各區間對應的權重;利用所述第一權重和所述第二權重來確定融合預測值。
- 根據請求項2所述的方法,所述利用所述第一權重和所述第二權重來確定融合預測值,包括:將所述第一權重和所述第二權重進行求和,並將求和結果作為融合預測值。
- 一種對模型預測值進行融合的裝置,用於確定使用者的分類,包括:分箱單元,基於給定的若干樣本,按照設定基於熵的、或基於基尼的、或等頻分箱法基於因變量進行取值來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型對所述使用者在第一時間段內產生的樣本業務資料進行預測得到,第二預測值對所述使用者在第二時間段內產生的樣本業務資料進行預測得到;特徵轉換單元,根據分箱的結果,透過one-hot規則將各樣本的第一預測值轉化為與該第一預測值所處的區間對 應的第一區間特徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵;訓練單元,以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值,根據所述最終的預測值確定使用者的分類標籤;其中,所述模型的待訓練參數包括與分箱得到的各區間對應的權重,所述權重用於對線預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。
- 根據請求項4所述的裝置,所述模型的待訓練參數包括與分箱得到的各區間對應的權重,所述權重用於對線預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。
- 一種對模型預測值進行融合的裝置,包括:線上分值預測單元,獲取目標使用者在觸發時刻前的第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值,所述線上預測模型用於預測使用者的標籤;離線分值獲得單元,獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測 模型的輸入特徵是根據所述目標使用者在過去的第二時間段內產生的業務特徵來確定的,所述離線預測模型用於預測使用者的標籤;區間確定單元,根據預先對線上預測模型的預測值和離線預測模型的預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間;分值融合單元,根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤;所述分值融合單元包括:權重確定子單元,基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重;融合子單元,利用所述第一權重和所述第二權重來確定融合預測值,所述融合預測值用來確定所述目標使用者的標籤;其中,所述利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合得到最終的融合預測值,包括:基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重,所述模型的待訓練參數包括 與分箱得到的各區間對應的權重;利用所述第一權重和所述第二權重來確定融合預測值。
- 根據請求項6所述的裝置,所述融合子單元被配置為:將所述第一權重和所述第二權重進行求和,並將求和結果作為融合預測值。
- 一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體,所述指令用於確定使用者的分類;所述處理器被配置為:基於給定的若干樣本,按照設定基於熵的、或基於基尼的、或等頻分箱法基於因變量進行取值來分別對線上預測模型的預測值和離線預測模型的預測值進行分箱,其中,所述若干樣本中的每一樣本包括:第一預測值、第二預測值以及樣本的標籤,所述第一預測值由線上預測模型對所述使用者在第一時間段內產生的樣本業務資料進行預測得到,第二預測值對所述使用者在第二時間段內產生的樣本業務資料進行預測得到;根據分箱的結果,透過one-hot規則將各樣本的第一預測值轉化為與該第一預測值所處的區間對應的第一區間特 徵,將各樣本的第二預測值轉化為與該第二預測值所處的區間對應的第二區間特徵;以每一樣本對應的所述第一區間特徵、所述第二區間特徵以及樣本的標籤構成轉化後的樣本資料,並利用轉化後的樣本資料來訓練模型,該訓練完成的模型用於對線上預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值;根據所述最終的預測值確定使用者的分類標籤;其中,所述模型的待訓練參數包括與分箱得到的各區間對應的權重,所述權重用於對線預測模型的預測值和離線預測模型的預測值進行融合得到最終的預測值。
- 一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體,所述指令用於確定使用者的分類;所述處理器被配置為:獲取目標使用者在第一時間段內產生的業務資料,根據所述業務資料確定輸入特徵並輸入到線上預測模型,輸出第一預測值;獲取利用離線預測模型得到的與所述目標使用者對應的第二預測值,其中,所述離線預測模型的輸入特徵是根據所述目標使用者在第二時間段內產生的業務特徵來確定的; 獲取對線上預測模型的第一預測值和離線預測模型的第二預測值進行分箱的結果,分別確定所述第一預測值所處的第一區間和所述第二預測值所處的第二區間;根據所述第一區間和所述第二區間,利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合,得到最終的融合預測值,所述融合預測值用來確定所述目標使用者的標籤;其中,所述利用預先訓練得到的模型來對所述第一預測值和所述第二預測值進行融合得到最終的融合預測值,包括:基於預先確定的與分箱得到的各區間對應的權重,獲得與所述第一區間對應的第一權重及與所述第二區間對應的第二權重,所述模型的待訓練參數包括與分箱得到的各區間對應的權重;利用所述第一權重和所述第二權重來確定融合預測值;根據所述融合預測值確定使用者的分類標籤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711353984.1A CN108052979A (zh) | 2017-12-15 | 2017-12-15 | 对模型预测值进行融合的方法、装置和设备 |
??201711353984.1 | 2017-12-15 | ||
CN201711353984.1 | 2017-12-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201928709A TW201928709A (zh) | 2019-07-16 |
TWI718422B true TWI718422B (zh) | 2021-02-11 |
Family
ID=62132684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107135970A TWI718422B (zh) | 2017-12-15 | 2018-10-12 | 對模型預測值進行融合的方法、裝置和設備 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108052979A (zh) |
TW (1) | TWI718422B (zh) |
WO (1) | WO2019114423A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052979A (zh) * | 2017-12-15 | 2018-05-18 | 阿里巴巴集团控股有限公司 | 对模型预测值进行融合的方法、装置和设备 |
CN108985489B (zh) * | 2018-06-08 | 2021-12-31 | 创新先进技术有限公司 | 一种风险预测方法、风险预测装置和终端设备 |
CN109063886B (zh) * | 2018-06-12 | 2022-05-31 | 创新先进技术有限公司 | 一种异常检测方法、装置以及设备 |
CN109635990B (zh) * | 2018-10-12 | 2022-09-16 | 创新先进技术有限公司 | 一种训练方法、预测方法、装置、电子设备及存储介质 |
CN112418258A (zh) * | 2019-08-22 | 2021-02-26 | 北京京东振世信息技术有限公司 | 一种特征离散化方法和装置 |
CN111242244B (zh) * | 2020-04-24 | 2020-09-18 | 支付宝(杭州)信息技术有限公司 | 特征值分箱方法、系统及装置 |
CN111582565A (zh) * | 2020-04-26 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 数据融合方法、装置和电子设备 |
CN111767982A (zh) * | 2020-05-20 | 2020-10-13 | 北京大米科技有限公司 | 用户转换预测模型的训练方法、装置、存储介质以及电子设备 |
CN112288457A (zh) * | 2020-06-23 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 基于多模型计算融合的数据处理方法及装置、设备和介质 |
CN112711765B (zh) * | 2020-12-30 | 2024-06-14 | 深圳前海微众银行股份有限公司 | 样本特征的信息价值确定方法、终端、设备和存储介质 |
CN112801358A (zh) * | 2021-01-21 | 2021-05-14 | 上海东普信息科技有限公司 | 基于模型融合的件量预测方法、装置、设备及存储介质 |
KR102344383B1 (ko) * | 2021-02-01 | 2021-12-29 | 테이블매니저 주식회사 | 인공지능 기반 매장 수요 예측 방법 및 시스템 |
CN113312512B (zh) * | 2021-06-10 | 2023-10-31 | 北京百度网讯科技有限公司 | 训练方法、推荐方法、装置、电子设备以及存储介质 |
CN113920166B (zh) * | 2021-10-29 | 2024-05-28 | 广州文远知行科技有限公司 | 一种选择物体运动模型方法、装置、交通工具及存储介质 |
CN116402241B (zh) * | 2023-06-08 | 2023-08-18 | 浙江大学 | 一种基于多模型的供应链数据预测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105679021A (zh) * | 2016-02-02 | 2016-06-15 | 重庆云途交通科技有限公司 | 基于交通大数据的行程时间融合预测及查询方法 |
CN107025153A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
TWI606354B (zh) * | 2014-06-27 | 2017-11-21 | 英特爾公司 | 用於可穿戴型裝置之利用同屬性分類器以訓練個人化分類器之技術 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873571B (zh) * | 2017-02-10 | 2019-12-06 | 泉州装备制造研究所 | 一种基于数据和模型融合的预警方法 |
CN108052979A (zh) * | 2017-12-15 | 2018-05-18 | 阿里巴巴集团控股有限公司 | 对模型预测值进行融合的方法、装置和设备 |
-
2017
- 2017-12-15 CN CN201711353984.1A patent/CN108052979A/zh active Pending
-
2018
- 2018-10-12 TW TW107135970A patent/TWI718422B/zh active
- 2018-10-25 WO PCT/CN2018/111824 patent/WO2019114423A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI606354B (zh) * | 2014-06-27 | 2017-11-21 | 英特爾公司 | 用於可穿戴型裝置之利用同屬性分類器以訓練個人化分類器之技術 |
CN107025153A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 磁盘的故障预测方法和装置 |
CN105679021A (zh) * | 2016-02-02 | 2016-06-15 | 重庆云途交通科技有限公司 | 基于交通大数据的行程时间融合预测及查询方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019114423A1 (zh) | 2019-06-20 |
CN108052979A (zh) | 2018-05-18 |
TW201928709A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI718422B (zh) | 對模型預測值進行融合的方法、裝置和設備 | |
US10515400B2 (en) | Learning vector-space representations of items for recommendations using word embedding models | |
CN107341716B (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
CN108829808B (zh) | 一种页面个性化排序方法、装置及电子设备 | |
TW201923624A (zh) | 一種資料樣本標籤處理方法及裝置 | |
JP6414363B2 (ja) | 予測システム、方法およびプログラム | |
TW201939917A (zh) | 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
US11875241B2 (en) | Aspect pre-selection using machine learning | |
JP6311851B2 (ja) | 共クラスタリングシステム、方法およびプログラム | |
CN113360711B (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
AU2017202651A1 (en) | Identification of points in a user web journey where the user is more likely to accept an offer for interactive assistance | |
US20190213610A1 (en) | Evaluation device and evaluation method | |
WO2020155814A1 (zh) | 维修对象的定损方法及装置、电子设备 | |
CN115237732A (zh) | 一种操作预测方法及相关装置 | |
WO2023050143A1 (zh) | 一种推荐模型训练方法及装置 | |
CN111062490A (zh) | 一种包含隐私数据的网络数据的处理方法及装置 | |
CN111026973B (zh) | 一种商品兴趣度预测方法、装置及电子设备 | |
WO2021135322A1 (zh) | 一种自动出题方法、装置及系统 | |
Gujar et al. | Genethos: A synthetic data generation system with bias detection and mitigation | |
JP2021162997A (ja) | 情報処理装置及び情報処理方法 | |
CN113836439B (zh) | 用户匹配方法、计算设备和计算机可读存储介质 | |
JP6604620B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2018045551A (ja) | 決定装置、決定方法および決定プログラム |