TWI703458B - 資料處理模型構建方法、裝置、伺服器和用戶端 - Google Patents

資料處理模型構建方法、裝置、伺服器和用戶端 Download PDF

Info

Publication number
TWI703458B
TWI703458B TW108119718A TW108119718A TWI703458B TW I703458 B TWI703458 B TW I703458B TW 108119718 A TW108119718 A TW 108119718A TW 108119718 A TW108119718 A TW 108119718A TW I703458 B TWI703458 B TW I703458B
Authority
TW
Taiwan
Prior art keywords
model
data
data processing
training
basic
Prior art date
Application number
TW108119718A
Other languages
English (en)
Other versions
TW202018533A (zh
Inventor
江 錢
何昌華
胡喜
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW202018533A publication Critical patent/TW202018533A/zh
Application granted granted Critical
Publication of TWI703458B publication Critical patent/TWI703458B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本說明書提供了一種資料處理模型構建方法、裝置、伺服器和用戶端。方法包括:獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。在本說明書實施例中,通過有針對性地獲取模型描述參數,並基於模型描述參數,伺服器能夠準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、特徵工程、模型選擇、模型參數搜索等操作來尋找合適的基礎模型,降低了用戶的操作難度,提高了處理效率。

Description

資料處理模型構建方法、裝置、伺服器和用戶端
本說明書係關於互聯網技術領域,尤其關於一種資料處理模型構建方法、裝置、伺服器和用戶端。
隨著人工智慧技術的發展,通過機器學習構建相應的資料處理模型,再利用所構建的資料處理模型對目標資料進行具體的資料處理,這種資料處理方法在越來越多的領域得到普及應用。 目前,基於現有方法構建上述資料處理模型時,用戶需要同時設計並通過對應的代碼程式等對多個可能的模型分析進行測試分析等操作(例如包括特徵工程、模型選擇、模型參數搜索等),以確定出滿足目標資料處理要求、合適的模型作為基礎模型,再基於該基礎模型訓練構建所需要的目標資料處理模型。上述方法在實現過程中,對用戶的專業能力(例如對模型結構的測試、模型的資料分析等)要求相對較高,並且每一次構建資料處理模型都需要用戶手動進行多次測試來找到合適的基礎模型,勢必會增加處理過程的複雜度,影響處理效率。因此,極需一種更加簡便、高效的資料處理模型構建方法,使得用戶不用再繁瑣地做測試、分析來尋找合適的模型作為基礎模型,從而降低了用戶的操作難度,提高了處理效率。
本說明書目的在於提供一種資料處理模型構建方法、裝置、伺服器和用戶端,使得用戶不用自己繁瑣地去做測試、分析來尋找合適的基礎模型,構建目標資料處理模型,降低了用戶的操作難度,提高了處理效率。 本說明書提供的一種資料處理模型構建方法、裝置、伺服器和用戶端是這樣實現的: 一種資料處理模型構建方法,包括:獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 一種資料處理方法,包括:獲取待處理的目標資料;調用目標資料處理模型對所述目標資料進行資料處理,其中,所述目標資料處理模型是根據所獲取的目標資料處理模型的模型描述參數和樣本資料,確定基礎模型,再根據所述樣本資料對所述基礎模型進行訓練得到的。 一種資料處理方法,包括:顯示資料輸入介面;接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,所述模型描述參數和所述樣本資料用於確定基礎模型,所述基礎模型用於建立目標資料處理模型。 一種資料處理模型構建裝置,包括:獲取模組,用於獲取目標資料處理模型的模型描述參數和樣本資料;確定模組,用於根據所述模型描述參數和所述樣本資料,確定基礎模型;訓練模組,用於根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 一種伺服器,包括處理器以及用於儲存處理器可執行指令的記憶體,所述處理器執行所述指令時實現獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 一種用戶端,包括處理器以及用於儲存處理器可執行指令的記憶體,所述處理器執行所述指令時實現顯示資料輸入介面;接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,所述模型描述參數和所述樣本資料用於確定基礎模型,所述基礎模型用於建立目標資料處理模型。 一種電腦可讀儲存媒體,其上儲存有電腦指令,所述指令被執行時實現獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 本說明書提供的一種資料處理模型構建方法、裝置、伺服器和用戶端,由於通過有針對性地獲取模型的描述參數,並基於模型的描述參數,伺服器能夠準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率。
為了使本技術領域的人員更好地理解本說明書中的技術方案,下面將結合本說明書實施例中的圖式,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本說明書一部分實施例,而不是全部的實施例。基於本說明書中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本說明書保護的範圍。 考慮到基於現有的資料處理模型構建方法,用戶在通過機器學習構建目標資料處理模型的過程中,往往需要自己通過編代碼等方式去測試、分析(例如具體可以包括:特徵工程,模型選擇,模型參數搜索等步驟),從多種可能的模型中確定適合的模型作為基礎模型(或稱初始模型)。但上述確定合適的模型作為基礎模型對用戶的專業性要求相對較高,操作難度相對較大。例如,可能需要用戶具有較高的資料分析能力和編程知識,以便對基於各個測試模型所回饋的底層資料(例如程式碼等)進行解讀、分析,以確定各個測試模型對所要處理的目標資料的適用性程度。此外,由於需要用戶自己去尋找合適的基礎模型,實施過程相對較為複雜,處理效率也相對較低。 針對產生上述問題的根本原因,本說明書考慮可以將模型的描述,以及相關的基礎模型的確定分離出來。具體的,在面向用戶一側,可以允許用戶提供較為簡便的模型描述參數來表徵用戶對所需要的基礎模型的要求限定,進而平台伺服器可以根據模型描述參數自動為用戶匹配到合適的模型作為基礎模型,以便用戶可以通過對該基礎模型的訓練來構建出自己所需要的資料處理模型,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率。 基於上述想法,本說明書實施方式提供一種資料處理模型構建方法,所述資料處理模型構建方法可以應用於包括伺服器和用戶端的系統中。可以參閱圖1所示,其中,上述用戶端和伺服器相互耦合以進行具體的資料交互。 基於上述系統,用戶可以通過用戶端設定滿足自己建模要求的模型描述參數,以及輸入相應的樣本資料。伺服器可以接收用戶端發送的模型描述參數和樣本資料,並根據用戶設定的模型描述參數和樣本資料選擇合適的模型作為基礎模型以及對應的模型參數,進而可以將該基礎模型和模型參數提供給用戶,以便用戶可以直接利用該基礎模型進行目標資料處理模型的訓練構建;也可以基於該基礎模型和模型參數利用用戶輸入的樣本資料自動進行目標資料處理模型的訓練和構建。 在本實施方式中,所述服務器具體可以為具備資料分析、處理,以及資料通信功能的後台業務伺服器。所述伺服器可以為一個具有資料運算、儲存功能以及網路交互功能的電子設備;也可以為運行於該電子設備中,為資料處理、儲存和網路交互提供支援的軟體。在本實施方式中並不具體限定所述伺服器的數量。所述伺服器可以為一個伺服器,還可以為幾個伺服器,或者,若干伺服器形成的伺服器集群。 在本實施方式中,所述用戶端可以為具備資料輸入、資料展示,以及資料通信功能的埠設備。具體地,所述用戶端例如可以是桌上型電腦、平板電腦、筆記型電腦、智慧手機、數位助理、智慧可穿戴設備、導購終端、具有網路訪問功能的電視機等。或者,所述用戶端也可以為能夠運行於上述電子設備中的軟體應用、圖形介面等。 在一個具體的場景示例中,用戶可以應用本說明書實施例提供的資料處理模型構建方法,簡單、高效地進行目標資料處理模型的訓練構建。 在本場景示例中,用戶想要構建一種能夠識別圖片中人物性別的資料處理模型。如果直接基於現有的資料處理模型構建方法,用戶需要自己去對多種可能的模型進行測試、分析,以挑選適宜於識別圖片人物性別的模型作為基礎模型,再進行具體的資料處理模型的訓練構建。對用戶而言實現較為繁瑣,操作難度較大,處理效率也相對較低。 而基於本說明書實施例提供的資料處理模型構建方法,平台伺服器可以基於預先定義好的模型描述規則,為用戶生成一種可以輸入模型描述參數的資料輸入介面,並將該資料輸入介面發送至用戶端。用戶端可以向用戶展示上述資料輸入介面。具體可以參閱圖2所示。資料輸入介面上展示有多個待用戶設定的模型描述參數。 其中,上述模型描述參數具體可以理解為一種由用戶設定,能夠有效地表徵出待構建的目標資料處理模型的資料處理要求和/或用戶定制要求的參數資料。這樣,即使用戶對於具體的底層資料不夠瞭解,或者專業能力相對較弱,也可以根據想要構建的目標資料處理模型所要實現的資料處理,簡便、高效地通過模型描述參數設置自己的建模要求。並且,上述參數資料符合模型描述規則。即伺服器可以基於模型描述規則,通過用戶端向用戶展示相應的資料輸入介面,以便用戶能夠按照與模型描述規則對應的格式設定具體的模型描述參數,進而可以準確地識別並確定出上述模型描述參數所包含的具體資訊,並以上述資訊作為依據為用戶自動尋找匹配到滿足待構建的目標資料處理模型實現要求和/或用戶定制要求的模型(即合適的模型),作為基礎模型。 具體的,上述模型描述參數可以包括:目標資料處理模型的名稱(可以記為model_name)、資料標籤(可以記為label)、資料特徵(可以記為feature)、評估指標(可以記為eval_metrics)等。當然,需要說明的是,上述所列舉的模型描述參數只是為了更好地說明本說明書實施方式。具體實施時,根據用戶的具體情況和待構建的目標資料處理模型的具體特點,還可以引入其他類型的參數資料,例如模型類型等作為模型描述參數。對此,本說明書不作限定。 其中,上述目標資料處理模型的名稱可以理解為用戶想要構建的資料處理模型的標識符號,例如A模型,或者圖片人物性別識別模型等。 上述資料標籤可以理解為目標資料處理模型對目標資料進行資料處理得到的處理結果。例如,可以是通過資料處理模型預測或識別得到的結果資料(對應資料處理模型中的y列的資料)。具體的,例如,可以是通過資料處理模型識別圖片人物性別得到的結果“男”或者“女”。 上述資料特徵可以理解為目標資料處理模型在對目標資料進行資料處理的過程中用以作為處理依據的資料特徵。例如,可以是資料處理模型從樣本資料中提取出來的用於得到預測或識別結果的資料特徵(對應資料處理模型中的x列的資料)。具體的,例如,可以是圖片中人臉部位置處的毛髮濃密程度、圖片中人脖子位置處的凸起幅度、圖片中人臉位置處的顏色值等。 上述評估指標(也可以稱為評估參量)可以理解為一種能夠評價目標資料處理模型資料處理精度、處理效率等性能的參數。 具體的,對於不同類型的資料處理模型,對應的評估指標可以不同。對於分類模型,上述評估指標可以包括AUC(Area Under roc Curve,曲線下面積)參數,該指標是一種用於度量模型的分類效果的評估指標,通常分類效果越好,精度越高,對應的AUC指標數值越大。此外,對於分類模型,上述評估指標還可以包括:準確率、平均準確率、對數損失函數、精確率-召回率、混淆矩陣等。對於回歸模型,上述評估指標可以包括:平方根誤差、Quantiles of Errors(誤差分位數)、Almost Correct Predictions(近似準確度預測)等。當然,需要說明的是,上述所列舉的評估指標只是為了更好地說明本說明書實施方式。具體實施時,可以根據目標資料處理模型所要應用的資料處理的具體特點和用戶的具體要求,選擇其他合適的性能參數作為上述評估指標。對此,本說明書不作限定。 在本場景示例中,用戶可以在用戶所展示的資料輸入介面中的資料處理模型的名稱欄中設定名稱為“WM”。在資料標籤欄中分別設定資料標籤1為“man”(對應男)、資料標籤2為“woman”(對應女)。在資料特徵欄中分別設定資料特徵1為圖片中人臉的顏色值,資料特徵2為圖片中人臉的光滑程度值,資料特徵3為圖片中人脖子位置的凸起幅度等。在評估指標欄中設定評估指標為“AUC”。 此外,上述資料輸入介面上還提供有樣本資料輸入介面,用戶可以通過該輸入介面導入對應的樣本資料。在場景示例中,上述樣本資料具體可以是包含有人物的圖片資料。 用戶端通過上述資料輸入介面接收用戶設定的模型描述參數和樣本資料,並通過網路將上述資料發送至平台伺服器。 平台伺服器在接收到模型描述參數和樣本資料後,可以根據模型描述參數,結合樣本資料自動地為用戶進行測試和分析,進而為用戶確定出滿足用戶要求的模型作為基礎模型(也可以稱初始模型);進而可以利用樣本資料對該基礎模型進行訓練以構建得到用戶所需要的能夠識別圖片中人物性別的目標資料處理模型。 具體實施時,伺服器在收到模型描述參數後,可以先對模型描述參數進行解析,以確定出用戶設定的目標資料處理模型的名稱、資料標籤、資料特徵、評估指標等參數的具體資料。例如,可以通過解析確定出用戶設定的目標資料處理模型的名稱為“WM”;有兩個資料標籤,且資料標籤1為“man”,資料標籤2為“woman”;有三個資料特徵,且資料特徵1為圖片中人臉的顏色值,資料特徵2為圖片中人臉的光滑程度值,資料特徵3為圖片中人脖子位置的凸起幅度;有一個評估指標為AUC參數。 進而,伺服器通過對上述資料標籤進行分析,可以發現資料標籤的數量為2而不是1,且目標資料處理模型所要確定的是目標資料對應的是“man”還是“woman”。因此,可以確定出目標資料處理模型所要執行的資料處理是一種分類類型的資料處理。繼而可以從預設的模型類型中進行檢索,確定出與上述分類類型的資料處理匹配的模型為分類類型,因此將目標資料處理模型的基礎模型的模型類型確定為分類類型。 在確定基礎模型的模型類型為分類類型後,伺服器可以檢索預設的模型資料庫,從滿足基礎模型的模型類型(即分類模型)的模型中篩選出多個模型作為候選模型,以便後續可以從上述多個候選模型中確定效果較好的模型作為基礎模型。 在本場景示例中,為了能夠盡可能從滿足基礎模型的模型類型的許多模型篩選出可能性較高、效果較好的模型作為候選模型進行後續的測試分析,排除干擾模型,避免對一些效果較差的模型浪費時間和資源進行測試分析,可以對所獲取的多個滿足基礎模型的模型類型的模型進行進一步的篩選。 具體的,為了能夠更加準確、快速地找到效果較好、較合適的候選模型,可以參閱圖3所示,將樣本資料作為輸入,輸入至預設的資料處理模型庫中已經訓練好的,且所應用的基礎模型滿足上述基礎模型的模型類型的資料處理模型(例如資料處理模型AC、資料處理模型YU、資料處理模型B2)中,得到各個資料處理模型的資料處理結果(例如預測結果);再根據各個資料處理模型的資料處理結果統計得到各個資料處理模型的評估指標;再根據目標資料處理模型的評估指標,挑選出與目標資料處理模型的評估指標近似或者一致的資料處理模型AC作為推薦模型;並將推薦模型AC所應用的基礎模型a_c確定為候選模型。 此外,還可以根據樣本資料的資料類型,對滿足基礎模型的模型類型的多個模型進行篩選。可以參閱圖4所示,可以先確定樣本資料的資料類型,為圖片資料。進而可以確定出目標資料處理模型後續要處理的目標資料也為圖片資料。而對模型而言,不同種類的模型有的對圖片資料的分析處理準確度比較高,有的對文本資料的分析處理比較高。為了提高後續構建的資料處理模型的準確度可以從滿足所述基礎模型的模型類型的多個模型中篩選出與圖片資料匹配(或者適合處理圖片資料)的模型作為候選模型。例如,可以提取出模型a_c、a_r、b_2、m等模型作為候選模型。 當然,需要說明的是,上述所列舉的對滿足基礎模型的模型類型中的多個模型進行進一步篩選,以獲取效果較好的模型作為候選模型的實現方式只是一種示意性說明,不應構成對本說明書的不當限定。 伺服器在確定了多個候選模型後,可以對為多個候選模型中的各個候選模型分別建立預訓練模型,再利用上述預訓練模型進行測試分析,以選擇出效果較好、適用於目標資料處理的,且滿足用戶要求的模型作為目標資料處理模型的基礎模型。 具體的,伺服器可以先獲取的樣本資料中提取預設比例的樣本資料作為測試資料;再對所述測試資料進行預處理,得到處理後的測試資料;進而可以根據所述資料特徵,從所述處理後的測試資料中選擇出特徵資料;根據所述特徵資料分別對所述多個候選模型中的各個候選模型進行訓練,得到所述預訓練模型。 在本場景示例中,具體實施時,伺服器可以隨機提取樣本資料中10%的樣本資料作為測試資料。當然該數值可以根據具體情況設定,例如,如果想要提高所確定的基礎模型的準確度,可以增加該比例值,以增加測試資料的數量。如果想要提高確定基礎模型的速度,可以減少該比例值,以減少測試資料的數量。對此,本說明書不作限定。 上述預處理具體可以包括降維處理、清洗處理等等。當然上述所列舉的預處理方式只是為了更好地說明本說明書實施方式。具體實施時,可以根據具體的應用場景和要求選擇合適的預處理方式。對此,本說明書不作限定。 在本場景示例中,具體實施時,伺服器可以根據資料特徵1圖片中人臉的顏色值,有針對性地提取出測試資料中圖片中表徵人臉的顏色值的那部分資料作為第一特徵資料。類似的,可以分別提取出測試資料中圖片中表徵人臉的光滑程度值、人脖子位置的凸起幅度的那部分資料作為第二特徵資料、第三特徵資料。進而可以根據上述第一特徵資料、第二特徵資料、第三特徵資料分別對多個候選模型進行訓練,以得到較為簡單的多個預訓練模型。其中,每一個預訓練模型是基於一種候選模型得到的。 在得到多個預訓練模型後,伺服器還可以根據預訓練模型,通過模型參數搜索確定出各個預訓練模型所對應的模型參數。其中,上述模型參數可以理解為預訓練模型運行時所要涉及到的相關運行參數。具體的,上述模型參數可以包括:反覆運算次數、收斂條件、執行時間等等。 進一步,伺服器可以對各個預訓練模型進行測試,具體的,可以根據評估指標,確定預訓練模型和模型參數的適用度;再根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型。從而可以從多個候選模型中篩選出適用於目標資料處理場景、準確度較高,或者滿足用戶要求的候選模型作為基礎模型。 其中,所述適用度具體可以理解為用於表徵預訓練模型和模型參數在針對樣本資料的資料處理中的適用性程度。通常對於預訓練模型而言,適用度值越高,該預訓練模型在進行目標資料的資料處理時準確度也越高,效果也越好。相應的,該預訓練模型對應的候選模型在處理該目標資料的資料處理時效果也更為理想。 在本場景示例中,具體實施時,可以隨機抽取部分測試資料,對所建立的預訓練模型進行測試,得到測試結果。再根據測試結果統計各個預訓練模型的AUC參數,並根據AUC參數確定各個預訓練模型的適用度值。例如,如果某個預訓練模型的AUC參數較高,則該預訓練模型的精確度較高,在目標資料的資料處理中的適用性也相對較好,相應得到適用度也相對極高。再根據各個適用度對多個預訓練模型進行排序,選擇適用度值最高的預訓練模型所對應的候選模型(即合適的模型)作為基礎模型。當然,也可以選擇適用度值靠前的預設個數的預訓練模型對應的多個候選模型或者適用度值大於預設適用度閾值的預訓練模型對應的候選模型進行組合,得到組合模型,將該組合模型作為基礎模型。 例如,可以將預訓練模型1、2、3、4、5、6分別對隨機抽取的同樣的多個圖片資料進行分類識別,得到各個預訓練模型的對各個圖片資料的識別結果,作為各個預訓練模型的測試結果。再根據上述測試結果分別統計各個預訓練模型的AUC參數。進一步根據AUC參數確定各個預訓練模型的適用度值。比較各個預訓練模型的適用度值,發現預訓練模型1的適用度值最高,因此,可以將預訓練模型1對應的候選模型確定為目標資料處理模型的基礎模型。 在本場景示例中,還可以按照以下方式確定各個預訓練模型的適用度,以評價對應的候選模型的效果:根據所述預訓練模型和模型參數,進行參數搜索和結構搜索,得到搜索結果;根據所述搜索結果和所述評估指標,確定所述預訓練模型和模型參數的適用度。其中,上述根據所述預訓練模型和對應的模型參數進行參數搜索和結構搜索,具體實施時,可以包括:通過以下演算法中的至少之一進行參數搜索和結構搜索:蒙特卡洛演算法、網格演算法、貝葉斯演算法、遺傳演算法等。 當然,需要說明的是上述所列舉的確定預訓練模型的適用度的方法只是為了更好地說明本說明書實施方式。具體實施,可以根據具體情況選擇合適的方式確定預訓練模型的適用度。對此,本說明書不作限定。 按照上述方式,伺服器可以根據用戶簡單設定的模型描述參數,準確地匹配到適用於用戶待構建的目標資料處理模型的基礎模型,並將該基礎模型回饋給用戶。進而可以利用樣本資料對該基礎模型進行訓練,以構建得到滿足用戶要求的,能夠高效、準確地識別圖片中人物性別的WM模型,從而高效地完成了目標資料處理模型的構建。 由上述場景示例可見,本說明書提供的資料處理模型構建方法,由於通過有針對性地獲取模型的描述參數,並基於模型的描述參數,伺服器能夠準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率。 參閱圖5所示,本說明書實施例提供了一種資料處理模型構建方法,其中,該方法具體應用於伺服器一側。具體實施時,該方法可以包括以下內容: S51:獲取目標資料處理模型的模型描述參數和樣本資料。 在本實施方式中,上述目標資料處理模型具體可以為待構建的,用於進行目標資料處理的機器學習模型。例如,上述目標資料處理模型可以是用於識別文本資料語義識別模型,也可以是用於區分圖片資料中不同顏色的分類模型等等。對於目標資料處理模型的類型和應用本說明書不作限定。 在本實施方式中,上述模型描述參數具體可以為一種由用戶設定,能夠有效地表徵出待構建的目標資料處理模型的資料處理要求和/或用戶定制要求的參數資料。 在一個實施方式中,上述模型描述參數具體可以包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標等。當然,需要說明的是,上述所列舉的模型描述參數只是為了更好地說明本說明書實施方式。具體實施時,根據具體的應用場景和用戶要求還可以引入其他類型的參數作為上述模型描述參數。對此,本說明書不作限定。 其中,上述目標資料處理模型的名稱可以理解為用戶想要構建的資料處理模型的標識符號,例如A模型,或者圖片人物性別識別模型等。上述資料標籤可以理解為目標資料處理模型對目標資料進行資料處理得到的處理結果。例如,可以是通過資料處理模型預測或識別得到的結果資料(對應資料處理模型中的y列的資料)。具體的,例如,可以是通過資料處理模型識別圖片人物性別得到的結果“男”或者“女”。上述資料特徵可以理解為目標資料處理模型在對目標資料進行資料處理的過程中用以作為處理依據的資料特徵。例如,可以是資料處理模型從樣本資料中提取出來的用於得到預測或識別結果的資料特徵(對應資料處理模型中的x列的資料)。具體的,例如,可以是圖片中人臉部位置處的毛髮濃密程度、圖片中人脖子位置處的凸起幅度、圖片中人臉位置處的顏色值等。上述評估指標(也可以稱為評估參量)可以理解為一種能夠評價目標資料處理模型資料處理精度、處理效率等性能的參數。例如,可以是AUC參數、準確率、平均準確率、對數損失函數、精確率-召回率、混淆矩陣、平方根誤差、Quantiles of Errors(誤差分位數)、Almost Correct Predictions(近似準確預測值)等。 在本實施方式中,上述樣本資料具體可以理解為待處理的目標資料資料類型相同的資料。其中,上述樣本資料具體可以是圖片資料,也可以是文本資料等等。對於樣本資料的資料類型,本說明書不作限定。 S53:根據所述模型描述參數和所述樣本資料,確定基礎模型。 在本實施方式中,上述基礎模型具體可以稱為用於構建目標資料處理模型的初始模型,具體的上述基礎模型可以是具有一定資料處理、分析能力的模型結構(或演算法結構),通常需要通過對基礎模型的訓練學習,來構建得到符合用戶要求的,能夠進行目標資料處理的目標資料處理模型。 在本實施方式中,需要說明的是,不同的模型結構在進行具體的資料處理時差異較大。例如,有的模型結構適用於處理文本資料,有的模型結構適用於處理圖片資料。或者,有的模型結構適用於解決分類問題,有的模型結構適用於解決回歸問題。因此,確定一種適用於目標資料處理的,滿足用戶要求的基礎模型對於後續構建得到目標資料處理模型的使用效果具有較為重要的影響。 在本實施方式中,為了避免用戶繁瑣地自己去做多次測試分析來找到合適的模型作為基礎模型,伺服器可以以用戶設定的模型描述參數作為處理依據,結合用戶輸入的樣本資料自動地去做測試分析,來尋找能夠進行目標資料處理,滿足用戶要求的模型(即合適的模型)作為資料處理模型。 在本實施方式中,具體實施時,可以根據模型描述參數確定出用戶所要構建的目標資料處理模型的模型特徵;再根據模型特徵逐步地縮小範圍從多個模型結構中篩選得到合適的模型作為基礎模型,提供給用戶來構建具體的目標資料處理模型。 在一個實施方式中,上述根據所述模型描述參數和所述樣本資料,確定基礎模型,具體實施時,可以包括:根據所述資料標籤,從預設的模型類型組中確定基礎模型的模型類型,其中,所述預設的模型類型組中至少包括:分類類型和回歸預測類型;從滿足所述基礎模型的模型類型的模型中,選擇出多個模型作為候選模型;根據所述樣本資料和所述資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數;根據所述評估指標,確定各個預訓練模型的適用度,其中,所述適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對所述樣本資料進行資料處理的適用性程度;根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型。 S55:根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 在本實施方式中,在確定了基礎模型後,進一步可以將基礎模型作為初始模型;再利用樣本資料對所述基礎模型進行訓練,以構建得到符合要求的目標資料處理模型。當然,需要說明,上述所列舉的利用基礎模型進行訓練以構建得到目標資料處理模型只是應用基礎模型的一種實現方式。具體實施時,根據具體的應用場景和技術的發展程度還可以利用所確定的基礎模型進行其他方面的應用。對此,本說明書不作限定。 在本實施方式中,通過將模型描述、確定基礎模型,與資料處理模型的構建分離,用戶僅需提供模型描述參數,伺服器即可以根據用戶提供的模型描述參數自動進行模型描述,並自動確定出合適的基礎模型提供給用戶,以便可以基於上述基礎模型再進行資料處理模型的構建。從而使得用戶不需要自己再繁瑣地尋找合適的基礎模型,減輕了用戶的負擔。 由上可見,本說明書提供的資料處理模型構建方法,由於通過有針對性地獲取模型的描述參數,並基於模型的描述參數,伺服器能夠準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率。 在一個實施方式中,所述模型描述參數具體可以包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標等。當然,需要說明的是,上述所列舉的模型描述參數只是一種示意性說明。具體實施時,還可以根據具體情況引入其他類型的參數作為上述模型描述參數。對此,本說明書不作限定。 在一個實施方式中,所述模型描述參數具體還可以包括:基礎模型的模型類型、樣本資料的拆分規則、閾值參數等等。對於具有一定專業能力的用戶,例如工程師,可以為他們提供更多的模型參數的設定權限,以便獲取更多的模型參數,從而可以基於更多地模型參數更加快速、精確地找到合適的模型作為目標資料處理模型的基礎模型。 在一個實施方式中,根據所述模型描述參數和所述樣本資料,確定基礎模型,具體實施時,可以包括以下內容: (1)根據所述資料標籤,從預設的模型類型組中確定基礎模型的模型類型,其中,所述預設的模型類型組中至少包括:分類類型和回歸預測類型。 在本實施方式中,上述根據所述資料標籤,從預設的模型類型組中確定基礎模型的模型類型,具體可以理解為分析資料標籤數量,以及資料標籤的資料和資料標籤的相互關係,來確定待構建的目標資料處理模型所要執行的目標資料處理的類型;再根據目標資料處理的類型確定出適用於該目標資料處理的基礎模型的類型。 在本實施方式中,還需要補充的是,通過分析評估指標也可以判斷模型類型。因此,具體實施時,除了可以根據資料標籤外,還可以根據評估指標,或者資料標籤和評估指標的組合,從預設的模型類型組中確定出基礎模型的模型類型。 在本實施方式中,上述預設的模型類型組中至少包括有分類類型和回歸預測類型等。其中,對於每一種類型而言,分別可以包含有多個具體的模型結構。當然,需要說明的是,上述所列舉的預設的模型類型組中所包含的模型類型只是一種示意性說明。根據具體的應用場景和技術的發展情況,上述預設的模型類型組中還可以包含其他的模型類型。對此,本說明書不作限定。 在本實施方式中,需要補充的是,模型類型為分類類型的模型往往相對較適用於解決涉及分類問題的資料處理;分類類型為回歸預測類型的模型往往相對較適用於解決涉及預測問題的資料處理。 (2)從滿足所述基礎模型的模型類型的模型中,選擇出多個模型作為候選模型。 在本實施方式中,上述候選模型具體可以理解為適用於目標資料處理的(即滿足基礎模型的模型類型),有可能用作目標資料處理模型的基礎模型的模型結構。具體的,後續可以對上述後選模型進行進一步的測試篩選,以候選模型中確定出基礎模型。 (3)根據所述樣本資料和所述資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數。 在本實施方式中,上述預訓練模型具體可以理解為基於候選模型得到的相對較為簡單的資料處理模型。 在本實施方式中,上述模型參數具體可以理解為預訓練模型運行時所要涉及到的相關運行參數。具體的,上述模型參數可以包括:反覆運算次數、收斂條件、執行時間等等。當然,上述所列舉的模型參數只是一種示意性說明。對於模型參數的具體內容,本說明書不作限定。 在本實施方式中,上述根據所述樣本資料和所述資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,具體可以包括:從所述樣本資料中提取測試資料;根據資料特徵從測試資料中提取特徵資料;利用上述特徵資料對各個候選模型分別進行訓練,以得到與各個候選模型對應的預訓練模型。 其中,上述特徵資料可以理解為樣本資料中包含有資料特徵的部分資料。例如,上述特徵資料可以是表徵圖片中人臉顏色的資料。 在本實施方式中,在得到多個預訓練模型後,進一步,還可以根據具體的預訓練模型,通過模型參數搜索確定出各個預訓練模型所對應的模型參數。 (4)根據所述評估指標,確定各個預訓練模型的適用度,其中,所述適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對所述樣本資料進行資料處理的適用性程度。 在本實施方式中,上述適用度具體可以理解為用於表徵預訓練模型和模型參數在針對樣本資料的資料處理中的適用性程度。通常對於預訓練模型和對應的模型參數而言,適用度值越高,該預訓練模型基於對應的模型參數在進行目標資料的資料處理時準確度也越高,效果也越好。相應的,該預訓練模型所對應的候選模型基於上述模型參數在處理該目標資料的資料處理時效果也更為理想。 在一個實施方式中,上述根據所述評估指標,確定各個預訓練模型的適用度,具體可以包括以下內容:分別利用各個預訓練模型和對應的模型參數對測試資料進行資料處理,得到資料處理結果作為各個預訓練模型和模型參數的測試結果;根據各個預訓練模型和模型參數的測試結果統計各個預訓練模型的評估指標;根據各個預訓練模型的指標參確定各個預訓練模型和模型參數的適用度。需要說明的是,上述所列舉的適用度的確定方式只是一種示意性說明。具體實施時,還可以根據具體情況和要求,採用其他合適的方式確定預訓練模型的適用度。對此,本說明書不作限定。 (5)根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型。 在本實施方式中,上述根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型,具體實施時,可以包括:比較各個預訓練模型的適用度,將適用度最高的預訓練模型所對應的模型確定為目標資料處理模型的基礎模型。也可以包括:將適用度大於預設適用度閾值的多個預訓練模型所對應的模型進行組合,得到組合模型;並將所述組合模型確定為所述基礎模型等。當然,上述所列舉的根據適用度從候選模型中確定出合適的基礎模型只是一種示意性說明。具體實施時,根據具體情況,也可以採用其他合適的方式來根據適用度確定出基礎模型。對此,本說明書不作限定。 在一個實施方式中,從滿足所述基礎模型的模型類型的模型中,選擇出多個模型作為候選模型,具體實施時,可以包括以下內容: (1)分別利用預設的資料處理模型庫中所應用的基礎模型滿足所述基礎模型的模型類型的資料處理模型對所述樣本資料進行資料處理,得到資料處理模型的資料處理結果; (2)根據所述資料處理模型的資料處理結果,統計資料處理模型的評估指標; (3)將評估指標與目標資料處理模型的評估指標的差異程度小於預設程度閾值的資料處理模型確定為推薦模型; (4)將所述推薦模型所應用的基礎模型確定為候選模型。 在本實施方式中,上述預設的資料處理模型庫中具體儲存有多種不同的已經訓練好的資料處理模型。需要補充的是,上述預設的資料處理模型庫可以每隔預設時間段獲取最新的訓練好的資料處理模型對預設的資料處理模型庫進行更新。 在本實施方式中,上述評估指標與目標資料處理模型的評估指標的差異程度小於預設程度閾值,具體可以理解為資料處理模型的評估指標與目標資料處理模型的評估指標相似或者一致。其中,上述預設程度閾值具體可以根據精度要求靈活設定。對此,本說明書不作限定。 在本實施方式中,上述推薦模型可以理解為所適用的資料處理與待構建的目標資料處理模型所要執行的目標資料處理相似或者一致的,且已經訓練好的資料處理模型。這類資料處理模型對於構建目標資料處理模型具有較高的參考借鑒價值。 在本實施方式中,具體實施時,可以將所獲取的樣本資料作為輸入,分別輸入至預設的資料處理模型中所應用的基礎模型滿足上述基礎模型的模型類型的資料處理模型中,得到上述各個資料處理模型的資料處理結果;再分別根據各個資料處理模型的資料處理結果,統計得到各個資料處理模型的評估指標;再以目標資料處理模型的評估指標作為依據,找到與目標資料處理模型的評估指標一致或相似的資料處理模型確定為推薦模型,再將推薦模型所應用的模型確定為所述候選模型,從而可以更加快速、高效地找到效果較好的候選模型。 在一個實施方式中,為了進一步縮小候選模型的數量,提高確定基礎模型的效率,具體實施時,所述方法還可以包括以下內容: (1)確定所述樣本資料的資料類型,其中,所述樣本資料的資料類型包括以下至少之一:圖片資料、文本資料; (2)根據所述樣本資料的資料類型,從所述基礎模型的模型類型中篩選出與所述樣本資料的資料類型匹配的模型類型作為所述基礎模型的模型類型。 在本實施方式中,上述樣本資料的資料類型具體可以包括圖片資料、文本資料、圖像資料、數值資料等等。當然,需要說明的是上述所列舉的資料類型只是為了更好地說明本說明書實施方式。對於樣本資料的資料類型,本說明書不作限定。 在本實施方式中,需要補充的,不同的模型結構往往所適用的資料類型也不相同。例如,有的模型可能適用於處理圖像資料,而不適用於處理文本資料。有的模型則可能適用於處理文本資料,而不適用於處理數值資料。因此,為了進一步縮小候選模型的數量,更加快速地確定出適用於目標資料處理的基礎模型,可以結合樣本資料的資料類型對基礎模型的模型類型做進一步的限定。例如,資料處理涉及的解決問題是分類問題,且樣本資料的資料類型為文本資料,則可以綜合上述情況,確定基礎模型的模型類型為分類類型,且適用於處理文本資料(即與文本資料匹配)的模型類型。這樣可以進一步縮小可以作為基礎模型的模型類型範圍,從而可以減少基於基礎模型的模型類型所獲取的候選模型的數量,後續只要對更少的候選模型進行測試便可以確定出合適的基礎模型。從而達到降低工作量,提高確定效率的目的。 在一個實施方式中,上述根據所述樣本資料和所述資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,具體實施時,可以包括以下內容: (1)從所述樣本資料中提取預設比例的樣本資料作為測試資料。 在本實施方式中,具體實施時時可以從樣本資料中按照預設比例隨機提取部分樣本資料作為測試資料。其中,上述預設比例可以根據具體的應用場景和精度要求靈活設定。例如,如果想要提高所確定的基礎模型的準確度,可以增加該比例值,以增加測試資料的數量。如果想要提高確定基礎模型的速度,可以減少該比例值,以減少測試資料的數量。對此,本說明書不作限定。 (2)對所述測試資料進行預處理,得到處理後的測試資料,其中,所述預處理包括:降維處理和/或清洗處理。 在本實施方式中,上述預處理具體可以包括:降維處理、清洗處理等等。當然上述所列舉的預處理方式只是為了更好地說明本說明書實施方式。具體實施時,可以根據具體的應用場景和要求選擇合適的預處理方式。例如,樣本資料的資料量比較大,所包含的資訊比較多,因此,可以通過降維處理對測試資料進行預處理,以便提高後續資料處理的效率。又例如,對於一些隨機性較強的資料處理,要求用來訓練的樣本資料之間儘量不存在一定順序上的聯繫,因此,可以先通過清洗資料對測試資料進行預處理,以降低由於測試資料之間的相互聯繫對模型產生的誤差。 (3)根據所述資料特徵,從所述處理後的測試資料中選擇出特徵資料。 在本實施方式中,根據所述資料特徵,從所述處理後的測試資料中選擇出特徵資料,具體可以包括:從處理後的測試資料中,抽取包含有資料特徵的部分資料作為上述特徵資料(也可以稱為特徵工程)。 (4)根據所述特徵資料分別對所述多個候選模型中的各個候選模型進行訓練,得到所述預訓練模型。 在本實施方式中,上述預訓練模型具體可以理解為基於一個候選模型通過較為簡單的訓練得到的,具有一定資料處理精度的資料處理模型。 在本實施方式中,根據所述特徵資料分別對所述多個候選模型中的各個候選模型進行訓練,得到所述預訓練模型,具體可以包括:利用所抽取的特徵資料分別對各個候選模型進行訓練,從而可以得到多個相對較為簡單的預訓練模型。其中,上述預訓練模型分別和一個候選模型對應。 在一個實施方式中,上述根據所述評估指標,確定各個預訓練模型的適用度,具體實施時,可以包括以下內容:根據所述預訓練模型和模型參數,進行參數搜索和結構搜索,得到搜索結果;根據所述搜索結果和所述評估指標,確定所述預訓練模型和模型參數的適用度。 在本實施方式中,上述根據所述預訓練模型和對應的模型參數進行參數搜索和結構搜索,具體可以包括:通過以下演算法中的至少之一進行參數搜索和結構搜索:蒙特卡洛演算法、網格演算法、貝葉斯演算法、遺傳演算法等。當然,需要說明的是,上述所列舉的用於進行參數搜索和結構搜索的演算法只是一種示意性說明。具體實施時,根據具體的應用場景和精度要求還可以根據其他演算法進行參數搜索和結構搜索。對此,本說明書不作限定。 在本實施方式中,上述根據所述搜索結果和所述評估指標,確定所述預訓練模型和模型參數的適用度,具體實施時,可以包括:根據各個預訓練模型和模型參數的搜索結果,以及用戶設定的評估指標對各個預訓練模型和對應的模型參數進行評分,並將該評分數值作為預訓練模型和模型參數的適用度。 在一個實施方式中,上述根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型,具體實施時,可以包括:將所述預訓練模型中適用度最高的預訓練模型所使用的模型確定為所述基礎模型。 在一個實施方式中,上述根據所述適用度,根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型,具體實施時,還可以包括:將所述預訓練模型中適用度大於預設適用度閾值(或者適用度排序前幾位)的多個預訓練模型所使用的模型進行組合,得到組合模型;並將所述組合模型確定為所述基礎模型。這樣可以綜合多種不同的效果較好的模型結構的優勢,得到更加適用於目標資料處理的模型結構作為基礎模型。 在一個實施方式中,所述模型描述參數還可以包括:基礎模型的模型類型、樣本資料的拆分規則等。其中,上述樣本資料的拆分規則具體可以包括有用戶設定測試資料的預設比例,以及拆分樣本資料的指定方式等。這樣可以為具備不同的專業能力的用戶提供更多選擇的模型描述參數進行設定,以便能夠更好地滿足用戶的個性化要求,更加準確、快速地確定出基礎模型和模型參數。 由上可見,本說明書提供的資料處理模型構建方法,由於通過有針對性地獲取模型的描述參數,並基於模型的描述參數,伺服器能夠準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率;還具體通過依據資料標籤、樣本資料的資料類型等多種特徵篩選合適的候選模型來確定基礎模型,排除了部分干擾,減少了工作量,從而進一步提高了處理效率。 參閱圖6所示,本說明書實施例提供了一種資料處理方法,用於進行具體的目標資料處理。具體實施時,該方法可以包括以下內容: S61:獲取待處理的目標資料。 在本實施方式中,上述待處理的目標資料具體可以是待分類的圖片資料,也可以是待識別的文本資料,還可以是待預測的圖像資料等。對於上述待處理的目標資料的資料類型和資料內容,本說明書不作限定。 S63:調用目標資料處理模型對所述目標資料進行資料處理,其中,所述目標資料處理模型是根據所獲取的目標資料處理模型的模型描述參數和樣本資料,確定基礎模型,再根據所述樣本資料對所述基礎模型進行訓練得到的。 在本實施方式中,上述目標資料處理模型是伺服器預先根據用戶設定的模型描述參數和輸入的樣本資料,匹配得到能夠適用於目標資料處理,且滿足用戶的要求的合適模型作為基礎模型;再通過利用樣本資料對上述基礎模型進行訓練、學習所構建得到的資料處理模型。 在本實施方式中,上述調用目標資料處理模型對所述目標資料進行資料處理,具體可以包括:將目標資料作為輸入,輸入將上述目標資料處理模型中;目標資料處理模型對該目標資料處理模型進行相應的資料處理,以得到對應的資料處理結果。例如,將包含有人物的圖片輸入至能夠識別圖片中人物性別的目標資料處理模型中;目標資料處理模型對圖片進行相應的資料處理,得到資料處理結果為:圖片中人物為女,從而完成了對目標資料的資料處理。 參閱圖7所示,本說明書實施例還提供了一種資料處理方法,該方法可以用於用戶端,用於獲取目標資料處理模型的模型描述參數。具體實施時,該方法可以包括以下內容: S71:顯示資料輸入介面。 在本實施方式中,上述資料輸入介面具體可以是如圖2所示的圖像輸入介面,也可以是一種代碼輸入介面(即提供給用戶設置定義的代碼範本)等。當然,需要說明的是,上述所列舉的資料輸入介面只是為了更好地說明本說明書實施方式,對於資料輸入介面的具體形式,本說明書不作限定。 在本實施方式中,需要補充的是,通過輸入介面輸入模型描述參數只是一種示意性說明,具體實施時,用戶還可以通過命令列、互動式,例如presto(一種分散式SQL查詢引擎)、ipython-notebook(一種基於Python的編程工具)等,或者合併在API 或程式中輸入介面等輸入目標資料處理模型的模型參數。 S73:接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,所述模型描述參數和所述樣本資料用於確定基礎模型,所述基礎模型用於建立目標資料處理模型。 在本實施方式中,需要說明的是,現有的資料處理模型構建方法,由於將模型描述、基礎模型的確定與模型的訓練構建混合在一起,導致實施時缺乏靈活性,不容易拓展,對開發者也不夠友好,不能跟蹤開發全過程,沒辦法借助版本管理工具,例如git,進行靈活的幫助控制和代碼審核,並且也不易於更新對某個問題升級新的解法模型。即現有方法對用戶操作難度較高,不夠方便、友好。 為了解決上述問題,可以事先通過語言定義,定義出模型描述參數,這樣用戶可以有針對性地輸入或者設置具體的滿足目標資料處理以及用戶定制化要求的模型描述參數,機器可以按照一定的語法規則獲取用戶設定的具體的模型描述參數,並生成相應的執行文件,例如代碼程式,進而根據執行文件中用戶設定的模型描述參數自動尋找合適的基礎模型,提供給用戶;再對所尋找到的基礎模型進行訓練,構建具體的目標資料處理模型,從而將模型描述、基礎模型的確定與模型的訓練構建分離,降低資料處理模型的構建難度和複雜度,提高用戶體驗。 在本實施方式中,具體實施時,可以採用SQL (Structured Query Language,結構化查詢語言)語言按照一定語法規則(例如通過關鍵字方式)定義上述模型描述參數。例如,生成關於模型描述參數的用於定義的代碼,再基於上述用於定義的代碼向用戶顯示相應的資料輸入介面,以接收用戶設定的模型描述參數。當然,需要說明的是,上述所列舉的定義語言以及語法規則只是為了更好地說明本說明書實施方式。具體實施時,可以根據具體情況選擇使用其他語言或者語法規則定義上述模型描述參數。對此,本說明書不作限定。 在本實施方式中,上述模型描述參數具體可以包括:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標等,對應的關鍵字分別為:model_name、label、feature、eval_metrics等。當然,需要說明的是,上述所列舉的模型描述參數只是為了更好地說明本說明書實施方式。不應構成對本說明書的不當限定。 在本實施方式中,具體實施時,可以按照以下方式進行具體的定義,得到包含有模型描述參數的用於定義的代碼:TRAIN model_name [[BY model_type] [WITH params]] [FOLD number] [PARTITION partition_fields]<br /> SELECT [LABEL label_names]<br />EVAL eval_metrics [SELECT]<br />[TIME time_limit]。 其中,上述用於定義的代碼包含有四個部分,分別為訓練部分、資料部分、評估部分和計算限制條件部分。 上述TRAIN model_name [[BY model_type] [WITH params]] [FOLD number] [PARTITION partition_fields] <br />用於定義訓練部分,其中,[]表示可選部分,TRAIN表示所述訓練部分的關鍵字,model_name表示訓練產生的模型名稱;BY用於指定模型類型model_type進行訓練;WITH用於指定模型參數params;FOLD用於指定層k-fold的取值number;PARTITION 用於指定用於分區的資料欄位partition_fields;。需要補充的是,上述<br />的具體含義可以參考相關技術,例如HTML 5。這裡可以是表示為一種常用的描述,例如將問題分成多種子問題,將模型分成子模型。 上述SELECT [LABEL label_names] <br />用於定義資料部分,其中,[]表示可選部分,SELECT表示使用一個或多個資料欄位,LABEL用於指定一個或多個標籤label_names。例如,可以缺省用第一個資料欄位作為標籤LABEL,如果LABEL多過一個,則可以用LABEL指定label_names <br />。 上述EVAL eval_metrics [SELECT] <br />用於定義評估部分,其中,[]表示可選部分,EVAL用於指定評估指標eval_metrics。如果用不同的資料來評估,可以在評估部分再添加評估資料部分<br />。 上述[TIME time_limit]用於定義計算限制條件部分,其中,[]表示可選部分,TIME用於指定模型訓練完成的時間限制。例如,可以用TIME指定模型訓練完成的時間限制;如果沒有指定,則可以完全交給系統處理。 進一步,考慮到對所述訓練模型進行離線計算,上述用於定義的代碼還可以包括離線計算部分,表示為:<br />SCORE mode_name TO table_name INDEX Index_list (創建table/insert with index list)<br />SELECT<br />。其中,<br />SCORE 用於選取訓練好的模型名稱;mode_name TO用於定義計算完後儲存的資料表table_name;INDEX用於定義所述資料表的索引欄位Index_list,這些index欄位也將出現在SELECT部分;<br />SELECT用於定義用於離線計算的資料。例如可以要求去掉INDEX部分後和訓練模型的非LABEL欄位完全一致。 進一步,考慮到對所述訓練模型進行線上計算,上述用於定義的代碼還可以包括線上計算部分,表示為:<br />DEPLOY model_name WITH params <br />。其中,DEPLOY用於將所述訓練模型model_name部署成介面服務(例如rest api),WITH用於根據資料中心的要求添加相應的參數配置params。其中,<br />語言可以通過嵌套,拓展到多個模型組合的情況。 當然,上述所列舉的用於定義的代碼只是一種示意性說明,不應構成對本說明書的不當限定。語言的具體描述可以是演進或變化的。例如還可以描述如下形式: CREATE TABLE model1 AS SELECT model_train (features [, labels] [, options]) FROM source_table1; CREATE TABLE predict1 ASSELECT model_predict (model1 [, options]) FROM source_table2。 在本實施方式中,對於圖像輸入介面,參閱圖2所示,可以通過接收各個資料欄中的資料資訊獲取目標資料處理模型的模型描述參數和樣本資料。例如,可以通過資料輸入介面中的資料標籤欄獲取用戶設定的資料標籤,通過資料特徵欄獲取用戶設定的資料特徵,通過評估指標欄獲取用戶設定的評估指標,通過目標資料處理模型的名稱欄獲取用戶設定的目標資料處理模型的模型名稱,通過樣本資料輸入介面獲取用戶輸入的樣本資料。 在本實施方式中,對於代碼輸入介面,可以通過接收用戶在代碼輸入介面中的預設位置處設置的字串來獲取目標資料處理模型的模型描述參數,通過接收用戶觸發的預設的代碼指令來獲取指定位置處的相應的樣本資料。 具體的,用戶可以在上述代碼輸入介面中的預設位置處定義或者設置具體的字串作為模型描述參數。例如,用戶端可以通過SELECT指令接收代碼輸入介面中“TRAIN model_name”中底線位置的用戶設置的字串作為目標資料處理模型的模型名稱。通過SELECT指令接收“LABEL label_names”中底線位置的用戶設置的字串作為目標資料處理模型的資料標籤。通過SELECT指令接收“EVAL eval_metrics”中底線位置的用戶設置的字串作為目標資料處理模型的評估指標等。對於其他模型描述參數的獲取可以參照上述實施方式,本說明書不再贅述。 在本實施方式中,用戶端在通過上述方式獲取了模型描述參數和樣本資料後,可以將上述模型描述參數和樣本資料以代碼等執行文件的形式發送至伺服器;伺服器可以通過解析(基於SQL的解析)代碼等執行文件,獲取用戶設定的模型描述參數;根據用戶設定的模型描述參數確定基礎模型;再根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 在本實施方式中,伺服器在接收到包含有模型描述參數的代碼等執行文件時,具體實施時,可以相應的將執行文件分成4個部分進行分析處理。 第一部分是訓練部分,具體可以利用TRAIN關鍵字提取model_name作為訓練產生的資料處理模型的模型名稱;可以利用BY關鍵字指定用哪些model_type(即模型類型)進行訓練;可以利用WITH關鍵字指定相關模型的參數params,其中,模型參數具體可以用Json描述的FOLD指定k-fold的取值;可以利用PARTITION關鍵字指定用於分區的資料欄位partition_fields。 第二個部分是資料部分,具體可以利用SELECT關鍵字通過SQL語法,缺省用第一個資料欄位作為標籤LABEL。具體的,如果LABEL多過一個,則用LABEL指定label_names。 第三部分是評估部分,具體可以利用EVAL關鍵字指定評估指標eval_metrics。如果用不同的資料來評估,可以再評估部分添加評估資料部分。 第四部分是計算限制性條件部分,具體可以利用TIME關鍵字指定模型訓練完成的時間限制。如果用戶沒設定時間限制,則可以完全交給伺服器自行處理。 進一步,對於伺服器,訓練好的模型還可以按照以下方式用於離線計算:CORE mode_name TO table_name INDEX Index_list<br />SELECT<br />。其中,模型離線計算具體可以分成兩個部分:SCORE選取訓練好的模型名字mode_name TO定義計算完儲存的資料表INDEX定義資料表的index欄位,其中,這些index欄位也將出現在 SELECT部分。而SELECT定義用於離線計算的資料,要求去掉INDEX部分後和訓練model的非label欄位完全一致。對於模型線上計算可以按照以下方式執行:DEPLOY model_name WITH params將模型deploy成一個rest api服務,WITH根據資料中心的要求添加相應的參數配置params。 這樣伺服器通過解析可以獲取得到由用戶設定的具體的模型描述參數,以便後續可以利上述模型描述參數自動確定出合適的基礎模型。 在一個實施方式中,考慮到對於部分專業能力較強的用戶,可以為他們提供更大的自由度和權限來設置模型描述參數,以便伺服器能夠更加快速、精準地確定出合適的基礎模型。因此,在接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料後,所述方法具體實施時,還可以包括以下內容:回應展示操作,展示基於所述模型描述參數生成的執行文件;接收對所述執行文件的修改操作,並根據所述修改操作更新所述執行文件。 在本實施方式中,上述執行文件可以理解為具體的程式碼。其中,上述執行文件中包含有模型描述參數,以及基於模型描述參數自動生成其他的模型設置參數。 在本實施方式中,上述資料輸入介面中具體可以包含有展示鍵或者展示執行文件的指令。用戶可以通過點擊上述展示鍵或者調用展示執行文件的指令來發出展示操作。繼而用戶端在接收到用戶的展示操作,展示出相應的執行文件。 用戶可以對上述執行文件中所包含的模型描述參數,以及其他模型設置參數直接進行修改操作。用戶端可以接收用戶對執行文件的修改操作,並根據用戶的修改操作更新所述執行文件,並將更新後的執行文件發送至伺服器,以便伺服器可以根據用戶修改後的執行文件更加快速、準確地確定基礎模型,來構建目標資料處理模型。 本說明書實施例還提供一種伺服器,包括處理器以及用於儲存處理器可執行指令的記憶體,所述處理器具體實施時可以根據指令執行以下步驟:獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 為了能夠更加準確地完成上述指令,參閱圖8所示,本說明書還提供了另一種具體的伺服器,其中,所述伺服器包括網路通訊介面801、處理器802以及記憶體803,上述結構通過內部線纜相連,以便各個結構可以進行具體的資料交互。 其中,所述網路通訊介面801,具體可以用於獲取目標資料處理模型的模型描述參數和樣本資料。 所述處理器802,具體可以用於根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 所述記憶體803,具體可以用於儲存所獲取的模型描述參數、樣本資料、處理器902生成的中間資料,以及儲存相應的指令程式。 在本實施方式中,所述網路通訊介面801可以是與不同的通信協議進行綁定,從而可以發送或接收不同資料的虛擬埠。例如,所述網路通訊介面可以是負責進行web資料通信的80號埠,也可以是負責進行FTP資料通信的21號埠,還可以是負責進行郵件資料通信的25號埠。此外,所述網路通訊介面還可以是實體的通信介面或者通信晶片。例如,其可以為無線移動網路通信晶片,如GSM、CDMA等;其還可以為Wifi晶片;其還可以為藍牙晶片。 在本實施方式中,所述處理器802可以按任何適當的方式實現。例如,處理器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式等等。本說明書並不作限定。 在本實施方式中,所述記憶體803可以包括多個層次,在數位系統中,只要能保存二進位資料的都可以是記憶體;在積體電路中,一個沒有實物形式的具有儲存功能的電路也叫記憶體,如RAM、FIFO等;在系統中,具有實物形式的存放裝置也叫記憶體,如記憶體條、TF卡等。 本說明書實施例還提供一種用戶端,包括處理器以及用於儲存處理器可執行指令的記憶體,所述處理器具體實施時可以根據指令執行以下步驟:顯示資料輸入介面;接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,所述模型描述參數和所述樣本資料用於確定基礎模型,所述基礎模型用於建立目標資料處理模型。 為了能夠更加準確地完成上述指令,參閱圖9所示,本說明書還提供了另一種具體的用戶端,其中,所述用戶端包括顯示器901、處理器902以及記憶體903,上述結構通過內部線纜相連,以便各個結構可以進行具體的資料交互。 其中,所述顯示器901,具體可以用於顯示資料輸入介面。 所述處理器902,具體可以用於接收用戶在所述資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,所述模型描述參數和所述樣本資料用於確定基礎模型,所述基礎模型用於建立目標資料處理模型。 所述記憶體903,具體可以用於儲存相應的指令程式。 在本實施方式中,所述顯示器901可以是將一定的電子文件通過特定的傳輸設備顯示到螢幕上再反射到人眼的顯示工具。所述顯示器可以包括液晶LCD顯示幕、陰極射線管CRT顯示幕、發光二極體LED顯示幕等。 本說明書實施例還提供了一種基於上述資料處理模型構建方法的電腦儲存媒體,所述電腦儲存媒體儲存有電腦程式指令,在所述電腦程式指令被執行時實現:獲取目標資料處理模型的模型描述參數和樣本資料;根據所述模型描述參數和所述樣本資料,確定基礎模型;根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 在本實施方式中,上述儲存媒體包括但不限於隨機存取記憶體(Random Access Memory, RAM)、唯讀記憶體(Read-Only Memory, ROM)、快取(Cache)、硬碟(Hard Disk Drive, HDD)或者記憶卡(Memory Card)。所述記憶體可以用於儲存電腦程式指令。網路通信單元可以是依照通信協定規定的標準設定的,用於進行網路連接通信的介面。 在本實施方式中,該電腦儲存媒體儲存的程式指令具體實現的功能和效果,可以與其它實施方式對照解釋,在此不再贅述。 參閱圖10,在軟體層面上,本說明書實施例還提供了一種資料處理模型構建裝置,該裝置具體可以包括以下的結構模組: 獲取模組1001,具體可以用於獲取目標資料處理模型的模型描述參數和樣本資料; 確定模組1002,具體可以用於根據所述模型描述參數和所述樣本資料,確定基礎模型; 訓練模組1003,具體可以用於根據所述樣本資料對所述基礎模型進行訓練,得到目標資料處理模型。 在一個實施方式中,所述模型描述參數具體可以包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標等。當然,需要說明的是,上述所列舉的模型描述參數只是一種示意性說明。具體實施時,還可以引入其他類型的參數作為上述模型描述參數。對此,本說明書不作限定。 在一個實施方式中,所述確定模組1002,具體可以包括以下結構單元: 第一確定單元,具體可以用於根據所述資料標籤,從預設的模型類型組中確定基礎模型的模型類型,其中,所述預設的模型類型組中至少包括:分類類型和回歸預測類型; 選擇單元,具體可以用於從滿足所述基礎模型的模型類型的模型中,選擇出多個模型作為候選模型; 建立單元,具體可以用於根據所述樣本資料和所述資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數; 第二確定單元,具體可以用於根據所述評估指標,確定各個預訓練模型的適用度,其中,所述適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對所述樣本資料進行資料處理的適用性程度; 第三確定單元,具體可以用於根據各個預訓練模型的適用度,從所述多個候選模型中確定出所述基礎模型。 在一個實施方式中,所述選擇單元具體可以包括以下結構子單元: 處理子單元,具體可以用於分別利用預設的資料處理模型庫中滿足所述基礎模型的模型類型的資料處理模型對所述樣本資料進行資料處理,得到資料處理模型的資料處理結果; 統計子單元,具體可以用於根據所述資料處理模型的資料處理結果,統計資料處理模型的評估指標; 第一確定子單元,具體可以用於將評估指標與目標資料處理模型的評估指標的差異程度小於預設程度閾值的資料處理模型確定為推薦模型; 第二確定子單元,具體可以用於將所述推薦模型所應用的基礎模型確定為候選模型。 在一個實施方式中,所述建立單元具體可以包括以下結構子單元: 提取子單元,具體可以用於從所述樣本資料中提取預設比例的樣本資料作為測試資料; 預處理子單元,具體可以用於對所述測試資料進行預處理,得到處理後的測試資料,其中,所述預處理包括:降維處理和/或清洗處理; 選擇子單元,具體可以用於根據所述資料特徵,從所述處理後的測試資料中選擇出特徵資料; 訓練子單元,具體可以用於根據所述特徵資料分別對所述多個候選模型中的各個候選模型進行訓練,得到所述預訓練模型。 在一個實施方式中,所述第三確定單元具體可以包括:第三確定子單元,具體可以用於將所述適用度最高的預訓練模型所使用的模型確定為所述基礎模型。 在一個實施方式中,所述第三確定單元具體還可以包括:第四確定子單元,具體可以用於將所述適用度大於預設適用度閾值的多個預訓練模型所使用的模型進行組合,得到組合模型;並將所述組合模型確定為所述基礎模型。 在一個實施方式中,所述模型描述參數還可以包括:基礎模型的模型類型、樣本資料的拆分規則等。這樣可以為具備不同的專業能力的用戶提供更多選擇的模型描述參數,以便能夠更加準確、快速地確定出基礎模型和模型參數。 需要說明的是,上述實施例闡明的單元、裝置或模組等,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。為了描述的方便,描述以上裝置時以功能分為各種模組分別描述。當然,在實施本說明書時可以把各模組的功能在同一個或多個軟體和/或硬體中實現,也可以將實現同一功能的模組由多個子模組或子單元的組合實現等。以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。 由上可見,本說明書實施例提供的資料處理模型構建裝置,由於通過獲取模組有針對性地獲取模型的描述參數,並基於模型的描述參數,通過確定模組準確地確定出用戶的建模要求,並根據用戶的建模要求自動匹配到合適的模型作為基礎模型,再通過訓練模組進行相應的資料處理模型的構建,從而使得用戶不用再繁瑣地去做測試、分析來確定合適的基礎模型,降低了用戶的操作難度,提高了處理效率。 雖然本說明書提供了如實施例或流程圖所述的方法操作步驟,但基於常規或者無創造性的手段可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式,不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時,可以按照實施例或者圖式所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境,甚至為分散式資料處理環境)。術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、產品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、產品或者設備所固有的要素。在沒有更多限制的情況下,並不排除在包括所述要素的過程、方法、產品或者設備中還存在另外的相同或等同要素。第一,第二等詞語用來表示名稱,而並不表示任何特定的順序。 本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。 本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構、類等等。也可以在分散式運算環境中實踐本說明書,在這些分散式運算環境中,由通過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。 通過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本說明書可借助軟體加必需的通用硬體平台的方式來實現。基於這樣的理解,本說明書的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,移動終端,伺服器,或者網路設備等)執行本說明書各個實施例或者實施例的某些部分所述的方法。 本說明書中的各個實施例採用遞進的方式描述,各個實施例之間相同或相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。本說明書可用於眾多通用或專用的電腦系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、多處理器系統、基於微處理器的系統、機頂盒、可編程的電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式運算環境等等。 雖然通過實施例描繪了本說明書,本領域普通技術人員知道,本說明書有許多變形和變化而不脫離本說明書的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本說明書的精神。
S51:方法步驟 S53:方法步驟 S55:方法步驟 S61:方法步驟 S63:方法步驟 S71:方法步驟 S73:方法步驟 801:網路通訊介面 802:處理器 803:記憶體 901:顯示器 902:處理器 903:記憶體 1001:獲取模組 1002:確定模組 1003:訓練模組
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。 圖1是基於本說明書實施例提供的資料處理模型構建方法的系統結構的一種實施例的示意圖; 圖2是在一個場景示例中,應用本說明書實施例提供的資料處理模型構建方法所展示的資料輸入介面的一種實施例示意圖; 圖3是在一個場景示例中,應用本說明書實施例提供的資料處理模型構建方法篩選候選模型的一種實施例示意圖; 圖4是在一個場景示例中,應用本說明書實施例提供的資料處理模型構建方法篩選候選模型的另一種實施例示意圖; 圖5是本說明書實施例提供的資料處理模型構建方法的流程的一種實施例的示意圖; 圖6是本說明書實施例提供的資料處理方法的流程的一種實施例的示意圖; 圖7是本說明書實施例提供的資料處理方法的流程的另一種實施例的示意圖; 圖8是本說明書實施例提供的伺服器的結構的一種實施例的示意圖; 圖9是本說明書實施例提供的用戶端的結構的一種實施例的示意圖; 圖10是本說明書實施例提供的資料處理模型構建裝置的結構的一種實施例的示意圖。

Claims (23)

  1. 一種資料處理模型構建方法,包括:獲取目標資料處理模型的模型描述參數和樣本資料,該模型描述參數包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標;根據該模型描述參數和該樣本資料,確定基礎模型,包括:根據該資料標籤,從預設的模型類型組中確定基礎模型的模型類型;從滿足該基礎模型的模型類型的模型中,選擇出多個模型作為候選模型;根據該樣本資料和該資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數;根據該評估指標,確定各個預訓練模型的適用度,其中,該適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對該樣本資料進行資料處理的適用性程度;根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型;根據該樣本資料對該基礎模型進行訓練,得到目標資料處理模型。
  2. 根據請求項1所述的方法,其中,該預設的模型類型組中至少包括:分類類型和回歸預測類型。
  3. 根據請求項1所述的方法,從滿足該基礎模型的模型類型的模型中,選擇出多個模型作為候選模型,包括:利用預設的資料處理模型庫中所應用的基礎模型滿足該基礎模型的模型類型的資料處理模型對該樣本資料進行資料處理,得到資料處理模型的資料處理結果;根據該資料處理模型的資料處理結果,統計資料處理模型的評估指標;將評估指標與目標資料處理模型的評估指標的差異程度小於預設程度閾值的資料處理模型確定為推薦模型;將該推薦模型所應用的基礎模型確定為候選模型。
  4. 根據請求項1所述的方法,在根據該資料標籤,從預設的模型類型組中確定基礎模型的模型類型後,該方法還包括:確定該樣本資料的資料類型,其中,該樣本資料的資料類型包括以下至少之一:圖片資料、文本資料;根據該樣本資料的資料類型,從該基礎模型的模型類型中篩選出與該樣本資料的資料類型匹配的模型類型作為該基礎模型的模型類型。
  5. 根據請求項1所述的方法,根據該樣本資料和該資料 特徵,為多個候選模型中的各個候選模型建立預訓練模型,包括:從該樣本資料中提取預設比例的樣本資料作為測試資料;對該測試資料進行預處理,得到處理後的測試資料,其中,該預處理包括:降維處理和/或清洗處理;根據該資料特徵,從該處理後的測試資料中選擇出特徵資料;根據該特徵資料分別對該多個候選模型中的各個候選模型進行訓練,得到該預訓練模型。
  6. 根據請求項1所述的方法,根據該評估指標,確定各個預訓練模型的適用度,包括:根據該預訓練模型和對應的模型參數,進行參數搜索和結構搜索,得到搜索結果;根據該搜索結果和該評估指標,確定該預訓練模型的適用度。
  7. 根據請求項6所述的方法,根據該預訓練模型和對應的模型參數,進行參數搜索和結構搜索,包括:通過以下演算法中的至少之一進行參數搜索和結構搜索:蒙特卡洛演算法、網格演算法、貝葉斯演算法、遺傳演算法。
  8. 根據請求項1所述的方法,根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型,包括:將該適用度最高的預訓練模型所使用的模型確定為該基礎模型。
  9. 根據請求項8所述的方法,根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型,還包括:將該適用度大於預設適用度閾值的多個預訓練模型所使用的模型進行組合,得到組合模型;並將該組合模型確定為該基礎模型。
  10. 根據請求項1所述的方法,該模型描述參數還包括:基礎模型的模型類型、樣本資料的拆分規則。
  11. 一種資料處理方法,包括:獲取待處理的目標資料;調用目標資料處理模型對該目標資料進行資料處理,其中,該目標資料處理模型是根據所獲取的目標資料處理模型的模型描述參數和樣本資料,確定基礎模型,再根據該樣本資料對該基礎模型進行訓練得到的,其中,該模型描述參數包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標,以及其中,所述根據所獲取的目標資料處理模型的模型描述參數和樣本資料,確定基礎模型,包括: 根據該資料標籤,從預設的模型類型組中確定基礎模型的模型類型;從滿足該基礎模型的模型類型的模型中,選擇出多個模型作為候選模型;根據該樣本資料和該資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數;根據該評估指標,確定各個預訓練模型的適用度,其中,該適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對該樣本資料進行資料處理的適用性程度;根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型。
  12. 一種資料處理方法,包括:顯示資料輸入介面;接收用戶在該資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料,其中,該模型描述參數和該樣本資料用於確定基礎模型,該基礎模型用於建立目標資料處理模型,其中,該模型描述參數包括以下至少之一:目標資料處理模型的名稱、資料標籤、資料特徵、評估指標,以及其中,所述確定基礎模型,包括:根據該資料標籤,從預設的模型類型組中確定基 礎模型的模型類型;從滿足該基礎模型的模型類型的模型中,選擇出多個模型作為候選模型;根據該樣本資料和該資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數;根據該評估指標,確定各個預訓練模型的適用度,其中,該適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對該樣本資料進行資料處理的適用性程度;根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型。
  13. 根據請求項12所述的方法,在接收用戶在該資料輸入介面輸入的目標資料處理模型的模型描述參數,以及樣本資料後,該方法還包括:回應展示操作,展示基於該模型描述參數生成的執行文件;接收對該執行文件的修改操作,並根據該修改操作更新該執行文件。
  14. 一種資料處理模型構建裝置,包括:獲取模組,用於獲取目標資料處理模型的模型描述參數和樣本資料,該模型描述參數包括以下至少之一:目標 資料處理模型的名稱、資料標籤、資料特徵、評估指標;確定模組,用於根據該模型描述參數和該樣本資料,確定基礎模型,其中,該確定模組包括:第一確定單元,用於根據該資料標籤,從預設的模型類型組中確定基礎模型的模型類型;選擇單元,用於從滿足該基礎模型的模型類型的模型中,選擇出多個模型作為候選模型;建立單元,用於根據該樣本資料和該資料特徵,為多個候選模型中的各個候選模型建立預訓練模型,並確定各個預訓練模型的模型參數;第二確定單元,用於根據該評估指標,確定各個預訓練模型的適用度,其中,該適用度用於表徵基於預訓練模型和該預訓練模型對應的模型參數對該樣本資料進行資料處理的適用性程度;第三確定單元,用於根據各個預訓練模型的適用度,從該多個候選模型中確定出該基礎模型;訓練模組,用於根據該樣本資料對該基礎模型進行訓練,得到目標資料處理模型。
  15. 根據請求項14所述的裝置,其中,該預設的模型類型組中至少包括:分類類型和回歸預測類型。
  16. 根據請求項15所述的裝置,該選擇單元包括:處理子單元,用於分別利用預設的資料處理模型庫中 所應用的基礎模型滿足該基礎模型的模型類型的資料處理模型對該樣本資料進行資料處理,得到資料處理模型的資料處理結果;統計子單元,用於根據該資料處理模型的資料處理結果,統計資料處理模型的評估指標;第一確定子單元,用於將評估指標與目標資料處理模型的評估指標的差異程度小於預設程度閾值的資料處理模型確定為推薦模型;第二確定子單元,用於將該推薦模型所應用的基礎模型確定為候選模型。
  17. 根據請求項15所述的裝置,該建立單元包括:提取子單元,用於從該樣本資料中提取預設比例的樣本資料作為測試資料;預處理子單元,用於對該測試資料進行預處理,得到處理後的測試資料,其中,該預處理包括:降維處理和/或清洗處理;選擇子單元,用於根據該資料特徵,從該處理後的測試資料中選擇出特徵資料;訓練子單元,用於根據該特徵資料分別對該多個候選模型中的各個候選模型進行訓練,得到該預訓練模型。
  18. 根據請求項15所述的裝置,該第三確定單元包括:第三確定子單元,用於將該適用度最高的預訓練模型所使用 的模型確定為該基礎模型。
  19. 根據請求項18所述的裝置,該第三確定單元還包括:第四確定子單元,用於將該適用度大於預設適用度閾值的多個預訓練模型所使用的模型進行組合,得到組合模型;並將該組合模型確定為該基礎模型。
  20. 根據請求項14所述的裝置,該模型描述參數還包括:基礎模型的模型類型、樣本資料的拆分規則。
  21. 一種伺服器,包括處理器以及用於儲存處理器可執行指令的記憶體,該處理器執行該指令時實現請求項1至10中任一項所述方法的步驟。
  22. 一種用戶端,包括處理器以及用於儲存處理器可執行指令的記憶體,該處理器執行該指令時實現請求項12或13所述方法的步驟。
  23. 一種電腦可讀儲存媒體,其上儲存有電腦指令,該指令被執行時實現請求項1至10中任一項所述方法的步驟。
TW108119718A 2018-08-07 2019-06-06 資料處理模型構建方法、裝置、伺服器和用戶端 TWI703458B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810889565.8A CN109165249B (zh) 2018-08-07 2018-08-07 数据处理模型构建方法、装置、服务器和用户端
CN201810889565.8 2018-08-07

Publications (2)

Publication Number Publication Date
TW202018533A TW202018533A (zh) 2020-05-16
TWI703458B true TWI703458B (zh) 2020-09-01

Family

ID=64895184

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108119718A TWI703458B (zh) 2018-08-07 2019-06-06 資料處理模型構建方法、裝置、伺服器和用戶端

Country Status (6)

Country Link
US (1) US11210569B2 (zh)
EP (1) EP3779723A4 (zh)
CN (1) CN109165249B (zh)
SG (1) SG11202010515VA (zh)
TW (1) TWI703458B (zh)
WO (1) WO2020029689A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165249B (zh) * 2018-08-07 2020-08-04 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
US11321629B1 (en) * 2018-09-26 2022-05-03 Intuit Inc. System and method for labeling machine learning inputs
CN109800441B (zh) * 2019-02-01 2023-03-24 北京金山数字娱乐科技有限公司 一种模型输出推荐方法和装置、模型输出推荐系统
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN111859592A (zh) * 2019-04-08 2020-10-30 阿里巴巴集团控股有限公司 参数确定方法和装置以及电子设备、计算机可读存储介质
CN111796925A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 算法模型的筛选方法、装置、存储介质和电子设备
CN110134669A (zh) * 2019-05-09 2019-08-16 深圳美美网络科技有限公司 一种数据模型监控方法
CN110222097A (zh) * 2019-06-18 2019-09-10 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110309127B (zh) * 2019-07-02 2021-07-16 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110399404A (zh) * 2019-07-25 2019-11-01 北京明略软件系统有限公司 一种计算机的用户表示生成方法及装置
CN110598125A (zh) * 2019-08-26 2019-12-20 精硕科技(北京)股份有限公司 一种评估关键意见领袖投入的方法及装置、存储介质
CN110674184B (zh) * 2019-09-06 2023-10-17 创新先进技术有限公司 一种构造异动检测模型库的方法、系统及设备
CN112487699A (zh) * 2019-09-11 2021-03-12 北京国双科技有限公司 动液面确定方法、动液面确定模型获得方法及相关设备
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN110826342A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种实现模型管理的方法、装置、计算机存储介质及终端
CN110991658A (zh) * 2019-11-28 2020-04-10 重庆紫光华山智安科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN110990698B (zh) * 2019-11-29 2021-01-08 珠海大横琴科技发展有限公司 一种推荐模型构建方法和装置
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN111144950B (zh) * 2019-12-30 2023-06-30 北京顺丰同城科技有限公司 模型筛选方法、装置、电子设备及存储介质
CN113591884B (zh) * 2020-04-30 2023-11-14 上海高德威智能交通系统有限公司 字符识别模型的确定方法、装置、设备及存储介质
CN111738442A (zh) * 2020-06-04 2020-10-02 江苏名通信息科技有限公司 一种大数据修复模型的构建方法和模型构建装置
CN111680754B (zh) * 2020-06-11 2023-09-19 抖音视界有限公司 图像分类方法、装置、电子设备及计算机可读存储介质
CN112308205A (zh) * 2020-06-28 2021-02-02 北京沃东天骏信息技术有限公司 基于预训练模型的模型改进方法及装置
CN111784000A (zh) * 2020-07-16 2020-10-16 矩阵元技术(深圳)有限公司 数据处理方法、装置和服务器
CN111966850A (zh) * 2020-07-21 2020-11-20 珠海格力电器股份有限公司 一种图片筛选方法、装置、电子设备及存储介质
CN112612872A (zh) * 2020-12-17 2021-04-06 第四范式(北京)技术有限公司 一种实现人工智能可解释的方法、装置、设备及存储介质
CN112801465B (zh) * 2021-01-08 2024-03-01 上海画龙信息科技有限公司 一种交互式建模预测产品指标的方法、装置和电子设备
CN113033090B (zh) * 2021-03-24 2023-03-03 平安科技(深圳)有限公司 推送模型训练方法、数据推送方法、装置及存储介质
WO2022215559A1 (ja) * 2021-04-05 2022-10-13 パナソニックIpマネジメント株式会社 ハイブリッドモデル作成方法、ハイブリッドモデル作成装置、及び、プログラム
CN113283972A (zh) * 2021-05-06 2021-08-20 胡立禄 一种税务大数据模型的构建系统及方法
CN113191824A (zh) * 2021-05-24 2021-07-30 北京大米科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN113469020A (zh) * 2021-06-29 2021-10-01 苏州一径科技有限公司 一种基于聚类的目标检测模型的评估方法
CN115688932A (zh) * 2021-07-28 2023-02-03 上海联影医疗科技股份有限公司 选定数据处理模型的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313953A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Automated Classification Pipeline Tuning Under Mobile Device Resource Constraints
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置
TW201812646A (zh) * 2016-07-18 2018-04-01 美商南坦奧美克公司 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672500B1 (ko) * 2010-08-12 2016-11-03 삼성전자주식회사 시공간 구조 기반의 확률 그래프 모델 학습 장치 및 방법
WO2015136533A1 (en) * 2014-03-10 2015-09-17 Nova Measuring Instruments Ltd. Test structures and metrology technique utilizing the test structures for measuring in patterned structures
US10452992B2 (en) * 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US10102480B2 (en) * 2014-06-30 2018-10-16 Amazon Technologies, Inc. Machine learning service
US10643144B2 (en) * 2015-06-05 2020-05-05 Facebook, Inc. Machine learning system flow authoring tool
CN105550746B (zh) * 2015-12-08 2018-02-02 北京旷视科技有限公司 机器学习模型的训练方法和训练装置
US10438132B2 (en) * 2015-12-16 2019-10-08 Accenture Global Solutions Limited Machine for development and deployment of analytical models
CN107103171B (zh) * 2016-02-19 2020-09-25 阿里巴巴集团控股有限公司 机器学习模型的建模方法及装置
CN108269110B (zh) * 2016-12-30 2021-10-26 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
US10782988B2 (en) * 2017-04-25 2020-09-22 Petuum Inc. Operating system for distributed enterprise artificial intelligence programs on data centers and the clouds
CN109327421A (zh) * 2017-08-01 2019-02-12 阿里巴巴集团控股有限公司 数据加密、机器学习模型训练方法、装置及电子设备
CN108021986A (zh) * 2017-10-27 2018-05-11 平安科技(深圳)有限公司 电子装置、多模型样本训练方法和计算机可读存储介质
CN108170909B (zh) * 2017-12-13 2021-08-03 中国平安财产保险股份有限公司 一种智能建模的模型输出方法、设备及存储介质
US11250340B2 (en) * 2017-12-14 2022-02-15 Microsoft Technology Licensing, Llc Feature contributors and influencers in machine learned predictive models
CN109947497B (zh) * 2017-12-20 2021-06-08 Oppo广东移动通信有限公司 应用程序预加载方法、装置、存储介质及移动终端
CN108108821B (zh) * 2017-12-29 2022-04-22 Oppo广东移动通信有限公司 模型训练方法及装置
US20190213503A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Identifying a deployed machine learning model
CN108197664B (zh) * 2018-01-24 2020-09-04 北京墨丘科技有限公司 模型获取方法、装置、电子设备及计算机可读存储介质
CN109643229B (zh) * 2018-04-17 2022-10-04 深圳鲲云信息科技有限公司 网络模型的应用开发方法、平台及计算机可读存储介质
US20190354850A1 (en) * 2018-05-17 2019-11-21 International Business Machines Corporation Identifying transfer models for machine learning tasks
US10699194B2 (en) * 2018-06-01 2020-06-30 DeepCube LTD. System and method for mimicking a neural network without access to the original training dataset or the target model
CN108985238B (zh) * 2018-07-23 2021-10-22 武汉大学 联合深度学习和语义概率的不透水面提取方法及系统
CN109165249B (zh) * 2018-08-07 2020-08-04 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
US11030484B2 (en) * 2019-03-22 2021-06-08 Capital One Services, Llc System and method for efficient generation of machine-learning models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313953A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Automated Classification Pipeline Tuning Under Mobile Device Resource Constraints
TW201812646A (zh) * 2016-07-18 2018-04-01 美商南坦奧美克公司 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置

Also Published As

Publication number Publication date
US20210081725A1 (en) 2021-03-18
EP3779723A4 (en) 2021-06-23
US11210569B2 (en) 2021-12-28
SG11202010515VA (en) 2020-11-27
EP3779723A1 (en) 2021-02-17
CN109165249B (zh) 2020-08-04
WO2020029689A1 (zh) 2020-02-13
TW202018533A (zh) 2020-05-16
CN109165249A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
TWI703458B (zh) 資料處理模型構建方法、裝置、伺服器和用戶端
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
US10460256B2 (en) Interactive performance visualization of multi-class classifier
US20180268038A1 (en) Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searches
EP3905126A2 (en) Image clustering method and apparatus
KR102179890B1 (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
JP2020521210A (ja) 情報処理方法及び端末、コンピュータ記憶媒体
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
EP3848855A1 (en) Learning method and apparatus for intention recognition model, and device
WO2018188378A1 (zh) 一种给应用标注标签的方法、装置、终端及计算机可读存储介质
CN104115145A (zh) 生成表示满足搜索准则的对象中的内容实例的标签的显示组的可视化
US20220318681A1 (en) System and method for scalable, interactive, collaborative topic identification and tracking
US10229212B2 (en) Identifying Abandonment Using Gesture Movement
CN109934631A (zh) 问答信息处理方法、装置及计算机设备
CN109829033A (zh) 数据展示方法和终端设备
CN110874644A (zh) 辅助用户探索数据集、数据表的方法及装置
Shapiro et al. Visual deep learning recommender system for personal computer users
US20190213613A1 (en) Segmenting market data
CN111325006B (zh) 一种信息交互方法、装置、电子设备和存储介质
CN110990710B (zh) 资源推荐方法及装置
US20130055138A1 (en) Dynamically changing key selection based on context
JP5876397B2 (ja) 文字付与プログラム、文字付与方法および情報処理装置
CN113515701A (zh) 信息推荐方法及装置
CN113139039A (zh) 对话数据处理方法、装置、设备以及存储介质