TWI742040B - 分布式環境下監督學習算法的基準測試方法和裝置 - Google Patents

分布式環境下監督學習算法的基準測試方法和裝置 Download PDF

Info

Publication number
TWI742040B
TWI742040B TW106104936A TW106104936A TWI742040B TW I742040 B TWI742040 B TW I742040B TW 106104936 A TW106104936 A TW 106104936A TW 106104936 A TW106104936 A TW 106104936A TW I742040 B TWI742040 B TW I742040B
Authority
TW
Taiwan
Prior art keywords
data
benchmark
supervised learning
benchmark test
learning algorithm
Prior art date
Application number
TW106104936A
Other languages
English (en)
Other versions
TW201734841A (zh
Inventor
孫忠英
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201734841A publication Critical patent/TW201734841A/zh
Application granted granted Critical
Publication of TWI742040B publication Critical patent/TWI742040B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本發明實施例提供了一種分布式環境下監督學習算法的基準測試方法和裝置,其中的方法包括:獲取根據基準測試中的輸出資料所確定的第一基準測試結果;獲取所述基準測試中的分布式性能指標,將所述分布式性能指標確定為第二基準測試結果;將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。本發明實施例提供了一種完善的、用於解決分布式環境下監督學習算法的基準測試問題的方案,可以協助技術人員對監督學習算法的性能進行準確、快速的評估。

Description

分布式環境下監督學習算法的基準測試方法和裝置
本發明關於機器學習技術領域,特別是關於一種分布式環境下監督學習算法的基準測試方法和一種分布式環境下監督學習算法的基準測試裝置。
機器學習是近20多年興起的一門多領域交叉學科,關於機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習算法是一類從資料中自動分析獲得規律,並利用規律對未知資料進行預測的算法。
目前,機器學習已經有了十分廣泛的應用,例如:資料採擷、電腦視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫辨識、戰略遊戲和機器人運用。
在機器學習領域,監督學習、非監督學習以及半監督學習是三類研究比較多、應用比較廣的機器學習技術,上述三種學習的簡單描述如下:
監督學習:透過已有的一部分輸入資料與輸出資料之間的對應關係,產生一個函數,將輸入映射到合適的輸 出,例如分類。
非監督學習:直接對輸入資料集進行建模,例如聚類。
半監督學習:綜合利用有類標的資料和沒有類標的資料,來產生合適的分類函數。
按照部署結構的不同,監督學習被分為單機環境下的監督學習和分布式環境下的監督學習,分布式環境下的監督學習是指由處於不同物理位置的多個具備不同和/或相同物理結構的設備執行監督學習算法的一種監督學習解決方案。
由於分布式環境下的監督學習在設備部署上的複雜性,其在資源協調通信和消耗因素較多,這使得對於分布式環境下的監督學習算法的基準測試(benchmark),也就是,對分布式環境下的監督學習算法的性能進行評估的難度更大。
目前,針對分布式環境下監督學習算法的基準測試問題,還沒有完整、有效的方案被提出。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種分布式環境下監督學習算法的基準測試方法和相應的一種分布式環境下監督學習算法的基準測試裝置。
為了解決上述問題,本發明公開了一種分布式環境下 監督學習算法的基準測試方法,所述方法包括:獲取根據基準測試中的輸出資料所確定的第一基準測試結果;獲取所述基準測試中的分布式性能指標,將所述分布式性能指標確定為第二基準測試結果;將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
較佳地,所述獲取根據基準測試中的輸出資料所確定第一基準測試結果之前,所述方法還包括:確定待測試監督學習算法;按照評估模型對所述待測試監督學習算法進行基準測試得到輸出資料;根據基準測試中的輸出資料確定第一基準測試結果。
較佳地,所述按照評估模型對所述待測試監督學習算法進行基準測試得到輸出資料,包括:按照交叉驗證模型對所述待測監督學習算法進行基準測試得到輸出資料;或者,按照標記Label按比例分配模型對所述待測監督學習算法進行基準測試得到輸出資料;或者,按照交叉驗證模型和Label按比例分配模型分別對所述待測監督學習算法進行基準測試得到輸出資料。
較佳地,所述按照交叉驗證模型對所述待測試監督學習算法進行基準測試得到輸出資料,包括:取一測試資料樣本; 將所述測試資料樣本中的資料等分為N份;對所述N份資料執行M輪基準測試;其中,在每一輪基準測試中,包括以下步驟:將所述N份資料中的N-1份確定為訓練資料,其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,其中,所述M、N為正整數;將所確定的N-1份訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;將所確定的一份預測資料中的輸入資料提供給所述函數,得出輸出資料。較佳地,所述按照Label按比例分配模型對所述待測試監督學習算法進行基準測試得到輸出資料,包括:取一測試資料樣本,所述測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;分別將所述測試資料樣本中具備第一標記的資料和具備第二標記的資料等分為N份;對所述等分後得到的2N份資料執行M輪基準測試;其中,在每一輪基準測試中包括以下步驟:將所述N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將所述N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其 中,所述M、N為正整數;將所確定的具備第一標記和第二標記的訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給所述函數,得到輸出資料。
較佳地,所述第一基準測試結果包括以下指標至少其中之一:判斷為真的正確率TP、判斷為假的正確率TN、誤報率FP及漏報率FN、精度Precision、召回率Recall及準確度Accuracy;所述第二基準測試結果包括以下指標至少其中之一:待測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
較佳地,所述得到基準測試總結果後,所述方法還包括:根據所述第一基準測試結果確定F1得分;以及,透過以下方式對所述待測試監督學習算法進行性能評估:當F1得分相同或者接近時,待測試監督學習算法的Iterate值越小則確定待測試監督學習算法性能越好;或者,當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
為了解決上述問題,本發明還公開了一種分布式環境下監督學習算法的基準測試裝置,所述裝置包括:第一基準測試結果獲取模組、指標獲取模組、第二基準測試結果確定模組及基準測試總結果確定模組;其中,所述第一基準測試結果獲取模組,用於獲取根據基準測試中的輸出資料所確定的第一基準測試結果;所述指標獲取模組,用於獲取所述基準測試中的分布式性能指標;所述第二基準測試結果確定模組,用於將所述分布式性能指標確定為第二基準測試結果;所述基準測試總結果確定模組,用於將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
較佳地,所述裝置還包括:確定模組,用於在所述第一基準測試結果獲取模組獲取根據基準測試中的輸出資料所確定第一基準測試結果之前,確定待測試監督學習算法;所述基準測試模組,用於按照評估模型對所述待測試監督學習算法進行基準測試得到輸出資料;所述第一基準測試結果確定模組,用於根據基準測試中的輸出資料確定第一基準測試結果。
較佳地,所述基準測試模組,用於按照交叉驗證模型對所述待測監督學習算法進行基準測試;或者,按照標記Label按比例分配模型對所述待測監督學習算法進行基準測試;或者,按照交叉驗證模型和Label按比例分配模型 分別對所述待測監督學習算法進行基準測試得到輸出資料;其中,所述基準測試模組,包括:第一基準測試子模組和第二基準測試子模組;其中,所述第一基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對所述待測監督學習算法進行基準測試;所述第二基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對所述待測監督學習算法進行基準測試。
較佳地,所述第一基準測試子模組,包括:第一取資料單元,用於取一測試資料樣本;第一等分單元,用於將所述測試資料樣本中的資料等分為N份;第一確定單元,用於在每一輪基準測試中,將所述N份資料中的N-1份確定為訓練資料、其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,M、N為正整數;第一提供單元,用於在每一輪基準測試中,將所確定的N-1份訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;第二提供單元,用於在每一輪基準測試中,將所確定的一份預測資料中的輸入資料提供給所述函數,得出輸出資料。
較佳地,所述第二基準測試子模組,包括:第二取資料單元,用於取一測試資料樣本,所述測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;第二等分單元,用於分別將所述測試資料樣本中具備第一標記的資料和具備第二標記的資料等分為N份;第二確定單元,用於在每一輪基準測試中,將所述N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將所述N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其中,M、N為正整數;第三提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;第四提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給所述函數,得出輸出資料。
較佳地,所述第一基準測試結果包括以下指標至少其中之一:判斷為真的正確率TP、判斷為假的正確率TN、誤報率FP、漏報率FN、精度Precision、召回率Recall及準確度Accuracy;所述第二基準測試結果包括以下指標至少其中之一: 待測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
較佳地,所述裝置還包括:性能評估模組,用於根據所述第一基準測試結果確定F1得分;以及,透過以下方式對所述待測試監督學習算法進行性能評估:當F1得分相同或者接近時,待測試監督學習算法的反覆運算次數越小則確定待測試監督學習算法性能越好;或者,當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
本發明實施例包括以下優點:本發明實施例獲取根據基準測試中的輸出資料所確定的第一基準測試結果,以及,獲取基準測試中的分布式性能指標得到第二基準測試結果,然後,透過合併所述第一基準測試結果和第二基準測試結果,使得合併後得到的基準測試總結果包含了不同維度的性能分析指標。由於多維度的性能指標能夠最大程度地表現算法的運行性能,因此,本領域技術人員透過分析該不同維度的基準測試結果就能夠對分布式環境下的監督學習算法進行全面、準確地性能評估,避免了性能指標單一所帶來的評估誤差。
進一步的,由於第二基準測試結果中包含了從分布式系統中所獲取的分布式性能指標,而這些分布式性能指標能夠準確反映分布式系統在運行監督學習算法時系統當前的硬體消耗資訊,因此,透過對這些分布式性能指標和第一基準測試結果進行綜合分析,即可對當前分布式系統運行算法時的性能狀況進行準確、快速地判斷,克服了現有技術中,由於不具備對分布式環境下的監督學習算法進行基準測試的完整方案而無法對分布式環境下的監督學習算法進行基準測試的問題。
101、102、103‧‧‧方法步驟
201、202、203、204、205、206‧‧‧方法步驟
31‧‧‧第一基準測試結果獲取模組
32‧‧‧指標獲取模組
33‧‧‧第二基準測試結果確定模組
34‧‧‧基準測試總結果確定模組
35‧‧‧確定模組
36‧‧‧基準測試模組
37‧‧‧第一基準測試結果確定模組
38‧‧‧性能評估模組
71‧‧‧任務新建模組
72‧‧‧任務拆分模組
73‧‧‧任務執行模組
74‧‧‧資料統計模組
75‧‧‧分布式指標採集模組
76‧‧‧資料儲存模組
731‧‧‧訓練模組
732‧‧‧預測模組
733‧‧‧分析模組
901‧‧‧新建任務
902‧‧‧執行任務
903‧‧‧產生基準測試總結果
904‧‧‧確定F1值
905‧‧‧判斷F1值是否合理
906‧‧‧指示使用者新建基準測試任務
907‧‧‧指示基準測試任務失敗
圖1是根據本發明一個方法實施例提供的一種分布式環境下監督學習算法的基準測試方法實施例的步驟流程圖;圖2是根據本發明一個方法實施例提供的一種分布式環境下監督學習算法的基準測試方法實施例的步驟流程圖;圖3是根據本發明一個裝置實施例提供的一種分布式環境下監督學習算法的基準測試裝置實施例的結構方塊圖;圖4是根據本發明一個裝置實施例提供的一種分布式環境下監督學習算法的基準測試裝置實施例的結構方塊圖;圖5是根據本發明一個裝置實施例提供的一種分布式 環境下監督學習算法的基準測試裝置實施例的結構方塊圖;圖6是根據本發明一個示例提供的一種分布式環境下監督學習算法的基準測試方法實施例的對每一輪基準測試過程中資料類型劃分的邏輯順序示意圖;圖7是根據本發明一個示例提供的一種分布式環境下監督學習算法的基準測試系統的結構圖;圖8是本發明一個實施例提供的一種採用交叉驗證模型和Label按比例分配模型進行進行Benchmark基準測試實施例的業務流程圖;圖9是根據本發明一個示例提供的一種分布式環境下監督學習算法的處理流程圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
在資源使用方面,分布式環境下的監督學習和傳統的單機環境下的監督學習的區別在於分布式環境下監督學習的資源不易被計算統計,以一份128M的訓練資料為例,在單機環境下計算執行監督學習算法過程中cpu和記憶體的消耗很容易,然而,在分布式環境下執行監督學習算法時,所有計算資源由若干台機器上所產生的資料結果組成。
以5台2核4G記憶體的機器集群為例,其總資源為10核、20G。假設一個監督學習算法的訓練資料為128M,這128M的訓練資料在訓練階段會發生資料膨脹,分布式環境下可以根據資料大小對資料進行切片從而進行資源的發明,比如,訓練資料膨脹到了1G,以256M資料一個實例(instance)來計算,則需要4個instance來完成這個算法任務。假設,為每個instance去動態發明CPU和記憶體,在分布式環境下4個instance同時運行,加上分布式情況下各種資源間相互協調,最終,該任務消耗的cpu、記憶體需要同時計算4個instance下的資源消耗,而各個instance下的資源消耗是不容易被統計的。
針對分布式環境下資源消耗不易統計的這一問題,本發明實施例的核心構思之一在於,獲取根據基準測試中的輸出資料所確定的第一基準測試結果;獲取所述基準測試中的分布式性能指標,將所述分布式性能指標確定為第二基準測試結果;將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
方法實施例一
參照圖1,示出了本發明的一種分布式環境下監督學習算法的基準測試(benchmark)方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101、獲取根據基準測試中的輸出資料所確定的第一基準測試結果; 基於基準測試過程中所獲得的輸出資料,可以確定第一基準測試結果,該第一基準測試結果是對所述輸出資料進行分析而獲得的分析結果。
具體應用中,所述第一基準測試結果可以包括以下性能指標至少其中之一:判斷為真的正確率(True Positives,TP)、判斷為假的正確率(True Negative,TN)、誤報率(False Positives,FP)、漏報率(False Negative,FN)、精度Precision、召回率Recall、準確率Accuracy。
步驟102、獲取所述基準測試中的分布式性能指標,將所述分布式性能指標確定為第二基準測試結果;具體的,在分布式環境下的監督學習算法基準測試過程中,所需要獲取的分布式性能指標為對監督學習算法基準測試過程中所產生的硬體消耗資訊,如,處理器使用情況CPU、記憶體使用情況MEM、算法反覆運算次數Iterate及算法使用時間Duration等等。
需要說明的是,在具體應用時,本領域技術人員還可根據實際所選擇的不同評估模型確定上述第一基準測試結果和第二基準測試結果中所包含的性能指標,本發明對性能指標的內容不作限制。
步驟103、將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
具體應用時,可將第一基準測試結果和第二基準測試結果中的各個性能指標資料以表格、圖形、曲線等多種方式進行合併展示,例如,參見表1所示,是以評估維度表 的形式對所述合併得到的基準測試總結果進行展示:
Figure 106104936-A0202-12-0014-1
容易理解的是,基準測試總結果無論以何種形式展現,其都能夠從多個維度反映算法的性能指標資訊,基於這些資訊,具備專業知識的技術人員可以對這些資訊進行分析,從而對待測試監督學習算法的性能進行評估。也就是說,本發明實施例一所提供的方法能夠協助技術人員完成對監督學習算法的性能評估。
綜上,本發明實施例獲取根據基準測試中的輸出資料所確定的第一基準測試結果,以及獲取基準測試中的分布式性能指標得到第二基準測試結果,然後,透過合併所述第一基準測試結果和第二基準測試結果,使得合併後得到的基準測試總結果包含了不同維度的性能分析指標,由於多維度的性能指標能夠最大程度地表現算法的運行性能,因此,本領域技術人員透過分析該不同維度的基準測試結果就能夠對分布式環境下的監督學習算法進行全面、準確地性能評估,避免了性能指標單一所帶來的評估誤差。
進一步的,由於第二基準測試結果中包含了從分布式系統中所獲取的分布式性能指標,而這些分布式性能指標能夠準確反映當分布式系統運行監督學習算法時系統當前的硬體消耗資訊,因此,透過對這些分布式性能指標和第 一基準測試結果進行綜合分析,即可對當前分布式系統運行算法時的性能狀況進行準確、快速地判斷,克服了現有技術中,由於不具備對分布式環境下的監督學習算法進行基準測試的完整方案而無法對分布式環境下的監督學習算法進行基準測試的問題。
另外,基於本發明實施例提供的一種基準測試方法可以構建基準測試平臺,該基準測試方法或平臺能夠基於對分布式環境下監督學習算法執行過程中所獲取的輸出資料和分布式性能指標進行分析,從而對分布式環境下的監督學習算法進行全面、準確地性能評估。
方法實施例二
參照圖2,示出了本發明的一種分布式環境下監督學習算法的基準測試方法實施例的步驟流程圖,具體可以包括如下步驟:步驟201、確定待測試監督學習算法;具體的,在該步驟中需要確定出一個待測試監督學習算法,之後,對該待測試監督學習算法進行基準測試,從而對該待測試監督學習算法的性能進行評估。
由於機器學習技術的廣泛應用,不同領域針對不同應用場景會產生各種各樣的學習算法,而對不同學習算法的性能進行評估就成為了一項重要內容。
本發明實施例二所提供的方法,主要對分布式環境下的監督學習算法進行基準測試。
該步驟可以由使用者進行選擇,實際實現中,用戶可以直接將某一監督學習算法提交至基準測試系統,則基準測試系統將接收到的監督學習算法確定為待測試監督學習算法;或者,使用者在基準測試系統中的選擇介面中選擇需要被測試的監督學習算法,則基準測試系統將使用者所選擇的監督學習算法確定為待測試監督學習算法。
步驟202、按照評估模型對所述待測試監督學習算法進行基準測試得到輸出資料;這一步驟之前,需要預先設定評估模型,該模型具備對待測試監督學習算法進行基準測試的功能。
具體的,在算法評估領域,交叉驗證模型和標記Label按比例分配模型是被廣泛應用的兩種模型,具備較高的準確度和算法穩定性,因此,本發明實施例選擇這兩種模型作為評估模型示例對本發明提供的方法進行描述;即,在步驟202中,所述評估模型包括:交叉驗證模型和/或標記Label按比例分配模型。
因此,所述按照評估模型對所述待測試監督學習算法進行基準測試,包括:按照交叉驗證模型對所述待測監督學習算法進行基準測試;或者,按照標記Label按比例分配模型對所述待測監督學習算法進行基準測試;或者,按照交叉驗證模型和Label按比例分配模型分別對所述待測監督學習算法進行基準測試。
參照圖8,圖8示出的是本發明一個採用交叉驗證模型和Label按比例分配模型進行Benchmark基準測試實施例的業務流程圖。具體實現時,使用者可根據需要選擇上述兩種模型中其中任意一種模型運行任務並得到展示結果。
在本發明的一個可選實施例中,所述按照交叉驗證模型對所述待測試監督學習算法進行基準測試得到輸出資料,包括以下步驟:步驟一、取一測試資料樣本;具體的,測試資料樣本通常為一實測資料樣本,該資料樣本中包括多條資料,每一條資料均包括輸入資料和輸出資料,而每一條資料中的輸入和輸出的值通常都為實際的監測值,也可以分別稱為標準輸入資料和標準輸出資料。例如,某一個對房價進行預測的資料樣本中,每一條資料的輸入為房子大小,對應的輸出為均價,其具體取值均為獲取的真實值。
步驟二、將所述測試資料樣本中的資料等分為N份;步驟三、對所述N份資料執行M輪基準測試;其中,在每一輪基準測試中,包括以下步驟:將所述N份資料中的N-1份確定為訓練資料、其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,M、N為正整數;將所確定的N-1份訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;將所確定的一份預測資料中的 輸入資料提供給所述函數,得出輸出資料。
下面透過一個具體應用示例對上述按照交叉驗證模型對所述待測試監督學習算法進行基準測試的方法進行詳細介紹:假設,取一個包含1000條資料的測試資料樣本1,按照預設規則,N=5,因此,基準測試系統首先將所述測試資料樣本1中的資料等分為5份,分別為資料1、資料2、資料3、資料4及資料5,這樣,每份包含200條資料;M值也為5,這樣基準測試系統對所述5份資料進行5輪基準測試。
每輪基準測試中,需要對資料類型進行劃分,具體的,N-1=4,因此,選擇4份作為訓練資料,1份作為預測資料。
圖6為一種資料類型劃分方法的示意圖,如圖6所示,每一行示出的是5份資料在一輪基準測試中的資料劃分方式,其中,每一行中從左至右依次為資料1至資料5的劃分方式;第一行中,資料1至資料4被劃分為訓練資料,資料5為預測資料;第二行中,資料1至資料3及資料5被劃分為訓練資料,資料4為預測資料;第三行中,資料1、資料2、資料4至資料5為訓練資料,而資料3為預測資料;依次類推,第四行中,資料2為預測資料,其餘為訓練資料;第五行中,資料1為預測資料,其餘為訓練資料;對資料劃分完成之後,需要對資料進行五輪基準測試,在每一輪基準測試中,將所確定的4份訓練資料 提供給待測試監督學習算法進行學習,得到一個函數(或者,也可稱為模型),接下來,將剩餘的一份預測資料中的輸入資料提供給所述函數,就可以得到輸出資料,該輸出資料是使用所述函數對輸入資料進行預測後得到的預測值;這樣,五輪基準測試完成後,可以得到5組輸出資料。
需要說明的是,五輪基準測試中,可以按照圖6給出的方式中的邏輯順序對每一輪基準測試過程中的資料類型進行劃分,也可以按照其它邏輯順序對基準測試過程中的資料類型進行劃分,例如,將圖6中自上至下的行與行之間的次序打亂,只要確保M輪基準測試中,每一份資料只有一次機會被確定為預測資料即可。
在本發明的另一可選實施例中,所述按照Label按比例分配模型對所述待測試監督學習算法進行基準測試得到輸出資料,包括以下步驟:步驟一、取一測試資料樣本,所述測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;需要說明的是,在該方案中,所述測試資料樣本中包括且僅包括具備第一標記的資料和具備第二標記的資料,第一標記和第二標記是指基於某特定需要而用於對資料進行分類的標記,因此,該方案應用於包含兩類資料的二分類場景下。
步驟二、分別將所述測試資料樣本中具備第一標記的資料和具備第二標記的資料等分為N份; 步驟三、對所述N份資料執行M輪基準測試:其中,在每一輪基準測試中,包括以下步驟:將所述N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將所述N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其中,M、N為正整數;將所確定的具備第一標記和第二標記的訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給所述函數,得出輸出資料。
具體的,第一標記和第二標記只是用於對不同標記進行區分,並不用於限定。實際應用中,第一標記和第二標記可以使用不同的標記符號,例如,第一標記可以為1,第二標記為0;或者,第一標記為Y,第二標記為N等等。
下面透過一個應用示例對按照Label按比例分配模型對所述待測試監督學習算法進行基準測試的方法進行詳細介紹:Label按比例分配模型是根據label值進行分類,之後,對每個類型進行等比區分,然後再進行不同比例的組合去做訓練。
假設,一個測試資料樣本2包含1000條資料,其中,600條資料的label值為1、400條資料的label值為0。按照Label按比例分配模型可以把600條label值為1 的資料分成10份,每份60個資料、將400條label為0的資料也分成10份,每份40個資料。所述測試資料樣本2的劃分方法如表2所示,其中,每一行代表一份資料,資料1至資料10代表10分Label值為1的資料,資料11至資料20代表10分Label值為0的資料。
Figure 106104936-A0202-12-0021-2
在進行基準測試時,基準測試系統可以將1份label 值為1的資料和1份label值為0的資料確定為訓練資料,將另外一份label值為1和label值為0的資料確定為預測資料、或者將一份以上label值為1和label值為0的資料確定為預測資料。
對資料劃分完成之後,就可以對資料進行基準測試,假設M=4,則需要進四輪基準測試。在每一輪基準測試中,將所確定的訓練資料提供給待測試監督學習算法進行學習,得到一個函數(或者,也可稱為模型),接下來,將預測資料中的輸入資料提供給所述函數,就可以得到輸出資料,該輸出資料是使用所述函數對輸入資料進行預測後得到的預測值;這樣,四輪基準測試完成後,可以得到四組輸出資料。
相應的,所述按照交叉驗證模型和Label按比例分配模型分別對所述待測監督學習算法進行基準測試,是指將測試資料樣本分別按照交叉驗證模型和Label按比例分配模型進行基準測試,這樣,不同評估模型下,將得到一組輸出資料,將這兩組輸出資料確定為整個基準測試過程的輸出資料。
步驟203、獲取根據基準測試中的輸出資料所確定的第一基準測試結果;具體的,透過基準測試獲得輸出資料以後,可以根據輸出資料與標準輸出資料,即,輸入資料在測試資料樣本中所對應的輸出資料的偏差來確定多個參數指標,具體應用中,所述第一基準測試結果可以包括以下性能指標至少 其中之一:TP、TN、FP、FN、Precision、Recall、Accuracy。
步驟204、獲取所述基準測試中的分布式性能指標,將所述分布式性能指標確定為第二基準測試結果;具體的,基準測試系統中的系統性能檢測模組能夠在基準測試過程中獲得各種分布式性能指標,這些分布式性能指標即為第二基準測試結果,具體的,所述分布式性能指標,包括以下指標至少其中之一:待測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
步驟205、將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
在對待測試監督學習算法進行基準測試(也就是性能評估)時,需要結合第一基準測試結果和第二基準測試結果來進行綜合分析。
因此,可以在獲得第一基準測試結果和第二基準測試結果之後,將這兩種基準測試結果合併,產生這些結果所對應的列表,並將該清單透過顯示幕顯示給使用者,當使用者為具備算法評估分析能力的技術人員時,可以直接根據清單中所呈現的資料進行綜合分析,從而對待測試監督學習算法的性能進行評估。
一個示例性的基準測試總結果列表如下:
Figure 106104936-A0202-12-0024-3
該列表可以包括一行或多行輸出結果,每一行輸出結果對應一輪基準測試所確定的第一基準測試結果和第二基準測試結果;或者,每一行輸出結果對應對多輪基準測試綜合分析後所確定的第一基準測試結果和第二基準測試結果。
步驟206、根據所述基準測試結果對所述待測試監督學習算法進行性能評估。
具體的,所述根據所述基準測試結果對所述待測試監督學習算法進行性能評估,包括:根據所述第一基準測試結果確定F1得分;以及,透過以下方式對所述待測試監督學習算法進行性能評估:當F1得分相同或者接近時,待測試監督學習算法的反覆運算次數越小則待測試監督學習算法性能越好。依據這種方式可以直接對待測試監督學習算法的性能進行評估,也就是,在F1得分相同和相近時,確定待測試監督學習算法的反覆運算次數,而反覆運算次數越小的待測試監督學習算法被確定為性能更好。
其中,F1得分,即,F1 score,可以看作是算法準確率和召回率的一種加權平均,是用於評估待測試監督學習算法好壞的一個重要指標,其計算公式如下:
Figure 106104936-A0202-12-0025-4
其中,precision和recall均為第一基準測試結果中的指標,具體的,precision為精度,recall為召回率。
因此,在這種性能評估方式中,只需要確定precision、recall及待測試監督學習算法的反覆運算次數的取值,即可對待測試監督學習算法的性能進行評估。
另外,也可以透過以下方式對所述待測試監督學習算法進行性能評估:當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
上述方案中,也可以將基準測試結果和F1得分同時列表輸出,方便技術人員查看和分析。一個示例性的列表如下:
Figure 106104936-A0202-12-0025-5
在本發明的另一種可選實施例中,對待測試監督學習算法進行性能評估之後,可以將性能評估結果發送給使用者,具體的,可以將性能評估結果展示於顯示介面之上,供使用者查看,從而輔助使用者進行算法性能評估。
在本發明的另一種可選實施例中,所述方法還包括:判斷F1得分的偏差是否合理,如果合理,確定基準 測試成功;如果不合理,確定基準測試不成功,且向使用者發送報警指示資訊。由於F1得分是用於判斷待測試監督學習算法性能的一個重要指標,在實際應用中,用戶可以針對不同待測試監督學習算法預先設定F1得分的一個標準值,並設定偏差範圍,當F1得分的偏差在用戶設定的範圍內,則確定基準測試成功,如果F1得分的偏差超出用戶設定的範圍,則確定基準測試不成功,用戶可以重新進行測試。
綜上,本發明實施例二所提供的方法,透過對基準測試總結果作進一步性能分析確定F1值,然後,可基於該F1值直接對監督算法在分布式環境下的運行性能做出判斷並將判斷結果提供給用戶,使得本領域技術人員能夠從輸出結果中直觀地獲知監督學習算法在分布式環境下的運行性能,與上述實施例一相比,由於用戶無需重新計算分析指標,因此減少了用戶分析判斷所需的時間,進一步提高了分析效率。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所關於的動作並不一定是本發明實施例所必須的。
裝置實施例
參照圖3,示出了本發明的一種分布式環境下監督學習算法的基準測試裝置實施例的結構方塊圖,具體可以包括:第一基準測試結果獲取模組31、指標獲取模組32、第二基準測試結果確定模組33及基準測試總結果確定模組34;其中,所述第一基準測試結果確定模組31,用於根據所述基準測試中的輸出資料確定第一基準測試結果;所述指標獲取模組32,用於獲取所述基準測試中的分布式性能指標;所述第二基準測試結果確定模組33,用於將所述分布式性能指標確定為第二基準測試結果;所述基準測試總結果確定模組34,用於將所述第一基準測試結果和第二基準測試結果合併得到基準測試總結果。
在本發明的一種可選實施例中,如圖4所示,所述裝置還包括:確定模組35,用於在所述第一基準測試結果獲取模組獲取根據基準測試中的輸出資料所確定第一基準測試結果之前,確定待測試監督學習算法;所述基準測試模組36,用於按照評估模型對所述待測試監督學習算法進行基準測試得到輸出資料;所述第一基準測試結果確定模組37,用於根據基準測試中的輸出資料確定第一基準測試結果。
具體的,所述基準測試模組36,用於按照交叉驗證模型對所述待測監督學習算法進行基準測試;或者,按照標記Label按比例分配模型對所述待測監督學習算法進行基準測試;或者,按照交叉驗證模型和Label按比例分配模型分別對所述待測監督學習算法進行基準測試得到輸出資料;其中,所述基準測試模組36,包括:第一基準測試子模組和第二基準測試子模組;其中,所述第一基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對所述待測監督學習算法進行基準測試;所述第二基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對所述待測監督學習算法進行基準測試。
具體的,所述第一基準測試子模組,包括:第一取資料單元,用於取一測試資料樣本;第一等分單元,用於將所述測試資料樣本中的資料等分為N份;第一確定單元,用於在每一輪基準測試中,將所述N份資料中的N-1份確定為訓練資料、其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,M、N為正整數;第一提供單元,用於在每一輪基準測試中,將所確定的N-1份訓練資料提供給所述待測試監督學習算法進行學 習得到一個函數;第二提供單元,用於在每一輪基準測試中,將所確定的一份預測資料中的輸入資料提供給所述函數,得出輸出資料。
具體的,所述第二基準測試子模組,包括:第二取資料單元,用於取一測試資料樣本,所述測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;第二等分單元,用於分別將所述測試資料樣本中具備第一標記的資料和具備第二標記的資料等分為N份;第二確定單元,用於在每一輪基準測試中,將所述N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將所述N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其中,M、N為正整數;第三提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;第四提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給所述函數,得出輸出資料。
具體的,所述第一基準測試結果包括以下指標至少其中之一: 判斷為真的正確率TP、判斷為假的正確率TN、誤報率FP、漏報率FN、精度Precision、召回率Recall及準確度Accuracy;所述第二基準測試結果包括以下指標至少其中之一:待測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
在本發明的另一種可選實施例中,如圖5所示,所述裝置還包括:性能評估模組38,用於根據所述第一基準測試結果確定F1得分;以及,用於透過以下方式對所述待測試監督學習算法進行性能評估:當F1得分相同或者接近時,待測試監督學習算法的反覆運算次數越小則確定待測試監督學習算法性能越好;或者,當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
其中,F1得分,即,F1 score,可以看作是算法準確率和召回率的一種加權平均,是用於評估待測試監督學習算法好壞的一個重要指標,其計算公式如下:
Figure 106104936-A0202-12-0030-6
其中,precision和recall均為第一基準測試結果中的 指標,具體的,precision為精度,recall為召回率。
在具體實施過程中,上述第一基準測試結果獲取模組31、指標獲取模組32、第二基準測試結果確定模組33、基準測試總結果確定模組34、確定模組35、基準測試模組36、第一基準測試結果確定模組37及性能評估模組38可以由基準測試系統內的中央處理單元(CPU,Central Processing Unit)、微處理器(MPU,Micro Processing Unit)、數位訊號處理器(DSP,Digital Signal Processor)或可程式設計邏輯陣列(FPGA,Field-Programmable Gate Array)來實現。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
應用實例
圖7為一種示例性的基準測試系統的結構圖,該基準測試系統包括:任務新建模組71、任務拆分模組72、任務執行模組73、資料統計模組74、分布式指標採集模組75及資料儲存模組76;其中,所述任務新建模組71,用於根據使用者指示建立基準測試任務;具體的,使用者確定待測試監督學習算法,從而建立針對該待測試監督學習算法的基準測試任務。
所述任務拆分模組72,用於對使用者指示建立的基 準測試任務進行拆分;當使用者所設定的待測試監督學習算法包括一種以上時,將每一種待測試監督學習算法拆分為一個基準測試任務。
所述任務執行模組73,用於對所述基準測試任務進行基準測試並產生測試資料;所述資料統計模組74,用於透過統計產生的基準測試結果;具體的,將集中測試過程中產生的測試資料合併得到集中測試結果。
所述分布式指標採集模組75,用於採集基準測試過程中所產生的分布式指標;所述資料儲存模組76,用於對所述基準測試結果和分布式指標進行儲存。
其中,所述任務執行模組73,進一步包括:訓練模組731、預測模組732及分析模組733;其中,所述訓練模組731,用於將訓練資料提供給所述待測試監督學習算法進行學習得到一個函數;所述預測模組732,用於將預測資料提供給所述函數,得到輸出資料。所述分析模組733,用於根據所述輸出資料產生測試資料。
基於上述基準測試系統,一種示例性的基準測試方法的步驟流程圖如圖9所示,該方法包括以下步驟:
步驟901、新建任務;具體的,使用者根據需要新建一個任務,該任務針對 一特定監督學習算法,因此使用者需要設定待測試的監督學習算法;
步驟902、執行任務;具體的,按照交叉驗證模型或者按比例分配模型對所述監督學習算法進行基準測試。
步驟903、產生基準測試總結果;這裡的基準測試總結果包括:對所述監督學習算法進行基準測試時根據測試資料所確定的基準測試結果和基準測試執行過程中所獲取的分布式指標。
步驟904、確定F1得分;具體的,根據所述基準測試結果確定F1得分。
步驟905、判斷F1得分是否合理;當F1得分合理時,轉至步驟906;當F1得分不合理時,轉至步驟907;
步驟906、指示使用者新建基準測試任務;同時,指示用戶上一個基準測試任務測試成功。
步驟907、指示基準測試任務失敗;具體的,向用戶發出基準測試任務失敗的指示消息。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採 用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入資料/輸出資料介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫態性的電腦可讀媒體(transitory media),如調變的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來 描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種分布式環境下監督學習算法的基準測試方法和一種分布式環境下監督學習算法的基準測試裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (12)

  1. 一種分布式環境下監督學習算法的基準測試方法,其特徵在於,該方法包括:獲取根據基準測試中的輸出資料所確定的第一基準測試結果;獲取該基準測試中的分布式性能指標,將該分布式性能指標確定為第二基準測試結果;以及將該第一基準測試結果和第二基準測試結果合併得到基準測試總結果,其中,該第一基準測試結果包括以下指標至少其中之一:判斷為真的正確率TP、判斷為假的正確率TN、誤報率FP及漏報率FN、精度Precision、召回率Recall及準確度Accuracy;以及該第二基準測試結果包括以下指標至少其中之一:待測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
  2. 根據申請專利範圍第1項所述的方法,其中,該獲取根據基準測試中的輸出資料所確定第一基準測試結果之前,該方法還包括:確定待測試監督學習算法;按照評估模型對該待測試監督學習算法進行基準測試得到輸出資料;以及 根據基準測試中的輸出資料確定第一基準測試結果。
  3. 根據申請專利範圍第2項所述的方法,其中,該按照評估模型對該待測試監督學習算法進行基準測試得到輸出資料,包括:按照交叉驗證模型對該待測監督學習算法進行基準測試得到輸出資料;或者,按照標記Label按比例分配模型對該待測監督學習算法進行基準測試得到輸出資料;或者,按照交叉驗證模型和Label按比例分配模型分別對該待測監督學習算法進行基準測試得到輸出資料。
  4. 根據申請專利範圍第3項所述的方法,其中,該按照交叉驗證模型對該待測試監督學習算法進行基準測試得到輸出資料,包括:取一測試資料樣本;將該測試資料樣本中的資料等分為N份;對該N份資料執行M輪基準測試,其中,在每一輪基準測試中,包括以下步驟:將該N份資料中的N-1份確定為訓練資料,其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,其中,該M、N為正整數;將所確定的N-1份訓練資料提供給該待測試監督學習算法進行學習得到一個函數;以及將所確定的一份預測資料中的輸入資料提供給該函 數,得出輸出資料。
  5. 根據申請專利範圍第3項所述的方法,其中,該按照Label按比例分配模型對該待測試監督學習算法進行基準測試得到輸出資料,包括:取一測試資料樣本,該測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;分別將該測試資料樣本中具備第一標記的資料和具備第二標記的資料等分為N份;對該等分後得到的2N份資料執行M輪基準測試,其中,在每一輪基準測試中包括以下步驟:將該N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將該N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其中,該M、N為正整數;將所確定的具備第一標記和第二標記的訓練資料提供給該待測試監督學習算法進行學習得到一個函數;以及將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給該函數,得到輸出資料。
  6. 根據申請專利範圍第1至5項中任一項所述的方法,其中,該得到基準測試總結果後,該方法還包括:根據該第一基準測試結果確定F1得分;以及,透過以下方式對該待測試監督學習算法進行性能評估: 當F1得分相同或者接近時,待測試監督學習算法的Iterate值越小則確定待測試監督學習算法性能越好;或者,當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
  7. 一種分布式環境下監督學習算法的基準測試裝置,其特徵在於,該裝置包括:第一基準測試結果獲取模組、指標獲取模組、第二基準測試結果確定模組及基準測試總結果確定模組;其中,該第一基準測試結果獲取模組,用於獲取根據基準測試中的輸出資料所確定的第一基準測試結果;該指標獲取模組,用於獲取該基準測試中的分布式性能指標;該第二基準測試結果確定模組,用於將該分布式性能指標確定為第二基準測試結果;以及該基準測試總結果確定模組,用於將該第一基準測試結果和第二基準測試結果合併得到基準測試總結果,其中,該第一基準測試結果包括以下指標至少其中之一:判斷為真的正確率TP、判斷為假的正確率TN、誤報率FP、漏報率FN、精度Precision、召回率Recall及準確度Accuracy;以及該第二基準測試結果包括以下指標至少其中之一:待 測試監督學習算法對處理器的使用情況CPU、待測試監督學習算法對記憶體的使用情況MEM、待測試監督學習算法的反覆運算次數Iterate及待測試監督學習算法的使用時間Duration。
  8. 根據申請專利範圍第7項所述的裝置,其中,該裝置還包括:確定模組,用於在該第一基準測試結果獲取模組獲取根據基準測試中的輸出資料所確定第一基準測試結果之前,確定待測試監督學習算法;該基準測試模組,用於按照評估模型對該待測試監督學習算法進行基準測試得到輸出資料;以及該第一基準測試結果確定模組,用於根據基準測試中的輸出資料確定第一基準測試結果。
  9. 根據申請專利範圍第8項所述的裝置,其中,該基準測試模組,用於按照交叉驗證模型對該待測監督學習算法進行基準測試;或者,按照標記Label按比例分配模型對該待測監督學習算法進行基準測試;或者,按照交叉驗證模型和Label按比例分配模型分別對該待測監督學習算法進行基準測試得到輸出資料,其中,該基準測試模組,包括:第一基準測試子模組和第二基準測試子模組,其中,該第一基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對該待測監督學習算法進行基準測試;以及 該第二基準測試子模組,用於按照交叉驗證模型或標記Label按比例分配模型對該待測監督學習算法進行基準測試。
  10. 根據申請專利範圍第9項所述的裝置,其中,該第一基準測試子模組,包括:第一取資料單元,用於取一測試資料樣本;第一等分單元,用於將該測試資料樣本中的資料等分為N份;第一確定單元,用於在每一輪基準測試中,將該N份資料中的N-1份確定為訓練資料、其餘一份確定為預測資料,其中,M輪基準測試中,每一份資料僅有一次被確定為預測資料的機會,M、N為正整數;第一提供單元,用於在每一輪基準測試中,將所確定的N-1份訓練資料提供給該待測試監督學習算法進行學習得到一個函數;以及第二提供單元,用於在每一輪基準測試中,將所確定的一份預測資料中的輸入資料提供給該函數,得出輸出資料。
  11. 根據申請專利範圍第9項所述的裝置,其中,該第二基準測試子模組,包括:第二取資料單元,用於取一測試資料樣本,該測試資料樣本包括:具備第一標記的資料和具備第二標記的資料;第二等分單元,用於分別將該測試資料樣本中具備第 一標記的資料和具備第二標記的資料等分為N份;第二確定單元,用於在每一輪基準測試中,將該N份具備第一標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,同時,將該N份具備第二標記的資料中的一份確定為訓練資料、並將剩餘資料中的一份或多份確定為預測資料,其中,M、N為正整數;第三提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的訓練資料提供給該待測試監督學習算法進行學習得到一個函數;以及第四提供單元,用於在每一輪基準測試中,將所確定的具備第一標記和第二標記的預測資料中的輸入資料提供給該函數,得出輸出資料。
  12. 根據申請專利範圍第7至11項中任一項所述的裝置,其中,該裝置還包括:性能評估模組,用於根據該第一基準測試結果確定F1得分;以及,透過以下方式對該待測試監督學習算法進行性能評估:當F1得分相同或者接近時,待測試監督學習算法的反覆運算次數越小則確定待測試監督學習算法性能越好;或者,當F1指標相同時,待測試監督學習算法的CPU、MEM、Iterate及Duration值越小,則確定待測試監督學習算法性能越好。
TW106104936A 2016-03-18 2017-02-15 分布式環境下監督學習算法的基準測試方法和裝置 TWI742040B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610158881.9A CN107203467A (zh) 2016-03-18 2016-03-18 一种分布式环境下监督学习算法的基准测试方法和装置
CN201610158881.9 2016-03-18

Publications (2)

Publication Number Publication Date
TW201734841A TW201734841A (zh) 2017-10-01
TWI742040B true TWI742040B (zh) 2021-10-11

Family

ID=59850091

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104936A TWI742040B (zh) 2016-03-18 2017-02-15 分布式環境下監督學習算法的基準測試方法和裝置

Country Status (4)

Country Link
US (1) US20190019111A1 (zh)
CN (1) CN107203467A (zh)
TW (1) TWI742040B (zh)
WO (1) WO2017157203A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704610B2 (en) * 2017-08-31 2023-07-18 Accenture Global Solutions Limited Benchmarking for automated task management
US10949252B1 (en) * 2018-02-13 2021-03-16 Amazon Technologies, Inc. Benchmarking machine learning models via performance feedback
US11301909B2 (en) * 2018-05-22 2022-04-12 International Business Machines Corporation Assigning bias ratings to services
US11263484B2 (en) * 2018-09-20 2022-03-01 Innoplexus Ag System and method for supervised learning-based prediction and classification on blockchain
CN113168206A (zh) 2018-12-07 2021-07-23 惠普发展公司,有限责任合伙企业 使用预测模型的自动超频
US11275672B2 (en) 2019-01-29 2022-03-15 EMC IP Holding Company LLC Run-time determination of application performance with low overhead impact on system performance
US11138088B2 (en) 2019-01-31 2021-10-05 Hewlett Packard Enterprise Development Lp Automated identification of events associated with a performance degradation in a computer system
CN110262939B (zh) * 2019-05-14 2023-07-21 苏宁金融服务(上海)有限公司 算法模型运行监控方法、装置、计算机设备和存储介质
CN110362492B (zh) * 2019-07-18 2024-06-11 腾讯科技(深圳)有限公司 人工智能算法测试方法、装置、服务器、终端及存储介质
CN111242314B (zh) * 2020-01-08 2023-03-21 中国信息通信研究院 深度学习加速器基准测试方法和装置
CN111274821B (zh) * 2020-02-25 2024-04-26 北京明略软件系统有限公司 一种命名实体识别数据标注质量评估方法及装置
CN114328166A (zh) * 2020-09-30 2022-04-12 阿里巴巴集团控股有限公司 Ab测试算法的性能信息获取方法、装置和存储介质
WO2022136904A1 (en) * 2020-12-23 2022-06-30 Intel Corporation An apparatus, a method and a computer program for benchmarking a computing system
CN113419941A (zh) * 2021-04-01 2021-09-21 阿里巴巴新加坡控股有限公司 评估方法及装置、电子设备和计算机可读存储介质
CN113392976A (zh) * 2021-06-05 2021-09-14 清远市天之衡传感科技有限公司 一种量子计算系统性能监测方法及装置
JP7176158B1 (ja) * 2021-06-30 2022-11-21 楽天グループ株式会社 学習モデル評価システム、学習モデル評価方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110296249A1 (en) * 2010-05-26 2011-12-01 Merchant Arif A Selecting a configuration for an application
CN104077218A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式系统的测试方法及设备
CN104809063A (zh) * 2015-04-24 2015-07-29 百度在线网络技术(北京)有限公司 分布式系统的测试方法及装置
TWI519965B (zh) * 2013-12-26 2016-02-01 Flexible assembly system and method for cloud service service for telecommunication application

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381558B1 (en) * 1998-12-18 2002-04-30 International Business Machines Corporation Alternative profiling methodology and tool for analyzing competitive benchmarks
US8566803B2 (en) * 2007-09-20 2013-10-22 International Business Machines Corporation Benchmark profiling for distributed systems
CN103559303A (zh) * 2013-11-15 2014-02-05 南京大学 一种对数据挖掘算法的评估与选择方法
CN105068934A (zh) * 2015-08-31 2015-11-18 浪潮集团有限公司 一种用于云平台的基准测试系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110296249A1 (en) * 2010-05-26 2011-12-01 Merchant Arif A Selecting a configuration for an application
CN104077218A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式系统的测试方法及设备
TWI519965B (zh) * 2013-12-26 2016-02-01 Flexible assembly system and method for cloud service service for telecommunication application
CN104809063A (zh) * 2015-04-24 2015-07-29 百度在线网络技术(北京)有限公司 分布式系统的测试方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI817237B (zh) * 2021-11-04 2023-10-01 關貿網路股份有限公司 風險預測方法、系統及其電腦可讀媒介

Also Published As

Publication number Publication date
WO2017157203A1 (zh) 2017-09-21
US20190019111A1 (en) 2019-01-17
CN107203467A (zh) 2017-09-26
TW201734841A (zh) 2017-10-01

Similar Documents

Publication Publication Date Title
TWI742040B (zh) 分布式環境下監督學習算法的基準測試方法和裝置
CN109165249B (zh) 数据处理模型构建方法、装置、服务器和用户端
CN106951925B (zh) 数据处理方法、装置、服务器及系统
CN113792825A (zh) 一种用电信息采集设备故障分类模型训练方法及装置
US10467547B1 (en) Normalizing text attributes for machine learning models
CN105069470A (zh) 分类模型训练方法及装置
TW201732789A (zh) 磁片的故障預測方法和裝置
Singhal et al. Review of bagging and boosting classification performance on unbalanced binary classification
CN109685104B (zh) 一种识别模型的确定方法和装置
Rhyn et al. A machine learning approach for classifying textual data in crowdsourcing
Kaplunovich et al. Cloud big data decision support system for machine learning on AWS: Analytics of analytics
CN117151070B (zh) 试卷组题方法、装置、设备及计算机可读存储介质
CN111191836A (zh) 一种井漏预测方法、装置及设备
CN110580217A (zh) 软件代码健康度的检测方法、处理方法、装置及电子设备
Mani et al. An investigation of wine quality testing using machine learning techniques
Menear et al. Mastering HPC Runtime Prediction: From Observing Patterns to a Methodological Approach
CN110135592B (zh) 分类效果确定方法、装置、智能终端及存储介质
US11797775B1 (en) Determining emebedding vectors for an unmapped content item using embedding inferenece
CN111367781B (zh) 一种实例处理方法及其装置
US11514311B2 (en) Automated data slicing based on an artificial neural network
CN113934894A (zh) 基于指标树的数据显示方法、终端设备
Manoharan et al. Ensemble Model for Educational Data Mining Based on Synthetic Minority Oversampling Technique
CN116738216B (zh) 预警大数据的关联处理方法和装置
WO2024124658A1 (zh) 基于案例学习与可诊断性分析的诊断算法量化推荐方法
WO2022269656A1 (ja) 機械学習装置、深刻度予知装置、および機械学習方法