TW201734871A

TW201734871A - 機器學習系統的訓練方法和訓練系統

Info

Publication number: TW201734871A
Application number: TW106104648A
Authority: TW
Inventors: Jun Zhou
Original assignee: Alibaba Group Services Ltd
Priority date: 2016-03-04
Filing date: 2017-02-13
Publication date: 2017-10-01
Also published as: CN107153630B; JP2019507442A; WO2017148314A1; CN107153630A; US20180365595A1; EP3425527A1; US11257005B2; JP7004661B2; EP3425527A4; TWI740896B

Abstract

本發明公開一種機器學習系統的訓練方法和系統，利用訓練數據對所述機器學習系統進行訓練，所述訓練方法包括：將訓練數據分配給多個工作機；將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總這些本地權重和本地損失函數值，獲得當前權重和當前損失函數值；利用當前權重和/或當前損失函數值執行模型異常檢測；當檢測結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；當檢測結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入機器學習系統進行訓練。

Description

機器學習系統的訓練方法和訓練系統

本發明涉及大數據處理領域，尤其涉及一種機器學習系統的訓練方法和訓練系統。

現如今，服務好用戶是各網際網路公司都希望實現的目標。為此，絕大部分公司都採用機器學習的方式捕捉用戶的偏好和習慣，提供個性化的服務。舉例來說，各網站可以利用機器學習系統，收集用戶上網的行為數據，為不同性別/年齡的用戶提供不同的搜索結果，做到最大程度地根據用戶的喜好提供服務。

上述的機器學習系統可以收集大量用戶的行為數據，例如用戶瀏覽/點擊/購買/頂帖子/發表對帖子的意見等等，並利用某些機器學習算法，離線對機器學習系統進行訓練。在得到一個預測模型之後，放在線上系統，對用戶提供服務。例如亞馬遜的推薦系統，其可以根據用戶以往的行為日誌(比如包含昨天以及昨天再向前推2周的日誌)，學習用戶偏好之後，給不同用戶推薦不同的商品。

這種利用以往用戶行為數據，離線進行訓練，得到模型的方式稱為離線學習。然而正常情况下用戶行為和興趣可能在一天之內都會發生顯著變化，由於離線學習系統中用戶當下產生的日誌並不能馬上加入到系統中去訓練，離線學習顯然不能捕獲這種變化。

在線學習就是模型隨著接收的新訓練數據，不斷更新模型本身。因而它能取得更好的效果。在線學習精度比較高，但由於數據採集的時間段比較短，模型受數據中雜訊影響比較大，造成模型訓練不穩定；同時由於在線學習採用異步更新模型的方式，訓練數據不斷流入模型，模型不斷進行更新學習，經常由於某些不可控的問題導致模型訓練卡死，出現訓練失敗，導致無法產出可用的模型、影響線上服務、損害用戶體驗。

鑒於上述問題，提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的機器學習系統的訓練方法和訓練系統。

為解決上述問題，本發明公開一種機器學習系統的訓練方法，利用訓練數據對所述機器學習系統進行訓練，所述訓練方法包括：將所述訓練數據分配給多個工作機；將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；利用當前權重和/或當前損失函數值執行模型異常檢測；當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

本發明實施例至少具有以下優點：根據本發明實施例提出的機器學習系統的訓練方法和訓練系統，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

400‧‧‧訓練系統

401‧‧‧訓練數據分配模組

402‧‧‧訓練數據劃分模組

403‧‧‧獲取模組

404‧‧‧匯總模組

405‧‧‧異常檢測模組

406‧‧‧第一處理模組

407‧‧‧第二處理模組

500‧‧‧訓練系統

501‧‧‧訓練數據分配模組

502‧‧‧訓練數據劃分模組

503‧‧‧獲取模組

504‧‧‧匯總模組

505‧‧‧異常檢測模組

505a‧‧‧第一判斷子模組

505b‧‧‧第一判定子模組

505c‧‧‧第二判斷子模組

505d‧‧‧第二判定子模組

505e‧‧‧第三判斷子模組505e

505f‧‧‧第三判定子模組

506‧‧‧第一處理模組

507‧‧‧第二處理模組

600‧‧‧訓練系統

601‧‧‧訓練數據分配模組

602‧‧‧訓練數據劃分模組

603‧‧‧獲取模組

604‧‧‧匯總模組

605‧‧‧異常檢測模組

606‧‧‧第一處理模組

607‧‧‧第二處理模組

608‧‧‧訓練模組

609‧‧‧結束判定模組

610‧‧‧模型產出模組

611‧‧‧返回執行模組

圖1是本發明第一實施例的機器學習系統的訓練方法的流程圖。

圖2是本發明第二實施例的機器學習系統的訓練方法的流程圖。

圖3是本發明第三實施例的機器學習系統的訓練方法的流程圖。

圖4是本發明第四實施例的機器學習系統的訓練系統的方塊圖。

圖5是本發明第五實施例的機器學習系統的訓練系統的方塊圖。

圖6是本發明第六實施例的機器學習系統的訓練系統的方塊圖。

下面將結合本發明實施例中的圖式，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員所獲得的所有其他實施例，都屬於本發明保護的範圍。

本發明的核心思想之一在於，提出一種機器學習系統的訓練方法，在該方法中，首先將訓練數據分配給多個工作機；將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總這些本地權重和本地損失函數值，獲得當前權重和當前損失函數值；利用當前權重和/或當前損失函數值執行模型異常檢測；當檢測結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；當檢測結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入機器學習系統進行訓練。

第一實施例

本發明第一實施例提出一種機器學習系統的訓練方法，如圖1所示為本發明第一實施例的機器學習系統的訓練方法的流程圖。該機器學習系統較佳為分布式機器學習系統，包括參數伺服器(parameter server)，該參數伺服器例如可以包括多個工作機(worker或者slaver)、多個伺服器(server)、一個協調器(coordinator)。如圖1所示，該訓練方法包括如下步驟：步驟S101，將所述訓練數據分配給多個工作機；在這一步驟中，例如，每個工作機可以根據其標識讀取屬於自己的訓練數據，各工作機之間的數據不重疊。這一步驟例如可以由協調器按照每個工作機的id將訓練數據劃分為屬於每一個工作機的訓練數據，並由對應的工作機讀取該訓練數據。

步驟S102，將每一個工作機分配得到的訓練數據劃分為多個數據片；在這一步驟中，例如，每一個工作機基於其自身的系統配置將其分配得到的訓練數據劃分為多個數據片，每一個工作機的每次處理是基於一個數據片進行處理。即，每個工作機每次只處理一個數據片。

步驟S103，獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；在這一步驟中，例如，在每一個工作機中，基於該工作機獲得的訓練數據中的一個數據片，計算獲得該工作機該次計算對應的本地權重和本地損失函數值；由於該機器學習系統包括多個工作機，在這一步驟中，可以獲得多個工作機在該次計算中獲得的本地權重和本地損失函數值。

步驟S104，匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；在這一步驟中，例如，每一個工作機將計算出的本地權重和本地損失函數值發送至伺服器，由伺服器對由多個工作機在本次計算出的多個本地權重和本地損失函數值進行匯總，獲得當前權重和當前損失函數值。匯總的過程包括但不限於相加、相加後平均等，本發明並不特別限制。

在步驟S103中每一個工作機計算出本地權重和本地損失函數值之後，可以異步地發送給伺服器，在步驟S104中，可以由協調器驅動伺服器進行多個本地權重和本地損失函數的匯總。

步驟S105，利用當前權重和/或當前損失函數值執行模型異常檢測；在這一步驟中，例如，可以將匯總後的當前權重和/或當前損失函數值輸入模型異常檢測裝置，根據預設的條件對模型是否異常進行檢測。檢測的結果例如可以為正常、第一類異常和第二類異常，並在後續分別針對這三種情况進行對應處理。

在一實施例中，模型異常檢測裝置的輸入值為當前權重、當前損失函數值、上一次匯總後的權重和上一次匯總後的損失函數值。上一次匯總後的權重由每一個工作機基於上一次計算使用的數據片計算得出的上一次本地權重進行匯總獲得；上一次匯總後的損失函數值由每一個工作機基於上一次計算使用的數據片計算得出的上一次本地損失函數值進行匯總獲得。

步驟S106，當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；在這一步驟中，例如檢測結果為第一類異常，則忽略或删除每一個工作機本次計算獲得的本地權重和本地損失函數值以及匯總後的當前權重和當前損失函數值，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練。

步驟S107，當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

在這一步驟中，例如檢測結果是第二類異常，可以進入模型微調裝置，將當前權重和/或當前損失函數值減去預設的第一閾值，獲得每一個元素的數值均位於第一閾值內的當前權重和/或當前損失函數值，並輸入機器學習系統進行訓練。特別地，當第一次減去預設的第一閾值仍不能得到位於第一閾值內的當前權重和/或當前損失函數值時，則可以再進行一次或多次減去第一閾值的處理，直到每一個元素的數值均位於第一閾值內。

在本發明第一實施例提出的機器學習系統的訓練方法中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

第二實施例

本發明第二實施例提出一種機器學習系統的訓練方法，如圖2所示為本發明第二實施例的機器學習系統的訓練方法的流程圖。該機器學習系統較佳為分布式機器學習系統，如圖2所示，該訓練方法包括如下步驟：S201，將所述訓練數據分配給多個工作機；S202，將每一個工作機分配得到的訓練數據劃分為多個數據片；S203，獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；S204，匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；S205，利用當前權重和/或當前損失函數值執行模型異常檢測； S206，當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；S207，當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

上述步驟S201至S207與第一實施例中的步驟S101至S107相同的部分在此不再贅述。

在本實施例中，步驟S205，即所述利用當前權重和/或當前損失函數值執行模型異常檢測的步驟包括：子步驟S205a，判斷當前損失函數值是否大於上一次匯總後的損失函數的值的k倍；在這一子步驟中，可以預先設置數值k，作為判定當前損失函數值是否異常的判定依據。

子步驟S205b，當判斷出當前損失函數值是否大於上一次匯總後的損失函數的值的k倍時，判定所述模型異常檢測的結果為第一類異常。

在這一子步驟中，當判斷出當前損失函數值大於上一次匯總後的損失函數的值的k倍時，可以認為本次計算並匯總出的當前損失函數值為第一類異常，即較為嚴重的異常。當判斷出模型出現這一類異常，則可以直接拋棄本次計算出的當前權重和當前損失函數值。

在本實施例中，步驟S205，即所述利用當前權重和/ 或當前損失函數值執行模型異常檢測的步驟還可以包括：子步驟S205c判斷當前權重中的元素的最大值和/或最小值的絕對值是否大於預設的第二閾值；在這一子步驟中，當前權重為包括N個元素的向量，在匯總得出當前權重後，可以判斷該向量的每一個元素(即每一個維度)的最大值和/或最小值的絕對值是否大於預設的第二閾值；第二閾值可以預先指定。

子步驟S205d，當判斷出當前權重中的元素的最大值和/或最小值的絕對值是否大於預設的第二閾值時，判定所述模型異常檢測的結果為第二類異常。

在這一子步驟中，當判斷出當前權重中的元素的最大值和最小值中的至少一者的絕對值大於預設的第二閾值時，則認為所述模型存在第二類異常，即相對較為輕微的異常。可以透過修正保留本次計算出的當前權重和當前損失函數值，將其修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

較佳地，將當前權重和/或當前損失函數值修正為第一閾值內的本地權重和/或本地損失函數值的步驟可以包括：將所述最大值和/或最小值的絕對值大於預設的第二閾值的元素減去所述第二閾值，獲得每一個元素均位於所述第二閾值內的當前權重。

在本實施例中，步驟S205，即所述利用當前權重和/或當前損失函數值執行模型異常檢測的步驟還可以包括：

子步驟S205e，判斷前n次匯總後的損失函數值的平均值是否大於第一次匯總後的損失函數值；在這一子步驟中，前n次匯總得出的損失函數值例如儲存在特定的儲存區域，可以計算前n次匯總後的損失函數值的平均值，並判斷該值是否大於第一次匯總得出的損失函數值。

子步驟S205f，當判斷出前n次匯總後的損失函數值的平均值大於第一次匯總後的損失函數值時，判定所述模型異常檢測的結果為第一類異常。

在這一子步驟中，當判斷出前n次匯總後的損失函數值的平均值大於第一次匯總後的損失函數值時，則可以認為該模型存在第一類異常，即較為嚴重的異常，當判斷出模型出現這一類異常，則可以直接拋棄本次計算出的當前權重和當前損失函數值。

在本發明第二實施例提出的機器學習系統的訓練方法中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

第三實施例

本發明第三實施例提出一種機器學習系統的訓練方法，如圖3所示為本發明第三實施例的機器學習系統的訓練方法的流程圖。該機器學習系統較佳為分布式機器學習系統，如圖3所示，該訓練方法包括如下步驟：S301，將所述訓練數據分配給多個工作機；S302，將每一個工作機分配得到的訓練數據劃分為多個數據片；S303，獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；S304，匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；S305，利用當前權重和/或當前損失函數值執行模型異常檢測；S306，當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；S307，當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

上述步驟S301至S307與第一實施例中的步驟S101至S107相同的部分在此不再贅述。

在本實施例中，在步驟S305即所述利用當前權重和/或當前損失函數值執行模型異常檢測的步驟之後，所述訓練方法還可以包括：S308，當所述模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入所述機器學習系統進行訓練。

在這一實施例中，當檢測出本次計算並匯總後的當前權重和當前損失函數值下該模型正常，則可以將當前權重和/或當前損失函數值作為有效的計算結果，輸入所述機器學習系統進行訓練。

進一步地，在該實施例中，在步驟S308即所述當所述模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入所述機器學習系統進行訓練的步驟之後，所述方法還包括：S309，判斷訓練是否結束；在該步驟中，例如，當檢測到當前損失函數的值與上一次匯總後損失函數的值小於第三閾值時，判定訓練結束。該第三閾值可以是系統檢測到的閾值。

然而，本領域技術人員可以明確，該判斷步驟並不限定於透過與差值與第三閾值的比較的方式進行，本領域還有多種驗證訓練是否可以結束的方法，在此不再贅述。

S310，當判定訓練結束，產出所述模型；在這一步驟中，當判斷出訓練結束，即該模型已可以使用，則產出該模型，例如可以使該模型上線進行應用。

S311，當判定訓練未結束，重複執行獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值的步驟。

在這一步驟中，例如，當檢測到當前損失函數的值與上一次匯總後損失函數的值大於第三閾值時，判定訓練未結束。在此情况下，可以重複執行獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值的步驟，即讓每一個工作機繼續基於其他數據片計算出本地權重和本地損失函數值，並在後續匯總獲得當前權重和當前損失函數值，重複該訓練方法，直到獲得滿足使用要求的模型。

另外，在第一至第三實施例公開的方案中，優先地，在將所述訓練數據分配給多個工作機的步驟之前，所述方法還包括：獲取訓練數據；將所述訓練數據分配給多個工作機的步驟還包括：按照每一個工作機的標識，將所述訓練數據分配給多個工作機。

另外，在第一至第三實施例公開的方案中，優先地，所述匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值的步驟可以包括：將每一個工作機基於每一個數據片計算出的所述本地權重相加，獲得當前權重；將每一個工作機基於每一個數據片計算出的所述本地損失函數值相加，獲得當前本地損失函數。

在本發明第三實施例提出的機器學習系統的訓練方法中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

第四實施例

本發明第四實施例提出一種機器學習系統的訓練系統，如圖4是本發明第四實施例的機器學習系統的訓練系統的方塊圖。該機器學習系統較佳為分布式機器學習系統，如圖4所示，該訓練系統400包括：訓練數據分配模組401，用於將所述訓練數據分配給多個工作機；訓練數據劃分模組402，用於將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取模組403，用於獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總模組404，用於匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；異常檢測模組405，用於利用當前權重和/或當前損失函數值執行模型異常檢測；第一處理模組406，用於當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；第二處理模組407，用於當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

在本發明第四實施例提出的機器學習系統的訓練系統中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

第五實施例

本發明第五實施例提出一種機器學習系統的訓練系統，如圖5是本發明第五實施例的機器學習系統的訓練系統的方塊圖。該機器學習系統較佳為分布式機器學習系統，如圖5所示，該訓練系統500包括：訓練數據分配模組501，用於將所述訓練數據分配給多個工作機；訓練數據劃分模組502，用於將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取模組503，用於獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總模組504，用於匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；異常檢測模組505，用於利用當前權重和/或當前損失函數值執行模型異常檢測；第一處理模組506，用於當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；第二處理模組507，用於當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

在該實施例中，所述異常檢測模組505包括：第一判斷子模組505a，用於判斷當前損失函數值是否大於上一次匯總後的損失函數值的k倍；第一判定子模組505b，用於當判斷出當前損失函數值大於上一次匯總後的損失函數值的k倍時，判定所述模型異常檢測的結果為第一類異常。

第二判斷子模組505c，用於判斷當前權重中的元素的最大值和/或最小值的絕對值是否大於預設的第二閾值；第二判定子模組505d，用於當判斷出當前權重中的元素的最大值和/或最小值的絕對值大於預設的第二閾值時，判定所述模型異常檢測的結果為第二類異常。

所述異常檢測模組505還包括：第三判斷子模組505e，用於判斷前n次匯總後的損失函數值的平均值是否大於第一次匯總後的損失函數值；第三判定子模組505f，用於當判斷出前n次匯總後的損失函數值的平均值大於第一次匯總後的損失函數值時，判定所述模型異常檢測的結果為第一類異常。

較佳地，當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第二閾值內的當前權重和/或當前損失函數值的步驟包括：將所述最大值和/或最小值的絕對值大於預設的第二閾值的元素減去所述第二閾值，獲得每一個元素均位於所述第二閾值內的當前權重。

在本發明第五實施例提出的機器學習系統的訓練系統中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

第六實施例

本發明第六實施例提出一種機器學習系統的訓練系統，如圖6所示為本發明第六實施例的機器學習系統的訓練系統的方塊圖。該機器學習系統較佳為分布式機器學習系統，如圖6所示，該訓練系統600包括：訓練數據分配模組601，用於將所述訓練數據分配給多個工作機；訓練數據劃分模組602，用於將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取模組603，用於獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總模組604，用於匯總每一個工作機基於每一個數據片計算出的所述本地權重和本地損失函數值，獲得當前權重和當前損失函數值；異常檢測模組605，用於利用當前權重和/或當前損失函數值執行模型異常檢測；第一處理模組606，用於當所述模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入所述機器學習系統進行訓練；第二處理模組607，用於當所述模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入所述機器學習系統進行訓練。

在本實施例中，所述系統還包括：訓練模組608，用於當所述模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入所述機器學習系統進行訓練。

在本實施例中，所述系統還包括：結束判定模組609，用於判斷訓練是否結束；模型產出模組610，用於當判定訓練結束時，產出所述模型；返回執行模組611，用於當判定訓練未結束，重複執行獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值的步驟。

在本實施例中，所述結束判定模組用於當檢測到當前損失函數的值與上一次匯總後損失函數的值小於第三閾值，判定訓練結束。

在本實施例中，所述系統還可以包括：訓練數據獲取模組，用於獲取訓練數據。所述訓練數據分配模組用於按照每一個工作機的標識，將所述訓練數據分配給多個工作機。

較佳地，所述匯總模組包括：權重累加模組，用於將每一個工作機基於每一個數據片計算出的所述本地權重相加，獲得當前權重；損失函數值累加模組，用於將每一個工作機基於每一個數據片計算出的所述本地損失函數值相加，獲得當前本地損失函數。

在本發明第六實施例提出的機器學習系統的訓練系統中，透過使每一個工作機一次只針對一個數據片進行處理、並根據該數據片計算得出的本地權重和本地損失函數值進行匯總，達到了每一次計算後能夠準確地小幅度更新權重和損失函數值的效果，避免了現有技術的在線學習中容易受到數據中雜訊影響的問題。同時，在獲得當前權重和/或當前損失函數值之後執行異常檢測，當檢測出所獲得的當前權重和/或當前損失函數值屬於第一類異常或第二類異常，可以拋棄本次計算出的當前權重和/或當前損失函數值，而將上一次匯總得到的權重和損失函數值輸入機器學習模型，或者對本次計算出的當前權重和/或當前損失函數值進行修正，將每次計算和匯總獲得的權重和損失函數值的更新限制在有效範圍內，避免了模型訓練的不穩定性，增强了系統抗數據雜訊的能力，提升了在線學習的機器學習系統的穩定性，確保了機器學習系統的正常產出，提高了上線後的機器學習系統的服務能力。

對於裝置實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

在一個典型的配置中，所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網絡接口和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信號儲存。信號可以是電腦可讀指令、數據結構、程式的模組或其他數據。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被電腦設備存取的信號。按照本文中的界定，電腦可讀媒體不包括非持續性的電腦可讀媒體(transitory media)，如調變的數據信號和載波。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理器或其他可編程數據處理終端設備的處理器以產生一個機器，使得透過電腦或其他可編程數據處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可編程數據處理終端設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可編程數據處理終端設備上，使得在電腦或其他可編程終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

儘管已描述了本發明實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情况下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發明所提供的一種機器學習系統的訓練方法和系統，進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

Claims

一種機器學習系統的訓練方法，利用訓練數據對該機器學習系統進行訓練，其特徵在於，該訓練方法包括：將該訓練數據分配給多個工作機；將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總每一個工作機基於每一個數據片計算出的該本地權重和本地損失函數值，獲得當前權重和當前損失函數值；利用當前權重和/或當前損失函數值執行模型異常檢測；當該模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入該機器學習系統進行訓練；當該模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入該機器學習系統進行訓練。
如申請專利範圍第1項的訓練方法，其中，該利用當前權重和/或當前損失函數值執行模型異常檢測的步驟包括：判斷當前損失函數值是否大於上一次匯總後的損失函數值的k倍；當判斷出當前損失函數值大於上一次匯總後的損失函數值的k倍時，判定該模型異常檢測的結果為第一類異常。
如申請專利範圍第1項的訓練方法，其中，該利用當前權重和/或當前損失函數值執行模型異常檢測的步驟包括：判斷當前權重中的元素的最大值和/或最小值的絕對值是否大於預設的第二閾值；當判斷出當前權重中的元素的最大值和/或最小值的絕對值大於預設的第二閾值時，判定該模型異常檢測的結果為第二類異常。
如申請專利範圍第3項的訓練方法，其中，當該模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值的步驟包括：將該最大值和/或最小值的絕對值大於預設的第一閾值的元素減去該第一閾值，獲得每一個元素均位於該第一閾值內的當前權重。
如申請專利範圍第1項的訓練方法，其中，該利用當前權重和/或當前損失函數值執行模型異常檢測的步驟包括：判斷前n次匯總後的損失函數值的平均值是否大於第一次匯總後的損失函數值；當判斷出前n次匯總後的損失函數值的平均值大於第一次匯總後的損失函數值時，判定該模型異常檢測的結果為第一類異常。
如申請專利範圍第1項的訓練方法，其中，該利用當前權重和/或當前損失函數值執行模型異常檢測的步驟之後，該方法還包括：當該模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入該機器學習系統進行訓練。
如申請專利範圍第6項的訓練方法，其中，該當該模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入該機器學習系統進行訓練的步驟之後，該方法還包括：判斷訓練是否結束；當判定訓練結束，產出該模型；當判定訓練未結束，返回執行獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值的步驟。
如申請專利範圍第6項的訓練方法，其中，判斷訓練是否結束的步驟包括：當檢測到當前損失函數的值與上一次匯總後損失函數的值小於第三閾值，判定訓練結束。
如申請專利範圍第1項的訓練方法，其中，在將該訓練數據分配給多個工作機的步驟之前，該方法還包括：獲取訓練數據；將該訓練數據分配給多個工作機的步驟還包括：按照每一個工作機的標識，將該訓練數據分配給多個工作機。
如申請專利範圍第1項的訓練方法，其中，該匯總每一個工作機基於每一個數據片計算出的該本地權重和本地損失函數值，獲得當前權重和當前損失函數值的步驟包括：將每一個工作機基於每一個數據片計算出的該本地權重相加，獲得當前權重；將每一個工作機基於每一個數據片計算出的該本地損失函數值相加，獲得當前本地損失函數。
一種機器學習系統的訓練系統，利用訓練數據對該機器學習系統進行訓練，其特徵在於，該訓練系統包括：訓練數據分配模組，用於將該訓練數據分配給多個工作機；訓練數據劃分模組，用於將每一個工作機分配得到的訓練數據劃分為多個數據片；獲取模組，用於獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值；匯總模組，用於匯總每一個工作機基於每一個數據片計算出的該本地權重和本地損失函數值，獲得當前權重和當前損失函數值；異常檢測模組，用於利用當前權重和/或當前損失函數值執行模型異常檢測；第一處理模組，用於當該模型異常檢測的結果為第一類異常，將上一次匯總後的權重和上一次匯總後的損失函數值輸入該機器學習系統進行訓練；第二處理模組，用於當該模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值，並輸入該機器學習系統進行訓練。
如申請專利範圍第11項的訓練系統，其中，該異常檢測模組包括：第一判斷子模組，用於判斷當前損失函數值是否大於上一次匯總後的損失函數值的k倍；第一判定子模組，用於當判斷出當前損失函數值大於上一次匯總後的損失函數值的k倍時，判定該模型異常檢測的結果為第一類異常。
如申請專利範圍第11項的訓練系統，其中，該異常檢測模組包括：第二判斷子模組，用於判斷當前權重中的元素的最大值和/或最小值的絕對值是否大於預設的第二閾值；第二判定子模組，用於當判斷出當前權重中的元素的最大值和/或最小值的絕對值大於預設的第二閾值時，判定該模型異常檢測的結果為第二類異常。
如申請專利範圍第13項的訓練系統，其中，當該模型異常檢測的結果為第二類異常，將當前權重和/或當前損失函數值修正為第一閾值內的當前權重和/或當前損失函數值的步驟包括：將該最大值和/或最小值的絕對值大於預設的第二閾值的元素減去該第一閾值，獲得每一個元素均位於該第一閾值內的當前權重。
如申請專利範圍第11項的訓練系統，其中，該異常檢測模組包括：第三判斷子模組，用於判斷前n次匯總後的損失函數值的平均值是否大於第一次匯總後的損失函數值；第三判定子模組，用於當判斷出前n次匯總後的損失函數值的平均值大於第一次匯總後的損失函數值時，判定該模型異常檢測的結果為第一類異常。
如申請專利範圍第11項的訓練系統，其中，該系統還包括：訓練模組，用於當該模型異常檢測的結果為正常，將當前權重和/或當前損失函數值輸入該機器學習系統進行訓練。
如申請專利範圍第16項的訓練系統，其中，該系統還包括：結束判定模組，用於判斷訓練是否結束；模型產出模組，用於當判定訓練結束時，產出該模型；返回執行模組，用於當判定訓練未結束，重複執行獲取每一個工作機基於每一個數據片計算出的本地權重和本地損失函數值的步驟。
如申請專利範圍第16項的訓練系統，其中，該結束判定模組用於：當檢測到當前損失函數的值與上一次匯總後損失函數的值小於第三閾值，判定訓練結束。
如申請專利範圍第11項的訓練系統，其中，該系統還包括：訓練數據獲取模組，用於獲取訓練數據；該訓練數據分配模組用於按照每一個工作機的標識，將該訓練數據分配給多個工作機。
如申請專利範圍第11項的訓練系統，其中，該匯總模組包括：權重累加模組，用於將每一個工作機基於每一個數據片計算出的該本地權重相加，獲得當前權重；損失函數值累加模組，用於將每一個工作機基於每一個數據片計算出的該本地損失函數值相加，獲得當前本地損失函數。