TWI814619B

TWI814619B - 用於以少量學習訓練樣本產生器之系統及方法，以及非暫時性電腦可讀儲存媒體

Info

Publication number: TWI814619B
Application number: TW111139800A
Authority: TW
Inventors: 嚴恩勖
Original assignee: 香港商墨子國際有限公司
Priority date: 2021-10-20
Filing date: 2022-10-20
Publication date: 2023-09-01
Also published as: US11574168B1; CN118159977A; WO2023066291A1; TW202324216A; US11599794B1

Abstract

本發明揭示用於基於少量學習之產生器訓練之包含經編碼於電腦儲存媒體上之電腦程式的方法、系統及設備，其中經訓練產生器可用於一教師模型與一學生模型之間的知識蒸餾。一種例示性方法包含：獲得一教師模型及複數個訓練樣本；使用一產生器來產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。

Description

用於以少量學習訓練樣本產生器之系統及方法，以及非暫時性電腦可讀儲存媒體

本發明大體上係關於人工智慧(AI)之訓練，更特定言之係關於以少量學習訓練一樣本產生器以用於知識蒸餾(knowledge distillation)。

在機器學習中，知識蒸餾係指將知識自一大模型轉移至一較小模型。大模型通常被稱為一教師模型，而較小模型通常被稱為一學生模型。知識蒸餾將由教師模型自大量訓練樣本學習之知識轉移至學生模型中而不損失有效性。同時，學生模型具有一遠更小佔用(footprint)且評估及部署更便宜。

知識蒸餾涉及訓練學生模型以產生與教師模型類似之輸出。此訓練程序需要訓練樣本。理論上，可藉由存取訓練教師模型之原始或擴增訓練樣本而獲得訓練樣本。然而，實務上，歸因於隱私、專屬權及可用性問題，此通常係有問題的。為了解決此實際問題，本發明描述一種用於訓練一產生器以產生用於知識蒸餾之訓練樣本之基於少量學習之方法。

本說明書之各項實施例可包含用於以少量學習訓練樣本產生器之系統、方法及非暫時性電腦可讀媒體。

根據一個態樣，用於以少量學習訓練樣本產生器之方法可包含：獲得一教師模型及複數個訓練樣本；使用一產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。

在一些實施例中，該方法可進一步包含：使用該經訓練產生器執行自該教師模型至一學生模型之知識蒸餾。

在一些實施例中，該將該複數個經產生樣本饋入該教師模型中以獲得該複數個第一統計資料包括：將該複數個經產生樣本饋入該教師模型中；及基於在該複數個經產生樣本行進通過該教師模型時該教師模型中之複數個層之輸出獲得該複數個第一統計資料。

在一些實施例中，該等輸出包括藉由該教師模型之各層產生之一或多個張量，且該基於來自該教師模型之各層之該一或多個張量判定該複數個第一統計資料包括：針對該一或多個張量之各者，判定一或多個通道級統計資料；及聚集來自該教師模型之全部層之該一或多個通道級統計資料以獲得該複數個第一統計資料。

在一些實施例中，該一或多個通道級統計資料包括以下之一或多者：一通道均值、一通道變異數及一通道k階矩，其中k大於2。

在一些實施例中，該等輸出包括藉由該教師模型之各層產生之一或多個張量，且該複數個第一統計資料包括該一或多個張量之各者中之全部通道之一聯合共變異數。

在一些實施例中，該將該複數個訓練樣本饋入該教師模型中以獲得該複數個第二統計資料包括：將該複數個訓練樣本饋入該教師模型中；基於在該複數個訓練樣本行進通過該教師模型時該教師模型中之複數個層之輸出獲得該複數個第二統計資料。

在一些實施例中，該方法可進一步包含使用比該教師模型更小數目個參數建構該學生模型。

在一些實施例中，該使用該經訓練產生器執行自該教師模型至該學生模型之知識蒸餾包括：藉由使用該經訓練產生器而產生複數個新訓練樣本；將該複數個新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。

在一些實施例中，該等層級輸出包括藉由該教師模型之嵌入層及該學生模型之嵌入層產生之特徵向量。

在一些實施例中，該教師模型係用於影像分類之一經預訓練神經網路，且該複數個訓練樣本係經標記影像。

在一些實施例中，該教師模型係用於自然語言處理之一經預訓練轉換器。

在一些實施例中，該學生模型經訓練以基於一輸入之一或多個特徵執行分類，且該複數個新訓練樣本關於該一或多個特徵之一資料分佈係在距該複數個訓練樣本關於該一或多個特徵之一資料分佈之一臨限距離內。

根據另一態樣，一種用於以少量學習及樞軸樣本訓練一產生器之方法可包含：獲得複數個訓練樣本；自該複數個訓練樣本隨機地選擇一組樞軸樣本；基於該組樞軸樣本對該複數個訓練樣本分類以產生分別對應於該組樞軸樣本之一組群組之訓練樣本；及針對該組群組之訓練樣本之各者訓練一產生器以用於產生新樣本，其中該等新樣本之一資料分佈係在距該群組之訓練樣本之一資料分佈之一臨限距離內。

在一些實施例中，該對該複數個訓練樣本分類以產生分別對應於該組樞軸樣本之一組群組之訓練樣本包括：產生該組樞軸樣本之樞軸向量表示；針對該複數個訓練樣本之各者，產生一向量表示；判定該向量表示與該等樞軸向量表示之各者之間之距離；識別對應於具有距該向量表示之一最短距離之一樞軸向量表示之該組樞軸樣本之一者；及對具有該一個樞軸樣本之該訓練樣本分組。

在一些實施例中，該方法可進一步包含：接收一經預訓練教師模型，其中該針對該組群組之訓練樣本之各者訓練一產生器以用於產生新樣本包括：初始化該產生器；使用該產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。

在一些實施例中，該等輸出包括藉由該教師模型之各層產生之一或多個張量，且該複數個統計資料包括該一或多個張量之各者中之全部通道之一聯合共變異數。

在一些實施例中，該方法可進一步包含：使用比該教師模型更小數目個參數建構一學生模型；及使用對應於該等群組之訓練樣本之該等經訓練產生器執行自該教師模型至一學生模型之知識蒸餾。

在一些實施例中，該使用該等經訓練產生器執行自該教師模型至該學生模型之知識蒸餾包括：藉由使用該等經訓練產生器之各者而產生複數個新訓練樣本；將該複數個新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。

根據又一態樣，一種系統可包括一或多個處理器及耦合至該一或多個處理器且經組態具有指令之一或多個非暫時性電腦可讀記憶體，該等指令可由該一或多個處理器執行以引起該系統執行本文中描述之方法之任一者。

根據仍另一態樣，一種非暫時性電腦可讀儲存媒體可經組態具有指令，該等指令可由一或多個處理器執行以引起該一或多個處理器執行本文中描述之方法之任一者。

本文中揭示之系統、方法及非暫時性電腦可讀媒體之此等及其他特徵以及結構之相關元件之操作方法及功能及零件之組合以及製造之經濟性將在參考隨附圖式考量以下描述及隨附發明申請專利範圍之後變得更明白，其等之全部形成本說明書之一部分，其中在各個圖中，相同元件符號指定對應零件。然而，應明確理解，圖式僅係為了圖解及描述之目的且不旨在作為本發明之限制之一定義。

100:使用者

110:教師模型

120:學生模型

130:大量訓練樣本

140:一小組訓練樣本

150:訓練樣本產生器

160:新訓練樣本

210:大量真實訓練樣本

230:產生器

300:典型(現有)產生器學習準則

310:新學習準則

320:經產生(合成)樣本P _g

330:真實資料P _R

500:方法

510:方塊

520:方塊

530:方塊

540:方塊

610:真實訓練樣本

620:樞軸樣本

630:群組

640:經預訓練教師模型

650:產生器

700:方法

710:方塊

720:方塊

730:方塊

740:方塊

800:運算裝置

802:匯流排

804:硬體處理器

807:主記憶體

809:儲存裝置

810:通信介面

圖1繪示根據各項實施例之一例示性知識蒸餾程序。

圖2繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性圖式。

圖3繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性學習準則。

圖4繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性流程。

圖5繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性方法。

圖6A繪示根據各項實施例之用於基於類別之產生器訓練之一例示性方法。

圖6B繪示根據各項實施例之用於基於樞軸樣本之產生器訓練之一例示性方法。

圖6C繪示根據各項實施例之用於以少量學習及樞軸樣本訓練產生器之一例示性方法。

圖7繪示根據各項實施例之用於以樞軸樣本訓練產生器之一例示性方法。

圖8繪示其中可實施本文中描述之實施例之任一者之一例示性電腦系統。

本文中描述之實施例提供用於訓練用於一教師模型(一大機器學習模型)與一學生模型(一小機器學習模型)之間之知識蒸餾之樣本產生器之方法、系統、設備。知識蒸餾係用於知識轉移及模型壓縮之最流行且有效的技術之一者。例如，一教師模型可基於大量原始訓練樣本訓練且可供使用者下載。在一使用者下載教師模型之後，其可能無法將龐大的教師模型部署至較不強大的裝置(諸如行動檔案或其他邊緣裝置)。在此情況中，為了容易部署及更少維護成本，使用者可藉由自教師模型轉移知識而訓練一較小學生模型。然而，常見的是，使用者無法存取足夠訓練樣本(例如，教師模型訓練實體可出於資料隱私、專屬權或其他原因而不共用其訓練樣本)。在許多情況中，使用者所具有的可限於一小組自開發訓練樣本或由其自身在測試教師模型時收集之數個訓練樣本。

本發明描述一種用於在可用訓練樣本有限時執行知識蒸餾之新穎方法。此方法由於以下發現而起作用：當目標係產生用於模型蒸餾、修剪或壓縮之大量樣本時，無需產生高真實性樣本，而產生任務特定特徵之樣本之能力更重要。例如，可基於自許多領域收集之大量訓練樣本訓練教師模型。因此，教師模型可在截然不同的區域中同樣良好地執行，諸如對鳥分類、對汽車分類、對建築物分類等。然而，學生模型通常更任務特定且可僅關注於一特定使用情況，諸如性別分類。換言之，教師模型可查看一輸入之數千個特徵且因此需要數百萬個參數，而學生模型可僅需要關注於數十個特徵且因此具有遠更小數目個參數。為了執行知識蒸餾以訓練學生模型用於性別分類，經產生樣本可關注於最相關特徵且忽略其他特徵。亦即，經產生樣本及真實樣本應僅關於相關特徵具有類似資料分佈。

基於上文識別之發現，設計一新訓練準則(損失函數)以實現一基於少量學習之產生器訓練方法。此處，「少量學習」係指其中訓練樣本組有限之一種類型之機器學習機制。

當自不同域收集有限訓練樣本(此可引起新訓練準則(損失函數)不準確)時，本發明中之一些實施例進一步解決問題。對應解決方案可被稱為基於樞軸樣本之產生器訓練。

在以下描述中，將參考圖式描述本發明之特定非限制性實施例。本文中揭示之任何實施例之特定特徵及態樣可與本文中揭示之任何其他實施例之特定特徵及態樣一起使用及/或組合。亦應理解，此等實施例係藉由實例且僅闡釋在本發明之範疇內之少量實施例。對於熟習本發明相關技術者顯而易見之各種改變及修改被視為在如隨附發明申請專利範圍中進一步定義之本發明之精神、範疇及審慎考慮內。

圖1繪示根據各項實施例之一例示性知識蒸餾程序。本發明中描述之實施例可經實施為圖1中之闡釋性知識蒸餾程序或具有有限訓練樣本之另一適合知識蒸餾或模型壓縮程序之一部分。

如展示，一教師模型110係指基於大量訓練樣本130之一經預訓練機器學習模型(例如，一深度神經網路或多個小模型之一整體)。教師模型110可藉由能夠存取大量訓練樣本130之一實體訓練。教師模型110可旨在為強大的且能夠在許多不同機器學習任務中良好地執行，諸如在不同區域中執行準確分類。教師模型110可具有用於學習輸入資料之特徵之間之潛在關係之巨量參數。由於教師模型110係強大的，故評估、部署及維護可能係麻煩的。

當一使用者100想要使用教師模型110時，其可需要執行知識蒸餾以將教師模型110之「知識」(特徵提取、圖案辨識等之參數)轉移至一較小學生模型120。一般言之，教師模型110與學生模型120之間之知識蒸餾涉及將相同訓練樣本饋入兩個模型，且訓練學生模型120以接近教師模型110般表現。因此，此程序需要訓練樣本。實務上，歸因於缺少授權、資料隱私、專屬權問題，使用者100可無法存取大量訓練樣本130。使用者100可存取之內容可限於一小組訓練樣本140，該小組訓練樣本140 可由使用者100透過自我開發(例如，為了影像分類，使用者100可標記用於訓練之影像)或其他適合方法獲得。此小組訓練樣本140不足以訓練學生模型120以達成一合理準確度。因此，一訓練樣本產生器150可經訓練以產生更多(合成)訓練樣本160以執行教師模型110與學生模型120之間之知識蒸餾。

訓練樣本產生器150之目標係產生具有關於與學生模型120之預期使用相關之特定特徵與小組訓練樣本140類似之資料分佈之新訓練樣本160。例如，若學生模型120經訓練用於性別分類，則小組訓練樣本140可包含涵蓋眼睛、耳朵、鼻子、嘴、頭髮等之許多不同特徵(例如，大小、色彩、形狀)之男性及女性之影像。在此等特徵當中，一些與性別更相關(諸如頭髮長度)，而其他特徵較不相關(諸如眼睛之色彩)。訓練樣本產生器150之目標係產生具有關於與性別分類相關之特徵(諸如頭髮長度(及對應標記))與真實訓練樣本(例如，小組訓練樣本140或大量訓練樣本130)類似之資料分佈之新訓練樣本。經產生新訓練樣本可具有關於與性別分類不相關之特徵(諸如鼻子之色彩)與真實訓練樣本不同之資料分佈。

圖2繪示根據各項實施例之用於以少量學習訓練一產生器230之一例示性圖式。產生器230可經訓練以產生用於執行一教師模型與一學生模型之間之知識蒸餾的合成樣本。

如展示，當自真實世界域收集之大量真實訓練樣本210不可用於知識蒸餾時，可將一小組訓練樣本及教師模型共同視為用於訓練產生器230之一輸入。此處，教師模型可為用於影像分類之一經預訓練神經網路或用於自另一實體或線上獲得之自然語言處理之一經預訓練轉換器。小組訓練樣本可係指自真實世界域收集之經標記訓練樣本。此小組訓練樣本可能係或可能非大量真實訓練樣本210的一部分。

圖3繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性學習準則310。此處，「學習準則」亦可被稱為用於訓練產生器之一損失函數或一目標函數。為了進一步闡明新學習準則310之新穎性，圖3繪示一典型(現有)產生器學習準則300與用於基於少量學習之產生器訓練之新學習準則310之間之一比較。

在現有解決方案中，可基於大量真實資料P _R 330來訓練產生器。產生器之訓練可涉及調諧產生器之參數，使得經產生資料P _g 320具有與P _R 330類似之一資料分佈。例如，若真實資料P _R 330含有一百萬個資料樣本，則在一訓練週期期間，可藉由使用產生器來獲得大量經產生(合成)樣本P _g 320。學習準則300或損失函數指示P _g 320與P _R 330之間之資料距離D _T應最小化，例如，小於一臨限值。若尚未滿足此目標，則可調諧產生器之參數以進一步減小資料分佈距離D _T。可基於類似性匹配來判定資料分佈距離D _T。例如，針對P _g 320中之各資料樣本，搜尋真實資料P _R 330以識別一匹配(例如，兩個樣本之特徵表示之間的距離低於一特定臨限值)。取決於所發現匹配之數目，可判定資料分佈距離D _T。

然而，資料分佈可僅在一資料集具有大量資料樣本時準確地描述資料集。若資料集小，則資料分佈可不適當地表示資料集。如上文描述，在許多實際應用中，真實資料P _R 330僅具有數個資料樣本。

如圖3中展示，代替依賴於資料分佈，少量學習準則310依賴於真實資料P _R 330及經產生資料P _g 320之統計資料μ _T。在一些實施例中，一資料集(真實資料P _R 330或經產生資料P _g 320)之統計資料矩陣μ _T可包含在資料集行進通過教師模型時藉由教師模型產生之輸出之統計資料。輸出可包含在教師模型之各層處產生之各張量。在一些實施例中，統計資料矩陣μ _T可包含自教師模型之各層輸出之張量之通道級統計資料。通道級統計資料可包含一通道均值、一通道變異數、一通道k階矩(其中k大於2)、另一適合檢查級統計資料或其等之任何組合。在一些實施例中，統計資料矩陣μ _T可包含在教師模型之各層處輸出之各張量中之全部通道之一聯合共變異數。在圖3中，「k」係指教師模型中之k個層。因此，少量學習準則310可包含在真實資料P _R 330及經產生資料P _g 320行進通過教師模型時藉由教師模型之各層產生之張量之統計資料之間之距離之一總和。

在一些實施例中，少量學習準則310可用作用於調諧產生器之參數朝向最小化距離之此總和之一方向之一損失函數或一目標函數。

圖4繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性流程。產生器可經實施為一神經網路、一深度神經網路、一生成對抗網路或另一適合機器學習模型。產生器可經訓練以探索一給定組之真實樣本P _R(亦稱為目標樣本)中之潛在空間，且產生與P _R相似之合成樣本P _g。此處，「相似性」可係指P _g與P _R之間關於與訓練樣本之特定使用相關之特徵之資料分佈相似性。例如，若訓練樣本將用於性別分類，則僅與性別分類相關之特徵之資料分佈需要在P _g及P _R中相似(例如，一類似性分數低於一臨限值)。

參考圖4，繪示一典型產生器訓練與基於少量學習之產生器訓練之間之一比較。典型產生器訓練方法依賴於真實訓練樣本與藉由產生器產生之合成樣本之間之距離，且調諧產生器之參數以最小化距離。例如，一待訓練產生器可首先產生複數個經產生合成樣本P _g。P _g與該組真實/目標訓練樣本P _R中之資料分佈之距離可被判定為D _T。此距離D _T可用作一損失以調諧待訓練產生器之參數。在此等基於資料分佈之方法中，P _g及P _R中之資料樣本之量需要為大的以便使用資料分佈來表示資料集之特徵。

雖然上述典型產生器訓練方法可適用於其中真實訓練樣本足夠之一廣泛範圍之使用情況，但基於少量學習之產生器訓練方法可用於涉及一經預訓練教師模型之更特定使用情況，諸如自經預訓練教師模型至一較小學生模型之知識蒸餾、修剪經預訓練教師模型或經預訓練教師模型之模型壓縮。在此等使用情況中，真實訓練樣本之量通常受限制且因此，典型產生器訓練方法可能不適用(例如，對於小資料集，資料分佈不準確)。

在一些實施例中，基於少量學習之產生器訓練可依賴於(1)真實訓練樣本，(2)藉由產生器產生之合成訓練樣本，及(3)教師模型。產生器可首先產生複數個合成訓練樣本P _g。接著，將P _g饋入教師模型中以獲得複數個第一統計資料

...

，其中k係指教師模型中之層之數目。類似地，亦將P _R饋入教師模型中以獲得複數個第二統計資料

...

。接著基於複數個第一統計資料與複數個第二統計資料之間之一距離訓練產生器。

在一些實施例中，第一統計資料及第二統計資料可以相同方式收集，惟其等回應於輸入資料分別係合成/經產生訓練樣本P _g及真實/目標訓練樣本P _R而被收集除外。例如，為了第一統計資料

...

，可將P _g逐個或以小批量饋入教師模型中。教師模型之各層可執行如同特徵提取、編碼、解碼及其他適合操作之操作。因此，各層可產生輸出，諸如待由下一層消耗之一或多個張量。在一些實施例中，可分別基於藉由教師模型中之k個層產生之輸出收集第一統計資料

...

。例如，可基於回應於來自P _g之輸入資料而藉由教師模型之第一層產生之一或多個張量收集

。在一些實施例中，

包含一或多個張量之通道級統計資料，諸如各張量之一通道均值、一通道變異數及一通道i階矩(i大於2)。例如，各張量具有複數個通道，一通道均值可係指一對應通道內之全部值之均值。在一些實施例中，

可包含藉由教師模型之第一層產生之一或多個張量之各者中之全部通道之一聯合共變異數。

在獲得第一統計資料

...

及第二統計資料

...

之後，可將此兩個統計資料矩陣之間之一距離判定為損失。可接著調諧產生器之參數以最小化此損失。

在一些實施例中，經訓練產生器可產生大量合成樣本以用於自教師模型至一較小學生模型之知識蒸餾。例如，學生模型可以類似於教師模型之一結構初始化或建構但具有更少參數。可回應於藉由經訓練產生器產生之合成樣本而訓練學生模型以與教師模型相似。例如，可將合成樣本饋入教師模型及學生模型中以獲得教師模型及學生模型之各自層級輸出。教師模型與學生模型之各自層級輸出之間之距離可用作一損失以訓練學生模型以最小化距離。在一些實施例中，層級輸出包含藉由教師模型之嵌入層及學生模型之嵌入層產生之特徵向量。

圖5繪示根據各項實施例之用於以少量學習訓練一產生器之一例示性方法500。方法500可由用於最佳化資源分配之一裝置、設備或系統執行。下文呈現之方法500之操作旨在為闡釋性。取決於實施方案，方法500可包含以各種順序或並列執行之額外、更少或替代步驟。

方塊510包含獲得一教師模型及複數個訓練樣本。在一些實施例中，教師模型係用於影像分類之一經預訓練神經網路，且複數個訓練樣本係經標記影像。在一些實施例中，教師模型係用於自然語言處理之一經預訓練轉換器。

方塊520包含使用一產生器產生複數個樣本。

方塊530包含將複數個經產生樣本饋入教師模型中以獲得複數個第一統計資料。在一些實施例中，將複數個經產生樣本饋入教師模型中以獲得複數個第一統計資料包括：將複數個經產生樣本饋入教師模型中；及基於在複數個經產生樣本行進通過教師模型時教師模型中之複數個層之輸出獲得複數個第一統計資料。在一些實施例中，輸出包括藉由教師模型之各層產生之一或多個張量，且基於來自教師模型之各層之一或多個張量判定複數個第一統計資料包括：針對一或多個張量之各者，判定一或多個通道級統計資料；及聚集來自教師模型之全部層之一或多個通道級統計資料以獲得複數個第一統計資料。在一些實施例中，一或多個通道級統計資料包括以下之一或多者：一通道均值、一通道變異數及一通道k階矩(其中k大於2)。在一些實施例中，輸出包括藉由教師模型之各層產生之一或多個張量，且複數個第一統計資料包括一或多個張量之各者中之全部通道之一聯合共變異數。

方塊540包含將複數個訓練樣本饋入教師模型中以獲得複數個第二統計資料。在一些實施例中，將複數個訓練樣本饋入教師模型中以獲得複數個第二統計資料包括：將複數個訓練樣本饋入教師模型中；基於在複數個訓練樣本行進通過教師模型時教師模型中之複數個層之輸出獲得複數個第二統計資料。

方塊560包含訓練產生器以最小化複數個第一統計資料與複數個第二統計資料之間之一距離。

在一些實施例中，方法500可進一步包含使用經訓練產生器執行自教師模型至一學生模型之知識蒸餾。在一些實施例中，使用經訓練產生器執行自教師模型至學生模型之知識蒸餾包括：藉由使用經訓練產生器而產生複數個新訓練樣本；將複數個新訓練樣本饋入教師模型及學生模型中以獲得教師模型及學生模型之各自層級輸出；判定教師模型與學生模型之層級輸出之間之一距離；及訓練學生模型以最小化距離。在一些實施例中，層級輸出包括藉由教師模型之嵌入層及學生模型之嵌入層產生之特徵向量。

在一些實施例中，使用比教師模型更小數目個參數建構學生模型。在一些實施例中，學生模型經訓練以基於一輸入之一或多個特徵執行分類，且複數個新訓練樣本關於一或多個特徵之一資料分佈係在距複數個訓練樣本關於一或多個特徵之一資料分佈之一臨限距離內。

圖6A繪示根據各項實施例之用於基於類別之產生器訓練之一例示性方法。當自不同域收集給定組之真實訓練樣本時，基於少量學習之訓練(例如，方法500)存在一潛在問題。如上文描述，基於少量學習之產生器訓練依賴於藉由一教師模型之各層產生之張量之統計資料，且統計資料包含通道級均值、通道級變異數或其他階矩(均值係一第一階矩，變異數係一第二階矩)。當真實訓練樣本係來自不同域時，兩個中間張量(例如，藉由教師模型回應於來自兩個域之兩個輸入樣本產生之張量)可具有類似通道級均值(或變異數)，但其不一定指示此等通道中之值之分佈係類似的，此係因為輸入樣本之相關特徵可係不同的。為了解決此問題，可期望將真實訓練樣本分成不同群組，且針對各群組訓練一產生器。理想地，可將來自同一類別之訓練樣本分組在一起。

例如，針對物件分類使用情況，訓練樣本可包含不同鳥(類別1，在圖6A中表示為C ₁)、不同汽車(類別2，在圖6A中表示為C ₂)及不同建築物(類別3，在圖6A中表示為C ₃)。在一些實施例中，訓練產生器之實體已知該等類別，且真實訓練樣本經適當地標記以展示類別。在此等情況中，可容易基於類別標記對真實訓練樣本分組。針對群組C ₁、C ₂及C ₃，可應用圖4中描述之訓練流程及圖5中之方法500以訓練分別表示為G ₁、G ₂及G ₃之對應產生器。

圖6B繪示根據各項實施例之用於基於樞軸樣本之產生器訓練之一例示性方法。針對許多實際機器學習任務，無法基於類別對真實訓練樣本610分組，此係因為類別標記不可用，或「類別」之概念甚至不存在於特定使用情況中。例如，教師模型及待訓練小的學生模型經設計以用於迴歸(例如，模型經訓練以用於基於先前資料集預測一特定數值)、偵測、叢集化(例如，類別事先未知)。在此等情況中，在圖6A中描述之基於類別之樣本分組不適用。

如圖6B中展示，可自真實訓練樣本610隨機地選擇一或多個樞軸樣本。接著，真實訓練樣本610可基於樞軸樣本經歷分類或叢集化操作。可將樞軸樣本視為多個群組之代表。兩個樞軸樣本可非常類似，在該情況中，其等可表示同一群組。此處，「類似性」可基於兩個樞軸樣本之向量表示之間之一距離而量化。

如圖6B中展示，樞軸樣本之數目直接影響待判定之群組之數目。更大數目個樞軸樣本意謂更大數目個群組，以及各群組中之更小數目個真實訓練樣本。若一個群組具有更小數目個真實訓練樣本，則產生器之訓練可經受低準確度。另一方面，更小數目個樞軸樣本意謂更小數目個群組，其中各群組包含更小數目個真實訓練樣本。然而，其可引起一個群組具有來自不同域之真實訓練樣本，此亦可負面影響該群組之經訓練產生器之準確度。樞軸樣本之數目之判定係群組之數目與各群組中之真實訓練樣本之數目之間之一權衡評估。

在一些實施例中，可藉由一反覆程序判定一最佳組之樞軸樣本。例如，可自真實訓練樣本610隨機地選擇第一數目個樞軸樣本，且可獲得每對選定樞軸樣本之向量表示之間之一距離。基於距離，可自第一數目個樞軸樣本識別一第一組之獨有樞軸樣本。此處，「獨有樞軸樣本」可排除具有小於來自另一樞軸樣本之一臨限值之距離之樞軸樣本。接著，可自真實訓練樣本610隨機地選擇第二數目個樞軸樣本，且可針對第一組之樞軸樣本執行上述程序以識別新發現之獨有樞軸樣本。可將新發現之獨有樞軸樣本合併至第一組之獨有樞軸樣本中以形成新的一組獨有樞軸樣本。若新發現之獨有樞軸樣本之數目低於一臨限值或未發現新的獨有樞軸樣本，則反覆程序可停止。新的該組獨有樞軸樣本可為該最佳組之樞軸樣本。

圖6C繪示根據各項實施例之用於以少量學習及樞軸樣本訓練產生器之一例示性方法。在選擇一最佳組之樞軸樣本620且將真實訓練資料之一集區叢集化成對應於樞軸樣本620之群組630之後，下一步驟係針對群組630訓練產生器650。用於訓練各產生器650之方法可採用圖4中描述之訓練流程及圖5中之方法500，其中需要一經預訓練教師模型640。在一些實施例中，產生器650之目標係產生用於自經預訓練教師模型640至複數個較小學生模型之知識蒸餾之合成訓練樣本。

例如，針對一給定群組630之真實訓練樣本，可初始化一對應產生器650。產生器650可產生複數個合成樣本。給定群組630中之真實訓練樣本及經產生合成樣本兩者可被饋入教師模型640中以獲得兩組統計資料矩陣。可將兩組統計資料矩陣之間之距離用作一損失以調諧產生器650之參數以最小化距離。在一些實施例中，統計資料矩陣可包含藉由教師模型之各層產生之各張量之通道級矩(例如，均值、變異數)。在訓練產生器650之後，其等可用於產生大量合成樣本以執行自教師模型640至學生模型之知識蒸餾。學生模型分別對應於產生器650。

圖7繪示根據各項實施例之用於以樞軸樣本訓練產生器之一例示性方法700。方法700可由用於最佳化資源分配之一裝置、設備或系統執行。下文呈現之方法700之操作旨在為闡釋性。取決於實施方案，方法700可包含以各種順序或並列執行之額外、更少或替代步驟。

方塊710包含獲得複數個訓練樣本。

方塊720包含自複數個訓練樣本隨機地選擇一組樞軸樣本。

方塊730包含基於該組樞軸樣本對複數個訓練樣本分類以產生分別對應於該組樞軸樣本之一組群組之訓練樣本。在一些實施例中，對複數個訓練樣本分類以產生分別對應於該組樞軸樣本之一組群組之訓練樣本包括：產生該組樞軸樣本之樞軸向量表示；針對複數個訓練樣本之各者，產生一向量表示；判定向量表示與樞軸向量表示之各者之間之距離；識別對應於具有距向量表示之一最短距離之一樞軸向量表示之該組樞軸樣本之一者；及對具有一個樞軸樣本之訓練樣本分組。

方塊740包含針對該組群組之訓練樣本之各者訓練一產生器以用於產生新樣本，其中新樣本之一資料分佈係在距該群組之訓練樣本之一資料分佈之一臨限距離內。

在一些實施例中，方法700可進一步包含接收一經預訓練教師模型，其中針對該組群組之訓練樣本之各者訓練一產生器以用於產生新樣本包括：初始化產生器；使用產生器產生複數個樣本；將複數個經產生樣本饋入教師模型中以獲得複數個第一統計資料；將複數個訓練樣本饋入教師模型中以獲得複數個第二統計資料；及訓練產生器以最小化複數個第一統計資料與複數個第二統計資料之間之一距離。在一些實施例中，將複數個經產生樣本饋入教師模型中以獲得複數個第一統計資料包括：將複數個經產生樣本饋入教師模型中；及基於在複數個經產生樣本行進通過教師模型時教師模型中之複數個層之輸出獲得複數個第一統計資料。

在一些實施例中，輸出包括藉由教師模型之各層產生之一或多個張量，且基於來自教師模型之各層之一或多個張量來判定複數個第一統計資料包括：針對一或多個張量之各者，判定一或多個通道級統計資料；及聚集來自教師模型之全部層之一或多個通道級統計資料以獲得複數個第一統計資料。在一些實施例中，一或多個通道級統計資料包括以下之一或多者：一通道均值、一通道變異數，及一通道k階矩(其中k大於2)。在一些實施例中，輸出包括藉由教師模型之各層產生之一或多個張量，且複數個統計資料包括一或多個張量之各者中之全部通道之一聯合共變異數。

在一些實施例中，方法700可進一步包含：使用比教師模型更小數目個參數來建構一學生模型；及使用對應於該等群組之訓練樣本之經訓練產生器來執行自教師模型至一學生模型之知識蒸餾。在一些實施例中，使用經訓練產生器來執行自教師模型至學生模型之知識蒸餾包括：藉由使用經訓練產生器之各者來產生複數個新訓練樣本；將複數個新訓練樣本饋入教師模型及學生模型中以獲得教師模型及學生模型之各自層級輸出；判定教師模型與學生模型之層級輸出之間之一距離；及訓練學生模型以最小化距離。在一些實施例中，層級輸出包括藉由教師模型之嵌入層及學生模型之嵌入層產生的特徵向量。在一些實施例中，教師模型係用於影像分類之一經預訓練神經網路，且複數個訓練樣本係經標記影像。在一些實施例中，教師模型係用於自然語言處理之一經預訓練轉換器。

圖8繪示其中可實施本文中描述之實施例之任一者之一例示性運算裝置。運算裝置可用於實施圖1至圖7中展示之系統及方法的一或多個組件。運算裝置800可包括用於傳達資訊之一匯流排802或其他通信機構及與匯流排802耦合以用於處理資訊之一或多個硬體處理器804。(若干)硬體處理器804可為(例如)一或多個通用微處理器。

運算裝置800亦可包含經耦合至匯流排802以用於儲存待藉由(若干)處理器804執行之資訊及指令之一主記憶體807，諸如隨機存取記憶體(RAM)、快取區，及/或其他動態儲存裝置。主記憶體807亦可用於在執行待藉由(若干)處理器804執行之指令期間儲存暫時變數或其他中間資訊。此等指令在被儲存於可由(若干)處理器804存取之儲存媒體中時可將運算裝置800呈現為經客製化以執行指令中指定之操作之一專用機器。主記憶體807可包含非揮發性媒體及/或揮發性媒體。例如，非揮發性媒體可包含光碟或磁碟。揮發性媒體可包含動態記憶體。媒體之常見形式可包含(例如)一軟碟、一軟性磁碟、硬碟、固態硬碟、磁帶或任何其他磁性資料儲存媒體、一CD-ROM、任何其他光學資料儲存媒體、具有孔圖案之任何實體媒體、一RAM、一DRAM、一PROM及EPROM、一FLASH-EPROM、NVRAM、任何其他記憶體晶片或匣，或其等之網路連結版本。

運算裝置800可使用客製化硬接線邏輯、一或多個ASIC或FPGA、韌體及/或程式邏輯(其與運算裝置組合可引起或程式化運算裝置800為一專用機器)實施本文中描述之技術。根據一實施例，本文中之技術係藉由運算裝置800回應於(若干)處理器804執行主記憶體807中含有之一或多個指令之一或多個序列而執行。此等指令可自另一儲存媒體(諸如儲存裝置809)讀取至主記憶體807中。主記憶體807中含有之指令序列之執行可引起(若干)處理器804執行本文中描述之程序步驟。例如，本文中揭示之程序/方法可藉由儲存於主記憶體807中之電腦程式指令實施。當此等指令係藉由(若干)處理器804執行時，其等可執行如在對應圖中展示且在上文描述之步驟。在替代實施例中，可代替軟體指令或與軟體指令組合使用硬接線電路。

運算裝置800亦包含耦合至匯流排802之一通信介面810。通信介面810可提供至連接至一或多個網路之一或多個網路鏈路之一雙向資料通信耦合。作為另一實例，通信介面810可為用於提供至一相容LAN(或用於與一WAN通信之一WAN組件)之一資料通信連接之一區域網路(LAN)卡。亦可實施無線鏈路。

特定操作之執行可分佈遍及處理器，不僅駐留在一單一機器內，而且亦遍及數個機器部署。在一些例示性實施例中，處理器或處理器實施引擎可定位於一單一地理位置中(例如，一家庭環境、一辦公室環境或一伺服器場內)。在其他例示性實施例中，處理器或處理器實施引擎可分佈遍及數個地理位置。

先前段落中描述之程序、方法及演算法之各者可體現於由包括電腦硬體之一或多個電腦系統或電腦處理器執行之代碼模組中或藉由該等代碼模組完全或部分自動化。程序及演算法可部分或完全實施於特定應用電路中。

當本文中揭示之功能以軟體功能單元之形式實施或作為獨立產生銷售或使用時，其等可儲存於一處理器可執行非揮發性電腦可讀儲存媒體中。貢獻於當前技術之(完全或部分)在本文中揭示之特定技術解決方案或態樣可以一軟體產品之形式體現。軟體產品可儲存於一儲存媒體中，包括用於引起一運算裝置(其可為一個人電腦、一伺服器、一網路裝置及類似者)執行本申請案之實施例之方法之全部或一些步驟之數個指令。儲存媒體可包括一快閃隨身碟、一攜帶型硬碟、ROM、RAM、一磁碟、一光碟、可操作以儲存程式碼之另一媒體或其等之任何組合。

特定實施例進一步提供一種系統，其包括一處理器及儲存可藉由該處理器執行以引起系統執行對應於上文揭示之實施例之任何方法中之步驟之操作之指令之一非暫時性電腦可讀儲存媒體。特定實施例進一步提供一種非暫時性電腦可讀儲存媒體，其經組態具有可由一或多個處理器執行以引起一或多個處理器執行對應於上文揭示之實施例之任何方法中之步驟之操作之指令。

本文中揭示之實施例可透過與一用戶端互動之一雲端平台、一伺服器或一伺服器群組(在下文中統稱為「服務系統」)實施。用戶端可為一終端裝置或由一使用者在一平台處註冊之一用戶端，其中終端裝置可為一行動終端機、一個人電腦(PC)及可安裝有一平台應用程式之任何裝置。

上文描述之各種特徵及程序可彼此獨立使用或可以各種方式組合。全部可能組合及子組合旨在落在本發明之範疇內。另外，在一些實施方案中，可省略特定方法或程序方塊。本文中描述之方法及程序亦不限於任何特定序列，且與其相關之方塊或狀態可以適當之其他序列執行。例如，所述方塊或狀態可以除具體揭示之順序之外之一順序執行，或多個方塊或狀態可組合成一單一方塊或狀態。例示性方塊或狀態可串列、並列或以某一其他方式執行。方塊或狀態可經添加至所揭示例示性實施例或自所揭示例示性實施例移除。本文中描述之例示性系統及組件可不同於所描述組態。例如，元件可經添加至所揭示例示性實施例，自所揭示例示性實施例移除，或相較於所揭示例示性實施例重新配置。

本文中描述之例示性方法之各種操作可至少部分藉由一演算法執行。演算法可被包括於儲存於一記憶體(例如，上文描述之一非暫時性電腦可讀儲存媒體)中之程式碼或指令中。此演算法可包括一機器學習演算法。在一些實施例中，一機器學習演算法可未對電腦顯式程式化以執行一功能但可自訓練樣本學習以製作執行功能之一預測模型。

本文中描述之例示性方法之各種操作可至少部分由一或多個處理器執行，該一或多個處理器(例如，由軟體)暫時組態或永久組態以執行相關操作。無論暫時或永久組態，此等處理器皆可構成操作以執行本文中描述之一或多個操作或功能之處理器實施引擎。

類似地，本文中描述之方法可至少部分經處理器實施，其中一特定處理器或若干處理器係硬體之一實例。例如，一方法之操作之至少一些可由一或多個處理器或處理器實施引擎執行。再者，一或多個處理器亦可操作以支援在一「雲端運算」環境中或作為一「軟體即服務」(SaaS)執行相關操作。例如，至少一些操作可由一群組之電腦(作為包含處理器之機器之實例)執行，其中此等操作可經由一網路(例如，網際網路)且經由一或多個適當介面(例如，一特定應用積體電路(API))存取。

貫穿本說明書，複數個例項可實施被描述為一單一例項之組件、操作或結構。雖然將一或多個方法之個別操作繪示且描述為分開的操作，但一或多個個別操作可同時執行，且不需要以所繪示順序執行操作。呈現為呈例示性組態之分開的組件之結構及功能性可經實施為一經組合結構或組件。類似地，呈現為一單一組件之結構及功能性可經實施為分開的組件。此等及其他變動、修改、添加及改良落在本文中之標的物之範疇內。

如本文中使用，「或」係包含性且非排他性的，除非另外明確指示或由背景內容另外指示。因此，在本文中，「A、B或C」意謂「A，B，A及B，A及C，B及C或A、B及C」，除非另外明確指示或由背景內容另外指示。再者，「及」既是共同的又是分別的，除非另外明確指示或由背景內容另外指示。因此，在本文中，「A及B」意謂「共同地或分別地為A及B」，除非另外明確指示或由背景內容另外指示。再者，可針對本文中描述之資源、操作或結構將複數個例項提供為一單一例項。另外，各種資源、操作、引擎及資料儲存器之間之邊界在一定程度上係任意的，且在特定闡釋性組態之一背景內容中繪示特定操作。功能性之其他分配經設想且可落在本發明之各項實施例之一範疇內。一般言之，在例示性組態經呈現為分開的資源之結構及功能性可經實施為一經組合結構或資源。類似地，呈現為一單一資源之結構及功能性可經實施為分開的資源。此等及其他變化、修改、添加及改良落在如由隨附發明申請專利範圍表示之本發明之實施例之一範疇內。因此，本說明書及圖式應被視為一闡釋性而非一限制性意義。

使用術語「包含」或「包括」以指示隨後聲明之特徵之存在，但其不排除增設其他特徵。除非另外具體陳述或在如所使用之背景內容內另外理解，否則尤其諸如「可」、「可以」、「可能」或「能夠」之條件用語通常旨在傳達特定實施例包含而其他實施例不包含特定特徵、元件及/或步驟。因此，此條件用語通常不旨在暗示特徵、元件及/或步驟以任何方式為一或多項實施例所需或一或多項實施例一定包含用於在具有或不具有使用者輸入或提示之情況下決定在任何特定實施例中是否包含或待執行此等特徵、元件及/或步驟之邏輯。

雖然已參考特定例示性實施例描述標的物之一概述，但可對此等實施例做出各種修改及改變而不脫離本發明之實施例之更廣範疇。標的物之此等實施例可僅為了方便在本文中藉由術語「發明」個別或共同指稱及且不旨在自願將本申請案之範疇限於任何單一揭示內容或概念(若事實上揭示多於一個揭示內容或概念)。

足夠詳細描述本文中繪示之實施例以使熟習此項技術者能夠實踐所揭示之教示。其他實施例可被使用且自其導出，使得可做出結構及邏輯取代及改變而不脫離本發明之範疇。因此，實施方式不應被視為一限制性意義，且各項實施例之範疇係僅由隨附發明申請專利範圍以及此等發明申請專利範圍被授權之等效物之全範圍定義。

500:方法

510:方塊

520:方塊

530:方塊

540:方塊

Claims

一種用於藉由收集在教師模型內部之統計資料使用少量訓練以訓練一產生器之電腦實施方法，該方法包括：獲得一教師模型及複數個訓練樣本；使用該產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之多於一層之輸出來判定該複數個第一統計資料，其中該等輸出包括藉由該等多於一個層之各層所產生之一或多個張量，及獲得該複數個第一統計資料包含：針對該一或多個張量之各者，判定一或多個通道級統計資料，其中該等一或多個通道級統計資料包括一通道均值、一通道變異數，及在該張量中一對應通道內全部值之一i階矩(order moment)，i係大於2；將該複數個經獲得訓練樣本饋入該教師模型中以獲得複數個第二統計資料，其中當該複數個經獲得訓練樣本行進通過該教師模型時基於該教師模型中之該多於一層之輸出來判定該複數個第二統計資料；藉由最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離來訓練該產生器；及使用用於自該教師模型至一學生模型之知識蒸餾之該經訓練產生器來產生新訓練樣本，其中關於與該學生模型之一預期應用相關之特徵，該等新訓練樣本與該複數個經獲得訓練樣本相似(resemble)，且關於與該學生模型之該預期應用不相關之特徵，允許該等新訓練樣本偏離(deviate from)該複數個經獲得訓練樣本。
如請求項1之方法，其中將該複數個經產生樣本及該複數個經獲得訓練樣本之饋入包括：順序地將該複數個經產生樣本及該複數個經獲得訓練樣本饋入該教師模型中；或同時地將該複數個經產生樣本饋入該教師模型且將該複數個經獲得訓練樣本饋入該教師模型之一複本中。
如請求項1之方法，其中該等輸出包括藉由該教師模型之各層產生之一或多個張量，且基於來自該教師模型之各層之該一或多個張量來判定該複數個第一統計資料包括：針對該一或多個張量之各者，判定該一或多個通道級統計資料；及聚集來自該教師模型之全部層之該一或多個通道級統計資料以獲得該複數個第一統計資料。
如請求項3之方法，其中該一或多個通道級統計資料包括以下之一或多者：一通道均值及一通道變異數。
如請求項1之方法，其中該等輸出包括藉由該教師模型之各層產生之一或多個張量，且該複數個第一統計資料進一步包括該一或多個張量之各者中之全部通道之一聯合共變異數(joint-covariance)。
如請求項1之方法，進一步包括：使用比該教師模型更小數目個參數來建構該學生模型。
如請求項1之方法，其中該自該教師模型至該學生模型之知識蒸餾包括：將該等新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。
如請求項7之方法，其中該等層級輸出包括藉由該教師模型之嵌入層及該學生模型之嵌入層產生的特徵向量。
如請求項1之方法，其中該教師模型係用於影像分類之一經預訓練神經網路，且該複數個訓練樣本係經標記影像。
如請求項1之方法，其中該教師模型係用於自然語言處理之一經預訓練轉換器。
如請求項1之方法，其中該學生模型經訓練以基於一輸入之一或多個特徵來執行分類，且該複數個新訓練樣本關於該一或多個特徵之一資料分佈係在距該複數個訓練樣本關於該一或多個特徵之一資料分佈之一臨限距離內。
一種用於藉由收集在教師模型內部之統計資料使用少量訓練以訓練一產生器之系統，該系統包括一或多個處理器及經耦合至該一或多個處理器且經組態具有指令之一或多個非暫時性電腦可讀記憶體，該等指令可由該一或多個處理器執行以引起該系統執行包括以下操作：獲得一教師模型及複數個訓練樣本；使用該產生器來產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之多於一層之輸出來判定該複數個第一統計資料，其中該等輸出包括藉由該等多於一個層之各層所產生之一或多個張量，及獲得該複數個第一統計資料包含：針對該一或多個張量之各者，判定一或多個通道級統計資料，其中該等一或多個通道級統計資料包括一通道均值、一通道變異數，及在該張量中一對應通道內全部值之一i階矩，i係大於2；將該複數個經獲得訓練樣本饋入該教師模型中以獲得複數個第二統計資料，其中當該複數個經獲得訓練樣本行進通過該教師模型時基於該教師模型中之該多於一層之輸出來判定該複數個第二統計資料；藉由最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離來訓練該產生器；及使用用於自該教師模型至一學生模型之知識蒸餾之該經訓練產生器來產生新訓練樣本，其中關於與該學生模型之一預期應用相關之特徵，該等新訓練樣本與該複數個經獲得訓練樣本相似，且關於與該學生模型之該預期應用不相關之特徵，允許該等新訓練樣本偏離該複數個經獲得訓練樣本。
如請求項12之系統，其中該將該複數個經產生樣本及該複數個經獲得訓練樣本之饋入包括：順序地將該複數個經產生樣本及該複數個經獲得訓練樣本饋入該教師模型中；或同時地將該複數個經產生樣本饋入該教師模型且將該複數個經獲得訓練樣本饋入該教師模型之一複本中。
如請求項12之系統，其中該自該教師模型至該學生模型之知識蒸餾包括：將該等新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。
一種經組態具有指令之非暫時性電腦可讀儲存媒體，其用於藉由收集在教師模型內部之統計資料使用少量訓練以訓練一產生器，該等指令可由一或多個處理器執行以引起該一或多個處理器執行包括以下操作：獲得一教師模型及複數個訓練樣本；使用該產生器來產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之多於一層之輸出來判定該複數個第一統計資料，其中該等輸出包括藉由該等多於一個層之各層所產生之一或多個張量，及獲得該複數個第一統計資料包含：針對該一或多個張量之各者，判定一或多個通道級統計資料，其中該等一或多個通道級統計資料包括一通道均值、一通道變異數，及在該張量中一對應通道內全部值之一i階矩，i係大於2；將該複數個經獲得訓練樣本饋入該教師模型中以獲得複數個第二統計資料，其中當該複數個經獲得訓練樣本行進通過該教師模型時基於該教師模型中之該多於一層之輸出來判定該複數個第二統計資料；藉由最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離來訓練該產生器；及使用用於自該教師模型至一學生模型之知識蒸餾之該經訓練產生器來產生新訓練樣本，其中關於與該學生模型之一預期應用相關之特徵，該等新訓練樣本與該複數個經獲得訓練樣本相似，且關於與該學生模型之該預期應用不相關之特徵，允許該等新訓練樣本偏離該複數個經獲得訓練樣本。
如請求項15之儲存媒體，其中該將該複數個經產生樣本及該複數個經獲得訓練樣本之饋入包括：順序地將該複數個經產生樣本及該複數個經獲得訓練樣本饋入該教師模型中；或同時地將該複數個經產生樣本饋入該教師模型且將該複數個經獲得訓練樣本饋入該教師模型之一複本中。
如請求項15之儲存媒體，其中該自該教師模型至該學生模型之知識蒸餾包括：將該等新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。
一種電腦實施方法，其包括：獲得沒有用於分類之標記之複數個訓練樣本；自該複數個訓練樣本選擇複數個樞軸樣本，其中該選擇包括一反覆程序(iterative process)，其包括：執行一第一迭代(iteration)，其包括：自該複數個訓練樣本隨機地選擇多個第一樞軸樣本；判定在該多個第一樞軸樣本中之每一對之間的一向量距離以獲得複數個向量距離；及基於該複數個向量距離來識別及選擇一第一組樞軸樣本，其中該第一組樞軸樣本排除(exclude)具有小於該等第一樞軸樣本之另一者之一臨限值的一向量距離之該等第一樞軸樣本之一者；藉由重複該第一迭代而執行一第二迭代以獲得一第二組樞軸樣本；將該第一組樞軸樣本及該第二組樞軸樣本合併(merge)以獲得該複數個樞軸樣本；基於該複數個樞軸樣本，對該複數個訓練樣本分組(group)以產生分別對應於該複數個樞軸樣本之複數個群組之訓練樣本；及針對該複數個群組之訓練樣本之各者，訓練一產生器以用於產生使用少量學習之新樣本，其中該等新樣本之一資料分佈係在距該群組之訓練樣本之一資料分佈之一臨限距離內，其中該訓練包括：接收經訓練以在該複數個訓練樣本上執行任務之一教師模型；使用該產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中該複數個第一統計資料包括一或多個通道級統計資料，該等一或多個通道級統計資料包括：一通道均值、一通道變異數，及在該教師模型之一層處產生之一張量中一對應通道內全部值之一通道k階矩，其中k係大於2；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。
如請求項18之方法，其中該將該複數個經產生樣本饋入該教師模型中以獲得該複數個第一統計資料包括：將該複數個經產生樣本饋入該教師模型中；及當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之複數個層之輸出來獲得該複數個第一統計資料。
如請求項19之方法，其中該等輸出包括藉由該教師模型之該複數個層產生之一或多個張量，且該基於來自該教師模型之該複數個層之該一或多個張量來判定該複數個第一統計資料包括：針對該一或多個張量之各者，判定一或多個通道級統計資料；及聚集該一或多個通道級統計資料以獲得該複數個第一統計資料。
如請求項20之方法，其中該等輸出包括藉由該教師模型之該複數個層產生之一或多個張量，且該複數個統計資料包括該一或多個張量之各者中之全部通道之一聯合共變異數。
如請求項18之方法，進一步包括：使用比該教師模型更小數目個參數來建構一學生模型；及使用對應於該等群組之訓練樣本之該等經訓練產生器來執行自該教師模型至一學生模型之知識蒸餾。
如請求項22之方法，其中該使用該等經訓練產生器來執行自該教師模型至該學生模型之知識蒸餾包括：藉由使用該等經訓練產生器之各者來產生複數個新訓練樣本；將該複數個新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。
如請求項23之方法，其中該等層級輸出包括藉由該教師模型之嵌入層及該學生模型之嵌入層來產生之特徵向量。
如請求項18之方法，其中該教師模型係用於影像分類之一經預訓練神經網路。
如請求項18之方法，其中該教師模型係用於自然語言處理之一經預訓練轉換器。
一種用於使用少量學習以訓練一產生器之系統，其包括一或多個處理器及經耦合至該一或多個處理器且經組態具有指令之一或多個非暫時性電腦可讀記憶體，該等指令可由該一或多個處理器執行以引起該系統執行包括以下操作：獲得沒有用於分類之標記之複數個訓練樣本；自該複數個訓練樣本選擇複數個樞軸樣本，其中該選擇包括一反覆程序，其包括：執行一第一迭代，其包括：自該複數個訓練樣本隨機地選擇多個第一樞軸樣本；判定在該多個第一樞軸樣本中之每一對之間的一向量距離以獲得複數個向量距離；及基於該複數個向量距離識別及選擇一第一組樞軸樣本，其中該第一組樞軸樣本排除具有小於該等第一樞軸樣本之另一者之一臨限值的一向量距離之該等第一樞軸樣本之一者；藉由重複該第一迭代而執行一第二迭代以獲得一第二組樞軸樣本；將該第一組樞軸樣本及該第二組樞軸樣本合併以獲得該複數個樞軸樣本；基於該複數個樞軸樣本，對該複數個訓練樣本分組以產生分別對應於該複數個樞軸樣本之複數個群組之訓練樣本；及針對該複數個群組之訓練樣本之各者，訓練一產生器以用於產生使用少量學習之新樣本，其中該等新樣本之一資料分佈係在距該群組之訓練樣本之一資料分佈之一臨限距離內，其中該訓練包括：接收經訓練以在該複數個訓練樣本上執行任務之一教師模型；使用該產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中該複數個第一統計資料包括一或多個通道級統計資料，該等一或多個通道級統計資料包括：一通道均值、一通道變異數，及在該教師模型之一層處產生之一張量中一對應通道內全部值之一通道k階矩，其中k係大於2；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。
如請求項27之系統，其中該將該複數個經產生樣本饋入該教師模型中以獲得該複數個第一統計資料包括：將該複數個經產生樣本饋入該教師模型中；及當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之複數個層之輸出來獲得該複數個第一統計資料。
如請求項27之系統，其中基於來自該教師模型之複數個層之一或多個張量來判定該複數個第一統計資料，及該判定包括：針對該一或多個張量之各者，判定該一或多個通道級統計資料；及聚集該一或多個通道級統計資料以獲得該複數個第一統計資料。
如請求項27之系統，其中該等操作進一步包括：使用比該教師模型更小數目個參數來建構一學生模型；及使用對應於該等群組之訓練樣本之該等經訓練產生器來執行自該教師模型至一學生模型之知識蒸餾。
如請求項30之系統，其中該使用該等經訓練產生器來執行自該教師模型至該學生模型之知識蒸餾包括：藉由使用該等經訓練產生器之各者來產生複數個新訓練樣本；將該複數個新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。
一種經組態具有指令之非暫時性電腦可讀儲存媒體，該等指令可由一或多個處理器執行以引起該一或多個處理器執行包括以下操作：獲得沒有用於分類之標記之複數個訓練樣本；自該複數個訓練樣本選擇複數個樞軸樣本，其中該選擇包括一反覆程序，其包括：執行一第一迭代，其包括：自該複數個訓練樣本隨機地選擇多個第一樞軸樣本；判定在該多個第一樞軸樣本中之每一對之間的一向量距離以獲得複數個向量距離；及基於該複數個向量距離識別及選擇一第一組樞軸樣本，其中該第一組樞軸樣本排除具有小於該等第一樞軸樣本之另一者之一臨限值的一向量距離之該等第一樞軸樣本之一者；藉由重複該第一迭代而執行一第二迭代以獲得一第二組樞軸樣本；將該第一組樞軸樣本及該第二組樞軸樣本合併以獲得該複數個樞軸樣本；基於該複數個樞軸樣本，對該複數個訓練樣本分組以產生分別對應於該複數個樞軸樣本之複數個群組之訓練樣本；及針對該複數個群組之訓練樣本之各者，訓練一產生器以用於產生使用少量學習之新樣本，其中該等新樣本之一資料分佈係在距該群組之訓練樣本之一資料分佈之一臨限距離內，其中該訓練包括：接收經訓練以在該複數個訓練樣本上執行任務之一教師模型；使用該產生器產生複數個樣本；將該複數個經產生樣本饋入該教師模型中以獲得複數個第一統計資料，其中該複數個第一統計資料包括一或多個通道級統計資料，該等一或多個通道級統計資料包括：一通道均值、一通道變異數，及在該教師模型之一層處產生之一張量中一對應通道內全部值之一通道k階矩，其中k係大於2；將該複數個訓練樣本饋入該教師模型中以獲得複數個第二統計資料；及訓練該產生器以最小化該複數個第一統計資料與該複數個第二統計資料之間之一距離。
如請求項32之儲存媒體，其中該將該複數個經產生樣本饋入該教師模型中以獲得該複數個第一統計資料包括：將該複數個經產生樣本饋入該教師模型中；及當該複數個經產生樣本行進通過該教師模型時基於該教師模型中之複數個層之輸出來獲得該複數個第一統計資料。
如請求項32之儲存媒體，其中該等操作進一步包括：使用比該教師模型更小數目個參數來建構一學生模型；及使用對應於該等群組之訓練樣本之該等經訓練產生器來執行自該教師模型至一學生模型之知識蒸餾。
如請求項34之儲存媒體，其中該使用該等經訓練產生器來執行自該教師模型至該學生模型之知識蒸餾包括：藉由使用該等經訓練產生器之各者來產生複數個新訓練樣本；將該複數個新訓練樣本饋入該教師模型及該學生模型中以獲得該教師模型及該學生模型之各自層級輸出；判定該教師模型與該學生模型之該等層級輸出之間之一距離；及訓練該學生模型以最小化該距離。