TW202226070A

TW202226070A - 促進神經網路間高效率知識共享的方法及設備

Info

Publication number: TW202226070A
Application number: TW110134399A
Authority: TW
Inventors: 萊奧巴爾多坎波斯馬西亞斯; 蘭加納斯克里希南; 大衛戈麥斯古鐵雷斯; 拉斐爾德拉瓜; 尼勒什阿胡賈; 哈維爾菲利普萊昂; 約瑟帕拉維爾奇斯; 安東尼古茲姆萊蓋爾
Original assignee: 美商英特爾股份有限公司
Priority date: 2020-12-21
Filing date: 2021-09-15
Publication date: 2022-07-01
Also published as: US20210110264A1; CN114648093A

Abstract

方法、設備、系統、和製造物件被揭示來促進神經網路間的知識共享。範例設備包含訓練器，用以；在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；以及在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集。該範例設備包含知識共享控制器，用以根據該第一權重分布和該第二權重分布而產生第三BNN。

Description

促進神經網路間高效率知識共享的方法及設備

本發明係一般有關神經網路，尤其有關促進神經網路間高效率知識共享的方法及設備。

近年來，機器學習及/或人工智慧已經越來越受歡迎。例如，機器學習及/或人工智慧可以使用神經網路來施行。神經網路為由人類大腦的神經網路所啟發的計算系統。神經網路能夠接收輸入和產生輸出。神經網路能夠基於反饋而被訓練(例如，能夠學習)而使得輸出對應於所想要的結果。一但被訓練，神經網路就能做出決定而根據任何輸入產生輸出。神經網路被使用於人工智慧及/或機器學習的新興領域。貝葉斯(Bayesian)神經網路為一種特殊類型的神經網路，其包含輸出和固定權重相反之可變權重的神經元(neuron)。可變權重落在由貝葉斯神經網路的訓練期間所決定之平均值與方差(variance)所定義的機率分布之內。

及

貝葉斯神經網路(Bayesian Neural Network (BNN))為在推論時能夠計算認知不確定性(例如，系統不確定性(systemic uncertainty))和內在不確定性(aleatoric uncertainty)(例如，統計不確定性)的機器學習神經網路。例如，一系統(例如，計算系統)可包含操作於不同環境下、使用BNN而獨立學習的至少一或更多個代理器(例如，計算裝置、計算處理器、計算系統等等)。亦即，該系統能夠使用BNN的集成。在這樣的系統中，可能存在包含資料的第一子集和資料的第二子集之資料集。此外，在這樣的系統中，於使用資料的第一子集所訓練的第一計算環境中，可能存在操作於第一計算裝置上的第一BNN。同樣地，在使用資料的第二子集所訓練的第二計算環境中，可能存在操作於第二計算裝置上的第二BNN。因此，在計算上，共享訓練知識於第一BNN與第二BNN之間而使得第一BNN或第二BNN能夠準確地對資料集(例如，資料的第一子集和資料的第二子集兩者)進行推論可能並非有效率或可行的。

例如，在該環境的不同區域下(例如，各代理器在不同的計算環境中使用不同資料的子集來訓練)，二或更多個移動式代理器能夠學習一政策(例如，意圖預測、碰撞避免、等等)。因此，該等移動式代理器決定不同的邊角案例(corner cases)。在本文中所揭示之範例中，該等移動式代理器共享它們的知識，導致在性能上類似於如果各代理器被訓練於完整的環境下(例如，使用資料的所有子集來訓練)。因此，本文中所揭示之範例加速了訓練時間來達成所想要的性能。

先前的技術在確定性神經網路(deterministic neural network)的背景下已經開發了集成方法(ensemble approaches)，其中，該集成的所有成員共享相同的網路拓樸，但是具有不同的權重和參數的集合。例如，先前的技術使用bagging和boosting(例如，以不同的隨機初始化來訓練該集成的成員)來決定網路參數。先前的技術也可以藉由隨機地取樣和正規化來決定該集成的參數，以提供貝葉斯後驗(Bayesian posterior)的一致性估計量(consistent estimator)例如，個別的成員為決定性神經網路，但是該集成表現為BNN。

在持續學習的領域中已經開發出從新且先前未見的資料中學習。在持續學習的情況中，網路的參數被更新於當新且先前未見的資料被獲取時。然而，持續學習常常與毀滅性遺忘相關聯，其係一種其中神經網路在從新資料中學習的同時遺忘舊資料的情形。減緩毀滅性遺忘的先前技術包含藉由非貝葉斯(non-Bayesian)及/或貝葉斯(Bayesian)技術、及/或需要儲存先前資料樣本的任何其他技術來確定已學習參數的相對重要性。

一些範例持續學習技術更新單一網路的參數而不是維持模型的集成。此等先前技術係與毀滅性遺忘相關聯(例如，網路遺忘先前的資料於當其被更新而從新資料中學習時)。先前的技術應付毀滅性遺忘涉及保有舊訓練資料之樣本的一小部分。該舊訓練資料被重播放給網路於當以新的資料來訓練之時。然而，隨著新資料被獲取，計算成本也增加。例如，資料集的大小尺寸增加，因而增加需要保有舊資料之儲存的量。本文中所揭示之範例減少計算記憶體需求，當隨著權重之後驗分布在新的學習任務中變成先驗(prior)時。亦即，針對持續學習，舊的訓練資料不被儲存和重播放。

先前的集成方法使用聯盟式學習(federated-learning)。聯盟式學習涉及從本地節點或客戶(例如，多個本地裝置、伺服器、等等)中所含有之多個本地資料集中學習單一全域模型(single global model)。聯盟式學習的一般原則包含以本地資料訓練本地模型(local model)以及在本地模型之間交換參數。在一些範例中，全域模型存在於中央伺服器上。本地節點並不與伺服器共享本地資料集而且僅通訊對全域模型的更新。中央伺服器使用諸如FedAveraging之加權平均方法(weighted averaging approach)來匯總該等更新。然而，此平均技術並不考慮來自個別模型的自信(confidence)或不確定性(uncertainty)。本文中所揭示之範例估計個別模型的不確定性，並且在匯總期間使用該不確定性來獲得更強健的結果。

本文中所揭示之範例針對知識共享提出具有相同及/或不同架構的BNN。本文中所揭示之範例混合BNN的權重分布而產生額外的BNN。該額外的BNN當評估完整的資料集時進行得比初始的BNN相對地好(例如，更高的準確度)。一種對知識共享單純的方式在於對該完整的資料集進行推論時使用該等BNN的每一個，而且選擇具有最低不確定性之BNN的輸出。然而，此方式由於在推論時運行所有的BNN而具有高的計算成本。

在本文中所揭示之範例中，來自多個BNN的權重分布在不同的本地模式被用來獲取後驗，其導致代表資料分布的多峰(multimodal)後驗。在一些範例中，蒙特卡羅(Monte-Carlo)取樣組合從多個模型所獲取之以不同的資料分布所訓練的知識。因而，當新的資料被觀察到時，結果的BNN繼續被訓練。亦即，本文中所揭示之技術適合用於持續學習。此外，本文中所揭示之技術係可擴展到大尺度的模型。BNN中的推論後驗由於縮放大尺度資料集及複雜模型的困難度而具有挑戰性。本文中所揭示之範例致能BNN中可擴展的學習，當各網路(例如，伺服器)學習完全因式分解的分布(fully-factorized distribution)時，其獲取本地模式中用以代表所觀察到之資料的權重後驗，以及稍後將該等後驗組合來代表由所有的網路所觀察到的多峰後驗。

圖1為範例神經網路(NN)訓練器102用以訓練範例BNN 104的示意說明圖。在一些範例中，NN訓練器102施行用以訓練神經網路的機構。範例BNN 104包含範例記憶體108，和範例神經元110。雖然圖1所繪示出之神經元110包含六個神經元，但是可以有在任何類型的配置中之任意數量的神經元。

圖1的範例NN訓練器102藉由為每一個神經元110選擇平均權重以及針對該平均權重的偏差量來訓練BNN 104。起初，BNN 104未被訓練(例如，神經元尚未用平均和偏差來予以加權)。為了訓練BNN 104，圖1的範例NN訓練器102使用訓練資料(例如，標示有已知分類的輸入資料及/或輸出)來將BNN 104組構成能夠為具有未知分類之輸入資料預測輸出分類。NN訓練器102可以用訓練資料的第一集合來訓練一模型以及用訓練資料的第二集合來測試該模型。根據該測試的結果，如果該模型的準確率低於閾值，則NN訓練器102能夠使用訓練資料的額外集合來調節(例如，調整、進一步訓練、等等)該模型的參數，並且繼續測試直到準確率高於閾值為止。在NN訓練器102已經訓練了BNN 104之後，範例NN訓練器102將針對個別神經元110之對應的平均和偏差儲存在範例BNN 104的範例記憶體108中。範例NN訓練器102可以被施行於和BNN 104相同的裝置中及/或在與範例BNN 104相通訊的分離裝置中。例如，NN訓練器102可能位於遠端、在本地開發權重資料、以及將該權重資料(例如，針對個別神經元110的平均和偏差)部署到BNN 104以供施行。

圖1的範例BNN 104另包含範例記憶體108。範例記憶體108儲存來自範例NN訓練器102的權重資料結合特別的神經元。例如，記憶體108的第一區段專用於針對第一神經元的第一平均值和第一方差值，記憶體108的第二區段專用於針對第二神經元的第二平均值和第二方差值，等等。平均值可以被儲存在專用區段中做為代表該平均值的位元值。

圖1的範例神經元110接收輸入資料，產生對應於機率分布的權重，以及將該權重應用於該輸入資料而產生輸出。例如，如果神經元的機率分布遵循標準的常態分布，該神經元的平均權重為0.7，而且該神經元的方差為0.01(例如，標準偏差為0.1)，則將會有68%的機會該神經元將輸出介於0.6與0.8之間的權重(例如，離開該平均一個標準偏差)，將會有95%的機會該神經元將輸出介於0.5與0.9之間的權重(例如，離開該平均兩個標準偏差)，等等。因此，每一次權重被產生時由該輸出所產生的權重可能不同，但是將遵循該機率分布。

圖2繪示包含範例第一BNN系統202及範例第二BNN系統204的範例環境200。雖然在圖2所繪示的範例中包含兩個BNN系統(例如，第一BNN系統202和第二BNN系統204)，但是本文中所揭示之範例能夠包含任意數量的BNN系統(例如，三個BNN系統、四個BNN系統、等等)。在圖2的範例中，第一BNN系統202及/或第二BNN系統204可施行圖1的範例BNN 104及/或NN訓練器102。例如，第一BNN系統202可施行圖1的NN訓練器102和BNN 104。同樣地，在與第一BNN系統202分離的執行空間中，第二BNN系統204可施行圖1的NN訓練器102和BNN 104。

在圖2的範例環境200中，第一BNN系統202和第二BNN系統204與範例網路206相通訊。在圖2中，網路206為配置成與第一BNN系統202和第二BNN系統204相通訊的無線網路(例如，雲端網路)。在本文中所揭示的其他範例中，網路206可使用任何適合的有線及/或無線網路來予以施行。

網路206進一步儲存範例資料集208。此種資料集208包含範例資料的第一子集210和範例資料的第二子集212。在一些範例中，資料的第一子集210及/或資料的第二子集212為不完整的資料集。例如，資料的第一子集210和資料的第二子集212能夠包含重疊、不重疊(例如，互斥)、及/或部分重疊的資料集。在操作上，網路206將資料的第一子集210發送至第一BNN系統202。網路206另將資料的第二子集212發送至第二BNN系統204。

在圖2的範例中，網路206將資料的第一子集210發送至第一BNN系統202以供由第一BNN系統202在訓練上的使用。同樣地，網路206將資料的第二子集212發送至第二BNN系統204以供訓練上的使用。在本文中所揭示的範例中，資料的第一子集210、資料的第二子集212，及/或更一般而言，資料集208可對應於適用來訓練BNN系統(例如，第一BNN系統202及/或第二BNN系統204)的任何資料。例如，資料的第一子集210、資料的第二子集212，及/或更一般而言，資料集208可對應於使用於訓練政策(例如，意圖預測、碰撞避免、等等)的資料集合。此外，在這樣的範例中，資料集208可對應於修正的國家標準與技術研究院(MNIST)資料庫，而且就此而言，資料的第一子集210可對應於MNIST資料庫中對應於數字0, 1, 2, 3,及4(例如，類別0到4)的元件，且資料的第二子集212可對應於MNIST資料庫中對應於數字5, 6, 7, 8,及9(例如，類別5到9)的元件。此外或另外，資料的第一子集210可對應於數字0, 1, 2, 3, 4,及5(例如，類別0到5)，且資料的第二子集212可對應於數字4, 5, 6, 7, 8,及9(例如，類別4到9)。因此，第一BNN系統202係與對應於資料的第一子集210的第一權重分布相關聯且第二BNN系統204係與對應於資料的第二子集212的第二權重分布相關聯。

圖3繪示圖2的範例環境200，其中，第一BNN系統202包含範例第一知識共享控制器302且第二BNN系統204包含範例第二知識共享控制器304。在一些範例中，第一知識共享控制器302施行第一知識共享機構且第二知識共享控制器304施行第二知識共享機制構。在一些範例中，該等範例知識共享控制器302、304基於來自BNN的輸入分布而產生權重分布。例如，第一知識共享控制器302存取第一BNN系統202的權重分布並且接收第二BNN系統204的權重分布(例如，經由網路206)而產生第三權重分布。同樣地，第二知識共享控制器304存取第二BNN系統204的權重分布並且接收第一BNN系統202的權重分布(例如，經由網路206)而產生第四權重分布。因此，範例第一BNN系統202和範例第二BNN系統204共享它們權重分布的參數。

在一些範例中，第一知識共享控制器302及/或第二知識共享控制器304使用一函數以基於來自BNN的輸入權重分布而產生額外的權重分布。例如，第一知識共享控制器302和第二知識共享控制器304可以使用高斯混和模型(Gaussian Mixture Model(GMM))來決定額外的權重分布。用來將代理器之分布混合的混合函數被進一步參照圖6到圖8而詳細說明於下。

此外或另外，本文中所揭示的範例能夠使用任何其他混合及/或產生函數以供代理器之間知識共享的使用。例如，第一知識共享控制器302及/或第二知識共享控制器304能夠施行被訓練來決定混合函數的全連接(fully connected)神經網路。亦即，第一知識共享控制器302及/或第二知識共享控制器304的神經網路接收BNN之高斯分布的平均及方差作為輸入，以及產生高斯分布。用於知識共享的全連接神經網路被進一步參照圖9而詳細說明於下。

圖4為圖3之範例第一知識共享控制器302及/或範例第二知識共享控制器304的示意說明圖。該等範例知識共享控制器302、304包含範例資料存取器402、範例函數產生器404、範例資料取樣器406、範例NN控制器408、及範例參數資料庫410。

範例資料存取器402存取儲存在BNN系統中的資料。在一些範例中，資料存取器402施行用以存取資料的機構。例如，資料存取器402獲取圖2之第一BNN系統202之權重分布的參數及/或第二BNN系統204之權重分布的參數。此外或另外，資料存取器402獲取BNN的平均及/或方差。例如，資料存取器402獲取第一BNN系統202的平均和方差及第二BNN系統204的平均和方差。在一些範例中，資料存取器402可以存取儲存在圖1之記憶體108中的資料。在一些範例中，資料存取器402回應於詢問而在手動的基礎上、在定期地的基礎上、在預定計劃的基礎上等等存取儲存在第一BNN系統202及/或第二BNN系統204中的資料。

範例函數產生器404產生混合函數。在一些範例中，函數產生器404施行用以產生混合函數的機構。例如，函數產生器404產生GMM並且指定機率質量給BNN系統202、204的高斯分布。例如，函數產生器404混合各個權重(例如，第一BNN系統202和第二BNN系統204的權重分布)的高斯而使得所有的機率質量被指派給該混合中之該等高斯的僅其中一個。

範例資料取樣器406取樣第一BNN系統202及/或第二BNN系統204的機率分布。在一些範例中，資料取樣器406施行用以取樣資料的機構。例如，資料取樣器406取樣一類別分布(categorical distribution)的隨機變數，該類別分布可以是代表輸入網路之可能類別之M個數量(例如，BNN系統的數量)中的一個。在一些範例中，資料取樣器406將機率指派給各個類別(例如，BNN系統)，使得各個類別的機率係在0到1的範圍內，而且該等類別的機率總和為1。例如，資料取樣器406將相同的機率質量指派給第一BNN系統202和第二BNN系統204的分布(例如，均勻地加權)。亦即，資料取樣器406取樣第一BNN系統202或第二BNN系統204有相同的機率。此外或另外，資料取樣器406能夠根據由各個代理器(例如，第一BNN系統202和第二BNN系統204)所觀察到的統計而將機率指派給該等類別。例如，資料取樣器406能夠指派和由各個代理器所觀察到之類別的數量成正比的機率。在一些範例中，資料取樣器406根據樣本而產生權重分布的參數。例如，資料取樣器406根據第一BNN系統202和第二BNN系統204之取樣的權重分布來決定權重分布。在一些範例中，資料取樣器406將權重分布儲存在參數資料庫410中。

範例NN控制器408訓練確定性神經網路(deterministic neural network(DNN))。在一些範例中，NN控制器408施行用以訓練神經網路的機構。例如，NN控制器408用基因演算法來訓練DNN。然而，NN控制器408能夠使用任何其他適合的訓練演算法來訓練DNN。訓練後的DNN根據輸入平均和方差而產生平均和方差。亦即，NN控制器408將平均和方差輸入DNN中而產生平均和方差。在一些範例中，NN控制器408將產生的平均和方差儲存在參數資料庫410中。例如，DNN接收第一BNN系統202的平均和方差和第二BNN系統204的平均和方差作為輸入。DNN輸出第三平均和方差而使得該第三平均和該第三方差定義第三BNN之權重分布的機率分布。

範例參數資料庫410儲存所產生之權重分布的參數。例如，參數資料庫410儲存由資料取樣器406及/或NN控制器408所產生的權重分布。圖4所繪示之範例的範例參數資料庫410係藉由用來儲存資料的任何記憶體、儲存裝置及/或儲存碟片來予以施行，諸如，例如快閃記憶體、磁性媒體、光學媒體、固態記憶體、硬碟驅動器、拇指驅動器、等等。此外，在範例參數資料庫410中所儲存的資料可以用任何的資料格式，諸如，例如二元資料、以逗號分隔的資料(comma delimited data)、以制表符分隔的資料(tab delimited data)、結構化查詢語言(structured query language(SQL))、等等。在所繪示的範例中，雖然範例參數資料庫410被繪示為單一裝置，但是範例參數資料庫410及/或本文中所述之任何其他的資料儲存裝置可以藉由任何數量及/或類型的記憶體來予以施行。

圖5為範例知識共享系統500的示意說明圖。範例知識共享系統500包含範例訓練階段502和範例推論階段504。範例訓練階段502包含範例第一BNN系統506和範例第二BNN系統508。在圖5所繪示的範例中，第一BNN系統506及/或第二BNN系統508可以施行圖1的範例BNN 104及/或NN訓練器102。例如，第一BNN系統506可以施行圖1的NN訓練器102和BNN 104。同樣地，在與第一BNN系統506分離的執行空間中，第二BNN系統508可以施行圖1的NN訓練器102和BNN 104。

在圖5所繪示的範例中，範例第一BNN系統506存取範例第一資料集510和範例第二BNN系統508存取範例第二資料集512。在圖5所繪示的範例中，第一資料集510和第二資料集512對應於MNIST資料。在一些範例中，第一資料集510和第二資料集512係不完整的。亦即，第一資料集510對應於類別0到4且第二資料集512對應於類別5到9。此外或另外，第一資料集510和第二資料集512對應於部分重疊的資料集。例如，第一資料集510對應於類別0到6且第二資料集512對應於類別4到9。範例第一BNN系統506用第一資料集510訓練而產生範例第一輸出514以及範例第二BNN系統508用第二資料集512訓練而產生範例第二輸出516。

範例推論階段504包含範例第一BNN系統506和範例第二BNN系統508。在範例推論階段504中，第一BNN系統506和第二BNN系統508存取範例第三資料集518。在圖5所繪示的範例中，第三資料集518為完整的MNIST資料集。亦即，第三資料集518包含第一資料集510和第二資料集512的資料(例如，類別0到9)。第一BNN系統506存取範例第三資料集518而且產生範例第三輸出520。同樣地，第二BNN系統508存取範例第三資料集518而且產生範例第四輸出522。然而，因為第一BNN系統506和第二BNN系統508係以不完整的資料集(例如，分別以第一資料集510和第二資料集512)來予以訓練的，所以第三輸出420和第四輸出422具有約50%的準確度。

在圖5所繪示的範例中，範例推論階段504包含範例知識共享控制器524。範例知識共享控制器524獲取範例第一輸入526和範例第二輸入528。例如，第一輸入526對應於第一BNN系統506的權重分布以及第二輸入528對應於第二BNN系統508的權重分布。此外或另外，第一輸入526對應於與第一BNN系統506相關聯的第一平均和方差以及第二輸入528對應於與第二BNN系統508相關聯的第二平均和方差。

知識共享控制器524根據第一輸入526和第二輸入528來決定第三權重分布以產生範例第三BNN系統530。因此，第三BNN系統530的權重分布係基於完整資料集(例如，第一資料集510和第二資料集512)的資料而沒有用第三資料集518來訓練。第三BNN系統530存取第三資料集518以及產生範例第五輸出532。因為第三BNN系統530的權重分布係根據第一輸入526和第二輸入528，所以第五輸出532具有比第三輸出520及/或第四輸出522相對更高的準確度(例如，大於50%的準確度)。

圖6為用以施行混合函數之範例知識共享系統600的示意說明圖。範例知識共享系統600包含範例第一BNN系統602和範例第二BNN系統604。例如，第一BNN系統602可施行圖3之第一BNN系統202以及第二BNN系統604可施行圖3之範例第二BNN系統204。第一BNN系統602包含範例神經網路606和範例知識共享控制器608。在一些範例中，神經網路606為BNN。例如，神經網路606可施行圖1之範例BNN 104以及知識共享控制器608可施行圖3之範例知識共享控制器302。

範例神經網路606產生範例參數的第一集合610。例如，神經網路606用資料的第一子集(未繪示出)訓練而產生參數的第一集合610。第一BNN系統602獲取範例參數的第二集合612。在圖6所繪示的範例中，參數的第二集合612係由第二BNN系統604所產生的。例如，第二BNN系統604包含受資料的第二子集(未繪示出)所訓練而產生參數的第二集合612的第二神經網路(未繪示出)。

範例知識共享控制器608獲取參數的第一集合610和參數的第二集合612。然而，範例知識共享控制器608能夠獲取任意數量的參數集合。例如，知識共享控制器608能夠獲取對應於第三BNN系統(未繪示出)之參數的第三集合，及對應於第四BNN系統(未繪示出)之參數的第四集合，等等。範例知識共享控制器608施行用以混合參數的第一集合610和參數的第二集合612的函數。例如，知識共享控制器608在推論期間可以衍生GMM以及取樣該GMM。範例知識共享控制器608及混合函數被進一步參照圖7到圖8而詳細說明於下。

範例知識共享控制器608產生範例參數的第三集合614。參數的第三集合614係基於參數的第一集合610和參數的第二集合612。範例神經網路606獲取參數的第三集合614，並且更新參數的第一集合610。亦即，神經網路606根據參數的第三集合614來調整該等參數(例如，參數的第一集合610)的權重分布。例如，神經網路606用參數的第三集合614來取代參數的第一集合610。因此，神經網路606之更新後的的權重分布係基於用來訓練第二BNN系統604之資料的子集。在一些範例中，神經網路606儲存參數的第三集合614(例如，在圖1的記憶體108中)。

圖7為範例知識共享架構700的示意說明圖。範例知識共享架構700包含範例第一神經網路702、範例第二神經網路704、和範例第三神經網路706。例如，第一神經網路702、第二神經網路704、和第三神經網路706為BNN。在圖7所繪示的範例中，神經網路702、704、706存取相同類型的輸入、產生相同類型的輸出、以及具有相同的內部架構。例如，第一神經網路702係用範例第一資料集708來予以訓練的，第二神經網路704係用範例第二資料集710來予以訓練的，以及第三神經網路706係用範例第三資料集712來予以訓練的。

在本文所揭示的範例中，知識共享控制器(例如，圖3的第一知識共享控制器302及/或第二知識共享控制器304、圖4的知識共享控制器424、圖6的知識共享控制器608、等等)獲取神經網路702、704、706之權重分布的參數以產生範例第四神經網路714。在本文所揭示的範例中，第四神經網路714並未用第一資料集708、第二資料集710、及/或第三資料集712來予以重新訓練。範例知識共享控制器結合神經網路702、704、706的權重以供由第四神經網路714的推論用。例如，如果神經網路702、704、706的權重為常態分布，則第四神經網路714將會是在推論期間所取樣的GMM。此外或另外，知識共享控制器反而使用相同的BNN(例如，神經網路702、704、706)，以及藉由混合神經網路702、704、706的權重來更新權重。在此等範例中，知識共享控制器並不產生第四神經網路714。

在圖7所繪示的範例中，第四神經網路714包括由神經網路702、704、706所獲取之知識而從該等資料集708、710、712中推論。例如，神經網路702、704、706從第一資料集708、第二資料集710、及第三資料集712推論的準確度至多為33%。然而，因為第四神經網路714合併神經網路702、704、706之權重分布的參數，所以第四神經網路714從第一資料集708、第二資料集710、及第三資料集712推論的準確度比神經網路702、704、706的準確度相對地更高。

圖8為範例第一BNN 802和範例第二BNN 804之範例知識共享架構800的示意說明圖。在圖8所繪示的範例中，第一BNN 802的架構係全連接的，而且第二BNN 804的架構為卷積的(convolutional)。在上面所述的範例中，第一BNN和第二BNN(未繪示出)受不完整的資料集所訓練。在一些範例中，第一BNN和第二BNN係全連接的(例如，施行第一BNN 802)。在一些範例中，第一BNN和第二BNN為卷積的(例如，施行第二BNN 804)。例如，使用MNIST資料，第一BNN使用來自類別0到4的資料來予以訓練而且第二BNN使用來自類別5到9的資料來予以訓練。在本文所揭示的範例中，知識共享控制器根據第一BNN和第二BNN的權重分布而產生第三BNN。表1繪示使用完整資料集(例如，類別0到9)之第一、第二、及第三BNN之輸出的近似準確度。

架構	BNN 1	BNN 2	BNN 3
全連接的BNN	47.86	51.10	71.68
卷積的BNN	48.26	51.23	87.37

表 1在表1所繪示的範例中，當用完整的資料集來推論時，針對全連接架構和卷積架構兩者的第一BNN和第二BNN具有約50%的準確度。相反地，相對於第一BNN和第二BNN，當用完整的資料集來推論時，第三BNN具有相對較高的準確度。

圖9為範例知識共享系統900的示意說明圖。範例知識共享系統900包含範例第一BNN 902和範例第二BNN 904。在一些範例中，第一BNN 902用第一資料集來訓練而且第二BNN 904用第二資料集來訓練。例如，資料集可以是MNIST資料，而且第一資料集可以是類別0到4以及第二資料集可以是類別5到9。第一BNN 902產生範例第一輸出906以及第二BNN 904產生範例第二輸出908。在圖9所繪示的範例中，第一輸出906為第一平均及第一方差。例如，第一平均及第一方差定義第一BNN 902之權重分布的機率分布。同樣地，第二輸出908為第二平均及第二方差。例如，第二平均及第二方差定義第二BNN 904之權重分布的機率分布。

範例知識共享系統900包含範例知識共享控制器910。在圖9所繪示的範例中，知識共享控制器910為DNN。知識共享控制器910獲取第一輸出906及第二輸出908。亦即，知識共享控制器910獲取4個輸入(例如，第一平均、第一方差、第二平均、及第二方差)。範例知識共享控制器910根據該4個輸入而產生範例第三輸出912。例如，第三輸出912包含第三平均及第三方差。在圖9所繪示的範例中，知識共享控制器910根據第三輸出912而產生範例第三BNN 914。例如，第三平均及第三方差定義第三BNN 914之權重分布的機率分布。

與第一知識共享系統(例如，圖6的知識共享系統600、圖7的知識共享架構700、及/或圖8的知識共享架構800)對比下，第一BNN 902和第二BNN 904在推論期間並不改變。亦即，知識共享控制器910的DNN用作為第一平均及方差和第二平均及方差的映射以決定第三平均及方差。此外或另外，知識共享控制器910產生範例第三BNN 914。在一些範例中，第三BNN 914的權重分布為高斯分布。在一些範例中，知識共享控制器910對於兩個網路(例如，第一BNN 902和第二BNN 904)上的所有權重使用相同的DNN。

在一些範例中，知識共享系統900的資料集是MNIST資料，而且圖1的NN訓練器102使用來自類別0到4的資料來訓練第一BNN 902。NN訓練器102使用來自類別5到9的資料來訓練第二BNN 904。如上所述，該等BNN 902、904在推論期間用完整資料集(例如，來自類別0到9的資料)的輸出具有約50%的準確度。

知識共享控制器910被訓練來決定第三輸出912(例如，第三平均及第三方差)。在一些範例中，知識共享控制器910可以使用包含，例如基因演算法之任何機器學習訓練方法來予以訓練。例如，知識共享控制器910產生初始群體(population)(例如，決定多個不同全連接的權重)。範例知識共享控制器910產生第三BNN 914來評估初始群體之全連接的權重而且用作為合適度函數(fitness function)。範例知識共享控制器910交叉及/或變異(mutation)應用於初始群體而產生第二代。範例知識共享控制器910決定觀察到之第二代的合適度並且將觀察到的合適度與合適度閾值做比較。例如，合適度閾值可以是55%、60%、等等。如果觀察到的合適度並不滿足合適度閾值，則知識共享控制器910產生額外的一代(例如，第三代、第四代、等等)。在一些範例中，如果觀察到的合適度低於合適度閾值，則知識共享控制器910產生額外的一代，閾值數量的代已經被產生、等等。

在一些範例中，第三BNN 914具有50%的驗證。例如，知識共享控制器910可學習捨棄來自第一BNN 902的權重以及保持來自第二BNN 904的權重。因此，合適度函數能夠被修改來定義到更高的驗證準確度(例如，大於合適度閾值的驗證準確度)以及到知識共享控制器910之平均及方差的輸出之相對更高的重要性。例如，合適度能夠由範例方程式1來予以定義。

在方程式1中，α為超參數且β(例如., μ ₃, σ ₃, μ ₁, σ ₁,)為輸入分布(例如., μ ₁, σ ₁, μ ₂, σ ₂,)與輸出分布(例如., μ ₃, σ ₃)之間的海林格距離(Hellinger distance)。例如，μ為權重分布的平均且σ為權重分布的方差。亦即，該項β(例如., μ ₃, σ ₃, μ ₁, σ ₁,)決定知識共享控制器910的輸入與輸出的機率密度函數(PDF)之間的差值。然而，知識共享控制器910可使用任何其他適合的技術來決定合適度。在一些範例中，第三BNN 914的準確度在26代之後增加到67.02% 。

雖然施行圖3之第一知識共享控制器302及/或第二知識共享控制器304的範例方式被繪示於圖4中，圖4中所繪示之元件、過程及/或裝置的一或多個可以用任何其他方式來加以組合、劃分、重新排列、省略、去除及/或施行。此外，範例資料存取器402、範例函數產生器404、範例資料取樣器406、範例NN控制器408、範例參數資料庫410，及/或，更一般而言，圖3的範例第一知識共享控制器302及/或範例第二知識共享控制器304可以藉由硬體、軟體、韌體及/或硬體、軟體及/或韌體的任何組合來予以施行。因此，舉例來說，範例資料存取器402、範例函數產生器404、範例資料取樣器406、範例NN控制器408、範例參數資料庫410，及/或，更一般而言，圖3的範例第一知識共享控制器302及/或範例第二知識共享控制器304能夠藉由一個或更多個類比或數位電路、邏輯電路、可編程處理器、可編程控制器、圖形處理單元(GPU)、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、可編程邏輯裝置(PLD)及/或現場可編程邏輯裝置(FPLD)來予以施行。當讀取此專利之設備或系統請求項的任一者以涵蓋純粹軟體及/或韌體實作時，範例資料存取器402、範例函數產生器404、範例資料取樣器406、範例NN控制器408、範例參數資料庫410中的至少一者在此被明確地定義成包含非暫態性電腦可讀儲存裝置或儲存碟片，諸如包含軟體及/或韌體的記憶體、數位多功能碟片(DVD)、光碟(CD)、藍光碟片、等等。此外，除了圖4中所繪示的那些之外，或者代替圖4中所繪示的那些，圖3之範例第一知識共享控制器302及/或範例第二知識共享控制器304可包含一個或更多個元件、程序、及/或裝置，及/或可包含多於一個之所繪示元件、程序、及/或裝置的任一者或全部。如同本文中所使用的，語詞「在通訊上」，包含其變型，包括經由一個或更多個中介組件的直接通訊及/或間接通訊，而且不需要直接實體的(例如，有線)通訊及/或恆定的通訊，反而額外地包含以週期性間隔、預定間隔、非週期性間隔、及/或一次性事件的選擇性通訊。

代表用以施行圖3之第一知識共享控制器302及/或第二知識共享控制器304的範例硬體邏輯、機器可讀指令、硬體施行的狀態機器、及/或其任意組合的流程圖被顯示於圖10至12中。機器可讀指令可以是一個或更多個可執行程式或者可執行程式的部分，以供由電腦處理器及/或處理器電路的執行，諸如下面配合圖13所討論之範例處理器平台1300中所顯示的處理器1312。程式可以用儲存在非暫態性電腦可讀儲存媒體上的軟體來加以具體化，諸如CD-ROM、軟碟、硬碟機、DVD、藍光碟片、或與處理器1312相關聯的記憶體，但是其整個程式及/或部件能夠替換地由與處理器1312不同的裝置來執行及/或具體化於韌體或專用的硬體中。此外，雖然範例程式係參照圖10至12中所繪示之流程圖來予以說明，但是施行範例第一知識共享控制器302及/或範例第二知識共享控制器304的許多其他方法可以被替換地使用。例如，該等方塊之執行的順序可以被改變，及/或所述之方塊的部分可以被改變、去除、或組合。此外或另外，該等方塊中的任一或全部可以藉由被結構化來實施對應的操作而不需執行軟體或韌體的一個或更多個硬體電路(例如，分離及/或整合的類比及/或數位電路、FPGA、ASIC、比較器、運算放大器(op-amp)、邏輯電路等等)來予以施行。處理器電路可以被分散於不同的網路位置及/或在一個或更多個裝置的附近(例如，單一機器中的多核心處理器、分散在伺服器機架上的多個處理器、等等)。

在本文中所述的機器可讀指令可以被儲存在壓縮格式、加密格式、分段格式、編譯格式、可執行格式、封裝格式、等等中的一或多者中。在本文中所述的機器可讀指令可以被儲存作為可被利用來創建、製造、及/或產生機器可執行指令的資料或資料結構(例如，指令的部分、碼、碼的表示、等)。例如，機器可讀指令可被分段並且儲存在位於一網路或網路的收集(例如，在雲端中、在邊緣裝置中、等等)之相同或不同位置處的一個或更多個儲存裝置及/或計算裝置(例如，伺服器)上。機器可讀指令可能需要安裝、修改、適應、更新、組合、補充、組構、解碼、解壓縮、拆開、分配、重新指派、編譯、等等中的一或多者，以便讓他們可以由計算裝置及/或其他機器直接讀取、解譯、及/或執行。例如，機器可讀指令可以被儲存成多個部位，其可以被個別地壓縮、編碼、及儲存在分開的計算裝置上，其中，該等部位當被解碼、解壓縮、及組合時構成一組施行一個或更多個功能的可執行指令，而該一個或更多個功能一起構成一程式，如同在本文中所述的。

在另一範例中，機器可讀指令可以被儲存在一狀態中，在該狀態中，他們可以被處理器電路讀取，但是需要程式庫(例如，動態連結程式庫(dynamic link library(DLL))、軟體開發套件(software development kit(SDK))、應用程式介面(application programming interface(API))等等的添加，以便執行特別的計算裝置或其他裝置上的指令。在另一範例中，機器可讀指令可能需要被組構(例如，設定被儲存、資料被輸入、網路位址被紀錄等等)於機器可讀指令及/或對應的程式能夠被整體或部分地執行之前。因此，機器可讀媒體，如同在本文中所使用的，可包含機器可讀指令及/或程式，不管該等機器可讀指令及/或程式當其被儲存或者在休息或在傳輸中時的特別格式或狀態。

在本文中所述的機器可讀指令能夠由任何過去、現在、或未來的教學語言、腳本語言、編程語言、等等來代表。例如，機器可讀指令可以使用下面的語言之任一者來代表：C、C++、爪哇(Java)、C#、Perl、Python、JavaScript、超文件標示語言(HyperText Markup Language(HTML))、結構化查詢語言(Structured Query Language(SQL))、Swift、等等。

如上所述，圖10至12的範例過程可以針對任何期間(例如，針對延長時間期間、永久性地，簡單的例子，用於資訊的暫時性緩衝、及/或快取)，使用儲存在非暫態性電腦及/或機器可讀媒體上之可執行指令(例如，電腦及/或機器可讀指令)來予以施行，諸如硬碟機、快閃記憶體、唯讀記憶體、光碟、數位多功能光碟片、快取記憶體、隨機存取記憶體及/或其中儲存有資訊之任何其他儲存裝置或儲存碟片。如同在本文中所使用的，術語非暫態性電腦可讀媒體被明確地定義成包含任何類型的電腦可讀儲存裝置及/或儲存碟片並且排除傳播訊號以及排除傳輸媒體。

「包含(including)」和「包括(comprising)」(以及其所有的時態)在本文中被用作為開放式用語(open ended terms)。因此，每當請求項使用「包含」或「包括」的任一型式(例如，comprises, includes, comprising, including, having等等)作為前言或者在任何種類的請求項敘述之內，要瞭解到額外的元件、品項、等等可以出現而不會落在對應之請求項或敘述的範圍之外。如同在本文中所使用的，當語詞「至少(at least)」例如在請求項的前言中被用作為轉折用語(transition terms)時，其和用語「包含」和「包括」係開放式用語相同的形式為開放式的。用語「及/或」當被使用時，例如，在諸如A、B、及/或C的形式中，係指A、B、C的任意組合或子集，諸如，(1) 單獨A、(2) 單獨B、(3) 單獨C、(4) A和B、(5) A和C、(6) B和C、以及(7) A和B和C。如同在本文中所使用的，在描述結構、組件、品項、物件及/或東西的上下文中，語詞「A和B的至少一者」想要指的是包含(1) 至少一個A、(2) 至少一個B、以及(3) 至少一個A和至少一個B中之任一者的施行。同樣地，如同在本文中所使用的，在描述結構、組件、品項、物件及/或東西的上下文中，語詞「A或B的至少一者」想要指的是包含(1) 至少一個A、(2) 至少一個B、以及(3) 至少一個A和至少一個B中之任一者的施行。如同在本文中所使用的，在描述過程、指令、動作、活動及/或步驟之性能或執行的上下文中，語詞「A和B的至少一者」想要指的是包含(1) 至少一個A、(2) 至少一個B、以及(3) 至少一個A和至少一個B中之任一者的施行。同樣地，如同在本文中所使用的，在描述過程、指令、動作、活動及/或步驟之性能或執行的上下文中，語詞「A或B的至少一者」想要指的是包含(1) 至少一個A、(2) 至少一個B、以及(3) 至少一個A和至少一個B中之任一者的施行。

如同在本文中所使用的，單數參考(例如，「一(a)」、「一(an)」、「第一(first)」、「第二(second)」、等等)不排除複數。用語「一(a)」或「一(an)」實體，如同在本文中所使用的，係指該實體中的一或多個。用語「一(a)」(或「一(an)」)、「一或多個」、以及「至少一個」在本文中能夠互換。此外，雖然被個別地表列出，但是複數個機構、元件或方法動作可以藉由，例如，單一單元或處理器來予以施行。此外，雖然個別的特徵可以被包含在不同的範例或請求項中，但是這些有可能被組合而且在不同的範例或請求項中的內含並不隱含特徵的組合並不可行及/或有利的。

圖10為代表範例機器可讀指令1000的流程圖，範例機器可讀指令1000可以被執行來施行圖3及/或圖4的範例第一知識共享控制器302及/或範例第二知識共享控制器304以促進知識共享。雖然指令1000係配合圖2的範例第一BNN系統202來做說明的，但是指令1000可以配合包含知識共享控制器之任何類型的神經網路中之任何BNN系統來做說明。

圖10的範例機器可讀指令開始於方塊1002，在方塊1002，範例NN訓練器102(圖1)決定輸入資料是否被接收到。例如，NN訓練器102決定訓練資料(例如，MINIST資料等等)是否被接收到。如果範例NN訓練器102決定輸入資料未被接收到(例如，方塊1002返回否(NO)的結果)，則指令返回到方塊1002。如果範例NN訓練器102決定輸入資料被接收到(例如，方塊1002返回是(YES)的結果)，則範例NN訓練器102訓練BNN(方塊1004)。例如，NN訓練器102用第一資料子集210來訓練第一BNN系統202(圖2)。同樣地，NN訓練器102可以用第二資料子集212來訓練第二BNN系統204(圖2)。

範例資料存取器402獲取權重分布(方塊1006)。例如，資料存取器402獲取第一BNN系統202和第二BNN系統204之權重分布。範例第一知識共享控制器302產生混合的權重分布(方塊1008)。例如，第一知識共享控制器302施行混合函數以混合第一BNN系統202的第一權重分布和第二BNN系統204。混合函數參照圖11而被進一步詳細說明於下。此外或另外，第一知識共享控制器302根據輸入平均及方差來訓練DNN以產生平均及方差。DNN參照圖12而被進一步詳細說明於下。

範例第一知識共享控制器302根據混合的權重分布而產生額外的BNN(方塊1010)。例如，第一知識共享控制器302根據由資料取樣器406(圖4)所決定之混合的權重分布而產生額外的BNN。此外或另外，第一知識共享控制器302根據由DNN所決定之產生的平均及方差而產生額外的BNN。

圖11為代表範例機器可讀指令1100的流程圖，範例機器可讀指令1100可以被執行來施行圖3及/或圖4的範例第一知識共享控制器302及/或範例第二知識共享控制器304以混合權重分布。範例函數產生器404將一機率指派給類別(方塊1102)。例如，函數產生器404(圖4)決定將均勻的機率指派給每一個BNN，而機率和由每一個BNN所觀察到的類別成比例，等等。

範例資料取樣器406(圖4)取樣該等BNN的權重分布(方塊1104)。例如，資料取樣器406產生介於0與1之間的隨機數以及取樣對應於該隨機數的BNN。範例資料取樣器406根據取樣的權重分布而產生額外之權重分布的參數(方塊1106)。控制返回到圖10之指令1000的方塊1010。

圖12為代表範例機器可讀指令1200的流程圖，範例機器可讀指令1200可以被執行來施行圖4的範例NN控制器408以訓練DNN供知識共享用。範例NN控制器408訓練DNN(方塊1202)。例如，NN控制器408使用基因演算法來訓練DNN。範例NN控制器408獲取平均和方差(方塊1204)。例如，範例NN控制器408獲取BNN之集成的平均和方差。範例NN控制器408產生額外的平均和方差(方塊1206)。例如，NN控制器408將該BNN之集成的平均和方差輸入到所訓練的DNN之內。該DNN產生額外的平均和方差。控制返回到圖10之指令1000的方塊1010。

圖13為代表範例處理器平台1300的方塊圖，範例處理器平台1300被結構化來執行圖10至12之指令以施行圖3的範例第一知識共享控制器302及/或範例第二知識共享控制器304。處理器平台1300能夠是，例如伺服器、個人電腦、工作站、自我學習機器(例如，神經網路)、移動性裝置(例如，手機、智慧型電話、諸如iPad ^TM的平板電腦)、個人數位助理(PDA)、網際網路設備(Internet appliance)、DVD播放器、CD播放器、數位視訊錄影機、藍光播放器、遊戲機(gaming console)、個人視訊錄影機、視訊盒、耳機或其他可穿戴式裝置、或者任何其他類型的計算裝置。

所繪示之範例的處理器平台1300包含處理器1312。所繪示之範例的處理器1312為硬體。例如，處理器1312能夠藉由一個或更多個積體電路、邏輯電路、微處理器、GPU、DSP、或來自任意所期望之家人或製造商的控制器來予以施行。硬體處理器可以是基於半導體(例如，基於矽)的裝置。在此範例中，該處理器施行範例資料存取器402、範例函數產生器404、範例資料取樣器406、及範例NN控制器408。

所繪示之範例的處理器1312包含本地記憶體1313(例如，快取記憶體)。所繪示之範例的處理器1312經由匯流排1318而與包含揮發性記憶體1314及非揮發性記憶體1316的主記憶體相通訊。揮發性記憶體1314可藉由同步動態隨機存取記憶體(SDRAM)、動態隨機存取記憶體(DRAM)、RAMBUS®動態隨機存取記憶體(RDRAM®)及/或任何其他類型的隨機存取記憶體裝置來予以施行。非揮發性記憶體1316可藉由快閃記憶體及/或任何其他期望類型的記憶體裝置來予以施行。對主記憶體1314、1316的存取係由記憶體控制器來予以控制的。

所繪示之範例的處理器平台1300也包含介面電路1320。介面電路1320可藉由任何類型的介面標準來予以施行，諸如乙太介面、通用序列匯流排(USB)、藍芽(Bluetooth®)介面、近場通訊(NFC)介面、及/或PCI快速介面。

在所繪示之範例中，一個或更多個輸入裝置1322被連接至介面電路1320。輸入裝置1322允許用戶將資料及/或命令輸入處理器1312內。輸入裝置可藉由，例如音頻感測器、麥克風、相機(靜態或視頻)、鍵盤、按鈕、滑鼠、觸控螢幕、軌跡板、軌跡球、等電點(isopoint)及/或語音識別系統施行。

一個或更多個輸出裝置1324也被連接至所繪示之範例的介面電路1320。輸出裝置1024能夠藉由，例如顯示裝置(例如，發光二極體(LED)、有機發光二極體(OLED)、液晶顯示器(LCD)、陰極射線管顯示器(CRT)、就地切換(in-place switching(ISP))顯示器、觸控螢幕、等等)、觸覺(tactile)輸出裝置、印表機及/或揚聲器施行。因此，所繪示之範例的介面電路1320典型上包含圖形驅動器卡、圖形驅動器晶片、及/或圖形驅動器處理器。

所繪示之範例的介面電路1320也包含通訊裝置，諸如發射器、接收器、收發器、調變解調器、住宅閘道器、無線存取點、及/或網路介面以促進經由網路1326與外部機器(例如，任何種類的計算裝置)的資料交換。通訊能夠是經由，例如，乙太網路連接、數位用戶線(DSL)連接、電話線連接、同軸纜線系統、衛星系統、視線(line-of-site)無線系統、蜂巢式電話系統、等等。

所繪示之範例的處理器平台1300也包含用以儲存軟體及/或資料的一個或更多個大量儲存裝置1328。此等大量儲存裝置1328的範例包含軟碟驅動器、硬碟驅動器、光碟驅動器、藍光(Blu-ray)碟片驅動器、獨立冗餘磁碟陣列(redundant array of independent disks(RAID))系統、以及數位多功能碟片(DVD)驅動器。

圖10至12的機器可執行指令1332可以被儲存在大量儲存裝置1328、在揮發性記憶體1314中、在非揮發性記憶體1316中、及/或在諸如CD或DVD之可抽取是非暫態性電腦可讀儲存媒體上。

繪示範例軟體分配平台1405以將諸如圖13之範例電腦可讀指令1332的軟體分配到第三方之方塊圖係繪示於圖14中。範例軟體分配平台1405可藉由能夠將軟體儲存及發送至其他計算裝置的任何電腦伺服器、資料設施、雲端服務等等來予以施行。第三方可以是擁有及/或操作該軟體分配平台之實體的客戶。例如，擁有及/或操作該軟體分配平台之實體可以是開發商、賣方、及/或諸如圖13之範例電腦可讀指令1332之軟體的授權人。第三方可以是購買及/或許可軟體使用及/或轉售及/或再許可的消費者、用戶、零售商、原始設備製造商(OEM)等等。在所繪示之範例中，軟體分配平台1405包含一個或更多個伺服器和一個或更多個儲存裝置。儲存裝置儲存電腦可讀指令1332，其可對應於圖10至12之範例機器可讀指令1332，如上所述。範例軟體分配平台1405的一個或更多個伺服器係與網路1410相通訊，網路1410可對應於網際網路及/或上述範例網路1336之任一者中的一或多個。在一些範例中，該一個或更多個伺服器回應請求而將軟體傳送至請求方作為商業交易的部分。軟體之運送、銷售及/或許可的支付可以由軟體分配平台之該一個或更多個伺服器及/或經由第三方支付實體來處理。該等伺服器致使購買者及/或許可人能夠從軟體分配平台1405下載電腦可讀指令1332。例如，可對應於圖10之範例電腦可讀指令1000的軟體可以被下載至範例處理器平台1300，其係用以執行電腦可讀指令1332來施行範例第一知識共享控制器302及/或範例第二知識共享控制器304。在一些範例中，軟體分配平台1405的一個或更多個伺服器周期性地提供、發送、及/或迫使對軟體(例如，圖13之範例電腦可讀指令1332)的更新以確保改進、修補、更新等等被分配及應用到終端用戶裝置的軟體。

從上述，將領會到範例方法、設備、和製造物件已經被揭示促進神經網路間的高效率知識共享。例如，知識共享控制器獲取權重分布及/或用不完整資料集所訓練之貝葉斯神經網路之權重分布的平均和方差。範例知識共享控制器混合所獲取的權重分布及/或平均和方差來產生額外的貝葉斯神經網路。該額外的貝葉斯神經網路係與比初始訓練之貝葉斯神經網路相對更高之推論期間的準確度相關聯。所揭示之方法、設備、和製造物件藉由縮減記憶體(例如，在訓練資料未被儲存之前)和計算時間(例如，額外的BNN並未用完整的資料集來予以訓練)來改善使用計算裝置的效率。所揭示之方法、設備、和製造物件因此係有關電腦之運作上的一或多個改進。

促進神經網路間高效率知識共享的範例方法、設備、系統、和製造物件被揭示於本文中。此外，範例及其組合包含下述：

範例1包含一種促進神經網路間知識共享的設備，該設備包括：訓練器，用以；在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；以及在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及知識共享控制器，用以根據該第一權重分布和該第二權重分布而產生第三BNN。

範例2包含範例1之設備，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。

範例3包含範例1之設備，其中，該知識共享控制器為與該第一BNN相關聯的第一知識共享控制器，而且另包含與該第二BNN相關聯的第二知識共享控制器。

範例4包含範例3之設備，其中，該第一知識共享控制器係用以將該第二權重分布與該第一權重分布相混合，以及該第二知識共享控制器係用以將該第一權重分布與該第二權重分布相混合。

範例5包含範例3之設備，其中，該第一知識共享控制器和該第二知識共享控制器為高斯混合模型。

範例6包含範例1之設備，其中，該知識共享控制器係使用確定性神經網路來予以施行的。

範例7包含範例6之設備，其中，該知識共享控制器係用以存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。

範例8包含範例7之設備，其中，該知識共享控制器係用以產生與該第三BNN相關聯的第三平均及第三方差。

範例9包含範例8之設備，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。

範例10包含一種包括指令的至少一個非暫態性電腦可讀媒體，該等指令當被執行時致使至少一個處理器至少用以：在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及根據該第一權重分布和該第二權重分布而產生第三BNN。

範例11包含範例10之至少一個非暫態性電腦可讀媒體，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。

範例12包含範例10之至少一個非暫態性電腦可讀媒體，其中，該至少一個處理器為與該第一BNN相關聯的第一處理器，而且另包含與該第二BNN相關聯的第二處理器。

範例13包含範例12之至少一個非暫態性電腦可讀媒體，其中，該等指令當被執行時致使該第一處理器將該第二權重分布與該第一權重分布相混合，以及致使該第二處理器將該第一權重分布與該第二權重分布相混合。

範例14包含範例12之至少一個非暫態性電腦可讀媒體，其中，該第一處理器和該第二處理器係使用高斯混合模型來予以施行的。

範例15包含範例10之至少一個非暫態性電腦可讀媒體，其中，該至少一個處理器係使用確定性神經網路來予以施行的。

範例16包含範例15之至少一個非暫態性電腦可讀媒體，其中，該等指令當被執行時致使該至少一個處理器存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。

範例17包含範例16之至少一個非暫態性電腦可讀媒體，其中，該等指令當被執行時致使該至少一個處理器產生與該第三BNN相關聯的第三平均及第三方差。

範例18包含範例17之至少一個非暫態性電腦可讀媒體，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。

範例19包含一種促進神經網路間知識共享的設備，該設備包括至少一個儲存裝置，以及至少一個處理器用以：在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及根據該第一權重分布和該第二權重分布而產生第三BNN。

範例20包含範例19之設備，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。

範例21包含範例19之設備，其中，該至少一個處理器為與該第一BNN相關聯的第一處理器，而且另包含與該第二BNN相關聯的第二處理器。

範例22包含範例21之設備，其中，該第一處理器係用以將該第二權重分布與該第一權重分布相混合，以及該第二處理器係用以將該第一權重分布與該第二權重分布相混合。

範例23包含範例21之設備，其中，該第一處理器和該第二處理器為高斯混合模型。

範例24包含範例19之設備，其中，該至少一個處理器係使用確定性神經網路來予以施行的。

範例25包含範例24之設備，其中，該至少一個處理器係用以存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。

範例26包含範例25之設備，其中，該至少一個處理器係用以產生與該第三BNN相關聯的第三平均及第三方差。

範例27包含範例26之設備，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。

範例28包含一種促進神經網路間知識共享的方法，該方法包括：在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及根據該第一權重分布和該第二權重分布而產生第三BNN。

範例29包含範例28之方法，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。

範例30包含範例28之方法，其中，另包含將該第二權重分布與該第一權重分布相混合，以及將該第一權重分布與該第二權重分布相混合。

範例31包含範例30之方法，其中，該第三BNN係使用高斯混合模型來予以產生的。

範例32包含範例28之方法，其中，該第三BNN係使用確定性神經網路來予以產生的。

範例33包含範例32之方法，其中，另包含存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。

範例34包含範例33之方法，其中，另包含產生與該第三BNN相關聯的第三平均及第三方差。

範例35包含範例34之方法，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。

範例36包含一種促進神經網路間知識共享的設備，該設備包括：訓練機構，用以；在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；以及在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及知識共享機構，用以根據該第一權重分布和該第二權重分布而產生第三BNN。

範例37包含範例36之設備，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。

範例38包含範例36之設備，其中，該知識共享機構為與該第一BNN相關聯的第一知識共享機構，而且另包含與該第二BNN相關聯的第二知識共享機構。

範例39包含範例38之設備，其中，該第一知識共享機構係用以將該第二權重分布與該第一權重分布相混合，以及該第二知識共享機構係用以將該第一權重分布與該第二權重分布相混合。

範例40包含範例38之設備，其中，該第一知識共享機構和該第二知識共享機構為高斯混合模型。

範例41包含範例36之設備，其中，該知識共享機構係使用確定性神經網路來予以施行的。

範例42包含範例41之設備，其中，該知識共享機構係用以存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。

範例43包含範例42之設備，其中，該知識共享機構係用以產生與該第三BNN相關聯的第三平均及第三方差。

範例44包含範例43之設備，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。

儘管某些方法、設備和製造物件以經被揭示於本文中，但是本專利之涵蓋的範圍並不限於此。相反地，本專利涵蓋完全落在本專利之申請專利範圍的範疇之內的所有方法、設備和製造物件。

下面的申請專利範圍在此被併入於本發明的實施方式中，而每一項請求項自身而成立為本發明之分開的實施例。

102:神經網路(NN)訓練器 104:貝葉斯神經網路(BNN) 108:記憶體 110:神經元 200:範例環境 202:第一BNN系統 204:第二BNN系統 206:網路 208:資料集 210:資料的第一子集 212:資料的第二子集 302:知識共享控制器 304:知識共享控制器 402:資料存取器 404:函數產生器 406:資料取樣器 408:NN控制器 410:參數資料庫 500:知識共享系統 502:訓練階段 504:推論階段 506:第一BNN系統 508:第二BNN系統 510:第一資料集 512:第二資料集 514:第一輸出 516:第二輸出 518:第三資料集 520:第三輸出 522:第四輸出 524:知識共享控制器 526:第一輸入 528:第二輸入 530:第三BNN系統 532:第五輸出 600:知識共享系統 602:第一BNN系統 604:第二BNN系統 606:神經網路 608:知識共享控制器 610:參數的第一子集 612:參數的第二子集 614:參數的第三子集 700:知識共享架構 702:第一神經網路 704:第二神經網路 706:第三神經網路 708:第一資料集 710:第二資料集 712:第三資料集 714:第四神經網路 800:知識共享架構 802:第一BNN 804:第二BNN 900:知識共享系統 902:第一BNN 904:第二BNN 906:第一輸出 908:第二輸出 910:知識共享控制器 912:第三輸出 914:第三BNN 1300:處理器平台 1312:處理器 1313:本地記憶體 1314:揮發性記憶體 1316:非揮發性記憶體 1318:匯流排 1320:介面電路 1322:輸入裝置 1324:輸出裝置 1326:網路 1328:大量儲存裝置 1332:編碼指令 1405:軟體分布平台 1410:網路

[圖1]係範例貝葉斯(Bayesian)神經網路的示意繪示圖。

[圖2]繪示包含範例第一BNN系統及範例第二BNN系統的範例環境。

[圖3]繪示圖2的環境200，其中，第一BNN系統包含範例第一知識共享控制器且第二BNN系統包含範例第二知識共享控制器以根據本發明的教示促進知識共享。

[圖4]係圖3之範例第一知識共享控制器及/或範例第二知識共享控制器的示意說明圖。

[圖5]係範例知識共享系統的示意說明圖。

[圖6]係用以施行混合函數之範例知識共享系統的示意說明圖。

[圖7]係範例知識共享架構的示意說明圖。

[圖8]係範例第一BNN和範例第二BNN之範例知識共享架構的示意說明圖。

[圖9]係施行深度神經網路之範例知識共享系統的示意說明圖。

[圖10]係代表範例機器可讀指令的流程圖，範例機器可讀指令可以被執行來施行圖4的範例知識共享控制器以促進知識共享。

[圖11]係代表範例機器可讀指令的流程圖，範例機器可讀指令可以被執行來施行圖4的範例知識共享控制器以混合權重分布。

[圖12]係代表範例機器可讀指令的流程圖，範例機器可讀指令可以被執行來施行圖4的範例知識共享控制器以訓練深度神經網路供知識共享用。

[圖13]係代表範例處理器平台的方塊圖，範例處理器平台被結構化來執行圖10至12之指令以施行範例知識共享控制器。

[圖14]係範例軟體分配平台用以將軟體(例如，對應於圖10至12之範例電腦可讀指令的軟體)分配到諸如消費者(例如，針對許可、銷售及/或使用)、零售商(例如，針對銷售、轉售、許可、及/或再許可)、及/或原始設備製造商(OEM)(例如，針對包含在要被分配給，例如零售商及/或直接購買的客戶之產品中)之客戶裝置的方塊圖。

圖形並未按比例繪製。一般而言，相同的參考數字將被使用於所有的圖式及隨附的書面說明中來指示相同或類似的部件。

除非另有特別的陳述，否則諸如「第一」、「第二」、「第三」等等的描述符號被使用於本文中，但沒有輸入或指示於列表中之優先順序、物理次序、排列，及/或以任何方式的排序的意義，而是僅被用作為標籤及/或任意的名稱來區別元件以便於了解所揭示的範例。在一些範例中，描述符號「第一」可以被用來指詳細說明中的一元件，而同一個元件在申請專利範圍中可以用不同的描述符號提及，諸如「第二」或「第三」。在這樣的例子中，應該了解到此等描述符號僅被用來識別那些可能，例如，共享相同名稱的不同元件。如同本文中所使用的，「實際上即時」指的是在認知到對於計算時間、傳輸、等等而言可能有真實世界的延遲下，以近乎瞬時的方式發生。因此，除非另外指明，否則「實際上即時」即指真實的時間+/-1秒。

102:神經網路(NN)訓練器

104:貝葉斯神經網路(BNN)

108:記憶體

110:神經元

Claims

一種促進神經網路間知識共享的設備，該設備包括：訓練器，用以；在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；以及在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及知識共享控制器，用以根據該第一權重分布和該第二權重分布而產生第三BNN。
如請求項1之設備，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。
如請求項1之設備，其中，該知識共享控制器為與該第一BNN相關聯的第一知識共享控制器，而且另包含與該第二BNN相關聯的第二知識共享控制器。
如請求項3之設備，其中，該第一知識共享控制器係用以將該第二權重分布與該第一權重分布相混合，以及該第二知識共享控制器係用以將該第一權重分布與該第二權重分布相混合。
如請求項3之設備，其中，該第一知識共享控制器和該第二知識共享控制器為高斯混合模型。
如請求項1之設備，其中，該知識共享控制器係使用確定性神經網路來予以施行的。
如請求項6之設備，其中，該知識共享控制器係用以存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。
如請求項6或7中任一項之設備，其中，該知識共享控制器係用以產生與該第三BNN相關聯的第三平均及第三方差。
如請求項6至8項之設備，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。
一種包括指令的至少一個電腦可讀媒體，該等指令當被執行時致使至少一個處理器至少用以：在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及根據該第一權重分布和該第二權重分布而產生第三BNN。
如請求項10之至少一個電腦可讀媒體，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。
如請求項10之至少一個電腦可讀媒體，其中，該至少一個處理器為與該第一BNN相關聯的第一處理器，而且另包含與該第二BNN相關聯的第二處理器。
如請求項12之至少一個電腦可讀媒體，其中，該等指令當被執行時致使該第一處理器將該第二權重分布與該第一權重分布相混合，以及致使該第二處理器將該第一權重分布與該第二權重分布相混合。
如請求項12之至少一個電腦可讀媒體，其中，該第一處理器和該第二處理器係使用高斯混合模型來予以施行的。
如請求項10之至少一個電腦可讀媒體，其中，該至少一個處理器係使用確定性神經網路來予以施行的。
如請求項15之至少一個電腦可讀媒體，其中，該等指令當被執行時致使該至少一個處理器存取與該第一BNN相關聯的第一平均及第一方差，以及與該第二BNN相關聯的第二平均及第二方差。
如請求項15或16之至少一個電腦可讀媒體，其中，該等指令當被執行時致使該至少一個處理器產生與該第三BNN相關聯的第三平均及第三方差。
如請求項15至17中任一項之至少一個電腦可讀媒體，其中，該第三BNN係與第三權重分布相關聯，該第三權重分布具有被表示為高斯分布的權重。
一種促進神經網路間知識共享的設備，該設備包括：訓練機構，用以；在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；以及在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及知識共享機構，用以根據該第一權重分布和該第二權重分布而產生第三BNN。
如請求項19之設備，其中，該訓練資料的該第一子集和該訓練資料的該第二子集係互斥的。
如請求項19之設備，其中，該知識共享機構為與該第一BNN相關聯的第一知識共享機構，而且另包含與該第二BNN相關聯的第二知識共享機構。
如請求項21之設備，其中，該第一知識共享機構係用以將該第二權重分布與該第一權重分布相混合，以及該第二知識共享機構係用以將該第一權重分布與該第二權重分布相混合。
如請求項21之設備，其中，該第一知識共享機構和該第二知識共享機構為高斯混合模型。
如請求項19之設備，其中，該知識共享機構係使用確定性神經網路來予以施行的。
一種促進神經網路間知識共享的方法，該方法包括：在第一計算系統處，用訓練資料的第一子集來訓練第一貝葉斯神經網路(BNN)以產生第一權重分布；在第二計算系統處，用該訓練資料的第二子集來訓練第二BNN以產生第二權重分布，該訓練資料的該第二子集係不同於該訓練資料的該第一子集；以及根據該第一權重分布和該第二權重分布而產生第三BNN。