TWI827792B

TWI827792B - 多路徑神經網路、資源配置的方法及多路徑神經網路分析器

Info

Publication number: TWI827792B
Application number: TW109102329A
Authority: TW
Inventors: 貝赫納姆普格哈希米; 李周桓; 奇亮奭
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2019-01-23
Filing date: 2020-01-22
Publication date: 2024-01-01
Also published as: KR20200091789A; US11620510B2; US20200234115A1; US20200234146A1; CN111476344A; KR20200091790A; TW202029064A; US11687771B2; JP2020119564A

Abstract

本發明提供一種多路徑神經網路、資源配置的方法及多路徑神經網路分析器。所述資源配置的方法可使用包含介面和處理裝置的多路徑神經網路分析器來最優地分配到多路徑神經網路。介面接收多路徑神經網路。處理裝置生成多路徑神經網路，以包含通過多路徑神經網路的關鍵路徑的一或多個層，所述一或多個層分配有可用以執行多路徑神經網路的第一計算資源配置。關鍵路徑限制多路徑神經網路的輸送量。第一計算資源配置將多路徑神經網路的執行時間減少到小於用於多路徑神經網路的第二計算資源配置的基線執行時間。用於關鍵路徑的第一層的第一計算資源配置不同於用於關鍵路徑的第一層的第二計算資源配置。

Description

多路徑神經網路、資源配置的方法及多路徑神經網路分析器

[相關申請的交叉參考]

本申請要求2019年1月23日申請的美國臨時申請第62/796,071號的優先權，所述臨時申請的揭露內容以全文引用的方式併入本文中。此外，本申請與美國專利申請序號(代理人案號第1535-479號)並行申請，所述美國專利申請的揭露內容以全文引用的方式併入本文中。

本文中所揭露的主題涉及神經網路。更具體地說，本文中所揭露的主題涉及用於在多路徑神經網路的不同路徑中將計算資源配置到不同層的系統和方法。

典型的圖形處理單元(graphic processing unit；GPU)平臺並不允許GPU操作的並存執行。為在典型GPU上並行地啟動多個操作，每一操作必須指派給單獨執行器，也就是說，統一計算架構(Compute Unified Device Architecture；CUDA)程式化模型中的單獨串流。然而，針對大部分風行GPU內核並行地運行兩個或大於兩個GPU內核是幾乎不可能的。風行內核佔據所有GPU核心資源(包含暫存器和共用記憶體)且並未允許GPU調度程式執行來自同一核心上的另一內核的區塊。當前的GPU平臺依賴于用於調度安排的多個區塊，且另一GPU操作的並存執行可僅在區塊的數目低時為可能的。由於大部分GPU內核通常具有足夠的區塊數以佔據所有可用的GPU核心，另一GPU內核的執行被推遲直到第一內核完成之後為止，引起兩個操作的依序執行。因此，當前的GPU平臺利用用於個別層(內核)的裝置(例如GPU)核心的100%，進而阻止獨立內核的並存執行。

與當前GPU平臺相關的另一薄弱環節是低效資源利用率。雖然GPU內核可針對在特定輸入和GPU微架構上的性能優化，但計算效率和DRAM利用率並未針對用於一些輸入的多種GPU演算法充分優化。舉例來說，一些卷積(主要是通用矩陣乘法(General Matrix Multiplication，GEMM)類)的執行時間在有限數目的核心的情況下飽和，且在額外的核心上執行卷積引起核心的利用率不足。通過並行地運行多個操作，在一個GPU操作中利用率不足的資源可用於考慮演算法、輸入資料、資料佈局以及微架構的另一GPU操作。

與當前GPU平臺相關的另一薄弱環節為現有的GPU平臺按照GPU裝置如何接收操作的順序依序執行操作，將此優先化以減少較早請求操作的延遲。此調度方法可增加針對多個應用的GPU操作的平均延遲。舉例來說，如果花費大量的時間來完成的GPU操作在花費較少的時間來完成的另一GPU操作到達之前到達GPU裝置，那麼第二次GPU操作的延遲(或回應時間)變得不必要的過長。

與當前GPU平臺相關的又一薄弱環節是當前GPU平臺並未針對具有多個路徑的工作負荷優化。GPU工作負荷可形成定向非循環圖表(directed acyclic graph；DAG)，其中每一節點表示操作且從節點A到節點B的定向邊緣表示在節點A與節點B之間的輸入-輸出依賴性；也就是說，節點B必須在節點A之後執行。近年來，具有多路徑計算圖的GPU工作負荷已變得普遍。多路徑工作負荷可能從由單個使用者、由共用GPU平臺的多個使用者或由具有多個路徑的單個GPU應用啟動的不同GPU應用出現。多路徑神經網路為具有多個路徑的單個GPU應用的實例。

多路徑神經網路在機器學習(the machine learning；ML)領域中通過作為現實世界ML問題的較好表示已獲得大量關注。通常，針對平行的神經網路路徑，將存在可稱為限制總體神經網路的輸送量的關鍵路徑的一個路徑。通過神經網路的訊號串流可以表徵為通過一連串的依賴層的訊號串流。通常，當執行神經網路時，以依序反覆運算執行層，其中給定層的輸入取決於在序列中的立即前一層的輸出。

當前深度學習框架並未配置成基於在不同路徑或運行的不同路徑的內核之間的資源配置，優化多路徑神經網路的執行。如果需要執行內核的總體工作空間記憶體比執行神經網路的裝置上的可用記憶體大，則低效記憶體分配可能阻止多路徑神經網路的內核的並存執行。在多路徑神經網路的關鍵路徑中的低效計算資源配置可能不利地影響總體神經網路的輸送量。

實例實施例提供多路徑神經網路，所述多路徑神經網路可包含通過多路徑神經網路的兩個或大於兩個路徑，其中第一路徑可包含一或多個層。第一路徑可為通過多路徑神經網路的限制多路徑神經網路的輸送量的關鍵路徑。關鍵路徑的第一層可分配有能夠執行多路徑神經網路的第一計算資源配置。第一計算資源配置將多路徑神經網路的執行時間減少到小於用於多路徑神經網路的第二計算資源配置的基線執行時間。用於第一層的第一計算資源配置可不同於用於第一層的第二計算資源配置。在一個實施例中，可在執行多路徑神經網路之前分配用於第一層的第一計算資源配置。在另一實施例中，可在執行多路徑神經網路期間分配用於第一層的第一計算資源配置。

實例實施例提供將資源配置到多路徑神經網路的層的方法，所述方法可包含：基於將能夠執行多路徑神經網路的計算資源配置到多路徑神經網路的第一計算資源配置確定用於多路徑神經網路的基線執行時間，所述多路徑神經網路包括通過多路徑神經網路的兩個或大於兩個路徑；反覆運算地確定通過用於兩個或大於兩個路徑的一或多個第二計算資源配置的所述兩個或大於兩個路徑的執行時間，每一第二計算資源配置不同於第一計算資源配置；以及識別第一路徑中的用於第一層的第二計算資源配置，所述第二計算資源配置提供用於多路徑神經網路的小於用於多路徑神經網路的總體基線執行時間的總體執行時間。

實例實施例提供可包含介面和處理裝置的多路徑神經網路分析器。介面可能接收多路徑神經網路，所述多路徑神經網路可包含通過多路徑神經網路的兩個或大於兩個路徑且兩個或大於兩個路徑的第一路徑可包含一或多個層。處理裝置可能生成多路徑神經網路，以包含通過多路徑神經網路的關鍵路徑的一或多個層，所述一層或多個層分配有能夠執行多路徑神經網路的第一計算資源配置。關鍵路徑可限制多路徑神經網路的輸送量。第一計算資源配置可將多路徑神經網路的執行時間減少到小於用於多路徑神經網路的第二計算資源配置的基線執行時間。用於關鍵路徑的第一層的第一計算資源配置可不同於用於關鍵路徑的第一層的第二計算資源配置。

100:多路徑神經網路分析器

101:多路徑神經網路

102、103、104、106、109:步驟

105:裝置資源約束

107:成本模型

108:調度程式

201、202:內核

300:多路徑神經網路

301、302、503、504:路徑

303:輸入端

304:決策區塊

401、402:資料串流

500:層

501、502:窗口

600:示範性結構

601:處理器

602:記憶元件

603:系統匯流排

604:本機記憶體

605:大型儲存裝置

606:鍵盤

607:顯示裝置

608:指向裝置

609:網路介面卡

610:作業系統

611:應用程式

612:平臺

613:通訊鏈路

614:神經網路加速器

在以下部分中，將參考圖中所示出的示範性實施例來描述本文中所揭露的主題的方面，其中：圖1描繪根據本文中所揭露的主題的優化多路徑神經網路的不同路徑中計算資源到不同層的分配或分區的多路徑神經網路分析器的功能框圖。

圖2A描繪根據本文中所揭露的主題的具有四個核心的處理單元，如GPU，在所述核心上已例如使用修改的內核啟動函數並行地調度多個GPU操作。

圖2B描繪根據本文中所揭露的主題的在已使用修改的內核啟動函數啟動第二內核之後的GPU。

圖3描繪在輸入端與決策區塊之間具有兩個路徑的實例多路徑神經網路。

圖4A描繪通過多路徑神經網路的兩個實例路徑的部分的相對基線執行時間和序列。

圖4B描繪用於卷積層已經被分配4.5吉位元組(GB)的兩個路徑的相對執行時間和序列。

圖4C描繪用於卷積層已經被分配記憶體的4.0GB的兩個路徑的相對執行時間和序列。

圖5描繪根據本文中所揭露的主題的層的視窗類資源配置分析的實例。

圖6描繪根據本文中所揭露的主題的用於可用於實現圖1的多路徑神經網路分析器的資料處理系統的示範性架構的框圖。

在以下詳細描述中，闡述許多特定細節以便提供對本揭露的透徹理解。然而，本領域的技術人員應理解，可在不具有這些特定細節的情況下實踐所揭露的方面。在其它情況下，未詳細描述眾所周知的方法、步驟、元件以及電路，以避免混淆本文中所揭露的主題。

參考本說明書的“一個實施例”或“一實施例”是指結合實施例所描述的特定特徵、結構或特性可包含在本文中所揭露的至少一個實施例中。因此，在貫穿本說明書的不同位置中出現的短語“在一個實施例中”或“在一實施例中”或“根據一個實施例”(或具有相似意義的其它短語)可能未必全部指代同一實施例。此外，在一或多個實施例中，特定特徵、結構或特性可以任何適合的方式組合。就這一點而言，如本文所使用的，詞語“示範性”是指“用作實施例、實例或說明”。本文中描述為“示範性”的任何實施例不應理解為必定比其它實施例優選或有利。此外，在一或多個實施例中，特定特徵、結構或特性可以任何適合的方式組合。此外，取決於本文中的論述的上下文，單數術語可包含相應的複數形式，且複數術語可包含相應的單數形式。類似地，加連字號的術語(例如“二維(two-dimensional)”、“預定(pre-determined)”、“圖元特定(pixel-specific)”等)可間或互換地與相應的未加連字號版本(例如“二維(two dimensional)”、“預定(predetermined)”、“圖元特定(pixel specific)”等)一起使用，且大寫條目(例如“計數器時脈(Counter Clock)”、“列選擇(Row Select)”、“PIXOUT”等)可互換地與相應的非大寫版本(例如“計數器時脈(counter clock)”、“列選擇(row select)”、“pixout”等)一起使用。此類偶然的可互換使用不應視為彼此不一致。

此外，取決於本文中的論述的上下文，單數術語可包含相應的複數形式，且複數術語可包含相應的單數形式。還應注意，本文中所繪示且論述的各種圖式(包含元件圖式)僅出於說明性目的，且未按比例繪製。類似地，僅出於說明性目的繪示各種波形和時序圖。舉例來說，為了清晰起見，可相對於其它元件放大一些元件的尺寸。此外，如果認為適當，那麼在圖式中重複附圖標號，以指示相應的和/或類似的元件。

本文中所使用的術語僅出於描述一些實例實施例的目的，而不意圖限制所要求保護的主題。如本文中所使用，除非上下文另作明確指示，否則單數形式“一(a/an)”和“所述(the)”也意圖包含複數形式。更應理解，術語“包括(comprises和/或comprising)”在本說明書中使用時，指定存在所述特徵、整數、步驟、操作、元件和/或元件，但是不排除存在或一個或多個其他特徵、整數、步驟、操作、元件、元件和/或其群組的添加。如本文中所使用，除非如此明確定義，否則術語“第一”、“第二”等用作在其之前的名詞標籤，且不會暗示任何類型的次序(例如空間、時間、邏輯等)。此外，可以在兩個或更多個附圖上使用相同的附圖標記來指代具有相同或相似功能的部件、元件、區塊、電路、單元或模組。然而，此類使用僅出於說明的簡潔和易於論述；其並不暗示此類元件或單元的構造或架構細節在所有實施例中都相同，或此類共同參考部件/模組是實現本文中所揭露的實例實施例中的一些的唯一方式。

應理解，當元件或層稱為在另一元件或層“上”、“連接到”另一元件或層或“耦接到”另一元件或層時，所述元件或層可以直接在另一元件或層上、直接連接到另一元件或層或耦接到另一元件或層，或可能存在中間元件或層。相比之下，當元件稱為“直接”在另一元件或層“上”、“直接連接到”另一元件或層或“直接耦接到”另一元件或層時，不存在中間元件或層。全文中，相同的標記表示相同的元件。如本文所使用的，術語“和/或”包括一個或多個相關聯的所列專案的任何和所有組合。

如本文中所使用，除非如此明確定義，否則術語“第一”、“第二”等用作在其之前的名詞標籤，且不會暗示任何類型的次序(例如空間、時間、邏輯等)。此外，可以在兩個或更多個附圖上使用相同的附圖標記來指代具有相同或相似功能的部件、元件、區塊、電路、單元或模組。然而，此類使用僅出於說明的簡潔和易於論述；其並不暗示此類元件或單元的構造或架構細節在所有實施例中都相同，或此類共同參考部件/模組是實現本文中所揭露的實例實施例中的一些的唯一方式。

除非另外定義，否則本文中所使用的所有術語(包含技術術語和科學術語)具有與本揭露主題所屬的領域的技術人員通常所理解相同的含義。更應理解，術語(如常用詞典中所定義的那些術語)應解釋為具有與其在相關技術的上下文中的含義相一致的含義，且除非明確地如此定義，否則將不在理想化或過度正式的意義上進行解釋。

如本文中所使用，術語“模組”是指軟體、韌體和/或硬體的任何組合，所述組合被配置以結合模組提供本文中所描述的功能。軟體可實施為套裝軟體、代碼和/或指令集或指令，且如在本文中所描述的任一實現中所使用的術語“硬體”可例如單獨或以任何組合包含固線式電路、可程式化電路、狀態機電路和/或儲存由可程式化電路執行的指令的韌體。模組可共同或單獨地實施為形成較大系統的部分的電路，所述電路例如但不限於積體電路(integrated circuit；IC)、系統單晶片(system on-chip；SoC)等。本文中所揭露的各種元件和/或功能區塊可實施為可包含軟體、韌體和/或硬體的模組，所述模組結合各種元件和/或功能區塊提供本文中所描述的功能。

本文中所揭露的主題涉及用於有效分配或分區在單個GPU裝置上並行地執行的內核之間的計算資源的系統和方法。本文中所揭露的系統可能通過核心分配和/或核心再分配來調度單個GPU裝置上的多個GPU操作的並行和/或同步執行。系統的應用程式化發展介面(application programming interface；API)允許用戶選擇將並行地調度的GPU操作且為平行作業分配計算資源。

本文中所揭露的系統和方法可用于分配計算資源以優化多路徑神經網路的性能。在一個實施例中，可對多路徑神經網路的不同路徑中的不同層啟用並存執行。可基於因果資源分佈技術提供多路徑神經網路應用的自動優化。在一個實施例中，因果資源分佈技術可能提供多路徑神經網路的自動性能優化。可基於計算資源與受計算資源的分配水準影響的神經網路中的層的執行時間之間的關係來識別最優資源配置。

此外，因果資源分佈可基於通過多路徑神經網路的關鍵路徑和計算資源與此計算資源相關的執行時間之間的關係。成本模型範本可以用於性能分析，且一或多種啟發法可用於減少分析的複雜性以確定最優資源配置。此外，多路徑神經網路應用的執行調度可使用因果資源分佈技術優化。

本文中所揭露的資源配置技術可在多路徑神經網路的層之間分配計算資源以提高總體神經網路的性能結果。可基於對於多路徑神經網路的層的資源利用率的修改來分析網路性能，且如果性能分析指示基於特定計算資源配置的性能改進，那麼可更新或重新配置個別層的資源利用率。

本文中所揭露的主題提供可在內核之間對計算資源進行分區的程式化介面。與當前GPU平臺不同，所述當前GPU平臺對於並存執行具有有限的程式化器支持且依賴於執行以用於確定內核的GPU核心的數目的執行緒區塊的數目，本文中所揭露的主題提供程式化介面，其中程式化器可定義並存執行的GPU操作和針對平行作業的資源配置。

可通過本文中所揭露的系統和方法支援靜態資源配置和動態資源配置兩者。對於靜態配置，資源可在執行應用程式之前指派給個別層。對於動態分配，可在運行時期間指派資源以基於網路變化(如在拓樸、輸入、批量大小等的變化)提供靈活性。

圖1描繪根據本文中所揭露的主題的優化多路徑神經網路的不同路徑中計算資源到不同層的分配或分區的多路徑神經網路分析器100的功能框圖。在一個實例實施例中，分析器100可實現為執行適合的軟體的資料處理系統。分析器100可接收多路徑神經網路101作為使用可用於分析器100的計算資源執行的輸入。多路徑神經網路101可為全精度訓練神經網路。替代地，多路徑神經網路101可為訓練的神經網路。分析器100可使用因果資源分佈分析多路徑神經網路101的不同路徑中的不同層，且確定計算資源的最優分配或分區以使得多路徑神經網路101在最少量的時間內執行或運行。

在一個實施例中，分析器100可在執行多路徑神經網路之前生成用於多路徑神經網路的一或多個路徑的一或多個層的優化的計算資源配置。在神經網路運行時接著使用優化的計算資源配置。在另一實施例中，分析器100可優化定義用於與神經網路相關的多路徑神經網路的一或多個路徑的一或多個層的計算資源的參數，以使得當神經網路在計算裝置上產生實體時，執行神經網路的優化配置。在又一實施例中，分析器100可在多路徑神經網路的執行期間動態更新用於多路徑神經網路的一或多個路徑的一或多個層的計算資源配置，以基於網路變化(如在拓樸、輸入、批量大小等的變化)提供靈活性。

最初在圖1中的步驟102處，分析器100將相應串流指派到具有一或多個依序依賴層的神經網路101的不同路徑。在步驟103處，分析器100生成基線資源配置狀態。此外，可生成視窗或分組大小以減少執行用於不同的計算資源配置的因果資源分佈的複雜性，如結合圖5所描述。在步驟104處，分析器100可執行不同計算資源配置的性能分析以確定最優計算資源配置。可從用戶輸入接收在可用的計算資源上設置約束和/或束縛的裝置資源約束105。可在神經網路101處接收多路徑神經網路之前從使用者接收資源約束105。性能分析還可使用在步驟103生成的視窗或分組大小。可通過刪減或丟棄可能無法提供最優性能解決方案的計算資源配置在步驟106處減少分析的不同計算資源配置的數目。可在性能分析期間使用成本模型107。

調度程式108可模擬分析的不同層和路徑的部分和/或分析的神經網路101的總體輸送量性能。在步驟109處，由於針對不同層和/或路徑確定較好的計算資源配置，且針對神經網路101確定較好的調度分配，分析器100用較好的分配更新在步驟103處的層的基線資源配置，並且在神經網路101運行時將使用較好的調度分配。

在操作中，分析器100通過應用程式化發展介面(API)接收裝置資源約束105，所述應用程式化發展介面允許用戶在可用以執行多路徑神經網路的計算資源上選擇性地設定約束。在一個實施例中，針對運行處理單元上的多路徑神經網路的路徑的一或多個內核，使用者可選擇處理單元或計算單元的核心的最小數目和/或最大數目。表1闡述可在開放運算語言(Open Computing Language；OpenCL)程式化框架中使用的修改內核啟動函數的實例，所述框架可提供資源約束，如根據本文中所揭露的主題的可用於內核的最小數目和最大數目的核心。可修改clEnqueueNDRangeKernel內核啟動命令以包含例如兩個額外變數參數：“min_cores”變數參數和“max_cores”變數參數。特定而言，將“const cl_uint min_cores”變數參數和“const cl_uint max_cores”變數參數添加到OpenCL框架的clEnqueueNDRangeKernel內核啟動命令。設定變數參數的兩個額外參數呈現在clEnqueueNDRangeKernel內核啟動命令的變數參數清單的末端處。

“min_cores”變數參數可用于定義在與其它內核一起運行時用於內核的處理單元的最小數目的核心，並且“max_cores”變數參數可用于定義在單獨運行時用於內核的處理單元的最大數目的核心。用戶可定義將用於內核的多個核心，而不管內核的執行緒區塊的數目。

圖2A描繪根據本文中所揭露的主題的具有四個核心1到核心4的處理單元，如GPU，在其上已例如使用修改的內核啟動函數並行地調度多個GPU操作。最初，修改的內核啟動函數用以將內核201的最小核心/最大核心變數參數設定為2/3。對於此實例，內核201可具有在GPU核心1到核心4上執行的12個執行緒區塊，所述執行緒區塊分佈如圖2A中所描繪分佈在核心1到核心3上。

可將第二內核202配置為將最小核心/最大核心變數參數設定為2/4。如圖2B中所描繪，當在GPU裝置上啟動內核202時，GPU調度程式(未繪示)執行執行緒區塊遷移，以使得基於用於先前執行的內核201和新近執行的內核202兩者的最小/最大變數參數，將先前分配在核心3上的內核201的執行緒區塊遷移到核心1和核心2。在這種情況下，兩個內核具有最小核心變數參數2，所述變數參數將設定兩個GPU核心的最小值以運行內核201和內核202中的每一個。不同的核心1到核心4可運行不同數目的執行緒區塊。此外，可不同地分配圖2A和圖2B中描繪的特定核心。

基於由使用者輸入的裝置約束105，分析器100可使用因果資源分佈以確定最優計算資源配置或分區來執行多路徑神經網路101。在一個實施例中，可以在通過多路徑神經網路101的關鍵路徑上執行因果資源分佈以識別計算資源配置的變化如何影響例如通過關鍵路徑的執行時間。因果資源分佈還可用於識別多路徑神經網路的不同路徑中的計算資源配置的變化可如何影響神經網路的總體執行時間。

圖3描繪在輸入端303與決策區塊304之間具有兩個路徑301和路徑302的實例多路徑神經網路300。路徑301可包含五個依序依賴層、且路徑302可包含四個依序依賴層。針對圖3中所描繪的實例神經網路300，路徑302為通過神經網路300的關鍵路徑，所述關鍵路徑限制神經網路300的總體輸送量。也就是說，沿著路徑302的計算和處理比沿著路徑301的計算和處理花費更長的時間完成。因果資源分佈最初可基於基線計算資源配置確定通過關鍵路徑302的基線執行時間。還可基於基線計算資源配置確定通過神經網路300的其它路徑中的每一個的基線執行時間。計算資源配置可根據關鍵路徑中的不同層改變，以確定計算資源配置的變化如何影響關鍵路徑的執行時間。

因果資源分佈涉及在資源配置與執行時間之間的映射，這是由於神經網路的層的執行時間取決於資源配置。舉例來說，關鍵路徑302中的特定函數(即，層)的20%加速可潛在地將多路徑神經網路應用300的總體執行時間改善(即，減少)5%。

可延伸因果資源分佈以還分析多路徑神經網路的其它路徑，以確定改變分配到多路徑神經網路的各個路徑的不同層的計算資源可如何改變與關鍵路徑相關的執行時間。針對神經網路的特定層分配較少裝置核心可增加所述層的執行時間，但可有利地釋放計算資源以用於有利地減少另一路徑中的另一層的執行時間。

在一個實施例中，可運行多個模擬以基於對神經網路的不同層和路徑的不同計算資源配置確定多路徑神經網路的性能。可基於不同計算資源配置的神經網路的估計執行時間確定最優的資源配置。

圖4A描繪通過多路徑神經網路的兩個實例路徑的一部分的相對基線執行時間和序列。第一資料串流401通過表示通過多路徑神經網路的第一路徑的一系列層(函數)(即，最大池化 (Maxpool)層和全連接(fully connected；FC))執行。第二資料串流402通過表示通過神經網路的第二路徑的一系列層(即，卷積層和整流線性單元(rectified linear unit；ReLu)層)執行。儘管兩個路徑都不被識別為關鍵路徑，但圖4A描繪上部路徑完成執行花費的時間(虛線)比下部路徑更長。

圖4A中的層或函數中的每一個包含已經分配到層的函數的指示記憶體計算資源。舉例來說，最大池化層已經被分配1GB的記憶體。FC層已經被分配0.5GB。卷積層已經被分配5GB，且ReLu層已經被分配1GB。考慮可將最大值5GB的記憶體分配到任一路徑中的任一層的這個實例。因此，圖4A中描繪的記憶體分配不會導致兩個路徑中的任一個中的層與卷積層並存執行，這是因為所有可用的5GB的記憶體已經分配到卷積層。

圖4B描繪用於卷積層已經被分配4.5GB的兩個路徑的相對執行時間和序列。通過將分配到下部路徑(串流402)中的卷積層的記憶體的量從基線分配(圖4A)減少10%，上部路徑(串流401)中的FC層可與卷積層同時執行。還可減少多路徑神經網路(即，兩個路徑)的總體執行時間(虛線)，因為現在FC層可與卷積層並存執行，因為0.5GB的記憶體可用以執行FC層。

圖4C描繪用於卷積層已經被分配4.0GB的記憶體的兩個路徑的相對執行時間和序列。通過將分配到下部路徑(串流402)中的卷積層的記憶體的量從基線(圖4A)減少20%，上部路徑(串流401)中的最大池化層可與下部路徑中的卷積層並存執行。此外，在最大池化層完成時，上部路徑中的FC層可與卷積層並存執行。在卷積層完成時，下部路徑中的ReLu層可與FC層並存執行。多路徑神經網路(即，兩個路徑)的總體執行時間(虛線)可通過減少對卷積層的記憶體的分配來進一步減少。儘管在圖4B和圖4C的描繪中沒有特別繪示，卷積層可基於減少的記憶體分配花費略長的時間來執行，但用於兩個路徑的總體執行時間可明顯減少。對卷積層的記憶體分配的實例減少可靜態地應用於神經網路，以使得多路徑神經網路的每一後續產生實體在總體上減少的執行時間的情況下運行。替代地，可動態地確定記憶體分配的實例減少，並將所述實例減少應用於神經網路的當前產生實體以考慮網路變化，如拓樸、輸入、批量大小等的變化。

成本模型可用於神經網路中的常用層的因果資源分佈，所述模型將每一層的執行時間與計算資源利用率關聯。在因果資源分佈期間可考慮的計算資源可包含裝置計算單元、記憶體空間以及記憶體頻寬。對於CPU的計算單元，可考慮核心的數目。對於GPU計算單元，可考慮串流式多處理器(streaming multiprocessors；SM)的數目。對於現場可程式化閘陣列(Field Programmable Gate Array；FPGA)，可考慮FPGA的區域。資源配置的單元可通常為離散值(例如，用於層的不同實現的核心數、記憶體/工作空間)。

可以用於多路徑神經網路的因果資源分佈性能分析的一個定義可如下。針對多路徑神經網路的輸入，k個執行串流分別輸入到多路徑神經網路的k個路徑中。針對每一對應的s串流，存在n _s依序依賴層l。針對路徑中的每一層l，存在m _l個不同的實現。每一實現具有執行時間t _ml,k和用於利用率的資源集合{Wr|r

資源}。定義的目的是找到使多路徑神經網路的總體執行時間最小化的所有層的平行調度和實現，如在等式(1)中。

其中K是總層數，w _r,l是資源r乘以層l的利用率，M _r是可用於多路徑神經網路的執行的最大的可用資源層r，且如果層l在時間t時執行，那麼α _l,t為1，並且如果不在所述時間執行，那麼為0。

數種啟發法可用於減少資源配置的複雜性。舉例來說，可刪減搜索空間。舉例來說，如果此處存在用於這個層的另一實現j，那麼可刪減用於層l的實現，其中t _i>t _j和

r

資源，w _r,i>w _r,j。還可刪減具有相對長的執行時間的實現。舉例來說，如果t _k>β×最小{t_i|i

層L實現}，那麼可刪減用於層L的實現k，因為即使這種實現可提供相對較小的資源利用率，長時間運行的實現也不大可能為最優解決方案的一部分。

減少資源配置的複雜性的另一技術可以是使用層的視窗類資源配置。也就是說，可基於網路的每一路徑和深度中的層的平均或標稱執行時間形成的層的視窗或分組。每一串流或層的窗口大小可包含可調諧參數。可控制視窗以沿著多路徑神經網路路徑滑動，並且可以執行視窗內部的層的性能分析以找到最優資源配置。

圖5描繪根據本文中所揭露的主題的層500的視窗類資源配置分析的實例。如圖5中所描繪，可定義和使用第一視窗501以執行在多路徑神經網路的第一路徑503和第二路徑504的層之間的因果資源分佈分析。可類似地定義第二視窗502來執行在第一路徑503和第二路徑504的層之間的另一因果資源分佈分析。每一串流的執行時間可在同一視窗內盡可能匹配，以完全實現並存執行。

圖6描繪用於資料處理系統的示範性架構600的框圖。在一個實施例中，架構600可用於實現圖1的分析器100。在另一實施例中，架構600可用於實現分析器100，且運行由分析器100提供的優化的多路徑神經網路。

架構600包含至少一個處理器，例如中央處理單元(central processing unit；CPU)601，所述處理器601通過系統匯流排603或其它適合的電路耦接到記憶元件602。架構600可在記憶元件602內儲存程式碼。處理器601可執行經由系統匯流排603從記憶元件602存取的程式碼。因此，處理器601可充當專用處理器。記憶元件602可包含一或多個物理記憶體裝置，如但不限於本機記憶體604和一或多個大型儲存裝置605。本機記憶體604可為在程式碼的實際執行期間通常所使用的隨機存取記憶體(random access memory；RAM)或其它非永久性的記憶體裝置。大型儲存裝置605實現為硬碟驅動器(hard disk drive；HDD)、固態驅動器(solid-state drive；SSD)和/或其它永久性資料儲存裝置。架構600還可包含一或多個高速緩衝記憶體(未繪示)，所述記憶體提供至少一些程式碼的臨時記憶體，以便減少在執行期間必須從大型儲存裝置605檢索程式碼的次數。

架構600還可包含輸入/輸出(input/output；I/O)裝置，如鍵盤606、顯示裝置607和/或可任選地耦接到架構600的指向裝置608。在一些實施例中，I/O裝置中的一或多個可組合成在用作顯示裝置607的觸控式螢幕中。這種顯示裝置607還可包含鍵盤606和指向裝置608。一或多個網路介面卡609也可耦接到架構600，以使得架構600能夠通過中間私有或公共網路耦合到其它系統、電腦系統、遠端印表機和/或遠端存放裝置。數據機、纜線數據機、乙太網(Ethernet)卡以及無線收發器是可與架構600一起使用的不同類型的網路介面卡的非限制性實例。取決於使用架構600實現的特定裝置，特定類型的一或多個網路介面卡可視具體情況而改變。I/O裝置可以直接或通過中間I/O控制器耦接到架構600上。

如圖6中所描繪，記憶元件602可儲存作業系統610和應用程式611。在一個方面中，以可執行的程式碼的形式實現的作業系統610和應用程式611可通過架構600執行。因此，作業系統610和應用程式611可視為架構600的整合部分。作業系統610、應用程式611以及通過架構600所使用、生成和/或操作後的任何資料項目可為功能資料結構，當用作使用架構600實現的系統的部分時，所述功能資料結構賦予功能。

在一個佈置中，應用程式611可包含一或多個模組，當由系統使用架構600或相似於架構600的架構執行時，所述模組可執行本文中參考圖1到圖5所描述的各種操作和功能。一或多個模組可包含結合各種元件和/或功能區塊提供本文中所描述的功能的軟體、韌體和/或硬體。

在另一佈置中，架構600可通過通訊鏈路613耦合到平臺612。在一個實例中，架構600可通過網路介面卡609耦合到平臺612。在另一實例中，架構600可包含一或多個其它I/O裝置，如通用序列匯流排(Universal Serial Bus；USB)介面或其它通訊連接埠，所述其它I/O裝置或其它通訊連接埠可用於將架構600耦合到平臺612。平臺612可為電路板且具有耦合到其上的神經網路加速器614。在一個佈置中，神經網路加速器614可實現為積體電路(IC)或多個IC。舉例來說，神經網路加速器614可實現為一或多個可程式化IC，如現場可程式化閘陣列、一或多個專用IC(application-specific IC；ASIC)等。

架構600可配置以在多路徑神經網路上執行本文中所描述的操作，以將計算資源配置到多路徑神經網路的不同路徑中的不同層，如圖1中的多路徑神經網路101。也就是說，架構600可通過I/O裝置接收多路徑神經網路101，在多路徑神經網路的一或多個層上操作，並且根據本文中所揭露的主題輸出用於多路徑神經網路的優化的計算資源配置。架構600可進一步將優化的多路徑神經網路101的定義提供給神經網路加速器614以用於在其中執行。

圖6僅出於說明的目的提供，且因此不打算作為本文中所描述的發明性佈置的限制。在一些情況下，使用架構600實現的特定系統可包含比繪示的元件少或多的元件。此外，作為架構600的部分包含的特定作業系統和/或應用程式可改變。

如本領域的技術人員將認識到，可通過廣泛範圍的應用程式修改和改變本文中所描述的創新概念。因此，所要求保護的主題的範圍不應限於上文所論述的特定示範性教示中的任一種，但相反，應由以下權利要求來定義。