TW202341064A

TW202341064A - 基於重疊窗口稀疏化神經網路模型的向量

Info

Publication number: TW202341064A
Application number: TW112109088A
Authority: TW
Inventors: 吉里什威西努瓦拉卡; 安基特摩爾; 比塔達菲奇魯哈尼; 馬特烏斯Ｃ海迪斯; 古瑞阿格拉瓦爾
Original assignee: 美商微軟技術授權有限責任公司
Priority date: 2022-04-14
Filing date: 2023-03-13
Publication date: 2023-10-16
Also published as: WO2023200509A1

Abstract

本揭露案的實施例包括用於基於重疊窗口來稀疏化神經網路模型的向量的系統和方法。使用窗口選擇要素向量中的第一要素集合。從該第一要素集合中選擇具有最高絕對值的第一要素。使該窗口沿該向量滑動達定義數量的要素。使用該窗口選擇該向量中的第二要素集合，其中該第一要素集合和該第二要素集合共享至少一個共用要素。從該第二要素集合中選擇具有最高絕對值的第二要素。

Description

基於重疊窗口稀疏化神經網路模型的向量

本申請主張於2022年4月14日提交的名稱為「Overiapped Window Sparsity Pattern Selection」的美國臨時申請第63/331,188號的權益和優先權，該美國臨時申請的全部內容出於所有目的而全文以引用方式併入本文。

本揭露案係關於計算硬體。更特定言之，本揭露案係關於用於稀疏化神經網路參數和/或啟動的技術。

神經網路是一種機器學習模型，其用於各種不同的應用（例如，圖像分類、電腦視覺、自然語言處理、語音識別、書寫識別等）。神經網路可以藉由經由神經網路運行資料集，將來自神經網路的結果與已知結果進行比較，並基於差異更新該網路來針對特定目的進行訓練。

無

在以下描述中，出於解釋的目的，闡述了許多實例和特定細節，以便提供對本揭露案的透徹理解。此類實例和細節不應被解釋為不恰當地限制申請專利範圍的要素或作為整體的所主張的標的。基於不同請求項的語言，對於本領域技藝人士而言將顯而易見的是，所主張保護的標的可以單獨或組合地包括該等實例中的一些或所有特徵，並且可以進一步包括本文所述的特徵和技術的修改和等同物。

本文描述了基於重疊窗口稀疏化神經網路模型的向量的技術。在一些實施例中，神經網路模型包括以向量和/或矩陣的形式佈置的大量參數。該等向量和/或矩陣可以使用重疊窗口技術進行稀疏化。例如，神經網路模型可以包括權重值向量和啟動值向量。為了稀疏化該等向量中的任何一者（或兩者），使用具有定義的長度的窗口來選擇向量中的要素子集。接下來，從選定的要素子集中選擇具有最高絕對值的要素。將窗口在向量上滑動達定義數量的要素。然後，重複該過程（例如，選擇向量中的要素子集，從所選要素子集中選擇具有最高絕對值的要素，以及使窗口在向量上滑動）直到窗口已經移動過整個向量。將未選擇的要素修改成定義值（例如，零）。

與習知的稀疏化神經網路參數的方法相比，本申請中描述的技術提供了許多益處和優勢。首先，與具有類似準確度位準的習知向量稀疏化方法相比，使用重疊窗口從向量中選擇非零要素的向量稀疏化技術可以使用更少的資源（例如，計算硬體、記憶體等）來實施。其次，對於給定量的硬體，基於重疊窗口的向量稀疏化技術比在相同給定數量的硬體上實施的習知向量稀疏化方法提供更好的準確度。

第1圖圖示了根據一些實施例的示例性神經網路模型100。如圖所示，神經網路模型100包括輸入層105、隱藏層110和外層115。輸入層105包括兩個節點120和125。節點120和125中的每一者被配置為接收輸入資料並將該輸入資料發送到隱藏層110中的節點中的每個節點。對於該實例，節點120接收輸入資料130並將該輸入資料發送到節點140至150中的每個節點。節點125接收輸入資料135並將該輸入資料發送到節點140至150中的每個節點。

如第1圖所描繪，隱藏層110包括三個節點140至150。節點140至150中的每個節點從節點120和125中的每個節點接收資料，該資料包括特定權重值乘以對應輸入資料的值。在此實例中，節點140所接收的資料包括輸入資料130乘以權重值W ₁和輸入資料135乘以權重值W ₂。類似地，節點145所接收的資料包括輸入資料130乘以權重值W ₃和輸入資料135乘以權重值W ₄。節點150所接收的資料包括輸入資料130乘以權重值W ₅和輸入資料135乘以權重值W ₆。節點140至150中的每個節點都被配置為將啟動函數應用於所接收到的輸入之和，並且基於啟動函數產生輸出，該輸出被發送到節點155和160中的每個節點。

如圖所示，外層115包括節點155和160。節點155和160中的每個節點從節點140至150中的每個節點接收資料，該資料包括特定權重值乘以節點140至150中的一個節點所產生的對應輸出的值。在此，節點155所接收的資料包括由節點140產生的輸出乘以權重值W ₇、由節點145產生的輸出乘以權重值W ₉，以及由節點150產生的輸出乘以權重值W ₁₁。類似地，節點160所接收的資料包括由節點140產生的輸出乘以權重值W ₈、由節點145產生的輸出乘以權重值W ₁₀，以及由節點150產生的輸出乘以權重值W ₁₂。節點155和160中的每個節點將啟動函數應用於所接收到的輸入之和，並且基於啟動函數產生輸出。如圖所示，節點155基於其所接收到的輸入之和產生輸出165，而節點160基於其所接收到的輸入之和產生輸出170。

在一些實施例中，神經網路模型100中的計算可以使用值向量來實施。特別地，節點140至150的輸入可以藉由將輸入資料130和135的向量乘以權重值W ₁至W ₆的向量來產生。此外，節點155和160的輸入可以藉由將由節點140至150產生的啟動函數輸出的向量乘以權重值W ₇至W ₁₂的向量來產生。在一些實施例中，本文所述的稀疏化技術可應用於以下中的一者：權重值向量、啟動輸出向量、權重值向量和啟動輸出向量中的每一者，或其任何組合。

第2A圖至第2E圖圖示了根據一些實施例的稀疏化向量200的實例。特別地，該實例演示了如何使用重疊窗口方法來稀疏化向量200。如第2A圖所示，向量200包括十六個要素202至232。要素202至232中的每個要素都儲存特定值。對於此實例，向量200將被稀疏化至75%的位準。亦即，將從向量200中選擇具有非零值的四個要素，並且將向量200中任何未選擇的要素修改為定義值（例如，零）。該實例開始於使用具有定義長度的窗口235（在該實例中為八個要素的窗口）選擇向量200中的前八個要素202至216。從藉由窗口235選擇的要素中，選擇具有最高絕對值的要素並將其儲存在儲存裝置240中。如所描繪，要素212在窗口235中的所有要素中具有最高絕對值。因此，選擇要素212並將其儲存在儲存裝置240中。

現在參考第2B圖，將所選要素212的值改變為定義值。在此，定義值為零（「0」）。然後，使窗口235在向量200上滑動達定義數量的要素，並使用窗口235選擇新要素集合。在此實例中，要素的定義數量為四。如第2B圖所示，使窗口235在向量200上滑動四個要素，並且要素210至224現在被窗口235選擇。接著，從由窗口235選擇的要素中選擇具有最高絕對值的要素並將其儲存在儲存裝置245中。如第2B圖所示，要素218在窗口235中的所有要素中具有最高絕對值。因此，選擇要素218並將其儲存在儲存裝置245中。

現在參考第2C圖，將所選要素218的值修改為定義值。如圖所示，要素218的值已被修改為零。然後將窗口235在向量200上滑動定義數量的要素，並使用窗口235選擇新的要素集合。如第2C圖所示，使窗口235在向量200上滑動四個要素，並且要素218至232現在被窗口235選擇。從由窗口235選擇的要素中選擇具有最高絕對值的要素並將其儲存在儲存裝置250中。在此，要素230在窗口235中的所有要素中具有最高絕對值，如第2C圖所描繪。因此，選擇要素230並將其儲存在儲存裝置250中。

現在參考第2D圖，將所選要素230的值改變為定義值。接下來，將窗口235在向量200上滑動定義數量的要素，並使用窗口235選擇新的要素集合。在此步驟處，窗口235延伸越過向量200的末端，並且只有要素226至232被窗口235選擇。為了填充窗口235中的剩餘要素，使用向量200中的前四個要素來填充窗口235中的缺失要素。如第2D圖所示，使窗口235在向量200上滑動四個要素，將前四個要素202至208填充在窗口235的後四個要素中。因此，要素226至232和202至208現在被窗口235選擇。然後，從由窗口235選擇的要素中選擇具有最高絕對值的要素並將其儲存在儲存裝置255中。如第2D圖所示，要素204在窗口235中的所有要素中具有最高絕對值。因此，選擇要素204並將其儲存在儲存裝置255中。

第2E圖圖示了已經使用上述技術稀疏化之後的向量200。如圖所示，要素204、212、218和230的值是在第2A圖至第2D圖所示的每個階段處選擇的要素，其仍然儲存在向量200中。未選擇的要素202、206至210、214、216、220至228和232的值已被修改為定義的稀疏值（在此實例中為零）。

在一些實施例中，上文參考第2A圖至第2E圖描述的稀疏化技術可以使用多工器以及實現上述預期功能性所必需的其他部件在硬體中實施。雖然此實例中所用的向量包括一定數量的要素，但是本領域一般技藝人士將理解，此實例中所示的技術可以應用於稀疏化具有任意數量的不同要素的向量。此外，本領域一般技藝人士將理解，具有不同長度的窗口可以用於不同的實施例中。

第3圖圖示了根據一些實施例的用於稀疏化向量的過程300。在一些實施例中，計算設備（例如，電腦系統400）或人工智慧(artificial intelligence, AI)硬體（例如，神經網路處理器511）執行過程300。過程300開始於在310處使用窗口選擇要素向量中的第一要素集合。參考第2A圖作為實例，使用窗口235來選擇要素202至216的集合。

接下來，過程300在320處從第一要素集合中選擇具有最高絕對值的第一要素。參考第2A圖作為實例，從要素202至216的集合中選擇要素212，因為該要素是具有最高絕對值的要素。過程300然後在330處使窗口沿向量滑動定義數量的要素。參考第2A圖和第2B圖作為實施例，使第2A圖中的窗口235沿著向量200滑動四個要素到第2B圖所示的位置。

在340處，過程300使用窗口選擇向量中的第二要素集合，其中第一要素集合和第二要素集合共享至少一個共用要素。參考第2B圖作為實例，使用窗口235來選擇要素210至224的集合。最後，過程300在350處從第二要素集合中選擇具有最高絕對值的第二要素。參考第2B圖作為實例，從要素210至224的集合中選擇要素218，因為該要素是具有最高絕對值的要素。

上述技術可以在廣泛的被配置為處理神經網路的電腦系統中實施。第4圖描繪了示例性電腦系統400的簡化方塊圖，該電腦系統可用於實施前述揭示內容中所述的技術。如第4圖所示，電腦系統400包括一或多個處理器402，該一或多個處理器經由匯流排子系統404與多個週邊設備通訊。該等週邊設備可以包括儲存子系統406（例如，包括記憶體子系統408和檔案儲存子系統410）和網路介面子系統416。一些電腦系統可進一步包括使用者介面輸入設備412和/或使用者介面輸出設備414。

匯流排子系統404可以提供用於讓電腦系統400的各種部件和子系統按預期與彼此通訊的機制。儘管匯流排子系統404被示意性地圖示為單個匯流排，但是匯流排子系統的替代實施例可以利用多個匯流排。

網路介面子系統416可以充當用於在電腦系統400與其他電腦系統或網路之間傳送資料的介面。網路介面子系統416的實施例可以包括例如乙太網、Wi-Fi和/或蜂窩適配器、數據機（電話、衛星、電纜、ISDN等）、數位用戶線(digital subscriber line, DSL)單元和/或類似者。

儲存子系統406包括記憶體子系統408和檔案/磁碟儲存子系統410。子系統408和410以及本文所述的其他記憶體是可以儲存提供本揭露案的實施例的功能性的可執行程式代碼和/或資料的非暫時性電腦可讀取媒體的實例。

記憶體子系統408包括多個記憶體，該多個記憶體包括用於在程式執行期間儲存指令和資料的主隨機存取記憶體(random access memory, RAM) 418和儲存固定指令的唯讀記憶體(read-only memory, ROM) 420。檔案儲存子系統410可以為程式和資料檔案提供永久性（例如，非揮發性）儲存，並且可以包括磁性或固態磁碟驅動器、光學驅動器以及相關聯的可移除式媒體（例如，CD-ROM、DVD、藍光等）、基於快閃記憶體的可移除式驅動器或卡，和/或本領域已知的其他類型的儲存媒體。

應當理解的是，電腦系統400是說明性的，並且具有比系統400更多或更少的部件的許多其他配置是可能的。

第5圖圖示了根據一些實施例的神經網路處理系統500。在各種實施例中，可以在包括一或多個神經網路處理器的硬體環境中實施和訓練根據本揭露案的神經網路。神經網路處理器可係指各種圖形處理單元(graphics processing unit, GPU)（例如，由Nvidia Corp ^®生產的用於處理神經網路的GPU）、現場可程式化閘陣列(field programmable gate array, FPGA)（例如，由Xilinx®生產的用於處理神經網路的FPGA）、或各種特殊應用積體電路(application specific integrated circuit, ASIC)或神經網路處理器，包括例如針對神經網路計算最佳化的硬體架構。在該示例性環境中，一或多個伺服器502（其可包括以上第4圖中所示的架構）可經由通訊網路501（例如，交換機、路由器等）耦接至複數個控制器510(1)至510(M)。控制器510(1)至510(M)亦可以包括以上第4圖中所示的架構。每個控制器510(1)至510(M)可以耦接至一或多個NN處理器，諸如例如處理器511(1)至511(N)和512(1)至512(N)。在一些實施例中，NN處理器511(1)至511(N)和512(1)至512(N)可用於實施AI處理器135。NN處理器511(1)至511(N)和512(1)至512(N)可以包括各種配置的功能處理區塊和針對神經網路處理（諸如訓練或推理）最佳化的記憶體。NN處理器針對神經網路計算進行了最佳化。伺服器502可以為控制器510配置NN模型以及向模型輸入資料，該等模型可以例如由NN處理器511(1)至511(N)和512(1)至512(N)並行加載和執行。例如，模型可以包括如上所述的層和相關聯的權重。NN處理器可以加載模型並應用輸入以產生輸出結果。例如，NN處理器亦可以實施本文所述的訓練算法。另外的示例性實施例

在各種實施例中，本揭露案包括用於基於重疊窗口稀疏化神經網路模型的向量的系統、方法和裝置。本文所述的技術可以體現在儲存可由電腦系統執行的程式的非暫時性機器可讀取媒體中，該程式包括用於執行本文所述的技術的指令集。在一些實施例中，系統包括一組處理單元和儲存指令的非暫時性機器可讀取媒體，該等指令當由該組處理單元中的至少一個處理單元執行時使該至少一個處理單元執行上述技術。在一些實施例中，非暫時性機器可讀取媒體可以是例如記憶體，該記憶體可以耦接至例如一或多個控制器或一或多個人工智慧處理器。

以下技術可以單獨體現或者以不同的組合體現，並且可進一步用本文所述的其他技術體現。

例如，在一個實施例中，本揭露案包括一種非暫時性機器可讀取媒體，該非暫時性機器可讀取媒體儲存可由設備的至少一個處理單元執行的程式，該程式包括用於以下各項的指令集：使用窗口選擇要素向量中的第一要素集合；從該第一要素集合中選擇具有最高絕對值的第一要素；使該窗口沿該向量滑動定義數量的要素；使用該窗口選擇該向量中的第二要素集合，其中該第一要素集合和該第二要素集合共享至少一個共用要素；以及從該第二要素集合選擇具有最高絕對值的第二要素。

在一個實施例中，該向量是第一向量，其中該程式進一步包括用於將該向量中的所選第一要素和第二要素乘以第二要素向量中的對應第一要素和第二要素的指令集。

在一個實施例中，第一向量和第二向量是神經網路模型中的參數。

在一個實施例中，第一要素集合中的第一要素被包括在第二要素集合中，其中從第二要素集合中選擇第二要素包括從第二要素集合中選擇除了第一要素之外的具有最高絕對值的要素。

在一個實施例中，該程式進一步包括用於在從第一要素集合中選擇第一要素之後和從第二要素集合中選擇第二要素之前，儲存第一要素並將向量中第一要素的值修改為定義值的指令集。

在一個實施例中，第二要素集合包括來自向量的第一末端的第三要素集合和來自向量的第二末端的第四要素集合。

在一個實施例中，第一要素和第二要素是向量中的不同要素。

以上描述說明了本揭露案的各種實施例以及可如何實施特定實施例的各態樣的實例。上述實例不應被認為是唯一的實施例，並且經呈現以說明由所附申請專利範圍限定的特定實施例的靈活性和優點。基於以上揭示內容和以下申請專利範圍，在不脫離由申請專利範圍限定的本揭露案的範疇的情況下，可以採用其他佈置、實施例、實施方式和等同物。

100:神經網路模型 105:輸入層 110:隱藏層 115:外層 120:節點 125:節點 130:輸入資料 135:輸入資料 140:節點 145:節點 150:節點 155:節點 160:節點 165:輸出 170:輸出 200:向量 202:要素 204:要素 206:要素 208:要素 210:要素 212:要素 214:要素 216:要素 218:要素 220:要素 222:要素 224:要素 226:要素 228:要素 230:要素 232:要素 235:窗口 240:儲存裝置 245:儲存裝置 250:儲存裝置 255:儲存裝置 300:過程 310:步驟 320:步驟 330:步驟 340:步驟 350:步驟 400:電腦系統 402:處理器 404:匯流排子系統 406:儲存子系統 408:記憶體子系統 410:檔案儲存子系統 412:使用者介面輸入設備 414:使用者介面輸出設備 416:網路介面子系統 418:主隨機存取記憶體 420:唯讀記憶體 500:神經網路處理系統 501:通訊網路 502:伺服器 510(1):控制器 510(M):控制器 511(1):處理器 511(N):處理器 512(1):處理器 512(N):處理器 W ₁:權重值 W ₂:權重值 W ₃:權重值 W ₄:權重值 W ₅:權重值 W ₆:權重值 W ₇:權重值 W ₈:權重值 W ₉:權重值 W ₁₀:權重值 W ₁₁:權重值 W ₁₂:權重值

本揭露案的各種實施例以舉例而非限制的方式在附圖的諸圖中圖示。

第1圖圖示了根據一些實施例的示例性神經網路模型。

第2A圖至第2E圖圖示了根據一些實施例的稀疏化向量的實例。

第3圖圖示了根據一些實施例的用於稀疏化向量的過程。

第4圖描繪了根據一些實施例的示例性電腦系統的簡化方塊圖。

第5圖圖示了根據一些實施例的神經網路處理系統。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

100:神經網路模型

105:輸入層

110:隱藏層

115:外層

120:節點

125:節點

130:輸入資料

135:輸入資料

140:節點

145:節點

150:節點

155:節點

160:節點

165:輸出

170:輸出

Claims

一種非暫時性機器可讀取媒體，該非暫時性機器可讀取媒體儲存可由一設備的至少一個處理單元執行的一程式，該程式包括用於以下各項的指令集：使用一窗口選擇一要素向量中的一第一要素集合；從該第一要素集合中選擇具有最高絕對值的一第一要素；使該窗口沿該向量滑動一定義數量的要素；使用該窗口選擇該向量中的一第二要素集合，其中該第一要素集合和該第二要素集合共享至少一個共用要素；以及從該第二要素集合中選擇具有最高絕對值的一第二要素。
如請求項1所述之非暫時性機器可讀取媒體，其中該向量是一第一向量，其中該程式進一步包括用於將該向量中的該等所選第一要素和第二要素乘以一第二要素向量中的對應第一要素和第二要素的一指令集。
如請求項2所述之非暫時性機器可讀取媒體，其中該第一向量和該第二向量是一神經網路模型中的參數。
如請求項1所述之非暫時性機器可讀取媒體，其中該第一要素集合中的該第一要素被包括在該第二要素集合中，其中從該第二要素集合中選擇該第二要素包括從該第二要素集合中選擇除了該第一要素之外的具有最高絕對值的一要素。
如請求項1所述之非暫時性機器可讀取媒體，其中該程式進一步包括用於在從該第一要素集合中選擇該第一要素之後和從該第二要素集合中選擇該第二要素之前，儲存該第一要素並將該向量中該第一要素的該值修改為一定義值的一指令集。
如請求項1所述之非暫時性機器可讀取媒體，其中該第二要素集合包括來自該向量的一第一末端的一第三要素集合和來自該向量的一第二末端的一第四要素集合。
如請求項1所述之非暫時性機器可讀取媒體，其中該第一要素和該第二要素是該向量中的不同要素。
一種方法，包括以下步驟：使用一窗口選擇一要素向量中的一第一要素集合；從該第一要素集合中選擇具有最高絕對值的一第一要素；使該窗口沿該向量滑動一定義數量的要素；使用該窗口選擇該向量中的一第二要素集合，其中該第一要素集合和該第二要素集合共享至少一個共用要素；以及從該第二要素集合中選擇具有最高絕對值的一第二要素。
如請求項8所述之方法，其中該向量是一第一向量，該方法進一步包括以下步驟：將該向量中的該等所選第一要素和第二要素乘以一第二要素向量中的對應第一要素和第二要素。
如請求項9所述之方法，其中該第一向量和該第二向量是一神經網路模型中的參數。
如請求項8所述之方法，其中該第一要素集合中的該第一要素被包括在該第二要素集合中，其中從該第二要素集合中選擇該第二要素之步驟包括以下步驟：從該第二要素集合中選擇除了該第一要素之外的具有最高絕對值的一要素。
如請求項8所述之方法，其中該程式進一步包括用於在從該第一要素集合中選擇該第一要素之後和從該第二要素集合中選擇該第二要素之前，儲存該第一要素並將該向量中該第一要素的該值修改為一定義值的一指令集。
如請求項8所述之方法，其中該第二要素集合包括來自該向量的一第一末端的一第三要素集合和來自該向量的一第二末端的一第四要素集合。
如請求項8所述之方法，其中該第一要素和該第二要素是該向量中的不同要素。
一種系統，包括：一組處理單元；以及一非暫時性機器可讀取媒體，該非暫時性機器可讀取媒體儲存指令，該等指令當由該組處理單元中的至少一個處理單元執行時使該至少一個處理單元：使用一窗口選擇一要素向量中的一第一要素集合；從該第一要素集合中選擇具有最高絕對值的一第一要素；使該窗口沿該向量滑動一定義數量的要素；使用該窗口選擇該向量中的一第二要素集合，其中該第一要素集合和該第二要素集合共享至少一個共用要素；以及從該第二要素集合中選擇具有最高絕對值的一第二要素。
如請求項15所述之系統，其中該向量是一第一向量，其中該指令進一步使該至少一個處理單元將該向量中該等所選第一要素和第二要素乘以一第二要素向量中對應的第一要素和第二要素。
如請求項16所述之系統，其中該第一向量和該第二向量是一神經網路模型中的參數。
如請求項15所述之系統，其中該第一要素集合中的該第一要素被包括在該第二要素集合中，其中從該第二要素集合中選擇該第二要素包括從該第二要素集合中選擇除了該第一要素之外的具有最高絕對值的一要素。
如請求項15所述之系統，其中該程式進一步包括用於在從該第一要素集合中選擇該第一要素之後和從該第二要素集合中選擇該第二要素之前，儲存該第一要素並將該向量中該第一要素的該值修改為一定義值的一指令集。
如請求項15所述之系統，其中該第二要素集合包括來自該向量的一第一末端的一第三要素集合和來自該向量的一第二末端的一第四要素集合。