TWI715281B

TWI715281B - 用於實施神經網路應用之多晶片系統、適用於多晶片系統的資料處理方法、和非暫態電腦可讀取媒體

Info

Publication number: TWI715281B
Application number: TW108140289A
Authority: TW
Inventors: 徐雲植
Original assignee: 創惟科技股份有限公司
Priority date: 2018-11-06
Filing date: 2019-11-06
Publication date: 2021-01-01
Also published as: TW202038143A; US20220004850A1; WO2020093669A1; CN112955878A; WO2020093676A1; TW202038142A; CN112970037A; WO2020093654A1; US20220027714A1; TWI726476B; TW202018597A; US20220004856A1; CN112970036A; TWI766203B; CN112970037B; CN112955878B; CN112970036B

Abstract

本揭示提供一種用於實現神經網路應用的資料處理方法、多晶片系統、和非暫態電腦可讀取媒體。資料處理方法包括：分配相應的晶片來處理第一階段資料的相應部分和第二階段資料的相應部分；第一晶片將第一階段資料的第一部分通過通道傳送到第二晶片；第二晶片將第一階段資料的第二部分通過通道傳送到第一晶片；第一晶片計算第一階段資料與權重值的第一部分以獲得第一結果，並第二晶片計算第一階段資料與權重值的第二部分以獲得第二結果，其中第一結果和第二結果皆是第二階段資料的其中之一。

Description

用於實施神經網路應用之多晶片系統、適用於多晶片系統的資料處理方法、和非暫態電腦可讀取媒體

本發明關於多晶片系統領域，特別是關於一種用於實施神經網路應用之多晶片系統、適用於多晶片系統的資料處理方法、和非暫態電腦可讀取媒體。

人工神經網路(artificial neural network)是參照生物腦的計算模型。在神經網路中，被稱為神經元的節點可以互連並共同操作以處理輸入資料。不同類型的神經網路的範例包括但不限於卷積神經網路(convolutional neural network)、遞迴神經網路(recurrent neural network)、深度信念網路(deep belief network)，受限玻爾茲曼機(restricted Boltzman machine)等。在前饋神經網路中，神經網路的神經元與其他神經元有鏈接，且鏈路僅在一個方向上延伸(即向前方向)通過神經網路。

可以利用神經網路從複雜的輸入資料中提取「特徵值」。神經網路可以包括多個層。每個層接收輸入資料並通過處理層的輸入資料生成輸出資料。輸出資料可以是神經網路通過將輸入圖像或特徵值圖與卷積核(convolution kernel)卷積運算而產生的輸入資料的特徵值圖。在卷積神經網路加速晶片的實現中，由於不可能指定加速資源的具體數量，晶片級並行化處理的可能性是最重要的部分之一。每個晶片中加速元件的同步和資料共享始終是關鍵問題。

有鑑於此，有必要提供一種用於實施神經網路應用之多晶片系統、適用於多晶片系統的資料處理方法、和非暫態電腦可讀取媒體，以解決習知技術的問題。

為了解決上述技術問題，本揭示的目的在於提供一種多晶片系統，一種多晶片系統、資料處理方法、和非暫態電腦可讀取媒體，以更有效地實現晶片級並行化處理。

為了達到上述目的，本揭示提供一種適用於多晶片系統的資料處理方法，用於實現神經網路應用，其中該多晶片系統包括：一通道、一第一晶片、和與該通道連接之一第二晶片，其中該神經網路應用包括一第一階段資料、一第二階段資料、一第三階段資料、和複數個權重值，其中該資料處理方法包括：分配該第一晶片來處理該第一階段資料的一第一部分、該第二階段資料的一第一部分、以及該第三階段資料的一第一部分，以及並分配該第二晶片來處理該第一階段資料的一第二部分、該第二階段資料的一第二部分、以及該第三階段資料的一第二部分；該第一晶片獲取對應該第二階段資料的該複數個權重值的一第一部分；該第二晶片獲取對應該第二階段資料的該複數個權重值的一第二部分；該第一晶片獲取該第一階段資料的該第一部分；該第一晶片將該第一階段資料的該第一部分通過該通道傳送到該第二晶片；該第二晶片接收該第一階段資料的該第一部分；該第二晶片獲取該第一階段資料的該第二部分；該第二晶片將該第一階段資料的該第二部分通過該通道傳送到該第一晶片；該第一晶片接收該第一階段資料的該第二部分；該第一晶片計算該第一階段資料與該複數個權重值的該第一部分以獲得一第一結果，其中該第一結果是該第二階段資料的其中之一；以及該第二晶片計算該第一階段資料與該複數個權重值的該第二部分以獲得一第二結果，其中該第二結果是該第二階段資料的其中之一。

本揭示的其中之一實施例中，在獲得該第一結果和該第二結果之後，該資料處理方法還包括：該第一晶片獲取對應該第二階段資料的該複數個權重值的一第三部分；該第二晶片獲取對應該第二階段資料的該複數個權重值的一第四部分；該第一晶片獲取該第一階段資料的該第一部分；該第一晶片將該第一階段資料的該第一部分通過該通道傳送到該第二晶片；該第二晶片接收該第一階段資料的該第一部分；該第二晶片獲取該第一階段資料的該第二部分；該第二晶片將第一階段資料的該第二部分通過該通道傳送到該第一晶片；該第一晶片接收該第一階段資料的該第二部分；該第一晶片計算該第一階段資料與該複數個權重值的該第三部分以獲得一第三結果，其中該第三結果是該第二階段資料的其中之一；以及該第二晶片計算該第一階段資料與該複數個權重值的該第四部分以獲得一第四結果，其中該第四結果是該第二階段資料的其中之一。

本揭示的其中之一實施例中，在獲得該第一結果、該第二結果、該第三結果、和該第四結果之後，該資料處理方法還包括：依序地分配該第一結果、該第三結果、該第二結果、和該第四結果作為該第二階段資料的輸入資料。

本揭示的其中之一實施例中，該多晶片系統還包括一第一記憶體和一第二記憶體，並且該第一記憶體與該第一晶片相連，以及該第二記憶體與該第二晶片相連；其中該第一記憶體包括一第一區和一第二區，以及該第二記憶體包括一第三區和一第四區；以及其中該第一階段資料的該第一部分儲存在該第一記憶體的該第一區中，以及該第二階段資料的該第一部分儲存在該第一記憶體的該第二區，並且該第一階段資料的該第二部分儲存在該第二記憶體的該第三區，以及該第二階段資料的該第二部分儲存在該第二記憶體的該第四區。

本揭示的其中之一實施例中，該資料處理方法還包括：從該第一記憶體中擦除該第一階段資料的該第一部分，並從該第二記憶體中擦除該第一階段資料的該第二部分；以及將該第一記憶體的該第二區和該第二記憶體的該第四區轉換成輸入資料儲存區域。

本揭示的其中之一實施例中，該多晶片系統還包括與該第一晶片和該第二晶片連接的一記憶體和配置成連接該第一晶片和該第二晶片的複數條傳輸線；其中該記憶體包括一第一區和一第二區；以及其中該第一階段資料儲存在該記憶體的該第一區，以及該第二階段資料儲存在該記憶體的該第二區。

本揭示還提供一種用於實現神經網路應用的多晶片系統，其中所述神經網路應用包括一第一階段資料、一第二階段資料、一第三階段資料、和複數個權重值，該多晶片系統包括：一資料通道；一第一晶片和一第二晶片，其中該第一晶片和該第二晶片連接該資料通道；一儲存器；以及一處理器，其中該多晶片系統的複數個電腦代碼儲存在該儲存器中並且被配置為由該處理器執行以執行一資料處理方法，該資料處理方法包括：分配該第一晶片來處理該第一階段資料的一第一部分、該第二階段資料的一第一部分、以及該第三階段資料的一第一部分，以及並分配該第二晶片來處理該第一階段資料的一第二部分、該第二階段資料的一第二部分、以及該第三階段資料的一第二部分；該第一晶片獲取對應該第二階段資料的該複數個權重值的一第一部分；該第二晶片獲取對應該第二階段資料的該複數個權重值的一第二部分；該第一晶片獲取該第一階段資料的該第一部分；該第一晶片將該第一階段資料的該第一部分通過該資料通道傳送到該第二晶片；該第二晶片接收該第一階段資料的該第一部分；該第二晶片獲取該第一階段資料的該第二部分；該第二晶片將該第一階段資料的該第二部分通過該資料通道傳送到該第一晶片；該第一晶片接收該第一階段資料的該第二部分；該第一晶片計算該第一階段資料與該複數個權重值的該第一部分以獲得一第一結果，其中該第一結果是該第二階段資料的其中之一；以及該第二晶片計算該第一階段資料與該複數個權重值的該第二部分以獲得一第二結果，其中該第二結果是該第二階段資料的其中之一。

本揭示的其中之一實施例中，該資料處理方法還包括：該第一晶片獲取對應該第二階段資料的該複數個權重值的一第三部分；該第二晶片獲取對應該第二階段資料的該複數個權重值的一第四部分；該第一晶片獲取該第一階段資料的該第一部分；該第一晶片將該第一階段資料的該第一部分通過該資料通道傳送到該第二晶片；該第二晶片接收該第一階段資料的該第一部分；該第二晶片獲取該第一階段資料的該第二部分；該第二晶片將第一階段資料的該第二部分通過該資料通道傳送到該第一晶片；該第一晶片接收該第一階段資料的該第二部分；該第一晶片計算該第一階段資料與該複數個權重值的該第三部分以獲得一第三結果，其中該第三結果是該第二階段資料的其中之一；以及該第二晶片計算該第一階段資料與該複數個權重值的該第四部分以獲得一第四結果，其中該第四結果是該第二階段資料的其中之一。

本揭示的其中之一實施例中，該資料處理方法還包括：依序地分配該第一結果、該第三結果、該第二結果、和該第四結果作為該第二階段資料的輸入資料。

本揭示的其中之一實施例中，該多晶片系統還包括與該第一晶片和該第二晶片連接的一記憶體和配置成連接該第一晶片和該第二晶片的複數條傳輸線；其中該記憶體包括一第一區和一第二區；其中該第一階段資料儲存在該記憶體的該第一區，以及該第二階段資料儲存在該記憶體的該第二區；以及其中每一該第一晶片和該第二晶片經由該複數條傳輸線中的至少一條從該記憶體獲得該第一階段資料。

本揭示還一種用於在多晶片系統中實現神經網路應用的非暫態電腦可讀取媒體，該非暫態電腦可讀取媒體內記錄有複數個程式碼，該複數個程式碼由一處理器執行並且包括：A，設置該神經網路應用的複數個輸入神經元和複數個輸出神經元，其中每個該複數個輸出神經元通過複數個突觸連接到該複數個輸入神經元，用於根據複數個權重值來加權來自該複數個輸入神經元的複數個輸出；B，等待對應該複數個輸入神經元的第一階段資料通過一通道；C，計算相應的權重值與部分的該第一階段資料；D，同時計算對應於該複數個輸出神經元的第二階段資料；E，確定是否計算完所有的該複數個權重值，如果是，則進入F，如果不是，則返回B；F，將該第二階段資料保持在一記憶體上；G，為該複數個輸出神經元設置該第二階段資料；以及H，確定是否所有已分配的該複數個輸出神經元都已完成計算，如果是，則切換到下一層應用，如果不是，則調用一新的通道任務並返回到A。

本揭示的其中之一實施例中，在執行該新的通道任務中該處理器執行的該複數個程式碼還包含：I，從該記憶體加載該第一階段資料；J，通過該通道播送該第一階段資料；K，確定該第一階段資料是否完全播送，如果是，則進入L，如果不是，則返回J；以及L，確定是否計算完所有的該第一階段資料，如果是，則該新的通道任務結束，如果否，則回到I。

本揭示的其中之一實施例中，在執行該切換到下一層應用中該處理器執行的該複數個程式碼還包括：M，設置該記憶體的輸入點位作為輸出點位；以及N，設置該記憶體的該輸出點位作為該輸入點位。

相較於習知技術，本揭示提供了一種能夠並行運行的多晶片系統。為了提高機器學習加速晶片的性能，本揭示提供了一種用於多晶片系統的廣播通道，它是一種基於具有該功能的形式的市場需求的實現的結構設計理念。為了實現這一點，在本揭示中，每個晶片的輸入特徵值被部分地傳輸和共享，並且可以通過在其他晶片中同時使用它來計算群集，計算結果為最終輸出神經元數值，並再次作為下一層的輸入資料。這使我們能夠利用多晶片系統實現高性能、低成本、以及滿足市場需求。

110:廣播通道

C1:第一晶片

C2:第二晶片

C3:第三晶片

C4:第四晶片

CN:第N個晶片

I₁~I_M、I_M+1~I_2M、I_(N-1)M+1~I_NM:輸入特徵值

O₁~O_K、O_K+1~O_2K、O_(N-1)K+1~O_NK:輸出特徵值

1:神經網路

2、3、5:神經元

4、6:突觸

L1:第一層

L2:第二層

L3:第三層

A₀~A_C:第一階段資料

N₀~N_f:第二階段資料

B₀~B_C:第三階段資料

W₀₀~W₀₃:權重值

10:多晶片系統

130:控制器

131:儲存器

132:處理器

S1~SN、S:記憶體

Z1:第一區

Z2:第二區

Z3:第三區

Z4:第四區

1000、0100、0010、0001:索引

E:對應第4圖的部分

1201:計算陣列

1202:緩衝器

1203:儲存器控制器

1204:通訊通道

1205:物理介面

20:多晶片系統

210:廣播通道

230:控制器

260:傳輸線

261:共享終端

30:電腦系統

310:處理器

320:儲存媒體

330:外圍設備

第1圖顯示根據本揭示的資料處理過程的簡易方塊圖；第2圖顯示根據本揭示的第一較佳實施例的神經網路的簡易方塊圖；第3圖顯示用於實現第2圖的神經網路應用的多晶片系統之示意圖；第4圖顯示第3圖的E部分的特定結構的示意圖；第5圖顯示根據本揭示的第二較佳實施例的多晶片系統之示意圖；以及第6圖顯示本揭示的一較佳實施例的示例性電腦系統的方塊圖。

為了讓本揭示之上述及其他目的、特徵、優點能更明顯易懂，下文將特舉本揭示較佳實施例，並配合所附圖式，作詳細說明如下。

請參考第1圖，其顯示根據本揭示的資料處理過程的簡易方塊圖。該資料處理過程適用於實現神經網路應用的多晶片系統。多晶片系統至少包括：廣播通道110和與廣播通道110連接的多個晶片C1~CN，其中每個晶片 C1~CN具有內置計數器，以顯示其自身的廣播順序。如第1圖所示，每個晶片C1~CN分配多個輸入特徵值。例如，第一晶片C1分配輸入特徵值I₁、I₂、I_M等。在資料處理過程中，每個晶片C1~CN通過廣播通道110發送要分配給其他晶片的輸入特徵值。接著，晶片C1~CN根據接收到的輸入特徵值進行處理且並行地計算輸出特徵值，例如輸出特徵值O₁、O₂、O_M。下面將詳細描述用於實現本揭示的神經網路應用的多晶片系統和適用於多晶片系統的資料處理方法的具體實施方式。

請參照第2圖，其顯示根據本揭示的第一較佳實施例的神經網路1的簡易方塊圖。神經網路1包括複數個層(包括第一層L1、第二層L2、和第三層L3)、第一層L1中的複數個神經元2、第二層L2中的複數個神經元3、以及第三層L3中的複數個神經元5。輸入圖為第一層L1創建一組值。第一層L1可以通過將輸入圖的像素直接映射到第一層L1中的特定神經元來生成，使得神經元2與第一階段資料之一部分(例如A₀、A₁、A₂、A₃、A₄、A_C等)相關聯，這取決於像素是否表現出特定屬性。根據神經網路的變化和創建的問題來解決，神經網路1的每一層可能具有不同數量的神經元，並且這些可能與複數個輸入特徵值(如，第一階段資料A₀~A_C)有關，也可能與之無關。

如第2圖所示，如果第一層L1是神經網路1的輸入層而第二層L2是輸出層，則神經元2作為輸入神經元，神經元3作為輸出神經元。第一層L1中的輸入神經元2連接到第二層L2中的輸出神經元3。在神經網路1中，特定層中的每個神經元藉由複數個突觸4和複數個突觸6連接到下一層中的神經元，以根據突觸權重值從輸入神經元輸出權重值(例如W₀₀、W₀₁等)。接著，第二層L2中的輸出神經元3從第一層L1中的每個輸入神經元2接收第一階段資料A₀~A_C。然後，將第一階段資料A₀~A_C求和，並將該和與偏差進行比較，並且該值後續可以作為下一層的神經元的輸入特徵值(即第二階段資料N₀~N_f)。該計算繼續神經網路1的各個層執行，直到它到達最後一層。例如，如果第三層L3是最終層，則第二層L2是神經網路1的輸入層，第三層L3是輸出層。神經元3作為輸入神經元，神經元5作為輸出神經元。接著，第三層L3中的輸出神經元5從第二層L2中的每個輸入神經元3接收第二階段資料N₀~N_f。然後將第二階段資料N0~Nf求和，並將該和與偏差進行比較，並且所獲得的值是第三階段資料B₀~B_c。

請參照第3圖，其顯示用於實現第2圖的神經網路應用的多晶片系統10之示意圖。神經網路1由多晶片系統10實施，且多晶片系統10包括廣播通道110、複數個晶片(例如，第一晶片C1、第二晶片C2、第N個晶片CN等)、控制器130、和複數個記憶體S1~SN。廣播通道110與複數個晶片C1~CN連接。廣播通道110用於從晶片傳送資料到其他晶片。在一個實施例中，晶片C1~CN包含加速晶片。每一晶片C1~CN與其中之一記憶體S1~SN連接。所有晶片的唯一索引(例如0001、0010、0100、1000)都是物理分配的。

在本揭示中，其中之一晶片C1~CN通過預定義協議分配為主晶片(即，以主模式操作)，其佔據廣播通道110並執行資料總線操作。所有剩餘的晶片都以從屬模式運行並接收資料。具體來說，當第一階段資料A₀~A_C通過廣播通道110順序發送時，廣播通道110的操作協議使得其中之一晶片成為主晶片而另一個晶片作為從屬晶片操作。主模式是晶片的操作模式，用以維持對計算晶片的控制。在一實施例中，當在主模式下操作時，晶片可以進一步控制和管理在從屬模式下操作的其他晶片。從屬模式是其中一個晶片的操作模式，用以允許在主模式下操作的其他晶片控制和管理它。

請參照第4圖，其顯示第3圖的E部分的特定結構的示意圖。第一晶片C1包括計算陣列1201、緩衝器1202、儲存器控制器1203、通訊通道1204、和物理介面1205。較佳地，廣播通道110採用多點低壓差分信號(multipoint low voltage differential signaling，LVDS)物理通道，並且通訊通道1204採用標準化物理通道，例如兩個通用序列匯流排(universal serial bus，USB)或行動產業處理器介面(mobile industry processor interface，MIPI)。如果第一晶片C1在主模式下操作，則其他晶片C2~CN在從屬模式下操作。此外，其他晶片的C2~CN中的每一個包括與第一晶片C1類似的元件。

如第2圖和第3圖所示，多晶片系統10的控制器130包括儲存器131和處理器132。多晶片系統10的複數個電腦代碼儲存在儲存器131中，該儲存器131被配置為由處理器132執行以執行資料處理方法。資料處理方法包括如下步驟：首先，將神經網路1的一個或多個不同的複數個輸入神經元2、複數個輸出神經元3、和複數個神經元5分配給複數個晶片C1~CN中的每一個。也就是說，複數個輸入神經元2、複數個輸出神經元3、和複數個神經元5被每一個晶片C1~CN佔據。此外，與神經網路1的複數個輸入神經元2相關聯的第一階段資料A₀~A_C儲存在多晶片系統10的相應記憶體S1~SN中。具體地，神經網路1的第一至第三個輸入神經元2被第一晶片C1佔據，並且第一至第三個輸入神經元2分別與第一階段資料A₀~A₂的第一部分相關聯。也就是說，第一晶片C1被分配用於處理第一階段資料的第一部分A₀~A₂、第二階段資料的第一部分(N₀和N₁)、以及第三階段資料的第一部分B₀。類似地，第二晶片C2被分配用於處理第一階段資料的第二部分A₃~A₅、第二階段資料N2的第二部分(N₂和N₃)、以及第三階段資料的第二部分B₁。

如第2圖和第3圖所示，第一階段資料的第一部分A₀~A₂儲存在第一記憶體S1中，第一階段資料的第二部分A₃~A₅儲存在第二記憶體S2中。在神經網路1的神經元2、神經元3、和神經元5被分配給複數個晶片中的每一個之後，複數個晶片中的每一個獲取對應第二階段資料N₀~N_f的權重值的對應部分。舉例來說，第一晶片C1獲取對應第二階段資料N₀~N_f的權重值的第一部分(例如，W₀₀等)，並且第二晶片C2獲取對應第二階段資料N₀~N_f的權重值的二部分(例如，W₀₂等)。

接著，每一個晶片C1~CN通過廣播通道110順序地獲取第一階段資料A₀~A_c的相應部分並將其傳送到其他晶片。在主晶片順序地發送它的所有資料之後，下一個晶片成為主晶片並執行相同的操作，並且剩餘的晶片成為用於接收資料的從屬晶片。也就是說，一旦主晶片的第一階段資料的所有相應部分被共享到其他晶片，具有第一階段資料的另一對應部分的下一個晶片就成為主晶片直到其第一階段資料耗盡。舉例來說，如果第一晶片C1是主晶片，則第一晶片C1獲取第一階段資料的第一部分A₀~A₂，並通過廣播通道110將第一階段資料的第一部分A₀~A₂傳送到第二晶片C2，使得第二晶片C2接收第一階段資料的第一部分A₀~A₂。類似地，第一晶片C1順序地將第一階段資料的第一部分A₀~A₂傳送到其他晶片C3~CN，使得其他晶片C3~CN順序地接收第一階段資料的第一部分A₀~A₂。在第一晶片C1的第一階段資料的第一部分A₀~A₂與其他晶片C2~CN共享之後，下一個晶片(即具有第一階段資料的第二部分A₃~A₅的第二晶片C2)成為主晶片。接著，第二晶片C2獲取第一階段資料的第二部分A₃~A₅，並通過廣播通道110將第一階段資料的第二部分A₃~A₅傳送到第一晶片C1，使得第一晶片C1接收第一階段資料的第二部分A₃~A₅。接著，第二晶片C2順序地將第一階段資料的第二部分A₃~A₅傳送到其他晶片C3~CN，使得其他晶片C3~CN順序地接收第一階段資料的第二部分A₃~A₅。因此，第一晶片C1先獲得所有的第一階段資料A₀~A_c，然後是第二晶片C2，依此類推。

在其中之一晶片C1~CN接收到第一階段資料A₀~A_c之後，相應的晶片計算第一階段資料A₀~A_c與相應的突觸權重值而產生權重值輸出。也就是說，複數個晶片C1~CN根據其輸出函數並行地計算來自複數個輸入神經元的總權重值輸出的第一階段資料A₀~A_c。舉例來說，第一晶片C1藉由計算陣列1201計算第一階段資料A₀~A_c和權重值的第一部分(例如，W₀₀等)，以獲得第一結果N₀，其中第一結果N₀是第二階段資料N₀~N_f的其中之一。接著，第二晶片C2計算第一階段資料A₀~A_c和權重值的第二部分(例如，W₀₂等)，以獲得第二結果N₂，其中第二結果N₂是第二階段資料N₀~N_f的其中之一。

晶片C1~CN重複執行以上獲取和順序地傳輸步驟，直到所有晶片C1~CN通過廣播通道110彼此傳送第一階段資料A₀~A_c，並因此完成第二階段資料N₀~N_f。具體地，在獲得第二階段資料N₀~N_f的第一結果N₀和第二結果N₂之後，第一晶片C1獲取對應第二階段資料N₀~N_f的權重值的第三部分(例如，W₀₁)，以及第二晶片C2獲取對應於第二階段資料N₀~N_f的權重值的第四部分(例如，W₀₃等)。接著，每一個晶片C1~CN再次通過廣播通道110順序地獲取第一階段資料A₀~A_c的相應部分並將其傳送到其他晶片。在主晶片順序地發送它的所有資料之後，下一個晶片成為主晶片並執行相同的操作，並且剩餘的晶片成為用於接收資料的從屬晶片。也就是說，一旦主晶片的第一階段資料的所有對應部分被共享到其他晶片，具有第一階段資料的另一對應部分的下一個晶片變為主晶片直到其第一階段資料耗盡。例如，如果第一晶片C1是主晶片，則第一晶片C1獲取第一階段資料的第一部分A₀~A₂，並通過廣播通道110傳送第一階段資料的第一部分A₀~A₂到第二晶片C2，使得第二晶片C2接收第一階段資料的第一部分A₀~A₂。類似地，第一晶片C1順序地將第一階段資料的第一部分A₀~A₂傳送到其他晶片C3~CN，使得其他晶片C3~CN順序地接收第一階段資料的第一部分A₀~A₂。在第一晶片C1的第一階段資料的第一部分A₀~A₂與其他晶片C2~CN共享之後，下一個晶片(即具有第一階段資料的第二部分A₃~A₅的第二晶片C2)成為主晶片。然後，第二晶片C2獲取第一階段資料的第二部分A₃~A₅，並通過廣播通道110將第一階段資料的第二部分A₃~A₅傳送到第一晶片C1，使得第一晶片C1接收第一階段資料的第二部分A₃~A₅。然後，第二晶片C2順序地將第一階段資料的第二部分A₃~A₅傳送到其他晶片C3~CN，使得其他晶片C3~CN順序地接收第一階段資料的第二部分A₃~A₅。因此，第一晶片C11首先獲得所有的第一階段資料A₀~A_c，然後是第二晶片C2，依此類推。

在其中之一晶片C1~CN接收到其中之一第一階段資料A₀~A_c之後，相應的晶片計算相應的突觸權重值與第一階段資料A0~Ac以產生權重值輸出。也就是說，複數個晶片C1~CN根據其輸出函數並行地計算來自複數個輸入神經元的總權重值輸出的第一階段資料A₀~A_c。舉例來說，第一晶片C1藉由計算陣列1201計算第一階段資料A₀~A_c和權重值的第三部分(例如，W₀₁等)，以獲得第三結果N₁，其中第三結果N₁是第二階段資料N₀~N_f的其中之一。接著，第二晶片C2計算第一階段資料A₀~A_c和權重值的第四部分(例如，W₀₃等)，以獲得第四結果N₃，其中第四結果N₃是第二階段資料N₀~N_f的其中之一。這種順序地處理的原因是由於所有晶片的C1~CN都具有部分本地化的輸入神經元。通過以下事實使得每個晶片都可以用不同的突觸4以及目標輸出神經元3來計算，即使每個晶片的計算結果隨後被儲存為輸出特徵值。此外，第一結果N₀、第三結果N₁、第二結果N₂、和第四結果N₃被順序地指定為第二階段資料N₀~N_f的輸入資料。

在所有第一階段資料A₀~A_c都耗盡後，所有晶片C1~CN將其第二階段資料N₀~N_f儲存在其記憶體S1~SN中。例如，如第2圖所示，多晶片系統10的複數個記憶體S1~SN包括第一記憶體S1和第二記憶體S2。第一記憶體與第一晶片C1連接，第二記憶體S2與第二晶片C2連接。第一記憶體S1包括第一區Z1和第二區Z2，以及第二記憶體S2包括第三區Z3和第四區Z4。第一階段資料的第一部分A₀~A₂儲存在第一記憶體S1的第一區Z1中，第二階段資料的第一部分N₀~N₁儲存在第一記憶體S1的第二區Z2，第一階段資料的第二部分A₃~A₅儲存在第二記憶體S2的第三區Z3，以及第二階段資料的第二部分N₂~N₃儲存在第二記憶體S2的第四區Z4中。

在神經網路1的下一層應用中，儲存為輸出資料的第二階段資料N₀~N_f現在用於下一層，並且第二階段資料N₀~N_f作為輸入特徵值。這樣，儲存在其記憶體S1~SN中的第二階段資料N₀~N_f被切換為神經網路1的後續的下一層的輸入特徵值。此時，第一階段資料A₀~A_c從它們的記憶體S1~SN中擦除。例如，第一階段資料的第一部分A₀~A₂從第一記憶體S1的第一區Z1中擦除，第一階段資料的第二部分A₃~A₅從第二記憶體S2的第三區Z3擦除。並且，第一記憶體S1的第二區Z2和第二記憶體S2的第四區Z4被轉換為輸入資料儲存區域，用於儲存相應的第二階段資料N₀~N_f，以及第一記憶體S1的第一區Z1和第二記憶體S2的第三區Z3被轉換成輸出資料儲存區域，用於儲存相應的第三階段資料B₀~B_C。

如第2圖所示，如果第二層L2是神經網路1的輸入層而第三層L3是輸出層，則神經元3作為輸入神經元，以及神經元5作為輸出神經元。其中之一晶片C1~CN通過廣播通道110獲得與對應於另一晶片的神經元3相關聯的第二階段資料N₀~N_f的一部分。接著，晶片C1~CN計算第二階段資料N₀~N_f並生成第三階段資料B₀~B_C。第三階段資料B₀~B_C的獲取過程類似於第二階段資料N₀~N_f的獲取過程，此處不再贅述。

在第一實施例中，多晶片系統10不共享實際的記憶體資源，換句話說，不可能直接訪問其他晶片的局部記憶體S1~SN，但它的結構是每個晶片通過公共廣播通道110共享必要的輸入特徵值(例如，第一階段資料A₀~A_c或第二階段資料N₀~N_f)並使用必要的元件進行計算。因此，通過本揭示的操作機制可以實現多晶片系統10，其優選地應用於需要更好性能的應用系統。

請參照第5圖，其顯示根據本揭示的第二較佳實施例的多晶片系統20之示意圖。多晶片系統20包括廣播通道210、複數個晶片(例如第一晶片C1、第二晶片C2、第三晶片C3、和第四晶片C4)、控制器230、和記憶體S。複數個晶片C1~C4與廣播通道210連接。較佳地，晶片C1~C4可以為用於神經網路的加速晶片。第一實施例與第二實施例的區別在於第二較佳實施例的多晶片系統20僅包括一個記憶體S。此外，多晶片系統20還包括複數條傳輸線260，用於將晶片C1~C4中的一個與另一個連接。

如第5圖所示，記憶體S包括第一區Z1和第二區Z2。當多晶片系統20用於實現神經網路應用的第一層時，第一階段資料儲存在第一區Z1以及第二階段資料儲存在第二區Z2中。

如第5圖所示，在第二實施例中，為了防止由於大量本地化的記憶體而導致的成本增加，記憶體S可以僅安裝在一個晶片220上，並且記憶體S可以採用可供許多晶片C1~C4共享的結構。在第二實施例中，需要單獨的記憶體共享終端261。此外，其中之晶片從記憶體S通過至少一個晶片提取與輸入神經元相關的第一階段資料的相應部分。然後，晶片通過廣播通道210將第一階段資料的相應部分順序地傳送到其他晶片。

在某些實施例中，本文描述的一個或多個處理步驟可以由執行記錄在非暫態電腦可讀取媒體上的程式碼的一個或多個處理器(例如，電腦處理器)來執行。例如，如第1圖所示，在多晶片系統中實施神經網路應用的過程。如第2圖和第3圖所示，可以具有由一個或多個處理器執行的程式碼執行的一個或多個步驟，該程式碼作為程式指令儲存在電腦可讀取儲存媒體中(例如，非暫態電腦可讀取媒體)。

請參照第6圖，其顯示本揭示的一較佳實施例的示例性電腦系統30的方塊圖。示例性電腦系統30可以用於實現這裡描述的一個或多個實施例。在一些實施例中，電腦系統30可由用戶操作以實現這裡描述的一個或多個實施例，例如第2圖和第3圖所示的在多晶片系統中實現神經網路應用的過程。在第6圖的實施例中，電腦系統30包括處理器310、儲存媒體320、和各種外圍設備330。處理器310耦合到儲存媒體320和外圍設備330。處理器310被配置為執行程式碼，包括用於實現神經網路應用的指令，其可以是軟體。舉例來說，如第2圖所示，如果第一層L1是神經網路1的輸入層而第二層L2是輸出層，則由處理器310執行的程式碼包括：程式碼A，設置神經網路1的複數個輸入神經元2和複數個輸出神經元3，其中每個輸出神經元3通過複數個突觸4連接到該複數個輸入神經元2，用於根據複數個權重值(例如W₀₀等)來加權來自該複數個輸入神經元2的複數個輸出；程式碼B，等待對應該複數個輸入神經元2的第一階段資料A₀~A_C通過一廣播通道110；程式碼C，計算相應的權重值與部分的該第一階段資料A₀~A_C；程式碼D，同時計算對應於該複數個輸出神經元3的第二階段資料N₀~N_f；程式碼E，確定是否計算完所有的該複數個權重值，如果是，則進入程式碼F，如果不是，則返回程式碼B；程式碼F，將該第二階段資料N₀~N_f保持在一記憶體上；程式碼G，為該複數個輸出神經元3設置該第二階段資料N₀~N_f；以及程式碼H，確定是否所有已分配的該複數個輸出神經元3都已完成計算，如果是，則切換到下一層應用，如果不是，則調用一新的通道任務並返回到程式碼A。

此外，當電腦系統30執行新的通道任務時，處理器310執行的程式碼還包括：程式碼I，從該記憶體加載該第一階段資料A₀~A_C；程式碼J，通過該廣播通道110播送該第一階段資料A₀~A_C；程式碼K，確定該第一階段資料A₀~A_C是否完全播送，如果是，則進入程式碼L，如果不是，則返回程式碼J；以及程式碼L，確定是否計算完所有的該第一階段資料A₀~A_C，如果是，則該新的通道任務結束，如果否，則回到程式碼I。

此外，當電腦系統30切換以執行下一層應用時，由處理器310執行的程式碼包括：程式碼M，設置該記憶體的輸入點位作為輸出點位；以及N，設置該記憶體的該輸出點位作為該輸入點位。具體而言，如第2圖所示，在神經網路1的下一層應用中，儲存為輸出資料的第二階段資料N₀~N_f現在用於下一層，並且第二階段資料N₀~N_f隨後用作的輸入特徵值。這樣，儲存在其記憶體S1~SN中的第二階段資料N₀~N_f被切換為神經網路1的後續的下一層的輸入特徵值。此時，先前的複數個輸入特徵值A₀~A_C從其記憶體S1~SN中被擦除。例如，如第3圖所示，第一階段資料的第一部分A₀~A₂從第一記憶體S1的第一區Z1擦除，第一階段資料的第二部分A₃~A₅從第二記憶體S2的第三區Z3擦除，並且將第一記憶體S1的第二區Z2和第二記憶體S2的第四區Z4轉換成輸入資料儲存區域，用於儲存相應的第二階段資料N₀~N_f，以及第一記憶體S1的第一區Z1和第二記憶體S2的第三區Z3被轉換成輸出資料儲存區域，用於儲存相應的第三階段資料B₀~B_C。

在一些實施例中，電腦系統30可以包括一個以上的處理器。此外，處理器310可以包括一個或多個處理器或一個或多個處理器核心。處理器310可以以任何期望的方式耦合到儲存媒體320和外圍設備330，例如，在一些實施例中，處理器310可以經由各種互相連接的方式耦合到儲存媒體320和/或外圍設備330。可選地或另外地，可以使用一個或多個橋接晶片來耦合處理器310、儲存媒體320、和外圍設備330。儲存媒體320可以包括任何類型的記憶體系統。例如，儲存媒體320可以包括DRAM，更具體地是雙資料率(DDR)SDRAM、RDRAM等。儲存媒體320的介面可以包括記憶體控制器，和/或處理器310可以包括記憶體控制器。儲存媒體320可以儲存在處理器310使用期間由處理器310執行的程序碼、和由處理器在使用期間操作的資料等。外圍設備330可以是任何種類的硬體設備，其設置在電腦系統30中或耦合到其上。

儲存媒體320可以包括代表包括在積體電路設計中的多晶片系統10(圖3中描繪)的一個或多個程序碼以及代表在多晶片系統(如第2圖和第3圖所示)中實施神經網路應用的過程的一個或多個代碼序列。每個代碼序列可以包括一個或多個指令，當由電腦系統30中的處理器310執行時，實現針對相應代碼序列描述的操作。一般而言，電腦可訪問的儲存媒體可以包括在使用期間電腦系統30可訪問的任何儲存媒體320，以向電腦系統30提供指令和/或資料。儲存媒體320可以物理地包括在電腦系統30內以向儲存媒體320提供指令/資料。可選地，儲存媒體320可以連接到電腦系統30。例如，儲存媒體320可以通過網路或無線鏈路(例如網路連接的儲存器)連接到電腦系統30。儲存媒體320可以通過諸如通用序列匯流排(USB)的外圍介面連接。通常，電腦可訪問的儲存媒體可以以非暫時性方式儲存資料，其中在該上下文中的非暫時性可以指的是不在訊號上發送指令/資料。例如，非暫時性儲存器可以是易失性的(並且可以響應於斷電而丟失所儲存的指令/資料)或非易失性的。

綜上所述，在本揭示中，多晶片系統能夠並行運行。為了提高機器學習加速晶片的性能，本揭示提供了一種用於多晶片系統的廣播通道，它是一種基於具有該功能的形式的市場需求的實現的結構設計理念。為了實現這一點，在本揭示中，每個晶片的輸入特徵值被部分地傳輸和共享，並且可以通過在其他晶片中同時使用它來計算群集，計算結果為最終輸出神經元數值，並再次作為下一層的輸入資料。這使我們能夠利用多晶片系統實現高性能、低成本、以及滿足市場需求。

以上僅是本揭示的較佳實施方式，應當指出，對於所屬領域技術人員，在不脫離本揭示原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本揭示的保護範圍。