TW201805858A

TW201805858A - 一種用於執行神經網絡運算的裝置及方法

Info

Publication number: TW201805858A
Application number: TW106126471A
Authority: TW
Inventors: 發明人放棄姓名表示權
Original assignee: 上海寒武紀信息科技有限公司
Priority date: 2016-08-05
Filing date: 2017-08-04
Publication date: 2018-02-16
Also published as: CN111310893B; WO2018024232A1; CN107688853A; CN111310893A; US20190171932A1; EP3496007A4; US11120331B2; TWI767925B; CN107688853B; EP3496007A1; EP3496007B1

Abstract

一種用於執行神經網絡運算的裝置及方法，裝置包括片上互聯模塊和與所述片上互聯模塊通信連接的多個神經網絡處理模塊，神經網絡處理模塊能夠通過片上互聯模塊從其它神經網絡處理模塊中讀寫數據。在多核多層人工神經網絡運算中，要將每一層神經網絡運算進行劃分，進而由多個神經網絡處理模塊進行運算，得到各自的運算結果數據，多個神經網絡處理單元還將各自的運算結果數據進行數據交換。

Description

一種用於執行神經網絡運算的裝置及方法

本發明屬於神經網絡運算領域，尤其涉及一種用於執行神經網絡運算的裝置及方法。

多層人工神經網絡被廣泛應用於模式識別，圖像處理，函數逼近和優化計算等領域，多層人工網絡在近年來由於其較高的識別準確度和較好的可並行性，受到學術界和工業界越來越廣泛的關注。人工神經網絡涉及到多種算法，其中使用多核多層神經網絡處理器來執行神經網絡運算，被廣泛的應用在各種人工神經網絡模型中以及各種使用神經網絡的場景中。

一種支持多核多層神經網絡運算的已知方法是使用通用處理器。該方法通過使用通用寄存器堆和通用功能部件執行通用指令來支持上述算法。該方法的缺點之一是單個通用處理器的運算性能較低，無法滿足通常的多核多層人工神經網絡運算的性能需求。而多個通用處理器並行執行時，通用處理器之間相互通信又成為了性能瓶頸。另外，通用處理器需要把人工神經網絡運算譯碼成一長列運算及訪存指令序列，處理器前端譯碼帶來了較大的功耗開銷

另一種支持多核多層人工神經網絡運算的已知方法是使用圖形處理器（graphics processing unit，GPU）。該方法通過使用通用寄存器堆和通用流處理單元執行通用單指令多數據流（single instruction multiple data，SIMD）指令來支持上述算法。由於GPU是專門用來執行圖形圖像運算以及科學計算的設備，沒有對人工神經網絡運算的專門支持，仍然需要大量的前端譯碼工作才能執行多層人工神經網絡運算，帶來了大量的額外開銷。另外GPU只有較小的片上緩存，多層人工神經網絡的模型數據（權值）需要反復從片外搬運，片外帶寬成為了主要性能瓶頸。

有鑒於此，本發明提供一種用於執行神經網絡運算的裝置及方法，能以低開銷的方式實現一層或多層多核多層人工神經網絡的運算，並且運算性能高效。

本發明提供一種用於執行神經網絡運算的裝置及方法，裝置包括片上互聯模塊和與該片上互聯模塊通信連接的多個神經網絡處理模塊，神經網絡處理模塊能夠通過片上互聯模塊從其它神經網絡處理模塊中讀寫數據。在多核多層人工神經網絡運算中，要將每一層神經網絡運算進行劃分，進而由多個神經網絡處理模塊進行運算，得到各自的運算結果數據，多個神經網絡處理單元還將各自的運算結果數據進行數據交換。例如每進行一層神經網絡計算之後，每個神經網絡處理模塊只計算得到了部分輸出數據，而在執行下一層神經網絡運算時，每個神經網絡處理模塊還會需求來自於其他神經網絡處理模塊的數據，因此每個神經網絡處理的需要將自己計算得到的運算結果數據發送給對應的神經網絡處理模塊，用以使之計算下一層的神經網絡。

用於執行神經網絡運算的裝置中，神經網絡處理模塊能夠通過片上互聯模塊從其它神經網絡處理模塊中讀寫數據，還可從本地讀寫數據。

進一步，神經網絡處理模塊包括神經網絡處理單元和高速存儲單元；神經網絡處理單元用於讀寫數據，高速存儲單元用於存儲本地數據。

進一步，用於執行神經網絡運算的裝置還包括外部存儲模塊，神經網絡處理模塊還能夠通過片上互聯模塊從外部存儲模塊中讀寫數據。

進一步，神經網絡處理單元包括指令隊列、高速緩存單元、IO讀取單元和神經網絡運算單元，其中：

進一步，指令隊列存儲有運算指令，IO讀取單元根據運算指令從該神經網絡處理單元的外部讀取數據，並將讀取的數據緩存至高速緩存單元中，神經網絡運算單元根據該運算指令從高速緩存單元中讀取所緩存的數據，並執行神經網絡運算，得到運算結果數據；

進一步，神經網絡處理單元還包括同步關係單元，指令隊列還存儲有數據送達指令，神經網絡運算單元向其它神經網絡運算單元發送數據後，所述神經網絡運算單元所對應的同步關係單元執行數據送達指令，以向其它神經網絡運算單元所對應的同步關係單元發送一數據送達信號。

進一步，指令隊列還存儲有數據依賴指令，所述神經網絡運算單元收到其其它神經網絡運算單元所發送的數據後，其對應的同步關係單元執行所述數據依賴指令以檢測是否是收到數據送達信號，若是，則繼續執行執行指令隊列中的指令，否則阻塞指令隊列。

進一步，指令隊列還存儲有數據同步指令，神經網絡處理單元中的同步關係單元通過執行所述數據同步指令，以向其它神經網絡處理單元中的同步關係單元發送一同步信號，以強制多個神經網絡處理單元做同步操作。

進一步，片上互聯模塊包括一級互聯模塊和與該一級互聯模塊通信連接的多個二級互聯模塊，一級互聯模塊還與所述外部存儲模塊通信連接，所述多個二級互聯模塊與多個神經網絡處理模塊一一對應，其中，每個二級互聯模塊分別與相應神經網絡處理模塊中的神經網絡處理單元和高速存儲單元通信連接。

本發明還提供一種用於執行單層神經網絡運算的方法，包括：

S1，多個神經網絡處理模塊中的每個神經網絡處理模塊直接從本地讀取數據，和/或通過片上互聯模塊從其它神經網絡處理模塊中讀取數據，其中，多個神經網絡處理模塊與該片上互聯模塊通信連接；

S2，每個神經網絡處理模塊根據讀取的數據進行單層神經網絡的部分運算，得到各自的運算結果數據；

S3，每個神經網絡處理模塊將各自的運算結果數據進行本地存儲和/或通過片上互聯模塊將各自的運算結果數據寫入至其他神經網絡處理模塊中。

進一步，步驟S3中，每個神經網絡處理模塊將各自的運算結果寫入至其它神經網絡處理模塊中後，向其它特定的神經網絡處理模塊發送一數據送達信號。

本發明還提供一種用於執行多層神經網絡運算的方法，對於每一層神經網絡運算，執行上述步驟S1-S3，並將該層各神經網絡處理模塊得到的運算結果數據用於下一層神經網絡運算。

本發明所提供的用於執行神經網絡運算的裝置及方法，具有以下優點：

1、由於採用多核神經網絡處理模塊，允許單層的神經網絡將任務劃分，在多個神經網絡處理模塊上執行，並且採用了專用指令，允許在執行多層神經網絡的時候，可以在多個神經網絡處理器之間相互傳輸計算得到的數據，故能實現多層多核的神經網絡運算。

2、由於採用多核神經網絡處理模塊，解決了在執行多核多層神經網絡處理運算的時候，單個處理器處理性能不足的問題，具有顯著加速多核多層神經網絡運算的效果。

3、由於採用了專用的數據指令，有效的解決了在執行多核多層神經網絡時，其多個處理器之間需要交互大量數據的問題，具有顯著加速多核多層神經網絡運算的效果。

本發明提供的用於執行人工神經網絡運算的裝置可以應用於以下（包括但不限於）場景中：數據處理、機器人、電腦、打印機、掃描儀、電話、平板電腦、智能終端、手機、行車記錄儀、導航儀、傳感器、攝像頭、雲端服務器、相機、攝像機、投影儀、手錶、耳機、移動存儲、可穿戴設備等各類電子產品；飛機、輪船、車輛等各類交通工具；電視、空調、微波爐、冰箱、電飯煲、加濕器、洗衣機、電燈、燃氣灶、油煙機等各類家用電器；以及包括核磁共振儀、B超、心電圖儀等各類醫療設備。

圖1是本發明提供的用於執行神經網絡運算的裝置的結構示意圖，如圖1所示，裝置包括多個神經網絡處理模塊10及一個片上互聯模塊20，多個神經網絡處理模塊10與該片上互聯模塊20通信連接，其中：

神經網絡處理模塊10能夠通過片上互聯模塊20從其它神經網絡處理模塊10中讀寫數據，還可從本地讀寫數據。當要執行神經網絡運算時，每個神經網絡處理模塊10作為一個核執行相應的運算，其運算所需的數據可直接從本地直接獲取，也可通過片上互聯模塊20與其他神經網絡處理模塊10通信，以從其他神經網絡處理模塊10處讀取運算所需的數據。各個神經網絡處理模塊10讀取運算所需的數據後，執行相應的運算，得到各自的運算結果數據，在單層神經網絡運算中，各個神經網絡處理模塊10可將各自的運算結果數據匯總至一個神經網絡處理模塊10中進行累加，以得到最終結果數據。在多層神經網絡運算中，當層各個神經網絡處理模塊10計算得到運算結果數據，可能在下一層作為運算所需的數據被其他神經網絡處理模塊10使用，這樣在當層神經網絡運算完畢後，各個神經網絡處理模塊10會進行數據交互，以準備進行下一層神經網絡運算。

圖2是本發明中神經網絡處理模塊的結構示意圖，如圖2所示，神經網絡處理模塊10包括神經網絡處理單元11和高速存儲單元12；神經網絡處理模塊10在進行神經網絡運算時，神經網絡處理單元11直接從與其對應的高速儲存單元12中讀取數據，和/或通過片上互聯模塊20從其它神經網絡處理模塊10中的神經網絡處理單元11中讀取數據，和/或通過片上互聯模塊20從其它神經網絡處理模塊10中的高速存儲單元12中讀取數據；每個神經網絡處理模塊10中的神經網絡處理單元11根據讀取的數據進行神經網絡運算，得到各自的運算結果數據；在完成運算後，神經網絡處理單元11將運算結果數據直接寫入至與其對應的高速儲存單元12中，和/或通過片上互聯模塊20將運算結果數據寫入至其它神經網絡處理模塊10中的神經網絡處理單元11中，和/或通過片上互聯模塊20將運算結果數據寫入至其它神經網絡處理模塊10中的高速存儲單元12中。總之，神經網絡處理單元11可直接從其對應的高速儲存單元獲取數據，也可以通過片上互聯模塊20獲取其它位置的數據，這樣避免了反復向內存讀取數據，降低了內存訪問帶寬。

如圖3所示，本發明提供的用於執行神經網絡運算的裝置還包括外部存儲模塊30，其與片上互聯模塊20通信連接，神經網絡處理模塊10還能夠通過片上互聯模塊從外部存儲模塊中讀寫數據，利用外部存儲模塊30，可以從外界向裝置中導入新的數據，裝置執行的最終執行結果數據也可以寫入至外部存儲模塊30，以供外部導出。其中，外部存儲模塊30可以通過硬件來實現（包括但不限於FPGA、CGRA、專用集成電路ASIC、模擬電路或憶阻器等）。

圖4是本發明中神經網絡處理單元11的結構示意圖，如圖4所示，神經網絡處理單元11包括指令隊列111、神經網絡運算單元112、IO讀取單元113、高速緩存單元114和同步關係單元115。指令隊列111存儲有多種類型的指令，神經網絡處理單元11根據不同的指令執行不同的操作。下表為各類指令的描述：

指令包括指令名稱以及多個操作碼：

數據送達指令，指令名稱為確認字符（acknowledgement，ACK），其中各個操作碼分別表示是否向該神經網絡處理單元11發送數據送達信號（ACK信號），神經網絡處理單元11向其他神經網絡處理單元11寫入數據後，執行數據送達指令以發送數據送達信號給對應的神經網絡處理單元11，以表明數據已經傳輸到位；

數據依賴指令，指令名稱為FENCE，其中各個操作碼表示是否檢查來自該神經網絡處理單元11的ACK信號；神經網絡處理單元11執行數據依賴指令以檢測其所有依賴的數據是否已經到達本神經網絡處理單元。

數據同步指令，指令名稱為SYNC，其中各個操作碼表示該神經網絡處理單元是否參與同步操作，神經網絡處理單元11執行數據同步指令用以強制多個神經網絡處理單元11做同步操作，即當多個神經網絡都執行到當前指令後，這些神經網絡處理單元才可以執行之後的指令；

運算指令，指令名稱為COMPUTE，其中第一個操作碼表示具體的計算任務，如MLP，CONV，POOL等，其餘操作碼用來表示輸入輸出數據的地址和大小，以及神經網絡計算指令的配置信息。

輸入輸出指令，指令名稱為IO，其中的操作碼分別表示搬運數據的起始地址，結束地址以及數據大小的信息，神經網絡處理單元11執行輸入輸出指令以與其餘模塊之間進行通信數據。

IO讀取單元根據113根據指令隊列111中的運算指令從該神經網絡處理單元11的外部（如高速存儲單元12、其他神經網絡處理單元11等）讀取數據，並將讀取的數據緩存至高速緩存單元114中，神經網絡運算單元112根據該運算指令從高速緩存單元114中讀取所緩存的數據，並執行神經網絡運算，得到相應的運算結果數據；

神經網絡運算單元112將運算結果數據寫入至高速緩存單元114中，當需要將運算結果數據發送中外部（其他神經網絡處理單元11等）時，IO讀取單元113從高速緩存單元114中讀取運算結果數據，並將運算結果數據寫入到該神經網絡處理單元11的外部。

圖5是本發明中片上互聯模塊的結構示意圖，如圖5所示，片上互聯模塊20包括一級互聯模塊21和與該一級互聯模塊通信連接的多個二級互聯模塊22，一級互聯模塊21還與外部存儲模塊30通信連接，多個二級互聯模塊22與多個神經網絡處理模塊10一一對應，其中，每個二級互聯模塊22分別與相應神經網絡處理模塊中的神經網絡處理單元11和高速存儲單元12通信連接。具體的，二級的互聯模塊22一個端口連接神經網絡處理單元11，一個端口連接該神經網絡處理單元對應的高速存儲單元12，另一個端口連接一級互聯模塊21，一級互聯模塊21將多個二級互聯模塊22和外部存儲模塊30連接，用以保證這些模塊之間的數據通路。這樣，可以在保證各個神經網絡處理單元11以及高速存儲單元12和外部存儲模塊30之間相互通信，並且佔用較小的面積開銷。

採用本發明以上所描述的裝置，可執行單層神經網絡運算，包括：

S1，每個神經網絡處理模塊10根據其自身指令隊列11中存儲的計算指令，根據指令中操作碼所指示的地址，直接從本地讀取數據，和/或通過片上互聯模塊20從其它神經網絡處理模塊10中讀取數據；

S2，每個神經網絡處理模塊10根據讀取的數據進行單層神經網絡的部分運算，得到各自的運算結果數據；

S3，每個神經網絡處理模塊10將各自的運算結果數據進行本地存儲和/或通過片上互聯模塊20將各自的運算結果數據寫入至其他神經網絡處理模塊10中。

對於多層神經網絡運算，其實現過程與單層神經網絡類似，當上一層人工神經網絡執行完畢後，在下一層運算時，每個神經網絡處理模塊10根據新的運算指令從新的地址讀取新的數據進行計算，並且依據新的指令在多核（即多個神經網絡處理模塊10）之間分配計算任務。對於每一層神經網絡運算，執行上述步驟S1-S3，並將該層各神經網絡處理模塊10得到的運算結果數據用於下一層神經網絡運算。

為使本發明的目的、技術方案和優點更加清楚明白，以下結合具體實施例，並參照圖式，對本發明進一步詳細說明。應當說明的是，雖然下面所述實施例僅討論了全連接層的運算流程圖，但是不局限在全連接層，也可以是所有的人工神經網絡算法的運算流程圖。

圖6是本發明執行一層全連接層運算實施例的流程圖，其執行過程如圖6所示：

步驟1：依據運算指令COMPUTE，每個神經網絡處理單元11從對應的高速存儲單元12中讀取數據，分別計算得到全連接層的部分運算結果數據。

在每個神經網絡處理單元11中，指令隊列111將運算指令COMPUTE發送至神經網絡運算單元112和IO讀取單元113，神經網絡運算單元112根據運算指令COMPUTE中的指令名稱，確定將要執行一層全連接層運算，具體的，IO讀取單元113根據運算指令COMPUTE中的地址從其對應的高速存儲單元12中讀取運算所需數據，並將讀取的數據存儲於高速緩存單元114中，神經網絡運算單元112從高速緩存單元114中讀取相應的數據，然後根據讀取的數據執行運算指令COMPUTE，以進行全連接層的部分運算，得到全連接層的部分運算結果數據作為輸出數據。

步驟2：依據輸入輸出指令IO，每個神經網絡處理單元11將自己計算的到的部分運算結果數據通過片上互聯模塊20發送給相應的神經網絡處理單元11。由於每個神經網絡處理單元11只計算出部分運算結果數據，因此其需要將該部分輸出數據發送給相應的神經網絡處理單元11進行加和運算。

具體的，步驟1中神經網絡運算單元112將計算得到的部分運算結果數據存儲於高速緩存單元114中，指令隊列111將輸入輸出指令IO發送給IO讀取單元113後，IO讀取單元113執行輸出指令IO，以將存儲於高速緩存單元114中的部分運算結果數據讀取，併發送至外部的相應的神經網絡處理單元11。這裡需要說明的是，每個神經網絡處理單元11可能會將部分運算結果數據發送至一個對應的神經網絡處理單元11中，也可能發送至多個對應的神經網絡處理單元11中，也就是說，每個神經網絡處理單元11也可能收到一個神經網絡處理單元11發送的部分運算結果數據，也可能收到多個神經網絡處理單元11發送的部分運算結果數據。

步驟3：每個神經網絡處理單元11將自己計算的到的部分運算結果數據發送給相應的神經網絡處理單元11後，需要執行數據送達指令ACK，以向對應的神經網絡處理單元11發送數據送達信號。每個神經網絡處理單元11需要向接受其發送數據的神經網絡處理單元11發送數據送達信號，用以表明其數據依賴關係。

步驟4：依據數據依賴指令FENCE，每個神經網絡處理單元11檢測其發送數據送達信號是否到達相應的神經網絡處理單元11，如果沒有到達，則等待對應的數據送達信號到達相應的神經網絡處理單元11。對於每個將要進行加和運算神經網絡處理單元11，只有其收到所有其他神經網絡處理單元11所發送的數據送達信號時，才表明其所需要的輸入數據全部到達，從而執行加和運算。

步驟5：依據運算指令COMPUTE，每個的神經網絡處理單元11匯集其他神經網絡處理單元11的部分運算結果數據後，聯合上自身運算所得的部分運算結果數據進行加和運算，得到最終的運算結果數據。

步驟6：依據輸入輸出指令IO，每個神經網絡處理單元11將計算得到的最終的運算結果數據作為輸出數據寫入外部存儲模塊30中。在每個神經網絡處理單元11中，將最終的運算結果數據寫入外部存儲模塊30中的執行過程與步驟2類似，在此就不再贅述。

綜上所述，本發明提供的裝置和指令集，解決了CPU和GPU運算性能不足、前端譯碼開銷大的問題，能有效支持多層人工神經網絡運算，同時，針對多核多層人工神經網絡運算採用專用片上存儲，充分挖掘了神經元和權值數據的重用性，避免了反復向內存讀取這些數據，降低了內存訪問帶寬，避免了內存帶寬成為多層人工神經網絡全連接層正向運算性能瓶頸的問題。

前面的圖式中所描繪的進程或方法可通過包括硬件（例如，電路、專用邏輯等）、固件、軟件（例如，被具體化在非瞬態計算機可讀介質上的軟件），或兩者的組合的處理邏輯來執行。雖然上文按照某些順序操作描述了進程或方法，但是，應該理解，所描述的某些操作能以不同順序來執行。此外，可並行地而非順序地執行一些操作。

以上所述的具體實施例，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施例而已，並不用於限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

1、2、3、4、5、6‧‧‧步驟
10‧‧‧神經網絡處理模塊
11‧‧‧神經網絡處理單元
12‧‧‧高速存儲單元
20‧‧‧片上互聯模塊
30‧‧‧外部存儲模塊
111‧‧‧指令隊列
112‧‧‧神經網絡運算單元
113‧‧‧IO讀取單元
114‧‧‧高速緩存單元
115‧‧‧同步關係單元

圖1是本發明提供的用於執行神經網絡運算的裝置的結構示意圖。

圖2是本發明中神經網絡處理模塊的結構示意圖。

圖3是本發明中外部存儲模塊的結構示意圖。

圖4是本發明中神經網絡處理單元的結構示意圖。

圖5是本發明中片上互聯模塊的結構示意圖。

圖6是本發明執行一層全連接層運算實施例的流程圖。

10‧‧‧神經網絡處理模塊

20‧‧‧片上互聯模塊

Claims

一種用於執行神經網絡運算的裝置，其中，包括ㄧ片上互聯模塊和與所述片上互聯模塊通信連接的多個神經網絡處理模塊，其中：所述神經網絡處理模塊能夠通過所述片上互聯模塊從其它神經網絡處理模塊中讀寫數據。
根據申請專利範圍第1項所述的用於執行多核多層神經網絡運算的裝置，其中，所述神經網絡處理模塊還從本地讀寫數據。
根據申請專利範圍第2項所述的用於執行神經網絡運算的裝置，其中，所述神經網絡處理模塊包括ㄧ神經網絡處理單元和ㄧ高速存儲單元；以及所述神經網絡處理單元用於讀寫數據，所述高速存儲單元用於存儲本地數據。
根據申請專利範圍第1-3項任意一項所述的用於執行神經網絡運算的裝置，其中，還包括ㄧ外部存儲模塊，所述神經網絡處理模塊還能夠通過所述片上互聯模塊從所述外部存儲模塊中讀寫數據。
根據申請專利範圍第2項所述的用於執行神經網絡運算的裝置，其中，所述神經網絡處理單元包括ㄧ指令隊列、ㄧ高速緩存單元、ㄧIO讀取單元和ㄧ神經網絡運算單元，其中：所述指令隊列存儲有ㄧ運算指令，所述IO讀取單元根據所述運算指令從所述神經網絡處理單元的外部讀取數據，並將讀取的數據緩存至所述高速緩存單元中，所述神經網絡運算單元根據所述運算指令從所述高速緩存單元中讀取所緩存的數據，並執行神經網絡運算，得到ㄧ運算結果數據；所述神經網絡運算單元將所述運算結果數據寫入至所述高速緩存單元中，所述IO讀取單元從所述高速緩存單元中讀取所述運算結果數據，並將所述運算結果數據寫入到所述神經網絡處理單元的外部。
根據申請專利範圍第5項所述的用於執行神經網絡運算的裝置，其中，所述神經網絡處理單元還包括ㄧ同步關係單元，所述指令隊列還存儲有數據送達指令，所述神經網絡運算單元向其它神經網絡運算單元發送數據後，所述神經網絡運算單元所對應的同步關係單元執行數據送達指令，以向其它神經網絡運算單元所對應的同步關係單元發送一數據送達信號。
根據申請專利範圍第6項所述的用於執行神經網絡運算的裝置，其中，所述指令隊列還存儲有ㄧ數據依賴指令，所述神經網絡運算單元收到其它神經網絡運算單元所發送的數據後，其對應的同步關係單元執行所述數據依賴指令以檢測是否是收到數據送達信號，若是，則繼續執行所述指令隊列中的指令，否則阻塞所述指令隊列。
根據申請專利範圍第6項所述的用於執行神經網絡運算的裝置，其中，所述指令隊列還存儲有ㄧ數據同步指令，所述神經網絡處理單元中的同步關係單元通過執行所述數據同步指令，以向其它神經網絡處理單元中的同步關係單元發送一同步信號，以強制多個神經網絡處理單元做同步操作。
根據申請專利範圍第3項所述的用於執行神經網絡運算的裝置，其中，所述片上互聯模塊包括ㄧ一級互聯模塊和與所述一級互聯模塊通信連接的多個二級互聯模塊，所述一級互聯模塊還與所述外部存儲模塊通信連接，所述多個二級互聯模塊與所述多個神經網絡處理模塊一一對應，其中，每個二級互聯模塊分別與相應神經網絡處理模塊中的神經網絡處理單元和高速存儲單元通信連接。
一種用於執行單層神經網絡運算的方法，其中，包括： S1，多個神經網絡處理模塊中的每個神經網絡處理模塊直接從本地讀取數據，和/或通過ㄧ片上互聯模塊從其它神經網絡處理模塊中讀取數據，其中，多個神經網絡處理模塊與所述片上互聯模塊通信連接； S2，每個神經網絡處理模塊根據讀取的數據進行單層神經網絡的部分運算，得到各自的運算結果數據；以及 S3，每個神經網絡處理模塊將各自的運算結果數據進行本地存儲和/或通過所述片上互聯模塊將各自的運算結果數據寫入至其他神經網絡處理模塊中。
根據申請專利範圍第10項所述的用於執行單層神經網絡運算的方法，其中，所述步驟S3中，每個神經網絡處理模塊將各自的運算結果寫入至其它神經網絡處理模塊中後，向其它特定的神經網絡處理模塊發送一數據送達信號。
一種用於執行多層神經網絡運算的方法，其中，對於每一層神經網絡運算，執行如申請專利範圍第10項所述的方法，並將該層各神經網絡處理模塊得到的運算結果數據用於下一層神經網絡運算。