TWI731373B

TWI731373B - 晶片、基於其的資料處理方法及計算設備

Info

Publication number: TWI731373B
Application number: TW108125249A
Authority: TW
Inventors: 潘國振; 徐建國; 劉永超; 章海濤; 黃啟印; 朱冠胤
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2018-09-30
Filing date: 2019-07-17
Publication date: 2021-06-21
Also published as: US20210342680A1; WO2020063184A1; CN109359732B; SG11202010628SA; EP3779804A1; CN109359732A; TW202014886A; EP3779804A4; US11361217B2; US20210049453A1; US11062201B2

Abstract

本說明書實施例提供一種晶片及基於其的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行計算任務，所述方法在晶片端執行，包括：獲取待處理資料；以及透過由所述嵌入式CPU執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於所述待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。

Description

晶片、基於其的資料處理方法及計算設備

本說明書實施例涉及資料處理技術領域，更具體地，涉及一種晶片及基於其的資料處理方法。

隨著AI技術的發展，其對計算量的需求越來越大，特別是作為線上服務的神經網路預測對處理時延有著相當苛刻的要求，在該情況下，伺服器CPU上跑的軟體通常滿足不了這種要求。現有技術中，透過硬體加速的方法來縮短這種處理時延，在該情況中，需要硬體具備一定的靈活性，以滿足神經網路結構的升級以及待處理資料長短的變化。當程式遇到一大段計算量時，它會把待處理的資料透過PCIE匯流排發給晶片，晶片算完之後再透過PCIE匯流排將結果傳回程式記憶體。晶片上的運算單元通常被設計成較通用的，透過伺服器CPU下發的控制參數來指定具體怎麼運算，比如透過一個通用的卷積運算單元來處理各種卷積操作。但如果一段程式包含有多次晶片運算單元的呼叫，伺服器CPU和晶片之間資料交互的開銷就會非常大。目前通用的做法是在晶片上把各個運算單元如卷積的控制設計成格式化的二進位指令，然後把神經網路的各層呼叫映射到這些指令上、並集合成一個序列，再下放到晶片上，晶片上的邏輯解析每一條指令並啟動相應的運算單元。

因此，需要一種更有效的基於晶片的資料處理方案。

本說明書實施例旨在提供一種更有效的基於晶片的資料處理方案，以解決現有技術中的不足。

為實現上述目的，本說明書一個態樣提供一種基於晶片的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行計算任務，所述方法在晶片端執行，包括：獲取待處理資料；以及透過由所述嵌入式CPU執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於所述待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。

本說明書另一態樣提供一種基於晶片的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行神經網路的預測計算，所述方法在晶片端執行，包括：獲取待處理資料；以及基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。在一個實施例中，在所述資料處理方法中，所述晶片與伺服器連接。在一個實施例中，在所述資料處理方法中，所述待處理資料透過所述伺服器傳送至所述晶片。在一個實施例中，在所述資料處理方法中，所述嵌入式CPU透過運行基於程式的彙編指令而執行所述步驟，其中，所述程式由所述伺服器傳送至所述晶片。在一個實施例中，在所述資料處理方法中，所述程式為C語言程式。在一個實施例中，在所述資料處理方法中，呼叫所述多個運算子單元包括，透過C語言程式中的函數呼叫，呼叫所述多個運算子單元。在一個實施例中，在所述資料處理方法中，所述晶片還包括DMA模組，所述方法還包括，在獲取所述處理結果之後，透過所述嵌入式CPU控制所述DMA模組，以將所述處理結果寫入所述伺服器的記憶體中。在一個實施例中，在所述資料處理方法中，呼叫所述多個運算子單元包括，非同步地呼叫所述多個運算子單元。在一個實施例中，在所述資料處理方法中，配置所述多個運算子單元包括，對所述待處理資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。在一個實施例中，在所述資料處理方法中，所述晶片用於執行多種神經網路的預測計算，其中，獲取待處理資料包括，獲取待處理資料及其對應的神經網路的類型，其中，基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果包括，基於所述待處理資料及其對應的神經網路的類型，執行該類型的神經網路中的每一層的計算，以獲取處理結果。本說明書另一態樣提供一種晶片，用於執行計算任務，所述晶片包括：多個運算子單元，以及嵌入式CPU，配置為，透過執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於從所述晶片的外部輸入的待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理的結果。本說明書另一態樣提供一種晶片，用於執行神經網路的預測計算，所述晶片包括：多個運算子單元，以及嵌入式CPU，配置為，基於從所述晶片的外部輸入的待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。在一個實施例中，所述晶片與伺服器連接。在一個實施例中，在所述晶片中，所述待處理資料透過所述伺服器傳送至所述晶片。在一個實施例中，在所述晶片中，所述嵌入式CPU透過運行基於程式的彙編指令而執行所述步驟，其中，所述程式由所述伺服器傳送至所述晶片。在一個實施例中，在所述晶片中，所述程式為C語言程式。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，透過C語言中的函數呼叫，呼叫所述多個運算子單元。在一個實施例中，在所述晶片中，所述晶片還包括DMA模組，所述嵌入式CPU還配置為，在獲取所述處理結果之後，透過控制所述DMA模組，以將所述處理結果寫入所述伺服器的記憶體中。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，非同步地呼叫所述多個運算子單元。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，對所述待處理資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。在一個實施例中，在所述晶片中，所述晶片為ASIC晶片或FPGA晶片。在一個實施例中，所述晶片用於執行多種神經網路的預測計算，其中，所述嵌入式CPU還配置為，基於從所述晶片的外部輸入的待處理資料及其對應的神經網路的類型，執行所述類型的神經網路中的每一層的計算，以獲取處理結果。本說明書另一態樣提供一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現上述任一項資料處理方法。透過根據本說明書實施例的基於晶片的資料處理方案，因為引入了嵌入式CPU，天然在晶片內部就可以完成較細運算子的控制；C語言函數呼叫的方式又大大節省了程式指令的空間，並且，嵌入式CPU上C程式天然就可以完美地進行控制類型的操作，比如各種if/for/while等嵌套；嵌入式CPU上的C程式可以對輸入資料的長度做判斷，並靈活產生計算過程中下發給各個運算子單元的參數；另外，當所述神經網路結構升級時，可透過伺服器向晶片傳入新的程式，以進行更新的神經網路的預測計算。

下面將結合圖式描述本說明書實施例。圖1示出根據本說明書實施例的資料處理系統的100的示意圖。如圖1所示，系統100包括伺服器11和晶片12，其例如透過PCIE匯流排連接。伺服器11中包括伺服器CPU111和記憶體112。晶片12中包括嵌入式CPU121、多個運算子單元122、以及DMA模組123。該晶片12用於執行計算任務，例如神經網路的預測計算。伺服器11在需要透過呼叫晶片12以進行例如神經網路的預測計算時，其例如透過伺服器CPU111將該神經網路預測的待處理資料經PCIE匯流排從記憶體傳到晶片中。晶片12中的嵌入式CPU121透過運行程式調度各個運算子單元122基於所述待處理資料完成神經網路每一層的計算，從而獲取最終的處理結果，即神經網路的預測結果。在獲取處理結果之後，由嵌入式CPU121控制DMA模組經PCIE匯流排將該處理結果傳回伺服器記憶體112。圖2示出根據本說明書實施例的一種基於晶片的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行計算任務，所述方法在晶片端執行，包括：在步驟S202，獲取待處理資料；以及在步驟S204，透過由所述嵌入式CPU執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於所述待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。首先，在步驟S202，獲取待處理資料。在一個實施例中，所述晶片與伺服器連接。所述伺服器在呼叫該晶片進行計算時，將該待處理資料傳送至該晶片。可以理解，該晶片不限於與伺服器連接，例如，其可以為獨立的用於進行任務計算的硬體，並透過自身的輸入模組獲取待處理資料。在一個實施例中，該晶片位於PCIE板卡上，為ASIC晶片或FPGA晶片，所述伺服器透過伺服器CPU經PCIE匯流排將所述待處理資料傳送到晶片。在一個實施例中，所述伺服器透過其中運行的應用程式將所述待處理資料傳送到晶片。在一個實施例中，所述晶片可同時接收多個應用程式傳送的待處理資料，所述晶片透過嵌入式CPU進行對所述多個待處理資料的收集。在步驟S204，透過由所述嵌入式CPU執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於所述待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。嵌入式CPU透過運行基於程式的彙編指令而進行所述計算。所述程式例如為C語言程式。所述晶片例如透過其中的SOC(系統單晶片編譯器)，將所述程式翻譯成組合語言程式。其中，所述程式由所述伺服器傳送至所述晶片。在進行計算時，所述嵌入式CPU首先透過運行程式配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，所述不同類型的計算例如包括：矩陣相乘的計算、向量相加的計算、非線性運算等等。然後，嵌入式CPU透過繼續運行程式以執行具體的計算過程，其中的計算基於所述待處理資料進行的，並且，在計算中遇到各種類型的計算時，透過呼叫各個相應的運算子單元完成該計算。在複雜的計算任務中，可能需要經過多輪的計算，才能獲取最終的處理結果，其中，在每輪計算中，都透過預設的程式重新配置運算子單元，以適用於該輪的計算需要。在一個實施例中，所述計算任務例如為神經網路的預測計算。在該情況中，所述嵌入式CPU基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，即神經網路的預測結果。其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。也就是說，對於神經網路的每一層，嵌入式CPU都會重新配置運算子單元，並依次進行該層中各個神經元處的計算。從C語言程式的角度看，程式會進行兩層的循環。在外層循環中，程式循環n次，其中n是神經網路除輸入層之外的層數，以對神經網路除輸入層的每一層進行計算。而在內層循環中，即在對每層的計算中，程式循環m次，其中m是神經元的個數，以對每層中的每個神經元進行計算。圖3示出了神經網路的示意圖，如圖3中所示，左側的層為輸入層，其包括(1)和(2)兩個輸入神經元，中間的層為隱藏層，其包括(3)、(4)和(5)三個神經元，右側的層為輸出層，其包括輸出神經元(6)。其中，在中間層中，在神經元(3)處，其針對上一層神經元的參數分別為W₁₃ 、W₂₃ ，在神經元(4)處，參數包括W₁₄ 、W₂₄ ，在神經元(5)處，參數包括W₁₅ 、W₂₅ ，以及在神經元(6)處，參數包括W₃₆ 、W₄₆ 和W₅₆ 。在進行對圖3所示的神經網路的計算中，首先，對中間層進行計算，在該層的計算中，例如包括矩陣相乘的計算、向量相加的計算等，從而，嵌入式CPU可配置與矩陣相乘和向量相加分別對應的兩個運算子單元，並透過程式循環對神經元(3)、(4)和(5)分別進行計算。例如，在對神經元(3)的計算中，可將從輸入層獲取的待處理資料和神經元(3)處的參數(W₁₃ 、W₂₃ )輸入上述兩個運算子單元中，以獲得該神經元(3)處的中間結果，其可視為神經元(3)處的值。在完成對中間層的計算(即，獲取神經元(3)、(4)和(5)各自的值)之後，嵌入式CPU在外層循環中進入下一次循環，即，對輸出層進行計算，在對輸出層的計算中例如包括sigmoid函數計算，因此，嵌入式CPU基於運行的程式配置執行sigmoid函數計算的運算子單元，並對神經元(6)進行計算。在對神經元(6)的計算中，嵌入式CPU基於運行的程式呼叫運算子單元，並將神經元(3)、(4)和(5)各自的值和神經元(6)的參數輸入該運算子單元，從而獲得神經元(6)的值，該值即為該神經網路的預測值。從上述對圖3所示的神經網路的計算實例中可以得出，在對每個神經元的計算中，透過呼叫相應的運算子單元進行具體的計算，從而得到該神經元處的值。其中，當該神經元位於神經網路的隱藏層時，透過計算獲取的該神經元處的值為中間結果，將該中間結果儲存在晶片中或晶片所在的PCIE卡中的ddr記憶體中，以備後續的計算使用。當該神經元位於神經網路的輸出層時，透過計算獲取的該神經元處的值即為該神經網路的預測值，則透過嵌入式CPU配置DMA描述符，以控制DMA模組將該預測值寫入伺服器的記憶體中。根據本說明書實施例的該資料處理方法尤其適用於神經網路的預測計算。對於晶片中神經網路的計算，目前通用的做法是在晶片上把各個運算單元如卷積的控制設計成格式化的二進位指令，然後把神經網路的各層呼叫映射到這些指令上、並集合成一個序列，再下放到晶片上，晶片上的邏輯解析每一條指令並啟動相應的運算單元。然而，該方式適用於較大運算子的運算單元，對於較細運算子的控制，用這種指令序列的方式效率不高、且指令序列的量會非常多；對於控制類型的操作，指令序列的方式幾乎難以完成(比如用指令序列做多個循環的嵌套就非常困難)；對於輸入資料長度適配的問題，比如每次CNN網路的輸入圖像大小不一樣或者每次LSTM網路輸入的語音長度不一致，這會讓指令序列無所適從；如果每次輸入資料長度不一樣都重新下載指令序列，這個過程引起的延時對業務來說太長了。而在本說明書實施例的基於晶片的資料處理方案中，因為引入了嵌入式CPU，天然在晶片內部就可以完成較細運算子的控制；C語言函數呼叫的方式又大大節省了程式指令的空間，並且，嵌入式CPU上C程式天然就可以完美地進行控制類型的操作，比如各種if/for/while等嵌套；嵌入式CPU上的C程式可以對輸入資料的長度做判斷，並靈活產生計算過程中下發給各個運算子單元的參數；另外，當所述神經網路結構升級時，可透過伺服器向晶片傳入新的程式，以進行更新的神經網路的預測計算。在一個實施例中，所述嵌入式CPU還配置為，透過C語言中的函數呼叫，呼叫所述多個運算子單元。在一個實施例中，所述晶片還包括DMA模組，所述嵌入式CPU還配置為，在獲取所述處理結果之後，透過控制所述DMA模組，以將所述處理結果寫入所述伺服器的記憶體中。在一個實施例中，所述嵌入式CPU還配置為，非同步地呼叫所述多個運算子單元。透過非同步地呼叫多個運算子單元，從而可以盡可能地讓多個運算子單元並行地工作，從而提高硬體的利用率。在一個實施例中，所述嵌入式CPU還配置為，對待處理資料或神經網路各層的輸入資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。在一個實施例中，所述晶片用於執行多種神經網路的預測計算，其中，獲取待處理資料包括，獲取待處理資料及其對應的神經網路的類型，其中，基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果包括，基於所述待處理資料及其對應的神經網路的類型，執行該類型的神經網路中的每一層的計算，以獲取處理結果。所述多種神經網路例如包括cnn、dnn、rnn等，所述晶片例如透過獲取指示神經網路類型的控制資訊(如神經網路標識等)，從而獲取神經網路的類型。晶片在獲取神經網路類型之後，會在嵌入式CPU中基於神經網路的類型選定與該類型對應的程式並運行該程式，從而執行該類型的神經網路的計算。圖4示出根據本說明書實施例的一種晶片400，用於執行計算任務，所述晶片包括：多個運算子單元41，以及嵌入式CPU42，配置為，透過執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於從所述晶片的外部輸入的待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理的結果。在一個實施例中，所述計算任務為神經網路的預測計算，所述嵌入式CPU42配置為，基於從所述晶片的外部輸入的待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。在一個實施例中，所述晶片與伺服器連接。在一個實施例中，在所述晶片中，所述待處理資料透過所述伺服器傳送至所述晶片。在一個實施例中，在所述晶片中，所述嵌入式CPU透過運行基於程式的彙編指令而執行所述步驟，其中，所述程式由所述伺服器傳送至所述晶片。在一個實施例中，在所述晶片中，所述程式為C語言程式。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，透過C語言中的函數呼叫，呼叫所述多個運算子單元。在一個實施例中，在所述晶片中，所述晶片還包括DMA模組43，所述嵌入式CPU還配置為，在獲取所述處理結果之後，透過控制所述DMA模組，以將所述處理結果寫入所述伺服器的記憶體中。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，非同步地呼叫所述多個運算子單元。在一個實施例中，在所述晶片中，所述嵌入式CPU還配置為，對所述待處理資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。在一個實施例中，在所述晶片中，所述晶片為ASIC晶片或FPGA晶片。在一個實施例中，所述晶片用於執行多種神經網路的預測計算，其中，所述嵌入式CPU還配置為，基於從所述晶片的外部輸入的待處理資料及其對應的神經網路的類型，執行所述類型的神經網路中的每一層的計算，以獲取處理結果。本說明書另一態樣提供一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現圖2所示的資料處理方法。透過根據本說明書實施例的基於晶片的資料處理方案，因為引入了嵌入式CPU，天然在晶片內部就可以完成較細運算子的控制；C語言函數呼叫的方式又大大節省了程式指令的空間，並且，嵌入式CPU上C程式天然就可以完美地進行控制類型的操作，比如各種if/for/while等嵌套；嵌入式CPU上的C程式可以對輸入資料的長度做判斷，並靈活產生計算過程中下發給各個運算子單元的參數；另外，當所述神經網路結構升級時，可透過伺服器向晶片傳入新的程式，以進行更新的神經網路的預測計算。本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多工處理和平行處理也是可以的或者可能是有利的。本領域普通技術人員應該還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道，取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本申請案的範圍。結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可編程ROM、電可擦除可編程ROM、暫存器、硬碟、抽取式磁碟、CD-ROM、或技術領域內所公知的任意其它形式的儲存媒體中。以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

11:伺服器 12:晶片 41:運算子單元 42:嵌入式CPU 43:DMA模組 100:系統 111:伺服器CPU 112:記憶體 121:嵌入式CPU 122:運算子單元 123:DMA模組 400:晶片

透過結合圖式描述本說明書實施例，可以使得本說明書實施例更加清楚：圖1示出根據本說明書實施例的資料處理系統的100的示意圖；圖2示出根據本說明書實施例的一種基於晶片的資料處理方法；圖3示出了神經網路的示意圖；以及圖4示出根據本說明書實施例的一種晶片400。

Claims

一種基於晶片的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行計算任務，所述方法在晶片端執行，包括：獲取待處理資料；以及透過由所述嵌入式CPU執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於所述待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。
一種基於晶片的資料處理方法，所述晶片包括嵌入式CPU和多個運算子單元，用於執行神經網路的預測計算，所述方法在晶片端執行，包括：獲取待處理資料；以及基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於所述神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。
根據申請專利範圍第1或2項所述的資料處理方法，其中，所述晶片與伺服器連接。
根據申請專利範圍第3項所述的資料處理方法，其中，所述待處理資料透過所述伺服器傳送至所述晶片。
根據申請專利範圍第3項所述的資料處理方法，其中，所述嵌入式CPU透過運行基於程式的彙編指令而執行所述步驟，其中，所述程式由所述伺服器傳送至所述晶片。
根據申請專利範圍第5項所述的資料處理方法，其中，所述程式為C語言程式。
根據申請專利範圍第6項所述的資料處理方法，其中，呼叫所述多個運算子單元包括，透過C語言程式中的函數呼叫，呼叫所述多個運算子單元。
根據申請專利範圍第1或2項所述的資料處理方法，其中，所述晶片還包括DMA模組，所述方法還包括，在獲取所述處理結果之後，透過所述嵌入式CPU控制所述DMA模組，以將所述處理結果寫入伺服器的記憶體中。
根據申請專利範圍第1或2項所述的資料處理方法，其中，呼叫所述多個運算子單元包括，非同步地呼叫所述多個運算子單元。
根據申請專利範圍第1或2項所述的資料處理方法，其中，配置所述多個運算子單元包括，對所述待處理資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。
根據申請專利範圍第2項所述的資料處理方法，其中，所述晶片用於執行多種所述神經網路的預測計算，其中，獲取所述待處理資料包括，獲取所述待處理資料及其對應的神經網路的類型，其中，基於所述待處理資料，執行所述神經網路中的每一層的計算，以獲取所述處理結果包括，基於所述待處理資料及其對應的神經網路的類型，執行該類型的神經網路中的每一層的計算，以獲取所述處理結果。
一種用於執行計算任務的晶片，所述晶片包括：多個運算子單元，以及嵌入式CPU，配置為，透過執行以下步驟而進行所述計算任務的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該計算任務中包括的不同類型的計算分別對應，以及，基於從所述晶片的外部輸入的待處理資料，透過呼叫所述多個運算子單元，進行所述計算任務的計算，以獲取處理結果。
一種用於執行神經網路的預測計算的晶片，所述晶片包括：多個運算子單元，以及嵌入式CPU，配置為，基於從所述晶片的外部輸入的待處理資料，執行所述神經網路中的每一層的計算，以獲取處理結果，其中，透過由所述嵌入式CPU執行以下步驟而進行所述神經網路的每一層的計算：配置所述多個運算子單元，以使得所述多個運算子單元與該層中包括的不同類型的計算分別對應，以及，基於所述神經網路上一層中各個神經元的值，透過呼叫所述多個運算子單元，執行該層中每個神經元處的計算，以獲取該層中每個神經元的值。
根據申請專利範圍第12或13項所述的晶片，其中，所述晶片與伺服器連接。
根據申請專利範圍第14項所述的晶片，其中，所述待處理資料透過所述伺服器傳送至所述晶片。
根據申請專利範圍第14項所述的晶片，其中，所述嵌入式CPU透過運行基於程式的彙編指令而執行所述步驟，其中，所述程式由所述伺服器傳送至所述晶片。
根據申請專利範圍第16項所述的晶片，其中，所述程式為C語言程式。
根據申請專利範圍第17項所述的晶片，其中，所述嵌入式CPU還配置為，透過C語言中的函數呼叫，呼叫所述多個運算子單元。
根據申請專利範圍第12或13項所述的晶片，其中，所述晶片還包括DMA模組，所述嵌入式CPU還配置為，在獲取所述處理結果之後，透過控制所述DMA模組，以將所述處理結果寫入伺服器的記憶體中。
根據申請專利範圍第12或13項所述的晶片，其中，所述嵌入式CPU還配置為，非同步地呼叫所述多個運算子單元。
根據申請專利範圍第12或13項所述的晶片，其中，所述嵌入式CPU還配置為，對所述待處理資料的長度進行判斷，並基於所述長度獲取發送給各個運算子單元的參數。
根據申請專利範圍第12或13項所述的晶片，其中，所述晶片為ASIC晶片或FPGA晶片。
根據申請專利範圍第13項所述的晶片，其中，所述晶片用於執行多種所述神經網路的預測計算，其中，所述嵌入式CPU還配置為，基於從所述晶片的外部輸入的所述待處理資料及其對應的神經網路的類型，執行所述類型的神經網路中的每一層的計算，以獲取所述處理結果。
一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行程式碼，所述處理器執行所述可執行程式碼時，實現申請專利範圍第1-11項中之任一項所述的方法。