TWI766203B

TWI766203B - 用於實施神經網路應用之卷積塊陣列及其使用方法、和卷積塊電路

Info

Publication number: TWI766203B
Application number: TW108140288A
Authority: TW
Inventors: 徐雲植
Original assignee: 創惟科技股份有限公司
Priority date: 2018-11-06
Filing date: 2019-11-06
Publication date: 2022-06-01
Also published as: TWI726476B; CN112955878B; CN112970037A; US20220027714A1; CN112955878A; CN112970037B; WO2020093676A1; CN112970036A; TW202038142A; US20220004856A1; WO2020093654A1; WO2020093669A1; US20220004850A1; CN112970036B; TW202018597A; TWI715281B; TW202038143A

Abstract

本揭示提供一種用於實施神經網路應用之卷積塊陣列及其使用方法、和卷積塊電路。卷積塊陣列包括複數個卷積塊電路，其被配置為處理神經網路應用的卷積運算，其中每個卷積塊電路包括：複數個乘法電路，被配置為執行卷積運算；和至少一加法電路連接到複數個乘法電路，並配置為執行卷積運算的複數個結果的加法運算並生成輸出訊號，其中至少一該複數個卷積塊電路被配置為執行該神經網路應用的一偏置運算。

Description

用於實施神經網路應用之卷積塊陣列及其使用方法、和卷積塊電路

本揭示是關於神經網路應用領域，尤其是關於一種用於實施神經網路應用的卷積塊陣列及其使用方法、和卷積塊電路。

人工神經網路（artificial neural network）是參照生物腦的計算模型。在神經網路中，被稱為神經元的節點可以互連並共同操作以處理輸入資料。不同類型的神經網路的範例包括但不限於卷積神經網路（convolutional neural network，CNN）、遞迴神經網路（recurrent neural network）、深度信念網路（deep belief network），受限玻爾茲曼機（restricted Boltzman machine）等。在前饋神經網路中，神經網路的神經元與其他神經元有鏈接，且鏈路僅在一個方向上延伸（即向前方向）通過神經網路。

可以利用神經網路從複雜的輸入資料中提取｢特徵值」。神經網路可以包括多個層。每個層接收輸入資料並通過處理層的輸入資料生成輸出資料。輸出資料可以是神經網路通過將輸入圖像或特徵值圖與卷積核（convolution kernel）卷積運算而產生的輸入資料的特徵值圖。

神經網路的卷積塊電路是卷積神經網路加速器的主要核心。為了在硬體中實現卷積塊電路的操作，必須在最終濾波運算後執行偏置運算。然而，根據卷積的位元的組合，難以實現用於硬體輸出的偏置運算的硬體。現有方法是通過外部加法電路和外部儲存器來執行加法運算，該方法使得以硬體操作CNN的機制變得容易理解，但是，需要額外硬體資源和儲存器的操作來執行偏置運算。

有鑑於此，有必要提供一種用於實施神經網路應用的卷積塊陣列及其使用方法、和卷積塊電路，以解決習知技術的技術問題。

為了解決上述技術問題，本揭示的目的在於提供一種用於實施神經網路應用的卷積塊陣列及其使用方法、和卷積塊電路。本揭示的卷積塊陣列可以支持各種位元尺寸，並且可以通過卷積塊陣列來執行偏置係數的加法操作，而無需使用額外的加法電路。

為了達到上述目的，本揭示提供一種用於實施神經網路應用之卷積塊陣列，包括：複數個卷積塊電路，用於處理該神經網路應用的一卷積運算，其中每一該複數個卷積塊電路包括：複數個乘法電路，用於執行該卷積運算；以及至少一加法電路，與該複數個乘法電路連接，用於執行該卷積運算的複數個結果的加法運算並且生成一輸出訊號；其中至少一該複數個卷積塊電路被配置為執行該神經網路應用的一偏置運算。

在本揭示之一較佳實施例中，每一該複數個卷積塊電路包括四個乘法電路、一第一卷積加法電路、一第二卷積加法電路、以及一塊加法電路；其中該四個乘法電路中的兩個乘法電路連接到該第一卷積加法電路，並且該四個複數個乘法電路的另外兩個乘法電路連接到該第二卷積加法電路；以及該塊加法電路連接該第一卷積加法電路和該第二卷積加法電路。

在本揭示之一較佳實施例中，該卷積塊電路還包括一鎖存器，其連接到該至少一加法電路並且還連接到至少一下游卷積塊電路，以及其中該鎖存器被配置為將該輸出訊號傳送到該至少一下游卷積塊電路或者是將該輸出訊號送回該至少一加法電路。

在本揭示之一較佳實施例中，該卷積塊陣列還包括：複數個多路復用器，分別連接到該複數個乘法電路，其中該複數個乘法電路通過各自的該多路復用器連接到該至少一加法電路；以及一路徑控制器，連接到該複數個多路復用器並且還連接到至少一上游卷積塊電路，其中當該路徑控制器的相應路徑被啟用時，來自該至少一上游卷積塊的輸出訊號通過該路徑控制器傳送到該至少一加法電路。

在本揭示之一較佳實施例中，該卷積運算的執行是藉由將複數個特徵值乘以複數個權重係數並與一偏置係數相加。

本揭示還提供一種在卷積塊陣列中實施神經網路應用的方法，其中該卷積塊陣列包括複數個卷積塊電路，並且每一該複數個卷積塊電路包括複數個乘法電路和至少一加法電路，並且該方法包括：S10，在一第一維度中分配一組的複數個卷積塊電路來處理該神經網路應用的一卷積運算；S20，將一控制訊號輸入到該組的該複數個卷積塊電路以控制該組的該複數個卷積塊電路執行基於涉及N位元的M×M濾波器窗口的該卷積運算，其中M是奇數且 N是大於1的整數；S30，將複數個特徵值和複數個濾波值輸入到該組的該複數個卷積塊電路；S40，藉由該卷積塊電路的該複數個乘法電路執行該複數個特徵值和該複數個濾波值的N位元乘法運算，其中該複數個特徵值和該複數個濾波值對應於複數個輸入圖像的複數個數值；S50，藉由該至少一加法電路將從該複數個乘法電路獲得的複數個結果相加；以及S60，產生一卷積輸出訊號。

在本揭示之一較佳實施例中，步驟S10還包括：根據基於涉及該N位元的該M×M濾波器窗口的該卷積運算的組合，確定所使用的該複數個卷積塊電路的數量來執行該複數個卷積塊電路的一個像素的該卷積運算，其中該複數個卷積塊電路是以一條線為基礎排列。

在本揭示之一較佳實施例中，該一個像素的該複數個濾波值包括複數個權重係數和一偏置係數，並且在用於執行每個像素的該卷積運算的最後一個卷積塊電路中，該偏置係數通過該最後一個卷積塊電路的該複數個乘法電路的一閒置乘法電路傳遞到該至少一加法電路。

在本揭示之一較佳實施例中，在步驟S50之後，該方法還包括：S51，藉由每一該卷積塊電路的該至少一加法電路將該複數個結果相加以產生一部分輸出訊號；S52，將所有的該部分輸出訊號發送到該最後一個卷積塊電路；以及S53，藉由該最後一個卷積塊電路的該至少一加法電路將所有的該部分輸出訊號相加，並生成表示該一個像素的該卷積輸出訊號。

在本揭示之一較佳實施例中，每一該複數個卷積塊電路包括一鎖存器，該鎖存器連接到該至少一加法電路並且還連接到該最後一個卷積塊電路，並且其中在步驟S51之後，該最後一個卷積塊電路暫時將該部分輸出訊號儲存在該鎖存器中，以及在步驟S52中，該最後一個卷積塊電路將該部分輸出訊號反饋給該最後一個卷積塊電路的該至少一加法電路。

本揭示還提供一種卷積塊電路，包含：四個乘法電路，用於執行基於涉及N位元的M×M濾波器窗口的一卷積運算；一第一卷積加法電路，連接到該四個乘法電路中的兩個乘法電路，並配置為將該兩個乘法電路執行該卷積運算獲得的複數個結果相加；一第二卷積加法電路，連接到該四個乘法電路的另外兩個乘法電路，並配置為將該另外兩個乘法電路執行該卷積運算獲得的複數個結果相加；一塊加法電路，連接到該第一卷積加法電路和該第二卷積加法電路，並配置為執行一第一加法運算和一第二加法運算，其中在該第一加法運算中，該塊加法電路將該第一卷積加法電路和該第二卷積加法電路執行該卷積運算獲得的複數個結果與一偏置係數相加，並產生一第一卷積值，其中該偏置係數通過該四個乘法電路的一閒置乘法電路傳送到該塊加法電路；以及一鎖存器，連接到該塊加法電路，並配置為將該第一卷積值反饋給該塊加法電路；其中當該塊加法電路接收該第一卷積值和來自上游的複數個卷積塊電路的其他部分輸出訊號後，該塊加法電路執行該第二加法運算以將該第一卷積值和該其他部分輸出訊號相加，並產生一卷積輸出訊號。

相較於習知技術，當CNN運算以硬體實現時，不須配備任何用於偏置運算的硬體，且所有二維卷積的濾波器大小都是奇數。本揭示提供一種卷積塊電路，由四個乘法電路組成。根據濾波器大小和卷積運算的位元大小的組合，將剩餘像素的乘法結果輸入到卷積塊陣列的必要卷積塊電路的最後部分的未使用的加法電路。最後，通過給出空濾波器輸入的偏置值，通過這種設計，可以獲得除了激活（activation）運算之外的所有成功的結果。這節省了硬體資源並且消除了對單獨的儲存器操作的需要，從而提高了性能。

爲了讓本揭示之上述及其他目的、特徵、優點能更明顯易懂，下文將特舉本揭示較佳實施例，並配合所附圖式，作詳細說明如下。

請參照第1圖，其顯示根據本揭示較佳實施例之卷積塊電路10之示意圖。卷積塊電路10包括四個乘法電路110、四個多路復用器120、第一卷積加法電路131、第二卷積加法電路132、塊加法電路133、鎖存器140、和路徑控制器150。四個乘法電路110被配置為執行神經網路應用的卷積運算。四個乘法電路110中的每一個連接到四個多路復用器120中的一個，並且兩個乘法電路110通過相應的多路復用器120連接到第一卷積加法電路131。以及，其他兩個乘法電路110通過相應的多路復用器120連接到第二卷積加法電路132。此外，第一卷積加法電路131和第二卷積加法電路132連接到塊加法電路133。鎖存器140連接到複數個下游卷積塊電路並且還連接到塊加法電路133。路徑控制器150連接到複數個上游卷積塊電路，並且還連接到四個多路復用器120。

在本揭示中，卷積塊電路10可以被設置在包括控制器和儲存器的積體電路（integrated circuit，IC）上。如第1圖所示，IC的控制器可以將控制訊號S_CON 輸入到卷積塊電路10，並將複數個輸入圖像Im（1）~Im（4）送入卷積塊電路10，以控制卷積塊電路10用有關於複數個輸入圖像Im（1）~Im（4）的複數個特徵值P（1）~P（4）和複數個濾波值f（1）~f（4）來執行卷積運算，其中複數個濾波值f（1）~f（4）包括複數個權重係數和/或偏置係數，進而輸出一個輸出訊號S_OUT 。複數個輸入圖像Im（1）~Im（4）的數值可以儲存在IC的儲存器中。在本揭示中，鎖存器140可以將輸出訊號S_OUT 發送到複數個下游卷積塊電路，或者可以將輸出訊號S_OUT 反饋到卷積塊電路10的塊加法電路133。此外，路徑控制器150 可以從複數個上游卷積塊電路接收輸出訊號S_OUT ，並將它們傳遞給相應的加法電路。可以理解的是，卷積塊電路10的各種操作可以由IC的控制器控制，即，實施卷積塊電路10的全部或部分過程可以由用於指示相關硬體（例如處理器，控制器等）的電腦程式完成。程式可以保存在電腦可讀儲存媒體中，並且程式可以包括上述和下述的方法的實施例的流程，其中所述的儲存媒體可以是儲存器等。

請參照第2圖，其顯示用於並行地處理不同濾波器組合之卷積塊陣列1之示意圖。卷積塊陣列1包括以多排和多欄排列的複數個卷積塊電路10。在本實施例中，卷積塊陣列1是通過以16排和16欄之組合排列的複數個卷積塊電路10而形成。然而，在其他實施例中可以採用不同的陣列，惟不限於此。如第2圖所示，同一欄的該等卷積塊電路10彼此相互連接，例如通過總線等。複數個卷積塊電路10的每欄是串聯結構。｢串聯」是指將可以計算出的數值傳遞給同一欄的其他卷積塊電路10而不需要儲存在外部儲存器。

應當注意的是，本揭示的乘法電路可處理的位元（bit）是可配置的，使得多路復用器120適用於執行具有複數個濾波值的不同位元的各種卷積運算。因此，如第2圖所示，不同欄的卷積塊電路10可以並行地執行不同的卷積運算。卷積運算的濾波器大小和位元大小的組合確定了執行一個像素的卷積運算所要採用之卷積塊電路10的數量，以及確定最後一個卷積塊電路10使用的乘法電路的數量，其中該等卷積塊電路10是以一條線為基礎排列。舉例來說，以執行基於涉及8位元的3×3濾波器窗口的卷積運算為例，需要三個卷積塊電路10來執行一個像素的卷積運算，其中最後一個卷積塊電路10僅使用一個乘法電路。如第2圖所示，在同一欄的該等卷積塊電路中，相同圖案表示卷積塊電路10正在執行同一像素的卷積運算，並且空白無圖案部分表示卷積塊電路或乘法電路是閒置的。另外，同一欄的該等卷積塊電路可以並行地執行不同像素的卷積運算。

如第2圖所示，一個卷積塊電路10中的一個或多個乘法電路是閒置的，例如卷積塊電路10’。對於卷積塊電路10’而言，剩餘的乘法電路的操作沒有意義。因此，在本揭示中，預先準備的複數個濾波值被操縱為包括偏置係數的值。此外，偏置係數的值可以通過剩餘的乘法電路發送到存在於卷積塊電路中的加法電路，以執行偏置係數的加法操作。應當注意的是，偏置係數的加法操作由卷積塊電路通過卷積運算的濾波器大小和比特大小的組合來確定。相應的偏置係數被輸入到卷積塊電路而不是輸入權重係數。偏置係數的具體加法操作將在後面詳述。此外，由於本揭示的卷積塊電路10可以支持各種位元尺寸，所以可以通過卷積塊電路10執行偏置係數的加法操作，而無需使用設置在卷積塊陣列1外部的額外的加法電路。因此，不需要單獨的儲存器訪問操作，也不需要單獨的硬體。根據本揭示，通過使用卷積塊電路10，可以減少CNN中的硬體的大小，並且可以實現操作性能的改進。

請參照第3圖，其顯示卷積塊電路10執行基於涉及2位元的3×3濾波器窗口的卷積運算之示意圖。在本實施例中，卷積塊電路10只需要一個週期即可完成一個像素的卷積運算。在這個週期中，控制訊號S_CON 被輸入到卷積塊電路10，乘法電路111~114 配置為執行2位元的乘法運算。複數個特徵值（即P_x _（ ₁ _） ~P_x _（ ₉ _））和複數個濾波值（即複數個權重係數W_fx _（ ₁ _） ~W_fx _（ ₉ _）和偏置係數b）被送入卷積塊電路10，接著執行3×3的卷積運算，從而產生輸出訊號S_OUT 。

具體來說，如第3圖所示，第一乘法電路111利用權重係數W_fx _（ ₁ _） ~W_fx _（ ₄ _）和特徵值P_x _（ ₁ _） ~P_x _（ ₄ _）執行第一部分卷積運算，第二乘法電路112利用權重係數W_fx _（ ₅ _） ~W_fx _（ ₈ _）和特徵值P_x _（ ₅ _） ~P_x _（ ₈ _）執行第二部分卷積運算，第三乘法電路113利用權重係數W_fx _（ ₉ 和特徵值P_x _（ ₉ _）執行第三部分卷積運算。在本揭示中，由於所有CNN卷積運算數據ID都需要奇數個乘法電路的操作，卷積塊電路10將不使用第四乘法電路114。也就是說，第四乘法電路114將不執行任何卷積運算，並且乘法電路111~113的相應部分卷積運算同時被執行。

接著，第一乘法電路111和第二乘法電路112將對應的部分卷積運算的結果發送到第一加法電路131，使得第一加法電路131執行加法運算以將那些來自第一乘法電路111和第二乘法電路112的結果相加。並且，第三乘法電路113將對應的部分卷積運算的結果發送到第二加法電路132，並且偏置值b將通過第四乘法電路114直接傳遞到第二加法電路132。這樣，第二加法電路132將執行另一個加法運算以將兩個數值相加。然後，由第一加法電路131和第二加法電路132計算的相加的數值被傳遞到塊加法電路133，其加上這兩個數值，從而輸出輸出訊號S_OUT 。應當理解的是，對於一個像素，基於涉及2位元的3×3濾波器窗口的卷積運算可以通過一個卷積塊電路10來實現，即，從卷積塊電路10輸出的輸出訊號S_OUT 相當於一個像素的卷積輸出值。

在本揭示中，如果權重係數的位元大小與偏置係數的位元大小不同，則將偏置的值調整為對應的權重係數的位元大小，並且可以通過劃分來解決，因為偏置的值通常遠大於或等於權重係數的值。在該過程中，偏置值可能導致一些錯誤，但這不足以影響整體CNN操作，因為大多數CNN硬體實現是可容忍的。如果所有的卷積操作在輸入圖像的相同位元精度下工作，則偏置值將被用作輸入圖像的相同位元精度而不操縱它的值。

請參照第4圖。其顯示顯示CNN之激活函數200，其中函數200的一部分201可以通過本揭示的卷積塊陣列1來計算獲得。除了激活運算（即，符號｢f」）之外，卷積塊陣列1將覆蓋所有單元神經元操作201。如上所述，將在像素的最終操作期間執行偏置運算。

如第2圖所示，取決於卷積塊陣列1之一欄的該等卷積塊電路10中的每個卷積塊電路的物理位置，輸出訊號將被反饋到連接的該等卷積塊電路10的最後一個。具體來說，請參照第5圖，其顯示以一條線為基礎排列之複數個卷積塊電路，其執行基於涉及8位元的3×3濾波器窗口的卷積運算之示意圖。在卷積塊陣列1中實現神經網路應用的方法包括以下步驟：在步驟S10中，在第一維度中分配一組的複數個卷積塊電路來處理神經網路應用的卷積運算，其中該卷積運算執行基於涉及8位元的3×3濾波器窗口。在該實施例中，一個像素的卷積運算由三個卷積塊電路10執行。在這種情況下，這三個卷積塊電路10需要兩個週期才能完成一個像素的卷積運算。在第一周期中，這三個卷積塊電路使用複數個特徵值和複數個濾波值（包括複數個權重係數和/或偏置係數b）執行相應的部分卷積運算。接著，分別生成部分輸出訊號。在第二週期中，將所有的部分輸出訊號發送到最後一個卷積塊電路10，並且在最後一個卷積塊電路10上執行最終加法操作，從而輸出表示一個像素的卷積輸出訊號。具體的訊號傳輸和卷積運算將於後詳述。

請參照第6圖，其顯示第5圖中複數個卷積塊電路11~13之A部分之示意圖。在第一周期中，執行步驟S20，並且將控制信號輸入到卷積塊電路11~13，卷積塊電路的乘法電路被配置為執行8位元的乘法函數。在步驟S30中，將特徵值 P_x _（ ₁ _） ~P_x _（ ₄ _）和濾波值（即權重係數W_fx _（ ₁ _） ~W_fx _（ ₄ _））輸入到第一卷積塊電路11，將特徵值P_x _（ ₅ _） ~P_x _（ ₈ _）和濾波值（即權重係數W_fx _（ ₅ _） ~W_fx _（ ₈ _））輸入到第二卷積塊電路12，以及將特徵值P_x _（ ₉ _）和濾波值（即權重係數W_fx _（ ₉ _）和偏置係數b）輸入到第三卷積塊電路13。在本實施例中，由於所有CNN卷積運算數據ID都需要奇數的乘法電路的操作，所以最終卷積塊電路（即第三卷積塊電路13）只會使用一個乘法電路，而其餘三個乘法電路將不會使用。然後，在步驟S40中，複數個卷積塊電路11~13同時執行3×3卷積運算並生成相應的部分輸出訊號S_conv1 ~S_conv3 。具體地，在第一周期中，執行步驟S50，第三卷積塊電路13的塊加法電路執行第一加法運算，以將來自第二卷積加法電路的相應部分卷積運算和來自第一卷積加法電路的偏置係數的結果相加，接著產生第一卷積值（即，部分輸出訊號S_conv3 ），其中偏置係數通過四個乘法電路中的閒置乘法電路發送到塊加法電路。可選地，部分輸出訊號S_conv1 ~S_conv3 可以暫時儲存在各自的鎖存器140中。

如第6圖所示，在第二週期中，第一和第二卷積塊電路11、12將相應的部分輸出訊號S_conv1 ~S_conv2 發送到第三卷積塊電路13的路徑控制器150。路徑控制器150的相應路徑被啟用，使得部分輸出訊號S_conv1 ~S_conv2 可以被發送到第三卷積塊電路13的第一加法電路或第二加法電路。此時，第三卷積塊電路13將部分輸出訊號S_conv3 反饋回其塊加法電路。接著，執行步驟S60，第三卷積塊電路13的塊加法電路從上游卷積塊電路11~12接收其他部分輸出訊號S_conv1 ~S_conv2 和第一卷積值（即部分輸出訊號S_conv3 ），然後執行第二加法運算以將所有部分輸出訊息的S_conv1 ~S_conv3 相加，從而輸出表示一個像素的完整的卷積輸出訊號S_OUT 。

應當理解的是，如第2圖所示，其他實施例的一個像素的卷積運算（例如，基於涉及2位元的5×5濾波器窗口的卷積運算、基於涉及4位元的3×3濾波器窗口的卷積運算、基於涉及4位元的5×5濾波器窗口的卷積運算等）都是通過兩個週期來實現，這裡不加以贅述。

請參照第7圖，其顯示以一條線為基礎排列之複數個卷積塊電路，其執行基於涉及8位元的5×5濾波器窗口的卷積運算之示意圖。一個像素的卷積運算由八個卷積塊電路執行。在這種情況下，這八個卷積塊電路需要三個週期來完成一個像素的卷積運算。在第一周期中，第一至第七卷積塊電路執行相應的部分卷積運算，其使用複數個特徵值和複數個濾波值（包括複數個權重係數和/或偏置係數b），然後分別產生部分輸出訊號。較佳地，偏置係數b應用於第四卷積塊電路。

如第7圖所示，在第二週期中，第一至第三卷積塊電路將相應的部分輸出訊號發送到第四卷積塊電路的路徑控制器。啟用路徑控制器的相應路徑，使得部分輸出訊號發送到第四卷積塊電路的加法電路。同時，第四卷積塊電路將部分輸出訊號反饋給自己的塊加法電路。接著，所有的部分輸出訊號由第四卷積塊電路的塊加法電路相加，從而產生另一部分輸出訊號。

如第7圖所示，在第三週期中，第四至第七卷積塊電路將相應的部分輸出訊號發送到第八卷積塊電路的路徑控制器。啟用路徑控制器的相應路徑，使得部分輸出訊號發送到第八卷積塊電路的加法電路。接著，所有的部分輸出訊號由第八卷積塊電路的塊加法電路相加，從而輸出表示一個像素的完整的卷積輸出訊號。

綜上所述，當CNN運算以硬體實現時，不須配備任何用於偏置運算的硬體，且所有二維卷積的濾波器大小都是奇數。本揭示提供一種卷積塊電路，由四個乘法電路組成。根據濾波器大小和卷積運算的位元大小的組合，將剩餘像素的乘法結果輸入到卷積塊陣列的必要卷積塊電路的最後部分的未使用的加法電路。最後，通過給出空濾波器輸入的偏置值，通過這種設計，可以獲得除了激活運算之外的所有成功的結果。這節省了硬體資源並且消除了對單獨的儲存器操作的需要，從而提高了性能。

以上僅是本揭示的較佳實施方式，應當指出，對於所屬領域技術人員，在不脫離本揭示原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視爲本揭示的保護範圍。

1:卷積塊陣列 10、10’:卷積塊電路 11:第一卷積塊電路 12:第二卷積塊電路 13:第三卷積塊電路 110:乘法電路 111:第一乘法電路 112:第二乘法電路 113:第三乘法電路 114:第四乘法電路 120:多路復用器 131:第一卷積加法電路 132:第二卷積加法電路 133:塊加法電路 140:鎖存器 150:路徑控制器 S_CON:控制訊號 S_OUT:輸出訊號 Im（1）~Im（4）:輸入圖像 f（1）~f（4）:濾波值 P（1）~P（4）、P_x _（ ₁ _）~P_x _（ ₉ _）:特徵值 W_fx _（ ₁ _）~W_fx _（ ₉ _）:權重係數 b:偏置係數 200:激活函數 201:部分 A:對應第6圖的部分 S_conv1~S_conv3:部分輸出訊號

第1圖顯示根據本揭示較佳實施例之卷積塊電路之示意圖；第2圖顯示用於並行地處理不同濾波器組合之卷積塊陣列之示意圖；第3圖顯示卷積塊電路執行基於涉及2位元的3×3濾波器窗口的卷積運算之示意圖；第4圖顯示顯示CNN之激活函數；第5圖顯示以一條線為基礎排列之複數個卷積塊電路，其執行基於涉及8位元的3×3濾波器窗口的卷積運算之示意圖；第6圖顯示第5圖中複數個卷積塊電路之A部分之示意圖；以及第7圖顯示以一條線為基礎排列之複數個卷積塊電路，其執行基於涉及8位元的5×5濾波器窗口的卷積運算之示意圖。

10:卷積塊電路

110:乘法電路

120:多路復用器

131:第一卷積加法電路

132:第二卷積加法電路

133:塊加法電路

140:鎖存器

150:路徑控制器

S_CON:控制訊號

S_OUT:輸出訊號

Im(1)~Im(4):輸入圖像

f(1)~f(4):濾波值

P(1)~P(4):特徵值

Claims

一種用於實施神經網路應用之卷積塊陣列，包括：複數個卷積塊電路，用於處理該神經網路應用的一卷積運算，其中每一該複數個卷積塊電路包括：複數個乘法電路，用於執行該卷積運算；至少一加法電路，與該複數個乘法電路連接，用於執行該卷積運算的複數個結果的加法運算並且生成一輸出訊號；以及一鎖存器，其連接到該至少一加法電路並且還連接到至少一下游卷積塊電路，以及其中該鎖存器被配置為將該輸出訊號傳送到該至少一下游卷積塊電路或者是將該輸出訊號送回該至少一加法電路；其中至少一該複數個卷積塊電路被配置為供一偏置係數傳遞通過而傳送到該至少一加法電路以執行該神經網路應用的一偏置運算。
如請求項1之該卷積塊陣列，其中每一該複數個卷積塊電路包括四個乘法電路、一第一卷積加法電路、一第二卷積加法電路、以及一塊加法電路；其中該四個乘法電路中的兩個乘法電路連接到該第一卷積加法電路，並且該四個複數個乘法電路的另外兩個乘法電路連接到該第二卷積加法電路；以及該塊加法電路連接該第一卷積加法電路和該第二卷積加法電路。
如請求項1之該卷積塊陣列，其中該卷積塊陣列還包括：複數個多路復用器，分別連接到該複數個乘法電路，其中該複數個乘法電路通過各自的該多路復用器連接到該至少一加法電路；以及一路徑控制器，連接到該複數個多路復用器並且還連接到至少一上游卷積塊電路，其中當該路徑控制器的相應路徑被啟用時，來自該至少一上游卷積塊的輸出訊號通過該路徑控制器傳送到該至少一加法電路。
如請求項1之該卷積塊陣列，其中該卷積運算的執行是藉由將複數個特徵值乘以複數個權重係數並與一偏置係數相加。
一種在卷積塊陣列中實施神經網路應用的方法，其中該卷積塊陣列包括複數個卷積塊電路，並且每一該複數個卷積塊電路包括複數個乘法電路和至少一加法電路，並且該方法包括：S10，在一第一維度中分配一組的複數個卷積塊電路來處理該神經網路應用的一卷積運算；S20，將一控制訊號輸入到該組的該複數個卷積塊電路以控制該組的該複數個卷積塊電路執行基於涉及N位元的M×M濾波器窗口的該卷積運算，其中M是奇數且N是大於1的整數；S30，將複數個特徵值和複數個濾波值輸入到該組的該複數個卷積塊電路；S40，藉由該卷積塊電路的該複數個乘法電路執行該複數個特徵值和該複數個濾波值的N位元乘法運算，其中該複數個特徵值和該複數個濾波值對應於複數個輸入圖像的複數個數值；S50，藉由該至少一加法電路將從該複數個乘法電路獲得的複數個結果相加；以及S60，產生一卷積輸出訊號，其中步驟S10還包括：根據基於涉及該N位元的該M×M濾波器窗口的該卷積運算的組合，確定所使用的該複數個卷積塊電路的數量來執行該複數個卷積塊電路的一個像素的該卷積運算，其中該複數個卷積塊電路是以一條線為基礎排列；以及其中該一個像素的該複數個濾波值包括複數個權重係數和一偏置係數，並且在用於執行每個像素的該卷積運算的最後一個卷積塊電路中，該偏置係數通過該最後一個卷積塊電路的該複數個乘法電路的一閒置乘法電路傳遞到該至少一加法電路。
如請求項5之該方法，其中在步驟S50之後，該方法還包括：S51，藉由每一該卷積塊電路的該至少一加法電路將該複數個結果相加以產生一部分輸出訊號；S52，將所有的該部分輸出訊號發送到該最後一個卷積塊電路；以及S53，藉由該最後一個卷積塊電路的該至少一加法電路將所有的該部分輸出訊號相加，並生成表示該一個像素的該卷積輸出訊號。
如請求項5之該方法，其中每一該複數個卷積塊電路包括一鎖存器，該鎖存器連接到該至少一加法電路並且還連接到該最後一個卷積塊電路，並且其中在步驟S51之後，該最後一個卷積塊電路暫時將該部分輸出訊號儲存在該鎖存器中，以及在步驟S52中，該最後一個卷積塊電路將該部分輸出訊號反饋給該最後一個卷積塊電路的該至少一加法電路。
一種卷積塊電路，包含：四個乘法電路，用於執行基於涉及N位元的M×M濾波器窗口的一卷積運算；一第一卷積加法電路，連接到該四個乘法電路中的兩個乘法電路，並配置為將該兩個乘法電路執行該卷積運算獲得的複數個結果相加；一第二卷積加法電路，連接到該四個乘法電路的另外兩個乘法電路，並配置為將該另外兩個乘法電路執行該卷積運算獲得的複數個結果相加；一塊加法電路，連接到該第一卷積加法電路和該第二卷積加法電路，並配置為執行一第一加法運算和一第二加法運算，其中在該第一加法運算中，該塊加法電路將該第一卷積加法電路和該第二卷積加法電路執行該卷積運算獲得的複數個結果與一偏置係數相加，並產生一第一卷積值，其中該偏置係數通過該四個乘法電路的一閒置乘法電路傳送到該塊加法電路；以及一鎖存器，連接到該塊加法電路，並配置為將該第一卷積值反饋給該塊加法電路；其中當該塊加法電路接收該第一卷積值和來自上游的複數個卷積塊電路的其他部分輸出訊號後，該塊加法電路執行該第二加法運算以將該第一卷積值和該其他部分輸出訊號相加，並產生一卷積輸出訊號。