TWI723823B

TWI723823B - 基於神經網路的物件偵測裝置和物件偵測方法

Info

Publication number: TWI723823B
Application number: TW109110751A
Authority: TW
Inventors: 謝佳純; 張文彥
Original assignee: 聚晶半導體股份有限公司
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-04-01
Also published as: US11495015B2; TW202137076A; US20210303850A1

Abstract

提出一種基於神經網路的物件偵測裝置和物件偵測方法。物件偵測方法包含：接收輸入影像；以及根據改良型YOLO-版本2神經網路以辨識輸入影像中的物件。改良型YOLO-版本2神經網路包含殘差區塊、第三卷積層以及第四卷積層。殘差區塊的第一輸入連接至改良型YOLO-版本2神經網路的第一卷積層，並且殘差區塊的輸出連接至改良型YOLO-版本2神經網路的第二卷積層，其中殘差區塊用於將對應於第一卷積層的相加結果傳送至第二卷積層。第三卷積層以及第四卷積層是對原始YOLO-版本2神經網路的卷積層進行分解所產生的。

Description

基於神經網路的物件偵測裝置和物件偵測方法

本發明是有關於一種物件偵測裝置和物件偵測方法，且特別是有關於一種基於神經網路的物件偵測裝置和物件偵測方法。

使用深度學習技術來對物件進行偵測以及辨識是目前影像辨識領域的主流技術之一。為了達到良好的偵測效果，通常會採用尺寸較大及較深的神經網路架構。如上所述的神經網路架構雖然能使偵測更加的準確，但也會使運算以及記憶體容量的需求大幅地提升，從而使神經網路架構很難實施於具有較少運算力的邊緣運算裝置。

因此，如何提出一種具有低複雜度以及高辨識經準度特性的神經網路架構，是本領域人員致力的目標之一。

本發明提供一種基於神經網路的物件偵測裝置和物件偵測方法，可改良YOLO-版本2（YOLO-V2）神經網路，從而降低YOLO-V2神經網路所需使用的運算量。

本發明的一種基於神經網路的物件偵測裝置，包括處理器、儲存媒體以及收發器。儲存媒體儲存改良型YOLO-版本2神經網路。處理器耦接儲存媒體以及收發器，其中處理器通過收發器以接收輸入影像，並且根據改良型YOLO-版本2神經網路以辨識輸入影像中的物件，其中改良型YOLO-版本2神經網路包括：殘差區塊，其中殘差區塊的第一輸入連接至改良型YOLO-版本2神經網路的第一卷積層，並且殘差區塊的輸出連接至改良型YOLO-版本2神經網路的第二卷積層，其中殘差區塊用於將對應於第一卷積層的相加結果傳送至第二卷積層；以及包括第一數量個濾波器的第三卷積層以及包括第二數量個濾波器的第四卷積層，其中處理器對原始YOLO-版本2神經網路的包括第三數量個濾波器的卷積層進行分解以產生第三卷積層以及第四卷積層，其中第一數量小於第三數量。

在本發明的一實施例中，上述的物件偵測裝置更包括串聯層。串聯層的第二輸入連接至改良型YOLO-版本2神經網路的池化層以及第五卷積層。

在本發明的一實施例中，上述的處理器將第二數量調整為小於第二數量的二分之一。

在本發明的一實施例中，上述的第一卷積層包括激勵函數，其中殘差區塊的第一輸入連接至第一卷積層的激勵函數。

在本發明的一實施例中，上述的激勵函數為洩漏線性整流單元。

在本發明的一實施例中，上述的殘差區塊的第一輸入更連接至改良型YOLO-版本2神經網路的池化層，並且殘差區塊用於將第一卷積層以及池化層的相加結果傳送至第二卷積層。

在本發明的一實施例中，上述的殘差區塊的第一輸入更連接至改良型YOLO-版本2神經網路的第五卷積層，並且殘差區塊用於將第一卷積層以及第五卷積層的相加結果傳送至第二卷積層。

在本發明的一實施例中，上述的改良型YOLO-版本2神經網路不包括重組層。

本發明的一種基於神經網路的物件偵測方法，包含：接收輸入影像；以及根據改良型YOLO-版本2神經網路以辨識輸入影像中的物件，其中改良型YOLO-版本2神經網路包括殘差區塊、包括第一數量個濾波器的第三卷積層以及包括第二數量個濾波器的第四卷積層。殘差區塊的第一輸入連接至改良型YOLO-版本2神經網路的第一卷積層，並且殘差區塊的輸出連接至改良型YOLO-版本2神經網路的第二卷積層，其中殘差區塊用於將對應於第一卷積層的相加結果傳送至第二卷積層。第三卷積層以及第四卷積層是對原始YOLO-版本2神經網路的包括第三數量個濾波器的卷積層進行分解所產生的，其中第一數量小於第三數量。

基於上述，本發明提出的改良型YOLO-V2神經網路可通過添加殘差區塊、分解卷積層、降低卷積層的濾波器數量以及移除重組層（reorg）等方式來減輕神經網路的運算負擔並且增加神經網路的辨識準確度。

為了使本發明之內容可以被更容易明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

近年來，由於深度學習技術的發展，物件偵測領域具有長足的進步。物件偵測領域所運用的深度學習技術可包括兩階段方法以及一階段方法。一般來說，兩階段方法可利用區域推薦網路（region proposal network，RPN）以從影像中找出物件的位置，再接著以用於分類的神經網路來判斷物件的類別。另一方面，一階段方法則使用單一神經網路架構來偵測物件的位置以及判斷物件的類別。兩階段方法可以提供較佳的偵測準確度，但計算的複雜度也比較高。相對來說，一階段方法的複雜度較低，且其所需的運算量也較低。基於這些優點，一階段方法較受使用者的青睞。一階段方法例如包含單次多框偵測器（single shot multiBox detector，SSD）或YOLO等方法。傳統的YOLO-V2神經網路的架構，如表1所示。在表1中，越上面的欄位代表YOLO-V2神經網路的越底層的結構。舉例來說，卷積層1代表YOLO-V2神經網路的第一層（即：最底層）的結構，並且卷積層22代表YOLO-V2神經網路的最末層（即：最上層）的結構。此外，相鄰的欄位互相連接。舉例來說，卷積層1的輸出連接至池化層1的輸入，並且池化層1的輸出連接至卷積層2的輸入。表1

名稱	種類 (Type)	濾波器 ( 或卷積核 ) 數量	尺寸 / 步伐	底部	底部
卷積層1	卷積核+批正規化+縮放+洩漏線性整流單元	32	3x3
池化層1	最大池化		2x2/2
卷積層2	卷積核+批正規化+縮放+洩漏線性整流單元	64	3x3
池化層2	最大池化		2x2/2
卷積層3	卷積核+批正規化+縮放+洩漏線性整流單元	128	3x3
卷積層4	卷積核+批正規化+縮放+洩漏線性整流單元	64	1x1
卷積層5	卷積核+批正規化+縮放+洩漏線性整流單元	128	3x3
池化層5	最大池化		2x2/2
卷積層6	卷積核+批正規化+縮放+洩漏線性整流單元	256	3x3
卷積層7	卷積核+批正規化+縮放+洩漏線性整流單元	128	1x1
卷積層8	卷積核+批正規化+縮放+洩漏線性整流單元	256	3x3
池化層8	最大池化		2x2/2
卷積層9	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
卷積層10	卷積核+批正規化+縮放+洩漏線性整流單元	256	1x1
卷積層11	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
卷積層12	卷積核+批正規化+縮放+洩漏線性整流單元	256	1x1
卷積層13	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
池化層13	最大池化		2x2/2
卷積層14	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
卷積層15	卷積核+批正規化+縮放+洩漏線性整流單元	512	1x1
卷積層16	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
卷積層17	卷積核+批正規化+縮放+洩漏線性整流單元	512	1x1
卷積層18	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
卷積層19	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
卷積層20	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
重組層13	重組	2048		縮放13
串聯層	串聯			重組層13	縮放20
卷積層21	卷積核+批正規化+縮放+洩漏線性整流單元	1024	3x3
卷積層22	卷積核+批正規化+縮放+洩漏線性整流單元	425	1x1

卷積層1可包括多個卷積核、批正規化（batch normalization，BN）、縮放（scaling，SC）以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元（leaky rectified linear unit，leaky ReLU）。卷積層1可具有32個卷積核，其中每個卷積核的尺寸（size）例如為3x3。

池化層1可用以進行最大池化（maxpooling）。池化層1的尺寸例如為2x2，並且池化層1的步伐（stride）例如為2。

卷積層2可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層2可具有64個卷積核。卷積層2的每個卷積核的尺寸例如為3x3。

池化層2可用以進行最大池化。池化層2的尺寸例如為2x2，並且池化層2的步伐例如為2。

卷積層3可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層3可具有128個卷積核。卷積層3的每個卷積核的尺寸例如為3x3。

卷積層4可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層4可具有64個卷積核。卷積層4的每個卷積核的尺寸例如為1x1。

池化層5可用以進行最大池化。池化層5的尺寸例如為2x2，並且池化層5的步伐例如為2。

卷積層6可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層6可具有256個卷積核。卷積層6的每個卷積核的尺寸例如為3x3。

卷積層7可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層7可具有128個卷積核。卷積層7的每個卷積核的尺寸例如為1x1。

卷積層8可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層8可具有256個卷積核。卷積層8的每個卷積核的尺寸例如為3x3。

池化層8可用以進行最大池化。池化層8的尺寸例如為2x2，並且池化層8的步伐例如為2。

卷積層9可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層9可具有512個卷積核。卷積層9的每個卷積核的尺寸例如為3x3。

卷積層10可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層10可具有256個卷積核。卷積層10的每個卷積核的尺寸例如為1x1。

卷積層11可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層11可具有512個卷積核。卷積層8的每個卷積核的尺寸例如為3x3。

卷積層12可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層12可具有256個卷積核。卷積層12的每個卷積核的尺寸例如為1x1。

卷積層13可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層13可具有512個卷積核。卷積層13的每個卷積核的尺寸例如為3x3。

池化層13可用以進行最大池化。池化層13的尺寸例如為2x2，並且池化層13的步伐例如為2。

卷積層14可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層14可具有1024個卷積核。卷積層14的每個卷積核的尺寸例如為3x3。

卷積層15可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層15可具有512個卷積核。卷積層15的每個卷積核的尺寸例如為1x1。

卷積層16可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層16可具有1024個卷積核。卷積層16的每個卷積核的尺寸例如為3x3。

卷積層17可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層17可具有512個卷積核。卷積層17的每個卷積核的尺寸例如為1x1。

卷積層18可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層18可具有1024個卷積核。卷積層18的每個卷積核的尺寸例如為3x3。

卷積層19可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層19可具有1024個卷積核。卷積層19的每個卷積核的尺寸例如為3x3。

卷積層20可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層20可具有1024個卷積核。卷積層20的每個卷積核的尺寸例如為3x3。

重組（route）層13的底部（bottom）連接至卷積層13中的縮放13。換句話說，重組層13的輸入連接至縮放13的輸出。重組層13可用以對縮放13的輸出進行重組（reorg）。

串聯（concatenation）層的底部連接至重組層13以及卷積層20中的縮放20。換句話說，串聯層的輸入連接至重組層13以及縮放20的輸出。串聯層可用以對重組層13以及縮放20的輸出進行串聯（concat）。

卷積層21可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層21可具有1024個卷積核。卷積層21的每個卷積核的尺寸例如為3x3。

卷積層22可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。卷積層22可具有425個卷積核。卷積層22的每個卷積核的尺寸例如為1x1。

然而，在使用上，一階段方法仍有待改善之處。舉例來說，YOLO神經網路架構所需的運算量較大，並且偵測的準確度也較低。為了降低YOLO神經網路架構的運算量並增加YOLO神經網路架構的準確度，本發明提出一種基於神經網路的物件偵測裝置100，其中所述物件偵測裝置100可運用改良型YOLO-V2神經網路來進行物件的偵測。

圖1根據本發明的一實施例繪示一種基於神經網路的物件偵測裝置100的示意圖。物件偵測裝置100可包括處理器110、儲存媒體120以及收發器130。

處理器110例如是中央處理單元（central processing unit，CPU），或是其他可程式化之一般用途或特殊用途的微控制單元（micro control unit，MCU）、微處理器（microprocessor）、數位信號處理器（digital signal processor，DSP）、可程式化控制器、特殊應用積體電路（application specific integrated circuit，ASIC）、圖形處理器（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、影像處理單元（image processing unit，IPU）、算數邏輯單元（arithmetic logic unit，ALU）、複雜可程式邏輯裝置（complex programmable logic device，CPLD）、現場可程式化邏輯閘陣列（field programmable gate array，FPGA）或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130，並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。

儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟（hard disk drive，HDD）、固態硬碟（solid state drive，SSD）或類似元件或上述元件的組合，而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中，儲存媒體120可儲存用於進行物件偵測的改良型YOLO-V2神經網路，其中改良型YOLO-V2神經網路是改良自如表1所示的YOLO-V2神經網路。

收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。處理器110可通過收發器130以接收輸入影像，並且根據儲存媒體120中的改良型YOLO-V2神經網路以辨識輸入影像中的物件。改良型YOLO-V2神經網路的架構，如表2所示。值得注意的是，改良型YOLO-V2神經網路可不包含重組層。因此，改良型YOLO-V2神經網路可節省重組層所需消耗的運算量或記憶體。表2

名稱	種類	濾波器 ( 或卷積核 ) 數量	尺寸 / 步伐	底部	底部
新卷積層1	卷積核+批正規化+縮放+洩漏線性整流單元	32	3x3
新池化層1	最大池化		2x2/2
新卷積層2	卷積核+批正規化+縮放+洩漏線性整流單元	64	3x3
新池化層2	最大池化		2x2/2
新卷積層3	卷積核+批正規化+縮放+洩漏線性整流單元	128	3x3
新卷積層4	卷積核+批正規化+縮放+洩漏線性整流單元	64	1x1
新卷積層5	卷積核+批正規化+縮放+洩漏線性整流單元	128	3x3
新池化層5	最大池化		2x2/2
新卷積層6	卷積核+批正規化+縮放+洩漏線性整流單元	256	3x3
新卷積層7	卷積核+批正規化+縮放+洩漏線性整流單元	128	1x1
殘差區塊7	殘差運算			新池化層5	洩漏線性整流單元7
新卷積層8	卷積核+批正規化+縮放+洩漏線性整流單元	256	3x3
新池化層8	最大池化		2x2/2
新卷積層9	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
新卷積層10	卷積核+批正規化+縮放+洩漏線性整流單元	256	1x1
新卷積層11	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
新卷積層12	卷積核+批正規化+縮放+洩漏線性整流單元	256	1x1
殘差區塊12	殘差運算			洩漏線性整流單元10	洩漏線性整流單元12
新卷積層13	卷積核+批正規化+縮放+洩漏線性整流單元	512	3x3
新池化層13	最大池化		2x2/2
新卷積層14_下層	卷積核	64	3x3
新卷積層14_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新卷積層15	卷積核+批正規化+縮放+洩漏線性整流單元	512	1x1
殘差區塊15	殘差運算			新池化層13	洩漏線性整流單元15
新卷積層16_下層	卷積核	64	3x3
新卷積層16_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新卷積層17	卷積核+批正規化+縮放+洩漏線性整流單元	512	1x1
新卷積層18_下層	卷積核	64	3x3
新卷積層18_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新卷積層19_下層	卷積核	64	3x3
新卷積層19_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新卷積層20_下層	卷積核	64	3x3
新卷積層20_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新串聯層	串聯			新池化層13	洩漏線性整流單元20
新卷積層21_下層	卷積核	64	3x3
新卷積層21_上層	卷積核+批正規化+縮放+洩漏線性整流單元	1024	1x1
新卷積層22	卷積核+批正規化+縮放+洩漏線性整流單元	40	1x1

新卷積層1可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層1可具有32個卷積核。新卷積層1的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層1可與如表1所示的卷積層1相同。

新池化層1可用以進行最大池化。新池化層1的尺寸例如為2x2，並且新池化層1的步伐例如為2。在一實施例中，如表2所示的新池化層1可與如表1所示的池化層1相同。

新卷積層2可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層2可具有64個卷積核。新卷積層2的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層2可與如表1所示的卷積層2相同。

新池化層2可用以進行最大池化。新池化層2的尺寸例如為2x2，並且新池化層2的步伐例如為2。在一實施例中，如表2所示的新池化層2可與如表1所示的池化層2相同。

新卷積層3可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層3可具有128個卷積核。新卷積層3的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層3可與如表1所示的卷積層3相同。

新卷積層4可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層4可具有64個卷積核。新卷積層4的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層4可與如表1所示的卷積層4相同。

新卷積層5可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層5可具有128個卷積核。新卷積層5的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層5可與如表1所示的卷積層5相同。

新池化層5可用以進行最大池化。新池化層5的尺寸例如為2x2，並且新池化層5的步伐例如為2。在一實施例中，如表2所示的新池化層5可與如表1所示的池化層5相同。

新卷積層6可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層6可具有256個卷積核。新卷積層6的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層6可與如表1所示的卷積層6相同。

新卷積層7可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層7可具有128個卷積核。新卷積層7的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層7可與如表1所示的卷積層7相同。

殘差區塊7的底部連接至新池化層5以及新卷積層7中的洩漏線性整流單元7。換句話說，殘差區塊7的輸入連接至新池化層5以及新卷積層7的洩漏線性整流單元7的輸出。殘差區塊7可用以對新池化層5以及洩漏線性整流單元7的輸出進行相加以產生相加結果。殘差區塊7可進一步將相加結果傳送至新卷積層8。在YOLO-V2神經網路架構中加入殘差區塊可有效地提高物件偵測的準確度。

新卷積層8可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層8可具有256個卷積核。新卷積層8的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層8可與如表1所示的卷積層8相同。

新池化層8可用以進行最大池化。新池化層8的尺寸例如為2x2，並且新池化層8的步伐例如為2。在一實施例中，如表2所示的新池化層8可與如表1所示的池化層8相同。

新卷積層9可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層9可具有512個卷積核。新卷積層9的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層9可與如表1所示的卷積層9相同。

新卷積層10可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層10可具有256個卷積核。新卷積層10的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層10可與如表1所示的卷積層10相同。

新卷積層11可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層11可具有512個卷積核。新卷積層11的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層11可與如表1所示的卷積層11相同。

新卷積層12可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層12可具有256個卷積核。新卷積層12的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層12可與如表1所示的卷積層12相同。

殘差區塊12的底部連接至新卷積層10中的洩漏線性整流單元10以及新卷積層12中的洩漏線性整流單元12。換句話說，殘差區塊12的輸入連接至洩漏線性整流單元10以及洩漏線性整流單元12的輸出。殘差區塊12可用以對洩漏線性整流單元10以及洩漏線性整流單元12的輸出進行相加以產生相加結果。殘差區塊12可進一步將相加結果傳送至新卷積層13。

新卷積層13可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層13可具有512個卷積核。新卷積層13的每個卷積核的尺寸例如為3x3。在一實施例中，如表2所示的新卷積層13可與如表1所示的卷積層13相同。

新池化層13可用以進行最大池化。新池化層13的尺寸例如為2x2，並且新池化層13的步伐例如為2。在一實施例中，如表2所示的新池化層13可與如表1所示的池化層13相同。

新卷積層14_下層（lower layer）以及新卷積層14_上層（upper layer）是由處理器110對如表1所示的卷積層14進行分解後而產生的。新卷積層14_下層的卷積核數量可小於卷積層14的卷積核數量。舉例來說，新卷積層14_下層可具有64個卷積核。新卷積層14_下層的每個卷積核的尺寸例如為3x3。新卷積層14_上層可具有2048個卷積核，並且新卷積層14_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層14_上層的卷積核的數量調整為新卷積層14_上層的當前卷積核數量（即：2048）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層14_上層所需消耗的運算量。

原始YOLO-V2神經網路模型約需占用260百萬位元組的記憶體。這對於運算力較少的邊緣運算裝置來說，是很大的負擔。為了縮減模型，處理器110可將原始YOLO-V2神經網路模型的卷積層（例如：3x3的卷積層14）分解為兩個新卷積層，分別為新卷積層_下層（例如：3x3的新卷積層14_下層）以及新卷積層_上層（例如：1x1的新卷積層14_上層），其中新卷積層_下層的卷積核的數量遠小於卷積層的卷積核的數量。如此，可顯著地減少參數數量，並且加快運算速度。處理器110可對位於原始YOLO-V2神經網路模型的較上層的卷積層（例如：如表1所示的卷積層14、16、18以及19~21）進行分解以產生改良型YOLO-V2神經網路的新卷積層_下層以及新卷積層_上層。

新卷積層15可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層15可具有512個卷積核。新卷積層15的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層15可與如表1所示的卷積層15相同。

殘差區塊15的底部連接至新池化層13以及新卷積層15中的洩漏線性整流單元15。換句話說，殘差區塊15的輸入連接至新池化層13以及洩漏線性整流單元15的輸出。殘差區塊15可用以對新池化層13以及洩漏線性整流單元15的輸出進行相加以產生相加結果。殘差區塊15可進一步將相加結果傳送至新卷積層16_下層。

新卷積層16_下層以及新卷積層16_上層是由處理器110對如表1所示的卷積層16進行分解後而產生的。新卷積層16_下層的卷積核數量可小於卷積層16的卷積核數量。舉例來說，新卷積層16_下層可具有64個卷積核。新卷積層16_下層的每個卷積核的尺寸例如為3x3。新卷積層16_上層可具有2048個卷積核，並且新卷積層16_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層16_上層的卷積核的數量調整為新卷積層16_上層的當前卷積核數量（即：2048）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層16_上層所需消耗的運算量。

新卷積層17可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層17可具有512個卷積核。新卷積層17的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層17可與如表1所示的卷積層17相同。

新卷積層18_下層以及新卷積層18_上層是由處理器110對如表1所示的卷積層18進行分解後而產生的。新卷積層18_下層的卷積核數量可小於卷積層18的卷積核數量。舉例來說，新卷積層18_下層可具有64個卷積核。新卷積層18_下層的每個卷積核的尺寸例如為3x3。新卷積層18_上層可具有2048個卷積核，並且新卷積層18_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層18_上層的卷積核的數量調整為新卷積層18_上層的當前卷積核數量（即：2048）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層18_上層所需消耗的運算量。

新卷積層19_下層以及新卷積層19_上層是由處理器110對如表1所示的卷積層19進行分解後而產生的。新卷積層19_下層的卷積核數量可小於卷積層19的卷積核數量。舉例來說，新卷積層19_下層可具有64個卷積核。新卷積層19_下層的每個卷積核的尺寸例如為3x3。新卷積層19_上層可具有2048個卷積核，並且新卷積層19_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層19_上層的卷積核的數量調整為新卷積層19_上層的當前卷積核數量（即：2048）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層19_上層所需消耗的運算量。

新卷積層20_下層以及新卷積層20_上層是由處理器110對如表1所示的卷積層20進行分解後而產生的。新卷積層20_下層的卷積核數量可小於卷積層20的卷積核數量。舉例來說，新卷積層20_下層可具有64個卷積核。新卷積層20_下層的每個卷積核的尺寸例如為3x3。新卷積層20_上層可具有2048個卷積核，並且新卷積層20_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層20_上層的卷積核的數量調整為新卷積層20_上層的當前卷積核數量（即：2048）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層20_上層所需消耗的運算量。

新串聯層的底部連接至新池化層13以及卷積層20中的洩漏線性整流單元20。換句話說，新串聯層的輸入連接至新池化層13以及洩漏線性整流單元20的輸出。新串聯層可用以對新池化層13以及洩漏線性整流單元20的輸出進行串聯。

新卷積層21_下層以及新卷積層21_上層是由處理器110對如表1所示的卷積層21進行分解後而產生的。新卷積層21_下層的卷積核數量可小於卷積層21的卷積核數量。舉例來說，新卷積層21_下層可具有64個卷積核。新卷積層21_下層的每個卷積核的尺寸例如為3x3。新卷積層21_上層可具有2148個卷積核，並且新卷積層21_上層的每個卷積核的尺寸例如為1x1。在一實施例中，處理器110可將新卷積層21_上層的卷積核的數量調整為新卷積層21_上層的當前卷積核數量（即：2148）的二分之一（即：1024）或調整為小於當前卷積核數量的二分之一，藉以降低新卷積層21_上層所需消耗的運算量。

新卷積層22可包括多個卷積核、批正規化、縮放以及激勵函數，其中所述激勵函數例如為洩漏線性整流單元。新卷積層22可具有425個卷積核。新卷積層22的每個卷積核的尺寸例如為1x1。在一實施例中，如表2所示的新卷積層22可與如表1所示的卷積層22相同。

圖2根據本發明的一實施例繪示一種基於神經網路的物件偵測方法的流程圖，其中所述物件偵測方法可由如圖1所示的物件偵測裝置100實施。在步驟S210中，接收輸入影像。在步驟S220中，根據改良型YOLO-版本2神經網路以辨識輸入影像中的物件，其中改良型YOLO-版本2神經網路包括殘差區塊、包括第一數量個濾波器的第三卷積層以及包括第二數量個濾波器的第四卷積層。殘差區塊的第一輸入連接至改良型YOLO-版本2神經網路的第一卷積層，並且殘差區塊的輸出連接至改良型YOLO-版本2神經網路的第二卷積層，其中殘差區塊用於將對應於第一卷積層的相加結果傳送至第二卷積層。第三卷積層以及第四卷積層是對原始YOLO-版本2神經網路的包括第三數量個濾波器的卷積層進行分解所產生的，其中第一數量小於第三數量。

綜上所述，本發明提出的改良型YOLO-V2神經網路可在原始YOLO-V2神經網路上添加殘差區塊，藉以提高辨識的準確度。此外，改良型YOLO-V2神經網路還包括由原始YOLO-V2神經網路的單一卷積層分解而產生的兩個卷積層。相較於原始YOLO-V2神經網路的單一卷積層，所述兩個卷積層中的濾波器數量可大幅地減少。因此，改良型YOLO-V2神經網路所需的運算量將會顯著地降低。再者，改良型YOLO-V2神經網路移除了原始YOLO-V2神經網路的重組層，藉以減輕神經網路的運算負擔。

100:物件偵測裝置 110:處理器 120:儲存媒體 130:收發器 S210、S220:步驟

圖1根據本發明的一實施例繪示一種基於神經網路的物件偵測裝置的示意圖。圖2根據本發明的一實施例繪示一種基於神經網路的物件偵測方法的流程圖。

S210、S220:步驟

Claims

一種基於神經網路的物件偵測裝置，包括：收發器；儲存媒體，儲存改良型YOLO-版本2神經網路；以及處理器，耦接所述儲存媒體以及所述收發器，其中所述處理器通過所述收發器以接收輸入影像，並且根據所述改良型YOLO-版本2神經網路以辨識所述輸入影像中的物件，其中所述改良型YOLO-版本2神經網路包括：殘差區塊，其中所述殘差區塊的第一輸入連接至所述改良型YOLO-版本2神經網路的第一卷積層，並且所述殘差區塊的輸出連接至所述改良型YOLO-版本2神經網路的第二卷積層，其中所述殘差區塊用於將對應於所述第一卷積層的相加結果傳送至所述第二卷積層；以及包括第一數量個濾波器的第三卷積層以及包括第二數量個濾波器的第四卷積層，其中所述處理器對原始YOLO-版本2神經網路的包括第三數量個濾波器的卷積層進行分解以產生所述第三卷積層以及所述第四卷積層，其中所述第一數量小於所述第三數量。
如請求項1所述的物件偵測裝置，更包括：串聯層，其中所述串聯層的第二輸入連接至所述改良型YOLO-版本2神經網路的池化層以及第五卷積層。
如請求項1所述的物件偵測裝置，其中所述處理器將所述第二數量調整為小於所述第二數量的二分之一。
如請求項1所述的物件偵測裝置，其中所述第一卷積層包括激勵函數，其中所述殘差區塊的所述第一輸入連接至所述第一卷積層的所述激勵函數。
如請求項4所述的物件偵測裝置，其中所述激勵函數為洩漏線性整流單元。
如請求項1所述的物件偵測裝置，其中所述殘差區塊的所述第一輸入更連接至所述改良型YOLO-版本2神經網路的池化層，並且所述殘差區塊用於將所述第一卷積層以及所述池化層的所述相加結果傳送至所述第二卷積層。
如請求項1所述的物件偵測裝置，其中所述殘差區塊的所述第一輸入更連接至所述改良型YOLO-版本2神經網路的第五卷積層，並且所述殘差區塊用於將所述第一卷積層以及所述第五卷積層的所述相加結果傳送至所述第二卷積層。
如請求項1所述的物件偵測裝置，其中所述改良型YOLO-版本2神經網路不包括重組層。
一種基於神經網路的物件偵測方法，包括：接收輸入影像；以及根據改良型YOLO-版本2神經網路以辨識所述輸入影像中的物件，其中所述改良型YOLO-版本2神經網路包括：殘差區塊，其中所述殘差區塊的第一輸入連接至所述改良型YOLO-版本2神經網路的第一卷積層，並且所述殘差區塊的輸出連接至所述改良型YOLO-版本2神經網路的第二卷積層，其中所述殘差區塊用於將對應於所述第一卷積層的相加結果傳送至所述第二卷積層；以及包括第一數量個濾波器的第三卷積層以及包括第二數量個濾波器的第四卷積層，其中所述第三卷積層以及所述第四卷積層是對原始YOLO-版本2神經網路的包括第三數量個濾波器的卷積層進行分解而產生的，其中所述第一數量小於所述第三數量。