TWI809957B

TWI809957B - 物件偵測方法及電子裝置

Info

Publication number: TWI809957B
Application number: TW111124468A
Authority: TW
Inventors: 郭景明; 楊智勝; 吳宏為
Original assignee: 國立臺灣科技大學
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-07-21
Also published as: TW202403590A; US20240005635A1

Abstract

物件偵測方法及電子裝置。利用處理器來執行下述步驟，包括：接收原始影像；自原始影像提取多個初始特徵圖；基於所述初始特徵圖，通過插值法與加和操作獲得多個融合特徵圖；以及將所述融合特徵圖分別輸入對應的檢測頭，以透過檢測頭的邊框回歸分支獲得邊框位置機率分布以及透過檢測頭的分類分支獲得分類機率分布。

Description

物件偵測方法及電子裝置

本發明是有關於一種影像識別技術，且特別是有關於一種物件偵測方法及電子裝置。

物件偵測技術為近年來電腦視覺中的重要領域之一，同時也是一項非常具挑戰性的研究。物件偵測的主要目的是檢測在影像中的目標物件，並在每張圖片定位出複數目標位置與其物件種類。物件偵測主要分成兩種不同方法實現，以架構流程來說可直接分成一階段物件偵測(one-stage object detection)和二階段物件偵測(two-stage object detection)。二階段物件偵測是先選出物件之候選區，再根據候選區作位置檢測與分類。一階段物件偵測是直接對整張影像作物件位置檢測與分類。

隨著深度學習的興起和卷積神經網路(Convolution Neural Network，CNN)的改進，也使物件偵測的相關技術大量湧現、推陳出新，但偵測的性能和效果依然需要面臨諸多挑戰。

本發明提供一種物件偵測方法及其電子裝置，擁有較良好的處理效能，使其在計算推理上能有更好的精度提升，確保模型具有良好的泛化能力。

本發明的物件偵測方法，利用處理器來執行下述步驟，包括：接收原始影像；自原始影像提取尺度不同的多個初始特徵圖；基於所述初始特徵圖，通過插值法與加和操作獲得尺度不同的多個融合特徵圖；以及將所述融合特徵圖分別輸入對應的檢測頭，以透過檢測頭的邊框回歸分支獲得邊框位置機率分布以及透過檢測頭的分類分支獲得分類機率分布。

本發明的電子裝置，包括：儲存設備，包括物件偵測模組；以及處理器，耦接至儲存設備，且經配置以輸入原始影像至物件偵測模組來執行下述步驟：自原始影像提取尺度不同的多個初始特徵圖；基於所述初始特徵圖，通過插值法與加和操作獲得尺度不同的多個融合特徵圖；以及將所述融合特徵圖分別輸入對應的檢測頭，以透過檢測頭的邊框回歸分支獲得邊框位置機率分布以及透過檢測頭的分類分支獲得分類機率分布。

基於上述，本揭露是一種基於卷積神經網路架構進行改良之物件偵測方法及其電子裝置，其整合了輕量化模型與網路加速策略整合，著重於萃取物件資訊時能夠針對推論速度進行優化。

100:電子裝置

110:處理器

120:儲存設備

121:物件偵測模組

310:骨幹網路

320、420:連結層

330、330-1~330-3:檢測頭

510:分類分支

520:邊框回歸分支

C1~C5:初始特徵圖

M1~M3、P1~P3、N1~N3:融合特徵圖

In:影像

S205~S220:物件偵測方法的步驟

圖1是依照本發明一實施例的電子裝置的方塊圖。

圖2是依照本發明一實施例的物件偵測方法的流程圖。

圖3是依照本發明一實施例的物件偵測模組的架構圖。

圖4是依照本發明另一實施例的物件偵測模組的架構圖。

圖5是依照本發明一實施例的檢測頭的架構圖。

圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1，電子裝置100包括處理器110以及儲存設備120，處理器110耦接至儲存設備120。儲存設備120包括物件偵測模組121。

處理器110例如為中央處理單元(Central Processing Unit，CPU)、圖像處理單元(Graphics Processing Unit，GPU)、物理處理單元(Physics Processing Unit，PPU)、可程式化之微處理器(Microprocessor)、嵌入式控制晶片、數位訊號處理器(Digital Signal Processor，DSP)、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)或其他類似裝置。

儲存設備120例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。資料收集模組121、運算模組122以及應用模組123是由一或多個程式碼片段所組成，上述程式碼片段在被安裝後，會由處理器110來執行。

圖2是依照本發明一實施例的物件偵測方法的流程圖。在本實施例中，利用處理器110執行物件偵測模組121來實現下述步驟S205~S220。在步驟S205中，接收原始影像。接著，在步驟S210中，自原始影像提取多個初始特徵圖。例如，將原始影像輸入骨幹網路(Backbone)以獲取尺度不同的多個初始特徵圖。在步驟S215中，基於所述初始特徵圖，通過插值法與加和(addition)操作獲得尺度不同的多個融合特徵圖。在步驟S220中，將融合特徵圖分別輸入對應的檢測頭，以透過檢測頭的邊框回歸分支獲得邊框位置機率分布以及透過檢測頭的分類分支獲得分類機率分布。

圖3是依照本發明一實施例的物件偵測模組的架構圖。請參照圖3，物件偵測模組121為基於卷積神經網路(Convolution Neural Network，CNN)的架構，其分成骨幹網路310、連結層(Neck)320以及檢測頭(Head)330三個部分。在本實施例中，根據連結層320輸出的融合特徵圖M3~M5的數量而對應設置有3個檢測頭330-1~330-3。

骨幹網路310負責從原始影像In中提取特徵。在本實施例中，骨幹網路310以下取樣方式，由原始影像In來提取尺度不同的多個初始特徵圖C1~C5。例如，通過5個不同尺度的特徵圖分別下取樣2倍、4倍、8倍、16倍以及32倍。即，假設原始影像In的大小為H×W，則特徵圖C1~C5會分別得到H/2×W/2、 H/4×W/4、H/8×W/8、H/16×W/16、H/32×W/32尺寸的特徵圖。例如，倘若原始影像In的大小為1024×2048，則特徵圖C1~C5對應的高、寬分別為512×1024、256×512、128×256、64×128、32×64。

骨幹網路310可採用VGG、ResNet、ResNeXt、DenseNet、MobileNet、ShuffleNet等模型。而在本實施例中，較佳範例為選擇使用EfficientNet-lite來作為骨幹網路310的模型。EfficientNet-lite為EfficientNet的輕量化改進版本，其移除了擠壓和激勵(Squeeze-and-excite，SE)模組，保證在進行縮放時保有輕量級的優勢，在精度和大小之間具有更好的權衡。

連結層(Neck)320為物件偵測模組121中承上啟下的關鍵環節，用以對骨幹網路310提取到的重要特徵，進行再加工及合理利用，有利於下一步檢測頭330的具體任務學習。

在連結層320中可採用特徵金字塔網路(Feature Pyramid Network，FPN)的結構，在不同的尺度也就是不同大小的特徵圖(Feature map)上去提取不同尺度的特徵資料並進行融合，充分利用骨幹網路310所提取的特徵資料，從而讓後續能夠更好地檢測物體。

連結層320還可採用諸如自適應空間融合(Adaptively Spatial Feature Fusion，ASFF)、感受域塊(Receptive Field Block，RFB)、空間金字塔池化(Spatial Pyramid Pooling，SPP)等模組。連結層320的作用就是更好地融合、提取骨幹網路310所給出的特徵資料，然後再交由後續的檢測頭330去檢測，從而提高模型的性能。

在本實施例中，於連結層320中以上取樣方式，由深層至淺層對初始特徵圖C3~C5進行加和操作，而獲得融合特徵圖M3~M5。加和操作是將特徵圖相加，而通道數不變。

具體而言，以初始特徵圖C5作為融合特徵圖M5。接著，以插值方式將融合特徵圖M5的高、寬H/32×W/32調整與初始特徵圖C4的高、寬H/16×W/16相同後，對融合特徵圖M5與初始特徵圖C4進行加和操作而獲得融合特徵圖M4。然後，以插值方式將融合特徵圖M4的高、寬H/16×W/16調整與初始特徵圖C3的高、寬H/8×W/8相同後，對融合特徵圖M4與初始特徵圖C3進行加和操作而獲得融合特徵圖M3。在此，以進行特徵融合的初始特徵圖與融合特徵圖的數量僅為舉例說明，並不以此為限。

在另一實施例中，還可在連結層中設置兩條融合路徑，如圖4所示。圖4是依照本發明另一實施例的物件偵測模組的架構圖。在本實施例中，連結層420例如為採用路徑聚合網路(Path Aggregation Network，PANet)來實現。圖4所示的連結層420比圖3所示的連結層320多了一條從下向上(Bottom-up)的路徑。即，連結層420包含了從上向下(Top-down)和從下向上(Bottom-up)的路徑。經由Top-down路徑自特徵圖C3~C5獲得融合特徵圖P3~P5，再經由Bottom-up路徑獲得融合特徵圖N3~N5。

在本實施例中，在Top-down路徑中，以上取樣方式，由深層至淺層對初始特徵圖C3~C5進行加和操作，而獲得融合特徵圖P3~P5。以初始特徵圖C5作為融合特徵圖P5，並以插值方式將融合特徵圖P5的高、寬調整與初始特徵圖C4的高、寬相同。接著，將初始特徵圖C4與融合特徵圖P5進行加和操作後獲得融合特徵圖P4。接著，以插值方式將融合特徵圖P4的高、寬調整與初始特徵圖C3的高、寬相同後，將初始特徵圖C3與融合特徵圖P4進行加和操作後獲得融合特徵圖P3。

在Bottom-up路徑中，以下取樣方式，由淺層至深層對融合特徵圖P3~P5進行加和操作，而獲得融合特徵圖N3~N5。以融合特徵圖P3作為融合特徵圖N3。接著，以插值方式將融合特徵圖N3的高、寬調整與融合特徵圖P4的高、寬相同後，對融合特徵圖P4與融合特徵圖N3進行加和操作而獲得融合特徵圖N4。然後，以插值方式將融合特徵圖N4的高、寬調整與融合特徵圖P5的高、寬相同後，對融合特徵圖P5與融合特徵圖N4進行加和操作而獲得融合特徵圖N5。在此，用以進行特徵融合的初始特徵圖與融合特徵圖的數量僅為舉例說明，並不以此為限。

連結層420省略了上下取樣的卷積層，只保留從骨幹網路310特徵提取後的1×1卷積來進行特徵通道維度的對齊，在上取樣和下取樣均使用插值法來完成。與YOLOv4使用的級聯(Concatenate)操作不同，加和操作用以將多個尺度的特徵圖直接相加，據此，可使連結層320、420的計算量變得非常小。

在檢測頭330-1~330-3中，對連結層320(或連結層420) 輸出的融合特徵圖進行物件分類以及物件位置的分支預測。圖5是依照本發明一實施例的檢測頭的架構圖。請參照圖5，本實施例適用於檢測頭330-1~330-3(統稱為檢測頭330)，其採用Generalized Focal Loss V2(GFLv2)演算法。在此，檢測頭330包括分類分支(classification branch)510以及邊框回歸(bounding box regression)分支520。分類分支510用以獲得分類機率分布。邊框回歸分支520用以獲得邊框位置機率分布。

分類分支510以及邊框回歸分支520兩者之間的接合(joint)採用了TopK(4)函數、整流線性單位(Rectified Linear Unit，ReLu)函數、雙彎曲(Sigmoid)函數以及分別與ReLu函數及Sigmoid函數對應的兩個全連接(Fully-Connected，FC)層。分類分支510與邊框回歸分支520分別使用了4個256通道的卷積。利用TopK(4)函數將邊框的4個邊的Top-k值接在一起形成一個維度很低的特徵向量，並將這個特徵向量接入2個小的FC層，使增加的計算量非常少，幾乎不會給訓練或預測帶來計算上的負擔，還能進一步提升輕量化網路的預測準確性。

另外，在本實施例中，在邊框回歸分支520中引入知識蒸餾法(Knowledge Distillation)。知識蒸餾法屬於模型壓縮的一種方法。最大的核心想法就是找出一個模型簡單，但能夠處理複雜問題的模型。知識蒸餾法採用教師-學生(Teacher-Student)模型，先把教師模型訓練好後，再從中選精華作為學生模型的訓練目標，使得學生模型也能達到教師模型一樣的效果。

在邊框回歸分支520使用位置蒸餾(Localization Distillation，LD)法來提高目標框的定位能力。位置蒸餾法使用了能夠解決位置模糊性問題的高性能教師模型，通過蒸餾學習得到學生模型，使得學生模型能像教師模型一樣解決位置模糊問題。

在圖3或圖4所示的實施例中對應於連結層320或連結層420的輸出而設置3個檢測頭。最終可獲得3組分類機率分布以及3組邊框位置機率分布。

在物件偵測模型121的訓練過程中，為了在研究過程中有較大的調適能力，在骨幹網路310中使用具有統合縮放能力的EfficientNet-Lite演算法。在經過幾次的微調後，激勵函數(Activation Function)可由ReLU6、Mish、LeakyReLU、SiLU中選擇。其中，選擇SiLU的原因是已經在加速策略中使用稀疏性剪枝(prune)。ReLU的特性在訓練過程中不保留負值容易導致訓練梯度消失(Vanishing gradient)。而在測試過Mish與SiLU後以實驗數據較佳的SiLU作為骨幹網路310訓練的激勵函數。

另外，為了輕量化的原則，在原使的PANet的基礎刪去內部用於上下取樣卷積的計算層，改使1×1卷積進行特徵通道維度的對齊，金字塔網路中多尺度融合所需的上下取樣均使用線性插值完成。而在檢測頭的部分使用FCOS(Fully Convolutional One-Stage Object Detection)的方式以點分配(Point Assignment)節省大量平鋪錨點(Anchor)的無效計算，使用其中一個表示(Representation)縮放從中心點到四周檢測框的邊界，並透過自適應訓練樣本選擇(Adaptive Training Sample Selection，ATSS)的方式篩選正負樣本，再引入Generalized Focal Loss V2演算法修改表示(Representation)和損失函數(例如，Focal Loss)，將分類分數與檢測框分數合併到一個表示中，以學習出的寬範圍分布取代原先邊界框使用的狄拉克離散分布(Dirac Discrete distribution)去適應實際圖像中較模糊的物體邊界。

輕量化的物件偵測模型對於移動端或終端處理有很大的性能優勢。為了不在追求預測速度的情況下導致過低的準確率，提出的方法在使用NVIDIA RTX 2080Ti下利用NCNN(Normalized Convolutional Neural Network)能讓物件偵測模型以超過47% AP50的準確度並同時超過300 FPS(每秒顯示幀數(Frame Per Second))的檢測性能。AP50為一種目標檢測評價指標，指的是IoU(Intersection Over Union)閾值大於0.5。

在自我評估實驗中，使用EfficientNet-Lite0與EfficientNet-Lite1作為骨幹網路310，為了能在實驗中調適並在實驗表現與處理速度上取得一個良好的平衡，其相關實驗如表1所述。

在此，為兼顧評估性能與正確率，採用COCO2017 Val的mAP(mean average precision)當作性能指標。

如表1所示，實驗組1選擇EfficientNet-Lite0(表1中簡述為“Lite0”)為骨幹網路，以320×320(表1中簡述為“320”)的解析度作為原始影像的輸入大小，激勵函數採用ReLU6，檢測頭採用GFLv2演算法，其mAP為24.7%。實驗組2~5選擇EfficientNet-Lite1(表1中簡述為“Lite1”)為骨幹網路，並以416×416(表1中簡述為“416”)的解析度作為原始影像的輸入大小。

實驗組1與實驗組4相比之下，實驗組1的mAP低了約5%，雖然在速度上有優勢但依舊希望物件偵測模組能達到一定準確度，降低誤判或漏檢的機率。其他實驗分別測試替換激勵函數以及使用不同的訓練策略，若使用GFLv2在模型大小上略有提升，但性能影響不大且可以為準確性帶來正面的影響。

實驗組2使用Mish作為激勵函數並將原始影像輸入大小提升至416×416，相較於實驗組1，其mAP提升約2.6%。

實驗組3將激勵函數替換為SiLU並加入混合精度訓練(Mixed precision training)，其mAP能比實驗組2提升約0.3%。由此可知，相較於使用Mish，降低一部分訓練用精度並搭配保留負值非線性激勵函數的情況下mAP還能有所提升。

實驗組4使用SiLU激勵函數以及GFLv2做為檢測頭，並加入混合精度訓練、稀疏性網路剪枝，其mAP能在與實驗組3對比之下提升約2.1%，與實驗組1對比之下提升約5%。實驗組5在實驗組4的基礎加入位置蒸餾法，將mAP最終提升至30.7%。

綜上所述，本揭露是一種基於卷積神經網路架構進行改良之物件偵測方法及其電子裝置，其整合了輕量化模型與網路加速策略整合，著重於萃取物件資訊時能夠針對推論速度進行優化。雖然使用參數量較少的輕量化網路作為骨幹網路，透過雙向特徵金字塔網路進行特徵融合，當場景或物件較為複雜仍能夠快速的取得重要特徵。另外，還可進一步透過整合資料增強、混合精度訓練、稀疏性網路生成等等訓練策略，能有效提升輕量化網路的泛化能力，使其在計算推理上能有更好的精度提升，確保模型具有良好的泛化能力。

此外，本揭露利用知識蒸餾可解決輕量化網路在物件偵測精度較為不足，透過教師模型與學生模型的互相訓練能有效提升學生模型的推理準確率，且不會在推理時增加額外計算需求。由於過往方法中較少關注在演算法的運算成本，因此藉由輕量化網路帶來的好處，提供運算力較弱的平台也能即時做物件偵測推理，這對後續在實際場景應用能更有效控制硬體成本，在更多的場景能運用深度學習帶給人們生活上的便利。

在實際性能驗證方面，本揭露使用公開資料集MS-COCO 2017進行測試並與前人技術比較，由於測試資料中存在較為困難的因素，如真實世界中物件邊界模糊、小物件、物件重疊等情況。結果顯示，相較於前人所提出的技術，本揭露所提出的算法可獲得良好的準確率及超過標準數倍的即時性，因此有相當大的潛力可被應用於現實生活中，在使用較少的運算資源下並仍保有一定的準確性。

S205~S220:物件偵測方法的步驟

Claims

一種物件偵測方法，利用一處理器執行一物件偵測模組來實現下述步驟，包括：接收一原始影像；經由一取樣路徑，對該原始影像執行特徵擷取，以提取尺度不同的多個初始特徵圖，其中該取樣路徑包括多個取樣階段，將每一該些取樣階段所獲得的初始特徵圖作為下一個取樣階段的輸入；經由一融合路徑，基於該些初始特徵圖，通過一插值法與一加和操作獲得尺度不同的多個融合特徵圖，其中該融合路徑包括多個融合階段，將每一該些融合階段所獲得的融合特徵圖以及與下一個融合階段對應的取樣階段所獲得的初始特徵圖做為下一個融合階段的輸入，每一該些融合階段包括：對作為輸入的該融合特徵圖執行該插值法，以調整該融合特徵圖的尺寸符合作為輸入的該初始特徵圖的尺寸；以及將調整尺寸後的該融合特徵圖與該初始特徵圖進行該加和操作，而獲得該融合階段對應的融合特徵圖；以及將該些融合特徵圖分別輸入多個檢測頭，以透過每一該些檢測頭的一邊框回歸分支獲得一邊框位置機率分布以及透過每一該些檢測頭的一分類分支獲得一分類機率分布，其中一個融合特徵圖搭配一個檢測頭來使用。
如請求項1所述的物件偵測方法，其中經由該取樣路徑，對該原始影像執行特徵擷取的步驟包括：以下取樣方式，由該原始影像開始逐一在該些取樣階段中提取尺度不同的該些初始特徵圖。
如請求項1所述的物件偵測方法，其中獲得尺度不同的該些融合特徵圖的步驟包括：以上取樣方式，基於該些初始特徵圖，由深層至淺層進行該插值法與該加和操作，而獲得該些融合特徵圖。
如請求項1所述的物件偵測方法，其中在獲得該些融合特徵圖之後，更包括：以下取樣方式，基於該些融合特徵圖，由淺層至深層進行該插值法與該加和操作，而獲得多個新的融合特徵圖，以將該些新的融合特徵圖分別輸入該些檢測頭。
如請求項1所述的物件偵測方法，其中該物件偵測模組包括一骨幹網路、一連結層以及該檢測頭。
如請求項5所述的物件偵測方法，其中該骨幹網路採用輕量化神經網路，該輕量化神經網路包括EfficientNet-Lite演算法。
如請求項5所述的物件偵測方法，其中該連結層採用路徑聚合網路。
如請求項1所述的物件偵測方法，其中該檢測頭採用Generalized Focal Loss V2演算法。
如請求項1所述的物件偵測方法，其中在該邊框回歸分支中引入知識蒸餾法。
一種電子裝置，包括：一儲存設備，包括一物件偵測模組；以及一處理器，耦接至該儲存設備，且經配置以輸入一原始影像至該物件偵測模組來執行下述步驟：經由一取樣路徑，對該原始影像執行特徵擷取，以提取尺度不同的多個初始特徵圖，其中該取樣路徑包括多個取樣階段，將每一該些取樣階段所獲得的初始特徵圖作為下一個取樣階段的輸入；經由一融合路徑，基於該些初始特徵圖，通過一插值法與一加和操作獲得尺度不同的多個融合特徵圖，其中該融合路徑包括多個融合階段，將每該些一融合階段所獲得的融合特徵圖以及與下一個融合階段對應的取樣階段所獲得的初始特徵圖做為下一個融合階段的輸入，每一該些融合階段包括：對作為輸入的該融合特徵圖執行該插值法，以調整該融合特徵圖的尺寸符合作為輸入的該初始特徵圖的尺寸；將調整尺寸後的該融合特徵圖與該初始特徵圖進行該加和操作，而獲得該融合階段對應的融合特徵圖；以及將該些融合特徵圖分別輸入多個檢測頭，以透過每一該些檢測頭的一邊框回歸分支獲得一邊框位置機率分布以及透過每一該些檢測頭的一分類分支獲得一分類機率分布，其中一個融合特徵圖搭配一個檢測頭來使用。