TWI708209B

TWI708209B - 使用卷積神經網絡模型的物件偵測方法及物件偵測設備

Info

Publication number: TWI708209B
Application number: TW108104861A
Authority: TW
Inventors: 賴威豪; 梁珮蓉; 泗得蔣; 陳澤民; 阮聖彰
Original assignee: 財團法人工業技術研究院
Priority date: 2018-12-11
Filing date: 2019-02-13
Publication date: 2020-10-21
Also published as: JP2020095660A; TW202022797A; US10748033B2; JP6807968B2; US20200184260A1

Abstract

本揭露涉及一種使用卷積神經網絡模型的物件偵測方法及物件偵測設備。在一方面中，物件偵測方法包含：產生感測器資料；通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果；通過使用多級稀疏更新映射演算法來處理第一物件偵測結果以產生多級更新後第一物件偵測結果；通過使用各級稀疏更新映射演算法之間的多級空間池化演算法來處理第一級的更新後第一物件偵測結果；執行多級深卷積層演算法以提取多個特徵結果；以及基於最後一級的特徵結果來執行偵測預測。

Description

使用卷積神經網絡模型的物件偵測方法及物件偵測設備

本揭露是有關於一種物件偵測方法及物件偵測設備，且特別是有關於一種使用卷積神經網絡(convolutional neural network；CNN)模型的物件偵測方法及物件偵測設備。

自駕車開發已是近年來重要的研究和開發項目，且偵測或感測設備已尤其重要。可通過提供更可靠的感測資料和通過提供特定環境類型內的關於車身環境的更精確資訊來改進偵測設備。偵測設備還可基於車身環境的感測器讀數來產生強化資訊。在偵測設備的建構中，物件偵測是必不可少的技術中的一種。通過安裝在車身上的高分辨率攝影機拍攝的影像來識別出現在車輛前部的物件的位置和類型，且還通過組合如計算機視覺和深度學習的技術，車輛可作出精確判定以確定是否規避物件或是否剎車。作出判定可類似於基於其眼睛的觀測結果來採取策略的人工智能。

然而，各種物件偵測可能依賴於深度學習方法。深度學習是用於使用訓練資料來修改學習模型的常用術語。深度學習可要求大量計算資源以訓練和預測學習模型。當偵測設備執行物件偵測時，訓練模型將用於前向傳播計算。計算量在訓練階段和預測階段兩者期間可能很大。在沒有具有高計算能力的硬件裝置的情況下，此類嘗試將幾乎不可能，因為每秒的影像處理幀數在極小時間間隔內很大。因此，用於物件偵測的演算法階段的持續優化在現階段將仍然是必要的。

當人駕駛車輛時，物件偵測演算法可幫助自動駕駛車輛(autonomous vehicle)在感測範圍內感測任一物件，且所述演算法還將提供預測路徑規劃給其它系統。為了滿足這一需求，偵測設備必須滿足至少三個特點，所述特點包含：大數量(即可識別物件數目)、精確性(即正確地識別物件的類型和物件的位置)以及快速(即達到反應所需的瞬時計算速率)。為了滿足以上特徵，有必要對現有深度學習模型作出改進和修改。

表1展示物件偵測必須妥協於偵測性能和計算複雜度的困境，因為物件偵測的較高性能將形成較高計算複雜度。本文中，雙階DL(deep learning；DL)物件偵測模型具有最高偵測精確性，但其通常需要最大的計算成本。詳細地說，雙階DL物件偵測採用與單階DL物件偵測類似的卷積層，區別在於雙階DL在那些卷積層後採用區域建議網絡(region proposal network；RPN)從所提供的特徵圖(feature maps)中提出一或多個感興趣區域(region of interest；ROI)。圖1說明RPN根據最後一個卷積層提取的特徵圖提出感興趣區域。更詳細地說，處理器將通過使用RPN來處理一組所提供的特徵圖(即圖1中所說明的輸入影像)以在雙階DL物件偵測模型中提出一些ROI，其中特徵圖包含多個未使用特徵(unused features；UNU)。多個未使用特徵UNU將需要一定量計算成本，而這成本為無效分配，因為多個未使用特徵UNU不貢獻任何偵測結果。

換句話說，雙階DL物件偵測模型中的RPN具有降低偵測構架效率的兩個缺點。第一，RPN分析所提供的特徵圖建議任一潛在候選ROI，可能存在將不產生任何ROI建議的多個未使用特徵UNU，然而這些未使用特徵UNU需要一定量計算成本已由RPN計算。在ROI不出現的區域中的操作造成的計算浪費是第一特徵不必要的計算部分(即多個未使用特徵)。第二，儘管雙階DL物件偵測中的RPN的當前位置實現穩健偵測性能，但其可形成低效推斷。相反，ROI建議可定位於卷積層前部以顯著減小網絡大小以及其計算上作。

因此，本揭露涉及一種使用CNN模型的物件偵測方法和物件偵測設備。

在示範性實施例中的一個中，本揭露涉及一種使用CNN模型的物件偵測方法，所述方法將包含但不限於：通過使用感測器來產生感測器資料；通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果，其中第一物件偵測結果包含包圍盒(bounding box；BB)資訊；通過使用多級稀疏更新映射演算法來根據包圍盒資訊處理第一物件偵測結果以在CNN模型中產生多級更新後第一物件偵測結果；通過使用多級空間池化演算法來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度；基於CNN模型中的多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果；以及基於由最後一級的多級深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。

在示範性實施例中的一個中，本揭露涉及一種物件偵測設備，所述物件偵測設備將包含但不限於：感測器，用於產生感測器資料；以及處理器，耦合到感測器且配置成至少進行以下操作：通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果，其中第一物件偵測結果包含包圍盒資訊；通過使用多級稀疏更新映射演算法來根據包圍盒資訊處理第一物件偵測結果以在CNN模型中產生多級更新後第一物件偵測結果；通過使用多級空間池化演算法來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度；基於CNN模型中的多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果；以及基於由最後一級的多級深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。

為讓本揭露的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

200、1000:物件偵測設備

210:感測器

220:處理器

300、V1010:自動駕駛車輛

501:第t個RGB影像資料

501a:RGB攝影機陣列

502:第t個偵測後RGB影像資料

503:第t個推斷結果

532:第(t-1)個特徵圖1

533:第t個特徵圖1

542:第(t-1)個特徵圖2

543:第t個特徵圖2

552:第(t-1)個特徵圖5

553:第t個特徵圖k

1001:前置攝影機

1003:處理單元

BBX1、BBX2、BBX3:包圍盒

conv1、conv2、conv3、conv4、conv5、convk:卷積演算法

IC、IC1、IC2:影像區

GC、GC1、GC0、GC2:網格單元

PIX:像素

UNU:未使用特徵

S410、S420、S430、S440、S450、S460:步驟

S510:基於CV的ROI步驟

S520、S521、S522:SUM演算法步驟

S530、S540、S550:深卷積層演算法步驟

S531、S541、S551:卷積演算法步驟

S534a:位置層演算法步驟

S534b:卷積層演算法步驟

S534c:恢復層演算法步驟

S534d:池化層演算法步驟

S560、S561:空間池化演算法步驟

S570:ROI池化演算法步驟

S580:包圍盒回歸演算法步驟

圖1說明基於提取的特徵圖的由區域建議網絡(RPN)提出的感興趣區域。

圖2說明根據本揭露的示範性實施例中的一個的物件偵測設備的硬體方塊圖。

圖3說明根據本揭露的示範性實施例中的一個的使用物件偵測設備的自動駕駛車輛。

圖4是根據本揭露的示範性實施例中的一個的說明物件偵測方法的步驟的流程圖。

圖5說明根據本揭露的示範性實施例中的一個的物件偵測構架的詳細方塊圖。

圖6說明根據本揭露的示範性實施例中的一個的第一物件偵測演算法。

圖7說明根據本揭露的示範性實施例中的一個的多級稀疏更新映射演算法中的每一級。

圖8A到圖8F說明根據本揭露的示範性實施例中的一個的多級深卷積層演算法中的每一級。

圖9說明根據本揭露的示範性實施例中的一個的多級空間池化演算法中的每一級。

圖10說明根據本揭露的示範性實施例中的一個的物件偵測方法的另一實施實例。

現在將詳細參考本揭露的當前示範性實施例，附圖中示出了所述示範性實施例的實例。只要有可能，相同的參考標號在圖式和描述中用以指代相同或相似部分。

本揭露提供一種用於自動駕駛車輛以偵測即將出現在自動駕駛車輛的指定視野(field of view；FOV)內的物件的構架，且所述構架將從物件偵測設備、使用物件偵測設備的自動駕駛車輛以及物件偵測方法的角度加以解釋。所述設備可設置於無任何人為干預的情況下自動操作的自動駕駛車輛內，且因此偵測車輛的指定FOV的物件以執行計算並確定道路條件將是至關重要的。設備將包含但不限於：具有重疊FOV的多組不同感測裝置，如用於從環境獲取二維(two dimensional；2D)RGB資料的具有一或多個影像感測器的一組成像裝置；以及處理單元，配置成至少執行用於每個感測器的第一物件偵測演算法、多級稀疏更新映射演算法、多級空間池化演算法以及多級深卷積層演算法以產生特徵結果從而執行偵測預測。通過所提供的構架，可提取特徵結果以執行偵測預測以便改進瞬時計算速度

且減小不必要的資料量。圖2到圖9闡明具有其它細節的所提供的物件偵測構架。

圖2說明根據本揭露的示範性實施例中的一個的物件偵測設備的硬體方塊圖。物件偵測設備200將包含但不限於感測器210和處理器220。感測器210可以是成像感測器，如在指定FOV內將可見光擷取為2D影像的RGB影像感測器。處理器220將配置成至少通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果，其中第一物件偵測結果包含包圍盒資訊。

處理器220將隨後配置成根據包圍盒資訊通過使用多級稀疏更新映射演算法(sparse update mapping algorithm)來處理第一物件偵測結果以在CNN模型中產生多級更新後第一物件偵測結果。然後，處理器220將配置成通過使用多級空間池化演算法(spatial pooling algorithm)來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度(spatial dimension)。

處理器220將隨後配置成基於CNN模型中的多級更新後第一物件偵測結果來執行多級深卷積層演算法(deep convolution layer algorithm)以對應地提取多個特徵結果。最後，處理器220將配置成基於最後一級的深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。以這種方式，本揭露改進瞬時計算速度且通過第一物件偵測演算法、多級稀疏更新映射演算法、多級空間池化演算法以及多級深卷積層演算法來減小不必要的計算資料量，且由於適當地使用穩健資料集來訓練CNN，因此可識別的物件數目將增大。

應注意，在其它實施例中，物件偵測設備200可包含多個2D成像感測器，且處理器220可用以處理多個感測器資料，本領域的技術人員可根據實際情形和要求適應性地調整感測器210的數目。

圖3說明根據本揭露的示範性實施例中的一個的使用物件偵測設備的自動駕駛車輛。自動駕駛車輛300將包含但不限於如圖2所示的物件偵測設備200。

圖4是根據本揭露的示範性實施例中的一個的說明物件偵測方法的步驟的流程圖。在步驟S410中，物件偵測設備將通過使用感測器來產生感測器資料。在步驟S420中，物件偵測設備將通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果，其中第一物件偵測結果包含包圍盒資訊。

在步驟S430中，物件偵測設備將根據包圍盒資訊以通過使用多級稀疏更新映射演算法來處理第一物件偵測結果以在CNN 模型中產生多級更新後第一物件偵測結果。在步驟S440中，物件偵測設備將通過使用多級空間池化演算法來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度。在步驟S450中，物件偵測設備將基於CNN模型中的多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果。最後，在步驟S460中，物件偵測設備將基於由最後一級的多級深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。

圖5到圖9用一些示範性實施例和實例闡明所提供的物件偵測構架。圖5說明根據本揭露的示範性實施例中的一個的物件偵測構架的詳細方塊圖。在這個實施例中，多種類型的感測裝置可包含感測器(例如RGB攝影機陣列501a)。RGB攝影機陣列501a拍攝自動駕駛車輛附近的影像且產生感測器資料(例如第t個RGB影像資料501)，因此，其中第t個中的t的定義是指幀指數(frame index)。換句話說，RGB攝影機陣列501a可擷取多個時間點中的多個幀，且第t個RGB影像資料501是在時間點t處擷取的幀。處理器耦合到RGB攝影機陣列501a，且處理器配置成至少處理第t個RGB影像資料501。首先，處理器將通過使用第一物件偵測演算法(例如圖5中所說明的基於CV的ROI步驟S510)來處理感測器資料(即第t個RGB影像資料501)以產生第一物件偵測結果(即第t個偵測後RGB影像資料502)，其中第t個偵測後RGB影像資料502包含包圍盒資訊。隨後，處理器將處理CNN模型中的第一物件偵測結果(即第t個偵測後RGB影像資料502)和感測器資料(即第t個RGB影像資料501)，其中CNN模型例如是，由S.任(S.Ren)等人，“較快R-CNN：針對具有區域建議網絡的實時物件偵測(Faster R-CNN：Towaras Real-time Object Detection with Region Proposal Networks)”，CoRR，第abs/1506.01497卷，2016，提出的較快R-CNN(Faster R-CNN)演算法。

在實施方式中，處理器將隨後根據包圍盒資訊通過使用多級稀疏更新映射(sparse update mapping；SUM)演算法(即SUM演算法步驟S520、SUM演算法步驟S521、SUM演算法步驟S522)來處理第一物件偵測結果以產生多級更新後第一物件偵測結果，且處理器將通過使用多級空間池化演算法(即空間池化演算法步驟S560、空間池化演算法步驟S561)來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果中的第一級的空間維度。處理器將基於多級更新後第一物件偵測結果來執行多級深卷積層演算法(即深卷積層演算法步驟S530、深卷積層演算法步驟S540、深卷積層演算法步驟S550)以對應地提取多個特徵結果(即第t個特徵圖1 533、第t個特徵圖2 543、第t個特徵圖k 553)，其中多級深卷積層演算法中的每一級包含卷積演算法(即卷積演算法conv1步驟S531、卷積演算法conv2步驟S541、卷積演算法convk步驟S551)。然後，處理器將基於由最後一級的深卷積層演算法中(即深卷積層演算法步驟S550)產生的最後一級的特徵結果來執行感興趣區域(ROI)池化演算法(即ROI池化演算法步驟S570)和包圍盒回歸演算法(即包圍盒回歸演算法步驟S580)以執行偵測預測(即第t個推斷結果503)。

更具體地說，圖6說明根據本揭露的示範性實施例中的一個的第一物件偵測演算法。參考圖5和圖6，處理器將通過使用第一物件偵測演算法(即圖5中和圖6所說明的基於CV的ROI步驟S510)來處理第t個RGB影像資料501以產生第一物件偵測結果(例如第t個偵測後RGB影像資料502)，其中第t個偵測後RGB影像資料502包含包圍盒資訊。詳細地說，處理器將基於計算機視覺(Conputer Vision)來偵測第t個RGB影像資料501以發現感興趣區域(ROI)(例如第t個偵測後RGB影像資料502中所說明的包圍盒)，其中ROI包含但不限於行人、車輛以及物件偵測設備面前的任何障礙物。然後，處理器將根據ROI來產生包圍盒資訊，其中包圍盒資訊包含包圍盒的坐標資訊，例如包圍盒的四個拐角點的座標。應注意，這個實施例中的第一物件偵測演算法可使用任一類型的可不考慮偵測性能(例如誤報率)而有效地進行計算的物件偵測演算法以偵測包圍盒。

然後，圖7說明根據本揭露的示範性實施例中的一個的多級稀疏更新映射演算法中的每一級。參考圖5和圖7，處理器將根據CNN模型中的包圍盒資訊通過使用多級稀疏更新映射演算法來處理第一物件偵測結果(即第t個偵測後RGB影像資料502) 以產生多級更新後第一物件偵測結果。舉例來說，在第一級的稀疏更新映射演算法中(即圖5和圖7中所說明的SUM演算法步驟S520)中，處理器將通過將包圍盒資訊映射到框資訊圖(例如圖7中所說明的框資訊圖)來產生具有多個包圍盒(例如圖7中所說明的包圍盒BBX1、包圍盒BBX2、包圍盒BBX3)的框資訊圖作為更新後第一物件偵測結果(例如圖7中所說明的更新後框資訊圖)。

詳細地說，框資訊圖包括多個網格單元(例如網格單元GC、網格單元GC0)，且更新後框資訊圖也包括多個網格單元(例如網格單元GC1、網格單元GC2)，其中網格單元中的每一個的長度是1個像素PIX，且網格單元中的每一個的寬度是1個像素PIX，且框資訊圖中的網格單元的數目與感測器資料中的像素數目相同。舉例來說，框資訊圖的長度是17個像素PIX，且框資訊圖的寬度是10個像素PIX，因此在這個實施例中，框資訊圖的大小(即框資訊圖的網格單元數目)是170個網格單元，且感測器資料的網格單元數目也包括170個網格單元。應注意，圖7僅是實例，且框資訊圖的網格單元數目不限於本揭露。

另外，在將包圍盒資訊映射到框資訊圖後，處理器將檢查網格單元和包圍盒是否對準或不對準。如果網格單元和包圍盒不對準，那麼處理器會將與包圍盒(例如包圍盒BBX1)重疊的網格單元(例如網格單元GC0)設置為第一數目區。在另一方面，處理器會將不含包圍盒的網格單元(例如網格單元GC)設置為第二數目區。處理器還會將任一組空間上重疊的包圍盒(例如包圍盒BBX2和包圍盒BBX3)組合為重疊包圍盒的單個集合。然後，處理器會將第一數目區的值設置為第一指數(例如二進制數的數值1)，且將第二數目區的值設置為第二指數(例如二進制數的數值0)。換句話說，處理器會將真值(即二進制數的數值1)設置為包圍盒內(或與包圍盒重疊)的網格單元值和重疊包圍盒的單個集合內的網格單元值，且將假值(即二進制數的數值0)設置為包圍盒外的網格單元值和重疊包圍盒的單個集合外的網格單元值。因此，在真值是需要更新的區域的情況下，處理器將知道網格單元的值。應注意，在這個示範性實施例中，第一指數和第二指數是二進制數，但不限於此。以這種方式，處理器將產生更新後第一物件偵測結果(即圖7中所說明的更新後框資訊圖)。

圖8A到圖8E說明根據本揭露的示範性實施例中的一個的多級深卷積層演算法中的每一級。圖8A說明根據本揭露的示範性實施例中的一個的多級深卷積層演算法中的每一級的詳細構架。參考圖5和圖8A，處理器將基於CNN模型中的多級更新後第一物件偵測結果來執行5級的深卷積層演算法(例如圖8A中所說明的多級的深卷積層演算法步驟S530、S540到S550)以對應地提取多個特徵結果。應注意，作為示範性實施例，處理器將執行5級的深卷積層演算法，但本揭露不限制深卷積層演算法階級的數目，圖8A僅是實例，且不構成對本揭露的限制。在其它實施例中，處理器可執行k級的深卷積層演算法，其中k是正整數。

詳細地說，在各級深卷積層演算法中，處理器將基於前一級的特徵結果，通過使用位置層演算法來處理多級更新後第一物件偵測結果中的前一級的更新後第一物件偵測結果以產生帶狀特徵圖(strip feature map)(即卷積演算法步驟S531的位置層演算法步驟S534a)，通過使用卷積層演算法來處理帶狀特徵圖以產生卷積後帶狀特徵圖(即卷積演算法步驟S531的卷積層演算法步驟S534b)，基於來自多級深卷積層演算法中的較早時間點的先前時間特徵結果(例如圖5和圖8A中所說明的第(t-1)個特徵圖1 532、第(t-1)個特徵圖2 542、第(t-1)個特徵圖3、第(t-1)個特徵圖4以及第(t-1)個特徵圖5 552)通過使用恢復層演算法(即卷積演算法步驟S531的恢復層演算法步驟S534c)來處理卷積的帶狀特徵圖以產生特徵結果(例如圖5中所說明的第t個特徵圖1 533、第t個特徵圖2 543以及第t個特徵圖k 553)，其中時間點(t-1)於時間點t。

處理器將隨後通過使用池化層演算法處理特徵結果以減小特徵結果的空間維度(即卷積演算法步驟S531的池化層演算法步驟S534d)。換句話說，神經網絡演算法中的每一個(例如卷積演算法conv1、卷積演算法conv2、卷積演算法conv3、卷積演算法conv4、卷積演算法conv5以及卷積演算法convk)包括位置層演算法(position layer algorithm)、卷積層演算法、恢復層演算法(recovery layer algorithm)以及池化層演算法。舉例來說，增加各級深卷積層演算法的濾波器以便發現後一級處的更詳細部分，例如，卷積演算法conv1中的64個濾波器、卷積演算法conv2中的128個濾波器、卷積演算法conv3中的256個濾波器、卷積演算法conv4中的512個濾波器以及卷積演算法conv5中的512個濾波器，且不限於此。應注意，這些配置可根據網絡體系結構的所需設計而改變，不用以限制本發明。

舉例來說，描述第一級的深卷積層演算法步驟S530作為示範性實施例，處理器將接收更新後第一物件偵測結果(即圖7中所說明的更新後框資訊圖)作為前一級的更新後第一物件偵測結果，且接收感測器資料(即第t個RGB影像資料501)作為前一級的特徵結果，且處理器將隨後基於第t個RGB影像資料501通過使用第一級的深卷積層演算法來處理更新後框資訊圖。

然後，在第二級的深卷積層演算法步驟S540中，處理器將從第二級的稀疏更新映射演算法S521中接收更新後第一物件偵測結果作為前一級的更新後第一物件偵測結果，且從第一級的深卷積層演算法步驟S530中接收特徵結果作為前一級的特徵結果，且處理器將隨後基於特徵結果通過使用第二級的深卷積層演算法S540來處理來自第二級的稀疏更新映射演算法S521中的更新後第一物件偵測結果，以繼續執行第三級的深卷積層演算法、第四級的深卷積層演算法步驟以及最後一級的深卷積層演算法S550。

更具體地說，圖8B至圖8C說明根據本揭露的示範性實施例中的一個的多級位置層演算法中的每一級。參考圖5，圖8A和圖8B到圖8C，位置層演算法包括：接收前一級的更新後第一物件偵測結果和前一級的特徵結果；基於前一級的特徵結果來劃分前一級的更新後第一物件偵測結果以產生具有多個影像區的位置圖，其中影像區中的每一個由N×N個網格單元拼接，且N是正整數；將與第一數目區重疊的影像區的值設置為第一指數；以及將位置圖卷積到帶狀特徵圖。

詳細地說，以第一級的深卷積層演算法步驟S530中的位置層演算法步驟S534a用作示範性實施例以供說明，處理器將接收更新後第一物件偵測結果(即圖8B中所說明的更新後框資訊圖)作為前一級的更新後第一物件偵測結果，且接收感測器資料(即第t個RGB影像資料501)作為前一級的特徵結果。隨後，處理器將基於第t個RGB影像資料501來劃分更新後框資訊圖以產生具有多個影像區(例如影像區IC)的位置圖(如圖8B中所說明)，其中影像區中的每一個由3×3個網格單元拼接(例如由9個網格單元拼接)。接下來，處理器將與第一數目區重疊的影像區(例如影像區IC1和影像區IC2)的值設置為第一指數。以這種方式，劃分更新後框資訊圖以產生影像區的方式改進計算效率，因為塊(例如3×3網格單元)類型的計算方式更適用於深卷積層演算法。需注意的是，本實施例的影像區中的每一個雖採用3×3個網格單元拼接而成，然而本發明不限定於此。舉例來說，影像區中的每一個可採用任意數量(例如：6×6個網格單元)的網格單元或不同形狀的特徵圖(例如：帶狀、塊狀、直條或橫條等形狀)拼接而成。

處理器將識別位置圖(即位置圖(w×h))作為帶狀特徵圖(即圖8C中所說明的影像單元(n×n×C))。更具體地說，位置圖(w×h)是通過使用位置層演算法來處理第t個RGB影像資料501的這一實施例的實際結果。處理器將隨後標記位置圖(w×h)上的影像區(即標記後輸入圖(w×h×C))。然後，處理器會將位置圖(w×h)卷積到影像單元(n×n×C)，其中影像單元(n×n×C)的資料包含C個影像區，且C個影像區中的每一個包括3×3個網格單元。以這種方式，將位置圖卷積到帶狀特徵圖的方式適用於執行卷積層演算法。

圖8D說明根據本揭露的示範性實施例中的一個的多級卷積層演算法中的每一級。參考圖5、圖8A以及圖8D，卷積層演算法包括：對帶狀特徵圖進行卷積以產生卷積的帶狀特徵圖。詳細地說，第一級的深卷積層演算法步驟S530中的卷積層演算法步驟S534b用作示範性實施例以供說明，處理器將對帶狀特徵圖(即影像單元(n×n×C))進行卷積以產生卷積的帶狀特徵圖(即輸出影像單元(n×n×C))。應注意，這個實施例中的卷積層演算法可使用任一類型的可有效地進行計算的卷積層演算法以從輸入影像資料提取特徵圖。

圖8E說明根據本揭露的示範性實施例中的一個的多級恢復層演算法中的每一級。參考圖5、圖8A以及圖8E，恢復層演算法包括：接收卷積的帶狀特徵圖，且操作卷積的帶狀特徵圖和先前時間特徵結果以產生特徵結果。更具體地說，以第一級的深卷積層演算法步驟S530中的恢復層演算法步驟S534c用作示範性實施例以供說明，處理器將接收卷積的帶狀特徵圖(即輸出影像單元(n×n×C))，且根據位置圖(w×h)來將卷積的帶狀特徵圖恢復為特徵圖(即特徵圖(w×h×C))(如圖8C中所說明)。詳細地說，輸出影像單元(n×n×C)的資料並不包含關於原始資料(即圖5中所說明的第t個RGB影像資料501)的位置資訊，因此其應倒轉為具有特徵圖(即特徵圖(w×h×C))的位置圖。處理器將隨後操作特徵圖(w×h×C)和先前時間特徵結果(例如圖8E中所說明的第(t-1)個特徵圖(w×h×C))以產生特徵結果(即第t個特徵圖(w×n×C))，其中特徵結果(即第t個特徵圖(w×n×C))的產生的操作是例如異或(XOR)操作。

圖8F說明根據本揭露的示範性實施例中的一個的多級池化層演算法中的每一級。參考圖5、圖8A以及圖8F，處理器將執行池化層演算法以減小特徵結果的空間維度，以便從輸入特徵結果(即來源於先前層的特徵結果)獲得更適應情境的特徵。更具體地說，以第一級的深卷積層演算法步驟S530中的池化層演算法步驟S534d用作示範性實施例以供說明。處理器將減小特徵結果(即圖8F中所說明的第t個特徵圖(w×h×C))的空間維度以變為空間上減小的特徵結果(即圖8F中所說明的第t個特徵圖k+1(w×n×C))，其中第t個特徵圖(w'×h'×C)的位置資訊與第t個特徵圖k+1(w'×h'×C)的位置資訊相同，且第 t個特徵圖(w'×h'×C)的維度大於第t個特徵圖k+1(w'×h'×C)的維度。以這種方式，可通過使用池化層演算法減小特徵結果的維度，以便減小計算資料量。

換句話說，處理器將在卷積層演算法之前執行位置層演算法且在卷積層演算法之後執行恢復層演算法(例如如圖8A中所說明的第一級的深卷積層演算法步驟S530)，等等，以執行第二級的深卷積層演算法步驟S540到最後一級的深卷積層演算法步驟S550。

在另一方面，處理器將通過使用多級空間池化演算法來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度。更具體地說，圖9說明根據本揭露的示範性實施例中的一個的多級空間池化演算法中的每一級。參考圖5和圖9，在各級稀疏更新映射演算法之間，處理器將減小第一級的更新後第一物件偵測結果(即圖7和圖9中所說明的更新後框資訊圖)的空間維度，以便對應地匹配特徵結果中的每一個的維度。詳細地說，例如，處理器將減小由SUM演算法步驟S520產生的更新後第一物件偵測結果的空間維度以維持更新後框資訊圖的位置資訊且改變更新後第一物件偵測結果(即圖9中所說明的更新後框資訊圖k+1)的維度。因此，更新後框資訊圖k+1的維度與第(t-1)個特徵圖2 542的維度相同。處理器將隨後通過使用SUM演算法步驟S521來處理更新後框資訊圖k+1以產生第二級的更新後第一物件偵測結果作為深卷積層演算法步驟S540的輸入資料，等等，以執行下一步驟。應注意，空間池化演算法的處理方法和池化層演算法的處理方法不同，池化層演算法的處理方法是處理特徵結果的浮點數，且空間池化演算法的處理方法是處理更新後第一物件偵測結果的二進制數。

最後，處理器將基於由最後一級的深卷積層演算法中產生的最後一級的特徵結果來執行感興趣區域(ROI)池化演算法(即ROI池化演算法步驟S570)和包圍盒回歸演算法(即包圍盒回歸演算法步驟S580)以執行偵測預測(即第t個推斷結果503)。詳細地說，處理器將提供包圍盒的不定範圍的界面和空間上互連的完全連接層，使得網絡體系結構可具有最後一層的卷積特徵(即最後一級的特徵結果)且在ROI池化演算法步驟S570中作出最終預測結果(即偵測預測)，且處理器將隨後量化每一ROI的置信度預測最可能屬於哪一類別和回歸包圍盒值以使其更接近於物件且作為最終輸出(即第t個推斷結果503)。

以這種方式，本揭露基於高預測精確性前提通過使用第一物件偵測演算法、多級的稀疏更新映射演算法、多級的空間池化演算法以及多級的深卷積層演算法來去除更新後第一物件偵測結果的不必要的計算區域(即第二數目區)，以改進瞬時計算速度且減小不必要的計算資料量。

圖10說明根據本揭露的示範性實施例中的一個的物件偵測方法的另一實施實例。自動駕駛車輛V1010包括物件偵測設備 1000。物件偵測設備1000包括前置攝影機1001和處理單元1003。前置攝影機1001耦合到處理單元1003，其中處理單元1003是例如具有英特爾酷睿(Intel Core)i9 7900X @ 3.3GHz、128GB DDR4存儲器和通過使用Python程序語言操作的輝達(NVidia)Titan X(Pascal)12GB VRAM的個人計算機，且由前置攝影機1001產生的感測器資料具有1280×720個像素。

參照圖10，物件偵測設備1000可準確地偵測自動駕駛車輛V1010面前的物件，其中平均計算速度達到例如基於CPU的2.934秒/幀，且平均計算速度可達到例如基於GPU的0.040秒/幀。應注意，由S.任(S.Ren)等人，“較快R-CNN：針對具有區域建議網絡的實時物件偵測(Faster R-CNN：Towards Real-time Object Detection with Region Proposal Networks)”，CoRR，第abs/1506.01497卷，2016，提出的較快R-CNN(Faster R-CNN)架構平均計算速度可達到基於CPU的8.219秒/幀，且平均計算速度可達到例如基於GPU的0.092秒/幀。因此，物件偵測設備1000可快於較快R-CNN，物件偵測設備1000可以保持原始構架(即較快R-CNN構架)的準確率並降低複雜度。

物件偵測設備1000的複雜性可改進瞬時計算速度且基於高預測精確性前提來降低不必要的計算資料量。換句話說，處理單元1003將配置成至少進行以下操作：通過使用第一物件偵測演算法來處理感測器資料以產生第一物件偵測結果，其中第一物件偵測結果包含包圍盒資訊；通過使用多級稀疏更新映射演算法來根據包圍盒資訊處理第一物件偵測結果以在CNN模型中產生多級更新後第一物件偵測結果；通過使用多級空間池化演算法來處理第一級的更新後第一物件偵測結果以減小各級稀疏更新映射演算法之間的多級更新後第一物件偵測結果的空間維度；基於CNN模型中的多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果；以及基於由最後一級的深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測(即圖5中所說明的第t個推斷結果503)。

應注意，物件偵測設備1000與圖2、圖5中描繪的物件偵測設備相同或類似。因此，本文中不提供進一步描述。

鑑於前述描述，本揭露提供一種適合用於自動駕駛車輛的物件偵測設備。具體地說，本揭露的目的可包含：根據ROI通過使用所提供的第一物件偵測演算法來找到包圍盒資訊；通過使用所提供的稀疏更新映射演算法來去除更新後第一物件偵測結果的不必要的計算區域；以及提供多級空間池化演算法和多級深卷積層演算法以執行偵測預測。以這種方式，可改進瞬時計算速度。

本申請所揭露的實施例的詳細描述中使用的元件、動作或指令不應解釋為對本揭露來說絕對關鍵或必要的，除非明確地如此描述。而且，如本文中所使用，不定冠詞“一(a/an)”可以包含一個以上專案。如果意圖表示只有一個專案，那麼能夠使用術語“單個”或類似語言。此外，如本文中所使用，在多個項目和/或多個項目種類的列表之前的術語“中的任一個”意圖包含所述項目和/或項目種類個別地或結合其它項目和/或其它項目種類“中的任一個”、“中的任何組合”、“中的任何多個”和/或“中的多個的任何組合”。此外，如本文中所使用，術語“集合”意圖包含任何數目個專案，包含零個。此外，如本文中所使用，術語“數目”意圖包含任何數目，包含零。

本領域具通常知識者將顯而易見，在不脫離本揭露的範圍或精神的情況下，可對所揭露的實施例的結構作出各種修改和變化。鑒於前述內容，意圖本揭露涵蓋屬於隨附權利要求書和其等效物的範圍內的本揭露的修改及變化。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S410、S420、S430、S440、S450、S460:步驟

Claims

一種使用卷積神經網絡模型的物件偵測方法，所述方法包括：通過使用感測器產生感測器資料；通過使用第一物件偵測演算法來處理所述感測器資料以產生第一物件偵測結果，其中所述第一物件偵測結果包含包圍盒資訊；通過使用多級稀疏更新映射演算法來根據所述包圍盒資訊處理所述第一物件偵測結果以在所述卷積神經網絡模型中產生多級更新後第一物件偵測結果；通過使用多級空間池化演算法來處理第一級的所述更新後第一物件偵測結果以減小各所述多級稀疏更新映射演算法之間的所述多級更新後第一物件偵測結果的空間維度；基於所述卷積神經網絡模型中的所述多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果；以及基於由最後一級的所述多級深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。
如申請專利範圍第1項所述的物件偵測方法，其中各所述多級稀疏更新映射演算法中包括：通過將所述包圍盒資訊映射到框資訊圖來產生具有多個包圍盒的所述框資訊圖作為所述更新後第一物件偵測結果，其中所述框資訊圖包括多個網格單元，以及所述框資訊圖中的網格單元數目與所述感測器資料中的像素數目相同。
如申請專利範圍第2項所述的物件偵測方法，其中各所述多級稀疏更新映射演算法中進一步包括：將與所述包圍盒重疊的所述網格單元設置為第一數目區，以及將不含所述包圍盒的所述網格單元設置為第二數目區；以及將所述第一數目區的值設置為第一指數，以及將所述第二數目區的值設置為第二指數，其中所述第一指數以及所述第二指數不同。
如申請專利範圍第3項所述的物件偵測方法，其中所述第一指數表示之區需要被更新，以及所述第二指數表示之區不需被更新。
如申請專利範圍第3項所述的物件偵測方法，其中各所述多級稀疏更新映射演算法中進一步包括：將任一組空間上重疊的所述包圍盒組合為重疊包圍盒的單個集合。
如申請專利範圍第1項所述的物件偵測方法，其中各所述多級深卷積層演算法中包括：基於前一級的所述特徵結果，通過使用位置層演算法來處理所述多級更新後第一物件偵測結果中的前一級的更新後第一物件偵測結果以產生帶狀特徵圖；通過使用卷積層演算法來處理所述帶狀特徵圖以產生卷積後帶狀特徵圖；基於來自所述多級深卷積層演算法中較早時間點的先前時間特徵結果，通過使用恢復層演算法來處理所述卷積後帶狀特徵圖以產生所述特徵結果；以及通過使用池化層演算法來處理所述特徵結果以減小所述特徵結果的所述空間維度。
如申請專利範圍第6項所述的物件偵測方法，其中所述位置層演算法包括：接收所述前一級的更新後第一物件偵測結果以及所述前一級的特徵結果；基於所述前一級的特徵結果來劃分所述前一級的更新後第一物件偵測結果以產生具有多個影像區的位置圖，其中所述影像區中的每一個由N×N網格單元拼接，以及N是正整數；將與所述第一數目區重疊的所述影像區的值設置為所述第一指數；以及將所述位置圖卷積到所述帶狀特徵圖。
如申請專利範圍第7項所述的物件偵測方法，其中所述卷積層演算法進一步包括：對所述帶狀特徵圖進行卷積以產生卷積後帶狀特徵圖。
如申請專利範圍第8項所述的物件偵測方法，其中所述恢復層演算法進一步包括：接收所述卷積後帶狀特徵圖；以及操作所述卷積後帶狀特徵圖以及所述先前時間特徵結果以產生所述特徵結果。
如申請專利範圍第1項所述的物件偵測方法，其中通過使用第一物件偵測演算法來處理所述感測器資料的步驟包括：基於計算機視覺來偵測所述感測器資料以發現感興趣區域；以及根據所述感興趣區域來產生所述包圍盒資訊。
一種物件偵測設備，包括：感測器，用於產生感測器資料；以及處理器，耦合到所述感測器以及配置成至少進行以下操作：通過使用第一物件偵測演算法來處理所述感測器資料以產生第一物件偵測結果，其中所述第一物件偵測結果包含包圍盒資訊；通過使用多級稀疏更新映射演算法來根據所述包圍盒資訊處理所述第一物件偵測結果以在卷積神經網絡模型中產生多級更新後第一物件偵測結果；通過使用多級空間池化演算法來處理第一級的所述更新後第一物件偵測結果以減小各所述多級稀疏更新映射演算法之間的所述多級更新後第一物件偵測結果的空間維度；基於所述卷積神經網絡模型中的所述多級更新後第一物件偵測結果來執行多級深卷積層演算法以對應地提取多個特徵結果；以及基於由最後一級的所述多級深卷積層演算法中產生的最後一級的特徵結果來執行偵測預測。
如申請專利範圍第11項所述的物件偵測設備，其中各所述多級稀疏更新映射演算法中包括：通過將所述包圍盒資訊映射到框資訊圖來產生具有多個包圍盒的所述框資訊圖作為所述更新後第一物件偵測結果，其中所述框資訊圖包括多個網格單元，以及所述框資訊圖中的網格單元數目與所述感測器資料中的像素數目相同。
如申請專利範圍第12項所述的物件偵測設備，其中各所述多級稀疏更新映射演算法中進一步包括：將與所述包圍盒重疊的所述網格單元設置為第一數目區，以及將不含所述包圍盒的所述網格單元設置為第二數目區；以及將所述第一數目區的值設置為第一指數，以及將所述第二數目區的值設置為第二指數，其中所述第一指數以及所述第二指數不同。
如申請專利範圍第13項所述的物件偵測設備，其中所述第一指數表示之區需要被更新，以及所述第二指數表示之區不需要被更新。
如申請專利範圍第13項所述的物件偵測設備，其中各所述多級稀疏更新映射演算法中進一步包括：將任一組空間上重疊的所述包圍盒組合為重疊包圍盒的單個集合。
如申請專利範圍第11項所述的物件偵測設備，其中各所述多級深卷積層演算法中包括：基於前一級的所述特徵結果，通過使用位置層演算法來處理所述多級更新後第一物件偵測結果中的前一級的更新後第一物件偵測結果以產生帶狀特徵圖；通過使用卷積層演算法來處理所述帶狀特徵圖以產生卷積後帶狀特徵圖；基於來自所述多級深卷積層演算法中較早時間點的先前時間特徵結果，通過使用恢復層演算法來處理所述卷積後帶狀特徵圖以產生所述特徵結果；以及通過使用池化層演算法來處理所述特徵結果以減小所述特徵結果的所述空間維度。
如申請專利範圍第16項所述的物件偵測設備，其中所述位置層演算法包括：接收所述前一級的更新後第一物件偵測結果以及所述前一級的特徵結果；基於所述前一級的特徵結果來劃分所述前一級的更新後第一物件偵測結果以產生具有多個影像區的位置圖，其中所述影像區中的每一個由N×N網格單元拼接，以及N是正整數；將與所述第一數目區重疊的所述影像區的值設置為所述第一指數；以及將所述位置圖卷積到所述帶狀特徵圖。
如申請專利範圍第17項所述的物件偵測設備，其中所述卷積層演算法進一步包括：對所述帶狀特徵圖進行卷積以產生卷積後帶狀特徵圖。
如申請專利範圍第18項所述的物件偵測設備，其中所述恢復層演算法進一步包括：接收所述卷積後帶狀特徵圖；以及操作所述卷積後帶狀特徵圖以及所述先前時間特徵結果以產生所述特徵結果。
如申請專利範圍第19項所述的物件偵測設備，其中所述處理器配置成至少通過使用第一物件偵測演算法來處理所述感測器資料的步驟包括：基於計算機視覺來偵測所述感測器資料以發現感興趣區域；以及根據所述感興趣區域來產生所述包圍盒資訊。
如申請專利範圍第11項所述的物件偵測設備，其中所述感測器包括攝影機。