TWI830230B

TWI830230B - 物件自動追蹤系統及其偵測方法

Info

Publication number: TWI830230B
Application number: TW111118455A
Authority: TW
Inventors: 陳冠宏
Original assignee: 逢甲大學
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2024-01-21
Also published as: US20230377172A1; TW202347255A

Abstract

本發明提供了一種物件自動追蹤系統，係包括一影像擷取裝置、一運算裝置以及一顯示裝置，且所述運算裝置包括一第一運算模組及一第二運算模組。其中，所述影像擷取裝置連接所述運算裝置，以用於獲取及傳輸一影像至所述運算裝置進行處理。並且，所述運算裝置連接所述顯示裝置。以用於顯示最後的處理結果於顯示裝置上。

Description

物件自動追蹤系統及其偵測方法

本發明關於一種物件自動追蹤系統及其偵測方法，特別是指一種可於小尺寸邊緣運算設備中執行運算的物件自動追蹤系統及其偵測方法。

當前，物件偵測技術被廣泛使用於不同的領域。其中，相比於一般機器人，適用於超商、飯店、餐廳的導覽機器人、送餐機器人、收餐機器人等移動機器人，需要具備可以即時對動態障礙物執行辨識的能力。

然而，基於對成本及適用環境的考量，多數移動機器人即便需要具有高運算能力的運算裝置，也無法實際搭載之。

因此，一種能在小尺寸邊緣運算設備進行高精度運算的物件自動偵測系統及其偵測方法，實為業界所盼的發明。

鑒於上述，本發明提供一種物件自動偵測系統及其運算方法。

依據本發明之一實施例的物件自動追蹤系統，係包括一影像擷取裝置、一運算裝置以及一顯示裝置，且所述運算裝置包括一第一運算模組及一第二運算模組。其中，影像擷取裝置連接運算裝置，用以獲取及傳輸一影像至運算裝置進行處理。進一步，運算裝置連接顯示裝置，以顯示最後的處理結果於顯示裝置上。

在一些實施例中，上述第一運算模組，係包括：一第一部份、一第二部份及一檢測結構。進一步，第一部份包括複數個卷積組及複數個殘差塊，用以對輸入的該第一資料進行特徵提取，並相應輸出複數個初始特徵圖。第二部份，連接所述第一部分，用以對從所述第一部份輸入的該等初始特徵圖進行拼接，並相應輸出至少一特徵圖。檢測結構，連接所述第二部份，用以對從所述第二部份輸出的該等特徵圖進行檢測，並生成至少一目標物件的一分類資訊及一位置資訊。

依據本發明之一實施例的物件自動追蹤系統的偵測方法，係包括以下步驟：一開始先利用上述物件自動追蹤系統擷取一影像。然後，利用MPEG編碼機制將所述影像轉換成一幀資料，以根據所述幀資料中各幀的種類，決定所述幀資料中的該第一資料及該第二資料。接下來，利用上述第一運算模組對所述第一資料進行運算，以得到所述影像中至少一目標物件之一分類資訊及一位置資訊；同時，利用上述第二運算模組對所述第二資料進行運算，以得到該至少一目標物件之該軌跡資訊。最後，對所述分類資訊、所述位置資訊及所述軌跡資訊進行合併及輸出至上述顯示裝置。

以上對本發明的簡述，目的在於對本發明的數種面向和技術特徵作一基本說明，發明簡述並非對本發明的詳細表述，因此其目的不在特別列舉本發明的關鍵性或重要元件，也不是用來界定本發明的範圍，僅為以簡明的方式呈現本發明的數種概念而已。

1:物件自動追蹤系統

10:影像擷取裝置

20:運算裝置

30:顯示裝置

200A:第一運算模組

200A1:第一部份

2201:卷積組

2202、2202-1:殘差塊

200A2:第二部份

200A3:檢測結構

200B:第二運算模組

S1~S4:步驟

圖1為本發明之物件自動追蹤系統之一實施例的系統架構示意圖。

圖2為本發明之物件自動追蹤系統之所述實施例的第一運算模組示意圖。

圖3為本發明之物件自動追蹤系統之所述實施例的方法流程圖。

為能瞭解本發明的技術特徵及實用功效，並可依照說明書的內容來實施，茲進一步以如圖式所示的較佳實施例，詳細說明如後：

請參見圖1，圖1為本發明之物件自動追蹤系統之一實施例的系統架構示意圖。本發明的物件自動追蹤系統1，應用於一移動機器人中。所述物件自動追蹤系統1包括：一影像擷取裝置10、一運算裝置20以及一顯示裝置30，且運算裝置20包括一第一運算模組200A及一第二運算模組200B。其中，影像擷取裝置10連接運算裝置20，以傳輸所獲取的原始影像至運算裝置20進行處理。進一步，運算裝置20連接顯示裝置30，以顯示最後的處理結果於顯示裝置30上。在本發明的所述實施例中，所述移動機器人可以是家用機器人、工業型機器人或者服務型機器人等具有移動需求的機器人。

本實施例的物件自動追蹤系統1，透過將原始影像轉換成為一幀資料，以及透過一幀種類決定由第一運算模組200A進行運算的一第一資料及由第二運算模組200B進行運算的第二資料，大幅減少了需要進行處理的運算量，而可於小尺寸邊緣運算設備中以一最低30fps(每秒顯示影格數)執行操作。在實施例中，所述小尺寸緣運算設備的示例包括NVDIA^®的Jetson Nano^TM、Jetson Xavier NX^TM等AI邊緣運算平台。

進一步而言，幀資料為以一MPEG編碼的視頻幀，幀資料包括作為第一資料的至少一關鍵幀(Key frame)及作為第二資料的至少一非關鍵幀(Non-key frame)。運算裝置20對幀資料中各幀的種類進行判斷，如判斷為關鍵幀(Key frame)，則讀出及傳輸關鍵幀(Key frame)至第一運作模組200A執行運算；如判斷為非關鍵幀(Non-key frame)，則讀出及傳輸非關鍵幀(Non-key frame)至第二運算模組200B執行運算，以實現上述效果。更進一步而言，第一資料為GoP中的關鍵幀(Key frame)集合，第二資料為GoP中的非關鍵幀(Non-key frame)集合。

如圖1所示，第一運算模組200A是基於卷積算法所設計的類神經網路，且其中所謂的卷積算法可以是採用深度神經網路(DNN)、遞歸神經網路(RNN)、卷積神經網路(CNN)、YOLO、深度強化學習(RL)或其等之結合的算法。所述第一運算模組200A包括一第一部份200A1、一第二部份200A2及一檢測結構200A3。在本實施例中，第一部份200A1連接第二部份200A2，以傳輸不同尺寸的初始特徵圖至第二部份200A2進行拼接操作(concatenate)，並最後輸出一或多個長度x寬度尺度的特徵圖至所述檢測結構200A3進行物件偵測，以在每張特徵圖上進行目標物件的分類及定位，並獲得對應於所述目標物件的一分類資訊及一位置資訊。在本實施例中，係假定所述特徵圖的數量為三個，且所述三個長度x寬度尺度分別為13x13、26x26及52x52。

進一步而言，第一運算模組200A，係以第一部份200A1作為對第一資料中至少一目標物件進行特徵提取的部位，以及以第二部份200A2作為實現不同大小特徵圖之間的局部特徵融合的部位。

在本實施例中，上述第一部份200A1包括複數個卷積組2201及複數個殘差塊(residual block)2202，卷積組2201位於任二個殘差塊2202之間以及第一個殘差塊之前(請參見圖2所示的殘差塊2202-1)。並與殘差塊2202密集連接。其中，每個卷積組2201包括至少一卷積層(convolution)及一最大池化層(max pooling)，且該複數個卷積組2201中與第一個殘差塊2202-1連接的池化層的步幅為2。此外，在本實施例中，第一個殘差塊2202-1是指第一部份200A1中深度最深的殘差塊。

進一步而言，在本實施例中，由於第一運算模組200A的每個殘差塊2202所包含之卷積彼此連接且密集連接卷積層組2201所包含之最大池化層及卷積層、以及每個殘差塊2202所使用之過濾器數量和整體神經網路的運算量之間為正相關的緣故，第一運算模組200A於操作時，一方面可藉由增加最大池化層之卷積數量、或者增加其卷積步輻來降低整體網路的複雜度以提升所述第一運算模組200A於小尺寸邊緣運算設備上的執行速度。並可同時在另一方面，利用增加殘差塊2202之使用數量、或者增加過濾器種類來提升網路的神經元數量以提高偵測的準確度(例如，將運算模組200A1中的殘差塊2202之數量設定為1,15,15,8、及將過濾器種類設定為32,64,128,256和512)，從而確保此邊緣運算設備能夠在兼具高執行速度的基礎上下保有一定程度以上之偵測精度。

更進一步而言，在本實施例中，亦可以透過將上述第二部份200A2所包括的卷積的其中至少一者，設定為空間可分離卷積層(spatial separable convolution)，來更進一步降低網路的複雜度，以達到加快網路收斂的效果。

又如圖1所示，第二運算模組200B係藉由執行至少一目標追蹤算法來預測物件軌跡。在本實施例中，所述目標追蹤算法可以是卡爾曼濾波(Kalman Filter)、粒子濾波或mean-shift的其中一者，且利用IOU匹配或者級聯匹配來進行更新。更可以藉由一卷積神經網路(CNNs)，來對追蹤結果進行一相似度計算，而所述相似度計算則可以是基於餘弦距離、歐氏距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、馬氏距離等距離度量方法的計算。

進一步而言，第二運算模組200B係透過前述目標追蹤算法的其中至少一者，對第二資料中至少一目標物件進行軌跡預測，從而便可獲得對應於所述目標物件的一軌跡資訊。

請參見圖2，圖2為本發明之物件自動追蹤系統之所述實施例的第一運算模組200A示意圖。在本實施例中，第一運算模組200A的層數量為39並包括4個卷積單元。具體來說，每個卷積單元包括一卷積組2201以及一重複執行的殘差塊2202，其中所謂的重複執行係指針對4個單元中的各殘差塊2202分別執行1次、15次、15次及8次的動作。

更具體來說，如圖2所示，每個殘差塊2202中的卷積分別為3x3(步幅為1)的卷積及1x1(步幅為1)的卷積，並且，每個卷積組2201中除了與第一個殘差塊2202-1連接的卷積層的大小為3x3(步幅為2)外，其它卷積層大小均為3x3(步幅為1)，至於最大池化層的大小則是2x2(步幅為2)。

藉此，本實施例的第一運算模組200A便可透過設置最大池化層、以及改變卷積組2201中與第一個殘差塊2202-1連接的卷積層的步幅為2，來大幅降低第一運算模組200A的運算量，亦可進一步透過增加第一運算模組 200A的層數，來提高每次卷積處理之參數量，從而實現在保有高執行速度下的偵測精度(例如：在基於VOC2007_test得到AP為90.58%)。

請參見圖3，圖3為本發明之物件自動追蹤系統之所述實施例的方法流程圖。所述方法，以圖1的物件自動追蹤系統1來執行(S1)，並至少包括以下步驟：

一開始，在步驟S2，先將影像擷取裝置10所獲取的一原始影像輸入至運算裝置20進行轉換，繼而，運算裝置利用一MPEG編碼機制將原始影像轉換成幀資料，並根據幀資料中各幀的種類，決定幀資料中的第一資料及第二資料。在本實施例中，所述MPEG編碼格式為圖像群組(GoP)編碼格式，這時，所述第一資料為幀資料中的關鍵幀(Key frame)，所述第二資料為該幀資料中的非關鍵幀(Non-key frame)。

接著，在次一步驟S3，運算裝置20利用第一運算模組200A對第一資料執行運算，為此可獲得原始影像中至少一目標物件所對應的分類資訊及位置資訊；同時，利用第二運算模組200B對第二資料執行運算，為此可獲得原始影像中至少一目標物件所對應的軌跡資訊。

最後，在步驟S4，運算裝置20對所獲得的分類資訊、位置資訊及軌跡資訊進行合併及輸出至顯示裝置30，以反映於原始影像上。在本實施例中，所述合併可以藉由執行現有技術中的NMS算法、Soft-NMS算法或者類似算法來實現，此處不再贅述。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍的基礎上，當可作各種的更動和潤飾。因此，本發明的保護範圍當視後附的申請專利範圍所界定者為準。