TWI830230B - 物件自動追蹤系統及其偵測方法 - Google Patents

物件自動追蹤系統及其偵測方法 Download PDF

Info

Publication number
TWI830230B
TWI830230B TW111118455A TW111118455A TWI830230B TW I830230 B TWI830230 B TW I830230B TW 111118455 A TW111118455 A TW 111118455A TW 111118455 A TW111118455 A TW 111118455A TW I830230 B TWI830230 B TW I830230B
Authority
TW
Taiwan
Prior art keywords
data
frame
tracking system
image
convolution
Prior art date
Application number
TW111118455A
Other languages
English (en)
Other versions
TW202347255A (zh
Inventor
陳冠宏
Original Assignee
逢甲大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 逢甲大學 filed Critical 逢甲大學
Priority to TW111118455A priority Critical patent/TWI830230B/zh
Priority to US18/080,726 priority patent/US20230377172A1/en
Publication of TW202347255A publication Critical patent/TW202347255A/zh
Application granted granted Critical
Publication of TWI830230B publication Critical patent/TWI830230B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

本發明提供了一種物件自動追蹤系統,係包括一影像擷取裝置、一運算裝置以及一顯示裝置,且所述運算裝置包括一第一運算模組及一第二運算模組。其中,所述影像擷取裝置連接所述運算裝置,以用於獲取及傳輸一影像至所述運算裝置進行處理。並且,所述運算裝置連接所述顯示裝置。以用於顯示最後的處理結果於顯示裝置上。

Description

物件自動追蹤系統及其偵測方法
本發明關於一種物件自動追蹤系統及其偵測方法,特別是指一種可於小尺寸邊緣運算設備中執行運算的物件自動追蹤系統及其偵測方法。
當前,物件偵測技術被廣泛使用於不同的領域。其中,相比於一般機器人,適用於超商、飯店、餐廳的導覽機器人、送餐機器人、收餐機器人等移動機器人,需要具備可以即時對動態障礙物執行辨識的能力。
然而,基於對成本及適用環境的考量,多數移動機器人即便需要具有高運算能力的運算裝置,也無法實際搭載之。
因此,一種能在小尺寸邊緣運算設備進行高精度運算的物件自動偵測系統及其偵測方法,實為業界所盼的發明。
鑒於上述,本發明提供一種物件自動偵測系統及其運算方法。
依據本發明之一實施例的物件自動追蹤系統,係包括一影像擷取裝置、一運算裝置以及一顯示裝置,且所述運算裝置包括一第一運算模組及一第二運算模組。其中,影像擷取裝置連接運算裝置,用以獲取及傳輸一影像至運算裝置進行處理。進一步,運算裝置連接顯示裝置,以顯示最後的處理結果於顯示裝置上。
在一些實施例中,上述第一運算模組,係包括:一第一部份、一第二部份及一檢測結構。進一步,第一部份包括複數個卷積組及複數個殘差塊,用以對輸入的該第一資料進行特徵提取,並相應輸出複數個初始特徵圖。第二部份,連接所述第一部分,用以對從所述第一部份輸入的該等初始特徵圖進行拼接,並相應輸出至少一特徵圖。檢測結構,連接所述第二部份,用以對從所述第二部份輸出的該等特徵圖進行檢測,並生成至少一目標物件的一分類資訊及一位置資訊。
依據本發明之一實施例的物件自動追蹤系統的偵測方法,係包括以下步驟:一開始先利用上述物件自動追蹤系統擷取一影像。然後,利用MPEG編碼機制將所述影像轉換成一幀資料,以根據所述幀資料中各幀的種類,決定所述幀資料中的該第一資料及該第二資料。接下來,利用上述第一運算模組對所述第一資料進行運算,以得到所述影像中至少一目標物件之一分類資訊及一位置資訊;同時,利用上述第二運算模組對所述第二資料進行運算,以得到該至少一目標物件之該軌跡資訊。最後,對所述分類資訊、所述位置資訊及所述軌跡資訊進行合併及輸出至上述顯示裝置。
以上對本發明的簡述,目的在於對本發明的數種面向和技術特徵作一基本說明,發明簡述並非對本發明的詳細表述,因此其目的不在特別列舉本發明的關鍵性或重要元件,也不是用來界定本發明的範圍,僅為以簡明的方式呈現本發明的數種概念而已。
1:物件自動追蹤系統
10:影像擷取裝置
20:運算裝置
30:顯示裝置
200A:第一運算模組
200A1:第一部份
2201:卷積組
2202、2202-1:殘差塊
200A2:第二部份
200A3:檢測結構
200B:第二運算模組
S1~S4:步驟
圖1為本發明之物件自動追蹤系統之一實施例的系統架構示意圖。
圖2為本發明之物件自動追蹤系統之所述實施例的第一運算模組示意圖。
圖3為本發明之物件自動追蹤系統之所述實施例的方法流程圖。
本發明關於一種物件自動追蹤系統及其偵測方法,特別是指一種可於小尺寸邊緣運算設備中執行運算的物件自動追蹤系統及其偵測方法。
為能瞭解本發明的技術特徵及實用功效,並可依照說明書的內容來實施,茲進一步以如圖式所示的較佳實施例,詳細說明如後:
請參見圖1,圖1為本發明之物件自動追蹤系統之一實施例的系統架構示意圖。本發明的物件自動追蹤系統1,應用於一移動機器人中。所述物件自動追蹤系統1包括:一影像擷取裝置10、一運算裝置20以及一顯示裝置30,且運算裝置20包括一第一運算模組200A及一第二運算模組200B。其中,影像擷取裝置10連接運算裝置20,以傳輸所獲取的原始影像至運算裝置20進行處理。進一步,運算裝置20連接顯示裝置30,以顯示最後的處理結果於顯示裝置30上。在本發明的所述實施例中,所述移動機器人可以是家用機器人、工業型機器人或者服務型機器人等具有移動需求的機器人。
本實施例的物件自動追蹤系統1,透過將原始影像轉換成為一幀資料,以及透過一幀種類決定由第一運算模組200A進行運算的一第一資料及由第二運算模組200B進行運算的第二資料,大幅減少了需要進行處理的運算量,而可於小尺寸邊緣運算設備中以一最低30fps(每秒顯示影格數)執行操作。在實施例中,所述小尺寸緣運算設備的示例包括NVDIA®的Jetson NanoTM、Jetson Xavier NXTM等AI邊緣運算平台。
進一步而言,幀資料為以一MPEG編碼的視頻幀,幀資料包括作為第一資料的至少一關鍵幀(Key frame)及作為第二資料的至少一非關鍵幀(Non-key frame)。運算裝置20對幀資料中各幀的種類進行判斷,如判斷為關鍵幀(Key frame),則讀出及傳輸關鍵幀(Key frame)至第一運作模組200A執行運算;如判斷為非關鍵幀(Non-key frame),則讀出及傳輸非關鍵幀(Non-key frame)至第二運算模組200B執行運算,以實現上述效果。更進一步而言,第一資料為GoP中的關鍵幀(Key frame)集合,第二資料為GoP中的非關鍵幀(Non-key frame)集合。
如圖1所示,第一運算模組200A是基於卷積算法所設計的類神經網路,且其中所謂的卷積算法可以是採用深度神經網路(DNN)、遞歸神經網路(RNN)、卷積神經網路(CNN)、YOLO、深度強化學習(RL)或其等之結合的算法。所述第一運算模組200A包括一第一部份200A1、一第二部份200A2及一檢測結構200A3。在本實施例中,第一部份200A1連接第二部份200A2,以傳輸不同尺寸的初始特徵圖至第二部份200A2進行拼接操作(concatenate),並最後輸出一或多個長度x寬度尺度的特徵圖至所述檢測結構200A3進行物件偵測,以在每張特徵圖上進行目標物件的分類及定位,並獲得對應於所述目標物件的一分類資訊及一位置資訊。在本實施例中,係假定所述特徵圖的數量為三個,且所述三個長度x寬度尺度分別為13x13、26x26及52x52。
進一步而言,第一運算模組200A,係以第一部份200A1作為對第一資料中至少一目標物件進行特徵提取的部位,以及以第二部份200A2作為實現不同大小特徵圖之間的局部特徵融合的部位。
在本實施例中,上述第一部份200A1包括複數個卷積組2201及複數個殘差塊(residual block)2202,卷積組2201位於任二個殘差塊2202之間以及第一個殘差塊之前(請參見圖2所示的殘差塊2202-1)。並與殘差塊2202密集連接。其中,每個卷積組2201包括至少一卷積層(convolution)及一最大池化層(max pooling),且該複數個卷積組2201中與第一個殘差塊2202-1連接的池化層的步幅為2。此外,在本實施例中,第一個殘差塊2202-1是指第一部份200A1中深度最深的殘差塊。
進一步而言,在本實施例中,由於第一運算模組200A的每個殘差塊2202所包含之卷積彼此連接且密集連接卷積層組2201所包含之最大池化層及卷積層、以及每個殘差塊2202所使用之過濾器數量和整體神經網路的運算量之間為正相關的緣故,第一運算模組200A於操作時,一方面可藉由增加最大池化層之卷積數量、或者增加其卷積步輻來降低整體網路的複雜度以提升所述第一運算模組200A於小尺寸邊緣運算設備上的執行速度。並可同時在另一方面,利用增加殘差塊2202之使用數量、或者增加過濾器種類來提升網路的神經元數量以提高偵測的準確度(例如,將運算模組200A1中的殘差塊2202之數量設定為1,15,15,8、及將過濾器種類設定為32,64,128,256和512),從而確保此邊緣運算設備能夠在兼具高執行速度的基礎上下保有一定程度以上之偵測精度。
更進一步而言,在本實施例中,亦可以透過將上述第二部份200A2所包括的卷積的其中至少一者,設定為空間可分離卷積層(spatial separable convolution),來更進一步降低網路的複雜度,以達到加快網路收斂的效果。
又如圖1所示,第二運算模組200B係藉由執行至少一目標追蹤算法來預測物件軌跡。在本實施例中,所述目標追蹤算法可以是卡爾曼濾波(Kalman Filter)、粒子濾波或mean-shift的其中一者,且利用IOU匹配或者級聯匹配來進行更新。更可以藉由一卷積神經網路(CNNs),來對追蹤結果進行一相似度計算,而所述相似度計算則可以是基於餘弦距離、歐氏距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、馬氏距離等距離度量方法的計算。
進一步而言,第二運算模組200B係透過前述目標追蹤算法的其中至少一者,對第二資料中至少一目標物件進行軌跡預測,從而便可獲得對應於所述目標物件的一軌跡資訊。
請參見圖2,圖2為本發明之物件自動追蹤系統之所述實施例的第一運算模組200A示意圖。在本實施例中,第一運算模組200A的層數量為39並包括4個卷積單元。具體來說,每個卷積單元包括一卷積組2201以及一重複執行的殘差塊2202,其中所謂的重複執行係指針對4個單元中的各殘差塊2202分別執行1次、15次、15次及8次的動作。
更具體來說,如圖2所示,每個殘差塊2202中的卷積分別為3x3(步幅為1)的卷積及1x1(步幅為1)的卷積,並且,每個卷積組2201中除了與第一個殘差塊2202-1連接的卷積層的大小為3x3(步幅為2)外,其它卷積層大小均為3x3(步幅為1),至於最大池化層的大小則是2x2(步幅為2)。
藉此,本實施例的第一運算模組200A便可透過設置最大池化層、以及改變卷積組2201中與第一個殘差塊2202-1連接的卷積層的步幅為2,來大幅降低第一運算模組200A的運算量,亦可進一步透過增加第一運算模組 200A的層數,來提高每次卷積處理之參數量,從而實現在保有高執行速度下的偵測精度(例如:在基於VOC2007_test得到AP為90.58%)。
請參見圖3,圖3為本發明之物件自動追蹤系統之所述實施例的方法流程圖。所述方法,以圖1的物件自動追蹤系統1來執行(S1),並至少包括以下步驟:
一開始,在步驟S2,先將影像擷取裝置10所獲取的一原始影像輸入至運算裝置20進行轉換,繼而,運算裝置利用一MPEG編碼機制將原始影像轉換成幀資料,並根據幀資料中各幀的種類,決定幀資料中的第一資料及第二資料。在本實施例中,所述MPEG編碼格式為圖像群組(GoP)編碼格式,這時,所述第一資料為幀資料中的關鍵幀(Key frame),所述第二資料為該幀資料中的非關鍵幀(Non-key frame)。
接著,在次一步驟S3,運算裝置20利用第一運算模組200A對第一資料執行運算,為此可獲得原始影像中至少一目標物件所對應的分類資訊及位置資訊;同時,利用第二運算模組200B對第二資料執行運算,為此可獲得原始影像中至少一目標物件所對應的軌跡資訊。
最後,在步驟S4,運算裝置20對所獲得的分類資訊、位置資訊及軌跡資訊進行合併及輸出至顯示裝置30,以反映於原始影像上。在本實施例中,所述合併可以藉由執行現有技術中的NMS算法、Soft-NMS算法或者類似算法來實現,此處不再贅述。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍 的基礎上,當可作各種的更動和潤飾。因此,本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:物件自動追蹤系統
10:影像擷取裝置
20:運算裝置
30:顯示裝置
200A:第一運算模組
200A1:第一部份
2201:卷積組
2202、2202-1:殘差塊
200A2:第二部份
200A3:檢測結構
200B:第二運算模組

Claims (8)

  1. 一種物件自動追蹤系統,包括:一影像擷取裝置,用以獲取一影像;以及一運算裝置,連接該影像擷取裝置,用以接收該影像擷取裝置傳輸的該影像,該運算裝置包括一第一運算模組及一第二運算模組;以及一顯示裝置,連接該運算裝置;其中,該運算裝置接收該影像,將該影像以一MPEG編碼格式轉換成一幀資料,然後根據該幀資料中各幀的種類,決定該幀資料中的一第一資料及一第二資料;接著,利用該第一運算模組對該第一資料進行運算,從而獲得該影像中至少一目標物件之一分類資訊及一位置資訊;以及利用該第二運算模組對該第二資料進行運算,從而獲得該至少一目標物件之一軌跡資訊;結果,該運算裝置將該分類資訊、該位置資訊及該軌跡資訊整合顯示於該顯示裝置上;其中,該第一運算模組,包括:一第一部份,該第一部份包括複數個卷積組及複數個殘差塊,用以對輸入的該第一資料進行特徵提取,並相應輸出複數個初始特徵圖,其中每個該卷積組包括至少一卷積層及至少一最大池化層;一第二部份,連接該第一部分,用以對從該第一部份輸入該複數個初始特徵圖進行拼接,並相應輸出至少一特徵圖;以及一檢測結構,連接該第二部份,用以對從該第二部份輸出的該至少一特徵圖進行檢測,並生成該至少一目標物件的該分類資訊及該位置資訊。
  2. 如請求項1所述的物件自動追蹤系統,其中,該第一資料為該幀 資料中的關鍵幀(Key frame),該第二資料為該幀資料中的非關鍵幀(Non-key frame)。
  3. 如請求項2所述的物件自動追蹤系統,其中,該複數個卷積組中與第一個該殘差塊連接的一個該卷積層的步幅為2。
  4. 如請求項2所述的物件自動偵測與追蹤系統,其中,每個卷積組位於任二個殘差塊之間以及位於第一個殘差塊之前。
  5. 如請求項1所述的物件自動追蹤系統,其中,該第二運算模組採用至少一目標追蹤算法。
  6. 一種物件自動追蹤系統之偵測方法,包括以下步驟:S1、提供如請求項1所述的物件自動偵測系統;S2、獲取一影像,利用該MPEG編碼格式將該影像轉換成該幀資料,並根據該幀資料中各幀的種類,決定該幀資料中的該第一資料及該第二資料;S3、利用該第一運算模組對該第一資料進行運算,並得到該影像中該至少一目標物件之該分類資訊及該位置資訊,同時,利用該第二運算模組對該第二資料進行運算,並得到該至少一目標物件之該軌跡資訊;以及S4、對該分類資訊、該位置資訊及該軌跡資訊進行合併及輸出至該顯示裝置;其中,S3的該第一運算模組進行運算,包括:利用一第一部份對輸入的該第一資料進行特徵提取,並相應輸出複數個初始特徵圖,該第一部份包括複數個卷積組及複數個殘差塊,其中每個該卷積組包括至少一卷積層及至少一最大池化層; 利用連接該第一部分的一第二部份,對從該第一部份輸入該複數個初始特徵圖進行拼接,並相應輸出至少一特徵圖;以及利用連接該第二部份的一檢測結構,對從該第二部份輸出的該至少一特徵圖進行檢測,並生成該至少一目標物件的該分類資訊及該位置資訊。
  7. 如請求項6所述的物件自動追蹤系統之偵測方法,其中於步驟S2中,該第一資料為該幀資料中的關鍵幀(Key frame),該第二資料為該幀資料中的非關鍵幀(Non-key frame)。
  8. 如請求項6所述的物件自動追蹤系統之偵測方法,其中於步驟S4中,該運算裝置採用NMS算法、Soft-NMS算法來執行該分類資訊、該位置資訊及該軌跡資訊的合併。
TW111118455A 2022-05-18 2022-05-18 物件自動追蹤系統及其偵測方法 TWI830230B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW111118455A TWI830230B (zh) 2022-05-18 2022-05-18 物件自動追蹤系統及其偵測方法
US18/080,726 US20230377172A1 (en) 2022-05-18 2022-12-13 Object automatic tracking system and identification method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111118455A TWI830230B (zh) 2022-05-18 2022-05-18 物件自動追蹤系統及其偵測方法

Publications (2)

Publication Number Publication Date
TW202347255A TW202347255A (zh) 2023-12-01
TWI830230B true TWI830230B (zh) 2024-01-21

Family

ID=88791809

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111118455A TWI830230B (zh) 2022-05-18 2022-05-18 物件自動追蹤系統及其偵測方法

Country Status (2)

Country Link
US (1) US20230377172A1 (zh)
TW (1) TWI830230B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127815A (zh) * 2016-07-21 2016-11-16 广东工业大学 一种融合卷积神经网络的跟踪方法及系统
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN111066326A (zh) * 2017-09-01 2020-04-24 苹果公司 机器学习视频处理系统和方法
CN113706421A (zh) * 2021-10-27 2021-11-26 深圳市慧鲤科技有限公司 一种图像处理方法及装置、电子设备和存储介质
CN114119378A (zh) * 2020-08-31 2022-03-01 华为技术有限公司 图像融合方法、图像融合模型的训练方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106127815A (zh) * 2016-07-21 2016-11-16 广东工业大学 一种融合卷积神经网络的跟踪方法及系统
CN111066326A (zh) * 2017-09-01 2020-04-24 苹果公司 机器学习视频处理系统和方法
CN114119378A (zh) * 2020-08-31 2022-03-01 华为技术有限公司 图像融合方法、图像融合模型的训练方法和装置
CN113706421A (zh) * 2021-10-27 2021-11-26 深圳市慧鲤科技有限公司 一种图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
US20230377172A1 (en) 2023-11-23
TW202347255A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
US11741736B2 (en) Determining associations between objects and persons using machine learning models
Melekhov et al. Image-based localization using hourglass networks
Madadi et al. End-to-end global to local cnn learning for hand pose recovery in depth data
Hedborg et al. Rolling shutter bundle adjustment
Li et al. Pose refinement graph convolutional network for skeleton-based action recognition
CN108960211A (zh) 一种多目标人体姿态检测方法以及系统
EP3516624A1 (en) A method and system for creating a virtual 3d model
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
CN111652910B (zh) 一种基于对象空间关系的目标跟踪算法
Ma et al. Loop-closure detection using local relative orientation matching
CN116912608A (zh) 基于Transformer-CNN混合架构的RGB-D跨模态交互融合机械臂抓取检测方法
Saif et al. Crowd density estimation from autonomous drones using deep learning: challenges and applications
Li et al. UPG: 3D vision-based prediction framework for robotic grasping in multi-object scenes
Mucha et al. Depth and thermal images in face detection-a detailed comparison between image modalities
Shukla et al. Face Recognition Using LBPH and CNN
TWI830230B (zh) 物件自動追蹤系統及其偵測方法
Ershadi-Nasab et al. Uncalibrated multi-view multiple humans association and 3D pose estimation by adversarial learning
Peng et al. Emerging techniques in vision-based human posture detection: Machine learning methods and applications
Xiao et al. Calibformer: A transformer-based automatic lidar-camera calibration network
Hongpeng et al. A robust object tracking algorithm based on surf and Kalman filter
US20230093572A1 (en) Information processing system, information processing apparatus, and information processing method
Tan et al. Attention-based Grasp Detection with Monocular Depth Estimation
CN113762231A (zh) 端对端的多行人姿态跟踪方法、装置及电子设备
Jing et al. Towards a more efficient few-shot learning-based human gesture recognition via dynamic vision sensors.
Hoang et al. Object Pose Estimation Using Color Images and Predicted Depth Maps