TWI812888B

TWI812888B - 影像辨識方法及影像辨識系統

Info

Publication number: TWI812888B
Application number: TW109135458A
Authority: TW
Inventors: 高得欽; 泗得蔣; 邵美恩; 阮聖彰
Original assignee: 財團法人工業技術研究院
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2023-08-21
Also published as: US20220114383A1; JP2022064808A; US11507776B2; TW202215367A; CN114419313A

Abstract

一種影像辨識方法，其包括：透過影像感測器獲取待辨識影像；將待辨識影像輸入至單一卷積神經網路；依據單一卷積神經網路的輸出結果，獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖，其中第一特徵圖與第二特徵圖具有共有特徵；使用終端層網路模組依據第一特徵圖從待辨識影像中產生對應第一偵測任務的第一辨識結果，並且依據第二特徵圖從待辨識影像中產生對應第二偵測任務的第二辨識結果；以及輸出對應第一偵測任務的第一辨識結果與對應第二偵測任務的第二辨識結果。

Description

影像辨識方法及影像辨識系統

本揭露是有關於一種影像辨識方法及影像辨識系統。

在影像辨識領域中，類神經網路（neural network）已廣泛被使用。然而，不同類型的辨識往往需要不同的類神經網路（neural network）架構，因此，在傳統上，多特徵的辨識需要建構多組類神經網路。如何能夠利用單一類神經網路架構，來對多種特徵進行辨識，以提升效能，是本領域技術人員所致力的目標。

本揭露提供一種影像辨識方法及影像辨識系統，能夠根據獲取的特徵，同時輸出對應於不同偵測任務的辨識結果。

本揭露提供一種影像辨識方法，用於多種偵測任務，影像辨識方法包括：透過影像感測器獲取待辨識影像；將待辨識影像輸入至單一卷積神經網路；依據單一卷積神經網路的輸出結果，獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖，其中第一特徵圖與第二特徵圖具有共有特徵；使用終端層網路模組依據第一特徵圖從待辨識影像中產生對應第一偵測任務的第一辨識結果，並且依據第二特徵圖從待辨識影像中產生對應第二偵測任務的第二辨識結果；以及輸出對應第一偵測任務的第一辨識結果和對應第二偵測任務的第二辨識結果。

本揭露提供一種影像辨識系統，包括影像感測器、儲存裝置、輸出裝置以及處理器。影像感測器獲取待辨識影像。處理器耦接影像感測器、輸出裝置與儲存裝置。處理器將待辨識影像輸入至單一卷積神經網路，其中儲存裝置儲存單一卷積神經網路；依據單一卷積神經網路的輸出結果，獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖，其中第一特徵圖與第二特徵圖具有共有特徵。處理器使用終端層網路模組依據第一特徵圖產生待辨識影像對應第一偵測任務的第一辨識結果，並且依據第二特徵圖產生待辨識影像對應第二偵測任務的第二辨識結果。輸出裝置輸出對應第一偵測任務的第一辨識結果和對應第二偵測任務的第二辨識結果。

基於上述，本揭露範例實施例的影像辨識方法與系統，能夠使用單一卷積神經網路獲取不同的偵測任務的辨識結果。

為讓本揭露的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是根據本揭露的一範例實施例所繪示的影像辨識系統的方塊圖。

請參照圖1，影像辨識系統100用以執行本揭露所述的影像辨識方法，以使用單一卷積神經網路，獲取不同的偵測任務的辨識結果。影像辨識系統100可以是行動裝置、個人數位助理（Personal Digital Assistant，PDA）、筆記型電腦、平板電腦、一般桌上型電腦等，或是其他的電子裝置，在此並不設限。

影像辨識系統100包括影像感測器110、儲存裝置120、輸出裝置130以及處理器140。

影像感測器110用以獲取待辨識影像。在本範例實施例中，影像感測器110例如是攝影機或是行動裝置的相機。

儲存裝置120用以儲存單一卷積神經網路，待辨識影像以及辨識結果。在本範例實施例中，儲存裝置120可以是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。

輸出裝置130是用以輸出影像辨識結果的裝置或元件。輸出裝置130例如是顯示器。舉例來說，當待辨識影像為一道路影像（例如包括樹木、車輛以及行人影像），輸出裝置130可以根據本揭露的影像辨識方法，輸出此待辨識影像中樹木、車輛以及行人的影像。

處理器140是耦接至影像感測器110、儲存裝置120以及輸出裝置130，以控制影像辨識系統100的運作。在本範例實施例中，處理器140例如是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路（Application Specific Integrated Circuit，ASIC）、場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本範例實施例中，處理器140可以運行基於單一卷積神經網路的影像辨識模組，來同時進行多個偵測任務的辨識。

圖2是根據本揭露的一範例實施例所繪示的基於單一卷積神經網路的影像辨識模組的概要圖。

請參照圖2，基於單一卷積神經網路的影像辨識模組2000包括影像預處理模組2002、骨幹架構模組（Backbone Architecture）2004、終端層網路模組（End-Layer Network）2006以及電腦視覺處理模組2008。

在本範例實施例中，處理器140會運行影像預處理模組2002，以對影像感測器110所獲取的待辨識影像進行預處理。

圖3是根據本揭露的一範例實施例所繪示的影像預處理的示意圖。

請參照圖3，影像預處理模組2002可以將待辨識影像（例如原始影像311或是原始影像321）的長寬維度標準化（normalized）為神經網路模型的維度。

具體來說，假設神經網路模型的維度是寬度為W _M、高度為H _M，如圖3的操作310影像填充（padding）所示，影像預處理模組2002將原始影像311（寬度為W _I高度為H _I）進行影像填充以調整影像的長寬比（aspect ratio）而得到輸入影像312。

此外，在另一範例中，如圖3的操作320與操作330以及下述公式1所示，影像預處理模組2002還可以利用雙三次插值 (Bicubic Interpolation)將原始影像321調整大小（resize）而得到輸入影像322。 … (公式1)

請再參照圖2，骨幹架構模組（Backbone Architecture）2004用以截取待辨識影像的特徵，並且終端層網路模組2006用以根據骨幹架構模組2004輸出的特徵圖，進行多個偵測任務與辨識。

具體來說，骨幹架構模組2004配置有單一卷積神經網路的多個卷積層，並且處理器140會運行骨幹架構模組2004從待辨識影像截取對應多個偵測任務的特徵，以產生特徵圖。然後，處理器140會運行終端層網路模組2006，以進行多個偵測與辨識。

在本範例實施例中，例如，第一偵測任務為二維物件偵測任務，並且第二偵測任務為影像分割偵測任務。因此，骨幹架構模組2004會輸出對應第一偵測任務的第一特徵圖與第二偵測任務的第二特徵圖，並且終端層網路模組2006會依據特徵圖，進行用於第一偵測任務的物件偵測與用於第二偵測任務的點偵測。

圖4是根據本揭露的一範例實施例所繪示的獲取不同偵測任務的特徵圖的示意圖。

請參照圖4，在將輸入影像312輸入至骨幹架構模組2004之後，處理器140可以從骨幹架構模組2004配置的單一卷積神經網路410獲取第一偵測任務的第一特徵圖420-1、420-2、420-3以及第二偵測任務的第二特徵圖430。特別是，處理器140可以使用具有多個卷積層的骨幹架構模組2004從待辨識影像（例如，輸入影像312）截取第一偵測任務的第一特徵圖420-1、420-2、420-3以及第二偵測任務的第二特徵圖430的共有特徵，並且據此產生第一特徵圖420-1、420-2、420-3以及第二特徵圖430的共有特徵圖。

例如，在本範例實施例中，第一偵測任務為二維物件偵測任務，因此第一偵測任務的第一特徵圖可以包括邊界框（bounding box）的座標、邊界框的寬與高、邊界框的偵測信心度以及邊界框的分類（class）機率。並且第二偵測任務為影像分割偵測任務，因此第二偵測任務的第二特徵圖可以包括邊界框的座標、邊界框的偵測信心度以及邊界框的分類機率。

請再參考圖2，電腦視覺處理模組2008用以依據特徵圖的資訊來進行上述的點偵測。具體來說，為了能夠正確進行影像分割偵測，在本範例實施例中，處理器140會運行電腦視覺處理模組2008，以依據第二偵測任務的第二特徵圖的資訊執行以電腦視覺（computer vision）為基礎的處理。

圖5是根據本揭露的一範例實施例所繪示一種利用電腦視覺技術獲取方格圖的示意圖。

請參照圖5，電腦視覺處理模組2008依據上述骨幹架構模組2004所產生的特徵圖，可以從輸入影像（例如輸入影像312）獲得對應的影像分割基準真相（Image Segmentation Ground Truth），即影像分割基準真相510。

如圖5所示，影像分割基準真相510包括點GS ₀、GS ₁、GS ₂、GS ₃、GS ₄、GS ₅、GS ₆與GS ₇。假設神經網路模型的維度是寬度為W _M、高度為H _M，並且γ為細胞圖（Cell Map）的比例（scaler）。在方格圖（Grid Map）520中，有包括點GS ₀、GS ₁、GS ₂、GS ₃、GS ₄、GS ₅、GS ₆與GS ₇的細胞可以被視為正數資料（positive data），而未包括點GS ₀、GS ₁、GS ₂、GS ₃、GS ₄、GS ₅、GS ₆與GS ₇的細胞可以暫時先被視為負數資料（negative data）。接著，可以利用下述公式2與公式3，電腦視覺處理模組2008可以計算出相鄰的點GS _n與GS _n+1間的向量分析（vector analysis）。 (公式2) (公式3)

在計算出相鄰的點GS _n與GS _n+1間的向量分析之後，處理器140可以對每個GS _n≤ GS _n+1反覆地執行 GS _n= GS _N+ ∆xy，並且所有第一個碰到負數細胞資料（negative cell data）的點將被轉換成正數資料（positive data）。藉此，處理器140可以從影像分割基準真相510得出正數資料方格圖（Grid Map）520，亦即，得出包含點GS ₀、GS ₁、GS ₂、GS ₃、GS ₄、GS ₅、GS ₆與GS ₇的所有細胞的正數資料方格圖520。

圖6是根據本揭露的一範例實施例所繪示的第一特徵圖與第二特徵圖的示意圖。

請參照圖6，第二特徵圖點候選（Point Candidate）RS ⁰(x, y, cl, p)可以包括邊界框（bounding box）的座標(x, y)、邊界框的偵測信心度cl以及邊界框的分類（class）機率。第一特徵圖偵測框候選（Detection Box Candidates）RD ⁰(x, y, w, h, cl, p)可以包括邊界框的座標(x, y)、邊界框的寬w與高h、邊界框的偵測信心度cl以及邊界框的分類（class）機率。在將點候選RS ⁰(x, y, cl, p)與偵測框候選RD ⁰(x, y, w, h, cl, p) 排列成如圖6的陣列形式之後，可以利用非極大值抑制技術（Non Maximum Suppression, NMS），移除低信心度的點候選與偵測框候選。藉此，點預測（Point Prediction，即RS(x, y, c, cl, p)）與偵測框預測（Detection Box Predictions，即RD(x, y, w, h, c, cl, p)）可以被產生。

在一範例實施例中，可以為該第一偵測任務配置一第一損失函數（Loss Function），並且為該第二偵測任務配置一第二損失函數。第一損失函數用以測量第一辨識結果與對應該第一偵測任務的第一參考結果之間的誤差，第二損失函數是用以測量第二辨識結果與對應第二偵測任務的第二參考結果之間的誤差。

圖7是根據本揭露的一範例實施例所繪示的第一損失函數的示意圖。

根據影像分割基準真相510（即GS(x,y,c)）與經由圖6所示方式產生出的點預測RS(x, y, c, cl, p)，第一損失函數分割損失Seg _loss（Segmentation Loss）可以測量第一辨識結果點預測RS(x, y, c, cl, p)與對應第一偵測任務的第一參考結果影像分割基準真相510（即GS(x,y,c)）之間的誤差，Seg _loss可以經由下述公式4至公式7得出。 …(公式4) …(公式5) … (公式6) … (公式7) 其中為正數xy預測的正常權重，正數點預測，負數（空值）xy預測的正常權重，負數點預測，，，

圖8是根據本揭露的一範例實施例所繪示的第二損失函數的示意圖。

處理器140的骨幹架構模組2004可以依據從輸入影像（例如輸入影像312）獲得二維基準真相（2D Ground Truth）810。根據二維基準真相810（即GD(x, y, w, h, c)）與經由圖6所示方式產生出的偵測框預測RD(x, y, w, h, c, cl, p))，第二損失函數二維物件偵測損失Obj _loss（2D Object Detection loss）可以測量第二辨識結果偵測框預測RD(x, y, w, h, c, cl, p)與對應第二偵測任務的第二參考結果二維基準真相810（即GD(x, y, w, h, c)）之間的誤差，Obj _loss可以經由下述公式8至公式12得出。 … (公式8) … (公式9) … (公式10) … (公式11) … (公式12) 正數xy預測的正常權重，正數偵測預測，負數（空值）xy預測的正常權重，負數偵測預測，，，A為框總數，。

在一範例實施例中，處理器140可以在終端層網路模組2006中配置多個預測層，並且依據對應第一偵測任務的第一損失函數與對應第二偵測任務的第二損失函數處理共有特徵圖。也就是說，在處理器140透過骨幹架構模組2004從待辨識影像（輸入影像312）截取共有特徵，並產生第一特徵圖420-1、420-2、420-3以及第二特徵圖430的共有特徵圖之後，處理器140可以依據上述公式4至公式7所得出對應第一偵測任務的第一損失函數，與上述公式8至公式12所得出對應第二偵測任務的第二損失函數，處理共有特徵圖。

在一範例實施例中，處理器140可以使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。例如，在得到第一損失函數分割損失Seg _loss與第二損失函數二維物件偵測損失Obj _loss之後，可以利用下述公式13得出合併損失 Final _loss 。處理器140可以利用合併損失 Final _loss 調整骨幹架構模組2004的可學習權重。 … (公式13) 為骨幹架構模組2004只以影像分割偵測任務訓練時的最小分割損失，為骨幹架構模組只以二維物件偵測任務訓練時的最小二維物件偵測損失。

在一範例實施例中，處理器140可以在終端層網路模組中利用電腦視覺技術分群與連結對應第二偵測任務的辨識結果。

圖9A~9D是根據本揭露的一範例實施例所繪示的利用電腦視覺技術得出分割圖（Segmentation Map）的示意圖。

請參照圖9A，假設經由圖6所示方式得出的點候選（Point Candidate）RS ⁰(x, y, cl, p)為圖9中的點候選910、由圖4所示方式得到的第二偵測任務（影像分割）的第二特徵圖430為圖9中的特徵圖920、以及由圖5所示方式得到的正數資料方格圖520為圖9中的正數資料方格圖930。本範例實施例，處理器140可以使用電腦視覺技術，利用點候選910、特徵圖920、正數資料方格圖930以及輸入影像312得出分割圖（Segmentation Map）。

在本範例實施例中，處理器140可以利用電腦視覺技術得出分割圖的運作可以分為三個階段。在第一階段中，處理器140可以利用下述公式14與公式15識別出起始點和終點。 … (公式14) … (公式15) 正數點預測，底部正數點預測。

在第二階段中，處理器140將繼續找出點順序的索引。

圖9B是本揭露的一範例實施例所繪示的使用電腦視覺技術得出分割圖的第二階段示意圖。

請參照圖9B，假設在第一階段中得出的起始點為點910-1，在第一階段中得出的終點為點910-2。第二階段的實施方式為，從起始點（點910-1）開始，核心（Kernel）可以搜尋正數資料方格圖930中，相鄰的細胞中是否有正數細胞（positive cell），其中核心可以如圖9B中的長與寬均為3的核心940所示，並且利用下述公式16與公式17決定順序索引。 … (公式16) … (公式17)

圖9C是本揭露的一範例實施例所繪示的使用電腦視覺技術得出分割圖的第二階段的另一示意圖。

當利用核心940（即K _n）無法在正數資料方格圖930中找出相鄰的正數細胞（positive cell）時，可以利用另一個長寬均為5的核心950 K _gap在特徵圖920與正數資料方格圖930中，搜尋相鄰細胞，其操作可由以下公式18至公式20所表示。 … (公式18) 狀況1: …(公式19) 狀況2： …(公式20)

在處理完第二階段之後，接著可以利用排序後的點，畫出如圖9D所表示的輪廓（contour），以得到待辨識影像對應第二偵測任務（影像分割）的第二辨識結果，即影像分割結果。

圖10是根據本揭露的一範例實施例所繪示的影像辨識方法的流程圖。

請參照圖10，在步驟S1010中，影像感測器110會獲取待辨識影像。

在步驟S1020中，處理器140會對影像進行預處理。

在步驟S1030中，處理器140可以將待辨識影像（即圖3中的輸入影像312或輸入影像322）輸入至單一卷積神經網路。在此，單一卷積神經網路例如是影像辨識的類神經網路演算法YOLOv3 (You only look once version 3, YOLO version 3)，本揭露不限制所使用的單一卷積神經網路的種類。

接著，在步驟S1040中，處理器140根據單一卷積神經網路獲取屬於第一偵測任務的第一特徵圖（Feature Map）以及屬於第二偵測任務的第二特徵圖。

在步驟S1050中，處理器140可以依據第一特徵圖（第一特徵圖420-1、420-2、420-3）從待辨識影像中產生對應第一偵測任務（二維物件偵測）的第一辨識結果（即二維物件偵測結果），以及依據第二特徵圖（第二特徵圖430）從待辨識影像中產生對應第二偵測任務（影像分割）的第二辨識結果（即影像分割結果）。

在步驟S1060中，輸出裝置130輸出對應第一偵測任務（二維物件偵測）的第一辨識結果（即二維物件偵測結果）和對應第二偵測任務（影像分割）的第二辨識結果（即影像分割結果）。

綜上所述，本揭露範例實施例的影像辨識方法與系統，可以在不同的偵測任務的特徵圖之間具有共有特徵時，僅使用單一卷積神經網路即可得到不同的偵測任務的辨識結果。基此，可以節省影像辨識所需要的時間並且提高影像辨識的準確度。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。

100:影像辨識系統 110:影像感測器 120:儲存裝置 130:輸出裝置 140:處理器 2000：基於單一卷積神經網路的影像辨識模組 2002：影像預處理模組 2004：骨幹架構模組 2006：終端層網路模組 2008：電腦視覺處理模組 W_M:神經網路模型的維度寬度 H_M:神經網路模型的維度高度 W_I:原始影像寬度 H_I:原始影像高度 I_I:待辨識影像 I:輸入影像 310:影像填充操作 320、330:調整影像大小操作 311、321:原始影像 312、322:輸入影像 410:單一卷積神經網路 420-1、420-2、420-3:第一特徵圖 430:第二特徵圖 510:影像分割基準真相 520:正數資料方格圖 x, y:邊界框（bounding box）座標 w:邊界框寬 h:邊界框高 cl:偵測信心度 p:分類（class）機率 RS⁰:點候選 RD⁰:偵測框候選 RS:點預測 RD:偵測框預測 910:點候選 920:特徵圖 930:正數資料方格圖 940、950:核心 S1010、S1020、S1030、S1040、S1050、S1060:步驟

圖1是根據本揭露的一範例實施例所繪示的影像辨識系統的方塊圖。圖2是根據本揭露的一範例實施例所繪示的基於單一卷積神經網路的影像辨識模組的概要圖。圖3是根據本揭露的一範例實施例所繪示的影像預處理的示意圖。圖4是根據本揭露的一範例實施例所繪示的獲取不同偵測任務的特徵圖的示意圖。圖5是根據本揭露的一範例實施例所繪示的利用電腦視覺技術獲取方格圖的示意圖。圖6是根據本揭露的一範例實施例所繪示的第一特徵圖與第二特徵圖的示意圖。圖7是根據本揭露的一範例實施例所繪示的第一損失函數的示意圖。圖8是根據本揭露的一範例實施例所繪示的第二損失函數的示意圖。圖9A~9D是根據本揭露的一範例實施例所繪示的利用電腦視覺技術得出分割圖（Segmentation Map）的示意圖。圖10是根據本揭露的一範例實施例所繪示的影像辨識方法的流程圖。

S1010、S1020、S1030、S1040、S1050、S1060:步驟

Claims

一種影像辨識方法，用於多種偵測任務，該影像辨識方法包括：透過一影像感測器獲取一待辨識影像；將該待辨識影像輸入至一單一卷積神經網路；依據該單一卷積神經網路的輸出結果，獲取屬於一第一偵測任務的一第一特徵圖(Feature Map)以及屬於一第二偵測任務的一第二特徵圖，其中該第一特徵圖與該第二特徵圖具有一共有特徵；使用一終端層網路模組(End-Layer Network)依據該第一特徵圖從該待辨識影像中產生對應該第一偵測任務的一第一辨識結果，並且依據該第二特徵圖從該待辨識影像中產生對應該第二偵測任務的一第二辨識結果，其中該終端層網路模組利用一電腦視覺技術以依據點候選、該第二特徵圖以及正數資料方格圖得出該第二辨識結果；以及輸出對應該第一偵測任務的該第一辨識結果與對應該第二偵測任務的該第二辨識結果。
如請求項1所述的影像辨識方法，其中該第一偵測任務為一二維物件偵測(2D Object Detection)，並且該第二偵測任務為一影像分割(Image Segmentation)。
如請求項1所述的影像辨識方法，更包括：在該單一卷積神經網路中配置具有多個卷積層的一骨幹架構模組(Backbone Architecture)；以及使用該骨幹架構模組從該待辨識影像截取該共有特徵，並產生一共有特徵圖。
如請求項3所述的影像辨識方法，更包括：為該第一偵測任務配置一第一損失函數(Loss Function)，並且為該第二偵測任務配置一第二損失函數，其中該第一損失函數測量該第一辨識結果與對應該第一偵測任務的一第一參考結果之間的誤差，其中該第二損失函數測量該第二辨識結果與對應該第二偵測任務的一第二參考結果之間的誤差。
如請求項4所述的影像辨識方法，更包括：在該終端層網路模組中配置多個預測層，並且依據對應該第一偵測任務的該第一損失函數與對應該第二偵測任務的該第二損失函數處理該共有特徵圖。
如請求項4所述的影像辨識方法，更包括：使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。
如請求項1所述的影像辨識方法，更包括在該終端層網路模組中利用該電腦視覺技術分群與連結對應該第二偵測任務的辨識結果。
如請求項1所述的影像辨識方法，其中該第一偵測任務的該第一特徵圖包括一邊界框(bounding box)的座標、該邊界框的寬與高、該邊界框的偵測信心度以及該邊界框的分類(class)機率，並且該第二偵測任務的該第二特徵圖包括該邊界框的座標、該邊界框的偵測信心度以及該邊界框的分類機率。
一種影像辨識系統，包括：一影像感測器，獲取一待辨識影像；一儲存裝置；一輸出裝置；以及一處理器，耦接該影像感測器、該儲存裝置與該輸出裝置，其中該處理器將該待辨識影像輸入至一單一卷積神經網路，其中該儲存裝置儲存該單一卷積神經網路，其中該處理器依據該單一卷積神經網路的輸出結果，獲取屬於一第一偵測任務的一第一特徵圖(Feature Map)以及屬於一第二偵測任務的一第二特徵圖，其中該第一特徵圖與該第二特徵圖具有一共有特徵，其中該處理器使用一終端層網路模組(End-Layer Network)依據該第一特徵圖產生該待辨識影像對應該第一偵測任務的一第一辨識結果，並且依據該第二特徵圖產生該待辨識影像對應該第二偵測任務的一第二辨識結果，其中該處理器使用該終端層網路模組以利用一電腦視覺技術以依據點候選、該第二特徵圖以及正數資料方格圖得出該第二辨識結果，其中該輸出裝置輸出對應該第一偵測任務的該第一辨識結果與對應該第二偵測任務的該第二辨識結果。
如請求項9所述的影像辨識系統，其中該第一偵測任務為二維物件偵測(2D Object Detection)，該第二偵測任務為影像分割(Image Segmentation)。
如請求項9所述的影像辨識系統，其中該處理器在該單一卷積神經網路中配置具有多個卷積層的一骨幹架構模組(Backbone Architecture)，其中該處理器使用該骨幹架構模組從該待辨識影像截取該共有特徵，並產生一共有特徵圖。
如請求項11所述的影像辨識系統，其中該處理器為該第一偵測任務配置一第一損失函數(Loss Function)，並且為該第二偵測任務配置一第二損失函數，其中該第一損失函數測量該第一辨識結果與對應該第一偵測任務的一第一參考結果之間的誤差，其中該第二損失函數測量該第二辨識結果與對應該第二偵測任務的一第二參考結果之間的誤差。
如請求項12所述的影像辨識系統，其中該處理器在該終端層網路模組中配置多個預測層，並且依據對應該第一偵測任務的該第一損失函數與對應該第二偵測任務的該第二損失函數處理該共有特徵圖。
如請求項12所述的影像辨識系統，其中該處理器使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。
如請求項9所述的影像辨識系統，其中該處理器在該終端層網路模組中利用該電腦視覺技術分群與連結對應該第二偵測任務的辨識結果。
如請求項9所述的影像辨識系統，其中該第一偵測任務的該第一特徵圖包括一邊界框(bounding box)的座標、該邊界框的寬與高、該邊界框的偵測信心度以及該邊界框的分類(class)機率，並且該第二偵測任務的該第二特徵圖包括該邊界框的座標、該邊界框的偵測信心度以及該邊界框的分類機率。