TWI812888B - 影像辨識方法及影像辨識系統 - Google Patents

影像辨識方法及影像辨識系統 Download PDF

Info

Publication number
TWI812888B
TWI812888B TW109135458A TW109135458A TWI812888B TW I812888 B TWI812888 B TW I812888B TW 109135458 A TW109135458 A TW 109135458A TW 109135458 A TW109135458 A TW 109135458A TW I812888 B TWI812888 B TW I812888B
Authority
TW
Taiwan
Prior art keywords
detection task
image
feature map
detection
loss function
Prior art date
Application number
TW109135458A
Other languages
English (en)
Other versions
TW202215367A (zh
Inventor
高得欽
泗得 蔣
邵美恩
阮聖彰
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW109135458A priority Critical patent/TWI812888B/zh
Priority to US16/950,919 priority patent/US11507776B2/en
Priority to CN202110134473.0A priority patent/CN114419313A/zh
Priority to JP2021030701A priority patent/JP2022064808A/ja
Publication of TW202215367A publication Critical patent/TW202215367A/zh
Application granted granted Critical
Publication of TWI812888B publication Critical patent/TWI812888B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Input (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

一種影像辨識方法,其包括:透過影像感測器獲取待辨識影像;將待辨識影像輸入至單一卷積神經網路;依據單一卷積神經網路的輸出結果,獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖,其中第一特徵圖與第二特徵圖具有共有特徵;使用終端層網路模組依據第一特徵圖從待辨識影像中產生對應第一偵測任務的第一辨識結果,並且依據第二特徵圖從待辨識影像中產生對應第二偵測任務的第二辨識結果;以及輸出對應第一偵測任務的第一辨識結果與對應第二偵測任務的第二辨識結果。

Description

影像辨識方法及影像辨識系統
本揭露是有關於一種影像辨識方法及影像辨識系統。
在影像辨識領域中,類神經網路(neural network)已廣泛被使用。然而,不同類型的辨識往往需要不同的類神經網路(neural network)架構,因此,在傳統上,多特徵的辨識需要建構多組類神經網路。如何能夠利用單一類神經網路架構,來對多種特徵進行辨識,以提升效能,是本領域技術人員所致力的目標。
本揭露提供一種影像辨識方法及影像辨識系統,能夠根據獲取的特徵,同時輸出對應於不同偵測任務的辨識結果。
本揭露提供一種影像辨識方法,用於多種偵測任務,影像辨識方法包括:透過影像感測器獲取待辨識影像;將待辨識影像輸入至單一卷積神經網路;依據單一卷積神經網路的輸出結果,獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖,其中第一特徵圖與第二特徵圖具有共有特徵;使用終端層網路模組依據第一特徵圖從待辨識影像中產生對應第一偵測任務的第一辨識結果,並且依據第二特徵圖從待辨識影像中產生對應第二偵測任務的第二辨識結果;以及輸出對應第一偵測任務的第一辨識結果和對應第二偵測任務的第二辨識結果。
本揭露提供一種影像辨識系統,包括影像感測器、儲存裝置、輸出裝置以及處理器。影像感測器獲取待辨識影像。處理器耦接影像感測器、輸出裝置與儲存裝置。處理器將待辨識影像輸入至單一卷積神經網路,其中儲存裝置儲存單一卷積神經網路;依據單一卷積神經網路的輸出結果,獲取屬於第一偵測任務的第一特徵圖以及屬於第二偵測任務的第二特徵圖,其中第一特徵圖與第二特徵圖具有共有特徵。處理器使用終端層網路模組依據第一特徵圖產生待辨識影像對應第一偵測任務的第一辨識結果,並且依據第二特徵圖產生待辨識影像對應第二偵測任務的第二辨識結果。輸出裝置輸出對應第一偵測任務的第一辨識結果和對應第二偵測任務的第二辨識結果。
基於上述,本揭露範例實施例的影像辨識方法與系統,能夠使用單一卷積神經網路獲取不同的偵測任務的辨識結果。
為讓本揭露的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是根據本揭露的一範例實施例所繪示的影像辨識系統的方塊圖。
請參照圖1,影像辨識系統100用以執行本揭露所述的影像辨識方法,以使用單一卷積神經網路,獲取不同的偵測任務的辨識結果。影像辨識系統100可以是行動裝置、個人數位助理(Personal Digital Assistant,PDA)、筆記型電腦、平板電腦、一般桌上型電腦等,或是其他的電子裝置,在此並不設限。
影像辨識系統100包括影像感測器110、儲存裝置120、輸出裝置130以及處理器140。
影像感測器110用以獲取待辨識影像。在本範例實施例中,影像感測器110例如是攝影機或是行動裝置的相機。
儲存裝置120用以儲存單一卷積神經網路,待辨識影像以及辨識結果。在本範例實施例中,儲存裝置120可以是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。
輸出裝置130是用以輸出影像辨識結果的裝置或元件。輸出裝置130例如是顯示器。舉例來說,當待辨識影像為一道路影像(例如包括樹木、車輛以及行人影像),輸出裝置130可以根據本揭露的影像辨識方法,輸出此待辨識影像中樹木、車輛以及行人的影像。
處理器140是耦接至影像感測器110、儲存裝置120以及輸出裝置130,以控制影像辨識系統100的運作。在本範例實施例中,處理器140例如是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路(Application Specific Integrated Circuit,ASIC)、場可程式閘陣列電路(Field Programmable Gate Array,FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine,ARM)的處理器以及類似品。
在本範例實施例中,處理器140可以運行基於單一卷積神經網路的影像辨識模組,來同時進行多個偵測任務的辨識。
圖2是根據本揭露的一範例實施例所繪示的基於單一卷積神經網路的影像辨識模組的概要圖。
請參照圖2,基於單一卷積神經網路的影像辨識模組2000包括影像預處理模組2002、骨幹架構模組(Backbone Architecture)2004、終端層網路模組(End-Layer Network)2006以及電腦視覺處理模組2008。
在本範例實施例中,處理器140會運行影像預處理模組2002,以對影像感測器110所獲取的待辨識影像進行預處理。
圖3是根據本揭露的一範例實施例所繪示的影像預處理的示意圖。
請參照圖3,影像預處理模組2002可以將待辨識影像(例如原始影像311或是原始影像321)的長寬維度標準化(normalized)為神經網路模型的維度。
具體來說,假設神經網路模型的維度是寬度為W M、高度為H M,如圖3的操作310影像填充(padding)所示,影像預處理模組2002將原始影像311(寬度為W I高度為H I)進行影像填充以調整影像的長寬比(aspect ratio)而得到輸入影像312。
此外,在另一範例中,如圖3的操作320與操作330以及下述公式1所示,影像預處理模組2002還可以利用雙三次插值 (Bicubic Interpolation)將原始影像321調整大小(resize)而得到輸入影像322。 … (公式1)
請再參照圖2,骨幹架構模組(Backbone Architecture)2004用以截取待辨識影像的特徵,並且終端層網路模組2006用以根據骨幹架構模組2004輸出的特徵圖,進行多個偵測任務與辨識。
具體來說,骨幹架構模組2004配置有單一卷積神經網路的多個卷積層,並且處理器140會運行骨幹架構模組2004從待辨識影像截取對應多個偵測任務的特徵,以產生特徵圖。然後,處理器140會運行終端層網路模組2006,以進行多個偵測與辨識。
在本範例實施例中,例如,第一偵測任務為二維物件偵測任務,並且第二偵測任務為影像分割偵測任務。因此,骨幹架構模組2004會輸出對應第一偵測任務的第一特徵圖與第二偵測任務的第二特徵圖,並且終端層網路模組2006會依據特徵圖,進行用於第一偵測任務的物件偵測與用於第二偵測任務的點偵測。
圖4是根據本揭露的一範例實施例所繪示的獲取不同偵測任務的特徵圖的示意圖。
請參照圖4,在將輸入影像312輸入至骨幹架構模組2004之後,處理器140可以從骨幹架構模組2004配置的單一卷積神經網路410獲取第一偵測任務的第一特徵圖420-1、420-2、420-3以及第二偵測任務的第二特徵圖430。特別是,處理器140可以使用具有多個卷積層的骨幹架構模組2004從待辨識影像(例如,輸入影像312)截取第一偵測任務的第一特徵圖420-1、420-2、420-3以及第二偵測任務的第二特徵圖430的共有特徵,並且據此產生第一特徵圖420-1、420-2、420-3以及第二特徵圖430的共有特徵圖。
例如,在本範例實施例中,第一偵測任務為二維物件偵測任務,因此第一偵測任務的第一特徵圖可以包括邊界框(bounding box)的座標、邊界框的寬與高、邊界框的偵測信心度以及邊界框的分類(class)機率。並且第二偵測任務為影像分割偵測任務,因此第二偵測任務的第二特徵圖可以包括邊界框的座標、邊界框的偵測信心度以及邊界框的分類機率。
請再參考圖2,電腦視覺處理模組2008用以依據特徵圖的資訊來進行上述的點偵測。具體來說,為了能夠正確進行影像分割偵測,在本範例實施例中,處理器140會運行電腦視覺處理模組2008,以依據第二偵測任務的第二特徵圖的資訊執行以電腦視覺(computer vision)為基礎的處理。
圖5是根據本揭露的一範例實施例所繪示一種利用電腦視覺技術獲取方格圖的示意圖。
請參照圖5,電腦視覺處理模組2008依據上述骨幹架構模組2004所產生的特徵圖,可以從輸入影像(例如輸入影像312)獲得對應的影像分割基準真相(Image Segmentation Ground Truth),即影像分割基準真相510。
如圖5所示,影像分割基準真相510包括點GS 0、GS 1、GS 2、GS 3、GS 4、GS 5、GS 6與GS 7。假設神經網路模型的維度是寬度為W M、高度為H M,並且γ為細胞圖(Cell Map)的比例(scaler)。在方格圖(Grid Map)520中,有包括點GS 0、GS 1、GS 2、GS 3、GS 4、GS 5、GS 6與GS 7的細胞可以被視為正數資料(positive data),而未包括點GS 0、GS 1、GS 2、GS 3、GS 4、GS 5、GS 6與GS 7的細胞可以暫時先被視為負數資料(negative data)。接著,可以利用下述公式2與公式3,電腦視覺處理模組2008可以計算出相鄰的點GS n與GS n+1間的向量分析(vector analysis)。 (公式2) (公式3)
在計算出相鄰的點GS n與GS n+1間的向量分析之後,處理器140可以對每個GS n≤ GS n+1反覆地執行 GS n= GS N+ ∆xy,並且所有第一個碰到負數細胞資料(negative cell data)的點將被轉換成正數資料(positive data)。藉此,處理器140可以從影像分割基準真相510得出正數資料方格圖(Grid Map)520,亦即,得出包含點GS 0、GS 1、GS 2、GS 3、GS 4、GS 5、GS 6與GS 7的所有細胞的正數資料方格圖520。
圖6是根據本揭露的一範例實施例所繪示的第一特徵圖與第二特徵圖的示意圖。
請參照圖6,第二特徵圖點候選(Point Candidate)RS 0(x, y, cl, p)可以包括邊界框(bounding box)的座標(x, y)、邊界框的偵測信心度cl以及邊界框的分類(class)機率。第一特徵圖偵測框候選(Detection Box Candidates)RD 0(x, y, w, h, cl, p)可以包括邊界框的座標(x, y)、邊界框的寬w與高h、邊界框的偵測信心度cl以及邊界框的分類(class)機率。在將點候選RS 0(x, y, cl, p)與偵測框候選RD 0(x, y, w, h, cl, p) 排列成如圖6的陣列形式之後,可以利用非極大值抑制技術(Non Maximum Suppression, NMS),移除低信心度的點候選與偵測框候選。藉此,點預測(Point Prediction,即RS(x, y, c, cl, p))與偵測框預測(Detection Box Predictions,即RD(x, y, w, h, c, cl, p))可以被產生。
在一範例實施例中,可以為該第一偵測任務配置一第一損失函數(Loss Function),並且為該第二偵測任務配置一第二損失函數。第一損失函數用以測量第一辨識結果與對應該第一偵測任務的第一參考結果之間的誤差,第二損失函數是用以測量第二辨識結果與對應第二偵測任務的第二參考結果之間的誤差。
圖7是根據本揭露的一範例實施例所繪示的第一損失函數的示意圖。
根據影像分割基準真相510(即GS(x,y,c))與經由圖6所示方式產生出的點預測RS(x, y, c, cl, p),第一損失函數分割損失Seg loss(Segmentation Loss)可以測量第一辨識結果點預測RS(x, y, c, cl, p)與對應第一偵測任務的第一參考結果影像分割基準真相510(即GS(x,y,c))之間的誤差,Seg loss可以經由下述公式4至公式7得出。 …(公式4) …(公式5) … (公式6) … (公式7) 其中 為正數xy預測的正常權重, 正數點預測, 負數(空值)xy預測的正常權重, 負數點預測,
圖8是根據本揭露的一範例實施例所繪示的第二損失函數的示意圖。
處理器140的骨幹架構模組2004可以依據從輸入影像(例如輸入影像312)獲得二維基準真相(2D Ground Truth)810。根據二維基準真相810(即GD(x, y, w, h, c))與經由圖6所示方式產生出的偵測框預測RD(x, y, w, h, c, cl, p)),第二損失函數二維物件偵測損失Obj loss(2D Object Detection loss)可以測量第二辨識結果偵測框預測RD(x, y, w, h, c, cl, p)與對應第二偵測任務的第二參考結果二維基準真相810(即GD(x, y, w, h, c))之間的誤差,Obj loss可以經由下述公式8至公式12得出。 … (公式8) … (公式9) … (公式10) … (公式11) … (公式12) 正數xy預測的正常權重, 正數偵測預測, 負數(空值)xy預測的正常權重, 負數偵測預測, ,A為框總數,
在一範例實施例中,處理器140可以在終端層網路模組2006中配置多個預測層,並且依據對應第一偵測任務的第一損失函數與對應第二偵測任務的第二損失函數處理共有特徵圖。也就是說,在處理器140透過骨幹架構模組2004從待辨識影像(輸入影像312)截取共有特徵,並產生第一特徵圖420-1、420-2、420-3以及第二特徵圖430的共有特徵圖之後,處理器140可以依據上述公式4至公式7所得出對應第一偵測任務的第一損失函數,與上述公式8至公式12所得出對應第二偵測任務的第二損失函數,處理共有特徵圖。
在一範例實施例中,處理器140可以使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。例如,在得到第一損失函數分割損失Seg loss與第二損失函數二維物件偵測損失Obj loss之後,可以利用下述公式13得出合併損失 Final loss 。處理器140可以利用合併損失 Final loss 調整骨幹架構模組2004的可學習權重。 …  (公式13) 為骨幹架構模組2004只以影像分割偵測任務訓練時的最小分割損失, 為骨幹架構模組只以二維物件偵測任務訓練時的最小二維物件偵測損失。
在一範例實施例中,處理器140可以在終端層網路模組中利用電腦視覺技術分群與連結對應第二偵測任務的辨識結果。
圖9A~9D是根據本揭露的一範例實施例所繪示的利用電腦視覺技術得出分割圖(Segmentation Map)的示意圖。
請參照圖9A,假設經由圖6所示方式得出的點候選(Point Candidate)RS 0(x, y, cl, p)為圖9中的點候選910、由圖4所示方式得到的第二偵測任務(影像分割)的第二特徵圖430為圖9中的特徵圖920、以及由圖5所示方式得到的正數資料方格圖520為圖9中的正數資料方格圖930。本範例實施例,處理器140可以使用電腦視覺技術,利用點候選910、特徵圖920、正數資料方格圖930以及輸入影像312得出分割圖(Segmentation Map)。
在本範例實施例中,處理器140可以利用電腦視覺技術得出分割圖的運作可以分為三個階段。在第一階段中,處理器140可以利用下述公式14與公式15識別出起始點 和終點 … (公式14) … (公式15) 正數點預測, 底部正數點預測。
在第二階段中,處理器140將繼續找出點順序的索引。
圖9B是本揭露的一範例實施例所繪示的使用電腦視覺技術得出分割圖的第二階段示意圖。
請參照圖9B,假設在第一階段中得出的起始點 為點910-1,在第一階段中得出的終點 為點910-2。第二階段的實施方式為,從起始點 (點910-1)開始,核心(Kernel)可以搜尋正數資料方格圖930中,相鄰的細胞中是否有正數細胞(positive cell),其中核心可以如圖9B中的長與寬均為3的核心940所示,並且利用下述公式16與公式17決定順序索引。 … (公式16) … (公式17)
圖9C是本揭露的一範例實施例所繪示的使用電腦視覺技術得出分割圖的第二階段的另一示意圖。
當利用核心940(即K n)無法在正數資料方格圖930中找出相鄰的正數細胞(positive cell)時,可以利用另一個長寬均為5的核心950 K gap在特徵圖920與正數資料方格圖930中,搜尋相鄰細胞,其操作可由以下公式18至公式20所表示。 … (公式18) 狀況1: …(公式19) 狀況2: …(公式20)
在處理完第二階段之後,接著可以利用排序後的點,畫出如圖9D所表示的輪廓(contour),以得到待辨識影像對應第二偵測任務(影像分割)的第二辨識結果,即影像分割結果。
圖10是根據本揭露的一範例實施例所繪示的影像辨識方法的流程圖。
請參照圖10,在步驟S1010中,影像感測器110會獲取待辨識影像。
在步驟S1020中,處理器140會對影像進行預處理。
在步驟S1030中,處理器140可以將待辨識影像(即圖3中的輸入影像312或輸入影像322)輸入至單一卷積神經網路。在此,單一卷積神經網路例如是影像辨識的類神經網路演算法YOLOv3 (You only look once version 3, YOLO version 3),本揭露不限制所使用的單一卷積神經網路的種類。
接著,在步驟S1040中,處理器140根據單一卷積神經網路獲取屬於第一偵測任務的第一特徵圖(Feature Map)以及屬於第二偵測任務的第二特徵圖。
在步驟S1050中,處理器140可以依據第一特徵圖(第一特徵圖420-1、420-2、420-3)從待辨識影像中產生對應第一偵測任務(二維物件偵測)的第一辨識結果(即二維物件偵測結果),以及依據第二特徵圖(第二特徵圖430)從待辨識影像中產生對應第二偵測任務(影像分割)的第二辨識結果(即影像分割結果)。
在步驟S1060中,輸出裝置130輸出對應第一偵測任務(二維物件偵測)的第一辨識結果(即二維物件偵測結果)和對應第二偵測任務(影像分割)的第二辨識結果(即影像分割結果)。
綜上所述,本揭露範例實施例的影像辨識方法與系統,可以在不同的偵測任務的特徵圖之間具有共有特徵時,僅使用單一卷積神經網路即可得到不同的偵測任務的辨識結果。基此,可以節省影像辨識所需要的時間並且提高影像辨識的準確度。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。
100:影像辨識系統 110:影像感測器 120:儲存裝置 130:輸出裝置 140:處理器 2000:基於單一卷積神經網路的影像辨識模組 2002:影像預處理模組 2004:骨幹架構模組 2006:終端層網路模組 2008:電腦視覺處理模組 WM:神經網路模型的維度寬度 HM:神經網路模型的維度高度 WI:原始影像寬度 HI:原始影像高度 II:待辨識影像 I:輸入影像 310:影像填充操作 320、330:調整影像大小操作 311、321:原始影像 312、322:輸入影像 410:單一卷積神經網路 420-1、420-2、420-3:第一特徵圖 430:第二特徵圖 510:影像分割基準真相 520:正數資料方格圖 x, y:邊界框(bounding box)座標 w:邊界框寬 h:邊界框高 cl:偵測信心度 p:分類(class)機率 RS0:點候選 RD0:偵測框候選 RS:點預測 RD:偵測框預測 910:點候選 920:特徵圖 930:正數資料方格圖 940、950:核心 S1010、S1020、S1030、S1040、S1050、S1060:步驟
圖1是根據本揭露的一範例實施例所繪示的影像辨識系統的方塊圖。 圖2是根據本揭露的一範例實施例所繪示的基於單一卷積神經網路的影像辨識模組的概要圖。 圖3是根據本揭露的一範例實施例所繪示的影像預處理的示意圖。 圖4是根據本揭露的一範例實施例所繪示的獲取不同偵測任務的特徵圖的示意圖。 圖5是根據本揭露的一範例實施例所繪示的利用電腦視覺技術獲取方格圖的示意圖。 圖6是根據本揭露的一範例實施例所繪示的第一特徵圖與第二特徵圖的示意圖。 圖7是根據本揭露的一範例實施例所繪示的第一損失函數的示意圖。 圖8是根據本揭露的一範例實施例所繪示的第二損失函數的示意圖。 圖9A~9D是根據本揭露的一範例實施例所繪示的利用電腦視覺技術得出分割圖(Segmentation Map)的示意圖。 圖10是根據本揭露的一範例實施例所繪示的影像辨識方法的流程圖。
S1010、S1020、S1030、S1040、S1050、S1060:步驟

Claims (16)

  1. 一種影像辨識方法,用於多種偵測任務,該影像辨識方法包括:透過一影像感測器獲取一待辨識影像;將該待辨識影像輸入至一單一卷積神經網路;依據該單一卷積神經網路的輸出結果,獲取屬於一第一偵測任務的一第一特徵圖(Feature Map)以及屬於一第二偵測任務的一第二特徵圖,其中該第一特徵圖與該第二特徵圖具有一共有特徵;使用一終端層網路模組(End-Layer Network)依據該第一特徵圖從該待辨識影像中產生對應該第一偵測任務的一第一辨識結果,並且依據該第二特徵圖從該待辨識影像中產生對應該第二偵測任務的一第二辨識結果,其中該終端層網路模組利用一電腦視覺技術以依據點候選、該第二特徵圖以及正數資料方格圖得出該第二辨識結果;以及輸出對應該第一偵測任務的該第一辨識結果與對應該第二偵測任務的該第二辨識結果。
  2. 如請求項1所述的影像辨識方法,其中該第一偵測任務為一二維物件偵測(2D Object Detection),並且該第二偵測任務為一影像分割(Image Segmentation)。
  3. 如請求項1所述的影像辨識方法,更包括: 在該單一卷積神經網路中配置具有多個卷積層的一骨幹架構模組(Backbone Architecture);以及使用該骨幹架構模組從該待辨識影像截取該共有特徵,並產生一共有特徵圖。
  4. 如請求項3所述的影像辨識方法,更包括:為該第一偵測任務配置一第一損失函數(Loss Function),並且為該第二偵測任務配置一第二損失函數,其中該第一損失函數測量該第一辨識結果與對應該第一偵測任務的一第一參考結果之間的誤差,其中該第二損失函數測量該第二辨識結果與對應該第二偵測任務的一第二參考結果之間的誤差。
  5. 如請求項4所述的影像辨識方法,更包括:在該終端層網路模組中配置多個預測層,並且依據對應該第一偵測任務的該第一損失函數與對應該第二偵測任務的該第二損失函數處理該共有特徵圖。
  6. 如請求項4所述的影像辨識方法,更包括:使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。
  7. 如請求項1所述的影像辨識方法,更包括在該終端層網路模組中利用該電腦視覺技術分群與連結對應該第二偵測任務的辨識結果。
  8. 如請求項1所述的影像辨識方法,其中該第一偵測任務的該第一特徵圖包括一邊界框(bounding box)的座標、該邊界框的寬與高、該邊界框的偵測信心度以及該邊界框的分類(class)機率,並且該第二偵測任務的該第二特徵圖包括該邊界框的座標、該邊界框的偵測信心度以及該邊界框的分類機率。
  9. 一種影像辨識系統,包括:一影像感測器,獲取一待辨識影像;一儲存裝置;一輸出裝置;以及一處理器,耦接該影像感測器、該儲存裝置與該輸出裝置,其中該處理器將該待辨識影像輸入至一單一卷積神經網路,其中該儲存裝置儲存該單一卷積神經網路,其中該處理器依據該單一卷積神經網路的輸出結果,獲取屬於一第一偵測任務的一第一特徵圖(Feature Map)以及屬於一第二偵測任務的一第二特徵圖,其中該第一特徵圖與該第二特徵圖具有一共有特徵,其中該處理器使用一終端層網路模組(End-Layer Network)依據該第一特徵圖產生該待辨識影像對應該第一偵測任務的一第一辨識結果,並且依據該第二特徵圖產生該待辨識影像對應該第二偵測任務的一第二辨識結果,其中該處理器使用該終端層網路模組以利用一電腦視覺技術以依據點候選、該第二特徵圖以及正數資料方格圖得出該第二辨識結果, 其中該輸出裝置輸出對應該第一偵測任務的該第一辨識結果與對應該第二偵測任務的該第二辨識結果。
  10. 如請求項9所述的影像辨識系統,其中該第一偵測任務為二維物件偵測(2D Object Detection),該第二偵測任務為影像分割(Image Segmentation)。
  11. 如請求項9所述的影像辨識系統,其中該處理器在該單一卷積神經網路中配置具有多個卷積層的一骨幹架構模組(Backbone Architecture),其中該處理器使用該骨幹架構模組從該待辨識影像截取該共有特徵,並產生一共有特徵圖。
  12. 如請求項11所述的影像辨識系統,其中該處理器為該第一偵測任務配置一第一損失函數(Loss Function),並且為該第二偵測任務配置一第二損失函數,其中該第一損失函數測量該第一辨識結果與對應該第一偵測任務的一第一參考結果之間的誤差,其中該第二損失函數測量該第二辨識結果與對應該第二偵測任務的一第二參考結果之間的誤差。
  13. 如請求項12所述的影像辨識系統,其中該處理器在該終端層網路模組中配置多個預測層,並且依據對應該第一偵測任務的該第一損失函數與對應該第二偵測任務的該第二損失函數處理該共有特徵圖。
  14. 如請求項12所述的影像辨識系統,其中該處理器使用多個正規化權重平衡該第二偵測任務的損失值的範圍以參照該第一偵測任務的損失值的範圍來調整該骨幹架構模組的可學習權重。
  15. 如請求項9所述的影像辨識系統,其中該處理器在該終端層網路模組中利用該電腦視覺技術分群與連結對應該第二偵測任務的辨識結果。
  16. 如請求項9所述的影像辨識系統,其中該第一偵測任務的該第一特徵圖包括一邊界框(bounding box)的座標、該邊界框的寬與高、該邊界框的偵測信心度以及該邊界框的分類(class)機率,並且該第二偵測任務的該第二特徵圖包括該邊界框的座標、該邊界框的偵測信心度以及該邊界框的分類機率。
TW109135458A 2020-10-14 2020-10-14 影像辨識方法及影像辨識系統 TWI812888B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW109135458A TWI812888B (zh) 2020-10-14 2020-10-14 影像辨識方法及影像辨識系統
US16/950,919 US11507776B2 (en) 2020-10-14 2020-11-18 Image recognition method for detection tasks based on single convolutional neural network and image recognition system thereof
CN202110134473.0A CN114419313A (zh) 2020-10-14 2021-02-01 影像辨识方法及影像辨识系统
JP2021030701A JP2022064808A (ja) 2020-10-14 2021-02-26 画像認識方法および画像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109135458A TWI812888B (zh) 2020-10-14 2020-10-14 影像辨識方法及影像辨識系統

Publications (2)

Publication Number Publication Date
TW202215367A TW202215367A (zh) 2022-04-16
TWI812888B true TWI812888B (zh) 2023-08-21

Family

ID=81079313

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109135458A TWI812888B (zh) 2020-10-14 2020-10-14 影像辨識方法及影像辨識系統

Country Status (4)

Country Link
US (1) US11507776B2 (zh)
JP (1) JP2022064808A (zh)
CN (1) CN114419313A (zh)
TW (1) TWI812888B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114918944A (zh) * 2022-06-02 2022-08-19 哈尔滨理工大学 基于卷积神经网络融合的家庭服务机器人抓取检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
CN110570421A (zh) * 2019-09-18 2019-12-13 上海鹰瞳医疗科技有限公司 多任务的眼底图像分类方法和设备
CN110837869A (zh) * 2019-11-11 2020-02-25 深圳市商汤科技有限公司 图像分类模型训练方法、图像处理方法及装置
CN111160367A (zh) * 2019-12-23 2020-05-15 上海联影智能医疗科技有限公司 图像分类方法、装置、计算机设备和可读存储介质
CN111582043A (zh) * 2020-04-15 2020-08-25 电子科技大学 基于多任务学习的高分辨率遥感影像地物变化检测方法
US20200286383A1 (en) * 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Multi-task perception network with applications to scene understanding and advanced driver-assistance system

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286524B1 (en) 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US10019657B2 (en) 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
US10860837B2 (en) 2015-07-20 2020-12-08 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
US10657364B2 (en) 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
JP2020503604A (ja) 2016-12-05 2020-01-30 アビギロン コーポレイションAvigilon Corporation 外観検索のシステムおよび方法
US10445622B2 (en) 2017-05-18 2019-10-15 Qualcomm Incorporated Learning disentangled invariant representations for one-shot instance recognition
US11775313B2 (en) * 2017-05-26 2023-10-03 Purdue Research Foundation Hardware accelerator for convolutional neural networks and method of operation thereof
CN107704866B (zh) 2017-06-15 2021-03-23 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
KR102463175B1 (ko) * 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
KR102452953B1 (ko) * 2017-10-30 2022-10-11 삼성전자주식회사 뉴럴 네트워크의 컨볼루션 연산을 수행하는 방법 및 장치
JP2021015317A (ja) 2017-11-21 2021-02-12 富士フイルム株式会社 認識装置、認識方法及びプログラム
US11087130B2 (en) 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
US20190286921A1 (en) * 2018-03-14 2019-09-19 Uber Technologies, Inc. Structured Prediction Crosswalk Generation
CN109145713B (zh) 2018-07-02 2021-09-28 南京师范大学 一种结合目标检测的小目标语义分割方法
US10970871B2 (en) 2018-09-07 2021-04-06 Huawei Technologies Co., Ltd. Estimating two-dimensional object bounding box information based on bird's-eye view point cloud
WO2020057758A1 (en) 2018-09-21 2020-03-26 Toyota Motor Europe Method and system for processing an image and performing instance segmentation using affinity graphs
US10699430B2 (en) * 2018-10-09 2020-06-30 Industrial Technology Research Institute Depth estimation apparatus, autonomous vehicle using the same, and depth estimation method thereof
EP3876189A4 (en) 2018-10-30 2022-05-11 Mitsubishi Electric Corporation GEOGRAPHIC OBJECT DETECTION DEVICE, GEOGRAPHIC OBJECT DETECTION METHOD AND GEOGRAPHIC OBJECT DETECTION PROGRAM
US11544928B2 (en) * 2019-06-17 2023-01-03 The Regents Of The University Of California Athlete style recognition system and method
CN110909885B (zh) 2019-11-19 2022-09-23 支付宝(杭州)信息技术有限公司 一种平衡多个任务的方法及系统
WO2021164887A1 (en) * 2020-02-21 2021-08-26 Toyota Motor Europe 6d pose and shape estimation method
US11731639B2 (en) * 2020-03-03 2023-08-22 GM Global Technology Operations LLC Method and apparatus for lane detection on a vehicle travel surface

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
US20200286383A1 (en) * 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Multi-task perception network with applications to scene understanding and advanced driver-assistance system
CN110570421A (zh) * 2019-09-18 2019-12-13 上海鹰瞳医疗科技有限公司 多任务的眼底图像分类方法和设备
CN110837869A (zh) * 2019-11-11 2020-02-25 深圳市商汤科技有限公司 图像分类模型训练方法、图像处理方法及装置
CN111160367A (zh) * 2019-12-23 2020-05-15 上海联影智能医疗科技有限公司 图像分类方法、装置、计算机设备和可读存储介质
CN111582043A (zh) * 2020-04-15 2020-08-25 电子科技大学 基于多任务学习的高分辨率遥感影像地物变化检测方法

Also Published As

Publication number Publication date
US20220114383A1 (en) 2022-04-14
JP2022064808A (ja) 2022-04-26
US11507776B2 (en) 2022-11-22
TW202215367A (zh) 2022-04-16
CN114419313A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111401516B (zh) 一种神经网络通道参数的搜索方法及相关设备
RU2718222C1 (ru) Распознавание лиц с помощью искусственной нейронной сети
EP4148622A1 (en) Neural network training method, image classification system, and related device
CN112801146B (zh) 一种目标检测方法及系统
EP4283520A1 (en) Pruning processing method for convolutional neural network, data processing method and devices
WO2022193335A1 (zh) 点云数据处理方法、装置、计算机设备和存储介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
US11875424B2 (en) Point cloud data processing method and device, computer device, and storage medium
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
US20210089923A1 (en) Icospherical gauge convolutional neural network
US20240005164A1 (en) Neural Network Training Method and Related Device
CN115908908B (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
EP4350575A1 (en) Image classification method and related device thereof
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN112364974A (zh) 一种基于激活函数改进的YOLOv3算法
TWI812888B (zh) 影像辨識方法及影像辨識系統
CN113496260A (zh) 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
CN113221929A (zh) 一种图像处理方法以及相关设备
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法
CN110689071B (zh) 一种基于结构化高阶特征的目标检测系统及方法
CN111666956A (zh) 一种多尺度特征提取及融合方法及装置
CN114494792B (zh) 基于单阶段的目标检测方法、装置、设备及存储介质
CN113065634B (zh) 一种图像处理方法、神经网络的训练方法以及相关设备