TWI649698B - 物件偵測裝置、物件偵測方法及電腦可讀取媒體 - Google Patents
物件偵測裝置、物件偵測方法及電腦可讀取媒體 Download PDFInfo
- Publication number
- TWI649698B TWI649698B TW106145074A TW106145074A TWI649698B TW I649698 B TWI649698 B TW I649698B TW 106145074 A TW106145074 A TW 106145074A TW 106145074 A TW106145074 A TW 106145074A TW I649698 B TWI649698 B TW I649698B
- Authority
- TW
- Taiwan
- Prior art keywords
- current
- confidence
- image
- feature map
- category
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一種物件偵測裝置、物件偵測方法及電腦可讀取媒體。物件偵測方法包含:藉由一分類器產生一當前彩色影像及一當前灰階影像;藉由分類器將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖;藉由分類器依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖;藉由分類器疊合調整特徵圖及當前灰階影像,以計算一類別信心度;藉由分類器判斷類別信心度是否大於一信心門檻值,若類別信心度大於信心門檻值,則輸出一當前分類結果;以及藉由一儲存裝置儲存當前分類結果。
Description
本案是關於一種物件偵測裝置、物件偵測方法及電腦可讀取媒體,特別是關於一種應用類別信心度以偵測物件的物件追蹤裝置、物件偵測方法及電腦可讀取媒體。
目前應用於電子裝置的物件追蹤方法通常是利用預測下一個影像中目標物件的位置,並將目標物件用包圍盒(bounding box)標記起來,其中包圍盒是指將目標物件完全包容起來的一個封閉空間。舉例而言,將影像中的一目標物件進行分類,例如分類為車輛,以一長方形作為包圍盒框將影像中的車輛框起來。
目前,如何保有偵測辨識正確率的條件下,提供一種有效率的物件分類方法,已成為本領域待解決的問題之一。
本案係有關於一種物件偵測裝置、物件偵測方法及電腦可讀取媒體。
根據本案之一態樣,提供一種物件偵測裝置。物件偵測裝置包含一分類器及一儲存裝置。分類器用以產生一當前彩色影像及一當前灰階影像,將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖,依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖,疊合調整特徵圖及當前灰階影像,以計算一類別信心度,判斷類別信心度是否大於一信心門檻值,若類別信心度大於該信心門檻值,則輸出一當前分類結果。儲存裝置耦接於該分類器,用以儲存當前分類結果。
根據本案之另一態樣,提供一種物件偵測方法。物件偵測方法包含以下步驟。藉由一分類器產生一當前彩色影像及一當前灰階影像。藉由分類器將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖。藉由分類器依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖。藉由分類器疊合調整特徵圖及當前灰階影像,以計算一類別信心度。藉由分類器判斷類別信心度是否大於一信心門檻值,若類別信
心度大於信心門檻值,則輸出一當前分類結果。藉由一儲存裝置儲存當前分類結果。
根據本案之另一態樣,提供一種電腦可讀取媒體。電腦可讀取媒體具有複數個程式指令以執行一物件偵測方法。物件偵測方法包括以下步驟。藉由一分類器以產生一當前彩色影像及一當前灰階影像。將分類器將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖。藉由分類器依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖。藉由分類器疊合調整特徵圖及當前灰階影像,以計算一類別信心度。藉由分類器判斷類別信心度是否大於一信心門檻值,若類別信心度大於信心門檻值,則輸出一當前分類結果。藉由一儲存裝置以儲存當前分類結果。
100‧‧‧物件偵測方法
10‧‧‧物件偵測裝置
20‧‧‧分類器
30‧‧‧偵測模組
40‧‧‧儲存裝置
110~180、401~407、411~416‧‧‧步驟
IMG‧‧‧當前彩色影像
P1、P2‧‧‧特徵點
B1、B2‧‧‧包圍盒
PA、PB‧‧‧測量點
為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖示之說明如下:第1A圖為根據本案一實施例繪示的一種物件偵測裝置的方塊圖;第1B圖為根據本案一實施例繪示的一種物件偵測方法的流程圖;第2圖為根據本案一實施例繪示的一種當前影像特徵圖的示意圖;
第3圖為根據本案一實施例繪示的一種包圍盒之示意圖;第4A圖為根據本案一實施例繪示的一種類別信心度的訓練之流程圖;第4B圖為根據本案一實施例繪示的一種類別信心度的測試及驗證之流程圖;以及第5A~5B圖為根據本案一實施例繪示的一種物件偵測方法之實驗數據圖。
下文係舉實施例配合所附圖式作詳細說明,但所提供之實施例並非用以限制本發明所涵蓋的範圍,而結構操作之描述非用以限制其執行之順序,任何由元件重新組合之結構,所產生具有均等功效的裝置,皆為本發明所涵蓋的範圍。此外,圖式僅以說明為目的,並未依照原尺寸作圖。為使便於理解,下述說明中相同元件將以相同之符號標示來說明。
請參閱第1A~1B圖,第1A圖為根據本案一實施例繪示的一種物件偵測裝置10的方塊圖。第1B圖為根據本案一實施例繪示的一種物件偵測方法100的流程圖。於一實施例中,物件偵測方法100可由物件偵測裝置10實現之,物件偵測裝置10包含分類器20、偵測模組30及儲存裝置40,分類器20耦接於偵
測模組30,分類器20及偵測模組30各自電性耦接於儲存裝置40,其中,分類器20及偵測模組30可以分別或一併被實施為圖形處理器(graphics processing unit,GPU)、微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路。儲存裝置40可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。於一實施例中,物件偵測方法100可以具有複數個程式指令的電腦可讀取媒體以執行之。
於一實施例中,分類器20用以接收一當前彩色影像及一當前灰階影像,將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖,依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖,疊合調整特徵圖及當前灰階影像,以計算一類別信心度,判斷類別信心度是否大於一信心門檻值,若類別信心度大於該信心門檻值,則輸出一當前分類結果,儲存裝置40用以儲存當前分類結果。
第2圖為根據本案一實施例繪示的一種當前影像特徵圖的示意圖。舉例而言,於第2圖中,當前彩色影像IMG中包括第一物件及第二物件,第一物件
例如為車輛,第二物件例如為行人。請參閱第1B圖和第2圖。於進行物件偵測方法100之前,分類器20先接收一影片檔,此影片檔的內容例如為一輛正在行進中的一車輛(第一物件)及一個正在行走的一行人(第二物件)。分類器20依據影片檔中的第一張影像中偵測的物件(如汽車及行人)及其各自的位置產生一前一彩色影像、一前一灰階影像,並依據前一彩色影像及前一灰階影像產生一前一疊合影像及一前一分類結果。其中,前一彩色影像為紅綠藍(Red,Green,Blue,RGB)影像。以下詳述物件偵測方法100的各步驟。
於步驟110中,分類器20產生一當前彩色影像及一當前灰階影像。
於一實施例中,分類器20基於影片檔的第二張影像中的一輛汽車作為偵測的物件,依據此汽車的位置產生當前彩色影像及當前灰階影像。
依據一影像產生彩色影像及灰階影像的技術可以利用影像處理技術實現,例如影像轉換演算法或影像轉換函式。
於一實施例中,分類器20更用以接收第一張影像所產生的前一分類結果,依據前一分類結果(第一張影像所產生)、第二張影像及/或前一物件位置信心度,以產生當前彩色影像及當前灰階影像。於一實施例中,前一分類結果包含第一張影像中的物件
類別信心度、物件大小及/或物件位置。於步驟115中,分類器20將當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖。
類神經網路演算法可應用已知的演算法實現,故此處不再贅述。在一實施例中,初始特徵圖可包括第一物件及/或第二物件的水平及/或垂直邊界。
接下來,執行步驟120,在一實施例中,步驟120為一介接分支網路,步驟120例如包括步驟122~124。於步驟122中,分類器20依據當前灰階影像的一灰階影像維度以調整初始特徵圖之一當前維度,以產生一調整特徵圖。
於一實施例中,分類器20將初始特徵圖之當前維度(例如為8*8像素)調整為與灰階影像維度相同(例如為16*16像素),以產生調整特徵圖(例如為16*16像素)。
於步驟123中,分類器20疊合調整特徵圖及當前灰階影像,以計算一類別信心度。
於一實施例中,分類器20疊合調整特徵圖及當前灰階影像,以產生一疊合影像,並將疊合影像中所包含的複數個像素值代入一信心度函數,以產生類別信心度。信心度函數可以採用例如Softmax函數。
於步驟124中,分類器20判斷類別信心度是否大於一信心門檻值。
其中,類別信心度例如是一個大於或等於0的數值,在一實施例中,類別信心度是0~1的一機率值,例如,類別信心度為0時,機率為0,類別信心度為1時,機率為100%,如果類別信心度大於信心門檻值,則在步驟125中分類器20會輸出類別信心度,成為物件類別信心度。
於一實施例中,信心門檻值可以由使用者預先設定之,例如設為0.8或0.9。
於步驟125中,分類器20輸出一當前分類結果。此時,分類器20將類別信心度指定為當前分類結果。於一實施例中,當前分類結果包含當前彩色影像(例如為第二張影像的當前彩色影像)中的物件類別信心度、物件大小及/或物件位置。
於一實施例中,若信心門檻值為0.9,當類別信心度為0.95時,則分類器20會於步驟124中判斷類別信心度大於信心門檻值,此代表分類器20對於當前分類結果(例如當前分類結果是將包含特徵點P1的一區塊分類為車輛)的信心度很高,因此無須經過後續步驟,於步驟125中輸出當前分類結果。
因此,藉由提早輸出當前分類結果,可更有效率地完成對於單一物件(例如為車輛)的分類及偵測。
反之,若分類器20於步驟124中判斷類別信心度不大於信心門檻值,則進入步驟130。
於步驟130中,分類器20將初始特徵圖及當前灰階影像代入類神經網路演算法。
於一實施例中,步驟130的輸入為步驟115所輸出的初始特徵圖及步驟110所輸入的當前灰階影像。步驟130將初始特徵圖及當前灰階影像代入類神經網路演算法後,輸出另一初始特徵圖(用以代入步驟140)及當前灰階影像。
於一實施例中,分類器20會傳送一存取命令至一儲存裝置40中,藉此由儲存裝置40讀取出當前彩色影像,並將初始特徵圖及當前灰階影像代入類神經網路演算法。
於步驟140中,分類器20執行介接分支網路。
於一實施例中,步驟140所指的介接分支網路所執行的步驟與步驟120相同或相似,換言之,在步驟140中,分類器20再次執行步驟122~124,以多判斷一些影像,嘗試產生較高的類別信心度。當步驟140中判斷類別信心度大於信心門檻值時,進入步驟150。於一實施例中,可以依實際情況補入多個介接分支網路,例如若是在步驟140中,類別信心度仍未大於信心門檻值,則再次執行相似於步驟130的將初始特徵圖及當前灰階影像代入類神經網路演算法,並且執行相似於步驟140的介接分支網路。
於步驟150中,分類器20輸出當前分類結果。
於步驟160中,偵測模組30依據當前分類結果進行一物件追蹤演算法,並產生一預測物件位置信心度。
於一實施例中,預測物件位置指的是中心位置,物件位置信心度代表物件中心位置的機率。若物件是平滑運動,根據物件移動路徑分析的結果,預測出的權重值越高,表示為物件中心點出現在該點的機率越大,而物件邊緣的機率就相對較低,透過將輸入的特徵圖fm,其中,符號m為類別,經由映射函數P1的轉換,以產生的位置偵測信心圖C1,且C1=P1*fm;其中P1如下式所示,
上述式子是透過偵測分析當前影像中物件的移動路徑,預測下一影像中的物件位置(x,y),以調整機率分布的平移參數μx、μy,並依據偵測器分類的信心指數調整機率分布δ的比例因子。
於一實施例中,由於在步驟150及/或步驟125中已得到當前分類結果,當前分類結果中包含物件類別信心度、物件位置及/或物件大小,因此於步驟160中,偵測模組30可將物件類別信心度、物件位置及/或物件大小等資訊代入一物件追蹤演算法,以產生預測物件位置信心度。
於一實施例中,步驟150輸出的物件大小、物件位置、物件類別信心度可視為當前的偵測結果。
此外,於一實施例中,例如第2圖所示,於步驟160中,偵測模組30將當前彩色影像IMG代入物件追蹤演算法後,輸出特徵點P1及特徵點P2,其中特徵點P1為第一物件(例如車輛)的中心點,特徵點P2為第二物件(例如行人)的中心點。
於步驟170中,偵測模組30依據預測物件位置信心度分析出一預測物件的一大小及預測物件的一位置,並依據預測物件的大小及位置產生下一影像(第三張影像)的一包圍盒(bounding box)。
請參閱第1B圖、第2圖及第3圖,第3圖為根據本案一實施例繪示的一種包圍盒之示意圖。如第3圖所示,於當前彩色影像IMG中,偵測模組30依據第一物件(例如車輛)的預測物件位置信心度分析出一車輛的大小及位置,產生一包圍盒B1。於一實施例中,偵測模組30依據第二物件(例如行人)的預測物件位置信心度分析出一行人的大小及位置,產生一包圍盒B2。
於步驟180中,偵測模組30根據預測物件的大小、預測物件的位置與預測物件類別信心度產生預測物件類別信心圖,並將預測物件類別信心度及當前分類結果代入步驟110。
於一實施例中,可以藉由包圍盒(例如為包圍盒B1)作為範圍選取。例如,原始影像為1280x720,包圍盒B1的中心位置的座標為(400,600)、包圍盒B1的大小(300,300),即可選取座標範圍為(400-300/2,600-300/2)~(400+300/2,600+300/2),亦即範圍為(250~550,450~750)內的彩色影像及灰階影像代入下一影像(例如第三張影像)以執行步驟110。
在一實施例中,預測物件類別信心圖可以使用灰階表示,例如若是預測物件類別信心度較高,則預測物件類別信心圖較亮,若是預測物件類別信心度較低,則預測物件類別信心圖較暗。
在一實施例中,預測物件類別信心圖是下一影像(例如第三張影像)的物件類別信心圖(如同第三張影像之大小的整張圖),例如第三張影像的每一個像素各有一個機率值,在一實施例中,可將這些機率值以圖表示,成為預測物件類別信心圖。在一實施例中,預測之包圍盒(例如為包圍盒B1)是預測下一影像(例如第三張影像)中的包圍盒(例如,只有包含第一物件的小張圖),而執行完步驟180後,可回到步驟110,以根據預測物件類別信心圖及預測之包圍盒產生下一影像(例如第三張影像)之下一彩色影像及下一灰階影像。
於一實施例中,灰階影像可以透過演算法(例如為2D Hann窗型函數)將前一影像的物件類別信心度,映射至預測物件的包圍盒範圍內。
於一實施例中,於步驟180中,偵測模組30對下一影像中的每個點(畫素)計算預測物件類別信心度,產生預測物件類別信心圖。在一實施例中,在分析下一張影像時,可以使用預測物件類別信心圖產生下一張影像的下一灰階影像;在一實施例中,在分析下一張影像時,可以使用預測物件類別信心圖做為下一張影像的下一灰階影像。偵測模組30將分類的當前物件類別信心度dm,m為類別,透過映射函數P2的轉換產生物件分類的信心圖C2=P2*dm,映射函數P2如下式所示,是透過計算出之包圍盒(例如為包圍盒B1)所預測出的物件大小w及h調整機率分布的比例,以及判斷位置(x,y)是否在計算出之包圍盒的範圍內,如果不在範圍內,則設置旗標為零,使類別機率歸零,反之則直接輸出類別機率。
藉此可依據步驟150產生的當前物件類別信心度dm及預測的下一張包圍盒以得知下一張彩色影像與灰階影像中的物件區域及物件類別信心度。於一實施例中,偵測模組30依據預測物件之位置及大小,以針對下一影像(例如為第三張影像)的位置計算預測物件類別信心度。
於一實施例中,偵測模組30依據當前的預測物件(例如為第二張影像)之位置及大小,以產生此物件在下一影像(例如為第三張影像)中所出現的預測位置,以針對此下一影像(例如為第三張影像)的預測位置計算預測物件類別信心度。
在一實施例中,步驟160~180所預測的是下一張影像中的物件大小、物件位置、包圍盒、物件位置信心度及物件類別信心圖。
於一實施例中,偵測模組30將預測物件類別信心度輸出至儲存裝置40。
在一實施例中,在分析下一張影像時,分類器20將當前分類結果(例如為第二張影像的當前分類結果)、一下一彩色影像(例如從儲存裝置讀取出的第三張彩色影像)及一下一灰階影像(例如為依據第二張影像所產生的第三張灰階影像)代入類神經網路演算法。
請參閱第4A圖,第4A圖為根據本案一實施例繪示的一種類別信心度的訓練之流程圖。
於步驟401中,分類器20定義或設計類神經網路的主網路訓練。其中,第4圖中所述的主網路訓練例如是第1B圖的步驟115及/或步驟130。
於步驟402中,分類器20載入大量訓練資料集對主網路進行預訓練;在一實施例中,此方式可使訓練準確度提高。在一實施例中,若於網路上直接載入預訓練好的網路模型參數,可直接跳至步驟404。
於步驟403中,分類器20產生類神經網路主網路模型參數。於一實施例中,分類器20應用已知的深度卷積神經網路(deep convolutional neural network,DCNN)以產生主網路模型參數。
於步驟404中,分類器20建立實際場景的少量訓練資料集,並使用此資料集對主網路進行微調訓練,在一實施例中,此步驟可提高網路對實際場景的適應性及辨識率。
於步驟405中,分類器20更新主網路模型參數。
於步驟406中,分類器20藉由前一影像回授的預測物件類別信心度作為特徵及由實際場景建立的少量資料集,以訓練一或多個介接分支網路,並判斷是否所有介接分支網路接完成訓練,若是,則進入步驟408,若否,則進入步驟407。在一實施例中,介接分支網路可以利用第1B圖的步驟120實現。
於步驟407中,分類器20基於當前影像的影像尺寸及當前影像的物件分類信心指數,產生下一影像的預測物件類別信心度。
於步驟408中,分類器20更新一或多個介接分支網路的模型參數。
藉由上述步驟,以完成建立類別信心度之模型的訓練。
如第4B圖所示,第4B圖為根據本案一實施例繪示的一種類別信心度的測試及驗證之流程圖。測試及驗證階段的實施步驟如下。
於步驟411中,分類器20取得一當前影像。
於步驟412中,分類器20基於當前影像中的物件大小及位置,產生物件的當前彩色影像及當前灰階影像。
於步驟413中,分類器20載入訓練階段產生的網路模型,偵測模組30對輸入的物件的當前彩色影像及當前灰階影像進行偵測分類。在一實施例中,步驟413可以使用第1B圖的步驟120、125、130、140、150實現。
於步驟414中,偵測模組30基於當前分類結果,進行物件追蹤產生下一影像的預測物件大小及位置。
於步驟415中,偵測模組30基於預測之下一影像的物件大小及之下一影像的位置產生預測的物件
類別信心度,並回授預測之下一影像的物件大小、下一影像的位置及下一影像的預測物件類別信心度。
於步驟416中,偵測模組30輸出下一影像的偵測結果,下一影像的偵測結果包括下一影像的物件大小、位置及類別。
藉由上述步驟,以完成類別信心度的測試及驗證。
請參閱第5A~5B圖,第5A~5B圖為根據本案一實施例繪示的一種物件偵測方法之實驗數據圖。
第5A圖繪示的是採用本案發明的實驗數據圖,第5B圖繪示的是採用傳統的管線卷積神經網路(Tube Convolutional Neural Network,T-CNN)的實驗數據圖。此實驗的參數設定為:每次訓練的影像張數為32張,主網路的訓練次數為3000,介接網路的訓練次數為2000,門檻值設定為0.5或1。由第5A圖中的測量點PA可看出,在執行時間(runtime)為11.34微秒時,其物件偵測的準確度為98%。由第5B圖中的測量點PB可看出,在執行時間為20.49微秒時,其物件偵測的準確率為66%。由此可知,本案發明能在較短時間內得到較準確的偵測結果。
藉由本案所述之物件偵測裝置、物件偵測方法及電腦可讀取媒體,藉由將一影像拆解成彩色影像及灰階影像,並應用此兩者計算類別信心度,以類
別信心度判斷物件的分類的正確程度,以高效率的輸出正確性較高的分類結果,藉此可大幅減短物件偵測的時間,並提升物件偵測的精準度。
雖然本案已以實施例揭露如上,然其並非用以限定本案,任何熟習此技藝者,在不脫離本案之精神和範圍內,當可作各種之更動與潤飾,因此本案之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (24)
- 一種物件偵測裝置,包含:一分類器,用以產生一當前彩色影像及一當前灰階影像,將該當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖,依據該當前灰階影像的一灰階影像維度以調整該初始特徵圖之一當前維度,以產生一調整特徵圖,疊合該調整特徵圖及該當前灰階影像,以計算一類別信心度,判斷該類別信心度是否大於一信心門檻值,若該類別信心度大於該信心門檻值,則輸出一當前分類結果;一儲存裝置,耦接於該分類器,用以儲存該當前分類結果;以及一偵測模組,該偵測模組依據該當前分類結果進行一物件追蹤演算法,並產生一預測物件位置信心度。
- 如申請專利範圍第1項所述之物件偵測裝置,其中,該分類器將該初始特徵圖之該當前維度調整為與該灰階影像維度相同,以產生該調整特徵圖。
- 如申請專利範圍第1項所述之物件偵測裝置,其中,該分類器疊合該調整特徵圖及該當前灰階影像,以產生一疊合影像,並將該疊合影像中所包含的複數個像素值代入一信心度函數,以產生該類別信心度。
- 如申請專利範圍第1項所述之物件偵測裝置,其中,若該分類器判斷該類別信心度不大於該信心門檻值,則將該初始特徵圖及該當前灰階影像代入該類神經網路演算法。
- 如申請專利範圍第1項所述之物件偵測裝置,其中,該偵測模組依據該預測物件位置信心度分析出一預測物件的一大小及該預測物件的一位置,並依據該預測物件的該大小及該預測物件的該位置產生一包圍盒(bounding box)。
- 如申請專利範圍第5項所述之物件偵測裝置,其中,該偵測模組根據該預測物件的該大小、該預測物件的該位置與一預測物件類別信心度產生一預測物件類別信心圖。
- 如申請專利範圍第6項所述之物件偵測裝置,其中該偵測模組根據該預測物件類別信心圖及該包圍盒產生一下一影像之一下一彩色影像及該下一影像之一下一灰階影像。
- 如申請專利範圍第1項所述之物件偵測裝置,其中,該當前分類結果係為該當前彩色影像中一物件類別信心度、一物件大小或一物件位置。
- 一種物件偵測方法,包含:藉由一分類器以產生一當前彩色影像及一當前灰階影像;藉由該分類器將該當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖;藉由該分類器依據該當前灰階影像的一灰階影像維度以調整該初始特徵圖之一當前維度,以產生一調整特徵圖;藉由該分類器疊合該調整特徵圖及該當前灰階影像,以計算一類別信心度;藉由該分類器判斷該類別信心度是否大於一信心門檻值,若該類別信心度大於該信心門檻值,則該分類器輸出一當前分類結果;藉由一儲存裝置以儲存該當前分類結果;以及依據該當前分類結果進行一物件追蹤演算法,並產生一預測物件位置信心度。
- 如申請專利範圍第9項所述之物件偵測方法,其中藉由該分類器依據該當前灰階影像的該灰階影像維度以調整該初始特徵圖之該當前維度,以產生該調整特徵圖之步驟包含:將該初始特徵圖之該當前維度調整為與該灰階影像維度相同,以產生該調整特徵圖。
- 如申請專利範圍第9項所述之物件偵測方法,其中藉由該分類器疊合該調整特徵圖及該當前灰階影像,以計算該類別信心度之步驟包含:疊合該調整特徵圖及該當前灰階影像,以產生一疊合影像,並將該疊合影像中所包含的複數個像素值代入一信心度函數,以產生該類別信心度。
- 如申請專利範圍第9項所述之物件偵測方法,其中,若判斷該類別信心度不大於該信心門檻值,則將該初始特徵圖及該當前灰階影像代入該類神經網路演算法。
- 如申請專利範圍第9項所述之物件偵測方法,更包含:依據該預測物件位置信心度分析出一預測物件的一大小及該預測物件的一位置,並依據該預測物件的該大小及該預測物件的該位置產生一包圍盒(bounding box)。
- 如申請專利範圍第13項所述之物件偵測方法,更包含:根據該預測物件的該大小、該預測物件的該位置與一預測物件類別信心度產生一預測物件類別信心圖。
- 如申請專利範圍第14項所述之物件偵測方法,更包含:根據該預測物件類別信心圖及該包圍盒產生一下一影像之一下一彩色影像及該下一影像之一下一灰階影像。
- 如申請專利範圍第9項所述之物件偵測方法,其中,該當前分類結果係為該當前彩色影像中的一物件類別信心度、一物件大小或一物件位置。
- 一種電腦可讀取媒體,具有複數個程式指令以執行一物件偵測方法,該物件偵測方法包括:藉由一分類器以產生一當前彩色影像及一當前灰階影像;藉由該分類器將該當前彩色影像代入一類神經網路演算法,以產生一初始特徵圖;藉由該分類器依據該當前灰階影像的一灰階影像維度以調整該初始特徵圖之一當前維度,以產生一調整特徵圖;藉由該分類器疊合該調整特徵圖及該當前灰階影像,以計算一類別信心度;藉由該分類器判斷該類別信心度是否大於一信心門檻值,若該類別信心度大於該信心門檻值,則輸出一當前分類結果;藉由一儲存裝置以儲存該當前分類結果;以及依據該當前分類結果進行一物件追蹤演算法,並產生一預測物件位置信心度。
- 如申請專利範圍第17項所述之電腦可讀取媒體,其中藉由該分類器依據該當前灰階影像的該灰階影像維度以調整該初始特徵圖之該當前維度,以產生該調整特徵圖之步驟包含:將該初始特徵圖之該當前維度調整為與該灰階影像維度相同,以產生該調整特徵圖。
- 如申請專利範圍第17項所述之電腦可讀取媒體,其中藉由該分類器疊合該調整特徵圖及該當前灰階影像,以計算該類別信心度之步驟包含:疊合該調整特徵圖及該當前灰階影像,以產生一疊合影像,並將該疊合影像中所包含的複數個像素值代入一信心度函數,以產生該類別信心度。
- 如申請專利範圍第17項所述之電腦可讀取媒體,其中,若判斷該類別信心度不大於該信心門檻值,則將該初始特徵圖及該當前灰階影像代入該類神經網路演算法。
- 如申請專利範圍第17項所述之電腦可讀取媒體,其中該物件偵測方法更包含:依據該預測物件位置信心度分析出一預測物件的一大小及該預測物件的一位置,並依據該預測物件的該大小及該預測物件的該位置產生一包圍盒(bounding box)。
- 如申請專利範圍第21項所述之電腦可讀取媒體,其中該物件偵測方法更包含:根據該預測物件的該大小、該預測物件的該位置與一預測物件類別信心度產生一預測物件類別信心圖。
- 如申請專利範圍第22項所述之電腦可讀取媒體,其中該物件偵測方法更包含:根據該預測物件類別信心圖及該包圍盒產生一下一影像之一下一彩色影像及該下一影像之一下一灰階影像。
- 如申請專利範圍第17項所述之電腦可讀取媒體,其中該當前分類結果係為該當前彩色影像中的一物件類別信心度、一物件大小或一物件位置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106145074A TWI649698B (zh) | 2017-12-21 | 2017-12-21 | 物件偵測裝置、物件偵測方法及電腦可讀取媒體 |
CN201711452081.9A CN109948637B (zh) | 2017-12-21 | 2017-12-27 | 对象检测装置、对象检测方法及计算机可读介质 |
US16/007,859 US10600208B2 (en) | 2017-12-21 | 2018-06-13 | Object detecting device, object detecting method and non-transitory computer-readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106145074A TWI649698B (zh) | 2017-12-21 | 2017-12-21 | 物件偵測裝置、物件偵測方法及電腦可讀取媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI649698B true TWI649698B (zh) | 2019-02-01 |
TW201928788A TW201928788A (zh) | 2019-07-16 |
Family
ID=66213810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106145074A TWI649698B (zh) | 2017-12-21 | 2017-12-21 | 物件偵測裝置、物件偵測方法及電腦可讀取媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10600208B2 (zh) |
CN (1) | CN109948637B (zh) |
TW (1) | TWI649698B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI728655B (zh) * | 2020-01-16 | 2021-05-21 | 國立臺中科技大學 | 應用於動物的卷積神經網路偵測方法及系統 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776655B1 (en) * | 2019-04-09 | 2020-09-15 | Banjo, Inc. | Estimating color of vehicles on a roadway |
US10884710B1 (en) * | 2019-08-13 | 2021-01-05 | Accenture Global Solutions Limited | System and method for generating unified experiences on digital platforms |
US20210211568A1 (en) * | 2020-01-07 | 2021-07-08 | Motional Ad Llc | Systems and methods for traffic light detection |
JP7115502B2 (ja) | 2020-03-23 | 2022-08-09 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
JP7388971B2 (ja) | 2020-04-06 | 2023-11-29 | トヨタ自動車株式会社 | 車両制御装置、車両制御方法及び車両制御用コンピュータプログラム |
JP7359735B2 (ja) * | 2020-04-06 | 2023-10-11 | トヨタ自動車株式会社 | 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置 |
US12008740B2 (en) | 2020-08-12 | 2024-06-11 | Niantic, Inc. | Feature matching using features extracted from perspective corrected image |
CN113434675A (zh) * | 2021-06-25 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种标签修正的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201101814A (en) * | 2009-06-26 | 2011-01-01 | Nat Univ Chin Yi Technology | Method of compensating for backlight image and photograph apparatus with backlight image compensation system |
US20160093291A1 (en) * | 2014-09-30 | 2016-03-31 | Apple Inc. | Providing an indication of the suitability of speech recognition |
TWI572186B (zh) * | 2015-12-04 | 2017-02-21 | 國立雲林科技大學 | 內視鏡影像鏡面反射去除之自適應修補方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW408547B (en) | 1998-12-08 | 2000-10-11 | Jang Shuen Shiung | Hamming neural network having the accelerated convergence speed |
JP4085538B2 (ja) * | 1999-10-15 | 2008-05-14 | ソニー株式会社 | 検査装置 |
CN1317673C (zh) | 2004-03-18 | 2007-05-23 | 致伸科技股份有限公司 | 利用神经网络分辨影像中文字与图形的系统及其方法 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
CN102508909B (zh) * | 2011-11-11 | 2014-08-20 | 苏州大学 | 一种基于多智能算法及图像融合技术的图像检索方法 |
CN102722714B (zh) * | 2012-05-18 | 2014-07-23 | 西安电子科技大学 | 基于目标跟踪的人工神经网络扩张式学习方法 |
CN103679164A (zh) | 2012-09-21 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种基于移动终端的标志识别处理方法和系统 |
WO2014064916A1 (ja) * | 2012-10-25 | 2014-05-01 | 三菱電機株式会社 | 画像処理装置及び画像処理方法 |
CN102968637B (zh) * | 2012-12-20 | 2015-06-03 | 山东科技大学 | 一种复杂背景图像文字分割方法 |
CN103679677B (zh) * | 2013-12-12 | 2016-11-09 | 杭州电子科技大学 | 一种基于模型互更新的双模图像决策级融合跟踪方法 |
US20150331908A1 (en) | 2014-05-15 | 2015-11-19 | Genetic Finance (Barbados) Limited | Visual interactive search |
CN104598885B (zh) * | 2015-01-23 | 2017-09-22 | 西安理工大学 | 街景图像中的文字标牌检测与定位方法 |
US10835210B2 (en) * | 2015-03-30 | 2020-11-17 | Siemens Medical Solutions Usa, Inc. | Three-dimensional volume of interest in ultrasound imaging |
KR101645517B1 (ko) * | 2015-04-01 | 2016-08-05 | 주식회사 씨케이앤비 | 특징점 추출 장치 및 방법과 이를 이용한 콘텐츠의 온라인 유통 현황 분석을 위한 이미지 매칭 시스템 |
CN104866727A (zh) * | 2015-06-02 | 2015-08-26 | 陈宽 | 基于深度学习对医疗数据进行分析的方法及其智能分析仪 |
US10242287B2 (en) * | 2015-06-11 | 2019-03-26 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and recording medium |
CN105184362B (zh) | 2015-08-21 | 2018-02-02 | 中国科学院自动化研究所 | 基于参数量化的深度卷积神经网络的加速与压缩方法 |
US10380479B2 (en) * | 2015-10-08 | 2019-08-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
US10019631B2 (en) * | 2015-11-05 | 2018-07-10 | Qualcomm Incorporated | Adapting to appearance variations when tracking a target object in video sequence |
CN105868691B (zh) | 2016-03-08 | 2019-05-21 | 青岛邃智信息科技有限公司 | 基于快速区域卷积神经网络的城市车辆追踪方法 |
CN105787458B (zh) | 2016-03-11 | 2019-01-04 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN106228575B (zh) | 2016-07-21 | 2019-05-10 | 广东工业大学 | 融合卷积神经网络及贝叶斯滤波器的跟踪方法及系统 |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
-
2017
- 2017-12-21 TW TW106145074A patent/TWI649698B/zh active
- 2017-12-27 CN CN201711452081.9A patent/CN109948637B/zh active Active
-
2018
- 2018-06-13 US US16/007,859 patent/US10600208B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201101814A (en) * | 2009-06-26 | 2011-01-01 | Nat Univ Chin Yi Technology | Method of compensating for backlight image and photograph apparatus with backlight image compensation system |
US20160093291A1 (en) * | 2014-09-30 | 2016-03-31 | Apple Inc. | Providing an indication of the suitability of speech recognition |
TWI572186B (zh) * | 2015-12-04 | 2017-02-21 | 國立雲林科技大學 | 內視鏡影像鏡面反射去除之自適應修補方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI728655B (zh) * | 2020-01-16 | 2021-05-21 | 國立臺中科技大學 | 應用於動物的卷積神經網路偵測方法及系統 |
Also Published As
Publication number | Publication date |
---|---|
CN109948637A (zh) | 2019-06-28 |
CN109948637B (zh) | 2021-12-17 |
US10600208B2 (en) | 2020-03-24 |
TW201928788A (zh) | 2019-07-16 |
US20190197729A1 (en) | 2019-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI649698B (zh) | 物件偵測裝置、物件偵測方法及電腦可讀取媒體 | |
US20210042929A1 (en) | Three-dimensional object detection method and system based on weighted channel features of a point cloud | |
CN105404884B (zh) | 图像分析方法 | |
JP6088792B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
CN111553397B (zh) | 基于区域全卷积网络和自适应的跨域目标检测方法 | |
CN104318225B (zh) | 车牌检测方法及装置 | |
CN112184759A (zh) | 一种基于视频的运动目标检测与跟踪方法及系统 | |
JP2012032370A (ja) | 欠陥検出方法、欠陥検出装置、学習方法、プログラム、及び記録媒体 | |
US9904868B2 (en) | Visual attention detector and visual attention detection method | |
Pezzementi et al. | Putting image manipulations in context: robustness testing for safe perception | |
CN110298281B (zh) | 视频结构化方法、装置、电子设备及存储介质 | |
US11720745B2 (en) | Detecting occlusion of digital ink | |
CN110659550A (zh) | 交通标志牌识别方法、装置、计算机设备和存储介质 | |
CN109166137A (zh) | 针对抖动视频序列中运动目标检测算法 | |
CN112949453A (zh) | 烟火检测模型的训练方法、烟火检测方法及设备 | |
JP2011165170A (ja) | 対象物検出装置及びプログラム | |
CN113743378B (zh) | 一种基于视频的火情监测方法和装置 | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
KR101408344B1 (ko) | 얼굴 검출 장치 | |
Moseva et al. | Development of a System for Fixing Road Markings in Real Time | |
CN110738229B (zh) | 一种细粒度图像分类方法、装置及电子设备 | |
CN116612272A (zh) | 一种图像处理智能数字化的检测系统及其检测方法 | |
CN111402185A (zh) | 一种图像检测方法及装置 | |
Fan et al. | BFNet: Brain-like feedback network for object detection under severe weather | |
CN111881732B (zh) | 一种基于svm的人脸质量评价方法 |