TWI819438B - 影像辨識裝置及影像辨識方法 - Google Patents
影像辨識裝置及影像辨識方法 Download PDFInfo
- Publication number
- TWI819438B TWI819438B TW110147854A TW110147854A TWI819438B TW I819438 B TWI819438 B TW I819438B TW 110147854 A TW110147854 A TW 110147854A TW 110147854 A TW110147854 A TW 110147854A TW I819438 B TWI819438 B TW I819438B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- resolution
- low
- coordinates
- subject
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013145 classification model Methods 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 5
- 241000255925 Diptera Species 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 241000256111 Aedes <genus> Species 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 241000256059 Culex pipiens Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000256113 Culicidae Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000234435 Lilium Species 0.000 description 1
- 235000004789 Rosa xanthina Nutrition 0.000 description 1
- 241000109329 Rosa xanthina Species 0.000 description 1
- 241000981595 Zoysia japonica Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/478—Contour-based spectral representations or scale-space representations, e.g. by Fourier analysis, wavelet analysis or curvature scale-space [CSS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
- Image Input (AREA)
- Image Processing (AREA)
Abstract
一種影像辨識方法,包含:接收一原始影像,原始影像為一高解析度影像;將高解析度影像進行降維,以減少運算量,透過物件偵測模型偵測標的物座標,再升維取得對應標的物座標的高解析度標的物影像,並透過使用影像分類模型,以判別標的物類別。藉由使用物件偵測模型與影像分類模型,大幅提升了辨識影像中物體的精準度。
Description
本發明是關於一種辨識裝置,特別是關於一種一影像辨識裝置及影像辨識方法。
隨著科技的進步,即使是隨手可見的手機也都配有高解析度的相機,因此高解析的影像可說是標準配置,解析度越高的影像對於影像辨識來說,是一個很好的助力,能夠提高影像辨識的準確率。
然而,在使用深度學習的影像辨識模型時,高解析度的影像會不易於訓練影像辨識模型,因為隨著硬體設備所搭載相機的解析度增加,使得影像辨識模型的運算複雜度也隨之提升,若沒有相對應的運算設備的話,在影像辨識模型的訓練上將會有相當的困難。
因此,如何建構一個處理高解析度影像辨識的裝置及方法,並能夠提升辨識影像中物體的精準度,已成為本領域需解決的問題之一。
為了解決上述的問題,本揭露內容之一態樣提供了一種影像辨識裝置,包含一處理器以及一儲存裝置。處理器用以存取儲存裝置所儲存之一影像分類模型及一物件偵測模型,以執行影像分類模型及物件偵測模型,其中處理器執行:接收具有一第一解析度的一原始影像,並降低原始影像的解析度,以產生具有一第二解析度的一低解析度影像,其中第一解析度高於第二解析度;;透過物件偵測模型以辨識低解析度影像中的一標的物位置,以取得低解析度影像中的一標的物座標;依據低解析度影像中的標的物座標,由原始影像分割出一標的物影像,並將標的物影像輸入到影像分類模型;以及藉由影像分類模型判斷標的物影像所對應的一標的物類別。
於一實施例中,該第二解析度為該第一解析度的1/3~1/5。
於一實施例中,該處理器依據一降維編碼器所能接受的一最低參數,降低該原始影像的解析度,以產生具有該第二解析度的該低解析度影像。
於一實施例中,該處理器透過一轉換運算,將該低解析度影像中的該標的物座標乘上該第一解析度,再除以該第二解析度,以還原出該原始影像中的該標的物影像之座標。
於一實施例中,響應於該處理器依據複數個標的物座標由該原始影像分割出複數個標的物影像,該處理器將每個標的物影像依據長度或寬度轉到同側;以及將每個標的物影像調整成相同大小。
於一實施例中,該處理器將該些標的物影像輸入到該影像分類模型,該影像分類模型輸出該些標的物影像各自對應的一分類結果。
於一實施例中,該處理器將該些標的物影像調整成符合該影像分類模型的一輸入影像尺寸。
於一實施例中,該處理器透過該物件偵測模型以辨識該低解析度影像中的一標的物特徵,依據該標的物特徵取得該低解析度影像中的該標的物座標、一長度、一寬度,取得該低解析度影像中的該標的物位置。
於一實施例中,該處理器依據一標的物特徵以取得該標的物位置的該長度、該寬度及該低解析度影像中的該標的物座標,以框選出該原始影像的該標的物影像。
於一實施例中,該處理器透過該物件偵測模型以辨識該低解析度影像中的一標的物特徵,依據該標的物特徵取得該低解析度影像中複數個標的物座標,將該些標的物座標各自透過一轉換運算,以將該些標的物座標對應到該原始影像中的複數個原始座標,藉此還原出該原始影像的該標的物影像之座標。
本發明之又一態樣係於提供一種影像辨識方法,包含:接收具有一第一解析度的一原始影像,並降低原始影像的解析度,以產生具有一第二解析度的一低解析度影像,其中第一解析度高於第二解析度;;透過一物件偵測模型以辨識低解析度影像中的一標的物位置,藉此取得低解析度影像中的一標的物座標;依據低解析度影像中的標的物座標,由原始影像分割出一標的物影像,並將標的物影像輸入到一影像分類模型;以及藉由影像分類模型判斷標的物影像所對應的一標的物類別。
於一實施例中,該第二解析度為該第一解析度的1/3~1/5。
於一實施例中,影像辨識方法更包含依據一降維編碼器所能接受的一最低參數,降低該原始影像的解析度,以產生具有該第二解析度的該低解析度影像。
於一實施例中,影像辨識方法更包含透過一轉換運算,將該低解析度影像中的該標的物座標乘上該第一解析度,再除以該第二解析度該第二解析度,以還原出該原始影像中的該標的物影像之座標。
於一實施例中,響應於一處理器依據複數個標的物座標由該原始影像分割出複數個標的物影像,該影像辨識方法更包含:將每個標的物影像依據長度或寬度轉到同側;以及將每個標的物影像調整成相同大小。
於一實施例中,影像辨識方法更包含將該些標的物影像輸入到該影像分類模型;以及該影像分類模型輸出該些標的物影像各自對應的一分類結果。
於一實施例中,影像辨識方法更包含將該些標的物影像調整成符合該影像分類模型的一輸入影像尺寸。
於一實施例中,影像辨識方法更包含透過該物件偵測模型以辨識該低解析度影像中的一標的物特徵,並依據該標的物特徵以取得該低解析度影像中的該標的物座標、一長度、一寬度、該低解析度影像中的該標的物位置。
於一實施例中,影像辨識方法更包含依據一標的物特徵以取得該標的物位置的該長度、該寬度及該低解析度影像中的該標的物座標,以框選出該原始影像的該標的物影像。
於一實施例中,影像辨識方法更包含透過該物件偵測模型以辨識該低解析度影像中的一標的物特徵;以及依據該標的物特徵取得該低解析度影像中複數個標的物座標,將該些標的物座標各自透過一轉換運算,以將該些標的物座標對應到該原始影像中的複數個原始座標,藉此還原出該原始影像的該標的物影像之座標。
本案所述的影像辨識裝置及影像辨識方法將高解析度影像進行降維(降低解析度),以減少運算量,透過物件偵測模型偵測標的物座標。之後,再升維(提高解析度)取得對應標的物座標的高解析度標的物影像,並透過使用影像分類模型,以判別標的物類別。本案使用物件偵測模型與影像分類模型的準確率為94%,相對僅使用單一模型(例如使用You only look once(YOLO)或區域卷積神經網路(region-based convolutional neural networks,R-CNN)物件偵測模型)僅有75.2%,由此可知,本案所述的影像辨識裝置及影像辨識方法,大幅提升了辨識影像中物體的精準度。
以下說明係為完成發明的較佳實現方式,其目的在於描述本發明的基本精神,但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。
必須了解的是,使用於本說明書中的”包含”、”包括”等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
請參照第1~2圖,第1圖係依照本發明一實施例繪示影像辨識裝置100之方塊圖。第2圖係依照本發明一實施例繪示影像辨識方法200之流程圖。於一實施例中,影像辨識方法200可以由影像辨識裝置100實現。
如第1圖所示影像辨識裝置100可以是一桌機、一筆電或是本機作業系統(Host operation system)上架構的虛擬機器。
於一實施例中,影像辨識裝置100的功能可以由硬體電路、晶片、韌體或軟體實現之。
於一實施例中,影像辨識裝置100包含一處理器10以及一儲存裝置20。於一實施例中,影像辨識裝置100更包含一顯示器(未示於圖式中)。
於一實施例中,處理器10可由微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路以實現之。
於一實施例中,儲存裝置20可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。
於一實施例中,處理器10用以存取儲存裝置20所儲存之程式,以實現影像辨識方法200。
於一實施例中,影像分類模型30可以由已知的卷積神經網路(Convolution Neural Network,CNN),或其他可以用於分類影像的影像分類類神經網路實現之。
於一實施例中,物件偵測模型31可以由已知的YOLO(You only look once)演算法或快速基於區域的卷積神經網路(faster Region-based Convolutional Neural Networks,faster RCNN) 實現之。
於一實施例中,儲存裝置20所儲存之一影像分類模型30及一物件偵測模型31可以由硬體(電路/晶片)、軟體或韌體實現其功能。
於一實施例中,影像分類模型30及物件偵測模型31各自可以由軟體或韌體實現其功能,並儲存於儲存裝置20中,影像辨識裝置100透過處理器10存取儲存裝置20所儲存之影像分類模型30及一物件偵測模型31,以實現影像辨識裝置100的功能。
以下由第2圖描述影像辨識方法200。
於步驟210中,處理器10接收具有一第一解析度的一原始影像,並降低原始影像的解析度,以產生具有一第二解析度的一低解析度影像,其中第一解析度高於第二解析度。
於一實施例中,原始影像為3000*4000像素(第一解析度),物件偵測模型所能訓練的最大的影像大小約為832*832像素(第二解析度)。其中,第一解析度高於第二解析度。然而,此處僅為一例,第一解析度與第二解析度的大小不限於此。
於一實施例中,此原始影像中包含多個標的物的影像。於一實施例中,標的物例如為孑孓或其他待辨識的物體。
於一實施例中,藉由從衛生局收集到標的物的影像,並且針對此些影像中的標的物進行標註類別,例如為斑紋或家蚊,以訓練影像分類模型30及物件偵測模型31。於後續步驟中,處理器10是使用已訓練完成的訓練影像分類模型30及物件偵測模型31。
於一實施例中,深度學習的物件偵測模型31可以由yolo或Faster RCNN等模型以實現。以GTX 1080的圖形處理器(Graphics Processing Unit,GPU)的運算設備訓練模型來說,為了模型準確度在保持一定批次量(batch size),此物件偵測模型所能訓練的最大的影像大小約為832*832(像素)。若原始影像的像
素為3000*4000,且直接使用物件偵測模型31以物件偵測,則勢必得將高解析度的原始影像(第一解析度的影像)降為較低的解析度影像(第二解析度的影像)才能進行模型訓練,反而失去了原始影像為高解析度影像的優勢。雖然可以從原始影像上辨識出標的物,但標的物的特徵會因為降低解析度的關係,而變的模糊,不易於標的物的種類辨識。
因此,需要進行後續步驟,透過處理器10應用物件偵測模型31與低解析度影像,以辨識出高解析度影像的原始影像中的標的物影像,並依據標的物影像分類出其各自所對應的標的物種類。
據此,處理器10降低原始影像的解析度,以產生具有第二解析度的一低解析度影像。
於一實施例中,第二解析度為第一解析度的1/3~1/5。
於一實施例中,處理器10依據一降維編碼器所能接受的一最低參數,降低原始影像的解析度,以產生具有第二解析度的低解析度影像。例如,GTX 1080的圖形處理的運算模型(視為物件偵測模型31)所能接受的最大的影像大小約為832*832(像素),則處理器10透過降維編碼器將影像像素832*832視為最低參數,依此降低原始影像的解析度(例如原始影像的影像像素為3000*4000)為影像像素832*832,以產生具有第二解析度的低解析度影像(影像像素832*832)。
其中,降維編碼器可以應用已知的缺失值比率 (Missing Values Ratio)、低方差濾波 (Low Variance Filter)、高相關濾波 (High Correlation Filter)、隨機森林(Random Forests)、主成分分析 (Principal components analysis,PCA)、反向特徵消除 (Backward Feature Elimination)、前向特徵構造 (Forward Feature Construction),或其他可達到讓影像降維的演算法以實現之。
因此,經過降維編碼器所產生的低解析度影像,可以直接輸入到物件偵測模型31。
於步驟220中,處理器10透過物件偵測模型31以辨識低解析度影像中的一標的物位置,藉此取得低解析度影像中的一標的物座標。
請參照第3圖,第3圖係依照本發明一實施例繪示取得低解析度影像中的一標的物座標之示意圖。於第3圖中,處理器10透過物件偵測模型31以辨識低解析度影像IMGL中的一標的物位置,藉此取得低解析度影像IMGL中的一標的物座標。得知標的物座標後,可選擇性地將標的物位置框選出來(即低解析度影像IMGL’中的框選區塊B1~B3)。
於一實施例中,處理器10透過物件偵測模型31以辨識低解析度影像IMGL中的一標的物特徵,且依據標的物特徵以取得低解析度影像IMGL中的一標的物座標、一長度、一寬度,即可推算出低解析度影像IMGL中的標的物位置。
於一實施例中,處理器10透過物件偵測模型31以辨識低解析度影像IMGL中的一標的物特徵,且依據標的物特徵以取得低解析度影像IMGL中標的物位置的多個(例如4個)標的物座標,進而直接取得低解析度影像IMGL中的標的物位置。
藉此,低解析度影像IMGL做為物件偵測模型31的輸入,使用物件偵測模型31來偵測標的物位置。物件偵測模型31如YOLO、卷積神經網路(Region-based Convolutional Neural Networks,RCNN)…等,但不限於這幾種模型,事前可由透過大量已標註的標的物影像來訓練模型。由於在低解析度影像IMGL上標的物的特徵依然存在,因此即使是低解析度影像IMGL依然能夠直接辨識出標的物的位置。用於物件偵測模型31的標註可以使用標有框選的圖片、以標的物的座標位置或涵蓋範圍等方式作為標註。
於步驟230中,處理器10依據低解析度影像中的標的物座標,由原始影像分割出一標的物影像,並將標的物影像輸入到一影像分類模型。
請參照第4圖,第4圖係依照本發明一實施例繪示還原出高解析度影像IMGH中的標的物影像之示意圖。
於一實施例中,處理器10透過物件偵測模型31以辨識低解析度影像IMGL中的一標的物特徵,依據標的物特徵取得低解析度影像IMGL’中複數個標的物座標a~c,將此些標的物座標a~c各自透過一轉換運算,以將此些標的物座標a~c對應到原始影像(即高解析度影像IMGH)中的多個原始座標a’~c’,藉此還原出原始影像IMGH的標的物影像之座標。
於一實施例中,處理器10透過一轉換運算,還原出高解析度影像IMGH中的標的物影像之座標。
於一實施例中,轉換運算的計算方式為:將低解析度影像IMGL’中的標的物座標乘上高解析度影像IMGH的解析度(第一解析度),再除以低解析度影像IMGL的解析度(第二解析度),以還原出高解析度影像IMGH中標的物影像之座標。
於一實施例中,轉換運算的計算方式的例子為:在低解析度影像(832*832)上偵測到的標的物座標為(416,416),框長為(32,32),轉換為百分比後座標為(50,50),框長為(3.84,3.84),再轉換置高解析度影像上後座標為(2000,1500),框長為(153,115),轉換運算如下:(X,Y)high=(X,Y)low*HighR/LowR其中,符號HighR為原始影像的解析度,符號LowR為低解析度影像的解析度,符號(X,Y)low為在低解析度影像上偵測到的標的物座標或是框長,符號(X,Y)high為在高解析度影像上的標的物影像的座標位置或是框長。
於一實施例中,低解析度影像IMGL與原始影像(即高解析度影像IMGH)中的座標原點定義相同,例如都將左上角定義為(0,0)。
於一實施例中,處理器10依據一標的物特徵以取得低解析度影像IMGL中的標的物座標、長度、寬度,以框選出原始影像IMGH的標的物影像。
於一實施例中,處理器10依據一標的物特徵以取得低解析度影像IMGL中的多個標的物座標、長度、寬度,以框選出原始影像IMGH的多個標的物影像(即原始影像IMGH中的框選區塊B1’~B3’)。換言之,處理器10透過轉換運算可以將低解析度影像IMGL’中的框選區塊B1~B3對應到原始影像IMGH中框選區塊B1’~B3’。同時,處理器10透過轉換運算得出此些框選區塊B1~B3、B1’~B3’各自的頂點座標,因此可選擇性地顯示(或不顯示)此些區塊於一顯示器上。
請參照第5圖,第5圖係依照本發明一實施例繪示調整高解析度影像IMGH中的標的物影像之示意圖。在第5圖中,為方便敘述,將框選區塊B1~B3、B1’~B3’視為標的物影像,第5圖是將第4圖中的框選區塊B1~B3、B1’~B3’獨立切割出來。
可以由第5圖看出來,框選區塊B1~B3的解析度比框選區塊B1’~B3’的解析度低。框選區塊B1’~B3’內的標的物影像比較清晰。
請參照第6~7圖,第6圖係依照本發明一實施例繪示將每個標的物影像B1’~B3’旋轉置同一長邊之示意圖。第7圖係依照本發明一實施例繪示將每個標的物影像B1’~B3’調整成相同大小之示意圖。
於一實施例中,當處理器10依據多個標的物座標由原始影像IMGH分割出複數個標的物影像B1’~B3’,將每個標的物影像B1’~B3’依據長度轉到同側(例如第6圖所示,將標的物影像B1’~B3’旋轉為同一長邊,得到旋轉後的標的物影像R1~R3。其中,標的物影像B1’對應旋轉後的標的物影像R1,標的物影像B2’對應旋轉後的標的物影像R2,標的物影像B3’對應旋轉後的標的物影像R3),並將每個標的物影像R1~R3調整成相同大小(例如第7圖所示,每個標的物影像R1~R3調整成相同大小,得到調整大小後的標的物影像S1~S3,其中,標的物影像R1對應旋轉後的標的物影像S1,標的物影像R2對應旋轉後的標的物影像S2,標的物影像R3對應旋轉後的標的物影像S3)。
於一實施例中,當處理器10依據多個標的物座標由原始影像IMGH分割出複數個標的物影像B1’~B3’,將每個標的物影像B1’~B3’依據寬度轉到同側。
於一實施例中,如第7圖所示,處理器10將此些旋轉為同一長邊的標的物影像R1~R3調整成符合影像分類模型30的一輸入影像尺寸,即標的物影像S1~S3。
於步驟240中,處理器10藉由影像分類模型30判斷標的物影像S1~S3所對應的一標的物類別。
請參照第8圖,第8圖係依照本發明一實施例繪示藉由該影像分類模型30判斷標的物影像S1~S3所對應的一標的物類別之示意圖。
於一實施例中,如第8圖所示,處理器10將多個標的物影像S1~S3輸入到影像分類模型30,影像分類模型30輸出此些標的物影像S1~S3各自對應的一分類結果40。
於一實施例中,分類結果可以為標的物類別,例如斑紋或家蚊。
於一實施例中,標的物可以例如為孑孓(蚊子的幼蟲),蚊子的身體構造包含頭、胸、胸毛、身體、呼吸管。斑蚊的呼吸管特徵為短且粗,呈現垂直狀態,胸部則是較窄且少毛。家蚊的呼吸管特徵為細且長,成45度角,胸部則是較寬且多毛。於一實施例中,影像分類模型30可以依這些特徵判斷標的物影像S1~S3各自是斑紋或家蚊的幼蟲。
由上述可知,在步驟240中,可以將截取到的高解析度的標的物影像以影像分類模型30進行訓練。不過因為每個標的物的大小不一樣,因此在訓練影像分類模型30前,還需要將每個標的物影像同步縮放到統一大小才能進行訓練。但為避免在縮放到統一大小後會使影像過度失真,因此會先將影像進行旋轉到統一長邊(或統一寬邊),接著進行縮放,最後輸入到影像分類模型30,最終的輸出結果是以單一標的物影像為單位判斷類別(類別例如為斑蚊或家蚊),影像分類模型30可以是:VGG、Resnet、Densenet…等深度學習網路,但不限於此。
當影像分類模型30訓練完成後,處理器10藉由影像分類模型30判斷標的物影像S1~S3所對應的一標的物類別。
於一實施例中,標的物類別是指家蚊或斑蚊的幼蟲,影像分類模型30可以輸出標的物影像S1~S3所對應的蚊子分類,例如,影像分類模型30輸出標的物影像S1、S2為家蚊,輸出標的物影像S3為斑蚊。
於一實施例中,標的物類別是指家蚊或斑蚊的幼蟲,影像分類模型30可以輸出標的物影像S1~S3所對應的蚊子分類的機率,例如,影像分類模型30輸出標的物影像S1為家蚊的機率為90%,為斑蚊的機率為5%,分類結果40則為家蚊(因為家蚊的機率較高),標的物影像S2為家蚊的機率為95%,為斑蚊的機率為3%,分類結果40則為家蚊(因為家蚊的機率較高),標的物影像S3為家蚊的機率為10%,為斑蚊的機率為97%,分類結果40則為斑蚊(因為斑蚊的機率較高)。
在某些實施例中,分類結果40係儲存至儲存裝置20中,但不限定於此。在某些實施例中,分類結果40係顯示於一顯示裝置,但不限定於此。在某些實施例中,分類結果40藉由一通訊裝置,傳送至一外部電子裝置(一伺服器或一行動裝置),但不限定於此。
本案所述的影像辨識裝置及影像辨識方法不限於應用在分類斑蚊或家蚊,上述僅為一例,本案所述的影像辨識裝置及影像辨識方法適用於分類各種影像中的物體,例如玫瑰花或百合花(花的類別)、哈士奇或柴犬(狗的類別)、轎車或公車(交通工具的類別)…等等,只要是影像中的物體都可以進行分類。
本案所述的影像辨識裝置及影像辨識方法將高解析度影像進行降維(降低解析度),以減少運算量,透過物件偵測模型偵測標的物座標。之後,再升維(提高解析度)取得對應標的物座標的高解析度標的物影像,並透過使用影像分類模型,以判別標的物類別。本案使用物件偵測模型與影像分類模型的準確率為94%,相對僅使用單一模型(例如使用You only look once(YOLO)或區域卷積神經網路(region-based convolutional neural networks,R-CNN)物件偵測模型)僅有75.2%,由此可知,本案所述的影像辨識裝置及影像辨識方法,大幅提升了辨識影像中物體的精準度。
本發明之方法,或特定型態或其部份,可以以程式碼的型態存在。程式碼可以包含於實體媒體,如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體,亦或不限於外在形式之電腦程式產品,其中,當程式碼被機器,如電腦載入且執行時,此機器變成用以參與本發明之裝置。程式碼也可以透過一些傳送媒體,如電線或電纜、光纖、或是任何傳輸型態進行傳送,其中,當程式碼被機器,如電腦接收、載入且執行時,此機器變成用以參與本發明之裝置。當在一般用途處理單元實作時,程式碼結合處理單元提供一操作類似於應用特定邏輯電路之獨特裝置。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:影像辨識裝置
10:處理器
20:儲存裝置
30:影像分類模型
31:物件偵測模型
210~240:步驟
IMGL, IMGL’:低解析度影像
B1~B3, B1’~B3’:框選區塊
IMGH: 原始影像
a~c:標的物座標
a’~c’ :原始座標
R1~R3, S1~S3:標的物影像
40:分類結果
第1圖係依照本發明一實施例繪示影像辨識裝置之方塊圖。
第2圖係依照本發明一實施例繪示影像辨識方法之流程圖。
第3圖係依照本發明一實施例繪示取得低解析度影像中的一標的物座標之示意圖。
第4圖係依照本發明一實施例繪示還原出高解析度影像中的標的物影像之示意圖。
第5圖係依照本發明一實施例繪示調整高解析度影像中的標的物影像之示意圖。
第6圖係依照本發明一實施例繪示將每個標的物影像旋轉置同一長邊之示意圖。
第7圖係依照本發明一實施例繪示將每個標的物影像調整成相同大小之示意圖。
第8圖係依照本發明一實施例繪示藉由該影像分類模型30判斷標的物影像所對應的一標的物類別之示意圖。
200:影像辨識方法
210~240:步驟
Claims (18)
- 一種影像辨識裝置,包含:一處理器;以及一儲存裝置,該處理器用以存取該儲存裝置所儲存之一影像分類模型及一物件偵測模型,以執行該影像分類模型及該物件偵測模型,其中該處理器執行:接收具有一第一解析度的一原始影像,並降低該原始影像的解析度,以產生具有一第二解析度的一低解析度影像,其中該第一解析度高於該第二解析度;透過該物件偵測模型以辨識該低解析度影像中的一標的物特徵,依據該標的物特徵取得該低解析度影像中的一標的物位置,以取得該低解析度影像中的一標的物座標;依據該低解析度影像中的該標的物座標,由該原始影像分割出一標的物影像,並將該標的物影像輸入到該影像分類模型;以及藉由該影像分類模型判斷該標的物影像所對應的一標的物類別;其中,響應於該處理器依據複數個標的物座標由該原始影像分割出複數個標的物影像,該處理器將每個標的物影像依據長度或寬度轉到同側;並將每個標的物影像調整成相同大小。
- 如請求項1之影像辨識裝置,其中,該第二解析度為該第一解析度的1/3~1/5。
- 如請求項1之影像辨識裝置,其中,該處理器依據一降維編碼器所能接受的一最低參數,降低該原始影像的解析度,以產生具有該第二解析度的該低解析度影像。
- 如請求項1之影像辨識裝置,其中,該處理器透過一轉換運算,將該低解析度影像中的該標的物座標乘上該第一解析度,再除以該第二解析度,以還原出該原始影像中的該標的物影像之座標。
- 如請求項1之影像辨識裝置,其中,該處理器將該些標的物影像輸入到該影像分類模型,該影像分類模型輸出該些標的物影像各自對應的一分類結果。
- 如請求項1之影像辨識裝置,其中,該處理器將該些標的物影像調整成符合該影像分類模型的一輸入影像尺寸。
- 如請求項1之影像辨識裝置,其中,該處理器透過該物件偵測模型以辨識該低解析度影像中的該標的物特徵,並依據該標的物特徵取得該低解析度影像中的一長度及一寬度。
- 如請求項7之影像辨識裝置,其中,該處理器依據該標的物特徵取得該標的物位置的該長度、該寬度及該低解析度影像中的該標的物座標,以框選出該原始影像的該標的物影像。
- 如請求項1之影像辨識裝置,其中,該處理器透過該物件偵測模型以辨識該低解析度影像中的該標的物特徵;依據該標的物特徵取得該低解析度影像中該些標的物座標;將該些標的物座標各自透過一轉換運算,以將該些標的物座標對應到該原始影像中的複數個原始座標,藉此還原出該原始影像的該標的物影像之座標。
- 一種影像辨識方法,包含:接收具有一第一解析度的一原始影像,並降低該原始影像的解析度,以產生具有一第二解析度的一低解析度影像,其中該第一解析度高於該第二解析度;透過一物件偵測模型以辨識該低解析度影像中的一標的物特徵,依據該標的物特徵取得該低解析度影像中的一標的物位置,藉此取得該低解析度影像中的一標的物座標;依據該低解析度影像中的該標的物座標,由該原始影像分割出一標的物影像,並將該標的物影像輸入到一影像分類模型;以及藉由該影像分類模型判斷該標的物影像所對應的一標的物類別;其中響應於一處理器依據複數個標的物座標由該原始影像分割出複數個標的物影像,該影像辨識方法更包含:將每個標的物影像依據長度或寬度轉到同側,並將每個標的物影像調整成相同大小。
- 如請求項10之影像辨識方法,其中,該第二解析度為該第一解析度的1/3~1/5。
- 如請求項10之影像辨識方法,其中產生具有該第二解析度的該低解析度影像的操作包括:依據一降維編碼器所能接受的一最低參數,降低該原始影像的解析度,以產生具有該第二解析度的該低解析度影像。
- 如請求項10之影像辨識方法,更包含:透過一轉換運算,將該低解析度影像中的該標的物座標乘上該第一解析度,再除以該第二解析度,以還原出該原始影像中的該標的物影像之座標。
- 如請求項10之影像辨識方法,更包含:將該些標的物影像輸入到該影像分類模型;以及該影像分類模型輸出該些標的物影像各自對應的一分類結果。
- 如請求項10之影像辨識方法,更包含:將該些標的物影像調整成符合該影像分類模型的一輸入影像尺寸。
- 如請求項10之影像辨識方法,更包含:透過該物件偵測模型以辨識該低解析度影像中的該標的物特徵,並依據該標的物特徵以取得該低解析度影像中的一長度及一寬度。
- 如請求項16之影像辨識方法,更包含: 依據該標的物特徵以取得該標的物位置的該長度、該寬度及該低解析度影像中的該標的物座標,以框選出該原始影像的該標的物影像。
- 如請求項10之影像辨識方法,更包含:透過該物件偵測模型以辨識該低解析度影像中的該標的物特徵;以及依據該標的物特徵取得該低解析度影像中該些標的物座標;將該些標的物座標各自透過一轉換運算,以將該些標的物座標對應到該原始影像中的複數個原始座標,藉此還原出該原始影像的該標的物影像之座標。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110147854A TWI819438B (zh) | 2021-12-21 | 2021-12-21 | 影像辨識裝置及影像辨識方法 |
CN202210077726.XA CN116309238A (zh) | 2021-12-21 | 2022-01-24 | 影像辨识装置及影像辨识方法 |
US17/707,869 US20230196729A1 (en) | 2021-12-21 | 2022-03-29 | Image recognition device and image recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110147854A TWI819438B (zh) | 2021-12-21 | 2021-12-21 | 影像辨識裝置及影像辨識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202326511A TW202326511A (zh) | 2023-07-01 |
TWI819438B true TWI819438B (zh) | 2023-10-21 |
Family
ID=86768670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110147854A TWI819438B (zh) | 2021-12-21 | 2021-12-21 | 影像辨識裝置及影像辨識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196729A1 (zh) |
CN (1) | CN116309238A (zh) |
TW (1) | TWI819438B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777119A (zh) * | 2009-01-13 | 2010-07-14 | 芯发威达电子(上海)有限公司 | 快速图样定位的方法 |
TW201118804A (en) * | 2009-11-19 | 2011-06-01 | Ind Tech Res Inst | Method and system for object detection |
TW202125324A (zh) * | 2019-12-20 | 2021-07-01 | 經緯航太科技股份有限公司 | 航拍影像自動物體偵測之方法及系統 |
US20210365724A1 (en) * | 2020-05-20 | 2021-11-25 | Electronics And Telecommunications Research Institute | Object detection system and an object detection method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031518B2 (en) * | 2002-07-01 | 2006-04-18 | Xerox Corporation | Segmentation method and system for Multiple Raster Content (MRC) representation of documents |
CN111194550B (zh) * | 2017-05-06 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 处理3d视频内容 |
US11157768B1 (en) * | 2019-06-06 | 2021-10-26 | Zoox, Inc. | Training a machine learning model for optimizing data levels for processing, transmission, or storage |
US20210272318A1 (en) * | 2020-02-28 | 2021-09-02 | Zebra Technologies Corporation | Identified object based imaging scanner optimization |
-
2021
- 2021-12-21 TW TW110147854A patent/TWI819438B/zh active
-
2022
- 2022-01-24 CN CN202210077726.XA patent/CN116309238A/zh active Pending
- 2022-03-29 US US17/707,869 patent/US20230196729A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777119A (zh) * | 2009-01-13 | 2010-07-14 | 芯发威达电子(上海)有限公司 | 快速图样定位的方法 |
TW201118804A (en) * | 2009-11-19 | 2011-06-01 | Ind Tech Res Inst | Method and system for object detection |
TW202125324A (zh) * | 2019-12-20 | 2021-07-01 | 經緯航太科技股份有限公司 | 航拍影像自動物體偵測之方法及系統 |
US20210365724A1 (en) * | 2020-05-20 | 2021-11-25 | Electronics And Telecommunications Research Institute | Object detection system and an object detection method |
Also Published As
Publication number | Publication date |
---|---|
TW202326511A (zh) | 2023-07-01 |
US20230196729A1 (en) | 2023-06-22 |
CN116309238A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Object detection based on YOLO network | |
JP5895703B2 (ja) | 画像処理装置及び画像処理方法、並びにコンピューター・プログラム | |
CN112102340B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN111292334B (zh) | 一种全景图像分割方法、装置及电子设备 | |
JP6071002B2 (ja) | 信頼度取得装置、信頼度取得方法および信頼度取得プログラム | |
US8542912B2 (en) | Determining the uniqueness of a model for machine vision | |
CN112419202B (zh) | 基于大数据及深度学习的野生动物图像自动识别系统 | |
WO2022252737A1 (zh) | 图像处理方法及装置、处理器、电子设备及存储介质 | |
CN110807463B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN109447022B (zh) | 一种镜头类型识别方法及装置 | |
US8542905B2 (en) | Determining the uniqueness of a model for machine vision | |
CN111667504A (zh) | 一种人脸追踪方法、装置及设备 | |
CN112907569A (zh) | 头部图像区域的分割方法、装置、电子设备和存储介质 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
US9349038B2 (en) | Method and apparatus for estimating position of head, computer readable storage medium thereof | |
CN114758145A (zh) | 一种图像脱敏方法、装置、电子设备及存储介质 | |
Hu et al. | Towards effective learning for face super-resolution with shape and pose perturbations | |
CN113454684A (zh) | 一种关键点标定方法和装置 | |
TWI819438B (zh) | 影像辨識裝置及影像辨識方法 | |
CN108288024A (zh) | 人脸识别方法及装置 | |
CN110633630B (zh) | 一种行为识别方法、装置及终端设备 | |
WO2024000233A1 (zh) | 面部表情识别方法、装置、设备及可读存储介质 | |
CN116363561A (zh) | 一种时序动作定位方法、装置、设备及存储介质 | |
CN112069885A (zh) | 人脸属性识别方法、装置及移动终端 |