TWI807561B - 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 - Google Patents
嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 Download PDFInfo
- Publication number
- TWI807561B TWI807561B TW110149226A TW110149226A TWI807561B TW I807561 B TWI807561 B TW I807561B TW 110149226 A TW110149226 A TW 110149226A TW 110149226 A TW110149226 A TW 110149226A TW I807561 B TWI807561 B TW I807561B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- detection
- resolution
- vanishing point
- detection result
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/536—Depth or shape recovery from perspective effects, e.g. by using vanishing points
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法,本發明之多尺度物件偵測網絡,能自動尋找畫面的消失點,並產生較大視野下的物件偵測結果和消失點位置的預測,得到遠處物件的偵測結果。
Description
本發明係一種物件偵測技術領域,特別是於應用行車紀錄之嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法。
近來於電腦資訊領域中,由於深度學習技術的蓬勃發展,使得電腦視覺的技術表現已越來越接近於人眼表現,相關技術議題也相應變得十分熱門。在這些電腦視覺的技術中,先進駕駛輔助系統(advanced driver assistance system, ADAS)已大量使用電腦視覺理解技術,而其中的物件偵測使用在前方防碰撞警示(Forward Collision Warning System, FCWS),後方防碰撞警示(Rear Collision Warning System, RCWS),煞車輔助系統(Brake Assist System, BAS),緊急煞車輔助系統(Advanced Emergency Braking System, AEBS),車道偏移警示系統(Lane departure warming system, LDWS),以及車側盲區警示系統(Blind Spot Detection System, BSDS)等各項的汽車安全輔助駕駛技術領域,而目前前述的系統已可以有效地自動輔助汽車駕駛,除了可以有效減輕長時間駕駛所帶來的勞累,更有效地達到行車輔助的效果,進而提高了駕駛的安全性。
而當汽車在高速行駛下時,遠處物件的偵測則會顯得相當重要,然而遠處物件在所偵測的影像中,通常會顯示為小物件,其特徵所呈現的較少,基於影像的物件辨識在遠處物件偵測時,所得到的效果較差,故而,很多車禍的發生時間點,係在未能及時閃避因突發事故靜止於車道上的物件,例如拋錨車輛,車輛因車禍而停滯於前方道路,或是前方道路有其他障礙物,故而,此時進行偵測遠方小物件,成為一種重要且必要必須的得以保障汽車安全行駛的偵測技術。
而傳統之偵測遠處小物件,需採用高解析度影像以作為物件辨識,才能進行後續分析以取得足夠物件特徵。然而,直接使用高解析度影像進行特徵提取,會花費大量的運算時間,而直接將整張圖片進行下採樣,又會造成其中的小物件特徵不足以偵測到足夠資訊,而傳統的物件偵測系統多為rule-based技術,需針對各種物件特徵,使用特定特徵提取方法並定義物件,如車,人等等,若遇到過於惡劣之天候或是複雜之環境背景,或是路上出現不常見之物體,或是物體因形變或快速移動而失去特徵時,則會造成偵測準確度及穩定性大幅下降的情況。故而過往傳統的影像偵測技術,如S. Teoh 團隊係透過影像邊緣檢測方法,以及汽車左右對稱的特性,產生所偵測目標物件之可能出現位置,但若是攝相機拍到的汽車方向不在正後方時,該汽車不會擁有對稱特性時,則偵測效果將會大受影響,且所偵測的物件不得太小,須有一定量的邊緣特徵,否則無法成功地判斷為汽車。
而另有先前技術V. Růžička團隊使用深度學習作物件偵測,首先,使用下採樣後的低解析度影像以進行初步物件偵測,在所偵測到的物件框中,找出較小尺寸的部分,以作為需要聚焦的再次偵測位置,於其附近,從原圖擷取高解析度影像,再進行第二次物件偵測,且需要於第一次模型推論即能成功地偵測到較小的物件,而其功用是能更確定得到小物件類別的信心度,但若是尺寸過於太小的物件,即無法成功偵測,且在行車場的景遠距物件偵測上,亦無法偵測太遠。
亦有M. Najibi的先前技術使用深度學習以進行物件偵測,並加入子網路預測小物件的可能位置機率圖,首先,使用下採樣後的低解析度影像,以進行初步物件偵測,定出所預測的小物件之可能位置,再於高機率分布區域的附近,從原圖擷取高解析度影像,再進行較少的下採樣,回到原流程再重複實施一次,直到再無高機率的小物件出現,需要物件大,或是物件小的漸進出現,若當有過小物件出現,且未有稍大物件引導系統聚焦其區域時,有可能錯過其他的小物件,更且,需多次推論物件偵測模型,當於物件過多且相當分散的狀況時,則會產生過久的運作實施時間。而另有TSENG的先前技術,係使用深度學習物件偵測技術,其具有多重階層的卷積神經網路結構,由各階層間穿插池化層,於後方部分階層之神經網路輸出,會接到物件偵測層以進行處理,綜合其結果,輸出最後的物件偵測結果。本模型架構於淺層之神經網路輸出部分,會專注於較小物件偵測,深層部分則會專注於較大物件偵測,而可偵測不同的多尺度物件。然而,由於淺層僅提取較少的物件特徵,通常較難以完整地判斷小物件類別,使得所得到的信心度較差,遠處小物件偵測方式先使用低解析度影像猜測小物件可能出現位置,再從高解析度影像擷取各位置送入物件偵測模型偵測詳細物件框與類別。此偵測方法,其物件不可太小,否則第一階段低階析度影像預測可能小物件位置時,可能有特徵過少不足以判斷的問題,而未偵測成功。
故而,目前需要對習知技術之深度學習物件偵測技術進行提升改良,以解決因習知技術的深度學習物件偵測技術之缺點,其係為本案之技術領域者亟欲改善的課題。
有鑑於前述,本發明提出一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法,用以解決習知技術的缺失。
本發明之目的係於克服現有技術的缺點,提出一個嵌入式多功能深度學習網路,具有運算效率且在不增加運算量的情況下,而發展出優化偵測遠處較小物件之系統。
本發明之目的係一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法,係藉由下採樣大物件影像,且保留小物件之特徵,以達到高偵測準確度的目的。
本發明之目的係根據上述嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法,兼具遠近物件偵測準度與演算法運行速度之高效率深度學習物件偵測架構,在使用較低運算量下,卻有更佳的物件偵測準確度。
本發明之架構可應用在多數著名的深度學習物件偵測模型,並運行於車用嵌入式平台Nvidia Jetson Xavier上。
為達到上述目的與其他目的,本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法,用於行車紀錄,偵測畫面中最遠處物件,係包含:
(a)擷取該畫面中之影像,該影像包含原圖座標;
(b)對該影像下採樣影像處理,得到下採樣影像;
(c)以多功能深度學習網路對該下採樣影像提取下採樣影像特徵;
(d)輸入該下採樣影像特徵至消失點偵測子網路,解析消失點偵測結果,判斷出消失點;
(e) 以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像;
(f)以該多功能深度學習網路對該剪裁高解析度影像提取高解析度影像特徵;
(g)以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測結果包含複數個高解析物件框;以及,
(h)統合該消失點偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(c)之後,更包含以下步驟:
(i)輸入該下採樣影像特徵至該物件偵測子網路,解析物件下採樣偵測結果,該物件下採樣偵測結果包含複數個下採樣物件框;
執行原(h)步驟,以得到(h)’統合該消失點偵測結果,該物件下採樣偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(d)之後,更包含至步驟(h) 統合該消失點偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(d)中,解析消失點偵測結果為計算最大信心度編號。
本發明其消失點偵測子網路為經過訓練過消失點偵測的多功能深度學習網路包含1X1的卷積運算,平坦層以及層全連接層。
本發明於步驟(d)與步驟(e)之間,更包含:
(d1)將該下採樣影像劃分為指定格數之座標;
(d2)將該消失點結果標示於該座標,以成為消失點座標;
(d3)將該消失點座標轉換為分類類別;
(d4)將該分類類別轉換為類別座標,並以該類別座標替代該消失點座標。
本發明之步驟(h)包含:
(h1)將該消失點偵測結果,該物件下採樣偵測結果,以及,該物件高解析偵測結果,分別做非極大值抑制處理;
(h2)以該剪裁框的左上座標為偏移量,偏移該物件高解析結果之該些高解析物件框至該原圖座標;以及,
(h3)剔除該剪裁高解析度影像邊緣之該些高解析物件框,合併剩餘之該些高解析物件框,與該下採樣物件框,並作非極大值抑制處理。
本發明之步驟(i),以及(d)可重複執行以得到複數層該偵測結果。
為達到前述目的與其他目的,本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置 ,可用於汽車行車紀錄中,以獲得於偵測畫面中最遠處物件,包含:
影像擷取單元,用以擷取該畫面之影像;處理單元,對該影像作下採樣影像處理,得到下採樣影像,該處理單元連接該影像擷取單元;儲存單元,電連接該處理單元,該處理單元儲存物件偵測子網路、多功能深度學習網路以及消失典偵測子網路;其中,處理單元以多功能深度學習網路對該下採樣影像提取下採樣影像特徵,輸入該下採樣影像特徵至消失點偵測子網路,該處理單元解析消失點偵測結果,判斷出消失點,該處理單元以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像,該處理單元以該多功能深度學習網路對該剪裁高解析度影像提取高解析度影像特徵,以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測結果包含複數個高解析物件框,該處理單元統合該消失點偵測結果以及該物件高解析偵測結果,並輸出偵測結果。
本發明係輸入該下採樣影像特徵至該物件偵測子網路,該處理單元解析物件下採樣偵測結果,該物件下採樣偵測結果包含複數個下採樣物件框,該處理單元統合該消失點偵測結果,該物件下採樣偵測結果,以及該物件高解析偵測結果,並輸出該偵測結果。
相較於傳統的技術,本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法,藉由第一階段以低解析度輸入做近處物件偵測,並預測消失點區域,從高解析度原圖擷取消失點附近畫面作為遠處畫面。隨後,進行第二次物件偵測,偵測遠處物件,最後將遠近物件偵測結果透過特定後處理演算法合併,以得到完整物件偵測結果。
本發明藉由影像擷取裝置,以固定頻率擷取車輛前方的影像資訊,輸入任意解析度之影像,提供清晰之三原色(RGB)影像,而越高之解析度得以偵測越遠距離物件。
本發明將擷取之影像下採樣至低解析度影像後,輸入至多功能深度學習網路,提取影像特徵向量矩陣,再分別輸入至物件偵測子網路與消失點偵測子網路,取得較大之物件,即較近距離物件偵測結果,與影像畫面消失點,再以此消失點為依據,從高解析度原圖擷取附近設定之小區域,不經下採樣,再次送入多功能深度學習網路與物件偵測子網路,偵測較小之遠處物件結果,最後將兩次偵測結果以特定後處理方法進行結合,得到最終結果。
本發明與現有之傳統先前技術相比較,具有以下的發展優勢:
本發明採用深度學習方法,進行影像特徵之萃取,相比於傳統技術之計算法,對於各式各樣之天氣以及多樣化之背景,各式各樣之物件型態,都擁有更加高之準確度以及穩定度。
本發明使用多功能深度學習網路,將物件偵測,以及消失點偵測兩項任務,整併於同一個網路進行運算,其中該兩項任務共同分享網路主幹架構,能夠大大的節省運算量,而本發明基於此項優勢,可有效偵測遠方物件而不會額外增加過多運算量,故本發明可有效處理深度學習網路所需要的龐大運算量的議題。
本發明所需的感測器部分,只須要採用一個影像擷取裝置,即可偵測近處與遠處物件,而相較於部分的傳統技術系統,必須採用廣角鏡頭與望遠鏡頭,以分別偵測近處物件與遠處物件,本發明得以更加的節省使用成本。
茲配合圖式說明本發明之較佳實施例,而以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者瞭解本發明之技術內容並以據以實施,且根據本說明書所揭露之內容、申請專利範圍即圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。
首先請參考圖1, 圖2A,圖2B,圖2C,圖2D,圖3,圖4A,圖4B,圖5,以及圖6。
圖1係本發明實施例之嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法的流程圖,故知本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法,係用於行車紀錄,可偵測畫面中之最遠處物件,係包含:
首先於圖1步驟S100所示,擷取該畫面P中之影像V,又參考如圖2A所示本發明擷取畫面示意圖。
在於圖1步驟S102所示,對該影像下採樣影像處理,得到如圖6所示下採樣影像V
L,又參考如圖2B所示本發明下採樣影像示意圖。
又於圖1步驟S104所示,以多功能深度學習網路對下採樣影像V
L提取下採樣影像特徵,仍參考如圖2B所示本發明下採樣影像示意圖。
再於圖1步驟S106所示,將下採樣影像V
L特徵輸入至消失點偵測子網路,解析消失點偵測結果V
p,判斷出消失點D,如圖2C所示本發明消失點偵測結果影像示意圖。需說明的是,如圖3所示本發明之消失點偵測子網路示意圖,本發明之消失點偵測子網路為經過訓練過消失點偵測的多功能深度學習網路,其包含1X1的卷積運算320,平坦層340,以及全連接層360。
於圖1步驟S108所示,以圖2C所示消失點D周圍區域(即消失點偵測結果V
p)為剪裁框,對應至影像P之高解析度影像V
H中,剪裁該剪裁框之剪裁高解析度影像V
FH,如圖2D所示。需說明的是,圖2C所示消失點D周圍區域係以消失點D為中心,向周圍擴展一預定距離,該預定距離可根據影像解析度作調整。
請參考圖4A之本發明實施例的解析消失點步驟,以及剪裁該剪裁框之剪裁高解析度影像步驟間的方法流程圖。
續參考於圖4A步驟S401所示,輸入該下採樣影像特徵至消失點偵測子網路,解析消失點偵測結果,判斷出消失點;且又與圖4A步驟S405進行: 以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像之間,更包含:
再參考於圖4A步驟S402所示,將該下採樣影像V
L劃分為指定格數之座標。以本實施例為例,劃分為16X9格。需說明的是,本發明之座標格數,可依照實際需要調整格數,並不限於上述實施例所述之格數。
再參考於圖4A步驟S403所示,將圖2C所示該消失點結果V
p標示於該座標,以成為消失點座標C
p,如圖5所示之本發明實施例的影像座標示意圖。
而參考於圖4A步驟S404所示,將圖5所示該消失點座標C
p轉換為分類類別。
參照於圖4A步驟S405所示,將該分類類別轉換為類別座標,並以該類別座標替代該消失點座標。其中,於圖4A步驟S401中,解析消失點偵測結果為計算最大信心度編號。
又於圖1步驟S110所示,本發明係以多功能深度學習網路對剪裁高解析度影像V
FH提取高解析度影像特徵,仍如圖2D所示。
而於圖1步驟S112所示,以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測結果包含複數個高解析物件框,第一高解析物件框O
H1,第二高解析物件框O
H2,第三高解析物件框O
H3,以及第四高解析物件框O
H4,如圖2D所示。而本發明之物件偵測子網路包括RetinaNet,YOLOv3,FCOS,FoveaBox,RepPoints,Anchor-base,以及Anchor-free模型。
更於圖1步驟S114所示,統合如圖2C所示消失點偵測結果R
D,以及,如圖2D所示物件高解析偵測結果R
H,並輸出偵測結果。
請參考圖4B,圖4B在步驟S104之後更包含以下步驟:
於圖1步驟S116所示,輸入該下採樣影像特徵至物件偵測子網路,解析如圖2B所示物件下採樣偵測結果R
L。需說明的是,本發明之物件下採樣偵測結果如圖2B所示R
L包含複數個下採樣物件框,如圖2B所示第一下採樣物件框O
L1,以及如圖2B所示第二下採樣物件框O
L2。
於圖1步驟S114所示,統合如圖2C所示消失點偵測結果R
D,如圖2B所示物件下採樣偵測結果R
L,以及如圖2D所示物件高解析偵測結果R
H,並輸出偵測結果。
需說明的是,本發明之圖1步驟S116以及圖1步驟S106並不限於執行一次,其可重複執行圖1步驟S116,以及圖1步驟S106,直到得到複數層該偵測結果。
本發明另一實施例中,在圖1步驟S106之後,更包含至圖1步驟S114所示,統合該消失點偵測結果以及該物件高解析偵測結果,並輸出偵測結果。
本發明於另一方面,如圖4B係本發明實施例之統合消失點偵測結,以及物件高解析偵測結果,並輸出偵測結果之方法流程圖,可知於圖1步驟S114所示,統合該消失點偵測結果以及該物件高解析偵測結果,並輸出偵測結果之步驟,更包含:
而於圖4B步驟S421所示,將該消失點偵測結果,該物件下採樣偵測結果以及該物件高解析偵測結果分別做非極大值抑制處理;
再於圖4B步驟S422所示,以該剪裁框的左上座標為偏移量,偏移該物件高解析結果之該複數個高解析物件框至該原圖座標。
終於圖4B步驟S423所示,剔除該剪裁高解析度影像邊緣之該複數個高解析物件框,合併剩餘之該複數個高解析物件框與該下採樣物件框,並作非極大值抑制處理。
本發明之圖1步驟S116至圖1步驟S114,或是,圖1步驟S106至圖1步驟S114為第一階段,圖1步驟S106,經圖1步驟S108,步驟S110,步驟S112,至圖1步驟S114為第二階段。本發明以兩階段實施,第一階段可重複實行,進行更多層視野之聚焦,最後再進行如第二階段之消失點偵測流程。但本發明並非僅限於物件偵測,任何關於多尺度影像識別之任務皆為本發明之範圍。
圖6係本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置示意圖,請同時參考前述圖2A,圖2B,圖2C,以及圖2D。而嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置600可適用於行車紀錄中,用以偵測畫面中最遠處物件,其包含: 影像擷取單元610,該影像擷取單元610用以擷取畫面P之影像V(可參考如圖2A所示),處理單元620,以及儲存單元630。
如圖6之處理單元620對如圖2A所示影像V作下採樣影像處理,得到下採樣影像V
L。處理單元620連接影像擷取單元610,以及儲存單元630。而處理單元630儲存物件偵測子網路632,功能深度學習網路634,以及消失點偵測子網路636。其中處理單元620以多功能深度學習網路634對下採樣影像V
L提取下採樣影像特徵,參考如圖2B所示。
而圖6所示之該消失點偵測子網路636組成架構,係如圖3所示本發明之消失點偵測子網路示意圖,圖6所示之多功能深度學習網路634所提取的下採樣影像特徵310 所示之輸出矩陣(如圖3所示),可送入訓練過消失點偵測之深度學習網路,其組成為1x1的卷積運算 320,平坦層 340 ,以及一層全連接層 360,第一向量矩陣 330,第二向量矩陣 350,以及,最後輸出之第三向量矩陣 370 ,以計算其最大信心度之編號,即為如圖2C所示消失點預測結果R
D。
圖6之輸入下採影像特徵至消失點偵測子網路632,處理單元620解析如圖2C所示消失點偵測結果R
D,判斷出如圖2C所示消失點D,而如圖6之處理單元620以如圖2C所示消失點D周圍區域(即如圖2C所示消失點偵測結果V
p)為剪裁框,進行剪裁如圖2D所示該剪裁框之剪裁高解析度影像V
FH。
圖6之處理單元620,係以多功能深度學習網路634對如圖2D所示剪裁高解析度影像V
H以提取高解析度影像特徵,以物件偵測子網路632解析如圖2D所示物件高解析偵測結果R
H(亦如圖6所示),如圖2D所示物件高解析偵測結果R
H包含複數個高解析物件框,如圖2D所示第一高解析物件框O
H1,如圖2D所示第二高解析物件框O
H2,如圖2D所示第三高解析物件框O
H3,以及,如圖2D所示第四高解析物件框O
H4。
圖6之物件偵測子網路632為RetinaNet,YOLOv3,FCOS,FoveaBox,RepPoints,Anchor-base,以及Anchor-free模型。而圖6之處理單元620統合了如圖2C所示消失點偵測結果R
D,以及如圖2D所示物件高解析偵測結果R
H,並輸出如圖6所示偵測結果R。
圖6之輸入下採樣影像特徵至物件偵測子網路632,處理單元620解析物件下採樣偵測結果,如圖6所示物件下採樣偵測結果R
L包含複數個下採樣物件框,如圖2B所示第一下採樣物件框O
L1,以及,如圖2B所示第二下採樣物件框O
L2。
圖6之處理單元620統合如圖2C所示消失點偵測結果R
D,如圖2B所示物件下採樣偵測結果R
L,以及物件高解析偵測結果R
H,並輸出偵測結果。
本發明用於前方行車紀錄器視角,可自動偵測畫面最遠處並專注於遠處物件的物件偵測方法,嘗試解決先進駕駛輔助系統應用常有的偵測距離不夠遠的問題,本發明具有一個有效率的多尺度物件偵測網絡(ConcentrateNet),能自動尋找畫面的消失點,並關注其附近區域,在模型的第一次推論會產生較大視野下的物件偵測結果和消失點位置的預測,消失點位置就代表著畫面的最遠處。接著利用消失點位置將其附近區域擷取下來再進行一次模型推論,便可得到遠處物件的偵測結果。最後,使用特定非極大值抑制方法將兩次結果結合。
本發明之架構得以應用在多數物件偵測模型,可使用幾個具最先進技術之物件偵測模型加入多尺度物件偵測網絡架構進行試驗,相比於原模型 使用較高輸入圖片畫質 ,多尺度物件偵測網絡架構使用較低畫質圖片作為輸入,整體較低的運算量取得大幅準度提升。而以前述YOLOv3為例,在大型車用圖資BDD100K下,相比使用960x540較高解析度直接偵測準確度AP 28.2%,多尺度物件偵測網絡使用較低解析度640x360,仍提升至AP 30.7%。小物件召回率甚至可從AR 24.9%提升至35.7%。此外,本發明亦可將多尺度物件偵測網絡架構藉由低功耗車用嵌入式平台NVIDIA Jetson AGX Xavier 進行實施驗證。
本發明提供一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法,用於行車紀錄,偵測畫面中最遠處物件,係包含:
(a)擷取該畫面中之影像,該影像包含原圖座標;
(b)對該影像下採樣影像處理,得到下採樣影像;
(c)以多功能深度學習網路對該下採樣影像提取下採樣影像特徵;
(d)輸入該下採樣影像特徵至消失點偵測子網路,解析消失點偵測結果,判斷出消失點;
(e) 以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像;
(f)以該多功能深度學習網路對該剪裁高解析度影像提取高解析度影像特徵;
(g)以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測結果包含複數個高解析物件框;以及,
(h)統合該消失點偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(c)之後,更包含以下步驟:
(i)輸入該下採樣影像特徵至該物件偵測子網路,解析物件下採樣偵測結果,該物件下採樣偵測結果包含複數個下採樣物件框;
執行原(h)步驟,以得到(h)’統合該消失點偵測結果,該物件下採樣偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(d)之後,更包含至步驟(h) 統合該消失點偵測結果,以及,該物件高解析偵測結果,並輸出偵測結果。
本發明於步驟(d) 中,解析消失點偵測結果為計算最大信心度編號。
本發明其消失點偵測子網路為經過訓練過消失點偵測的多功能深度學習網路包含1X1的卷積運算,平坦層以及層全連接層。
本發明於步驟(d)與步驟(e)之間更包含:
(d1)將該下採樣影像劃分為指定格數之座標;
(d2)將該消失點結果標示於該座標,以成為消失點座標;
(d3)將該消失點座標轉換為分類類別;
(d4)將該分類類別轉換為類別座標,並以該類別座標替代該消失點座標。
本發明之步驟(h)包含以下:
(h1)將該消失點偵測結果,該物件下採樣偵測結果,以及,該物件高解析偵測結果,分別做非極大值抑制處理;
(h2)以該剪裁框的左上座標為偏移量,偏移該物件高解析結果之該些高解析物件框至該原圖座標;以及,
(h3)剔除該剪裁高解析度影像邊緣之該些高解析物件框,合併剩餘之該些高解析物件框,與該下採樣物件框,並作非極大值抑制處理。
本發明之步驟(i),以及(d)可重複執行以得到複數層該偵測結果。
本發明之物件偵測子網路包括了RetinaNet,YOLOv3,FCOS,FoveaBox,RepPoints,Anchor-base,以及Anchor-free模型。
以上所述僅為本發明之較佳實施例而已,並非用以限定本發明之申請專利範圍;凡其它未脫離本發明所揭示之精神下所完成之等效改變或修飾,均應包含在下述之申請專利範圍內。
310 下採樣影像特徵
320 卷積運算
330 第一向量矩陣
340 平坦層
350 第二向量矩陣
360 全連接層
370 第三向量矩陣
600 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置
610 影像擷取單元
620 處理單元
630 儲存單元
632 物件偵測子網
634 多功能深度學習網路
636 消失點偵測子網路
C
p消失點座標
D 消失點
O
H1第一高解析物件框
O
H2第二高解析物件框
O
H3第三高解析物件框
O
H4第四高解析物件框
O
L1第一下採樣物件框
O
L2第二下採樣物件框
P 畫面
R 偵測結果
R
D消失點偵測結果
R
H物件高解析偵測結果
R
L物件下採樣偵測結果
V 影像
V
FH剪裁高解析度影像
V
H剪裁高解析度影像
V
L下採樣影像
V
p消失點偵測結果
圖1係本發明實施例之嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法的流程圖。
圖2A係說明本發明擷取畫面示意圖。
圖2B係說明本發明下採樣影像示意圖。
圖2C係說明本發明消失點偵測結果影像示意圖。
圖2D係說明本發明消失點偵測結果影像示意圖。
圖3 係說明本發明之多功能學習網路示意圖。
圖4A係本發明實施例之解析消失點步驟以及剪裁該剪裁框之剪裁高解析度影像步驟間之方法流程圖。
圖4B係本發明實施例之:統合消失點偵測結以及物件高解析偵測結果,並輸出偵測結果之方法流程圖。
圖5係本發明實施例之影像座標示意圖。
圖6係本發明實施例之嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置示意圖。
Claims (3)
- 一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位方法,使用於行車紀錄,偵測畫面中最遠處物件,係包含:(a)擷取該畫面中之影像,該影像包含原圖座標;(b)對該影像下採樣影像處理,得到下採樣影像;(c)以多功能深度學習網路對該下採樣影像提取下採樣影像特徵;(d)輸入該下採樣影像特徵至消失點偵測子網路,解析消失點偵測結果,該解析消失點偵測結果為計算最大信心度編號,判斷出消失點,包含:(d1)將該下採樣影像劃分為指定格數之座標;(d2)將該消失點結果標示於該座標,以成為消失點座標;(d3)將該消失點座標轉換為分類類別;以及(d4)將該分類類別轉換為類別座標,並以該類別座標替代該消失點座標,其中該消失點偵測子網路為經過訓練過消失點偵測的多功能深度學習網路,包含:1X1的卷積運算;平坦層;以及全連接層;(e)以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像;(f)以該多功能深度學習網路對該剪裁高解析度影像提取高解析度影像特徵;(g)以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測結果包含複數個高解析物件框,其中該物件偵測子網路係由RetinaNet,YOLOv3,FCOS,FoveaBox,RepPoints,Anchor-base,以及Anchor-free模型群組中所選出;(h)統合該消失點偵測結果以及該物件高解析偵測結果,並輸出偵測結果,包含;(h1)將該消失點偵測結果,該物件下採樣偵測結果,以及,該物件高解析偵測結果分別做非極大值抑制處理;(h2)以該剪裁框的左上座標為偏移量,偏移該物件高解析結果之該些高解析物件框至該原圖座標;以及 (h3)剔除該剪裁高解析度影像邊緣之該些高解析物件框,合併剩餘之該些高解析物件框,與該下採樣物件框,並作非極大值抑制處理;(i)輸入該下採樣影像特徵至該物件偵測子網路,解析物件下採樣偵測結果,該物件下採樣偵測結果包含複數個下採樣物件框;以及執行該(h)步驟,統合該消失點偵測結果,該物件高解析偵測結果,以及,該物件下採樣偵測結果,並輸出一偵測結果。
- 如請求項1所述之方法,其中該步驟(i)以及該步驟(d),可重複執行以得到複數層該偵測結果。
- 一種嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置,用於行車紀錄中,偵測畫面中最遠處物件,包含:一影像擷取單元,用以擷取該畫面之影像;一處理單元,對該影像作下採樣影像處理,得到下採樣影像,該處理單元連接該影像擷取單元,該處理單元包含:一物件偵測子網路,其中該物件偵測子網路係由RetinaNet,YOLOv3,FCOS,FoveaBox,RepPoints,Anchor-base,以及Anchor-free模型群組中所選出;一多功能深度學習網路;以及一消失點偵測子網路,該處理單元以該多功能深度學習網路對該下採樣影像提取該下採樣影像特徵,輸入該下採樣影像特徵至該消失點偵測子網路,該處理單元解析物件下採樣偵測結果,其中該物件下採樣偵測結果包含複數個下採樣物件框,該處理單元統合該消失點偵測結果,該物件下採樣偵測結果,以及該物件高解析偵測結果,並輸出該偵測結果,該處理單元解析消失點偵測結果,判斷出一消失點,該處理單元以消失點周圍區域為剪裁框,剪裁該剪裁框之剪裁高解析度影像,該處理單元以消失點周圍區域為剪裁框,剪裁該剪裁框之一剪裁高解析度影像,該處理單元以該多功能深度學習網路對該剪裁高解析度影像提取高解析度影像特徵,以物件偵測子網路解析物件高解析偵測結果,該物件高解析偵測 結果包含複數個高解析物件框,該處理單元統合該消失點偵測結果,以及該物件高解析偵測結果,並輸出一偵測結果;以及一儲存單元,以電連接該處理單元。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110149226A TWI807561B (zh) | 2021-12-28 | 2021-12-28 | 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 |
US17/696,044 US20230206654A1 (en) | 2021-12-28 | 2022-03-16 | Embedded Deep Learning Multi-Scale Object Detection Model Using Real-Time Distant Region Locating Device and Method Thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110149226A TWI807561B (zh) | 2021-12-28 | 2021-12-28 | 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI807561B true TWI807561B (zh) | 2023-07-01 |
TW202326624A TW202326624A (zh) | 2023-07-01 |
Family
ID=86896861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110149226A TWI807561B (zh) | 2021-12-28 | 2021-12-28 | 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230206654A1 (zh) |
TW (1) | TWI807561B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583321A (zh) * | 2018-11-09 | 2019-04-05 | 同济大学 | 一种基于深度学习的结构化道路中小物体的检测方法 |
US20200125869A1 (en) * | 2018-10-17 | 2020-04-23 | Automotive Research & Testing Center | Vehicle detecting method, nighttime vehicle detecting method based on dynamic light intensity and system thereof |
CN112634359A (zh) * | 2021-01-14 | 2021-04-09 | 深圳市一心视觉科技有限公司 | 车辆防碰撞预警方法、装置、终端设备及存储介质 |
TW202131221A (zh) * | 2019-10-10 | 2021-08-16 | 新加坡商格步計程車控股私人有限公司 | 用於判定道路交會點之方法、資料處理設備及電腦程式產品 |
-
2021
- 2021-12-28 TW TW110149226A patent/TWI807561B/zh active
-
2022
- 2022-03-16 US US17/696,044 patent/US20230206654A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125869A1 (en) * | 2018-10-17 | 2020-04-23 | Automotive Research & Testing Center | Vehicle detecting method, nighttime vehicle detecting method based on dynamic light intensity and system thereof |
CN109583321A (zh) * | 2018-11-09 | 2019-04-05 | 同济大学 | 一种基于深度学习的结构化道路中小物体的检测方法 |
TW202131221A (zh) * | 2019-10-10 | 2021-08-16 | 新加坡商格步計程車控股私人有限公司 | 用於判定道路交會點之方法、資料處理設備及電腦程式產品 |
CN112634359A (zh) * | 2021-01-14 | 2021-04-09 | 深圳市一心视觉科技有限公司 | 车辆防碰撞预警方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230206654A1 (en) | 2023-06-29 |
TW202326624A (zh) | 2023-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107738612B (zh) | 基于全景视觉辅助系统的自动泊车停车位检测与识别系统 | |
KR101283792B1 (ko) | 주차공간 인식 방법 및 장치 | |
CN111860274B (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
JP2017191608A (ja) | 対象識別方法、対象識別装置、及び分類器訓練方法 | |
WO2021018106A1 (zh) | 行人检测方法、装置、计算机可读存储介质和芯片 | |
CN112967283B (zh) | 基于双目摄像头的目标识别方法、系统、设备及存储介质 | |
WO2021016873A1 (zh) | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 | |
WO2022151664A1 (zh) | 一种基于单目摄像头的3d物体检测方法 | |
JP2013008070A (ja) | 標識認識装置及び標識認識方法 | |
CN111931683B (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN103324958B (zh) | 一种复杂背景下基于投影法和svm的车牌定位方法 | |
US20120189161A1 (en) | Visual attention apparatus and control method based on mind awareness and display apparatus using the visual attention apparatus | |
Santos et al. | Car recognition based on back lights and rear view features | |
Dinh et al. | Image segmentation based on histogram of depth and an application in driver distraction detection | |
TWI807561B (zh) | 嵌入式深度學習多尺度物件偵測暨即時遠方區域定位裝置及其方法 | |
Zhou et al. | Countour based HOG deer detection in thermal images for traffic safety | |
Haselhoff et al. | Radar-vision fusion for vehicle detection by means of improved haar-like feature and adaboost approach | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
JP2021152826A (ja) | 情報処理装置、被写体分類方法、及び被写体分類プログラム | |
Lin et al. | Design a support vector machine-based intelligent system for vehicle driving safety warning | |
Kiro et al. | Road Lane Line Detection using Machine Learning | |
Petwal et al. | Computer vision based real time lane departure warning system | |
TWI638332B (zh) | Hierarchical object detection system with parallel architecture and method thereof | |
Chingting et al. | Traffic Lane Line Classification System by Real-time Image Processing | |
Nabila et al. | Optimized HOG descriptor for on road cars detection |