TWI819639B - 深度估計模型之訓練方法、裝置、電子設備及存儲介質 - Google Patents
深度估計模型之訓練方法、裝置、電子設備及存儲介質 Download PDFInfo
- Publication number
- TWI819639B TWI819639B TW111120594A TW111120594A TWI819639B TW I819639 B TWI819639 B TW I819639B TW 111120594 A TW111120594 A TW 111120594A TW 111120594 A TW111120594 A TW 111120594A TW I819639 B TWI819639 B TW I819639B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- estimation model
- depth
- depth estimation
- weak texture
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000020061 kirsch Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
一種深度估計模型之訓練方法包括獲取第一圖像和第二圖像;將第一圖像輸入至深度估計模型,以基於深度估計模型之參數輸出第一深度圖像;獲取位姿轉換關係;根據第一深度圖像、位姿轉換關係和相機參數,生成重建圖像;計算重建圖像和第一圖像之相似度,得到二維損失圖;提取出第一圖像中弱紋理區域;根據二維損失圖確定弱紋理區域圖元點之第一相似度值;降低第一相似度值之比重,得到損失值;調節深度估計模型之參數。本申請還揭示一種深度估計模型之訓練裝置、電子設備及存儲介質,可以降低弱紋理區域對深度估計之影響。
Description
本申請涉及電腦視覺技術領域,具體涉及一種深度估計模型之訓練方法、裝置、電子設備及存儲介質。
目前單目深度估計之深度學習方法中,有一種是利用SFM(Structure From Motion)原理,通過給予模型不同時間、視角之圖像(如目標幀和參考幀),讓模型推論目標幀之深度值並利用參考幀重建目標幀之圖像,得到重建幀,誤差較低之深度估計所重建出來之重建幀會較接近目標幀。
但重建幀相似度在以下情境中無法精準表達深度之誤差程度:弱紋理(low texture)圖像即使深度誤差很大也能夠重建之很接近目標幀,讓網路學到錯誤之目標深度估計。
鑒於以上內容,有必要提出一種深度估計模型之訓練方法、裝置、電子設備及存儲介質,可以降低弱紋理圖像對深度估計之影響。
深度估計模型之訓練方法包括獲取第一圖像和第二圖像;將所述第一圖像輸入至深度估計模型,以基於所述深度估計模型之參數輸出第一深度圖像;將所述第一圖像和所述第二圖像輸入至位姿估計模型,以提取所述第一圖像和所述第二圖像之間之位姿轉換關係,其中,所述第一圖像與所述第二圖像分別
為不同視角之圖像;根據所述第一深度圖像、所述位姿轉換關係和預先獲取之相機參數,生成重建圖像;計算重建圖像和第一圖像之相似度,得到二維損失圖提取出所述第一圖像中弱紋理區域;根據所述二維損失圖確定所述弱紋理區域圖元點之第一相似度值;降低所述第一相似度值之比重,得到損失值;基於所述損失值,調節所述深度估計模型之所述參數。
相較於先前技術,本發明提供之深度估計模型之訓練方法、裝置、電子設備及存儲介質,前基於弱紋理區域提供之損失值普遍偏低,不論模型是否有學到正確之深度推論,該區域之損失值都不會有太大之差異,因此若弱紋理區域之比重偏高,甚至會拖累整體訓練,故此處降低弱紋理區域之比重,即降低弱紋理區域之損失值貢獻比重,實現降低弱紋理區域對模型訓練之不良影響。
O1:目標視角
O2:參考視角
P:目標點
P1:目標點P在第一圖像之圖元點位置
P2:目標點P在第二圖像之圖元點位置
P3:目標點P在重建圖像之圖元點位置
100:第一圖像
200:第二圖像
41:訓練裝置
410:獲取模組
411:第一輸入模組
412:第二輸入模組
413:生成模組
414:計算模組
415:提取模組
416:確定模組
417:降低模組
418:調節模組
50:電子設備
51:記憶體
52:處理器
S10~S18:步驟
S31~S34:步驟
圖1為本申請實施例提供之深度估計模型之訓練方法流程示意圖。
圖2為本申請實施例提供之合成重建圖像之原理示意圖。
圖3為本申請實施例提供之另一種深度圖像模型訓練方法流程示意圖。
圖4為本申請實施例提供之一種訓練裝置結構示意圖。
圖5為申請實施例提供之電子設備之結構示意圖。
為使本申請實施例之目的、技術方案和優點更加清楚,下面將結合本申請實施例中之附圖,對本申請實施例中之技術方案進行清楚、完整地描述,顯然,所描述之實施例是本申請一部分實施例,而不是全部之實施例。基於本申請中之實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得之所有其他實施例,都屬於本申請保護之範圍。
在對本申請實施例進行詳細之解釋說明之前,先對本申請實施例涉及之應用場景予以介紹。
圖像之深度資訊作為支援電腦視覺技術之重要資訊,對三維重建有著重要之意義。它可以應用在自主駕駛、場景理解、機器人學、3D重建、攝影攝像、智慧醫學、智慧人機交互、空間測繪、增強現實等領域。舉例而言,在自主駕駛中,圖像之深度資訊可以用來輔助感測器融合、可行駛之空間探測和導航。
下面參考附圖描述本申請實施例之一種深度估計模型之訓練方法、裝置及電子設備。
圖1為本申請實施例提供之深度估計模型之訓練方法流程示意圖。其中,需要說明的是,本實施例之深度估計模型之訓練方法之執行主體可以為訓練裝置,該訓練裝置具體可以為硬體設備,或者硬體設備中之軟體等。其中,硬體設備例如終端設備、伺服器等。如圖1所示,本實施例提出之深度估計模型之訓練方法,包括如下步驟:
步驟S10:獲取第一圖像和第二圖像。
在本申請實施例中,訓練深度估計模型需要獲取訓練圖像資料,訓練圖像資料包括第一圖像和第二圖像,其中第一圖像和第二圖像均為拍攝同一目標物件之圖像,且第一圖像和第二圖像分別為不同視角下拍攝之圖像。例如,第一圖像即為正視角圖像,第二圖像即為非正視角圖像。其中目標物件例如人、動物、車輛、建築物等。
在本申請實施例中,第一圖像和第二圖像可以由單目攝像機拍攝,也可以由雙目立體攝像機拍攝。在一些實施例中,第一圖像和第二圖像可以為單目攝像機或雙目立體攝像機所拍攝之視頻中截取出之視頻幀。在一些實施例中,訓練裝置可以將訓練圖像資料存儲在各種資料存儲庫中,例如,將單眼圖像存儲在單眼圖像存儲庫中、以及將立體圖像對存儲在立體圖像資料存儲庫中。
步驟S11:將第一圖像輸入至深度估計模型,以基於深度估計模型之參數輸出第一深度圖像。
在本申請實施例中,將第一圖像輸入至深度估計模型中,該深度估計模型輸出與第一圖像對應之第一深度圖像。第一深度圖像中每個圖元點之圖元值(或灰度值)可以代表相對深度也可以代表深度值。相對深度可以理解為各個圖元點之前後邏輯關係。其中,圖元點對應之現實物體與攝像設備或參考平面之間之距離稱為該圖元點之深度值,也即圖元點之深度值計即該點對應之現實物體到上述攝像設備之垂直距離。
其中,深度估計模型可以為自編碼器(autoencoder,AE)網路。
自編碼器是一類在半監督學習和非監督學習中使用之人工神經網路(ArtificialNeuralNetworks,ANNs),其功能是通過將輸入資訊作為學習目標,對輸入資訊進行表徵學習(representationlearning)。自編碼器包含編碼器(encoder)和解碼器(decoder)兩部分。按學習範式,自編碼器可以被分為收縮自編碼器(contractiveautoencoder)、正則自編碼器(regularizedautoencoder)和變分自編碼器(VariationalAutoEncoder,VAE),其中前兩者是判別模型、後者是生成模型。按構築類型,自編碼器可以是前饋結構或遞迴結構之神經網路。
在一些實施例中,深度估計模型包括深度編碼器和深度解碼器,深度估計模型將第一圖像饋送通過深度編碼器,以提取抽象深度特徵。深度編碼器可以使用不同之機器學習演算法和技術來提取這些特徵。
示例地,深度編碼器是包括多個層之卷積神經網路,其中每個後續層減小所提取之特徵之維數。例如,在第一層之後,將數量級為10^6個圖元或資料點之輸入圖像縮小為數量級為10^5之一組特徵。通過深度編碼器中之最後一層,抽象深度特徵可以在10^4或更小之數量級。這些數位純粹是出於說明目的。實際上,深度編碼器可以具有不同數目的層,並且圖元和深度特徵之數目可以變化。
以相反之方式,深度解碼器包括多個層以增加抽象特徵之維數。
如上述示例,深度解碼器可以採用數量級為10^4之抽象深度特徵,並且在多個層上逐步匯出輸入圖像之每個圖元處之深度(相對深度or深度值)。然後,深度解碼器輸出第一深度圖像,其中深度圖上之每個圖元對應於場景中之被投影到該圖元之最近物件之距離。
在一些實施例中,深度解碼器輸出視差圖,其中視差圖上之每個圖元對應於距離之倒數。在本申請實施例中,參考深度圖描述之原理容易地應用於具有視差圖之實現中。例如,第一圖像已經在給定圖元處捕獲了距相機某個未知距離之樹。深度解碼器輸出與從相機到該圖元處之街區之距離相對應之深度值。
在一些實施例中,輸出深度值可以相對於另一深度值。在其他實施例中,輸出深度值按比例縮放,以提供對場景中之物件之真實測量,例如,一個街區在10m之外,或建築物在25米之外。
步驟S12:將第一圖像和第二圖像輸入至位姿估計模型,以提取第一圖像和第二圖像之前之位姿轉換關係,其中,第一圖像與第二圖像分別為不同視角之圖像。
在本申請實施例中,位姿估計模型接收多個級聯圖像(如第一圖像和第二圖像)以確定每個輸入之圖像之姿態。姿態通常是指兩個圖像之透視圖之間之數學變換。在一些實施例中,姿態更一般地描述了圖像之透視圖,其中該透視圖可以用於定義兩個圖像之間之變換。
在本申請實施例中,位姿估計模型可以包括姿態編碼器和姿態編碼器。將第一圖像和第二圖像放入姿態編碼器中,該姿態編碼器從第一圖像和第二圖像中提取抽象姿態特徵。然後抽象姿態特徵被輸入通過姿態解碼器,該姿態解碼器確定第一圖像和第二圖像之間之位姿轉換關係。姿態編碼器可以被配置為
包括多個層之卷積神經網路,以用於提取抽象姿態特徵並且然後推導第一圖像和第二圖像之姿態。
步驟S13:根據第一深度圖像、位姿轉換關係和預先獲取之相機參數,生成重建圖像。
在本申請實施例中,在獲取第一深度圖像後,可基於第一深度圖像中各圖元點之深度值、第一圖像和第二圖像之間之位姿轉換關係以及相機參數生成重建圖像。
具體地,將第一深度圖像中各圖元點之深度值、相機參數、位姿轉換關係以及各圖元點在第一圖像中之位置座標作為位置轉換演算法之輸入,獲取輸出之各圖元點在重建圖像中對應之位置座標;確定第一深度圖像中各圖元點之圖元值,並基於圖元值和位置座標生成重建圖像。
具體之,位置轉換演算法之公式如式(1)所示,將第一深度圖像中各圖元點之深度值、相機參數、位姿轉換關係以及第一圖像中各圖元點之位置座標輸入式(1),即可獲得第一圖像中各圖元點在重建圖像中所對應之位置。
B2=KTD1K-1B1 式(1)
其中,B1為第一圖像中各圖元點之位置,用(x1,y1)表示,B2為第一圖像中各圖元點在重建圖像中所對應之位置,用(x2,y2)表示,K為由相機參數組成之矩陣,T為位姿轉換關係,K之列數與T之行數相等。
示例性地,請一併參閱圖2,圖2為本申請實施例提供之合成重建圖像之原理示意圖。
如圖2所示,以目標視角O1下拍攝目標點P得到第一圖像100,目標點P在第一圖像100中之P1。以參考視角O2拍攝目標點P得到第二圖像200,目標點P在第二圖像200中之P2。重建過程概述:以參考視角O2下之圖元點重新映射至目標視角O1下之圖元點位置,進而重建出一張目標視角O1下之重建圖像。映射原理:目標視角O1下圖元P1與正確之深度值對應3D座標下之目標點P,在參考視角
O2下可找到唯一P2。映設計算:已知任意P1求P2,首先通過P1之推論深度(即深度值)與相向機內參K可得知目標點P在目標視角O1坐標系下之位置,即第一圖像中之P1。通過位姿轉換關係得到目標點P在參考視角O2坐標系下之位置,即第二圖像中之P2。已知目標點P在參考視角O2坐標系下之位置與相機內參K,可計算出對應之映射圖元點。對第一圖像上之所有圖元P1計算得到對應P2之後,以P2顏色取代P1顏色,就得到重建圖像。
步驟S14:計算重建圖像和第一圖像之相似度,得到二維損失圖。
在本申請實施例中,重建圖像與第一圖像為大小相同之二維圖像,計算重建圖像和第一圖像之間之相似度,即估算第一圖像與重建圖像一致之程度,得到相似度值。可以使用相關相似度計算函數計算相似度值。
在一些實施例中,相似度計算函數可以實現為計算重建圖像與第一圖像對應同一目標點之兩個圖元點間顏色之間之差異。例如,上述示例,第一圖像和重建圖像均為RGB圖像,目標點P在重建圖像中對應圖元點P3,圖元點P3之顏色向量為(r3、g3、b3)。目標點P在第一圖像中對應圖元點P1圖元點P3之顏色向量為(r1、g1、b1)。則計算圖元點P3和圖元點P1顏色向量之間之差異,例如,該兩個圖元點之間之相似度=|r1-r3|+|g1-g3|+|b1-b3|。又例如,該個圖元點之
在另一些實施例中,相似度計算函數可以實現為計算重建圖像與第一圖像結構相似性(StructuralSIMilarity,SSIM)。例如,計算重建圖像與第一圖像同位置下之視窗(window)間之SSIM差異。視窗(window)=指定一中心圖元位置,其周圍N*N範圍內之圖元集合。
在本申請實施例中,根據計算出之相似度值得到二維損失圖,二維損失圖即為一張單通道之二維圖,二維損失圖上圖元值即為前述同位置之兩圖元(或兩視窗)之間之相似度值。
在本申請實施例中,重建圖像是根據第一深度圖像以及位姿轉換關係計算圖元點映射關係,以第二圖像中顏色貼回目標視角下得到之重建圖像。在理想情況下(深度&位姿誤差極小)重建圖像與第一圖像幾乎一模一樣。然而,若是深度估計模型推導出之深度誤差較大,也能夠重建之很接近第一圖像,但是會深度估計模型學習到錯誤之目標深度估計。
示例性地,如圖2所示,若深度估計模型對圖元點P1之推論深度誤差較大,會計算得P',依前述映射過程由P'計算得P3,進而得到有誤差之重建圖像。實際上應該得到之圖元點P2與誤差較大下推導出之圖元點P3,在圖元點P2和圖元點P3紋理相近之情況下,無法反映出P與P'之位置誤差。也就存在弱紋理之圖像,即使深度誤差很大也能夠重建之很接近原圖,讓網路學到錯誤之目標深度估計。
由此,本申請實施例通過降低弱紋理區域之損失值權重,提高非弱紋理區域也即較明顯區域之損失值權重,降低弱紋理區域在訓練深度估計模型階段中之權重,降低弱紋理在訓練階段誤導深度估計模型修正之幅度,減少弱紋理區域對深度估計模型學習之誤差影響。
步驟S15:提取出第一圖像中弱紋理區域。
在本申請實施例中,可以獲取第一圖像之顏色和亮度資訊,根據顏色與亮度資訊,將第一圖像分割為若干區域。然後計算獲得第一圖像對應之梯度資訊,根據梯度資訊從若干區域中選取出弱紋理區域,弱紋理區域為梯度統計平均值在預設範圍內之區域。
具體地,可以應用基於區域之分割方法如區域生長方法來對圖像進行分割。區域生長之基本思想是將具有相似性質之圖元集合起來構成區域。具體先對每個需要分割之區域找一個種子圖元點作為生長之起點,然後將種子圖元點周圍中與種子圖元點有相同或相似性質之圖元(本實施例中是顏色和亮度資訊相似之圖元)合併到種子圖元點所在之區域中。將這些新圖元當作新之種子圖元點
繼續進行上面之過程,直到再沒有滿足條件之圖元可被包括進來,則可以劃分出若干區域。然後基於圖像之顏色和亮度資訊來進行圖像分割之,分割成之區域內部之圖元點在顏色和亮度上特徵都比較相近。可以將圖像看成二維離散函數I(i,j),(i,j)為圖像中圖元點之座標,I(i,j)為圖元點(i,j)之圖元值(如:RGB值),圖像之梯度資訊其實就是這個二維離散函數之求導,其中可以使用梯度公式求導,梯度公式。比如:Sobel、Roberts、kirsch、laplace、piewitt、robinson運算元等。圖像之梯度大小可以反映出圖像之圖元之亮度以及顏色之頻率變化大小,對於弱紋理區域,其內部圖元點之亮度顏色比較相近,變化較小,相應之梯度值也比較小,按照該原理,對於分割成之若干區域,其中梯度統計平均值較小之區域即為弱紋理區域。
在一些實施例中,與弱紋理區域相對之是非弱紋理區域,也可以找到顏色梯度變化較大之位置,也就是視覺特徵比較明顯之區域(非弱紋理區域),例如物體邊緣。第一圖像中除去非弱紋理區域就是弱紋理區域。
步驟S16:根據二維損失圖確定弱紋理區域圖元點之第一相似度值。
在本申請實施例中,二維損失圖之大小跟第一圖像一致,二維損失圖和第一圖像之圖元之間自然存在一對一關聯性,在第一圖像上找到之弱紋理區域可對應到二維損失圖。如,在第一圖像上找到之弱紋理區域之N個圖元點,該N個圖元點可以對應到二維損失圖上之N個第一相似度值。
步驟S17:降低第一相似度值之比重,得到損失值。
在本申請實施例中,對二維損失圖中之各個圖元點進行處理得到損失值。如對二維損失圖中之各個圖元點加權求和得到損失值。損失值還可以指示深度估計模型是否被充分訓練、和/或在估計深度資訊時是否足夠精確。
在本申請實施例中,在找出弱紋理區域圖元點之第一相似度值後,可以設定超參數指定第一相似度值縮小比例,如設置縮小比例為S,則將二
維損失圖中第一相似度值乘上縮小比例S,則二維損失圖中對應弱紋理區域之N個圖元點之圖元值均乘上縮小比例S,之後對二維損失圖中之各個圖元點進行處理得到損失值。其中,縮小比例可以根據實際試驗資料進行設定。
在本申請實施例中,如前述弱紋理區域提供之損失值普遍偏低,不論模型是否有學到正確之深度推論,該區域之損失值都不會有太大之差異,因此若弱紋理區域之比重偏高,甚至會拖累整體訓練,故此處降低弱紋理區域之比重,即降低弱紋理區域之損失值貢獻比重,實現降低弱紋理區域對模型訓練之不良影響。
步驟S18:基於損失值,調節深度估計模型之參數。
在本申請實施例中,基於步驟S17得到損失值調節深度估計模型之參數,以使得在調節深度估計模型之參數過程中,該損失值被最小化。
在一些實施例中,請參閱圖3,上述深度估計模型之訓練方法,還包括如下步驟:
步驟S31,提取出第一圖像中非弱紋理區域。
在本申請實施例中,第一圖像包括弱紋理區域與非弱紋理區域。具體可以參考步驟S15,可以獲取第一圖像之顏色和亮度資訊,根據顏色與亮度資訊,將第一圖像分割為若干區域。然後計算獲得第一圖像對應之梯度資訊,根據梯度資訊從若干區域中選取出非弱紋理區域,弱紋理區域為梯度統計平均值在預設範圍外之區域。步驟S31和步驟S15之區別在於,步驟S31找出梯度統計平均值較大之區域,即為非弱紋理區域。
在一些實施例中,可以直接找到顏色梯度變化較小之位置,也就是視覺特徵不明顯之區域(弱紋理區域)。第一圖像中除去非弱紋理區域就是弱紋理區域。
在一些實施例中,步驟S31可以結合步驟S15一起執行,在步驟S15提取出第一圖像中弱紋理區域後。
步驟S32:根據二維損失圖確定非弱紋理區域圖元點之第二相似度值。
在本申請實施例中,二維損失圖之大小跟第一圖像一致,二維損失圖和第一圖像之圖元之間自然存在一對一關聯性,在第一圖像上找到之非弱紋理區域可對應到二維損失圖。如,在第一圖像上找到之非弱紋理區域之M個圖元點,該M個圖元點可以對應到二維損失圖上之M個第二相似度值。
步驟S33:增加第二相似度值比重,得到損失值。
在本申請實施例中,在找出非弱紋理區域圖元點之第二相似度值後,可以設定超參數指定第二相似度值放大比例,如設置放大比例為Q,則將二維損失圖中第二相似度值乘上放大比例Q,則二維損失圖中對應非弱紋理區域之M個圖元點之圖元值均乘上放大比例Q,之後對二維損失圖中之各個圖元點進行處理得到損失值。其中,放大比例可以根據實際試驗資料進行設定。
步驟S34:基於損失值,調節深度估計模型之參數。
在本申請實施例中,基於步驟S33得到損失值調節深度估計模型之參數,以使得在調節深度估計模型之參數過程中,該損失值被最小化。
在一些實施例中,可以同時降低第一相似度值之比重以及增加第二相似度值比重,進而得到損失值,根據該損失值調節深度估計模型之參數。
在本申請實施例中,如前述弱紋理區域提供之損失值普遍偏低,不論模型是否有學到正確之深度推論,該區域之損失值都不會有太大之差異,若弱紋理區域之比重偏高,甚至會拖累整體訓練。故此處利用找非弱紋理區域圖元點之方式,找到找非弱紋理區域,並增加非弱紋理區域之損失值貢獻比重,如此可以降低弱紋理區域對模型訓練之不良影響。
請參閱圖4,圖4為本申請實施例提供之一種訓練裝置結構示意圖。
在本申請實施例中,訓練裝置41包括獲取模組410、第一輸入模組411、第二輸入模組412、生成模組413、計算模組414、提取模組415、確定模組416、降低模組417和調節模組418。
獲取模組410,用於獲取第一圖像和第二圖像;
第一輸入模組411,用於將第一圖像輸入至深度估計模型,以基於深度估計模型之參數輸出第一深度圖像;
第二輸入模組412,用於將第一圖像和第二圖像輸入至位姿估計模型,以提取第一圖像和第二圖像之前之位姿轉換關係,其中,第一圖像與第二圖像分別為不同視角之圖像。
生成模組413,用於根據第一深度圖像、位姿轉換關係和預先獲取之相機參數,生成重建圖像。
計算模組414,用於計算重建圖像和第一圖像之相似度,得到二維損失圖。
提取模組415,用於提取出第一圖像中弱紋理區域。
確定模組416,用於根據二維損失圖確定弱紋理區域圖元點之第一相似度值;
降低模組417,用於降低第一相似度值之比重,得到損失值。
調節模組418,用於基於損失值,調節深度估計模型之參數。
參閱圖5所示,圖5為申請實施例提供之電子設備之結構示意圖。在本發明較佳實施例中,電子設備50包括記憶體51以及至少一個處理器52。本領域技術人員應該瞭解,圖5示出之電腦裝置之結構並不構成本發明實施例之限定,既可以是匯流排型結構,也可以是星形結構,電子設備50還可以包括比圖示更多或更少之其他硬體或者軟體,或者不同之部件佈置。
在一些實施例中,電子設備50包括一種能夠按照事先設定或存儲之指令,自動進行數值計算和/或資訊處理之終端,其硬體包括但不限於微處理器、專用積體電路、可程式設計閘陣列、數文書處理器及嵌入式設備等。
需要說明之是,電子設備50僅為舉例,其他現有之或今後可能出現之電子產品如可適應於本發明,也應包含在本發明之保護範圍以內,並以引用方式包含於此。
在一些實施例中,記憶體51用於存儲程式碼和各種資料,例如安裝在電子設備50中之訓練裝置41,並在電子設備50之運行過程中實現高速、自動地完成程式或資料之存取。記憶體51包括唯讀記憶體(Read-OnlyMemory,ROM)、可程式設計唯讀記憶體(ProgrammableRead-OnlyMemory,PROM)、可抹除可程式設計唯讀記憶體(ErasableProgrammableRead-OnlyMemory,EPROM)、一次可程式設計唯讀記憶體(One-timeProgrammableRead-OnlyMemory,OTPROM)、電子抹除式可複寫唯讀記憶體(Electrically-ErasableProgrammableRead-OnlyMemory,EEPROM)、唯讀光碟(CompactDiscRead-OnlyMemory,CD-ROM)或其他光碟記憶體、磁碟記憶體、磁帶記憶體、或者任何其他能夠用於攜帶或存儲資料之電腦可讀之存儲介質。
在一些實施例中,至少一個處理器52可以由積體電路組成,例如可以由單個封裝之積體電路所組成,也可以是由多個相同功能或不同功能封裝之積體電路所組成,包括一個或者多個中央處理器(CentralProcessingunit,CPU)、微處理器、數文書處理晶片、圖形處理器及各種控制晶片之組合等。至少一個處理器52是電子設備50之控制核心(ControlUnit),利用各種介面和線路連接整個電子設備50之各個部件,通過運行或執行存儲在記憶體51內之程式或者模組,以及調用存儲在記憶體51內之資料,以執行電子設備50之各種功能和處理資料,例如執行深度估計模型之訓練之功能。
應該瞭解,實施例僅為說明之用,在專利申請範圍上並不受此結構之限制。
上述以軟體功能模組之形式實現之集成之單元,可以存儲在一個電腦可讀取存儲介質中。上述軟體功能模組存儲在一個存儲介質中,包括若干指令用以使得一台電腦裝置(可以是伺服器、個人電腦等)或處理器(processor)執行本發明各個實施例方法之部分。
在進一步之實施例中,結合圖1,至少一個處理器52可執行電子設備50之操作裝置以及安裝之各類應用程式、程式碼等,例如,上述之各個模組。
記憶體51中存儲有程式碼,且至少一個處理器52可調用記憶體51中存儲之程式碼以執行相關之功能。例如,圖4中之各個模組是存儲在記憶體51中之程式碼,並由至少一個處理器52所執行,從而實現各個模組之功能以達到深度估計模型之訓練之目的。
在本發明之一個實施例中,記憶體51存儲一個或多個指令(即至少一個指令),至少一個指令被至少一個處理器52所執行以實現圖1所示之深度估計模型之訓練之目的。
在本發明所提供之幾個實施例中,應該理解到,所揭露之裝置和方法,可以通過其它之方式實現。例如,以上所描述之裝置實施例僅僅是示意性之,例如,模組之劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外之劃分方式。
作為分離部件說明之模組可以是或者也可以不是物理上分開之,作為模組顯示之部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際之需要選擇其中之部分或者全部模組來實現本實施例方案之目的。
另外,在本發明各個實施例中之各功能模組可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一
個單元中。上述集成之單元既可以採用硬體之形式實現,也可以採用硬體加軟體功能模組之形式實現。
最後應說明之是,以上實施例僅用以說明本發明之技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域之普通技術人員應當理解,可以對本發明之技術方案進行修改或等同替換,而不脫離本發明技術方案之精神和範圍。
S10~S18:步驟
Claims (10)
- 一種深度估計模型之訓練方法,應用於電子設備,其改良在於,所述方法包括:獲取第一圖像和第二圖像;將所述第一圖像輸入至深度估計模型,以基於所述深度估計模型之參數輸出第一深度圖像;將所述第一圖像和所述第二圖像輸入至位姿估計模型,以提取所述第一圖像和所述第二圖像之間之位姿轉換關係,其中,所述第一圖像與所述第二圖像分別為不同視角之圖像;根據所述第一深度圖像、所述位姿轉換關係和預先獲取之相機參數,生成重建圖像;計算重建圖像和第一圖像之相似度,得到二維損失圖;提取出所述第一圖像中弱紋理區域;根據所述二維損失圖確定所述弱紋理區域圖元點之第一相似度值;降低所述第一相似度值之比重,得到損失值;基於所述損失值,調節所述深度估計模型之所述參數。
- 如請求項1所述之深度估計模型之訓練方法,其中,所述方法還包括:提取出所述第一圖像中非弱紋理區域;根據所述二維損失圖確定所述非弱紋理區域圖元點之第二相似度值;增加所述第二相似度值比重,得到所述損失值。
- 如請求項1所述之深度估計模型之訓練方法,其中,所述降低所述第一相似度值之比重,得到損失值包括:獲取所述第一相似度值之縮小比例;基於所述縮小比例調整述第一相似度值之比重,得到損失值。
- 如請求項2所述之深度估計模型之訓練方法,其中,所述增加所述第二相似度值比重,得到所述損失值包括:獲取所述第二相似度值之放大比例;基於所述放大比例調整述第二相似度值之比重,得到損失值。
- 如請求項1至4中任意一項所述之深度估計模型之訓練方法,其中,所述提取出所述第一圖像中弱紋理區域包括:獲取所述第一圖像之顏色和亮度資訊;根據所述顏色與亮度資訊,將所述第一圖像劃分區域;計算獲得所述第一圖像對應之梯度資訊;根據所述梯度資訊從所述區域中選取出弱紋理區域,其中,所述弱紋理區域為梯度統計平均值在預設範圍內之區域。
- 如請求項2或4所述之深度估計模型之訓練方法,其中,所述提取出所述第一圖像中非弱紋理區域包括:獲取所述第一圖像之顏色和亮度資訊;根據所述顏色與亮度資訊,將所述第一圖像劃分區域;計算獲得所述第一圖像對應之梯度資訊;根據所述梯度資訊從所述區域中選取出非弱紋理區域,其中,所述非弱紋理區域為梯度統計平均值在預設範圍外之區域。
- 如請求項2或4所述之深度估計模型之訓練方法,其中,所述非弱紋理區域包括物體邊緣區域。
- 一種訓練裝置,其改良在於,包括:獲取模組,用於獲取第一圖像和第二圖像;第一輸入模組,用於將所述第一圖像輸入至深度估計模型,以基於所述深度估計模型之參數輸出第一深度圖像;第二輸入模組,用於將所述第一圖像和所述第二圖像輸入至位姿估計模型, 以提取所述第一圖像和所述第二圖像之間之位姿轉換關係,其中,所述第一圖像與所述第二圖像分別為不同視角之圖像;生成模組,用於根據所述第一深度圖像、所述位姿轉換關係和預先獲取之相機參數,生成重建圖像;計算模組,用於計算重建圖像和第一圖像之相似度,得到二維損失圖;提取模組,用於提取出所述第一圖像中弱紋理區域;確定模組,用於根據所述二維損失圖確定所述弱紋理區域圖元點之第一相似度值;降低模組,用於降低所述第一相似度值之比重,得到損失值;調節模組,用於基於所述損失值,調節所述深度估計模型之所述參數。
- 一種電子設備,其改良在於,所述電子設備包括記憶體和處理器,所述記憶體用於存儲至少一個指令,所述處理器用於執行所述至少一個指令時實現如請求項1至7中任意一項所述之深度估計模型之訓練方法。
- 一種電腦可讀存儲介質,其改良在於,所述電腦可讀存儲介質存儲有至少一個指令,所述至少一個指令被處理器執行時實現如請求項1至7中任意一項所述之深度估計模型之訓練方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111120594A TWI819639B (zh) | 2022-06-02 | 2022-06-02 | 深度估計模型之訓練方法、裝置、電子設備及存儲介質 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111120594A TWI819639B (zh) | 2022-06-02 | 2022-06-02 | 深度估計模型之訓練方法、裝置、電子設備及存儲介質 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI819639B true TWI819639B (zh) | 2023-10-21 |
TW202349280A TW202349280A (zh) | 2023-12-16 |
Family
ID=89857490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111120594A TWI819639B (zh) | 2022-06-02 | 2022-06-02 | 深度估計模型之訓練方法、裝置、電子設備及存儲介質 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI819639B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140267243A1 (en) * | 2013-03-13 | 2014-09-18 | Pelican Imaging Corporation | Systems and Methods for Synthesizing Images from Image Data Captured by an Array Camera Using Restricted Depth of Field Depth Maps in which Depth Estimation Precision Varies |
CN112561978A (zh) * | 2020-12-18 | 2021-03-26 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
US20210150747A1 (en) * | 2019-11-14 | 2021-05-20 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
US20220138975A1 (en) * | 2020-09-15 | 2022-05-05 | Toyota Research Institute, Inc. | Systems and methods for multi-camera modeling with neural camera networks |
CN114519731A (zh) * | 2022-01-29 | 2022-05-20 | 三星(中国)半导体有限公司 | 深度图像补全的方法和装置 |
CN114549612A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 模型训练和图像处理方法、装置、设备及存储介质 |
-
2022
- 2022-06-02 TW TW111120594A patent/TWI819639B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140267243A1 (en) * | 2013-03-13 | 2014-09-18 | Pelican Imaging Corporation | Systems and Methods for Synthesizing Images from Image Data Captured by an Array Camera Using Restricted Depth of Field Depth Maps in which Depth Estimation Precision Varies |
US20210150747A1 (en) * | 2019-11-14 | 2021-05-20 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
US20220138975A1 (en) * | 2020-09-15 | 2022-05-05 | Toyota Research Institute, Inc. | Systems and methods for multi-camera modeling with neural camera networks |
CN112561978A (zh) * | 2020-12-18 | 2021-03-26 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
CN114519731A (zh) * | 2022-01-29 | 2022-05-20 | 三星(中国)半导体有限公司 | 深度图像补全的方法和装置 |
CN114549612A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 模型训练和图像处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
TW202349280A (zh) | 2023-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021174939A1 (zh) | 人脸图像的获取方法与系统 | |
AU2018292610B2 (en) | Method and system for performing simultaneous localization and mapping using convolutional image transformation | |
JP7403528B2 (ja) | シーンの色及び深度の情報を再構成するための方法及びシステム | |
US10134177B2 (en) | Method and apparatus for adjusting face pose | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
WO2015139574A1 (zh) | 一种静态物体重建方法和系统 | |
CN112884682B (zh) | 一种基于匹配与融合的立体图像颜色校正方法及系统 | |
WO2022147736A1 (zh) | 虚拟图像构建方法、装置、设备及存储介质 | |
WO2019164498A1 (en) | Methods, devices and computer program products for global bundle adjustment of 3d images | |
US20230394693A1 (en) | Method for training depth estimation model, training apparatus, and electronic device applying the method | |
WO2022156626A1 (zh) | 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
GB2580691A (en) | Depth estimation | |
CN111105432A (zh) | 基于深度学习的无监督端到端的驾驶环境感知方法 | |
JP7116262B2 (ja) | 画像深度推定方法および装置、電子機器、ならびに記憶媒体 | |
US20140168204A1 (en) | Model based video projection | |
CN113886510A (zh) | 一种终端交互方法、装置、设备及存储介质 | |
US20230401737A1 (en) | Method for training depth estimation model, training apparatus, and electronic device applying the method | |
CN116246026B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
TWI819639B (zh) | 深度估計模型之訓練方法、裝置、電子設備及存儲介質 | |
JP2023065296A (ja) | 平面検出装置及び方法 | |
CN113034675B (zh) | 一种场景模型构建方法、智能终端及计算机可读存储介质 | |
CN115330992A (zh) | 多视觉特征融合的室内定位方法、装置、设备及存储介质 | |
CN114608558A (zh) | 基于特征匹配网络的slam方法、系统、设备及存储介质 | |
CN107194931A (zh) | 一种基于双目图像匹配获取目标深度信息的方法和系统 | |
TWI823416B (zh) | 深度估計網路之訓練方法、裝置、電子設備及存儲介質 |