TWI823416B - 深度估計網路之訓練方法、裝置、電子設備及存儲介質 - Google Patents

深度估計網路之訓練方法、裝置、電子設備及存儲介質 Download PDF

Info

Publication number
TWI823416B
TWI823416B TW111121160A TW111121160A TWI823416B TW I823416 B TWI823416 B TW I823416B TW 111121160 A TW111121160 A TW 111121160A TW 111121160 A TW111121160 A TW 111121160A TW I823416 B TWI823416 B TW I823416B
Authority
TW
Taiwan
Prior art keywords
image
depth
pixel
network
depth estimation
Prior art date
Application number
TW111121160A
Other languages
English (en)
Other versions
TW202349281A (zh
Inventor
楊榮浩
郭錦斌
盧志德
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Priority to TW111121160A priority Critical patent/TWI823416B/zh
Application granted granted Critical
Publication of TWI823416B publication Critical patent/TWI823416B/zh
Publication of TW202349281A publication Critical patent/TW202349281A/zh

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

一種深度估計網路之訓練方法包括獲取目標物體之第一圖像和第二圖像;獲取第一圖像之第一深度圖像;獲取第一圖像和第二圖像之間之像素位姿轉換關係;根據第一深度圖像、像素位姿轉換關係和預先獲取之相機參數,生成重建圖像;根據第一圖像、深度圖像、重建圖像和第二圖像之間之差異,確定深度估計網路之損失;基於深度估計網路之損失調節深度估計網路之所述參數。本申請還揭示一種深度估計網路之訓練裝置、電子設備及存儲介質,可提高移動物體位姿變換之準確率。

Description

深度估計網路之訓練方法、裝置、電子設備及存儲介質
本申請涉及電腦視覺技術領域,具體涉及一種深度估計網路之訓練方法、裝置及電子設備。
於電腦視覺領域中,位姿估計是重要之課題。姿態網路(PoseNet)演算法模型是將卷積神經網路用於相機之6自由度位姿預測。然而,此姿態網路是用於輸出相機位姿變換矩陣,導致此位姿變換矩陣只對靜態物體才能得到正確之結果,對於移動物體使用此位姿變換矩陣會造成誤差。
鑒於以上內容,有必要提出一種深度估計網路之訓練方法、裝置、電子設備及存儲介質,可以解決影像中有移動物體時造成該物體之變換矩陣與相機變換矩陣不一致之問題,提高了移動物體位姿變換之準確率。
第一方面,本申請實施例提供一種深度估計網路之訓練方法,該方法包括獲取目標物體之第一圖像和第二圖像,其中,所述第一圖像與所述第二圖像分別為不同時刻之圖像;將所述第一圖像輸入至深度估計網路以得到第一深度圖像;將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係,其中,所述像素位姿轉換關係包括針對所述第一圖像上每一第一像素,所述第一像素與所述第二圖像上第二 像素之間之位置關係,其中所述第一像素與所述第二像素均對應所述目標物體之同一部位;根據所述第一深度圖像、所述像素位姿轉換關係和預先獲取之相機參數,生成重建圖像;根據所述第一圖像、所述深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失;基於所述深度估計網路之損失調節所述深度估計網路之所述參數。
第二方面,本申請實施例提供一種深度估計網路之訓練裝置,包括:圖像獲取模組,用於獲取目標物體之第一圖像和第二圖像,其中,所述第一圖像與所述第二圖像分別為不同時刻之圖像;深度獲取模組,用於將所述第一圖像輸入至深度估計網路以得到第一深度圖像;位姿獲取模組,用於將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係,其中,所述像素位姿轉換關係包括針對所述第一圖像上每一第一像素,所述第一像素與所述第二圖像上第二像素之間之位置關係,其中所述第一像素與所述第二像素均對應所述目標物體之同一部位;生成模組,用於根據所述第一深度圖像、所述像素位姿轉換關係和預先獲取之相機參數,生成重建圖像;確定模組,用於根據所述第一圖像、所述深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失;調節模組,用於基於所述深度估計網路之損失調節所述深度估計網路之所述參數。
第三方面,本申請實施例提供一種電子設備,所述電子設備包括記憶體和處理器,所述記憶體用於存儲至少一個指令,所述處理器用於執行所述至少一個指令時實現如上所述深度估計網路之訓練方法。
第四方面,本申請實施例提供一種電腦可讀存儲介質,所述電腦可讀存儲介質存儲有至少一個指令,所述至少一個指令被處理器執行時實現如上所述深度估計網路之訓練方法。
相較於習知技術,本申請提供之深度估計網路之訓練方法、裝置、電子設備及存儲介質,習知技術之姿態網路是用於輸出相機位姿變換矩陣, 導致此位姿變換矩陣只對靜態物體才能得到正確之結果。本申請實施例藉由輸出每個像素之像素位姿轉換關係,可以解決影像中有移動物體時造成該物體之變換矩陣與相機變換矩陣不一致之問題,提高了移動物體位姿變換之準確率。
100:電子設備
10:記憶體
20:處理器
30:通信單元
40:輸入輸出單元
200:深度估計網路之訓練裝置
210:圖像獲取模組
220:深度獲取模組
230:位姿獲取模組
240:生成模組
250:確定模組
260:調節模組
S30~S35:步驟
S41~S43:步驟
圖1為本申請實施例提供之一種電子設備結構示意圖。
圖2為本申請實施例提供之深度估計網路之訓練裝置結構示意圖。
圖3為本申請實施例提供之一種深度估計網路之訓練方法流程示意圖。
圖4為本申請實施例提供之另一種深度估計網路之訓練方法流程示意圖。
為使本申請實施例之目的、技術方案和優點更加清楚,下面將結合本申請實施例中之附圖,對本申請實施例中之技術方案進行清楚、完整地描述,顯然,所描述之實施例是本申請一部分實施例,而不是全部之實施例。基於本申請中之實施例,本領域普通技術人員於沒有做出創造性勞動前提下所獲得之所有其他實施例,都屬於本申請保護之範圍。
在對本申請實施例進行詳細的解釋說明之前,先對本申請實施例涉及之應用場景予以介紹。
習知技術之姿態網路(PoseNet)演算法模型得到之變換矩陣(RT)是相機之t到t+1時刻之位姿變化,也即相機變換矩陣(RT)。若圖像中存於移動之移動物體,移動物體之變換矩陣與相機變換矩陣不一致,導致無法得到移動物體之準確位姿變化。為此,本申請實施例提供之深度估計網路之訓練方法、裝置、電子設備及存儲介質,藉由獲取每個像素之像素位姿變換矩陣,進而可以讓每個像素根據其對應之像素位姿變換矩陣去學習調整其對應之位姿變換,由此可以解 決影像中有移動物體時造成該物體之變換矩陣與相機變換矩陣不一致之問題,提高了移動物體位姿變換之準確率。
本申請實施例提供之深度估計網路之訓練方法、裝置、電子設備及存儲介質可以應用於自主駕駛、場景理解、機器人學、3D重建、攝影攝像、智慧醫學、智慧人機互動、空間測繪、擴增實境等領域。
請參閱圖1,本申請實施例供一種電子設備100之結構。包括記憶體10、處理器20以及存儲於記憶體10中並可於處理器20上運行之深度估計網路之訓練裝置200。處理器20執行深度估計網路之訓練裝置200時實現深度估計網路之訓練方法實施例中之步驟,例如圖3至圖4所示之步驟。或者,處理器20執行深度估計網路之訓練裝置200時實現網路訓練程式實施例中各模組之功能,例如圖2中之模組210~260。
深度估計網路之訓練裝置200可以被分割成一個或多個模組,一個或者多個模組被存儲於記憶體10中,並由處理器20執行,以完成本申請實施例。一個或多個模組可以是能夠完成特定功能之一系列電腦程式指令段,指令段用於描述深度估計網路之訓練裝置200於電子設備100中之執行過程。例如,深度估計網路之訓練裝置200可以被分割成圖2中圖像獲取模組210、深度獲取模組220、位姿獲取模組230、生成模組240、確定模組250和調節模組260。上述模組之具體功能請參下述各模組之功能。
所稱處理器20可以是中央處理單元(Central Processing Unit,CPU),還可以是其他通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現成可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者處理器20也可以是任何常規之處理器等,處理器20可以利用各種介面和匯流排連接電子設備100之各個部分。
記憶體10可用於存儲深度估計網路之訓練裝置200和/或模組,處理器20藉由運行或執行存儲於記憶體10內之電腦程式和/或模組,以及調用存儲於記憶體10內之資料,實現電子設備100之各種功能。記憶體10可以包括高速隨機存取記憶體,還可以包括非易失性記憶體,例如硬碟、記憶體、插接式硬碟,智慧存儲卡(Smart Media Card,SMC),安全數位(Secure Digital,SD)卡,快閃記憶體卡(Flash Card)、至少一個磁碟記憶體件、快閃記憶體器件、或其他非易失性固態記憶體件。
於一實施方式中,電子設備100還包括通信單元30,通信單元30用於藉由有線或無線之方式與其他電腦裝置建立通信連接。通信單元30可為有線通信單元或無線通訊單元。
電子設備100還可包括輸入輸出單元40,輸入輸出單元40鍵盤、滑鼠、顯示幕等,顯示幕用於顯示電子設備100之媒體檔。
電子設備100可以是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備。本領域技術人員可以理解,示意圖僅是電子設備100之示例,並不構成對電子設備100之限定,可以包括比圖示更多或更少之部件,或者組合某些部件,或者不同之部件,例如電子設備100還可以包括網路接入設備、匯流排等。
請參閱圖2,本申請實施例供一種深度估計網路之訓練裝置200之結構。
參閱圖2所示,深度估計網路之訓練裝置200可以包括圖像獲取模組210、深度獲取模組220、位姿獲取模組230、生成模組240、確定模組250以及調節模組260。於一實施方式中,上述模組可以為存儲於記憶體10中且可被處理器20調用執行之可程式化軟體指令。可以理解的是,於其他實施方式中,上述模組也可為固化於處理器20中之程式指令或固件(firmware)。
圖像獲取模組210用於獲取目標物體之第一圖像和第二圖像,其中,所述第一圖像與所述第二圖像分別為不同時刻之圖像。
深度獲取模組220用於將所述第一圖像輸入至深度估計網路以得到第一深度圖像。
位姿獲取模組230用於將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係,其中,所述像素位姿轉換關係包括針對所述第一圖像上每一第一像素,所述第一像素與所述第二圖像上第二像素之間之位置關係,其中所述第一像素與所述第二像素均對應所述目標物體之同一部位。
生成模組240用於根據所述第一深度圖像、所述像素位姿轉換關係和預先獲取之相機參數,生成重建圖像。
確定模組250用於根據所述第一圖像、所述深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失。
調節模組260用於基於所述深度估計網路之損失調節所述深度估計網路之所述參數。
圖3為本申請實施例一實施方式中深度估計網路之訓練方法之流程圖。根據不同之需求,流程圖中步驟之順序可以改變,某些步驟可以省略。
步驟S30:獲取目標物體之第一圖像和第二圖像,其中,第一圖像與第二圖像分別為不同時刻之圖像。
於本申請實施例中,訓練深度估計網路需要獲取訓練圖像資料,訓練圖像資料包括第一圖像和第二圖像,其中第一圖像和第二圖像均為拍攝同一目標物件之圖像,且第一圖像和第二圖像分別為不同時刻下所拍攝之圖像。例如,第一圖像即為t時刻圖像,第二圖像即為t+1時刻圖像。其中目標物件例如人、動物、車輛、建築物等。其中,第一圖像與第二圖像中均包括可移動之移動物體,例如相對地面移動之車、人等。
具體地,使用單目相機(Monocular Camera)建立一個車輛行駛之訓練集,也即於車輛上安裝一單目相機,單目相機不斷拍攝獲取圖像。單目相機所拍攝獲得之圖像即為訓練集,於訓練集中隨機採樣獲取相鄰兩幀t時刻和t+1時刻之RGB圖像It,It+1,其中It下標t代表著t時刻,It+1下標t+1代表著t+1時刻。
於本申請實施例中,深度估計網路包含深度預測子網路和位姿估計子網路。
深度預測子網路可以為自編碼網路。自編碼器是一類於半監督學習和非監督學習中使用之人工神經網路(Artificial Neural Networks,ANNs),其功能是藉由將輸入資訊作為學習目標,對輸入資訊進行表徵學習(representation learning)。自編碼器包含編碼器(encoder)和解碼器(decoder)兩部分。按學習範式,自編碼器可以被分為收縮自編碼器(contractive autoencoder)、正則自編碼器(regularized autoencoder)和變分自編碼器(Variational AutoEncoder,VAE),其中前兩者是判別模型、後者是生成模型。按建構類型,自編碼器可以是前饋結構或遞迴結構之神經網路。
於一些實施例中,深度預測子網路包括深度編碼器和深度解碼器,深度估計網路之訓練模型將第一圖像饋送藉由深度編碼器,以提取抽象深度特徵。深度編碼器可以使用不同之機器學習演算法和技術來提取該等特徵。
於一些實施例中,位姿估計子網路為深層卷積神經網路。
步驟S31:將第一圖像輸入至深度估計網路以得到第一深度圖像。
於本申請實施例中,步驟S31可以實現為將第一圖像輸入至深度估計網路之訓練子網路,以基於深度估計網路之訓練子網路之參數輸出第一深度圖像。於本申請實施例中,將第一圖像輸入至深度估計網路之訓練模型中,該深度估計網路之訓練模型輸出與第一圖像對應之第一深度圖像。第一深度圖像中每個像素點之像素值(或灰度值)可以代表相對深度也可以代表深度值。相對深度可以理解為各個像素點之前後邏輯關係。其中,像素點對應之現實物體與攝像設 備或參考平面之間之距離稱為該像素點之深度值,也即像素點之深度值計即該點對應之現實物體到上述攝像設備之垂直距離。
示例地,深度編碼器是包括多個層之卷積神經網路,其中每個後續層減小所提取之特徵之維數。例如,於第一層之後,將數量級為10^6個像素或資料點之輸入圖像縮小為數量級為10^5之一組特徵。藉由深度編碼器中之最後一層,抽象深度特徵可以於10^4或更小之數量級。該等數位純粹是出於說明目的。實際上,深度編碼器可以具有不同數目的層,並且像素和深度特徵之數目可以變化。
以相反之方式,深度解碼器包括多個層以增加抽象特徵之維數。
如上述示例,深度解碼器可以採用數量級為10^4之抽象深度特徵,並且於多個層上逐步匯出輸入圖像之每個像素處之深度(相對深度or深度值)。然後,深度解碼器輸出第一深度圖像,其中深度圖上之每個像素對應於場景中之被投影到該像素之最近物件之距離。
於一些實施例中,深度解碼器輸出視差圖,其中視差圖上之每個像素對應於距離之倒數。於本申請實施例中,參考深度圖描述之原理容易地應用於具有視差圖之實現中。例如,第一圖像已經於給定像素處捕獲了距相機某個未知距離之樹。深度解碼器輸出與從相機到該像素處之街區之距離相對應之深度值。
於一些實施例中,輸出深度值可以相對於另一深度值。於其他實施例中,輸出深度值按比例縮放,以提供對場景中之物件之真實測量,例如,一個街區於10米之外,或建築物於25米之外。
步驟S32:將第一圖像和第二圖像輸入至深度估計網路,以獲取第一圖像和第二圖像之間之像素位姿轉換關係,其中,像素位姿轉換關係包括針對第一圖像上每一第一像素,第一像素與第二圖像上第二像素之間之位置關係,其中第一像素與第二像素均對應目標物體之同一部位。
於本申請實施例中,步驟S32可以實現為將第一圖像和第二圖像輸入至位姿估計子網路,以提取第一圖像和第二圖像之間之像素位姿轉換關係。也即該位姿估計子網路輸出之像素位姿轉換關係即包括第一圖像或第二圖像上所有像素之像素變換矩陣,該像素變換矩陣為某一像素於第一圖像與第二圖像中之位姿變換關係。
於本申請實施例中,位姿估計子網路接收多個級聯圖像(如第一圖像和第二圖像)以確定每個輸入之圖像之姿態。姿態通常是指兩個圖像之透視圖之間之數學變換。於一些實施例中,姿態更一般地描述了圖像之透視圖,其中該透視圖可以用於定義兩個圖像之間之變換。
於本申請實施例中,位姿估計子網路可以包括姿態編碼器和姿態編碼器。將第一圖像和第二圖像放入姿態編碼器中,該姿態編碼器從第一圖像和第二圖像中提取抽象姿態特徵。然後抽象姿態特徵被輸入藉由姿態解碼器,該姿態解碼器確定第一圖像和第二圖像之間之像素位姿轉換關係。姿態編碼器可以被配置為包括多個層之卷積神經網路,以用於提取抽象姿態特徵並且然後推導第一圖像和第二圖像之姿態。
示例性地,針對目標物體上之P點,該P點對應到第一圖像中之第一像素P1,該P點對應到第二圖像中之第二像素點P2,位姿估計子網路求解出第一像素P1到第二像素點P2之間之像素位姿轉換關係。以此類推,針對第一圖像中所有像素點均求出該第一圖像中所有第一像素點之像素位姿轉換關係。
步驟S33:根據第一深度圖像、像素位姿轉換關係和預先獲取之相機參數,生成重建圖像。
於本申請實施例中,於獲取第一深度圖像後,可基於第一深度圖像中各像素點之深度值、第一圖像和第二圖像之間之像素位姿轉換關係以及相機參數生成重建圖像。
具體地,將第一深度圖像中各像素點之深度值、預先獲取之相機參數、像素位姿轉換關係以及各像素點於第一圖像中之位置座標作為位置轉換演算法之輸入,獲取輸出之各像素點於重建圖像中對應之位置座標;確定第一深度圖像中各像素點之像素值,並基於像素值和位置座標生成重建圖像。
具體地,位置轉換演算法之公式如式(1)所示,將第一深度圖像中各像素點之深度值、相機參數、像素位姿轉換關係以及第一圖像中各像素點之位置座標輸入式(1),即可獲得第一圖像中各像素點於重建圖像中所對應之位置。
B2=KTD1K-1B1 式(1)
其中,B1為第一圖像中各像素點之位置,用(x1,y1)表示,B2為第一圖像中各像素點於重建圖像中所對應之位置,用(x2,y2)表示,K為由相機參數組成之矩陣,T為像素位姿轉換關係,K之列數與T之行數相等。
步驟S34:根據第一圖像、深度圖像、重建圖像和第二圖像之間之差異,確定深度估計網路之損失。
請一併參閱圖4,圖4為本申請實施例提供之一種深度估計網路之訓練方法示意圖。
步驟S41:使用第一損失函數計算所述第一圖像和所述重建圖像之間之亮度誤差。
步驟S42:使用第二損失函數計算所述第一圖像和所述第一深度圖像之間之梯度誤差。
步驟S43:基於所述亮度誤差和所述梯度誤差,計算所述深度估計網路之損失。
所述第一損失函數為:
Figure 111121160-A0305-02-0012-1
,for j
Figure 111121160-A0305-02-0012-5
S
其中,▽Dt(j)表示所述目標物體於所述第一圖像It中所於區域之梯度,▽It(j)表示所述目標物體於所述第一深度圖像Dt中所於區域之梯度,S為所述目標物體於第一圖像It中所於區域之像素點集;所述第二損失函數為:Lph(It,I`t)=(1-α)|I`t(u,v)-It(u,v)|+α LSSIM;其中,Lph(It,I`t)表示亮度一致性誤差,It表示所述重建圖像,I`t表示所述第二圖像,α是一個權重平衡超參數,LSSIM=(1-SSIM(It,I`t)/2),SSIM是用於衡量所述重建圖像和所述第二圖像相似度之指標,|I`t(u,v)-It(u,v)|表示所述重建圖像和所述第二圖像之灰度差異。
步驟S35:基於深度估計網路之損失調節深度估計網路之參數。
於本申請實施例中,步驟S35可以實現為藉由最小化所述亮度誤差和所述梯度誤差,對所述位姿估計子網路和所述深度估計網路之訓練子網路之參數進行反覆運算更新。
於本申請實施例中,位姿估計子網路輸出每個像素之位姿轉換關係,然後讓位姿估計子網路學習調整每個像素之位姿轉換關係,所以可以解決影像中有移動物體時造成該物體之變換矩陣與相機變換矩陣不一致之問題,提高了移動物體位姿變換之準確率。
本申請實施例還提供一種電腦可讀存儲介質,所述電腦可讀存儲介質存儲有至少一個指令,所述至少一個指令被處理器執行時實現如上深度估計網路之訓練方法。
最後應說明的是,以上實施例僅用以說明本發明之技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域之普通技術人員應當理解,可以對本發明之技術方案進行修改或等同替換,而不脫離本發明技術方案之精神和範圍。
S30~S35:步驟

Claims (10)

  1. 一種深度估計網路之訓練方法,應用於電子設備,其改良在於,所述方法包括:獲取目標物體之第一圖像和第二圖像,其中,所述第一圖像與所述第二圖像分別為不同時刻之圖像;將所述第一圖像輸入至深度估計網路以得到第一深度圖像;將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係,其中,所述像素位姿轉換關係包括針對所述第一圖像上每一第一像素,所述第一像素與所述第二圖像上第二像素之間之位置關係,其中所述第一像素與所述第二像素均對應所述目標物體之同一部位;根據所述第一深度圖像、所述像素位姿轉換關係和預先獲取之相機參數,生成重建圖像;根據所述第一圖像、所述第一深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失;基於所述深度估計網路之損失調節所述深度估計網路之參數。
  2. 如請求項1所述之深度估計網路之訓練方法,其中,所述深度估計網路包括位姿估計子網路;所述將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係包括:將所述第一圖像和所述第二圖像輸入至所述位姿估計子網路,以提取所述第一圖像和所述第二圖像之間之像素位姿轉換關係。
  3. 如請求項2所述之深度估計網路之訓練方法,其中,所述深度估計網路還包括深度估計子網路;所述將所述第一圖像輸入至深度估計網路以得到第一深度圖像包括: 將所述第一圖像輸入至深度估計子網路,以基於所述深度估計子網路之參數輸出所述第一深度圖像。
  4. 如請求項1至3中任意一項所述之深度估計網路之訓練方法,其中,所述根據所述第一圖像、所述第一深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失包括:使用第一損失函數計算所述第一圖像和所述重建圖像之間之光度誤差;使用第二損失函數計算所述第一圖像和所述第一深度圖像之間之梯度誤差;基於所述光度誤差和所述梯度誤差,計算所述深度估計網路之損失。
  5. 如請求項4所述之深度估計網路之訓練方法,其中,所述第一損失函數為:
    Figure 111121160-A0305-02-0016-3
    ,for j
    Figure 111121160-A0305-02-0016-4
    S其中,▽Dt(j)表示所述目標物體於所述第一圖像It中所在區域之梯度,▽It(j)表示所述目標物體於所述第一深度圖像Dt中所在區域之梯度,S為所述目標物體於第一圖像It中所在區域之像素點集;所述第二損失函數為:Lph(It,I`t)=(1-α)|I`t(u,v)-It(u,v)|+α LSSIM;其中,Lph(It,I`t)表示光度一致性誤差,It表示所述重建圖像,I`t表示所述第二圖像,α是一個權重平衡超參數,LSSIM=(1-SSIM(It,I`t)/2),SSIM是用於衡量所述重建圖像和所述第二圖像相似度之指標,|I`t(u,v)-It(u,v)|表示所述重建圖像和所述第二圖像之灰度差異。
  6. 如請求項5所述之深度估計網路之訓練方法,其中,所述基於所述深度估計網路之損失調節所述深度估計網路之參數包括:藉由最小化所述光度誤差和所述梯度誤差,對所述位姿估計子網路和所述深度估計子網路之參數進行反覆運算更新。
  7. 如請求項6所述之深度估計網路之訓練方法,其中,所述深度預測子網路為自編碼網路,包含編碼器和解碼器;所述位姿估計子網路為深 層卷積神經網路。
  8. 一種深度估計網路之訓練裝置,其改良在於,包括:圖像獲取模組,用於獲取目標物體之第一圖像和第二圖像,其中,所述第一圖像與所述第二圖像分別為不同時刻之圖像;深度獲取模組,用於將所述第一圖像輸入至深度估計網路以得到第一深度圖像;位姿獲取模組,用於將所述第一圖像和所述第二圖像輸入至所述深度估計網路,以獲取所述第一圖像和所述第二圖像之間之像素位姿轉換關係,其中,所述像素位姿轉換關係包括針對所述第一圖像上每一第一像素,所述第一像素與所述第二圖像上第二像素之間之位置關係,其中所述第一像素與所述第二像素均對應所述目標物體之同一部位;生成模組,用於根據所述第一深度圖像、所述像素位姿轉換關係和預先獲取之相機參數,生成重建圖像;確定模組,用於根據所述第一圖像、所述第一深度圖像、所述重建圖像和所述第二圖像之間之差異,確定所述深度估計網路之損失;調節模組,用於基於所述深度估計網路之損失調節所述深度估計網路之參數。
  9. 一種電子設備,其改良在於,所述電子設備包括記憶體和處理器,所述記憶體用於存儲至少一個指令,所述處理器用於執行所述至少一個指令時實現如請求項1至7中任意一項所述之深度估計網路之訓練方法。
  10. 一種電腦可讀存儲介質,其改良在於,所述電腦可讀存儲介質存儲有至少一個指令,所述至少一個指令被處理器執行時實現如請求項1至7中任意一項所述之深度估計網路之訓練方法。
TW111121160A 2022-06-08 2022-06-08 深度估計網路之訓練方法、裝置、電子設備及存儲介質 TWI823416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW111121160A TWI823416B (zh) 2022-06-08 2022-06-08 深度估計網路之訓練方法、裝置、電子設備及存儲介質

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111121160A TWI823416B (zh) 2022-06-08 2022-06-08 深度估計網路之訓練方法、裝置、電子設備及存儲介質

Publications (2)

Publication Number Publication Date
TWI823416B true TWI823416B (zh) 2023-11-21
TW202349281A TW202349281A (zh) 2023-12-16

Family

ID=89722648

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111121160A TWI823416B (zh) 2022-06-08 2022-06-08 深度估計網路之訓練方法、裝置、電子設備及存儲介質

Country Status (1)

Country Link
TW (1) TWI823416B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201800057A (zh) * 2016-06-20 2018-01-01 蝴蝶網路公司 用於協助使用者操作超音波裝置的自動化影像獲取
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
TW202117611A (zh) * 2019-10-29 2021-05-01 南韓商三星電子股份有限公司 電腦視覺訓練系統及訓練電腦視覺系統的方法
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201800057A (zh) * 2016-06-20 2018-01-01 蝴蝶網路公司 用於協助使用者操作超音波裝置的自動化影像獲取
CN110503680A (zh) * 2019-08-29 2019-11-26 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法
TW202117611A (zh) * 2019-10-29 2021-05-01 南韓商三星電子股份有限公司 電腦視覺訓練系統及訓練電腦視覺系統的方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TW202349281A (zh) 2023-12-16

Similar Documents

Publication Publication Date Title
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN110108258B (zh) 一种单目视觉里程计定位方法
CN110610486B (zh) 单目图像深度估计方法及装置
US20240046557A1 (en) Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model
CN112733797B (zh) 人脸图像的视线矫正方法、装置、设备及存储介质
US20230394693A1 (en) Method for training depth estimation model, training apparatus, and electronic device applying the method
CN112085835B (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN111754622B (zh) 脸部三维图像生成方法及相关设备
CN115601511A (zh) 三维重建方法、装置、计算机设备及计算机可读存储介质
CN114898062A (zh) 一种基于动态场景下slam的地图构建方法及装置
CN117252988A (zh) 图像数据的处理方法、设备及计算机可读存储介质
US20230401737A1 (en) Method for training depth estimation model, training apparatus, and electronic device applying the method
CN114219900A (zh) 基于混合现实眼镜的三维场景重建方法、重建系统和应用
CN113886510A (zh) 一种终端交互方法、装置、设备及存储介质
CN117152228A (zh) 基于通道自注意力机制的自监督图像深度估计方法
TWI823416B (zh) 深度估計網路之訓練方法、裝置、電子設備及存儲介質
CN107240149A (zh) 基于图像处理的物体三维模型构建方法
CN113034675B (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
TWI819639B (zh) 深度估計模型之訓練方法、裝置、電子設備及存儲介質
CN118037963B (zh) 消化腔内壁三维模型的重建方法、装置、设备和介质
KR102648938B1 (ko) 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치
US20240221200A1 (en) Method for identifying depths of images and related device
EP3929870A1 (en) Method for subpixel disparity calculation
CN116664746B (zh) 人脸重建方法及装置、计算机可读存储介质、终端