TWI803328B

TWI803328B - 深度圖像生成方法、系統、電子設備及可讀存儲介質

Info

Publication number: TWI803328B
Application number: TW111119310A
Authority: TW
Inventors: 楊榮浩; 盧志德; 郭錦斌
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2023-05-21
Also published as: TW202347186A

Abstract

一種深度圖像生成方法包括：獲取多組原始雙目圖像，基於所述多組原始雙目圖像建立含有實例分割標籤的數據集；利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；獲取單目圖像，將所述單目圖像輸入所述訓練完成的自編碼器網路，得到第一視差圖；對所述第一視差圖進行轉換，得到所述單目圖像對應的深度圖像。本申請還提出一種深度圖像生成系統、電子設備及電腦可讀存儲介質。

Description

深度圖像生成方法、系統、電子設備及可讀存儲介質

本申請涉及影像處理技術領域，尤其涉及一種深度圖像生成方法、系統、電子設備及電腦可讀存儲介質。

隨著機器學習技術的發展，深度學習網路已經應用於眾多現實場景中，例如自動駕駛等。在這些應用中，預測結果是十分重要的，若預測錯誤的像素出現在十分重要的區域，例如：比較細小的障礙物，可能會造成基於深度學習的避讓系統失靈。

因此，單目深度估計是深度學習中亟待解決的關鍵技術，單目深度估計的具體任務指的是預測一張圖片中每個像素點的深度。其中，由每個像素點的深度值組成的圖片又稱為深度圖。單目深度估計對於自動駕駛中的障礙物檢測、三維場景重建，場景立體分析有著重要的意義。

有鑑於此，本申請提出了一種深度圖像生成方法、系統、電子設備及電腦可讀存儲介質，可生成與單目圖像對應的深度圖像，提高深度估計精度。

第一方面，本申請一實施例提供一種深度圖像生成方法，包括：獲取多組原始雙目圖像，基於所述多組原始雙目圖像建立含有實例分割標籤的數據集；利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；獲取單目圖像，將所述單目圖像輸入所述訓練完成的自編碼器網路，得到第一視差圖；對所述第一視差圖進行轉換，得到所述單目圖像對應的深度圖像。

於一實施例中，所述多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，所述利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路，包括：將所述第一圖像輸入所述自編碼器網路，得到第二視差圖；利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖；將所述第一圖像與所述第三視差圖進行相加，得到所述第二圖像的預測圖像；利用預設均方差公式計算所述第二圖像與所述預測圖像的誤差；將所述誤差作為所述自編碼器網路的訓練損失，直至訓練損失收斂，得到訓練完成的自編碼器網路。

於一實施例中，所述利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖，包括：基於所述實例分割標籤生成注意力圖像，基於所述注意力圖像對所述第二視差圖進行融合與修正，得到第三視差圖。

於一實施例中，所述預設均方差公式為：

其中，MSE為所述預測圖像與所述第二圖像的誤差，y_i為所述第二圖像的第i個像素點，

為所述第二圖像的平均像素值，n為所述第二圖像的像素點數。

於一實施例中，所述第一圖像為原始雙目圖像的左圖像，所述第二圖像為所述原始雙目圖像的右圖像。

於一實施例中，所述第一圖像為原始雙目圖像的右圖像，所述第二圖像為原始雙目圖像的左圖像。

第二方面，本申請一實施例提供一種深度圖像生成系統，包括：圖像獲取模組，用於獲取多組原始雙目圖像，基於所述多組原始雙目圖像建立含有實例分割標籤的數據集；模型訓練模組，用於利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；圖像推論模組，用於獲取單目圖像，將所述單目圖像輸入所述訓練完成的自編碼器網路，得到第一視差圖；圖像轉換模組，用於對所述第一視差圖進行轉換，得到所述單目圖像對應的深度圖像。

於一實施例中，所述多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，所述模型訓練模組，包括：圖像生成單元，用於將所述第一圖像輸入所述自編碼器網路，得到第二視差圖；數據處理單元，用於利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖；第一計算單元，用於將所述第一圖像與所述第三視差圖進行相加，得到所述第二圖像的預測圖像；第二計算單元，用於利用預設均方差公式計算所述第二圖像與所述預測圖像的誤差；模型訓練單元，用於將所述誤差作為所述自編碼器網路的訓練損失，直至訓練損失收斂，得到訓練完成的自編碼器網路。

第三方面，本申請一實施例提供一種電子設備，所述電子設備包括處理器和存儲器，所述存儲器用於存儲指令，所述處理器用於調用所述存儲器中的指令，使得所述電子設備執行第一方面所述的深度圖像生成方法。

第四方面，本申請一實施例提供一種電腦可讀存儲介質，所述電腦可讀存儲介質存儲電腦指令，當所述電腦指令在電子設備上運行時，使得所述電子設備執行如第一方面所述的深度圖像生成方法。

本申請實施方式提供的深度圖像生成方法、系統、電子設備及電腦可讀存儲介質，通過將雙目圖像與實例分割圖像結合作為訓練自編碼器網路的訓練數據，只需將單目圖像輸入自編碼器網路，即可輸出視差圖，通過視差圖轉換即可生成與單目圖像對應的深度圖像，可以提高深度估計精度題。

20:深度圖像生成系統

21:圖像獲取模組

22:模型訓練模組

23:圖像推論模組

24:圖像轉換模組

221:圖像生成單元

222:數據處理單元

223:第一計算單元

224:第二計算單元

225:模型訓練單元

S100、S200、S300、S400:步驟

S210、S220、S230、S240、S250:步驟

圖1為本申請一實施例的深度圖像生成方法的步驟流程示意圖。

圖2為圖1所示的深度圖像生成方法的一步驟流程的細分流程示意圖。

圖3為本申請一實施例的深度圖像生成系統的功能模組示意圖。

圖4為圖3所示的深度圖像生成系統的功能模組的細分功能示意圖。

下面將結合本申請實施方式中的附圖，對本申請實施方式中的技術方案進行清楚、完整地描述，顯然，所描述的實施方式是本申請一部分實施方式，而不是全部的實施方式。

需要說明的是，本申請實施例中“至少一個”是指一個或者多個，多個是指兩個或兩個以上。除非另有定義，本文所使用的所有的技術和科學術語與屬於本申請中的技術領域的技術人員通常理解的含義相同。本申請的說明書中所使用的術語只是為了描述具體的實施例的目的，不是旨在於限制本申請。

需要說明的是，本申請實施例中，“第一”、“第二”等詞彙，僅用於區分描述的目的，而不能理解為指示或暗示相對重要性，也不能理解為指示或暗示順序。限定有“第一”、“第二”的特徵可以明示或者隱含地包括一個或者更多個所述特徵。在本申請實施例的描述中，“示例性的”或者“例如”等詞用於表示作例子、例證或說明。本申請實施例中被描述為“示例性的”或者“例如”的任何實施例或設計方案不應被解釋為比其它實施例或設計方案更優選或更具優勢。確切而言，使用“示例性的”或者“例如”等詞旨在以具體方式呈現相關概念。

請參閱圖1，為本申請一實施例提供的深度圖像生成方法的步驟流程示意圖。

具體地，該深度圖像生成方法可以包括：

S100，獲取多組原始雙目圖像，基於多組原始雙目圖像建立含有實例分割標籤的數據集。

在本實施例中，獲取原始雙目圖像可以是從圖像採集設備直接獲取的圖像，例如：圖像採集設備為攝像機等，也可以從存放裝置獲取的預先存儲的圖像，例如：存放裝置為U盤等，還可以是通過網路從網站伺服器獲取的圖像，從本實施例對原始雙目圖像的獲得方式不作限定。

在本實施例中，實例分割為圖像中可能包括屬於同一類別的多個實例，需要對其進行區分。例如，對於一靶心圖表像，該靶心圖表像中可能包括屬於人這一類別的數量為多個，即包括多個人，在實例分割中，需要對這多個人進行區分，每個人都可以得到相應的實例分割標籤。對原始雙目圖像進行實例分割處理，可以得到原始雙目圖像的實例分割標籤。根據原始雙目圖像的實例分割標籤，得到含有實例分割標籤的數據集。

S200，利用含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路。

在本實施例中，利用基於多組原始雙目圖像建立的含有實例分割標籤的數據集訓練自編碼器網路，可以得到較好的訓練效果，具體訓練步驟可以參閱圖2所示的訓練流程示意圖。

S300，獲取單目圖像，將單目圖像輸入訓練完成的自編碼器網路，得到第一視差圖。

在本實施例中，可以由單目相機來獲取單目圖像，單目圖像可以包含任意場景的圖片。

自編碼器網路的樣本數據來自雙目圖像，也就是說，利用雙目圖像的視差來指導單目圖像深度的預測，可以提高深度預測的精確度。

S400，對第一視差圖進行轉換，得到單目圖像對應的深度圖像。

在本實施例中，獲取單目圖像後，將單目圖像輸入至經過訓練得到的自編碼器網路，自編碼器網路輸出單目圖像對應的第一視差圖，而不是深度圖像。因此，還需要根據自編碼器網路輸出的第一視差圖、拍攝單目圖像的單目相機的鏡頭基線距離和鏡頭焦距，對第一視差圖進行轉化，從而得到確定單目圖像對應的深度圖像。

進一步結合圖2所示，在本實施例中，多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，自編碼器網路可以通過以下步驟訓練完成：

S210，將第一圖像輸入自編碼器網路，得到第二視差圖。

S220，利用實例分割標籤對第二視差圖進行數據處理，得到第三視差圖。

在本實施例中，可以基於實例分割標籤生成注意力圖像，基於注意力圖像作為注意力機制的導引，對第二視差圖進行融合與修正，得到更精細的第三視差圖。

S230，將第一圖像與第三視差圖進行相加，得到第二圖像的預測圖像。

S240，利用預設均方差公式計算第二圖像與預測圖像的誤差。

在本實施例中，預設均方差公式可以為：

其中，MSE為預測圖像與第二圖像的誤差，y_i為第二圖像的第i個像素點，

為第二圖像的平均像素值，n為第二圖像的像素點數。

S250，將誤差作為自編碼器網路的訓練損失，直至訓練損失收斂，得到訓練完成的自編碼器網路。

在本實施例中，第一圖像可以為原始雙目圖像的左圖像，第二圖像可以為原始雙目圖像的右圖像。在其他實施例中，第一圖像可以為原始雙目圖像的右圖像，第二圖像可以為原始雙目圖像的左圖像。也就是說，視差圖可以是以左視圖為基準得到的左視圖對應的視差圖，也可以是以右視圖為基準得到的右視圖對應的視差圖，本實施例對此不作限定。

本申請中自編碼器網路的訓練樣本數據來自含有實例分割標籤的原始雙目圖像，也就是說，本申請利用了雙目視差來指導單目圖像深度的預測。因此，本申請的深度圖像生成方法無需大量的標記數據，可以得到較好的訓練效果。

進一步結合圖3所示，基於與上述實施例中的基於單目相機的物體檢測方法相同的思想，本申請還提供一種深度圖像生成系統20，該深度圖像生成系統20可用於執行上述基於單目相機的物體檢測方法。為了便於說明，深度圖像生成系統20的功能模組示意圖中，僅僅示出了與本申請實施例相關的部分，本領域技術人員可以理解，圖示結構並不構成對該深度圖像生成系統20的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

具體地，在本實施例中，深度圖像生成系統20可以應用在電子設備中，深度圖像生成系統20可以包括：圖像獲取模組21，用於獲取多組原始雙目圖像，基於多組原始雙目圖像建立含有實例分割標籤的數據集；模型訓練模組22，用於利用含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；圖像推論模組23，用於獲取單目圖像，將單目圖像輸入訓練完成的自編碼器網路，得到第一視差圖；圖像轉換模組24，用於對第一視差圖進行轉換，得到單目圖像對應的深度圖像。

在本實施例中，多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，進一步結合圖4所示，模型訓練模組22可以包括：圖像生成單元221，用於將第一圖像輸入自編碼器網路，得到第二視差圖；數據處理單元222，用於利用實例分割標籤對第二視差圖進行數據處理，得到第三視差圖；第一計算單元223，用於將第一圖像與第三視差圖進行相加，得到第二圖像的預測圖像；第二計算單元224，用於利用預設均方差公式計算第二圖像與預測圖像的誤差；模型訓練單元225，用於將誤差作為自編碼器網路的訓練損失，直至訓練損失收斂，得到訓練完成的自編碼器網路。

本申請還公開一種電子設備，電子設備包括處理器和存儲器，存儲器用於存儲指令，處理器用於調用存儲器中的指令，使得電子設備執行上述實施例中的深度圖像生成方法的步驟。其中，電子設備可以是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備，終端設備可以與使用者通過鍵盤、滑鼠、遙控器、觸控板或聲控設備等方式進行人機交互。

本申請還公開一種電腦可讀存儲介質，電腦可讀存儲介質存儲電腦指令，當電腦指令在電子設備上運行時，使得電子設備執行上述實施例中的深度圖像生成方法的步驟。其中，存儲介質可以是U盤、移動硬盤、只議存儲器ROM、隨機存取存儲器RAM、磁盤或者光盤等各種可以存儲程式碼的介質。

本申請實施方式提供的深度圖像生成方法、系統、電子設備及電腦可讀存儲介質，通過以雙目圖像與實例分割圖像結合訓練自編碼器網路，只需使用單目圖像作為輸入，自編碼器網路即可輸出視差圖，通過視差圖轉換即可得到深度圖像，可以提高深度估計精度，解決了深度重建中細節部分恢復效果差的問題。

本技術領域的普通技術人員應當認識到，以上的實施方式僅是用來說明本申請，而並非用作為對本申請的限定，只要在本申請的實質精神範圍之內，對以上實施例所作的適當改變和變化都落在本申請要求保護的範圍之內。

S100、S200、S300、S400:步驟

Claims

一種深度圖像生成方法，其中，包括：獲取多組原始雙目圖像，基於所述多組原始雙目圖像建立含有實例分割標籤的數據集；利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；獲取單目圖像，將所述單目圖像輸入所述訓練完成的自編碼器網路，得到第一視差圖；對所述第一視差圖進行轉換，得到所述單目圖像對應的深度圖像。
如請求項1所述的深度圖像生成方法，其中，所述多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，所述利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路，包括：將所述第一圖像輸入所述自編碼器網路，得到第二視差圖；利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖；將所述第一圖像與所述第三視差圖進行相加，得到所述第二圖像的預測圖像；利用預設均方差公式計算所述第二圖像與所述預測圖像的誤差；將所述誤差作為所述自編碼器網路的訓練損失，直至訓練損失收斂，得到所述訓練完成的自編碼器網路。
如請求項2所述的深度圖像生成方法，其中，所述利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖，包括：基於所述實例分割標籤生成注意力圖像，基於所述注意力圖像對所述第二視差圖進行融合與修正，得到所述第三視差圖。
如請求項2所述的深度圖像生成方法，其中，所述預設均方差公式為：
其中，MSE為所述預測圖像與所述第二圖像的誤差，y_i為所述第二圖像的第i個像素點，
為所述第二圖像的平均像素值，n為所述第二圖像的像素點數。
如請求項2所述的深度圖像生成方法，其中，所述第一圖像為所述原始雙目圖像的左圖像，所述第二圖像為所述原始雙目圖像的右圖像。
如請求項2所述的深度圖像生成方法，其中，所述第一圖像為所述原始雙目圖像的右圖像，所述第二圖像為所述原始雙目圖像的左圖像。
一種深度圖像生成系統，其中，包括：圖像獲取模組，用於獲取多組原始雙目圖像，基於所述多組原始雙目圖像建立含有實例分割標籤的數據集；模型訓練模組，用於利用所述含有實例分割標籤的數據集訓練自編碼器網路，得到訓練完成的自編碼器網路；圖像推論模組，用於獲取單目圖像，將所述單目圖像輸入所述訓練完成的自編碼器網路，得到第一視差圖；圖像轉換模組，用於對所述第一視差圖進行轉換，得到所述單目圖像對應的深度圖像。
如請求項7所述的深度圖像生成系統，所述多組原始雙目圖像中的每組原始雙目圖像均包括第一圖像與第二圖像，其中，所述模型訓練模組，包括：圖像生成單元，用於將所述第一圖像輸入所述自編碼器網路，得到第二視差圖；數據處理單元，用於利用所述實例分割標籤對所述第二視差圖進行數據處理，得到第三視差圖；第一計算單元，用於將所述第一圖像與所述第三視差圖進行相加，得到所述第二圖像的預測圖像；第二計算單元，用於利用預設均方差公式計算所述第二圖像與所述預測圖像的誤差；模型訓練單元，用於將所述誤差作為所述自編碼器網路的訓練損失，直至訓練損失收斂，得到所述訓練完成的自編碼器網路。
一種電子設備，其中，所述電子設備包括處理器和存儲器，所述存儲器用於存儲指令，所述處理器用於調用所述存儲器中的指令，使得所述電子設備執行如請求項1至請求項6中任一項所述的深度圖像生成方法。
一種電腦可讀存儲介質，其中，所述電腦可讀存儲介質存儲電腦指令，當所述電腦指令在電子設備上運行時，使得所述電子設備執行如請求項1至請求項6中任一項所述的深度圖像生成方法。