TWI798094B

TWI798094B - 深度估計模型訓練方法、深度估計方法及電子設備

Info

Publication number: TWI798094B
Application number: TW111119300A
Authority: TW
Inventors: 簡瑜萱; 郭錦斌
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2023-04-01
Also published as: TW202347179A

Abstract

本申請公開一種深度估計模型訓練方法、深度估計方法及電子設備。深度估計模型訓練方法包括：擷取第一圖像對，第一圖像對包括第一左圖像和第一右圖像。將第一左圖像輸入至待訓練之深度估計模型，擷取視差圖。將第一左圖像與視差圖相加，擷取第二右圖像。計算第一右圖像和第二右圖像中所有對應像素點處像素值之均方差和餘弦相似度。對所有的均方差和餘弦相似度分別計算平均值，擷取均方差之第一平均值和餘弦相似度之第二平均值。將第一平均值和第二平均值相加，擷取深度估計模型之損失值。根據損失值反覆運算訓練深度估計模型。

Description

深度估計模型訓練方法、深度估計方法及電子設備

本申請涉及機器視覺技術領域，具體涉及一種深度估計模型訓練方法、深度估計方法及電子設備。

圖像之深度估計是機器視覺領域之基礎問題，其可應用於自動駕駛、場景理解、機器人學、三維重建、攝影攝像、智慧醫學、智能人機交互、空間測繪、增強現實等領域。舉例而言，在自動駕駛領域中，圖像之深度資訊可用於識別車輛前方之障礙物，例如識別車輛前方是否存在行人或其他車輛。

深度估計需要藉由重建圖像來擷取深度資訊。然，採用目前之深度估計方法，圖像之低紋理區域各個像素點之間之顏色差異較小，導致在低紋理區域可能會發生像素點之誤判，從而影響到深度資訊之準確性。

本申請提供一種深度估計模型訓練方法、深度估計方法及電子設備，能夠提高深度估計模型對顏色之敏感度，從而提升深度資訊之準確性。

本申請第一方面提供一種深度估計模型訓練方法，包括：從訓練資料集中擷取第一圖像對，第一圖像對包括第一左圖像和第一右圖像。將第一左圖像輸入至待訓練之深度估計模型，擷取視差圖。將第一左圖像與視差圖相加，擷取第二右圖像。計算第一右圖像和第二右圖像中所有對應像素點處像素值之均方差和餘弦相似度。對所有對應像素點處像素值之均方差和餘弦相似度分別計算平均值，擷取均方差之第一平均值和餘弦相似度之第二平均值。將第一平均值和第二平均值相加，擷取深度估計模型之損失值。根據損失值反覆運算訓練深度估計模型。

採用本實施例之深度估計模型訓練方法，深度估計模型之損失值結合均方差和餘弦相似度，既可以提高深度估計模型之預測精確度，又可以提高深度估計模型對顏色之敏感度，即使在低紋理區域也可以區分各個像素點之間之顏色差異。

本申請第二方面提供一種深度估計方法，包括：擷取第一圖像。將第一圖像輸入至預訓練之深度估計模型，擷取第一深度圖像。

其中，深度估計模型是採用本申請第一方面提供之深度估計模型訓練方法訓練得到之模型。

採用本實施例之深度估計方法，藉由深度估計模型擷取第一深度圖像，可提升第一深度圖像中深度資訊之準確性。

本申請第三方面提供一種電子設備，包括處理器和記憶體，處理器可以運行存儲於記憶體中之電腦程式或代碼，實現本申請第一方面提供之深度估計模型訓練方法，或者實現本申請第二方面提供之深度估計方法。

可以理解，本申請第三方面之具體實施方式和有益效果與本申請第一方面和第二方面之具體實施方式和有益效果相同，在此不再贅述。

需要說明的是，本申請實施例中“至少一個”是指一個或者複數，“複數”是指兩個或多於兩個。“和/或”，描述關聯物件之關聯關係，表示可以存在三種關係，例如，A和/或B可以表示：單獨存在A，同時存在A和B，單獨存在B之情況，其中A，B可以是單數或者複數。本申請之說明書和發明申請專利範圍及附圖中之術語“第一”、“第二”、“第三”、“第四”等(如果存在)是用於區別類似之物件，而不是用於描述特定之順序或先後次序。

另外需要說明的是，本申請實施例中公開之方法或流程圖所示出之方法，包括用於實現方法之一個或複數步驟，在不脫離請求項之範圍之情況下，複數步驟之執行順序可以彼此互換，其中某些步驟也可以被刪除。

下面對本申請實施例中之部分用語進行解釋說明，以便於本領域具通常技藝者理解。

1，深度估計

深度估計用於擷取圖像中每個像素點到相機之距離資訊，包含距離資訊之圖像稱為深度圖像(Depth Image)。

2，視差

兩張圖像中相同物體之像素座標不同，到相機距離較近之物體之像素座標差異較大，到相機距離較遠之物體之像素座標差異較小。同一個世界坐標系下之點在不同圖像中之像素座標差異，就是視差。不同圖像之間之視差，可以根據相機參數換算出物體到相機之距離，也就是深度。

以立體圖像對(包括左圖像和右圖像)中之一幅圖像為基準圖像(例如左圖像)，其大小為基準圖像之大小，元素值為視差值之圖像稱為視差圖(Disparity Map)。視差估計是求取左圖像和右圖像之間對應像素點之視差值之過程，也就是立體匹配過程。

3，自編碼器(Autoencoder, AE)

自編碼器是一類在半監督學習和非監督學習中使用之人工神經網路(Artificial Neural Networks, ANNs)，其藉由將輸入資訊作為學習目標，對輸入資訊進行表徵學習(Representation Learning)。自編碼器包含編碼器(Encoder)和解碼器(Decoder)兩部分。按學習範式，自編碼器可以被分為收縮自編碼器(Contractive Autoencoder)、正則自編碼器(Regularized Autoencoder)和變分自編碼器(Variational Autoencoder, VAE)。按構築類型，自編碼器可以是前饋結構或遞迴結構之神經網路。

下面以本申請實施例提供之深度估計方法應用於自動駕駛場景進行說明。可以理解，本申請實施例提供之深度估計方法不限制於應用於自動駕駛場景。

可參閱圖1，圖1為本申請實施例提供之深度估計方法之應用場景示意圖。

如圖1所示，車輛100包括設置在車輛100擋風玻璃10後面之內部隔間中之深度估計系統20。深度估計系統20包括攝像設備201、距離擷取設備202以及處理器203。處理器203電連接攝像設備201和距離擷取設備202。

可以理解，攝像設備201、距離擷取設備202以及處理器203可以安裝於車輛100上之其它位置，以使攝像設備201可以擷取車輛100前方之圖像，以及距離擷取設備202可以探測車輛100前方物體之距離。例如，攝像設備201以及距離擷取設備202可以位於車輛100之金屬格柵或前保險桿中。進一步地，雖圖1僅示出距離擷取設備202之數量為一個，但是車輛100上可能具有指向不同之方向(比如側面、前面、後面等)之複數距離擷取設備202。各個距離擷取設備202可以設置在擋風玻璃、車門面板、保險桿或金屬格柵等位置。

在本實施例中，車輛100上之攝像設備201可以擷取車輛100前方和兩側場景之圖像。如圖1所示，在攝像設備201可以探測之水平覆蓋區域110(藉由虛線示出)內，存在兩個物體，車輛120和車輛130。攝像設備201可以拍攝到車輛100前方之車輛120和車輛130之圖像。

在一些實施例中，攝像設備201可以為雙目攝像機，也可以為單目攝像機。

在一些實施例中，攝像設備201可以實現為行車記錄儀。行車記錄儀用於記錄車輛100在行駛途中之圖像和聲音等資訊。其中，車輛100安裝行車記錄儀後，行車記錄儀可以記錄車輛100行駛全過程之圖像和聲音，從而為交通事故提供有效證據。作為一個示例，除了上述功能之外，行車記錄儀提供之功能還可包括諸如全球定位系統(Global Positioning System, GPS)定位、行駛軌跡抓取、遠端監控、電子狗、導航等，本實施例對此不作具體限定。

距離擷取設備202可以用於探測車輛100前方和兩側之物體，以擷取該物體與距離擷取設備202之間之距離。如圖1所示，車輛100上之距離擷取設備202可以擷取車輛120與距離擷取設備202之間之距離，以及車輛130與距離擷取設備202之間之距離。其中，距離擷取設備202可以為紅外線感測器、雷射雷達(Lidar)或雷達(Radar)等。

以距離擷取設備202為雷達為例，雷達利用射頻(RF)波來確定車輛前方之物體之距離、方向、速度和/或高度。具體地，雷達包括發射機和接收機，發射機發射RF波(雷達信號)，RF波在其路徑上遇到物體會發生反射。被物體反射回來之RF波將其能量之小部分返回給接收機。如圖1所示，雷達被配置為在水平覆蓋區域140中穿過擋風玻璃發射雷達信號，以及接收被在水平覆蓋區域140內之任何物體反射之雷達信號，可以得到水平覆蓋區域140內之任何物體之三維點雲圖像。

在本實施例中，水平覆蓋區域110和水平覆蓋區域140可以完全重合或者部分重合。

在一些實施例中，攝像設備201可以在水平覆蓋區域110內以一定週期速率捕捉場景之圖像。同樣地，雷達可以在水平覆蓋區域140內以一定週期速率捕捉場景之三維點雲圖像。攝像設備201和雷達捕捉其各自之圖像幀之週期速率可以相同或不同。每個攝像設備201所捕捉之圖像和三維點雲圖像可以標注時間戳記。當攝像設備201和雷達捕捉其各自之圖像幀之週期速率不同時，時間戳記可以用於同時地或幾乎同時地選擇捕捉之圖像和三維點雲圖像進行進一步處理(例如圖像融合)。

其中，三維點雲，也稱為雷射點雲(Point Cloud, PCD)或點雲，可以是利用雷射在同一空間參考系下擷取物體表面每個採樣點之三維空間座標，所得到之一系列表達目標空間分佈和目標表面特性之海量點之集合。相比於圖像，三維點雲包含了豐富之三維空間資訊，即包括了物體與距離擷取設備202之間之距離資訊。

示例性地，如圖1所示，在T0時刻，攝像設備201可以擷取車輛120和車輛130之圖像。同一時刻(T0時刻)，距離擷取設備202也可以擷取在水平覆蓋區域140內之三維點雲圖像，即在T0時刻擷取車輛120與距離擷取設備202之間之距離資訊，以及車輛130與距離擷取設備202之間之距離資訊。

在本實施例中，處理器203可以包括一個或複數處理單元。例如，處理器203可以包括，但不限於，應用處理器(Application Processor, AP)、調製解調處理器、圖形處理器(Graphics Processing Unit, GPU)、圖像信號處理器(Image Signal Processor, ISP)、控制器、視頻轉碼器、數位訊號處理器(Digital Signal Processor, DSP)、基帶處理器、神經網路處理器(Neural-Network Processing Unit, NPU)等。其中，不同之處理單元可以是獨立之器件，也可以集成在一個或複數處理器中。

在實施例中，處理器203可以基於在同一時刻攝像設備201所捕捉之場景之圖像和距離擷取設備202所採集之同一場景之距離資訊，識別在所捕捉之場景內之物體之深度資訊。其中，物體可以是其它車輛、行人、道路標誌或障礙物等。

可以理解，本實施例示意之結構並不構成對深度估計系統之具體限定。在另一些實施例中深度估計系統可以包括比圖示更多或更少之部件，或者組合某些部件，或者拆分某些部件，或者不同之部件佈置。

可參閱圖2，圖2為本申請實施例提供之深度估計方法之流程圖。

深度估計方法可應用於如圖1所示之深度估計系統20。如圖2所示，深度估計方法可以包括如下步驟：

S11，擷取第一圖像。

在本實施例中，深度估計系統可以擷取攝像設備所拍攝之第一圖像。例如，攝像設備採用單目攝像機，單目攝像機可以拍攝一段視頻，深度估計系統從該視頻中截取出一幀圖像作為第一圖像。或者，單目攝像機拍攝圖像，將所拍攝之圖像作為第一圖像。

S12，將第一圖像輸入至預訓練之深度估計模型，擷取第一深度圖像。

在一些實施例中，深度估計模型可包括自編碼器(AE)和圖像轉換模組。深度估計系統將第一圖像輸入至深度估計模型後，自編碼器對第一圖像進行處理，輸出該第一圖像對應之視差圖。圖像轉換模組再對該視差圖進行轉換，輸出第一深度圖像。

在另一些實施例中，深度估計模型也可以不包括圖像轉換模組。深度估計模型對第一圖像進行處理，輸出該第一圖像對應之視差圖。深度估計系統再對該視差圖進行轉換，輸出第一深度圖像。

下面深度估計模型之訓練方法進行具體說明。

請一併參閱圖3，圖3為本申請實施例提供之深度估計模型訓練方法之流程圖。

S31，從訓練資料集中擷取第一圖像對。

其中，第一圖像對包括第一左圖像和第一右圖像。

可以理解，圖像對是指攝像設備在同一時刻拍攝同一場景之兩幅圖像，包括左圖像和右圖像。左圖像和右圖像大小相同，像素數目相同。

在本實施例中，訓練資料集可以是車輛行駛時雙目攝像機所拍攝圖像之資料集。雙目攝像機所拍攝之圖像包括兩個攝像頭在同一時刻拍攝同一場景之圖像對。

S32，將第一左圖像輸入至待訓練之深度估計模型，擷取視差圖。

可以理解，待訓練之深度估計模型為初始化模型。初始化模型之各個參數可依需而設。

S33，將第一左圖像與視差圖相加，擷取第二右圖像。

其中，第二右圖像是深度估計模型預測之右圖像。第二右圖像和第一右圖像大小相同，像素數目相同。

S34，計算第一右圖像和第二右圖像中所有對應像素點處像素值之均方差和餘弦相似度。

其中，對應像素點是指兩幅圖像中兩個具有對應位置關係之像素點。例如，第一右圖像包含第一像素點，第二右圖像包含與第一像素點對應之第二像素點，第一像素點在第一右圖像中之位置與第二像素點在第二右圖像中之位置相同。

可以理解，圖像中之像素點包括紅(R)、綠(G)、藍(B)三個顏色通道之像素值。

在本實施例中，計算第一右圖像和第二右圖像中兩個對應像素點處像素值之均方差MSE之公式如公式(1)所示： (1)

其中，n為第一右圖像或第二右圖像中所有像素點之數目，為第一右圖像中第i個像素點處第k個顏色通道之像素值，為第二右圖像中第i個像素點處第k個顏色通道之像素值。

在本實施例中，均方差可用於度量兩個對應像素點之像素值差異，藉由最小化均方差可以使兩個對應像素點之像素值差異最小。均方差之值越小，表示深度估計模型之預測精確度越高。當均方差為0時，表示兩個對應像素點之像素值相同，即深度估計模型之預測值與真實值相同。

計算第一右圖像和第二右圖像中兩個對應像素點處像素值之餘弦相似度之公式如公式(2)所示： (2)

在本實施例中，餘弦相似度可用於衡量顏色空間中兩個對應像素點之間之顏色差異。兩個對應像素點處RGB值之間之夾角越小，餘弦相似度之值越小，表示兩個像素點之顏色越相似。當兩個對應像素點處RGB值之間之夾角 =0時，餘弦相似度之值，表示兩個像素點之顏色相同。

S35，對所有對應像素點處像素值之均方差和餘弦相似度分別計算平均值，擷取均方差之第一平均值和餘弦相似度之第二平均值。

在本實施例中，依次輪詢第一右圖像或第二右圖像中之各個像素點，藉由上述公式(1)可依次計算出第一右圖像和第二右圖像中各個對應像素點處像素值之均方差，直至擷取所有對應像素點處像素值之複數均方差。再計算複數均方差之平均值，即可擷取第一平均值。

同樣地，依次輪詢第一右圖像或第二右圖像中之各個像素點，藉由上述公式(2)可依次計算出第一右圖像和第二右圖像中各個對應像素點處像素值之餘弦相似度，直至擷取所有對應像素點處像素值之複數餘弦相似度。再計算複數餘弦相似度之平均值，即可擷取第二平均值。

S36，將第一平均值和第二平均值相加，擷取深度估計模型之損失值。

在本實施例中，當深度估計模型之損失值為0時，深度估計模型收斂。

S37，根據損失值藉由反向傳播演算法(Backpropagation Algorithm)更新深度估計模型之各個參數。

在本實施例中，藉由反向傳播演算法更新深度估計模型之各個參數，可以降低真實值與預測值之間之損失。

S38，迴圈執行步驟S31至S37，反覆運算訓練深度估計模型，直至訓練資料集中之第一圖像對均訓練完成或深度估計模型收斂。

在一些實施例中，當訓練資料集中之第一圖像對均訓練完成時，深度估計模型訓練結束。此時，選取損失值最小之深度估計模型之參數作為最終之模型參數。

在另一些實施例中，在模型訓練過程中，當深度估計模型收斂時，結束訓練。此時，將收斂後之深度估計模型之參數作為最終之模型參數。

可以理解，在本實施例中，深度估計模型之損失值結合了均方差和餘弦相似度，既可以提高深度估計模型之預測精確度，又可以提高深度估計模型對顏色之敏感度，即使在低紋理區域也可以區分各個像素點之間之顏色差異。採用本實施例之深度估計模型來擷取深度圖像，可提升深度資訊之準確性。

圖4是本申請一實施方式之電子設備40之結構示意圖。

可參閱圖4，電子設備40可以包括處理器41和記憶體42。其中，處理器41可以運行存儲於記憶體42中之電腦程式或代碼，實現本申請實施例之深度估計模型訓練方法和深度估計方法。

可以理解，處理器41之具體實施方式與處理器203相同，在此不再贅述。

記憶體42可以包括外部記憶體介面和內部記憶體。其中，外部記憶體介面可以用於連接外部存儲卡，例如Micro SD卡，實現擴展電子設備40之存儲能力。外部存儲卡藉由外部記憶體介面與處理器41通信，實現資料存儲功能。內部記憶體可以用於存儲電腦可執行程式碼，所述可執行程式碼包括指令。內部記憶體可以包括存儲程式區和存儲資料區。其中，存儲程式區可存儲作業系統，至少一個功能所需之應用程式(例如聲音播放功能，圖像播放功能等)等。存儲資料區可存儲電子設備40使用過程中所創建之資料(例如音訊資料，電話本等)等。此外，內部記憶體可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如至少一個磁碟記憶體件、快閃記憶體器件或通用快閃記憶體(Universal Flash Storage, UFS)等。處理器41藉由運行存儲在內部記憶體之指令，和/或存儲在設置於處理器41中之記憶體之指令，執行電子設備40之各種功能應用以及資料處理，例如實現本申請實施例之深度估計模型訓練方法和深度估計方法。

在一些實施例中，電子設備40還可以包括攝像設備以及距離擷取設備。

可以理解，本申請實施例示意之結構並不構成對電子設備40之具體限定。在本申請另一些實施例中，電子設備40可以包括比圖示更多或更少之部件，或者組合某些部件，或者拆分某些部件，或者不同之部件佈置。

本申請還提供一種存儲介質，用於存儲電腦程式或代碼，當電腦程式或代碼被處理器執行時，實現本申請實施例之深度估計模型訓練方法和深度估計方法。

存儲介質包括在用於存儲資訊(諸如電腦可讀指令、資料結構、程式模組或其它資料)之任何方法或技術中實施之易失性和非易失性、可移除和不可移除介質。存儲介質包括，但不限於，隨機存取記憶體(Random Access Memory, RAM)、唯讀記憶體(Read-Only Memory, ROM)、帶電可擦可程式設計唯讀記憶體(Electrically Erasable Programmable Read-Only Memory, EEPROM)、快閃記憶體或其它記憶體、唯讀光碟(Compact Disc Read-Only Memory, CD-ROM)、數位通用光碟(Digital Versatile Disc, DVD)或其它光碟存儲、磁盒、磁帶、磁片存儲或其它磁存儲裝置、或者可以用於存儲期望之資訊並且可以被電腦訪問之任何其它之介質。

上面結合附圖對本申請實施例作了詳細說明，但本申請不限於上述實施例，於所屬技術領域普通具通常技藝者所具備之知識範圍內，還可以於不脫離本申請宗旨之前提下做出各種變化。

100,120,130:車輛 10:擋風玻璃 20:深度估計系統 201:攝像設備 202:距離擷取設備 203,41:處理器 110,140:水平覆蓋區域 40:電子設備 42:記憶體 S11-S12,S31-S38:步驟

圖1是本申請實施例提供之深度估計方法之應用場景示意圖。圖2是本申請實施例提供之深度估計方法之流程圖。圖3是本申請實施例提供之深度估計模型訓練方法之流程圖。圖4是本申請一實施方式之電子設備之結構示意圖。

無

S31-S38:步驟

Claims

一種深度估計模型訓練方法，包括：從訓練資料集中擷取第一圖像對，所述第一圖像對包括第一左圖像和第一右圖像；將所述第一左圖像輸入至待訓練之深度估計模型，擷取視差圖；將所述第一左圖像與所述視差圖相加，擷取第二右圖像；計算所述第一右圖像和所述第二右圖像中所有對應像素點處像素值之均方差和餘弦相似度；對所述所有對應像素點處像素值之均方差和餘弦相似度分別計算平均值，擷取均方差之第一平均值和餘弦相似度之第二平均值；將所述第一平均值和所述第二平均值相加，擷取所述深度估計模型之損失值；根據所述損失值反覆運算訓練所述深度估計模型。
如請求項1所述之深度估計模型訓練方法，其中，所述根據所述損失值反覆運算訓練所述深度估計模型，包括：根據所述損失值藉由反向傳播演算法更新所述深度估計模型之各個參數；反覆運算訓練所述深度估計模型，直至所述訓練資料集中之所述第一圖像對均訓練完成，或者直至所述深度估計模型收斂。
如請求項2所述之深度估計模型訓練方法，其中，在所述訓練資料集中之所述第一圖像對均訓練完成後，所述方法還包括：選取所述損失值最小之所述深度估計模型之參數作為最終之模型參數。
如請求項2所述之深度估計模型訓練方法，其中，在所述深度估計模型收斂後，所述方法還包括：將收斂後之所述深度估計模型之參數作為最終之模型參數。
如請求項2所述之深度估計模型訓練方法，其中，當所述損失值為0時，所述深度估計模型收斂。
如請求項1所述之深度估計模型訓練方法，其中，所述第一右圖像和所述第二右圖像中兩個對應像素點處像素值之均方差為：其中，MSE為所述均方差，n為所述第一右圖像或所述第二右圖像中所有像素點之數目，為所述第一右圖像中第i個像素點處第k個顏色通道之像素值，為所述第二右圖像中第i個像素點處第k個顏色通道之像素值。
如請求項1所述之深度估計模型訓練方法，其中，所述第一右圖像和所述第二右圖像中兩個對應像素點處像素值之餘弦相似度為：其中，為所述餘弦相似度，n為所述第一右圖像或所述第二右圖像中所有像素點之數目，為所述第一右圖像中第i個像素點處第k個顏色通道之像素值，為所述第二右圖像中第i個像素點處第k個顏色通道之像素值。
一種深度估計方法，包括：擷取第一圖像；將所述第一圖像輸入至預訓練之深度估計模型，擷取第一深度圖像；其中，所述深度估計模型是採用如請求項1至7中任一項所述之深度估計模型訓練方法訓練得到之模型。
如請求項8所述之深度估計方法，其中，所述將所述第一圖像輸入至預訓練之深度估計模型，擷取第一深度圖像，包括：將所述第一圖像輸入至預訓練之深度估計模型，得到視差圖；對所述視差圖進行轉換，得到所述第一深度圖像。
一種電子設備，包括處理器和記憶體，所述處理器可以運行存儲於所述記憶體中之電腦程式或代碼，實現如請求項1至7中任一項所述之深度估計模型訓練方法，或者實現如請求項8或9所述之深度估計方法。