TWI767596B

TWI767596B - 場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質

Info

Publication number: TWI767596B
Application number: TW110107767A
Authority: TW
Inventors: 韓滔; 張展鵬; 成慧
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2020-04-28
Filing date: 2021-03-04
Publication date: 2022-06-11
Also published as: CN111540000B; JP2022528012A; TW202141428A; WO2021218282A1; CN113822918B; CN113822918A; JP7178514B2; KR20210138788A; KR102397268B1; CN111540000A

Abstract

本發明關於一種場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質，所述方法包括：獲取t時刻的目標圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊，所述場景深度預測網路是基於相機運動預測網路輔助訓練得到的。

Description

場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質

本發明關於電腦技術領域，關於但不限於一種場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質。

利用單目圖像採集設備(例如，單目相機)採集的圖像作為輸入來預測場景深度以及相機運動是電腦視覺領域近二十年一個活躍而重要的研究方向，廣泛應用於擴增實境、無人駕駛以及移動機器人定位導航等眾多領域。

本發明實施例提出了一種場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質的技術方案。

本發明實施例提供了一種場景深度預測方法，包括：獲取t時刻的目標圖像幀；通過場景深度預測網路利用t-1 時刻的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊，所述場景深度預測網路是基於相機運動預測網路輔助訓練得到的。

本發明的一些實施例中，所述通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，包括：對所述目標圖像幀進行特徵提取，確定所述目標圖像幀對應的第一特徵圖，其中，所述第一特徵圖為與場景深度相關的特徵圖；根據所述第一特徵圖和t-1時刻的所述第一隱狀態資訊，確定t時刻的所述第一隱狀態資訊；根據t時刻的所述第一隱狀態資訊，確定所述預測深度圖。

本發明的一些實施例中，t-1時刻的所述第一隱狀態資訊包括t-1時刻的不同尺度下的所述第一隱狀態資訊；所述對所述目標圖像幀進行特徵提取，確定所述目標圖像幀對應的第一特徵圖，包括：對所述目標圖像幀進行多尺度下採樣，確定所述目標圖像幀對應的不同尺度下的所述第一特徵圖；所述根據所述第一特徵圖和t-1時刻的所述第一隱狀態資訊，確定t時刻的所述第一隱狀態資訊，包括：針對任一尺度，根據該尺度下的所述第一特徵圖和t-1時刻的該尺度下的所述第一隱狀態資訊，確定t時刻的該尺度下的所述第一隱狀態資訊；所述根據t時刻的所述第一隱狀態資訊，確定所述預測深度圖，包括：將t時刻的不同尺度下的所述第一隱狀態資訊進行特徵融合，確定所述預測深度圖。

本發明的一些實施例中，所述方法還包括：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；通過待訓練的場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的場景深度預測網路進行訓練，以得到所述場景深度預測網路。

本發明的一些實施例中，所述根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數，包括：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。

本發明實施例還提供了一種相機運動預測方法，包括：獲取t時刻對應的圖像幀序列，其中，所述圖像幀序列包括t時刻的目標圖像幀和所述目標圖像幀的相鄰圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述圖像幀序列進行相機位姿預測，確定所述圖像幀序列對應的預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊，所述相機運動預測網路是基於場景深度預測網路輔助訓練得到的。

本發明的一些實施例中，所述通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述圖像幀序列進行相機位姿預測，確定所述圖像幀序列對應的預測相機運動，包括：對所述圖像幀序列進行特徵提取，確定所述圖像幀序列對應的第二特徵圖，其中，所述第二特徵圖為與相機運動相關的特徵圖；根據所述第二圖特徵和t-1時刻的所述第二隱狀態資訊，確定t時刻的所述第二隱狀態資訊；根據t時刻的所述第二隱狀態資訊，確定所述預測相機運動。

本發明的一些實施例中，所述預測相機運動包括所述圖像幀序列中相鄰圖像幀之間的相對位姿。

本發明的一些實施例中，所述方法還包括：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；通過待訓練的相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的相機運動預測網路進行訓練，以得到所述相機運動預測網路。

本發明實施例還提供了一種場景深度預測裝置，包括：第一獲取模組，配置為獲取t時刻的目標圖像幀；第一場景深度預測模組，配置為通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊，所述場景深度預測網路是基於相機運動預測網路輔助訓練得到的。

本發明的一些實施例中，所述第一場景深度預測模組，包括：第一確定子模組，配置為對所述目標圖像幀進行特徵提取，確定所述目標圖像幀對應的第一特徵圖，其中，所述第一特徵圖為與場景深度相關的特徵圖；第二確定子模組，配置為根據所述第一特徵圖和t-1時刻的所述第一隱狀態資訊，確定t時刻的所述第一隱狀態資訊；第三確定子模組，配置為根據t時刻的所述第一隱狀態資訊，確定所述預測深度圖。

本發明的一些實施例中，t-1時刻的所述第一隱狀態資訊包括t-1時刻的不同尺度下的所述第一隱狀態資訊；所述第一確定子模組具體配置為：對所述目標圖像幀進行多尺度下採樣，確定所述目標圖像幀對應的不同尺度下的所述第一特徵圖；所述第二確定子模組具體配置為：針對任一尺度，根據該尺度下的所述第一特徵圖和t-1時刻的該尺度下的所述第一隱狀態資訊，確定t時刻的該尺度下的所述第一隱狀態資訊；所述第三確定子模組具體配置為：將t時刻的不同尺度下的所述第一隱狀態資訊進行特徵融合，確定所述預測深度圖。

本發明的一些實施例中，所述裝置還包括第一訓練模組，所述第一訓練模組配置為：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；通過待訓練的場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的場景深度預測網路進行訓練，以得到所述場景深度預測網路。

本發明的一些實施例中，所述第一訓練模組，具體配置為：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。

本發明實施例還提供了一種相機運動預測裝置，包括：第二獲取模組，配置為獲取t時刻對應的圖像幀序列，其中，所述圖像幀序列包括t時刻的目標圖像幀和所述目標圖像幀的相鄰圖像幀；第一相機運動預測模組，配置為通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述圖像幀序列進行相機位姿預測，確定所述圖像幀序列對應的預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊，所述相機運動預測網路是基於場景深度預測網路輔助訓練得到的。

本發明的一些實施例中，所述第一相機運動預測模組，包括：第六確定子模組，配置為對所述圖像幀序列進行特徵提取，確定所述圖像幀序列對應的第二特徵圖，其中，所述第二特徵圖為與相機運動相關的特徵圖；第七確定子模組，配置為根據所述第二圖特徵和t-1時刻的所述第二隱狀態資訊，確定t時刻的所述第二隱狀態資訊；第八確定子模組，配置為根據t時刻的所述第二隱狀態資訊，確定所述預測相機運動。

本發明的一些實施例中，所述裝置還包括：第二訓練模組，所述第二訓練模組配置為：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；通過待訓練的相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的相機運動預測網路進行訓練，以得到所述相機運動預測網路。

本發明的一些實施例中，所述第二訓練模組，具體配置為：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。

本發明實施例還提供了一種電子設備，包括：處理器；配置為儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述任意一種方法。

本發明實施例還提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述任意一種方法。

本發明實施例還提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行用於實現上述任意一種方法。

在本發明實施例中，獲取t時刻對應的目標圖像幀，由於相鄰時刻之間場景深度在時序上具有關聯關係，利用t-1時刻與場景深度相關的第一隱狀態資訊，通過場景深度預測網路對目標圖像幀進行場景深度預測，可以得到目標圖像幀對應的預測精度較高的預測深度圖。

本發明實施例中，獲取t時刻對應的包括t時刻的目標圖像幀和目標圖像幀的相鄰圖像幀的圖像幀序列，由於相鄰時刻之間相機位姿在時序上具有關聯關係，利用t-1時刻與相機運動相關的第二隱狀態資訊，通過相機運動預測網路對圖像幀序列進行相機位姿預測，可以得到預測精度較高的預測相機運動。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

201:目標圖像幀

202:深度編碼器

203:不同尺度下的第一特徵圖

204:多尺度隱狀態

205:深度解碼器

301:樣本圖像幀序列

302:位姿編碼器

303:位姿解碼器

50:場景深度預測裝置

51:第一獲取模組

52:第一場景深度預測模組

60:相機運動預測裝置

61:第二獲取模組

62:第一相機運動預測模組

800:電子設備

802:第一處理組件

804:第一記憶體

806:第一電源組件

808:多媒體組件

810:音頻組件

812:第一輸入/輸出介面

814:感測器組件

816:通信組件

820:處理器

900:電子設備

922:第二處理組件

926:第二電源組件

932:第二記憶體

950:網路介面

958:第二輸入/輸出介面

S11,S12:步驟

S41,S42:步驟

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。

圖1為本發明實施例的場景深度預測方法的流程圖；圖2為本發明實施例的場景深度預測網路的方塊圖；圖3為本發明實施例的無監督網路訓練的方塊圖；圖4為本發明實施例的相機運動預測方法的流程圖；圖5為本發明實施例的場景深度預測裝置的結構示意圖；圖6為本發明實施例的相機運動預測裝置的結構示意圖；圖7為本發明實施例的一種電子設備的結構示意圖；圖8為本發明實施例的一種電子設備的結構示意圖。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或D，可以表示：單獨存在A，同時存在A和D，單獨存在D這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、C、D中的至少一種，可以表示包括從A、C和D構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

圖1示出根據本發明實施例的場景深度預測方法的流程圖。如圖1所示的場景深度預測方法可以由終端設備或其它處理設備執行，其中，終端設備可以為使用者設備(User Equipment，UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等。其它處理設備可為伺服器或雲端伺服器等。在一些實施例中，該場景深度預測方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。如圖1所示，該方法可以包括：在步驟S11中，獲取t時刻的目標圖像幀。

在步驟S12中，通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對目標圖像幀進行場景深度預測，確定目標圖像幀對應的預測深度圖，其中，第一隱狀態資訊包括與場景深度相關的特徵資訊，場景深度預測網路是基於相機運動預測網路輔助訓練得到的。

本發明實施例中，獲取t時刻的目標圖像幀，由於相鄰時刻之間場景深度在時序上具有關聯關係，利用t-1時刻與場景深度相關的第一隱狀態資訊，通過場景深度預測網路對目標圖像幀進行場景深度預測，可以得到目標圖像幀對應的預測精度較高的預測深度圖。

在一些實施例中，通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對目標圖像幀進行場景深度預測，確定目標圖像幀對應的預測深度圖，可以包括：對目標圖像幀進行特徵提取，確定目標圖像幀對應的第一特徵圖，其中，第一特徵圖為與場景深度相關的特徵圖；根據第一特徵圖和t-1時刻的第一隱狀態資訊，確定t時刻的第一隱狀態資訊；根據t時刻的第一隱狀態資訊，確定預測深度圖。

由於相鄰時刻之間場景深度在時序上具有關聯關係，場景深度預測網路利用當前時刻(例如，t時刻)的目標圖像幀對應的與場景深度相關的第一特徵圖，以及上一時刻(例如，t-1時刻)與場景深度相關的第一隱狀態資訊，可以確定當前時刻與場景深度相關的第一隱狀態資訊，進而基於當前時刻與場景深度相關的第一隱狀態資訊對目標圖像幀進行場景深度預測，可以得到當前時刻的目標圖像幀對應的預測精度較高的預測深度圖。

例如，利用場景深度預測網路預測圖像幀序列(包括第1時刻至第t時刻的圖像幀)中各個圖像幀對應的預測深度圖時，在場景深度預測網路的初始化階段，設置與場景深度相關的第一隱狀態資訊的預設初始值。基於第一隱狀態資訊的預設初始值以及第1時刻的圖像幀對應的與場景深度相關的第一特徵圖，確定第1時刻的第一隱狀態，進而基於第1時刻的第一隱狀態對第1時刻的圖像幀進行場景深度預測，得到第1時刻的圖像幀對應的預測深度圖；基於第1時刻的第一隱狀態以及第2時刻的圖像幀對應的與場景深度相關的第一特徵圖，確定第2時刻的第一隱狀態，進而基於第2時刻的第一隱狀態對第2時刻的圖像幀進行場景深度預測，得到第2時刻的圖像幀對應的預測深度圖；基於第2時刻的第一隱狀態以及第3時刻的圖像幀對應的與場景深度相關的第一特徵圖，確定第3時刻的第一隱狀態，進而基於第3時刻的第一隱狀態對第3時刻的圖像幀進行場景深度預測，得到第3時刻的圖像幀對應的預測深度圖；依次類推，最終得到圖像幀序列(包括第1時刻至第t時刻的圖像幀)中各個圖像幀對應的預測深度圖。

在一些實施例中，t-1時刻的第一隱狀態資訊包括t-1時刻的不同尺度下的第一隱狀態資訊；對目標圖像幀進行特徵提取，確定目標圖像幀對應的第一特徵圖，可以包括：對目標圖像幀進行多尺度下採樣，確定目標圖像幀對應的不同尺度下的第一特徵圖；根據第一特徵圖和t-1時刻的第一隱狀態資訊，確定t時刻的第一隱狀態資訊，可以包括：針對任一尺度，根據該尺度下的第一特徵圖和t-1時刻的該尺度下的第一隱狀態資訊，確定t時刻的該尺度下的第一隱狀態資訊；根據t時刻的第一隱狀態資訊，確定預測深度圖，可以包括：將t時刻的不同尺度下的第一隱狀態資訊進行特徵融合，確定預測深度圖。

為了更好地確定t時刻的目標圖像幀對應的預測深度圖，場景深度預測網路可以採用多尺度特徵融合機制。圖2示出根據本發明實施例的場景深度預測網路的方塊圖，如圖2所示，場景深度預測網路中包括深度編碼器202、多尺度卷積門控循環單元(Convolutional Gated Recurrent Unit，ConvGRU)和深度解碼器205。將t時刻的目標圖像幀201輸入深度編碼器202進行多尺度下採樣，得到目標圖像幀對應的不同尺度下的第一特徵圖203：第一尺度下的第一特徵圖

、第二尺度下的第一特徵圖

和第三尺度下的第一特徵圖

。其中，多尺度ConvGRU與多尺度第一特徵圖的尺度對應，即，多尺度ConvGRU包括：第一尺度下的ConvGRU⁰，第二尺度下的ConvGRU¹和第三尺度下的ConvGRU²。

仍以上述圖2為例，將第一特徵圖

輸入ConvGRU⁰，將第一特徵圖

輸入ConvGRU¹，將第一特徵圖

輸入ConvGRU²。ConvGRU⁰將第一特徵圖

與ConvGRU⁰中儲存的t-1時刻的第一尺度下的第一隱狀態資訊

進行特徵融合，得到t時刻的第一尺度下的第一隱狀態

，ConvGRU⁰對t時刻的第一尺度下的第一隱狀態

進行儲存，以及將t時刻的第一尺度下的第一隱狀態

輸出至深度解碼器；ConvGRU¹將第一特徵圖

與ConvGRU¹中儲存的t-1時刻的第二尺度下的第一隱狀態資訊

進行特徵融合，得到t時刻的第二尺度下的第一隱狀態

，ConvGRU¹對t時刻的第二尺度下的第一隱狀態

進行儲存，以及將t時刻的第二尺度下的第一隱狀態

輸出至深度解碼器；ConvGRU²將第一特徵圖

與ConvGRU²中儲存的t-1時刻的第三尺度下的第一隱狀態資訊

進行特徵融合，得到t時刻的第三尺度下的第一隱狀態

，ConvGRU²對t時刻的第三尺度下的第一隱狀態

進行儲存，以及將t時刻的第三尺度下的第一隱狀態

輸出至深度解碼器。圖2中，多尺度隱狀態204包括t時刻的第一尺度下的第一隱狀態

、第二尺度下的第一隱狀態

和第三尺度下的第一隱狀態

。

深度解碼器205分別將t時刻的第一尺度下的第一隱狀態

、第二尺度下的第一隱狀態

和第三尺度下的第一隱狀態

均尺度恢復至與目標圖像幀201的尺度(以下將目標圖像幀的尺度簡稱目標尺度)相同，得到t時刻的目標尺度下的三個第一隱狀態。由於第一隱狀態資訊包括與場景深度相關的特徵資訊，在場景深度預測網路中也是以特徵圖的形式存在，因此，將t時刻的目標尺度下的三個第一隱狀態進行特徵圖融合，從而得到t時刻的目標圖像幀對應的預測深度圖D _t。

在一些實施例中，該場景深度預測方法還可以包括：獲取t時刻對應的樣本圖像幀序列，其中，樣本圖像幀序列包括t時刻的第一樣本圖像幀和第一樣本圖像幀的相鄰樣本圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對樣本圖像幀序列進行相機位姿預測，確定樣本圖像幀序列對應的樣本預測相機運動，其中，第二隱狀態資訊包括與相機運動相關的特徵資訊；通過待訓練的場景深度預測網路利用t-1時刻的第一隱狀態資訊對第一樣本圖像幀進行場景深度預測，確定第一樣本圖像幀對應的樣本預測深度圖，其中，第一隱狀態資訊包括與場景深度相關的特徵資訊；根據樣本預測深度圖和樣本預測相機運動，構建損失函數；根據損失函數，對待訓練的場景深度預測網路進行訓練，以得到場景深度預測網路。

在本發明實施例中，場景深度預測網路是基於相機運動預測網路輔助訓練得到的，或者，場景深度預測網路和相機運動預測網路是聯合訓練得到的。利用相鄰時刻之間的場景深度和相機位姿在時序上的關聯關係，引入滑動視窗資料融合的機制，提取並記憶滑動視窗序列中與目標時刻(t時刻)的場景深度和相機運動相關的隱狀態資訊，進而對場景深度預測網路和/或相機運動預測網路進行無監督網路訓練。

在本發明實施例中，可以預先創建訓練集，該訓練集中包括在時序上連續採集得到的樣本圖像幀序列，進而基於該訓練集對待訓練的場景深度預測網路進行訓練。圖3示出本發明實施例的無監督網路訓練的方塊圖。如圖3所示，目標時刻為t時刻，目標時刻對應的樣本圖像幀序列301(即目標時刻對應的滑動視窗中包括的樣本圖像幀序列)包括：t時刻的第一樣本圖像幀I_t、t-1時刻的相鄰樣本圖像幀I_t-1和t+1時刻的相鄰樣本圖像幀I_t+1。樣本圖像幀序列中第一樣本圖像幀的相鄰樣本圖像幀鄰的數目可以根據實際情況確定，本發明對此不做具體限定。

圖3示出的待訓練的場景深度預測網路採用的是單尺度特徵融合機制。在網路訓練過程中，待訓練的場景深度預測網路可以採用圖3所示的單尺度特徵融合機制，也可以採用圖2所示的多尺度特徵融合機制，本發明對此不做具體限定。如圖3所示，待訓練的場景深度預測網路中包括深度編碼器202、ConvGRU和深度解碼器205。將t時刻的第一樣本圖像幀I_t輸入深度編碼器202進行特徵提取，得到第一樣本圖像幀I_t對應的第一特徵圖

，進而將第一特徵圖

輸入ConvGRU，使得第一特徵圖

與ConvGRU中儲存的t-1時刻的第一隱狀態資訊

進行特徵融合，得到t時刻的第一隱狀態

，ConvGRU對t時刻的第一隱狀態

進行儲存，以及將t時刻的第一隱狀態

輸出至深度解碼器205，從而得到t時刻的第一樣本圖像幀對應的樣本預測深度圖D _t。

仍以上述圖3為例，如圖3所示，相機運動預測網路中包括位姿編碼器302、ConvGRU和位姿解碼器303。將t時刻對應的樣本圖像幀序列[I_t，I_t-1，I_t+1]輸入位姿編碼器302進行特徵提取，得到樣本圖像幀序列對應的第二特徵圖

，進而將第二特徵圖

輸入ConvGRU，使得第二特徵圖

與ConvGRU中儲存的t-1時刻的第二隱狀態資訊

進行特徵融合，得到t時刻的第二隱狀態

，ConvGRU對t時刻的第二隱狀態

進行儲存，以及將t時刻的第二隱狀態

輸出至位姿解碼器，從而得到t時刻的樣本圖像幀序列對應的樣本預測相機運動[T _t-1→t，T _t→t+1]。

仍以上述圖3為例，根據樣本預測深度圖D _t和樣本預測相機運動[T _t-1→t，T _t→t+1]，可構建損失函數L(I _t,I _t-1,I _t+1,D _t,T _t-1→t,T _t→t+1)。具體地，根據樣本預測相機運動[T _t-1→t，T _t→t+1]，確定樣本圖像幀序列中的相鄰樣本圖像幀I_t-1和I_t+1相對第一樣本圖像幀I_t的重投影誤差項L _reproj；根據樣本預測深度圖D _t的分佈連續性，確定懲罰函數項L _smooth。進而，通過下述公式(1)構建損失函數L(I _t,I _t-1,I _t+1,D _t,T _t-1→t,T _t→t+1)：L(I _t,I _t-1,I _t+1,D _t,T _t-1→t,T _t→t+1)=L _reproj+λ_smooth L _smooth (1)。

其中，λ_smooth為權重係數，可以根據實際情況確定λ_smooth的取值大小，本發明對此不做具體限定。

在一些實施例中，根據樣本預測深度圖D _t的分佈連續性，確定懲罰函數項L _smooth的具體過程為：確定第一樣本圖像幀I_t中各圖元點的梯度值，各圖元點的梯度值可以反映第一樣本圖像幀I_t的分佈連續性(也可稱為平滑性)，因此，根據各圖元點的梯度值可以確定第一樣本圖像幀I_t中的邊緣區域(梯度值大於等於閾值的圖元點構成的區域)和非邊緣區域(梯度值小於閾值的圖元點構成的區域)，進而可以確定第一樣本圖像幀I_t對應的樣本預測深度圖D _t中的邊緣區域和非邊緣區域；確定樣本預測深度圖D _t中各圖元點的梯度值，為了確保樣本預測深度圖D _t中非邊緣區域的分佈連續性以及邊緣區域的分佈不連續性，針對樣本預測深度圖D _t中非邊緣區域中的各圖元點，設置與梯度值成正比的懲罰因數；針對樣本預測深度圖D _t中邊緣區域中的各圖元點，設置與梯度值成反比的懲罰因數；進而基於樣本預測深度圖D _t中各圖元點的懲罰因數，構建懲罰函數項L _smooth。

由於樣本預測深度圖和樣本預測相機運動是利用相鄰時刻之間場景深度和相機運動在時序上的關聯關係得到的，從而使得綜合利用根據相機運動預測網路得到的預測相機運動確定的重投影誤差項，以及根據場景深度預測網路得到的預測深度圖確定的懲罰函數項構建的損失函數，來對待訓練的場景深度預測網路進行訓練，訓練得到場景深度預測網路可以提高場景深度預測的預測精度。

在一些實施例中，圖3中的相機運動預測網路可以是待訓練的相機運動預測網路，根據上述損失函數，可以對待訓練的相機運動網路進行訓練，以實現對待訓練的場景深度預測網路和待訓練的相機運動網路的聯合訓練，得到訓練好的場景深度預測網路和相機運動預測網路。

由於預測深度圖和預測相機運動是利用相鄰時刻之間場景深度和相機運動在時序上的關聯關係得到的，從而使得綜合利用根據相機運動預測網路得到的預測相機運動確定的重投影誤差項，以及根據場景深度預測網路得到的預測深度圖確定的懲罰函數項構建的損失函數，來對場景深度預測網路和相機運動預測網路進行聯合訓練，訓練得到場景深度預測網路和相機運動預測網路可以提高場景深度預測和相機運動預測的預測精度。

在一些實施例中，深度編碼器和位姿編碼器可以複用ResNet18結構，可以複用ResNet54結構，還可以複用其它結構，本發明對此不做具體限定。深度解碼器和位姿解碼器可以採用Unet網路結構，還可以採用其它解碼器網路結構，本發明對此不做具體限定。

在一些實施例中，ConvGRU中包括卷積操作，且ConvGRU中的啟動函數為ELU啟動函數。

例如，可以通過對只能對一維資料進行資料處理的卷積門控循環單元ConvGRU進行改進，將ConvGRU中的線性操作替換為卷積操作，將ConvGRU中的tanh啟動函數替換為ELU啟動函數，從而得到可以對二維圖像資料進行資料處理的ConvGRU。

利用場景深度和/或相機運動在時序上具有的關聯關係，通過ConvGRU可以對不同時刻對應的圖像幀序列按時序循環卷積處理，從而可以得到不同時刻對應的第一隱狀態和/或第二隱狀態。

為了實現滑動視窗資料融合的機制，除了可以採用上述ConvGRU外，還可以採用卷積長短期記憶單元(Convolutional Long Short-Term Memory，ConvLSTM)，還可以採用其它能夠實現滑動視窗資料融合的結構，本發明對此不做具體限定。

圖4示出根據本發明實施例的相機運動預測方法的流程圖。如圖4所示的相機運動預測方法可以由終端設備或其它處理設備執行，其中，終端設備可以為使用者設備(User Equipment，UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等。其它處理設備可為伺服器或雲端伺服器等。在一些可能的實現方式中，該相機運動預測方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。如圖4所示，該方法可以包括：在步驟S41中，獲取t時刻對應的圖像幀序列，其中，圖像幀序列包括t時刻的目標圖像幀和目標圖像幀的相鄰圖像幀。

在步驟S42中，通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對圖像幀序列進行相機位姿預測，確定圖像幀序列對應的預測相機運動，其中，第二隱狀態資訊包括與相機運動相關的特徵資訊，相機運動預測網路是基於場景深度預測網路輔助訓練得到的。

本發明實施例中，獲取包括t時刻的目標圖像幀和目標圖像幀的相鄰圖像幀的圖像幀序列，由於相鄰時刻之間相機運動在時序上具有關聯關係，利用t-1時刻與相機運動相關的第二隱狀態資訊，通過相機運動預測網路對圖像幀序列進行相機位姿預測，可以得到圖像幀序列對應的預測精度較高的預測相機運動。

在一些實施例中，通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對圖像幀序列進行相機位姿預測，確定圖像幀序列對應的預測相機運動，可以包括：對圖像幀序列進行特徵提取，確定圖像幀序列對應的第二特徵圖，其中，第二特徵圖為與相機運動相關的特徵圖；根據第二圖特徵和t-1時刻的第二隱狀態資訊，確定t時刻的第二隱狀態資訊；根據t時刻的第二隱狀態資訊，確定預測相機運動。

由於相鄰時刻之間相機運動在時序上具有關聯關係，相機運動預測網路利用t時刻的圖像幀序列對應的與場景深度相關的第二特徵圖，以及t-1時刻與相機運動相關的第二隱狀態資訊，可以確定t時刻與相機運動相關的的第二隱狀態資訊，進而基於t時刻與相機運動相關的的第二隱狀態資訊對t時刻的圖像幀序列進行相機運動預測，可以得到t時刻的圖像幀序列對應的預測精度較高的預測深度圖。

在一些實施例中，預測相機運動可以包括圖像幀序列中相鄰圖像幀之間的相對位姿。其中，相對位姿為六維參數，包括三維旋轉資訊和三維平移資訊。

例如，預測相機運動[T _t-1→t，T _t→t+1]中包括相鄰圖像幀I_t-1到目標圖像幀I_t之間的相對位姿T _t-1→t，以及目標圖像幀I_t到相鄰圖像幀I_t+1之間的相對位姿T _t→t+1。

以上述圖3為例，如圖3所示，相機運動預測網路中包括位姿編碼器、ConvGRU和位姿解碼器。將t時刻對應的圖像幀序列[I_t，I_t-1，I_t+1]輸入位姿編碼器302進行特徵提取，得到圖像幀序列對應的第二特徵圖

，進而將第二特徵圖

輸入ConvGRU，使得第二特徵圖

與ConvGRU中儲存的t-1時刻的第二隱狀態資訊

進行特徵融合，得到t時刻的第二隱狀態

，ConvGRU對t 時刻的第二隱狀態

進行儲存，以及將t時刻的第二隱狀態

輸出至位姿解碼器，從而得到t時刻的圖像幀序列對應的預測相機運動[T _t-1→t，T _t→t+1]。

例如，利用相機運動預測網路預測圖像幀序列對應的預測相機運動時，在相機運動預測網路的初始化階段，設置與相機運動相關的第二隱狀態資訊的預設初始值。基於第二隱狀態資訊的預設初始值以及第1時刻的圖像幀序列對應的與相機運動相關的第二特徵圖，確定第1時刻的第二隱狀態，進而基於第1時刻的第二隱狀態對第1時刻的圖像幀序列進行相機運動預測，得到第1時刻的圖像幀序列對應的預測相機運動；基於第1時刻的第二隱狀態以及第2時刻的圖像幀序列對應的與相機運動相關的第二特徵圖，確定第2時刻的第二隱狀態，進而基於第2時刻的第二隱狀態對第2時刻的圖像幀序列進行相機運動預測，得到第2時刻的圖像幀序列對應的預測相機運動；基於第2時刻的第二隱狀態以及第3時刻的圖像幀序列對應的與相機運動相關的第二特徵圖，確定第3時刻的第二隱狀態，進而基於第3時刻的第二隱狀態對第3時刻的圖像幀序列進行相機運動預測，得到第3時刻的圖像幀序列對應的預測相機運動；依次類推，最終得到不同時刻的圖像幀序列對應的預測相機運動。

在一些實施例中，該相機運動預測方法還可以包括：獲取t時刻對應的樣本圖像幀序列，其中，樣本圖像幀序列包括t時刻的第一樣本圖像幀和第一樣本圖像幀的相鄰樣本圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對目標圖像幀進行場景深度預測，確定第一樣本圖像幀對應的預測深度圖，其中，第一隱狀態資訊包括與場景深度相關的特徵資訊；通過待訓練的相機運動預測網路利用t-1時刻的第二隱狀態資訊對樣本圖像幀序列進行相機位姿預測，確定樣本圖像幀序列對應的樣本預測相機運動，其中，第二隱狀態資訊包括與相機運動相關的特徵資訊；根據樣本預測深度圖和樣本預測相機運動，構建損失函數；根據損失函數，對待訓練的相機運動預測網路進行訓練，以得到相機運動預測網路。

在一些實施例中，根據樣本預測深度圖和樣本預測相機運動，構建損失函數，可以包括：根據樣本預測相機運動，確定樣本圖像幀序列中第一樣本圖像幀的相鄰樣本圖像幀相對第一樣本圖像幀的重投影誤差項；根據樣本預測深度圖的分佈連續性，確定懲罰函數項；根據重投影誤差項和懲罰函數項，構建損失函數。

在本發明實施例中，相機運動預測網路是基於場景深度預測網路輔助訓練得到的，或者，場景深度預測網路和相機運動預測網路是聯合訓練得到的。在一些實施例中，可以基於上述圖3可以對待訓練的相機運動預測網路進行訓練，在此訓練過程中，圖3中的相機運動預測網路為待訓練的相機運動預測網路，圖3中的場景深度預測網路可以為待訓練的場景深度預測網路(聯合訓練待訓練的場景深度預測網路和待訓練相機運動預測網路)，也可以為訓練好的場景深度預測網路(對待訓練的相機運動預測網路進行單獨訓練)，具體訓練過程與上述圖3相同，本發明實施例在此不再贅述。

本發明實施例中，通過上述圖3所示網路訓練方法訓練得到的場景深度預測網路和相機運動預測網路可以進行環境的深度預測和三維場景構建。例如，將場景深度預測網路應用於掃地機、割草機等室內、室外的移動機器人導航場景中，通過紅綠藍(Red Green Blue，RGB)相機得到RGB圖像，進而利用場景深度預測網路確定RGB圖像對應的預測深度圖，利用相機預測網路確定RGB相機的相機運動，從而實現對障礙物的距離測量和三維場景構建，以完成避障和導航任務。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本發明還提供了場景深度/相機運動預測裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種場景深度/相機運動預測方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖5示出根據本發明實施例的場景深度預測裝置的方塊圖。如圖5所示，場景深度預測裝置50包括：第一獲取模組51，配置為獲取t時刻的目標圖像幀；第一場景深度預測模組52，配置為通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對目標圖像幀進行場景深度預測，確定目標圖像幀對應的預測深度圖，其中，第一隱狀態資訊包括與場景深度相關的特徵資訊，場景深度預測網路是基於相機運動預測網路輔助訓練得到的。在一些實施例中，第一場景深度預測模組52，包括：第一確定子模組，配置為對目標圖像幀進行特徵提取，確定目標圖像幀對應的第一特徵圖，其中，第一特徵圖為與場景深度相關的特徵圖；第二確定子模組，配置為根據第一特徵圖和t-1時刻的第一隱狀態資訊，確定t時刻的第一隱狀態資訊；第三確定子模組，配置為根據t時刻的第一隱狀態資訊，確定預測深度圖。

在一些實施例中，t-1時刻的第一隱狀態資訊包括 t-1時刻的不同尺度下的第一隱狀態資訊；第一確定子模組具體配置為：對目標圖像幀進行多尺度下採樣，確定目標圖像幀對應的不同尺度下的第一特徵圖；第二確定子模組具體配置為：針對任一尺度，根據該尺度下的第一特徵圖和t-1時刻的該尺度下的第一隱狀態資訊，確定t時刻的該尺度下的第一隱狀態資訊；第三確定子模組具體配置為：將t時刻的不同尺度下的第一隱狀態資訊進行特徵融合，確定預測深度圖。

在一些實施例中，場景深度預測裝置50還包括第一訓練模組，所述第一訓練模組配置為：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；通過待訓練的場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的場景深度預測網路進行訓練，以得到所述場景深度預測網路。

在一些實施例中，第一訓練模組，具體配置為：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。

圖6示出根據本發明實施例的相機運動預測裝置的方塊圖。如圖6所示，相機運動預測裝置60包括：第二獲取模組61，配置為獲取t時刻對應的圖像幀序列，其中，圖像幀序列包括t時刻的目標圖像幀和目標圖像幀的相鄰圖像幀；第一相機運動預測模組62，配置為通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對圖像幀序列進行相機位姿預測，確定圖像幀序列對應的預測相機運動，其中，第二隱狀態資訊包括與相機運動相關的特徵資訊，相機運動預測網路是基於場景深度預測網路輔助訓練得到的。

在一些實施例中，第一相機運動預測模組62，包括：第六確定子模組，配置為對圖像幀序列進行特徵提取，確定圖像幀序列對應的第二特徵圖，其中，第二特徵圖為與相機運動相關的特徵圖；第七確定子模組，配置為根據第二圖特徵和t-1時刻的第二隱狀態資訊，確定t時刻的第二隱狀態資訊；第八確定子模組，配置為根據t時刻的第二隱狀態資訊，確定預測相機運動。

在一些實施例中，預測相機運動包括圖像幀序列中相鄰圖像幀之間的相對位姿。

在一些實施例中，相機運動預測裝置60還包括第二訓練模組，所述第二訓練模組配置為：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；通過待訓練的相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的相機運動預測網路進行訓練，以得到所述相機運動預測網路。

在一些實施例中，第二訓練模組，具體配置為：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本發明實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是易失性或非易失性電腦可讀儲存介質。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述任意一種場景深度預測方法或上述任意一種相機運動預測方法。

本發明實施例還提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的場景深度和/或相機運動預測方法的指令。

本發明實施例還提供了另一種電腦程式產品，用於儲存電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的場景深度和/或相機運動預測方法的操作。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖7示出根據本發明實施例的一種電子設備800的方塊圖。如圖7所示，電子設備800可以是行動電話，電腦，數位廣播終端，訊息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖7，電子設備800可以包括以下一個或多個組件：第一處理組件802，第一記憶體804，第一電源組件806，多媒體組件808，音頻組件810，第一輸入/輸出(Input Output，I/O)的介面812，感測器組件814，以及通信組件816。

第一處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。第一處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，第一處理組件802可以包括一個或多個模組，便於第一處理組件802和其他組件之間的交互。例如，第一處理組件802可以包括多媒體模組，以方便多媒體組件808和第一處理組件802之間的交互。

第一記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，訊息，圖片，視頻等。第一記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現，如靜態隨機存取記憶體(Static Random-Access Memory，SRAM)，電可擦除可程式設計唯讀記憶體(Electrically Erasable Programmable Read Only Memory，EEPROM)，可擦除可程式設計唯讀記憶體(Electrical Programmable Read Only Memory，EPROM)，可程式設計唯讀記憶體(Programmable Read-Only Memory，PROM)，唯讀記憶體(Read-Only Memory，ROM)，磁記憶體，快閃記憶體，磁片或光碟。

第一電源組件806為電子設備800的各種組件提供電力。第一電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器(Liquid Crystal Display，LCD)和觸摸面板(Touch Pad，TP)。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式，如拍攝模式或視頻模式時，前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風(MIC)，當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在第一記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

第一輸入/輸出介面812為第一處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，使用者與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如互補金屬氧化物半導體(Complementary Metal Oxide Semiconductor，CMOS)或電荷耦合器件(Charge Coupled Device，CCD)圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信(Near Field Communication，NFC)模組，以促進短程通信。例如，在NFC模組可基於射頻識別(Radio Frequency Identification，RFID)技術，紅外資料協會(Infrared Data Association，IrDA)技術，超寬頻(Ultra Wide Band，UWB)技術，藍牙(Bluetooth，BT)技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路(Application Specific Integrated Circuit，ASIC)、數位訊號處理器(Digital Signal Processor，DSP)、數位信號處理設備(Digital Signal Process，DSPD)、可程式設計邏輯器件(Programmable Logic Device，PLD)、現場可程式設計閘陣列(Field Programmable Gate Array，FPGA)、控制器、微控制器、微處理器或其他電子組件實現，用於執行上述任意一種場景深度預測方法或上述任意一種相機運動預測方法。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的第一記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述任意一種場景深度預測方法或上述任意一種相機運動預測方法。

圖8示出根據本發明實施例的一種電子設備的方塊圖。如圖8所示，電子設備900可以被提供為一伺服器。參照圖8，電子設備900包括第二處理組件922，其進一步包括一個或多個處理器，以及由第二記憶體932所代表的記憶體資源，用於儲存可由第二處理組件922的執行的指令，例如應用程式。第二記憶體932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，第二處理組件922被配置為執行指令，以執行上述任意一種場景深度預測方法或上述任意一種相機運動預測方法。

電子設備900還可以包括一個第二電源組件926被配置為執行電子設備900的電源管理，一個有線或無線網路介面950被配置為將電子設備900連接到網路，和第二輸入/輸出(I/O)介面958。電子設備900可以操作基於儲存在第二記憶體932的作業系統，例如 Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM或類似。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的第二記憶體932，上述電腦程式指令可由電子設備900的第二處理組件922執行以完成上述任意一種場景深度預測方法或上述任意一種相機運動預測方法。

本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括：可擕式電腦盤、硬碟、隨機存取記憶體(Random-Access Memory，RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如，通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(Instruction Set Architecture，ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括物件導向的程式設計語言-諸如Smalltalk、C++等，以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路-包括局域網(Local Area Network，LAN)或廣域網路 (Wide Area Network，WAN)-連接到使用者電腦，或者，可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列((Programmable Logic Array，PLA)，該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦儲存介質，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體發展包(Software Development Kit，SDK)等等。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

工業實用性

本發明實施例提供了一種場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質，所述方法包括：獲取t時刻的目標圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊，所述場景深度預測網路是基於相機運動預測網路輔助訓練得到的。本發明實施例可以得到目標圖像幀對應的預測精度較高的預測深度圖。

S11,S12:步驟

Claims

一種場景深度預測方法，應用於終端設備，所述方法包括：獲取t時刻的目標圖像幀；通過場景深度預測網路利用t-1時刻與場景深度相關的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，其中，所述場景深度預測網路是基於相機運動預測網路輔助訓練得到的。
根據請求項1所述的方法，其中，所述通過場景深度預測網路利用t-1時刻與場景深度相關的第一隱狀態資訊對所述目標圖像幀進行場景深度預測，確定所述目標圖像幀對應的預測深度圖，包括：對所述目標圖像幀進行特徵提取，確定所述目標圖像幀對應的第一特徵圖，其中，所述第一特徵圖為與場景深度相關的特徵圖；根據所述第一特徵圖和t-1時刻的所述第一隱狀態資訊，確定t時刻的所述第一隱狀態資訊；根據t時刻的所述第一隱狀態資訊，確定所述預測深度圖。
根據請求項2所述的方法，其中，所述t-1時刻的所述第一隱狀態資訊包括t-1時刻的不同尺度下的所述第一隱狀態資訊；所述對所述目標圖像幀進行特徵提取，確定所述目標圖像幀對應的第一特徵圖，包括：對所述目標圖像幀進行多尺度下採樣，確定所述目標圖像幀對應的不同尺度下的所述第一特徵圖；所述根據所述第一特徵圖和t-1時刻的所述第一隱狀態資訊，確定t時刻的所述第一隱狀態資訊，包括：針對任一尺度，根據該尺度下的所述第一特徵圖和t-1時刻的該尺度下的所述第一隱狀態資訊，確定t時刻的該尺度下的所述第一隱狀態資訊；所述根據t時刻的所述第一隱狀態資訊，確定所述預測深度圖，包括：將t時刻的不同尺度下的所述第一隱狀態資訊進行特徵融合，確定所述預測深度圖。
根據請求項1至3任一項所述的方法，其中，所述方法還包括：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；通過待訓練的場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的場景深度預測網路進行訓練，以得到所述場景深度預測網路。
根據請求項4所述的方法，其中，所述根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數，包括：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。
一種相機運動預測方法，應用於終端設備，所述方法包括：獲取t時刻對應的圖像幀序列，其中，所述圖像幀序列包括t時刻的目標圖像幀和所述目標圖像幀的相鄰圖像幀；通過相機運動預測網路利用t-1時刻與相機運動相關的第二隱狀態資訊對所述圖像幀序列進行相機位姿預測，確定所述圖像幀序列對應的預測相機運動，其中，所述相機運動預測網路是基於場景深度預測網路輔助訓練得到的；其中，所述通過相機運動預測網路利用t-1時刻與相機運動相關的第二隱狀態資訊對所述圖像幀序列進行相機位姿預測，確定所述圖像幀序列對應的預測相機運動，包括：對所述圖像幀序列進行特徵提取，確定所述圖像幀序列對應的第二特徵圖，其中，所述第二特徵圖為與相機運動相關的特徵圖；根據所述第二特徵圖和t-1時刻的所述第二隱狀態資訊，確定t時刻的所述第二隱狀態資訊；根據t時刻的所述第二隱狀態資訊，確定所述預測相機運動。
根據請求項6所述的方法，其中，所述方法還包括：獲取t時刻對應的樣本圖像幀序列，其中，所述樣本圖像幀序列包括t時刻的第一樣本圖像幀和所述第一樣本圖像幀的相鄰樣本圖像幀；通過場景深度預測網路利用t-1時刻的第一隱狀態資訊對所述第一樣本圖像幀進行場景深度預測，確定所述第一樣本圖像幀對應的樣本預測深度圖，其中，所述第一隱狀態資訊包括與場景深度相關的特徵資訊；通過待訓練的相機運動預測網路利用t-1時刻的第二隱狀態資訊對所述樣本圖像幀序列進行相機位姿預測，確定所述樣本圖像幀序列對應的樣本預測相機運動，其中，所述第二隱狀態資訊包括與相機運動相關的特徵資訊；根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數；根據所述損失函數，對所述待訓練的相機運動預測網路進行訓練，以得到所述相機運動預測網路。
根據請求項7所述的方法，其中，所述根據所述樣本預測深度圖和所述樣本預測相機運動，構建損失函數，包括：根據所述樣本預測相機運動，確定所述樣本圖像幀序列中所述第一樣本圖像幀的相鄰樣本圖像幀相對所述第一樣本圖像幀的重投影誤差項；根據所述樣本預測深度圖的分佈連續性，確定懲罰函數項；根據所述重投影誤差項和所述懲罰函數項，構建所述損失函數。
一種電子設備，包括：處理器；配置為儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行請求項1至8中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至8中任意一項所述的方法。