TWI790380B - 深度估計系統之自監督訓練 - Google Patents
深度估計系統之自監督訓練 Download PDFInfo
- Publication number
- TWI790380B TWI790380B TW108117215A TW108117215A TWI790380B TW I790380 B TWI790380 B TW I790380B TW 108117215 A TW108117215 A TW 108117215A TW 108117215 A TW108117215 A TW 108117215A TW I790380 B TWI790380 B TW I790380B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- images
- depth
- game
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/579—Depth or shape recovery from multiple images from motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/239—Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0088—Synthesising a monoscopic image signal from stereoscopic images, e.g. synthesising a panoramic or high resolution monoscopic image
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Radar Systems Or Details Thereof (AREA)
- Eye Examination Apparatus (AREA)
- Image Processing (AREA)
Abstract
本發明描述一種用於訓練一深度估計模型之方法及其使用方法。獲得影像且將該等影像輸入至一深度模型中以基於該深度模型之參數提取該複數個影像之各者之一深度圖。該方法包含將該等影像輸入至一姿勢解碼器中以提取各影像之一姿勢。該方法包含基於各影像之該深度圖及該姿勢產生複數個合成圖框。該方法包含基於該等合成圖框與該等影像之一比較使用一輸入尺度遮蔽及運動感知損失函數計算一損失值。該方法包含基於該損失值調整該深度模型之該複數個參數。該經訓練模型可接收一場景之一影像且根據該影像產生該場景之一深度圖。
Description
所描述之標的物大體係關於自一單色輸入影像估計一深度圖,且特定言之係關於一種用於估計使用視訊資料及/或立體影像資料訓練之該深度圖之機器學習模型。
深度感測具有在導航及場景理解兩者中之應用。許多方法使用經訓練模型或網路來自一單色輸入影像判定一深度圖。存在使用不同種類之訓練資料來訓練深度估計系統之若干方法。可使用一偵測及測距系統來訓練一深度估計系統以建立與藉由一相機對同一場景攝取之影像配對之一環境(即,無線電偵測及測距(RADAR)、光偵測及測距(LIDAR)等)中之物件之一實況深度。雖然偵測及測距系統可提供物件之深度之一實況,但持續利用偵測及測距系統來感測許多不同環境之深度可在時間及資源上成本很高。再者,偵測及測距系統無法判定可具有使其等無法由該等偵測及測距系統偵測之材料性質(例如,反射性物件)之一些物件之深度。
訓練一深度估計系統之另一方法利用同一場景之立體影像對。在一單一時間例項擷取立體影像對取決於使用聚焦於同一場景上但相隔某一距離定位之兩個相機。深度估計系統透過自立體影像之一者投影至立體影像對中之另一立體影像而操作。為了自一者投影至另一者,深度估計系統考慮除了一視差(深度之一按比例調整倒數)外之當前立體影像及用於攝取立體影像對之兩個相機之實體位置之間的相對變換。在相較於一投影之經擷取立體影像最小化其之光度重構誤差,深度估計系統可判定場景之深度。
一些更新穎之方法利用一不斷改變之場景之單目視訊資料訓練一深度估計系統。深度估計系統藉由自單目視訊資料中之一個時間影像投影至一後續時間影像同時最小化一光度重構誤差而訓練。然而,此等系統可不準確地考量自一個時間影像至另一時間影像傳入視野或離開視野之物件,此導致深度圖中及圍繞深度圖邊界之假影。再者,傳統系統當前在升取樣深度圖之前輸入用於判定深度圖之低解析度影像,此容易受到深度升取樣假影影響。
本發明描述一種用於訓練且使用一深度估計模型之方法。為訓練該模型,一種系統需要影像。該系統將該等影像輸入至一深度模型中以基於該深度模型之參數提取各影像之一深度圖。該系統將該等影像輸入至一姿勢解碼器中以提取各影像之一姿勢。該系統基於各影像之該深度圖及該姿勢產生合成圖框。該系統基於該等合成圖框與該等影像之一比較使用一輸入尺度遮蔽及運動感知損失函數計算一損失值。該輸入尺度遮蔽及運動感知損失函數計算一損失值以用於細化該深度模型之參數。該損失函數包含一合成圖框與一輸入影像之間的每像素光度重構誤差之一計算。該損失函數亦可將自在時間上與另一影像相鄰之來自單目視訊之時間影像投影之兩個合成圖框之間的一最小光度重構誤差納入考慮。升取樣深度特徵亦可在產生該等合成圖框期間使用,此將影響外觀匹配損失計算。該損失函數亦可實施所產生之一遮罩,該遮罩在計算該損失值時使影像中之靜態特徵打折扣。該系統基於該損失值調整該深度模型之該等參數。憑藉該經訓練模型,一裝置可接收一場景之一影像且根據該影像產生該場景之一深度圖。
在一些實施例中,該深度估計模型使用包括單目視訊之影像資料訓練。該單目視訊之各影像在一不同時間擷取且與一對應時戳相關聯。在使用具有一第一時戳之一第一影像及具有一第二時戳之一第二影像之一實例論述中,該模型使用來自該單目視訊之具有該第一時戳之該第一影像來在該第二時戳產生一合成圖框。該模型計算該合成圖框與具有該第二時戳之該第二影像之間的一光度重構誤差。該模型使用來自該單目視訊之具有相鄰時戳之其他影像對遵循上述程序。該模型調整該等參數以最小化該誤差。在其他實施例中,該模型使用包括立體影像對之影像資料訓練,其中各立體影像對藉由一對立體相機擷取。當產生合成圖框時,該模型自一立體影像對獲得該等影像之一者(例如,左側影像)且在另一影像(例如,右側影像)處產生一合成圖框。該模型計算該合成圖框與另一影像之間的該光度重構誤差。該模型調整該等參數以最小化該誤差。在又其他實施例中,該模型使用包括單目視訊及立體影像對兩者之影像資料訓練。
相關申請案之交叉參考
本申請案主張2018年5月17日申請之美國臨時專利申請案第62/673,045號之優先權及權利,該案以引用的方式併入本文中。
例示性基於位置平行實境遊戲系統
一平行實境遊戲係具有一虛擬世界地理之一基於位置之遊戲,該虛擬世界地理平行於真實世界地理之至少一部分,使得真實世界中之玩家移動及動作將影響虛擬世界中之動作,且反之亦然。使用本文提供之揭示內容之一般技術者將理解所描述之標的物可應用於其中期望判定來自影像資料之深度資訊之其他情形中。另外,基於電腦之系統之固有靈活性容許系統之組件之間及其間之任務及功能性之各種可能之組態、組合及劃分。例如,根據本發明之態樣之系統及方法可使用一單一運算裝置或跨多個運算裝置(例如,在一電腦網路中連接)實施。
圖1繪示根據一或多項實施例之一網路化運算環境100。網路化運算環境100提供具有平行於真實世界之一地理之一虛擬世界中之玩家之互動。特定言之,真實世界中之一地理區域可直接連結或映射至虛擬世界中之一對應區域。一玩家可藉由移動至真實世界中之各種地理位置而在虛擬世界中四處移動。例如,一玩家在真實世界中之位置可經追蹤且用於更新玩家在虛擬世界中之位置。通常,玩家在真實世界中之位置藉由找到一用戶端裝置110之位置且假設玩家處於相同(或大致相同)位置而判定,玩家透過該用戶端裝置120與虛擬世界互動。例如,在各種實施例中,若玩家在真實世界中之位置在對應於一虛擬元件在虛擬世界中之虛擬位置之真實世界位置之一臨限距離(例如,十米、二十米等)內,則玩家可與虛擬元件互動。為方便起見,參考「玩家之位置」描述各種實施例,但熟習此項技術者將瞭解,此等參考可指代玩家之用戶端裝置110之位置。
現參考圖2,其描繪根據一項實施例之平行於真實世界200之一虛擬世界210之一概念圖,其可充當一平行實境遊戲之玩家之遊戲盤。如繪示,虛擬世界210可包含平行於真實世界200之地理之一地理。特定言之,界定真實世界200中之一地理區域或空間之一座標範圍映射至界定虛擬世界210中之一虛擬空間之一對應座標範圍。真實世界200中之座標範圍可與一市鎮、鄰里、城市、校園、場域、一國家、大洲、全球或其他地理區域相關聯。地理座標範圍中之各地理座標映射至虛擬世界中之一虛擬空間中之一對應座標。
一玩家在虛擬世界210中之位置對應於玩家在真實世界200中之位置。例如,定位在真實世界200中之位置212處之玩家A具有虛擬世界210中之一對應位置222。類似地,定位在真實世界中之位置214處之玩家B具有虛擬世界中之一對應位置224。當玩家在真實世界中之一地理座標範圍中四處移動時,玩家亦在界定虛擬世界210中之虛擬空間之座標範圍中四處移動。特定言之,與由玩家攜載之一行動運算裝置相關聯之一定位系統(例如,一GPS系統)可用於在一玩家導航真實世界中之地理座標範圍時追蹤玩家之位置。與玩家在真實世界200中之位置相關聯之資料用於更新界定虛擬世界210中之虛擬空間之對應座標範圍中之玩家之位置。如此,玩家可藉由簡單地在真實世界200中之對應地理座標範圍中行進而沿著界定虛擬世界210中之虛擬空間之座標範圍中之一連續軌跡導航,而不必登入或週期性更新真實世界200中之特定離散位置處之位置資訊。
基於位置之遊戲可包含要求玩家行進至散佈在虛擬世界中之各種虛擬位置處之各種虛擬元件及/或虛擬物件及/或與之互動之複數個遊戲目標。一玩家可藉由行進至虛擬元件或物件在真實世界中之對應位置而行進至此等虛擬位置。例如,一定位系統可持續追蹤玩家之位置,使得當玩家持續導航真實世界時,玩家亦持續導航平行虛擬世界。玩家可接著與在特定位置之各種虛擬元件及/或物件互動以達成或執行一或多個遊戲目標。
例如,一遊戲目標使玩家與定位於虛擬世界210中之各種虛擬位置處之虛擬元件230互動。此等虛擬元件230可連結至真實世界200中之地標、地理位置或物件240。真實世界地標或物件240可為藝術品、紀念碑、建築、企業、圖書館、博物館或其他適當真實世界地標或物件。互動包含擷取一些虛擬品項、主張一些虛擬品項之所有權、使用一些虛擬品項、花一些虛擬貨幣等。為擷取此等虛擬元件230,一玩家必須行進至連結至真實世界中之虛擬元件230之地標或地理位置240且必須執行與虛擬世界210中之虛擬元件230之任何必要互動。例如,圖2之玩家A可必須行進至真實世界200中之一地標240以便與與該特定地標240連結之一虛擬元件230互動或擷取該虛擬元件230。與虛擬元件230之互動可需要真實世界中之動作,諸如拍照及/或確認、獲得或擷取關於與虛擬元件230相關聯之地標或物件240之其他資訊。
遊戲目標可要求玩家使用藉由玩家在基於位置之遊戲中收集之一或多個虛擬品項。例如,玩家可在虛擬世界210行進,搜尋可有助於完成遊戲目標之虛擬品項(例如,武器、生物、加電或其他品項)。此等虛擬品項可藉由行進至真實世界200中之不同位置或藉由完成虛擬世界210或真實世界200中之各種動作而找到或收集。如在圖2中展示之實例中,一玩家使用虛擬品項232來擷取一或多個虛擬元件230。特定言之,一玩家可將虛擬品項232部署於虛擬世界210中靠近虛擬元件230或虛擬元件230內之位置處。如此部署一或多個虛擬品項232可導致針對特定玩家或針對特定玩家之團隊/派系擷取虛擬元件230。
在一項特定實施方案中,一玩家可必須收集虛擬能量作為平行實境遊戲之部分。如在圖2中描繪,虛擬能量250可散佈於虛擬世界210中之不同位置處。一玩家可藉由行進至虛擬能量250在實際世界200中之對應位置而收集虛擬能量250。虛擬能量250可用於為虛擬品項提供動力及/或執行遊戲中之各種遊戲目標。損失所有虛擬能量250之一玩家可與遊戲斷開。
根據本發明之態樣,平行實境遊戲可為其中遊戲中之每一參與者共用同一虛擬世界之一大型多玩家基於位置之遊戲。玩家可分為單獨團隊或派系且可一起工作以達成一或多個遊戲目標,諸如擷取或主張一虛擬元件之所有權。如此,平行實境遊戲可本質上係鼓勵遊戲內玩家間之協作之一社交遊戲。來自對抗團隊之玩家可在平行實境遊戲期間彼此對抗(或有時合作以達成相互目標)。一玩家可使用虛擬品項來攻擊或阻礙對抗團隊之玩家之進展。在一些情況中,鼓勵玩家針對平行實境遊戲中之協作或互動事件集合於真實世界位置處。在此等情況中,遊戲伺服器企圖確保玩家實際上實體存在且並非電子欺騙。
平行實境遊戲可具有各種特徵來增強且鼓勵平行實境遊戲內玩遊戲。例如,玩家可累積一虛擬貨幣或另一虛擬獎酬(例如,虛擬符記、虛擬點、虛擬材料資源等),該虛擬貨幣或另一虛擬獎酬可在整個遊戲中使用(例如,購買遊戲內品項,兌換其他品項,製作品項等)。玩家可在玩家完成一或多個遊戲目標且在遊戲內獲得經驗時前進通過各種等級。在一些實施例中,玩家可透過遊戲中提供之一或多個通信介面彼此通信。玩家亦可獲得可用於完成遊戲內之遊戲目標之增強「力量」或虛擬品項。一般技術者使用本文提供之揭示內容應理解各種其他遊戲特徵可包含於平行實境遊戲而不脫離本發明之範疇。
返回參考圖1,網路化運算環境100使用一用戶端-伺服器架構,其中一遊戲伺服器120在一網路105上方與一用戶端裝置110通信以在用戶端裝置110處提供一平行實境遊戲給玩家。網路化運算環境100亦可包含其他外部系統,諸如贊助商/廣告主系統或企業系統。雖然在圖1中僅繪示一個用戶端裝置110,但任何數目個用戶端110或其他外部系統可在網路105上方連接至遊戲伺服器120。此外,網路化運算環境100可含有不同或額外元件且功能性可以不同於下文描述之一方式分佈於用戶端裝置110與伺服器120之間。
一用戶端裝置110可為可藉由一玩家用來與遊戲伺服器120介接之任何攜帶式運算裝置。例如,一用戶端裝置110可為一無線裝置、一個人數位助手(PDA)、攜帶式遊戲裝置、蜂巢式電話、智慧型電話、平板電腦、導航系統、手持式GPS系統、可穿戴運算裝置、具有一或多個處理器之一顯示器或其他此裝置。在另一例項中,用戶端裝置110包含一習知電腦系統,諸如一桌上型或膝上型電腦。此外,用戶端裝置110可為具有一運算裝置之一車輛。簡而言之,一用戶端裝置110可為可使一玩家能夠與遊戲伺服器120互動之任何電腦裝置或系統。作為一運算裝置,用戶端裝置110可包含一或多個處理器及一或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存使處理器執行操作之指令。用戶端裝置110較佳地為可由一玩家輕易攜帶或以其他方式運輸之一攜帶式運算裝置(諸如一智慧型電話或平板電腦)。
用戶端裝置110與遊戲伺服器120通信,從而為遊戲伺服器120提供一實體環境之感測資料。用戶端裝置110包含一相機總成125,該相機總成125擷取用戶端裝置110所處之實體環境中之一場景之二維影像資料。用戶端裝置110亦包含一深度估計模型130,該深度估計模型130為(例如)藉由遊戲伺服器120訓練之一機器學習模型。在圖1中展示之實施例中,各用戶端裝置110包含軟體組件,諸如一遊戲模組135及一定位模組140。用戶端裝置110可包含用於自一玩家接收資訊及/或提供資訊給玩家之各種其他輸入/輸出裝置。實例輸入/輸出裝置包含一顯示器螢幕、一觸摸螢幕、一觸摸板、資料鍵入鍵、揚聲器及適合於語音辨識之一麥克風。用戶端裝置110亦可包含用於記錄來自用戶端裝置110之資料之其他各種感測器,包含但不限於移動感測器、加速度計、陀螺儀、其他慣性量測單元(IMU)、氣壓計、定位系統、溫度計、光感測器等。用戶端裝置110可進一步包含用於提供網路105上方之通信之一網路介面。一網路介面可包含用於與一或多個網路介接之任何適當組件,包含(例如)傳輸器、接收器、埠、控制器、天線或其他適當組件。
相機總成125擷取用戶端裝置110所處之環境之一場景之影像資料。相機總成125可利用具有按不同擷取速率之不同色彩擷取範圍之各種不同光感測器。相機總成125可含有一廣角透鏡或一望遠透鏡。相機總成125可經組態以擷取單一影像或視訊作為影像資料。另外,相機總成125之定向可憑藉其水平瞄準而平行於地面。相機總成125擷取影像資料且與用戶端裝置110上之運算裝置共用影像資料。影像資料可附加有描述包含感測資料(例如,環境之溫度、亮度)或擷取資料(例如,曝光、暖度、快門速度、焦距、擷取時間等)之影像資料之其他細節之後設資料。相機總成125可包含可擷取影像資料之一或多個相機。在一個例項中,相機總成125包括一個相機且經組態以擷取單目影像資料。在另一例項中,相機總成125包括兩個相機且經組態以擷取立體影像資料。在各種其他實施方案中,相機總成125包括複數個相機,其等各經組態以擷取影像資料。
深度估計模型130接收一場景之一輸入影像且基於輸入影像輸出場景之一深度。深度估計模型130藉由一深度估計訓練系統訓練且可藉由深度估計訓練系統更新或調整,此在下文更詳細論述。經接收之輸入影像可藉由相機總成125之一相機或來自另一用戶端裝置110之另一相機擷取。在一些實施例中,經接收之輸入影像具有附加至影像之指定輸入影像之本質之後設資料。一影像之本質係指在擷取影像時相機之一或多個幾何性質,例如,在擷取影像時相機之焦距、相機之像主點偏移、相機之偏斜等。憑藉該等本質,深度估計模型130可產生考量該等本質之一本質矩陣。在一些實施例中,深度估計模型130判定輸入影像是否高於一臨限解析度。若不高於臨限解析度,則深度估計模型130可在判定場景之深度圖之前將輸入影像升取樣至一所需解析度。深度估計模型130輸入影像(在接收時或在升取樣之後)且判定場景之一深度圖。機器學習演算法可在深度估計模型130中實施以用於訓練及/或推斷。
遊戲模組135為一玩家提供參與平行實境遊戲中之一介面。遊戲伺服器120在網路105上方將遊戲資料傳輸至用戶端裝置110以供用戶端裝置110處之遊戲模組135用來提供遊戲之本端版本給在遠離遊戲伺服器120之位置處之玩家。遊戲伺服器120可包含用於提供網路105上方之通信之一網路介面。一網路介面可包含用於與一或多個網路介接之任何適當組件,包含(例如)傳輸器、接收器、埠、控制器、天線或其他適當組件。
藉由用戶端裝置110執行之遊戲模組135提供一玩家與平行實境遊戲之間的一介面。遊戲模組135可在與用戶端裝置110相關聯之一顯示器裝置上呈現一使用者介面,該顯示器裝置顯示與遊戲相關聯之一虛擬世界(例如,呈現虛擬世界之影像)且容許一使用者在虛擬世界中互動以執行各種遊戲目標。在一些其他實施例中,遊戲模組135呈現來自真實世界之影像資料(例如,藉由相機總成125擷取),該影像資料使用來自平行實境遊戲之虛擬元件擴增。在此等實施例中,遊戲模組135可根據自用戶端裝置之其他組件接收之其他資訊產生虛擬內容及/或調整虛擬內容。例如,遊戲模組135可根據影像資料中擷取之場景之一深度圖(例如,由深度估計模型130判定)調整使用者介面上顯示之一虛擬物件。
遊戲模組135亦可控制各種其他輸出以容許一玩家與遊戲互動而不要求玩家觀看一顯示器螢幕。例如,遊戲模組135可控制各種音訊、振動或其他通知,其等容許玩家在不看顯示器螢幕的情況下玩該遊戲。遊戲模組135可存取自遊戲伺服器120接收之遊戲資料以提供遊戲之一精確表示給使用者。遊戲模組135可接收且處理玩家輸入且在網路105上方提供更新至遊戲伺服器120。遊戲模組135亦可產生及/或調整待藉由用戶端裝置110顯示之遊戲內容。例如,遊戲模組135可基於深度資訊(例如,由深度估計模型130判定)產生一虛擬元件。
定位模組140可為用於監測用戶端裝置110之位置之任何裝置或電路。例如,定位模組140可藉由使用一衛星導航定位系統(例如,一GPS系統、一Galileo定位系統、全球導航衛星系統(GLONASS)、BeiDou衛星導航及定位系統)、一慣性導航系統、一航位推算系統,基於IP位址,藉由使用至蜂巢式塔或Wi-Fi熱點之三角量測及/或近接性及/或用於判定位置之其他適當技術判定實際或相對位置。定位模組140可進一步包含可幫助精確定位用戶端裝置110位置之各種其他感測器。
在玩家在真實世界中帶著用戶端裝置110四處移動時,定位模組140追蹤玩家之位置且提供玩家定位資訊至遊戲模組135。遊戲模組135基於玩家在真實世界中之實際位置更新與遊戲相關之虛擬世界中之玩家位置。因此,一玩家可簡單地藉由在真實世界中攜帶或運輸用戶端裝置110而與虛擬世界互動。特定言之,玩家在虛擬世界中之位置可對應於玩家在真實世界中之位置。遊戲模組135可在網路105上方提供玩家位置資訊至遊戲伺服器120。作為回應,遊戲伺服器120可制定各種技術來確認用戶端裝置110位置以防止作弊者欺騙用戶端裝置110位置。應理解,僅在於已經通知玩家將存取玩家之位置資訊及將在遊戲之內容背景中如何利用位置資訊(例如,更新虛擬世界中之玩家位置)之後授予許可的情況下利用與一玩家相關聯之位置資訊。另外,與玩家相關聯之任何位置資訊將以保護玩家隱私之一方式儲存且維持。
遊戲伺服器120可為任何運算裝置且可包含一或多個處理器及一或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存使處理器執行操作之指令。遊戲伺服器120可包含一遊戲資料庫115或可與之通信。遊戲資料庫115儲存在網路105上方伺服或提供至(若干)用戶端120之平行實境遊戲中使用之遊戲資料。
儲存於遊戲資料庫115中之遊戲資料可包含:(1)與平行實境遊戲中之虛擬世界相關聯之資料(例如,用於在一顯示器裝置上呈現虛擬世界之影像資料、虛擬世界中之位置之地理座標等);(2)與平行實境遊戲之玩家相關聯之資料(例如,玩家資料檔,包含但不限於玩家資訊、玩家經驗等級、玩家金幣、虛擬世界/真實世界中之當前玩家位置、玩家能量等級、玩家偏好、團隊資訊、派系資訊等);(3)與遊戲目標相關聯之資料(例如,與當前遊戲目標、遊戲目標之狀態、歷史遊戲目標、未來遊戲目標、預期遊戲目標等相關聯之資料);(4)與虛擬世界中之虛擬元件相關聯之資料(例如,虛擬元件之位置、虛擬元件之類型、與虛擬元件相關聯之遊戲目標;虛擬元件之對應實際世界位置資訊;虛擬元件之行為、虛擬元件之相關性等);(5)與連結至虛擬世界元件之真實世界物件、地標、位置相關聯之資料(例如,真實世界物件/地標之位置、真實世界物件/地標之描述、連結至真實世界物件之虛擬元件之相關性等);(6)遊戲狀態(例如,玩家之當前數目、遊戲目標之當前狀態、玩家排行榜等);(7)與玩家動作/輸入相關聯之資料(例如,當前玩家位置、歷史玩家位置、玩家移動、玩家輸入、玩家查詢、玩家通信等);及(8)在實施平行實境遊戲期間使用、相關或獲得之任何其他資料。儲存於遊戲資料庫115中之遊戲資料可藉由系統管理者及/或藉由自系統100之使用者/玩家(諸如在網路105上方自一用戶端裝置110)接收之資料離線或即時填入。
遊戲伺服器120可經組態以自一用戶端裝置110接收對遊戲資料之請求(例如,經由遠端程序呼叫(RPC))且經由網路105對該等請求做出回應。例如,遊戲伺服器120可在一或多個資料檔案中編碼遊戲資料且將資料檔案提供至用戶端裝置110。另外,遊戲伺服器120可經組態以經由網路105自一用戶端裝置110接收遊戲資料(例如,玩家位置、玩家動作、玩家輸入等)。例如,用戶端裝置110可經組態以週期性發送玩家輸入及其他更新至遊戲伺服器120,該遊戲伺服器120使用其等來更新遊戲資料庫115中之遊戲資料以反映遊戲之任一及所有改變之條件。
在所展示之實施例中,伺服器120包含一通用遊戲模組145、一商業遊戲模組150、一資料收集模組155、一事件模組160及一深度估計訓練系統170。如上文提及,遊戲伺服器120與一遊戲資料庫115互動,該遊戲資料庫115可為遊戲伺服器120之部分或在遠端存取(例如,遊戲資料庫115可為經由網路105存取之一分散式資料庫)。在其他實施例中,遊戲伺服器120含有不同及/或額外元件。另外,功能可以不同於所描述之一方式散佈於元件中。例如,遊戲資料庫115可整合於遊戲伺服器120中。
通用遊戲模組145針對所有玩家託管平行實境遊戲且針對所有玩家充當平行實境遊戲之當前狀態之權威源。作為主機,通用遊戲模組145產生(例如)經由其等各自用戶端裝置110呈現給玩家之遊戲內容。通用遊戲模組145可存取遊戲資料庫115以在託管平行實境遊戲時檢索及/或儲存遊戲資料。通用遊戲模組145亦自用戶端裝置110接收遊戲資料(例如,深度資訊、玩家輸入、玩家位置、玩家動作、地標資訊等)且併入針對平行實境遊戲之所有玩家接收至總平行實境遊戲中之遊戲資料。通用遊戲模組145亦可管理在網路105上方將遊戲資料遞送至用戶端裝置110。通用遊戲模組145亦可控管用戶端裝置110之安全性態樣,包含但不限於保全用戶端裝置110與遊戲伺服器120之間的連接、建立各種用戶端裝置110之間的連接及確認各種用戶端裝置110之位置。
在其中包含一個商業遊戲模組150之實施例中,商業遊戲模組150可與通用遊戲模組145分離或作為通用遊戲模組145之一部分。商業遊戲模組150可管理將與真實世界中之一商業活動連結之各種遊戲特徵包含於平行實境遊戲內。例如,商業遊戲模組150可自外部系統(諸如贊助商/廣告主、企業或網路105上方之其他實體)(經由一網路介面)接收請求以包含與平行實境遊戲中之商業活動連結之遊戲特徵。商業遊戲模組150可接著針對將此等遊戲特徵包含於平行實境遊戲中配置。
遊戲伺服器120可進一步包含一資料收集模組155。在其中包含一個資料收集模組155之實施例中,資料收集模組155可與通用遊戲模組145分離或作為通用遊戲模組145之一部分。資料收集模組155可管理將與真實世界中之一資料收集活動連結之各種遊戲特徵包含於平行實境遊戲內。例如,資料收集模組155可修改儲存於遊戲資料庫115中之遊戲資料以將與資料收集活動連結之遊戲特徵包含於平行實境遊戲中。資料收集模組155亦可分析藉由玩家依照資料收集活動收集之資料且提供用於供各種平台存取之資料。
事件模組160管理玩家對平行實境遊戲中之事件之存取。雖然為方便起見使用術語「事件」,但應瞭解,此術語不需要指代在一特定位置或時間之一特定事件。實情係,其可指代存取受控遊戲內容之任何佈建,其中一或多個存取準則用於判定玩家是否可存取該內容。此內容可為包含具有較少或無存取控制之遊戲內容之一更大平行實境遊戲之部分或可為一獨立、存取受控平行實境遊戲。
深度估計訓練系統170訓練一深度估計模型(例如,提供至用戶端裝置110之深度估計模型130)。深度估計訓練系統170接收用於訓練深度估計模型中之影像資料。一般言之,深度估計訓練系統170處理影像資料,輸入影像資料至一深度估計模型及一姿勢估計模型中,將影像投影於其他影像上作為合成圖框且反覆地調整深度估計模型之參數。深度估計訓練系統170可基於該等合成圖框與影像之一比較使用一輸入尺度遮蔽及運動感知損失函數進一步定義一損失值,該損失值接著在細化該等參數時最小化。損失值亦可指示深度估計模型是否充分訓練及/或是否足夠精確地估計深度資訊。該損失函數亦可將自來自在時間上與另一影像相鄰之單目視訊之時間影像投影之兩個合成圖框之間的一最小光度重構誤差納入考慮。升取樣深度特徵亦可在產生該等合成圖框期間使用,此將影響外觀匹配損失計算。該損失函數亦可實施所產生之一遮罩,該遮罩在計算該損失值時使影像中之靜態特徵打折扣。一旦深度估計模型經訓練,深度估計模型便接收影像資料且輸出影像資料中之環境之深度資訊。深度估計訓練系統170提供經訓練模型至用戶端裝置110。藉由深度估計訓練系統170訓練將在下文進一步描述。
網路105可為任何類型之通信網路,諸如一區域網路(例如,內部網路)、廣域網路(例如,網際網路)或其等之一些組合。網路亦可包含一用戶端裝置110與遊戲伺服器120之間的一直接連接。一般言之,遊戲伺服器120與一用戶端裝置110之間的通信可使用任何類型之有線及/或無線連接,使用各種通信協定(例如,TCP/IP、HTTP、SMTP、FTP)、編碼或格式(例如,HTML、XML、JSON)及/或保護方案(例如,VPN、安全HTTP、SSL)經由一網路介面載送。
本文論述之技術參考伺服器、資料庫、軟體應用程式及其他基於電腦之系統,以及採取之動作及發送至此等系統及自此等系統發送之資訊。一般技術者將認識到,基於電腦之系統之固有靈活性容許組件之間及其中之任務及功能性之各種可能之組態、組合及劃分。例如,本文論述之伺服器程序可使用一單一伺服器或組合工作之多個伺服器實施。資料庫及應用程式可在一單一系統上實施或跨多個系統散佈。散佈組件可循序或並行操作。
另外,在其中本文論述之系統及方法存取且分析關於使用者之個人資訊或利用個人資訊(諸如位置資訊)之情形中,使用者可具備控制程式或特徵是否收集資訊且控制是否及/或如何自系統或其他應用程式接收內容之一機會。不收集或使用此資訊或資料,直至使用者已經被提供收集什麼資訊及如何使用該資訊之有意義通知。不收集或使用該資訊,除非使用者提供同意,該同意可由使用者在任何時間撤回或修改。因此,使用者可控制如何收集關於使用者之資訊且資訊如何由應用程式或系統使用。另外,特定資訊或資料可在其儲存或使用之前以一或多個方式處理,使得個人可識別資訊被移除。例如,可處理一使用者之識別碼,使得可不針對使用者判定個人可識別資訊。
例示性遊戲介面
圖3描繪一遊戲介面300之一項實施例,其可呈現於一用戶端120之一顯示器上作為一玩家與虛擬世界210之間的介面之部分。遊戲介面300包含一顯示器窗310,該顯示器窗310可用於顯示虛擬世界210及遊戲之各種其他態樣,諸如虛擬世界210中之玩家位置222及虛擬元件230、虛擬品項232及虛擬能量250之位置。使用者介面300亦可顯示其他資訊,諸如遊戲資料資訊、遊戲通信、玩家資訊、用戶端位置確認指令及與遊戲相關聯之其他資訊。例如,使用者介面可顯示玩家資訊315,諸如玩家名稱、經驗等級及其他資訊。使用者介面300可包含用於存取各種遊戲設定及與遊戲相關聯之其他資訊之一選單320。使用者介面300亦可包含一通信介面330,該通信介面330實現遊戲系統與玩家之間及平行實境遊戲之一或多個玩家之間的通信。
根據本發明之態樣,一玩家可簡單地藉由在真實世界中隨身攜帶一用戶端裝置110而與平行實境遊戲互動。例如,一玩家可簡單地藉由在一智慧型電話上存取與平行實境遊戲相關聯之一應用程式且帶著智慧型電話在真實世界中四處移動而玩遊戲。就此而言,玩家不必在一顯示器螢幕上持續觀看虛擬世界之一視覺表示以便玩基於位置之遊戲。因此,使用者介面300可包含容許一使用者與遊戲互動之複數個非視覺元件。例如,遊戲介面可在玩家在遊戲中接近一虛擬元件或物件時或在平行實境遊戲中發生一重要事件時提供音訊通知給玩家。一玩家可使用音訊控制340控制此等音訊通知。不同類型之音訊通知可被提供給使用者,此取決於虛擬元件或事件之類型。音訊通知之頻率或音量可取決於一玩家與一虛擬元件或物件之近接性而增大或減小。其他非視覺通知及信號可被提供給使用者,諸如一振動通知或其他適當通知或信號。
使用本文提供之揭示內容之一般技術者將瞭解,鑑於此揭示內容,將明白許多遊戲介面組態及基礎功能性。本發明不旨在限於任何一個特定組態。
深度估計訓練
深度估計訓練系統170訓練深度估計模型130以供用戶端裝置110使用。在圖1中展示之實施例中,深度估計訓練系統170包含深度及姿勢模型175、一影像合成模組180、一誤差計算模組185、一外觀匹配損失模組190、一按比例調整模組195及一遮罩模組197。在其他實施例中,深度估計訓練系統170可包含不同及/或額外組件,例如,資料儲存器、回饋模組、平滑模組等。例如,一資料儲存器可在訓練深度及姿勢模型175時儲存訓練資料或訓練參數。在另一實例中,一平滑模組可處理深度圖,諸如深度圖中之平滑深度值。深度及姿勢模型175包含一或多個模型,該一或多個模型接收影像且可判定影像之深度特徵及/或姿勢。如將在下文論述,深度及姿勢模型175可使用相異於一姿勢模型之參數之一深度模型之參數組態。替代地,深度及姿勢模型175可經組態使得來自姿勢模型之一或多個參數與深度模型共用。
現參考圖4,深度估計訓練系統170可彼此分離地訓練一深度估計模型410及一姿勢估計模型440以能夠判定一場景之一深度圖及來自輸入影像之一輸入影像之一姿勢。在此實施例中,深度估計模型410及姿勢估計模型440分離地操作,其等各使用運算時間及資源來操作。
深度估計模型410接收一輸入影像以判定對應於該輸入影像之一深度圖。在一項實施例中,深度估計模型410透過一深度編碼器420饋入輸入影像以提取抽象深度特徵。深度編碼器420可使用不同機器學習演算法及技術來提取此等特徵。在此繪示中,深度編碼器420係包含多個層之一卷積類神經網路,其中各後續層降低所提取之特徵之維度。例如,約10^6個像素或資料點之一輸入影像在第一層之後降低至約10^5之一組特徵。藉由深度編碼器420中之最終層,抽象深度特徵可為約10^4或更小。此等數目單純為繪示性目的提供。實際上,深度編碼器可具有不同數目個層,且像素及深度特徵之數目可變化。
以一相反方式,深度解碼器430包括多個層來增大抽象特徵之維度。遵循上述實例,深度解碼器430可採用約10^4之抽象深度特徵且(在多個層上方)逐漸推斷輸入影像之各像素處之深度。接著,深度解碼器430輸出一深度圖,其中深度圖上之各像素對應於投影至該像素之場景中之最近物件之一距離。在替代性實施例中,深度解碼器430輸出一視差圖,其中視差圖上之各像素對應於距離之一倒數。在整個此揭示內容中,參考深度圖描述之原理輕易應用於使用視差圖之實施方案中。例如,輸入影像在一給定像素已經擷取距相機某一未知距離之一樹。深度解碼器430輸出對應於距相機之一距離之一深度值至該像素處之塊。在一些實施例中,輸出深度值可相對於另一值或固有地定義。在其他實施例中,輸出深度值按比例放大,從而提供場景中之物件之真實量測,例如,一塊係10英呎遠或一建築係25米遠。
姿勢估計模型440接收複數個串接輸入影像以判定各輸入影像之一姿勢。姿勢一般指代兩個影像之視角之間的一數學變換。本文在整個此揭示內容中,姿勢更一般描述一影像之一視角,其中視角可用於定義兩個影像之間的變換。串接輸入影像被置於一姿勢編碼器450中,該姿勢編碼器450自串接輸入影像提取抽象姿勢特徵。接著,抽象姿勢特徵透過一姿勢解碼器460輸入,該姿勢解碼器460判定各串接輸入影像之一姿勢或各對輸入影像之間的相對變換。姿勢編碼器450可經組態為包含多個層之一卷積類神經網路以用於提取抽象姿勢特徵且接著推斷各串接輸入影像之姿勢。
在一替代性組態中,深度姿勢混合模型455與一深度模型共用來自一姿勢估計模型之參數,除了其他優勢外,此在給定較少待訓練參數的情況下降低總運算時間。在一項實施例中,深度姿勢混合模型455係接收一場景之一或多個影像且判定影像之一或多個姿勢之一模型。深度姿勢混合模型455併入一深度編碼器470 (其可為深度估計模型410之深度編碼器420)及一姿勢解碼器480 (其可為來自姿勢估計模型440之姿勢解碼器460)。在此實施例中,深度姿勢混合模型455併入深度估計模型410及姿勢估計模型440中使用之原理且因此能夠降低總運算時間及資源。再者,深度姿勢混合模型455提供在兩個模型之間共用資訊之一途徑,從而使訓練更容易。
深度姿勢混合模型455利用深度編碼器470及姿勢解碼器480。在一項實施例中,深度姿勢混合模型455採取複數個輸入影像且透過深度編碼器470饋入各輸入影像以提取抽象深度特徵。接著,來自各輸入影像之抽象深度特徵在輸入於姿勢解碼器480中之前串接在一起,從而導致各輸入影像之一姿勢或兩個後續輸入影像之間的相對變換。深度姿勢混合模型455在提取各對輸入影像之一姿勢方面比姿勢估計模型440更運算有效。與串接輸入影像之姿勢估計模型440相反,深度姿勢混合模型455串接一些輸入影像之抽象深度特徵。深度姿勢混合模型455之姿勢解碼器480能夠藉由共用深度編碼器470與姿勢解碼器480之間的訓練參數而降低外來運算資源之使用。
影像合成模組180將一合成圖框自一個訓練影像投影至另一訓練影像。在單目視訊資料之投影中,影像合成模組180藉由考慮第一時間影像之深度及第一時間影像時間步階與第二時間影像時間步階之間的相對變換兩者而自一第一時間步階之一個時間影像投影至一第二時間步階之一第二時間影像。深度係中間變數,而自深度及姿勢模型175獲得相對變換。
在額外實施例中,影像合成模組180亦考慮各影像之本質。一影像之本質係指用於擷取該影像之相機之幾何結構性質,例如,包含相機之焦距、相機之像主點偏移、相機之偏斜。在一些情況中,本質可在所攝取之所有影像之間針對各相機係恆定的或本質可隨著相機在攝取各種影像時調整其參數而變化。在任一情況中,本質可表示為用於亦變換時間影像之一本質矩陣。在額外實施例中,影像合成模組180亦使用影像之姿勢來使用單目訓練影像資料使影像翹曲。影像合成模組180將第一時間影像變換為第二時間影像之一合成圖框。
在一項實施例中,影像合成模組180自一單目視訊獲得一組三個連續時間影像且自第一時間影像投影於第二時間影像時間步階上作為一第一合成圖框。影像合成模組180亦自第三時間影像投影於第二時間影像時間步階上作為一第二合成圖框。在投影立體影像資料中,影像合成模組180自一立體影像對之一者(左側影像)投影至立體影像對之另一者(右側影像)。影像合成模組180 (類似於單目視訊資料之投影)在自一個影像投影至另一影像時考慮立體影像對之深度及左側影像與右側影像之間的姿勢兩者。然而,不同於單目視訊資料,左側影像與右側影像之間的姿勢藉由已經擷取立體影像對之兩個相機之放置判定。影像合成模組180自左側影像投影至右側影像作為一右側合成圖框且自右側影像投影至左側影像作為一左側合成圖框。
誤差計算模組185計算合成圖框與時間影像之間的一差。在使用一單一輸入影像計算一光度重構誤差之一實施例中,誤差計算模組185將自單源影像投影之一合成圖框與另一影像之間的一差作為一光度重構誤差。
外觀匹配損失模組190在使用多個輸入影像計算時判定光度重構誤差(亦被稱為外觀匹配損失)。遵循具有一組三個連續時間影像之上述實施例,誤差計算模組185可計算第一合成圖框與第二時間影像之間的一差及第二合成圖框與第二時間影像之間的另一差。一個時間影像中存在之特徵在一相鄰時間影像中被遮蔽或未被遮蔽時可出現問題。不幸的是,對應於此等特徵之像素可對深度模型之訓練造成負面影響。例如,若對此一像素預測恰當深度,則一經遮蔽(或未經遮蔽)源影像中之對應光度重構誤差將可能係非常大的,從而引起一高光度重構誤差懲罰,儘管具有恰當預測之深度。此等問題像素來源於兩個主要類別:歸因於影像邊界處之自運動之視野外像素及經遮蔽(或未經遮蔽)像素。在一項實施例中,外觀匹配損失模組190識別來自第一合成圖框及第二合成圖框之兩個差之間的最小值。在另一實施例中,外觀匹配損失模組190對兩個差求平均值。遵循具有立體影像對之上述實施例,誤差計算模組185可計算左側合成圖框與左側影像之間的一左側差及右側合成圖框與右側影像之間的一右側差。外觀匹配損失模組可識別一最小值或計算左側差與右側差之間的一平均值。獲得兩個差之間的一最小值有助於緩解隨一個視圖但非另一視圖中存在之經遮蔽物件出現之問題,此可避免產生假影。此亦證明明顯降低影像邊界處之假影之優勢,從而改良遮蔽邊界之清晰度,且導致深度估計中之總體更佳之精確度。
按比例調整模組195依用於訓練之輸入影像之解析度按比例調整深度圖。習知地,外觀匹配損失經計算為深度解碼器中之各層處之個別損失之一組合。按比例調整模組195判定待基於深度特徵之解析度及輸入影像之解析度升取樣之一訓練影像之深度特徵之一按比例調整因數。升取樣可使用各種影像升取樣技術(包含但不限於雙線性取樣或雙立方取樣)達成。升取樣深度特徵用於產生合成圖框及外觀匹配損失計算。使用升取樣深度特徵提供改良之訓練結果且避免紋理複製假影(即,深度圖中之細節不恰當地自輸入影像轉移),該等紋理複製假影可在於深度解碼器中之各層之解析度下運算影像上之光度重構誤差時引入。
遮罩模組197在訓練影像資料時遮罩一或多個靜態特徵。一靜態特徵可被界定為兩個或兩個以上影像之間的一實質上類似位置中之一組像素(例如,單目視訊中)。例如,以與擷取單目視訊之相機相同之速度移動之一物件將顯現為逐圖框單目視訊中之一實質上類似之位置中之像素。換言之,一物件可出現於一第一時戳之一第一影像與一第二時戳之一第二影像之間的實質上相同位置中。遮罩模組197藉由施加一遮罩至靜態特徵而考量此等靜態特徵,該遮罩在深度估計訓練系統170計算外觀匹配損失時過濾掉此等靜態特徵。如此做防止深度模型判定單目視訊中之一靜態特徵處於一極不準確之深度,例如,在向外至無限之物件逐圖框表現為靜態時傾向於至無限。
在一個實施方案中,遮罩模組197基於經計算損失施加一遮罩。遮罩模組197計算一第一時間影像與一第二時間影像之間的一第一損失。遮罩模組197單獨計算一第一時間影像與自第二時間影像投影之一合成圖框之間的一第二損失。遮罩可為基於第一損失是否大於第二損失之一克羅內克δ (Kronecker delta)函數。遮罩可接著在深度模型之參數之訓練期間施加至合成圖框與輸入影像之間的損失計算。
深度估計訓練系統170在使用訓練影像訓練其模型及模組之後可提供深度估計模型130之參數以接收一彩色輸入影像且基於藉由包含深度及姿勢模型175、影像合成模組180、誤差計算模組185、外觀匹配損失模組190及按比例調整模組195之深度估計訓練系統170訓練之參數產生一深度圖。注意,雖然為方便起見,深度估計訓練系統170被展示為遊戲伺服器120之部分,但一些或全部模型可藉由其他運算裝置訓練且以各種方式提供至用戶端裝置110,該等方式包含視需要係作業系統之部分,包含於一遊戲應用程式中或在雲端中存取。
圖5係描述根據一或多個實施例之訓練深度估計模型之一一般程序500之一流程圖。程序500導致複數個參數,深度估計模型130可在給定一輸入影像的情況下使用該複數個參數產生一深度圖。
深度估計訓練系統170首先獲得510包括複數個單目時間影像及/或複數個立體影像對之一組合之訓練影像資料。單目視訊資料可自一外部裝置上之一相機(例如,用戶端裝置110上之相機總成125)接收。立體影像對可自一外部裝置上之一對雙目相機(例如,用戶端裝置110上之相機總成125)接收。在一項實施例中,網路介面105接收訓練影像資料。深度估計訓練系統170可將訓練影像資料儲存於各種資料儲存器中(例如,一單目視訊資料儲存器中之單目視訊資料及一立體影像資料儲存器中之立體影像對)。
當使用單目視訊時,深度估計訓練系統170將來自單目視訊資料之時間影像分組520成三個連續時間影像之組。分組520成三個影像之組之此步驟目的在於利用投影於第三時間影像上之兩個時間影像計算一光度重構誤差。在其他實施例中,深度估計系統170可將時間影像分組成四個影像之組或五個影像之組等。
深度估計訓練系統170將各影像輸入530至一深度模型中以提取深度特徵。在一項實施例中,影像被輸入至一深度估計模型(例如,深度估計模型410)中,該深度估計模型提取深度特徵作為一深度圖(例如,其依影像之解析度)。
深度估計訓練系統170將影像輸入540至一姿勢解碼器中,從而提取各影像之一姿勢。在一項實施例中,影像被輸入至提取一影像之姿勢之一姿勢估計模型(例如,姿勢估計模型440)中。在具有一深度姿勢混合模型之實施例中,自一深度編碼器(例如,深度編碼器470)判定之抽象深度特徵被串接且輸入至一姿勢解碼器(例如,姿勢解碼器480)中以提取各時間影像之姿勢。憑藉立體影像對,姿勢界定或幫助界定立體影像對之兩個視角之間的一變換。在一些實施例中,立體影像對之兩個視角之間的姿勢係固定及/或已知的。憑藉分組成三個連續時間影像(例如,一第一、一第二及一第三時間影像)之組之單目視訊資料,深度估計訓練系統170將一相對變換自第一影像提取至第二影像且將另一相對變換自第二影像提取至第三影像。
憑藉深度特徵及姿勢,深度估計訓練系統170將時間影像投影550至後續時間影像上及/或將各立體影像投影至立體影像對中之另一立體影像上。憑藉各組三個時間影像,深度估計訓練系統170將第一時間影像投影至第二時間步階上作為一第一合成圖框且將第三時間影像投影至第二時間步階上作為一第二合成圖框。深度估計訓練系統170基於第一時間影像之姿勢或在一中間變數係第一時間影像之深度的情況下自第一時間影像至第二時間影像之相對變換,將第一時間影像投影至第二時間步階上。深度估計訓練系統170類似地使用亦在一中間變數係第三時間影像之深度的情況下自第二時間影像至第三時間影像之逆相對變換將第三時間影像投影至第二時間步階上。在一項實施例中,影像合成模組180執行自一個時間影像至一合成圖框之投影。憑藉立體影像對,深度估計訓練系統170將立體影像對之一左側影像投影至立體影像對之一右側影像上作為一右側合成圖框且類似地自右側影像投影至左側影像作為一左側合成圖框。在一項實施例中,影像合成模組180執行自左側影像至右側影像之投影,且反之亦然。
深度估計訓練系統170基於合成圖框與影像之一比較使用一輸入尺度遮蔽及運動感知損失函數計算560一損失值。輸入尺度遮蔽及運動感知損失函數計算一損失值以用於訓練深度模型。損失函數包含一合成圖框與一輸入影像之間的每像素光度重構誤差之一計算。損失函數亦可將自來自在時間上與另一影像相鄰之單目視訊之時間影像投影之兩個合成圖框之間的一最小光度重構誤差納入考慮,如上文在外觀匹配損失模組190中描述。升取樣深度特徵(例如,藉由按比例調整模組195)亦可在產生將影響外觀匹配損失計算之合成圖框期間使用。損失函數亦可實施由遮罩模組197產生之一遮罩,該遮罩在計算損失值時使靜態特徵打折扣。
深度估計訓練系統170藉由最小化每像素之一光度重構誤差而訓練570深度模型。針對三個時間影像之組,深度估計訓練系統170基於來自第二時間影像之第一合成圖框及第二合成圖框之差識別每像素之一最小光度重構誤差。在額外實施例中,深度估計訓練系統170可基於合成圖框及影像界定深度估計模型上方之一總體誤差。總體誤差可被定義(例如)為一對影像上方之光度重構誤差之一平均值、多個或全部輸入影像上方之光度重構誤差之一平均值等。在最小化光度重構誤差(或總體誤差)時,深度估計訓練系統170細化深度模型之參數。姿勢模型之參數亦可經細化作為最小化光度重構誤差之部分。在一項實施例中,深度估計訓練系統170計算光度重構誤差作為兩個差之間的絕對最小值。在一項實施例中,外觀匹配損失模組190與影像合成模組180協同最小化光度重構誤差。在另一實施例中,按比例調整模組195依變化之解析度按比例調整影像之深度圖以調諧深度模型中之各層之參數。在另一實施例中,遮罩模組197識別具有靜態特徵之一或多個區且在運算光度重構誤差時遮罩該等區。
深度估計模型
圖6係描述根據一或多項實施例之使用一深度估計模型之一大體程序600之一流程圖。程序600在給定一輸入影像的情況下產生一深度圖。程序600可藉由具有一經訓練深度估計模型之一用戶端裝置完成。用戶端裝置可為一一般性運算裝置且亦可具有一相機。在一些實施例中,用戶端裝置在上文之圖1至圖3中描述之平行實境遊戲中實施。雖然下列描述在一用戶端裝置之背景內容中,但程序600可在其他運算裝置上執行。
方法包含接收610一場景之一影像。場景之影像可藉由作為用戶端裝置之一組件或用戶端裝置外部之一相機擷取。在平行實境遊戲之背景內容中,場景可具有可映射至虛擬世界中之虛擬位置之真實世界位置。場景之影像亦可具有對應於擷取影像之相機之幾何結構性質之本質。影像可為藉由相機擷取之一單一影像。替代地,影像可為來自藉由相機擷取之視訊之一圖框。
方法包含將場景之影像輸入620至一經訓練深度估計模型中。深度估計模型可藉由深度估計系統170,例如,經由圖5之程序500訓練。深度估計模型接收場景之影像,及視情況亦接收影像之本質。
方法包含藉由經訓練深度估計模型產生630對應於場景之影像之場景之一深度圖。深度圖之各像素具有描述場景之影像中之對應像素處之一表面之一相對距離之一深度值。深度估計接收場景之影像且基於根據圖5訓練之參數輸出深度圖。
方法包含基於場景之深度圖產生640虛擬內容。虛擬內容可來源於平行實境遊戲(例如,儲存於遊戲資料庫115中)之內容。所產生之虛擬內容可為可擴增至場景之影像上之擴增實境內容。例如,產生可憑藉對場景之深度之理解在場景中四處移動之一虛擬角色。在一個例項中,當虛擬角色在一街道上走向使用者時,虛擬角色之尺寸可增大。在另一例項中,虛擬角色可藏在一樹後,其中虛擬角色之一部分接著被樹遮蔽。
方法包含顯示650使用虛擬內容擴增之場景之影像。用戶端裝置包含一電子顯示器。電子顯示器可提供使用擴增虛擬內容提供藉由相機擷取之視訊之一恆定饋入。
遵循上述實例,平行實境遊戲可提供與虛擬角色之互動作為一目標。為與虛擬角色互動,行動裝置之一使用者可需要在將虛擬角色保持在相機之一視野中時移動其等之行動裝置。在使用者移動行動裝置時,行動裝置可持續擷取視訊或影像資料,該視訊或影像資料可用於在場景隨著使用者移動行動裝置而改變時反覆地產生場景之深度資訊。行動裝置可更新顯示器上之視訊饋入同時亦基於所產生之深度資訊更新虛擬角色,使得使用者將感知在場景內始終適當地互動之虛擬角色,例如,未走過物件,不具有在無遮蔽其等之任何物件的情況下被切除的部分等。
實例運算系統
圖7係根據一實施例之一運算裝置之一實例架構。雖然圖7描繪繪示根據一實施例之用作本文中描述之一或多個實體之部分或全部之一電腦之實體組件之一高階方塊圖,但一電腦可具有額外、更少圖7中提供之組件或其等之變體。儘管圖7描繪一電腦700,但較於作為本文中描述之實施方案之一結構示意圖,圖7旨在作為對可存在於電腦系統中之各種特徵之功能描述。實際上,且如由一般技術者所認識到,分開展示之品項可經組合且一些品項可被分開。
圖7中繪示耦合至一晶片組704之至少一個處理器702。一記憶體706、一儲存裝置708、一鍵盤710、一圖形配接器712、一指向裝置714及一網路配接器716亦耦合至晶片組704。一顯示器718耦合至圖形配接器712。在一項實施例中,藉由一記憶體控制器集線器720及一I/O集線器722提供晶片組704之功能性。在另一實施例中,記憶體706直接耦合至處理器702而非晶片組704。在一些實施例中,電腦700包含用於互連此等組件之一或多個通信匯流排。一或多個通信匯流排視情況包含互連且控制系統組件之間的通信之電路(有時被稱為一晶片組)。
儲存裝置708係任一非暫時性電腦可讀儲存媒體,諸如一硬碟、光碟唯讀記憶體(CD-ROM)、DVD、或一固態記憶體裝置或其他光學儲存器、磁帶匣、磁帶、磁碟儲存器或其他磁性儲存裝置、磁碟儲存裝置、光碟儲存裝置、快閃記憶體裝置或其他非揮發性固態儲存裝置。此一儲存裝置708亦可被稱為永久性記憶體。指向裝置714可為一滑鼠、軌跡球或其他類型之指向裝置,且與鍵盤710組合使用以將資料輸入至電腦700中。圖形配接器712在顯示器718上顯示影像及其他資訊。網路配接器716將電腦700耦合至一區域網路或廣域網路。
記憶體706保持藉由處理器702使用之指令及資料。記憶體706可為非永久性記憶體,其等之實例包含高速隨機存取記憶體(諸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快閃記憶體)。
如技術中已知,一電腦700可具有與圖13中展示之組件不同之組件及/或圖13中展示之組件以外之其他組件。另外,電腦700可缺少特定所繪示之組件。在一項實施例中,充當一伺服器之一電腦700可不含鍵盤710、指向裝置714、圖形配接器712及/或顯示器718。再者,儲存裝置708可在電腦700本端及/或遠端(諸如體現於一儲存器區域網路(SAN)內)。
如技術中已知,電腦700經調適以執行用於提供本文中描述之功能性之電腦程式模組。如本文中使用,術語「模組」係指用來提供指定功能性之電腦程式邏輯。因此,一模組可以硬體、韌體及/或軟體實施。在一項實施例中,程式模組經儲存於儲存裝置708上,載入至記憶體706中且藉由處理器302執行。
額外的考慮
實施例之額外論述在標題為「Digging Into Self-Supervised Monocular Depth Estimation」之說明書附錄中找到,其之全部內容以引用之方式併入本文中。
上文描述之一些部分在演算法程序或操作方面描述實施例。通常藉由熟習資料處理技術者使用此等演算法描述及表示來將其等工作之實質有效地傳達給其他技術者。雖然在功能上、運算上或邏輯上被描述,但此等操作應理解為藉由包括用於由一處理器執行之指令之電腦程式或等效電路、微碼或類似物實施。此外,亦已證明,在不損失普遍性的情況下,將此等功能操作配置稱為模組有時係方便的。
如本文中使用,對「一項實施例」或「一實施例」的任何引用意指結合實施例描述之一特定元件、特徵、結構或特性包含在至少一項實施例中。在說明書中多處出現片語「在一項實施例中」不必皆指代同一實施例。
可使用表達「耦合」及「連接」連同其等之派生詞描述一些實施例。應理解,此等術語不旨在作為彼此之同義詞。舉例而言,一些實施例可使用術語「連接」描述以指示兩個或兩個以上元件與彼此直接實體或電接觸。在另一實例中,可使用術語「耦合」描述一些實施例以指示兩個或兩個以上元件直接實體或電接觸。然而,術語「耦合」亦可意謂兩個或兩個以上元件並不與彼此直接接觸,但仍與彼此協作或相互作用。實施例不限於此內容背景。
如在本文中使用,術語「包括(comprises、comprising)」、「包含(includes、including)」、「具有(has、having)」或其等之任何其他變體旨在涵蓋一非排他性包含。舉例而言,包括元件之一清單之一程序、方法、物品或設備不必僅限於該等元件,而可包含未明確列出或此程序、方法、物品或設備固有的其他元件。此外,除非明確相反陳述,否則「或」係指一包含性或且非一排他性或。舉例而言,一條件A或B由以下任一者滿足:A為真(或存在)且B為假(或不存在),A為假(或不存在)且B為真(或存在)及A及B兩者皆為真(或存在)。
另外,使用「一(a或an)」用來描述實施例之元件及組件。此僅為方便起見而實現且給出本發明之一般意義。應閱讀此描述以包含一個或至少一個,且單數亦包含複數,除非明顯意指其他意義。
在閱讀本發明之後,熟習此項技術者將瞭解用於確認一線上服務提供者之一帳戶對應於一真實業務之一系統及一程序之額外替代性結構及功能設計。因此,儘管已繪示及描述特定實施例及應用,但應瞭解所描述的標的物並不限於本文中所揭示之精確構造及組件,且可在所揭示之方法及設備之配置、操作及細節上作出熟習此項技術者將明白之各種修改、改變及變動。保護範疇應僅藉由下列發明申請專利範圍限定。
100‧‧‧網路化運算環境
105‧‧‧網路
110‧‧‧用戶端裝置
115‧‧‧遊戲資料庫
120‧‧‧遊戲伺服器
125‧‧‧相機總成
130‧‧‧深度估計模型
135‧‧‧遊戲模組
140‧‧‧定位模組
145‧‧‧通用遊戲模組
150‧‧‧商業遊戲模組
155‧‧‧資料收集模組
160‧‧‧事件模組
170‧‧‧深度估計訓練系統
175‧‧‧深度及姿勢模型
180‧‧‧影像合成模組
185‧‧‧誤差計算模組
190‧‧‧外觀匹配損失模組
195‧‧‧按比例調整模組
197‧‧‧遮罩模組
200‧‧‧真實世界
210‧‧‧虛擬世界
212‧‧‧位置
214‧‧‧位置
222‧‧‧位置
224‧‧‧位置
230‧‧‧虛擬元件
232‧‧‧虛擬品項
240‧‧‧地標、地理位置或物件
250‧‧‧虛擬能量
300‧‧‧遊戲介面/使用者介面
310‧‧‧顯示器窗
315‧‧‧玩家資訊
320‧‧‧選單
330‧‧‧通信介面
340‧‧‧音訊控制
410‧‧‧深度估計模型
420‧‧‧深度編碼器
430‧‧‧深度解碼器
440‧‧‧姿勢估計模型
450‧‧‧姿勢編碼器
455‧‧‧深度姿勢混合模型
460‧‧‧姿勢解碼器
470‧‧‧深度編碼器
480‧‧‧姿勢解碼器
500‧‧‧程序
510‧‧‧獲得
520‧‧‧分組
530‧‧‧輸入
540‧‧‧輸入
550‧‧‧投影
560‧‧‧計算
570‧‧‧訓練
600‧‧‧程序
610‧‧‧接收
620‧‧‧輸入
630‧‧‧產生
640‧‧‧產生
650‧‧‧顯示
700‧‧‧電腦
702‧‧‧處理器
704‧‧‧晶片組
706‧‧‧記憶體
708‧‧‧儲存裝置
710‧‧‧鍵盤
712‧‧‧圖形配接器
714‧‧‧指向裝置
716‧‧‧網路配接器
718‧‧‧顯示器
720‧‧‧記憶體控制器集線器
722‧‧‧I/O集線器
圖1繪示根據一或多項實施例之一網路化運算環境。
圖2描繪根據一或多項實施例之具有平行於真實世界之一地理之一虛擬世界之一表示。
圖3描繪根據一或多項實施例之一平行實境遊戲之一例示性遊戲介面。
圖4繪示根據一或多項實施例之使用一單獨姿勢估計模型對比一深度姿勢混合模型之一概念比較。
圖5係描述根據一或多項實施例之訓練深度估計模型之一大體程序之一流程圖。
圖6係描述根據一或多項實施例之使用一深度估計模型之一大體程序之一流程圖。
圖7係根據一或多項實施例之一運算裝置之一實例架構。
圖式及以下描述僅藉由繪示描述特定實施例。熟習技術者將易於自以下描述認識到,可在不背離所描述原理之情況下採用結構及方法之替代實施例。現將參考若干實施例,附圖中繪示該等實施例之實例。
500‧‧‧程序
510‧‧‧獲得
520‧‧‧分組
530‧‧‧輸入
540‧‧‧輸入
550‧‧‧投影
560‧‧‧計算
570‧‧‧訓練
Claims (20)
- 一種非暫時性之電腦可讀儲存媒體,其儲存:一經訓練深度模型,其藉由一程序製造,該程序包括:獲得一組影像;應用一深度模型以基於該深度模型之參數而產生影像之深度圖(maps);將該等影像應用至一姿勢(pose)解碼器中以產生該等影像之姿勢;基於該等影像之該深度圖及該等姿勢以產生多個合成(synthetic)圖框;基於該等合成圖框與該等影像之一比較以使用一輸入尺度遮蔽感知(input-scale occlusion-aware)及運動感知損失函數計算一損失值;及基於該損失值以調整該深度模型之該等參數;及多個指令,當該等指令由一運算裝置執行時致使該運算裝置將該經訓練深度模型應用至一場景(scene)之一影像以產生該場景之一深度圖。
- 如請求項1之非暫時性之電腦可讀儲存媒體,其中該組影像包括單目視訊,其中該單目視訊之影像之各者在一對應時戳擷取,其中產生該等合成圖框包括:針對該單目視訊之影像,在相鄰時戳產生合成圖框。
- 如請求項2之非暫時性之電腦可讀儲存媒體,其中使用該輸入尺度遮蔽感知及運動感知損失函數計算該損失值包括:針對該單目(monocular)視訊之影像計算所產生之合成圖框與具有匹配時戳之影像之間的差。
- 如請求項3之非暫時性之電腦可讀儲存媒體,其中:該組影像包含在一第一時戳之一第一影像、在一第二時戳之一第二影像及在一第三時戳之一第三影像,使用該第一影像在該第二時戳產生一第一合成圖框,且使用該第三影像在該第二時戳產生一第二合成圖框,及使用該輸入尺度遮蔽感知及運動感知損失函數計算該損失值進一步包括:計算該第一合成圖框與該第二影像之間的一第一組差及該第二合成圖框與該第二影像之間的一第二組差;及針對該第二影像之各像素,識別該第一組差與該第二組差之間的一最小差,其中該損失值係基於該等最小差。
- 如請求項3之非暫時性之電腦可讀儲存媒體,其中使用該輸入尺度遮蔽感知及運動感知損失函數計算該損失值進一步包括:識別該單目視訊中之一或多個靜態特徵,其中該損失值係基於過濾掉該一或多個靜態特徵之該等差。
- 如請求項5之非暫時性之電腦可讀儲存媒體,其中識別該單目視訊中 之一或多個靜態特徵包括:識別該單目視訊之一第一時戳之一第一影像中及該單目視訊之一第二時戳之一第二影像中之一區;判定物件是否處於該第一影像與該第二影像之間的一類似位置中;及回應於判定該物件處於該第一影像與該第二影像之間的該類似位置中,將該區界定為一靜態特徵。
- 如請求項1之非暫時性之電腦可讀儲存媒體,其中該組影像在一第一解析度且該等經產生深度圖在低於該第一解析度之一第二解析度,且其中製造該深度模型之該程序進一步包括:將該經產生深度圖自該第二解析度升取樣(upsampling)至該第一解析度。
- 如請求項1之非暫時性之電腦可讀儲存媒體,其中該組影像包括立體影像對,其中各立體影像對藉由一立體相機對擷取,其中產生該等合成圖框包括:針對各立體影像對,基於該立體影像對之一第一影像產生一合成圖框。
- 如請求項8之非暫時性之電腦可讀儲存媒體,其中基於該等合成圖框與該組影像之該比較調整該模型之該等參數包括:針對各立體影像對,計算該產生之合成圖框與該立體影像對之一第二影像之間的一差;及 調整該等參數以最小化該等差。
- 一種電腦實施方法,其包括:接收一場景之一影像;將該影像輸入至一經訓練深度模型中,使用一程序訓練該經訓練深度模型,該程序包含:獲得一組影像;將該等影像輸入至一深度模型中以基於該深度模型之參數提取該等影像之深度圖;將該等影像輸入至一姿勢解碼器中以提取該等影像之姿勢;基於該等影像之該等深度圖及該等姿勢以產生多個合成圖框;基於該等合成圖框與該等影像之一比較以使用一輸入尺度遮蔽感知及運動感知損失函數計算一損失值;及基於該等合成圖框與該等影像之該比較以調整該深度模型之該等參數;及藉由該經訓練模型產生對應於該場景之該影像之該場景之一深度圖。
- 如請求項10之方法,其中該組影像包括單目視訊,其中該單目視訊之影像之各者在一對應時戳擷取,其中產生該等合成圖框包括:針對該單目視訊之影像,在相鄰時戳產生合成圖框。
- 如請求項11之方法,其中使用該輸入尺度遮蔽感知及運動感知損失 函數計算該損失值包括:針對該單目視訊之影像計算所產生之合成圖框與具有匹配時戳之影像之間的差。
- 如請求項12之方法,其中:該組影像包含在一第一時戳之一第一影像、在一第二時戳之一第二影像及在一第三時戳之一第三影像,使用該第一影像在該第二時戳產生一第一合成圖框,且使用該第三影像在該第二時戳產生一第二合成圖框,及使用該輸入尺度遮蔽感知及運動感知損失函數計算該損失值進一步包括:計算該第一合成圖框與該第二影像之間的一第一組差及該第二合成圖框與該第二影像之間的一第二組差;及針對該第二影像之各像素,識別該第一組差與該第二組差之間的一最小差,其中該損失值係基於該等最小差。
- 如請求項11之方法,其中使用該輸入尺度遮蔽感知及運動感知損失函數計算該損失值進一步包括:識別該單目視訊中之一或多個靜態特徵,其中該損失值係基於過濾掉該一或多個靜態特徵之該等差。
- 如請求項14之方法,其中識別該單目視訊中之一或多個靜態特徵包括: 識別該單目視訊之一第一時戳之一第一影像中及該單目視訊之一第二時戳之一第二影像中之一區;判定物件是否處於該第一影像與該第二影像之間的一類似位置中;及回應於判定該物件處於該第一影像與該第二影像之間的該類似位置中,將該區界定為一靜態特徵。
- 如請求項10之方法,其中該組影像在一第一解析度且該等經提取深度圖在低於該第一解析度之一第二解析度,用於訓練該深度模型之該程序進一步包括:將該等經提取深度圖自該第二解析度升取樣至該第一解析度。
- 如請求項10之方法,其中該組影像包括立體影像對,其中各立體影像對藉由一立體相機對擷取,其中產生該等合成圖框包括:針對各立體影像對,基於該立體影像對之一第一影像產生一合成圖框。
- 如請求項17之方法,其中基於該等合成圖框與該組影像之該比較調整該模型之該等參數包括:針對各立體影像對,計算該產生之合成圖框與該立體影像對之一第二影像之間的一差;及調整該等參數以最小化該等差。
- 如請求項10之方法,其進一步包括: 基於該場景之該深度圖顯示使用虛擬內容擴增之該場景之該影像。
- 一種非暫時性電腦可讀儲存媒體,其儲存當藉由一運算裝置執行時導致該運算裝置執行操作之指令,該等操作包括:接收一場景之一影像;將該影像輸入至一經訓練深度模型中,該經訓練深度模型使用一程序訓練,該程序包含:獲得一組影像;將該等影像輸入至一深度編碼器中以基於該深度編碼器之參數提取該等影像之抽象深度特徵;串接該等影像之該等抽象深度特徵;將該等串接抽象深度特徵輸入至一姿勢解碼器中以提取該等影像之姿勢;基於該模型之參數及該等影像之該等姿勢產生多個合成圖框;及基於該等合成圖框與該等影像之一比較以調整該模型之該等參數;及藉由該經訓練模型產生對應於該場景之該影像之該場景之一深度圖。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862673045P | 2018-05-17 | 2018-05-17 | |
US62/673,045 | 2018-05-17 | ||
US16/413,907 US11082681B2 (en) | 2018-05-17 | 2019-05-16 | Self-supervised training of a depth estimation system |
US16/413,907 | 2019-05-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202004670A TW202004670A (zh) | 2020-01-16 |
TWI790380B true TWI790380B (zh) | 2023-01-21 |
Family
ID=68533243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108117215A TWI790380B (zh) | 2018-05-17 | 2019-05-17 | 深度估計系統之自監督訓練 |
Country Status (9)
Country | Link |
---|---|
US (3) | US11082681B2 (zh) |
EP (1) | EP3794555B1 (zh) |
JP (1) | JP7241775B2 (zh) |
KR (1) | KR102506959B1 (zh) |
CN (1) | CN112534475B (zh) |
AU (1) | AU2019270095B2 (zh) |
CA (1) | CA3100640C (zh) |
TW (1) | TWI790380B (zh) |
WO (1) | WO2019222467A1 (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102506959B1 (ko) * | 2018-05-17 | 2023-03-07 | 나이앤틱, 인크. | 깊이 추정 시스템의 자가 감독 훈련 |
JP2020042665A (ja) * | 2018-09-12 | 2020-03-19 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法及びプログラム |
US20200137380A1 (en) * | 2018-10-31 | 2020-04-30 | Intel Corporation | Multi-plane display image synthesis mechanism |
US11995854B2 (en) * | 2018-12-19 | 2024-05-28 | Nvidia Corporation | Mesh reconstruction using data-driven priors |
US11138751B2 (en) * | 2019-07-06 | 2021-10-05 | Toyota Research Institute, Inc. | Systems and methods for semi-supervised training using reprojected distance loss |
US10762650B1 (en) * | 2019-09-13 | 2020-09-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for estimating depth using a monocular camera |
US11210802B2 (en) * | 2019-09-24 | 2021-12-28 | Toyota Research Institute, Inc. | Systems and methods for conditioning training data to avoid learned aberrations |
US11348375B2 (en) | 2019-10-15 | 2022-05-31 | Assa Abloy Ab | Systems and methods for using focal stacks for image-based spoof detection |
US11294996B2 (en) | 2019-10-15 | 2022-04-05 | Assa Abloy Ab | Systems and methods for using machine learning for image-based spoof detection |
EP3822913B1 (en) * | 2019-11-14 | 2024-09-25 | Continental Autonomous Mobility Germany GmbH | Spatial aware object detection by flash lidar and camera fusion based super-resolution |
CN111179326B (zh) * | 2019-12-27 | 2020-12-29 | 精英数智科技股份有限公司 | 一种单目深度估计方法、系统、设备及存储介质 |
WO2021150016A1 (en) | 2020-01-20 | 2021-07-29 | Samsung Electronics Co., Ltd. | Methods and systems for performing tasks on media using attribute specific joint learning |
US11710247B2 (en) | 2020-01-30 | 2023-07-25 | Unity Technologies Sf | System for image compositing including training with synthetic data |
WO2021154099A1 (en) * | 2020-01-30 | 2021-08-05 | Weta Digital Limited | System for image compositing including training with synthetic data |
US11503266B2 (en) * | 2020-03-06 | 2022-11-15 | Samsung Electronics Co., Ltd. | Super-resolution depth map generation for multi-camera or other environments |
CN113572919B (zh) * | 2020-04-29 | 2023-06-30 | 思特威(上海)电子科技股份有限公司 | 快速自动曝光调节方法及双目系统 |
CN113592875B (zh) * | 2020-04-30 | 2024-01-23 | 阿里巴巴集团控股有限公司 | 数据处理方法、图像处理方法、存储介质及计算设备 |
US11341719B2 (en) * | 2020-05-07 | 2022-05-24 | Toyota Research Institute, Inc. | System and method for estimating depth uncertainty for self-supervised 3D reconstruction |
TWI772806B (zh) * | 2020-05-22 | 2022-08-01 | 國立陽明交通大學 | 場景理解系統及方法 |
CN111709890B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 一种图像增强模型的训练方法、装置及存储介质 |
US11257231B2 (en) * | 2020-06-17 | 2022-02-22 | Toyota Research Institute, Inc. | Camera agnostic depth network |
US11321859B2 (en) * | 2020-06-22 | 2022-05-03 | Toyota Research Institute, Inc. | Pixel-wise residual pose estimation for monocular depth estimation |
US11275959B2 (en) | 2020-07-07 | 2022-03-15 | Assa Abloy Ab | Systems and methods for enrollment in a multispectral stereo facial recognition system |
CN111881804B (zh) * | 2020-07-22 | 2023-07-28 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
CN111768438B (zh) * | 2020-07-30 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
CN114077310B (zh) * | 2020-08-14 | 2023-08-25 | 宏达国际电子股份有限公司 | 提供虚拟环境的方法与系统及非暂态电脑可读取储存介质 |
JP7379299B2 (ja) * | 2020-08-28 | 2023-11-14 | 株式会社東芝 | 位置姿勢推定装置、位置姿勢推定方法及びプログラム |
CN114170290A (zh) * | 2020-09-10 | 2022-03-11 | 华为技术有限公司 | 图像的处理方法及相关设备 |
KR102525583B1 (ko) * | 2020-10-15 | 2023-04-26 | 한국전자기술연구원 | 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법 |
KR102472568B1 (ko) * | 2020-10-15 | 2022-12-01 | 한국전자기술연구원 | 포즈 정보와 뎁스 정보를 기초로 증강 현실을 제공하기 위한 3차원 맵을 구성하기 위한 장치 및 이를 위한 방법 |
US11868439B2 (en) * | 2020-11-13 | 2024-01-09 | Toyota Research Institute, Inc. | Mixed-batch training of a multi-task network |
US11734855B2 (en) * | 2020-11-20 | 2023-08-22 | Kabushiki Kaisha Toshiba | Rotation equivariant orientation estimation for omnidirectional localization |
TWI837557B (zh) * | 2020-12-12 | 2024-04-01 | 美商尼安蒂克公司 | 用於自監督多圖框單眼深度估計模型之電腦實施方法及非暫時性電腦可讀儲存媒體 |
KR20220085481A (ko) | 2020-12-15 | 2022-06-22 | 삼성전자주식회사 | 영상 처리 방법 및 영상 처리 장치 |
KR102236240B1 (ko) * | 2021-02-15 | 2021-04-05 | 주식회사 삼인공간정보 | 지형 형상 파일을 변환하는 장치 |
US11688090B2 (en) | 2021-03-16 | 2023-06-27 | Toyota Research Institute, Inc. | Shared median-scaling metric for multi-camera self-supervised depth evaluation |
CN113160294B (zh) * | 2021-03-31 | 2022-12-23 | 中国科学院深圳先进技术研究院 | 图像场景深度的估计方法、装置、终端设备和存储介质 |
KR102489890B1 (ko) * | 2021-05-28 | 2023-01-17 | 한국항공대학교산학협력단 | 깊이 추정 시스템 및 깊이 추정 방법 |
CN113470097B (zh) * | 2021-05-28 | 2023-11-24 | 浙江大学 | 一种基于时域关联与姿态注意力的单目视频深度估计方法 |
CN113591823B (zh) * | 2021-10-08 | 2022-03-25 | 北京的卢深视科技有限公司 | 深度预测模型的训练及人脸深度图像的生成方法、装置 |
KR102559936B1 (ko) * | 2022-01-28 | 2023-07-27 | 포티투닷 주식회사 | 단안 카메라를 이용하여 깊이 정보를 추정하는 방법 및 장치 |
CN114549612A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 模型训练和图像处理方法、装置、设备及存储介质 |
US20230326204A1 (en) * | 2022-03-24 | 2023-10-12 | Charter Communications Operating, Llc | Efficient offloading of video frame processing tasks in edge-assisted augmented reality |
US12058302B2 (en) | 2022-04-06 | 2024-08-06 | Samsung Electronics Co., Ltd. | Encoding depth information for images |
CN114998411B (zh) * | 2022-04-29 | 2024-01-09 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
US20240005540A1 (en) * | 2022-05-27 | 2024-01-04 | Toyota Research Institute, Inc. | Photometric Cost Volumes For Self-Supervised Depth Estimation |
US20230386059A1 (en) * | 2022-05-27 | 2023-11-30 | Toyota Research Institute, Inc. | Warping depth features for depth estimation |
CN117115786B (zh) * | 2023-10-23 | 2024-01-26 | 青岛哈尔滨工程大学创新发展中心 | 一种联合分割跟踪的深度估计模型训练方法及使用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364771A1 (en) * | 2016-06-17 | 2017-12-21 | Pedro Henrique Oliveira Pinheiro | Generating Object Proposals Using Deep-Learning Models |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
US20180053056A1 (en) * | 2016-08-22 | 2018-02-22 | Magic Leap, Inc. | Augmented reality display device with deep learning sensors |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188358A (ja) | 2010-03-10 | 2011-09-22 | Panasonic Corp | Vpn装置及びip通信装置 |
CN102223553B (zh) | 2011-05-27 | 2013-03-20 | 山东大学 | 一种二维视频到三维视频的自动转换方法 |
US20130077820A1 (en) | 2011-09-26 | 2013-03-28 | Microsoft Corporation | Machine learning gesture detection |
US11094137B2 (en) | 2012-02-24 | 2021-08-17 | Matterport, Inc. | Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications |
US10262462B2 (en) * | 2014-04-18 | 2019-04-16 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
US9275078B2 (en) | 2013-09-05 | 2016-03-01 | Ebay Inc. | Estimating depth from a single image |
JP6148154B2 (ja) * | 2013-10-29 | 2017-06-14 | 日本電信電話株式会社 | 画像処理装置及び画像処理プログラム |
JP5937709B1 (ja) | 2015-01-29 | 2016-06-22 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 通信制御装置、通信制御方法及び通信制御プログラム |
JP6359985B2 (ja) | 2015-02-12 | 2018-07-18 | 株式会社デンソーアイティーラボラトリ | デプス推定モデル生成装置及びデプス推定装置 |
CN107438866B (zh) * | 2015-05-13 | 2020-12-01 | 谷歌公司 | 深度立体:学习从现实世界形象预测新视图 |
JP2017129904A (ja) * | 2016-01-18 | 2017-07-27 | ソニー株式会社 | 情報処理装置、情報処理方法、及び記録媒体 |
GB2553782B (en) * | 2016-09-12 | 2021-10-20 | Niantic Inc | Predicting depth from image data using a statistical model |
CN108629800A (zh) | 2017-03-20 | 2018-10-09 | 北京三星通信技术研究有限公司 | 平面确定方法及增强现实显示信息的显示方法、相应装置 |
CN107067465A (zh) | 2017-04-14 | 2017-08-18 | 深圳市唯特视科技有限公司 | 一种基于验证转换图像生成网络的三维视图合成方法 |
US10726514B2 (en) | 2017-04-28 | 2020-07-28 | Intel Corporation | Compute optimizations for low precision machine learning operations |
CN107204010B (zh) | 2017-04-28 | 2019-11-19 | 中国科学院计算技术研究所 | 一种单目图像深度估计方法与系统 |
US10803546B2 (en) * | 2017-11-03 | 2020-10-13 | Baidu Usa Llc | Systems and methods for unsupervised learning of geometry from images using depth-normal consistency |
JP2021503134A (ja) * | 2017-11-15 | 2021-02-04 | グーグル エルエルシーGoogle LLC | 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習 |
CN107909150B (zh) | 2017-11-29 | 2020-08-18 | 华中科技大学 | 基于逐块随机梯度下降法在线训练cnn的方法与系统 |
CN110574371B (zh) * | 2017-12-08 | 2021-12-21 | 百度时代网络技术(北京)有限公司 | 使用硬件加速器的立体摄像机深度确定 |
US10810754B2 (en) * | 2018-04-24 | 2020-10-20 | Ford Global Technologies, Llc | Simultaneous localization and mapping constraints in generative adversarial networks for monocular depth estimation |
KR102506959B1 (ko) * | 2018-05-17 | 2023-03-07 | 나이앤틱, 인크. | 깊이 추정 시스템의 자가 감독 훈련 |
CN109191514B (zh) | 2018-10-23 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 用于生成深度检测模型的方法和装置 |
US11044462B2 (en) | 2019-05-02 | 2021-06-22 | Niantic, Inc. | Self-supervised training of a depth estimation model using depth hints |
-
2019
- 2019-05-16 KR KR1020207036300A patent/KR102506959B1/ko active IP Right Grant
- 2019-05-16 US US16/413,907 patent/US11082681B2/en active Active
- 2019-05-16 JP JP2020564565A patent/JP7241775B2/ja active Active
- 2019-05-16 WO PCT/US2019/032616 patent/WO2019222467A1/en active Application Filing
- 2019-05-16 CA CA3100640A patent/CA3100640C/en active Active
- 2019-05-16 AU AU2019270095A patent/AU2019270095B2/en active Active
- 2019-05-16 EP EP19802580.1A patent/EP3794555B1/en active Active
- 2019-05-16 CN CN201980047649.XA patent/CN112534475B/zh active Active
- 2019-05-17 TW TW108117215A patent/TWI790380B/zh active
-
2021
- 2021-06-22 US US17/354,517 patent/US11991342B2/en active Active
-
2024
- 2024-04-15 US US18/636,101 patent/US20240340400A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364771A1 (en) * | 2016-06-17 | 2017-12-21 | Pedro Henrique Oliveira Pinheiro | Generating Object Proposals Using Deep-Learning Models |
US20180053056A1 (en) * | 2016-08-22 | 2018-02-22 | Magic Leap, Inc. | Augmented reality display device with deep learning sensors |
CN107578436A (zh) * | 2017-08-02 | 2018-01-12 | 南京邮电大学 | 一种基于全卷积神经网络fcn的单目图像深度估计方法 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
Non-Patent Citations (1)
Title |
---|
網路文獻 KUZNIETSOV,Y.et al. Semi-supervised deep learning for monocular depth map prediction Computer Vision Group, Visual Computing Institute, RWTH Aachen University 9 May 2017 1702.002706 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019222467A1 (en) | 2019-11-21 |
AU2019270095B2 (en) | 2024-06-27 |
JP2021526680A (ja) | 2021-10-07 |
AU2019270095A1 (en) | 2021-01-14 |
CN112534475A (zh) | 2021-03-19 |
KR20200146040A (ko) | 2020-12-31 |
EP3794555A4 (en) | 2021-06-09 |
US20190356905A1 (en) | 2019-11-21 |
EP3794555A1 (en) | 2021-03-24 |
CA3100640C (en) | 2023-04-18 |
TW202004670A (zh) | 2020-01-16 |
JP7241775B2 (ja) | 2023-03-17 |
US20210314550A1 (en) | 2021-10-07 |
WO2019222467A8 (en) | 2020-03-26 |
US11991342B2 (en) | 2024-05-21 |
CN112534475B (zh) | 2023-01-10 |
EP3794555B1 (en) | 2024-03-13 |
CA3100640A1 (en) | 2019-11-21 |
US11082681B2 (en) | 2021-08-03 |
US20240340400A1 (en) | 2024-10-10 |
KR102506959B1 (ko) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI790380B (zh) | 深度估計系統之自監督訓練 | |
JP7174139B2 (ja) | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング | |
TW202238068A (zh) | 自監督多圖框單眼深度估計模型 | |
US20230196690A1 (en) | High-Speed Real-Time Scene Reconstruction from Input Image Data | |
JP2023517661A (ja) | 単一画像からの通行可能空間の決定方法 | |
TWI829167B (zh) | 用於採用小波分解之影像深度預測之方法及非暫時性電腦可讀儲存媒體 | |
US20240185478A1 (en) | Virtual Occlusion Mask Prediction Through Implicit Depth Estimation |