TW202331652A - 來自輸入影像資料之高速即時場景重建 - Google Patents
來自輸入影像資料之高速即時場景重建 Download PDFInfo
- Publication number
- TW202331652A TW202331652A TW111147968A TW111147968A TW202331652A TW 202331652 A TW202331652 A TW 202331652A TW 111147968 A TW111147968 A TW 111147968A TW 111147968 A TW111147968 A TW 111147968A TW 202331652 A TW202331652 A TW 202331652A
- Authority
- TW
- Taiwan
- Prior art keywords
- scene
- height field
- image
- computer
- image data
- Prior art date
Links
- 238000012549 training Methods 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 73
- 238000003860 storage Methods 0.000 claims description 25
- 239000000203 mixture Substances 0.000 claims description 11
- 238000005266 casting Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000712 assembly Effects 0.000 claims 3
- 238000000429 assembly Methods 0.000 claims 3
- 230000000284 resting effect Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
- 230000003190 augmentative effect Effects 0.000 abstract description 16
- 239000000284 extract Substances 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 15
- 238000013480 data collection Methods 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 10
- 238000004220 aggregation Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/003—Navigation within 3D models or images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Computer Hardware Design (AREA)
- Radar, Positioning & Navigation (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
Abstract
本發明揭示一種輸出一系列輸入影像之一高度場之場景重建模型。該模型針對各輸入影像預測一深度圖且提取一特徵圖。該模型利用該等預測深度圖及該等影像之攝影機方位建構一3D模型。該模型光線投射該3D模型以判定場景之一原始高度場。該模型利用該原始高度場自對應於該高度場上之位置之該等特徵圖對特徵取樣。該模型將該等取樣特徵聚合成一聚合特徵圖。該模型基於該聚合特徵圖使一改進高度場回歸。該模型基於該原始高度場及該改進高度場之一組合判定最終高度場。利用該最終高度場,一用戶端裝置可產生在由該用戶端裝置捕捉之現實世界影像上擴增之虛擬內容。
Description
所描述之標的大體上係關於來自輸入影像資料之三維(3D)場景重建。
來自輸入影像資料之三維場景重建係電腦視覺之一基石任務。其對擴增實境應用及/或代理導航而言可能特別有用。最新方法可達成高品質重建,但代價係增加運行時間及記憶體需求。此可引起虛擬角色之放置及/或移動延時以削弱擴增實境之感知。同樣地,就代理導航而言,延遲場景重建會在判定導航指南時產生一延遲。
本發明描述一種高速即時提供品質場景重建之場景重建模型方法。該場景重建模型輸入可包括由一使用者裝置捕捉之即時視訊之影像資料。該場景重建模型高速即時建構環境之一3D表示。該使用者裝置可將該3D表示用於虛擬角色放置、代理導航、其他電腦視覺任務等等。該場景重建模型能夠重建遮擋區域。
在一或多個實施例中,該場景重建模型一般雜合來自預測深度圖之一原始高度場之產生及來自影像之特徵圖之一改進高度場之回歸。針對各影像,該場景重建模型基於該等輸入影像及攝影機方位預測一深度圖及一特徵圖。該深度圖包含該輸入影像之各像素之一深度值。該特徵圖包含該輸入影像之特徵。特徵可包含抽象特徵(即,卷積特徵)、所關注物件、轉角、邊緣、物件之輪廓、地平線、語義分割、輸入影像之其他特性或其等之一些組合。為建構該原始高度場,該場景重建模型建構環境之一3D模型,接著光線投射3D體素陣列以產生該原始高度場。為使該改進高度場回歸,該場景重建模型將該原始高度場投射至各影像之攝影機方位且基於該投射原始高度場中之可見表面自該特徵圖對特徵取樣。該場景重建模型聚合自該等影像取樣之該等特徵且輸入該聚合特徵圖以使該改進高度場回歸。一般而言,該原始高度場具有清晰解析度但在具有來自該等影像之低信號之環境之某些部分中可能不完整。然而,該改進高度場回歸且填充該等低信號部分但可具有較低解析度。因而,該場景重建模型藉由混合該原始高度場及該改進高度場來產生最終高度場,藉此利用各優點。
相關申請案之交叉參考
本申請案主張2021年12月16日申請之美國臨時申請案第63/290,440號之權利及優先權,該案之全文以引用方式併入。
例示性基於位置之平行實境遊戲系統
在包含一虛擬世界地理中之擴增實境內容之一平行實境遊戲之背景中描述各種實施例,虛擬世界地理與現實世界地理之至少一部分平行,使得現實世界中之玩家移動及動作影響虛擬世界中之動作且反之亦然。使用本文中所提供之揭示內容,一般技術者應理解,所描述之標的可應用於其中來自影像資料之一場景重建係有益之其他情形中。另外,基於電腦之系統之固有靈活性允許系統之組件之間及系統之組件中之任務及功能之各種可行組態、組合及劃分。例如,根據本發明之態樣之系統及方法可使用一單一運算裝置或跨多個運算裝置(例如,在一電腦網路中連接)實施。
圖1繪示根據一或多個實施例之一網路運算環境100。網路運算環境100提供具有與現實世界平行之一地理之一虛擬世界中之玩家之互動。特定而言,現實世界中之一地理區域可直接鏈接或映射至虛擬世界中之一對應區域。一玩家可藉由在現實世界中移動至各種地理位置而在虛擬世界中四處移動。例如,一玩家在現實世界中之位置可被追蹤且用於更新玩家在虛擬世界中之位置。通常,藉由找到玩家透過其與虛擬世界互動之一用戶端裝置120之位置且假定玩家處於相同(或大致相同)位置來判定玩家在現實世界中之位置。例如,在各種實施例中,若玩家在現實世界中之位置在對應於一虛擬元素在虛擬世界中之虛擬位置之現實世界位置之一臨限距離(例如10米、20米等等)內,則玩家可與虛擬元素互動。為方便起見,各種實施例參考「玩家之位置」來描述,但熟習技術者應瞭解,此等參考可指代玩家之用戶端裝置120之位置。
現參考圖2,其描繪根據一個實施例之一虛擬世界210之一概念圖,虛擬世界210與可充當一平行實境遊戲之玩家之遊戲板之現實世界200平行。如所繪示,虛擬世界210可包含與現實世界200之地理平行之一地理。特定而言,界定現實世界200中之一地理區域或空間之一座標範圍經映射至界定虛擬世界210中之一虛擬空間之一對應座標範圍。現實世界200中之座標範圍可與一城鎮、鄰里、城市、校園、地點、一國家、大陸、整個地球或其他地理區域相關聯。地理座標範圍內之各地理座標經映射至虛擬世界中一虛擬空間中之一對應座標。
一玩家在虛擬世界210中之位置對應於玩家在現實世界200中之位置。例如,位於現實世界200中之位置212處之玩家A在虛擬世界210中具有一對應位置222。類似地,位於現實世界中之位置214處之玩家B在虛擬世界中具有一對應位置224。當玩家在現實世界中之一地理座標範圍內四處移動時,玩家亦在界定虛擬世界210中之虛擬空間之座標範圍內四處移動。特定而言,當玩家巡覽現實世界中之地理座標範圍時,與玩家攜帶之一行動運算裝置相關聯之一定位系統(例如一GPS系統)可用於追蹤一玩家之位置。與玩家在現實世界200中之位置相關聯之資料用於更新玩家在界定虛擬世界210中之虛擬空間之對應座標範圍內之位置。依此方式,玩家可僅藉由在現實世界200中之對應地理座標範圍中行進而在界定虛擬世界210中之虛擬空間之座標範圍內沿一連續軌跡巡覽,不必登記或週期性更新現實世界200中特定離散位置處之位置資訊。
基於位置之遊戲可包含需要玩家行進至及/或與散佈於虛擬世界中之各種虛擬位置處之各種虛擬元素及/或虛擬物件互動之複數個遊戲目標。一玩家可藉由行進至虛擬元素或物件在現實世界中之對應位置來行進至此等虛擬位置。例如,一定位系統可連續追蹤玩家之位置,使得當玩家連續巡覽現實世界時,玩家亦連續巡覽平行虛擬世界。玩家可接著在特定位置處與各種虛擬元素及/或物件互動以達成或執行一或多個遊戲目標。
例如,一遊戲目標使玩家與位於虛擬世界210中之各種虛擬位置處之虛擬元素230互動。此等虛擬元素230可鏈接至現實世界200中之地標、地理位置或物件240。現實世界地標或物件240可為藝術品、紀念碑、建築物、企業、圖書館、博物館或其他適合現實世界地標或物件。互動包含捕捉、主張所有權、使用一些虛擬物品、花費一些虛擬貨幣等等。為捕捉此等虛擬元素230,一玩家必須行進至現實世界中鏈接至虛擬元素230之地標或地理位置240且必須執行與虛擬世界210中之虛擬元素230之任何所需互動。例如,圖2之玩家A可能必須行進至現實世界200中之一地標240以與此特定地標240鏈接之一虛擬元素230互動或捕捉虛擬元素230。與虛擬元素230之互動需要現實世界中之動作,諸如拍攝一照片及/或驗證、獲得或捕捉關於與虛擬元素230相關聯之地標或物件240之其他資訊。
遊戲目標需要玩家使用在基於位置之遊戲中由玩家收集之一或多個虛擬物品。例如,玩家可在虛擬世界210中行進以尋找可用於完成遊戲目標之虛擬物品(例如武器、生物、加電或其他物品)。此等虛擬物品可藉由行進至現實世界200中之不同位置或藉由在虛擬世界210或現實世界200中完成各種動作來找到或收集。在圖2中所展示之實例中,一玩家使用虛擬物品232來捕捉一或多個虛擬元素230。特定而言,一玩家可在虛擬世界210中接近虛擬元素230或在虛擬元素230內之位置處部署虛擬物品232。依此方式部署一或多個虛擬物品232可導致特定玩家或特定玩家之團隊/派別捕捉虛擬元素230。
在一個特定實施方案中,玩家可能必須搜集虛擬能量作為平行實境遊戲之部分。如圖2中所描繪,虛擬能量250可散佈於虛擬世界210中之不同位置處。一玩家可藉由行進至虛擬能量250在實際世界200中之對應位置來收集虛擬能量250。虛擬能量250可用於供電給虛擬物品及/或執行遊戲中之各種遊戲目標。損失所有虛擬能量250之一玩家會與遊戲斷接。
根據本發明之態樣,平行實境遊戲可為一大型多玩家基於位置之遊戲,其中遊戲中之每一參與者共用相同虛擬世界。玩家可分成不同團隊或派別且可一起工作以達成一或多個遊戲目標,諸如捕捉或主張一虛擬元素之所有權。依此方式,平行實境遊戲本質上可為鼓勵遊戲內之玩家之間合作之一社交遊戲。在平行實境遊戲期間,來自對立團隊之玩家可彼此對抗(有時合作達成共同目標)。一玩家可使用虛擬物品來攻擊或阻礙對立團隊之玩家之進程。在一些情況中,鼓勵玩家在現實世界位置處聚集以在平行實境遊戲中進行合作或互動事件。在此等情況中,遊戲伺服器尋求確保玩家確實實體存在不欺騙。
平行實境遊戲可具有各種特徵來增強及鼓勵在平行實境遊戲內遊戲。例如,玩家可積累一虛擬貨幣或另一虛擬獎勵(例如虛擬代幣、虛擬積分、虛擬材料資源等等)可在整個遊戲中使用(例如,購買遊戲中物品、贖回其他物品、製作物品等等)。當玩家完成一或多個遊戲目標且在遊戲中獲得經驗時,玩家可前進通過各種級別。在一些實施例中,玩家可透過遊戲中所提供之一或多個通信介面來彼此通信。玩家亦可獲得可用於在遊戲中完成遊戲目標之增強「能力」或虛擬物品。在一些實施例中,一玩家可打開行動裝置之攝影機以提供一擴增實境體驗,其中用所產生之虛擬內容來擴增顯示即時影像資料。虛擬內容之產生可部分依賴場景之一3D表示(例如由一場景重建模型判定)。使用本文中所提供之揭示內容,一般技術者應理解,在不偏離本發明之範圍之情況下,平行實境遊戲可包含各種其他遊戲特徵。
在一或多個實施例中,平行實境遊戲可併入一擴增實境體驗。擴增實境一般包含在一現實世界環境中產生及顯示虛擬內容。在一或多個實例中,用戶端裝置110可為一眼鏡裝置或具有至少部分傳輸來自環境之光之一或多個透鏡之另一類型之頭戴式耳機(具有結合來自現實世界之傳輸光來顯示虛擬內容之能力)。在其他實例中,用戶端裝置110包括呈現捕捉一現實世界環境之攝影機總成之一即時饋送之一電子顯示器。用戶端裝置110可產生疊加至即時饋送上之虛擬內容。無論何種情況,效應係類似的。虛擬內容結合現實世界內容呈現。作為一實例,可結合來自攝影機總成之即時饋送產生及顯示一虛擬角色。虛擬角色可經產生以現實地與環境互動。
返回參考圖1,網路運算環境100使用一用戶端-伺服器架構,其中一遊戲伺服器120通過一網路105與一用戶端裝置110通信以向用戶端裝置110處之玩家提供一平行實境遊戲。網路運算環境100亦可包含其他外部系統,諸如贊助商/廣告商系統或商業系統。儘管圖1中僅繪示一個用戶端裝置110,但任何數目個用戶端110或其他外部系統可通過網路105連接至遊戲伺服器120。此外,網路運算環境100可含有不同或額外元件且可依不同於下文描述之一方式在用戶端裝置110與伺服器120之間分佈功能。
一用戶端裝置110可為可由一玩家用於與遊戲伺服器120介接之任何可攜式運算裝置。例如,一用戶端裝置110可為一無線裝置、一個人數位助理(PDA)、可攜式遊戲裝置、蜂巢式電話、智慧型電話、平板電腦、導航系統、手持GPS系統、可穿戴運算裝置、具有一或多個處理器之一顯示器或其他此類裝置。在另一例項中,用戶端裝置110包含諸如一桌上型或膝上型電腦之一習知電腦系統。然而,用戶端裝置110亦可為具有一運算裝置之一載具。簡言之,一用戶端裝置110可為能夠使一玩家與遊戲伺服器120互動之任何電腦裝置或系統。作為一運算裝置,用戶端裝置110可包含一或多個處理器及一或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存引起處理器執行操作之指令。較佳地,用戶端裝置110係可易於由一玩家攜帶或依其他方式運輸之一可攜式運算裝置,諸如一智慧型電話或平板電腦。
用戶端裝置110與遊戲伺服器120通信以向遊戲伺服器120提供一實體環境之感覺資料。用戶端裝置110包含一攝影機總成125,其捕捉用戶端裝置110所在之實體環境中之一場景之二維影像資料。在圖1中所展示之實施例中,各用戶端裝置110包含諸如一遊戲模組135及一定位模組140之軟體組件。用戶端裝置110亦包含一場景重建模組145。用戶端裝置110可包含用於自一玩家接收資訊及/或向一玩家提供資訊之各種其他輸入/輸出裝置。實例性輸入/輸出裝置包含一顯示螢幕、一觸控螢幕、一觸控板、資料輸入鍵、揚聲器及適合於語音辨識之一麥克風。用戶端裝置110亦可包含用於記錄來自用戶端裝置110之資料之其他各種感測器,包含(但不限於)移動感測器、加速度計、陀螺儀、其他慣性量測單元(IMU)、氣壓計、定位系統、溫度計、光感測器等等。用戶端裝置110可進一步包含用於通過網路105提供通信之一網路介面。一網路介面可包含用於與一或多個網路介接之任何適合組件,包含例如傳輸器、接收器、埠、控制器、天線或其他適合組件。
攝影機總成125捕捉用戶端裝置110所在之環境之一場景之影像資料。攝影機總成125可利用具有不同色彩捕捉範圍、依不同捕捉速率之各種不同光感測器。攝影機總成125可含有一廣角鏡頭或一長焦鏡頭。攝影機總成125可經組態以捕捉單一影像或視訊作為影像資料。另外,攝影機總成125之定向可平行於地面,其中攝影機總成125對準地平線。攝影機總成125捕捉影像資料且與用戶端裝置110上之運算裝置共用影像資料。影像資料可附加有描述影像資料之其他細節之中繼資料,包含感覺資料(例如環境之溫度、亮度)或捕捉資料(例如曝光、溫暖、快門速度、焦距、捕捉時間等等)。攝影機總成125可包含可捕捉影像資料之一或多個攝影機。在一個例項中,攝影機總成125包括一個攝影機且經組態以捕捉單目影像資料。在另一例項中,攝影機總成125包括兩個攝影機且經組態以捕捉立體影像資料。在各種其他實施方案中,攝影機總成125包括各經組態以捕捉影像資料之複數個攝影機。
遊戲模組135向一玩家提供參與平行實境遊戲之一介面。遊戲伺服器120通過網路105將遊戲資料傳輸至用戶端裝置110以供用戶端裝置110處之遊戲模組135使用以向遠離遊戲伺服器120之位置處之玩家提供遊戲之本端版本。遊戲伺服器120可包含用於通過網路105提供通信之一網路介面。一網路介面可包含用於與一或多個網路介接之任何適合組件,包含例如傳輸器、接收器、埠、控制器、天線或其他適合組件。
由用戶端裝置110執行之遊戲模組135提供一玩家與平行實境遊戲之間的一介面。遊戲模組135可在與用戶端裝置110相關聯之一顯示裝置上呈現一使用者介面,其顯示與遊戲相關聯之一虛擬世界(例如,呈現虛擬世界之影像)且允許一使用者在虛擬世界中互動以執行各種遊戲目標。在一些其他實施例中,遊戲模組135呈現用來自平行實境遊戲之虛擬元素擴增之來自現實世界之影像資料(例如,由攝影機總成125捕捉)。在此等實施例中,遊戲模組135可根據自用戶端裝置110之其他組件接收之其他資訊來產生虛擬內容及/或調整虛擬內容。例如,遊戲模組135可根據由場景重建模組145產生之3D表示來調整顯示於使用者介面上之一虛擬物件。基於3D表示,遊戲模組135可使一虛擬物件與各種表面互動,例如,一虛擬角色經顯示為跳至一桌子上。
遊戲模組135亦可控制各種其他輸出以允許一玩家與遊戲互動且無需玩家查看一顯示螢幕。例如,遊戲模組135可控制允許玩家玩遊戲且無需查看顯示螢幕之各種音訊、振動或其他通知。遊戲模組135可存取自遊戲伺服器120接收之遊戲資料以向使用者提供遊戲之一準確表示。遊戲模組135可接收及處理玩家輸入且通過網路105向遊戲伺服器120提供更新。遊戲模組135亦可產生及/或調整由用戶端裝置110顯示之遊戲內容。例如,遊戲模組135可基於深度資訊產生一虛擬元素。
定位模組140可為用於監測用戶端裝置110之位置之任何裝置或電路系統。例如,定位模組140可藉由使用一衛星導航定位系統(例如一GPS系統、一伽利略定位系統、全球導航衛星系統(GLONASS)、北斗衛星導航及定位系統)、一慣性導航系統、基於IP位址之一航位推算系統、藉由使用三角測量及/或與蜂巢式基地塔或Wi-Fi熱點之接近度及/或用於判定位置之其他適合技術來判定實際或相對位置。定位模組140可進一步包含可輔助準確判定位用戶端裝置110位置之各種其他感測器。
當玩家在現實世界中與用戶端裝置110一起四處移動時,定位模組140追蹤玩家之位置且將玩家位置資訊提供至遊戲模組135。遊戲模組135基於玩家在現實世界中之實際位置來更新與遊戲相關聯之虛擬世界中之玩家位置。因此,一玩家可僅藉由在現實世界中攜帶或運輸用戶端裝置110來與虛擬世界互動。特定而言,玩家在虛擬世界中之位置可對應於玩家在現實世界中之位置。遊戲模組135可通過網路105向遊戲伺服器120提供玩家位置資訊。作為回應,遊戲伺服器120可實施各種技術來驗證用戶端裝置110位置以防止欺詐者偽造用戶端裝置110位置。應理解,只有在通知玩家要存取玩家之位置資訊及如何在遊戲之背景中利用位置資訊(例如,更新玩家在虛擬世界中之位置)之後才允許利用與玩家相關聯之位置資訊。另外,與玩家相關聯之任何位置資訊將依保護玩家隱私之一方式儲存及維持。
場景重建模組145使用一經訓練場景重建模型自由攝影機總成125捕捉之影像資料產生一場景之一3D表示。場景重建模型由遊戲伺服器120或另一適合運算裝置訓練且提供至用戶端裝置110。一般而言,經訓練場景重建模型輸入來自由攝影機總成125捕捉之影像資料之影像。當影像資料由攝影機總成125捕捉時,場景重建模組145使用經訓練場景重建模型來建構及維持場景之一3D表示。在一或多個實施例中,一3D表示包括一高度場。一高度場係一場景之一3D表示之二維(2D)表示,其中高度場之各像素對應於一現實世界物件在此像素處之一高度值。高度場實際上充當環境之一地形。
在一或多個實施例中,經訓練場景重建模型包括產生環境或場景之3D表示之四個階段。在第一階段中,針對各影像,經訓練場景重建模型預測一深度圖及一特徵圖。深度圖包含輸入影像之各像素之一深度值。特徵圖包含輸入影像之特徵。特徵可包含抽象特徵(即,卷積特徵)、所關注物件、轉角、邊緣、物件之輪廓、地平線、語義分割、輸入影像之其他特性或其等之一些組合。特徵圖可在尺寸上小於輸入影像。在第二階段中,經訓練場景重建模型產生一3D體素陣列。在一或多個實施例中,體素陣列經表示為隨著額外影像由攝影機總成125捕捉而擴展及/或更新之一截斷符號距離場(TSDF)體積。3D體素陣列可用於產生一原始高度場。在第三階段中,經訓練場景重建模型產生聚合輸入影像之特徵圖之一自上而下特徵圖。在第四階段中,場景重建模型基於原始高度場及聚合特徵產生最終高度場。為此,場景重建模型可基於自上而下特徵圖來使一改進高度場回歸。在一或多個實施例中,改進高度場經由一深度學習神經網路來回歸。原始高度場可通知特徵之自上而下聚合及/或改進高度場之回歸。經訓練場景重建模型可基於原始高度場及改進高度場之一組合來產生一最終高度場。在一或多個實施例中,最終高度場混合原始高度場及改進高度場。
遊戲伺服器120可為任何運算裝置且可包含一或多個處理器及一或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存引起處理器執行操作之指令。遊戲伺服器120可包含一遊戲資料庫115或可與一遊戲資料庫115通信。遊戲資料庫115儲存用於通過網路105服務或提供至(若干)用戶端120之平行實境遊戲中之遊戲資料。
儲存於遊戲資料庫115中之遊戲資料可包含:(1)與平行實境遊戲中之虛擬世界相關聯之資料(例如用於在一顯示裝置上呈現虛擬世界之影像資料、虛擬世界中位置之地理座標等等);(2)與平行實境遊戲之玩家相關聯之資料(例如包含(但不限於)玩家資訊、玩家經驗水平、玩家貨幣、虛擬世界/現實世界中之當前玩家位置、玩家能量位準、玩家偏好、團隊資訊、派別資訊等等之玩家設定檔);(3)與遊戲目標相關聯之資料(例如與當前遊戲目標、遊戲目標之狀態、過去遊戲目標、未來遊戲目標、期望遊戲目標等等相關聯之資料);(4)與虛擬世界中之虛擬元素相關聯之資料(例如虛擬元素之位置、虛擬元素之類型、與虛擬元素相關聯之遊戲目標;虛擬元素之對應實際世界位置資訊;虛擬元素之行為、虛擬元素之相關性等等);(5)與現實世界物件、地標、鏈接至虛擬世界元素之位置相關聯之資料(例如現實世界物件/地標之位置、現實世界物件/地標之描述、鏈接至現實世界物件之虛擬元素之相關性等等);(6)遊戲狀態(例如當前玩家數目、遊戲目標之當前狀態、玩家排行榜等等);(7)與玩家動作/輸入相關聯之資料(例如當前玩家位置、過去玩家位置、玩家移動、玩家輸入、玩家查詢、玩家通信等等);及(8)在實施平行實境遊戲期間使用、涉及或獲得之任何其他資料。儲存於遊戲資料庫115中之遊戲資料可由系統管理員及/或由自系統100之使用者/玩家(諸如通過網路105自一用戶端裝置110)接收之資料離線或即時填充。
遊戲伺服器120可經組態以自一用戶端裝置110 (例如經由遠端程序呼叫(RPC))接收遊戲資料之請求且經由網路105回應此等請求。例如,遊戲伺服器120可將遊戲資料編碼成一或多個資料檔案且將資料檔案提供至用戶端裝置110。另外,遊戲伺服器120可經組態以自一用戶端裝置110經由網路105接收遊戲資料(例如玩家位置、玩家動作、玩家輸入等等)。例如,用戶端裝置110可經組態以向遊戲伺服器120週期性發送玩家輸入及其他更新,遊戲伺服器120使用該輸入及更新來更新遊戲資料庫115中之遊戲資料以反映遊戲之任何及所有改變條件。
在所展示之實施例中,伺服器120包含一通用遊戲模組150、一商業遊戲模組155、一資料收集模組160、一事件模組165及一訓練系統170。如上文所提及,遊戲伺服器120與可為遊戲伺服器120之部分或遠端存取(例如,遊戲資料庫115可為經由網路105存取之一分佈式資料庫)之一遊戲資料庫115互動。在其他實施例中,遊戲伺服器120含有不同及/或額外元件。另外,可依不同於所描述之一方式在元件之間分佈功能。例如,遊戲資料庫115可整合至遊戲伺服器120中。
通用遊戲模組150代管所有玩家之平行實境遊戲且充當所有玩家之平行實境遊戲之當前狀態之權威來源。作為主機,通用遊戲模組150產生用於(例如)經由玩家之各自用戶端裝置110呈現給玩家之遊戲內容。通用遊戲模組150可在代管平行實境遊戲時存取遊戲資料庫115以擷取及/或儲存遊戲資料。通用遊戲模組150亦自用戶端裝置110接收遊戲資料(例如深度資訊、玩家輸入、玩家位置、玩家動作、地標資訊等等)且將所接收之遊戲資料併入至平行實境遊戲之所有玩家之總體平行實境遊戲中。通用遊戲模組150亦可管理通過網路105向用戶端裝置110傳送遊戲資料。通用遊戲模組150亦可主控用戶端裝置110之安全態樣,包含(但不限於)使用戶端裝置110與遊戲伺服器120之間的連接安全、在各種用戶端裝置110之間建立連接及驗證各種用戶端裝置110之位置。
在其中包含商業遊戲模組155之實施例中,商業遊戲模組155可與通用遊戲模組150分離或為其一部分。商業遊戲模組155可管理與現實世界中之一商業活動鏈接之平行實境遊戲內各種遊戲特徵之包含。例如,商業遊戲模組155可通過網路105 (經由一網路介面)自諸如贊助商/廣告商、企業或其他實體之外部系統接收請求以在平行實境遊戲中包含與商業活動鏈接之遊戲特徵。商業遊戲模組155可接著安排將此等遊戲特徵包含於平行實境遊戲中。
遊戲伺服器120可進一步包含一資料收集模組160。在其中包含資料收集模組160之實施例中,資料收集模組160可與通用遊戲模組150分離或為其一部分。資料收集模組160可管理與現實世界中之一資料收集活動鏈接之平行實境遊戲內各種遊戲特徵之包含。例如,資料收集模組160可修改儲存於遊戲資料庫115中之遊戲資料以在平行實境遊戲中包含與資料收集活動鏈接之遊戲特徵。資料收集模組160亦可分析由玩家根據資料收集活動收集之資料且提供資料供各種平台存取。
事件模組165管理玩家對平行實境遊戲中之事件之存取。儘管為了方便而使用術語「事件」,但應瞭解,此術語無需係指一特定位置或時間之一特定事件。確切而言,其可係指存取受控遊戲內容之任何規定,其中一或多個存取準則用於判定玩家是否可存取此內容。此內容可為包含具有較少或沒有存取控制之遊戲內容之一較大平行實境遊戲之部分或可為獨立、存取受控之平行實境遊戲。
訓練系統170訓練(例如)可提供至用戶端裝置110之一場景重建模型。訓練系統170接收用於訓練場景重建模型之影像資料。一般而言,訓練系統170將影像資料輸入至場景重建模型中以:預測各影像之一深度圖及一特徵圖;判定一3D體素陣列(例如一TSDF體積);自3D體素陣列產生一原始高度場;基於影像之特徵圖產生一自上而下特徵圖;基於自上而下特徵圖使一改進高度場回歸;及將原始高度場及改進高度場混合成一最終高度場。
為訓練場景重建模型,訓練系統170基於最終高度場與一地表實況高度場比較來計算一總損失。在一或多個步驟中,訓練系統170可調整場景重建模型之一或多個參數以最小化總損失。
在一些實施例中,訓練系統170可非同步訓練各種步驟,即,藉由利用一單獨地表實況及一單獨損失來訓練步驟子集。例如,訓練系統170可非同步訓練用於預測深度圖之深度網路及/或可非同步訓練用於產生特徵圖之特徵網路。上述一般程序描述一監督式訓練演算法。在一或多個實施例中,無監督訓練在沒有高度場之地表實況知識之情況下訓練。
一旦場景重建模型經訓練,則場景重建模型接收影像資料且輸出一3D表示,其可為場景之最終高度場。場景重建模型亦可接收額外影像資料以反覆擴展及/或更新3D表示。例如,場景重建模型可輸入在環境之一第一區域上具有一視角之一第一影像以輸出第一區域之一3D表示。當在環境之一第二區域上具有一視角之另一組影像由攝影機總成捕捉時,場景重建模型可擴展3D表示以併入第二區域以及第一區域。在一些實例中,第一區域及第二區域可至少部分重疊。第二組影像之重疊部分可改進及/或更新第一區域之3D表示。
網路105可為任何類型之通信網路,諸如一區域網路(例如內部網路)、廣域網路(例如網際網路)或其等之一些組合。網路亦可包含一用戶端裝置110與遊戲伺服器120之間的一直接連接。一般而言,遊戲伺服器120與一用戶端裝置110之間的通信可使用任何類型之有線及/或無線連接、使用各種通信協定(例如TCP/IP、HTTP、SMTP、FTP)、編碼或格式(例如HTML、XML、JSON)及/或保護方案(例如VPN、安全HTTP、SSL)經由一網路介面承載。
本文中所討論之技術涉及伺服器、資料庫、軟體應用程式及其他基於電腦之系統以及所採取之動作及來回發送於此等系統之資訊。一般技術者將認知,基於電腦之系統之固有靈活性允許在組件之間及組件中進行任務及功能之各種可行組態、組合及劃分。例如,本文中所討論之伺服器程序可使用一單一伺服器或組合工作之多個伺服器實施。資料庫及應用程式可在一單一系統上實施或跨多個系統分佈。分佈式組件可循序或並行操作。
另外,在其中本文中所討論之系統及方法存取及分析關於使用者之個人資訊或利用諸如位置資訊之個人資訊之情形中,可向使用者提供控制程式或特徵是否收集資訊且控制是否及/或如何自系統或其他應用程式接收內容之一機會。在向使用者提供要收集什麼資訊及如何使用資訊之有意義通知之前不收集或使用此資訊或資料。除非使用者同意,否則不收集或使用資訊,使用者可隨時撤銷或修改同意。因此,使用者可控制如何收集關於使用者之資訊及如何由應用程式或系統使用。另外,某些資訊或資料可在其被儲存或使用之前依一或多種方式處理,使得個人可識別資訊被移除。例如,一使用者之身分可經處理以不可判定使用者之個人可識別資訊。
例示性遊戲介面
圖3描繪可作為一玩家與虛擬世界210之間的介面之部分呈現於一用戶端120之一顯示器上之一遊戲介面300之一個實施例。遊戲介面300包含可用於顯示虛擬世界210及遊戲之各種其他態樣(諸如玩家位置222及虛擬世界210中虛擬元素230、虛擬物品232及虛擬能量250之位置)之一顯示視窗310。使用者介面300亦可顯示其他資訊,諸如遊戲資料資訊、遊戲通信、玩家資訊、用戶端位置驗證指令及與遊戲相關聯之其他資訊。例如,使用者介面可顯示玩家資訊315,諸如玩家姓名、經驗水平及其他資訊。使用者介面300可包含用於存取各種遊戲設定及與遊戲相關聯之其他資訊之一選單320。使用者介面300亦可包含使遊戲系統與玩家之間及平行實境遊戲之一或多個玩家之間能夠通信之一通信介面330。
根據本發明之態樣,一玩家可僅藉由在現實世界中攜帶一用戶端裝置120來與平行實境遊戲互動。例如,一玩家可僅藉由在一智慧型電話上存取與平行實境遊戲相關聯之一應用程式且與智慧型電話一起在現實世界中四處移動來玩遊戲。就此而言,玩家無需在一顯示螢幕上連續觀看虛擬世界之一視覺表示來玩基於位置之遊戲。因此,使用者介面300可包含允許一使用者與遊戲互動之複數個非視覺元素。例如,當玩家接近遊戲中之一虛擬元素或物件時或當平行實境遊戲中發生一重要事件時,遊戲介面可向玩家提供可聽通知。一玩家可用音訊控制340來控制此等可聽通知。取決於虛擬元素或事件之類型,可向使用者提供不同類型之可聽通知。可聽通知可取決於一玩家與一虛擬元素或物件之接近度來增加或減少頻率或音量。可向使用者提供其他非視覺通知及信號,諸如一振動通知或其他適合通知或信號。
在一些實施例中,遊戲介面300可為一增強實境體驗。遊戲介面300可顯示由攝影機總成捕捉、用由遊戲模組產生之虛擬內容擴增之現實世界環境。在圖3中所展示之實例中,地面環境由攝影機總成捕捉。虛擬物件(例如虛擬元素230、虛擬物品232、虛擬能量250、虛擬角色等等)疊加於現實世界影像上。虛擬物件可基於由場景重建模型產生之3D表示來產生及定位。例如,一虛擬物件可基於由場景重建模型產生之3D表示來自天空落下且在現實世界物件中之表面上跳動。
使用本文中所提供之揭示內容,一般技術者將瞭解,諸多遊戲介面組態及基本功能將鑑於本發明來明白。本發明不意欲受限於任何一個特定組態。
場景重建模型架構
圖4繪示根據一或多個實施例之一場景重建模型400之一實例性架構。在圖4中所展示之實施例中,場景重建模型400包括以下組件:一深度網路430、一特徵網路440、一3D建模模組450、一光線投射模組460、一特徵聚合模組470、一自上而下網路480及一混合模組490。在其他實施例中,場景重建模型400可包括比本文中所列之組件更多、更少或不同之組件。
場景重建模型400可為由訓練系統170使用影像405之一訓練組及攝影機方位410訓練之一機器學習模型。為監督訓練,場景重建模型400可利用一或多個類型之地表實況資訊。例如,影像之訓練組可伴隨環境之一地表實況3D表示。訓練系統170可計算地表實況3D表示與由場景重建模型400產生之一最終高度場495之間的一總損失。在其他實例中,訓練系統170可利用其他地表實況資料來計算一或多個組件之損失。一旦經訓練,則場景重建模型400經組態以輸入影像405之一測試組及攝影機方位410以產生在影像405之測試組中捕捉之環境之一最終高度場495。
輸入一般包括影像405及影像405之攝影機方位410。在一些實施例中,攝影機方位410可基於影像405來估計。一方位估計模型可經實施以估計各影像之相對方位。在其他實施例中,攝影機方位410可基於由一位置感測器(例如一慣性測量單元、一加速度計、一陀螺儀、一GPS裝置等等)捕捉之資訊來判定。
共用網路420編碼影像405。共用網路420可透過一或多個降維演算法來編碼影像405。例如,共用網路420可利用卷積層來降低影像405之維度。在其他實例中,共用網路420可提取影像405之一或多個深度特徵。深層特徵可包含(但不限於)抽象特徵、所關注物件、轉角、邊緣、物件之輪廓、地平線、語義分割、輸入影像之其他特性或其等之一些組合。在一些實施例中,共用網路420自場景重建模型400省略。在此等實施例中,影像405及攝影機方位410經饋送至深度網路中以預測每影像深度435,且影像405經饋送至特徵網路中以提取每影像特徵445。
深度網路430估計一每影像深度435。深度網路430可輸入來自共用網路420之深度特徵及攝影機方位410兩者。深度網路430可經訓練為一單目深度估計模型。一單目深度估計模型輸入一影像且輸出一深度圖。
在一或多個實施例中,單目深度估計模型可用影像之一訓練組之地表實況深度依一監督方式訓練。地表實況深度可經由一偵測及測距感測器(例如一光偵測及測距感測器(LIDAR))捕捉。訓練系統170可將影像輸入至深度網路430中(且可進一步通過共用網路420)以輸出深度預測。訓練系統170可計算深度預測與地表實況深度之間的一損失。深度估計模型之訓練涵蓋調整深度估計模型之參數以最小化損失。
在一些實施例中,單目深度估計模型可在無地表實況深度之情況下依一無監督方式訓練,而非使用立體影像。立體影像可在立體影像之間具有一已知或預測攝影機方位。訓練系統170預測一立體影像對中一第一影像之深度且將第一影像投射至第二影像上以產生一合成影像,投射係基於深度及攝影機方位。訓練系統170計算合成影像與第二影像之間的一損失。深度估計模型之訓練包含調整深度估計模型之參數以最小化立體影像對之一訓練組之間的損失。在一些實施例中,立體影像對可為由兩個或更多個攝影機以已知相對方位捕捉之真實立體影像對。在其他實施例中,立體影像對可為由攝影機在接近時戳以不同方位捕捉之偽立體影像對。
特徵網路440提取每影像特徵445。各影像具有自影像提取之一組特徵445。特徵網路440可採用一或多個層來提取特徵。例如,一邊緣偵測層可提取影像405中物件之邊緣。其他特徵包含抽象特徵、所關注物件、轉角、邊緣、物件之輪廓、地平線、語義分割、輸入影像之其他特性或其等之一些組合。特徵網路440可與場景重建模型400之其他組件分開訓練。例如,可在場景重建模型400中訓練其他組件期間單獨訓練及固定一邊緣偵測層。
3D建模模組450輸入每影像深度435以產生環境之一原始3D模型455。3D模型455可為三維空間中之一體素陣列。體素陣列將各體素識別為已佔用或未佔用。3D建模模組450可產生具有一截斷符號距離場(TSDF)之3D模型。一TSDF係表示一空間體積內之物件之一3D體素陣列,其中各體素用至最近表面之距離標記。多個輸入影像405可輔助緩和3D模型455。可利用體素雜湊來減小3D模型455之記憶體大小以加速運算。原始高度場465在由多個影像捕捉之區域周圍一般較清晰,但在很少來自影像405之信號之區域中不完整。
光線投射模組460基於3D模型455產生一原始高度場465。光線投射模組460針對原始高度場之各位置向下投射一光線至3D模型455之一表面以判定此位置處一表面之一高度。光線投射模組460基於3D模型455之光線投射來給2D空間中之各單元指派一高度。原始高度場465可轉換成一點雲以將各單元表示為一3D點。
特徵聚合模組470部分基於原始高度場465自每影像特徵445聚合特徵475。針對各組每影像特徵445,特徵聚合模組470將原始高度場465或點雲轉置至影像之攝影機方位之視角。特徵聚合模組470識別自攝影機視角看一單元是可見還是被隱藏。針對可見單元,特徵聚合模組470可提取對應於可見單元之位置之特徵。特徵聚合模組470可接著在各單元處平均自各組每影像特徵445提取之特徵,藉此導致聚合特徵475。此基於深度之取樣加快運算,因為場景重建模型400無需將每影像特徵445投射至影像中一給定像素沿一光線之所有體素。因而,基於深度之取樣將特徵快速映射至點雲中之單元或位置。聚合特徵475可將各類型之特徵整理成一分開之張量。例如,將一第一特徵類型聚合成一第一2D張量,且將一第二特徵類型聚合成一第二2D張量,任何額外特徵類型依此類推。
自上而下網路480輸入聚合特徵475以使改進高度場485回歸。自上而下網路可為一機器學習模型(例如一卷積神經網路(CNN))。輸出係一改進高度場485。與原始高度場465相比,改進高度場485可更完整,但幾何形狀更不清晰。自上而下網路480可進一步輸出預測改進高度場485在哪裡比原始高度場465更接近地表實況之一混合圖。訓練系統170可使用(例如)透過利用地表實況深度之更穩健3D建模來判定之地表實況高度場來訓練自上而下網路480。
混合模組490將原始高度場465及改進高度場485混合成最終高度場495。混合模組490利用混合圖基於每單元判定原始高度場465之貢獻及改進高度場485之貢獻。
當訓練場景重建模型400時,訓練系統170可利用地表實況高度場。針對一些地表實況高度場,地表實況係稀疏的。因而,訓練系統170可利用將損失限制於可比較區域之一遮罩。
例示性方法
圖5係描述根據一或多個實施例之使用一場景重建模型產生一高度場之一方法500的一流程圖。在訓練時,方法500通常將使用不同組之訓練影像資料重複多次,直至滿足一或多個訓練目標。一訓練系統(例如訓練系統170)可利用一損失函數來執行訓練以評估場景重建模型之預測能力。在推斷或部署期間,一用戶端裝置(例如用戶端裝置110)可執行方法500以產生由一攝影機總成(例如攝影機總成125)捕捉之影像資料之一高度場。自執行方法500之一通用運算裝置之視角繪示圖5之步驟。然而,一些或所有步驟可由其他實體及/或組件執行。另外,一些實施例可並行執行步驟、以不同順序執行步驟或執行不同步驟。
通用運算裝置針對影像資料中之各影像預測510一深度圖及一特徵圖。場景重建模型可包括用於自一影像預測深度圖之一深度網路及用於自影像提取特徵圖之一特徵網路。在一或多個實施例中,場景重建模型進一步包括在深度網路及特徵網路之上游實施之一額外共用網路。在此等實施例中,通用運算裝置將影像資料輸入至共用網路中以編碼影像資料。
通用運算裝置藉由光線投射影像之預測深度圖來產生一原始高度場。通用運算裝置可基於預測深度圖來建構一3D體素陣列。3D體素陣列可表示為一TSDF體積。TSDF體積由通用運算裝置藉由基於預測深度圖及影像之攝影機方位判定體素是否由一體積物件佔用來產生。通用運算裝置藉由在環境上方自上而下視角光線投射來產生原始高度場。
通用運算裝置基於影像之特徵圖產生一聚合特徵圖。通用運算裝置可利用TSDF體積作為一起點。通用運算裝置可根據原始高度場自特徵圖取樣特徵。例如,通用運算裝置自一影像之攝影機方位識別可見及遮擋單元。自可見單元看,通用運算裝置自特徵圖取樣特徵。通用運算裝置可聚合來自影像之取樣特徵以產生聚合特徵圖。聚合之一個實施例包含在一特定位置處跨特徵圖平均化特徵。特徵圖可包括每特徵類型之一張量,例如用於一第一特徵類型之一第一張量、用於一第二特徵類型之一第二張量及用於任何額外特徵類型之張量。
通用運算裝置執行監督式回歸以基於聚合特徵圖判定一改進高度場。回歸層可輸入聚合特徵圖且輸出一改進高度場。回歸層可實施一深度學習神經網路。自上而下網路可進一步輸出預測哪些單元之改進高度場可比原始高度場更接近地表實況高度場之一混合圖。換言之,混合圖表示自上而下網路在其場景幾何形狀之改進高度場表示中具有之置信度。
通用運算裝置將最終高度場判定為原始高度場及改進高度場之一組合。在一或多個實施例中,通用運算裝置根據混合圖混合原始高度場及改進高度場。
當訓練場景重建模型時,訓練系統可利用地表實況高度場來評估由場景重建模型輸出之最終高度場與地表實況高度場之間的一損失。訓練系統可藉由調整參數來訓練場景重建模型以最小化損失。在一個實例中,總損失可併入一梯度匹配損失。
當訓練場景重建模型時,訓練系統可同步訓練場景重建模型之一或多個組件。例如,訓練系統可使用地表實況高度場同步訓練自上而下網路及混合模組。
在其他實施例中,訓練系統可非同步訓練一或多個組件。例如,訓練系統可單獨訓練深度網路。一旦經訓練,則訓練系統可固定深度網路(即,使參數保持不可調整),同時訓練其他組件。作為另一實例,訓練系統可單獨訓練特徵網路。
圖6係描述根據一或多個實施例之應用由一場景重建模型產生之一高度場之一方法600的一流程圖。自執行方法600之一用戶端裝置之視角繪示圖6之步驟。然而,一些或所有步驟可由其他實體及/或組件執行。另外,一些實施例可並行執行步驟、以不同順序執行步驟或執行不同步驟。
用戶端裝置接收610一場景之即時影像資料。場景之影像可由作為用戶端裝置之一組件或在用戶端裝置外部之一攝影機捕捉。在平行實境遊戲之背景中,場景可具有可映射至虛擬世界中之虛擬位置之現實世界位置。場景之影像亦可具有對應於捕捉影像之攝影機之幾何性質之本徵。影像可為由攝影機捕捉之一單一影像。替代地,影像可為來自由攝影機捕捉之視訊之一圖框。
用戶端裝置將場景之即時影像資料輸入620至一經訓練場景重建模型中。場景重建模型可由訓練系統訓練,例如結合圖5所描述。場景重建模型接收場景之影像資料。
場景重建模型產生630一3D模型(例如,包含一高度場)。如先前所描述,3D模型描繪場景中物件之空間定位。在一或多個實施例中,3D模型包含一高度場,其中各2D位置具有位於此2D位置處之一物件之一高度值。
用戶端裝置可用3D表示及/或高度場執行各種額外操作。
在一個實施例中,用戶端裝置產生640用於一擴增實境體驗之虛擬內容,例如在一平行實境遊戲中。虛擬內容可經產生使得虛擬內容與場景之3D表示中所表示之實體物件之表面互動。作為一實例,一虛擬角色可展示為在之實體物件之頂部上跳動,如由3D表示及/或高度場所通知。
用戶端裝置顯示650用虛擬內容擴增之場景之影像。用戶端裝置之一顯示器可提供具有擴增虛擬內容之由攝像機捕捉之視訊之一持續饋送。例如,可用與實體物件互動之虛擬內容來擴增一實體物件。
在另一實施例中,用戶端裝置基於3D表示及/或高度場產生660一自主代理之導航指令。導航指令可通知代理在環境之地形周圍巡覽,例如3D表示及/或高度場中所表示。例如,一自主載具可圍繞站立於自主載具擱置於其上之地面層上之實體物件行駛。在其他實例中,一自主載具能夠上升或下降不同高度。導航指令可指示自主載具接近一高度差來上升或下降。
用戶端裝置用導航指令導航670自主代理。導航指令可控制自主代理上之一或多個馬達或致動器圍繞環境導航代理。
在額外實施例(圖6中未展示)中,用戶端裝置可將3D表示及/或高度場用於其他應用。在一個實施例中,用戶端裝置可利用高度場來判定影像中之一或多個視覺遮擋。視覺遮擋係由影像資料中所捕捉之實體物件遮擋之區域。例如,自攝影機之視角看,放在地面上之一盒之一影像遮擋放在盒後面之物件及/或表面。用戶端裝置可利用3D表示及/或高度場來通知影像資料中之視覺遮擋。基於視覺遮擋,用戶端裝置可產生會在放置於影像資料中所捕捉之一實體物件後面時被部分遮擋之虛擬內容。在另一實施例中,用戶端裝置可利用3D表示及/或高度場來產生估計環境中之樓層空間之一樓層圖。樓層圖可通知虛擬元素(例如,來自擴增實境遊戲)之放置。在又一實施例中,用戶端裝置可利用高度場來建構環境之一3D模型。
實例性運算系統
圖7係根據一實施例之一運算裝置之一實例性架構。儘管圖7描繪用作本文中所描述之一或多個實體之部分或全部之一電腦之實體組件的一高階方塊圖,但根據一實施例,一電腦可具有圖7中所提供之組件之額外、更少或變動。儘管圖7描繪一電腦700,但圖意欲為可存在於電腦系統中之各種特徵之功能描述而非本文中所描述之實施方案之一結構示意圖。實際上且一般技術者應認知,單獨展示之物品可經組合且一些物品可經分離。
圖7中繪示耦合至一晶片組704之至少一個處理器702。一記憶體706、一儲存裝置708、一鍵盤710、一圖形配接器712、一指標裝置714及一網路配接器716亦耦合至晶片組704。一顯示器718耦合至圖形配接器712。在一個實施例中,晶片組704之功能由一記憶體控制器集線器720及一I/O集線器722提供。在另一實施例中,記憶體706直接耦合至處理器702而非晶片組704。在一些實施例中,電腦700包含用於使此等組件互連之一或多個通信匯流排。一或多個通信匯流排視情況包含互連及控制系統組件之間的通信之電路系統(有時稱為一晶片組)。
儲存裝置708係任何非暫時性電腦可讀儲存媒體,諸如一硬碟、光碟唯讀記憶體(CD-ROM)、DVD或一固態記憶體裝置或其他光學儲存裝置、卡式磁帶、磁帶、磁碟儲存或其他磁性儲存裝置、磁碟儲存裝置、光碟儲存裝置、快閃記憶體裝置或其他非揮發性固態儲存裝置。此一儲存裝置708亦可指稱永久記憶體。指標裝置714可為一滑鼠、軌跡球或其他類型之指標裝置,且結合鍵盤710用於將資料輸入至電腦700中。圖形配接器712在顯示器718上顯示影像及其他資訊。網路配接器716將電腦700耦合至一區域或廣域網路。
記憶體706保存由處理器702使用之指令及資料。記憶體706可為非永久記憶體,其實例包含高速隨機存取記憶體,諸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快閃記憶體。
如本技術中已知,一電腦700可具有相較於圖7中所展示之組件之不同及/或其他組件。另外,電腦700可缺少某些繪示組件。在一個實施例中,充當一伺服器之一電腦700可缺少一鍵盤710、指標裝置714、圖形配接器712及/或顯示器718。再者,儲存裝置708可在電腦700本端及/或遠端(例如體現於一儲存區域網路(SAN)內)。
如本技術中已知,電腦700經調適以執行用於提供本文中所描述之功能之電腦程式模組。如本文中所使用,術語「模組」係指用於提供指定功能之電腦程式邏輯。因此,一模組可在硬體、韌體及/或軟體中實施。在一個實施例中,程式模組儲存於儲存裝置708上,載入至記憶體706中,且由處理器702執行。
額外考量
以上描述之一些部分從演算程序或操作方面描述實施例。此等演算描述及表示通常由熟習資料處理技術者用於向其他熟習技術者有效傳達其工作實質。此等操作在功能、運算或邏輯描述時應被理解為由包括由一處理器或等效電路、微碼或其類似者執行之指令之電腦程式實施。此外,亦已證明,在不失一般性之情況下將此等功能操作配置稱為模組有時係方便的。
如本文中所使用,「一個實施例」或「一實施例」之任何參考意謂結合實施例描述之一特定元件、特徵、結構或特性包含於至少一個實施例中。出現於說明書之各個位置中之片語「在一個實施例中」未必全部係指相同實施例。
一些實施例可使用表達「耦合」及「連接」以及其衍生詞描述。應理解,此等術語不意欲為彼此之同義詞。例如,一些實施例可使用術語「連接」描述以指示兩個或更多個元件彼此直接實體或電接觸。在另一實例中,一些實施例可使用術語「耦合」描述以指示兩個或更多個元件直接實體或電接觸。然而,術語「耦合」亦可意謂兩個或更多個元件彼此不直接接觸,但仍彼此合作或互動。實施例不限於此背景內容。
如本文中所使用,術語「包括」、「包含」、「具有」或其任何其他變體意欲涵蓋一非排他性包含。例如,包括一系列元件之一程序、方法、物品或設備未必僅限於該等元件,而是可包含未明確列出或此程序、方法、物件或設備固有之其他元件。此外,除非明確相反說明,否則「或」係指一「包含性或」而非一「排他性或」。例如,一條件A或B由以下之任一者滿足:A為真(或存在)且B為假(或不存在);A為假(或不存在)且B為真(或存在);及A及B兩者為真(或存在)。
另外,「一」之使用用於描述實施例之元件及組件。此僅為了方便且給出本發明之一般意義。此描述應被解讀為包含一個或至少一個且單數亦包含複數,除非明顯指出其意謂其他。
在閱讀本發明之後,熟習技術者將瞭解用於驗證一線上服務提供商之一帳戶對應於一真正業務之一系統及一程序之額外替代結構及功能設計。因此,儘管已繪示及描述特定實施例及應用,但應理解,所描述標的不限於本文中所揭示之精確構造及組件,而是可對所揭示之方法及設備之配置、操作及細節作出熟習技術者將明白之各種修改、改變及變動。保護範疇應僅由以下申請專利範圍限制。
100:網路運算環境
105:網路
110:用戶端裝置
115:遊戲資料庫
120:遊戲伺服器
125:攝影機總成
135:遊戲模組
140:定位模組
145:場景重建模組
150:通用遊戲模組
155:商業遊戲模組
160:資料收集模組
165:事件模組
170:訓練系統
200:現實世界
210:虛擬世界
212:位置
214:位置
222:對應位置
224:對應位置
230:虛擬元素
232:虛擬物品
240:地標/地理位置/物件
250:虛擬能量
300:遊戲介面/使用者介面
310:顯示視窗
315:玩家資訊
320:選單
330:通信介面
340:音訊控制
400:場景重建模型
405:影像
410:攝影機方位
420:共用網路
430:深度網路
435:每影像深度
440:特徵網路
445:每影像特徵
450:3D建模模組
455:3D模型
460:光線投射模組
465:原始高度場
470:特徵聚合模組
475:聚合特徵
480:自上而下網路
485:改進高度場
490:混合模組
495:最終高度場
500:方法
510:預測
520:產生
530:產生
540:執行
550:判定
600:方法
610:接收
620:輸入
630:產生
640:產生
650:顯示
660:產生
670:導航
700:電腦
702:處理器
704:晶片組
706:記憶體
708:儲存裝置
710:鍵盤
712:圖形配接器
714:指標裝置
716:網路配接器
718:顯示器
720:記憶體控制器集線器
722:I/O集線器
圖1繪示根據一或多個實施例之一網路運算環境。
圖2描繪根據一或多個實施例之具有與現實世界平行之一地理之一虛擬世界之一表示。
圖3描繪根據一或多個實施例之一平行實境遊戲之一例示性遊戲介面。
圖4繪示根據一或多個實施例之一場景重建模型400之一實例性架構。
圖5係描述根據一或多個實施例之使用一場景重建模型產生一高度場之一方法的一流程圖。
圖6係描述根據一或多個實施例之應用由一場景重建模型產生之一高度場之一方法的一流程圖。
圖7繪示根據一或多個實施例之適合用於訓練或應用一深度估計模型之一實例性電腦系統。
圖及以下描述僅藉由繪示來描述某些實施例。熟習技術者將易於自以下描述認知,結構及方法之替代實施例可在不背離所描述之原理之情況下採用。現將參考若干實施例,其實例繪示於附圖中。
400:場景重建模型
405:影像
410:攝影機方位
420:共用網路
430:深度網路
435:每影像深度
440:特徵網路
445:每影像特徵
450:3D建模模組
455:3D模型
460:光線投射模組
465:原始高度場
470:特徵聚合模組
475:聚合特徵
480:自上而下網路
485:改進高度場
490:混合模組
495:最終高度場
Claims (54)
- 一種電腦實施方法,其包括: 接收由一行動裝置之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於結合該場景之該即時影像資料顯示之虛擬內容。
- 如請求項1之電腦實施方法,其中該即時影像資料包括複數個影像及各影像之一攝影機方位。
- 如請求項2之電腦實施方法,其中各影像之該攝影機方位由該行動裝置之一位置感測器捕捉。
- 如請求項2之電腦實施方法,其中各影像之該攝影機方位由一方位估計模型基於該等影像估計。
- 如請求項1之電腦實施方法,其中預測一深度圖包括:將一深度估計模型應用於該影像以判定該深度圖。
- 如請求項1之電腦實施方法,其中提取一特徵圖包括:將一卷積網路應用於該影像以判定該特徵圖。
- 如請求項1之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項1之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項1之電腦實施方法,其中產生該原始高度場包括: 使用具有該等預測深度圖之截斷符號距離場來產生一3D模型;及 光線投射該3D模型以產生該原始高度場。
- 如請求項9之電腦實施方法,其中光線投射該3D模型以產生該原始高度場包括:針對該原始高度場之各位置向下投射一光線至該3D模型之一表面以判定該位置處之該表面之一高度。
- 如請求項1之電腦實施方法,其中產生該聚合特徵圖包括: 針對該影像資料之各影像: 將該原始高度場轉置至該影像之一攝影機方位之一視角, 識別該原始高度場之各位置在該攝影機方位之該視角處是可見還是被隱藏,及 自該等可見位置對特徵取樣;及 針對該聚合特徵圖之各位置,平均化該位置處之該影像資料之一或多個特徵。
- 如請求項1之電腦實施方法,其中使該改進高度場回歸包括:將一機器學習模型應用於該聚合特徵圖。
- 如請求項12之電腦實施方法,其中該場景重建模型藉由進一步輸出在各位置處預測該位置處之該改進高度場之一置信度之一混合圖來產生該最終高度場。
- 如請求項13之電腦實施方法,其中將該最終高度場判定為該原始高度場及該改進高度場之一組合包括:在該最終高度場之各位置處,該位置處之該改進高度場之一貢獻係基於該混合圖中該位置之該置信度。
- 如請求項1之電腦實施方法,其中產生該虛擬內容包括:產生擱置於該最終高度場中之一表面上之一虛擬物件。
- 如請求項1之電腦實施方法,其中產生該虛擬內容包括:產生可在該最終高度場中之兩個或更多個表面之間移動之一虛擬物件。
- 一種非暫時性電腦可讀儲存媒體,其儲存指令,該等指令在由一電腦處理器執行時引起該處理器: 接收由一行動裝置之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於結合該場景之該即時影像資料顯示之虛擬內容。
- 一種系統,其包括: 一電腦處理器;及 一非暫時性電腦可讀儲存媒體,其儲存指令,該等指令在由該電腦處理器執行時引起該處理器: 接收由一行動裝置之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於結合該場景之該即時影像資料顯示之虛擬內容。
- 一種電腦實施方法,其包括: 接收由一自主載具之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於在該場景中導航該自主載具之導航指令;及 根據該等導航指令導航該自主載具。
- 如請求項19之電腦實施方法,其中該即時影像資料包括複數個影像及各影像之一攝影機方位。
- 如請求項20之電腦實施方法,其中各影像之該攝影機方位由該行動裝置之一位置感測器捕捉。
- 如請求項20之電腦實施方法,其中各影像之該攝影機方位由一方位估計模型基於該等影像估計。
- 如請求項19之電腦實施方法,其中預測一深度圖包括:將一深度估計模型應用於該影像以判定該深度圖。
- 如請求項19之電腦實施方法,其中提取一特徵圖包括:將一卷積網路應用於該影像以判定該特徵圖。
- 如請求項19之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項19之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項19之電腦實施方法,其中產生該原始高度場包括: 使用具有該等預測深度圖之該截斷符號距離場來產生一3D模型;及 光線投射該3D模型以產生該原始高度場。
- 如請求項27之電腦實施方法,其中光線投射該3D模型以產生該原始高度場包括:針對該原始高度場之各位置向下投射一光線至該3D模型之一表面以判定該位置處之該表面之一高度。
- 如請求項19之電腦實施方法,其中產生該聚合特徵圖包括: 針對該影像資料之各影像: 將該原始高度場轉置至該影像之一攝影機方位之一視角, 識別該原始高度場之各位置在該攝影機方位之該視角處是可見還是被隱藏,及 自該等可見位置對特徵取樣;及 針對該聚合特徵圖之各位置,平均化該位置處之該影像資料之一或多個特徵。
- 如請求項19之電腦實施方法,其中使該改進高度場回歸包括:將一機器學習模型應用於該聚合特徵圖。
- 如請求項30之電腦實施方法,其中該場景重建模型藉由進一步輸出在各位置處預測該位置處之該改進高度場之一置信度之一混合圖來產生該最終高度場。
- 如請求項31之電腦實施方法,其中將該最終高度場判定為該原始高度場及該改進高度場之一組合包括:在該最終高度場之各位置處,該位置處之該改進高度場之一貢獻係基於該混合圖中該位置之該置信度。
- 如請求項19之電腦實施方法,其中產生該等導航指令包括:產生導航指令以將該自主載具自一第一高度處之一第一表面轉變至一第二高度處之一第二表面。
- 如請求項19之電腦實施方法,其中產生該等導航指令包括:產生導航指令以在一第一高度處之一第一表面上圍繞不同於該第一表面之一第二高度處之一第二表面導航該自主載具。
- 一種非暫時性電腦可讀儲存媒體,其儲存指令,該等指令在由一電腦處理器執行時引起該處理器: 接收由一自主載具之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於在該場景中導航該自主載具之導航指令;及 根據該等導航指令導航該自主載具。
- 一種系統,其包括: 一電腦處理器;及 一非暫時性電腦可讀儲存媒體,其儲存指令,該等指令在由該電腦處理器執行時引起該處理器: 接收由一自主載具之一攝影機總成捕捉之一場景之即時影像資料; 將該場景之該即時影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該影像資料之各影像,基於該影像預測一深度圖, 針對該影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合;及 使用該最終高度場產生用於在該場景中導航該自主載具之導航指令;及 根據該等導航指令導航該自主載具。
- 一種電腦實施方法,其包括: 接收由一或多個攝影機總成捕捉之一或多個場景之一或多組訓練影像資料及該一或多個場景之一或多個地表實況高度場; 將該場景之各組訓練影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該組訓練影像資料之各影像,基於該影像預測一深度圖, 針對該組訓練影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合; 針對各組訓練資料判定該場景之該最終高度場與該場景之該地表實況高度場之間的一損失;及 訓練該場景重建模型以最小化該損失。
- 如請求項37之電腦實施方法,其中該訓練影像資料包括複數個影像及各影像之一攝影機方位。
- 如請求項38之電腦實施方法,其中各影像之該攝影機方位由該行動裝置之一位置感測器捕捉。
- 如請求項38之電腦實施方法,其中各影像之該攝影機方位由一方位估計模型基於該等影像估計。
- 如請求項37之電腦實施方法,其中預測一深度圖包括:將一深度估計模型應用於該影像以判定該深度圖。
- 如請求項37之電腦實施方法,其中提取一特徵圖包括:將一卷積網路應用於該影像以判定該特徵圖。
- 如請求項37之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項37之電腦實施方法,其中該特徵圖包括用於一第一特徵類型之一第一張量及用於一第二特徵類型之一第二張量。
- 如請求項37之電腦實施方法,其中產生該原始高度場包括: 使用具有該等預測深度圖之截斷符號距離場來產生一3D模型;及 光線投射該3D模型以產生該原始高度場。
- 如請求項45之電腦實施方法,其中光線投射該3D模型以產生該原始高度場包括:針對該原始高度場之各位置向下投射一光線至該3D模型之一表面以判定該位置處之該表面之一高度。
- 如請求項37之電腦實施方法,其中產生該聚合特徵圖包括: 針對該影像資料之各影像: 將該原始高度場轉置至該影像之一攝影機方位之一視角, 識別該原始高度場之各位置在該攝影機方位之該視角處是可見還是被隱藏,及 自該等可見位置對特徵取樣;及 針對該聚合特徵圖之各位置,平均化該位置處之該影像資料之一或多個特徵。
- 如請求項37之電腦實施方法,其中使該改進高度場回歸包括:將一機器學習模型應用於該聚合特徵圖。
- 如請求項48之電腦實施方法,其中該場景重建模型藉由進一步輸出在各位置處預測該位置處之該改進高度場之一置信度之一混合圖來產生該最終高度場。
- 如請求項49之電腦實施方法,其中將該最終高度場判定為該原始高度場及該改進高度場之一組合包括:在該最終高度場之各位置處,該位置處之該改進高度場之一貢獻係基於該混合圖中該位置之該置信度。
- 如請求項37之電腦實施方法,其中訓練該場景重建模型包括:同步訓練該場景重建模型之一或多個組件。
- 如請求項37之電腦實施方法,其中訓練該場景重建模型包括:非同步訓練該場景重建模型之一或多個組件。
- 一種非暫時性電腦可讀儲存媒體,其儲存指令,該等指令在由一電腦處理器執行時引起該處理器: 接收由一或多個攝影機總成捕捉之一或多個場景之一或多組訓練影像資料及該一或多個場景之一或多個地表實況高度場; 將該場景之各組訓練影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該組訓練影像資料之各影像,基於該影像預測一深度圖, 針對該組訓練影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合; 針對各組訓練資料判定該場景之該最終高度場與該場景之該地表實況高度場之間的一損失;及 訓練該場景重建模型以最小化該損失。
- 一種電腦程式產品,其包括儲存一場景重建模型之一非暫時性電腦可讀儲存媒體,其中該電腦程式產品藉由包括以下之一程序來製造: 接收由一或多個攝影機總成捕捉之一或多個場景之一或多組訓練影像資料及該一或多個場景之一或多個地表實況高度場; 將該場景之各組訓練影像資料輸入至一場景重建模型中; 自該場景重建模型接收包括該場景之各2D位置處之一高度值之該場景之一最終高度場,其中該場景重建模型藉由以下來產生該最終高度場: 針對該組訓練影像資料之各影像,基於該影像預測一深度圖, 針對該組訓練影像資料之各影像,基於該影像提取一特徵圖, 基於該等影像之該等預測深度圖產生一原始高度場, 基於該等影像之該等特徵圖產生一聚合特徵圖, 基於該聚合特徵圖使一改進高度場回歸,及 將該最終高度場判定為該原始高度場及該改進高度場之一組合; 針對各組訓練資料判定該場景之該最終高度場與該場景之該地表實況高度場之間的一損失; 訓練該場景重建模型以最小化該損失;及 將該場景重建模型儲存於該非暫時性電腦可讀儲存媒體上。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163290440P | 2021-12-16 | 2021-12-16 | |
US63/290,440 | 2021-12-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202331652A true TW202331652A (zh) | 2023-08-01 |
Family
ID=86768573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111147968A TW202331652A (zh) | 2021-12-16 | 2022-12-14 | 來自輸入影像資料之高速即時場景重建 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196690A1 (zh) |
TW (1) | TW202331652A (zh) |
WO (1) | WO2023111909A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12001958B2 (en) * | 2020-03-19 | 2024-06-04 | Nvidia Corporation | Future trajectory predictions in multi-actor environments for autonomous machine |
US20230245396A1 (en) * | 2022-02-01 | 2023-08-03 | Samsung Electronics Co., Ltd. | System and method for three-dimensional scene reconstruction and understanding in extended reality (xr) applications |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201114591D0 (en) * | 2011-08-23 | 2011-10-05 | Tomtom Int Bv | Methods of and apparatus for displaying map information |
WO2021056278A1 (en) * | 2019-09-25 | 2021-04-01 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for evaluating three-dimensional (3-d) map constructed based on sensor data |
-
2022
- 2022-12-14 US US18/080,910 patent/US20230196690A1/en active Pending
- 2022-12-14 TW TW111147968A patent/TW202331652A/zh unknown
- 2022-12-14 WO PCT/IB2022/062234 patent/WO2023111909A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20230196690A1 (en) | 2023-06-22 |
WO2023111909A1 (en) | 2023-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI790380B (zh) | 深度估計系統之自監督訓練 | |
JP7174139B2 (ja) | 深度ヒントを使用した深度推定モデルの自己教師ありトレーニング | |
US20230196690A1 (en) | High-Speed Real-Time Scene Reconstruction from Input Image Data | |
US11836965B2 (en) | Determining visual overlap of images by using box embeddings | |
TWI797571B (zh) | 用於自單一影像判定可遍歷空間之電腦實施方法及電腦可讀儲存媒體 | |
TWI839513B (zh) | 用於利用深度提示之深度預估模型之自我監督訓練之電腦實施之方法及非暫時性電腦可讀儲存媒體 | |
TWI829167B (zh) | 用於採用小波分解之影像深度預測之方法及非暫時性電腦可讀儲存媒體 | |
US20240185478A1 (en) | Virtual Occlusion Mask Prediction Through Implicit Depth Estimation | |
JP2024515248A (ja) | 拡張現実のためのパノプティック・セグメンテーション予測 | |
TW202238068A (zh) | 自監督多圖框單眼深度估計模型 |