TW202304578A - 用於擴增實境之全景分割預測 - Google Patents

用於擴增實境之全景分割預測 Download PDF

Info

Publication number
TW202304578A
TW202304578A TW111113142A TW111113142A TW202304578A TW 202304578 A TW202304578 A TW 202304578A TW 111113142 A TW111113142 A TW 111113142A TW 111113142 A TW111113142 A TW 111113142A TW 202304578 A TW202304578 A TW 202304578A
Authority
TW
Taiwan
Prior art keywords
foreground
future
background
pixels
foreground object
Prior art date
Application number
TW111113142A
Other languages
English (en)
Inventor
柯林 葛瑞伯
心怡 蔡
麥克 大衛 佛曼
葛布雷歐 J 布羅斯托
亞力山德 史奇溫
Original Assignee
美商尼安蒂克公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商尼安蒂克公司 filed Critical 美商尼安蒂克公司
Publication of TW202304578A publication Critical patent/TW202304578A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

全景分割預測分別預測前景物件及背景物件之未來位置。可實施一自我運動模型來估計攝影機之自我運動。將所捕捉之視訊之圖框中之像素分類為前景與背景。前景像素分組為前景物件。一前景運動模型將該等前景物件之運動預測為一未來時間戳記。一背景運動模型將該等背景像素反向投影至一三維空間中之點雲中。該背景運動模型基於自我運動來預測該等點雲之未來位置。該背景運動模型可進一步產生新點雲來填充經遮擋空間。藉助預測未來位置,將該等前景物件及該等背景像素組合成一單一全景分割預測。一擴增實境行動遊戲可利用該全景分割預測來準確地描繪虛擬元素相對於真實世界環境之移動。

Description

用於擴增實境之全景分割預測
所描述之標的大體上係關於自由一攝影機捕捉之輸入影像圖框來預測物件位置。
問題
在擴增實境(AR)應用中,一虛擬環境與一真實世界環境共同定位。若準確判定捕捉真實世界環境(例如一視訊饋送)之影像之一攝影機之姿勢,則虛擬元素可精確地覆蓋於真實世界環境之繪圖上。例如,一虛擬帽可放置於一真實雕像之頂部上,一虛擬角色可描繪為部分位於一實體物件後面,等等。
隨著真實世界物件四處移動,虛擬元素可歸因於真實世界物件之未知運動而落後。此打破對擴增實境之感知。依循以上實例,使用一虛擬帽擴增之一真實世界之人可正在環境中移動。在不預測真實世界之人之運動之情況下,虛擬帽將落後於個人,因為在試圖將虛擬帽更新至一當前位置時將存在一延遲,儘管個人可已由該點移動。此問題僅隨快速移動物件(諸如汽車)而加劇。儘管存在物件運動模型,但鑑於一場景中之各種物件具有獨特移動而場景中之其他物件處於靜止,此等模型無法準確及精確地預測一場景中之所有物件之運動。
本發明描述全景分割預測之方法。全景分割預測分別預測前景物件及背景物件之未來位置。全景分割將像素分類為前景物件及背景物件。一前景運動模型基於自輸入圖框判定之物件之運動而預期前景物件之運動來預測前景物件之未來位置。基於各像素之一估計深度而將一背景運動模型應用於各圖框以預期背景物件之未來位置。將預期前景位置分層至該預期背景上以產生一未來全景分割。一自我運動模型可單獨訓練及實施以預測該攝影機總成之自我運動。
該全景分割預測之應用可包含基於該未來全景分割在擴增實境應用中產生虛擬影像。所產生之虛擬影像可與真實世界中之物件無縫互動以提供準確全景分割預測。全景分割預測之其他應用包含一代理之自主導航。
相關申請案之交叉參考 本申請案主張2021年4月6日申請之美國臨時申請案第63/171,575號之優先權,該案以引用的方式併入本文中。 例示性基於位置之平行現實遊戲系統
在包含與真實世界地理之至少一部分平行之一虛擬世界地理中之擴增實境內容使得玩家在真實世界中之移動及動作影響虛擬世界中之動作且反之亦然之一平行現實遊戲之上下文中描述各種實施例。使用本文所提供之揭示內容之一般技術者將理解所描述之標的可應用於其中期望全景分割預測之其他情況中。另外,基於電腦之系統之固有靈活性允許在系統之組件之間進行多種可能組態、組合、任務劃分及功能性劃分。例如,根據本發明之態樣之系統及方法可使用一單一計算裝置或跨多個計算裝置(例如連接於一電腦網路中)來實施。
圖1繪示根據一個或多個實施例之一網路計算環境100。網路計算環境100提供與真實世界平行之一地理之一虛擬世界中之玩家之互動。特定言之,真實世界中之一地理區域可直接鏈接或映射至虛擬世界中之一對應區域。一玩家可藉由移動至真實世界中之各種地理位置而在虛擬世界中四處移動。例如,可追蹤玩家在真實世界中之一位置且該位置用於更新玩家在虛擬世界中之位置。通常,玩家在真實世界中之位置藉由發現玩家透過其與虛擬世界互動之一客戶端裝置110之位置且假定玩家處於相同(或近似相同)位置來判定。例如,在各種實施例中,若玩家在真實世界中之位置在與對應於虛擬世界中虛擬元素之虛擬位置之真實世界位置之一臨限值距離(例如十米、二十米等)內,則玩家可與一虛擬元素互動。為方便起見,參考「玩家之位置」來描述各種實施例,但熟習技術者將瞭解此等參考可參考玩家之客戶端裝置110之位置。
現參考圖2,其描繪根據一個實施例之與可充當一平行現實遊戲之玩家之遊戲台之真實世界200平行之一虛擬世界210之一概念圖 。如圖中所繪示,虛擬世界210可包含與真實世界200之地理平行之一地理。特定言之,將真實世界200中之一地理區域或空間之座標之一範圍映射至界定虛擬世界210中之一虛擬空間之座標之一對應範圍。真實世界200中之座標之範圍可與一城鎮、鄰里、城市、校園、地區、一國家、大陸、整個地球或其他地理區域相關聯。地理座標之範圍中之各地理座標映射至虛擬世界中之一虛擬空間中之一對應座標。
一玩家在虛擬世界210中之位置對應於玩家在真實世界200中之位置。例如,位於真實世界200中之位置212處之玩家A在虛擬世界210中具有一對應位置222。類似地,位於真實世界中之位置214之玩家B在虛擬世界中具有一對應位置224。當玩家在真實世界中之地理座標之一範圍內移動時,玩家亦在界定虛擬世界210中之虛擬空間之座標之範圍內移動。特定言之,與玩家攜帶之一行動計算裝置相關聯之一定位系統(例如一GPS系統)可用於在玩家在真實世界中導航地理座標之範圍時追蹤一玩家之位置。與玩家在真實世界200中之位置相關聯之資料用於更新玩家在界定虛擬世界210中之虛擬空間之座標之對應範圍內之位置。依此方式,玩家可僅藉由在真實世界200中之地理之對應座標範圍內移動而在界定虛擬世界210中之虛擬空間之座標之範圍內沿一連續軌跡導航而無需在真實世界200中之特定離散位置處登入或週期性地更新位置資訊。
基於位置之遊戲可包含要求玩家旅行至及/或與分散在虛擬世界中之各種虛擬位置之各種虛擬元素及/或虛擬物件互動之複數個遊戲目標。一玩家可藉由旅行至真實世界中之虛擬元素或物件之對應位置來旅行至此等虛擬位置。例如,定位系統可連續追蹤玩家之位置使得當玩家連續導航通過真實世界時,玩家亦連續導航通過平行虛擬世界。如此,玩家可在特定位置與各種虛擬元素及/或物件互動以實現或執行一個或多個遊戲目標。
例如,一遊戲目標具有玩家與位於虛擬世界210中之各種虛擬位置處之虛擬元素230互動。此等虛擬元素230可鏈接至真實世界200中之地標、地理位置或物件240。真實世界地標或物件240可為藝術品、紀念碑、建築物、企業、圖書館、博物館或其他適合真實世界地標或物件。互動包含捕捉、主張所有權、使用一些虛擬物品、花費一些虛擬貨幣等。為捕捉此等虛擬元素230,一玩家必須旅行至鏈接至真實世界中之虛擬元素230之地標或地理位置240且必須執行與虛擬世界210中之虛擬元素230之任何必要互動。例如,圖2之玩家A可必須旅行至真實世界200中之地標240以與與該特定地標240鏈接之一虛擬元素230互動或捕捉虛擬元素230。與虛擬元素230之互動可需要真實世界中之動作,諸如拍攝一照片及/或驗證、獲得或捕捉與虛擬元素230相關聯之地標或物件240之其他資訊。
遊戲目標可需要玩家使用由玩家在基於位置之遊戲中收集之一個或多個虛擬物品。例如,玩家可在虛擬世界210中旅行以尋找對完成遊戲目標有用之虛擬物品(例如武器、生物、電源或其他物品)。此等虛擬物品可藉由旅行至真實世界200中之不同地點,或藉由在虛擬世界210或真實世界中200完成各種動作來發現或收集。在圖2中所展示之實例中,一玩家使用虛擬物品232來捕捉一個或多個虛擬元素230。特定言之,一玩家可在虛擬世界210中接近虛擬元素230或虛擬元素230內之位置處部署虛擬物品232。依此方式部署一個或多個虛擬物品232可導致為特定玩家或特定玩家之團隊/派系捕捉虛擬元素230。
在一個特定實施方案中,一玩家可必須收集虛擬能量作為平行現實遊戲之部分。如圖2中所描繪,虛擬能量250可分散在虛擬世界210中之不同位置。一玩家可藉由旅行至實際世界200中之虛擬能量250之對應位置來收集虛擬能量250。虛擬能量250可用於為虛擬物品提供能量及/或在遊戲中執行各種遊戲目標。失去所有虛擬能量250之一玩家可與遊戲斷開連接。
根據本發明之態樣,平行現實遊戲可為一大型多玩家基於位置之遊戲,其中遊戲中之每個參與者共用相同虛擬世界。玩家可分為不同團隊或派系且可一起工作以實現一個或多個遊戲目標,諸如捕捉或主張虛擬元素之所有權。依此方式,平行現實遊戲本質上可為一種鼓勵遊戲期間玩家之間的合作之社交遊戲。在平行現實遊戲期間,來自對手團隊之玩家可彼此對抗(或有時協作以實現共同目標)。一玩家可使用虛擬物品來攻擊或阻礙對方隊伍中之玩家之進度。在一些情況中,鼓勵玩家為了平行現實遊戲中之協作或互動事件而在真實世界位置處聚集。在此等情況中,遊戲伺服器試圖確保玩家確實實體存在且未欺騙。
平行現實遊戲可具有各種特徵以增強及鼓勵平行現實遊戲內之遊戲性。例如,玩家可累積可在整個遊戲中使用(例如以購買遊戲中之物品、贖回其他物品、製作物品等)之一虛擬貨幣或另一虛擬獎勵(例如虛擬符記、虛擬點、虛擬材料資源等)。當玩家完成一個或多個遊戲目標且在遊戲中獲得經驗時,玩家可晉升至各種級別。在一些實施例中,玩家可透過遊戲中提供之一個或多個通信介面彼此通信。玩家亦可獲得可用於在遊戲中完成遊戲目標之增強「功力」或虛擬物品。使用本文提供之揭示內容之一般技術者應理解,在不背離本發明之範疇之情況下,平行現實遊戲可包含各種其他遊戲特徵。
返回參考圖1,網路計算環境100使用一客戶端-伺服器架構,其中一遊戲伺服器120經由一網路105與一客戶端裝置110通信以向客戶端裝置110處之玩家提供平行現實遊戲。網路計算環境100亦可包含其他外部系統,諸如贊助商/廣告商系統或業務系統。儘管在圖1中僅繪示一個客戶端裝置110,但任何數目個客戶端110或其他外部系統可經由網路105連接至遊戲伺服器120。此外,網路計算環境100可含有不同或額外元件且功能性可以不同於下文所描述之一方式分佈於客戶端裝置110與伺服器120之間。
一客戶端裝置110可為可由一玩家用於與遊戲伺服器120互動之任何可攜式計算裝置。例如,一客戶端裝置110可為一無線裝置、一個人數位助理(PDA)、可攜式遊戲裝置、蜂巢式電話、智慧型電話、平板電腦、導航系統、手持式GPS系統、可穿戴計算裝置、具有一個或多個處理器之一顯示器,或其他此裝置。在另一例項中,客戶端裝置110包含一習知電腦系統,諸如一桌上型電腦或一膝上型電腦。然而,客戶端裝置110可為具有一計算裝置之一車輛。簡言之,客戶端裝置110可為能夠使一玩家與遊戲伺服器120互動之任何電腦裝置或系統。作為一計算裝置,客戶端裝置110可包含一個或多個處理器及一個或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存引起處理器執行操作之指令。客戶端裝置110較佳地係一玩家可容易地攜帶或以其他方式運輸之一可攜式計算裝置,諸如一智慧型電話或平板電腦。
客戶端裝置110與遊戲伺服器120通信以向遊戲伺服器120提供一實體環境之感官資料。客戶端裝置110包含在客戶端裝置110位於其中之實體環境中捕捉一場景之二維影像資料之一攝影機總成125。在圖1中所展示之實施例中,各客戶端裝置110包含軟體組件,諸如一遊戲模組135及一定位模組140。客戶端裝置110亦包含用於全景分割預測之一全景分割模組142。客戶端裝置110可包含用於自一玩家接收資訊及/或將資訊提供給一玩家之各種其他輸入/輸出裝置。實例輸入/輸出裝置包含一顯示螢幕、一觸控螢幕、一觸控板、資料登錄鍵、揚聲器及適合於語音辨識之一麥克風。客戶端裝置110亦可包含用於記錄來自客戶端裝置110之資料之其他各種感測器,包含(但不限於)移動感測器、加速計、陀螺儀、其他慣性量測單元(IMU)、氣壓計、定位系統、溫度計、光感測器等。客戶端裝置110可進一步包含用於經由網路105提供通信之一網路介面。網路介面可包含用於與一個或多個網路介接之任何適合組件(包含(例如)傳輸器、接收器、埠、控制器、天線或其他適合組件)。
攝影機總成125捕捉客戶端裝置110位於其中之環境之一場景之影像資料。攝影機總成125可利用在變化捕捉速率下具有變化色彩捕捉範圍之多種變化光感測器。攝影機總成125可含有一廣角鏡頭或一長焦鏡頭。攝影機總成125可經組態以捕捉單一影像或視訊作為影像資料。另外,當攝影機總成125對準地平線時,攝影機總成125之定向可平行於地面。攝影機總成125捕捉影像資料且與客戶端裝置110上之計算裝置共用影像資料。影像資料可附帶描述影像資料之其他細節之元資料,包含感官資料(例如溫度、環境之亮度)或捕捉資料(例如曝光、溫度、快門速度、焦距、捕捉時間等)。攝影機總成125可包含一個或多個可捕捉影像資料之攝影機。在一個例項中,攝影機總成125包含一個攝影機且經組態以捕捉單眼影像資料。在另一例項中,攝影機總成125包括兩個攝影機且經組態以捕捉立體影像資料。在各種其他實施方案中,攝影機總成125包括各經組態以捕捉影像資料之複數個攝影機。
遊戲模組135為一玩家提供參與平行現實遊戲之一介面。遊戲伺服器120經由網路105將遊戲資料傳輸至客戶端裝置110以供客戶端裝置110處之遊戲模組135使用來向遠離遊戲伺服器120之位置處之玩家提供遊戲之本地版本。遊戲伺服器120可包含用於經由網路105提供通信之一網路介面。一網路介面可包含用於與一個或多個網路介接之任何適合組件,包含(例如)傳輸器、接收器、埠、控制器、天線或其他適合組件。
由客戶端裝置110執行之遊戲模組135提供一玩家與平行現實遊戲之間的一介面。遊戲模組135可在與客戶端裝置110相關聯之一顯示裝置上呈現顯示與遊戲相關聯之一虛擬世界(例如渲染虛擬世界之影像)之一使用者介面且允許一使用者在虛擬世界中互動以執行各種遊戲目標。在一些其他實施例中,遊戲模組135呈現由來自平行現實遊戲之虛擬元素增強之來自真實世界(例如由攝影機總成125捕捉)之影像資料。在此等實施例中,遊戲模組135可根據自客戶端裝置110之其他組件接收之其他資訊產生虛擬內容及/或調整虛擬內容。例如,遊戲模組135可根據在影像資料中捕捉之場景之一深度圖來調整待在使用者介面上顯示之一虛擬物件。
遊戲模組135亦可控制各種其他輸出以允許一玩家與遊戲互動而無需玩家查看一顯示螢幕。例如,遊戲模組135可控制各種音訊、振動或允許玩家在不看顯示螢幕之情況下玩遊戲之其他通知。遊戲模組135可存取自遊戲伺服器120接收之遊戲資料以將遊戲之一準確表示提供給使用者。遊戲模組135可經由網路105接收及處理玩家輸入且將更新提供給遊戲伺服器120。遊戲模組135亦可產生及/或調整待由客戶端裝置110顯示之遊戲內容。例如,遊戲模組135可(例如)基於由攝影機總成125捕捉之影像或由全景分割模組142產生之一未來全景分割產生一虛擬元素。
定位模組140可為用於監視客戶端裝置110之位置之任何裝置或電路系統。例如,定位模組140可藉由使用基於IP位址之一衛星導航定位系統(例如一GPS系統、一伽利略定位系統、一全球導航衛星系統(GLONASS)、北斗衛星導航及定位系統)、一慣性導航系統、一航位推測系統、藉由使用三角測量及/或接近行動通信基地台或Wi-Fi熱點及/或用於判定位置之其他適合技術來判定實際或相對位置。定位模組140可進一步包含可助於準確定位客戶端裝置110位置之各種其他感測器。
當玩家在真實世界中與客戶端裝置110一起移動時,定位模組140追蹤玩家之位置且將玩家位置資訊提供給遊戲模組135。遊戲模組135基於玩家在真實世界中之實際位置更新與遊戲相關聯之虛擬世界中之玩家位置。因此,一玩家可僅藉由在真實世界中攜帶或運輸客戶端裝置110來與虛擬世界互動。特定言之,玩家在虛擬世界中之位置可對應於玩家在真實世界中之位置。遊戲模組135可經由網路105將玩家位置資訊提供給遊戲伺服器120。作為回應,遊戲伺服器120可實施各種技術來驗證客戶端裝置110之位置以防止作弊者欺騙客戶端裝置110之位置。應理解僅在已通知一玩家將存取該玩家之位置資訊及如何在遊戲環境中利用該位置資訊(例如更新玩家在虛擬世界中之位置)之後才允許使用與該玩家相關聯之位置資訊。另外,將以保護玩家隱私之一方式儲存及維護與玩家相關聯之任何位置資訊。
全景分割模組142自由攝影機總成125捕捉之輸入圖框預測一未來全景分割。全景分割模組142將輸入圖框中之像素分類為與前景物件抑或背景物件有關。全景分割模組142自前景像素識別前景物件且應用一前景運動模型來預測前景物件之未來位置。對於背景像素,全景分割模組142應用一背景運動模型來預測背景像素之未來位置。一個實施例將背景像素反向投影至一3D點雲空間中且使用背景運動模型預測3D點雲。全景分割模組142將前景物件之未來位置分層至背景物件之未來位置上以產生一未來全景分割。全景分割模組142亦可在全景分割中使用由定位模組140判定之定位資訊。
一未來全景分割由客戶端裝置110之其他組件使用。例如,遊戲模組135可基於未來全景分割產生用於擴增實境之虛擬物件。此將允許虛擬物件與環境互動且延遲很小或最小(即,避免其中一真實物件與虛擬物件發生碰撞但虛擬物件不變之情況)。在客戶端裝置110作為一車輛之實施例中,其他組件可基於未來全景分割產生用於導航車輛之控制信號。控制信號可主動避免與環境中之物件發生碰撞。
現參考圖4,圖4係繪示根據一個或多個實施例之全景分割模組142之架構之一方塊圖。全景分割模組142包含一像素分類模型410、一前景運動模型420、一背景運動模型430及一聚集模型440。全景分割模組142亦可包含用於模型化客戶端裝置110之運動之一自我運動模型450。
像素分類模型410將由攝影機總成135捕捉之輸入圖框中之像素分類為與前景或背景相關之像素。像素分類模型410亦可對與個別前景物件相關之前景像素進行分組。在一個實施例中,像素分類模型410將與個別前景物件相關之前景像素分組,其中剩餘像素標記為背景。像素分類模型410亦可將各識別前景物件分類為若干類別。例如,類別可包含行人、自行車騎行者、汽車、寵物等。類別可進一步細分為子類別,例如行人被分為步行者、跑步者等。在一個實施方案中,像素分類模型410實施一機器學習演算法(例如MaskRCNN)以將與個別前景物件相關之前景像素分組。在一些實施例中,像素分類模型410進一步將背景像素分類為複數個標籤,例如地面、天空、建築物、樹木等。將前景像素及/或前景物件提供給前景運動模型420,且將背景像素提供給背景運動模型430。在一個或多個實施例中,像素分類模型410可在將像素分類為前景與背景之程序中利用由自我運動模型450判定之自我運動。例如,自我運動模型450判定捕捉圖框之攝影機之自我運動,且像素分類模型410可識別以不同於自我運動之一速率移動之物件或像素作為前景物件之指示。
前景運動模型420預測輸入圖框中之前景像素之運動。根據一個或多個實施例,前景運動模型420包含一物件追蹤模型422、一物件運動編碼器424及一物件運動解碼器426。物件追蹤模型422追蹤所捕捉之各圖框中之各前景之一位置。物件運動編碼器424輸入捕捉圖框且輸出與各前景物件之預測運動相關之抽象特徵。物件運動解碼器426輸入抽象特徵且輸出預測之各前景物件之一未來位置(例如在來自輸入圖框之一後續時間處)。
物件追蹤模型422追蹤前景物件隨時間之移動。物件追蹤模型422可實施機器學習演算法,例如DeepSort。由於前景運動模型420 (及其各種組件)預測前景物件之位置及/或運動,因此物件追蹤模型422可在不同輸入圖框中追蹤前景物件。當捕捉額外影像資料時,物件追蹤模型422可基於額外影像資料進一步追蹤前景物件之位置。在一些實施例中,物件追蹤模型422可將由前景運動模型420預測之一前景物件之一預測位置與隨後捕捉之影像資料中之前景物件之實際位置進行評分。分數可由前景運動模型420用於進一步細化前景運動模型420。
物件運動編碼器424輸入包含由物件追蹤模型422識別之一前景物件之圖框且輸出與該前景物件之預測運動相關之抽象特徵。物件運動編碼器424亦可輸入由自我運動模型450判定之自我運動。在一個或多個實施例中,物件運動編碼器424包括兩個子編碼器。對於一前景物件,目標運動編碼器424輸入由像素分類模型410自輸入圖框判定之邊界框特徵、遮罩特徵及里程計。一邊界框特徵可為完全包圍前景物件之最小矩形。一遮罩特徵可為一前景物件之輪廓。可藉由追蹤前景在輸入圖框上之移動來量測一前景物件之里程計。一第一子編碼器自邊界框特徵、里程計及遮罩特徵之一轉換判定一框狀態表示。一第二子編碼器自遮罩特徵及框狀態表示判定一遮罩狀態表示。
物件運動解碼器426輸入抽象特徵且輸出各前景物件之一預測未來位置。在一些實施例中,前景運動模型420 (例如一次)輸入一單一前景物件以預測該前景物件之以未來位置。在一個或多個實施例中,物件運動解碼器426包括兩個子解碼器。一第一子解碼器預測未來邊界框,且一第二子解碼器預測未來遮罩特徵。子解碼器可為複數個未來時間戳記之各者預測前景物件之一未來位置。例如,t 1、t 2、…t T之輸入圖框(其中t T係輸入圖框之最近時間戳記及先前時間戳記)且可輸出t T+1、t T+2、…t T+F之一未來位置(其中t T+F係最遠未來時間戳記)。
前景運動模型420可進一步考量各前景物件之一類別。例如,前景運動模型420可包括複數個子模型,各子模型針對前景物件之各類別進行訓練。此允許對不同類別之前景物件之運動進行更精確模型化。例如,與行人相比,車輛可移動得非常快。
背景運動模型430預測輸入圖框中之背景像素之運動(即,預測背景像素之一未來位置)。根據一個或多個實施例,背景運動模型430包含一反向投影模型432、一語義運動模型434及視情況一細化模型436。
反向投影模型432基於背景像素之深度將背景像素反向投影至一3D點雲空間中作為3D點雲。深度可由(例如) 2017年9月12日申請之名稱為「Predicting Depth From Image Data Using a Statistical Model」之美國申請案第16/332,343號;2019年5月16日申請之名稱為「Self-Supervised Training of a Depth Estimation System」之美國申請案第16/413,907號;及2020年5月1日申請之名稱為「Self-Supervised Training of a Depth Estimation Model Using Depth Hints」之美國申請案第16/864,743號中所描述之一立體深度估計模型及/或一單深度估計模型判定。反向投影模型432自輸入圖框之角度產生一3D點雲空間。反向投影模型432可進一步考量反向投影中之攝影機固有參數。例如,反向投影模型432利用一攝影機焦距及感測器大小自攝影機之角度建立一視錐台。反向投影模型432亦可利用攝影機焦距來估計像素之深度。利用各像素之估計深度,反向投影模型432基於估計深度將像素投影至一3D點雲中。
語義運動模型434基於由自我運動模型450判定之自我運動預測3D點雲。攝影機之自我運動可包含位置、定向、平移移動、旋轉移動等。自我運動可進一步包含未來自我運動,例如未來位置、未來定向、未來平移移動、未來旋轉移動等。基於未來自我運動,語義運動模型434可平移3D點雲以解釋攝影機之一未來位置。
細化模型436使用預測3D點雲填充此等間隙。在先前被遮擋之像素之區域中,可存在點雲稀疏及資訊缺乏之情況。為訓練背景細化模型,在目標圖框中不對應於前景物件之像素處應用一交叉熵損失。此鼓勵細化模型436之輸出在各像素處匹配地面實況語義分割。為填充間隙,細化模型436可產生自既有點雲內插之新點雲。
聚集模型440將前景像素之未來位置分層至背景像素之未來位置上。分層係有序的使得較近深度之物件被分層至較遠深度之物件之上。結果係包含前景物件之未來位置及背景物件之未來位置之一未來全景分割。
在具有自我運動模型450之實施例中,自我運動模型450估計攝影機總成135之自我運動。自我運動模型450可基於攝影機總成135之過去運動來預測自我運動,例如實施一個或多個機器學習演算法。例如,自我運動模型450可利用視覺里程計來預測由攝影機總成135捕捉之圖框中之過去攝影機移動。在一些實施例中,自我運動模型450包含由定位模組140捕捉之位置資料。
在全景分割模組142 (圖4中未展示)之一個實施例中,前景運動模型420及背景運動模型430輸出與前景像素及背景像素之運動有關之抽象特徵。聚集模型440可為經訓練以輸入抽象特徵且輸出一未來全景分割之一神經網路。
返回參考圖1,遊戲伺服器120可為任何計算裝置且可包含一個或多個處理器及一個或多個電腦可讀儲存媒體。電腦可讀儲存媒體可儲存引起處理器執行操作之指令。遊戲伺服器120可包含一遊戲資料庫115或可與一遊戲資料庫115通信。遊戲資料庫115儲存待經由網路105服務或提供給客戶端110之用於平行現實遊戲中之遊戲資料。
儲存於遊戲資料庫115中之遊戲資料可包含:(1)與平行現實遊戲中之虛擬世界相關聯之資料(例如用於在一顯示裝置上顯現虛擬世界之影像資料、虛擬世界中之位置之地理座標等);(2)與平行現實遊戲玩家相關聯之資料(例如玩家概述,包含(但不限於)玩家資訊、玩家經驗位準、玩家貨幣、虛擬世界/真實世界中之當前玩家位置、玩家能量位準、玩家偏好、團隊資訊、派系資訊等);(3)與遊戲目標相關聯之資料(例如與當前遊戲目標、遊戲目標狀態、過去遊戲目標、未來遊戲目標、所要遊戲目標等相關聯之資料);(4)與虛擬世界中之虛擬元素相關聯之資料(例如虛擬元素之位置、虛擬元素之類型、與虛擬元素相關聯之遊戲目標、虛擬元素之對應實際世界位置資訊、虛擬元素之行為、虛擬元素之相關性等);(5)與真實世界物件、地標、鏈接至虛擬世界元素之位置相關聯之資料(例如真實世界物件/地標之位置、真實世界物件/地標之描述、鏈接至真實世界物件之虛擬元素之相關性等);(6)遊戲狀態(例如玩家之當前數目、遊戲目標之當前狀態、玩家排行榜等);(7)與玩家動作/輸入相關聯之資料(例如當前玩家位置、過去玩家位置、玩家移動、玩家輸入、玩家查詢、玩家通信等);及(8)在平行現實遊戲實施方案期間使用、相關或獲得之任何其他資料。儲存於遊戲資料庫115中之遊戲資料可由系統管理員離線或即時填充及/或由自系統100之使用者/玩家(諸如經由網路105自一客戶端裝置110)接收之資料填充。
遊戲伺服器120可經組態以自一客戶端裝置110 (例如經由遠端程序呼叫(RPC))接收遊戲資料請求且經由網路105回應此等請求。例如,遊戲伺服器120可在一個或多個資料檔案中編碼遊戲資料且將資料檔案提供給客戶端裝置110。另外,遊戲伺服器120可經組態以經由網路105自客戶端裝置110接收遊戲資料(例如玩家位置、玩家動作、玩家輸入等)。例如,客戶端裝置120可經組態以週期性地向遊戲伺服器110發送玩家輸入及其他更新,該遊戲伺服器120使用此等更新來更新遊戲資料庫115中之遊戲資料以反映遊戲之任何及所有已改變狀況。
在圖中所展示之實施例中,伺服器120包含一通用遊戲模組145、一商業遊戲模組150、一資料收集模組155、一事件模組160及一全景分割訓練系統170。如上文所提及,遊戲伺服器120與可為遊戲伺服器120之部分或遠端存取之遊戲資料庫115互動(例如遊戲資料庫115可為經由網路105存取之一分散式資料庫)。在其他實施例中,遊戲伺服器120含有不同及/或額外元件。另外,功能可以不同於所描述之一方式分佈在元件之間。例如,遊戲資料庫115可整合至遊戲伺服器120中。
通用遊戲模組145為所有玩家主控平行現實遊戲且充當為所有玩家之平行現實遊戲之當前狀態之權威來源。作為主控,通用遊戲模組145 (例如)經由其各自客戶端裝置110產生用於呈現給玩家之遊戲內容。通用遊戲模組145可在主控平行現實遊戲時存取遊戲資料庫115以擷取及/或儲存遊戲資料。通用遊戲模組145亦自客戶端裝置110接收遊戲資料(例如深度資訊、玩家輸入、玩家位置、玩家動作、地標資訊等)且將所接收之遊戲資料合併至平行現實遊戲之所有玩家之總平行現實遊戲中。通用遊戲模組145亦可管理經由網路105向客戶端裝置110輸送遊戲資料。通用遊戲模組145亦可管理客戶端裝置110之安全態樣,包含(但不限於)保護客戶端裝置110與遊戲伺服器120之間的連接、建立各種客戶端裝置110之間的連接,及驗證各種客戶端裝置110之位置。
在其中包含一個商業遊戲模組150之實施例中,商業遊戲模組150可與通用遊戲模組145分離或可為通用遊戲模組145之一部分。商業遊戲模組150可管理平行現實遊戲中與真實世界中之商業活動相鏈接之各種遊戲特徵之包含。例如,商業遊戲模組150可經由網路105 (經由一網路介面)接收來自外部系統(例如贊助商/廣告商、企業或其他實體)之請求以包含與平行現實遊戲中之商業活動鏈接之遊戲特徵。接著,商業遊戲模組150可經配置用於將此等遊戲特徵包含於平行現實遊戲中。
遊戲伺服器120可進一步包含一資料收集模組155。在其中包含一個資料收集模組155之實施例中,資料收集模組155可與通用遊戲模組145分離或可為通用遊戲模組145之一部分。資料收集模組155可管理平行現實遊戲中與真實世界中之一資料收集活動相鏈接之各種遊戲特徵之包含。例如,資料收集模組155可修改儲存於遊戲資料庫115中之遊戲資料以包含與平行現實遊戲中之資料收集活動相鏈接之遊戲特徵。資料收集模組155亦可根據資料收集活動分析及收集由玩家收集之資料且提供資料供各種平台存取。
事件模組160管理玩家對平行現實遊戲中之事件之存取。儘管術語「事件」係為方便起見而使用,但應瞭解此術語不需要係指一特定地點或時間處之一特定事件。確切而言,其可係指其中一個或多個存取準則用於判定玩家是否可存取該內容之存取控制遊戲內容之任何規定。此內容可為一較大平行現實遊戲之部分,其包含存取控制較少或無存取控制之遊戲內容或可為一獨立、存取控制之平行現實遊戲。
全景分割訓練系統170訓練由全景分割模組142使用之模型。全景分割訓練系統170接收用於訓練全景分割模組142之模型之影像資料。通常,全景分割訓練系統170可執行全景分割模組142之模型之監督訓練。模型之訓練可同時或單獨。在監督訓練之情況中,用於訓練一特定模型之一資料集具有一基本實況:一預測係根據此實況來計算一損失。訓練系統170反覆調整模型之權重以最佳化損失。由於一未來全景分割可預測一場景中之前景物件之未來位置及背景物件之未來位置,因此由一移動代理上之一攝影機捕捉之視訊可用於監督訓練。訓練系統170輸入圖框之一子集且試圖在視訊中之一後續時間戳記處產生一未來全景分割。訓練系統170可將未來全景分割與該後續時間戳記處之圖框進行比較。
此原理適用於全景分割模組142之組件之各者。例如,以前景運動模型420為例,訓練系統170將視訊細分為輸入圖框及地面實況未來位置。例如,訓練系統170使用一滑動視窗來捕捉一些相鄰時間戳記圖框之子集(例如分組為六個圖框)。一假定當前時間戳記用於將相鄰時間戳記圖框之各子集分割為訓練輸入圖框及訓練地面實況圖框(例如六分之三之圖框係訓練輸入圖框且六分之三之圖框係訓練地面實況圖框)。訓練系統170將訓練輸入圖框輸入前景運動模型420中以預測前景物件之未來位置,該前景物件與訓練地面實況圖框進行比較以計算前景運動模型420之損失。如同背景運動模型430,訓練系統170可使用視訊資料之一類似細分。訓練系統170將訓練輸入圖框輸入背景運動模型430中以判定背景像素之未來位置,該背景像素與訓練地面實況圖框進行比較以計算背景運動模型430之一損失。
一旦訓練全景分割模組142,全景分割模組142即接收影像資料且輸出預測輸入影像資料中之像素之未來位置之一全景分割。全景分割訓練系統170將經訓練之全景分割模組142提供給客戶端裝置110。客戶端裝置110使用經訓練之全景分割模組142以基於輸入影像(例如由裝置上之一攝影機捕捉)預測一未來全景分割。
全景分割預測之各種實施例及訓練全景分割模組142之各種模型之方法在係本發明及說明書之一部分之附錄A中更詳細描述。應注意附錄A描述例示性實施例,且附錄A中可被描述為或隱含為重要、關鍵、必要或以其他方式需要之任何特徵應理解為僅在所描述之特定實施例中需要而非在所有實施例中均需要。
網路105可為任何類型之通信網路,諸如一區域網路(例如內部網路)、廣域網路(例如網際網路)或其等之一些組合。網路105亦可包含一客戶端裝置110與遊戲伺服器120之間的一直接連接。一般而言,遊戲伺服器120及一客戶端裝置110之間的通信可經由一網路介面使用任何類型之有線及/或無線連接執行以使用多種通信協定(例如TCP/IP、HTTP、SMTP、FTP)、編碼或格式(例如HTML、XML、JSON)及/或保護方案(例如VPN、安全HTTP、SSL)。
本文所討論之技術參考伺服器、資料庫、軟體應用程式及其他基於電腦之系統,及所採取之行動及自此等系統發送之資訊。一般技術者將認識到基於電腦之系統之固有靈活性允許在組件之間及組件當中進行多種可能之配置、組合、任務及功能之劃分。例如,本文討論之伺服器程序可使用一單一伺服器或組合工作之多個伺服器來實現。資料庫及應用可在一單一系統上實施,亦可跨多個系統分佈。分散式組件可依序或平行運行。
另外,在其中本文所討論之系統及方法存取及分析有關使用者之個人資訊,或使用個人資訊(諸如位置資訊)之情況下,使用者可有機會控制程式或特徵是否收集資訊,且控制是否及/或如何自系統或其他應用接收內容。在向使用者提供關於收集哪些資訊及如何使用資訊之有意義通知之前,不收集或使用此資訊或資料。除非使用者同意,否則不收集或使用該資訊,使用者可隨時撤銷或修改該同意。因此,使用者可控制如何收集有關使用者之資訊及應用程式或系統如何使用此等資訊。此外,在儲存或使用某些資訊或資料之前,可通過一或多種方式對其進行處理,使得移除個人可識別資訊。例如,可對一使用者之身份進行處理使得無法判定使用者之個人可識別資訊。 例示性遊戲介面
圖3描繪可作為一玩家與虛擬世界210之間的介面之部分呈現客戶端110之顯示器上之一遊戲介面300之一個實施例。遊戲介面300包含可用於顯示虛擬世界210及遊戲之各種其他態樣之顯示視窗310,例如玩家位置222及虛擬世界210中之虛擬元素230、虛擬物品232及虛擬能量250之位置。使用者介面300亦可顯示其他資訊,諸如遊戲資料資訊、遊戲通信、玩家資訊、客戶端位置驗證指令及與遊戲相關聯之其他資訊。例如,使用者介面可顯示玩家資訊315,例如玩家名稱、經驗位準及其他資訊。使用者介面300可包含用於存取各種遊戲設定及與遊戲相關聯之其他資訊之一選單320。使用者介面300亦可包含一通信介面330使得能夠在遊戲系統及玩家之間及在平行現實遊戲之一個或多個玩家之間通信。
根據本發明之態樣,玩家可僅需在真實世界中攜帶一客戶端裝置110與平行現實遊戲互動。例如,一玩家僅需在智慧型電話上存取與平行現實遊戲相關聯之應用程式且使用智慧手機在真實世界中移動,就可玩基於位置之遊戲。據此而言,玩家不必為玩基於位置之遊戲而在顯示幕上連續觀看虛擬世界之視覺表示。因此,使用者介面300可包含允許使用者與遊戲互動之複數個非視覺元件。例如,當玩家接近遊戲中之虛擬元素或物件時,或者當平行現實遊戲中發生一重要事件時,遊戲介面可向玩家提供音訊通知。一玩家可使用音訊控制340控制此等可聽通知。根據虛擬元素或事件之類型,可將不同類型之音訊通知提供給使用者。根據玩家與虛擬元素或物件之接近程度,音訊通知之頻率或音量可增加或減少。可向使用者提供其他非視覺通知及信號,諸如一振動通知或其他適合通知或信號。
使用本文所提供之揭示內容之一般技術者將瞭解根據本發明內容,多種遊戲介面組態及基本功能性將係顯而易見。本發明不受限於任一個特定組態。 實例方法
圖5係描述根據一個或多個實施例之全景分割預測之一一般程序500之一流程圖。程序500產生描述分層至一個或多個背景物件之(若干)未來位置上之一個或多個前景物件之(若干)未來位置之一未來全景分割。自全景分割模組142之角度繪示圖5之一些步驟。然而,部分或所有步驟可由其他實體及/或組件執行。另外,一些實施例可平行執行步驟,以不同順序執行步驟,或執行不同步驟。
全景分割模組142接收510包括由一使用者裝置(例如攝影機總成135)之一攝影機捕捉之複數個圖框之視訊資料。
全景分割模組142將各圖框之像素分類520為前景與背景。全景分割模組142可實施一像素分類模型(例如圖4之像素分類模型410)以將像素分類為前景或背景。在一個或多個實施例中,全景分割模組142確認地識別前景像素,而未識別為前景像素之剩餘像素被分類為背景像素。
全景分割模組142自分類為前景之像素識別530一個或多個前景物件。全景分割模組142可將前景像素分組為個別前景物件。全景分割模組142可進一步將前景物件分類為複數個類別之一者,例如車輛、行人、自行車騎行者、寵物等。當使用者裝置亦在移動時,前景像素及/或前景物件可移動。背景像素通常靜止,因此其等之位置歸因於使用者裝置運動而改變。全景分割模組142可進一步將背景像素分類為屬於一第二複數個類別之一者,例如地面、天空、樹葉等。
對於各前景物件,全景分割模組142應用540一前景運動模型以預測一未來時間戳記處之前景物件之一未來位置。前景運動模型可包含一物件運動編碼器及一物件運動解碼器(例如物件運動編碼器424及物件運動解碼器426)。物件運動編碼器判定與(若干)前景物件之運動有關之抽象特徵而物件運動解碼器判定未來時間戳記處之(若干)前景物件之(若干)未來位置。
全景分割模組142將一背景運動模型應用550於背景像素以預測背景像素之未來位置。全景分割模組142可基於背景像素之深度資訊(例如經由反向投影模型432)將背景像素反向投影至3D點雲空間中。全景分割模組142可基於使用者裝置之自我運動(例如由自我運動模型450判定)在未來時間戳記出預測背景像素之未來位置。在一些實施例中,識別背景物件且背景物件至3D點雲空間之反向投影可考量背景物件幾何形狀。在一些實施例中,全景分割模組142應用一細化模型(例如細化模型436)來填充歸因於由(若干)前景物件遮擋之背景之間隙。
全景分割模組142藉由對(若干)背景物件之(若干)未來位置上之(若干)前景物件之(若干)未來位置進行分層而產生560環境之一未來全景分割。全景分割模組142可基於最近之深度對物件進行分層(即,較近之物件被放置於較遠之物件之前面)。所得未來全景分割在未來時間戳記處。未來全景分割區分(若干)前景物件與(若干)背景像素。
對於未來全景分割,遊戲模組135可基於未來全景分割在使用者裝置之一電子顯示器上產生及呈現一虛擬物件。可產生虛擬物件以與由使用者裝置之攝影機捕捉之場景中之物件無縫互動。例如,基於未來全景分割中判定之前景物件之未來位置,將顯示虛擬物件以避免與前景物件發生碰撞。
全景分割預測之替代應用包含一環境中之一代理之自主導航。例如,攝影機可定位於代理上。導航控制系統可基於未來全景分割來判定一導航路線。例如,導航控制系統預測將自最近捕捉之視訊將一行人直接定位於代理前1秒。導航控制系統可判定規避操作以避免與行人發生碰撞。 實例計算系統
圖6係根據一實施例之一計算裝置之一實例架構。儘管圖6描繪圖示用作為本文所描述之一個或多個實體之部分或全部之一電腦之實體組件之一高階方塊圖,但根據一實施例,一電腦可具有圖6中提供之組件之額外、較少或變動。儘管圖6描繪一電腦600,但圖意欲為電腦系統中可存在之各種特徵之功能描述而非作為本文所描述之實施方案之一結構示意圖。在實踐中,且如由一般技術者所辨識,單獨展示之物品可組合且一些物品可分離。
圖6中繪示耦合至一晶片組604之至少一個處理器602。一記憶體606、一儲存裝置608、一鍵盤610、一圖形配接器612、一指向裝置614及一網路配接器616亦耦合至晶片組604。一顯示器618耦合至圖形配接器612。在一個實施例中,晶片組604之功能性由一記憶體控制器集線器620及一I/O集線器622提供。在另一實施例中,記憶體606直接耦合至處理器602而非晶片組604。在一些實施例中,電腦600包含用於互連此等組件之一個或多個通信匯流排。一個或多個通信匯流排視情況包含互連及控制系統組件之間的通信之電路系統(有時稱為一晶片組)。
儲存裝置608係任何非暫時性電腦可讀儲存媒體,諸如一硬碟驅動器、光碟唯讀記憶體(CD-ROM)、DVD或一固態儲存裝置或其他光學儲存器、卡式磁帶、磁帶、磁碟記憶體或其他磁性儲存裝置、磁碟儲存裝置、光碟儲存裝置、快閃記憶體裝置,或其他非揮發性固態儲存裝置。此一儲存裝置608亦可被稱為永久性記憶體。指向裝置614可為一滑鼠、軌跡球或其他類型之指向裝置,且與鍵盤610組合使用以將資料輸入至電腦600中。圖形配接器612在顯示器618上顯示影像及其他資訊。網路配接器616將電腦600耦合至一區域網路或廣域網路。
記憶體606保持由處理器602使用之指令及資料。記憶體606可為非永久性記憶體,其實例包含高速隨機存取記憶體,諸如DRAM、SRAM、DDR RAM、ROM、EEPROM、快閃記憶體。
如本技術中所知,電腦600可具有不同於圖13中所展示之組件及/或其他組件。另外,電腦600可缺乏某些繪示組件。在一個實施例中,充當一伺服器之一電腦600可缺乏一鍵盤610、指向裝置614、圖形配接器612及/或顯示器618。再者,儲存裝置608可為本地及/或遠離電腦600 (例如體現在一儲存區域網路(SAN)內)。
如本技術中所知,電腦600經調適以執行用於提供本文所描述之功能性之電腦程式模組。如本文所使用,術語「模組」係指用於提供指定功能性之電腦程式邏輯。因此,一模組可在硬體、韌體及/或軟體中實施。在一個實施例中,程式模組儲存於儲存裝置608上、載入記憶體606中且由處理器602執行。 額外考量
上述描述之一些部分描述演算法程序或操作之實施例。此等演算法描述及表示通常由熟習資料處理技術者使用以將其工作之實質有效地傳達給其他熟習技術者。儘管在功能上、計算上或邏輯上描述,但此等操作被理解為由包括用於由一處理器或等效電路、微碼或其類似者執行之指令之電腦程式實施。此外,將功能操作之此等配置稱為模組有時亦很方便而不丟失一般性。
如本文所使用,對「一個實施例」或「一實施例」之任何引用意謂連同該實施例描述之一特定元件、特徵、結構或特性包含於至少一個實施例中。片語「在一個實施例中」在說明書中之各種位置之出現不必要指涉為相同實施例。
可使用表達式「耦合」及「連接」連同其等之衍生詞來描述一些實施例。應理解此等術語不意欲為彼此之同義詞。例如,可使用術語「連接」來描述一些實施例以指示兩個或更多個元件彼此直接實體或電接觸。在另一實例中,可使用術語「耦合」來描述一些實施例以指示兩個或更多個元件直接實體或電接觸。然而,術語「耦合」亦可意謂兩個或更多個元件彼此不直接接觸,但仍彼此共同協作或互動。在此上下文中,實施例不受限制。
如本文所使用,術語「包括」、「包含」、「具有」或其任何其他變體意欲涵蓋一非排他性包含。例如,包括元件之一清單之一程序、方法、物件或設備不一定僅受限於該等元件而可包含未明確列出之或此等程序、方法、物件或設備固有之其他元件。此外,除非另有明確相反規定,否則「或」係指一包含或而非一排他性或。例如,一狀況A或B由以下之任一者滿足:A為真(或存在)且B為假(或不存在),A為假(或不存在)且B為真(或存在),及A及B兩者均為真(或存在)。
另外,採用「一」來描述實施例之元件及組件。此僅為了方便起見且給出本發明之一一般意義。本描述應閱讀為包含一個或至少一個且除非其含義明顯不同,否則單數亦包含複數。
在閱讀本發明之後,熟習技術者將瞭解一系統之額外替代結構及功能設計及用於驗證一線上服務供應商之一帳戶之一程序對應於一真實業務。因此,儘管已繪示及描述特定實施例及應用,但應理解所描述之標的不受限於本文所揭示之精確構造及組件,且可在所揭示之方法及設備之配置、操作及細節中進行對熟習技術者而言顯而易見之各種修改、改變及變動。保護之範疇應僅受限於以下申請專利範圍。
100:網路計算環境 105:網路 110:客戶端裝置 115:遊戲資料庫 120:遊戲伺服器 125:攝影機總成 135:遊戲模組 140:定位模組 142:全景分割模組 145:通用遊戲模組 150:商業遊戲模組 155:資料收集模組 160:事件模組 170:全景分割訓練系統 200:真實世界 210:虛擬世界 212:玩家A 214:玩家B 222:玩家位置 224:對應位置 230:虛擬元素 232:虛擬物品 240:地標/地理位置/物件 250:虛擬能量 300:遊戲介面 310:顯示視窗 315:玩家資訊 320:選單 330:通信介面 340:音訊控制 410:像素分類模型 420:前景運動模型 422:物件追蹤模型 424:物件運動編碼器 426:物件運動解碼器 430:背景運動模型 432:反向投影模型 434:語義運動模型 436:細化模型 440:聚集模型 450:自我運動模型 500:程序 510:接收包括由一使用者裝置(例如攝影機總成135)之一攝影機捕捉之複數個圖框之視訊資料 520:將各圖框之像素分類為前景與背景 530:自分類為前景之像素識別一個或多個前景物件 540:對於各前景物件,應用一前景運動模型以預測一未來時間戳記處之前景物件之一未來位置 550:將一背景運動模型應用於背景像素以預測背景像素之未來位置 560:藉由對(若干)背景像素之(若干)未來位置上之(若干)前景物件之(若干)未來位置進行分層而產生560環境之一未來全景分割 600:電腦 602:處理器 604:晶片組 606:記憶體 608:儲存裝置 610:鍵盤 612:圖形配接器 614:指向裝置 616:網路配接器 618:顯示器 620:記憶體控制器集線器 622:I/O集線器
圖1繪示根據一個或多個實施例之一網路計算環境。
圖2描繪根據一個或多個實施例之具有與真實世界平行之一地理之一虛擬世界之一表示。
圖3描繪根據一個或多個實施例之一平行現實遊戲之一例示性遊戲介面。
圖4係繪示根據一個或多個實施例之全景分割模組之架構之一方塊圖。
圖5係描述根據一個或多個實施例之全景分割預測之一般程序之一流程圖。
圖6繪示根據一個或多個實施例之適用於訓練或應用一深度估計模型之一實例電腦系統。
圖及以下描述僅以繪示之方式描述某些實施例。熟習技術者將容易地自以下描述中認識到可在不背離所描述之原理之情況下採用結構及方法之替代實施例。現將參考若干實施例,其等之實例繪示於附圖中。
142:全景分割模組
410:像素分類模型
420:前景運動模型
422:物件追蹤模型
424:物件運動編碼器
426:物件運動解碼器
430:背景運動模型
432:反向投影模型
434:語義運動模型
436:細化模型
440:聚集模型
450:自我運動模型

Claims (21)

  1. 一種方法,其包括: 接收一環境之視訊資料,該視訊資料包括由一使用者裝置之一攝影機捕捉之圖框; 將該等圖框之像素分類為前景與背景; 自分類為前景之該等像素識別一前景物件; 應用一前景運動模型以基於該等圖框中之該前景物件之位置來預測一未來時間戳記處之該前景物件之一未來位置; 將一背景運動模型應用於分類為背景之該等像素以基於該等圖框中之估計深度而預測分類為背景之該等像素在該未來時間戳記處之未來位置; 藉由組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該等未來位置而產生該環境之一未來全景分割; 基於該未來全景分割產生一虛擬物件;及 在該使用者裝置之一電子顯示器上呈現分層至視訊資料上之該虛擬物件。
  2. 如請求項1之方法,其中將各圖框之像素分類為前景與背景包括應用係一機器學習模型之一像素分類模型。
  3. 如請求項1之方法,其中自分類為前景之該等像素識別一個或多個前景物件包括,對於所識別之前景物件,判定(1)分類為前景之一群組像素作為該前景物件之部分,及(2)圍繞該前景物件之一邊界框。
  4. 如請求項1之方法,其進一步包括: 將該前景物件分類為複數個類別之前景物件之一者, 其中該前景運動模型部分基於為前景物件分類之類別來預測該前景物件之一未來位置。
  5. 如請求項1之方法,其中該前景運動模型係一機器學習模型,其包括: 一編碼器,其經組態以輸入該前景物件且輸出抽象運動特徵;及 一解碼器,其經組態以輸入該抽象運動特徵且預測該前景物件之一未來位置。
  6. 如請求項1之方法,其進一步包括: 應用一深度估計模型來估計該等圖框中之該等像素之深度。
  7. 如請求項6之方法,其中該深度估計模型係使用具有地面實況深度之訓練影像訓練之一機器學習模型,其中該深度估計模型經組態以輸入一圖框且輸出該圖框之像素之深度。
  8. 如請求項1之方法,其中將該背景運動模型應用於分類為背景之該等像素包括: 基於該等估計深度而將分類為背景之該等像素反向投影至一三維(3D)空間中之點雲中; 基於該等圖框內之運動來預測該等點雲之運動;及 藉由內插該等3D點雲而產生一個或多個新點雲。
  9. 如請求項1之方法,其中組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該未來位置包括基於深度對該前景物件及分類為背景之該等像素進行分層。
  10. 如請求項1之方法,其中組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該等未來位置包括應用一機器學習模型來產生該環境之該未來全景分割。
  11. 一種非暫時性電腦可讀儲存媒體,其儲存指令,當由一處理器執行時,該等指令引起該處理器執行包括以下之操作: 接收一環境之視訊資料,該視訊資料包括由一使用者裝置之一攝影機捕捉之圖框; 將該等圖框之像素分類為前景與背景; 自分類為前景之該等像素識別一前景物件; 應用一前景運動模型以基於該等圖框中之該前景物件之位置來預測一未來時間戳記處之該前景物件之一未來位置; 將一背景運動模型應用於分類為背景之該等像素以基於該等圖框中之估計深度而預測分類為背景之該等像素之該未來時間戳記處之未來位置; 藉由組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該等未來位置而產生該環境之一未來全景分割; 基於該未來全景分割而產生一虛擬物件;及 在該使用者裝置之一電子顯示器上呈現分層至視訊資料上之該虛擬物件。
  12. 如請求項11之非暫時性電腦可讀儲存媒體,其中將各圖框之像素分類為前景與背景包括應用係一機器學習模型之一像素分類模型。
  13. 如請求項11之非暫時性電腦可讀儲存媒體,其中自分類為前景之該等像素識別一個或多個前景物件包括,對於所識別之前景物件,判定(1)分類為前景之一群組像素作為該前景物件之部分,及(2)圍繞該前景物件之一邊界框。
  14. 如請求項11之非暫時性電腦可讀儲存媒體,該等操作進一步包括: 將該前景物件分類為複數個類別之前景物件之一者, 其中該前景運動模型部分基於為前景物件分類之類別來預測該前景物件之一未來位置。
  15. 如請求項11之非暫時性電腦可讀儲存媒體,其中該前景運動模型係一機器學習模型,其包括: 一編碼器,其經組態以輸入該前景物件且輸出抽象運動特徵;及 一解碼器,其經組態以輸入該抽象運動特徵且預測該前景物件之一未來位置。
  16. 如請求項11之非暫時性電腦可讀儲存媒體,其進一步包括: 應用一深度估計模型來估計該等圖框中之該等像素之深度。
  17. 如請求項16之非暫時性電腦可讀儲存媒體,其中該深度估計模型係使用具有地面實況深度之訓練影像訓練之一機器學習模型,其中該深度估計模型經組態以輸入一圖框且輸出該圖框之像素之深度。
  18. 如請求項11之非暫時性電腦可讀儲存媒體,其中將該背景運動模型應用於分類為背景之該等像素包括: 基於該等估計深度而將分類為背景之該等像素反向投影至一三維(3D)空間中之點雲中; 基於該等圖框內之運動來預測該等點雲之運動;及 藉由內插該等3D點雲而產生一個或多個新點雲。
  19. 如請求項11之非暫時性電腦可讀儲存媒體,其中組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該未來位置包括基於深度對該前景物件及分類為背景之該等像素進行分層。
  20. 如請求項11之非暫時性電腦可讀儲存媒體,其中組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該等未來位置包括應用一機器學習模型來產生該環境之該未來全景分割。
  21. 一種方法,其包括: 接收圍繞一車輛之一環境之視訊資料,該視訊資料包括由安裝於該車輛上之一攝影機捕捉之圖框; 將該等圖框之像素分類為前景與背景; 自分類為前景之該等像素識別一前景物件; 應用一前景運動模型以基於該等圖框中之該前景物件之位置來預測一未來時間戳記處之該前景物件之一未來位置; 將一背景運動模型應用於分類為背景之該等像素以基於該等圖框中之估計深度而預測分類為背景之該等像素之該未來時間戳記處之未來位置; 藉由組合該未來時間戳記處之該前景物件之該未來位置及該未來時間戳記處之分類為背景之該等像素之該等未來位置而產生該環境之一未來全景分割; 基於該未來全景分割而產生用於導航該環境中之該車輛之控制信號。
TW111113142A 2021-04-06 2022-04-06 用於擴增實境之全景分割預測 TW202304578A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163171575P 2021-04-06 2021-04-06
US63/171,575 2021-04-06

Publications (1)

Publication Number Publication Date
TW202304578A true TW202304578A (zh) 2023-02-01

Family

ID=83450448

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111113142A TW202304578A (zh) 2021-04-06 2022-04-06 用於擴增實境之全景分割預測

Country Status (7)

Country Link
US (1) US20220319016A1 (zh)
JP (1) JP2024515248A (zh)
KR (1) KR20240005727A (zh)
AU (1) AU2022254531A1 (zh)
CA (1) CA3216181A1 (zh)
TW (1) TW202304578A (zh)
WO (1) WO2022215006A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230206632A1 (en) * 2021-12-23 2023-06-29 Yahoo Ad Tech Llc Computerized system and method for fine-grained video frame classification and content creation therefrom

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656618B1 (ko) * 2015-01-15 2016-09-09 한양대학교 산학협력단 물리 객체에 대한 증강 현실 제공 방법 및 장치
KR102067823B1 (ko) * 2017-11-27 2020-01-17 한국전자통신연구원 비디오 영상기반 2d/3d ar 실감체험 방법 및 장치

Also Published As

Publication number Publication date
AU2022254531A1 (en) 2023-11-23
KR20240005727A (ko) 2024-01-12
CA3216181A1 (en) 2022-10-13
US20220319016A1 (en) 2022-10-06
JP2024515248A (ja) 2024-04-08
WO2022215006A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
TWI839513B (zh) 用於利用深度提示之深度預估模型之自我監督訓練之電腦實施之方法及非暫時性電腦可讀儲存媒體
US20220189060A1 (en) Visual Camera Re-Localization using Graph Neural Networks and Relative Pose Supervision
TW202238068A (zh) 自監督多圖框單眼深度估計模型
US20230196690A1 (en) High-Speed Real-Time Scene Reconstruction from Input Image Data
US20240216809A1 (en) Refining Camera Re-Localization Determination Using Prior Pose Model
TWI797571B (zh) 用於自單一影像判定可遍歷空間之電腦實施方法及電腦可讀儲存媒體
US20220319016A1 (en) Panoptic segmentation forecasting for augmented reality
US20240185478A1 (en) Virtual Occlusion Mask Prediction Through Implicit Depth Estimation
US12039665B2 (en) Simulated consistency check for points of interest on three-dimensional maps
AU2022412069A1 (en) High-speed real-time scene reconstruction from input image data