TW202332267A

TW202332267A - 具有基於機器學習的寬視野立體視圖合成的顯示系統

Info

Publication number: TW202332267A
Application number: TW111146196A
Authority: TW
Inventors: 道格拉斯羅伯特藍曼; 沙拿艾丁諾尼; 喬爾黑格蘭; 肖磊
Original assignee: 美商元平台技術有限公司
Priority date: 2022-01-26
Filing date: 2022-12-01
Publication date: 2023-08-01
Also published as: WO2023146882A1

Abstract

根據實例，一種顯示系統可包括一頭戴式顯示器（HMD）頭戴式套件。該HMD可包含在該HMD之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機。該至少一個面向外的RGB相機可收集影像以用於視圖合成。該HMD可包括一處理器及儲存指令之一記憶體，該等指令在由該處理器執行時使得該處理器根據包含以下各者中之至少一者的一基於機器學習（ML）之技術來提供視圖合成：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。

Description

具有基於機器學習的寬視野立體視圖合成的顯示系統

本專利申請案大體上係關於顯示系統，且更具體而言，係關於在各種人工環境中具有基於機器學習（machine learning；ML）的寬視野（field of view；FOV）立體視圖合成的顯示系統。相關申請案之交互參考

本專利申請案主張2022年1月26日申請之美國臨時專利申請案第63/303,371號及2022年11月3日申請之美國非臨時專利申請案第17/980,342號的權益；以上申請案之揭示內容出於所有目的特此以引用之方式併入。

隨著最近技術的進步，內容創建及交付的流行以及擴散近年來大大增加。詳言之，交互式內容，諸如虛擬實境（virtual reality；VR）內容、擴增實境（augmented reality；AR）內容、混合實境（mixed reality；MR）內容以及真實及/或虛擬環境（例如，「元宇宙（metaverse）」）內且與其相關聯之內容，已經變得對消費者有吸引力。

為了促進此及其他相關內容之遞送，服務提供商已努力提供各種形式的可佩戴式顯示系統。一個此類實例可為頭戴式裝置（head-mounted device；HMD），諸如可佩戴式頭戴式套件、可佩戴式眼用佩戴品，或眼鏡。在一些實例中，頭戴式裝置（HMD）可使用第一投影儀及第二投影儀來導引分別與第一影像及第二影像相關聯的光通過每一各別透鏡處的一或多個中間光學組件，以產生「雙眼」或「立體」視覺以供使用者觀看。

本發明提供一種顯示系統，其包含：一頭戴式顯示器（HMD）頭戴式套件，其包含：在該HMD之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機，其中該至少一個面向外的RGB相機收集影像以用於視圖合成；一處理器；及一記憶體，其儲存指令，該等指令在由該處理器執行時使得該處理器根據一基於機器學習（ML）的技術提供視圖合成，該技術包含以下各者中之至少一者：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。

本發明提供一種方法，其包含：從在一頭戴式顯示器（HMD）之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機收集影像以用於視圖合成；及根據包含以下各者中之至少一者的一基於機器學習（ML）之技術來提供視圖合成：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。

本發明提供一種其上儲存有一可執行碼之非暫時性電腦可讀儲存媒體，該可執行碼在執行時指示一處理器進行以下操作：從在一頭戴式顯示器（HMD）之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機收集影像以用於視圖合成；及根據包含以下各者中之至少一者的一基於機器學習（ML）之技術來提供視圖合成：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。

出於簡單及說明性目的，藉由主要參考本申請案之實例來描述本申請案。在以下描述中，闡述了眾多特定細節，以便提供對本申請案之透徹理解。然而，將容易地顯而易見，可在不限於此等特定細節之情況下實踐本申請案。在其他情況下，尚未詳細描述所屬技術領域中具有通常知識者易於理解之一些方法及結構，以免不必要地混淆本申請案。如本文中所使用，術語「一（a及an）」意欲表示特定部件中之至少一者，術語「包括（includes）」意謂包括但不限於，術語「包括（including）」意謂包括但不限於，並且術語「基於」意謂至少部分地基於。

諸如基於VR的頭戴式裝置及/或眼用佩戴品裝置之一些顯示系統提供沉浸式立體視覺體驗。然而，在此等顯示器中，此可能以阻擋使用者直接觀測其實體環境為代價。因此，可提供透通技術以藉由利用面向外的相機來解決此限制，該等相機可用於重構在無頭戴式套件之情況下原本將由使用者看到的影像。此可提供即時視圖合成挑戰，此係由於透通相機無法與使用者之眼睛實體上共置。

現有透通技術可能遭受任何數目個缺點。舉例而言，一些透通技術可導致很大程度上歸因於缺少準確深度資訊（尤其對於近場及去遮擋物件）之分散注意力的重構假影，或亦可能展現有限影像品質（例如為低解析度及單色的）。

本文中所描述之系統及方法可提供習得之透通技術以使用顯現之外部成像提供虛擬世界之更沉浸式體驗。具體而言，本文中所描述之系統及方法可使用硬體/機械組態連同基於機器學習（ML）的技術來改良影像重構品質。此等基於ML的技術可有助於：深度估計、成像銳化、前向拼接、去遮擋濾波及/或融合。因此，本文中所描述之系統及方法可提供高解析度影像品質，同時滿足對於寬視野上的即時、透視正確的立體視圖合成的嚴格VR應用要求。

圖1繪示根據一實例之包括近眼顯示器之人工實境系統環境100的方塊圖。如本文中所使用，「近眼顯示器」可指可緊靠著使用者之眼睛的裝置（例如，光學裝置）。如本文中所使用，「人工實境」可指「元宇宙」或真實及虛擬元件之環境之態樣等等，且可包括與虛擬實境（virtual reality；VR）、擴增實境（augmented reality；AR）及/或混合實境（mixed reality；MR）相關聯之科技的使用。如本文中所使用，「使用者」可指「近眼顯示器」之使用者或佩戴者。

如圖1中所展示，人工實境系統環境100可包括近眼顯示器120、視情況選用的外部成像裝置150及視情況選用的輸入/輸出介面140，其中之各者可耦接至控制台110。在一些情況下，控制台110可為視情況選用的，此係因為控制台110之功能可經整合至近眼顯示器120中。在一些實例中，近眼顯示器120可為向使用者呈現內容之頭戴式顯示器（HMD）。

在一些情況下，對於近眼顯示系統，通常可能需要擴展視窗、減小顯示混濁度、提高影像品質（例如，解析度及對比度）、減小實體大小、增加功率效率，及增加或擴展視野（FOV）。如本文中所使用，「視野」（FOV）可指如由使用者所見之影像的角度範圍，其典型地以度為單位來量測，如由單眼（對於單目HMD）或雙眼（對於雙目HMD）所觀測。又，如本文中所使用，「視窗」可為可定位於使用者之眼睛前方的二維框，自其可觀看到來自影像源之經顯示影像。

在一些實例中，在近眼顯示系統中，來自周圍環境之光可橫穿波導顯示器之「透視」區（例如，透明基板），以達到使用者之眼睛。舉例而言，在近眼顯示系統中，經投影影像之光可耦合至波導之透明基板中，在波導內傳播，且在一或多個方位處經耦合或引導出波導，以複製出射光瞳且擴展視窗。

在一些實例中，近眼顯示器120可包括一或多個剛性本體，該一或多個剛性本體可剛性地或非剛性地彼此耦接。在一些實例中，剛性本體之間的剛性耦接可使得經耦接剛性本體充當單個剛性實體，而在其他實例中，剛性本體之間的非剛性耦接可允許剛性本體相對於彼此移動。

在一些實例中，近眼顯示器120可以任何合適之外觀尺寸來實施，包括HMD、一副眼鏡或其他類似的可佩戴式眼用佩戴品或裝置。下文關於圖2及圖3進一步描述近眼顯示器120之實例。另外，在一些實例中，本文中所描述之功能性可用於HMD或頭戴式套件中，該HMD或頭戴裝置可組合在近眼顯示器120外部之環境之影像與人工實境內容（例如，電腦產生之影像）。因此，在一些實例中，近眼顯示器120可運用生成的及/或覆蓋的數位內容（例如，影像、視訊、聲音等）來增強在近眼顯示器120外部之實體、真實世界環境的影像，以向使用者呈現擴增實境。

在一些實例中，近眼顯示器120可包括任何數目個顯示電子件122、顯示光學件124及眼動追蹤單元130。在一些實例中，近眼顯示器120亦可包括一或多個定位器126、一或多個位置感測器128及慣性量測單元（inertial measurement unit；IMU）132。在一些實例中，近眼顯示器120可省略眼動追蹤單元130、一或多個定位器126、一或多個位置感測器128及慣性量測單元（IMU）132中之任一者，或可包括額外元件。

在一些實例中，顯示電子件122可根據自例如視情況選用的控制台110接收之資料向使用者顯示影像或促進向使用者顯示影像。在一些實例中，顯示電子件122可包括一或多個顯示面板。在一些實例中，顯示電子件122可包括任何數目個像素以發射具有諸如紅色、綠色、藍色、白色或黃色之主要色彩的光。在一些實例中，顯示電子件122可例如使用藉由二維面板產生之立體效應來顯示三維（three-dimensional；3D）影像，以產生對影像深度之主觀感知。

在一些實例中，顯示光學件124可以光學方式顯示影像內容（例如，使用光波導及/或耦合器），或放大自顯示電子件122接收到之影像光，校正與該影像光相關聯之光學誤差，及/或向近眼顯示器120之使用者呈現經校正之影像光。在一些實例中，顯示光學件124可包括單個光學元件或各種光學元件之任何數目個組合以及機械耦接件，以維持該組合中之光學元件之相對間隔及位向。在一些實例中，顯示光學件124中之一或多個光學元件可具有光學塗層，諸如抗反射塗層、反射塗層、濾光塗層，及/或不同光學塗層之組合。

在一些實例中，顯示光學件124亦可經設計以校正一或多種類型之光學誤差，諸如二維光學誤差、三維光學誤差或其任何組合。二維誤差之實例可包括桶形失真、針墊失真、縱向色像差，及/或橫向色像差。三維誤差之實例可包括球面像差、色像差場曲率，及像散。

在一些實例中，一或多個定位器126可為相對於彼此且相對於近眼顯示器120上之參考點定位於特定位置中之物件。在一些實例中，視情況選用的控制台110可識別由視情況選用的外部成像裝置150擷取之影像中的一或多個定位器126，以判定人工實境頭戴裝置之位置、位向或兩者。一或多個定位器126可各自為發光二極體（light-emitting diode；LED）、角隅反射器、反射標記、與供近眼顯示器120操作之環境形成對比的一種類型的光源，或其任何組合。

在一些實例中，外部成像裝置150可包括一或多個相機、一或多個視訊相機、能夠擷取包括一或多個定位器126之影像的任何其他裝置，或其任何組合。視情況選用的外部成像裝置150可經組態以在視情況選用的外部成像裝置150之視野中偵測自一或多個定位器126發射或反射之光。

在一些實例中，一或多個位置感測器128可回應於近眼顯示器120之運動而產生一或多個量測信號。一或多個位置感測器128之實例可包括任何數目個加速計、迴轉儀、磁力計及/或其他運動偵測或錯誤校正感測器，或其任何組合。

在一些實例中，慣性量測單元（IMU）132可為電子裝置，其基於自一或多個位置感測器128接收之量測信號產生快速校準資料。一或多個位置感測器128可位於慣性量測單元（IMU）132外部、位於慣性量測單元（IMU）132內部，或其任何組合。基於來自一或多個位置感測器128之一或多個量測信號，慣性量測單元（IMU）132可產生快速校準資料，其指示近眼顯示器120之可相對於近眼顯示器120之初始位置的經估計位置。舉例而言，慣性量測單元（IMU）132可隨時間推移對自加速計接收之量測信號進行積分以估計速度向量，且隨時間推移對速度向量進行積分以判定近眼顯示器120上之參考點的經估計位置。或者，慣性量測單元（IMU）132可將經取樣量測信號提供至視情況選用的控制台110，從而可判定快速校準資料。

眼動追蹤單元130可包括一或多個眼動追蹤系統。如本文中所使用，「眼動追蹤」可指判定眼睛之位置或相對位置，包括使用者眼睛之位向、方位及/或凝視。在一些實例中，眼動追蹤系統可包括擷取眼睛之一或多個影像之成像系統，且可視情況包括光發射器，該光發射器可產生光，該光經引導至眼睛，使得由眼睛反射之光可由成像系統捕捉。在其他實例中，眼動追蹤單元130可捕捉由微型雷達單元發射之經反射無線電波。與眼睛相關聯之此等資料可用於判定或預測眼睛位置、位向、移動、方位及/或凝視。

在一些實例中，近眼顯示器120可使用眼睛之位向以引入深度提示（例如，使用者的主要視線外部之模糊影像），收集關於虛擬實境（virtual reality；VR）媒體中之使用者交互的啟發（例如，隨經曝露刺激而變之花費在任一特定對象、物件或圖框上之時間）、部分地基於使用者之眼睛中之至少一者的位向之一些其他功能，或其任何組合。在一些實例中，因為可針對使用者之兩個眼睛判定位向，所以眼動追蹤單元130可能夠判定使用者正看向哪裡或預測任何使用者模式等。

在一些實例中，輸入/輸出介面140可為允許使用者將動作請求發送至視情況選用的控制台110之裝置。如本文中所使用，「動作請求」可為執行特定動作之請求。舉例而言，動作請求可為開始或結束應用程式或進行該應用程式內之特定動作。輸入/輸出介面140可包括一或多個輸入裝置。實例輸入裝置可包括鍵盤、滑鼠、遊戲控制器、手套、按鈕、觸控螢幕，或用於接收動作請求且將所接收動作請求傳達至視情況選用的控制台110的任何其他合適裝置。在一些實例中，藉由輸入/輸出介面140接收之動作請求可經傳達至視情況選用的控制台110，從而可執行對應於經請求動作之動作。

在一些實例中，視情況選用的控制台110可根據自外部成像裝置150、近眼顯示器120及輸入/輸出介面140中之一或多者接收之資訊將內容提供至近眼顯示器120以供呈現給使用者。舉例而言，在圖1中所展示之實例中，視情況選用的控制台110可包括應用程式商店112、頭戴式套件追蹤模組114、虛擬實境引擎116，及眼動追蹤模組118。相比於結合圖1所描述之模組，視情況選用的控制台110之一些實例可包括不同或額外模組。下文進一步所描述之功能可以與此處所描述之方式不同的方式分佈在視情況選用的控制台110之組件當中。

在一些實例中，視情況選用的控制台110可包括處理器及儲存可由該處理器執行之指令的非暫時性電腦可讀儲存媒體。處理器可包括多個同時執行指令之處理單元。非暫時性電腦可讀儲存媒體可為任何記憶體，諸如硬碟機、抽取式記憶體或固態硬碟（例如，快閃記憶體或動態隨機存取記憶體（DRAM））。在一些實例中，結合圖1描述之視情況選用的控制台110之模組可經編碼為非暫時性電腦可讀儲存媒體中之指令，該等指令在由處理器執行時使得該處理器執行下文進一步所描述之功能。應瞭解，可或可不需要光學控制台110，或視情況選用的控制台110可與近眼顯示器120整合或分離。

在一些實例中，應用程式商店112可儲存用於供視情況選用的控制台110執行之一或多個應用程式。應用程式可包括在由處理器執行時生成內容以呈現給使用者之一組指令。應用程式之實例可包括遊戲應用程式、會議應用程式、視訊播放應用程式或其他合適之應用程式。

在一些實例中，頭戴式套件追蹤模組114可使用來自外部成像裝置150之緩慢校準資訊來追蹤近眼顯示器120之移動。舉例而言，頭戴式套件追蹤模組114可使用來自慢速校準資訊之觀測到之定位器及近眼顯示器120之模型來判定近眼顯示器120之參考點的位置。另外，在一些實例中，頭戴式套件追蹤模組114可使用快速校準資訊、緩慢校準資訊或其任何組合之部分，以預測近眼顯示器120之未來方位。在一些實例中，頭戴式套件追蹤模組114可將近眼顯示器120之經估計或經預測未來位置提供至虛擬實境引擎116。

在一些實例中，虛擬實境引擎116可執行人工實境系統環境100內之應用程式，且自頭戴式套件追蹤模組114接收近眼顯示器120之位置資訊、近眼顯示器120之加速度資訊、近眼顯示器120之速度資訊、近眼顯示器120之經預測未來位置，或其任何組合。在一些實例中，虛擬實境引擎116亦可自眼動追蹤模組118接收經估計眼睛位置及位向資訊。基於所接收資訊，虛擬實境引擎116可判定要提供至近眼顯示器120以供呈現給使用者之內容。

在一些實例中，眼動追蹤模組118可自眼動追蹤單元130接收眼動追蹤資料，且基於眼動追蹤資料判定使用者眼睛之位置。在一些實例中，眼睛之位置可包括眼睛相對於近眼顯示器120或其任何元件之位向、方位或兩者。因此，在此等實例中，因為眼睛之旋轉軸線隨眼睛在其眼窩中之方位而改變，所以判定眼睛在其眼窩中之方位可允許眼動追蹤模組118更準確地判定眼睛之定向。

在一些實例中，顯示系統之投影儀之方位可經調節以實現任何數目個設計修改。舉例而言，在一些情況下，投影儀可位於觀看者之眼睛前方（亦即，「前置安裝」置放）。在前置安裝置放中，在一些實例中，顯示系統之投影儀可定位成遠離使用者之眼睛（亦即，「世界側」）。在一些實例中，頭戴式顯示器（HMD）裝置可利用前置安裝置放以將光朝向使用者之眼睛傳播，以投射影像。

圖2繪示根據一實例之呈頭戴式顯示器（HMD）裝置200之形式的近眼顯示器之透視圖。在一些實例中，HMD裝置200可為虛擬實境（VR）系統、擴增實境（AR）系統、混合實境（MR）系統、使用顯示器或可佩戴裝置之另一系統或其任何組合之一部分。在一些實例中，HMD裝置200可包括本體220及頭部綁帶230。圖2在透視圖中展示本體220之底側223、前側225及左側227。在一些實例中，HMD裝置200亦可包括在頂部/底部/左/右/前外部的外部相機，諸如右下相機228、左上相機229及前置相機231，如所展示。在一些實例中，頭部綁帶230可具有可調整或可延伸長度。詳言之，在一些實例中，在本體220與HMD裝置200之頭部綁帶230之間可存在足夠的空間，以允許使用者將HMD裝置200安裝至使用者的頭部上。在一些實例中，HMD裝置200可包括額外、較少及/或不同組件。

在一些實例中，HMD裝置200可向使用者呈現媒體或其他數位內容，其包括具有電腦產生之元素之實體、真實世界環境的虛擬及/或擴增視圖。由HMD裝置200呈現之媒體或數位內容的實例可包括影像（例如，二維（2D）或三維（3D）影像）、視訊（例如，2D或3D視訊）、音訊，或其任何組合。在一些實例中，影像及視訊可藉由經圍封在HMD裝置200之本體220中之一或多個顯示總成（圖2中未展示）呈現給使用者之各眼睛。

在一些實例中，HMD裝置200可包括各種感測器（圖中未示），諸如深度感測器、運動感測器、位置感測器及/或眼動追蹤感測器。此等感測器中之一些可出於感測目的使用任何數目個結構化或非結構化光圖案。在一些實例中，HMD裝置200可包括用於與控制台110通信之輸入/輸出介面140，如關於圖1所描述。在一些實例中，HMD裝置200可包括虛擬實境引擎（圖中未示），但類似於關於圖1所描述之虛擬實境引擎116，其可在HMD裝置200內執行應用程式，且自各種感測器接收HMD裝置200之深度資訊、位置資訊、加速度資訊、速度資訊、經預測未來位置或其任何組合。

在一些實例中，由虛擬實境引擎116接收之資訊可用於產生至一或多個顯示總成之信號（例如，顯示指令）。在一些實例中，HMD裝置200可包括定位器（圖中未示），但類似於圖1中所描述之虛擬定位器126，其可相對於彼此且相對於參考點定位於HMD裝置200之本體220上之固定位置中。該等定位器中之每一者可發射光，該光可由外部成像裝置偵測。此對於頭部追蹤或其他移動/位向之目的可能適用。應瞭解，除了此類定位器之外或代替此類定位器，亦可使用其他元件或組件。

應瞭解，在一些實例中，安裝於顯示系統中之投影儀可置放成靠近及/或更接近於使用者之眼睛（亦即，「眼睛側」）。在一些實例中，且如本文中所論述，用於形狀像眼鏡之顯示系統之投影儀可安裝或定位於眼鏡之鏡腿中（亦即，透鏡側之頂部遠角）。應瞭解，在一些情況下，利用後置安裝之投影儀置放可幫助縮減顯示系統所需之任何所需外殼的大小或體積，此亦可促使顯著改善使用者的使用者體驗。

如上文所提及，虛擬實境（VR）頭戴式顯示器（HMD）可使用一對近眼顯示器來提供幾乎完全之視覺沉浸，以產生寬視野立體影像。然而，此沉浸以自使用者實體環境之視覺隔離為代價出現。應瞭解，按照定義，VR顯示器阻斷來自外部世界之光。然而，對於某些應用，附近環境之直觀視圖可為必需的。為此目的，擴增實境（AR）可使用近眼顯示器支援光學透視。然而，不同於阻擋光VR，現代AR顯示器仍可僅達成有限視野。因此，已經提出視訊透視VR作為潛在解決方案，且特定言之，使用任何數目的透通技術來變換由面向外的相機收集之影像以使得使用者能夠在佩戴VR頭戴式套件時看見其環境。

應瞭解，VR「透通」系統可能實際上不直接穿過任何事情（例如，光）。實情為，此等系統可藉由重新投影影像/視訊以在使用者之視角觀之如同其穿過且被捕捉一般而達成此「透通」效應。值得注意的是，此常常可為近似得出，其中研究建立眼部視差之值（亦即，更新重構以追蹤使用者之不斷移動的瞳孔）。雖然瞳孔追蹤之透通可為最終目標，但當前最新技術可將相機資料重新投影至眼睛之標稱固定位置，同時接受由行動裝置之計算限制產生的其他偽影。

即時（或接近即時）視圖合成處於達成引人注目的透通體驗之核心。亦即，虛擬實境（VR）頭戴式套件典型地可能並未經裝備以支援任何數目個傳統透通技術。舉例而言，商業VR顯示器可為立體的且以每秒72至144個圖框再新，支援寬視野（＞90度，在水平上），且可達成高解析度（＞15像素/度）。對於VR透通，典型情形可涉及使用者用其自身的手操縱近場物件並觀測動態環境，從而歸因於去遮擋而導致具有遺漏資料之大區域，且防止自先前觀測進行離線重構。

給定此等演算法挑戰，頭戴式套件設計者及製造商可藉由儘可能接近於使用者之眼睛置放相機而輔助透通，從而令演算法僅進行適度改變。圖3繪示根據一實例之呈具有透通相機之頭戴式顯示器（HMD）裝置之形式的近眼顯示器之俯視圖。然而，如圖3中所示，相機可僅僅並不精確地與使用者之眼睛共置。其可為若干公分遠，從而產生顯著視點差異。

因此，本文所描述之系統及方法可提供解決方案以最佳化最小透通架構之效能。在一些實例中，此可涉及一些機械重組態，諸如將一對立體RGB相機置放於VR頭戴式套件之前方（如圖2中所展示），從而識別出此類最小組態提供硬體大小、重量及功率與透通演算法之計算額外負擔之間的實際權衡。然而，當相機之最佳置放被視為與本文中所描述的基於機器學習（ML）的透通演算法合作工作時，相機基線可經調整以減輕重新投影假影並改良總體影像品質/解析度。

換言之，本文中所描述之系統及方法可提供用於自立體輸入之即時（或接近即時）立體視圖合成且同時最小化或消除習知系統及技術之限制的高效、高品質技術。使用此處所描述之方法，系統及方法可充分利用深度學習之最新發展，從而解決透通作為基於影像之神經顯現問題。此外，藉由應用習得之立體深度估計及影像重構網路來經由端對端方法產生眼睛視點影像，系統及方法亦可經組態以與任何數目個過去、目前及未來行動VR計算資源及要求相容。

系統及方法可提供機械組態，其包括可調整立體相機基線、最佳化其建構以用於評估符合VR透通要求之視圖合成方法。此外，本文所描述之系統及方法可分析相機置放對VR透通影像品質之影響。為進行此操作，可藉由採用比使用者之瞳孔間距離（interpupillary distance；IPD）更寬的相機基線來減輕關鍵去遮擋。另外，系統及方法可提供經調適用於即時VR透通，同時抑制關鍵假影且達成較高影像品質的習得視圖合成方法、技術或途徑。

如所論述，系統及方法可提供經調適用於使用以下各者實現即時VR透通的習得視圖合成：（1）包括可調整的立體相機基線之機械組態；及（2）基於機器學習（ML）技術的演算法。

關於（1），例示性硬體組態可包括立體RGB相機作為至透通系統之輸入。值得注意的是，硬體設計可涉及關於在頭戴式套件上置放立體相機之最佳化。應瞭解，此處理想目標可為最大化藉由立體相機自3D場景捕捉的重構目標新穎視圖影像所必要的資訊。換言之，相機之置放可最小化任何數目個去遮擋區。如本文中所使用，去遮擋可指將在目標新穎視圖中可見但在輸入視圖中「被遮擋」且因此無法藉由視圖合成如實復原的一或多個點（例如，3D點）。

圖4繪示根據一實例之呈具有透通相機及去遮擋之頭戴式顯示器（HMD）裝置之形式的近眼顯示器之俯視圖。此處，立體相機可作為頭戴式套件之部分可用，且其可位於例如與眼睛相同之平面處，類似於圖2中所展示者。在此特定實例中，兩個相機可平行面前向，且可在其前表面上保持關於HMD之中心軸線對稱。在此類約束條件下，相機置放之自由參數可減少至每一相機與其對應眼睛之間的水平偏移 α。直觀地， α可設定成0以便最小化輸入與目標視點之間的距離以用於使視圖合成難度變容易。然而，在一些實例中， α亦可在一定程度上增大以減少去遮擋，且因此促進新穎視圖重構。

如圖4中所示，去遮擋可歸因於相機與眼睛之間的視點差異而出現在目標視圖中。去遮擋區之大小 β可經導出，如以下等式（1）中所示：其中 φ指示該相機與眼睛之間在深度軸線（大致為HMD厚度）上的距離，及分別表示靠近遮擋物與背景之深度（＜），且 θϵ [0, ）量測旨在消除去遮擋之角度區。應瞭解，在立體相機約束下，僅水平去遮擋可得以減少/消除。

自等式（1），當時，去遮擋 β可能消失。給定 ρ作為目標IPD，所需最小立體聲相機基線可變成：。

自等式（1），減小HMD厚度 φ可減少去遮擋 β。此可表明透通問題可受益於將來更緊密之頭戴式套件設計。另外，當前景物件較接近時，去遮擋 β亦可增加。

應瞭解，在一些實例中，立體相機可置放於線性平移台上，以允許可組態相機基線用於研究探索目的。在一些實例中，所支援相機基線可在5.4 cm至10 cm之範圍內。在一些實例中，相機基線可設定成10 cm。此值可支援 θ= 25°角度區，其中對於經取樣IPD ρ= 6 cm，該去遮擋實質上被消除，或等效地，對於 ρ= 7 cm， θ= 18°在一些實例中，相機與眼睛之間在深度軸線上之距離亦可為 φ= 9.3 cm。應注意，RGB相機可在720p分辨率及90°視野（FOV）下以30Hz運轉。

關於（2），可提供基於機器學習（ML）之演算法以幫助解決透通作為每圖框基於影像之顯現問題，從而採用立體彩色相機影像作為輸入且在目標眼睛視圖處產生立體影像。

圖5繪示根據一實例的用於基於機器學習（ML）的立體視圖合成之技術的流程圖。在高層級處，技術可表示具有2D色彩及深度（RGBD）影像之場景。可藉由基於深度學習之視差估計在輸入視圖中之每一者處估計深度圖，下文更詳細地描述。兩個輸入視圖之RGB-D像素可接著拼接至每一目標視圖（下文更詳細地描述），之後饋入至神經網路用於最終視圖重構（亦在下文更詳細地描述）。為減少歸因於深度在其不連續性處之模糊度的拼接假影（例如，飛行像素），技術可在拼接之前對每一輸入視圖（下文更詳細地描述）處之RGD進行濾波。技術可進一步處理以在將其傳遞至最終重構之前減少在下文更詳細地描述之拼接RGB中的去遮擋假影。

關於深度估計，可在每一圖框處糾正輸入有色對，從而減小自2D對應關係匹配至更高效1D匹配解決方案之視差估計。具體而言，可利用並提供基於神經網路之途徑以產生較高品質深度圖。此外，可提供RAFT立體演算法或其他類似演算法以估計立體輸入視圖中之每一者處的視差圖，該視差圖接著可使用預校準參數轉換為深度圖。出於明晰之目的，該過程在等式（2）中給出：其中分別地，及表示經糾正左輸入影像及經糾正右輸入影像，及表示左視圖及右視圖處的輸出深度圖，stereo_depth表示深度估計演算法，且flip表示在水平上翻轉該影像之運算符。翻轉操作可滿足藉由立體深度估計推斷對視差值之預期正負號的要求。應注意，深度可以屈光度單位（亦即，逆深度）計。

圖6A至圖6G繪示根據一實例之具有或不具有基於機器學習（ML）的立體視圖合成的各種比較影像。圖6A展示立體輸入視圖處之實例估計深度，其很好地近似得出實況深度。對於僅在輸入視圖中之一者中可見的區，深度估計網路仍可由相鄰像素及在訓練時習得之單眼深度線索及多平面影像（multi-plane image；MPI）中之平面掃掠體積途徑產生合理的結果。此可為可在每一輸入視圖處估計深度之原因中之一者，此係由於兩個深度圖提供場景幾何構型之補充資訊。如所示，估計深度可很好地近似得出參考。此處之箭頭可突出顯示僅在立體輸入視圖中之一者中可見但自單眼深度線索估計合理之深度的實例區。

相對於RGB-D銳化，估計之深度圖可與對應色彩影像在視覺上很好地對準。然而，若其直接用於視圖重新投影，則飛行像素可能歸因於深度不連續處之深度不明確性而出現在經重新投影影像中之經去遮擋區處，如圖6B中所展示。此處，可展示在相對於無RGB-D銳化之情況下在目標視圖處的拼接影像。應瞭解，銳化處理可顯著地減少經去遮擋區中之飛行像素。

為減少問題，彩色影像及估計之深度圖可在深度不連續性處銳化。具體而言，可偵測深度邊緣，且接著邊緣像素之RGB-D值可設定成其最接近、非邊緣像素。

吾人之RGB-D銳化之另一益處為，其可幫助在拼接影像空間中產生清潔深度，此對於進行去遮擋濾波以恰當地工作係重要的。

關於前向拼接，可在每一目標眼視圖處運用神經網路自輸入立體視圖處之色彩及深度重構彩色影像。為了減少神經網路之所需感受場，使每一輸入視圖翹曲至目標視圖。由於在輸入視圖處估計深度，因此可使用前向翹曲。相比於其對應後向翹曲，前向翹曲歸因於去遮擋而可能引入孔洞，且歸因於新引入之遮擋，多個源像素可映射至翹曲影像空間中之同一像素。兩種情況皆可常常出現在透通問題中。因此，首先聚焦於由新近引入之遮擋導致的問題，且分別解決去遮擋孔洞可為有幫助的。

在一些實例中，估計深度可在每一輸入視圖處獲得，從而提供3D點之可視性線索。儘管可使用任何數目個拼接技術，但系統及方法可使用softmax拼接技術，其亦可用於視訊圖框內插。此技術可將映射至同一目標像素之像素摻合，其中像素重要性權重定義為遮擋之量度。此處，可將重要性權重w定義為估計深度d之函數，如下文等式（3）中給出：其中d min及d max為深度圖d之最小值及最大值，且選擇啟發式常數以將權重映射至在吾人的實驗中起良好作用之範圍[4, 40]。在翹曲影像空間中，度量w將較高權重指派給較接近相機之源像素。吾人分別將來自輸入立體視圖之前向拼接色彩及深度表示為、、及。

關於去遮擋濾波，如上文所論述，歸因於去遮擋，目標視圖處之拼接影像典型地可含有孔洞，如上文所論述，如圖6C中所示。此處，可展示一個眼睛視圖之實例中間變數及重構。箭頭指向完全去遮擋孔洞之實例。為了提供去遮擋濾波，去遮擋孔洞可劃分成兩個類別且接著單獨地處理，例如：部分去遮擋，其界定為出現在拼接影像或中之僅一者中的孔洞區；或完全去遮擋，其界定為出現在及兩者中的孔洞區。

部分去遮擋可例如藉由摻合c 與c 而移除其中逐像素掩碼及界定於拼接深度及上，如在以下等式（5）中。其中 = 0.1，且m , 指示拼接深度d , 中之零值像素。圖6C中展示實例。

然而，完全去遮擋可能並不如實復原，此係因為輸入立體影像不含有彼等區之資訊。本文所描述之系統及方法可提供深度輔助之各向異性低通濾波器以產生視覺上更穩定之結果。藉由觀察去遮擋區應為背景物件而非前景遮擋物，技術可藉由局部鄰域中之僅相對較遠物件之平滑色彩填充經去遮擋像素，如等式（6）及演算法1中給出，其展示於下：演算法 1 輸入：彩色影像、、深度、遮擋掩碼、內核k 輸出：經濾波彩色影像c* for每一像素i do if 為0 then else , , c _acc , w _acc = MAX, MIN, 0, 0 for局部鄰域 N _i 中之每一像素j， do if ＞ 0.01 then , , for局部鄰域 N _i 中之每一像素j do if ＞ 0.01 and ＜ then w _acc += k（ i, j） if w _acc＞ 0 then c* （ i ） = c _acc/w _acc else 其中表示哈達瑪（Hadamard）乘積。逐像素掩碼指示完全去遮擋像素，k指示低通濾波器內核，且可使用具有大小29×29及標準偏差7像素的零平均2D高斯濾波器。

如本文所描述之部分及完全去遮擋濾波之一個益處可藉由比較測試結果來說明，如下表2中所示：表 2

	PSNR↑	SSIM↑	STRRED↓
MPI	27.38	0.8818	105.74
吾人	30.74	0.9579	51.78
吾人（不具有等式7）	28.66	0.9475	95.33
吾人（不具有等式5、不具有等式7）	29.02	0.9456	99.33

關於融合，來自兩個立體視圖之經濾波色彩可接著饋入至神經網路以供在目標眼視圖處最終重構，如如下等式（7）中所指示：其中 f usion網路為具有跳過連接之輕量U網，其中其具體架構在表1中給出，如下文所示。表 1

層	輸入張量	輸入/輸出通道
conv0	concat（ , ）	6/16
conv1	conv0	16/16
conv2	down（convl）	16/32
conv3	conv2	32/32
conv4	down（conv3）	32/64
conv5	conv4	64/64
conv6	concat（up（conv5）, conv））	96/32
conv7	layer6	32/32
conv8	concat（up（conv7）, convl）	48/16
conv9	conv8	16/16
conv10	conv9	16/3

應瞭解，融合網路可針對兩個目標眼睛視圖中的每一者執行一次，如圖5中所說明。在一些實例中，融合可為必要的（除其他之外），以進一步減少、中之再投影誤差及混疊假影。

關於訓練由本文中所描述之系統及方法提供的基於機器學習（ML）的技術，可使用任何數目之訓練損失函數。舉例而言，用於本文中所描述之實例的訓練損失函數可界定如下：其中 ssim為逐像素結構類似性索引量測[Wang等人2004]。吾人應用掩碼（1 - ）來自損失排除完全去遮擋區，以防止彼等區處之學習修復（其可能導致不一致的左/右完成，其轉而可使使用者體驗在立體顯示器中觀察時惡化）。立體深度網路可在訓練時重新使用具有凍結權重之經預先訓練之RAFT-立體模型。方法/技術可在類似於隨機場景技術之合成資料集上訓練，該等隨機場景技術在一些實例中可含有80個場景，且每一場景含有具有在不同視點顯現之解析度512×512的20個影像序列，亦即，兩個視圖充當具有10 cm基線之輸入立體聲，且其餘者可為輸入視圖後方之9.3 cm且基線範圍為4.8至8.0 cm的目標輸出視圖。應注意，經訓練網路可在測試時間應用於其他相機/IPD組態及解析度。亦可訓練使用具有用於240k迭代之預設參數之ADAM最佳化器之方法/技術。每一迭代可在具有大小1之批次上執行，且可在8個隨機選擇之輸出視圖上計算損失。

在訓練之後，該方法可在C++及CUDA/CuDNN中執行或操作以用於推斷最佳化，且該技術可與HMD SDK整合以用於示範/操作，其中每一GPU可負責一個深度估計及一個眼睛視圖重構。

由於即時視圖合成上存在極少新近工作，因此可將來自本文中所描述之系統及方法的結果與亦採用立體影像作為輸入之一些典型途徑的代表性MPI方法進行比較。應注意，在吾人之GPU上之TensorFlow中，MPI可在若干秒內執行以產生MPI表示，且在另外的若干秒內以720p解析度顯現立體眼睛視圖。儘管跟隨性MPI工作可提供一定改良品質，但其實質上較慢，此歸因於每圖框需要產生多個MPI且需要使用3D卷積網路，從而使得其相對於本文中所描述之解決方案甚至更加不適用。

結果，出於比較目的，可提供來自具有動態物件之3D環境的兩個合成資料集，其表示為DanceStudio及ElectronicRoom。每一資料集可含有具有模擬VR頭部運動之5個視訊，每一視訊含有30個圖框，且每一圖框以720p解析度含有輸入立體視圖（具有基線10cm）及目標眼睛視圖（具有IPD 6cm，深度軸線偏移9.3cm）。兩種場景可具有與吾人之靜態訓練資料集足夠不同的外觀及幾何構型。

該等方法可藉由PSNR、SSIM及空間-時間熵差異（Spatio-Temporal Entropic Difference；STRRED）評估，其中後者用於視訊品質及時間穩定性評估。如表2中所報導，由本文中所描述之系統及方法提供之途徑可由於關於所有度量之大裕度而勝過MPI。實例結果影像展示於圖6D中。此處，MPI可呈現更明顯的偽影，尤其在去遮擋區處之拉伸及重複紋理。

此外，可針對由吾人之原型捕捉之真實資料定性地比較該等方法，如圖6E中所展示。由於實況影像可能未在目標眼睛視圖處捕捉以供定量比較，因此來自輸入視圖之最接近的貼片可經提供以用於關於場景之視覺參考。

關於透通系統，可將系統及方法與一系列相關的商業VR顯示器進行比較。例示性結果展示於圖6F至圖6G中。此等商業VT顯示器透通途徑的主要限制為經重構網格可在深度不連續性及去遮擋區處不準確，從而引起明顯失真及拉伸假影。相比之下，本文所述之方法可產生更準確的結果，且另外產生顏色及更佳解析度。

吾人之結果的品質可部分地受即時深度估計之品質影響。雖然深度估計通常產生合理結果，但其可能在具有挑戰性幾何構型細節或視圖依賴性材料之物件處或當單眼深度提示缺乏時失效。實例展示於圖6H中。由於吾人構架之深度估計模組可容易升級，因此對即時深度估計之任何未來改良可直接有益於本文所描述之系統及方法。應瞭解，時間圖框亦可用於進一步改良影像品質以及時間穩定性。

因為新穎視圖合成在電腦視覺及圖形問題（例如，光場成像、光場顯示、自由視點視訊呈現等）之主機內保持核心挑戰，所以本文中所描述之系統及方法可提供一種即時或接近即時地引入具有高品質結果之色彩透通原型的解決方案。藉由提供針對透通問題特定調適的新硬體組態及習得視圖合成方法/技術，可增強人工及真實世界中之使用者體驗。

在前述描述中，描述各種發明性實例，包括裝置、系統、方法及其類似者。出於解釋之目的，闡述特定細節以便提供對本揭示之實例之透徹理解。然而，顯然是各種實例可在無此等特定細節之情況下實踐。舉例而言，裝置、系統、結構、總成、方法及其他組件可以方塊圖形式展示為組件，以免以不必要的細節混淆實例。在其他情況下，可在無必要細節之情況下展示熟知的裝置、製程、系統、結構及技術，以免混淆實例。

圖式及描述並不意欲為限定性的。已在本發明中使用之術語及表述用作描述之術語且不為限制性的，且在使用此類術語及表述中，不欲排除所展示及描述之特徵的任何等效物或其部分。詞語「實例」在本文中用以意謂「充當實例、個例或說明」。不必將本文中描述為「實例」之任何具體實例或設計理解為比其他具體實例或設計較佳或優於其他具體實例或設計。

儘管如本文所描述之方法及系統可主要針對數位內容（諸如視訊或互動式媒體），但應瞭解如本文所描述之方法及系統亦可用於其他類型之內容或情境。如本文所描述之方法及系統的其他應用程式或使用亦可包括社交網路連接、營銷、基於內容之推薦引擎，及/或其他類型之知識或資料驅動系統。

100:人工實境系統環境 110:控制台 112:應用程式商店 114:頭戴式套件追蹤模組 116:虛擬實境引擎 118:眼動追蹤模組 120:近眼顯示器 122:顯示電子件 124:顯示光學件 126:定位器 128:位置感測器 130:眼動追蹤單元 132:慣性量測單元（IMU） 140:輸入/輸出介面 150:外部成像裝置 200:頭戴式顯示器（HMD）裝置 220:本體 223:底側 225:前側 227:左側 228:右下相機 229:左上相機 230:頭部綁帶 231:前置相機

本發明之特徵藉助於實例說明且不限於以下圖式，在該等圖式中，相同數字指示相同元件。所屬技術領域中具有通常知識者將自以下容易地認識到，可在不脫離本文中所描述之原理的情況下採用圖式中所繪示之結構及方法的替代性實例。

[圖1]繪示根據一實例之包括近眼顯示器之人工實境系統環境的方塊圖。

[圖2]繪示根據一實例之呈頭戴式顯示器（HMD）裝置之形式的近眼顯示器之透視圖。

[圖3]繪示根據一實例之呈具有透通相機之頭戴式顯示器（HMD）裝置之形式的近眼顯示器之俯視圖。

[圖4]繪示根據一實例之呈具有透通相機及去遮擋之頭戴式顯示器（HMD）裝置之形式的近眼顯示器之俯視圖。

[圖5]繪示根據一實例的用於基於機器學習（ML）的立體視圖合成之技術的流程圖。

[圖6A]至[圖6H]繪示根據一實例之具有或不具有基於機器學習（ML）的立體視圖合成的各種比較影像。

200:頭戴式顯示器(HMD)裝置

220:本體

223:底側

225:前側

227:左側

228:右下相機

229:左上相機

230:頭部綁帶

231:前置相機

Claims

一種顯示系統，其包含：一頭戴式顯示器（HMD）頭戴式套件，其包含：在該HMD之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機，其中該至少一個面向外的RGB相機收集影像以用於視圖合成；一處理器；及一記憶體，其儲存指令，該等指令在由該處理器執行時使得該處理器根據一基於機器學習（ML）的技術提供視圖合成，該技術包含以下各者中之至少一者：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。
如請求項1之顯示系統，其中安裝於該HMD之一正面上的該至少一個面向外的RGB相機依據一透通組態提供立體輸入，該透通組態在視圖合成期間最小化去遮擋濾波中之去遮擋。
如請求項2之顯示系統，其中該去遮擋歸因於該至少一個面向外的RGB相機與該使用者之眼睛之間的視點差異而出現在一目標視圖中。
如請求項2之顯示系統，其中去遮擋區之一大小 β係由以下表達式表示：其中 φ指示該RGB相機與該使用者之眼睛之間在深度軸線（大致為該HMD的厚度）上的一距離，及分別表示一靠近遮擋物與一背景之一深度（＜），且 θϵ [0, ）量測旨在消除該去遮擋之一角度區。
如請求項4之顯示系統，其中該去遮擋區 β根據以下表達式最小化：，其中α表示該RGB相機與該使用者之眼睛的一檢視方向之間的一偏移。
如請求項5之顯示系統，其中一最小立體相機基線係由以下表達式表示：，其中 ρ表示一目標瞳孔間距離（IPD）。
如請求項1之顯示系統，其中至少兩個面向外的RGB立體相機置放於一線性平移台上以允許可組態相機基線，使得相機基線範圍介於5.4 cm至10 cm以支援 θ= 25°角度區，其中對於經取樣IPD ρ= 6 cm，該去遮擋實質上被消除，或等效地，對於 ρ= 7 cm， θ= 18°，且該等相機與該等眼睛之間在深度軸線上之一距離亦可為 φ= 9.3cm，以使得該等RGB相機可在720p解析度及90°視野（FOV）下以30Hz運轉。
如請求項1之顯示系統，其中該深度估計係基於藉由使用一神經網路之基於深度學習之視差估計在每一輸入視圖處計算之一深度圖。
如請求項8之顯示系統，其中該深度估計使用待在每一圖框處糾正以便減小自一2D對應關係匹配至一更高效1D匹配解決方案之該視差估計的輸入色彩對。
如請求項8之顯示系統，其中該深度估計使用一RAFT立體演算法來計算在立體輸入視圖中之每一者處的一視差圖，該視差圖接著可使用預校準參數轉換為深度圖，其可表達如下：其中分別地，及表示一經糾正左輸入影像及經糾正右輸入影像，及表示左視圖及右視圖處的輸出深度圖，stereo_depth表示一深度估計演算法，且flip表示在水平上翻轉該影像之一運算符。
如請求項10之顯示系統，其中用以在水平上翻轉該影像之該運算符藉由該立體深度估計推斷滿足對視差值之一預期正負號的任何要求。
一種方法，其包含：從在一頭戴式顯示器（HMD）之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機收集影像以用於視圖合成；及根據包含以下各者中之至少一者的一基於機器學習（ML）之技術來提供視圖合成：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。
如請求項12之方法，其中安裝於該HMD之一正面上的該至少一個面向外的RGB相機依據一透通組態提供立體輸入，該透通組態在視圖合成期間最小化去遮擋濾波中之去遮擋。
如請求項13之方法，其中該去遮擋歸因於該至少一個面向外的RGB相機與該使用者之眼睛之間的視點差異而出現在一目標視圖中。
如請求項13之方法，其中去遮擋區之一大小 β係由以下表達式表示：其中 φ指示該RGB相機與該使用者之眼睛之間在深度軸線（大致為該HMD的厚度）上的一距離，及分別表示一靠近遮擋物與一背景之一深度（＜），且 θϵ [0, ）量測旨在消除該去遮擋之一角度區。
如請求項15之方法，其中該去遮擋區 β根據以下表達式最小化：，其中α表示該RGB相機與該使用者之眼睛的一檢視方向之間的一偏移。
如請求項16之方法，其中一最小立體相機基線由以下表達式表示：，其中 ρ表示一目標瞳孔間距離（IPD）。
如請求項12之方法，其中該深度估計係基於藉由使用一神經網路之基於深度學習之視差估計在每一輸入視圖處計算之一深度圖。
如請求項18之方法，其中該深度估計使用以下各者中之至少一者：待在每一圖框處糾正以便減小自一2D對應關係匹配至一更高效1D匹配解決方案之該視差估計的輸入色彩對；或用來計算在立體輸入視圖中之每一者處的一視差圖之一RAFT立體演算法，該視差圖接著可使用預校準參數轉換為深度圖，其可表達如下：其中分別地，及表示一經糾正左輸入影像及經糾正右輸入影像，及表示左視圖及右視圖處的輸出深度圖，stereo_depth表示一深度估計演算法，且flip表示在水平上翻轉該影像之一運算符。
一種其上儲存有一可執行碼之非暫時性電腦可讀儲存媒體，該可執行碼在執行時指示一處理器進行以下操作：從在一頭戴式顯示器（HMD）之一正面上且與一使用者之眼睛在同一視覺平面上安裝的至少一個面向外的RGB相機收集影像以用於視圖合成；及根據包含以下各者中之至少一者的一基於機器學習（ML）之技術來提供視圖合成：深度估計、成像銳化、前向拼接、去遮擋濾波，或融合。