TWI813098B - 用於新穎視圖合成之神經混合 - Google Patents

用於新穎視圖合成之神經混合 Download PDF

Info

Publication number
TWI813098B
TWI813098B TW110147092A TW110147092A TWI813098B TW I813098 B TWI813098 B TW I813098B TW 110147092 A TW110147092 A TW 110147092A TW 110147092 A TW110147092 A TW 110147092A TW I813098 B TWI813098 B TW I813098B
Authority
TW
Taiwan
Prior art keywords
image
images
depth
view
camera
Prior art date
Application number
TW110147092A
Other languages
English (en)
Other versions
TW202240530A (zh
Inventor
布魯拉 里卡多 馬丁
丹尼爾 高曼
雨果 赫維 赫佩
蔡翎
拉爾斯 彼得 約翰尼斯 赫德曼
Original Assignee
美商谷歌有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商谷歌有限責任公司 filed Critical 美商谷歌有限責任公司
Publication of TW202240530A publication Critical patent/TW202240530A/zh
Application granted granted Critical
Publication of TWI813098B publication Critical patent/TWI813098B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Tea And Coffee (AREA)

Abstract

本發明揭示用於接收複數個輸入影像、複數個深度影像及複數個視圖參數來產生一目標主體之一虛擬視圖之系統及方法。該等系統及方法可基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生複數個扭曲影像。回應於將該複數個深度影像、該複數個視圖參數及該複數個扭曲影像提供至一神經網路,該等系統及方法可自該神經網路接收混合權重以將色彩分派給該目標主體之該虛擬視圖之像素且可基於該等混合權重及該虛擬視圖來根據該等視圖參數產生一合成影像。

Description

用於新穎視圖合成之神經混合
本發明大體上係關於用於合成三維(3D)內容之方法、裝置及演算法。
習知物件渲染一般包含密集運算工作以產生逼真成像。若物件在運動,則額外運算工作可用於產生物件之逼真影像。此渲染可包含使用神經網路來模型化物件之外觀。然而,模型可產生具有外來雜訊及幾何假影之影像。
本文中所描述之系統及方法可使用輸入影像及預定義視圖參數來執行基於影像之渲染以基於該等輸入影像來產生(例如合成)視訊及/或影像之新穎(例如前所未見)視圖。前所未見視圖之基於影像之渲染可針對所接收輸入影像利用一扭曲程序。一般而言,扭曲程序可引起幾何不準確及視圖及/或影像相依效應,其等可在來自不同輸入視圖之貢獻混合在一起時產生假影。本文中所描述之系統及方法使用一深度學習技術,其採用神經網路(NN)來混合影像內容用於新穎視圖之基於影像之渲染。特定混合權重經學習且用於將輸入影像貢獻組合至一最終合成視圖。混合權重經產生以提供產生展現減少視圖及/或影像相依效應及減少數目個影像假影之合成影像之優點。
可在使用NN、扭曲程序及/或混合權重時出現之一技術挑戰係缺少足夠準確幾何圖形使得NN (例如一卷積神經網路)可選擇適當混合權重來避免影像假影。本文中所描述之系統及方法可藉由使用輸入影像之色彩及深度視圖之一學習混合及/或採用多解析度混合技術選擇提供具有減少影像假影之準確影像之像素色彩來解決此技術挑戰。例如,混合權重可應用於相對於一基準實況影像可能正確且準確之重加權投影(例如,概率性提供)像素色彩,同時削弱相對於給定基準實況影像可能不正確及/或不準確之投影像素色彩之權重。
為採用此等混合技術,除特定板載系統攝影機(例如彩色攝影機、紅外攝影機等等)之外,本文中所描述之系統及方法亦可利用一或多個見證攝影機。(若干)見證攝影機可監督用於產生新穎視圖之內容。例如,(若干)見證攝影機可為可用於提供基準實況資料之一高解析度攝影機。比較所產生之新穎視圖與自(若干)見證攝影機接收(例如,捕捉)之基準實況資料。在一些實施方案中,新穎視圖之影像細節可基於在產生新穎視圖時由(若干)見證攝影機捕捉之影像細節來評分。
在一些實施方案中,本文中所描述之系統及方法考量訓練損失。例如,系統可產生具有各種捕捉場景之訓練資料以最小化損失以提供高品質新穎視圖合成,同時減少合成視圖中之時間閃爍假影。在一些實施方案中,本文中所描述之系統及方法亦可採用遮擋推理來校正合成新穎視圖中之假影。
一或多個電腦之一系統可經組態以藉由使在操作中引起系統執行動作之軟體、韌體、硬體及其等之一組合安裝於系統上來執行特定操作或動作。一或多個電腦程式可經組態以藉由包含在由資料處理設備執行時引起設備執行動作之指令來執行特定操作或動作。
在一個一般態樣中,描述系統及方法,其等用於:接收複數個輸入影像;接收與該複數個輸入影像之至少一者中之一目標主體相關聯之複數個深度影像;接收複數個視圖參數用於產生該目標主體之一虛擬視圖;及基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生複數個扭曲影像。回應於將該複數個深度影像、該複數個視圖參數及該複數個扭曲影像提供至一神經網路,該等系統及方法可自該神經網路接收混合權重以將色彩分派給該目標主體之該虛擬視圖之像素。該等系統及方法可基於該等混合權重及該虛擬視圖來根據該等視圖參數產生一合成影像。
此等及其他態樣可單獨或組合地包含以下之一或多者。在一些實施方案中,該等系統及方法可包含對該複數個深度影像使用一幾何融合程序來重建一致表面以產生一幾何融合模型、基於該複數個輸入影像及該一致表面來產生複數個重投影影像,且回應於將該複數個深度影像、該複數個視圖參數及該複數個重投影影像提供至該神經網路,該等系統及方法可自該神經網路接收額外混合權重以將色彩分派給該合成影像中之像素。
在一些實施方案中,該等系統及方法可進一步包含將該幾何融合模型與在該複數個深度影像中觀察到之一深度之間的一深度差提供至該神經網路,且該方法進一步包括基於該深度差來校正在該合成影像中偵測到之遮擋。在一些實施方案中,該複數個輸入影像係根據與捕捉該複數個輸入影像之至少一個攝影機相關聯之預定義視圖參數捕捉之彩色影像,及/或該複數個深度影像各包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與由至少一個見證攝影機在對應於該複數個輸入影像之至少一者之捕捉之一時間捕捉之一基準實況影像相關聯之一深度圖。在一些實施方案中,該等混合權重經組態以將一混合色彩分派給該合成影像之各像素。
在一些實施方案中,該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。在一些實施方案中,該合成影像係針對三維視訊會議產生之該目標主體之一非捕捉視圖。
在一些實施方案中,基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生該複數個扭曲影像包含使用該複數個深度影像之該至少一者來判定與該複數個輸入影像相關聯之色彩至一非捕捉視圖中之候選投影,其中該非捕捉視圖包含該複數個輸入影像之至少一者之影像特徵之至少一部分。
在另一一般態樣中,描述一種影像處理系統,其尤其用於實施如前述技術方案中任一者之方法。該影像處理系統可包括至少一個處理裝置及一記憶體,該記憶體儲存在執行時引起該系統執行包含以下之操作之指令:接收由該影像處理系統捕捉之複數個輸入影像;接收由該影像處理系統捕捉之複數個深度影像;接收與該複數個輸入影像之至少一者相關聯之一非捕捉視圖相關聯之複數個視圖參數;及基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生複數個扭曲影像。回應於將該複數個深度影像、該複數個視圖參數及該複數個扭曲影像提供至一神經網路,該系統可包含自該神經網路接收混合權重以將色彩分派給該非捕捉視圖之像素。該系統可進一步包含根據該等混合權重來產生一合成影像,其中該合成影像對應於該非捕捉視圖。
此等及其他態樣可單獨或組合地包含以下之一或多者。在一些實施方案中,該複數個輸入影像係由該影像處理系統根據與該影像處理系統相關聯之預定義視圖參數來捕捉之彩色影像,及/或該複數個深度影像包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與該影像處理系統之一見證攝影機相關聯之一深度圖。
在一些實施方案中,該等混合權重經組態以將一混合色彩分派給該合成影像之各像素。在一些實施方案中,該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。在一些實施方案中,該合成影像係針對三維視訊會議產生之一新穎視圖。
在另一一般態樣中,描述一種其上儲存有指令之非暫時性機器可讀媒體,該等指令在由一處理器執行時引起一運算裝置:接收複數個輸入影像;接收與該複數個輸入影像之至少一者中之一目標主體相關聯之複數個深度影像;及接收複數個視圖參數用於產生該目標主體之一虛擬視圖。該機器可讀媒體亦可經組態以對該複數個深度影像使用一幾何融合程序來重建一致表面以產生該目標主體之一幾何融合模型、基於該複數個輸入、該複數個視圖參數及該一致表面來產生複數個重投影影像。回應於將該複數個深度影像、該複數個視圖參數及該複數個重投影影像提供至一神經網路,該機器可讀媒體可自該神經網路接收混合權重以將色彩分派給該目標主體之該虛擬視圖之像素及基於該等混合權重及該虛擬視圖來根據該等視圖參數產生一合成影像。
此等及其他態樣可單獨或組合地包含以下之一或多者。在一些實施方案中,該機器可讀媒體進一步包括將該幾何融合模型與在該複數個深度影像中觀察到之一深度之間的一深度差提供至該神經網路及基於該深度差來校正在該合成影像中偵測到之遮擋。在一些實施方案中,該複數個輸入影像係根據與捕捉該複數個輸入影像之至少一個攝影機相關聯之預定義視圖參數捕捉之彩色影像,及/或該複數個深度影像包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與由至少一個見證攝影機在對應於該複數個輸入影像之至少一者之捕捉之一時間捕捉之一基準實況影像相關聯之一深度圖。
在一些實施方案中,該等混合權重經組態以將一混合色彩分派給該合成影像之各像素。在一些實施方案中,該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。在一些實施方案中,該合成影像係用於三維視訊會議之一新穎視圖。在一些實施方案中,該神經網路經進一步組態以執行多解析度混合以將像素色彩分派給該合成影像中之像素,該多解析度混合觸發使影像金字塔作為輸入提供至該神經網路以觸發自該神經網路接收用於複數個標度之多解析度混合權重及與各標度相關聯之一不透明度值。
此等及其他態樣可單獨或組合地包含以下之一或多者。根據一些態樣,本文中所主張之方法、系統及電腦可讀媒體可包含以下特徵(或其等之任何組合)之一或多者(例如所有)。
所描述技術之實施方案可包含硬體、一方法或程序或一電腦可存取媒體上之電腦軟體。以下附圖及描述中闡述一或多個實施方案之細節。將自描述及圖式且自申請專利範圍明白其他特徵。
本發明描述與產生影像內容之新穎(例如前所未見)視圖相關之實例。本文中所描述之實例可基於所捕捉之視訊內容及/或影像內容來合成(例如產生)即時新穎視圖。例如,基於影像之渲染技術可用於使用彩色視圖及深度視圖之一學習混合來合成移動影像內容(例如物件、使用者、場景內容、影像圖框等等)之新穎視圖。
本文中所描述之系統及方法可產生具有比習知系統少之假影之新穎彩色影像。例如,本文中所描述之系統及方法可校正特定影像雜訊及損失函數分析以產生具有較小深度不準確度及較少遮擋之新穎影像。校正可藉由採用一神經網路(NN)學習偵測及校正含有可見度誤差之影像區域來執行。另外,NN可使用將輸出值限制為自彩色輸入影像擷取之重投影輸入色彩之一線性組合之混合演算法來學習及預測新穎視圖之色彩值。
在操作中,程序可擷取(例如捕捉、獲得、接收等等)數個輸入影像及資料(例如目標視圖參數)以藉由組合來自一相同場景(例如一場景中之影像內容)之輸入影像(例如視圖)之彩色影像串流來預測一新穎視圖(例如一前所未見之彩色影像)。彩色影像串流可提供至一NN以採用神經渲染技術來增強來自即時影像捕捉系統(例如一3D視訊會議系統,諸如一遙現系統)之一低品質輸出。例如,新穎視圖可為由本文中所描述之系統及技術產生之一預測彩色影像。預測影像可藉由將輸入影像及組合彩色影像串流(例如及/或此等輸入影像之重投影或表現)提供至一NN以允許NN學習特定混合權重以將像素色彩分派給預測彩色影像來產生。經學習混合權重可應用於產生新穎彩色影像之像素色彩。經學習混合權重亦可用於產生在一或多個所提供輸入影像中表現之影像內容之其他新穎視圖。
在一些實施方案中,本文中所描述之NN可模型化視圖相依效應以預測未來使用者移動(例如運動)以減輕假影之誤投影,其由用於產生使用者之影像之特定幾何資訊及/或自捕捉使用者之攝影機接收之幾何資訊及/或自對使用者之影像執行之影像處理接收之資訊之一雜訊性質引起。
在一些實施方案中,本文中所描述之系統及方法可訓練一或多個NN (例如一卷積NN,諸如一U-net)來預測可用於對(例如)輸出彩色影像提供監督之一單獨見證攝影機之一視點中之一影像。見證攝影機可充當用於本文中所描述之影像捕捉及/或處理系統之一基準實況攝影機。在一些實施方案中,兩個或更多個見證攝影機可用作NN之訓練資料。兩個或更多個見證攝影機可代表一對或多對見證攝影機。
在一些實施方案中,系統及方法可利用所捕捉輸入影像、與一所要新穎輸出視圖相關聯之預定義參數及/或含有一深度差及一深度圖之一遮擋圖。深度差可使用最靠近新穎視圖之一表面與攝影機視圖之表面之間的來自一彩色攝影機之一視圖產生。深度差可用於遮擋推理以校正遮擋視圖及/或所產生影像中之其他誤差。在一些實施方案中,深度圖可包含來自由一見證攝影機捕捉之一視圖之一深度圖。
在一些實施方案中,本文中所描述之系統及方法可藉由輸入深度影像之幾何融合來重建一致表面(例如一幾何表面)。在一些實施方案中,本文中所描述之系統及方法可使用諸如個別捕捉之深度影像及/或一致表面之深度資訊來判定輸入色彩至新穎視圖中之一投影。
在一些實施方案中,本文中所描述之系統及方法可藉由將一混合色彩分派給一新穎視圖中之各像素來產生新穎視圖之一彩色影像(例如彩色影像)。混合色彩可使用由本文中所描述之NN判定之彩色輸入影像及混合權重來判定。在一些實施方案中,混合權重透過損失函數正規化。在一些實施方案中,新穎視圖係自原始輸入影像投影至新穎視圖中之影像之一或多個像素色彩值之一加權組合。
如本文中所使用,新穎(例如,前所未見)視圖可包含已基於攝影機捕捉之影像內容及/或視訊內容之一或多個圖框來解譯(例如,合成、內插、模型化等等)之影像內容及/或視訊內容。攝影機捕捉之影像內容及/或視訊內容之解譯可結合本文中所描述之技術用於產生(例如)所捕捉影像內容及/或視訊內容之前所未見版本及視圖(例如姿勢、表情、角度等等)。
在一些實施方案中,本文中所描述之技術可用於合成準確且逼真呈現顯示用於(例如)一多路2D或3D視訊(例如遙現)會議中之一2D或3D顯示器之一螢幕上之顯示之影像。本文中所描述之技術可用於在一視訊會議中產生及顯示一使用者之準確且逼真視圖(例如影像內容、視訊內容)。視圖包含通常可能難以依一3D方式無顯著影像假影地描繪之前所未見視圖。
本文中所描述之系統及方法提供藉由使用一或多個見證攝影機及一NN基於多視圖彩色輸入影像及雜訊遮擋提示學習混合權重來產生無顯著影像假影之新穎視圖之一優點。所學習混合權重可確保在一所得輸出影像中校正遮擋及色彩假影。另外,所學習混合權重及一或多個見證攝影機可由本文中所描述之系統用於確保非在輸入影像中捕捉之影像內容可用於準確預測與輸入影像中之影像內容相關聯之新穎視圖。例如,因為相對於見證攝影機影像學習及評估混合權重,所以可對非在原始輸入影像中捕捉或表現之場景之影像部分進行準確預測。
在一些實施方案中,本文中所描述之技術可用於可受益於本文中所描述之預測技術之影片、視訊、短片、遊戲內容、虛擬及/或擴增實境內容或包含使用者之影像之其他格式之娛樂目的。例如,本文中所描述之技術可用於產生用於在影像及/或視訊內容中呈現之移動人物之新穎視圖。
在一些實施方案中,本文中所描述之技術可由虛擬輔助裝置或其他智慧型代理使用,其可執行影像處理以使用本文中所描述之技術來辨識物件、重現物件及/或自此等物件產生合成影像。
圖1係繪示根據本發明中所描述之實施方案之用於將內容顯示於一立體顯示裝置中之一實例性3D內容系統100的一方塊圖。3D內容系統100可由多個使用者用於(例如)進行3D視訊會議通信(例如遙現會話)及/或存取擴增及/或虛擬實境內容。一般而言,圖1之系統可用於在一2D或3D視訊會議期間捕捉使用者及/或場景之視訊及/或影像且使用本文中所描述之系統及技術來基於所捕捉內容產生新穎視圖以在視訊會議會話內呈現描繪新穎視圖之準確影像。系統100可受益於使用本文中所描述之技術,因為此等技術可在(例如)一視訊會議內產生及顯示準確表現一使用者之即時新穎視圖。例如,新穎視圖可經提供用於經由系統100依一2D及/或3D方式顯示給另一使用者。
如圖1中所展示,3D內容系統100由一第一使用者102及一第二使用者104存取。例如,使用者102及104可存取3D內容系統100以參與一3D遙現會話。在此一實例中,3D內容系統100可允許使用者102及104之各者看見彼此之一高度逼真且視覺相合表現,藉此促進使用者依類似於彼此實體存在之一方式互動。
各使用者102、104可使用一對應3D系統來進行一3D遙現會話。此處,使用者102存取一3D系統106且使用者104存取一3D系統108。3D系統106、108可提供與3D內容相關之功能性,包含(但不限於)捕捉用於3D顯示之影像、處理及呈現影像資訊及處理及呈現音訊資訊。3D系統106及/或3D系統108可構成整合為一個單元之感測裝置之一集合。3D系統106及/或3D系統108可包含參考圖2及圖8所描述之一些或所有組件。
3D內容系統100可包含一或多個2D或3D顯示器。此處,一3D顯示器110經描繪用於3D系統106,且一3D顯示器112經描繪用於3D系統108。3D顯示器110、112可使用多種類型之3D顯示技術之任何者來針對各自觀看者(例如使用者102或使用者104)提供一立體視圖。在一些實施方案中,3D顯示器110、112可為一獨立單元(例如自支撐或懸掛於一牆壁上)。在一些實施方案中,3D顯示器110、112可包含或可取得可穿戴技術(例如控制器、一頭戴式顯示器、AR眼鏡等等)。在一些實施方案中,顯示器110、112可為2D顯示器。
一般而言,顯示器110、112可在不使用一頭戴式顯示器(HMD)裝置之情況下提供近似真實世界中之實體物件之3D光學特性之成像。本文中所描述之顯示器可包含容置雙凸透鏡(例如微透鏡陣列)及/或視差屏障以將影像重定向至與顯示器相關聯之數個不同觀看區域之平板顯示器。
在一些實施方案中,顯示器110、112可包含一高解析度且無眼鏡雙凸3D陣列。例如,顯示器110、112可包含一微透鏡陣列(圖中未展示),其包含具有耦合(例如,接合)至顯示器之微透鏡之一玻璃間隔件之複數個透鏡(例如微透鏡)。微透鏡可經設計使得自一選定觀看位置,顯示器之一使用者之一左眼可觀看一第一組像素,同時使用者之右眼可觀看一第二組像素(例如,其中第二組像素與第一組像素互不相交)。
在一些實例性顯示器中,可存在提供由此等顯示器提供之影像內容(例如使用者、物件等等)之一3D視圖之一單一位置。一使用者可坐於單一位置中以體驗適當視差、最小失真及逼真3D影像。若使用者移動至一不同實體位置(或改變一頭位置或眼睛注視位置),則影像內容(例如使用者、使用者穿戴之物件及/或其他物件)可開始似乎不逼真、2D及/或失真。本文中所描述之系統及技術可重組態自顯示器投影之影像內容以確保使用者可四處移動但仍即時體驗適當視差、低失真率及逼真3D影像。因此,本文中所描述之系統及技術提供維持及提供3D影像內容及物件用於顯示給一使用者之優點,不管在使用者觀看3D顯示器時發生之任何使用者移動。
如圖1中所展示,3D內容系統100可連接至一或多個網路。此處,一網路114連接至3D系統106及3D系統108。網路114可為一公用網路(例如網際網路)或一私人網路,僅舉兩個實例。網路114可為有線或無線或兩者之一組合。網路114可包含或利用一或多個其他裝置或系統,其等包含(但不限於)一或多個伺服器(圖中未展示)。
3D系統106、108可包含與3D資訊之捕捉、處理、傳輸或接收及/或3D內容之呈現相關之多個組件。3D系統106、108可包含用於捕捉包含於一3D呈現中之影像之影像內容及/或視訊(例如可見及IR影像資料)之一或多個攝影機。在所描繪實例中,3D系統106包含攝影機116及118。例如,攝影機116及/或攝影機118可基本上安置於3D系統106之一外殼內,使得各自攝影機116及/或118之一物鏡或透鏡藉由外殼中之一或多個開口來捕捉影像內容。在一些實施方案中,攝影機116及/或118可與外殼分離,諸如呈一獨立裝置之形式(例如,具有至3D系統106之一有線及/或無線連接)。攝影機116及118可經定位及/或定向以捕捉一使用者(例如使用者102)之一足夠代表性視圖。
當攝影機116及118大體上不會妨礙使用者102觀看3D顯示器110時,但攝影機116及118之放置可任意選擇。例如,攝影機116、118之一者可定位於使用者102之臉上方之某位置處且另一者可定位於臉下方之某位置處。例如,攝影機116及118之一者可定位於使用者102之臉右邊之某位置處且另一者可定位於臉左邊之某位置處。例如,3D系統108可依一類似方式包含攝影機120及122。額外攝影機係可行的。例如,一第三攝影機可放置於顯示器110附近或後面。
在一些實施方案中,3D系統106、108可包含一或多個見證攝影機119、121。見證攝影機119、121可用於捕捉高品質影像(例如見證攝影機影像132),其可代表一基準實況影像。由見證攝影機119及/或攝影機121捕捉之影像可與本文中所描述之技術一起用於在產生新穎視圖及計算損失及此等損失之校正時用作一比較。一般而言,由見證攝影機119、121捕捉之影像可在實質上相同於由攝影機116、118、120、122、124及/或126及此等攝影機及/或攝影機盒(pod)之組合捕捉之其他影像(例如圖框)之一對應時刻之時刻捕捉。在一些實施方案中,見證攝影機影像134可經捕捉且用作一或多個NN之訓練資料以產生新穎視圖。
在一些實施方案中,3D系統106、108可包含用於捕捉在一3D呈現中使用之深度資料之一或多個深度感測器。此等深度感測器可被視為3D內容系統100中之一深度捕捉組件之部分,其用於特徵化由3D系統106及/或108捕捉之場景以在一3D顯示器上正確表現場景。另外,系統可追蹤觀看者之頭之位置及定向,使得3D呈現可呈現有對應於觀看者之當前視點之外觀。此處,3D系統106包含一深度感測器124,其亦可代表一紅外攝影機。依一類似方式,3D系統108可包含一深度感測器126。多種類型之深度感測或深度捕捉之任何者可用於產生深度資料。
在一些實施方案中,各攝影機116、118、119及124可代表一盒中之數個攝影機。例如,深度感測器124可與攝影機116及/或攝影機118容置於一攝影機盒中。在一些實施方案中,三個或更多個攝影機盒可放置於顯示器110周圍及/或顯示器110後面且各盒可包含一攝影機124 (例如一深度感測器/攝影機)及一或多個攝影機116、118。類似地,三個或更多個攝影機盒可放置於顯示器112周圍及/或顯示器112後面且各盒可包含一攝影機126 (例如一深度感測器/攝影機)及一或多個攝影機120、122。
在系統106之操作中,可執行一輔助立體深度捕捉。例如,場景可使用光點照明,且立體匹配可在兩個各自攝影機之間執行。此照明可使用一選定波長或波長範圍之波來完成。例如,可使用紅外(IR)光。深度資料可包含或基於反映一深度感測器(例如深度感測器124)與一場景中之一物件之間的距離之關於場景之任何資訊。針對對應於場景中之一物件之一影像中之內容,深度資料反映與物件之距離(或深度)。例如,(若干)攝影機與深度感測器之間的空間關係可已知,且可用於使來自(若干)攝影機之影像與來自深度感測器之信號相關以產生影像之深度資料。
由3D內容系統100捕捉之影像可經處理且其後顯示為一3D呈現。如圖1之實例中所描繪,使用者104之3D影像呈現於3D顯示器110上。因而,使用者102可將(例如,一使用者之)3D影像104'感知為使用者104 (其可遠離使用者102定位)之一3D表現。類似地,3D影像102'呈現於3D顯示器112上。因而,使用者104可將3D影像102'感知為使用者102之一3D表現。
3D內容系統100可允許參與者(例如使用者102、104)參與與彼此及/或其他人之音訊通信。在一些實施方案中,3D系統106包含一揚聲器及麥克風(圖中未展示)。例如,3D系統108可類似地包含一揚聲器及一麥克風。因而,3D內容系統100可允許使用者102及104參與與彼此及/或其他人之一3D遙現會話。一般而言,本文中所描述之系統及技術可與系統100一起用於產生影像內容及/或視訊內容用於在系統100之使用者之間顯示。
在系統100之操作中,一組輸入影像132可由攝影機116、118、119、124及/或120、121、122及126捕捉。輸入影像可包含(例如)見證攝影機影像134及RGB彩色影像136。在一些實施方案中,系統100亦可產生及/或否則獲得深度影像138。在一個實例中,深度影像138可自IR攝影機擷取之一對IR影像藉由執行一或多個立體運算來產生,如上文所描述。輸入影像132可用作用其預測一輸出影像之一基礎,輸出影像係來自(若干)輸入影像之重投影色彩之一線性組合。在一些實施方案中,輸入影像132可包含代表用已知(例如預定、預定義)視圖參數捕捉之重投影彩色影像(例如紅綠藍(RGB))之兩個或更多個彩色影像。在一些實施方案中,輸入影像132亦包含用已知視圖參數運算(例如,產生)之一或多個深度影像138。輸入影像132可結合特定攝影機參數、視圖參數及/或NN混合演算法140用於產生顯示於顯示器110及/或112上之新穎視圖。
圖2係根據本發明中所描述之實施方案之用於合成呈現於一顯示器上之內容之一實例性系統之一方塊圖。系統200可充當本文中所描述之一或多個實施方案或包含於其內,及/或可用於執行本文中所描述之影像內容之合成、處理、模型化或呈現之一或多個實例之(若干)操作。整個系統200及/或其個別組件之一或多者可根據本文中所描述之一或多個實例來實施。
系統200可包含一或多個3D系統202。在所描繪實例中,展示3D系統202A、202B至202N,其中指數N指示一任意數。3D系統202可提供視覺及音訊資訊之捕捉用於一2D或3D呈現,且可轉發2D或3D資訊用於處理。此資訊可包含一場景之影像、關於場景之深度資料、與影像捕捉相關聯之參數及/或來自場景之音訊。2D/3D系統202可充當系統106及108及2D/3D顯示器110及112 (圖1)或包含於其內。儘管系統202B及202N未描繪相同於系統202A中所描繪之模組,但系統202A中之各模組亦可存在於系統202B及202N中。
系統200可包含多個攝影機,如由攝影機204所指示。任何類型之光感測技術可用於捕捉影像,諸如在普通數位攝影機中使用之影像感測器類型。攝影機204可為相同類型或不同類型。攝影機位置可放置於諸如(例如)系統106之一3D系統上之任何位置內。在一些實施方案中,各系統202A、202B及202N包含三個或更多個攝影機盒,其等各包含一深度攝影機(例如深度攝影機206及/或一或多對IR攝影機,其內容使用立體演算法來分析以推斷一深度影像)及一或多個彩色攝影機。在一些實施方案中,系統202A、202B及202N亦包含可捕捉在產生新穎視圖用作基準實況影像及/或(例如)用於訓練神經網路之影像之一或多個見證攝影機(圖中未展示)。
系統202A包含一深度感測器206。在一些實施方案中,深度感測器206藉由將IR信號傳播至場景上且偵測回應信號來操作。例如,深度感測器206可產生及/或偵測光束128A及/或128B及/或130A及/或130B。在一些實施方案中,深度感測器206可用於運算遮擋圖。系統202A亦包含至少一個麥克風208及一揚聲器210。在一些實施方案中,麥克風208及揚聲器210可為系統106之部分。
另外,系統202包含可呈現3D影像之一3D顯示器212。在一些實施方案中,3D顯示器212可為一獨立顯示器,且在一些其他實施方案中,3D顯示器212可整合至AR眼鏡、頭戴式顯示裝置及其類似者中。在一些實施方案中,3D顯示器212使用視差屏障技術來操作。例如,一視差屏障可包含放置於螢幕與觀看者之間的一基本不透明材料(例如一不透明膜)之平行垂直條紋。由於觀看者之兩眼之間的視差,螢幕之不同部分(例如不同像素)由各自左眼及右眼觀看。在一些實施方案中,3D顯示器212使用雙凸透鏡來操作。例如,交替列之透鏡可放置於螢幕前面,列使來自螢幕之光分別瞄準觀看者之左眼及右眼。
系統200可包含可執行資料處理、資料模型化、資料協調及/或資料傳輸之某些任務之一運算系統214。在一些實施方案中,運算系統214亦可產生影像,混合權重,且執行神經處理任務。在一些實施方案中,運算系統214係一影像處理系統。運算系統214及/或其組件可包含參考圖8所描述之一些或所有組件。
運算系統214包含可產生2D及/或3D資訊之一影像處理器216。例如,影像處理器216可接收(例如,獲得)一或多個輸入影像132及/或視圖參數218且可產生影像內容用於由一影像扭曲引擎220、一混合權重產生器222及/或NN 224進一步處理。輸入影像132可包含所捕捉彩色(例如RGB、YUV、CMYK、CIE、RYB)影像。
視圖參數218可包含與特定輸入影像132之捕捉相關聯及/或與待產生(例如,合成)之一影像之捕捉相關聯之攝影機參數。一般而言,視圖參數218可代表一攝影機模型近似值。視圖參數218可包含一視圖方向、一姿勢、一攝影機視角、透鏡失真及/或一攝影機之內在及外在參數之任何者或全部。
影像處理器216亦包含(及/或產生及/或接收)遮擋圖226、深度圖228、UV圖230、目標視圖參數232、損失函數234及網格代理幾何236。
遮擋圖226可編碼判定為最靠近一目標視點及捕捉表面之一攝影機之表面點之間的帶正負號距離。一正值可指示一點由一視圖遮擋。因此,系統200可組態混合權重產生器222 (及NN 224)以不在判定混合權重242時使用正值距離,因為此經遮擋影像內容不會在基於所捕捉影像內容產生新或新穎視圖時提供準確重現資料。在一些實施方案中,遮擋圖226可用於評估在一特定視圖中觀察到之一深度與視圖相關聯之幾何融合模型之間的一深度差。
深度圖228代表含有與特定場景之表面與一選定視點之一距離相關之資訊之一或多個影像。在一些實施方案中,深度圖228對應於三個彩色攝影機影像之各者及/或自一目標視點至針對一合成(例如新穎)視圖中之各輸出像素判定之一最近表面點之深度。
UV圖230可自一輸入影像132中之可見內容產生。特定而言,UV圖230代表一2D影像至一3D模型表面之一投影以執行紋理映射以產生可用於產生合成影像(例如新穎視圖)之特徵。
目標視圖參數232代表一新穎合成影像之視圖參數(即,用於產生目標主體之一視覺視圖之視圖參數)。目標視圖參數232可包含影像參數及/或與待產生(例如,合成)之一影像相關聯之攝影機參數。目標視圖參數232可包含一視圖方向、一姿勢、一攝影機視角及其類似者。
損失函數234可評估一基準實況影像與一預測影像之間的差異,其中預測影像基於針對一圖框捕捉之可見光資訊、針對圖框捕捉之IR光及與色彩及/或深度相關聯之混合權重之一組合來預測。損失函數234可包含描述任何或所有像差、影像孔、影像誤投影假影及其類似者之函數。
在一些實施方案中,損失函數234可包含一重建損失,其基於映射至一NN中之層之啟動之一分段基準實況影像與映射至NN中之層之啟動之一分段預測影像之間的一重建差。分段基準實況影像可由一基準實況遮罩分段以移除背景像素,且分段預測影像可由一預測遮罩分段以移除背景像素。預測遮罩可基於針對一圖框捕捉之可見光資訊及針對一圖框捕捉之IR光兩者之一組合來預測。
網格代理幾何236可代表包含一組K個代理{P i,1,…,P i,K}之一粗幾何(即,矩形、三角形等等與UV座標匹配)。例如,一2D影像可投影至一3D代理模型表面以產生一網格代理幾何236。代理可用於代表特定影像內容之實際幾何之一版本。在操作中,系統200使用代理幾何原理以使用一組粗代理表面(例如網格代理幾何236)以及形狀、反照率及視圖相依效應來編碼一幾何結構。
影像扭曲引擎220可經組態以接收一或多個輸入影像(例如圖框、串流)及/或其他捕捉/特徵參數資料且產生保留一或多個輸出影像(例如圖框、串流)之一特徵。影像扭曲引擎220可利用捕捉/特徵參數資料來依某一方式重建輸入影像。例如,影像扭曲引擎220可自輸入影像產生重建候選彩色影像,其中一重建影像中之各像素係對應於輸入影像之一或多者之一新合成影像之一候選像素。
在一些實施方案中,影像扭曲引擎220可在像素級對輸入影像執行功能以保留小標度影像特徵。在一些實施方案中,影像扭曲引擎220可使用非線性或線性函數來產生重建影像。
混合權重產生器222包含混合演算法238及可見度分數240。混合演算法238可用於產生混合權重242。特定而言,混合演算法238可經由NN 224存取以產生混合權重242。混合權重242代表可用於促成一所得(例如最終新穎影像)中之像素之態樣之影像之特定像素之值。混合演算法238包含用於運算混合加權以遮蔽一特定組深度影像及/或代表深度影像之融合幾何之啟發式演算法。混合演算法接收多視圖彩色影像及雜訊遮擋提示作為輸入以學習一新穎視圖(例如新穎合成影像)之輸出混合權重。在一些實施方案中,紋理(例如,自(若干)攝影機盒接收)及相對於一目標視圖及輸入影像之可見度分數240亦可作為輸入提供至混合演算法238。
可見度分數240可代表一影像中之一所捕捉物件之一特定像素或特徵之可見度。各可見度分數240可代表一單一純量值以指示影像之哪些部分(例如像素、特徵等等)在一輸入影像之一特定視圖中可見。例如,若在一使用者之一輸入影像中看不到使用者之臉之一最左側,則代表使用者之臉之最左側之像素之可見度分數240可低加權,而可在輸入影像中完全看到及/或捕捉之其他區域可高加權。可在產生新穎視圖(例如影像)之混合權重242時考量可見度分數。
神經網路224包含一嵌入器網路244及一產生器網路246。嵌入器網路244包含一或多個卷積層及下取樣層。產生器網路246包含一或多個卷積層及上取樣層。
修補器254可基於一特定遺漏內容部分周圍之像素之一局部鄰域來產生可自一特定紋理或影像遺漏之內容(例如像素、區域等等)。在一些實施方案中,修補器254可利用混合權重242來判定如何修補特定像素、區域等等。修補器254可利用來自NN 224之輸出來預測用於呈現之特定背景及前景色版。在一些實施方案中,修補器254可與影像校正引擎252一起用於推拉填孔。此可在具有遺漏深度資訊之區域/像素之影像中執行,其可導致無輸出色彩由NN 224預測。影像校正引擎252可觸發修補器對一影像中之特定區域/像素上色。
一旦判定混合權重242,則系統214可將權重提供至一神經渲染器248。神經渲染器248可產生(例如)利用NN 224 (或另一NN)之一物件(例如使用者)及/或場景之一中間代表。例如,神經渲染器248可藉由模型化真實外觀(例如一基準實況)與具有一物件特定卷積網路之一漫射重投影之間的差異來併入視圖相依效應。
在操作中,系統200可接收一立體融合管線,其產生(1)對應於三個彩色攝影機影像之各者之深度圖及(2)自一目標視點至針對一合成視圖中之各輸出像素D t判定之一最近表面點之深度值。例如,一影像捕捉系統可包含至少三個攝影機盒。各攝影機盒可包含一或多個彩色攝影機及一深度攝影機(例如攝影機204、深度感測器206)。在一些實施方案中,影像捕捉系統可另外包含一見證攝影機盒。在此實例中,系統可執行幾何扭曲以將來自三個攝影機盒之資訊變換成見證攝影機盒之一目標影像空間。特定而言,針對三個彩色攝影機之各k (一重現彩色(例如RGB)影像),可使用重投影至3D空間中之目標視點深度(例如深度圖228)來計算一 值以代表重投影RGB影像(例如重投影影像404)。另外,可計算一 值以代表編碼最靠近一預定義目標視點之表面點與一攝影機之間的帶正負號距離之一遮擋圖(例如遮擋圖226)。一正值指示一影像點由視圖遮擋。一負值指示一影像點未由視圖遮擋。
接著, 值及 值與 D t 串連成NN 224之一第一完全二維卷積層之一每像素13通道張量。網路可預測一影像 W,其中各通道係各輸入彩色影像像素之一非負浮點值。接著,系統214可建構一輸出影像 I N
在一些實施方案中,系統214可使用一多解析度混合引擎256來執行多解析度混合。多解析度混合引擎256可採用影像金字塔作為一卷積神經網路(例如224/414)之輸入,其等產生多個標度處之混合權重及與各標度相關聯之一不透明度值。在操作中,多解析度混合引擎256可採用兩級經訓練端對端卷積網路程序。引擎256可利用數個源攝影機。
合成視圖250代表具有與使用者至少部分基於經計算混合權重242存取一顯示器(例如顯示器212)相關聯之雙眼之適當視差及觀看組態之內容(例如一VR/AR物件、一使用者、一場景等等)之一3D立體影像,如本文中所描述。每當使用者在觀看顯示器時移動一頭位置時及/或每當顯示器上之一特定影像改變時,合成視圖250之至少一部分可使用系統214基於來自一神經網路(例如NN 224)之輸出來判定。在一些實施方案中,合成視圖250代表一使用者之臉及使用者之臉周圍及捕捉使用者之臉之一視圖內之使用者之其他特徵。在一些實施方案中,合成視圖250代表由與(例如)遙現系統202A相關聯之一或多個攝影機捕捉之整個視域。
在一些實施方案中,系統202及214之處理器(圖中未展示)可包含一圖形處理單元(GPU)(或與其通信)。在操作中,處理器可包含(或可取得)記憶體、儲存器及其他處理器(例如一CPU)。為促進圖形及影像產生,處理器可與GPU通信以將影像顯示於一顯示裝置(例如顯示裝置212)上。CPU及GPU可透過一高速匯流排(諸如PCI、AGP或PCI-Express)連接。GPU可透過諸如HDMI、DVI或顯示埠之另一高速介面連接至顯示器。一般而言,GPU可依一像素形式呈現影像內容。顯示裝置212可自GPU接收影像內容且可將影像內容顯示於一顯示螢幕上。
儘管圖2中未描繪,但諸如特徵圖之額外圖可提供至一或多個NN 224以產生影像內容。特徵圖可藉由分析一影像以產生影像之各像素之特徵來產生。此等特徵可用於產生特徵圖及紋理圖,其等可經提供至混合權重產生器222及/或NN 224以輔助產生混合權重242。
圖3係繪示根據本發明中所描述之實施方案之輸入影像至一目標攝影機視點之一重投影的一實例之一方塊圖。系統200可用於產生用作(例如)一NN之輸入影像之影像之重投影。扭曲一影像可包含使用融合深度(來自深度影像)針對攝影機視點來將所捕捉輸入影像132重投影至一目標攝影機視點。在一些實施方案中,輸入影像132已呈重投影影像之形式。在一些實施方案中,影像扭曲引擎220執行扭曲。
例如,影像扭曲引擎220可將一目標影像點 x302反投影至一射線。接著,影像扭曲引擎220可在與一目標攝影機308之一距離 d處找到一點 X304。接著,影像扭曲引擎220可將 X投影至一盒影像點x' 306,其與一盒攝影機310相距一距離 d'。以下方程式[1]至[3]描繪此計算: [1] [2] [3]
接著,影像扭曲引擎220可在 x'處雙線性取樣一紋理攝影機影像,如由以下方程式[4]及[5]所展示: (x) = S (x )                                                     [4] (x) = S (x )[5]
圖4係根據本發明中所描述之實施方案之用於使用神經混合技術來產生呈現於一顯示器上之合成內容之實例性流程圖400之一方塊圖。圖式400可產生經由一神經網路提供至一混合演算法之資料(例如多視圖彩色影像、雜訊遮擋提示、深度資料等等)。接著,神經網路可學習輸出混合權重。
在此實例中,可獲得(例如,接收)數個輸入影像402。例如,一系統202A可捕捉數個輸入影像402 (例如影像圖框、視訊)。輸入影像402可為彩色影像。輸入影像402亦可與在實質上相同於輸入影像之時間捕捉之深度影像相關聯。深度影像可由(例如)一紅外攝影機捕捉。
運算系統214可使用輸入影像色彩及深度影像來將輸入影像402扭曲(例如重投影)成重投影影像404。例如,扭曲引擎220可將輸入影像402重投影至代表一所要新穎視圖之一輸出視圖中。特定而言,扭曲引擎220可自輸入影像402擷取色彩且使用與輸入影像相關聯之深度視圖將色彩扭曲成輸出視圖。一般而言,各輸入影像可扭曲成一單一重投影視圖。因此,若擷取四個輸入影像,則扭曲引擎220可產生各與一單一輸入影像相關聯之四個重投影視圖。重投影影像404用作可針對一新穎合成輸出影像中之一像素選擇之候選色彩。在實質上相同於輸入影像402之時間捕捉之深度視圖可用於產生深度圖406及遮擋圖408 (類似於深度圖228及遮擋圖226)。
重投影影像404可用於產生代表像素之色彩之一加權組合之一加權和影像410。加權和影像410亦可考量一基準實況影像412。基準實況影像412可由一或多個見證攝影機捕捉。
重投影影像404、深度圖406及遮擋圖408可經提供至NN 414,NN 414在圖4中展示為具有一U-Net形狀之一卷積神經網路。當然,其他NN係可行的。在一個非限制性實例中,NN 414輸入可包含三個彩色RGB影像、一遮擋圖及一目標視圖深度圖,其等可利用約14個通道。
在一些實施方案中,數個視圖參數415亦可提供至NN 414。視圖參數415可針對一所要新穎視圖(例如影像)。視圖參數415可包含一視圖方向、一姿勢、一攝影機視角、透鏡失真及/或一攝影機(虛擬或實際攝影機)之內在及外在參數之任何者或全部。
NN 414可針對各重投影影像404產生混合權重416以判定如何組合重投影影像404之色彩以產生一準確新穎輸出影像。重投影影像404可藉由根據深度影像406將輸入影像402 (例如)扭曲成一新穎視圖來運算。NN 414可使用混合權重416及重投影影像404來產生混合紋理影像418,例如藉由使用混合權重416使重投影影像404之至少部分彼此混合。混合紋理影像418可用於產生與一輸入影像402相關聯且因此與一重投影影像404相關聯之各攝影機盒相關聯之一影像。在此實例中,三個攝影機盒用於捕捉三個彩色影像(例如輸入影像402)及三個深度影像(例如,由深度圖406代表)。因此,輸出三個對應影像視圖,如由影像420所展示。可利用影像418及影像420來合成一新穎視圖,如由合成影像422所展示。
在操作中,NN 414可使用混合權重416來判定如何組合與重投影影像404相關聯之重投影色彩以產生一準確合成影像422。NN 414可藉由在一預定義輸出視圖之空間上學習來判定混合權重。
NN 414之網路架構可為一深度神經網路,其係其中所有卷積層使用一相同填充值及一整流線性單元啟動函數之一U-Net形網路。輸出可包含三個重投影影像404之混合權重416,每攝影機盒一通道,其中輸出權重根據方程式[6]產生: W’ = 10 -2*W + ⅓ ,箝制至[0, 1]                                  [6]
圖式400可經實施以考量訓練損失。例如,一重建損失、混合彩色影像上之感知損失及一完整性損失可經判定且用於改良所得合成影像422。
在操作中,系統200可利用若干態樣來產生每像素損失值。例如,一新穎視圖影像 I N 及一紋理攝影機 i之神經混合權重 W i 可如方程式[7]中所展示般表示: [7] 且其中無輸入具有RGB值之一無效目標深度遮罩可表示為 I Mask
特定而言,一實例性損失函數可用以下方程式[8]表示: [8] 其中D:= + 表示重建及感知損失。換言之,一混合彩色影像上之重建及感知函數可如方程式[9]中所展示般表示: [9]
各x, y像素座標之一網路輸出混合權重上之完整性函數可如方程式[10]中所展示般表示: [10]
網路上之遮擋損失可如方程式[11]中所展示般表示: , if [11]
在一些實施方案中,NN 414可基於最小化由NN 414產生之合成影像422與由至少一個見證攝影機捕捉之基準實況影像412之間的一遮擋損失函數(即,方程式[8])來訓練。
圖5係根據本發明中所描述之實施方案之用於產生混合權重之一實例性流程圖之一方塊圖。此實例可採用卷積NN (例如卷積U-Net)來處理(例如)各輸入視圖之像素。一多層感知器(MLP)可用於產生混合權重以分派一所提出合成視圖之各像素。由MLP產生之混合權重可用於組合來自(若干)輸入影像/視圖之特徵。
在一些實施方案中,產生混合權重可涉及使用多解析度混合技術。多解析度混合技術採用兩級經訓練端對端卷積網路程序。技術利用數個源攝影機。例如,系統202A可自一第一攝影機盒502、一第二攝影機盒504及一第三攝影機盒506之各者捕捉一或多個輸入影像(例如RGB彩色影像)。類似地且在實質上相同時間,盒502至504可各捕捉(或計算)對應於一特定輸入影像之一深度影像。
至少三個彩色源輸入影像及至少三個源深度影像可經提供至卷積網路508A、508B及508C (例如卷積U-Net)以產生嵌入視圖相依資訊之特徵圖。例如,一或多個特徵圖(圖中未展示)可表示特徵空間中之輸入影像之特徵。特定而言,針對各輸入影像/深度影像502至504,可使用影像之提取特徵來產生一特徵圖(例如特徵圖510A、510B及510C)。在一些實施方案中,輸入影像可包含兩個彩色源影像及一單一深度影像。在此一實例中,系統500可使用單一深度影像將兩個彩色輸入影像之各者重投影至輸出視圖中。
特徵圖510A至510C可用於產生UV圖512A、512B及512C。例如,UV圖512A至512C可使用特徵圖510A至510C自輸入影像502至504中之可見內容產生。UV圖512A至512C表示一2D影像至一3D模型表面之一投影以執行紋理映射以產生可用於產生合成影像(例如新穎視圖)之特徵。輸出神經紋理保留於源攝影機影像座標中。
各自特徵圖510A至510C可各與各自UV圖512A至512C及見證攝影機參數514一起取樣。例如,系統500可使用一見證攝影機作為一目標攝影機來產生合成新穎影像。可預定義見證(例如目標)攝影機參數514。各自取樣特徵圖510A至510C及UV圖512A至512C之各者可與參數514一起使用且與遮擋圖及深度圖516一起取樣。取樣可包含使用自融合幾何(例如網格代理幾何236)預運算之UV圖512A至512C來扭曲各神經紋理之一可微分取樣層。
取樣內容可由一每像素多層感知器(MLP) NN 518使用以自所有源攝影機視圖產生取樣特徵之遮擋圖、深度圖等等。MLP 518可自圖產生一組混合權重520。例如,每像素MLP 518圖可包含來自任何數目個源攝影機視圖之取樣特徵,其等可用於產生一組混合權重520。此等混合權重520可用於產生一合成影像。
在一些實施方案中,本文中所描述之程序可併入多解析度混合技術。例如,多解析度混合技術可由(例如)多解析度混合引擎256執行且可採用影像金字塔作為一卷積神經網路(例如NN 224/414)之輸入,其等產生多個標度處之混合權重及與各標度相關聯之一不透明度值。
各標度處之輸出混合權重用於使用該標度處之輸入重投影彩色影像來建構一輸出彩色影像以形成一輸出影像金字塔。接著,此金字塔之各層級由相關聯不透明度值加權且上取樣至原始標度。接著,對所得影像組求和以建構最終輸出影像。此歸因於輸入重投影影像中存在小孔(歸因於遺漏幾何)之事實而為有利的,縮小接著放大程序用相鄰像素值填充遺漏區域。此外,程序可產生比習知混合技術在視覺上更具吸引力之一更柔和剪影。
在一些實施方案中,輸入金字塔可藉由下取樣重投影影像之雙線性重投影色彩、未預乘下取樣有效深度遮罩(例如圖)、上取樣回至一預定義(例如原始)解析度及未預乘上取樣有效深度遮罩來建立。針對各層,流程圖可添加一輸出層解碼器(用於混合權重及α),上取樣至一預定義(例如原始解析度),在一最高解析度處調整額外背景α,使用softmax函數來歸一化α,且與重投影色彩及背景混合。
多解析度混合技術採用兩級經訓練端對端卷積網路程序。針對各級,多解析度混合技術可添加(例如)一輸出層解碼器(例如,在混合權重及α損失上)。技術可運算一RGB影像,添加損失,乘以α,且串連以判定一候選RGB影像。可上取樣候選RGB影像。可使用其中考量損失之上取樣候選影像來產生一輸出影像(例如一新穎視圖/合成影像)。
在操作中,技術利用數個源攝影機。例如,系統202A可自一第一攝影機盒502、一第二攝影機盒504及一第三攝影機盒506之各者捕捉一或多個輸入影像(例如RGB彩色影像)。類似地且在實質上相同時間,盒502至504可各捕捉對應於一特定輸入影像之一深度影像。
多解析度混合可將一場景圖中之一相同3D點用於一特徵圖上之一相同點位置,不管一輸出視點如何移動。此可確保無2D卷積執行,因此,輸出包含點位置之相同混合權重,因為輸入特徵固定。
圖6係圖解根據本發明中所描述之實施方案之使用神經混合技術來產生合成內容之一程序600之一個實例的一流程圖。程序600相對於圖1及圖2之系統100及/或200及/或系統500及/或800之一實例性實施方案來描述,但應瞭解,方法可由具有其他組態之系統實施。一般而言,系統202及/或運算系統214上之一或多個處理器及記憶體可用於實施程序600。
在一高階處,程序600可利用彩色輸入影像、對應於輸入影像之深度影像及與對應於輸入影像內之內容之至少一部分之一所要新穎視圖相關聯之視圖參數。程序600可將上述元素或上述元素之版本提供至一神經網路以接收混合權重用於判定所要新穎視圖之特定像素色彩及深度。視圖可與混合權重一起用於產生一新穎輸出影像。
在區塊602中,程序600可包含接收複數個輸入影像。例如,一系統202A (或其他影像處理系統)可使用攝影機(例如攝影機204)自兩個或更多個攝影機盒捕捉輸入影像。一般而言,複數個輸入影像係根據預定義視圖參數捕捉之彩色影像。然而,在一些實施方案中,複數個輸入影像可為一單一色彩(例如深褐色、灰色或其他漸變色)之漸變影像。預定義視圖參數可包含與特定輸入影像132 (例如輸入影像402)之捕捉相關聯及/或與待產生(例如,合成)之一影像之捕捉相關聯之攝影機參數。在一些實施方案中,視圖參數可包含一視圖方向、一姿勢、一攝影機視角、透鏡失真及/或一攝影機之內在及外在參數之任何者或全部。在一些實施方案中,複數個輸入影像可包含在影像之圖框內捕捉之數個目標主體。一目標主體可包含一使用者、一背景、一前景、一實體物件、一虛擬物件、一手勢、一髮型、一可穿戴裝置等等。
在區塊604中,程序600可包含接收與複數個輸入影像之至少一者中之一目標主體相關聯之複數個深度影像。例如,在實質上相同於輸入影像(例如RGB彩色影像136)之捕捉時間,系統202A可捕捉深度影像138。深度影像可捕捉亦在複數個輸入影像之一或多者中捕捉之一目標主體。深度影像可各包含與捕捉複數個輸入影像132之至少一者之至少一個攝影機204相關聯之一深度圖(例如圖228)、至少一個遮擋圖226及與在對應於複數個輸入影像之至少一者之捕捉之一時間由至少一個見證攝影機捕捉之一基準實況影像相關聯之一深度圖(例如,經由目標視圖參數232)。簡言之,系統200可在產生目標視圖之混合權重242時考量輸入影像之一深度及一見證攝影機之所要目標視圖(或其他判定目標視圖)之一深度。
在區塊606中,程序600可包含接收複數個視圖參數用於產生目標主體之一虛擬視圖。例如,視圖參數可針對一所要新穎視圖(例如針對先前未由攝影機捕捉之一新穎(例如虛擬)視圖之一新穎合成影像)。視圖參數可包含(例如)在實質上相同於彩色影像136及深度影像138之時間捕捉內容之一見證攝影機之目標參數。視圖參數可包含預定義透鏡參數、觀看方向、姿勢及經組態以捕捉新穎視圖之一攝影機之特定內在及/或外在參數。
在區塊608中,程序600可包含基於複數個輸入影像、複數個視圖參數及複數個深度影像之至少一者來產生複數個扭曲影像。例如,影像扭曲引擎220可藉由將輸入影像132重投影成影像132之重投影版本來使用輸入影像132產生扭曲影像。扭曲可經執行以使用深度資訊(例如個別深度影像或一幾何一致表面)來判定輸入影像132之輸入色彩至一新穎視圖中之一投影。扭曲可藉由自一或多個原始輸入視圖獲得一色彩且使用深度影像(例如深度圖406及遮擋圖408)操縱一新穎視圖(例如影像)之色彩來產生重投影影像(例如影像404)。各輸入影像可用於產生一單獨重投影。重投影影像(例如影像404)可表示可用於一新穎合成影像中之候選色彩之像素。
在一些實施方案中,程序600可包含藉由使用複數個深度影像(例如深度圖406及遮擋圖408)之至少一者判定與複數個輸入影像402相關聯之色彩至一非捕捉視圖(即,一新穎視圖/影像、虛擬視圖/影像)中之候選投影來基於複數個輸入影像、複數個視圖參數及複數個深度影像之至少一者產生複數個扭曲影像。非捕捉視圖可包含複數個輸入影像之至少一者之影像特徵之至少一部分。例如,若輸入影像包含一物件,則非捕捉視圖可考量物件之至少一部分、一色彩、一像素等等。
在區塊610中,程序600可包含自一神經網路(例如NN 224、NN 414、NN 508A至508C)接收混合權重416以將色彩分派給目標主體(例如使用者104')之虛擬視圖(例如一前所未見影像/非捕捉視圖)之像素。在一些實施方案中,目標主體可包含或基於在複數個輸入影像402之至少一個圖框中捕捉之至少一個元素。混合權重416可回應於將複數個深度影像(例如深度影像138及/或深度圖406及/或遮擋圖408)、複數個視圖參數415及複數個扭曲影像(例如重投影影像404)提供至NN 414而接收。NN 414可產生混合權重416以指示組合重投影影像404之色彩以提供真實代表目標主體之一可能且逼真輸出影像之一概率方式。在一些實施方案中,混合權重416經組態以將一混合色彩分派給一虛擬視圖(即,一新穎及/或前所未見及/或先前非捕捉視圖)之各像素以導致此等混合色彩分派給一輸出合成影像(例如合成影像422)。例如,混合權重416用於使重投影影像404之至少部分彼此混合。
在區塊612中,程序600可包含基於混合權重及虛擬視圖來根據視圖參數產生一合成影像。合成影像422可代表使用針對一非捕捉視圖(例如非由實體攝影機捕捉、產生為來自一虛擬或實體攝影機之一虛擬視圖等等)之參數捕捉之一影像,其可代表前所未見(例如,非由攝影機系統之任何攝影機捕捉,而是合成的)之一視圖。合成影像422可針對三維(例如遙現)視訊會議及/或在三維(例如遙現)視訊會議期間產生。例如,合成影像422可在一視訊會議期間即時產生以提供由與視訊會議相關聯之攝影機捕捉之一使用者或內容之經誤差校正且準確影像。在一些實施方案中,合成影像422代表針對三維視訊會議產生之一新穎視圖。在一些實施方案中,合成影像代表針對三維視訊會議產生之目標主體之一非捕捉視圖。
在操作中,根據視圖參數將混合權重應用於虛擬視圖中之像素。所得虛擬視圖可包含使用目標主體之混合權重產生之像素色彩。虛擬視圖之上色影像可用於根據與(例如)一虛擬攝影機相關聯之視圖參數來產生合成視圖。
在一些實施方案中,程序600可另外執行幾何融合程序。在一些實施方案中,程序600可執行幾何融合程序而非提供具有輸入影像之個別深度影像。例如,程序600可對複數個深度影像使用一幾何融合程序來重建一致表面(例如一幾何代理)以產生一幾何融合模型。
幾何融合模型可用於用深度影像資料之經更新(例如經計算)視圖替換深度影像資料之多個視圖(例如影像內容之所捕捉深度視圖)。經更新深度視圖可產生為含有來自所捕捉深度視圖之深度資料且另外含有來自影像內容之任何其他可用之所捕捉深度視圖之各者之影像及/或深度資訊之影像內容之視圖。經更新深度視圖之一或多者可由(例如) NN 414用於合成額外(及新)混合權重以藉由利用幾何融合深度影像資料及/或與物件之多個其他視圖相關聯之影像及/或深度資訊來合成物件之額外(及新)視圖。深度影像資料可使用任何數目個演算法來融合以由併入來自若干其他深度視圖之深度資料資訊之一新深度視圖替換各(輸入)深度視圖。在一些實施方案中,幾何融合模型可由系統200用於產生可用於推理遮擋以校正此等遮擋損失之深度資料(例如深度圖)。
接著,程序600可基於複數個輸入影像及一致表面來產生複數個重投影影像,一致表面用於產生幾何融合深度影像資料且將幾何融合深度影像資料(以及複數個視圖參數415及複數個重投影影像404)提供至NN 414。作為回應,程序600可包含自NN 414接收混合權重416及使用一致表面深度影像資料產生之額外混合權重以將色彩分派給合成影像422中之像素。
在一些實施方案中,程序600可進一步包含將幾何融合模型與在複數個深度影像中觀察到之一深度之間的一深度差提供至NN 414。深度差可用於校正(例如)在合成影像422中偵測到之遮擋。在一些實施方案中,NN 414可基於最小化由NN 414產生之合成影像與由至少一個見證攝影機(例如,與系統202A相關聯)捕捉之一基準實況影像412之間的一遮擋損失函數來訓練,如相對於圖4所詳細描述。在一些實施方案中,程序400可使用一單一深度影像而非複數個深度影像實施。
在一些實施方案中,NN 414經進一步組態以執行多解析度混合以將像素色彩分派給一合成影像中之像素。在操作中,多解析度混合可觸發使影像金字塔作為輸入提供至NN 414以觸發自NN 414接收複數個標度之多解析度混合權重(例如額外混合權重520)且可另外接收與各標度相關聯之一不透明度值。
圖7展示一電腦裝置700及一行動電腦裝置750之一實例,其等可與所描述技術一起使用。運算裝置700可包含一處理器702、記憶體704、一儲存裝置706、連接至記憶體704及高速擴充埠710之一高速介面708及連接至低速匯流排714及儲存裝置706之一低速介面712。組件702、704、706、708、710及712使用各種匯流排來互連,且可安裝於一共同母板上或視需要依其他方式安裝。處理器702可處理用於在運算裝置700內執行之指令(包含儲存於記憶體704中或儲存裝置706上之指令)以將一GUI之圖形資訊顯示於一外部輸入/輸出裝置(諸如耦合至高速介面708之顯示器716)上。在一些實施例中,多個處理器及/或多個匯流排可視需要與多個記憶體及記憶體類型一起使用。另外,可連接多個運算裝置700,其中各裝置提供所需操作之部分(例如,作為一伺服器組、一刀鋒伺服器群組或一多處理器系統)。
記憶體704儲存運算裝置700內之資訊。在一個實施例中,記憶體704係一或若干揮發性記憶體單元。在另一實施例中,記憶體704係一或若干非揮發性記憶體單元。記憶體704亦可為另一形式之電腦可讀媒體,諸如一磁碟或光碟。
儲存裝置706可提供運算裝置700之大容量儲存。在一個實施例中,儲存裝置706可為或含有一電腦可讀媒體,諸如一軟碟裝置、一硬碟裝置、一光碟裝置或一磁帶裝置、一快閃記憶體或其他類似固態記憶體裝置或一裝置陣列(包含一儲存區域網路中之裝置或其他組態)。一電腦程式產品可有形地體現於一資訊載體中。電腦程式產品亦可含有在被執行時執行一或多個方法(諸如本文中所描述之方法)之指令。資訊載體係一電腦或機器可讀媒體,諸如記憶體704、儲存裝置706或處理器702上之記憶體。
高速控制器708管理運算裝置700之頻寬密集操作,而低速控制器712管理較低頻寬密集操作。此功能分配僅供例示。在一個實施例中,高速控制器708耦合至記憶體704、顯示器716 (例如,透過一圖形處理器或加速度計)及高速擴充埠710 (其可接受各種擴充卡(圖中未展示))。低速控制器712可耦合至儲存裝置706及低速擴充埠714。可包含各種通信埠(例如USB、藍牙、乙太網路、無線乙太網路)之低速擴充埠可(例如)透過一網路轉接器耦合至一或多個輸入/輸出裝置,諸如一鍵盤、一指標裝置、一掃描器或一聯網裝置,諸如一交換機或路由器。
運算裝置700可依諸多不同形式實施,如圖中所展示。例如,其可實施為一標準伺服器720,或在一群組之此等伺服器中多次實施。其亦可實施為一機架伺服器系統724之部分。另外,其可實施於諸如一膝上型電腦722之一個人電腦中。替代地,來自運算裝置700之組件可與一行動裝置(圖中未展示)(諸如裝置750)中之其他組件組合。此等裝置之各者可含有運算裝置700、750之一或多者,且整個系統可由彼此通信之多個運算裝置700、750組成。
運算裝置750包含處理器752、記憶體764、一輸入/輸出裝置(諸如一顯示器754)、通信介面766及收發器768以及其他組件。裝置750亦可具有用於提供額外儲存之一儲存裝置,諸如一微型硬碟或其他裝置。組件750、752、764、754、766及768之各者使用各種匯流排來互連,且若干組件可安裝於一共同母板上或視需要依其他方式安裝。
處理器752可執行運算裝置750內之指令,包含儲存於記憶體764中之指令。處理器可實施為包含單獨及多個類比及數位處理器之晶片之一晶片組。處理器可提供(例如)裝置750之其他組件之協調,諸如使用者介面之控制、由裝置750運行之應用程式及裝置750之無線通信。
處理器752可透過耦合至顯示器754之控制介面758及顯示介面756與一使用者通信。顯示器754可為(例如)一TFT LCD (薄膜電晶體液晶顯示器)或一OLED (有機發光二極體)顯示器或其他適當顯示技術。顯示介面756可包括用於驅動顯示器754向一使用者呈現圖形及其他資訊之適當電路系統。控制介面758可自一使用者接收命令且將其轉換以提交給處理器752。另外,外部介面762可與處理器752通信以使裝置750能夠與其他裝置近區域通信。外部介面762可提供(例如)有線或無線通信,在一些實施例中,可使用多個介面。
記憶體764儲存運算裝置750內之資訊。記憶體764可實施為一或若干電腦可讀媒體、一或若干揮發性記憶體單元或一或若干非揮發性記憶體單元之一或多者。擴充記憶體784亦可經提供且透過擴充介面782連接至裝置750,擴充介面782可包含(例如)一SIMM (單列直插記憶體模組)卡介面。此擴充記憶體784可提供裝置750之額外儲存空間,或亦可儲存裝置750之應用程式或其他資訊。明確而言,擴充記憶體784可包含用於實施或補充上述程序之指令,且亦可包含安全資訊。因此,例如,擴充記憶體784可為裝置750之一安全模組,且可用容許裝置750安全使用之指令程式化。另外,安全應用程式可經由SIMM卡與額外資訊一起提供,諸如依一不可破解方式將識別資訊放置於SIMM卡上。
記憶體可包含(例如)快閃記憶體及/或NVRAM記憶體,如下文將討論。在一個實施例中,一電腦程式產品有形地體現於一資訊載體中。電腦程式產品含有在被執行時執行一或多個方法(諸如上述方法)之指令。資訊載體係可(例如)通過收發器768或外部介面762接收之一電腦或機器可讀媒體,諸如記憶體764、擴充記憶體784或處理器752上之記憶體。
裝置750可透過通信介面766無線通信,通信介面766可根據需要包含數位信號處理電路系統。通信介面766可提供各種模式或協定下之通信,諸如GSM語音呼叫、SMS、EMS或MMS傳訊、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。此等通信可(例如)透過射頻收發器768發生。另外,可發生短程通信,諸如使用一藍牙、Wi-Fi或其他此收發器(圖中未展示)。另外,GPS (全球定位系統)接收器模組770可向裝置750提供額外導航及位置相關無線資料,其可視需要由在裝置750上運行之應用程式使用。
裝置750亦可使用音訊編解碼器760聽覺通信,音訊編解碼器760可自一使用者接收口語資訊且將其轉換成可用數位資訊。音訊編解碼器760亦可產生一使用者可聽之聲音,諸如透過(例如)裝置750之一聽筒中之一揚聲器。此聲音可包含來自語音電話呼叫之聲音,可包含記錄聲音(例如語音訊息、音樂檔案等等),且亦可包含由在裝置750上運行之應用程式產生之聲音。
運算裝置750可依諸多不同形式實施,如圖中所展示。例如,其可實施為蜂巢式電話780。其亦可實施為智慧型電話783、個人數位助理或其他類似行動裝置之部分。
此處所描述之系統及技術之各種實施方案可在數位電子電路系統、積體電路系統、專門設計之ASIC (專用積體電路)、電腦硬體、韌體、軟體及/或其等之組合中實現。此等各種實施方案可包含可在一可程式化系統上執行及/或解譯之一或多個電腦程式中之實施方案,可程式化系統包含至少一個可程式化處理器,其可為專用或通用的、經耦合以自一儲存系統、至少一個輸入裝置及至少一個輸出裝置接收資料及指令及將資料及指令傳輸至一儲存系統、至少一個輸入裝置及至少一個輸出裝置。
此等電腦程式(亦稱為程式、軟體、軟體應用程式或程式碼)包含用於一可程式化處理器之機器指令,且可以一高階程序及/或物件導向程式設計語言及/或組合/機器語言實施。如本文中所使用,術語「機器可讀媒體」、「電腦可讀媒體」係指用於將機器指令及/或資料提供至一可程式化處理器之任何電腦程式產品、設備及/或裝置(例如磁碟、光碟、記憶體、可程式化邏輯裝置(PLD)),其包含接收機器指令作為一機器可讀信號之一機器可讀媒體。術語「機器可讀信號」係指用於將機器指令及/或資料提供至一可程式化處理器之任何信號。
為提供與一使用者之互動,可在一電腦上實施此處所描述之系統及技術,電腦具有用於將資訊顯示給使用者之一顯示裝置(例如一CRT (陰極射線管)或LCD (液晶顯示器)監視器)及使用者可藉由其將輸入提供至電腦之一鍵盤及一指標裝置(例如一滑鼠或一軌跡球)。其他種類之裝置亦可用於提供與一使用者之互動;例如,提供至使用者之回饋可為任何形式之感覺回饋(例如視覺回饋、聽覺回饋或觸覺回饋);且來自使用者之輸入可依任何形式接收,包含聲學、語音或觸覺輸入。
此處所描述之系統及技術可實施於一運算系統中,運算系統包含一後端組件(例如作為一資料伺服器),或包含一中間體組件(例如一應用伺服器),或包含一前端組件(例如具有一使用者可透過其來與此處所描述之系統及技術之一實施例互動之一圖形使用者介面或一網頁瀏覽器之一用戶端電腦)或此等後端、中間體或前端組件之任何組合。系統之組件可藉由任何形式或媒體之數位資料通信(例如一通信網路)互連。通信網路之實例包含一區域網路(「LAN」)、一廣域網路(「WAN」)及網際網路。
運算系統可包含用戶端及伺服器。一用戶端及伺服器一般彼此遠離且通常透過一通信網路互動。用戶端與伺服器之關係由運行於各自電腦上且彼此具有一用戶端-伺服器關係之電腦程式引起。
在一些實施例中,圖7中所描繪之運算裝置可包含與一虛擬實境耳機(VR耳機/HMD裝置790)介接之感測器。例如,包含於運算裝置750或圖7中所描繪之其他運算裝置上之一或多個感測器可提供VR耳機790之輸入或一般提供一VR空間之輸入。感測器可包含(但不限於)一觸控螢幕、加速度計、陀螺儀、壓力感測器、生物測定感測器、溫度感測器、濕度感測器及環境光感測器。運算裝置750可使用感測器來判定運算裝置在VR空間中之一絕對位置及/或一偵測旋轉,其接著可用作VR空間之輸入。例如,運算裝置750可併入至VR空間中作為一虛擬物件,諸如一控制器、一雷射指示器、一鍵盤、一工具等等。在併入至VR空間中時由使用者定位運算裝置/虛擬物件可允許使用者定位運算裝置以在VR空間中依特定方式觀看虛擬物件。
在一些實施例中,包含於運算裝置750上或連接至運算裝置750之一或多個輸入裝置可用作VR空間之輸入。輸入裝置可包含(但不限於)一觸控螢幕、一鍵盤、一或多個按鈕、一軌跡墊、一觸控板、一指標裝置、一滑鼠、一軌跡球、一操縱桿、一攝影機、一麥克風、具有輸入功能之耳機或耳塞式耳機、一遊戲控制器或其他可連接輸入裝置。在運算裝置併入至VR空間中時一使用者與包含於運算裝置750上之一輸入裝置互動可引起在VR空間中發生一特定動作。
在一些實施例中,包含於運算裝置750上之一或多個輸出裝置可向VR空間中之VR耳機790之一使用者提供輸出及/或回饋。輸出及回饋可為視覺、觸覺或音訊。輸出及/或回饋可包含(但不限於)渲染VR空間或虛擬環境、振動,接通及切斷或閃動及/或閃爍一或多個燈或閃光條、發出一警報聲、播放一諧音、播放一歌曲及播放一音訊檔案。輸出裝置可包含(但不限於)振動馬達、振動線圈、壓電裝置、靜電裝置、發光二極體(LED)、閃光條及揚聲器。
在一些實施例中,運算裝置750可放置於VR耳機790內以產生一VR系統。VR耳機790可包含允許運算裝置750 (諸如智慧型電話783)放置於VR耳機790內之適當位置中之一或多個定位元件。在此等實施例中,智慧型電話783之顯示器可呈現代表VR空間或虛擬環境之立體影像。
在一些實施例中,運算裝置750可呈現為一電腦產生之3D環境中之另一物件。使用者與運算裝置750之互動(例如旋轉、搖動、觸控一觸控螢幕、在一觸控螢幕上滑動一手指)可被解譯為與VR空間中之物件互動。僅作為一個實例,一運算裝置可為一雷射指示器。在此一實例中,運算裝置750呈現為電腦產生之3D環境中之一虛擬雷射指示器。當使用者操縱運算裝置750時,VR空間中之使用者看見雷射指示器之移動。使用者在運算裝置750或VR耳機790上之VR環境中自與運算裝置750之互動接收回饋。
在一些實施例中,一運算裝置750可包含一觸控螢幕。例如,一使用者可依可用在VR空間中發生之事情模擬在觸控螢幕上發生之事情之一特定方式與觸控螢幕互動。例如,一使用者可使用一捏縮式運動來縮放顯示於觸控螢幕上之內容。觸控螢幕上之此捏縮式運動可引起提供於VR空間中之資訊縮放。在另一實例中,運算裝置可呈現為一電腦產生之3D環境中之一虛擬書。在VR空間中,書頁可顯示於VR空間中且使用者之一手指在觸控螢幕上滑動可被解譯為翻動/翻轉虛擬書之一頁。當翻動/翻轉各頁時,除看到頁內容改變之外,使用者亦可被提供音訊回饋,諸如翻動一書頁之聲音。
在一些實施例中,除運算裝置之外的一或多個輸入裝置(例如一滑鼠、一鍵盤)可呈現於一電腦產生之3D環境中。所呈現輸入裝置(例如所呈現滑鼠、所呈現鍵盤)可用作呈現於VR空間中以控制VR空間中之物件。
運算裝置700意欲代表各種形式之數位電腦,諸如膝上型電腦、桌上型電腦、工作台、個人數位助理、伺服器、刀鋒伺服器、主機及其他適合電腦。運算裝置750意欲代表各種形式之行動裝置,諸如個人數位助理、蜂巢式電話、智慧型電話及其他類似運算裝置。此處所展示之組件、其連接及關係及其功能僅意謂例示,而非意謂限制所揭示實施例。
另外,圖中所描繪之邏輯流程無需所展示之特定順序或循序順序來達成所要結果。另外,可提供其他步驟,或可自所描述流程消除步驟,且其他組件可添加至所描述系統或自所描述系統移除。因此,其他實施例在以下申請專利範圍之範疇內。
100:3D內容系統 102:第一使用者 102':3D影像 104:第二使用者 104':3D影像 106:3D系統 108:3D系統 110:3D顯示器 112:3D顯示器 114:網路 116:攝影機 118:攝影機 119:見證攝影機 120:攝影機 121:見證攝影機 122:攝影機 124:攝影機/深度感測器 126:攝影機/深度感測器 128A:光束 128B:光束 130A:光束 130B:光束 132:輸入影像 134:見證攝影機影像 136:RGB彩色影像 138:深度影像 140:神經網路(NN)混合演算法 200:系統 202:3D系統 202A:3D系統 202B至202N:3D系統 204:攝影機 206:深度感測器 208:麥克風 210:揚聲器 212:3D顯示器 214:運算系統 216:影像處理器 218:視圖參數 220:影像扭曲引擎 222:混合權重產生器 224:NN 226:遮擋圖 228:深度圖 230:UV圖 232:目標視圖參數 234:損失函數 236:網格代理幾何 238:混合演算法 240:可見度分數 242:混合權重 244:嵌入器網路 246:產生器網路 248:神經渲染器 250:合成視圖 252:影像校正引擎 254:修補器 256:多解析度混合引擎 302:目標影像點x 304:點X 306:盒影像點x' 308:目標攝影機 310:盒攝影機 400:流程圖 402:輸入影像 404:重投影影像 406:深度圖 408:遮擋圖 410:加權和影像 412:基準實況影像 414:NN 415:視圖參數 416:混合權重 418:混合紋理影像 420:影像 422:合成影像 500:系統 502:第一攝影機盒/輸入影像/深度影像 504:第二攝影機盒/輸入影像/深度影像 506:第三攝影機盒/輸入影像/深度影像 508A:卷積網路 508B:卷積網路 508C:卷積網路 510A:特徵圖 510B:特徵圖 510C:特徵圖 512A:UV圖 512B:UV圖 512C:UV圖 514:見證攝影機參數 516:遮擋圖及深度圖 518:每像素多層感知器(MLP) 520:混合權重 600:程序 602:區塊 604:區塊 606:區塊 608:區塊 610:區塊 612:區塊 700:電腦裝置/運算裝置 702:處理器 704:記憶體 706:儲存裝置 708:高速介面/高速控制器 710:高速擴充埠 712:低速介面/低速控制器 714:低速匯流排/低速擴充埠 716:顯示器 720:標準伺服器 722:膝上型電腦 724:機架伺服器系統 750:行動電腦裝置/運算裝置 752:處理器 754:顯示器 756:顯示介面 758:控制介面 760:音訊編解碼器 762:外部介面 764:記憶體 766:通信介面 768:收發器 770:GPS(全球定位系統)接收器模組 780:蜂巢式電話 782:擴充介面 783:智慧型電話 784:擴充記憶體 790:VR耳機/HMD裝置
圖1係繪示根據本發明中所描述之實施方案之用於將合成內容顯示於一顯示裝置上之一實例性3D內容系統的一方塊圖。
圖2係根據本發明中所描述之實施方案之用於合成在一顯示器上呈現之內容之一實例性系統之一方塊圖。
圖3係繪示根據本發明中所描述之實施方案之將輸入影像重投影至一目標攝影機視點的一實例之一方塊圖。
圖4係根據本發明中所描述之實施方案之用於使用神經混合技術來產生在一顯示器上呈現之合成內容之實例性流程圖之一方塊圖。
圖5係根據本發明中所描述之實施方案之用於產生混合權重之一實例性流程圖之一方塊圖。
圖6係圖解根據本發明中所描述之實施方案之使用神經混合技術來產生合成內容之一程序之一個實例的一流程圖。
圖7展示可與本文中所描述之技術一起使用之一電腦裝置及一行動電腦裝置之一實例。
各種圖式中之相同元件符號指示相同元件。
132:輸入影像
200:系統
202:3D系統
202A:3D系統
202B至202N:3D系統
204:攝影機
206:深度感測器
208:麥克風
210:揚聲器
212:3D顯示器
214:運算系統
216:影像處理器
218:視圖參數
220:影像扭曲引擎
222:混合權重產生器
224:神經網路(NN)
226:遮擋圖
228:深度圖
230:UV圖
232:目標視圖參數
234:損失函數
236:網格代理幾何
238:混合演算法
240:可見度分數
242:混合權重
244:嵌入器網路
246:產生器網路
248:神經渲染器
250:合成視圖
252:影像校正引擎
254:修補器
256:多解析度混合引擎

Claims (21)

  1. 一種電腦實施方法,其包括:接收複數個輸入影像;接收與該複數個輸入影像之至少一者中之一目標主體相關聯之複數個深度影像;接收複數個視圖參數用於產生該目標主體之一虛擬視圖;基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生複數個扭曲影像(warped images);回應於將該複數個深度影像、該複數個視圖參數及該複數個扭曲影像提供至一神經網路,自該神經網路接收混合權重以將色彩分派給該目標主體之該虛擬視圖之像素;及基於該等混合權重及該虛擬視圖來根據該等視圖參數產生一合成影像。
  2. 如請求項1之電腦實施方法,其進一步包括:對該複數個深度影像使用一幾何融合程序來重建一致表面以產生一幾何融合模型;基於該複數個輸入影像及該一致表面來產生複數個重投影影像;及回應於將該複數個深度影像、該複數個視圖參數及該複數個重投影影像提供至該神經網路,自該神經網路接收額外混合權重以將色彩分派給該合成影像中之像素。
  3. 如請求項2之電腦實施方法,其進一步包括將該幾何融合模型與在該複數個深度影像中觀察到之一深度之間的一深度差提供至該神經網路,且該方法進一步包括基於該深度差來校正在該合成影像中偵測到之遮擋。
  4. 如請求項1至3中任一項之電腦實施方法,其中:該複數個輸入影像係根據與捕捉該複數個輸入影像之至少一個攝影機相關聯之預定義視圖參數捕捉之彩色影像;及/或該複數個深度影像各包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與由至少一個見證攝影機在對應於該複數個輸入影像之至少一者之捕捉之一時間捕捉之一基準實況影像相關聯之一深度圖。
  5. 如請求項1至3中任一項之電腦實施方法,其中該等混合權重經組態以將一混合色彩分派給該合成影像之各像素。
  6. 如請求項1至3中任一項之電腦實施方法,其中該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。
  7. 如請求項1至3中任一項之電腦實施方法,其中該合成影像係針對三維視訊會議產生之該目標主體之一非捕捉視圖。
  8. 如請求項1至3中任一項之電腦實施方法,其中基於該複數個輸入影 像、該複數個視圖參數及該複數個深度影像之至少一者來產生該複數個扭曲影像包含使用該複數個深度影像之該至少一者來判定與該複數個輸入影像相關聯之色彩至一非捕捉視圖中之候選投影,該非捕捉視圖包含該複數個輸入影像之至少一者之影像特徵之至少一部分。
  9. 一種用於實施如請求項1至8中任一項之方法之影像處理系統,該系統包括:至少一個處理裝置;及一記憶體,其儲存在被執行時引起該系統執行包含以下之操作之指令:接收由該影像處理系統捕捉之複數個輸入影像;接收由該影像處理系統捕捉之複數個深度影像;接收與該複數個輸入影像之至少一者相關聯之一非捕捉視圖相關聯之複數個視圖參數;基於該複數個輸入影像、該複數個視圖參數及該複數個深度影像之至少一者來產生複數個扭曲影像;回應於將該複數個深度影像、該複數個視圖參數及該複數個扭曲影像提供至一神經網路,自該神經網路接收混合權重以將色彩分派給該非捕捉視圖之像素;及根據該等混合權重來產生一合成影像,其中該合成影像對應於該非捕捉視圖。
  10. 如請求項9之影像處理系統,其中: 該複數個輸入影像係由該影像處理系統根據與該影像處理系統相關聯之預定義視圖參數來捕捉之彩色影像;及/或該複數個深度影像包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與該影像處理系統之一見證攝影機相關聯之一深度圖。
  11. 如請求項9或10之影像處理系統,其中該等混合權重經組態以將一混合色彩分派給該合成影像之各像素。
  12. 如請求項9或10之影像處理系統,其中該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。
  13. 如請求項9或10之影像處理系統,其中該合成影像係針對三維視訊會議產生之一新穎視圖。
  14. 一種非暫時性機器可讀媒體,其上儲存有指令,該等指令在由一處理器執行時引起一運算裝置:接收複數個輸入影像;接收與該複數個輸入影像之至少一者中之一目標主體相關聯之複數個深度影像;接收複數個視圖參數用於產生該目標主體之一虛擬視圖;對該複數個深度影像使用一幾何融合程序來重建一一致表面 (consensus surface)以產生該目標主體之一幾何融合模型;基於該複數個輸入、該複數個視圖參數及該一致表面來產生複數個重投影影像(reprojected images);回應於將該複數個深度影像、該複數個視圖參數及該複數個重投影影像提供至一神經網路,自該神經網路接收混合權重以將色彩分派給該目標主體之該虛擬視圖之像素;及基於該等混合權重及該虛擬視圖來根據該等視圖參數產生一合成影像。
  15. 如請求項14之非暫時性機器可讀媒體,其進一步包括:將該幾何融合模型與在該複數個深度影像中觀察到之一深度之間的一深度差提供至該神經網路及基於該深度差來校正在該合成影像中偵測到之遮擋。
  16. 如請求項14或15之非暫時性機器可讀媒體,其中:該複數個輸入影像係根據與捕捉該複數個輸入影像之至少一個攝影機相關聯之預定義視圖參數捕捉之彩色影像;及/或該複數個深度影像包含與捕捉該複數個輸入影像之至少一者之至少一個攝影機相關聯之一深度圖、至少一個遮擋圖及/或與由至少一個見證攝影機在對應於該複數個輸入影像之至少一者之捕捉之一時間捕捉之一基準實況影像相關聯之一深度圖。
  17. 如請求項14或15之非暫時性機器可讀媒體,其中該等混合權重經組 態以將一混合色彩分派給該合成影像之各像素。
  18. 如請求項14或15之非暫時性機器可讀媒體,其中該神經網路基於最小化由該神經網路產生之該合成影像與由至少一個見證攝影機捕捉之一基準實況影像之間的一遮擋損失函數來訓練。
  19. 如請求項14或15之非暫時性機器可讀媒體,其中該合成影像係用於三維視訊會議之一新穎視圖。
  20. 如請求項14或15之非暫時性機器可讀媒體,其中該神經網路經進一步組態以執行多解析度混合以將像素色彩分派給該合成影像中之像素,該多解析度混合觸發使影像金字塔作為輸入提供至該神經網路以觸發自該神經網路接收複數個標度之多解析度混合權重及與各標度相關聯之一不透明度值。
  21. 如請求項14或15之非暫時性機器可讀媒體,其中該等指令在由該處理器執行時引起該運算裝置實施如請求項1至8中任一項之方法。
TW110147092A 2021-04-08 2021-12-16 用於新穎視圖合成之神經混合 TWI813098B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/US2021/070362 WO2022216333A1 (en) 2021-04-08 2021-04-08 Neural blending for novel view synthesis
WOPCT/US21/70362 2021-04-08

Publications (2)

Publication Number Publication Date
TW202240530A TW202240530A (zh) 2022-10-16
TWI813098B true TWI813098B (zh) 2023-08-21

Family

ID=75625694

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110147092A TWI813098B (zh) 2021-04-08 2021-12-16 用於新穎視圖合成之神經混合

Country Status (7)

Country Link
US (1) US20220398705A1 (zh)
EP (1) EP4091141A1 (zh)
JP (1) JP7519390B2 (zh)
KR (1) KR102612529B1 (zh)
CN (1) CN115529835A (zh)
TW (1) TWI813098B (zh)
WO (1) WO2022216333A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220146900A (ko) * 2021-04-26 2022-11-02 삼성전자주식회사 휘도 데이터를 이용하여 심도 정보를 생성하는 처리 회로를 포함하는 전자 장치, 및 심도 정보 생성 방법
US20230196662A1 (en) * 2021-12-20 2023-06-22 Nvidia Corporation Image blending using one or more neural networks
US20230252714A1 (en) * 2022-02-10 2023-08-10 Disney Enterprises, Inc. Shape and appearance reconstruction with deep geometric refinement
EP4411654A1 (en) * 2023-02-01 2024-08-07 Koninklijke Philips N.V. Estimating colour and depth in image
KR102648938B1 (ko) * 2023-02-15 2024-03-19 고려대학교 산학협력단 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140160239A1 (en) * 2012-12-06 2014-06-12 Dihong Tian System and method for depth-guided filtering in a video conference environment
TW202040505A (zh) * 2019-02-21 2020-11-01 美商菲絲博克科技有限公司 具有基於機器學習的著色器的圖形處理晶片
CN112614060A (zh) * 2020-12-09 2021-04-06 深圳数联天下智能科技有限公司 人脸图像头发渲染方法、装置、电子设备和介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7965902B1 (en) * 2006-05-19 2011-06-21 Google Inc. Large-scale image processing using mass parallelization techniques
CN102239506B (zh) * 2008-10-02 2014-07-09 弗兰霍菲尔运输应用研究公司 中间视合成和多视点数据信号的提取
US20160142700A1 (en) * 2014-11-19 2016-05-19 Ginni Grover Measuring Accuracy of Image Based Depth Sensing Systems
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images
CN108510573B (zh) * 2018-04-03 2021-07-30 南京大学 一种基于深度学习的多视点人脸三维模型重建的方法
US10893250B2 (en) * 2019-01-14 2021-01-12 Fyusion, Inc. Free-viewpoint photorealistic view synthesis from casually captured video
US10930054B2 (en) * 2019-06-18 2021-02-23 Intel Corporation Method and system of robust virtual view generation between camera views
CN110602476B (zh) * 2019-08-08 2021-08-06 南京航空航天大学 一种基于深度信息辅助的高斯混合模型的空洞填补方法
CN112541972B (zh) * 2019-09-23 2024-05-14 华为技术有限公司 一种视点图像处理方法及相关设备
US11928787B2 (en) * 2020-07-29 2024-03-12 Intel Corporation Deep novel view synthesis from unstructured input

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140160239A1 (en) * 2012-12-06 2014-06-12 Dihong Tian System and method for depth-guided filtering in a video conference environment
TW202040505A (zh) * 2019-02-21 2020-11-01 美商菲絲博克科技有限公司 具有基於機器學習的著色器的圖形處理晶片
CN112614060A (zh) * 2020-12-09 2021-04-06 深圳数联天下智能科技有限公司 人脸图像头发渲染方法、装置、电子设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
期刊 Hedman P., Philip J., Price T., Frahm J. M., Drettakis G.,Brostow G. Deep blending for free-viewpoint image-based rendering Vol.37,No. 6,Article 257 ACM Transactions on Graphics (TOG) November 2018 *

Also Published As

Publication number Publication date
TW202240530A (zh) 2022-10-16
KR102612529B1 (ko) 2023-12-11
US20220398705A1 (en) 2022-12-15
EP4091141A1 (en) 2022-11-23
CN115529835A (zh) 2022-12-27
KR20220140402A (ko) 2022-10-18
WO2022216333A1 (en) 2022-10-13
JP2023524326A (ja) 2023-06-12
JP7519390B2 (ja) 2024-07-19

Similar Documents

Publication Publication Date Title
US12026833B2 (en) Few-shot synthesis of talking heads
TWI813098B (zh) 用於新穎視圖合成之神經混合
EP3959688B1 (en) Generative latent textured proxies for object category modeling
EP3057066B1 (en) Generation of three-dimensional imagery from a two-dimensional image using a depth map
US20130321396A1 (en) Multi-input free viewpoint video processing pipeline
CN107810633A (zh) 立体渲染系统
GB2582393A (en) Method and system for generating an image of a subject in a scene
KR20230146649A (ko) 암시적 방사 함수를 사용하여 컬러 및 적외선 3차원 재구성
CN107562185B (zh) 一种基于头戴vr设备的光场显示系统及实现方法
US20230316810A1 (en) Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems
Thatte et al. Real-World Virtual Reality With Head-Motion Parallax
US20220232201A1 (en) Image generation system and method
WO2024174050A1 (zh) 视频通信方法和装置
US20230396751A1 (en) Sender-side geometric fusion of depth data
Thatte Cinematic virtual reality with head-motion parallax
Bakstein et al. Omnidirectional image-based rendering