TW202310614A

TW202310614A - 影像產生

Info

Publication number: TW202310614A
Application number: TW111124277A
Authority: TW
Inventors: 克莉斯汀維爾甘; 吉斯特巴索洛米斯威爾赫摩斯黛米安納斯凡
Original assignee: 荷蘭商皇家飛利浦有限公司
Priority date: 2021-06-29
Filing date: 2022-06-29
Publication date: 2023-03-01
Also published as: CN117616760A; EP4114008A1; CA3225432A1; WO2023274879A1; KR20240026222A

Abstract

一種設備包含一接收器(601)，該接收器接收用於一真實世界場景的所擷取視訊資料且與一擷取姿勢區域連結；一儲存器(615)儲存該真實世界場景之一3D網格模型。一演現器(605)產生用於該觀看姿勢之一視區(viewport)的一輸出影像。該演現器(605)包含：一第一電路(607)，其經配置以藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像的第一影像資料；及一第二電路(609)，其經配置以回應於該三維網格模型而判定用於該輸出影像之一第一區域的第二影像資料。第三電路(611)產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料。第四電路(613)基於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。

Description

影像產生

本發明係關於一種影像產生方法，且具體而言，係關於一種用於針對不同視點產生一三維視訊信號之影像。

近年來，影像及視訊應用之種類及範圍實質上增加，且持續發展及推出利用及消耗視訊及影像的新服務及方式。

例如，一項越來越普遍的服務是以使觀看者能夠主動及動態地與場景之視圖互動方式提供影像序列，使得該觀看者可改變場景中的觀看位置或方向，其中調適所呈現的視訊適以從該經改變的位置或方向呈現視圖。

三維視訊擷取、分布、及呈現在一些應用及服務中正變得日益普遍且係所欲的。一種特定方法稱為沉浸式視訊且一般包括提供真實世界場景的視圖，且常提供即時事件，其允許觀看者小幅移動，諸如相對小的頭部移動及旋轉。例如，允許在觀看者的小幅頭部移動之後以本端用戶端為基礎產生視圖的即時視訊廣播（例如運動事件）可提供使用者坐在看台區觀看運動賽事的印象。使用者可例如環視四周並將得到自然體驗，類似於身臨看台區中該位置處的現場觀眾體驗。近來，具有支援以3D擷取真實世界場景為基礎之應用的定位追蹤與3D互動之顯示裝置已漸趨普遍。此類顯示裝置高度適用於提供經增強三維使用者體驗的沉浸式視訊應用。

為提供此一真實世界場景服務，場景一般係從不同位置擷取，並與不同的攝影機擷取姿勢一起使用。因此，多攝影機擷取及例如6DoF（6個自由度(degree of freedom)）處理的相關性及重要性正迅速提升。應用包括現場直播音樂會、現場直播運動、及擬真視訊會議系統(telepresence)。相較於一般影片，自由選擇自身視點增加親臨感而使這些應用更豐富。此外，可構思出沉浸式情境，一觀看者可在其中瀏覽所擷取的即時播送場景並與該場景進行互動。對於廣播應用，這可能需要在生產側的即時深度估計及在用戶端裝置處的即時視圖合成。深度估計與視圖合成均引入誤差，且這些誤差取決於所採用之演算法的實施細節。在許多此類應用中，常提供三維場景資訊，其允許針對相對接近（多個）參考視點之視點的高品質視圖影像合成，但若視點太過偏離參考視點，則該高品質視圖影像合成惡化。

相對於彼此偏移的一組視訊攝影機可擷取場景，以提供三維影像資料，例如呈來自偏移位置的多個2D影像及/或作為影像資料加上深度資料的形式。演現裝置可隨著此等變化而動態地處理三維資料以針對不同觀看位置/方向產生影像。演現裝置可動態地執行例如視點偏移(view point shifting)或投影以動態地遵循使用者移動。

例如，沉浸式視訊的問題係觀看空間（其係在其中觀看者具有足夠品質之體驗的空間）係有限的。當觀看者在觀看空間外側移動時，合成視圖影像所導致的劣化及錯誤變得愈來愈顯著並可導致不可接受的使用者體驗。經產生視圖影像中的錯誤、假影、及不準確可具體地導因於所提供的3D視訊資料未提供用於視圖合成的足夠資訊（例如，去遮擋(de-occlusion)資料）而發生。

例如，一般而言，當使用多個攝影機以擷取場景之3D表示時，在虛擬實境頭戴裝置上的播放往往空間上受限於位於靠近原始攝影機位置的虛擬視點。此確保虛擬視點的演現品質不顯示假影（一般而言，缺失資訊（經遮擋資料）或3D估計誤差的結果）。

在所謂的甜蜜點觀看區內部，可使用與視圖融合組合的標準紋理圖而直接從一或多個參考攝影機影像與相關聯之深度圖或網格來進行演現。

在甜蜜點觀看區外部，影像品質降低且通常為不可接受之程度。在目前應用中，此可藉由將甚至針對無法準確地演現之場景之部分的模糊圖像或甚至黑色圖像呈現給觀看者而解決。然而，此類方法往往係次最佳，且往往提供次最佳使用者體驗。EP 3 422 711A1揭示一種演現系統的實例，其中引入模糊以讓使用者偏離遠離未由場景不完整表示所表示的場景之部分。

因此，一改善方法將係有利的。具體而言，允許改善操作、增加彈性、改善沉浸式使用者體驗、降低複雜度、促進實施方案、增加所感知經合成影像品質、改善演現、增加使用者的（可能係虛擬的）移動自由度、改善使用者體驗、及/或改善效能及/或操作的方法將係有利的。

因此，本發明尋求單獨或採用任何組合較佳地緩和、減輕、或消除上文提及之缺點的一或多者。

根據本發明之一態樣，提供一種設備，其包含：一第一接收器，該第一接收器經配置以接收一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；一儲存器，其經配置以儲存該真實世界場景之至少一部分的一三維網格模型；一第二接收器，其經配置以接收一觀看姿勢；一演現器，其經配置以產生用於該觀看姿勢之一視區的一輸出影像；其中該演現器包含：一第一電路，其經配置以藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料；一第二電路，其經配置以從該三維網格模型產生用於該輸出影像之至少一第一區域的該輸出視區之第二影像資料；一第三電路，其經配置以產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及一第四電路，其經配置以相依於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。

本發明可在許多實施例及情境中提供一經改善使用者體驗。可允許在影像品質與用於許多應用之移動自由度之間的經改善權衡。該方法在許多情形中可提供一更沉浸式使用者體驗，並可高度適合沉浸式視訊應用。該方法可減少不同觀看姿勢之感知品質劣化。該方法可例如針對位置及/或定向之更大變化範圍提供經改善之體驗給使用者。在許多實施例中，該方法可提供對真實世界場景之擷取的減少需求。例如，可使用較少攝影機。可減少對擷取多少場景之需求。在許多實施例中，該方法可降低資料通訊需求，且可例如允許較低延隔互動服務。

該方法可例如允許經改善之沉浸式視訊體驗。

一姿勢可係一位置及/或定向。一姿勢區域可係一組連續的姿勢。該擷取姿勢區域可係該所擷取視訊資料為其提供資料的區域，其允許產生具有符合之一品質標準的一品質之影像資料。該輸出影像可係一影像序列之一影像，且可特定為一視訊序列之一框架/影像。

該三維網格模型可進一步包含至少一個像素圖，該至少一個像素圖具有經連結至該三維網格模型之一三維網格之頂點的像素值。

根據本發明之一可選特徵，該演現器經配置以：將該第一區域判定為由該第一電路針對其產生的該第一影像資料之品質不符合一品質標準的區域。

在一些實施例中，該演現器經配置以：判定包含該第一影像資料之一中間影像；將該第一區域判定為用於其之該中間影像之影像資料之一品質不符合一品質標準的區域。

此在許多實施例中可提供改善及/或增易的操作。可提供用於判定該第一區域的特別有效方法，該方法可特別適合於提供具吸引力的使用者體驗。

根據本發明之一可選特徵，該第三電路經配置以相依於介於該觀看姿勢與該擷取姿勢區域之間的一差來判定該第一區域。

在許多實施例中，該第三電路可經配置以相依於介於該觀看姿勢與該擷取姿勢區域之間的一距離來判定該第一區域。可根據一合適距離測量來判定該距離。該距離測量可反映該觀看姿勢相對於該擷取姿勢區域的位置及/或定向的一距離。

根據本發明之一可選特徵，該差係一角度差。

此在許多實施例中可提供改善及/或增易的操作。

根據本發明之一可選特徵，該演現器經配置以相依於該在所擷取視訊資料來調適該第二影像資料。

此可在許多實施例中提供一經改善使用者體驗。在許多情境中，提供待產生之一更一致且同調輸出影像，且可減少由從該視訊資料所產生之該輸出影像之部分與從該三維網格模型所產生之該輸出影像之部分之間的一差之感知可見性。

根據本發明的一可選特徵，該演現器經配置以相依於該三維網格模型來調適該第一資料。

根據本發明之一可選特徵，該演現器經配置以相依於該第一影像資料來調適該第二影像資料。

根據本發明之一可選特徵，該演現器經配置以相依於該第二影像資料來調適該第一影像資料。

根據本發明之一可選特徵，該演現器經配置以相依於第一影像資料來調適該三維網格模型。

根據本發明之一可選特徵，該設備進一步包含用於相依於該所擷取視訊資料來產生一三維網格模型的一模型產生器。

在許多實施例中，此可提供經改善操作及/或經促進實施方案。

根據本發明之一可選特徵，該第一接收器經配置以：從一遠端來源接收該視訊資料；及從該遠端來源進一步接收該三維網格模型。

根據本發明之一可選特徵，該第二電路經配置以相依於該觀看姿勢相對於該擷取區域的該偏差而改變該第一區域之一詳細程度。

此可在許多實施例中提供一進一步經改善之使用者體驗，且可提供對觀看者姿勢改變的經改善之感知調適。

根據本發明之一可選特徵，該第一接收器進一步經配置以接收該真實世界場景的第二所擷取視訊資料，該第二所擷取視訊資料與一第二擷取姿勢區域連結；且其中該第一電路進一步經配置以藉由將該第二所擷取視訊資料投影至該觀看姿勢而判定該輸出影像之至少部分的第三影像資料；且該第三電路經配置以相依於該觀看姿勢相對於該第二擷取姿勢區域的一偏差來判定該第一區域。

此可在許多情境及使用者中提供經增強之使用者體驗。

根據本發明之一態樣，方法包含：接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；儲存該真實世界場景之至少部分的一三維網格模型；接收一觀看姿勢；產生用於該觀看姿勢之一視區的一輸出影像；其中產生該輸出影像包含：藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料：從該三維網格模型產生用於該輸出影像之至少一第一區域的該輸出視區之第二影像資料；產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及相依於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。

本發明的此等及其他態樣、特徵、及優點將參考下文描述的（一或多個）實施例闡明且將係顯而易見的。

以下描述將聚焦於沉浸式視訊應用，但應瞭解，可在許多其他應用及實施例中使用所述原理及概念。

在一些方法中，可藉由例如獨立裝置（其不使用任何視訊伺服器，或甚至不具有對任何視訊伺服器的任何存取）來本端提供沉浸式視訊給觀看者。然而，在其他應用中，沉浸式應用程式可基於從遠端或中央伺服器接收的資料。例如，視訊資料可從遠端中心伺服器提供至視訊演現裝置，且可經本端處理以產生所欲的沉浸式視訊體驗。

圖1繪示其中遠端視訊演現裝置101與遠端沉浸式視訊伺服器103例如經由網路105（諸如網際網路）聯絡的沉浸式視訊系統的此一實例。伺服器103可經配置以同時支援潛在大量的用戶端視訊演現裝置101。

沉浸式視訊伺服器103可例如藉由傳輸描述真實世界場景的三維視訊資料來支援沉浸式視訊體驗。資料可具體描述由一組（可能3D）攝影機從真實世界即時擷取的場景之視覺特徵及幾何性質。

例如，如圖2所繪示，一組攝影機可經配置依適合的擷取組態（例如，在一線中）個別地偏移，且可各擷取場景203之影像。所擷取之資料可用以產生3D視訊資料串流，該3D視訊資料串流可從沉浸式視訊伺服器103傳輸至遠端視訊演現裝置。

3D視訊資料可例如係視訊串流且可例如直接包括來自多個攝影機之所擷取影像及/或可例如包括經處理之資料，諸如由所擷取影像產生之影像加上深度資料。應瞭解，對於產生3D視訊資料之許多技術及方法係已知的，且可使用任何合適的方法及3D視訊資料格式/表示，而不減損本發明。

沉浸式視訊演現裝置101經配置以接收及處理所接收之3D視訊資料以產生動態地反映使用者姿勢改變的輸出視訊串流，從而提供其中所呈現視訊適應觀看/使用者姿勢/擺置改變的沉浸式視訊體驗。

在本領域中，用語擺置(placement)及姿勢(pose)被用作位置及/或方向/定向之常見用語。可將，例如，物體、攝影機、頭部、或視圖之位置及方向/定向的組合稱為姿勢或擺置。因此，擺置或姿勢指示可包含六個值/分量/自由度，其中每個值/分量通常描述對應的物體之位置/定位或定向/方向之個別屬性。當然，在許多情形中，擺置或姿勢可用更少的分量予以考量及表示，例如，若認為一或多個分量係被視為固定的或不相關的（例如，若認為所有物體處於同一高度或具有水平定向，則四個分量可提供物體之姿勢之全面表示）。在下文中，用語姿勢(pose)用於指代可由一至六個值（對應於最大可能的自由度）表示的位置及/或定向。用語姿勢(pose)可由用語擺置(placement)來置換。用語姿勢(pose)可由用語位置(position)及/或定向(orientation)來置換。用語姿勢(pose)可由用語位置及定向（若姿勢提供位置及定向兩者之資訊）、由用語位置（若姿勢提供（可能僅有）位置之資訊）、或由定向（若姿勢提供（可能僅有）定向之資訊）來置換。

經產生視圖影像的品質將取決於影像及可用於視圖合成操作的深度資訊，其進一步取決於所需的重新投影及視圖偏移量。

例如，視圖偏移一般導致影像之在，例如，用於視圖偏移之主影像中可能不可見的部分的去遮擋。若已擷取經去遮擋物體，則此類孔可藉由來自其他影像的資料填充，但針對新視點去遮擋的影像部分亦從其他來源視圖遺漏一般亦係可能的。在此情形中，視圖合成需要基於，例如，周圍資料評估資料。去遮擋程序在本質上往往係引入不準確、假影、及錯誤的程序。進一步地，此往往隨著視圖偏移的量增加，且具體而言，在視圖合成期間遺漏資料（孔）的可能性隨著與影像之擷取姿勢的距離增加而增加。

可能失真的另一來源可係不完美的深度資訊。深度資訊常由深度圖提供，其中深度值已藉由非完美的深度評估（例如，藉由來源影像之間的像差評估）或測量（例如，測距）產生且因此深度值可包括錯誤及不準確。視圖偏移係基於深度資訊，且不完美深度資訊在（多個）經合成影像中引起錯誤或不準確。經合成視點離原始攝影機視點愈遠，經合成目標視圖影像中的失真愈嚴重。

因此，當觀看姿勢愈來愈移離擷取姿勢時，經合成影像的品質往往會劣化。若觀看姿勢足夠遠離擷取姿勢，則影像品質降低至不可接受的程度並可經歷不良的使用者體驗。

圖3至圖5繪示與移動遠離擷取姿勢相關聯的問題。圖3繪示合成的視區與擷取攝影機之視區密切對準的實例，且因此，可使用具有所得高品質影像基於深度影像之演現，而從擷取攝影機來預測觀看姿勢視區之特定影像。相比之下，在圖4及圖5之實例中，觀看姿勢與擷取姿勢不同之處在於視區與擷取視區的角度方向不同。如所繪示，角度檢視方向之變化導致未提供用於影像之大部分（在實例中，影像右側或左側）的適合影像資料。此外，將來自影像資料之資訊外推至未知區域中可提供一些經改善之感知，但如所繪示，會導致非常實質重大的劣化及失真，且引起場景的不實際表示。

觀看姿勢與擷取姿勢不同之處在於觀看位置及/或視角之偏差，且此等之效應可能不同。位置變化（諸如平移）往往會增加前景物體後方之去遮擋區域，且可由於3D（深度/幾何形狀）估計不確定性而增加視圖合成之不可靠性。使遠離擷取攝影機角旋轉的視點之角度變化會導致例如沒有可供新視區之大區域使用影像資料（如圖4及圖5所繪示）。

上述問題會導致由於顯示器之完整視場（例如，一般而言，通常110度）被填充及頭旋轉不引入新內容而導致不良的沉浸式效果。此外，空間情境通常丟失，且在影像模糊或否則低品質時更難以瀏覽。已建議若干個不同方法以解決此等問題，但其等往往係次佳的，且具體而言，往往非所欲地限制使用者移動或引入非所欲的使用者效果。

圖6繪示可提供效能及可在許多情境中達成更期望的使用者體驗的方法的視訊演現設備/系統/裝置。該設備可具體為圖1之視訊演現裝置101。

視訊演現裝置包含經配置以接收用於一真實世界場景之所擷取視訊資料的一第一接收器601。在實例中，視訊伺服器103提供視訊資料。

視訊資料係真實世界場景的所擷取視訊資料，並且可一般係由多個攝影機彼此偏移來從擷取場景產生的三維視訊資料。視訊資料可例如來自不同攝影機的多個視訊串流或可例如係在一或多個擷取位置的視訊資料連同深度資訊一起。應瞭解，已知用於擷取真實世界場景之視訊資料的許多不同方法，該等方法用於產生表示該擷取的（三維）視訊資料，且用於傳達/散佈視訊資料，且應瞭解可使用任何合適的方法，而不減損本發明。

在許多實施例中，3D視訊資料可包含多視圖影像，且因此可包含場景從不同視點的複數個（同時）影像。在許多實施例中，3D視訊資料可呈影像及深度圖表示的形式，其中提供影像/圖框連同關聯之深度圖。3D影像資料可具體地係多視圖加上深度表示，其針對每一圖框包含來自不同視點的至少兩個影像，其中該等影像之至少一者具有相關聯深度圖。應理解若所接收資料係例如不具有明確深度圖的多視圖資料表示，則深度圖可使用合適的深度評估演算法（諸如具體而言，使用多視圖表示的不同影像的基於像差評估之方法）產生。

在具體實例中，第一接收器601可接收使用複數個同時之影像及（多個）深度圖之序列（其此後亦將稱為來源影像及來源深度圖）描述3D場景的MVD（多影像及深度）視訊資料。應理解，可提供此類3D影像的時間序列以用於視訊串流。

所接收之視訊資料經連結至擷取姿勢區域，該擷取姿勢區域一般在場景中近似於（多個）擷取姿勢的場景區域，且一般係包括擷取姿勢之區域。擷取姿勢區域可係代表擷取姿勢及/或觀看姿勢之一個、多個或所有參數的間隔範圍。例如，若姿勢由二維位置表示，則擷取姿勢區域可由對應兩個位置之範圍（亦即，作為二維區）所表示。在其他實施例中，姿勢可由六個參數表示，諸如一般而言三個位置參數及三個定向參數，且擷取姿勢區域可藉由對六個參數之限制而給出，亦即，姿勢及擷取姿勢區域之完整6 DoF表示。

在一些實例中，擷取姿勢區域可係對應於單一姿勢的單一擷取姿勢，該單一姿勢對應於所提供之擷取視訊資料的視區（觀看位置及定向）。擷取姿勢區域可係指示/包含已擷取場景之一或多個姿勢的一組姿勢。

在一些實施例中，擷取姿勢區域可直接從視訊資料之來源予以提供，且可具體地被包括於所接收視訊資料串流中。在一些實施例中，可具體地經提供作為視訊資料串流之後設資料。在圖2之實例中，視訊資料可基於一列攝影機205予以提供，該等攝影機經定位在可傳達至視訊演現裝置101之擷取姿勢區域205內。

在一些實施例中，視訊演現裝置可經配置以直接使用如所接收的擷取姿勢區域。在其他實施例中，視訊演現裝置可經配置以修改擷取姿勢區域或本身可產生擷取姿勢區域。

例如，在一些實施例中，所接收之資料可僅包括對應於給定擷取姿勢的視訊資料，但不指示擷取姿勢本身、任何延伸區域、或對除給定擷取姿勢外的其他姿勢之影像資料適合視圖合成的程度。在此類情況中，接收器601可例如繼續進行以基於所接收之擷取姿勢而產生擷取姿勢區域。例如，可考慮所提供之視訊資料連結至參考姿勢，且因此對於此參考姿勢，可直接演現視訊資料而無任何視圖偏移或投影。接著可相對於此參考姿勢而測量所有姿勢，且擷取姿勢區域可被判定為參考姿勢，或例如判定為參考姿勢上置中的預定區域。隨著使用者移動，接著可相對於此參考姿勢來表示/測量觀看姿勢。

在一些實施例中，擷取姿勢區域可僅被視為對應於單一姿勢，例如，諸如所接收視訊資料。在其他實施例中，接收器401可繼續進行以例如藉由執行隨對擷取姿勢之差或距離而變動的品質劣化的評估來產生經延伸擷取姿勢區域。例如，對於與擷取姿勢偏差達不同量的各種測試姿勢，第一接收器601可評估對應之視區被影像資料覆蓋的比例有多大，及對應於由於視區延伸於未被擷取攝影機所覆蓋之場景之部分上方而經去遮擋區/物體或未提供其資料的比例有多大。擷取姿勢區域可例如判定為6維區域，其中未被影像資料涵蓋的對應之視區的比例小於給定臨限。應瞭解，用於評估隨擷取姿勢與觀看姿勢之間的偏差而變動的品質等級或劣化的許多其他方法係可行的，且可使用任何合適的操作。

舉另一實例，第一接收器601可例如修改擷取姿勢區域為包含所有姿勢之一區域，該等所有姿勢具有相距於最近擷取姿勢（例如當提供複數個攝影機姿勢時，相距於最近的攝影機姿勢，或具備視訊影像的所接收擷取姿勢區域之最接近姿勢）的小於給定臨限的距離。可根據任何合適的距離測量來判定距離，包括可能考慮位置距離及角度（定向）距離兩者。

應瞭解，在其他實施例中，可使用用於判定擷取姿勢區域的其他方法，且用於判定反映可考量為其他產生合適品質之影像的一組姿勢的擷取姿勢區域的其他方法將取決於具體實施例之需求及偏好。

圖6之視訊演現設備進一步包含經配置以接收觀看者的觀看姿勢（且具體而言，在三維場景中）的第二接收器603。觀看姿勢表示觀看者自其觀看場景的位置及/或定向，且其可具體地提供應針對其產生場景之視圖的姿勢。

應理解用於判定及提供觀看姿勢的許多不同方法係已知的，且可使用任何合適的方法。例如，第二接收器603可經配置以接收來自使用者穿戴之VR頭戴裝置、來自眼睛追蹤器的姿勢資料。在一些實施例中，可判定相對觀看姿勢（例如，可判定於初始姿勢之變化），且此可與參考姿勢（例如，諸如，攝影機姿勢或擷取姿勢區域之中心）相關。

第一接收器601及第二接收器603可以任何合適方式實施，並可接收來自任何合適來源（包括本端記憶體、網路連接、無線電連接、資料媒體等）的資料。

接收器可實施為一或多個積體電路，諸如特定應用積體電路(Application Specific Integrated Circuit, ASIC)。在一些實施例中，接收器可實施為一或多個經程式化處理單元，諸如（例如）作為在合適處理器（諸如中央處理單元、數位信號處理單元、或微控制器等）上執行的韌體或軟體。應理解，在此類實施例中，處理單元可包括板上或外部記憶體、時脈驅動電路系統、介面電路系統、使用者介面電路系統等。此類電路系統可進一步實施為處理單元的部分、積體電路、及/或離散電子電路系統。

將第一接收器601及第二接收器603耦接至經配置從所接收三維視訊資料產生視圖圖框/影像的視圖合成或投影電路或演現器605，其中該等視圖影像經產生以表示三維場景之從觀看姿勢的視圖。因此，演現器605產生

來自所接收之視訊資料及觀看姿勢之3D場景的視圖影像/圖框的視訊串流。在以下情況下，將參考單一影像之產生來描述演現器605之操作。然而，應瞭解，在許多實施例中，影像可係影像序列之部分，且具體而言，可係視訊序列之框架。實際上，所描述之方法可應用至輸出視訊序列之複數個（且通常全部）框架/影像。

應瞭解，通常，可產生包含用於右眼之視訊序列及用於左眼之視訊序列的立體視訊序列。因此，若影像例如經由AR/VR頭戴裝置呈現給使用者，則其將彷彿從觀看姿勢看到3D場景。

演現器605一般經配置以基於深度資訊執行所接收視訊影像之視圖偏移或投影。此一般將包括諸如偏移像素（改變像素位置以反映對應於視差變化的適當像差）、去遮擋（一般基於從其他影像填充）、組合來自不同影像之像素等的技術，如所屬技術領域中具有通常知識者已知者。

應理解，許多演算法及方法已知用於合成影像，且任何合適方法可由演現器605所使用。

因此，影像合成設備可產生用於場景的視圖影像/視訊。進一步地，隨著觀看姿勢可對應於在場景中四處移動的使用者動態地改變，場景的視圖可持續地更新以反映觀看姿勢上的變化。對於靜態場景，可使用相同的來源視圖影像產生輸出視圖影像，但對於視訊應用，可使用不同的來源影像產生不同的視圖影像，例如，可針對各輸出影像接收一組新的來源影像及深度。處理因此可基於圖框。

演現器605經配置以針對觀看姿勢的側向移動從不同角度產生場景的視圖。若觀看姿勢改變使得其在不同的方向/定向上，演現器605經配置以從不同角度產生三維場景物體的視圖。因此，隨著觀看姿勢改變，場景物體可被感知成係靜態的，且在場景中具有固定定向。觀看者可有效地移動並從不同方向看見物體。

視圖合成電路205可以任何合適方式實施，包括實施為一或多個積體電路，諸如特定應用積體電路(ASIC)。在一些實施例中，接收器可實施為一或多個經程式化處理單元，諸如（例如）作為在合適處理器（諸如中央處理單元、數位信號處理單元、或微控制器等）上執行的韌體或軟體。應理解，在此類實施例中，處理單元可包括板上或外部記憶體、時脈驅動電路系統、介面電路系統、使用者介面電路系統等。此類電路系統可進一步實施為處理單元的部分、積體電路、及/或離散電子電路系統。

如先前提及的，視圖合成的問題係品質隨著針對其合成視圖的觀看姿勢逐漸與所提供的場景視訊資料的擷取姿勢不同而減少。實際上，若觀看姿勢移動得離擷取姿勢區域太遠，則所產生的影像可具有實質假影及錯誤而係不可接受的。

視訊演現裝置進一步包含儲存真實世界場景之至少一部分的三維網格模型的儲存器615。

網格模型提供場景之至少部分的三維描述。網格模型可包含由產生面部之邊緣互連的頂點。網格模型可提供大量例如提供場景之元素之三維表示的三角形或矩形面。一般而言，網格例如由頂點之三維位置描述。

在許多實施例中，網格模型可進一步包括可提供指示用於網格之面部的網格之紋理資料及紋理資訊。在許多實施例中，三維網格模型可包含至少一個像素圖，該至少一個像素圖具有經連結至該三維網格模型之一三維網格之頂點的像素值。

真實世界場景的網格模型可提供場景之三維資訊的準確又實用表示，在視訊演現裝置中，使用該場景之三維資訊的準確又實用表示來提供經改善之影像資料，以用於與擷取姿勢區域很大程度不同的觀看姿勢。

網格模型可在許多實施例中提供場景之靜態表示，且在許多實施例中，視訊信號可提供場景之動態（一般而言，即時）表示。

例如，場景可係足球場或體育場，且可產生模型以表示場景之永久部分，諸如足球場、球門、球門線、球門柱等。所提供之視訊資料可係特定比賽之擷取，且將包括諸如球員、教練、觀眾席等的動態元素。

演現器605包含一第一電路607，該第一電路進一步經配置以藉由將該所擷取視訊資料投影至該觀看姿勢而判定該輸出影像之至少部分的影像資料。因此，第一電路607經配置以從所接收視訊資料來產生用於目前觀看姿勢之視區的影像資料。第一電路607可應用任何合適的視圖偏移及重新投影處理以產生用於觀看姿勢之視區的影像資料，且可具體地產生對應於目前視區（係用於目前觀看姿勢的視區）的全部或部分中間影像。投影/視圖偏移可來自視訊資料之（多個）擷取姿勢，諸如具體地可係從一或多個擷取攝影機之擷取姿勢至目前觀看姿勢的投影。如先前所提及，可使用任何合適的方法，包括用於視差偏移、去遮擋等技術。

演現器605進一步包含一第二電路609，該第二電路經配置以回應於該三維網格模型而判定用於至少一第一區域的該輸出視區之第二影像資料。因此，第二電路609經配置以從所儲存之網格模型來產生用於目前觀看姿勢之視區的影像資料，包括一般地考慮紋理資訊。第二電路609可應用任何合適的方法，用於從網格模型產生用於給定觀看姿勢之影像資料，包含採用用於取決於觀看者姿勢、基於頂點位置及紋理填充區域來將頂點映射至輸出影像中之影像位置的技術等。第二電路609可具體地產生對應於目前觀看姿勢之視區的第二中間影像。第二中間影像可係部分影像，且可包含僅用於視區之一個或多個區域的影像資料。

應瞭解，許多不同的方法、演算法及技術係已知來自三維資料之合成影像資料，包括來自所擷取視訊資料及來自三維網格模型，且可使用任何合適的方法及演算法，而不減損本發明。

適當的視圖合成演算法的實例可見於： “A review on image-based rendering” Yuan HANG, Guo-Ping ANG Virtual Reality & Intelligent Hardware, Volume 1, Issue 1, February 2019, Pages 39-54 https://doi.org/10.3724/SP.J.2096-5796.2018.0004 或 “A Review of Image-Based Rendering Techniques” Shum; Kang Proceedings of SPIE - The International Society for Optical Engineering 4067:2-13, May 2000 DOI: 10.1117/12.386541 或例如，關於3D演現的Wikipedia文章： https://en.wikipedia.org/wiki/3D_rendering

因此，演現器605可依兩個分開之方式產生用於目前視點的影像資料，亦即，一種方式係基於所接收之視訊資料，而一種方式係基於所儲存之網格模型。

演現器605進一步包含第三電路611，該第三電路經配置以產生輸出影像以包括第一影像資料及第二影像資料兩者。具體而言，對於至少一第一區域，該輸出影像經產生以包括從該網格模型產生且用於在該第一區域外部的該輸出影像之至少部分的該第二影像資料，該輸出影像經產生以包括從該視訊信號產生的該第一影像資料。

在許多情境下，該輸出影像經產生以包括針對其中所得影像品質被視為足夠高之所有區域的該第一影像資料，且包括針對影像品質未被視為足夠高之區域的該第二影像資料。

演現器605包含一第四電路613，該第四電路經配置以判定應針對其使用該第二影像資料的該輸出影像應之一或多個區域，亦即，從該網格模型（而非從應被包括於該輸出影像中的該視訊資料）來產生影像資料第四電路613經配置以回應於觀看姿勢相對於擷取姿勢區域的偏差而判定第一此類區域。因此，演現器605可經配置以判定輸出影像之區域，在該區域中基於視訊之影像資料被替換為基於模型之影像資料，其中該區域相依於觀看姿勢及與擷取姿勢區域的不同程度。

在一些實施例中，第四電路613可經配置以相依於介於該觀看姿勢與該擷取姿勢區域之間的差來判定該第一區域。例如，若此等之間的距離（根據合適的距離測量）小於一給定臨限，則未定義任何區域，亦即，從所接收之視訊資料產生整個輸出影像。然而，若該距離大於該臨限，則第四電路613可判定被視為很可能品質不足的區域，且可控制第二電路609以針對此區域使用第二影像資料。區域可例如基於變化之方向判定（一般在6 DoF空間中）。

例如，視訊演現裝置可經配置以使用圖形封裝來模型化場景，且在擷取導出之合成影像之後，將圖形模型演現至視區，使得在觀看姿勢與擷取姿勢區域相差太多時，由此資料被替換為在一或多個區中產生之模型。

舉一特定實例，第四電路613可經配置以考慮觀看姿勢之水平角度方向（例如，反映觀看者轉頭）。只要觀看姿勢反映水平角旋轉（其低於給定臨限角度），僅基於視訊資料而產生對應於觀看姿勢之視區的輸出影像。然而，若觀看姿勢指示角旋轉高於此臨限的角旋轉，則第四電路613可判定在影像左側或右側的區域存在，其反而將被第二影像資料予以填充。該區域是否在該輸出影像之左側或右側將取決於由觀看姿勢所指示之旋轉方向（亦即，觀看者向左或向右轉頭）且區域之大小可取決於角旋轉有多大。圖7及圖8展示此方法如何可改善圖4及圖5之影像的實例。

在觀看姿勢移動而離擷取姿勢區域太遠的情況下，合成視圖的影像品質將劣化。在此情況下，使用者體驗一般可藉由提供藉由評估場景之靜態圖形模型所產生的資料（而非低品質或模糊資料）予以實質上改善。具體而言，此可在其中觀看者在場景情況下提供經改善空間情境給觀看者。

應注意，在一般的實際系統中，希望能夠使用具有有限視場的擷取攝影機，因為其可例如允許在較高解析度下擷取給定感測器解析度更相異的物體。使用例如180度寬角度透鏡獲得相同解析度將需要具有非常高解析度的感測器，這非始終實用、就攝影機及處理硬體方面更昂貴，並且需要更多資源以進行處理及通訊。

如先前所提及，在一些實施例中，視訊演現裝置可判定其中使用基於模型之影像資料的區域，且具體而言，基於介於該觀看姿勢與該擷取姿勢區域之間的距離，是否應包括此一區域。在一些實施例中，基於該觀看姿勢對該擷取姿勢區域的偏差來判定區域可係基於考慮該偏差對可使用視訊資料針對觀看姿勢來合成影像資料之品質的影響。

在一些實施例中，第一電路607可基於所接收視訊資料從（多個）適當之擷取姿勢至觀看姿勢的投影來產生中間影像。

接著，第四電路613可繼續進行以評估所得中間影像，且可具體地判定用於影像之不同部分/區塊/區域的品質測量。品質測量可例如基於用以產生影像資料之演算法或程序來判定。例如，可藉由視差偏移產生之影像資料可指派高品質值，其可進一步取決於偏移有多大予以保證（例如，對於遠端背景，視差偏移可係零，且因此可能對在例如視差評估大之誤差及雜訊不敏感）。藉由將其他影像資料外推至去遮擋區域中的影像資料可被分配較低品質值，其可進一步取決於需要外推的資料有遠、鄰近區域中之紋理變化程度等予以保證。

接著，第四電路613可評估所判定品質測量以判定其中品質不符合品質標準的一或多個區域。簡單的標準可簡單地將區域判定為其品質測量低於臨限的區域。更複雜的標準可例如包括區域之最小大小或形狀的需求。

接著，第二電路609可繼續以從中間影像及基於模型之影像資料來產生輸出影像作為基於視訊（合成）之影像資料之組合。例如，可藉由在使基於中間視訊之影像的影像資料被由第四電路613所判定不具有足夠影像品質之區域中的基於模型之影像資料覆寫而產生輸出影像。

一般而言，應瞭解，可使用用於評估品質的不同方法。

例如，可為了不同原因來判定深度品質，且可基於深度品質來判定其中待使用模型資料的（多個）區域，諸如具體地使用視為具有低於臨限之品質的深度資料所產生的影像區域。

為了明確判定深度資料品質，可（在編碼器側或解碼器側）計算重新投影誤差。此意指來自影像資料之視圖，其具體地可將資料之一多視圖集重新投影（使用深度）至另一已知視圖（一般來自多視圖集）。接著，可使用色差測量（每像素或對區域之平均）作為品質之指示。遮擋/去遮擋會非所欲地影響此誤差計算。此可在介於像素之深度與經形變深度之間的絕對差小於臨限時藉由僅累加度量誤差予以避免。此一程序可例如用以識別被視為不足夠可靠的深度資料。當產生用於所欲任意視點的新影像時，得自於使用此類不可靠深度資料而產生的區域可經識別且被從模型產生的影像資料予以覆寫。

在一些情況下，一小總形變誤差可不足以指示任意新視點之演現品質。例如，當任意新視點接近原始擷取視點（諸如在觀看區之中心附近）時，即使所使用之深度資料之深度品質相對低，演現品質一般仍會導致相對高的品質。因此，區域可藉由考慮深度品質及識別得自於不良品質深度資料之區域予以判定，但可進一步受制於其他參數，諸如執行偏移的程度有多大（且具體而言，受制於介於產生用於其之影像的視點與針對影像資料定義之擷取姿勢區域之間的距離）。

另一種用以判定對任意視點之演現品質的方式係比較用於該視點的合成影像特徵統計與一或多個參考影像的影像特徵統計。相關統計可例如係曲率。可直接針對顏色通道中之一者或使用本端濾波器之加總來計算曲率。作為替代例，可首先使用邊緣/輪廓偵測，之後可計算其曲率統計。可計算合成視圖中之給定區域的統計。然後，此區域可經形變至一或多個參考視圖，並與在該區域中找到的統計相比較。由於使用（較大）區域，因此評估變得較不取決於確切像素對應。作為物理上有意義之特徵（諸如曲率）的替代例，可使用深度類神經網路來計算基於多個參考視圖的視圖不變品質特徵。可在區域中應用並評估此類方法，從而允許判定低品質的區域。

在一些情況下，所謂「無參考」度量可用以評估合成視圖之品質，而無需使用任何參考。預測影像品質的類神經網路一般地經訓練。

可在不明確判定介於觀看姿勢相對於擷取姿勢區域的偏差及/或差來判定此類品質測量（亦即，在反映觀看姿勢對擷取姿勢區域之偏差的品質測量中，此判定可係間接的）。

如先前所描述，視訊演現裝置可儲存場景之網格模型，且一般而言，其亦儲存像素圖，其中像素值將經連結至三維網格模型之三維網格之頂點。像素圖可具體地指示視覺性質（強度、顏色、紋理）之圖，其中映射將網狀連結至反映局部可見性質的像素圖之部分。像素圖可具體地係紋理圖，且場景之模型可係網格加紋理模型及表示。

在一些實施例中，伺服器103可經配置以將模型資訊傳輸至視訊演現裝置，且因此第一接收器601可經配置以接收來自伺服器103之模型資料。在一些實施例中，模型資料與視訊資料可組合至單一資料串流中，且第一接收器601可經配置以在接收時本端地儲存資料。在一些實施例中，模型資料可獨立地從視訊資料接收，且例如在不同的時間及/或來自不同的來源。

在一些實施例中，視訊演現裝置可經配置以在本端產生模型，且可具體地經配置以從所接收之視訊資料產生模型。視訊演現裝置可具體地包含經配置以回應於所擷取視訊資料而產生三維網格模型的模型產生器617。

模型產生器617可例如包含一些預定資訊，例如，諸如預期場景係具有例如在其中的一些預定物體（即，球門），且可經配置以藉由組合及調適此等參數而產生模型。例如，可基於所接收視訊資料來判定房間之紋理及尺寸，且可基於視訊資料來判定房間中預定物體之位置。

在一些實施例中，可從所接收之多視圖視訊來推斷（簡單）圖形模型。例如，像是地板、天花板、壁的平坦表面可經偵測及轉換成圖形。可選地從視訊資料提取伴隨的紋理。此類推斷不需要在逐圖框基礎上予以導出，但可隨時間推移而累積及改善。當呈現/演現給觀看者時，此類相對簡單的視覺元素可因為缺失細節而較不受關注，但相比於無或失真影像，其等可提供更好的體驗，其等通常可使觀看者保持沉浸且能夠瀏覽(VR)而無感覺無定向。

在一些實施例中，模型產生器可經配置以採用物體偵測技術以辨識在場景中存在之物體或人員。接著，此類物體可由現有圖形模型或虛擬人偶予以表示。物體或本體姿勢可選用地經判定及應用至圖形表示。

應瞭解，用於偵測場景之物體及性質之各種技術及方法係已知的，且可使用任何適合之方法，而不減損本發明。

在一些實施例中，網格模型可由遠端來源（其具體地可係伺服器103）予以提供。在此情況下，伺服器103可例如使用上述方法中之一些。

在一些實施例中，網格模型可經預先產生，且可如所提及表示場景之靜態部分。例如，在擷取事件（例如，足球比賽）之前，可執行第二共同網路元件707之靜態部分的專用擷取。例如，攝影機可圍繞場景移動，以提供用於發展更準確之網格模型的影像。模型之開發可進一步基於例如來自專用3D掃描器及/或模型之手動調適的輸入。此類方法可更繁瑣，但可提供更準確模型，其可尤其實用於其中許多使用者及/或事件可重複使用相同模型的事件。例如，許多工作量會投入於開發足球場之準確模型中，但此可重複用於數百萬個觀看者及許多比賽/事件。

在一些實施例中，演現器605可經配置以相依於模型處理及/或資料來調適基於視訊資料之處理及/或資料。替代地或額外地，演現器605可經配置以相依於基於視訊資料之處理及/或資料來調適模型處理及/或資料。

例如，網格模型可定義球門之組件，諸如球門柱及橫樑。視訊資料可包括可從目前觀看姿勢看到之球門之部分的資料，且此可由可提供球門之其餘部分之資料的網格模型予以補充。然而，所產生之影像資料可經調適以使得不同的資料更緊密匹配。例如，橫樑之部分可從視訊資料予以產生，橫樑之部分可從網格模型予以產生。在此類實例中，資料可經調適以在此等區段之間提供更好的介面。例如，資料可經調適以使得橫樑形成所產生的輸出影像中的線性物體。此可例如藉由將用於從一個來源所產生之橫樑的影像資料偏移使得其與用於從來自其他來源之橫樑的影像資料對準且相同方向來完成。演現器605可經配置以調適基於模型之影像資料以與基於所接收視訊之影像資料對準、可經配置以調適基於所接收視訊之影像資料以與基於模型之影像資料對準、或可調適其等使其等彼此對準。

在一些實施例中，調適可直接基於所產生之影像資料，但在其他實施例中，調適可直接基於使用適合的方法的網格模型資料。類似地，在一些實施例中，視訊演現裝置可經配置以相依於基於所產生視訊之影像資料來調適網格模型。例如，視訊演現裝置可例如藉由移動一些頂點直到此導致產生與基於視訊之影像資料對準的基於模型之影像資料來修改模型，而非調適基於模型之影像資料以與基於視訊之影像資料對準。

具體而言，在一些實施例中，演現器605可經配置以回應於所擷取視訊資料來調適基於所產生模型之影像資料。例如，來自基於模型之影像的顏色可偏離實際所擷取之顏色。此可歸因於（動態）情形，像是照明或陰影條件或模型準確度之限制。因此，演現器605可修改顏色以（更緊密）匹配所擷取資料之顏色。

舉調適基於模型之影像的實例而言，可針對中間影像兩者（亦即，基於視訊及基於模型之中間影像兩者）全影像區域取樣將顏色分佈。隨後，可將單一顏色補償應用在基於模型之影像上，其最小化顏色分佈之差。改善係應用與顏色分佈中之分量或叢集連結的多個顏色補償。另一改善係操作取樣分佈及應用補償至特定空間視覺元素（例如表面）兩者。

在一些實施例中，演現器605可經配置以回應於三維網格模型來調適基於所產生視訊之影像資料。

例如，基於所產生視訊之影像的顏色可經修改以更緊密地匹配由網格模型所記錄者，或基於視訊之影像可經旋轉線以用於使線更緊密地匹配由網格模型所產生者。

在一些實施例中，演現器605可經配置以回應於基於所產生模型之影像資料來調適基於所產生視訊之影像資料。

例如，基於模型之影像資料中之線性影像結構之方向可用以校正基於視訊之影像資料中相同類型之結構的失真。具體而言，此可使用篩選操作來進行，該篩選操作使用如基於模型之影像中所偵測的線之定向及位置的知識。

在一些實施例中，演現器605可經配置以回應於基於所產生視訊之影像資料來調適基於所產生模型之影像資料。

例如，亦可使用調適基於模型之影像之顏色的先前提供之實例來直接修改該模型的所儲存之顏色（例如，紋理圖），從而允許對未來影像/框架應用校正。

在一些實施例中，演現器605可經配置以回應於基於所產生視訊之影像資料來調適三維網格模型。

例如，用於照明模型的光源之位置可經修改以匹配體育館中之光條件（但可能不使用光源位置之知識，因為其可能不可用）。舉另一實例，頂點之位置可經調適以導致匹配基於視訊之影像資料的基於所產生模型之中間影像。例如，可針對接近轉變的頂點之略微變化位置而產生不同的基於模型之影像，且可選擇導致更緊密地匹配基於視訊之影像的影像（例如，導致更緊密地對準跨邊緣的線）。然後，可將網格模型中的頂點位置修改成所選取影像的位置。

在一些實施例中，第二電路609經配置以回應於觀看姿勢對擷取區域的偏差而改變第一區域之詳細程度。具體而言，對於介於在觀看姿勢與擷取姿勢區域之間的增加差，可降低詳細程度。詳細程度可例如由數個物體所反映，或模型之特徵可被包括在所產生之影像資料中。

在一些實施例中，中間影像可逐漸地彼此融合。

在一些實施例中，第一接收器601可經配置以接收用於第二擷取姿勢區域的場景之進一步所擷取視訊資料。例如，如圖9所繪示，可由在不同位置處的兩個不同之攝影機承架901、903來擷取場景。

在此類實施例中，視訊演現裝置可對擷取姿勢區域應用類似的方法，且具體而言，第一電路607可經配置以基於針對第二擷取姿勢之視訊資料來判定用於目前觀看姿勢之視區的輸出影像的第三影像資料。接著，可考慮第一影像資料及第二影像資料而產生輸出影像。例如，影像資料可在導出自第一擷取姿勢及導出自第二擷取姿勢之間進行選擇，且基於其允許最佳合成。

在一些實施例中，第二電路609可藉由依逐影像基礎（或對於影像群組）而簡單地選擇來源中之一者。然而，在其他實施例中，可針對不同區域或甚至針對各個別像素個別地執行選擇。

例如，輸出影像可從來自最接近之擷取姿勢區域的視訊資料予以產生，惟此處導致去遮擋處除外。對於這些區域，影像資料可替代地從來自最遠之擷取姿勢區域的視訊資料予以產生，只要這不會導致對於該區域之像素的去遮擋。

在此類方法中，取決於觀看姿勢相對於第一擷取姿勢區域及第二擷取姿勢區域兩者的考量，第四電路613可進一步經配置以產生輸出影像之第一區域，亦即，基於網格模型所填充的輸出影像之區域。

舉低複雜性實例而言，對於目前觀看姿勢相對於擷取姿勢區域兩者被去遮擋的所有區域，可使用基於網格模型之資料。

在一些實施例中，可從兩個或更多個相異的區域擷取場景，且可提供經連結至兩個不同擷取姿勢區域的視訊資料。對於給定的觀看姿勢，視訊演現裝置可考慮對多個不同擷取姿勢區域的偏差或差，以判定可或應基於網格模型資料所產生的影像區域。

可提供：一種設備，其包含：一第一接收器(601)，其經配置以接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；一儲存器(615)，其經配置以儲存該真實世界場景之至少一部分的一三維網格模型；一第二接收器(603)，其經配置以接收一觀看姿勢；一演現器(605)，其經配置以產生用於該觀看姿勢之一視區的一輸出影像；其中該演現器(605)包含：一第一電路(607)，其經配置以藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料；一第二電路(609)，其經配置以回應於該三維網格模型而判定用於該輸出影像之至少一第一區域的該輸出視區之第二影像資料；一第三電路(611)，其經配置以產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料。

此類設備可包括：一第四電路(613)，其經配置以回應於該第一區域之第一影像資料的一影像品質測量而判定該第一區域；一第四電路(613)，其經配置以判定包含該第一影像資料之一中間影像；及將該第一區域判定為用於其之該中間影像之影像資料之一品質不符合一品質標準的區域；及/或一第四電路(613)，其經配置以回應於該第一資料之品質測量而判定該第一區域。

此類設備及/或第四電路可不判定該觀看姿勢相對於該擷取姿勢區域之一偏差及/或差。

在許多實施例中，該方法可提供特別具吸引力的使用者體驗。舉可視為由在中心線之攝影機承架及靠近球門之第二攝影機承架所擷取之足球比賽的實例。觀看者可採取靠近中心線的觀看姿勢，且呈現比賽之高品質影像給觀看者。接著，使用者可決定幾乎移動接近球門，且當到達此球門時，可基於經定位靠近球門的攝影機承架來可提供比賽之高品質視訊給使用者。然而，與在位置之間瞬間移動的習知方法相比，可提供從中心線至球門的連續位置變化（例如，模擬使用者實際上行走在位置之間）的體驗給使用者。然而，因為可能沒有足夠的視訊資料以準確地演現來自介於中心線與球門之間的位置的視圖，所可從模型資料來演現影像之至少一些部分的視訊資料。在許多情境中，與使用者簡單地從一個位置瞬間移動至一個位置的習知體驗相比，此可提供經改善且更沉浸式體驗。

因此，所述方法可產生用於觀看姿勢/視區的影像。影像可從兩個基本上不同類型之資料予以產生且經具體適應地產生以包括從不同類型之資料產生的區域，亦即，一個區域係從真實世界場景之所擷取視訊資料予以產生，且另一區域係從用於真實世界場景之3D網格模型資料予以產生。

在許多情境下，該方法具體地解決在許多情況下擷取之真實世界場景不完整的問題。該方法可允許產生經改善之輸出影像/視訊及/或允許減少真實世界場景之視訊擷取。

與其中對於藉由外推可用資料來產生無所擷取視訊資料可用的場景區域之影像的習知方法相比，所述方法可使用場景之兩個基本上不同的表示，且在產生的單一影像中組合此等。第一類型係所擷取視訊資料，且第二類型係三維網格模型。因此，可使用所擷取視訊資料及3D網格模型資料兩者。具體而言，可使用網格模型資料來補充所擷取視訊資料，使得仍可呈現所擷取視訊資料不提供任何資訊的所產生影像之部分。

該方法可適應性地組合兩個基本上不同類型之場景表示以提供經改善之影像品質，且具體而言，其可允許產生用於其所擷取視訊資料完全不具有資訊之場景的視圖之影像資料。

舉實例而言，所描述之方法可例如允許產生用於完全不具有其所擷取視訊資料之場景之部分的給定視點之影像，且在此情況中，可甚至包括沒有其之任何所擷取資料的場景特徵及物體。

所述方法可提供許多有利效果。

具體而言，可產生一影像，該影像提供用於更多觀看姿勢的真實世界場景特徵之改善視圖，且對於給定擷取情境可達成。例如，針對給定觀看姿勢否則將不可能的場景之部分可經顯示，包括呈現無其任何資料之所擷取視訊的物體。該方法確實可有助於擷取，包括允許使用較少的攝影機用於擷取，同時仍允許依某形式觀看場景的大部分（潛在地全部）。

該方法亦可例如減少傳達視訊資料所需的資料速率。擷取可將減少至場景之較小部分，因為其可被視為可接受以藉由模型資料來取代場景之部分（例如，可藉由視訊攝影機即時擷取足球場之比賽區域，而體育場之上部分可由靜態3D網格模型資料予以表示）。由於視訊資料一般係動態且即時的，所以實務上往往需要更高的資料速率。藉由3D網狀資料來表示例如體育場之上部分所需的資料速率實務上比由視訊攝影機所擷取且由視訊資料所表示所需者更低。

方法可允許實質上經改善之使用者體驗包括一般增加自由度。技術效應在於可減少由不完全擷取視訊資料所引起的移動（與例如D1相比較）。

在許多情況下，該方法亦可促進實施方案及/或減少複雜性及/或減少運算負擔。例如，可達成減少的編碼/解碼視訊擷取，可達成促進演現（與演現所擷取視訊相比較，基於3D網格模型之演現一般較不複雜且運算較不密集）。

本發明能以包括硬體、軟體、韌體、或其等之任何組合的任何合適形式實施。本發明可任選地至少部分地實作為在一或多個資料處理及/或數位信號處理器上執行的電腦軟體。本發明之實施例的元件及組件可以任何合適方式實體地、功能地、及邏輯地實作。實際上，功能可以單一單元實作、以複數個單元實作、或實作為其他功能單元的一部分。因此，本發明可以單一單元實作，或可實體地及功能地分布在不同單元、電路、及處理器之間。

在本申請案中，任何提及術語「回應於(in response to)」、「基於(based on)」、「相依於(in dependence on)」、及「隨…而變動(as a function of)」中之一者應視為提及術語「回應於/基於/相依於/隨…而變動」。任何術語均應視為本發明中任一項之揭示內容，且僅使用單一術語應視為包括其他替代方案/術語之速記表示法。

雖然本發明已相關於一些實施例描述，未意圖受限於本文陳述的具體形式。更確切地說，本發明的範圍僅由隨附的申請專利範圍限制。額外地，雖然特徵可顯現為結合具體實施例描述，所屬技術領域中具有通常知識者會認知所描述之實施例的各種特徵可根據本發明組合。在申請專利範圍中，用語包含不排除其他元件或步驟的存在。

另外，雖然個別地列舉，複數個構件、元件、電路、或方法步驟可藉由，例如，單一電路、單元、或處理器實作。額外地，雖然個別特徵可包括在不同的申請專利範圍中，可能有有利的組合，且包括在不同申請專利範圍中不暗示特徵的組合係可行及/或有利的。再者，包含在一種類別請求項中的一特徵非意味限於此種類，而是視情況，指示該特徵同樣地適用於其他類別請求項。另外，在申請專利範圍中的特徵次序並未暗示特徵必須以該次序作用的任何具體次序，且方法項中之個別步驟的次序未特別暗示步驟必須以此次序執行。更確切地說，步驟可以任何合適次序執行。此外，單數型參照未排除複數型。因此，對「一(a)」、「一(an)」、「第一(first)」、「第二(second)」等的參照不排除複數。申請專利範圍中的參考標誌僅提供為闡明實例，不應以任何方式解釋為限制申請專利範圍的範圍。

一般而言，設備及方法之實例由以下實施例指示。實施例：

請求項1. 一種設備，其包含：一第一接收器(601)，其經配置以接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；一儲存器(615)，其經配置以儲存該真實世界場景之至少一部分的一三維網格模型；一第二接收器(603)，其經配置以接收一觀看姿勢；一演現器(605)，其經配置以產生用於該觀看姿勢之一視區的一輸出影像；其中該演現器(605)包含：一第一電路(607)，其經配置以藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料；一第二電路(609)，其經配置以回應於該三維網格模型而判定用於該輸出影像之至少一第一區域的該輸出視區之第二影像資料；一第三電路(611)，其經配置以產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及一第四電路(613)，其經配置以回應於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。

請求項2. 如請求項1之設備，其中該演現器(605)經配置以：判定包含該第一影像資料之一中間影像；將該第一區域判定為用於其之該中間影像之影像資料之一品質不符合一品質標準的區域。

請求項3. 如請求項1或2之設備，其中該第三電路(609)經配置以回應於該觀看姿勢與該擷取姿勢區域之間的一差而判定該第一區域。

請求項4. 如請求項3之設備，其中該差係一角度差。

請求項5. 如前述請求項中任一項之設備，其中該演現器(605)經配置以回應於該所擷取視訊資料來調適該第二影像資料。

請求項6. 如前述請求項中任一項之設備，其中該演現器(605)經配置以回應於該三維網格模型來調適該第一資料。

請求項7. 如前述請求項中任一項之設備，其中該演現器(605)經配置以回應於該第一影像資料來調適該第二影像資料。

請求項8. 如前述請求項中任一項之設備，其中該演現器(605)經配置以回應於該第二影像資料來調適該第一影像資料。

請求項9. 如前述請求項中任一項之設備，其中該演現器(605)經配置以回應於該第一影像資料來調適該三維網格模型。

請求項10. 如前述請求項中任一項之設備，其進一步包含回應於該所擷取視訊資料而產生該三維網格模型的一模型產生器(617)。

請求項11. 如前述請求項中任一項之設備，其中該第一接收器(601)經配置以從一遠端來源(103)接收該視訊資料；及進一步從該遠端來源(103)接收該三維網格模型。

請求項12. 如前述請求項中任一項之設備，其中該第二電路(609)經配置以回應於該觀看姿勢相對於該擷取區域的該偏差而改變該第一區域之一詳細程度。

請求項13. 如前述請求項中任一項之設備，其中該第一接收器(601)進一步經配置以接收該真實世界場景的第二所擷取視訊資料，該第二所擷取視訊資料與一第二擷取姿勢區域連結；且其中該第一電路(607)進一步經配置以藉由將該第二所擷取視訊資料投影至該觀看姿勢而判定該輸出影像之至少部分的第三影像資料；且該第三電路經配置以回應於該觀看姿勢相對於該第二擷取姿勢區域的一偏差來判定該第一區域。

請求項14. 一種方法，其包含：接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；儲存該真實世界場景之至少部分的一三維網格模型；接收一觀看姿勢；產生用於該觀看姿勢之一視區的一輸出影像；其中產生該輸出影像包含：藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料；回應於該三維網格模型，判定用於該輸出影像之至少一第一區域的該輸出視區之第二影像資料；產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及回應於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。

101:遠端視訊演現裝置 103:沉浸式視訊伺服器 105:網路 203:擷取場景 205:攝影機；擷取姿勢區域 601:第一接收器 603:第二接收器 605:視圖合成或投影電路或演現器 607:第一電路 609:第二電路 611:第三電路 613:第四電路 615:儲存器 617:模型產生器 901:攝影機承架 903:攝影機承架

將僅以舉例之方式參考圖式描述本發明的實施例，其中〔圖1〕繪示根據本發明的一些實施例之視訊散布系統之元件的實例；〔圖2〕繪示擷取3D視圖的實例；〔圖3〕繪示可針對特定觀看姿勢產生之視圖的實例；〔圖4〕繪示可針對特定觀看姿勢產生之視圖的實例；〔圖5〕繪示可針對特定觀看姿勢產生之視圖的實例；〔圖6〕繪示根據本發明的一些實施例之視訊演現裝置之元件的實例；〔圖7〕繪示可針對特定觀看姿勢產生之視圖的實例；〔圖8〕繪示可針對特定觀看姿勢產生之視圖的實例；〔圖9〕繪示使用兩組擷取攝影機之3D場景之實例。

601:第一接收器

603:第二接收器

605:視圖合成或投影電路或演現器

607:第一電路

609:第二電路

611:第三電路

613:第四電路

615:儲存器

617:模型產生器

Claims

一種設備，其包含：一第一接收器(601)，其經配置以接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；一儲存器(615)，其經配置以儲存該真實世界場景之至少一部分的一三維網格模型；一第二接收器(603)，其經配置以接收一觀看姿勢；一演現器(605)，其經配置以產生用於該觀看姿勢之一視區(viewport)的一輸出影像；其中該演現器(605)包含：一第一電路(607)，其經配置以藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少一部分的該視區之第一影像資料；一第二電路(609)，其經配置以從該三維網格模型產生用於該輸出影像之至少一第一區域的該視區之第二影像資料；一第三電路(611)，其經配置以產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及一第四電路(613)，其經配置以相依於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。
如請求項1之設備，其中該演現器(605)經配置以：將該第一區域判定為由該第一電路(607)針對其產生的第一影像資料之一品質不符合一品質標準的一區域。
如請求項1或2之設備，其中該第三電路(609)經配置以相依於該觀看姿勢與該擷取姿勢區域之間的一差而判定該第一區域。
如請求項3之設備，其中該差係一角度差。
如前述請求項中任一項之設備，其中該演現器(605)經配置以相依於該所擷取視訊資料來調適該第二影像資料。
如前述請求項中任一項之設備，其中該演現器(605)經配置以相依於該三維網格模型來調適該第一資料。
如前述請求項中任一項之設備，其中該演現器(605)經配置以相依於該第一影像資料來調適該第二影像資料。
如前述請求項中任一項之設備，其中該演現器(605)經配置以相依於該第二影像資料來調適該第一影像資料。
如前述請求項中任一項之設備，其中該演現器(605)經配置以相依於該第一影像資料來調適該三維網格模型。
如前述請求項中任一項之設備，其進一步包含用於相依於該所擷取視訊資料而產生該三維網格模型的一模型產生器(617)。
如前述請求項中任一項之設備，其中該第一接收器(601)經配置以從一遠端來源(103)接收該視訊資料；及進一步從該遠端來源(103)接收該三維網格模型。
如前述請求項中任一項之設備，其中該第二電路(609)經配置以相依於該觀看姿勢相對於該擷取區域的該偏差而改變該第一區域之一詳細程度。
如前述請求項中任一項之設備，其中該第一接收器(601)進一步經配置以接收該真實世界場景的第二所擷取視訊資料，該第二所擷取視訊資料與一第二擷取姿勢區域連結；且其中該第一電路(607)進一步經配置以藉由將該第二所擷取視訊資料投影至該觀看姿勢而判定該輸出影像之至少部分的第三影像資料；且該第三電路經配置以相依於該觀看姿勢相對於該第二擷取姿勢區域的一偏差來判定該第一區域。
一種方法，其包含：接收用於一真實世界場景的所擷取視訊資料，該視訊資料與一擷取姿勢區域連結；儲存該真實世界場景之至少部分的一三維網格模型；接收一觀看姿勢；產生用於該觀看姿勢之一視區的一輸出影像；其中產生該輸出影像包含：藉由將所擷取視訊資料投影至該觀看姿勢而產生用於該輸出影像之至少部分的該視區之第一影像資料；從該三維網格模型產生用於該輸出影像之至少一第一區域的該視區之第二影像資料；產生該輸出影像以包括該第一影像資料之至少一些且包括該第一區域之該第二影像資料；及相依於該觀看姿勢相對於該擷取姿勢區域的一偏差來判定該第一區域。
一種電腦程式產品，其包含經調適以當該程式在一電腦上執行時執行如請求項14之所有步驟的電腦程式碼構件。