TWI828711B

TWI828711B - 用於產生影像資料串流之設備及方法

Info

Publication number: TWI828711B
Application number: TW108121705A
Authority: TW
Inventors: 威和莫司漢卓克司愛芬瑟司布爾斯; 巴特庫倫
Original assignee: 荷蘭商皇家飛利浦有限公司
Priority date: 2018-06-22
Filing date: 2019-06-21
Publication date: 2024-01-11
Also published as: EP3811631A1; CN112585987A; US20210258554A1; EP3588970A1; CN112585987B; BR112020025897A2; JP7480065B2; JP2021527974A; KR20210024567A; WO2019243215A1; TW202015399A

Abstract

本發明提供一種用於產生表示例如一虛擬實境應用之一場景之視圖之一影像資料串流之設備。該設備包括一接收器(203)，該接收器(203)接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示。該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢。一判定器(205)判定該場景中對應於該凝視指示之一典型小/窄視覺關注區。具體而言，可識別一凝視點周圍之一區。一產生器(209)產生該影像資料串流以包括該場景之影像資料，該影像資料針對該視覺關注區具有比該視覺關注區外高之一品質位準/資料速率。

Description

用於產生影像資料串流之設備及方法

本發明係關於一種用於產生一影像資料串流之設備及方法，且特定而言但非排他地關於產生存取一場景之一虛擬實境應用之一影像資料串流。

近年來，隨著不斷開發及引入利用及消費視訊之新服務及方式，影像及視訊應用之種類及範圍已實質上增加。

例如，一種越來越流行之服務係提供影像序列，使得觀看者能夠主動地及動態地與系統互動以改變演現參數。在諸多應用中，一非常吸引人之特徵係改變觀看者之有效觀看位置及觀看方向之能力，舉例而言諸如允許觀看者在所呈現場景中移動及「環視」。

此一特徵具體而言可允許向一使用者提供一虛擬實境體驗。此可允許使用者在一虛擬環境中(相對)自由地移動且動態地改變其位置及其所看之位置。通常，此等虛擬實境應用基於場景之三維模型，其中動態地評估該模型以提供特定請求視圖。此方法在例如電腦及控制台之遊戲應用中係熟知的，諸如在第一人稱射擊遊戲類別中。

虛擬實境應用亦尤其期望所呈現影像係三維影像。實際上，為了最佳化觀看者之沉浸感，通常較佳的是使用者體驗所呈現場景為三維場景。實際上，一虛擬實境體驗應較佳地允許一使用者選擇其自身位置、相機視點及相對於一虛擬世界之時刻。

通常，虛擬實境應用固有地受限，因為其等基於場景之一預定模型且通常基於一虛擬世界之一人造模型。可基於真實世界捕獲提供一虛擬實境體驗將係所期望的。然而，在諸多情況下，此一方法非常受限或往往要求自真實世界捕獲建置真實世界之一虛擬模型。接著藉由評估此模型來產生虛擬實境體驗。

然而，當前方法往往係次佳的且往往常具有一高運算或通信資源要求及/或提供例如品質降低或自由度受限之一次佳使用者體驗。

作為一應用之一實例，虛擬實境眼鏡已進入市場。此等眼鏡允許觀看者體驗經捕獲之360度(全景)視訊。此等360度視訊常使用相機裝置預先捕獲，其中個別影像一起拼接成單個球形映射。360視訊之常見立體格式係頂部/底部及左/右。類似於非全景立體視訊，將左眼及右眼圖像壓縮為單個H.264視訊串流之部分。在解碼單個圖框之後，觀看者旋轉其頭部以觀看其周圍之世界。一實例係一記錄，其中觀看者可體驗一360度環視效應，且可在自不同位置記錄之視訊串流之間離散地切換。在切換時，載入另一視訊串流，此中斷體驗。

立體全景視訊方法之一個缺點係觀看者無法改變虛擬世界中之位置。除全景立體視訊以外之一全景深度圖之編碼及傳輸可允許在客戶端側處補償觀看者之小平移運動，但此等補償將固有地限於小變動及移動且將不能提供一沉浸式且自由之虛擬實境體驗。

一相關技術係自由視點視訊，其中在單個視訊串流中編碼且傳輸具有深度圖之多個視點。除熟知時間預測方案以外，亦可藉由利用視點之間的角依賴性來降低視訊串流之位元速率。然而，該方法仍需要一高位元速率且在可產生之影像方面受限。其實際上無法在三維虛擬真實世界中提供完全自由移動之一體驗。

不幸地，先前技術皆無法提供一理想體驗，而常往往限制位置及觀看方向變化之自由度。此外，該等技術往往需要一非常高資料速率，且提供包含多於產生個別影像/視圖所必需之資料之資料串流。

在諸多應用中且具體而言針對虛擬實境應用，自表示場景之資料產生一影像資料串流，使得該影像資料串流反映使用者在場景中之(虛擬)位置。此一影像資料串流通常係動態地且即時地產生，使得其反映使用者在虛擬場景內之移動。可將影像資料串流提供至一演現器，該演現器自影像資料串流之影像資料向使用者演現影像。在諸多應用中，將影像資料串流提供至演現器係經由一頻寬受限通信鏈路進行。例如，影像資料串流可由一遠端伺服器產生且例如透過一通信網路傳輸至演現裝置。

然而，例如此等應用之一問題係其等針對大多數實際應用需要一非常高資料速率。例如，已提出基於360°視訊串流提供一虛擬實境體驗，其中由一伺服器針對一給定觀看者位置提供一場景之一全360°視圖，由此允許客戶端產生不同方向之視圖。然而，此導致大多數實際應用中非期望或不可獲得之一極高資料速率。

具體而言，虛擬實境(VR)之有前景應用之一者係全向視訊(例如VR360或VR180)。在此，將自一特定視點之完整視訊映射至一個(或多個)矩形視窗(例如，使用一ERP投影)。MPEG已標準化此方法且亦預見其最終將導致非常高資料速率。

已提出將視球(view sphere)劃分為幾個預定圖塊且接著以不同品質位準將此等圖塊傳輸至客戶端。然而，此通常仍導致一非常高資料速率且往往進一步劣化呈現給使用者之經演現影像達成之品質。針對MPEG VR360及VR180，可僅以全解析度及品質請求一人正在(當時)看之部分(「圖塊」)且以低解析度請求剩餘(周圍)部分。然而，此仍需要一高資料速率且由於與例如HDTV (水平上約30度)相比，一典型虛擬實境護目鏡/頭盔之觀看角相當高(水平上約100度)，因此視訊資料速率亦將比HDTV高得多(例如10倍)。

因此，一改良方法將係有利的。特定而言，一種允許改良操作、增加靈活性、改良虛擬實境體驗、降低資料速率、促進分佈、降低複雜性、促進實施、降低儲存要求、增加影像品質及/或改良效能及/或操作之方法將係有利的。

據此，本發明尋求較佳地單獨或以任何組合減輕、緩和或消除一或多個上述缺點。

根據本發明之一態樣，提供一種用於產生表示一三維場景之視圖之一影像資料串流之設備，該設備包括：一接收器，其用於接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；一判定器，其用於判定在該三維場景中具有一三維位置、對應於該凝視指示之一視覺關注區；一產生器，其用於產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；其中該產生器經配置以產生該影像資料以針對該第一影像資料具有比針對該第二影像資料高之一品質位準；且其中該判定器經配置以回應於該凝視指示之一凝視距離指示而判定該視覺關注區。

在諸多實施例中，本發明可提供一場景之改良及/或更實際影像資料。在諸多實施例中，該方法可提供非常適合一靈活、有效且高效能之虛擬實境(VR)應用之影像資料。在諸多實施例中，其可允許或啟用在影像品質與資料速率之間具有一實質上改良權衡之一VR應用。在諸多實施例中，其可允許改良感知影像品質及/或降低資料速率。該方法可能尤其適合例如VR應用，其中表示一場景之資料集中地儲存且可能支援複數個遠端VR客戶端。

該凝視指示可指示一觀看者之一凝視點。該頭部姿勢及該相對眼睛姿勢之組合可對應於一凝視點，且該凝視指示可例如指示該場景中對應於此凝視點之一位置。

在諸多實施例中，該視覺關注區可為對應於該凝視點之一區。特定而言，可判定該視覺關注區為該場景之滿足關於由該凝視指示所指示之一凝視點之一準則之一區。該準則可例如為一接近要求。

該影像資料串流可包括對應於該頭部姿勢之觀看口之視訊資料。該第一影像資料及該第二影像資料可為該等觀看口之影像資料。該第二資料可為對應於來自該頭部姿勢之一觀看區域之一影像之至少部分之影像資料。

該影像資料串流可為一連續資料串流且例如可為一視圖影像串流及/或三維資料串流。在諸多實施例中，該影像品質位準可等於一(空間及/或時間)資料速率。具體而言，該產生器可經配置以在其可經配置以產生該影像資料以針對該第一影像資料具有比針對該第二影像資料高之一資料速率之意義上，產生該影像資料以針對該第一影像資料具有比針對該第二影像資料高之一品質位準。

該視覺關注區可為該場景中之三維區。該凝視指示可包含自該頭部姿勢之一位置至一凝視點之一距離之一指示。該判定器可經配置以判定至該視覺關注區(自該該觀看者位置)之一距離，且該產生器可經配置以回應於該距離而判定該第一資料。

該凝視指示之該凝視距離指示可指示自該頭部姿勢/觀看者姿勢至該凝視點之一距離。該判定器可經配置以回應於對應於該凝視指示之場景內容而判定該視覺關注區。

該場景可為一虛擬場景，且具體而言可為一人造虛擬場景，或可為例如一捕獲真實世界場景或一增強實境場景。

根據本發明之一可選特徵，該判定器經配置以判定該視覺關注區針對該頭部姿勢在至少一個方向上具有不超過10度之一延伸。

此可在諸多實施例中提供改良效能。可判定該視覺關注區具有一非常小延伸且具體而言遠小於一使用者之觀看角，且當用於呈現給一使用者一場景之影像時遠小於典型顯示器觀看角。例如，VR頭盔通常提供約100°之觀看角。本發明者已認識到，感知影像品質將(顯著地或通常明顯地)不受一窄觀看角外降低之一品質位準影響。

在一些實施例中，該判定器可經配置以判定該視覺關注區具有針對該頭部姿勢不超過10度之一水平延伸。在一些實施例中，該判定器可經配置以判定該視覺關注區具有針對該頭部姿勢不超過10度之一垂直延伸。

根據本發明之一可選特徵，該視覺關注區對應於一場景物件。

此可在諸多實施例中提供改良效能。

根據本發明之一可選特徵，該判定器經配置以追蹤該場景物件在該場景中之移動，且該判定器經配置以回應於該經追蹤之移動而判定該視覺關注區。

此可在諸多實施例中提供改良效能，且特定而言通常可允許判定更接近地對應於使用者實際當前焦點之一視覺關注區。

根據本發明之一可選特徵，該判定器經配置以回應於該場景之儲存使用者觀看行為而判定該視覺關注區。

根據本發明之一可選特徵，該判定器經配置以將該視覺關注區偏置朝向該場景之區，儲存使用者觀看行為針對該等區指示一較高觀看頻率。

此通常可提供該視覺關注區之一改良判定且可提供改良效能。

該判定器可經配置以將該視覺關注區偏置朝向該場景之區，相對於儲存使用者觀看行為針對其等指示一較低觀看頻率之場景之區，儲存使用者觀看行為針對該等區指示一較高觀看頻率。

一區/物件之一較高觀看頻率可反映該區/物件已成為使用者視覺關注之對象，而非針對其等觀看頻率較低之一區/物件。

根據本發明之一可選特徵，該判定器經配置以回應於指示該場景之不同區之間的先前觀看行為關係之關係資料而判定一預測視覺關注區；且其中該產生器經配置以將該預測視覺關注區之第三影像資料包含於該影像資料串流中；其中該產生器經配置以產生該影像資料以針對該第三影像資料具有比針對該預測視覺關注區外之該第二影像資料高之一品質位準。

此可在諸多實施例中提供改良效能。具體而言，在諸多實施例中，其可允許改良感知影像品質而無針對諸多典型使用者行為之中斷或滯後。

該判定器可經配置以回應於指示該當前視覺關注區之視圖與一預測視覺關注區之視圖之間的一高視圖相關性之關係資料而判定該預測視覺關注區。

根據本發明之一可選特徵，該關係資料指示至少一個觀看者之先前凝視移位；且該判定器經配置以判定該預測視覺關注區為該場景之一第一區，關係資料針對該第一區指示自該視覺關注區至該第一區之凝視移位之超過一臨限值之一頻率。

此可在諸多實施例中提供改良效能。

根據本發明之一可選特徵，該判定器經配置以回應於對應於該視覺關注區之一場景物件之移動資料而判定一預測視覺關注區；且其中該產生器經配置以包含該預測視覺關注區之該第三影像資料；其中該產生器經配置以產生該影像資料以針對該第三影像資料具有比針對該預測視覺關注區外之該第二影像資料高之一品質位準。

此可在諸多實施例中提供改良效能。

根據本發明之一可選特徵，該產生器經配置以產生該影像資料串流作為包括對應於該頭部姿勢之觀看口之影像之一視訊資料串流。

此可在諸多實施例中提供一特別有利方法，包含其中自一遠端伺服器提供一VR體驗之諸多實施例。其可例如降低VR客戶端之複雜性，同時仍維持一相對低資料速率要求。

根據本發明之一可選特徵，該判定器經配置以回應於該場景中之該視覺關注區之移動與該凝視指示之變化之間的一相關性而判定該視覺關注區之一可信度量度；且其中該產生器經配置以回應於該可信度量度而判定該第一影像資料之品質。

根據本發明之一可選特徵，該設備包括一虛擬實境處理器，該虛擬實境處理器經配置以執行該虛擬場景之一虛擬實境應用，其中該虛擬實境應用經配置以產生該凝視指示且自該影像資料串流演現對應於該觀看者之一觀看口之一影像。

根據本發明之一可選特徵，其中該設備進一步經配置以自一遠端客戶端接收該凝視指示且將該影像資料串流傳輸至該遠端客戶端。

根據本發明之一可選特徵，該產生器經配置以回應於該頭部姿勢而判定該影像資料之一觀看口，且回應於該觀看口而判定該第一資料。

根據本發明之一態樣，提供一種產生表示一三維場景之視圖之一影像資料串流之方法，該方法包括：接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；判定在該三維場景中具有一三維位置、對應於該凝視指示之一視覺關注區；產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；該影像資料針對該第一影像資料具有比針對該第二影像資料高之一品質位準；且其中判定該視覺關注區包括回應於該凝視指示之一凝視距離指示而判定該視覺關注區。

參考下文描述之(若干)實施例，將明白及闡明本發明之此等及其他態樣、特徵及優點。

允許一使用者在一虛擬世界中四處移動之虛擬體驗正變得越來越流行且正在開發服務以滿足此一需求。然而，提供有效虛擬實境服務係非常具挑戰性的，尤其是若體驗待基於捕獲一真實世界環境而非基於一完全虛擬產生之人造世界。

在諸多虛擬實境應用中，判定反映場景中之一虛擬觀看者之姿勢之一觀看者姿勢輸入。接著，虛擬實境設備/系統/應用為對應於觀看者姿勢之一觀看者產生對應於場景之視圖及觀看口之一或多個影像。

通常，虛擬實境應用以針對左眼及右眼之單獨視圖影像之形式產生三維輸出。接著此等可藉由合適方式呈現給使用者，諸如通常係一VR頭盔之個別左眼及右眼顯示器。在其他實施例中，影像可例如經呈現於一自動立體顯示器上(在此情況下，可針對觀看者姿勢產生更大量視圖影像)，或實際上在一些實施例中可僅產生單個二維影像(例如，使用一習知二維顯示器)。

在不同應用中，可以不同方式判定觀看者姿勢輸入。在諸多實施例中，可直接追蹤一使用者之實體移動。例如，勘測一使用者區域之一相機可偵測且追蹤使用者之頭部(或甚至眼睛)。在諸多實施例中，使用者可佩戴可藉由外部及/或內部構件追蹤之一VR頭盔。例如，頭盔可包括提供關於頭盔及因此頭部之移動及旋轉之資訊之加速度計及陀螺儀。在一些實例中，VR頭盔可傳輸信號或包括(例如，視覺)識別符，該等識別符使一外部感測器能夠判定VR頭盔之移動。

在一些系統中，觀看者姿勢可藉由手動方式提供，例如由使用者手動地控制一操縱桿或類似手動輸入。例如，藉由用一隻手控制一第一類比操縱桿且藉由用另一隻手手動地移動一第二類比操縱桿來手動地控制虛擬觀看者正在看之方向，使用者可在場景中手動地四處移動虛擬觀看者。

在一些應用中，可使用手動方法及自動方法之一組合來產生輸入觀看者姿勢。例如，一頭盔可追蹤頭部之定向，且可由使用者使用一操縱桿控制場景中觀看者之移動/位置。

影像之產生基於虛擬世界/環境/場景之一合適表示。在一些應用中，可為場景提供一完整三維模型，且可藉由評估此模型來判定自一特定觀看者姿勢之場景視圖。在其他系統中，場景可由對應於自不同捕獲姿勢捕獲之視圖之影像資料表示。例如，針對複數個捕獲姿勢，可將一全球形影像連同三維(深度資料)一起儲存。在此等方法中，可藉由三維影像處理產生除捕獲姿勢以外之其他姿勢之視圖影像，諸如具體而言使用視圖移位演算法。在其中藉由針對離散視點/位置/姿勢儲存之視圖資料描述/參考場景之系統中，此等亦可被稱為錨定視點/位置/姿勢。通常，當已藉由自不同點/位置/姿勢捕獲影像而捕獲一真實世界環境時，此等捕獲點/位置/姿勢亦係錨定點/位置/姿勢。

一典型VR應用據此提供(至少)對應於針對當前觀看者姿勢之場景之觀看口之影像，其中動態地更新影像以反映觀看者姿勢之變化且基於表示虛擬場景/環境/世界之資料產生影像。

在此項技術中，術語放置及姿勢用作針對位置及/或方向/定向之一共同術語。例如，一物件、一相機、一頭部或一視圖之位置及方向/定向之組合可被稱為姿勢或放置。因此，一放置或姿勢指示可包括六個值/分量/自由度，其中各值/分量通常描述對應物件之位置/定位或定向/方向之一個別性質。當然，在諸多情況下，可用較少分量考量或表示一放置或姿勢，例如若一或多個分量被認為固定或不相關(例如，若所有物件被認為處於相同高度且具有一水平定向，則四個分量可提供一物件之姿勢之一完整表示。在下文中，術語姿勢用來指代可由一個至六個值(對應於最大可能自由度)表示之一位置及/或定向。

諸多VR應用基於具有最大自由度之一姿勢，即，位置及定向之各者之三個自由度導致總共六個自由度。因此，一姿勢可由表示六個自由度之六個值之一集或向量表示，且因此一姿勢向量可提供三維位置及/或三維方向指示。然而，將明白，在其他實施例中，姿勢可由更少值表示。

基於為觀看者提供最大自由度之一系統或實體通常被稱為具有6個自由度(6DoF)。諸多系統及實體僅提供一定向或位置且此等通常被稱為具有3個自由度(3DoF)。

在一些系統中，VR應用可藉由例如一獨立裝置在本端提供給一觀看者，該獨立裝置不使用或甚至可存取任何遠端VR資料或處理。例如，一裝置(諸如一遊戲控制台)可包括用於儲存場景資料之一儲存器、用於接收/產生觀看者姿勢之輸入及用於自場景資料產生對應影像之一處理器。

在其他系統中，VR應用可遠離觀看者實施及執行。例如，使用者本端之一裝置可偵測/接收傳輸至一遠端裝置之移動/姿勢資料，該遠端裝置處理該資料以產生觀看者姿勢。接著，該遠端裝置可基於描述場景之場景資料針對觀看者姿勢產生合適視圖影像。接著將視圖影像傳輸至其中呈現其等之觀看者本端之裝置。例如，該遠端裝置可直接產生由本端裝置直接呈現之一視訊串流(通常一立體/3D視訊串流)。因此，在此一實例中，本端裝置無法執行除傳輸移動資料及呈現經接收之視訊資料以外之任何VR處理。

場景資料具體而言可為描述一3D場景之3D (三維)場景資料。3D場景可由參考一場景座標系(通常具有三個正交軸)描述3D場景之內容之3D場景資料表示。

在諸多系統中，功能可跨一本端裝置及遠端裝置分佈。例如，本端裝置可處理經接收之輸入及感測器資料以產生連續地傳輸至遠端VR裝置之觀看者姿勢。接著，遠端VR裝置可產生對應視圖影像且將此等視圖影像傳輸至本端裝置進行呈現。在其他系統中，遠端VR裝置無法直接產生視圖影像，但可選擇相關場景資料且將此場景資料傳輸至本端裝置，接著本端裝置可產生經呈現之視圖影像。例如，遠端VR裝置可識別最接近之捕獲點且提取對應場景資料(例如，來自捕獲點之球形影像及深度資料)且將此場景資料傳輸至本端裝置。接著，本端裝置可處理經接收之場景資料以產生特定當前觀看姿勢之影像。觀看姿勢通常將對應於頭部姿勢，且對觀看姿勢之參考通常可等效地被認為對應於對頭部姿勢之參考。

圖1繪示一VR系統之此一實例，其中一遠端VR伺服器101例如經由一網路105 (諸如網際網路)與一客戶端VR伺服器103聯絡。伺服器103可經配置以同時支援潛在大量客戶端裝置101。

在諸多案例中，此一方法可提供例如不同裝置之複雜性及資源需求、通信要求等之間的一改良權衡。例如，觀看者姿勢及對應場景資料可以較大間隔傳輸，其中本端裝置在本端處理觀看者姿勢及經接收之場景資料以提供一即時低滯後體驗。此可例如減小所要通信頻寬，實質上同時提供一低滯後體驗且同時允許集中地儲存、產生及維持場景資料。例如，其可適於其中將一VR體驗提供至複數個遠端裝置之應用。

圖2繪示根據本發明之一些實施例之可在諸多場景中提供一改良虛擬實境體驗之一設備之元件。該設備可基於特性化一場景之資料產生一影像資料串流以對應於觀看者姿勢。

在一些實施例中，該設備包括一感測器輸入處理器201，該感測器輸入處理器201經配置以自感測器接收資料，該感測器偵測一觀看者或與觀看者相關之設備之移動。感測器輸入具體而言經配置以接收指示一觀看者之一頭部姿勢之資料。回應於感測器輸入，感測器輸入處理器201經配置以判定/估計觀看者之一當前頭部姿勢，如熟習此項技術者將知道。例如，基於來自一頭盔之加速度及陀螺儀感測器資料，感測器輸入處理器201可估計且追蹤頭盔及因此觀看者頭部之位置及定向。替代地或另外，一相機可例如用來捕獲觀看環境且來自相機之影像可用來估計及追蹤觀看者之頭部位置及定向。下文描述將聚焦於其中頭部姿勢係以六個自由度判定之實施例，但將明白，在其他實施例中可考量更少自由度。

除頭部姿勢相關資料以外，感測器輸入處理器201進一步接收取決於觀看者眼睛之相對眼睛姿勢之輸入感測器資料。感測器輸入處理器201可自此資料產生觀看者之(若干)眼睛姿勢相對於頭部之一估計。例如，VR頭盔可包含一瞳孔追蹤器，該瞳孔追蹤器偵測使用者眼睛之各者相對於VR頭盔及因此相對於頭部姿勢之定向。基於眼睛感測器輸入資料，感測器輸入處理器201可判定指示觀看者眼睛相對於頭部姿勢之眼睛姿勢之一相對眼睛姿勢指示符。在諸多實施例中，可用六個自由度判定(若干)相對眼睛姿勢，但將明白，在其他實施例中可考量更少自由度。特定而言，可產生眼睛姿勢指示符以僅反映相對於頭部及因此頭部姿勢之眼睛定向。此尤其可反映眼睛/瞳孔相對於頭部之位置變化往往係相對可忽略不計的。

作為一特定實例，使用者可佩戴VR護目鏡或一VR頭盔，該等VR護目鏡或該VR頭盔包括可偵測相對於護目鏡/頭盔之眼睛移動之紅外線眼睛追蹤器感測器。

感測器輸入處理器201經配置以組合頭部姿勢指示符及眼睛姿勢指示符以產生一凝視指示。眼睛之光軸相交之點被稱為凝視點，且凝視指示指示此凝視點。凝視指示具體而言可指示自當前觀看者位置至凝視點之一方向，且通常可指示至凝視點之方向及距離兩者。因此，在諸多實施例中，凝視指示符指示至凝視點(相對於觀看者位置)之一距離。

在該實例中，基於追蹤眼睛姿勢且因此判定眼睛之光軸之會聚，可判定凝視指示為凝視點之至少一方向且通常為一位置。

場景通常可為具有一相關聯3D座標系之一3D場景。場景可由提供場景內容之一3D描述之3D資料表示。3D資料可與3D場景座標系相關聯。

凝視指示指示3D場景中之一凝視點且具體而言可指示場景座標中表示之一凝視點。

凝視點指示可指示3D場景中之一3D位置，且具體而言可指示或包括界定3D場景中之一3D位置之三個座標參數(且三個座標參數具體而言可表示場景座標)。因此，凝視點指示不僅僅係一顯示器或觀看口上之一位置之一指示，而且可界定或描述3D場景座標系中之一位置。

因此，凝視指示可不僅包含關於觀看者姿勢之方位角及仰角資訊，而且包含一距離。上文所提供之說明(comments)在作了適當修正後(mutatis mutandis)適用於凝視點本身。

圖2之設備進一步包括一接收器203，該接收器203經配置以自感測器輸入處理器201接收凝視指示。如上述，凝視指示不僅指示一頭部姿勢，而且指示一凝視點且反映頭部位置及相對眼睛姿勢兩者。

接收器203經耦合至一視覺關注處理器205，該視覺關注處理器205經配置以判定場景中對應於凝視指示之一視覺關注區。視覺關注區反映如由凝視指示所指示之觀看者之視覺關注或焦點，即，其可被認為反映觀看者在「看」且聚焦其視覺關注之位置。視覺關注區可被認為係場景內觀看者當前關注之一區。

視覺關注處理器205可判定場景中之一區，使得該區滿足關於凝視指示之一準則。此準則具體而言可包含一接近準則，且此接近準則可要求該區之部分與由凝視指示所指示之一凝視點之間的一距離計量低於一臨限值。由於經判定之區係考量凝視指示而判定之區，因此系統假定指示使用者將其關注聚焦於此區上之一增加概率。據此，憑藉考量凝視指示而判定之區，其被認為可用作使用者之一可能視覺關注之一指示且據此其係一視覺關注區。

視覺關注區係3D場景之一區且與3D場景中之一位置/定位相關聯。視覺關注區可與3D場景中之至少一個位置相關聯或由3D場景中之至少一個位置判定/界定，且該位置可在場景座標系中表示。該位置通常可由由三個場景座標表示之3D場景中之至少一個3D位置表示。

在諸多實施例中，視覺關注區可為3D場景中之一3D區，且可在3D場景座標系中描述/判定/界定。視覺關注區常係例如對應於一場景物件之一連續D區。

因此，視覺關注區通常與觀看者位置具有一3D關係，包含一距離指示。因此，觀看者之一變化將導致觀看者姿勢與凝視點之間的空間關係之一變化，且因此導致視覺關注區之一變化，此不同於凝視點及視覺關注區係一2D投影表面上之點/區之情況，無論投影表面係平面的或彎曲的(舉例而言諸如一投影表面)。

視覺關注區通常可經產生為包括凝視點之一區，且通常經產生為包括凝視點或非常接近此凝視點之一區。將明白，可使用不同方法及準則來判定對應於凝視點之一視覺關注區。如稍後將更詳細描述，可例如判定視覺關注區為場景中接近凝視點之一物件，如由凝視指示所指示。例如，若一場景物件與凝視點之間的一經估計距離小於一給定臨限值且場景物件係最接近此凝視點之場景物件，則可判定此場景物件為視覺關注區。

據此，視覺關注區係場景中之一區且指代世界或場景。視覺關注區不僅僅被判定為觀看者之一觀看口之一給定區域，而且界定場景本身中之一區。在一些實施例中，可判定視覺關注區為二維區，但在大多數實施例中，視覺關注區不僅由例如相對於觀看位置之方位角及仰角間隔界定而且常包含一距離/深度值或間隔。例如，可判定視覺關注區為由分別界定一方位角範圍、一仰角範圍及一距離範圍之三個間隔形成之一區。作為另一實例，視覺關注區可在場景/世界座標系中判定為三個空間分量之範圍(例如，可判定視覺關注區為由一x分量範圍、一y分量範圍及一z分量範圍界定之一矩形棱柱或長方體)。在一些實施例中，可判定視覺關注區為充分接近(或包括)凝視點之一場景物件之三維形狀。

通常判定視覺關注區為與觀看者姿勢具有三維關係之一區。換言之，視覺關注區可相對於觀看者姿勢不僅被判定為例如來自觀看姿勢之觀看口或球體之一區域，而且將具有至觀看姿勢之一距離。據此，視覺關注處理器205經配置以回應於凝視指示之一凝視距離指示而判定視覺關注區。因此，不僅在判定視覺關注區時考量凝視之方向，而且將判定視覺關注區取決於自觀看姿勢至凝視點之距離。

在一些實施例中，視覺關注區可僅取決於凝視指示，但在諸多實施例中其可藉由考量場景之內容而進一步判定，舉例而言諸如哪些場景物件對應於當前凝視點。據此，視覺關注處理器205經耦合至一場景儲存器207，該場景儲存器207包括描述場景/世界之場景資料。此場景資料可例如經儲存為三維模型，但在諸多實施例中將呈針對數個捕獲/錨定位置之三維視圖影像資料之形式。

場景資料具體而言係提供場景之一3D描述之3D場景資料。場景資料可參考一場景座標系描述場景。

該設備進一步包括一影像資料產生器209，該影像資料產生器209經耦合至視覺關注處理器205、場景儲存器207，且在實例中亦經耦合至感測器輸入處理器201。影像資料產生器209經配置以產生表示場景之視圖之一影像資料串流。在圖2之實例中，影像資料產生器209自感測器輸入處理器201接收一觀看者姿勢。在該實例中，觀看者姿勢指示頭部姿勢，且影像資料產生器209經配置以產生用於呈現對應於觀看者姿勢之視圖之影像資料。因此，在特定實例中，影像資料產生器209回應於觀看者頭部姿勢而產生影像資料。

在一些實施例中，影像資料產生器209可直接產生對應於針對觀看姿勢之觀看口之視圖影像。在此等實施例中，影像資料產生器209可據此直接合成可由一合適VR裝置直接演現之視圖影像。例如，影像資料產生器209可針對給定視圖位置產生包括對應於一觀看者之左眼及右眼之立體影像之視訊串流。視訊串流可例如經提供至直接饋送或控制一VR頭盔之一演現器，且可直接呈現視圖影像視訊串流。

然而，在圖2之實例中，影像資料產生器209經配置以產生影像資料串流以包括用於合成觀看者姿勢(且具體而言頭部姿勢)之視圖影像之影像資料。

具體而言，在該實例中，影像資料產生器209經耦合至一影像合成器211，該影像合成器211經配置以回應於自影像資料產生器209接收之影像資料串流而合成一觀看者姿勢之視圖影像。影像資料串流具體而言可經選擇為包含接近或直接對應於觀看者姿勢之三維影像資料。接著，影像合成器211可處理此三維影像資料以合成可呈現給使用者之觀看者姿勢之視圖影像。

此方法可例如允許影像資料產生器209及影像合成器211以按不同速率操作。例如，影像資料產生器209可經配置以依一低頻率(例如，即每秒一次)評估一新觀看者姿勢。據此，可產生影像資料串流以具有對應於此觀看者姿勢之三維影像資料，且因此可每秒一次更新當前觀看者姿勢之三維影像資料。

相比之下，影像合成器211可快得多地合成當前觀看姿勢之觀看口之視圖影像，例如可產生新影像且將新影像提供給使用者，例如每秒30次。據此，觀看者將體驗每秒30個圖框之一圖框速率。歸因於使用者移動，個別視圖影像/圖框之觀看姿勢可能偏離影像資料產生器209針對其產生影像資料之參考觀看姿勢，且因此影像合成器211可執行一定視圖移位等。

據此，該方法可允許影像資料產生器209慢得多地操作，且本質上即時操作可能限於影像合成器211。此可降低影像資料產生器209之複雜性及資源需求。此外，影像合成器211之複雜性及資源要求通常相對低，此係因為視圖移位往往相對小且因此甚至低複雜性演算法往往將導致足夠高品質。再者，該方法可實質上減小用於影像資料產生器209與影像合成器211之間的連接/鏈路之所要頻寬。此可能係一重要特徵，尤其是在其中影像資料產生器209及影像合成器211遠離彼此定位之實施例中，舉例而言諸如分別在圖1之VR伺服器101及VR客戶端103中。

影像資料產生器209基於自場景儲存器207提取之場景資料產生影像資料。作為一特定實例，場景儲存器207可包括來自潛在大量捕獲點或錨定點之場景之影像資料。例如，針對場景中之大量位置，場景儲存207可儲存具有相關聯深度資料之一全球形影像。在此一情況下，影像資料產生器209可判定最接近自感測器輸入處理器201接收之當前觀看者姿勢之錨定點。接著，影像資料產生器209可提取對應球形影像及深度資料且將此等傳輸至影像合成器211。然而，通常，影像資料產生器209將不傳輸整個球形影像(及深度資料)，但將選擇此球形影像(及深度資料)之一合適小部分進行傳輸。此一小部分可被稱為圖塊。一圖塊通常將反射球形影像之一非常實質小部分，舉例而言諸如在區域之1/16與1/64之間。實際上，圖塊通常將大於當前觀看姿勢之觀看口。可自觀看姿勢之定向判定經選擇圖塊。

將明白，在一些實施例中，影像合成器211可被認為包括於影像資料產生器209中，且影像資料產生器209可直接產生包括使用者之觀看口之視圖影像之一影像資料串流(例如，對應於圖2之影像合成器211之輸出。換言之，在一些實施例中，參考圖2所描述之影像串流產生器1207及影像合成器211之功能可同樣地應用於其他實施例中之一組合實施方案，其中影像資料產生器209及影像合成器211之功能經整合至直接產生包括一觀看者/使用者之直視影像之一輸出資料串流之單個功能實體中)。

在圖2之設備中，影像資料產生器209進一步耦合至視覺關注處理器205，該影像資料產生器209自該視覺關注處理器205接收經判定之視覺關注區之資訊。影像資料產生器209經配置以回應於視覺關注區而調適經產生之影像資料之不同部分之品質。具體而言，影像資料產生器209經配置以設定品質，使得品質針對視覺關注區比視覺關注區外(至少一些部分)高。因此，影像資料產生器209可產生影像資料以具有一變化影像品質，其中視覺關注區之經產生之影像資料之影像品質比表示視覺關注區外部之影像資料(之至少部分)高。

由於視覺關注區係3D場景中之一區且具有關於觀看者姿勢之一深度/距離參數/性質，因此視覺關注區與影像資料之間的關係針對變化的觀看者姿勢而變化。具體而言，影像資料之哪些部分對應於視覺關注區，且因此影像資料之哪些部分應以更高品質提供取決於距離。據此，影像資料產生器209經配置以回應於自觀看者姿勢至視覺關注區之距離而判定對應於視覺關注區之第一影像資料。

應注意，此不同於例如判定一顯示器上或一影像中之一凝視點，且接著取決於此產生一注視點(foveated)影像。在此一方法中，凝視點不會針對觀看者位置變化(具有相同焦點)而改變，且注視點影像將不會改變。然而，針對具有自觀看者位置至視覺關注區之一變化距離之一3D場景中之一3D視覺關注區，即使當焦點例如在相同場景物件上保持不變，對應於視覺關注區之影像資料仍將隨著觀看者姿勢改變而改變。

影像資料產生器209可經配置以考量此等改變。例如，影像資料產生器209可經配置以將視覺關注區投影至針對其等提供影像資料之觀看口上，且接著回應於投影而判定第一資料。具體而言，可判定第一影像資料(待以較高品質提供)為圍繞視覺關注區至觀看口上之投影之觀看口之一區段之影像資料。

作為一實例，基於經接收之觀看者姿勢，影像資料產生器209可識別最接近之捕獲位置且擷取彼位置之球形影像及深度資料。接著，影像資料產生器209可繼續進行以判定一圖塊(例如，包括觀看者姿勢之一120°方位角及90°仰角圖塊)。影像資料產生器209接著可繼續進行以判定圖塊內對應於視覺關注區之一區域。具體而言，此可藉由基於觀看者姿勢追蹤視覺關注區至由球形影像表示之表面上之線性投影而完成。例如具體而言，可將直線自觀看者位置投影至視覺關注區之點，且可判定對應於視覺關注區之圖塊/影像之區域為此等線與球面/影像觀看口之相交區域。

因此，影像資料產生器209可識別表示視覺關注區之圖塊之一部分。例如，若視覺關注區對應於一場景物件，則影像資料產生器209可識別圖塊中包含場景物件之一區域。接著，影像資料產生器209可繼續進行以產生圖塊之影像資料，但使得經識別之區域之影像資料之品質比圖塊之其餘部分高。接著將所得影像資料包含於影像資料串流中且饋送至影像合成器211。

使用圖塊之一優點係其等通常可由預編碼視訊(在DASH中被稱為「軌道」)表示，接著可選擇該視訊進行傳輸而無需每個客戶端編碼或轉碼。所描述方法可適用於此等圖塊。特定而言，在諸多實施例中，影像資料產生器209可針對一給定圖塊在傳輸之前處理該圖塊，使得處理降低圖塊之資料速率，惟對應於視覺關注區之特定區域除外。據此，產生且傳輸一所得圖塊，該圖塊針對當前估計為具有觀看者之視覺關注之特定區域具有一高品質(資料速率)且針對圖塊之其餘部分具有一較低品質(資料速率)。

在其他實施例中，可以不同數量儲存更大量較小圖塊。例如，各圖塊可對應於不大於10°之一觀看角。接著，可藉由針對對應於視覺關注區之一區域選擇高品質圖塊且針對組合區塊之剩餘部分選擇較低品質圖塊而形成一較大組合圖塊。

在其中影像資料產生器209直接產生用於呈現給一使用者之觀看口影像之實施例中，觀看口影像中對應於視覺關注區之區域可以比視覺關注區外之觀看口之區域高之一品質(空間及/或時間資料速率)產生 (例如，上述說明可被認為適用但圖塊經選擇為對應於頭部姿勢之(若干)觀看口)。

將明白，用於改變影像資料之影像品質之不同方法係熟習此項技術者已知的且可使用任何合適方法。在諸多實施例中，資料速率(空間及/或時間)之變動可對應於影像品質之一變動。因此，在諸多實施例中，影像資料產生器209可經配置以產生影像資料以針對第一影像資料具有比針對第二影像資料高之一資料/位元速率。資料/位元速率之變動可為一空間及/或時間資料/位元速率。具體而言，影像資料產生器209可經配置以產生影像資料以針對第一影像資料具有比針對第二影像資料多之每區域位元及/或多之每秒位元。

影像資料產生器209可例如將自場景儲存器207擷取之資料重新編碼(轉碼)至針對視覺關注區之區域外之區域之一較低品質位準，且接著傳輸較低品質版本。在其他實施例中，場景儲存器207可包括針對不同捕獲點之兩個不同編碼版本之影像，且影像資料產生器209可藉由分別針對視覺關注區之區域且針對圖塊之剩餘部分選擇來自不同版本之資料而產生不同品質。

將明白，影像資料產生器209可藉由調整不同參數(諸如空間解析度、時間解析度、壓縮位準、量化位準(字長)等)來改變品質位準。例如，藉由以下至少一者達成更高品質位準：一更高圖框速率；一更高解析度；一更長字長；及一降低之影像壓縮位準。

因此，影像資料產生器209產生一影像資料串流，其中視覺關注區之影像品質比外部高。因此，場景之一特定部分基於凝視點而識別，且因此反映頭部姿勢及相對眼睛姿勢兩者，且此部分以一更高品質表示。據此，針對一場景部分及通常觀看者可能正在聚焦之場景物件提供高品質。

該方法可提供一差異化方法，其中視覺關注區可對應於觀看者之觀看口之一小區域且整體以可能實質上比觀看口高之一品質位準呈現。該方法之一重要特徵係對應於視覺關注區之高品質區域/區可形成整個觀看口/區域之一非常小部分。實際上，在諸多實施例中，視覺關注處理器205經配置以判定視覺關注區具有針對觀看者之一觀看者位置不超過10° (或在一些實施例中甚至5°)之一水平延伸。因此，視覺關注區可對應於觀看者之視圖(及觀看口)之不足10° (或5°)，且因此增加之品質限於一非常小區。類似地，在諸多實施例中，視覺關注處理器205經配置以判定視覺關注區具有針對觀看者之一觀看者位置不超過10° (或在一些實施例中甚至5°)之一垂直延伸。

實際上，發明者已認識到，人類品質感知係非常有限且特定的，且藉由在對應於場景中之觀看者當前凝視點處之場景內容之一特定小視圖間隔中提供一高品質，觀看者將感知整體觀看口係以高品質呈現。發明者已進一步認識到，此可用來藉由追蹤場景中之使用者凝視且據此調適品質位準而實質上降低一VR應用中之資料速率。

實際上，在諸多案例中，人類完全感知清晰度/品質之角度可能非常低，且通常僅在一度或幾度之區中。然而，藉由判定一更大區域具有改良品質，可達成相關區域之更少更新係必需的，由此促進更高品質區域之調適及傳輸。實際上，在諸多實施例中已發現，大約5°至10°之一延伸提供一非常有利權衡。

該方法之效應可由圖3中之圖像來例示，其中上圖像展示針對整個視點具有相同(高)品質之一可能視圖影像。下圖像係可由圖2之設備產生之一可能視圖影像之一實例。在此實例中，已在右邊三個人周圍識別對應於使用者之當前凝視之一視覺關注區。在此實例中，此三個人周圍之一對應區域之品質(在該實例中全區域之約1/3x1/3)已維持於與上圖像相同之高位準，但品質已針對剩餘影像降低(例如，藉由以一更高壓縮位準轉碼)。在在看兩個圖像時，清楚地看見品質差異。然而，針對視覺上聚焦於左邊三個人之一使用者，通常不會注意到品質差異。實際上，已執行測試，其中兩個圖像已疊加於一顯示器上，使得該顯示器可在影像之間快速切換而無任何空間變動。當測試物件聚焦於對應於視覺關注區之區域(即，左邊三個人)時，未感知兩個影像之間的品質差異。

在諸多實施例中，影像資料產生器209可經配置以回應於凝視指示及/或頭部姿勢而判定影像資料之一觀看口，且回應於觀看口而判定第一資料。

具體而言，觀看口可對應於例如一頭盔之一顯示器，且使用者可透過頭盔之顯示器且因此透過對應於顯示器之觀看口有效地觀看場景。然而，隨著使用者四處移動或改變頭部方向等，使用者將看見場景之不同部分，該等部分有效地對應於透過其等看見場景之觀看口。因此，觀看口將在3D場景中四處移動，且實際上將改變3D場景中之位置及定向。

在諸多實施例中，影像資料產生器209可進一步考量此點。影像資料產生器209具體而言可以兩階段方式如此做。首先，可使用頭部姿勢來判定一觀看口之姿勢，該觀看口對應於彼姿勢之觀看者之視圖。例如，可判定觀看口為具有一預定大小且距頭部位置達一距離及在頭部方向上之一觀看口。接著，影像資料產生器209可繼續進行以判定表示此觀看口所要之影像資料，例如藉由自3D場景資料產生對應於觀看口之一影像。接著，影像資料產生器209可繼續進行以考量視覺關注區且基於觀看者姿勢將此視覺關注區投影至觀看口上。接著可判定觀看口之對應區域且識別對應影像資料。接著可以比此區域外部之觀看口之影像資料高之一品質產生此影像資料。

在諸多實施例中，可針對多個觀看口，例如具體而言針對各眼睛之一觀看口重複此方法。

在諸多實施例中，圖2之設備可在觀看者本端之單個裝置中實施，舉例而言諸如一遊戲控制台。然而，在諸多其他實施例中，該設備之元件可遠離觀看者。例如，在諸多實施例中，可採用一客戶端/伺服器方法(諸如圖1之客戶端/伺服器方法)，其中圖2之一些元件定位於客戶端裝置中且一些元件定位於伺服器中。

例如，在諸多實施例中，接收器203、視覺關注處理器205、場景儲存器207及影像資料產生器209可定位於伺服器103中。該等元件可在複數個伺服器之間共用且因此可支援基於集中式場景資料之複數個同步VR應用。

在諸多實施例中，影像資料產生器209可定位於伺服器103中，且影像合成器211可定位於客戶端中。此將允許伺服器103連續地提供可在本端使用之3D影像資料以進行(小)調整以準確地產生對應於當前觀看姿勢之視圖影像。此可能降低所要資料速率。然而，在其他實施例中，影像合成器211可定位於伺服器103中(且實際上可組合影像資料產生器209及影像合成器211之功能)，且伺服器103可直接產生可直接呈現給使用者之視圖影像。因此，在一些情況下，傳輸至伺服器103之影像資料串流可包括可在本端處理以產生視圖影像之3D影像資料，且在其他情況下可直接包含用於呈現給使用者之視圖影像。

在諸多實施例中，感測器輸入處理器201包括於客戶端101中且接收器203可包括於伺服器103中。因此，客戶端101可接收及處理來自例如VR頭盔之輸入資料以產生單個組合凝視指示，接著將該單個組合凝視指示傳輸至接收器203。在一些實施例中，客戶端101可直接將感測器輸入(可能部分經處理)或個別眼睛姿勢及頭部姿勢資料轉遞至伺服器103，接著該伺服器103可判定一組合凝視指示。實際上，凝視指示可經產生為指示例如場景中之一位置之單個值或向量，或可例如由單獨參數之一組合表示，諸如一頭部姿勢及一相對眼睛姿勢之一單獨表示。

在不同實施例中，視覺關注處理器205可使用不同演算法及準則來選擇視覺關注區。在一些實例中，視覺關注處理器205可界定場景中之三維視覺關注區，且具體而言可判定視覺關注區為場景中之一預定區，包括或集中於由凝視指示所指示之凝視點之位置。

例如，凝視指示可直接指示場景中之一點，例如給定為一直角座標(x, y, z)或一極座標(方位角, 仰角, 距離)。接著可判定視覺關注區為集中於凝視點之一預定大小之一稜柱。

然而，在諸多實施例中，視覺關注處理器205經配置以回應於對應於凝視指示之場景內容而判定視覺關注區。

在諸多實施例中，視覺關注處理器205可評估凝視點周圍之場景。例如，視覺關注處理器205可識別具有相同視覺性質(舉例而言諸如相同色彩及/或強度)之凝視點周圍之一區。接著可將此區視為視覺關注區。作為一特定實例，可提供凝視點作為相對於一當前視圖位置之三維向量(例如，由頭部姿勢所指示之頭部位置)。視覺關注處理器205可基於頭部姿勢選擇一經捕獲之3D影像，且判定相對於3D影像之捕獲點之凝視點。接著，視覺關注處理器205可判定3D影像之對應於經判定之凝視點之一部分，且評估此是否係一視覺上同質區之部分。若是，則可判定此區為例如受制於一最大大小之視覺關注區。

在諸多實施例中，視覺關注處理器205可判定視覺關注區對應於一場景物件。例如，若凝視點充分接近或直接匹配此一物件之位置，則視覺關注處理器205可將視覺關注處理器205設定為對應於該物件。

在一些實施例中，該系統可具有場景物件之顯式資訊，舉例而言諸如一人之場景中之位置之顯式資訊。若偵測到凝視點充分接近該人，則可假定觀看者有效地在看此人，且因此視覺關注處理器205可將視覺關注區設定為對應於該人。例如，若該人之粗略輪廓係已知的(例如，藉由VR系統使用一基於模型之方法)，則視覺關注處理器205可繼續進行以判定視覺關注區為包括該人之一定界框。可選擇此一框之大小以確保整個人在該框內，且可例如被判定為對應於一所期望之觀看角(例如5°)。

作為另一實例，若場景資料由來自不同捕獲點之3D影像資料組成，則視覺關注處理器205可動態地判定一場景物件為例如對應於凝視點且具有一同質色彩且在一窄/有限深度範圍內之一區。例如，視覺關注處理器205可包含可自動地偵測經捕獲之影像資料中之一面部之面部偵測。接著可將視覺關注區設定為對應於此動態偵測之場景物件。

在諸多實施例中，視覺關注處理器205可進一步包括一追蹤器，該追蹤器經配置以追蹤場景物件在場景中之移動且可回應於經追蹤之移動而判定視覺關注區。此可提供對一合適視覺關注區之一更準確判定。例如，可知道或估計一物件在場景中移動(例如，一汽車正在行駛，一球正在移動等)。可知道或估計此移動之特性。具體而言，可判定場景中之物件之一方向及速度。若視覺關注處理器205判定對應於此移動物件之一視覺關注區，則視覺關注處理器205可追蹤該移動來看此是否匹配凝視指示之變化。若是，則假定觀看者正在看物件且正在跟隨運動/追蹤物件，且將視覺關注區維持為對應於物件。然而，若凝視指示不跟隨物件之移動，則視覺關注處理器205可判定該物件不適合作為一視覺關注區且因此可繼續進行以選擇一不同視覺關注區，或判定當前不存在維持的視覺關注，且因此不適合判定一視覺關注區，其中整個圖塊可以一中間解析度傳輸(例如，運用當傳輸一高品質視覺關注區影像資料及低品質非視覺關注區影像資料時之一對應總資料速率)。

該方法可提供額外時間一致性且可允許視覺關注處理器205判定更接近反映使用者關注之一視覺關注區。

在諸多實施例中，視覺關注處理器205可經配置以藉由考量針對先前凝視指示及/或觀看者姿勢判定之視覺關注區而判定視覺關注區。例如，可判定當前視覺關注區以匹配先前視覺關注區。作為一特定情況，一視覺關注區之判定通常可經受一低通濾波效應，即，可選擇相同場景區域作為後續凝視指示之視覺關注區，只要此等後續凝視指示與先前凝視指示無太大差異。

該系統可提供一「快照」效應，其中視覺關注區經鏈接至例如一場景物件，只要凝視點之變化與物件之移動之間的相關性足夠緊密地匹配(根據一合適準則)。即使例如偵測到凝視點更接近另一物件，場景物件作為視覺關注區之此選擇亦可繼續。然而，若凝視點不滿足關於場景物件移動之相關性要求，則視覺關注處理器205可將視覺關注區改變為對應於另一場景物件(通常最接近之場景物件)或可將視覺關注區設定為當前凝視點周圍之一預定區(或實際上判定當前不存在特定視覺關注區(例如，對應於使用者快速掃描場景/觀看口)。

在一些實施例中，視覺關注處理器205可經配置以回應於視覺關注區之移動與凝視指示之變化之間的一相關性而判定視覺關注區之一可信度量度。具體而言，藉由偵測如由凝視指示所指示之凝視點之變化且比較此等變化與在觀看者正在追蹤視覺關注區之運動(例如，對應於視覺關注區之一物件)之情況下導致之凝視點變化，可判定指示觀看者實際上將其視覺關注聚焦於此物件/區上之可能性之一量度。若相關性為高，例如如自觀看姿勢觀看之物件位置變化與凝視點中之對應移動匹配，則觀看者很可能實際上將其關注聚焦於對應物件上且可將視覺關注區可信度值設定為高。若相關性為低，則可將可信度值設定為更低。實際上，在諸多實施例中，可判定一相關性量度且將其直接用作可信度量度(或例如可判定可信度量度為相關性量度之一單調遞增函數)。

在此等實施例中，影像資料產生器209可經配置以基於經判定之可信度量度設定例如如由資料速率表示之視覺關注區之品質位準。具體而言，可增加品質位準以增加可信度(例如，一單調函數可用來判定視覺關注區之影像資料之一空間及/或時間資料速率)。

此可提供此一操作，其中若設備判定觀看者很可能聚焦於一特定區/物件，則此係以一非常高品質展示，其中通常大多數視圖影像/觀看口處於實質上較低品質。然而，若代替地認為使用者當前聚焦於經偵測之區/物件之概率較低，則可實質上減小區/物件與影像/觀看口之其餘部分之間的品質差異。實際上，若可信度量度足夠低，則影像資料產生器209可將視覺關注區之資料之品質位準及經產生之資料之其餘部分之品質位準設定為實質上相同。若觀看者不將其焦點限於經偵測之視覺關注區，則此可能降低可能出現之一經感知品質「閃爍」。再者，若存在一恆定資料速率極限，則例如可允許待用來增加圖塊/觀看口之剩餘部分之資料速率之視覺關注區之經降低資料速率。

在諸多實施例中，影像資料產生器209可經配置以取決於可信度量度在兩個品質位準之間(舉例而言諸如在與視覺關注區影像資料相關聯之一高品質位準和與非視覺關注區影像資料相關聯之一低品質位準之間)切換。然而，在諸多實施例中，影像資料產生器209可經配置以取決於可信度量度在諸多不同品質位準之間切換。

在諸多實施例中，視覺關注處理器205可經配置以回應於場景之儲存使用者觀看行為而判定視覺關注區。儲存使用者觀看行為可反映場景之先前視圖之頻率/分佈，且具體而言可反映場景之先前視圖之凝視點之空間頻率分佈。凝視點可例如由一或多個參數反映，舉例而言諸如一全三維位置、一方向或例如一距離。

在一些實施例中，該設備可經配置以監測及追蹤場景中使用者之凝視點且判定使用者最常看之位置。作為一實例，視覺關注處理器205可追蹤藉由判定凝視點充分接近個別物件之時間量而評估之使用者被認為看特定場景物件之頻率。具體而言，可監測選擇個別場景物件作為視覺關注區之頻率。在此等實施例中，視覺關注處理器205可例如針對各場景物件，累計已選擇個別場景物件作為一視覺關注區之總次數。

當判定視覺關注區時，視覺關注處理器205可考量儲存使用者觀看行為，且具體而言可將視覺關注區之選擇/判定偏置朝向具有一更高觀看頻率之區/物件。例如，針對一給定觀看者姿勢及凝視點，視覺關注處理器205可判定一合適觀看口且可識別此觀看口內之一些潛在候選場景物件。接著，視覺關注處理器205可取決於凝視點與個別場景物件之接近程度及先前已選擇場景物件作為視覺關注區之頻率來選擇物件之一者作為視覺關注區。偏置朝向「流行」場景物件可能導致並非與凝視點最接近之物件但與最接近之物件相比更可能係一候選者之場景物件被選擇。

在不同實施例中，可使用不同方法及演算法來考量先前使用者行為。例如，可針對各場景物件判定一成本量度，此取決於至凝視點之距離及指示先前觀看行為之一頻率量度且具體而言取決於先前已選擇場景物件作為一視覺關注區之頻率。接著，視覺關注處理器205可選擇具有最低成本量度之場景物件作為視覺關注區。

據此，視覺關注處理器205可將視覺關注區偏置朝向場景之區，相對於儲存使用者觀看行為針對其等指示一較低觀看頻率之場景之區，儲存使用者觀看行為針對該等區指示一較高觀看頻率。此一方法可導致一改良使用者體驗及更可能對應於使用者實際視覺焦點之視覺關注區之一選擇。

使用者觀看行為可反映相同VR會話期間及相同使用者之觀看行為。因此，視覺關注處理器205可例如儲存指示例如選擇哪些場景物件作為視覺關注區之資料。接著，視覺關注區之後續選擇可考量個別場景物件之選擇頻率以供後續選擇。

在一些實施例中，觀看行為可反映先前VR會話之行為且實際上可反映多個使用者之觀看行為。例如，在其中視覺關注處理器205係在圖1之伺服器103中實施且因此伺服諸多不同使用者之實施例中，儲存觀看行為資料中可反映針對所有使用者及所有VR會話選擇個別場景物件(或更一般而言區)。因此，視覺關注區之選擇可進一步回應於例如在存取場景資料時之先前統計使用者行為。

在諸多實施例中，視覺關注處理器205可經配置以進一步判定一預測視覺關注區。預測視覺關注區指示觀看者之一經估計之未來視覺關注，且因此具體而言可不對應於當前凝視點，但代替地對應於一預期未來凝視點。因此，預測視覺關注區可為可在將來選擇之一視覺關注區之一指示/估計。

視覺關注處理器205可回應於指示場景之不同區之間且具體而言不同場景物件之間的先前觀看行為關係之關係資料而判定預測視覺關注區。

發明者已認識到，在諸多應用中，在一內容之不同部分之間存在典型或更頻繁移位，且可記錄且使用此使用者行為來提供改良效能。

視覺關注處理器205具體而言可包含預測視覺關注區之額外影像資料，其中此影像資料處於比預測視覺關注區外高之一品質位準。特定而言，用於提供當前視覺關注區之影像資料之前述方法亦可應用於提供預測視覺關注區之影像資料。因此，在一些實施例中，影像資料產生器209可產生一資料串流，該資料串流包含針對除對應於一當前且預測之視覺關注區之區域(針對其等品質位準可實質上更高)以外之一給定圖塊之一給定品質之影像資料。

視覺關注處理器205可回應於指示當前視覺關注區之視圖與預測視覺關注區之視圖之間的一高視圖(觀看)相關性之關係資料而判定預測視覺關注區。

關係資料通常可指示存取場景之觀看者之先前凝視移位，且視覺關注處理器205可判定預測視覺關注區為關係資料針對其指示自視覺關注區移位至第一區之凝視移位之滿足一準則之一凝視移位頻率之一區。該準則通常可能要求凝視移位頻率高於一臨限值或例如為自視覺關注區至近場景物件之一組凝視移位頻率之最高頻率。

作為一實例，在數個VR會話期間，視覺關注處理器205可收集反映使用者如何改變其等焦點之資料。此可例如藉由儲存選擇哪些場景物件作為視覺關注區且具體而言選擇哪些選擇變化發生而完成。針對一給定場景物件，每當自給定場景物件至彼場景物件發生一選擇變化時，視覺關注處理器205可針對一給定距離之各其他場景物件進行記錄。當選擇給定場景物件作為當前視覺關注區時，視覺關注處理器205接著可繼續進行以評估儲存資料以識別一第二場景物件係接下來最常被選擇之場景物件，即，使用者之視覺關注通常切換至之場景物件。

接著，視覺關注處理器205可繼續進行以針對當前視覺關注區及預測視覺關注區兩者傳輸特別高品質之資料。因此，可為使用者產生視圖影像，該等視圖影像針對使用者之當前視覺焦點以及針對使用者之預測/預期下一視覺焦點具有一特定高品質。若確實如此，則使用者進行視覺焦點之預期改變，使用者將直接地且在無任何滯後或延遲的情況下感知整個影像之一高品質。

作為一特定實例，可考量呈一網球比賽之一沉浸式且嵌入式之觀看者體驗之形式之一VR體驗，其中向使用者提供一觀眾坐在看台中之一體驗。在該案例中，使用者可將其位置或頭部定向改變為例如環視、移動至一不同位置等。在該實例中，場景物件可對應於兩個選手、裁判、球網、男球童或女球童等。

在此一應用中，產生觀看行為資料可能導致此表明對應於兩個選手之場景物件最常被選擇為視覺關注區，即，使用者焦點主要係選手。據此，即使凝視指示指示凝視點更接近例如，球網或男球童，視覺關注處理器205亦更可能選擇選手物件之一者作為視覺關注區。

另外，關係行為可反映視覺關注區常自第一選手切換至第二選手，且反之亦然。因此，當選擇第一選手物件作為當前視覺關注區時，視覺關注處理器205可判定第二選手物件作為預測視覺關注，且反之亦然。接著，影像資料產生器209可產生影像資料以針對對應於當前觀看姿勢之圖塊具有一給定品質，但針對小區域具有一實質上更高品質。類似地，影像合成器211可產生視圖影像以除針對其中品質實質上更高之選手周圍之非常小區域(即，第一選手及第二選手周圍小於5°)外具有一給定品質。據此，當使用者之凝視在不同選手之間切換時，使用者可感知一致高品質。

亦應注意，此方法與觀看者姿勢之變化一致。具體而言，若觀看者姿勢自一個位置改變至另一位置(例如，對應於使用者選擇自其觀看遊戲之看台之一不同位置)，則關於選擇視覺關注區之資料仍係有用的。具體而言，指示對應於選手之場景物件係視覺關注區之強候選者之先前資料仍相關，正如指示使用者經常將凝視自一個選手改變至另一選手(即，在選手場景物件之間改變)之關係資料。當然，視覺關注區至特定視圖影像之投影將根據觀看口變化而改變。

在一些實施例中，視覺關注處理器205可經配置以回應於對應於一預測視覺關注區之一場景物件之移動資料而判定該視覺關注區。可例如判定預測視覺關注區為場景物件正移動所朝向之一區，即，其可對應於場景物件之一估計或預測未來位置。該方法可例如在使用者正在追蹤一快速移動物件之情況中提供改良效能，該物件例如可能如此快速地移動使得連續地更新當前視覺關注區且傳輸對應高品質資料可能引入一延遲或不可接受滯後。例如，若使用者在一足球遊戲中帶球，則當該球緩慢移動(例如，傳球)時連續地追蹤對應物件且傳輸一小周圍區域之高品質資料之方法可能係合適的，但當該球快速移動時(例如射門或球門發球(goal kick) )並不合適。在後一種情況下，系統可預測例如球將擊中目標且因此可在球到達目標之前傳輸目標區域之高品質資料。

先前實例已聚焦於其中針對對應於視覺關注區(或預測視覺關注區)之區域選擇一給定較高影像品質且針對(例如觀看口之)其他區域選擇一給定較低品質之實施例。然而，在諸多實施例中，可應用一逐漸品質變化。

例如，可識別視圖影像中對應於視覺關注區之一焦點，且可在影像區越接近焦點之情況下增加視圖影像中之影像區域之品質。例如，視圖影像之編碼可基於如自諸多編碼方案(諸如MPEG)已知之巨集區塊。可判定分配給各巨集區塊之位元之數目(及因此巨集區塊之品質)為巨集區塊與焦點之間的距離之一函數。該函數可隨著距離增加而單調遞減，因此確保在巨集區塊越接近焦點的情況下，品質增大。將明白，可選擇該函數之特性以提供所期望之逐漸品質分佈。例如，可選擇該函數以提供高斯品質/位元分配分佈。

在一些實施例中，可提供：一種用於產生表示一場景之視圖之一影像資料串流之設備，該設備包括：一接收器(203)，其用於接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；一判定器(205)，其用於判定該場景中對應於該凝視指示之一視覺關注區；一產生器(209)，其用於產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；其中該產生器(209)經配置以產生該影像資料以針對該第一影像資料具有比針對該第二影像資料高之一品質位準。

一種產生表示一場景之視圖之一影像資料串流之方法，該方法包括：接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；判定在該場景中對應於該凝視指示之一視覺關注區；產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；該影像資料針對該第一影像資料具有比針對該第二影像資料高之一品質位準。

將明白，為了清楚起見，上文描述已參考不同功能電路、單元及處理器描述本發明之實施例。然而，將明白，可在不背離本發明之情況下使用不同功能電路、單元或處理器之間的任何合適功能分佈。例如，被繪示為由單獨處理器或控制器執行之功能可由相同處理器或控制器執行。因此，對特定功能單元或電路之參考僅被視為對用於提供所描述功能之合適構件之參考，而非指示一嚴格邏輯或實體結構或組織。

本發明可以任何合適形式實施，包含硬體、軟體、韌體或或此等任何組合。本發明可視情況至少部分地實施為在一或多個資料處理器及/或數位信號處理器上運行之電腦軟體。本發明之一實施例之元件及組件可以任何合適方式在實體上、功能上及邏輯上實施。實際上，功能可在單個單元中、在複數個單元中或作為其他功能單元之部分來實施。因而，本發明可在單個單元中實施，或可在不同單元、電路與處理器之間實體地及功能地分佈。

儘管已結合一些實施例描述本發明，但並非意欲於將本發明限於本文中所闡述之特定形式。相反，本發明之範疇僅受隨附發明申請專利範圍之限制。另外，儘管一特徵可能看似結合特定實施例進行描述，但熟習此項技術者將認知，可根據本發明組合所描述實施例之各種特徵。在發明申請專利範圍中，術語包括不排除其他元件或步驟的存在。

此外，儘管個別地列出，但複數個構件、元件、電路或方法步驟可由例如單個電路、單元或處理器來實施。另外，儘管個別特徵可包含於不同發明申請專利範圍中，但此等特徵可有利地組合，且包含於不同發明申請專利範圍中並非暗示一特徵組合係不可行及/或不利的。再者，一特徵包含於一種類別之發明申請專利範圍中並非暗示限制於此類別，而是指示適當時該特徵同樣適用於其他發明申請專利範圍類別。此外，發明申請專利範圍中之特徵之順序並非暗示必須使特徵工作之任何特定順序，且特定而言一方法發明申請專利範圍中之個別步驟之順序並非暗示必須以此順序執行該等步驟。相反，可以任何合適順序執行該等步驟。另外，單數參考不排除複數。因此，對「一」、「一個」、「第一」、「第二」等之參考不排除複數。僅僅提供發明申請專利範圍中之參考標記作為一澄清實例不應被解釋為以任何方式限制發明申請專利範圍之範疇。

101:遠端虛擬實境(VR)伺服器/客戶端裝置 103:客戶端VR伺服器/遠端客戶端 105:網路 201:感測器輸入處理器 203:接收器 205:視覺關注處理器 207:場景儲存器 209:影像資料產生器 211:影像合成器

將僅以實例方式參考圖式描述本發明之實施例，其中

圖1繪示用於提供一虛擬實境體驗之客戶端伺服器配置之一實例；

圖2繪示根據本發明之一些實施例之一設備之元件之一實例；及

圖3繪示可由圖2之設備之一些實施方案產生之視圖影像之一實例。

101:遠端虛擬實境(VR)伺服器/客戶端裝置

201:感測器輸入處理器

203:接收器

205:視覺關注處理器

207:場景儲存器

209:影像資料產生器

211:影像合成器

Claims

一種用於產生表示一三維場景之視圖之一影像資料串流之設備，該設備包括：一接收器(203)，其用於接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；一判定器(205)，其用於判定在該三維場景中具有一三維位置、對應於該凝視指示之一視覺關注區；一產生器(209)，其用於產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；其中該產生器(209)經配置以產生該影像資料以針對該第一影像資料具有比針對該第二影像資料高之一品質位準；且其中該判定器(205)經配置以回應於該凝視指示之一凝視距離指示而判定該視覺關注區。
如請求項1之設備，其中該判定器(205)經配置以判定該視覺關注區針對該頭部姿勢在至少一個方向上具有不超過10度之一延伸。
如前述請求項中任一項之設備，其中該視覺關注區對應於一場景物件。
如請求項3之設備，其中該判定器(205)經配置以追蹤該場景物件在該場景中之移動，且該判定器(205)經配置以回應於該經追蹤之移動而判定該視覺關注區。
如前述請求項1或2之設備，其中該判定器(205)經配置以回應於該場景之儲存使用者觀看行為而判定該視覺關注區。
如請求項5之設備，其中該判定器(205)經配置以將該視覺關注區偏置朝向該場景之區，該儲存使用者觀看行為針對該等區指示一較高觀看頻率。
如前述請求項1或2之設備，其中該判定器(205)經配置以回應於指示該場景之不同區之間的先前觀看行為關係之關係資料而判定一預測視覺關注區；且其中該產生器(209)經配置以將該預測視覺關注區之第三影像資料包含於該影像資料串流中；其中該產生器(209)經配置以產生該影像資料以針對該第三影像資料具有比針對該預測視覺關注區外之該第二影像資料高之一品質位準。
如請求項7之設備，其中該關係資料指示至少一個觀看者之先前凝視移位；且該判定器(205)經配置以判定該預測視覺關注區為該場景之一第一區，該關係資料針對該第一區指示自該視覺關注區至第該一區之凝視移位之超過一臨限值之一頻率。
如前述請求項1或2之設備，其中該判定器(205)經配置以回應於對應於該視覺關注區之一場景物件之移動資料而判定一預測視覺關注區；且其中該產生器(209)經配置以包含該預測視覺關注區之該第三影像資料；其中該產生器(209)經配置以產生該影像資料以針對該第三影像資料具有比針對該預測視覺關注區外之該第二影像資料高之一品質位準。
如前述請求項1或2之設備，其中該產生器(209)經配置以產生該影像資料串流作為包括對應於該頭部姿勢之觀看口之影像之一視訊資料串流。
如前述請求項1或2之設備，其中該判定器(205)經配置以回應於該場景中之該視覺關注區之移動與該凝視指示之變化之間的一相關性而判定該視覺關注區之一可信度量度；且其中該產生器(209)經配置以回應於該可信度量度而判定該第一影像資料之品質。
如前述請求項1或2之設備，其進一步包括一處理器，該處理器經配置以執行該場景之一應用，其中該應用經配置以產生該凝視指示且自該影像凝視指示演現對應於該觀看者之一觀看口之一影像。
如前述請求項1或2之設備，其進一步經配置以自一遠端客戶端(103)接收該凝視指示且將該影像資料串流傳輸至該遠端客戶端(103)。
如請求項1之設備，其中該產生器(209)經配置以回應於該頭部姿勢而判定該影像資料之一觀看口，且回應於該觀看口而判定該第一資料。
一種產生表示一三維場景之視圖之一影像資料串流之方法，該方法包括：接收指示一觀看者之一頭部姿勢及一相對眼睛姿勢兩者之一凝視指示，該頭部姿勢包含一頭部位置且該相對眼睛姿勢指示相對於該頭部姿勢之一眼睛姿勢；判定在該三維場景中具有一三維位置、對應於該凝視指示之一視覺關注區；產生該影像資料串流以包括該場景之影像資料，其中產生該影像資料以包含該視覺關注區之至少第一影像資料及該視覺關注區外之該場景之第二影像資料；該影像資料針對該第一影像資料具有比針對該第二影像資料高之一品質位準；且其中判定該視覺關注區包括回應於該凝視指示之一凝視距離指示而判定該視覺關注區。