TWI652934B

TWI652934B - 自適應視頻解碼方法及其裝置

Info

Publication number: TWI652934B
Application number: TW106140530A
Authority: TW
Inventors: 蘇進發; 呂立偉; 周冠宏; 王建章
Original assignee: 聯發科技股份有限公司
Priority date: 2016-12-01
Filing date: 2017-11-22
Publication date: 2019-03-01
Also published as: CN108134941A; US20180160119A1; TW201834453A

Abstract

本發明揭示一種自適應視頻解碼方法及其裝置，其中，該自適應視頻解碼方法用於360度視頻序列，該自適應視頻解碼方法包含：確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻的使用者的第一視場相關聯；基於使用者的視點資訊，在當前360度訊框中，根據該第一視圖區域確定擴展區域；以及解碼該當前360度訊框中的該擴展區域。在該當前360度訊框中渲染第二視圖區域，其中，該第二視圖區域與使用者在當前訊框時刻的實際視場相關聯。

Description

自適應視頻解碼方法及其裝置

本發明係有關於一種360度視頻解碼及處理技術。更具體地，本發明涉及一種使用者視場(field of view)中解碼360度虛擬實境(Virtual Reality，VR)視頻序列的視圖區域(view region)的方法。本發明揭露一種根據使用者視點(viewpoint)的自適應基於區域的視頻解碼技術以改善使用者視覺體驗。

於此所述背景內容係一般用以表示本發明的習知技術與本案的前後關係。就於此背景部分敘述的發明人的作品而言，不應表達或暗示性地被當作核駁本發明的先前技術，亦不適格作為申請時的先前技術。

360度視頻(也稱為沉浸式視頻)是一種新興技術，其提供“身臨其境的感覺”。通過使用者周圍覆蓋全景的環繞式場景(尤其是，360度視場)，取得上述身臨其境的感覺。通過立體渲染進一步改善上述“身臨其境的感覺”。因此，將全景視頻廣泛應用於虛擬實境(VR)應用中。

沉浸式視頻涉及使用一個或複數個攝像機捕捉場景以覆蓋全景，例如，360度視場。通常，沉浸式攝像機使用攝像機組合，其中，安排該攝像機組合捕捉360度視場。典型地，為沉浸式攝像機使用兩個或複數個攝像機。同時拍攝所有視頻並且記錄場景的各個片段(也稱為單獨視圖)。此外，也安排攝像機組合水準捕捉視角，與此同時，對射線機的其他安排也是可能的。

當360度視頻提供全方位場景時，使用者經常僅觀察到有限視場。因此，解碼器僅需解碼每個360度訊框的部分(例如，觀察區域)並且向使用者顯示360度訊框的相關部分。然而，使用者並不總是觀看相同區域。在具體使用中，使用者會環顧四周，從而使得視場隨時發生改變。因此，需要解碼並顯示不同區域。第1圖描述了用於觀察360度視頻序列的基於區域解碼的示例場景，其中，使用者從左到右移動其視點。訊框110對應時刻T的360度訊框，並且使用者正看向左側。在這種情況下，僅需解碼並顯示區域112。訊框120對應時刻(T+1)的360度訊框，並且使用者正看向中央。在這種情況下，僅需解碼並顯示區域122。訊框130對應時刻(T+2)的360度訊框，並且使用者正看向右側。在這種情況下，僅需解碼並顯示區域132。

根據3D投影模型(projection model)以及視場，確定需解碼及顯示的區域。第2圖描述基於立體3D模型212的視場，確定視圖區域的示例。投影210顯示使用者正看向立方體右側的場景。立方體右側面的區域216對應與視場相關聯的區域。需要解碼並顯示相關區域214。接著，使用者轉向箭頭218指示的左側，以面對立方體的後部。在投影220中，立方體後側面的區域226對應與視場相關聯的區域。需要解碼並顯示對應區域224。

如上所述，基於區域解碼360度訊框需要解碼視場，以回應使用者的當前視點。如果使用者穿著裝配3D運動感測器的頭戴式顯示裝置，會自動檢測使用者的視點或視點運動。使用者也使用定點設備，指示使用者的視點。為了適應360視頻序列的不同視場，本領域發展出了各種3D編碼系統。例如，臉書公司發展出了金字塔編碼系統，其中，金字塔編碼系統輸出對應30個不同視場的30個位元流。然而，僅將可視視場作為主位元流。編碼主位元流以允許全解析度渲染，與此同時，可在降低解析度下編碼其他位元流。在第3圖中，圖像310描述對應可視視場的區域312。僅在全解析度下編碼本區域。圖像320描述按照球面形式的360度訊框示例。圖像330描述已選視場的示例，並且為本所選視場生成對應位元流。圖像340描述用於生成30個位元流的30個視場示例。

高通公司也發展出一種編碼系統，用於協助處理複數個視場。具體地，高通公司通過將所選視場投影至立方體前側(即，立方體正面)使用截斷立方金字塔投影技術(truncated square pyramid projection)。第4圖中的圖像410描述了黑體線正方形412所示的將所選視場投影至立方體前側F的示例。如圖像410所示，可分別將立方體的其他五個面標為R(右側)、L(左側)、T(上側)、D(下側)、B(後側)。可將正面作為全解析度圖像，將其他剩餘的5個面打包進圖像420所示的一個圖像區域。圖像430描述了對應30個視點的 30個已投影圖像，其中，30個視點分別關聯於每個球面訊框。為每個視點生成位元流。

根據傳統基於區域的多視場(Field of View，FOV)編碼系統，必須生成大量視場的位元流。發送的大量資料將造成較長的網路延遲。當使用者改變其視點時，用於更新視點的相關位元流是不可用的。因此，使用者必須依賴非主要位元流以在降低解析度下顯示視圖區域。在許多情況下，來自任意30個位元流的已更新視圖區域中的部分資料是不可用的。所以，在已更新視圖區域會出現錯誤資料(erroneous data)。因此，亟需一種根據不同視場，自適應地輸出位元流的技術。此外，亟需一種自適應編碼系統，用於在無需高頻寬或長轉換延遲情況下，有效協助顯示不同視場。

有鑑於此，本發明方面提供一種自適應視頻解碼方法及其裝置。

根據實施例，揭示一種自適應視頻解碼方法，用於360度視頻序列，該自適應視頻解碼方法包含：確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻的使用者的第一視場相關聯；基於使用者的視點資訊，在當前360度訊框中，根據該第一視圖區域確定擴展區域；以及解碼該當前360度訊框中的該擴展區域。

根據另一實施例，揭示一種自適應視頻解碼裝置，用於360度視頻序列，該自適應視頻解碼裝置包含一個或複數個電路或處理器用於執行下列步驟：確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻的使用者的第一視場相關聯；基於使用者的視點資訊，在當前360度訊框中，根據該第一視圖區域確定擴展區域；以及解碼該當前360度訊框中的該擴展區域。

本發明提供之自適應視頻解碼方法及其裝置可改善使用者體驗。

其他實施方式與優勢將在下面作詳細描述。上述概要並非以界定本發明為目的。本發明由申請專利範圍所界定。

110、120、130、510、520、810、820、830、840、1010、1020‧‧‧訊框

112、122、132、214、216、224、226、312、512、522、524、628、824、834、844、1012、1022、1024、1112、1114‧‧‧區域

210、220‧‧‧投影

212‧‧‧立體3D模型

218‧‧‧箭頭

310、320、330、340、410、420、430、710、720、730、1110、1120、1130‧‧‧圖像

412‧‧‧黑體線正方形

530‧‧‧解碼器

626‧‧‧擴展區域

630‧‧‧自適應基於區域解碼器

812、822、832、842‧‧‧圖像

1140‧‧‧已擴展解碼區域

1210、1220、1230‧‧‧步驟

參考下列圖檔詳細描述作為示例提出之本發明各種實施例，其中，相同數字涉及相同元件，其中：第1圖描述了用於觀察360度視頻序列的基於區域解碼的示例場景，其中，使用者從左到右移動其視點；第2圖描述基於立體3D模型的視場，確定視圖區域的示例；第3圖描述了臉書公司提出的基於區域解碼系統；第4圖描述了高通公司提出的基於區域解碼系統；第5圖描述了示例場景，其中，當使用者改變視點時，會出現假像；第6圖描述了用於觀察360度視頻序列的自適應基於區域解碼的示例；第7圖描述了視點預測的示例；第8圖描述了根據使用者的視點移動歷史擴展解碼區域的示例；第9圖描述了根據使用者先前視點移動預測使用者新視點移動的示例；第10圖描述了非解碼區域並進行模糊化的示例；第11圖係依據本發明實施例描述的生成已擴展解碼區域的示例；第12圖係依據本發明實施例描述的基於使用者視點自適應解碼擴展區域的示例流程圖。

在說明書及後續之申請專利範圍當中使用了某些詞彙來指稱特定元件。所屬領域中具有通常知識者應可理解，製造商可能會用不同名詞來稱呼同一個元件。本說明書及後續之申請專利範圍並不以名稱之差異來作為區分元件之方式，而是以元件在功能上之差異來作為區分之準則。在通篇說明書及後續請求項當中所提及之「包括」和「包含」係為一開放式用語，故應解釋成「包含但不限定於」。此外，「耦接」一詞在此係包含任何直接及間接之電氣連接手段。間接電氣連接手段包括通過其他裝置進行連接。

接下來之描述是實現本發明之最佳實施例，其是為了描述本發明原理之目的，並非對本發明之限制。可以理解的是，本發明實施例可由軟體、硬體、韌體或其任意組合來實現。

如上所述，根據傳統基於區域的多FOV編碼系統，必須生成大量視場的位元流。當使用者改變其視場或視點時，必須切換相關聯位元流，取決於網路條件，這樣會引起大量延遲。

第5圖描述了示例場景，其中，當使用者改變視點時，會出現假像(artifact)。訊框510對應時刻T1的360度訊框，並且區域512對應時刻T1的視圖區域。如果使用者將其視場轉向右下側，則T2的視圖區域將從訊框520的區域522移動至區域524。如果使用頭戴式顯示，則從頭戴式顯示運動中檢測視場的改變。將視圖區域資訊提供至解碼器530以切換至對應新視場的新串流中。既然從時刻T1的關聯舊視場或視點(即，區域522)的位元流切換至時刻T2的關聯新視場或視點(即，區域524)的位元流的操作需要花費時間，所以，解碼器530不能快速解碼區域524。因此，新區域的許多資料(填充區域所指示)是不可用的。顯示新區域，其中，新區域具有對應填充區域中錯誤資料的假像。

為了克服與變化的視場相關聯的問題，揭示一種用於360度視頻序列的自適應解碼系統。自適應解碼系統將解碼區域進行擴展，以預測視場的可能變化。因此，如第6圖所示，當使用者移動其視點時，自適應解碼系統將提供具有較小假像的新視圖區域。根據本發明，替換在時刻T2解碼對應舊視場的區域，如虛線矩形所示，自適應解碼系統擴展解碼區域至擴展區域626。在本示例中，自適應基於區域解碼器630預料使用者將視點轉向右下方。在本示例中，時刻T2的實際視圖區域524中的資料將是大部分可用的，除了填充區域指示的非常小的區域628。可模糊化(blur)錯誤區域628，以減輕非解碼區域的可視干擾。

根據本發明，基於對使用者轉向行為預測，自適應解碼視圖區域。具體地，擴大解碼範圍以阻止使用者觀察非解碼區域，其由於更好品質以及更小非解碼區域，可提供更佳使用者體驗。使用視點預測自適應確定解碼區域。第7圖描述了視點預測的示例。圖像710描述了中線兩側具有視角θ的靜止使用者視點。圖像720描述了使用者變換視點(順時針或逆時針)的情況。為了適應視場變換，本發明的實施例通過覆蓋中線兩側視角(θ+n△)擴展解碼區域，其中，n是正整數，△是視角的增量。在使用者的視點恢復靜止後，解碼區域可降低至覆蓋視角(θ+△)。

根據另一實施例，自適應區域解碼可以使用者的視點移動歷史作為基礎。例如，可將預測應用於任意方向。另外，可將預測應用於各種速度。因此，使用者視點移動越快，解碼區域就越大。第8圖描述了根據使用者的視點移動歷史擴展解碼區域的示例。對於訊框810，在視圖區域812，使用者的視點保持靜止，並且無需擴展解碼區域。對於訊框820，使用者的視點從視圖區域822移動至右側。根據本實施例，通過擴展右側的區域以覆蓋區域824，擴展解碼區域。對於訊框830，使用者的視點從視圖區域832輕微向右上方移動。根據本實施例，通過擴展右上側的區域以覆蓋區域834，輕微擴展解碼區域。對於訊框840，使用者視圖區域842快速向右上方移動。根據本實施例，通過大幅擴展右上側的區域以覆蓋區域844，擴展解碼區域。

第9圖描述了根據使用者先前視點移動預測使用者新視點移動的示例。在第9圖中，使用線性預測方法(linear prediction)預測下一運動，其中，顯示了四組移動歷史，即，A、B與C。然而，可利用使用過去資訊預測未來的任意演算法(例如，非線性預測方法)。

雖然可使用上述的運動向量預測(Motion Vector Prediction，MVP)擴展解碼區域，以減小非編碼區域的概率，但不能保證解碼區域總是完全覆蓋新視圖區域。在任意非解碼區域出現情況下，本發明實施例將模糊化非解碼區域以減小非解碼區域的概率。在第10圖中，即使使用運動向量預測(MVP)，仍存在非解碼區域的可能性。訊框1010對應時刻T1的360度訊框，並且區域1012對應時刻T1的視圖區域。在訊框1020中，T2的視圖區域可從區域1022移動至區域1024。因此，新區域的許多資料(填充區域所示)是不可用的。根據本發明實施例，將模糊化填充區域指示的錯誤資料以減小非解碼區域的視覺化干擾。

使用學習機制改善試圖視圖區域預測。例如，學習機制可以使用者的視圖傾向(view tendency)為基礎，例如，使用者改變其視點的頻率與速度。在另一示例中，學習機制可以視頻偏好(video preference)為基礎。例如，可收集並使用使用者的視圖資訊以建立預定預測。第11圖係依據本發明實施例描述的生成已擴展解碼區域的示例。在圖像1120中，根據本實施例，圖像1110對應360度訊框，區域1112對應使用者的視圖區域，並且區域1114對應匯出的預定區域。在圖像 1130中，將已擴展解碼區域1140確定為覆蓋使用者視圖區域與預定區域的最小矩形區域。

在清單1中，比較本發明系統、臉書公司系統以及高通公司系統。

雖然在上述示例中使用立方體3D模型生成視圖區域，但本發明並不局限於使用立方體3D模型。在清單1中，配置本發明支援135度FOV。然而，也可使用任意其他FOV覆蓋。

第12圖係依據本發明實施例描述的基於使用者視點自適應解碼擴展區域的示例流程圖。可將如流程圖所示的步驟(或者本實施例的其他流程圖中的步驟)實施為在解碼器側及/或編碼器側的一個或複數個處理器(例如，一個或複數個CPU)執行的程式碼。也可基於硬體實施流程圖中所示的步驟，例如，安排一個或複數個電子裝置或處理器執行流程圖中的步驟。根據本方法，在步驟1210，確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻使用者的第一視場相關聯。可從位元流中解碼360度視頻序列中的先前360度訊框與當前360度訊框。在步驟1220，基於使用者的視點資訊，從當前360度訊框中的第一視圖區域，確定擴展區域。在步驟1230，解碼當前360度訊框中的擴展區域。可渲染在當前訊框時刻的當前360度訊框的第二視圖區域，其中該第二視圖區域與使用者的實際視場相關聯。

上述的流程圖僅是作為描述本發明實施例的示例。本領域技術人員可在不脫離本發明精神情況下，通過修改步驟、分割或結合步驟實施本發明。

呈現上述描述以允許本領域技術人員根據特定應用以及其需要的內容實施本發明。所述實施例的各種修改對於本領域技術人員來說是顯而易見的，並且可將上述定義的基本原則應用於其他實施例。因此，本發明不局限於所述的特定實施例，而是符合與揭露的原則及新穎特徵相一致的最寬範圍。在上述細節描述中，為了提供對本發明的徹底理解，描述了各種特定細節。然而，本領域技術人員可以理解本發明是可實施的。

上述的本發明實施例可在各種硬體、軟體編碼或兩者組合中進行實施。例如，本發明實施例可為集成入視訊壓縮晶片的電路或集成入視訊壓縮軟體以執行上述過程的程式碼。本發明的實施例也可為在資料信號處理器(Digital Signal Processor,DSP)中執行的執行上述程式的程式碼。本發明也可涉及電腦處理器、數位訊號處理器、微處理器或現場可程式設計閘陣列(Field Programmable Gate Array,FPGA)執行的多種功能。可根據本發明配置上述處理器執行特定任務，其通過執行定義了本發明揭示的特定方法的機器可讀軟體代碼或韌體代碼來完成。可將軟體代碼或固件代碼發展為不同的程式語言與不同的格式或形式。也可為了不同的目標平臺編譯軟體代碼。然而，根據本發明執行任務的軟體代碼與其他類型配置代碼的不同代碼樣式、類型與語言不脫離本發明的精神與範圍。

在不脫離本發明精神或本質特徵的情況下，可以其他特定形式實施本發明。描述示例被認為說明的所有方面並且無限制。因此，本發明的範圍由申請專利範圍指示，而非前面描述。所有在申請專利範圍等同的方法與範圍中的變化皆屬於本發明的涵蓋範圍。

Claims

一種自適應視頻解碼裝置，用於360度視頻序列，該自適應視頻解碼裝置包含一個或複數個電路或處理器執行下列操作：確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻的使用者的第一視場相關聯；基於使用者的視點資訊，在當前360度訊框中，根據該第一視圖區域以及使用使用者視圖傾向的學習機制確定擴展區域；以及解碼該當前360度訊框中的該擴展區域。
如申請專利範圍第1項所述的自適應視頻解碼裝置，其中，當使用者視點轉動時，在轉動方向擴大該擴展區域。
如申請專利範圍第2項所述的自適應視頻解碼裝置，其中，當該使用者視點轉回靜止狀態時，減小該擴展區域。
如申請專利範圍第1項所述的自適應視頻解碼裝置，其中，在對應先前視點運動方向上，擴大該擴展區域。
如申請專利範圍第4項所述的自適應視頻解碼裝置，其中，根據使用該先前視點運動的線性預測或非線性預測匯出的預測視點運動，擴大該擴展區域。
如申請專利範圍第1項所述的自適應視頻解碼裝置，其中，該使用者視圖傾向包含使用者視點改變的頻率、使用者視點改變的速度或者上述兩者。
如申請專利範圍第1項所述的自適應視頻解碼裝置，其中，基於使用者視圖資訊匯出預定區域，並且該擴展區域對應覆蓋該第一視圖區域與該預定區域兩者的最小矩形區域。
如申請專利範圍第1項所述的自適應視頻解碼裝置，其中，進一步安排該一個或複數個電路或處理器：在該當前360度訊框中渲染第二視圖區域，其中，該第二視圖區域與使用者在當前訊框時刻的實際視場相關聯，並且該渲染該第二視圖區域的步驟模糊化該第二視圖區域中的非解碼區域。
一種自適應視頻解碼方法，用於360度視頻序列，該自適應視頻解碼方法包含：確定先前360度訊框中的第一視圖區域，其中，該第一視圖區域與先前訊框時刻的使用者的第一視場相關聯；基於使用者的視點資訊，在當前360度訊框中，根據該第一視圖區域以及使用使用者視圖傾向的學習機制確定擴展區域；以及解碼該當前360度訊框中的該擴展區域。