TW202337210A

TW202337210A - 包含覆蓋之視訊串流編碼

Info

Publication number: TW202337210A
Application number: TW112104231A
Authority: TW
Inventors: 維克多艾德帕姆; 嵩袁
Original assignee: 瑞典商安訊士有限公司
Priority date: 2022-02-17
Filing date: 2023-02-07
Publication date: 2023-09-16
Also published as: EP4231638A1; CN116614630A; KR20230123870A; US20230262238A1; JP2023120155A

Abstract

本發明提供一種編碼包含一覆蓋之一視訊串流的方法，其包含：擷取一第一影像；在一第一位置處向該第一影像添加一覆蓋，且在一視訊串流之一第一圖框中編碼該第一影像；擷取該場景之一第二影像；判定該覆蓋在該第二影像中之一期望位置；在標記為一非顯示圖框之一第二圖框中編碼該第二影像，且產生及編碼一第三圖框，該第三圖框包含參考該第一圖框之該覆蓋之該期望位置處的時間預測巨集區塊，其中運動向量基於在該期望位置與該第一位置之間之一差，及參考該第一圖框之該覆蓋之該期望位置之外的跳過巨集區塊。亦提供一對應器件、電腦程式及電腦程式產品。

Description

包含覆蓋之視訊串流編碼

本發明係關於視訊編碼領域。更特定言之，本發明係關於包含一或多個覆蓋(諸如在擴增實境應用中使用)之視訊串流編碼。

諸如擴增實境(AR)之新興技術嘗試增強一使用者透過一攝影機觀看世界時之體驗。此可包含用例如文字或其他圖形覆蓋一視訊串流之擷取影像，以便向使用者提供關於使用者當前正觀看之確切內容之更多資訊。作為藉由此等技術可用之許多實例之一者，在描繪例如一街道及各種建築物之一視訊串流中，可添加覆蓋，展示例如一特定建築物之地址及/或舉例而言，建築物之所有者或類似物。舉例而言，此可在嘗試導航街道時幫助使用者，因為使用者接著可藉由使用一攝影機拍攝街道來了解各種建築物。

在視訊串流之一擷取影像上產生及生成一覆蓋。舉例而言，覆蓋可與在視訊串流當前擷取之一場景內發現之一特定建築物、人、旅遊景點或其他物件相關聯。在現實情境中，若用於擷取場景之攝影機被移動，及/或若例如攝影機之視場(FOV)改變，則覆蓋之位置被更新，使得當處理視訊串流之下一擷取影像時，覆蓋重新生成，使得若物件為固定，則覆蓋相對於場景本身保持固定。舉例而言，移動覆蓋之其他原因可為相關聯之物件本身在場景中為非固定的(及移動的)。

然而，若攝影機同時忙於執行其他任務(諸如偵測及追蹤物件、視訊串流編碼或產生一輸出視訊串流所需之其他處理)，則每次(例如攝影機改變及/或物件移動時)產生及重新生成覆蓋所需之處理能力(例如CPU、GPU及/或記憶體)可不總為可用的，且因此，覆蓋之重新產生及生成可無法在視訊串流中之下一影像應顯示/編碼時及時完成。此可導致視訊串流中之同步問題，引起斷斷續續，或舉例而言，一覆蓋在一個圖框與下一圖框之間消失及重現。另外，由於歸因於例如文字或其他圖形之存在，覆蓋經常含有尖銳的細節，因此過於頻繁(重新)產生及(重新)生成此等覆蓋可增加負責編碼視訊串流及控制例如產生之輸出視訊串流之一位元率的電路及軟體之開銷。若覆蓋為一隱私遮罩，則隱私遮罩在一或多個圖框中消失之風險可根本無法容忍。因此，當一計算能力預算有限時，需要更好地處置視訊串流中覆蓋之(重新)產生及(重新)生成。

為了至少部分克服上述問題，且至少部分滿足上述需要，本發明提供編碼包含一覆蓋之一視訊串流的一改良方法，及一改良器件、電腦程式及電腦程式產品，如隨附獨立技術方案所定義。在隨附附屬技術方案中定義改良之方法、器件、電腦程式及電腦程式產品之各種實施例。

根據一第一態樣，提供一種編碼包含一覆蓋之一視訊串流的方法。該方法包含a)擷取一場景之一第一影像。該方法包含b)在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分。該方法包含c)擷取該場景之一第二影像。該方法包含d)判定該第二影像中該覆蓋之一期望位置，該第二影像中該覆蓋之該期望位置不同於該第一影像中該覆蓋之該第一位置。該方法進一步包含e)將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框。該方法進一步包含f)產生(例如使用軟體，而不接收該場景之一對應第三影像)及編碼該視訊串流之一第三圖框，包含在該覆蓋之該期望位置處(在第二影像中)之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，及基於在該第一影像中該覆蓋之該第一位置與該第二影像中該覆蓋之該期望位置之間之一差的一或多個運動向量，且包含在該覆蓋之該期望位置(在該第二影像中)之外之該第三圖框的一或多個巨集區塊為參考該視訊串流之該第二圖框的跳過巨集區塊。

如前文討論，舉例而言，一覆蓋可包含在一影像頂部生成之文字或其他圖形，使得在編碼影像之所得圖框中，覆蓋可提供關於例如視訊串流中擷取之一場景中之一物件的額外資訊。

如本文使用，「時間預測巨集區塊」為形成時間預測圖框之部分之巨集區塊(即一影像中之像素區塊，諸如8x8像素、16x16像素或類似像素之區塊)，且對於此等巨集區塊，將基於視訊串流之其他圖框中之相同(或其他像素)發現生成像素所需之資訊。此等圖框亦可稱為圖框間圖框、預測圖框、差分圖框或例如P圖框或B圖框，此取決於其等是僅含有對先前編碼之圖框之參考還是亦含有對未來圖框之參考。換言之，術語「時間預測巨集區塊」之意謂不偏離已建立之視訊編碼標準，且用於繪示包含此等巨集區塊之圖框在編碼期間利用時間冗餘資訊(即，使得生成一圖框所需之資訊不需要完全內含在編碼圖框本身中，而是可在一或多個先前或甚至未來之圖框中發現之資訊中發現，或至少自此等資訊近似發現)。如本文中使用，「跳過巨集區塊」(或跳過巨集區塊、跳過巨集區塊或類似)亦具有其等標準化意謂，且應暸解為含有對在一先前圖框(或一未來圖框)中一相同位置處發現之巨集區塊之參考的任何巨集區塊，使得影像資料可直接自先前(或未來)圖框複製(不需要任何運動向量)，且不包含為當前編碼圖框本身之部分。最後，一「非顯示圖框」應理解為以任何方式標記之一圖框，以指示解碼器該圖框將不作為一解碼視訊串流之部分來生成，但該圖框仍可用，使得可自其獲得資訊且用於解碼一或多個將顯示之其他圖框(即，未標記為非顯示圖框)。舉例而言，第一圖框可為一圖框內預測圖框，其包含解碼及生成圖框所需之全部資料，而不依賴於對一或多個先前或未來圖框之任何參考。此一圖框亦可稱為一內圖框(I圖框)或一全圖框或類似圖框。舉例而言，第一圖框、第二圖框及第三圖框可形成一所謂的圖像組(GOP)之部分，其中一內圖框(第一圖框)之後為一或多個時間預測圖框或含有對一個或其他圖框之參考之圖框(諸如含有一或多個跳過巨集區塊之圖框)。其他序列當然亦為可能的，只要有與第一圖框等效的東西，第三圖框可自該第一圖框獲得包含覆蓋之區域之影像資料，且只要有不顯示但僅用作不包含覆蓋之區域之第三圖框之一影像資料源的第二圖框。

可考量，支援上述時間預測巨集區塊、跳過巨集區塊、非顯示圖框及運動向量概念之任何視訊編碼標準可用於實現所揭示之方法。此等標準之實例包含(但不一定限於)：高效視訊編碼(HEVC) H.265、高級視訊編碼(AVC) H.264、VP8、VP9、AV1及多功能視訊編碼(VVC) H.266。

本發明對當前可用技術之改良在於，其容許以較少開銷成本生成一覆蓋，且降低或甚至消除無法在下一圖框到期之前完成生成圖框之風險。此為藉由一旦影像中覆蓋之位置改變就不執行一圖框之一完全重新生成，而是重新使用與來自一先前圖框之覆蓋相關之影像資料，且自為此目的產生之一非顯示圖框提供與不包含覆蓋之場景之部分相關的影像資料來達成的。由於本發明僅依賴於已可用及標準化之圖框類型，因此其容許編碼器正常編碼及使用軟體建構及插入第三圖框。類似地，任何順應標準之解碼器可正常操作，而不需要任何特殊考慮，以便成功地向一使用者生成場景及覆蓋之視訊。可使用編碼器來設定運動向量，此可利用硬體加速來進一步減少所需的計算時間。

在該方法之一些實施例中，在第一影像中覆蓋之第一位置與第二影像中覆蓋之期望位置之間的差可至少部分由在擷取第一影像與第二影像之間之一視場(一攝影機之FOV)的一變化所致。舉例而言，用於擷取場景之攝影機可為一所謂的平移-傾斜-縮放(PTZ)攝影機，且FOV可例如藉由攝影機放大或縮小，或甚至傾斜或移動(平移)來改變。

在該方法之一些實施例中，在第一影像中覆蓋之第一位置與第二影像中覆蓋之期望位置之間的差可至少部分由場景中與覆蓋相關聯之一物件之一位置變化所致。舉例而言，覆蓋可與一場景中之一人相關聯，且若人在場景中移動，則本文描述之方法可用於以一有效率方式重新生成覆蓋。

在該方法之一些實施例中，第三圖框可為一預測圖框(一P圖框，僅含有對自身及/或對圖框之一序列中之一或多個先前圖框的參考)，或為一雙向預測圖框(一B圖框，含有對例如自身及/或對一或多個先前圖框之參考，但亦視情況，或替代地，對序列中之一或多個未來圖框之參考)。第三圖框可插入在編碼視訊串流中之第二圖框之後，使得第三圖框係指在第二圖框後面。

在該方法之一些實施例中，第三圖框可為一B圖框，且插入在編碼視訊串流中之第二圖框之前，使得第三圖框係指在第二圖框前面。

在該方法之一些實施例中，可使用同一攝影機擷取第一影像及第二影像。在其他實施例中，可考量使用一個攝影機來擷取第一影像，且使用另一第二攝影機(舉例而言，在經組態為提供場景之一全景影像之一攝影機配置中)來擷取第二影像。

在該方法之一些實施例中，覆蓋可為一擴增實境(AR)覆蓋。

在該方法之一些實施例中，該方法可在用於擷取第一影像及/或第二影像之一攝影機中執行。舉例而言，攝影機可為一監控攝影機(諸如一監視攝影機或類似物)。在其他實施例中，該方法可在包含此一攝影機之一攝影機系統中執行，但不一定在攝影機本身中，替代地，在例如一視訊處理伺服器或類似物中執行。

在該方法之一些實施例中，覆蓋可相對於場景固定。舉例而言，覆蓋可與場景中不移動之一物件相關聯，諸如一建築物、街道或其他類型之不動、固定結構。

在該方法之一些實施例中，該方法可包含估計將覆蓋(替代地)生成/添加及編碼為第二影像及第二圖框之部分所需之一計算時間。若判定此所需之計算時間低於一臨限值，則該方法可替代地跳過產生第三圖框之步驟，且替代地在期望位置處將覆蓋添加至第二影像，且將第二影像編碼為視訊串流之一第二圖框之部分。此方法可跳過將第二圖框標記為一非顯示圖框，使得第二圖框可在第一圖框之後生成。此實施例之優點在於，若有足夠的計算能力可用(即，若上文估計所針對之臨限值為基於可用的計算資源)，則可替代地直接重新生成覆蓋。例如，此可提供一改良之品質，因為舉例而言，在生成覆蓋時亦將考慮在擷取第一影像與第二影像之間之場景的例如一透視變化。

根據本發明之一第二態樣，提供一種用於編碼包含一覆蓋之一視訊串流的器件。該器件包含一處理器及一記憶體。記憶體儲存指令，當藉由處理器執行時，指令引起器件：擷取一場景之一第一影像；在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分；擷取該場景之一第二影像；判定該覆蓋在該第二影像中之一期望位置，其中，該覆蓋在第二影像中之該期望位置不同於該覆蓋在該第一影像中之該第一位置；將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框；及產生及編碼該視訊串流之一第三圖框(例如使用軟體)，其中，該第三圖框在該覆蓋之該期望位置處之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，且具有基於在該覆蓋之該第一位置(在第一影像中)與該覆蓋之該期望位置(在第二影像中)之間之一差的運動向量，且其中在該覆蓋之該期望位置(在第二影像中)之外之第三圖框的一或多個巨集區塊為參考(編碼的)視訊串流之第二圖框之跳過巨集區塊。

因此，根據第二態樣之器件經組態為執行第一態樣之方法之對應步驟。

在器件之一些實施例中，器件經進一步組態(即，指令使得其等在藉由處理器執行時引起器件)以執行本文描述之方法之任何實施例。

在器件之一些實施例中，器件為一監控攝影機。監控攝影機可經組態為擷取第一影像及第二影像之至少一者。

根據本發明之一第三態樣，提供一種用於編碼包含一覆蓋之一視訊串流之一電腦程式。該電腦程式經組態為當藉由一器件(諸如根據第二態樣之器件)之一處理器執行時，引起該器件：擷取一場景之一第一影像；在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分；擷取該場景之一第二影像；判定該覆蓋在該第二影像中之一期望位置，其中，該覆蓋在該第二影像中之該期望位置不同於該覆蓋在該第一影像中之該第一位置；將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框；且產生及編碼該視訊串流之一第三圖框(例如使用軟體)，其中，該第三圖框在該覆蓋之該期望位置處之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，且具有基於在該覆蓋之該第一位置(在該第一影像中)與該覆蓋之該期望位置(在該第二影像中)之間之一差的運動向量，且其中在該覆蓋之該期望位置(在該第二影像中)之外之該第三圖框的一或多個巨集區塊為參考該(編碼的)視訊串流之該第二圖框的跳過巨集區塊。

因此，根據第一態樣，電腦程式經組態為引起器件執行前文描述之一方法。

在一些實施例中，電腦程式經進一步組態為(當藉由器件之處理器執行時)引起器件執行本文描述方法之任何實施例。

根據一第四態樣，提供一電腦程式產品，包含儲存根據第三態樣或其任何實施例之一電腦程式之一電腦可讀儲存媒體。舉例而言，電腦可讀儲存媒體可為非暫時性的，且被提供為例如一硬碟機(HDD)、固態硬碟(SDD)、USB隨身碟、SD卡、CD/DVD及/或能夠非暫時性儲存資料之任何其他儲存媒體。

本發明之其他目的及優點將自以下詳細描述、圖式及技術方案顯而易見。在本發明之範疇內，考量參考例如第一態樣之方法所描述之全部特徵及優點與參考第二態樣之器件、第三態樣之電腦程式及/或第四態樣之電腦程式產品描述之任何特徵及優點相關、適用且可組合使用，且反之亦然。

現將參考圖1A至圖1D描述根據本發明之一方法如何用於編碼包含一覆蓋之一視訊串流的各種實例。亦參考圖2A，其示意性地繪示此一方法200之步驟S201至S206之一流程圖。

圖1A及圖1B示意性地繪示可在其中使用當前揭示之方法之一情境。圖1A繪示一擷取之第一影像110。第一影像110描繪一場景，在此包含一街道之一視圖，沿該街道有若干建築物/房屋，及經常在此等環境中發現之諸如樹木、垃圾箱、燈柱等的其他物件。使用擴增實境以向觀看第一影像之使用者提供額外資訊(作為一視訊串流之部分)，包含一覆蓋120，其經添加以呈現關於場景中一特定建築物124之額外資訊。在此，此額外資訊包含建築物124之地址(「街道123」)。當然，亦可提供一或多個額外覆蓋，舉例而言，指示其他建築物之地址、街道名稱、一羅盤方向、指示使用者應該向哪個方向移動以到達一期望位置之一箭頭，及許多其他類型之覆蓋。假定已使用具有一特定視場(FOV)之一攝影機擷取第一影像110，包含攝影機之一特定對準(例如就偏轉、俯仰及橫搖而言)及一特定縮放位準等。舉例而言，攝影機可為使用者佩戴之一穿戴式攝影機、一智慧手機或平板電腦之一攝影機、安裝在使用者當前駕駛之一車輛中之一行車記錄器，或例如安裝在例如一建築物上之一攝影機(諸如一監控或監視攝影機等)(諸如一平移-傾斜-縮放、PTZ、攝影機)。當然，其他替代方案亦為可能的，且全部被考量為可用於所揭示之方法中。

圖1B繪示相同場景之一擷取之第二影像112，但其中場景中之物件在第二影像112中之位置與在第一影像110中之位置不同。此可為歸因於攝影機已移動、傾斜、平移、縮放或類似。舉例而言，可假定，在擷取場景之第一影像110與第二影像112之間，攝影機已沿街道向後及向左移動，及/或攝影機在場景上縮小。與此無關，在第二影像112中，特定建築物124現在一不同位置中發現，此意謂第二影像112中覆蓋120之一期望位置不同於第一影像110中覆蓋之位置(在此繪示為覆蓋120')。因此，需要在第二影像112中重新生成覆蓋120，使得覆蓋120看起來相對於場景固定，即，遵循覆蓋120應該提供關於其之額外資訊之特定建築物124的位置。覆蓋之期望移動藉由圖1B中之陣列130繪示。

如先前討論，其可使得攝影機(或負責編碼第一影像110及第二影像112應形成其部分之視訊串流的任何其他器件)亦可被一或多個佔用計算資源之其他任務佔用，且使得用於在第二影像112中重新生成覆蓋120之剩餘可用資源不足以及時完成此重新生成(即，在處理應移動至在第二影像112之後擷取之一後續第三影像之前，等)。此可導致同步問題、至視訊串流中之第二影像之斷續或以其他方式不平滑的過渡，及/或例如歸因於未及時完全生成而自第二影像消失之覆蓋。

現將參考圖1C及圖1D(及圖2A)描述，本文考量之方法為如何克服此等問題提供一解決方案。

圖1C示意性地繪示根據考量之方法200建立一編碼視訊串流140之一圖框序列150、152及154。

如參考圖1A描述，方法200首先開始擷取(在一步驟S201中)場景之第一影像110，且接著繼續將覆蓋120添加(在一步驟S202中)至第一影像110，且將第一影像110(及覆蓋120)編碼為編碼視訊串流140之一第一圖框150之部分。在第一圖框150中，如例如使用影像座標來量測，覆蓋120位於第一影像110內之一第一位置處。第一影像110被編碼為第一圖框150之「部分」，意謂除了源自第一影像110之影像資訊之外，當然亦可有在第一圖框150中提供之其他內容物，諸如額外圖形或文字物件及類似物。

接著，方法200繼續擷取(在一步驟S203中)相同場景之第二影像112，但其中，在擷取第一影像110與第二影像112之間，攝影機已改變，使得第二影像112中覆蓋120之一期望位置現在不同於第一影像110中覆蓋120之位置。在一步驟S204中，方法200包含判定覆蓋120在第二影像112中之期望位置，其中，如上文描述，覆蓋120在第二影像112中之期望位置不同於在第一影像110中之期望位置。位置之變化藉由圖1B中之箭頭130繪示。第二影像中之期望位置可例如藉由知道攝影機之一移動、攝影機之一縮放變化或類似來發現。

方法200不嘗試在第二影像112之頂部上重新生成覆蓋，且接著將第二影像112及覆蓋120一起編碼為例如編碼視訊串流140之一第二圖框，替代地，繼續(在一步驟S205中)將無覆蓋120之第二影像112編碼為視訊串流140之一第二圖框152之部分(其中，如前文，「作為部分」意謂除僅有第二影像112外，第二圖框152中亦可包含其他內容)。另外，方法200將第二圖框152標記為一所謂的非顯示圖框，此意謂接收編碼視訊串流140之一解碼器不將第二圖框152生成為可見。然而，第二圖框152仍可用於含有資訊，資訊可繼而被視訊串流140中之一或多個其他圖框使用。

在將第二影像112編碼為第二圖框152之部分之後，方法200接著繼續(在一步驟S206中)產生視訊串流140之一第三圖框154。第三圖框154不含有任何擷取之影像，替代地，使得其含有對視訊串流140中一或多個其他圖框之參考170及172，如現在將描述的。

在第二影像112中覆蓋120之期望位置處，第三圖框154包含一或多個巨集區塊160，其為時間預測巨集區塊。此意謂此等巨集區塊不含有第三圖框154中之任何實際影像資料，但替代地含有對視訊串流140之第一影像110及第一圖框150之巨集區塊161之一參考170。第三圖框154之巨集區塊160所參考之第一圖框150之巨集區塊161位於第一影像110中覆蓋120之位置處。為了知道解碼器應在第一影像110及第一圖框150之何處尋找此等巨集區塊161，第三圖框154亦包含(例如編碼)一或多個運動向量132。運動向量132基於在第一影像110中覆蓋120之位置與第二影像112中覆蓋120之期望位置之間的差，如在先前步驟S205中獲得的。舉例而言，運動向量132在方向及長度上與圖1B中指示之箭頭130相反，使得解碼器可知道將在第一影像110中覆蓋120之位置處之巨集區塊161處發現巨集區塊160之影像資料。

第三圖框154亦包含一或多個巨集區塊162，其不在第二影像112中覆蓋120之期望位置處。此等巨集區塊162為所謂的跳過巨集區塊，且包含對第二影像112及第二圖框152中一相同位置處之巨集區塊163之一或多個參考172，使得解碼器知道其應直接自第二影像112及第二圖框152之巨集區塊163複製影像資訊，且使用此資訊來建立第三圖框154之對應部分。因此，第三圖框152被提供有足以建立一影像(在視訊串流140之解碼期間)之資訊，該影像展示覆蓋120(其中覆蓋之資料為自第一影像110及第一圖框150獲得的)及不含有覆蓋120之區域(其中資料為自第二影像112及第二圖框152獲得的)。當在解碼之後顯示第三圖框154時，使用者可接著看見場景之更新視圖(歸因於攝影機之移動所需)，包含在期望的正確位置處之覆蓋120。

在參考圖1C描述之實例中，舉例而言，第一圖框150為不參考編碼視訊串流140中之一或多個其他圖框之一內圖框。舉例而言，第一圖框150為一所謂的I圖框，且相對於在解碼第一圖框150之後觀看第一影像110所需之影像資料為獨立的。此外，在參考圖1C描述之實例中，第二(非顯示)圖框152在第一圖框150之後添加但在第三圖框154之前。因此，第三圖框154在時間上具有回到第二圖框152之一參考172，且舉例而言，為一所謂的P圖框。舉例而言，第一圖框150可用作一GOP圖框序列中之一第一圖框。在第三圖框154之後可有其他圖框、及/或在第一圖框150之前可有其他圖框。

圖1D示意性地繪示方法200可如何操作以編碼視訊串流140及覆蓋120之另一可能實例。在此，各種步驟S201至S206與參考圖1C描述之該等相同，但不同之處在於，軟體產生之第二圖框152被添加在第三圖框154之後。在此，第三圖框154為一所謂的B圖框，其現包含對一「未來圖框」(第二圖框152)之一參考，作為第二圖框152，其包含第三圖框152應該自其直接複製之巨集區塊(歸因於第三圖框152之巨集區塊162為參考172第二圖框152之巨集區塊163的跳過巨集區塊)。如前文，第三圖框154亦包含對先前第一圖框150之一參考170，以便與運動向量132組合，適當地複製及處理第一圖框150之巨集區塊161，其中在第一影像110中發現覆蓋120。

現將參考圖3A至圖3C描述本文考量之方法200可操作之另一情境。所遵循之程序與前面參考圖1A至圖1D描述之程序相同，但用於一不同類型的場景及攝影機設定。圖3A示意性地繪示在描繪一街道之一人行道之一第一影像310中，藉由一固定攝影機擷取之一場景。在此場景中，為其提供一覆蓋320之特定物件為以一狗324之形式之一非固定移動物件。在此，覆蓋320將動物之類型識別為一「狗」，但當然可提供被視為對透過視訊串流觀看場景之使用者有用之其他資訊。當狗324沿人行道移動/行走時，其位置將在擷取之影像之間改變，且覆蓋必須相應地更新，以便覆蓋相對於物件/狗324保持固定。

圖3B繪示描繪相同場景之一擷取之第二影像312，但自擷取第一影像310以來，狗324之位置已改變，如藉由箭頭330繪示。因此，第二影像312中覆蓋320之一期望位置不同於第一影像310中覆蓋之一位置(在此藉由覆蓋320'繪示)。

如前解釋，方法200在此可首先藉由擷取(在一步驟S201中)第一影像310、生成/添加(在一步驟S202中)覆蓋320，且將結果編碼為一編碼視訊串流340之一第一圖框350之部分來繼續。接著，方法200可繼續擷取(在一步驟S203中)場景之第二影像312，且方法200接著可判定(在一步驟S204中)在第二影像312中覆蓋320之期望位置與第一影像310中覆蓋320之位置之間的一差。方法200可將此第二影像312編碼(在一步驟S205中)為不包含覆蓋320之一第二圖框352(標記為一非顯示圖框)之部分，且接著繼續產生(例如使用軟體)且編碼(在一步驟S206中)一第三圖框354，其中時間預測巨集區塊360參考370第一影像310中覆蓋320之位置處之第一圖框350的巨集區塊361，借助於基於在第二影像312中覆蓋320之期望位置與第一影像310中覆蓋之期望位置之間之差的一或多個運動向量332，且參考372第二非顯示圖框352之一或多個巨集區塊363之一或多個跳過巨集區塊362，正如前面參考圖1C及圖1D所描述。因此，當一影像中一覆蓋之期望位置歸因於攝影機之一變化/移動(諸如，攝影機之一FOV之一變化)而改變時，當一影像中一覆蓋之期望位置歸因於場景中之一物件(與覆蓋相關聯)之一移動而改變時，及/或當期望位置歸因於攝影機改變及物件在場景中移動兩者之一組合而改變時，該方法可根據期望執行。換言之，當覆蓋相對於場景固定時，及舉例而言，當覆蓋相對於在場景中移動之一物件固定時，本文所揭示及考量之方法可起作用。

本文考量，舉例而言，方法200可藉由用於擷取場景影像之一監控攝影機來執行，或例如在包含此一監控攝影機之一(監控)攝影機系統之任何其他適合組件中執行。當然，方法200亦可在任何其他器件中執行，器件具有至少接收所擷取之第一及第二影像，且產生各種圖框及將視訊串流編碼為一輸出之能力。現將參考圖4更詳細地描述本文所考量之此一器件之一實例。

圖4示意性地繪示用於編碼包含一覆蓋之一視訊串流之一器件400。器件400至少包含一處理器(或「處理電路」)410及一記憶體412。如本文使用，舉例而言，一「處理器」或「處理電路」可為一適合的中央處理單元(CPU)、多處理器、微控制器(µC)、數位信號處理器(DSP)、專用積體電路(ASIC)、現場可程式化閘陣列(FPGA)、圖形處理單元(GPU)等一或多者之任何組合，能夠執行儲存在記憶體412中之軟體指令。記憶體412可在處理器410外部，或可在處理器410內部。如本文使用，一「記憶體」可為隨機存取記憶體(RAM)及唯讀記憶體(ROM)之任何組合，或能夠儲存指令之任何其他類型之記憶體。記憶體412含有(即儲存)指令，當藉由處理器410執行時，引起器件400執行本文描述之一方法(即方法200或其任何實施例)。器件400可進一步包含一或多個額外物項414，在一些情況下，該等物項對於執行該方法可為必要的。在一些實例實施例中，舉例而言，器件400可為如上所述之一監控攝影機，且額外物項414可接著包含例如一影像感測器，及舉例而言，用於將來自一場景之光聚焦在影像感測器上之一或多個透鏡，使得監控攝影機可擷取場景之影像作為執行所考量方法之部分。額外物項414亦可包含例如擷取場景所需之各種其他電子組件，例如，根據需要適當地操作影像感測器及/或透鏡。在一監控攝影機中執行該方法可為有用的，因為處理被移動至「邊緣」，即與在其他地方(諸如在一更集中之處理伺服器或類似物)執行處理及視訊編碼比較，更接近擷取實際場景之地方。舉例而言，器件400可連接至一網路，使得可向一使用者傳輸由執行該方法所致之編碼視訊串流。為此目的，器件400可包含一網路介面416，該網路介面416可為例如一無線網路介面(如支援例如Wi-Fi之任何IEEE 802.11或後續標準中界定的)或一有線網路介面(如支援例如乙太網路之任何IEEE 802.3或後續標準中界定的)。舉例而言，網路介面416亦可支援能夠傳送編碼視訊之任何其他無線標準，諸如藍牙或類似物。各種組件410、412、414及416(若存在)可經由一或多個通信匯流排428連接，使得此等組件可彼此通信，且根據需要交換資料。

舉例而言，器件400可為安裝或可安裝在一建築物上之一監控攝影機，例如以一PTZ攝影機之形式或例如能夠提供一更寬場景視角之一魚眼攝影機，或任何其他類型之監控/監視攝影機。舉例而言，器件400可為一身體攝影機、動作攝影機、行車記錄器或類似物，適合安裝在人、動物及/或各種車輛或類似物上。舉例而言，器件400可為一智慧手機或平板電腦，一使用者可攜帶及拍攝有趣的場景，以便自一或多個覆蓋獲得進一步資訊。舉例而言，器件400亦可為或包含使用者可佩戴之一虛擬頭戴式顯示器(virtual headset)或類似物，以便經由視訊串流觀察場景。在器件400之任何此等實例中，考量器件400可包含除本文已解釋之該等之外之全部必要組件(若有)，只要器件400仍能夠執行方法200或本文考量之其任何實施例。

儘管本文未進一步詳細描述，但考量器件400(諸如，一攝影機)亦可具有識別一場景中之一或多個物件之能力，諸如人、建築物、街道、車輛、動物、旅遊景點或類似物，且為此等物件產生適當的覆蓋，以向使用者提供有用的資訊。舉例而言，物件之識別可基於機器學習演算法及/或例如自例如(可為)包含在器件400中之一GPS接收器獲得之位置資訊來執行。

現將參考圖2B描述方法200之另一替代實施例。圖2B示意性地繪示在步驟S204之後方法200遵循之一替代程序。在一步驟S207(不一定在步驟S204之後執行)中，確定替代地將覆蓋直接添加/生成為第二影像/第二圖框之部分所需的一計算時間是否低於一臨限值。換言之，步驟S207包含估計是否有足夠的計算資源可用，使得在場景中之攝影機及/或物件已移動或改變之後，可照常(即如習知所做)重新生成覆蓋。若所估計之計算時間低於臨限值(其中，若較少計算資源可用，則臨限值更低，且若當前更多計算資源可用，則更高)，接著，該方法可繼續至一步驟S205'(而非如參考圖2A描述繼續至步驟S205及S206)，其中將覆蓋(直接)添加/生成至期望位置處之第二影像，且接著(直接)編碼為視訊串流之一第二圖框之部分。在此，第二圖框不被標記為一非顯示圖框，且可跳過參考第一及第二圖框之第三圖框之產生。另一方面，若判定可用的計算資源不足以及時執行第二影像中覆蓋之此直接重新生成，則方法200可如前面討論，繼續至步驟S205及S206。

藉由使用參考圖2B描述之方法200之替代實例，僅在需要時，可藉由考量利用一第二非顯示圖框及軟體產生(及插入)之第三圖框來替代場景中之例如攝影機及/或物件變化時，一覆蓋之正常重新生成。此具有例如一改良之影像品質之優點，因為在攝影機及/或物件之移動/改變之後之正常重新生成通常導致一更好的視覺體驗，因為例如，亦考慮在第一及第二影像之擷取之間發生之場景的任何視角變化。

舉例而言，上文描述之臨限值可基於負責輸出編碼視訊串流之器件(諸如一監控攝影機)中使用之一處理器或其他處理電路的一當前負載來持續更新。舉例而言，若器件被其他資源密集型任務(諸如追蹤場景中之多個物件或類似物)嚴重佔用，則所考量之利用第二非顯示圖框及軟體產生(及插入)之第三圖框的方法可提供更新覆蓋之位置之一更快方式，使得其相對於例如場景或場景中之一特定物件保持固定，具有可接受之視覺品質。對可用計算資源及負載之此一檢查可例如每秒多次或以任何期望間隔執行。因此，在不可能正常重新生成覆蓋之情況下，可將所考量之方法用作一備用方案。

如本文通常考量的，可例如藉由知道其在第一影像中之位置，及藉由亦知道例如攝影機在擷取第一影像與第二影像之間相對於縮放位準、平移、傾斜等之變化，來獲得/判定第二影像中覆蓋之期望位置。因此，可基於來自攝影機之此資訊來計算在第二影像中之期望位置與第一影像中覆蓋之位置之間的差。若攝影機未安裝至諸如一建築物之一固定物件，則可需要額外資訊以判定攝影機之定向及位置如何改變。考量若需要，此額外資訊可自例如安裝在攝影機本身上及/或攝影機所安裝之任何非固定物件上之一或多個適合的感測器獲得。在其他實施例中，考量有可能藉由使用例如一或多個影像/視訊分析演算法(諸如用於物件偵測及/或追蹤之該等)來識別第二影像中覆蓋之正確位置，可發現第二影像中之期望位置(及與第一影像之對應差，及對應的運動向量)。

在本文所呈現之各種實施例之總結中，本發明提供一種在一編碼視訊串流中提供一覆蓋(及更新其一位置)之一改良方式，其中需要更新場景影像中覆蓋之一位置。所考量之解決方案克服潛在地無足夠的可用計算資源來完成每次此覆蓋之一重新生成問題。藉由將第二圖框標記為一非顯示圖框，且替代地插入參考此第二圖框之一軟體產生之第三圖框，可藉由一簡單的複製操作自第二圖框向第三圖框提供關於覆蓋不應該位於之區域中之場景的影像資訊。類似地，亦藉由自第三圖框參考第一圖框，可藉由自覆蓋被正確生成之最後一圖框，即自第一圖框複製此資訊來將關於覆蓋本身之影像資訊提供給第三圖框(當然，使用基於場景中之攝影機及/或物件如何改變/移動而提供之適合的運動向量)。因此，第三圖框(包含新的期望位置處之覆蓋)可藉由一編碼器藉由僅參考其他圖框中已可用之資訊來產生，且因此導致準備及編碼第三圖框所需之計算時間減少，而無需在第二影像中之其新位置處重新生成覆蓋。類似地，一對應解碼器不受該方法影響，且可藉由如自所考量之方法輸出之編碼視訊串流所指示，自其他圖框複製資訊來照常繼續。換言之，當前可用之支援運動向量、時間預測圖框、非顯示圖框等概念之編碼器可不經修改地使用。該方法亦可使用已可用之編碼器來執行，而無需修改此等，因為第三圖框可手動(使用軟體)產生，且僅插入(或組合)來自此等編碼器之輸出中，以產生如本文所考量之編碼視訊串流。

儘管上文描述之特徵及元件可以特定組合描述，但各特徵或元件可單獨使用，而無其他特徵及元件，或可與或不與其他特徵及元件進行各種組合。另外，熟悉此項技術者在實踐所主張之發明時，從對圖式、發明及隨附發明申請專利範圍之一研究，可暸解及實現所揭示之實施例之變動。

在發明申請專利範圍中，詞語「包括」及「包含」不排除其他元件，且不定冠詞「一」或「一個」不排除一複數。在相互不同之附屬發明申請專利範圍中敘述某些特徵之事實並不指示此等特徵之一組合不可有利使用。

110,310:一場景之第一影像 112,312:一場景之第二影像 120,320:覆蓋 120',320':第一影像中覆蓋之位置 124,324:場景中一特定建築物/狗 130,330:覆蓋之位置移動 132,332:運動向量 140,340:視訊串流 150,350:第一(影像)圖框 152,352:第二(影像)圖框 154,354:第三(影像)圖框 160,360:第三圖框中之時間預測巨集區塊 161,361:第一圖框中之源巨集區塊 162,362:第三圖框中之跳過巨集區塊 163,363:第二圖框中之源巨集區塊 170,370:參考第一圖框中之源巨集區塊 172,372:參考第二圖框中之源巨集區塊 200:方法(流程圖) 400:器件 410:處理器/處理電路 412:記憶體 414:額外物項 416:網路介面 428:通信匯流排 S201-S206:方法步驟 S205',S207:替代方法步驟

下文將參考隨附圖式描述例示性實施例，其中：

圖1A至圖1D示意性地繪示根據本發明之一方法如何用於編碼包含一覆蓋之一視訊串流的實例；

圖2A及圖2B繪示根據本發明之一方法之各種實施例的流程圖；

圖3A至圖3C示意性地繪示根據本發明之一方法如何用於編碼包含一覆蓋之一視訊串流的額外實例，及

圖4示意性地繪示根據本發明之一器件之一實施例。

在圖式中，除非另有說明，否則相同元件符號將用於相同元件。除非明確指出相反，否則圖式僅展示繪示實例實施例所必需之此等元件，而為清楚起見，其他元件可省略或僅為建議。如圖中繪示，為了說明目的，元件及區之(絕對或相對)尺寸可相對於其等真實值被誇大或低估，因此，被提供來繪示實施例之一般結構。

112:一場景之第二影像

120:覆蓋

120':第一影像中覆蓋之位置

124:場景中一特定建築物

130:覆蓋之位置移動

Claims

一種編碼包含一覆蓋之一視訊串流的方法，其包括： a)擷取一場景之一第一影像； b)在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分； c)擷取該場景之一第二影像； d)基於以下之至少一者來計算該第二影像中該覆蓋之一期望位置：i)關於在擷取該第一影像與該第二影像之間之一攝影機視場之一變化的資訊、ii)關於在擷取該第一影像與該第二影像之間之一攝影機位置之一變化的資訊，及iii)在該第二影像之該場景中與該覆蓋相關聯之一物件之一偵測及/或追蹤之位置，該第二影像中該覆蓋之該期望位置不同於該第一影像中該覆蓋之該第一位置； e)將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框，及 f)產生且編碼該視訊串流之一第三圖框，包含在該覆蓋之該期望位置處之該第三圖框之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，包含在該覆蓋之該期望位置之外之該第三圖框的一或多個巨集區塊為參考該視訊串流之該第二圖框之跳過巨集區塊，且包含基於在該第一影像中該覆蓋之該第一位置與該第二影像中該覆蓋之該計算期望位置之間的一差來計算該一或多個時間預測巨集區塊之運動向量。
如請求項1之方法，該第三圖框為在該編碼視訊串流中之該第二圖框之後插入的一預測圖框、P圖框或雙向預測圖框、B圖框。
如請求項1之方法，該第三圖框為在該編碼視訊串流中之該第二圖框之前插入的一雙向預測圖框、B圖框。
如請求項1之方法，其包含使用同一攝影機擷取該第一影像及該第二影像。
如請求項1之方法，該方法在用於擷取該第一影像及/或該第二影像之一攝影機中執行。
如請求項1之方法，該覆蓋相對於該場景為固定的。
如請求項1之方法，其進一步包括估計將該覆蓋生成及編碼為該第二影像及該第二圖框之部分所需的一計算時間，且若判定該估計之計算時間低於一臨限值，則執行步驟a)至d)，但不執行步驟e)及f)，且代替性地，在步驟d)之後執行： e')在該期望位置處將該覆蓋添加至該第二影像，且將該第二影像編碼為該視訊串流之一第二圖框之部分。
一種用於編碼包含一覆蓋之一視訊串流的器件，其包括：一處理器，及儲存指令之一記憶體，當藉由該處理器執行該等指令時，引起該器件：擷取一場景之一第一影像；在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分；擷取該場景之一第二影像；基於以下之至少一者來計算該第二影像中該覆蓋之一期望位置：i)關於在擷取該第一影像與該第二影像之間之一攝影機視場之一變化的資訊、ii)關於在擷取該第一影像與該第二影像之間之一攝影機位置之一變化的資訊，及iii)在該第二影像之該場景中與該覆蓋相關聯之一物件之一偵測及/或追蹤之位置，其中該第二影像中該覆蓋之該期望位置不同於該第一影像中該覆蓋之該第一位置；將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框，及產生且編碼該視訊串流之一第三圖框，其中，在該覆蓋之該期望位置處之該第三圖框之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，且其中，在該覆蓋之該期望位置之外之該第三圖框的一或多個巨集區塊為參考該視訊串流之該第二圖框之跳過巨集區塊，包含基於在該第一影像中該覆蓋之該第一位置與該第二影像中該覆蓋之該計算期望位置之間的一差來計算該一或多個時間預測巨集區塊之運動向量。
如請求項8之器件，其中，該器件為經組態以擷取該第一影像及該第二影像之至少一者之一監控攝影機。
一種非暫時性電腦可讀儲存媒體，其上儲存有用於編碼包含一覆蓋之一視訊串流之電腦程式，該電腦程式經組態為當藉由一器件之一處理器執行時，引起該器件：擷取一場景之一第一影像；在一第一位置處向該第一影像添加一覆蓋，且將該第一影像編碼為一編碼視訊串流之一第一圖框之部分；擷取該場景之一第二影像；基於以下之至少一者來計算該第二影像中該覆蓋之一期望位置：i)關於在擷取該第一影像與該第二影像之間之一攝影機視場之一變化的資訊、ii)關於在擷取該第一影像與該第二影像之間之一攝影機位置之一變化的資訊，及iii)在該第二影像之該場景中與該覆蓋相關聯之一物件之一偵測及/或追蹤之位置，其中該第二影像中該覆蓋之該期望位置不同於該第一影像中該覆蓋之該第一位置；將該第二影像編碼為該視訊串流之一第二圖框之部分，包含將該第二圖框標記為一非顯示圖框，及產生且編碼該視訊串流之一第三圖框，其中，在該覆蓋之該期望位置處之該第三圖框之一或多個巨集區塊為參考該第一圖框之時間預測巨集區塊，且其中，在該覆蓋之該期望位置之外之該第三圖框的一或多個巨集區塊為參考該視訊串流之該第二圖框之跳過巨集區塊，包含基於在該第一影像中該覆蓋之該第一位置與該第二影像中該覆蓋之該計算期望位置之間的一差來計算該一或多個時間預測巨集區塊之運動向量。