TWI678099B

TWI678099B - 視頻處理方法、裝置和儲存介質

Info

Publication number: TWI678099B
Application number: TW107124534A
Authority: TW
Inventors: 程培; Pei CHENG; 傅斌; Bin Fu
Original assignee: 大陸商騰訊科技（深圳）有限公司; Tencent Technology (Shenzhen) Company Limited
Priority date: 2017-07-27
Filing date: 2018-07-16
Publication date: 2019-11-21
Also published as: CN107341827A; CN107341827B; WO2019019927A1; TW201840179A

Abstract

一種視頻處理方法、裝置和儲存介質。所述視頻處理方法包括：採集一視頻資料，並從所述視頻資料中確定需要進行處理之一物件；檢測所述物件之特徵點以及所述物件之一預設部位之歐拉角；根據所述特徵點和所述歐拉角獲取一預設三維圖像之一深度資訊；以及基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像。

Description

視頻處理方法、裝置和儲存介質

本揭示關於電腦技術領域，特別是關於一種視頻處理方法、裝置和儲存介質。

擴增實境技術(AR，Augmented Reality)，是一種能夠即時地計算攝影機影像的位置及角度並加上相應圖像的技術，這種技術可以在螢幕上把虛擬世界和現實世界結合並進行互動。近年來，隨著電腦技術的發展，AR的應用越來越為廣泛。以視頻處理為例，在習知技術中，為了增加視頻的趣味性，一般可以在使用者進行攝像時，在各幀圖像上添加即時的二維(2D，2 Dimensions)動態貼紙效果。例如，具體可以利用人臉識別技術獲取相機中當前幀的人像的五官點，然後利用這些五官點，在指定點位繪製二維貼紙，例如繪製一二維的兔子耳朵、貓耳朵、或鬍子等等。

在對習知技術的研究和實踐過程中，本揭示的發明人發現現有方案所添加的二維動態貼紙效果雖然具有一定趣味性，但與原圖的融合度較差，視頻處理品質不佳。

本揭示實施例提供一種視頻處理方法、裝置和儲存介質，其可以在圖像上添加三維圖像效果，提高所添加效果與原圖的融合度，改善視頻處理品質。

本揭示實施例提供一種視頻處理方法，包括：採集一視頻資料，並從所述視頻資料中確定需要進行處理之一物件；檢測所述物件之特徵點以及所述物件之一預設部位之歐拉角；根據所述特徵點和所述歐拉角獲取一預設三維圖像之一深度資訊；以及基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像。

相應地，本揭示實施例還提供一種視頻處理裝置，包括：一採集單元，用於採集一視頻資料，並從所述視頻資料中確定需要進行處理之一物件；一檢測單元，用於獲取所述物件之特徵點以及所述物件之一預設部位之歐拉角；一獲取單元，用於根據所述特徵點和所述歐拉角獲取一預設三維圖像之一深度資訊；以及一繪製單元，用於基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像。

此外，本揭示實施例還提供一種儲存介質，儲存有多個指令，所述指令適於至少一處理器進行載入以執行本揭示實施例所提供的任一種視頻處理方法。

本揭示實施例可以從採集到的視頻資料中，確定需要進行處理的物件，然後檢測該物件的特徵點以及該物件預設部位的歐拉角，根據這些特徵點和歐拉角獲取預設三維圖像的深度資訊，並基於該深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質。

401‧‧‧採集單元

402‧‧‧檢測單元

403‧‧‧獲取單元

404‧‧‧繪製單元

405‧‧‧遮擋獲取單元

406‧‧‧遮擋調整單元

407‧‧‧確定單元

501‧‧‧處理器

502‧‧‧記憶體

503‧‧‧電源

504‧‧‧輸入單元

S101~S104、S201~S206、S301~S308‧‧‧步驟

第1A圖是本揭示實施例提供的視頻處理方法的場景示意圖。

第1B圖是本揭示實施例提供的視頻處理方法的場景示意圖。

第1C圖是本揭示實施例提供的視頻處理方法的流程圖。

第1D圖是本揭示實施例提供的視頻處理方法中人臉檢測的示意圖。

第2A圖是本揭示實施例提供的視頻處理方法的另一流程圖。

第2B圖是本揭示實施例提供的視頻處理方法中人頭姿勢歐拉角的示意圖。

第2C圖是本揭示實施例提供的視頻處理方法中歐拉角的示例圖；

第3A圖是本揭示實施例提供的視頻處理方法的又一流程圖；

第3B圖是本揭示實施例提供的視頻處理方法中遮擋模型的示意圖。

第3C圖是本揭示實施例提供的視頻處理方法中寫入遮擋模型深度資訊的示意圖。

第3D圖是本揭示實施例提供的視頻處理方法中寫入三維頭盔深度資訊的示意圖。

第3E圖是本揭示實施例提供的視頻處理方法中三維頭盔的繪製效果圖。

第4A圖是本揭示實施例提供的視頻處理裝置的結構示意圖。

第4B圖是本揭示實施例提供的視頻處理裝置的另一結構示意圖。

第5圖是本揭示實施例提供的網路設備的結構示意圖。

下面將結合本揭示實施例中的附圖，對本揭示實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本揭示一部分實施例，而不是全部的實施例。基於本揭示中的實施例，本揭示所屬技術領域中具有通常知識者在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬於本揭示保護的範圍。

本揭示實施例提供一種視頻處理方法、裝置和儲存介質。

該視頻處理裝置具體可以整合在網路設備，例如伺服器或終端等設備中。

例如，以該視頻處理裝置整合在終端中為例，則參見第1A圖，終端可以採集視頻資料，從該視頻資料中確定需要進行處理的物件，並檢測該物件的特徵點以及該物件預設部位的歐拉角(Euler Angle，其用來描述剛體在三維歐幾里得空間的取向)。例如，可以檢測視頻幀中某人像的五官特徵點、以及頭部姿勢的歐拉角等等，然後根據該特徵點和歐拉角獲取預設三維圖像的深度資訊，基於該三維圖像的深度資訊在該物件上繪製該三維圖像，例如，在該人像上添加一個三維的頭盔等等。

又例如，以該視頻處理裝置整合在伺服器中為例，則見第1B圖，終端在採集到視頻資料後，可以將該視頻資料提供給伺服器，由伺服器從該視頻資料中確定需要進行處理的物件，並檢測該物件的特徵點以及該物件預設部位的歐拉角，然後伺服器根據該特徵點和歐拉角獲取預設三維圖像的深度資訊，基於該三維圖像的深度資訊在該物件上繪製該三維圖像。可選地，此後伺服器還可以將繪製了三維圖像後的視頻資料返回給終端。

通過本揭示實施例的方案，可以實現一種擴增實境技術(AR，Augmented Reality)的效果。所謂AR是一種能夠即時地計算攝影機影像的位置及角度並加上相應圖像、視頻、或三維模型的技術，這種技術可以在螢幕上把虛擬世界和現實世界結合並進行互動。以下將對本揭示所提供的方案分別進行詳細說明。

本實施例將從視頻處理裝置的角度進行描述，該視頻處理裝置具體可以整合在網路設備，例如伺服器或終端等設備中。該終端具體可以為手機、平板電腦、筆記型電腦、和/或個人電腦(Personal Computer，PC)等。

一種視頻處理方法，包括：採集視頻資料，並從該視頻資料中確定需要進行處理的物件，檢測該物件的特徵點、以及該物件預設部位的歐拉角，根據該特徵點和歐拉角獲取預設三維圖像的深度資訊，基於該三維圖像的深度資訊在該物件上繪製該三維圖像。

如第1C圖所示，該視頻處理方法的具體流程可以如下：步驟S101、採集視頻資料，並從該視頻資料中確定需要進行處理的物件。

例如，以該視頻處理裝置整合在終端中為例，此時具體可以由終端採集視頻資料，例如通過攝像頭進行拍攝，或從本地(即終端)讀取視頻資料等等。

又例如，以該視頻處理裝置整合在伺服器中為例，此時服務器接收終端發送的視頻資料，例如具體可以由終端採集視頻資料，例如通過攝像頭進行拍攝，或從終端所儲存的視頻庫中直接讀取視頻資料等等，然後由終端將該視頻資料提供給伺服器。

在採集到視頻資料後，便可以從該視頻資料中確定需要進行處理的物件，該物件可以根據實際應用的需求而定。例如，該物件可以是人、動物、甚至是物體等等。此外，該物件的數量也可以根據實際應用的需求而定，可以是單個，也可以是多個，在此不再贅述。需說明的是，為了描述方便，在本揭示實施例中，將均以該物件具體為人，且數量為單個為例進行說明。

步驟S102、檢測該物件的特徵點以及該物件預設部位的歐拉角。

特徵點的設置和預設部位可以根據實際應用的需求而定，例如，以該物件為人像，則此時可以將特徵點設置為人的五官，如眉毛、眼睛、鼻子、嘴巴、耳朵、以及人的臉部輪廓等，即步驟“檢測該物件的特徵點以及該物件預設部位的歐拉角”具體可以如下：採用人臉檢測技術對該物件的面部進行人臉識別，得到該物件的面部特徵點以及對該物件的頭部姿勢進行檢測，得到該物件的頭部的歐拉角。

該面部特徵點可以包括五官、以及臉部輪廓等特徵點，如第1D圖所示。

歐拉角是用來確定定點轉動剛體位置的以三個一組獨立角參量，由章動角θ、旋進角(即進動角)ψ和自轉角φ組成。也就是說，通過獲取該物件預設部位的歐拉角，例如獲取該人的頭部的歐拉角(包括章動角、旋進角和自轉角)與時間的關係，可以獲知該物件預設部位如頭部的運動情況。

步驟S103、根據該特徵點和歐拉角獲取預設三維圖像的深度資訊；例如，具體可以如下：(1)根據該特徵點和歐拉角對預設三維圖像進行調整，使得該三維圖像與該物件能夠匹配。

例如，具體根據該特徵點和歐拉角對預設三維圖像進行縮放、旋轉和/或位移等操作，使得該三維圖像與該物件在大小、位置和角度上均能夠匹配。

該三維圖像可以根據實際應用的需求或使用者的喜好進行選擇，例如可以是一個三維頭盔、三維兔子耳朵、三維貓耳朵、三維眼鏡、或三維頭巾等等。

匹配的方式可以有多種，例如可以設置當該三維圖像與該物件在大小、位置和角度上滿足一定函數關係時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配；或者，也可以設置當該三維圖像與該物件在大小、位置和角度上一致或大體上一致(即誤差小於預設範圍)時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配等等。

例如以該物件為人像，且三維圖像具體為三維的眼鏡為例，則此時具體可以根據該人的面部特徵點和頭部的歐拉角對該三維眼鏡進行位移，使得該三維眼鏡與該人的面部的位置大體上一致，以及根據該人的面部特徵點和頭部的歐拉角對該三維眼鏡進行縮放和旋轉，使得該三維眼鏡與該人的面部大小和角度大體上一致等等。

(2)提取該三維圖像在匹配狀態下的深度資訊，得到該三維圖像的深度資訊。

即當三維圖像與該物件在大小、位置和角度上匹配時，提取該三維圖像在該狀態下的深度資訊(物體在不同的狀態下都有其對應的深度資訊)，得到該三維圖像的深度資訊。

深度資訊是讓人類產生立體視覺的前提。眾所周知，透視投影是多對一的關係，投影線上的任何一點都可對應同一個像點，而如果用兩個攝像機(相當於人的雙眼)，則可以消除這種多對一的情況，從而能夠確定第三維座標Z的值，而該值即稱為深度資訊。

步驟S104、基於該三維圖像的深度資訊在該物件上繪製該三維圖像。

例如，具體可以根據該三維圖像的深度資訊在該物件所在的幀上對該三維圖像進行渲染，例如在頭像上繪製一個三維眼鏡、三維頭盔、或三維兔子耳朵等等。

可選地，為了避免所繪製的三維圖像對該物件造成遮擋，還可以根據該物件需要裸露的部分(即避免被三維圖像遮擋的部分)設置相匹配的遮擋模型(occluder)，以便該三維圖像在繪製時，能夠相應地避開該物件需要裸露的部分；即在步驟“基於該三維圖像的深度資訊在該物件上繪製該三維圖像”之前，該視頻處理方法還可以包括：獲取預設遮擋模型的深度資訊，根據該預設遮擋模型的深度資訊和三維圖像的深度資訊對該遮擋模型和三維圖像進行疊加，並將重合部分的顏色設置為透明，得到處理後深度資訊。

此時步驟“基於該三維圖像的深度資訊在該物件上繪製該三維圖像”包括：根據處理後深度資訊在該物件上繪製該三維圖像。

獲取預設遮擋模型的深度資訊與獲取三維圖像的深度資訊類似，例如具體可以如下：獲取預設的遮擋模型，根據該特徵點和歐拉角對該遮擋模型進行調整，使得該遮擋模型與該物件能夠匹配，提取該遮擋模型在匹配狀態下的深度資訊，得到該遮擋模型的深度資訊。

例如，具體可以根據該特徵點和歐拉角對該遮擋模型進行縮放、旋轉和/或位移等操作，使得該遮擋模型與該物件在大小、位置和角度上均能夠匹配。

該遮擋模型可以根據該物件需要裸露的部分(即避免被三維圖像遮擋的部分)進行設置，例如以需要裸露的部分為人臉為例，則具體可以建立一個人頭的模型來作為該遮擋模型等等。

需說明的是，為了使得演算法更為簡便以及提高處理效率，多個類型相同的不同物件可以使用同一遮擋模型。例如，以需要裸露的部分為人臉，且需要繪製的三維圖像為三維頭盔為例，若該物件為使用者甲的頭像，則此時可以採用遮擋模型A來避免繪製三維頭盔時，使用者甲的臉部被遮擋。若該物件為使用者乙的頭像，則此時也同樣可以採用遮擋模型A來避免繪製三維頭盔時，使用者乙的臉部被遮擋，以此類推。

可選地，為了提高繪製的精確度以及提高處理效果，還可以根據具體的物件來建立該遮擋模型。例如，以需要裸露的部分為人臉，且需要繪製的三維圖像為三維頭盔為例，若該物件為使用者甲的頭像，則此時可以根據使用者甲的頭部建立遮擋模型A，然後，採用遮擋模型A來避免繪製三維頭盔時，使用者甲的臉部被遮擋。若該物件為使用者乙的頭像，則此時可以根據使用者乙的頭部建立遮擋模型B，然後採用遮擋模型B來避免繪製三維頭盔時，使用者乙的臉部被遮擋，以此類推。

由於並不是所有需要繪製的三維圖像均會對該物件造成遮擋，因此，可選地，為了提高靈活性，在獲取預設遮擋模型的深度資訊之前，還可以對該三維圖像進行判斷，若屬於預設類型，則需要遮擋模型，否則，可以直接對該三維圖像進行繪製；即，在步驟“獲取預設遮擋模型的深度資訊”之前，該視頻處理方法還可以包括：確定該三維圖像的類型是否滿足預設條件，若是，則執行獲取預設遮擋模型的深度資訊的步驟；否則，若不滿足預設條件，則執行基於該三維圖像的深度資訊在該物件上繪製該三維圖像的步驟。

由上可知，本實施例可以從採集到的視頻資料中，確定需要進行處理的物件，然後檢測該物件的特徵點以及該物件預設部位的歐拉角，根據這些特徵點和歐拉角獲取預設三維圖像的深度資訊，並基於該深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，一方面可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質，另一方面也可以實現AR的效果。

根據上述實施例所描述的方法，以下將舉例作進一步詳細說明。

在本實施例中，將以該視頻處理裝置具體整合在網路設備中為例進行說明，該網路設備具體可以是終端，也可以是伺服器等設備。

如第2A圖所示，一種視頻處理方法，具體流程可以如下：步驟S201、網路設備採集視頻資料，並從該視頻資料中確定需要處理的物件。

該物件可以根據實際應用的需求而定，例如，可以是人、動物、甚至是物體等等。此外，該物件的數量也可以根據實際應用的需求而定，可以是單個，也可以是多個，在此不再贅述。

例如，以該網路設備具體為終端，且需要處理的物件為“人像”為例，則此時終端可以通過攝像頭對使用者的面部進行拍攝，以採集視頻資料，然後由終端從該視頻資料中確定需要進行處理的物件，例如需要添加三維圖像的“人像”。

又例如，以該網路設備具體為伺服器為例，則此時可以由終端採集視頻資料，例如通過攝像頭進行拍攝，然後由終端將該視頻資料提供給伺服器，由伺服器從該視頻資料中確定需要進行處理的物件，例如需要添加三維圖像的“人像”等等。

可選地，為了提高視頻資料的有效性，終端在採集視頻資料時，還可以生成相應的提示資訊，以提示使用者需要拍攝人臉，以便使用者可以以更好的姿態進行拍攝，從而使得可以獲取到有效性更高的視頻資料。

步驟S202、網路設備檢測該物件的特徵點。

例如，以需要處理的物件為“人像”為例，則如第1D圖所示，網路設備具體採用人臉檢測技術對該物件的面部進行人臉識別，得到該物件的面部特徵點。

該面部特徵點可以包括五官以及臉部輪廓等特徵點，而五官可以包括該人像的眉毛、眼睛、鼻子、嘴巴和耳朵等。該人臉檢測技術可以包括OpenCV(跨平臺電腦視覺庫)人臉檢測技術、各個移動終端系統自帶人臉檢測技術、Face++的人臉檢測技術、sensetime人臉檢測技術等等。

步驟S203、網路設備檢測該物件預設部位的歐拉角。

例如，以需要處理的物件為“人像”，且該預設部位為“頭部”為例，則此時網路設備具體對該人像的頭部姿勢進行即時檢測，得到該人像的頭部的歐拉角。例如，參見第2B圖，具體可以以人像的鼻尖作為定點“o”來進行轉動，得到基於該定點“o”(即鼻尖)進行轉動人像頭部的一組獨立角參量：章動角θ、旋進角(即進動角)ψ和自轉角φ，從而得到該人像的頭部的歐拉角，具體可以如下：如第2C圖所示，可以基於定點o作出固定坐標系oxyz(x軸、y軸和z軸的位置、以及這三坐標軸之間關係可參見第2B圖)，以及固連於該人像頭部的坐標系ox'y'z'。平面zoz'的垂線oN稱為節線，它也是基本平面ox'y'和oxy的交線。以軸oz和oz'為基本軸，其垂直面oxy和ox'y'為基本平面，計算由軸oz到oz'的角度，便可以得到章動角θ。在該坐標系中，由oN的正端看，章動角θ應按逆時針方向計量。此外，可以測量由固定軸ox量到節線oN的角度，得到進動角ψ，以及測量由節線oN到動軸ox'的角度，得到自轉角φ。由軸oz和oz'正端看，角ψ和φ也都按逆時針方向計量。

需說明的是，該歐拉角可以隨著人像頭部姿勢的變化而變化，而後續所需要的添加的三維圖像的角度取決於該歐拉角。因此，可以使得該三維圖像隨著人像頭部姿勢的變化而變化，這在步驟S204中將進行詳細描述，在此不再贅述。

步驟S202和S203的執行可以不分先後。

步驟S204、網路設備根據該特徵點和歐拉角對預設三維圖像進行縮放、旋轉和/或位移等操作，使得該三維圖像與該物件在大小、位置和角度上均能夠匹配。

該三維圖像可以根據實際應用的需求或使用者的喜好進行選擇，例如可以是一個三維兔子耳朵、三維貓耳朵、三維眼鏡、或三維頭巾等等。

匹配的方式可以有多種，例如可以設置當該三維圖像與該物件在大小、位置和角度上滿足一定函數關係時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配；或者，也可以設置當該三維圖像與該物件在大小、位置和角度上一致或大體上一致(即誤差小於預設範圍)時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配等等。為了描述方便，在本實施例中，將均以該三維圖像與該物件在大小、位置和角度上一致或大體上一致作為匹配條件為例進行說明。

例如以該物件為人像，且三維圖像具體為三維眼鏡為例，則此時可以根據該人的面部特徵點和頭部的歐拉角對該三維眼鏡進行位移，使得該三維眼鏡與該人的面部的位置大體上一致，以及根據該人的面部特徵點和頭部的歐拉角對該三維眼鏡進行縮放和旋轉，使得該三維眼鏡與該人的面部大小和角度大體上一致等等。

步驟S205、網路設備提取該三維圖像在匹配狀態下(即當三維圖像與該物件在大小、位置和角度上匹配時)的深度資訊，得到該三維圖像的深度資訊。

例如以該需要處理的物件為“人像”，且需要添加的三維圖像為三維眼鏡為例，則當該三維眼鏡與該人的面部的位置、大小和角度大體上一致時，網路設備提取該三維眼鏡此時的深度資訊，並執行步驟S206。

步驟S206、網路設備根據三維圖像的深度資訊在該物件上繪製該三維圖像。

例如以該需要處理的物件為“人像”，且需要添加的三維圖像為三維眼鏡為例，則此時網路設備可以根據步驟S205中得到的三維眼鏡的深度資訊，在該人像的面部繪製三維眼鏡。

由上可知，本實施例可以從採集到的視頻資料中，確定需要進行處理的物件，然後檢測該物件的特徵點以及該物件預設部位的歐拉角，根據這些特徵點和歐拉角獲取預設三維圖像的深度資訊，並基於該深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質。

與上一個實施例相同的是，在本實施例中，同樣以該視頻處理裝置具體整合在網路設備中為例進行說明，與上一個實施例不同的是，在本實施例中，將以繪製另一種類型的三維圖像，如三維頭盔為例進行說明。

如第3A圖所示，一種視頻處理方法，具體流程可以如下：步驟S301、網路設備採集視頻資料，並從該視頻資料中確定需要處理的物件。

該網路設備可以是終端，也可以是伺服器，具體可參見上一個實施例中的步驟S201，在此不再贅述。

步驟S302、網路設備檢測該物件的特徵點。

步驟S303、網路設備檢測該物件預設部位的歐拉角。

其中，步驟S301~S303的具體執行可參見上一個實施例中的步驟S201~S203，在此不再贅述。

步驟S304、網路設備獲取預設的遮擋模型，然後執行步驟S305。

該遮擋模型可以根據該物件需要裸露的部分(即避免被三維圖像遮擋的部分)進行設置，以需要裸露的部分為人臉為例，則如第3B圖所示，具體可以建立一個人頭的模型來作為該遮擋模型等等。

需說明的是，為了使得演算法更為簡便以及提高處理效率，多個類型相同的不同物件可以使用同一遮擋模型。以需要裸露的部分為人臉，且需要繪製的三維圖像為三維頭盔為例，若該物件為使用者甲的頭像，則此時可以採用遮擋模型A來避免繪製三維頭盔時，使用者甲的臉部被遮擋。若該物件為使用者乙的頭像，則同樣也可以採用遮擋模型A來避免繪製三維頭盔時，使用者乙的臉部被遮擋，以此類推。

可選地，為了提高繪製的精確度以及提高處理效果，還可以根據具體的物件來建立該遮擋模型。以需要裸露的部分為人臉，且需要繪製的三維圖像為三維頭盔為例，若該物件為使用者甲的頭像，則可以根據使用者甲的頭部建立遮擋模型A，然後採用遮擋模型A來避免繪製三維頭盔時，使用者甲的臉部被遮擋。若該物件為使用者乙的頭像，則可以根據使用者乙的頭部建立遮擋模型B，然後採用遮擋模型B來避免繪製三維頭盔時，使用者乙的臉部被遮擋，以此類推。

由於並不是所有需要繪製的三維圖像均會對該物件造成遮擋，因此，可選地，為了提高靈活性，在獲取預設的遮擋模型之前，還可以對該三維圖像進行判斷，若屬於預設類型，例如若需要繪製的三維圖像為三維頭盔，則需要遮擋模型，否則，若不屬於預設類型，例如若需要繪製的三維圖像為三維眼鏡，則可以直接對該三維圖像進行繪製，可參見上述實施例中的相關描述，在此不再贅述。

步驟S305、網路設備根據該特徵點和歐拉角對該遮擋模型進行調整，使得該遮擋模型與該物件能夠匹配，提取該遮擋模型在匹配狀態下的深度資訊，得到該遮擋模型的深度資訊。例如，具體可以如下：網路設備根據該特徵點和歐拉角對該遮擋模型進行縮放、旋轉和/或位移等操作，使得該遮擋模型與該物件在大小、位置和角度上均能夠匹配，然後提取該遮擋模型在匹配狀態下的深度資訊，得到該遮擋模型的深度資訊，例如，參見第3C圖，該圖為寫入遮擋模型的深度資訊的示意圖。

匹配的方式可以有多種，例如可以設置當該遮擋模型與該物件在大小、位置和角度上滿足一定函數關係時，確定該遮擋模型與該物件在大小、位置和角度上均能夠匹配。或者，也可以設置當該遮擋模型與該物件在大小、位置和角度上一致或大體上一致(即誤差小於預設範圍)時，確定該遮擋模型與該物件在大小、位置和角度上均能夠匹配等等。

步驟S306、網路設備根據該特徵點和歐拉角對預設三維圖像進行縮放、旋轉和/或位移等操作，使得該三維圖像與該物件在大小、位置和角度上均能夠匹配，提取該三維圖像在匹配狀態下的深度資訊，得到該三維圖像的深度資訊。

匹配的方式可以有多種，具體可參見上述實施例中的步驟S204~S205，在此不再贅述。

例如，參見第3D圖，該圖為寫入三維頭盔的深度資訊的示意圖，由第3D圖可以看出，若直接根據三維頭盔的深度資訊來繪製該三維頭盔，則將會對該人像的面部造成遮擋，因此，需要將面部“裸露”出來，而此操作可以通過執行步驟S307來實現，詳見步驟S307。

需說明的是，步驟S304和S306的執行可以不分先後。

步驟S307、網路設備根據該遮擋模型的深度資訊和三維圖像的深度資訊對該遮擋模型和三維圖像進行疊加，並將重合部分的顏色設置為透明，得到處理後深度資訊。

例如，網路設備可以在將該遮擋模型和三維圖像進行疊加後，將重合部分的顏色設置為vec(0.0.0.0)，並寫入三維頭盔的深度資訊(即對步驟S306得到的三維頭盔的深度資訊進行更新)，得到處理後深度資訊，藉此後續在繪製頭盔時，頭盔被該遮擋模型遮擋的像素就會被丟棄，相當於在繪製的頭盔上挖出一個洞把人像的面部顯露出來。

步驟S308、網路設備根據處理後深度資訊在該物件上繪製該三維圖像。

以該需要處理的物件為“人像”，且需要添加的三維圖像為三維頭盔為例，則此時網路設備可以根據步驟S307中得到的三維頭盔的深度資訊，在該人像的面部繪製三維頭盔。

由於此時所依據的三維頭盔的深度資訊是“處理後深度資訊”，因此，在繪製該三維頭盔時，被遮擋模型遮擋的像素會被丟棄，從而避免了人像的面部被繪製的三維頭盔遮擋的情況的發生，例如，參見第3E圖，該圖為三維頭盔的繪製效果圖，由此可見，在該人像的頭部添加了一個三維頭盔，且該人像的面部已顯露出來，清晰可見。

由上可知，本實施例可以從採集到的視頻資料中，確定需要進行處理的物件，然後檢測該物件的特徵點、以及該物件預設部位的歐拉角，根據這些特徵點和歐拉角，獲取遮擋模型的深度資訊和預設三維圖像的深度資訊，並基於這些深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質。

此外，該方案還可以通過設置遮擋模型，來改善三維圖像的添加效果，避免對原物件的遮擋情況的發生。因此，可以提高實現的靈活性，以及進一步提高所添加效果與原圖的融合度及視頻處理品質。

為了更好地實施以上方法，本揭示實施例還提供一種視頻處理裝置，該視頻處理裝置具體可以整合在網路設備，例如伺服器或終端等設備中。該終端具體可以為手機、平板電腦、筆記型電腦、和/或個人電腦等。

例如，如第4A圖所示，該視頻處理裝置可以包括採集單元401、檢測單元402、獲取單元403和繪製單元404。

採集單元401用於採集視頻資料，並從該視頻資料中確定需要進行處理的物件。

例如，該採集單元401具體可以用於通過攝像頭進行拍攝，或從本地(即終端)讀取視頻資料等，並從該視頻資料中確定需要進行處理的物件。

或者，該採集單元401具體可以用於接收終端發送的視頻資料，並從該視頻資料中確定需要進行處理的物件。

該物件可以根據實際應用的需求而定，例如可以是人、動物、甚至是物體等等。此外，該物件的數量也可以根據實際應用的需求而定，可以是單個，也可以是多個，在此不再贅述。

檢測單元402用於獲取該物件的特徵點、以及該物件預設部位的歐拉角。

特徵點的設置和預設部位可以根據實際應用的需求而定，例如以該物件為人像，則此時可以將特徵點設置為人的五官，如眉毛、眼睛、鼻子、嘴巴和耳朵，以及人的臉部輪廓等。即當該物件為人像，預設部位為頭部時，該檢測單元402，具體可以用於採用人臉檢測技術對該物件的面部進行人臉識別，得到該物件的面部特徵點；以及對該物件的頭部姿勢進行檢測，得到該物件的頭部的歐拉角。

該面部特徵點可以包括五官、以及臉部輪廓等特徵點，具體可參見前面的方法實施例，在此不再贅述。

獲取單元403用於根據該特徵點和歐拉角獲取預設三維圖像的深度資訊。

例如，該獲取單元403可以包括調整子單元和提取子單元。

該調整子單元可以用於根據該特徵點和歐拉角對預設三維圖像進行調整，使得該三維圖像與該物件能夠匹配。

該提取子單元可以用於提取該三維圖像在匹配狀態下的深度資訊，得到該三維圖像的深度資訊。

例如，該調整子單元具體可以用於根據該特徵點和歐拉角對預設三維圖像進行縮放、旋轉和/或位移，使得該三維圖像與該物件在大小、位置和角度上均能夠匹配。

匹配的方式可以有多種，例如，可以設置當該三維圖像與該物件在大小、位置和角度上滿足一定函數關係時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配。或者，也可以設置當該三維圖像與該物件在大小、位置和角度上一致或大體上一致(即誤差小於預設範圍)時，確定該三維圖像與該物件在大小、位置和角度上均能夠匹配等等。

繪製單元404用於基於該三維圖像的深度資訊在該物件上繪製該三維圖像。

例如，繪製單元404具體可以用於根據該三維圖像的深度資訊在該物件所在的幀上對該三維圖像進行渲染，例如在頭像上繪製一個三維眼鏡、三維頭盔、或三維兔子耳朵等等。

可選地，為了避免所繪製的三維圖像對該物件造成遮擋，還可以根據該物件需要裸露的部分(即避免被三維圖像遮擋的部分)設置相匹配的遮擋模型(occluder)，以便該三維圖像在繪製時，能夠相應地避開該物件需要裸露的部分。即如第4B圖所示，該視頻處理裝置還可以包括遮擋獲取單元405和遮擋調整單元406。

該遮擋獲取單元405可以用於獲取預設遮擋模型的深度資訊。

該遮擋調整單元406可以用於根據該預設遮擋模型的深度資訊和三維圖像的深度資訊對該遮擋模型和三維圖像進行疊加，並將重合部分的顏色設置為透明，得到處理後深度資訊。

此時該繪製單元404具體可以用於根據遮擋調整單元得到的處理後深度資訊在該物件上繪製該三維圖像。

獲取預設遮擋模型的深度資訊與獲取三維圖像的深度資訊類似，例如，具體可以如下：該遮擋獲取單元405具體可以用於獲取預設的遮擋模型，根據該特徵點和歐拉角對該遮擋模型進行調整，使得該遮擋模型與該物件能夠匹配；提取該遮擋模型在匹配狀態下的深度資訊，得到該遮擋模型的深度資訊。

例如，該遮擋獲取單元405具體可以用於獲取預設的遮擋模型，根據該特徵點和歐拉角對該遮擋模型進行縮放、旋轉和/或位移，使得該遮擋模型與該物件在大小、位置和角度上均能夠匹配。

需說明的是，為了使得演算法更為簡便以及提高處理效率，多個類型相同的不同物件可以使用同一遮擋模型。可選地，為了提高繪製的精確度以及提高處理效果，還可以根據具體的物件來建立該遮擋模型，具體可參見前面的方法實施例，在此不再贅述。

由於並不是所有需要繪製的三維圖像均會對該物件造成遮擋，因此，可選地，為了提高靈活性，在獲取預設遮擋模型的深度資訊之前，還可以對該三維圖像進行判斷，若屬於預設類型，則需要遮擋模型，否則，則可以直接對該三維圖像進行繪製。即如第4B圖所示，該視頻處理裝置還可以包括確定單元407。

該確定單元407可以用於確定該三維圖像的類型是否滿足預設條件，若是，則觸發遮擋獲取單元405執行獲取預設遮擋模型的深度資訊的操作；若否，則觸發繪製單元404執行基於該三維圖像的深度資訊在該物件上繪製該三維圖像的操作。

具體實施時，以上各個單元可以作為獨立的實體來實現，也可以進行任意組合，作為同一或若干個實體來實現，以上各個單元的具體實施可參見前面的方法實施例，在此不再贅述。

由上可知，本實施例可以從採集到的視頻資料中，確定需要進行處理的物件，然後由檢測單元402檢測該物件的特徵點、以及該物件預設部位的歐拉角，由獲取單元403根據這些特徵點和歐拉角獲取預設三維圖像的深度資訊，並由繪製單元404基於該深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質。

相應地，本揭示實施例還提供一種網路設備，該網路設備可以是終端，也可以是伺服器。例如，如第5圖所示，其示出了本揭示實施例所涉及的網路設備的結構示意圖。

該網路設備可以包括一個或者一個以上處理核心的處理器501、一個或一個以上記憶體502、電源503和輸入單元504等部件。本揭示所屬技術領域中具有通常知識者可以理解第5圖中示出的網路設備結構並不構成對網路設備的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。

處理器501是該網路設備的控制中心，利用各種介面和線路連接整個網路設備的各個部分，通過運行或執行儲存在記憶體502內的軟體程式和/或模組，以及調用儲存在記憶體502內的資料，執行網路設備的各種功能和處理資料，從而對網路設備進行整體監控。可選地，處理器501可包括一個或多個處理核心。優選地，處理器501可整合應用處理器和調製解調處理器，應用處理器主要處理作業系統、使用者介面和應用程式等，調製解調處理器主要處理無線通訊。可以理解的是，上述調製解調處理器也可以不整合到處理器501中。

記憶體502可用於儲存軟體程式以及模組，處理器501通過運行儲存在記憶體502的軟體程式以及模組，從而執行各種功能應用以及資料處理。記憶體502可主要包括儲存程式區和儲存資料區，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(例如聲音播放功能、圖像播放功能等)等。儲存資料區可儲存根據網路設備的使用所創建的資料等。此外，記憶體502可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。相應地，記憶體502還可以包括記憶體控制器，以提供處理器501對記憶體502的訪問。

網路設備還包括給各個部件供電的電源503，優選地，電源503可以通過電源管理系統與處理器501邏輯相連，從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。電源503還可以包括一個或一個以上的直流或交流電源、再充電系統、電源故障檢測電路、電源轉換器或者逆變器、電源狀態指示器等任意元件。

該網路設備還可包括輸入單元504，該輸入單元504可用於接收輸入的數位或字元資訊，以及產生與使用者設置以及功能控制有關的鍵盤、滑鼠、操作杆、光學或者軌跡球信號輸入。

儘管未示出，網路設備還可以包括顯示單元等，在此不再贅述。具體在本實施例中，網路設備中的處理器501會按照如下的指令，將一個或一個以上的應用程式的進程對應的可執行檔載入到記憶體502中，並由處理器501來運行儲存在記憶體502中的應用程式，從而實現各種功能，如下：採集視頻資料，並從該視頻資料中確定需要進行處理的物件，檢測該物件的特徵點以及該物件預設部位的歐拉角，根據該特徵點和歐拉角獲取預設三維圖像的深度資訊，基於該三維圖像的深度資訊在該物件上繪製該三維圖像。

例如，具體可以根據該特徵點和歐拉角對預設三維圖像進行縮放、旋轉和/或位移等操作，使得該三維圖像與該物件在大小、位置和角度上均能夠匹配，然後提取該三維圖像在匹配狀態下的深度資訊，得到該三維圖像的深度資訊。

特徵點的設置和預設部位可以根據實際應用的需求而定，例如以該物件為人像，則此時可以將特徵點設置為人的五官，如眉毛、眼睛、鼻子、嘴巴和耳朵，以及人的臉部輪廓等，即處理器501還可以運行儲存在記憶體502中的應用程式，從而實現如下功能：採用人臉檢測技術對該物件的面部進行人臉識別，得到該物件的面部特徵點，以及對該物件的頭部姿勢進行檢測，得到該物件的頭部的歐拉角。該面部特徵點可以包括五官、以及臉部輪廓等特徵點等。

可選地，為了避免所繪製的三維圖像對該物件造成遮擋，還可以根據該物件需要裸露的部分設置相匹配的遮擋模型，以便該三維圖像在繪製時，能夠相應地避開該物件需要裸露的部分。即處理器501還可以運行儲存在記憶體502中的應用程式，從而實現如下功能：獲取預設遮擋模型的深度資訊，根據該預設遮擋模型的深度資訊和三維圖像的深度資訊對該遮擋模型和三維圖像進行疊加，並將重合部分的顏色設置為透明，得到處理後深度資訊，然後根據處理後深度資訊在該物件上繪製該三維圖像。

獲取預設遮擋模型的深度資訊與獲取三維圖像的深度資訊類似，具體可參見前面的實施例，在此不再贅述。

以上各個操作的具體實施可參見前面的實施例，在此不再贅述。

由上可知，本實施例的網路設備可以從採集到的視頻資料中，確定需要進行處理的物件，然後檢測該物件的特徵點以及該物件預設部位的歐拉角，根據這些特徵點和歐拉角獲取預設三維圖像的深度資訊，並基於該深度資訊在該物件上繪製三維圖像，從而達到在該圖像上添加三維圖像，例如顯示三維物品效果的目的。該方案相對於現有方案只能添加二維動態貼紙效果的方案而言，可以大幅提高所添加效果與原圖的融合度，從而從整體上改善視頻處理品質。

本揭示所屬技術領域中具有通常知識者可以理解上述實施例的各種方法中的全部或部分步驟可以通過指令來完成，或通過指令控制相關的硬體來完成，該指令可以儲存於一電腦可讀儲存介質中，並由處理器進行載入和執行。

為此，本揭示實施例提供一種儲存介質，其中儲存有多條指令，該指令能夠被處理器進行載入，以執行本揭示實施例所提供的任一種視頻處理方法中的步驟。例如，該指令可以執行如下步驟：採集視頻資料，並從該視頻資料中確定需要進行處理的物件，檢測該物件的特徵點以及該物件預設部位的歐拉角，根據該特徵點和歐拉角獲取預設三維圖像的深度資訊，基於該三維圖像的深度資訊在該物件上繪製該三維圖像。

特徵點的設置和預設部位可以根據實際應用的需求而定，例如以該物件為人像，則此時可以將特徵點設置為人的五官，如眉毛、眼睛、鼻子、嘴巴和耳朵，以及人的臉部輪廓等，即該指令還可以執行如下步驟：採用人臉檢測技術對該物件的面部進行人臉識別，得到該物件的面部特徵點，以及對該物件的頭部姿勢進行檢測，得到該物件的頭部的歐拉角。該面部特徵點可以包括五官、以及臉部輪廓等特徵點等。

可選地，為了避免所繪製的三維圖像對該物件造成遮擋，還可以根據該物件需要裸露的部分設置相匹配的遮擋模型，以便該三維圖像在繪製時，能夠相應地避開該物件需要裸露的部分。即該指令還可以執行如下步驟：獲取預設遮擋模型的深度資訊，根據該預設遮擋模型的深度資訊和三維圖像的深度資訊對該遮擋模型和三維圖像進行疊加，並將重合部分的顏色設置為透明，得到處理後深度資訊，然後根據處理後深度資訊在該物件上繪製該三維圖像。

該儲存介質可以包括：唯讀記憶體(Read Only Memory，ROM)、隨機存取記憶體(Random Access Memory，RAM)、磁片或光碟等。

由於該儲存介質中所儲存的指令可以執行本揭示實施例所提供的任一種視頻處理方法中的步驟，因此可以實現本揭示實施例所提供的任一種視頻處理方法所能實現的有益效果，詳見前面的實施例，在此不再贅述。

以上對本揭示實施例所提供的一種視頻處理方法、裝置和儲存介質進行了詳細介紹，本文中應用了具體實施例對本揭示的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本揭示的方法及其核心思想。同時，對於本揭示所屬技術領域中具有通常知識者，依據本揭示的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本揭示的限制。

雖然本揭示已用較佳實施例揭露如上，然其並非用以限定本揭示，本揭示所屬技術領域中具有通常知識者在不脫離本揭示之精神和範圍內，當可作各種之更動與潤飾，因此本揭示之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種視頻處理方法，包括：採集一視頻資料，並從所述視頻資料中確定需要進行處理之一物件；檢測所述物件之特徵點以及所述物件之一預設部位之歐拉角；根據所述特徵點和所述歐拉角獲取一預設三維圖像之一深度資訊；以及基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像，在所述基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像之前，所述視頻處理方法還包括；獲取一預設遮擋模型之一深度資訊；根據所述預設遮擋模型之所述深度資訊和所述預設三維圖像之所述深度資訊對所述預設遮擋模型和所述預設三維圖像進行疊加，並將重合部分的顏色設置為透明，得到一處理後深度資訊；所述基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像包括：根據所述處理後深度資訊在所述物件上繪製所述預設三維圖像。
如請求項1之視頻處理方法，其中所述根據所述特徵點和所述歐拉角獲取所述預設三維圖像之所述深度資訊包括：根據所述特徵點和所述歐拉角對所述預設三維圖像進行調整，使得所述預設三維圖像與所述物件匹配；以及提取所述預設三維圖像在匹配狀態下的深度資訊，得到所述預設三維圖像之所述深度資訊。
如請求項2之視頻處理方法，其中所述根據所述特徵點和所述歐拉角對所述預設三維圖像進行調整，使得所述預設三維圖像與所述物件匹配包括：根據所述特徵點和所述歐拉角對所述預設三維圖像進行縮放、旋轉和/或位移，使得所述預設三維圖像與所述物件在大小、位置和角度上均匹配。
如請求項1之視頻處理方法，其中所述獲取所述預設遮擋模型之所述深度資訊包括：獲取所述預設遮擋模型；根據所述特徵點和所述歐拉角對所述預設遮擋模型進行調整，使得所述預設遮擋模型與所述物件匹配；以及提取所述預設遮擋模型在匹配狀態下的深度資訊，得到所述預設遮擋模型之所述深度資訊。
如請求項4之視頻處理方法，其中所述根據所述特徵點和所述歐拉角對所述預設遮擋模型進行調整，使得所述預設遮擋模型與所述物件匹配包括：根據所述特徵點和所述歐拉角對所述預設遮擋模型進行縮放、旋轉和/或位移，使得所述預設遮擋模型與所述物件在大小、位置和角度上均匹配。
如請求項1之視頻處理方法，在所述獲取所述預設遮擋模型之所述深度資訊之前，所述視頻處理方法還包括：確定所述預設三維圖像的類型是否滿足預設條件；若是，則執行獲取所述預設遮擋模型之所述深度資訊的步驟；以及若否，則執行基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像的步驟。
如請求項1至6中任一項之視頻處理方法，其中所述物件為人像，所述預設部位為頭部，所述檢測所述物件之所述特徵點以及所述物件之所述預設部位之所述歐拉角包括：採用人臉檢測技術對所述物件的面部進行人臉識別，得到所述物件之面部特徵點；以及對所述物件的頭部姿勢進行檢測，得到所述物件的頭部之歐拉角。
一種視頻處理裝置，包括：一採集單元，用於採集一視頻資料，並從所述視頻資料中確定需要進行處理之一物件；一檢測單元，用於獲取所述物件之特徵點以及所述物件之一預設部位之歐拉角；一獲取單元，用於根據所述特徵點和所述歐拉角獲取一預設三維圖像之一深度資訊；以及一繪製單元，用於基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像，所述視頻處理裝置還包括：一遮擋獲取單元，用於獲取一預設遮擋模型之一深度資訊；以及一遮擋調整單元，用於根據所述預設遮擋模型之所述深度資訊和所述預設三維圖像之所述深度資訊對所述預設遮擋模型和所述預設三維圖像進行疊加，並將重合部分的顏色設置為透明，得到一處理後深度資訊；所述繪製單元具體用於根據所述預設遮擋調整單元得到的所述處理後深度資訊在所述物件上繪製所述預設三維圖像。
如請求項8之視頻處理裝置，其中所述獲取單元包括：一調整子單元，用於根據所述特徵點和所述歐拉角對所述預設三維圖像進行調整，使得所述預設三維圖像與所述物件匹配；以及一提取子單元，用於提取所述預設三維圖像在匹配狀態下的深度資訊，得到所述預設三維圖像之所述深度資訊。
如請求項9之視頻處理裝置，其中所述調整子單元具體用於根據所述特徵點和所述歐拉角對所述預設三維圖像進行縮放、旋轉和/或位移，使得所述預設三維圖像與所述物件在大小、位置和角度上均匹配。
如請求項8之視頻處理裝置，其中所述預設遮擋獲取單元具體用於獲取所述預設遮擋模型；根據所述特徵點和所述歐拉角對所述預設遮擋模型進行調整，使得所述預設遮擋模型與所述物件能夠匹配；以及提取所述預設遮擋模型在匹配狀態下的深度資訊，得到所述預設遮擋模型之所述深度資訊。
如請求項8之視頻處理裝置，還包括：一確定單元，用於確定所述預設三維圖像的類型是否滿足預設條件，若是，則觸發所述遮擋獲取單元執行獲取所述預設遮擋模型之所述深度資訊的操作；若否，則觸發所述繪製單元執行基於所述預設三維圖像之所述深度資訊在所述物件上繪製所述預設三維圖像的操作。
一種儲存介質，儲存有多個指令，所述指令適於至少一處理器進行載入以執行請求項1至7中任一項之視頻處理方法。