TWI648985B

TWI648985B - 視訊成像方法及其電子裝置

Info

Publication number: TWI648985B
Application number: TW106102874A
Authority: TW
Inventors: 曹昌盛; 張森皓
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2019-01-21
Also published as: TW201828691A

Abstract

一種視訊成像方法及其電子裝置。所述方法用於具視訊功能的電子裝置，且所述方法包括：執行畫面擷取操作以取得畫面中的深度圖和對應於此深度圖的彩色圖；執行人物識別操作以根據所述深度圖的深度資訊與彩色圖判定畫面中前景的至少一人物區塊；執行遮罩產生操作以產生對應所述畫面的至少一人物區塊的人物遮罩；以及對所述人物遮罩進行遮罩優化操作，並根據所述遮罩優化操作的結果顯示視訊影像。

Description

視訊成像方法及其電子裝置

本發明是有關於一種視訊成像方法，且特別是有關於藉由具視訊功能的電子裝置來即時地優化視訊影像的方法，以及使用此方法的電子裝置。

隨著網路通訊技術的進步與視訊服務的出現和發展，視訊服務系統藉由通訊網路將多個位於異地的視訊會議終端連接起來，使得在地理上分散的用戶可以透過視訊會議，藉由圖形、聲音等多種方式進行訊息的雙向交流，並且支持使用者遠距離地進行即時訊息的交流與共用或開展協同工作的應用系統。

舉例而言，現今的視訊功能可隨時提供多個使用者透過例如是相機、攝影機、電腦、智慧型手機、視訊播放器等電子裝置進行同步連線，以讓使用者之間在進行語音通話時，更可以透過顯示裝置看到其它使用者的動態影像，從而增強交流的真實感以及臨場感。據此，具備視訊功能的電子裝置帶給人們很多便利性且在生活中佔有非常重要的需求。

然而，現今具備視訊功能的電子裝置僅能如實的呈現使用者的動態前景影像與使用者所在之環境的背景影像，因此，倘若視訊會議的場所環境不佳或是背景可能存在機密或個人隱私時，則使用者將受限於進行視訊會議的環境，而必須架設乾淨的背景(例如，綠幕)，或者另外尋找視訊會議的環境。

另一方面，對於當前的影像深度感測技術來說，使用具有雙鏡頭的影像擷取裝置來擷取對應至不同視角的影像是一種常見的方法，藉由對應至不同視角的影像可計算出目標物的三維深度資訊。然而，深度資訊有時不準確，此可能產生低品質的圖像。舉例來說，如果透過左眼圖像和右眼圖像來取得深度資訊，那麼深度資訊可能將具不連續深度值或模糊邊界；或者鏡頭產生位移或變形的狀況，導致預設的校正參數已經不再符合當前的應用狀況，影像擷取裝置也就無法獲取正確的深度資訊。因此，如何調整深度值，並優化深度圖的誤差問題以便提供賞心悅目的視覺效果，已成為本領域技術人員所致力的目標。

本發明提供一種視訊成像方法以及使用此方法的電子裝置，其能夠不受進行視訊會議之環境的限制，進而提供使用者能隨時隨地在任何地方使用視訊功能的服務。此外，所述視訊成像方法與電子裝置更有效地提升視訊成像的品質，以及節省位元率的傳輸。

本發明的一範例實施例提出一種視訊成像方法，用於具視訊功能的電子裝置。本資視訊成像方法包括：執行畫面擷取操作，以取得畫面中的深度圖和對應於此深度圖的彩色圖；執行人物識別操作，以根據深度圖的深度資訊與彩色圖判定畫面中前景的至少一人物區塊；執行遮罩產生操作，以產生對應所述畫面的至少一人物區塊的人物遮罩；以及對人物遮罩進行遮罩優化操作，並根據所述遮罩優化操作的結果顯示視訊影像。

在本發明的一實施例中，上述的深度資訊包括多個深度值，且所述人物識別操作的步驟更包括：偵測彩色圖中的至少一人物的臉部的區域；根據深度圖與背景遮罩獲得對應前景遮罩的區塊深度圖，並從所述區塊深度圖取得至少一區塊，其中至少一區塊中的每一個畫素的深度值與其相鄰的畫素的深度值之間的第一差值小於區塊門檻值，且每一個至少一區塊所包括的畫素的總數量大於區塊數量門檻值；以及在所述畫面中，若彩色圖中至少一人物的臉部的區域對應至區塊深度圖中所述至少一區塊的範圍內，判定所述至少一區塊為所述至少一人物區塊，其中所述至少一人物區塊的頭部區塊與身體區塊之間的比例小於人體比例門檻值。

在本發明的一實施例中，上述的根據深度圖與背景遮罩獲得對應前景遮罩的區塊深度圖的步驟包括：將深度圖中的最大深度值設為背景遮罩中每一個畫素的深度值；計算深度圖中每一個畫素的深度值與所述背景遮罩中每一個畫素的深度值之間的第二差值，並將具有第二差值大於前景門檻值的畫素作為所述前景遮罩的前景區域；以及結合所述前景遮罩與深度圖以產生所述區塊深度圖。

在本發明的一實施例中，上述的根據深度圖與彩色圖判定所述畫面中前景的至少一人物區塊之後的步驟更包括：執行追蹤操作，以根據畫面中的至少一人物區塊所產生的改變調整至少一人物區塊，其中所述追蹤操作包括：當至少一人物區塊中的第一人物區塊被一物體分為第二人物區塊與第三人物區塊時，若所述第二人物區塊的重心與所述第三人物區塊的重心分別與第一人物區塊的重心之間的重心距離小於重心距離門檻值，則將第二人物區塊與第三人物區塊視為第一人物區塊。當第一人物區塊中多個子區塊中的第一子區塊與第一子區塊以外的子區塊未相鄰時，將第一子區塊視為第四人物區塊，其中第一人物區塊不同於第四人物區塊。設定第一人物區塊的基準深度值，將第一人物區塊中的畫素的深度值大於所述基準深度值的畫素的深度值設為背景遮罩的深度值。當所述第一人物區塊產生移動且畫面產生第五人物區塊時，若所述第五人物區塊的顏色不包含膚色，將所述第五人物區塊中的畫素設為背景遮罩的深度值。

在本發明的一實施例中，上述的遮罩優化操作包括：從人物遮罩中取得至少一人物區塊的頭部區域，並產生對應所述頭部區域的頭部遮罩；將所述頭部遮罩中與頭部區域的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第一頭部畫素，以及將所述頭部遮罩中與第一頭部畫素的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第二頭部畫素以獲得更新的頭部遮罩；以及將彩色圖中至少一人物區塊的頭部範圍與更新的頭部遮罩中的頭部區域的第一聯集區域作為修復的頭部遮罩中的頭部區域。

在本發明的一實施例中，上述的遮罩優化操作包括：判斷人物遮罩中的至少一人物區塊中是否具有至少一人物空洞區域，且當至少一人物區塊中具有至少一人物空洞區域時，對至少一人物空洞區域中的每一個畫素執行修補人物空洞區域操作，其中所述至少一人物空洞區域中的畫素不具有深度值或者所述至少一人物空洞區域中的畫素的深度值為所述背景遮罩的深度值。其中所述修補人物空洞區域操作包括：當至少一人物空洞區域中相鄰於至少一人物空洞區域的輪廓的第一畫素與至少一人物區塊中相鄰於至少一人物空洞區域的輪廓的第二畫素之間的深度值距離大於深度距離門檻值時，以第二畫素取代第一畫素，其中第一畫素相鄰於第二畫素；以及當至少一人物空洞區域中相鄰於至少一人物空洞區域的輪廓的第一畫素與至少一人物區塊中相鄰於至少一人物空洞區域的輪廓的第二畫素之間的深度值距離非大於所述深度距離門檻值時，保留所述第一畫素。

在本發明的一實施例中，上述的遮罩優化操作更包括：建立動態背景遮罩，其中所述動態背景遮罩包括背景區域與動態背景區域；以及判斷人物遮罩中是否具有誤判為背景遮罩的區域，且當所述人物遮罩中具有誤判為背景遮罩的區域時，執行修補人物區域操作，其中誤判為背景遮罩的區域中的每一個畫素與至少一人物區塊中的畫素之間的深度值距離非大於深度距離門檻值。其中所述修補人物區域操作包括：在所述畫面中，若誤判為背景遮罩的區域對應至所述動態背景區域的範圍內，判定誤判為背景遮罩的區域屬於至少一人物區塊的一部分。

在本發明的一實施例中，上述的遮罩優化操作包括：對人物遮罩執行侵蝕操作，以將至少一人物區塊的邊緣的畫素設為背景遮罩的深度值；將至少一人物區塊的邊緣平滑化並去除至少一人物區塊的邊緣的雜訊後，重新執行侵蝕操作；以及根據至少一人物區塊的重心與電子裝置之間的距離決定侵蝕操作的執行次數。

在本發明的一實施例中，上述的遮罩優化操作包括：找出執行侵蝕操作之後的人物遮罩中的至少一人物區塊與執行侵蝕操作之前的人物遮罩中的至少一人物區塊之間的交集區域以外的至少一區域；判斷此交集區域以外的至少一區域是否大於一個誤判區域門檻值，並將大於所述誤判區域門檻值的至少一區域視為誤判為至少一人物區塊的區域；以及將誤判為至少一人物區塊的區域中的畫素設為背景遮罩的深度值。

在本發明的一實施例中，上述的視訊成像方法，更包括：每隔一預定時間，依序地執行畫面擷取操作、人物識別操作、遮罩產生操作與遮罩優化操作，以獲得多個優化遮罩；產生連續獲得的特定數量個的優化遮罩中的至少一人物區塊的第二聯集區域，並根據第二聯集區域與當前獲得的優化遮罩中的至少一人物區塊之間的第三聯集區域判定第三聯集區域中的殘影區域；以及將殘影區域中的畫素設為背景遮罩的深度值以獲得疊加優化遮罩。

在本發明的一實施例中，上述的對人物遮罩進行遮罩優化操作，並根據遮罩優化操作的結果顯示視訊影像的步驟包括：取得疊加優化遮罩中至少一人物區塊的邊緣區域，並產生對應至少一人物區塊的邊緣區域的邊緣資訊遮罩；將疊加優化遮罩與彩色圖結合以獲得第一彩色影像，其中第一彩色影像包括對應疊加優化遮罩中至少一人物區塊的彩色人物區域；對第一彩色影像進行模糊化操作以產生第二彩色影像，並根據邊緣資訊遮罩取出第二彩色影像中對應邊緣區域的彩色模糊邊緣影像；以及將彩色模糊邊緣影像套用至第一彩色影像中所述彩色人物區域的邊緣以獲得視訊影像。

本發明的另一範例實施例提供一種電子裝置，其包括儲存裝置、攝影裝置以及處理器。儲存裝置儲存多個模組；攝影裝置用以執行畫面擷取操作，以取得畫面中的深度圖和對應於深度圖的彩色圖；以及處理器耦接儲存裝置與攝影裝置，載入並執行儲存於儲存裝置中的模組。此些模組包括：人物識別模組、遮罩產生模組、遮罩優化模組以及視訊成像模組。人物識別模組用以執行人物識別操作，以根據深度圖的深度資訊與彩色圖判定畫面中前景的至少一人物區塊；遮罩產生模組用以執行遮罩產生操作，以產生對應所述畫面的至少一人物區塊的人物遮罩；遮罩優化模組用以對人物遮罩進行遮罩優化操作；以及視訊成像模組，用以根據遮罩優化操作的結果顯示視訊影像。

在本發明的一實施例中，上述的深度資訊包括多個深度值，且所述人物識別模組更用以：偵測彩色圖中的至少一人物的臉部的區域；根據深度圖與背景遮罩獲得對應前景遮罩的區塊深度圖，並從區塊深度圖取得至少一區塊，其中至少一區塊中的每一個畫素的深度值與其相鄰的畫素的深度值之間的第一差值小於一區塊門檻值，且每一至少一區塊所包括的畫素的總數量大於一區塊數量門檻值；以及在所述畫面中，若彩色圖中至少一人物的臉部的區域對應至區塊深度圖中至少一區塊的範圍內，判定至少一區塊為至少一人物區塊，其中至少一人物區塊的頭部區塊與身體區塊之間的比例小於人體比例門檻值。

在本發明的一實施例中，上述在根據深度圖與背景遮罩獲得對應前景遮罩的區塊深度圖的操作中，所述人物識別模組更用以：將深度圖中的最大深度值設為背景遮罩中每一個畫素的深度值；計算深度圖中每一個畫素的深度值與背景遮罩中每一個畫素的深度值之間的第二差值，並將具有第二差值大於前景門檻值的畫素作為前景遮罩的前景區域；以及結合前景遮罩與深度圖以產生區塊深度圖。

在本發明的一實施例中，上述在根據深度圖與彩色圖判定畫面中前景的至少一人物區塊之後，人物識別模組更用以執行追蹤操作，以根據所述畫面中的至少一人物區塊所產生的改變調整所述至少一人物區塊。所述追蹤操作包括：當至少一人物區塊中的第一人物區塊被物體分為第二人物區塊與第三人物區塊時，若第二人物區塊的重心與第三人物區塊的重心分別與第一人物區塊的重心之間的重心距離小於重心距離門檻值，則將第二人物區塊與第三人物區塊視為第一人物區塊。當第一人物區塊中多個子區塊中的第一子區塊與第一子區塊以外的子區塊未相鄰時，將第一子區塊視為第四人物區塊，其中第一人物區塊不同於第四人物區塊。設定第一人物區塊的基準深度值，將第一人物區塊中的畫素的深度值大於所述基準深度值的畫素的深度值設為所述背景遮罩的深度值。當第一人物區塊產生移動且畫面產生第五人物區塊時，若所述第五人物區塊的顏色不包含膚色，將所述第五人物區塊中的畫素設為背景遮罩的深度值。

在本發明的一實施例中，上述的遮罩優化模組更用以：從所述人物遮罩中取得至少一人物區塊的頭部區域，並產生對應所述頭部區域的頭部遮罩；將所述頭部遮罩中與所述頭部區域的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第一頭部畫素，以及將所述頭部遮罩中與第一頭部畫素的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第二頭部畫素以獲得更新的頭部遮罩；以及將所述彩色圖中至少一人物區塊的頭部範圍與所述更新的頭部遮罩中的頭部區域的第一聯集區域作為修復的頭部遮罩中的頭部區域。

在本發明的一實施例中，上述的遮罩優化模組更用以：判斷所述人物遮罩中的至少一人物區塊中是否具有至少一人物空洞區域，且當至少一人物區塊中具有至少一人物空洞區域時，對至少一人物空洞區域中的每一個畫素執行修補人物空洞區域操作，其中所述至少一人物空洞區域中的畫素不具有深度值或者至少一人物空洞區域中的畫素的深度值為所述背景遮罩的深度值。所述修補人物空洞區域操作包括：當至少一人物空洞區域中相鄰於至少一人物空洞區域的輪廓的第一畫素與至少一人物區塊中相鄰於至少一人物空洞區域的輪廓的第二畫素之間的深度值距離大於深度距離門檻值時，以所述第二畫素取代所述第一畫素，其中所述第一畫素相鄰於所述第二畫素；以及當至少一人物空洞區域中相鄰於至少一人物空洞區域的輪廓的第一畫素與至少一人物區塊中相鄰於至少一人物空洞區域的輪廓的第二畫素之間的深度值距離非大於深度距離門檻值時，保留所述第一畫素。

在本發明的一實施例中，上述的遮罩優化模組更用以：建立一動態背景遮罩，其中所述動態背景遮罩包括一背景區域與一動態背景區域；以及判斷所述人物遮罩中是否具有誤判為所述背景遮罩的區域，且當所述人物遮罩中具有誤判為背景遮罩的區域時，執行修補人物區域操作，其中誤判為背景遮罩的區域中的每一個畫素與至少一人物區塊中的畫素之間的深度值距離非大於深度距離門檻值。所述修補人物區域操作包括：在所述畫面中，若誤判為背景遮罩的區域對應至動態背景區域的範圍內，判定誤判為背景遮罩的區域屬於至少一人物區塊的一部分。

在本發明的一實施例中，上述的遮罩優化模組更用以：對所述人物遮罩執行一侵蝕操作，以將所述至少一人物區塊的邊緣的畫素設為所述背景遮罩的深度值；將所述至少一人物區塊的邊緣平滑化並去除所述至少一人物區塊的邊緣的雜訊後，重新執行所述侵蝕操作；以及根據所述至少一人物區塊的重心與所述電子裝置之間的距離決定所述侵蝕操作的執行次數。

在本發明的一實施例中，上述的遮罩優化模組更用以：找出執行所述侵蝕操作之後的人物遮罩中的至少一人物區塊與執行所述侵蝕操作之前的人物遮罩中的至少一人物區塊之間的交集區域以外的至少一區域，判斷所述交集區域以外的至少一區域是否大於誤判區域門檻值，並將大於所述誤判區域門檻值的至少一區域視為誤判為至少一人物區塊的區域；以及將誤判為至少一人物區塊的區域中的畫素設為背景遮罩的深度值。

在本發明的一實施例中，上述的處理器更用以每隔一預定時間，使攝影裝置、人物識別模組、遮罩產生模組與遮罩優化模組依序地執行所述畫面擷取操作、所述人物識別操作、所述遮罩產生操作與所述遮罩優化操作，以獲得多個優化遮罩。所述遮罩優化模組更用以產生連續獲得的特定數量個的優化遮罩中的至少一人物區塊的第二聯集區域，並根據第二聯集區域與當前獲得的優化遮罩中的至少一人物區塊之間的第三聯集區域判定第三聯集區域中的殘影區域；以及將殘影區域中的畫素設為背景遮罩的深度值以獲得疊加優化遮罩。

在本發明的一實施例中，上述的遮罩優化模組更用以：取得所述疊加優化遮罩中至少一人物區塊的邊緣區域，並產生對應至少一人物區塊的邊緣區域的邊緣資訊遮罩；將所述疊加優化遮罩與所述彩色圖結合以獲得第一彩色影像，其中第一彩色影像包括對應所述疊加優化遮罩中至少一人物區塊的彩色人物區域；對所述第一彩色影像進行模糊化操作以產生第二彩色影像，並根據所述邊緣資訊遮罩取出第二彩色影像中對應所述邊緣區域的彩色模糊邊緣影像；以及將所述彩色模糊邊緣影像套用至第一彩色影像中所述彩色人物區域的邊緣以獲得所述視訊影像。

基於上述，本發明之範例實施例所提出的視訊成像方法及使用此方法的電子裝置能夠在視訊顯示裝置上即時地將優化後之使用者的動態前景影像呈現於乾淨的靜態背景影像上，進而提升視訊影像的成像品質，並提供使用者更方便的操作體驗。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100‧‧‧電子裝置

102‧‧‧儲存裝置

104‧‧‧處理器

106‧‧‧攝影裝置

106a‧‧‧紅外線投光器

106b‧‧‧彩色攝影機

106c‧‧‧紅外線攝影機

S201、S203、S205、S207‧‧‧視訊成像方法的步驟

302‧‧‧彩色圖

304‧‧‧深度圖

402‧‧‧前景遮罩

404‧‧‧區塊深度圖

410‧‧‧前景區域

420‧‧‧非前景區域

450‧‧‧背景區域

blob430、blob440‧‧‧區塊

460、470‧‧‧臉部的區域

460’、470’‧‧‧區域

blob480、blob490、blob610、blob620、blob1002、blob1102、blob1210、blob1220、blob1310、blob1320、blob1330、blob1340、blob1410、blob1420‧‧‧人物區塊

492‧‧‧頭部區塊

494‧‧‧身體區塊

blob502‧‧‧第一人物區塊

blob504‧‧‧第二人物區塊

blob506‧‧‧第三人物區塊

blob511‧‧‧第一子區塊、第四人物區塊

user500、user510、user520‧‧‧使用者

blob511~blob514‧‧‧子區塊

blob521~blob524‧‧‧椅子之區塊

600、1200、1202、1204‧‧‧人物遮罩

630‧‧‧背景區域

S207a‧‧‧修補頭部空洞的步驟

S207b‧‧‧修補身體空洞的步驟

S207c‧‧‧擷取人物輪廓的步驟

S207d‧‧‧將誤判為人物的區域補回為背景的步驟

S207e‧‧‧取得疊加的優化遮罩並消除多餘的區塊的步驟

S207f‧‧‧優化最終成像的步驟

810、820、830‧‧‧頭部遮罩

812、822‧‧‧頭部區域

802‧‧‧頭部範圍

832‧‧‧聯集區域

840‧‧‧更新的頭部遮罩

842‧‧‧更新的頭部區域

850‧‧‧修復的頭部遮罩

852‧‧‧修復的頭部區域

900‧‧‧空洞區域

900’、900”‧‧‧更新區域

1010‧‧‧人物空洞區域

1011‧‧‧輪廓

1100‧‧‧動態背景遮罩

1110‧‧‧誤判為背景遮罩的區域

1300‧‧‧多個優化遮罩

1302‧‧‧優化遮罩

1304、1306、1400‧‧‧疊加優化遮罩

1308‧‧‧殘影區域

1402、1406‧‧‧邊緣資訊遮罩

1410、1420、1410’、1420’‧‧‧邊緣區域

1430‧‧‧第一彩色影像

1440‧‧‧第二彩色影像

1442‧‧‧彩色模糊邊緣影像

1450‧‧‧視訊影像

圖1A是依照本發明一範例實施例所繪示的電子裝置的方塊圖。

圖1B是依照本發明一範例實施例所繪示的電子裝置的示意圖。

圖2是依照本發明一實施例所繪示的視訊成像方法流程圖。

圖3A是依照本發明一範例實施例所繪示的彩色圖的示意圖。

圖3B是依照本發明一範例實施例所繪示的深度圖的示意圖。

圖4A~圖4D是依照本發明一範例實施例所繪示的取得至少一人物區塊的示意圖。

圖5A~圖5C是依照本發明一範例實施例所繪示的追蹤操作的示意圖。

圖6是依照本發明一範例實施例所繪示的遮罩產生操作的示意圖。

圖7是依照本發明一範例實施例所繪示的遮罩優化操作的流程圖。

圖8A~圖8D與圖9A~圖9B是依照本發明一範例實施例所繪示的修補頭部空洞的示意圖。

圖10是依照本發明一範例實施例所繪示的修補身體空洞的示意圖。

圖11A~圖11C是依照本發明另一範例實施例所繪示的修補身體空洞的示意圖。

圖12是依照本發明一範例實施例所繪示的擷取人物輪廓的示意圖。

圖13A~圖13B是依照本發明一範例實施例所繪示的取得疊加的優化遮罩並消除多餘的區塊的示意圖。

圖14A~圖14B是依照本發明一範例實施例所繪示的優化最終成像的示意圖。

為了能夠提供使用者能隨時隨地在任何地方使用視訊服務，以及提升視訊的成像品質，本發明藉由利用具視訊功能的電子裝置所擷取的深度圖與彩色圖來獲得畫面中正確的使用者區塊，由此在顯示裝置上即時地呈現優化後的使用者的動態前景影像與靜態背景影像。基此，使得使用者不會受進行視訊會議之環境的限制，不僅有效地提升視訊影像的成像品質，更減少網路資料量的傳輸。

圖1A是依照本發明一範例實施例所繪示的電子裝置的方塊圖。圖1B是依照本發明一範例實施例所繪示的電子裝置的示意圖。

請參照圖1A，電子裝置100包括儲存裝置102、處理器104以及攝影裝置106。在本範例實施例中，電子裝置100可以是相機、攝影機、電腦、智慧型手機、平板電腦等具有視訊功能的電子裝置。具體而言，請參照圖1B，當電子裝置100為相機或攝影機時，電子裝置100可與一顯示裝置(未繪示)連接，且透過將電子裝置100架設於顯示裝置上或放置於可偵測到使用者的平面上，即可利用電子裝置100的攝影裝置106來擷取使用者的影像以產生視訊影像。特別是，在本發明範例實施例中，電子裝置100所包括的攝影裝置106例如為紅外線偵測式的深度攝影機，其可包括紅外線投光器106a、彩色攝影機106b以及紅外線攝影機106c。此外，所述顯示裝置例如可同時顯示視訊會議中對方的畫面與使用者自身的畫面。另一方面，當電子裝置100為本身為具有顯示螢幕之電腦、智慧型手機或平板電腦時，透過使用者手持電子裝置100或將電子裝置100架設於可偵測到使用者之位置，亦可利用電子裝置100中內建的攝影裝置106來擷取使用者的影像以產生視訊影像。

儲存裝置102可以是任何型態的固定式或可移動式隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、固態硬碟(Solid State Drive，SSD)或類似元件或上述元件的組合。在本範例實施例中，儲存裝置102用以儲存人物識別模組110、遮罩產生模組120、遮罩優化模組130以及視訊成像模組140等軟體程式。

處理器104係耦接至儲存裝置102。處理器104可以是具有單核心或多核心的中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。在本實施例中，處理器104用以存取並執行上述儲存裝置102中所記錄的模組，藉以實現本發明實施例的視訊成像方法。

圖2是依照本發明一實施例所繪示的視訊成像方法流程圖。圖3A是依照本發明一範例實施例所繪示的彩色圖的示意圖。圖3B是依照本發明一範例實施例所繪示的深度圖的示意圖。請同時參照圖1A、圖1B、圖2、圖3A與圖3B，本實施例的方法適用於上述的電子裝置100，以下即搭配圖1A中電子裝置100的各項元件，說明本實施例方法的詳細流程。

在步驟S201中，攝影裝置106會執行畫面擷取操作以取得畫面中的深度圖304(請見圖3B中的深度圖304)和對應於此深度圖304的彩色圖302(請見圖3A中的彩色圖302)。例如，彩色攝影機106b用以擷取如圖3A所示的彩色的二維影像(即，彩色圖302)，而紅外線攝影機106c以及紅外線投光器106a則用以取得影像的深度資訊，以獲得如圖3B所示的深度圖304。具體而言，攝影裝置106可透過紅外線投光器106a發出紅外線光源，並透過紅外線光源碰到拍攝物件反射的時間，藉以判斷使用者與紅外線攝影機之間的距離，從而將此距離提供給處理器104並作為深度圖304的深度資訊。換言之，深度圖304中對應每一個畫素的深度資訊即為使用者與紅外線攝影機之間的距離(即，深度值)。並且，攝影裝置106會將深度圖304與彩色圖302傳送至處理器104。

接著，處理器104會將從攝影裝置106所接收的深度圖 304與彩色圖302傳送至人物識別模組110。並且，在步驟S203中，人物識別模組110會執行一人物識別操作，以根據深度圖的深度資訊與彩色圖判定畫面中前景的至少一人物區塊。具體而言，此步驟的目的在於，即時地識別出畫面中屬於使用者的正確區塊，由此可僅傳送使用者因移動或運動所產生的差異至視訊會議中對方的顯示裝置，並將對應使用者區塊的使用者視訊影像成像於固定的靜態背景上。例如，所述靜態背景為一素色(例如，白色)的影像或儲存裝置102中所儲存的照片(例如，風景照或佈景圖)，而使用者可預先設定或選擇所欲呈現的背景影像。

請參照圖4A~圖4D，更詳細地說，在人物識別操作中，人物識別模組110會建立一個背景遮罩，並將深度圖304中的最大深度值設為背景遮罩中每一個畫素的深度值。例如，人物識別模組110會每隔一段時間偵測深度圖304中的最大深度值以持續地更新背景遮罩中每一個畫素的深度值。接著，人物識別模組110會計算深度圖304中每一個畫素的深度值與背景遮罩中每一個畫素的深度值之間的差值(亦稱為第二差值)，並判斷此些第二差值是否大於一前景門檻值(例如，4公分)，以將具有第二差值大於前景門檻值的畫素作為前景遮罩402的前景區域410。例如，深度圖304中對應使用者區域的一個畫素的深度值為“1”公尺，而背景遮罩中每一個畫素的深度值為“3”公尺，則人物識別模組110會取得兩者相減後的絕對值(即，“2”公尺)，並判斷“2”公尺大於於上述前景門檻值，進而將此畫素作為前景遮罩402的前景區域410。如圖4A所示，前景遮罩402中前景區域410的畫素值被設為“255”，而前景遮罩402中非前景區域420的畫素值被設為“0”。

請參照圖4B與圖4C，人物識別模組110會結合前景遮罩402與深度圖304以產生區塊深度圖404(如圖4B所示)，並且從區塊深度圖404取得至少一區塊(blob)(例如，圖4C中的區塊blob430與區塊blob440)。具體而言，人物識別模組110取得的區塊blob430與區塊blob440的依據為判斷區塊深度圖404中每一個畫素的深度值與其相鄰的畫素的深度值之間的差值(亦稱為第一差值)是否小於區塊門檻值(例如，10公分)，當一個畫素的深度值與其相鄰的畫素的深度值之間的第一差值小於區塊門檻值，則人物識別模組110會將其視為包含在一個區域中。在此，人物識別模組110例如是採用8鄰域運算，即，人物識別模組110是計算區塊深度圖404中一個畫素的深度值與其在8個方向上相鄰的畫素的深度值之間的差值。

更詳細地說，區塊深度圖404中每一個畫素皆具有其在空間中的座標(x,y,z)，其中x與y可表示一個畫素在區塊深度圖404中的平面座標位置，而z則表示一個畫素在區塊深度圖404中的深度值。假設人物識別模組110目前所識別的畫素具有座標(x₀,y₀,z₀)，而與其相鄰的一個畫素具有座標(x₁,y₁,z₁)，則人物識別模組110會分別計算此兩個畫素在x方向、y方向與z方向上的距離差值，即，x₀與x₁的差值，y₀與y₁的差值以及z₀與z₁的差值，並判斷x₀與x₁的差值，y₀與y₁的差值以及z₀與z₁的差值是否皆小於上述區塊門檻值(例如，10公分)。類似地，人物識別模組110會以上述方式判斷座標(x₀,y₀,z₀)與另外7個方向上相鄰的座標(x₂,y₂,z₂)~座標(x₈,y₈,z₈)在x方向、y方向與z方向上的距離差值是否亦分別小於上述區塊門檻值(例如，10公分)。當人物識別模組110目前所識別的具有座標(x₀,y₀,z₀)的畫素與其在8個方向上相鄰的畫素的之間的空間距離差值皆小於上述區塊門檻值(例如，10公分)時，物識別模組110才會將具有座標(x₀,y₀,z₀)的畫素視為屬於一個區域的畫素。並且，當人物識別模組110對區塊深度圖404中每一個畫素進行識別後，即根據每一個畫素的識別結果，進而在區塊深度圖404中歸納出至少一個區域。

需注意的是，上述人物識別模組110比較兩個相鄰畫素在x方向、y方向與z方向上的距離差值是否小於區塊門檻值的操作中，兩個相鄰畫素在x方向、y方向與z方向上的距離差值皆是與相同的區塊門檻值(即，10公分)進行比較，然而，本發明並不限於此。例如，在另一範例實施例中，可設有x方向區塊門檻值、y方向區塊門檻值與z方向區塊門檻值，且三者的值可不相同，因此，在人物識別模組110比較兩個相鄰畫素在x方向、y方向與z方向上的距離差值是否小於區塊門檻值的操作中，人物識別模組110會分別比較兩個相鄰畫素在x方向、y方向與z方向上的距離差值是否各自小於其所對應的區塊門檻值(即，x方向區塊門檻值、y方向區塊門檻值與z方向區塊門檻值)。

特別是，人物識別模組110會進一步地判斷每一個區塊所包括的畫素的總數量是否大於區塊數量門檻值，以將過小的區塊或是雜訊移除。例如，某一個區塊所包括的畫素的總數量非大於區塊數量門檻值時，則判斷其為過小的區塊。在本發明範例實施例中，所述區塊數量門檻值例如是根據深度圖404(如圖4B所示)的大小所設定的。舉例而言，區塊數量門檻值的計算公式為：深度圖的長度*深度圖的寬度*0.001，在此，假設深度圖404的長度為640個畫素，而寬度為320個畫素，則區塊數量門檻值為205(將計算結果四捨五入取整數後)。也就是說，人物識別模組110所歸納出的區域所包括之畫素的總數量若未大於205，則會被移除。此外，人物識別模組110移除過小的區塊的操作是將此些過小的區塊以2：8的比例關係更新至區塊深度圖404的背景區域450中。更詳細地說，假設過小的區塊中的一個畫素的深度值為“1”公尺，而背景遮罩中每一個畫素的深度值為“3”公尺，人物識別模組110會將“1”公尺乘以0.2得到“0.2”，並將“3”公尺乘以0.8得到“2.4”，最後以“0.2”加上“2.4”所獲得的“2.6”作為此一個畫素的更新深度值，由此更新後的此一個畫素會被視為屬於背景區域450。並且，類似地，過小的區塊中的每一個畫素皆會被更新至背景區域450。

請參照圖4D，為了識別出正確的使用者區域，人物識別模組110還會偵測彩色圖302中的至少一人物的臉部的區域(例如，臉部的區域460與臉部的區域470)，例如，人物識別模組110 是每隔一段時間(例如，1秒)偵測彩色圖302中的至少一人物的臉部的區域。接著，在畫面中，若彩色圖302中之臉部的區域460與臉部的區域470分別對應至區塊深度圖404中區塊blob430與區塊blob440的範圍內，例如，臉部的區域460對應至區塊深度圖404中區塊blob430中的區域460’，而臉部的區域470對應至區塊深度圖404中區塊blob440中的區域470’；則人物識別模組110會判定區塊blob430與區塊blob440為人物區塊(即，正確的使用者區域)，並進一步根據彩色圖302將區塊深度圖404中的區塊blob430與區塊blob440調整為人物區塊blob480與人物區塊blob490。此外，人物識別模組110會判斷所取得的人物區塊blob480與人物區塊blob490中頭部區塊與身體區塊之間的比例是否小於人體比例門檻值。例如，人物區塊blob490中頭部區塊492與身體區塊494之間的比例小於人體比例門檻值，則人物識別模組110會將人物區塊blob490視為正確的使用者區域，類似地，人物區塊blob480亦會被視為正確的使用者區域。如此一來，可避免在對彩色圖302進行人臉偵測時所產生的誤判。

由於在視訊會議的過程中，可能會陸續有其他使用者進入攝影裝置106所擷取的畫面中，因此，人物識別模組110在取得正確的使用者區域(例如，人物區塊480與人物區塊490)後，仍會持續地判斷是否有新的使用者進入畫面中。舉例而言，當人物識別模組110在畫面中偵測到新的使用者，則人物識別模組110會判斷此新的使用者的重心是否與畫面中現有的所有使用者(例如，人物區塊blob480與人物區塊blob490)的重心之間的距離是否大於一門檻值(例如，500公厘)。例如，當所述距離大於500公厘時，人物識別模組110會將新的使用者視為區塊深度圖404中的一個新的人物區塊。反之，當新的使用者的重心與人物區塊blob480的重心之間的距離非大於500公厘時，人物識別模組110會判斷此畫面中的變化為人物區塊blob480移動至所偵測到之新的使用者的所在位置，亦即，人物識別模組110會將所偵測到之新的使用者仍視為人物區塊blob480。

如上所述，在視訊會議的過程中，可能會陸續有其他使用者進入攝影裝置106所擷取的畫面中或現有的使用者產生移動，因而造成人物識別模組110所執行之運算函數產生誤判。據此，在本發明範例實施例中，人物識別模組110會執行一連串的追蹤操作以避免所述誤判的產生，進而根據畫面中的至少一人物區塊(例如，人物區塊480與人物區塊490)所產生的改變調整至少一人物區塊，以確保至少一人物區塊對應至畫面中正確的使用者。

請參照圖5A，在一範例實施例中，當區塊深度圖404中至少一人物區塊中的人物區塊blob502(亦稱為第一人物區塊blob502)被物體(例如，當對應人物區塊blob502之使用者的手臂彎曲垂下時)分為人物區塊blob504(亦稱為第二人物區塊blob504)與人物區塊blob506(亦稱為第三人物區塊blob506)時，現有的運算函數會將第三人物區塊blob506視為新的人物區塊，並在判斷其在畫面中的位置與舊有的人物區塊blob502重疊後，進而將第三人物區塊blob506排除。在此情況下，將導致視訊成像中會缺少使用者手臂以下的身體部位。據此，在本發明範例實施例中，人物識別模組110會判斷第二人物區塊blob504的重心與第三人物區塊blob506的重心分別與第一人物區塊blob502的重心之間的重心距離小於重心距離門檻值，進而將第二人物區塊blob504與第三人物區塊blob506視為皆屬於第一人物區塊blob502的區塊。類似地，手臂區域所對應的人物區塊blob508與第一人物區塊blob502的重心之間的重心距離亦小於重心距離門檻值。換言之，在本發明範例實施例中，第二人物區塊blob504、第三人物區塊blob506與手臂區域所對應的人物區塊blob508仍會被視為同一個使用者user500的人物區塊。

請參照圖5B，在另一情況中，畫面中的兩個使用者可能處於互相重疊的狀態，倘若兩個使用者互相分離時，則現有的運算函數仍會將分開的兩個使用者視為同一個使用者user500。有鑑於此，在本發明範例實施例中，假設第一人物區塊blob502原先包括多個子區塊blob511~blob514，當第一人物區塊blob502中多個子區塊中的第一子區塊blob511與第一子區塊511以外的子區塊512blob~514blob未相鄰時，人物識別模組110會將第一子區塊blob511視為另一個人物區塊blob511(亦稱為第四人物區塊blob511)。換言之，人物識別模組110會識別第一人物區塊502對應至使用者user510，而第四人物區塊blob511對應至使用者user520，且使用者user510不同於使用者user520，由此可避免發生兩個不同的使用者由重疊狀態互相分離時仍被視為同一個使用者的誤判行為。在此，人物識別模組110例如是透過每一個子區塊的相鄰資訊來判斷多個子區塊是否相鄰在一起。例如，人物識別模組110是查找每一子區塊之邊緣的相鄰資訊，進而將未與其他子區塊相鄰的區塊視為獨立的使用者。

請參照圖5C，在又一情況中，由於在會議進行的過程中，使用者可能是坐在椅子上且背部非常貼近椅子，因而造成人物識別模組110將椅子的區域也視為屬於使用者的第一人物區塊blob502。據此，在本發明範例實施例中，人物識別模組110會設定第一人物區塊blob502的基準深度值，並將第一人物區塊blob502中的畫素的深度值大於基準深度值的畫素設為背景遮罩的深度值，以避免畫面中非人物之物體(例如，椅子)被成像於視訊影像中。具體而言，假設對應椅子之區塊blob521~blob524中每一畫素的深度值約為170公分且椅子之區塊blob521~blob524的畫素約各為5000個，而對應使用者之第一人物區塊blob502的重心的深度值約為150公分且第一人物區塊blob502的畫素的總數量約為7000個，此外，第一人物區塊blob502中的最大深度值為152公分。接著，人物識別模組110會從第一人物區塊blob502、對應椅子之區塊blob521~blob524中找出面積最大的區塊，由於第一人物區塊blob502的畫素數量(即，7000個)比椅子區塊blob521~blob524 的畫素數量(即，5000個)大，，因此，第一人物區塊blob502會被視為面積最大的區塊。之後，人物識別模組110會接續地進行設定此第一人物區塊blob502的基準深度值以排除椅子出現於視訊影像中的操作。

詳言之，人物識別模組110會計算第一人物區塊blob502的重心的深度值(即，150公分)與第一人物區塊blob502中的最大深度值(即，152公分)的平均值(即，151公分)，並將此平均值(即，151公分)加上另一門檻值(例如，15公分)後而得到166公分。接著，人物識別模組110會將此166公分設定為第一人物區塊blob502的基準深度值。據此，由於對應椅子之區塊blob521~blob524中每一畫素的深度值約為170公分且170公分大於所述基準深度值(即，166公分)，因此，人物識別模組110會將被誤判為屬於使用者的第一人物區塊blob502的區塊blob521~blob524的畫素的深度值設為背景遮罩的深度值(例如，3公尺)，由此即可排除椅子出現於視訊影像中。

此外，在又一情況中，使用者可能原本是坐在椅子上且背部遮住了椅子的範圍，倘若，使用者突然起身並離開椅子，則現有的運算函數會因偵測到椅子的區域，而將椅子視為一個新的使用者並產生其對應的人物區塊(亦稱為第五人物區塊)。然而，椅子或是其他物體並非為人物，據此，當第一人物區塊blob502產生移動且畫面產生第五人物區塊時，人物識別模組110會判斷此第五人物區塊的顏色是否包含膚色，若第五人物區塊的顏色不包含膚色，則將第五人物區塊中的畫素設為背景遮罩的深度值(例如，3公尺)。換言之，人物識別模組110透過判斷新產生的人物區塊是否包含膚色，可避免非為人物之物體被視為使用者。

上述圖4A~圖4D與圖5A~圖5C及其對應的段落說明了在步驟S203中，人物識別模組110如何藉由深度圖與彩色圖來獲得畫面中正確的人物區塊與背景區塊，並持續追蹤畫面中人物區塊的改變以確保人物區塊對應至正確的使用者。接著，請再參照圖2，在步驟S205中，遮罩產生模組120會執行遮罩產生操作，以產生經由步驟S203所獲得的至少一人物區塊的人物遮罩。舉例而言，請參照圖6，遮罩產生模組120會建立一個人物遮罩600，並將區塊深度圖404中的人物區塊blob480與人物區塊blob490所包含的畫素的值設為“255”之後，輸出到人物遮罩600上對應的位置。例如，人物遮罩600中的人物區塊blob610與人物區塊blob620中的畫素的值皆為“255”，而其餘的部分(例如背景區域630)的畫素的值皆為“0”。

之後，在步驟S207中，遮罩優化模組130會對人物遮罩600進行一遮罩優化操作，以使得視訊影像中之人物的邊緣不會出現白邊亦不會過於銳利，進而提升成像品質。請參照圖7，步驟 S207中的遮罩優化操作包括修補頭部空洞的步驟S207a、修補身體空洞的步驟S207b、擷取人物輪廓的步驟S207c、將誤判為人物的區域補回為背景的步驟S207d、取得疊加的優化遮罩並消除多餘的區塊的步驟S207e以及優化最終成像的步驟S207f。在本範例實施例中，遮罩優化模組130會執行上述遮罩優化操作中的所有步驟S207a~S207f，然而，本發明並不限於此。例如，在另一範例實施例中，遮罩優化模組130可僅執行遮罩優化操作中步驟S207a~S207f的至少其中之一。

具體而言，深度資訊是透過紅外線光源碰到拍攝物件反射的時間所計算之使用者與紅外線攝影機之間的距離，但在某些情況下，例如，紅外線光源碰到黑色物體等不容易反光之物體(例如，頭髮)時，此些物體將無法反射紅外線，進而導致部分的頭髮處沒有深度資訊，且使得視訊成像中出現頭部缺角的影像。有鑑於此，在本發明範例實施例中，遮罩優化模組130會對此缺角進行修補頭部空洞的操作。

請先參照圖8A~圖8D與圖9A~圖9B，在修補頭部空洞的步驟S207a中，遮罩優化模組130會從人物遮罩600(如圖6所示)中取得人物區塊blob620的頭部區域812，並產生對應此頭部區域812的頭部遮罩810(如圖8A所示)。遮罩優化模組130還會對此頭部遮罩810中的頭部區域812進行侵蝕操作以產生頭部遮罩820中的頭部區域822，其中頭部遮罩820中的頭部區域822小於頭部遮罩810中的頭部區域812(如圖8A所示)。接著，遮罩優化模組130會偵測彩色圖302中對應人物區塊blob620的頭部範圍802，並產生具有頭部範圍802與頭部區域822之聯集區域832的頭部遮罩830(如圖8B所示)。

圖9A所示的空洞區域900為圖8A中頭部遮罩810的空洞區域900的放大示意圖，其中「MA」表示具有深度值的畫素，而「0」表示不具有深度值的畫素。遮罩優化模組130會將頭部遮罩810中與空洞區域900的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第一頭部畫素，例如「01」，進而獲得更新區域900’(如圖9A所示)。接著，遮罩優化模組130會將更新區域900’中與第一頭部畫素的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第二頭部畫素，例如「02」，以獲得更新區域900”(如圖9B所示)。此後，遮罩優化模組130會將更新區域900”與頭部遮罩810中的頭部區域812進行聯集以產生更新的頭部遮罩840中的更新頭部區域842(如圖8C所示)。最後，遮罩優化模組130會將頭部遮罩840中的更新頭部區域842與頭部遮罩830中的頭部區域832的聯集區域(亦稱為第一聯集區域)作為修復的頭部遮罩850中修復的頭部區域852(如圖8D所示)。如此一來，可避免視訊成像中出現頭部缺角的影像。

圖10是依照本發明一範例實施例所繪示的修補身體空洞的示意圖。圖11A~圖11C是依照本發明另一範例實施例所繪示的修補身體空洞的示意圖。

請參照圖10，在某些情況下，若使用者一開始即位於攝影裝置106所擷取的畫面中，將可能導致人物識別模組110所取得的對應使用者之人物區塊的深度值與背景的深度值差距很小，進而導致人物區塊blob1002中出現空洞1010(亦稱為人物空洞區域1010)。或者，請參照圖11A，由於使用者之人體角度的問題，亦可能導致人物區塊blob1102中的部分區域1110(亦稱為誤判為背景遮罩的區域1110)被誤判為背景區域。據此，在本發明範例實施例中，修補身體空洞的步驟S207b包括修補人物空洞區域操作與修補人物區域操作，遮罩優化模組130會執行此些操作以避免上述情況發生。

請再參照圖10，遮罩優化模組130會判斷人物遮罩600中的人物區塊blob1002中是否具有至少一人物空洞區域，且當人物區塊blob1002中具有人物空洞區域1010時，遮罩優化模組130會對此人物空洞區域1010中的每一個畫素執行修補人物空洞區域操作。在此，所述人物空洞區域1010中的畫素不具有深度值或者人物空洞區域1010中的畫素的深度值為背景遮罩的深度值。詳言之，遮罩優化模組130會判斷人物空洞區域1010中相鄰於人物空洞區域1010的輪廓1011的畫素(亦稱為第一畫素)與人物區塊blob1002中相鄰於人物空洞區域1010的輪廓1011的畫素(亦稱為第二畫素)之間的深度值距離是否大於深度距離門檻值(例如，10公分)。更清楚地說，所述第一畫素表示相鄰於輪廓1011內圈的畫素(屬於人物空洞區域1010中的畫素)，而所述第二畫素表示相鄰於輪廓1011外圈的畫素(屬於人物區塊blob1002中的畫素)。當隔著輪廓1011相鄰的一個第一畫素與一個第二畫素之間的深度值距離大於深度距離門檻值時，遮罩優化模組130會以第二畫素取代第一畫素。反之，當隔著輪廓1011相鄰的一個第一畫素與一個第二畫素之間的深度值距離非大於深度距離門檻值時，遮罩優化模組130會保留第一畫素。換言之，當多個第一畫素(屬於人物空洞區域1010中的畫素)與其相鄰的多個第二畫素(屬於人物區塊blob1002中的畫素)之間的深度值距離大於深度距離門檻值時，遮罩優化模組130會執行修補人物空洞區域操作值到人物空洞區域1010中的畫素皆被修補成屬於人物區塊blob1002中的畫素為止。

需注意的是，在遮罩優化模組130判斷人物空洞區域1010中相鄰於人物空洞區域1010的輪廓1011的第一畫素與人物區塊blob1002中相鄰於人物空洞區域1010的輪廓1011的第二畫素之間的深度值距離是否大於深度距離門檻值的操作中，由於人物遮罩600中的每一個畫素亦具有其在空間中的座標(x,y,z)，例如，遮罩優化模組130當前所判斷的第一畫素具有座標(x_a,y_a,z_a)，而第二畫素具有座標(x_b,y_b,z_b)。因此，遮罩優化模組130會分別計算此兩個畫素在x方向、y方向與z方向上的距離差值，即，x_a與x_b的差值，y_a與y_b的差值以及z_a與z_b的差值，並分別判斷x_a與x_b的差值，y_a與y_b的差值以及z_a與z_b的差值是否皆大於上述深度距離門檻值(例如，10公分)。值得一提的是，在另一範例實施例中，可設有x方向深度距離門檻值、y方向深度距離門檻值與z方向深度距離門檻值，且三者的值可不相同，因此，在遮罩優化模組130比較兩個相鄰畫素在x方向、y方向與z方向上的距離差值是否大於深度距離門檻值的操作中，遮罩優化模組130會分別比較兩個相鄰畫素在x方向、y方向與z方向上的距離差值是否各自大於其所對應的深度距離門檻值(即，x方向深度距離門檻值、y方向深度距離門檻值與z方向深度距離門檻值)。

請再照圖11A~圖11C，遮罩優化模組130會建立一動態背景遮罩1100，並將動態背景遮罩1100中每一個畫素的值初始地設為“255”(如圖11B所示)。接著，遮罩優化模組130會持續判斷背景是否產生變化，具體而言，遮罩優化模組130會取得當前的深度圖304與攝影裝置106所擷取的前一張深度圖，並將兩者中相對應之位置的畫素的深度值相減以獲得兩者中相對應之位置的畫素之間的多個差值。之後，遮罩優化模組130會將所述差值中大於一門檻值(例如，2公分)的畫素值設為“0”，並將此些畫素的畫素值與位置輸出至動態背景遮罩1100所對應的位置上。如圖11C所示，動態背景遮罩1100包括畫素值為“255”的背景區域(即，白色的區域)與畫素值為“0”的動態背景區域(即，黑色的區域)。

詳言之，遮罩優化模組130是判斷每一個畫素與至少一人物區塊中的畫素之間的深度值距離是否非大於深度距離門檻值，並將深度值距離非大於深度距離門檻值的畫素所組成的區域視為誤判為背景遮罩的區域。在此，假設遮罩優化模組130判定人物遮罩600中具有誤判為背景遮罩的區域1110時，遮罩優化模組130會進一步判斷誤判為背景遮罩的區域1110是否對應至動態背景遮罩1100的動態背景區域的範圍內。若誤判為背景遮罩的區域1110對應至動態背景區域的範圍內，則遮罩優化模組130會判定誤判為背景遮罩的區域1110屬於人物區塊blob1002的一部分。

在本發明範例實施例中，為了使人物遮罩600的邊緣能讓視訊影像中之人物的邊緣不會出現白邊亦不會過於不自然，遮罩優化模組130會執行遮罩優化操作中擷取人物輪廓的步驟S207c。遮罩優化模組130會對人物遮罩600執行一侵蝕操作，以將人物區塊blob610與人物區塊blob620的邊緣內第一圈的畫素設為背景遮罩的深度值。換言之，遮罩優化模組130是將人物區塊blob610與人物區塊blob620的範圍往內縮以獲得人物遮罩1200中的人物區塊blob1210與人物區塊blob1220。

由於深度圖304中可能會存在一些雜訊，因此，遮罩優化模組130會在執行上述侵蝕操作後，進一步地對人物遮罩1200中的人物區塊blob1210與人物區塊blob1220執行一平滑濾波(Guided Filter)操作，以產生人物遮罩1202。其中人物遮罩1202中的人物區塊blob1210與人物區塊blob1220的邊緣相較於人物遮罩1200中的人物區塊blob1210與人物區塊blob1220的邊緣來的平滑。接著，遮罩優化模組130會再對人物遮罩1202執行一加權中值濾波(Weighted Median Filter)操作，以產生人物遮罩1204。其中人物遮罩1204中的人物區塊blob1210與人物區塊blob1220的邊緣雜訊相較於人物遮罩1202中的人物區塊blob1210與人物區塊blob1220的邊緣雜訊來的少，且保留了較完整的邊緣。

特別是，在本發明範例實施例中，在遮罩優化模組130將人物區塊blob1210與人物區塊blob1220的邊緣平滑化並去除人物區塊blob1210與人物區塊blob1220的邊緣的雜訊後，會重新執行前述的侵蝕操作。舉例而言，遮罩優化模組130是分別根據人物區塊blob1210的重心的深度值、人物區塊blob1220的重心的深度值與電子裝置100之間的距離決定侵蝕操作的執行次數。例如，當人物區塊blob1210的重心的深度值與電子裝置100之間的距離小於一門檻值(例如，1.8公尺)時所執行的侵蝕操作次數大於人物區塊blob1210的重心的深度值與電子裝置100之間的距離非小於所述門檻值時所執行的侵蝕操作次數。換言之，當人物區塊blob1210的重心的深度值與電子裝置100之間的距離越近，遮罩優化模組130對人物區塊blob1210所執行的侵蝕操作次數越多；類似地，當人物區塊blob1220的重心的深度值與電子裝置100之間的距離越近，遮罩優化模組130對人物區塊blob1220所執行的侵蝕操作次數也越多。

由於在執行擷取人物輪廓的步驟S207c中可能會出現補過頭的情況，亦即，將原本應該是背景的區域補成人物區塊。因此，在本發明範例實施例中，在遮罩優化模組130執行上述特定次數的侵蝕操作後，會執行將誤判為人物的區域補回為背景的步驟S207d。例如，遮罩優化模組130會將執行侵蝕操作之後的人物遮罩1204中的人物區塊blob1210與人物區塊blob1220(如圖12所示)與執行侵蝕操作之前的人物遮罩600中的人物區塊blob610與人物區塊blob620(如圖6所示)之間的交集區域以外的區域視為誤判為至少一人物區塊的區域。接著，遮罩優化模組130會將誤判為至少一人物區塊的區域中的畫素設為背景遮罩的深度值，由此可將人物區塊中原本應是背景的區域補回背景區域。

請參照圖13A~圖13B與圖2，在本發明範例實施例中，處理器104會每隔一預定時間，使攝影裝置106、人識別模組110、遮罩產生模組120與遮罩優化模組130依序地執行畫面擷取操作(步驟S201)、人物識別操作(步驟S203)、遮罩產生操作(步驟S205)與遮罩優化操作(步驟S207)，以獲得多個優化遮罩。舉例而言，處理器104會將連續獲得的特定數量個的優化遮罩儲存於儲存裝置102中，在此，所述特定數量例如為11個，然而，本發明並不欲加以限制所述特定數量，例如，在另一範例實施例中，特定數量可視視訊成像結果或儲存裝置空間而動態地調整。接著，遮罩優化模組130會執行遮罩優化操作中的取得疊加的優化遮罩並消除多餘的區塊的步驟S207e，如圖13A所示，遮罩優化模組130會產生連續獲得的11個的優化遮罩1300中的人物區塊blob1310 的聯集區域(亦稱為第二聯集區域)，並產生疊加優化遮罩1304中第二聯集區域與當前獲得的優化遮罩1302中的人物區塊blob1320之間的聯集區域blob1330(亦稱為第三聯集區域blob1330或人物區塊blob1330)。特別是，由疊加優化遮罩1304中的人物區塊blob1330可看出，原本存在於當前獲得的優化遮罩1302中的人物區塊blob1320的毛邊以及多個優化遮罩1300中的人物區塊blob1310的毛邊皆已被消除。

在本發明另一範例實施例中，由於上述第二聯集區域(即，連續獲得的11個的優化遮罩1300中的人物區塊blob1310的聯集區域)與當前獲得的優化遮罩1302中的人物區塊blob1320之間的第三聯集區域blob1330可能會存在殘影區域1308(如圖13B所示)。因此，若遮罩優化模組130判定第三聯集區域blob1330中存在殘影區域1308，則其會將殘影區域1308中的畫素設為背景遮罩的深度值以獲得疊加優化遮罩1306中的人物區塊blob1340。進一步地來說，遮罩優化模組130判定第三聯集區域blob1330中是否存在殘影區域1308的方式為將疊加優化遮罩1304與當前獲得的優化遮罩1302做比對，若找出多餘的區塊非小於門檻值，則判斷第三聯集區域blob1330中存在殘影區域1308並進行移除。

在本發明範例實施例中，遮罩優化模組130會執行遮罩優化操作中的優化最終成像的步驟S207f，以使得視訊成像中的人物邊緣與背景看起來更自然且和諧。請先參照圖14A，假設遮罩優化模組130在執行上述取得疊加的優化遮罩並消除多餘的區塊的步驟S207e後獲得疊加優化遮罩1400，因此，在優化最終成像的步驟S207f中，遮罩優化模組130會取得疊加優化遮罩1400中人物區塊blob1410與人物區塊blob1420的邊緣區域，並產生對應人物區塊blob1410的邊緣區域1410與人物區塊blob1420的邊緣區域1420的邊緣資訊遮罩1402。之後，遮罩優化模組130會對邊緣資訊遮罩1402中的邊緣區域1410與邊緣區域1420進行膨脹操作而獲得邊緣資訊遮罩1404中的邊緣區域1410’與邊緣區域1420’。在此，所述膨脹操作是將邊緣區域1410與邊緣區域1420上的每一個畫素往8個方向上相鄰的畫素膨脹而獲得邊緣區域1410’與邊緣區域1420’。

接著，請參照圖14B，遮罩優化模組130會將疊加優化遮罩1400與彩色圖302結合以獲得彩色影像1430(亦稱為第一彩色影像1430)。具體而言，遮罩優化模組130是從彩色圖302中取出對應疊加優化遮罩1400中人物區塊blob1410與人物區塊blob1420的彩色人物區域，並將此彩色人物區域貼至(或合成至)所選定的靜態背景上以獲得第一彩色影像1430，在此，所述靜態背景例如為白色影像。之後，遮罩優化模組130會對第一彩色影像1430進行模糊化操作以產生彩色影像1440(亦稱為第二彩色影像1440)，並根據邊緣資訊遮罩1406取出第二彩色影像1440中對應邊緣區域1410’與邊緣區域1420’的彩色模糊邊緣影像1442。最後，遮罩優化模組130會將彩色模糊邊緣影像1442套用至第一彩色影像1430中彩色人物區域的邊緣以獲得視訊影像1450，並透過視訊成像模組140在視訊會議中對方的顯示裝置或使用者端的顯示裝置顯示此視訊影像1450。如此一來，視訊成像1450中的人物邊緣與背景會顯得更自然且和諧。

值得一提的是，在本發明範例實施例中，視訊成像例如是採用H.264/AVC(Advanced Video Coding)視訊壓縮標準或H.265/HEVC(High Efficiency Video Coding)視訊壓縮標準，且透過本發明的視訊成像方法可即時地識別出畫面中屬於使用者的正確區塊，進而將正確的彩色人物區域合成至乾淨的背景上，由此可僅傳送使用者因移動或運動所產生的差異至視訊會議中對方的顯示裝置。如此一來，可在良好的視訊成像品質下節省位元率的傳輸。

本發明所提出的視訊成像方法及其電子裝置藉由利用具視訊功能的電子裝置所擷取的深度圖與彩色圖來獲得畫面中正確的使用者區塊，並將使用者區塊進行影像的優化，以在顯示裝置上即時地將優化後的使用者的動態前景影像呈現於乾淨的靜態背景影像上。據此，使用者將不會受進行視訊會議之環境的限制，如此一來，不僅提供了使用者更方便的操作體驗，更有效地提升視訊影像的成像品質。另一方面，本發明僅傳送使用者因移動或運動所產生的差異至視訊會議中對方的顯示裝置，因此能夠有效地減少視訊編碼運算時的資料傳輸量，進而可有效地提升視訊成像的效能。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

Claims

一種視訊成像方法，用於具一視訊功能的一電子裝置，該方法包括：執行一畫面擷取操作，以取得一畫面中的一深度圖和對應於該深度圖的一彩色圖；執行一人物識別操作，以根據該深度圖的深度資訊與該彩色圖判定該畫面中一前景的至少一人物區塊，其中該深度資訊包括多個深度值，且該人物識別操作的步驟更包括：偵測該彩色圖中的至少一人物的臉部的區域；根據該深度圖與一背景遮罩獲得對應一前景遮罩的一區塊深度圖，並從該區塊深度圖取得至少一區塊，其中該至少一區塊中的每一個畫素的深度值與其相鄰的畫素的深度值之間的一第一差值小於一區塊門檻值，且每一該至少一區塊所包括的畫素的總數量大於一區塊數量門檻值；在該畫面中，若該彩色圖中該至少一人物的臉部的區域對應至該區塊深度圖中該至少一區塊的範圍內，判定該至少一區塊為該至少一人物區塊，其中該至少一人物區塊的一頭部區塊與一身體區塊之間的比例小於一人體比例門檻值；其中根據該深度圖的深度資訊與該彩色圖判定該畫面中該前景的該至少一人物區塊之後的步驟更包括：執行一追蹤操作，以根據該畫面中的該至少一人物區塊所產生的改變調整該至少一人物區塊，其中該追蹤操作包括：當該至少一人物區塊中的一第一人物區塊被一物體分為一第二人物區塊與一第三人物區塊時，若該第二人物區塊的重心與該第三人物區塊的重心分別與該第一人物區塊的重心之間的一重心距離小於一重心距離門檻值，則將該第二人物區塊與該第三人物區塊視為該第一人物區塊；當該第一人物區塊中多個子區塊中的一第一子區塊與該第一子區塊以外的子區塊未相鄰時，將該第一子區塊視為一第四人物區塊，其中該第一人物區塊不同於該第四人物區塊；設定該第一人物區塊的一基準深度值，當該第一人物區塊中的畫素的深度值大於該基準深度值時，將此該畫素的深度值設為該背景遮罩的深度值；當該第一人物區塊產生移動且該畫面產生一第五人物區塊時，若該第五人物區塊的顏色不包含膚色，將該第五人物區塊中的畫素設為該背景遮罩的深度值；執行一遮罩產生操作，以產生對應該畫面的該至少一人物區塊的一人物遮罩；以及對該人物遮罩進行一遮罩優化操作，並根據該遮罩優化操作的結果顯示一視訊影像。
如申請專利範圍第1項所述的視訊成像方法，其中根據該深度圖與該背景遮罩獲得對應該前景遮罩的該區塊深度圖的步驟包括：將該深度圖中的最大深度值設為該背景遮罩中每一個畫素的深度值；計算該深度圖中每一個畫素的深度值與該背景遮罩中每一個畫素的深度值之間的一第二差值，並將具有該第二差值大於一前景門檻值的畫素作為該前景遮罩的前景區域；以及結合該前景遮罩與該深度圖以產生該區塊深度圖。
如申請專利範圍第1項所述的視訊成像方法，其中該遮罩優化操作包括：從該人物遮罩中取得該至少一人物區塊的頭部區域，並產生對應該頭部區域的一頭部遮罩；將該頭部遮罩中與該頭部區域的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第一頭部畫素，以及將該頭部遮罩中與該些第一頭部畫素的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第二頭部畫素以獲得一更新的頭部遮罩；以及將該彩色圖中該至少一人物區塊的頭部範圍與該更新的頭部遮罩中的頭部區域的第一聯集區域作為一修復的頭部遮罩中的頭部區域。
如申請專利範圍第1項所述的視訊成像方法，其中該遮罩優化操作包括：判斷該人物遮罩中的該至少一人物區塊中是否具有至少一人物空洞區域，且當該至少一人物區塊中具有該至少一人物空洞區域時，對該至少一人物空洞區域中的每一個畫素執行一修補人物空洞區域操作，其中該至少一人物空洞區域中的畫素不具有深度值或者該至少一人物空洞區域中的畫素的深度值為該背景遮罩的深度值，其中該修補人物空洞區域操作包括：當該至少一人物空洞區域中相鄰於該至少一人物空洞區域的輪廓的一第一畫素與該至少一人物區塊中相鄰於該至少一人物空洞區域的輪廓的一第二畫素之間的深度值距離大於一深度距離門檻值時，以該第二畫素取代該第一畫素，其中該第一畫素相鄰於該第二畫素；以及當該至少一人物空洞區域中相鄰於該至少一人物空洞區域的輪廓的該第一畫素與該至少一人物區塊中相鄰於該至少一人物空洞區域的輪廓的該第二畫素之間的深度值距離非大於該深度距離門檻值時，保留該第一畫素。
如申請專利範圍第4項所述的視訊成像方法，其中該遮罩優化操作更包括：建立一動態背景遮罩，其中該動態背景遮罩包括一背景區域與一動態背景區域；以及判斷該人物遮罩中是否具有誤判為該背景遮罩的區域，且當該人物遮罩中具有誤判為該背景遮罩的區域時，執行一修補人物區域操作，其中誤判為該背景遮罩的區域中的每一個畫素與該至少一人物區塊中的畫素之間的深度值距離非大於該深度距離門檻值，其中該修補人物區域操作包括：在該畫面中，若誤判為該背景遮罩的區域對應至該動態背景區域的範圍內，判定誤判為該背景遮罩的區域屬於該至少一人物區塊的一部分。
如申請專利範圍第1項所述的視訊成像方法，其中該遮罩優化操作包括：對該人物遮罩執行一侵蝕操作，以將該至少一人物區塊的邊緣的畫素設為該背景遮罩的深度值；將該至少一人物區塊的邊緣平滑化並去除該至少一人物區塊的邊緣的雜訊後，重新執行該侵蝕操作；以及根據該至少一人物區塊的重心與該電子裝置之間的距離決定該侵蝕操作的執行次數。
如申請專利範圍第6項所述的視訊成像方法，其中該遮罩優化操作包括：找出執行該侵蝕操作之後的人物遮罩中的該至少一人物區塊與執行該侵蝕操作之前的人物遮罩中的該至少一人物區塊之間的交集區域以外的至少一區域，判斷該交集區域以外的至少一區域是否大於一誤判區域門檻值，並將大於該誤判區域門檻值的至少一區域視為誤判為該至少一人物區塊的區域；以及將誤判為該至少一人物區塊的區域中的畫素設為該背景遮罩的深度值。
如申請專利範圍第1項所述的視訊成像方法，更包括：每隔一預定時間，依序地執行該畫面擷取操作、該人物識別操作、該遮罩產生操作與該遮罩優化操作，以獲得多個優化遮罩；產生連續獲得的一特定數量個的優化遮罩中的該至少一人物區塊的一第二聯集區域，並根據該第二聯集區域與當前獲得的優化遮罩中的該至少一人物區塊之間的一第三聯集區域判定該第三聯集區域中的一殘影區域；以及將該殘影區域中的畫素設為該背景遮罩的深度值以獲得一疊加優化遮罩。
如申請專利範圍第8項所述的視訊成像方法，其中對該人物遮罩進行該遮罩優化操作，並根據該遮罩優化操作的結果顯示該視訊影像的步驟包括：取得該疊加優化遮罩中該至少一人物區塊的邊緣區域，並產生對應該至少一人物區塊的邊緣區域的一邊緣資訊遮罩；將該疊加優化遮罩與該彩色圖結合以獲得一第一彩色影像，其中該第一彩色影像包括對應該疊加優化遮罩中該至少一人物區塊的一彩色人物區域；對該第一彩色影像進行一模糊化操作以產生一第二彩色影像，並根據該邊緣資訊遮罩取出該第二彩色影像中對應該邊緣區域的彩色模糊邊緣影像；以及將該彩色模糊邊緣影像套用至該第一彩色影像中該彩色人物區域的邊緣以獲得該視訊影像。
一種電子裝置，包括：一儲存裝置，儲存多個模組；一攝影裝置，用以執行一畫面擷取操作，以取得一畫面中的一深度圖和對應於該深度圖的一彩色圖；以及一處理器，耦接該儲存裝置與該攝影裝置，載入並執行儲存於該儲存裝置中的該些模組，該些模組包括：一人物識別模組，用以執行一人物識別操作，以根據該深度圖的深度資訊與該彩色圖判定該畫面中一前景的至少一人物區塊，其中該深度資訊包括多個深度值，且該人物識別模組更用以：偵測該彩色圖中的至少一人物的臉部的區域；根據該深度圖與一背景遮罩獲得對應一前景遮罩的一區塊深度圖，並從該區塊深度圖取得至少一區塊，其中該至少一區塊中的每一個畫素的深度值與其相鄰的畫素的深度值之間的一第一差值小於一區塊門檻值，且每一該至少一區塊所包括的畫素的總數量大於一區塊數量門檻值；在該畫面中，若該彩色圖中該至少一人物的臉部的區域對應至該區塊深度圖中該至少一區塊的範圍內，判定該至少一區塊為該至少一人物區塊，其中該至少一人物區塊的一頭部區塊與一身體區塊之間的比例小於一人體比例門檻值；其中在根據該深度圖的深度資訊與該彩色圖判定該畫面中該前景的該至少一人物區塊之後，該人物識別模組更用以執行一追蹤操作，以根據該畫面中的該至少一人物區塊所產生的改變調整該至少一人物區塊，其中該追蹤操作包括：當該至少一人物區塊中的一第一人物區塊被一物體分為一第二人物區塊與一第三人物區塊時，若該第二人物區塊的重心與該第三人物區塊的重心分別與該第一人物區塊的重心之間的一重心距離小於一重心距離門檻值，則將該第二人物區塊與該第三人物區塊視為該第一人物區塊；當該第一人物區塊中多個子區塊中的一第一子區塊與該第一子區塊以外的子區塊未相鄰時，將該第一子區塊視為一第四人物區塊，其中該第一人物區塊不同於該第四人物區塊；設定該第一人物區塊的一基準深度值，當該第一人物區塊中的畫素的深度值大於該基準深度值時，將此該畫素的深度值設為該背景遮罩的深度值；當該第一人物區塊產生移動且該畫面產生一第五人物區塊時，若該第五人物區塊的顏色不包含膚色，將該第五人物區塊中的畫素設為該背景遮罩的深度值；一遮罩產生模組，用以執行一遮罩產生操作，以產生對應該畫面的該至少一人物區塊的一人物遮罩；一遮罩優化模組，用以對該人物遮罩進行一遮罩優化操作；以及一視訊成像模組，用以根據該遮罩優化操作的結果顯示一視訊影像。
如申請專利範圍第10項所述的電子裝置，其中在根據該深度圖與該背景遮罩獲得對應該前景遮罩的該區塊深度圖的操作中，該人物識別模組更用以：將該深度圖中的最大深度值設為該背景遮罩中每一個畫素的深度值；計算該深度圖中每一個畫素的深度值與該背景遮罩中每一個畫素的深度值之間的一第二差值，並將具有該第二差值大於一前景門檻值的畫素作為該前景遮罩的前景區域；以及結合該前景遮罩與該深度圖以產生該區塊深度圖。
如申請專利範圍第10項所述的電子裝置，其中該遮罩優化模組更用以：從該人物遮罩中取得該至少一人物區塊的頭部區域，並產生對應該頭部區域的一頭部遮罩；將該頭部遮罩中與該頭部區域的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第一頭部畫素，以及將該頭部遮罩中與該些第一頭部畫素的邊緣的每一個畫素相鄰的不具有深度值的畫素設為多個第二頭部畫素以獲得一更新的頭部遮罩；以及將該彩色圖中該至少一人物區塊的頭部範圍與該更新的頭部遮罩中的頭部區域的第一聯集區域作為一修復的頭部遮罩中的頭部區域。
如申請專利範圍第10項所述的電子裝置，其中該遮罩優化模組更用以：判斷該人物遮罩中的該至少一人物區塊中是否具有至少一人物空洞區域，且當該至少一人物區塊中具有該至少一人物空洞區域時，對該至少一人物空洞區域中的每一個畫素執行一修補人物空洞區域操作，其中該至少一人物空洞區域中的畫素不具有深度值或者該至少一人物空洞區域中的畫素的深度值為該背景遮罩的深度值，其中該修補人物空洞區域操作包括：當該至少一人物空洞區域中相鄰於該至少一人物空洞區域的輪廓的一第一畫素與該至少一人物區塊中相鄰於該至少一人物空洞區域的輪廓的一第二畫素之間的深度值距離大於一深度距離門檻值時，以該第二畫素取代該第一畫素，其中該第一畫素相鄰於該第二畫素；以及當該至少一人物空洞區域中相鄰於該至少一人物空洞區域的輪廓的該第一畫素與該至少一人物區塊中相鄰於該至少一人物空洞區域的輪廓的該第二畫素之間的深度值距離非大於該深度距離門檻值時，保留該第一畫素。
如申請專利範圍第13項所述的電子裝置，其中該遮罩優化模組更用以：建立一動態背景遮罩，其中該動態背景遮罩包括一背景區域與一動態背景區域；以及判斷該人物遮罩中是否具有誤判為該背景遮罩的區域，且當該人物遮罩中具有誤判為該背景遮罩的區域時，執行一修補人物區域操作，其中誤判為該背景遮罩的區域中的每一個畫素與該至少一人物區塊中的畫素之間的深度值距離非大於該深度距離門檻值，其中該修補人物區域操作包括：在該畫面中，若誤判為該背景遮罩的區域對應至該動態背景區域的範圍內，判定誤判為該背景遮罩的區域屬於該至少一人物區塊的一部分。
如申請專利範圍第10項所述的電子裝置，其中該遮罩優化模組更用以：對該人物遮罩執行一侵蝕操作，以將該至少一人物區塊的邊緣的畫素設為該背景遮罩的深度值；將該至少一人物區塊的邊緣平滑化並去除該至少一人物區塊的邊緣的雜訊後，重新執行該侵蝕操作；以及根據該至少一人物區塊的重心與該電子裝置之間的距離決定該侵蝕操作的執行次數。
如申請專利範圍第15項所述的電子裝置，其中該遮罩優化模組更用以：找出執行該侵蝕操作之後的人物遮罩中的該至少一人物區塊與執行該侵蝕操作之前的人物遮罩中的該至少一人物區塊之間的交集區域以外的至少一區域，判斷該交集區域以外的至少一區域是否大於一誤判區域門檻值，並將大於該誤判區域門檻值的至少一區域視為誤判為該至少一人物區塊的區域；以及將誤判為該至少一人物區塊的區域中的畫素設為該背景遮罩的深度值。
如申請專利範圍第10項所述的電子裝置，其中該處理器更用以每隔一預定時間，使該攝影裝置、該人物識別模組、該遮罩產生模組與該遮罩優化模組依序地執行該畫面擷取操作、該人物識別操作、該遮罩產生操作與該遮罩優化操作，以獲得多個優化遮罩，其中該遮罩優化模組更用以產生連續獲得的一特定數量個的優化遮罩中的該至少一人物區塊的一第二聯集區域，並根據該第二聯集區域與當前獲得的優化遮罩中的該至少一人物區塊之間的一第三聯集區域判定該第三聯集區域中的一殘影區域；以及將該殘影區域中的畫素設為該背景遮罩的深度值以獲得一疊加優化遮罩。
如申請專利範圍第17項所述的電子裝置，其中該遮罩優化模組更用以：取得該疊加優化遮罩中該至少一人物區塊的邊緣區域，並產生對應該至少一人物區塊的邊緣區域的一邊緣資訊遮罩；將該疊加優化遮罩與該彩色圖結合以獲得一第一彩色影像，其中該第一彩色影像包括對應該疊加優化遮罩中該至少一人物區塊的一彩色人物區域；對該第一彩色影像進行一模糊化操作以產生一第二彩色影像，並根據該邊緣資訊遮罩取出該第二彩色影像中對應該邊緣區域的彩色模糊邊緣影像；以及將該彩色模糊邊緣影像套用至該第一彩色影像中該彩色人物區域的邊緣以獲得該視訊影像。