TW201328315A

TW201328315A - 將平面視訊轉換為立體視訊的系統

Info

Publication number: TW201328315A
Application number: TW100148008A
Authority: TW
Inventors: Wen-Neng Lai; xiang-yun Huang; Wei-Zhi Chen
Original assignee: Nat Univ Chung Cheng
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2013-07-01
Also published as: US9167232B2; US20130162768A1; TWI483612B

Abstract

一種將平面視訊轉換為立體視訊的系統，包含有：一視訊內容分析單元，用以對一二維(2D)視訊資料進行分析，並由該二維視訊資料擷取出一可用資訊供深度估測使用；一深度估測單元，用以接收該可用資訊，計算移動線索及對比值線索以進行初始深度估測，並產生一初始深度圖；一深度後處理單元，用以對該初始深度圖進行空間域及時間域修正，以提高深度圖在空間域的正確性及相鄰時間點的深度連續性，並處理視訊中的字幕資訊，以產生一最終深度圖；以及一立體視訊產生單元，用以將該最終深度圖與該二維視訊資料合成，以產生一三維(3D)視訊資料。

Description

將平面視訊轉換為立體視訊的系統

本發明係與影像處理的技術有關，特別是指一種將一般傳統單眼攝影機所拍攝的平面視訊轉換為立體顯示器所能播放的立體視訊的系統。

按，將平面的二維(2D)視訊轉換為立體(3D)的三維視訊，其最主要的核心技術之一即是深度估測。在WO 2008/080156號專利中，提出了一個最適化運算複雜度的全自動2D轉3D的立體視訊轉換技術。該發明係依據視訊的內容，先將各張影像分為平坦區域以非平坦區域，在平坦區域(如影像之背景區域)採用簡單的深度估測法，在複雜的區域(如前景物體)採取較複雜的方法，以達到最適化運算複雜度的轉換。

在Chao-Chung Cheng,Chung-Te Li,Po-Sen Huang,Tsung-Kai Lin,Yi-Min Tsai,Liang-Gee Chen,“A block-based 2D-to-3D conversion System with bilateral filter,“Int’l. Conf. on Consumer Electronics 2009(ICCE ’09),pp.1-2.文獻中，提出了兩個深度估測模組：depth from motion(DOF)以及depth from geometrical perspective(DOGP)。其中DOF運用移動向量估測技術計算出影像中各區塊的移動量，作為該區塊之深度估測值；DOGP則使用數種使用者定義之背景深度模型，以分類之方式選擇一合適之背景模型。

綜觀上述之2D轉換3D的技術，皆是使用單一時間點的影像資訊來個別進行深度估測，這會使得相鄰時間點的深度不具連續性，進而造成3D立體視訊播放時畫面深度感忽近忽遠的現象，此容易造成觀看者眼睛的疲勞，久之更可能傷害使用者的健康。另外，前述之先前技術並未對欲轉換的視訊內容的拍攝結構進行分析，因此較不適用於多元的家用及商用視訊，一般商用影片可能是有字幕的影片，現有3D視訊轉換技術並未對字幕的部分進行處理，這容易造成觀看者在字幕閱讀上的困難，進而無法享受觀賞的樂趣。

本發明之主要目的在於提供一種將平面視訊轉換為立體視訊的系統，其可提昇轉換後的視訊的深度品質，增進相鄰時間的深度連續性，進而提高人眼觀賞時的舒適度。

本發明之次一目的在於提供一種將平面視訊轉換為立體視訊的系統，其可對字幕區域進行處理，能夠增進字幕區域的立體感，提昇觀看時的適舒適性。

為了達成前述目的，依據本發明所提供之一種將平面視訊轉換為立體視訊的系統，包含有：一視訊內容分析單元，用以對一二維(2D)視訊資料進行分析，並由該二維視訊資料擷取出一包括移動資訊及顏色資訊的可用資訊供深度估測使用；一深度估測單元，用以接收該可用資訊，計算移動線索及對比值線索以進行初始深度估測，並產生一初始深度圖；一深度後處理單元，用以對該初始深度圖進行空間域、時間域修正，以提高深度圖在空間域的正確性及相鄰時間點的深度連續性，並處理視訊中的字幕資訊，以產生一最終深度圖；以及一立體視訊產生單元，用以將該最終深度圖與該二維視訊資料合成，以產生一三維(3D)視訊資料。藉此即可達到上述目的。

為了詳細說明本發明之構造及特點所在，茲舉以下之較佳實施例並配合圖式說明如後，其中：如第一圖所示，本發明一較佳實施例所提供之一種將平面視訊轉換為立體視訊的系統10，主要由一視訊內容分析單元11、一深度估測單元21、一深度後處理單元31以及一立體視訊產生單元41所組成，其中：該視訊內容分析單元11，用以對一個二維(2D)視訊資料進行分析，並由該二維視訊資料擷取出一包括移動資訊及顏色資訊的可用資訊供深度估測使用。於本實施例中，如第二圖所示，該視訊內容分析單元11具有一視訊解碼器12、一場景變換偵測器14以及一拍攝手法分析器16。由於MPEG-2是目前相當常用的壓縮標準，因此於本實施例中係以MPEG-2壓縮視訊輸入為例，該視訊解碼器12係以MPEG-2視訊解碼器為例，而其他之壓縮標準例如H.263/H.264/H.26X、MPEG-4亦可適用於本發明之技術。

該視訊解碼器12係用以在當該二維視訊資料為一壓縮視訊資料時，對該二維壓縮視訊資料進行解碼，以取得YUV(亮度與色度)資訊做為估測深度之用，以及取得移動向量(motion vector)做為深度估測時的物體移動資訊，該YUV資訊與該移動向量即為前述之可用資訊。其中，YUV資訊中的Y資訊(即亮度)已足以代表畫面的資訊，因此以下均以Y資訊(即亮度資訊)代表YUV資訊。由於視訊內容可能因攝影機鏡頭的變換而造成場景切換，因此需考慮到場景變換的問題，也因此本發明使用了該場景變換偵測器14。

該場景變換偵測器14，係使用一種改良直方圖(histogram)比對法來比較該二維視訊資料中相鄰畫面之間亮度分佈的差異性，進而判斷是否有場景變換的狀況。由於場景發生變化時，相鄰畫面的亮度分佈會因場景不同而有所差異，因此使用改良的直方圖比對法，其中該改良直方圖比對法主要係將目前畫面切割為複數區塊，比較相鄰畫面同位置區塊的直方圖差異，且在同一畫面中各個區塊設定的差異臨界值不同，由於一般影片主要的人物及物體都位於較中央，因此設定在中央的數個區塊的差異臨界值較大而在周圍的區塊差異臨界值則較小，這樣一來，邊緣區塊的差異容忍度將比中央區塊來得小。藉由超過臨界值的區塊數量是否大於一臨界值即可判斷是否有場景切換的狀況發生，計算式係如下方之式(1)所示。

其中histogram _i,u,v (n)為位於座標(u,v)處的區塊直方圖強度值，i為目前畫面索引，t _u,v為事先各個區塊的差異臨界值，T ₃為事先設定的直方圖區塊差異數量之臨界值。而為了適用於各種場景變化的情況，上述式(1)中還加上了另一條件，即DH _i,u,v>α×AVGDH _i,u,v，其臨界值為前K張的直方圖差異平均，如下述式(2)所示，其中α為0.0~1.0的預定數值。

該拍攝手法分析器16係用以分析該二維視訊資料在拍攝時的攝影機運動方式、畫面中物體的運動量以及畫面複雜度，並將分析結果予以分類。分類的過程係如第三圖所示，分為四個類型：(一)畫面中物體不動且攝影機也不動，即畫面幾乎呈靜止狀態；(二)畫面中物體不動但攝影機移動；(三)畫面中物體移動，而攝影機為可動或可不動，但畫面場景資訊較為簡單；(四)畫面中物體移動，而攝影機為可動或可不動，但畫面場景資訊較為複雜。其中，畫面場景資訊的簡單或複雜，係由畫面像素灰階的變異性來判斷，藉由設定一變異性臨界值，高於該變異性臨界值的畫面場景資訊即判斷為複雜，反之則判斷為簡單。變異性臨界值的計算方式係如下列之式(3)所示。

其中f _i (x,y)為影像像素灰階值，i為目前畫面索引，為影像內像素的平均值，M、N為影像長、寬。

該深度估測單元21，用以接收該可用資訊，計算移動線索及對比值線索以進行初始深度估測，並產生一初始深度圖D ⁽⁰⁾。於本實施例中，如第四圖所示，該深度估測單元21具有一移動線索計算器22、一對比值線索計算器24以及一深度線索融合器26。

該移動線索計算器22，係以將畫面切割為複數區塊的方式來計算前述各該區塊內的移動向量，或取用該視訊解碼器12所解碼的移動向量，進而計算各區塊的移動線索(m,n)((m,n)為區塊座標索引)，於本實施例中係以取用該視訊解碼器12所解碼的移動向量來計算移動線索為例。由於MPEG-2標準的移動向量是以壓縮效能為目的，因此所取得的不一定是真實移動向量，於此必須對此進行修正。在修正時，係判斷目前區塊與3×3範圍內的鄰近區塊移動向量在各方向的數量，於本實施例中係將移動向量分成五個方向，擁有最多區塊數量的方向定義為優勢(dominant)方向，若屬於優勢方向的區塊數量小於四個，則代表此範圍的移動向量趨於凌亂，無需修正。若數量大於四個，則將該目前區塊的移動向量修正為屬於該優勢方向的複數個移動向量的平均向量，並重新計算移動線索，此移動線索屬於各種深度線索之一。

該對比值線索計算器24，係以計算對比值的方法，藉由各個區塊內像素的亮度灰階值來計算對比值線索。其中，由於空氣中微小粒子或霧氣的影響，會使得遠處的物體呈現較為朦朧的現象，意即愈近的物體即較為清晰且銳利，反之距離愈遠的物體即愈為模糊，因此對比值愈大即代表畫面中的物體愈近，因此對比值也是深度線索之一，可以用來做為深度資訊的輔助估測。其計算方式如下列式(4)所示。

其中(m,n)代表目前區塊(包含8×8個像素)的位置索引，f _m,n(x,y)代表該區塊內的像素，代表該區塊內像素的亮度平均值，d ^C (m,n)數值即代表目前區塊的對比值大小。而d ^C (m,n)可被用來計算目前區塊的對比值線索(m,n)。

該深度線索融合器26，係將該移動線索計算器22所計算出的移動線索與該對比值線索計算器24所計算出的對比值線索予以融合，以得到該初始深度圖D ⁽⁰⁾。其中，前述之融合係指：依該拍攝手法分析器16所分類於前的四種類型來調整移動線索或對比值線索的權重。

在前述之第一類型時，畫面處於靜止狀態，因此前後張的畫面是不變的，不需再重新估測深度資訊，深度圖參考前一張畫面即可。融合後的初始深度圖D ⁽⁰⁾如下列之式(5)所示(i為畫面索引)。

在前述之第二類型時，畫面中物體不動但攝影機移動，若將攝影機的移動量扣除，這張畫面將沒有移動量，因此無法參考移動線索的深度資訊，因此僅參考修正後移動向量的能量大小，並且不進行攝影機運動參數的計算與補償，融合後的初始深度圖D ⁽⁰⁾如下列之式(6)所示。

在前述之第三類型時，畫面中物體移動但攝影機可動可不動，且畫面中場景資訊較為簡單。由於移動線索是人眼深度感知最為強烈的深度線索，因此移動線索的權重可調整為略大於對比值線索，融合後的初始深度圖D ⁽⁰⁾如下列之式(7)所示，其中ω₁為0.6，ω₂為0.4。

在前述之第四類型時，畫面中物體移動但攝影機可動可不動，且畫面中場景資訊較為複雜。由於在畫面中場景較為複雜的類型中，對比值常常因為過於複雜而估測為前景區域，因此可將對比值線索的權重降低，融合後的初始深度圖D ⁽⁰⁾如下列之式(8)所示，其中ω₁為0.8，ω₂為0.2。

該深度後處理單元31，用以對該初始深度圖D ⁽⁰⁾進行空間域及時間域的修正，以提高深度圖在空間域的正確性及相鄰時間點的深度連續性，並處理視訊中的字幕資訊，以產生一最終深度圖D’。於本實施例中，如第五圖所示，該深度後處理單元31具有一空間域深度圖修正器32、一時間域深度圖修正器34、一深度圖重取樣器36以及一字幕區域深度處理器38。

該空間域深度圖修正器32係依該初始深度圖D ⁽⁰⁾將目前畫面中的前景區域取出，再對該前景區域給予空間上的深度修正。實際進行時，如第六圖所示，係先後經過：(1)二值化(Thresholding)處理，使用迭代法來動態決定一臨界值，在初始深度圖D ⁽⁰⁾中之深度值大於該臨界值者設為255，小於者設為0；(2)形態學(Morphology)處理，使用形態學影像處理中的斷開(Morphology opening)來消除雜訊造成的影響，並且讓前景區域中的物體輪廓趨於完整；(3)相鄰單元標記法(Connected Component Labeling)，對二值化後的影像前景區域做標記，此方法的目的是將二值化後的影像中的每一個區塊標記成相同且唯一的整數，並計算各個區域的面積以做為區塊移除之用；(4)區域移除(Region removal)，對於一般視訊畫面而言，前景物體通常佔有較大的畫面面積，因此以每個標記區域的面積為依據，面積小於一個臨界值(此值與畫面大小有關)則予以刪除，設為0，藉此消除背景誤判為前景或雜訊造成的小錯誤；(5)空洞填補(Hole filling)，由於物件中可能包含平滑影像區域，造成估計出的深度初始值較小，且經過二值化處理後容易被誤判為背景區域，造成前景物體內部產生空洞現象，因此常被標記為背景區域的影像區域被前景區域所包圍時即對該背景區域予以填補；(6)前景物體深度值指派，對於前景區域中深度值過小的影像區域，以左、右鄰近的影像區域的深度平均值進行取代。藉此，即完成對該前景區域給予空間上的深度修正

該時間域深度圖修正器34係以濾波技術來修正該經空間域深度圖修正器32處理後的初始深度圖D ⁽⁰⁾，藉以提高相鄰時間點的深度連續性。其中，該濾波技術係為指數平滑濾波技術或中值濾波技術其中之一，而由於指數平滑濾波技術或是中值濾波技術均屬習知技術，容不贅述。

該深度圖重取樣器36係結合重取樣(Resampling)技術及雙向濾波器來放大及修正低解析度的初始深度圖D ⁽⁰⁾。由於以影像線索來估計深度仍有失真的可能性，因此必須使用雙向濾波器在放大為與影像解析度相同時的深度圖時，可以進行修正而讓深度資訊更為契合原始影像。而，其中，由於初始深度圖係以8×8的像素區塊為單位，屬於低解度而必須以重取樣技術加以放大，增加深度圖解析度。

該字幕區域深度處理器38，如第七圖所示，係先偵測目前畫面是否有字幕區域，實際偵測時係將偵測區域定為畫面的下方三分之一處，並使用Sobel遮罩(習知技術容不贅述)進行邊緣能量大小的計算，當區塊的邊緣能量小於預先設定的臨界值時予以濾除。在找出字幕區域後，再偵測該字幕區域內的字元，實際偵測時係利用像素顏色資訊來切割出字幕的每一字元，例如，將字幕區域內像素的值由YUV色彩空間轉回到RGB色彩空間，之後根據畫面像素的RGB值來判斷是否落於白色範圍(字幕顏色可視不同的影帶特性而加以改變)，進而擷取出字元。之後再給予該字幕適當的深度資訊。實際操作時，係可針對字幕區域的深度值來提供深度資訊，或是針對字元的深度值來提供深度資訊。在完成前述之空間域、時間域的深度修正、重取樣放大以及字幕區域的深度處理後，即產生一最終深度圖D’。

該立體視訊產生單元41，用以將該最終深度圖D’與該二維視訊資料合成，以產生一個三維(3D)視訊資料。於本實施例中，該立體視訊產生單元41係利用深度影像繪圖法，如第八圖所示，將該最終深度圖D’與該二維視訊資料合成，配合正、負視差特性合成出立體效果，產生出該三維視訊資料。在第八圖中，C_C代表原始影像，C_L為欲合成的的左眼影像，C_R為欲合成的右眼影像，t為基線(baseline)長度，F為焦距而通常設為定值，P為空間上一點，其與相機深度距離為Z，在原始影像內成像於(X_C,Y)位置，在左眼合成影像中成像於(X_L,Y)，在右眼合成影像中成像於(X_R,Y)。

值得一提的是，本發明適用於即時二維(2D)轉三維(3D)的技術，藉由程式平行化加速即可達到即時轉換的目的。例如，使用一般常用的平行處理函式庫OpenMP來執行多執行緒的平行化運算，即可進行即時轉換的動作，進而能夠符合一般大眾的用途。

由上可知，本發明所可達成之功效在於：

一、可提昇轉換後的視訊的深度品質，增進相鄰時間的深度連續性，進而提高人眼觀賞時的舒適度。

二、可對字幕區域進行處理，能夠增進字幕區域的立體感，提昇觀看時的適舒適性。

三、適用於即時二維(2D)轉三維(3D)的需求，可符合一般大眾的用途。

10．．．將平面視訊轉換為立體視訊的系統

11．．．視訊內容分析單元

12．．．視訊解碼器

14．．．場景變換偵測器

16．．．拍攝手法分析器

21．．．深度估測單元

22．．．移動線索計算器

24．．．對比值線索計算器

26．．．深度線索融合器

31．．．深度後處理單元

32．．．空間域深度圖修正器

34．．．時間域深度圖修正器

36．．．深度圖重取樣器

38．．．字幕區域深度處理器

41．．．立體視訊產生單元

第一圖係本發明一較佳實施例之組成示意圖。

第二圖係本發明一較佳實施例之部分元件示意圖，顯示視訊內容分析單元的組成。

第三圖係本發明一較佳實施例之流程示意圖，顯示拍攝手法分析器對分析結果予以分類的狀態。

第四圖係本發明一較佳實施例之部分元件示意圖，顯示深度估測單元的組成。

第五圖係本發明一較佳實施例之部分元件示意圖，顯示深度後處理單元的組成。

第六圖係本發明一較佳實施例之流程示意圖，顯示空間域深度圖修正器進行修正的過程。

第七圖係本發明一較佳實施例之部分元件示意圖，顯示字幕區域深度處理器之處理步驟。

第八圖係本發明一較佳實施例之動作示意圖，顯示將最終深度圖與二維視訊資料合成出三維視訊資料的狀態。

10．．．將平面視訊轉換為立體視訊的系統

11．．．視訊內容分析單元

21．．．深度估測單元

31．．．深度後處理單元

41．．．立體視訊產生單元

Claims

一種將平面視訊轉換為立體視訊的系統，包含有：一視訊內容分析單元，用以對一二維(2D)視訊資料進行分析，並由該二維視訊資料擷取出一包括移動資訊及顏色資訊的可用資訊供深度估測使用；一深度估測單元，用以接收該可用資訊，計算移動線索及對比值線索以進行初始深度估測，並產生一初始深度圖；一深度後處理單元，用以對該初始深度圖進行空間域、時間域修正，以提高深度圖在空間域的正確性及相鄰時間點的深度連續性，並處理視訊中的字幕資訊，以產生一最終深度圖；以及一立體視訊產生單元，用以將該最終深度圖與該二維視訊資料合成，以產生一三維(3D)視訊資料。
依據申請專利範圍第1項所述之將平面視訊轉換為立體視訊的系統，其中：該視訊內容分析單元具有一視訊解碼器、一場景變換偵測器以及一拍攝手法分析器；該視訊解碼器係在當該二維視訊資料為一壓縮視訊資料時用以對該二維視訊資料進行解碼，以取得YUV資訊做為估測深度之用，以及取得移動向量做為深度估測時的物體移動資訊，該YUV資訊與該移動向量即為該可用資訊；該場景變換偵測器係使用一種改良直方圖比對法來比較該二維視訊資料中相鄰畫面之間亮度分佈的差異性，進而判斷是否有場景變換的狀況；該拍攝手法分析器係用以分析該二維視訊資料在拍攝時的攝影機運動方式、畫面中物體的運動量以及畫面複雜度，並將分析結果予以分類。
依據申請專利範圍第2項所述之將平面視訊轉換為立體視訊的系統，其中：該改良直方圖比對法，主要係將目前畫面切割為複數區塊，比較相鄰畫面同位置區塊的直方圖差異，且在同一畫面中各個區塊設定的差異臨界值不同，在中央的數個區塊的差異臨界值較大，藉由計算超過臨界值的區塊數量來判斷是否有場景切換的狀況發生。
依據申請專利範圍第2項所述之將平面視訊轉換為立體視訊的系統，其中：該拍攝手法分析器在分類分析結果時，係分為四種類型：(一)畫面中物體不動且攝影機也不動，即畫面幾乎呈靜止狀態；(二)畫面中物體不動但攝影機移動；(三)畫面中物體移動，而攝影機為可動或可不動，但畫面場景資訊較為簡單；(四)畫面中物體移動，而攝影機為可動或可不動，但畫面場景資訊較為複雜。
依據申請專利範圍第4項所述之將平面視訊轉換為立體視訊的系統，其中：畫面場景資訊的簡單或複雜，係由畫面像素灰階的變異性來判斷，藉由設定一變異性臨界值，高於該變異性臨界值的畫面場景資訊即判斷為複雜，反之則判斷為簡單。
依據申請專利範圍第4項所述之將平面視訊轉換為立體視訊的系統，其中：該深度估測單元具有一移動線索計算器、一對比值線索計算器以及一深度線索融合器；該移動線索計算器，係係以將畫面切割為複數區塊的方式來計算前述各該區塊內的移動向量，或取用該視訊解碼器所解碼的移動向量，進而計算出移動線索，再判斷目前區塊與鄰近區塊的移動向量在各方向的數量，若相同方向的數量較小則判斷該目前區塊與鄰近區塊的影像趨於凌亂，無需修正，若數量較大，則將屬於優勢方向的移動向量平均值用以取代修正該目前區塊的移動向量，並重新計算移動線索；該對比值線索計算器，係以計算對比值的方法，藉由計算各個區塊內像素的亮度灰階值來計算取得對比值線索；該深度線索融合器，係將該移動線索計算器所計算出的移動線索與該對比值線索計算器所計算出的對比值線索予以融合，以得到該初始深度圖；其中，前述之融合係指：依該拍攝手法分析器所分類的四種類型狀況來調整移動線索或對比值線索的權重。
依據申請專利範圍第1項所述之將平面視訊轉換為立體視訊的系統，其中：該深度後處理單元具有一空間域深度圖修正器、一時間域深度圖修正器、一深度圖重取樣器以及一字幕區域深度處理器；該空間域深度圖修正器係依該初始深度圖將目前畫面中的前景區域取出，再對該前景區域給予空間上的深度修正；該時間域深度圖修正器係以濾波技術來修正該初始深度圖，藉以提高相鄰時間點的深度連續性；該深度圖重取樣器係利用雙向濾波器以及重取樣的技術來放大及修正該初始深度圖；該字幕區域深度處理器，係先偵測目前畫面是否有字幕區域，再偵測該字幕區域內的字元，之後再給予該字幕適當的深度資訊；在完成前述之空間域、時間域的深度修正、重取樣放大以及字幕區域的深度處理後，即產生該最終深度圖。
依據申請專利範圍第7項所述之將平面視訊轉換為立體視訊的系統，其中：該濾波技術係為指數平滑濾波技術或中值濾波技術其中之一。
依據申請專利範圍第1項所述之將平面視訊轉換為立體視訊的系統，其中：該立體視訊產生單元係利用深度影像繪圖法，將該最終深度圖與該二維視訊資料合成，配合正、負視差特性合成出立體效果，產生出該三維視訊資料。