TWI754487B

TWI754487B - 應用深度學習的二維影像轉三維影像的系統與方法

Info

Publication number: TWI754487B
Application number: TW109143782A
Authority: TW
Inventors: 鄭江紅; 閆鑫; 施清德
Original assignee: 大陸商深圳市博浩光電科技有限公司
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2022-02-01
Also published as: TW202224423A

Abstract

本發明公開一種應用深度學習的二維影像轉三維影像的系統，其包括一二維(Two-Dimension，2D)影像景深生成模組、一新視角生成模組與一三維(Three-Dimension，3D)影像顯示器。二維影像景深生成模組包括一2D影像採集單元與一景深計算單元，2D影像採集單元用於接收至少一2D影像，景深計算單元連接2D影像採集單元，用於進行至少一2D影像的至少一景深圖的建立。新視角生成模組連接景深計算單元，用於結合至少一2D影像與至少一景深圖以輸出一三維影像。3D影像顯示器連接新視角生成模組，用於顯示3D影像。

Description

應用深度學習的二維影像轉三維影像的系統與方法

本發明涉及一種二維影像轉三維影像的系統與方法，特別是涉及一種應用深度學習的二維影像轉三維影像的系統與方法。

在三維(Three-Dimension，3D)影像中，其所包含的資訊(例如影像中物體形狀或景深程度等)比二維(Two-Dimension，2D)影像更多，因此，直接從2D影像推測3D影像形狀對計算機而言並不是容易的工作。然而，對人類來說，對於生活中常見到的物體，常常可以從單一角度看，就可以推測物體的整個形狀(在三維空間中的樣子)，人類之所以能做到這樣是因為長久經驗的累積，因此對於計算機而言，如果能學習夠多的2D影像以及3D形狀的資訊，理應可以將2D影像成功地轉換為3D影像。

因此，近來有不少應用深度學習的2D影像轉3D影像的方法，利用大量的訓練資料(例如：影像以及相對應的三維形狀)來訓練深度學習的神經網路建構的模型，達到由單張或多張2D影像作為輸入，推測轉換為3D影像。

然而，採用深度學習方法預測2D影像的景深時，並無法準確模擬還原真實3D影像的景深程度，而且逐幀(frame)景深結果難以將影像的抖動問題消除。另外，影像的景深預測是應用卷積神經網路(Convolutional Neural Network，CNN)模型來做預測，深度學習的模型訓練損失函數不可能降到0，誤差總存在。以深度影像為基礎的繪圖(Depth-Image-Based Rendering，DIBR)轉換模型需要設定多個參數還原3D的影像效果，新生成的影像視角部分的圖像是有缺失的，應用深度學習(DIBR)的補圖不是真正的缺失還原。

應用深度影像為基礎的繪圖(DIBR)生成3D視頻時，雙目距離、觀影距離或出入屏效果參數等需要根據實際場景設置觀影參數。而且，在深度學習中，3D影像的補圖，並不能還原真實缺失的圖像。景深預測通常是利用深度學習的卷積神經網路(Convolutional Neural Network，CNN)模型，通過學習大量深度圖像素材，在建立的損失函數基礎上，優化CNN模型結構各層參數，最終利用訓練得到的CNN模型離線預測深度圖像對應的3D景深圖像。深度圖像在DIBR演算演算法下生成虛擬新視角，並和原圖一起構成3D圖像。

故，如何通過設計改良，來提升深度學習的影像轉換效果，來克服上述的缺陷，已成為該項事業所欲解決的重要課題之一。

本發明所要解決的技術問題在於解決現有二維影像轉三維影像的轉換效果差，針對現有技術的不足提供應用深度學習的二維影像轉三維影像的系統，其採用黑洞填補技術以生成較佳的三維影像。

為瞭解決上述的技術問題，本發明所採用的其中一技術方案是提供一種應用深度學習的二維影像轉三維影像的系統，其包括一二維(Two-Dimension，2D)影像景深生成模組、一新視角生成模組與一三維(Three-Dimension，3D)影像顯示器。二維影像景深生成模組包括一2D影像採集單元與一景深計算單元，2D影像採集單元用於接收至少一2D影像，景深計算單元連接2D影像採集單元，用於進行至少一2D影像的至少一景深圖的建立。新視角生成模組連接景深計算單元，用於結合至少一2D影像與至少一景深圖以輸出一三維影像。3D影像顯示器連接新視角生成模組，用於顯示3D影像。

為瞭解決上述的技術問題，本發明所採用的另外一技術方案是提供一種應用深度學習的二維影像轉三維影像的方法，其包括：收集至少一2D影像，並將至少一2D影像傳送至一景深計算單元進行至少一景深圖的建立；透過取樣實現至少一2D影像的解析度轉換；應用多個卷積神經網路(Convolutional Neural Network，CNN)模型進行至少一2D影像的至少一景深圖預測；用一新視角生成模組結合至少一2D影像與至少一景深圖以生成一3D影像；以及以單通道景深影像輸出方式輸出經過深度處理的3D影像。

本發明的其中一有益效果在於，本發明所提供的應用深度學習的二維影像轉三維影像的系統與方法，其能通過卷積神經網路模型以及黑洞填補技術的技術方案，最大限度的保留了原始2D影像的主要資訊，同時去除冗餘資訊，進而有效地表徵景深訊息，可以獲得較佳的3D轉換效果。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

10:二維影像轉三維影像的系統

11:二維(2D)影像景深生成模組

111:2D影像採集單元

112:景深計算單元

1121:彩色影像輸入器

1122:下取樣器

1123:影像調整器

1124:第一卷積計算器

1125:編碼器

1125A:區塊

1125B:第二卷積計算器

1126:解碼器

1126A:上取樣器

1127:疊加器

1127A:多解析度特徵融合器

1127B:第三卷積計算器

1128:影像增強器

1128A:第四卷積計算器

1129:單通道景深影像輸出器

12:新視角生成模組

121:三維(3D)影像生成模組

122:黑洞填補模組

13:三維影像顯示器

S401-S405:步驟

圖1為本發明應用深度學習的二維影像轉三維影像的系統方塊圖。

圖2為本發明所應用之卷積神經網路架構的示意圖。

圖3為本發明應用深度影像為基礎的繪圖(DIBR)的示意圖。

圖4為應用深度學習的二維影像轉三維影像的方法流程圖。

以下是通過特定的具體實施例來說明本發明所公開有關“應用深度學習的二維影像轉三維影像的系統與方法”的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

[系統實施例]

參閱圖1所示，本發明實施例提供一種應用深度學習的二維影像轉三維影像的系統10，其包括一二維(Two-Dimension，2D)影像景深生成模組11、一新視角生成模組12以及一三維(Three-Dimension，3D)影像顯示器13。

2D影像景深生成模組11包括一2D影像採集單元111與一景深計算單元112，2D影像採集單元111接收至少一2D影像，並可以將所接收至少一2D影像傳送至景深計算單元112進行2D影像的景深圖的建立，景深圖是一種由灰階值介於0到255的圖元所構成的影像。灰階值為0的圖元代表這個影像的圖元是位元於最遠或最近的地方，而灰階值為255的圖元代表這個影像圖元是位元於最近或最遠的地方。在景深圖中，每一個圖元將定義其所對應的2D圖元在Z-軸的位置，因此，透過產生2D影像的景深圖，可以將2D影像產生立體效果。

本發明的景深計算單元112主要採用卷積神經網路(Convolutional Neural Network，CNN)模型進行景深影像的預測。卷積神經網路是一種深度學習的神經網路，卷積神經網路已經廣泛應用在影像辨識中，其辨識精準度甚至超越人類辨識，由於卷積神經網路的原理與運作方式為本領域具有通常知識者所熟知，在此不再贅述。在本發明中，景深計算單元112採用CNN網路模型進行預測以產生景深圖，構建深度學習的CNN網路模型，並通過訓練大量彩色圖像(RGB+影像深度(Depth))，並以神經網路模型的損失函數對訓練過程進行約束，進而獲得較佳的景深圖。

圖2顯示本發明所應用之卷積神經網路架構的示意圖，2D影像經過多解析度、下採樣與上採樣過程，分別將上採樣與下採樣的各層特徵進行融合，形成現狀如U型的網路結構，最大限度的保留了原始圖像的主要資訊，同時去掉冗餘資訊用來表徵景深資訊，最後生成景深圖。其中，所謂的U型網路結構，是在卷積神經網路的前段部分實現逐層卷積操作，2D影像尺寸減小，特徵壓縮，卷積神經網路的後段部分實現逐層反卷積操作，2D影像尺寸逐層增加到輸入尺寸大小。

詳細來說，本發明的景深計算單元112包括一彩色影像輸入器1121、一下取樣器(downsample)1122、一影像調整器1123、一第一卷積計算器1124、一編碼器(encoder)1125、一解碼器(decoder)1126、一疊加器(concatenate)1127、一影像增強器(refinement)1128以及一單通道景深影像輸出器1129。其中，彩色影像輸入器1121連接2D影像採集單元111，其用於接收至少一2D影像，下取樣器1122連接彩色影像輸入器1121，下取樣器1122用於下取樣至少一2D影像，舉例來說，原本傳輸至彩色影像輸入器至少一2D影像的解析度為640X480，經過下取樣器1122的取樣，將至少一2D影像取樣為解析度320X240的影像。影像調整器1123連接下取樣器1122，其用於將調整取樣後的至少一2D影像，去除至少一2D影像中的雜訊或裁切至少一2D影像中不需要的影像邊緣等，例如，將解析度為320X240的2D影像剪裁至解析度為304X228的2D影像。第一卷積計算器1124連接影像調整器1123，其用於擷取下取樣以及調整或後之至少一2D影像中的特徵。

編碼器1125連接第一卷積計算器(Conv 1)1124，其包括多個區塊1125A與一第二卷積計算器(Conv 2)1125B，每個區塊1125A可以抽取2D影像不同解析度的特徵影像，例如1/4、1/8、1/16或1/32，相同解析度的2D影像的資料量並不等於其擁有的資訊量，改變影像圖片的解析度並不一定會改變資訊量，期望在不減少每張影像圖片資訊量情況下，有效減少影像圖片資料量，加快分析效率，因此，通過編碼器1125改變2D影像的圖片解析度，以加快影像圖片分析效率，並將改變圖片解析度的2D影像傳送至第二卷積計算器1125B進行影像特徵擷取。

解碼器1126連接編碼器1125，其包括多個上取樣(up)器1126A，例如，可以實現將1/32特徵解析度的2D影像轉換為1/2特徵解析度的2D影像。疊加器1127連接編碼器1125與解碼器1126，其包括多個多解析度特徵融合(multi-scale feature fusion module，MFF)器1127A以及一第三卷積計算器(Conv 3)1127B，疊加器1127接收經過編碼器1125改變解析度的2D影像或經過解碼器1126的上取樣1125A的2D影像，然後通過進行多解析度特徵融合器1127A，再將經過多解析度特徵融合的2D影像經過第三卷積計算器1127B擷取特徵。影像增強器1128連接疊加器1127，且包括多個第四卷積計算器(Conv 4)1128A，影像增強器1128通過多個第四卷積計算器1128A提升2D影像的特徵擷取，以獲得較佳的2D影像的景深圖，單通道景深影像輸出器1129連接影像增強器1128，接收以輸出經過深度擷取之2D影像的景深圖。

在第一卷積計算器1124、第二卷積計算器1125B、第三卷積計算器1127B與第四卷積計算器1128A中，景深預測模型損失函數用來表示卷積神經網路輸出結果與真實景深的距離，本發明採用聯合損失函數L=I _depth+λI _grad+μI _normal，其中，λ與μ為子損失函數的權重係數、I _depth為全域景深圖歐拉損失函數、I _grad為景深圖空間倒數損失函數以及I _normal為表面法向量點積誤差損失函數。設di為影像(pix)的預測景深值，gi為標籤景深值，測pix誤差可表示為e _i=∥d _i-g _i∥，為了表徵全域深度誤差F(x)，令F(x)=ln(x+a)(a>0)，其中，x為pix誤差，a為任意大於0的實數，計算全域景深圖歐拉損失函數

，景深圖的影像邊緣處的輪廓對3D轉換的效果影響較大，為了更好得到表示圖像邊沿的深度誤差，因此，提出計算景深圖空間倒數損失函數

，景深圖具有連續性的景深能增強最終生成的3D圖效果，因此，提出了景深圖表面法向量點積誤差損失函數，設

，

，將景深圖分別沿橫軸與縱軸方向作3X3矩陣的索伯(Sobel)運算，其中，▽_x(d _i)，▽_y(d _i)分別表示圖像任意座標點在橫軸方向與縱軸方向的Sobel運算值，則

其中

、

的表述見上文。

新視角生成模組12連接2D影像景深生成模組11，根據2D影像景深生成模組11接收至少一2D影像以及景深圖，新視角生成模組12結合至少一2D影像與景深圖以生成具有不同視角的2D影像。新視角生成模組12包括一3D影像生成模組121與一黑洞填補模組122，3D影像生成模組121應用深度影像為基礎的繪圖(DIBR)的技術，如圖3所示，其中虛擬視角圖可表示為

，Cr為原相機，Cv為虛擬相機，公式中X_v為水準方向矩陣向量，X_r為水準虛擬矩陣向量，B為兩個相機的距離，Zc為兩個相機的融合距離，Fr、Fv為兩個相機的焦距，當位移s=-1時，估計視角在左側，位移s=+1時，虛擬視角在右側，Z表示在(x，y)位置的景深值，h為相機軸水準平移距離。

黑洞填補模組122是應用基於快速進行方法的圖像修復的技術，該技術從影像的空洞邊界開始修復，然後進入影像區域內，逐漸填充影像邊界的所有內容，其需要在近鄰的圖元周圍的小領域內進行修復。另外，本發明的黑洞填補模組122進一步應用流體動力學和圖像和視頻修補的技術，該技術是基於流體動力學並利用偏微分方程。首先沿著影像邊緣，從已知區域移動到未知區域(因為邊緣是連續的)，其延續了等距線(線連接具有相同強度的點，就像輪廓線連接具有相同高程的點一樣)，同時在修復區域的邊界匹配梯度向量。通過上述的黑洞填補技術，就可以輸出轉換後具有3D立體效果的影像至3D影像顯示器13顯示。

[方法實施例]

圖4為本發明應用深度學習的二維影像轉三維影像方法的流程圖，如圖4所示，其方法包括下列步驟。

在步驟S401中，收集至少一2D影像，並將至少一2D影像傳送至一景深計算單元進行景深圖的建立。為了將2D影像轉換為3D影像，將所收集的2D影像進行影像的景深圖建立，景深圖是一種由灰階值介於0到255的圖元所構成的影像。灰階值為0的圖元代表這個影像的圖元是位元於最遠的地方，而灰階值為255的圖元代表這個影像圖元是位元於最近的地方。在景深圖中，每一個圖元將定義其所對應的2D圖元在Z-軸的位置，透過景深圖的建立才可以建構出具立體感的3D影像。

在步驟S402中，透過取樣實現至少一2D影像的解析度轉換。舉例來說，原本傳輸至彩色影像輸入器至少一2D影像的解析度為640X480，經過下取樣的取樣，將至少一2D影像取樣為解析度320X240的影像。接著，可以將調整取樣後的至少一2D影像，去除至少一2D影像中的雜訊或裁切至少一2D影像中不需要的影像邊緣等，例如，將解析度為320X240的2D影像剪裁至解析度為304X228的2D影像。或者，應用上取樣器，將1/32特徵解析度的2D影像轉換為1/2特徵解析度的2D影像，然後將經過改變解析度的2D影像或經過上取樣的2D影像通過進行多解析度特徵融合將經過多解析度特徵融合的2D影像經過卷積計算擷取特徵，再次應用卷積計算提升2D影像的特徵擷取，以獲得較佳的2D影像的景深圖。

在步驟S403中，應用卷積神經網路(Convolutional Neural Network，CNN)模型進行至少一2D影像的至少一景深圖預測。卷積神經網路是一種深度學習的神經網路，卷積神經網路已經廣泛應用在影像辨識中，其辨識精準度甚至超越人類辨識，由於卷積神經網路的原理與運作方式為本領域具有通常知識者所熟知，在此不再贅述。在本發明中，採用CNN網路模型進行預測以產生景深圖，構建深度學習的CNN網路，並通過訓練大量彩色圖像(RGB+影像深度(Depth))，並以神經網路的損失函數對訓練過程進行約束。

詳細來說，在建立至少一2D影像的景深圖的過程中，先將解析度為640X480的2D影像經過下取樣的取樣為320X240的解析度。然後，去除2D影像中的雜訊，或者裁切至少一2D影像中不需要的影像邊緣等，舉例來說，將解析度為320X240的2D影像剪裁為解析度304X228的2D影像，此時，進行第一次卷積計算，以擷取至少一2D影像中的特徵。為了要獲取較佳的景深圖，本發明的方法中，抽取2D影像的不同解析度的特徵影像，例如解析度為1/4、1/8、1/16或1/32，相同解析度的2D影像的資料量並不等於其擁有的資訊量，改變影像圖片解析度並不一定會改變資訊量，期望在不減少每張影像圖片資訊量情況下，有效減少影像圖片資料量，加快分析效率，因此，通過改變2D 影像的圖片解析度，以加快影像圖片分析效率，並將改變圖片解析度的2D影像進行第二次卷積計算以進行影像特徵擷取。

在步驟S404中，應用一新視角生成模組結合至少一2D影像與至少一景深圖以生成一3D影像。新視角生成模組12包括一3D影像生成模組121與一黑洞填補模組122，3D影像生成模組121應用DIBR的技術，如圖3所示，其中，虛擬視角圖可表示為

，Cr為原相機，Cv為虛擬相機，公式中Xv為水準方向矩陣向量，Xr為水準虛擬矩陣向量，B為兩個相機的距離，Zc為兩個相機的融合距離，Fr、Fv為兩個相機的焦距，當s=-1時，估計視角在左側，s=+1時，虛擬視角在右側，Z表示在(x，y)位置的景深值，h為相機軸水準平移距離。

黑洞填補模組122是應用基於快速進行方法的圖像修復的技術，該技術從影像的空洞邊界開始修復，然後進入影像區域內，逐漸填充影像邊界的所有內容，其需要在近鄰的圖元周圍的小領域內進行修復。另外，本發明的黑洞填補模組122進一步應用流體動力學和圖像和視頻修補的技術，該技術是基於流體動力學並利用偏微分方程。首先沿著邊緣從已知區域移動到未知區域(因為邊緣是連續的)，其延續了等距線(線連接具有相同強度的點，就像輪廓線連接具有相同高程的點一樣)，同時在修復區域的邊界匹配梯度向量。通過上述的黑洞填補技術，就可以輸出轉換後的具有3D顯示的影像至3D影像顯示器13顯示。

在步驟S405，以單通道景深影像輸出方式輸出經過深度處理之3D影像。最後，通過上述的黑洞填補技術而完成的3D影像，就可以通過單通道影像輸出的方式輸出轉換後具有3D立體效果的影像至3D影像顯示器13顯示。

[實施例的有益效果]

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。