TWI754487B - 應用深度學習的二維影像轉三維影像的系統與方法 - Google Patents

應用深度學習的二維影像轉三維影像的系統與方法 Download PDF

Info

Publication number
TWI754487B
TWI754487B TW109143782A TW109143782A TWI754487B TW I754487 B TWI754487 B TW I754487B TW 109143782 A TW109143782 A TW 109143782A TW 109143782 A TW109143782 A TW 109143782A TW I754487 B TWI754487 B TW I754487B
Authority
TW
Taiwan
Prior art keywords
image
depth
loss function
generation module
depth map
Prior art date
Application number
TW109143782A
Other languages
English (en)
Other versions
TW202224423A (zh
Inventor
鄭江紅
閆鑫
施清德
Original Assignee
大陸商深圳市博浩光電科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市博浩光電科技有限公司 filed Critical 大陸商深圳市博浩光電科技有限公司
Priority to TW109143782A priority Critical patent/TWI754487B/zh
Application granted granted Critical
Publication of TWI754487B publication Critical patent/TWI754487B/zh
Publication of TW202224423A publication Critical patent/TW202224423A/zh

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本發明公開一種應用深度學習的二維影像轉三維影像的系統,其包括一二維(Two-Dimension,2D)影像景深生成模組、一新視角生成模組與一三維(Three-Dimension,3D)影像顯示器。二維影像景深生成模組包括一2D影像採集單元與一景深計算單元,2D影像採集單元用於接收至少一2D影像,景深計算單元連接2D影像採集單元,用於進行至少一2D影像的至少一景深圖的建立。新視角生成模組連接景深計算單元,用於結合至少一2D影像與至少一景深圖以輸出一三維影像。3D影像顯示器連接新視角生成模組,用於顯示3D影像。

Description

應用深度學習的二維影像轉三維影像的系統與方法
本發明涉及一種二維影像轉三維影像的系統與方法,特別是涉及一種應用深度學習的二維影像轉三維影像的系統與方法。
在三維(Three-Dimension,3D)影像中,其所包含的資訊(例如影像中物體形狀或景深程度等)比二維(Two-Dimension,2D)影像更多,因此,直接從2D影像推測3D影像形狀對計算機而言並不是容易的工作。然而,對人類來說,對於生活中常見到的物體,常常可以從單一角度看,就可以推測物體的整個形狀(在三維空間中的樣子),人類之所以能做到這樣是因為長久經驗的累積,因此對於計算機而言,如果能學習夠多的2D影像以及3D形狀的資訊,理應可以將2D影像成功地轉換為3D影像。
因此,近來有不少應用深度學習的2D影像轉3D影像的方法,利用大量的訓練資料(例如:影像以及相對應的三維形狀)來訓練深度學習的神經網路建構的模型,達到由單張或多張2D影像作為輸入,推測轉換為3D影像。
然而,採用深度學習方法預測2D影像的景深時,並無法準確模擬還原真實3D影像的景深程度,而且逐幀(frame)景深結果難以將影像的抖動問題消除。另外,影像的景深預測是應用卷積神經網路(Convolutional Neural Network,CNN)模型來做預測,深度學習的模型訓練損失函數不可能降到0,誤差總存在。以深度影像為基礎的繪圖(Depth-Image-Based Rendering,DIBR)轉換模型需要設定多個參數還原3D的影像效果,新生成的影像視角部分的圖像是有缺失的,應用深度學習(DIBR)的補圖不是真正的缺失還原。
應用深度影像為基礎的繪圖(DIBR)生成3D視頻時,雙目距離、觀影距離或出入屏效果參數等需要根據實際場景設置觀影參數。而且,在深度學習中,3D影像的補圖,並不能還原真實缺失的圖像。景深預測通常是利用深度學習的卷積神經網路(Convolutional Neural Network,CNN)模型,通過學習大量深度圖像素材,在建立的損失函數基礎上,優化CNN模型結構各層參數,最終利用訓練得到的CNN模型離線預測深度圖像對應的3D景深圖像。深度圖像在DIBR演算演算法下生成虛擬新視角,並和原圖一起構成3D圖像。
故,如何通過設計改良,來提升深度學習的影像轉換效果,來克服上述的缺陷,已成為該項事業所欲解決的重要課題之一。
本發明所要解決的技術問題在於解決現有二維影像轉三維影像的轉換效果差,針對現有技術的不足提供應用深度學習的二維影像轉三維影像的系統,其採用黑洞填補技術以生成較佳的三維影像。
為瞭解決上述的技術問題,本發明所採用的其中一技術方案是提供一種應用深度學習的二維影像轉三維影像的系統,其包括一二維(Two-Dimension,2D)影像景深生成模組、一新視角生成模組與一三維(Three-Dimension,3D)影像顯示器。二維影像景深生成模組包括一2D影像採集單元與一景深計算單元,2D影像採集單元用於接收至少一2D影像,景深計 算單元連接2D影像採集單元,用於進行至少一2D影像的至少一景深圖的建立。新視角生成模組連接景深計算單元,用於結合至少一2D影像與至少一景深圖以輸出一三維影像。3D影像顯示器連接新視角生成模組,用於顯示3D影像。
為瞭解決上述的技術問題,本發明所採用的另外一技術方案是提供一種應用深度學習的二維影像轉三維影像的方法,其包括:收集至少一2D影像,並將至少一2D影像傳送至一景深計算單元進行至少一景深圖的建立;透過取樣實現至少一2D影像的解析度轉換;應用多個卷積神經網路(Convolutional Neural Network,CNN)模型進行至少一2D影像的至少一景深圖預測;用一新視角生成模組結合至少一2D影像與至少一景深圖以生成一3D影像;以及以單通道景深影像輸出方式輸出經過深度處理的3D影像。
本發明的其中一有益效果在於,本發明所提供的應用深度學習的二維影像轉三維影像的系統與方法,其能通過卷積神經網路模型以及黑洞填補技術的技術方案,最大限度的保留了原始2D影像的主要資訊,同時去除冗餘資訊,進而有效地表徵景深訊息,可以獲得較佳的3D轉換效果。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
10:二維影像轉三維影像的系統
11:二維(2D)影像景深生成模組
111:2D影像採集單元
112:景深計算單元
1121:彩色影像輸入器
1122:下取樣器
1123:影像調整器
1124:第一卷積計算器
1125:編碼器
1125A:區塊
1125B:第二卷積計算器
1126:解碼器
1126A:上取樣器
1127:疊加器
1127A:多解析度特徵融合器
1127B:第三卷積計算器
1128:影像增強器
1128A:第四卷積計算器
1129:單通道景深影像輸出器
12:新視角生成模組
121:三維(3D)影像生成模組
122:黑洞填補模組
13:三維影像顯示器
S401-S405:步驟
圖1為本發明應用深度學習的二維影像轉三維影像的系統方塊圖。
圖2為本發明所應用之卷積神經網路架構的示意圖。
圖3為本發明應用深度影像為基礎的繪圖(DIBR)的示意圖。
圖4為應用深度學習的二維影像轉三維影像的方法流程圖。
以下是通過特定的具體實施例來說明本發明所公開有關“應用深度學習的二維影像轉三維影像的系統與方法”的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不背離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
[系統實施例]
參閱圖1所示,本發明實施例提供一種應用深度學習的二維影像轉三維影像的系統10,其包括一二維(Two-Dimension,2D)影像景深生成模組11、一新視角生成模組12以及一三維(Three-Dimension,3D)影像顯示器13。
2D影像景深生成模組11包括一2D影像採集單元111與一景深計算單元112,2D影像採集單元111接收至少一2D影像,並可以將所接收至少一2D影像傳送至景深計算單元112進行2D影像的景深圖的建立,景深圖是一種由灰階值介於0到255的圖元所構成的影像。灰階值為0的圖元代表這個影像的圖元是位元於最遠或最近的地方,而灰階值為255的圖元代表這個影像圖元是位元於最近或最遠的地方。在景深圖中,每一個圖元將定義其所對應的2D圖元在Z-軸的位置,因此,透過產生2D影像的景深圖,可以將2D影像產生立體效果。
本發明的景深計算單元112主要採用卷積神經網路(Convolutional Neural Network,CNN)模型進行景深影像的預測。卷積神經網路是一種深度學習的神經網路,卷積神經網路已經廣泛應用在影像辨識中,其辨識精準度甚至超越人類辨識,由於卷積神經網路的原理與運作方式為本領域具有通常知識者所熟知,在此不再贅述。在本發明中,景深計算單元112採用CNN網路模型進行預測以產生景深圖,構建深度學習的CNN網路模型,並通過訓練大量彩色圖像(RGB+影像深度(Depth)),並以神經網路模型的損失函數對訓練過程進行約束,進而獲得較佳的景深圖。
圖2顯示本發明所應用之卷積神經網路架構的示意圖,2D影像經過多解析度、下採樣與上採樣過程,分別將上採樣與下採樣的各層特徵進行融合,形成現狀如U型的網路結構,最大限度的保留了原始圖像的主要資訊,同時去掉冗餘資訊用來表徵景深資訊,最後生成景深圖。其中,所謂的U型網路結構,是在卷積神經網路的前段部分實現逐層卷積操作,2D影像尺寸減小,特徵壓縮,卷積神經網路的後段部分實現逐層反卷積操作,2D影像尺寸逐層增加到輸入尺寸大小。
詳細來說,本發明的景深計算單元112包括一彩色影像輸入器1121、一下取樣器(downsample)1122、一影像調整器1123、一第一卷積計算器1124、一編碼器(encoder)1125、一解碼器(decoder)1126、一疊加器(concatenate)1127、一影像增強器(refinement)1128以及一單通道景深影像輸出器1129。其中,彩色影像輸入器1121連接2D影像採集單元111,其用於接收至少一2D影像,下取樣器1122連接彩色影像輸入器1121,下取樣器1122用於下取樣至少一2D影像,舉例來說,原本傳輸至彩色影像輸入器至少一2D影像的解析度為640X480,經過下取樣器1122的取樣,將至少一2D影像取樣為解析度320X240的影像。影像調整器1123連接下取樣器1122,其用於將調整取樣後 的至少一2D影像,去除至少一2D影像中的雜訊或裁切至少一2D影像中不需要的影像邊緣等,例如,將解析度為320X240的2D影像剪裁至解析度為304X228的2D影像。第一卷積計算器1124連接影像調整器1123,其用於擷取下取樣以及調整或後之至少一2D影像中的特徵。
編碼器1125連接第一卷積計算器(Conv 1)1124,其包括多個區塊1125A與一第二卷積計算器(Conv 2)1125B,每個區塊1125A可以抽取2D影像不同解析度的特徵影像,例如1/4、1/8、1/16或1/32,相同解析度的2D影像的資料量並不等於其擁有的資訊量,改變影像圖片的解析度並不一定會改變資訊量,期望在不減少每張影像圖片資訊量情況下,有效減少影像圖片資料量,加快分析效率,因此,通過編碼器1125改變2D影像的圖片解析度,以加快影像圖片分析效率,並將改變圖片解析度的2D影像傳送至第二卷積計算器1125B進行影像特徵擷取。
解碼器1126連接編碼器1125,其包括多個上取樣(up)器1126A,例如,可以實現將1/32特徵解析度的2D影像轉換為1/2特徵解析度的2D影像。疊加器1127連接編碼器1125與解碼器1126,其包括多個多解析度特徵融合(multi-scale feature fusion module,MFF)器1127A以及一第三卷積計算器(Conv 3)1127B,疊加器1127接收經過編碼器1125改變解析度的2D影像或經過解碼器1126的上取樣1125A的2D影像,然後通過進行多解析度特徵融合器1127A,再將經過多解析度特徵融合的2D影像經過第三卷積計算器1127B擷取特徵。影像增強器1128連接疊加器1127,且包括多個第四卷積計算器(Conv 4)1128A,影像增強器1128通過多個第四卷積計算器1128A提升2D影像的特徵擷取,以獲得較佳的2D影像的景深圖,單通道景深影像輸出器1129連接影像增強器1128,接收以輸出經過深度擷取之2D影像的景深圖。
在第一卷積計算器1124、第二卷積計算器1125B、第三卷積計 算器1127B與第四卷積計算器1128A中,景深預測模型損失函數用來表示卷積神經網路輸出結果與真實景深的距離,本發明採用聯合損失函數L=I depth +λI grad +μI normal ,其中,λ與μ為子損失函數的權重係數、I depth 為全域景深圖歐拉損失函數、I grad 為景深圖空間倒數損失函數以及I normal 為表面法向量點積誤差損失函數。設di為影像(pix)的預測景深值,gi為標籤景深值,測pix誤差可表示為e i =∥d i -g i ∥,為了表徵全域深度誤差F(x),令F(x)=ln(x+a)(a>0),其中,x為pix誤差,a為任意大於0的實數,計算全域景深圖歐拉損失函數
Figure 109143782-A0305-02-0010-1
,景深圖的影像邊緣處的輪廓對3D轉換的效果影響較大,為了更好得到表示圖像邊沿的深度誤差,因此,提出計算景深圖空間倒數損失函數
Figure 109143782-A0305-02-0010-2
,景深圖具有連續性的景深能增強最終生成的3D圖效果,因此,提出了景深圖表面法向量點積誤差損失函數,設
Figure 109143782-A0305-02-0010-3
Figure 109143782-A0305-02-0010-4
,將景深圖分別沿橫軸與縱軸方向作3X3矩陣的索伯(Sobel)運算,其中,▽x(d i ),▽y(d i )分別表示圖像任意座標點在橫軸方向與縱軸方向的Sobel運算值,則
Figure 109143782-A0305-02-0010-5
其中
Figure 109143782-A0305-02-0010-6
Figure 109143782-A0305-02-0010-7
的表述見上文。
新視角生成模組12連接2D影像景深生成模組11,根據2D影像景深生成模組11接收至少一2D影像以及景深圖,新視角生成模組12結合至少一2D影像與景深圖以生成具有不同視角的2D影像。新視角生成模組12包括一3D影像生成模組121與一黑洞填補模組122,3D影像生成模組121應用深度影像為基礎的繪圖(DIBR)的技術,如圖3所示,其中虛擬視角圖可表示為
Figure 109143782-A0305-02-0010-8
,Cr為原相機,Cv為虛擬相機,公式中Xv為水準方向矩陣向量,Xr為水準虛擬矩陣向量,B為兩個相機的距離,Zc為兩個相機的融合距 離,Fr、Fv為兩個相機的焦距,當位移s=-1時,估計視角在左側,位移s=+1時,虛擬視角在右側,Z表示在(x,y)位置的景深值,h為相機軸水準平移距離。
黑洞填補模組122是應用基於快速進行方法的圖像修復的技術,該技術從影像的空洞邊界開始修復,然後進入影像區域內,逐漸填充影像邊界的所有內容,其需要在近鄰的圖元周圍的小領域內進行修復。另外,本發明的黑洞填補模組122進一步應用流體動力學和圖像和視頻修補的技術,該技術是基於流體動力學並利用偏微分方程。首先沿著影像邊緣,從已知區域移動到未知區域(因為邊緣是連續的),其延續了等距線(線連接具有相同強度的點,就像輪廓線連接具有相同高程的點一樣),同時在修復區域的邊界匹配梯度向量。通過上述的黑洞填補技術,就可以輸出轉換後具有3D立體效果的影像至3D影像顯示器13顯示。
[方法實施例]
圖4為本發明應用深度學習的二維影像轉三維影像方法的流程圖,如圖4所示,其方法包括下列步驟。
在步驟S401中,收集至少一2D影像,並將至少一2D影像傳送至一景深計算單元進行景深圖的建立。為了將2D影像轉換為3D影像,將所收集的2D影像進行影像的景深圖建立,景深圖是一種由灰階值介於0到255的圖元所構成的影像。灰階值為0的圖元代表這個影像的圖元是位元於最遠的地方,而灰階值為255的圖元代表這個影像圖元是位元於最近的地方。在景深圖中,每一個圖元將定義其所對應的2D圖元在Z-軸的位置,透過景深圖的建立才可以建構出具立體感的3D影像。
在步驟S402中,透過取樣實現至少一2D影像的解析度轉換。舉例來說,原本傳輸至彩色影像輸入器至少一2D影像的解析度為640X480, 經過下取樣的取樣,將至少一2D影像取樣為解析度320X240的影像。接著,可以將調整取樣後的至少一2D影像,去除至少一2D影像中的雜訊或裁切至少一2D影像中不需要的影像邊緣等,例如,將解析度為320X240的2D影像剪裁至解析度為304X228的2D影像。或者,應用上取樣器,將1/32特徵解析度的2D影像轉換為1/2特徵解析度的2D影像,然後將經過改變解析度的2D影像或經過上取樣的2D影像通過進行多解析度特徵融合將經過多解析度特徵融合的2D影像經過卷積計算擷取特徵,再次應用卷積計算提升2D影像的特徵擷取,以獲得較佳的2D影像的景深圖。
在步驟S403中,應用卷積神經網路(Convolutional Neural Network,CNN)模型進行至少一2D影像的至少一景深圖預測。卷積神經網路是一種深度學習的神經網路,卷積神經網路已經廣泛應用在影像辨識中,其辨識精準度甚至超越人類辨識,由於卷積神經網路的原理與運作方式為本領域具有通常知識者所熟知,在此不再贅述。在本發明中,採用CNN網路模型進行預測以產生景深圖,構建深度學習的CNN網路,並通過訓練大量彩色圖像(RGB+影像深度(Depth)),並以神經網路的損失函數對訓練過程進行約束。
詳細來說,在建立至少一2D影像的景深圖的過程中,先將解析度為640X480的2D影像經過下取樣的取樣為320X240的解析度。然後,去除2D影像中的雜訊,或者裁切至少一2D影像中不需要的影像邊緣等,舉例來說,將解析度為320X240的2D影像剪裁為解析度304X228的2D影像,此時,進行第一次卷積計算,以擷取至少一2D影像中的特徵。為了要獲取較佳的景深圖,本發明的方法中,抽取2D影像的不同解析度的特徵影像,例如解析度為1/4、1/8、1/16或1/32,相同解析度的2D影像的資料量並不等於其擁有的資訊量,改變影像圖片解析度並不一定會改變資訊量,期望在不減少每張影像圖片資訊量情況下,有效減少影像圖片資料量,加快分析效率,因此,通過改變2D 影像的圖片解析度,以加快影像圖片分析效率,並將改變圖片解析度的2D影像進行第二次卷積計算以進行影像特徵擷取。
在步驟S404中,應用一新視角生成模組結合至少一2D影像與至少一景深圖以生成一3D影像。新視角生成模組12包括一3D影像生成模組121與一黑洞填補模組122,3D影像生成模組121應用DIBR的技術,如圖3所示,其中,虛擬視角圖可表示為
Figure 109143782-A0305-02-0013-9
,Cr為原相機,Cv為虛擬相機,公式中Xv為水準方向矩陣向量,Xr為水準虛擬矩陣向量,B為兩個相機的距離,Zc為兩個相機的融合距離,Fr、Fv為兩個相機的焦距,當s=-1時,估計視角在左側,s=+1時,虛擬視角在右側,Z表示在(x,y)位置的景深值,h為相機軸水準平移距離。
黑洞填補模組122是應用基於快速進行方法的圖像修復的技術,該技術從影像的空洞邊界開始修復,然後進入影像區域內,逐漸填充影像邊界的所有內容,其需要在近鄰的圖元周圍的小領域內進行修復。另外,本發明的黑洞填補模組122進一步應用流體動力學和圖像和視頻修補的技術,該技術是基於流體動力學並利用偏微分方程。首先沿著邊緣從已知區域移動到未知區域(因為邊緣是連續的),其延續了等距線(線連接具有相同強度的點,就像輪廓線連接具有相同高程的點一樣),同時在修復區域的邊界匹配梯度向量。通過上述的黑洞填補技術,就可以輸出轉換後的具有3D顯示的影像至3D影像顯示器13顯示。
在步驟S405,以單通道景深影像輸出方式輸出經過深度處理之3D影像。最後,通過上述的黑洞填補技術而完成的3D影像,就可以通過單通道影像輸出的方式輸出轉換後具有3D立體效果的影像至3D影像顯示器13顯示。
[實施例的有益效果]
本發明的其中一有益效果在於,本發明所提供的應用深度學習的二維影像轉三維影像的系統與方法,其能通過卷積神經網路模型以及黑洞填補技術的技術方案,最大限度的保留了原始2D影像的主要資訊,同時去除冗餘資訊,進而有效地表徵景深訊息,可以獲得較佳的3D轉換效果。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
10:二維影像轉三維影像的系統
11:二維(2D)影像景深生成模組
111:2D影像採集單元
112:景深計算單元
12:新視角生成模組
121:三維(3D)影像生成模組
122:黑洞填補模組
13:三維影像顯示器

Claims (7)

  1. 一種應用深度學習的二維影像轉三維影像的系統,其包括:一二維(Two-Dimension,2D)影像景深生成模組,包括:一2D影像採集單元,用於接收至少一2D影像;以及一景深計算單元,連接所述2D影像採集單元,用於進行至少一所述2D影像的至少一景深圖的建立;一新視角生成模組,連接所述景深計算單元,用於結合至少一所述2D影像與至少一所述景深圖,以輸出一三維(Three-Dimension,3D)影像;以及一3D影像顯示器,連接所述新視角生成模組,用於顯示所述3D影像;其中,所述景深計算單元應用卷積神經網路(Convolutional Neural Network,CNN)模型於至少一所述2D影像中以獲得至少一所述景深圖;其中,所述卷積神經網路模型採用聯合損失函數,其方程式為L=I depth +λI grad +μI normal ,其中,λ與μ為子損失函數的權重係數、I depth 為全域景深圖歐拉損失函數、I grad 為空間倒數損失函數以及I normal 為表面法向量點積誤差損失函數。
  2. 如請求項1所述的二維影像轉三維影像的系統,其中,所述新視角生成模組包括一3D影像生成模組,所述3D影像生成模組應用以3D的(Depth-Image-Based Rendering,DIBR)技術,將至少一所述2D影像與至少一所述景深圖結合以輸出所述3D影像。
  3. 如請求項2所述的二維影像轉三維影像的系統,其中,所述新視角生成模組還進一步包括一黑洞填補模組,以填補所述3D影像。
  4. 如請求項1所述的二維影像轉三維影像的系統,其中,所述全 域景深圖歐拉損失函數
    Figure 109143782-A0305-02-0017-10
    ,所述景深圖空間 倒數損失函數
    Figure 109143782-A0305-02-0017-11
    ,所述表面法向量點積誤差損失函數
    Figure 109143782-A0305-02-0017-12
    ,其中,設di為影像(pix)的預測景深值,gi為標籤景深值,影像誤差可表示為e i =∥d i -g i ∥,設
    Figure 109143782-A0305-02-0017-13
    Figure 109143782-A0305-02-0017-14
    ,▽x(d i ),▽y(d i )分別表示圖像任意座標點在橫軸方向與縱軸方向的索伯(Sobel)運算值。
  5. 一種應用深度學習的二維影像轉三維影像的方法,其包括:收集至少一2D影像,並將至少一所述2D影像傳送至一景深計算單元進行至少一景深圖的建立;透過取樣實現至少一所述2D影像的解析度轉換;應用多個卷積神經網路(Convolutional Neural Network,CNN)模型進行至少一所述2D影像的至少一景深圖預測;用一新視角生成模組結合至少一所述2D影像與至少一所述景深圖以生成一3D影像;以及以單通道景深影像輸出方式輸出經過深度處理的所述3D影像;其中,多個所述卷積神經網路模型採用聯合損失函數,其方程式為L=I depth +λI grad +μI normal ,其中,λ與μ為子損失函數的權重係數、I depth 為全域景深圖歐拉損失函數、I grad 為空間倒數損失函數以及I normal 為表面法向量點積誤差損失函數。
  6. 如請求項5所述的二維影像轉三維影像的方法,其中,所述新視角生成模組包括一3D影像生成模組與一黑洞填補模組,所述3D影像生成模組應用以3D的(Depth-Image-Based Rendering,DIBR)技術,將至少一所述2D影像與至少一所述景深圖結合以輸出至少一所述3D影像,所述黑洞填補模組 填補至少一所述3D影像。
  7. 如請求項5所述的二維影像轉三維影像的方法,其中,所述全域景深圖歐拉損失函數
    Figure 109143782-A0305-02-0018-15
    ,所述景深圖空間倒數損失函數
    Figure 109143782-A0305-02-0018-16
    ,所述表面法向量點積誤差損失函數
    Figure 109143782-A0305-02-0018-17
    ,其中,設di為影像(pix)的預測景深值,gi為標籤景深值,影像誤差可表示為e i =∥d i -g i ∥,設
    Figure 109143782-A0305-02-0018-18
    Figure 109143782-A0305-02-0018-19
    ,▽x(d i ),▽y(d i )分別表示圖像任意座標點在橫軸方向與縱軸方向的索伯(Sobel)運算值。
TW109143782A 2020-12-11 2020-12-11 應用深度學習的二維影像轉三維影像的系統與方法 TWI754487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109143782A TWI754487B (zh) 2020-12-11 2020-12-11 應用深度學習的二維影像轉三維影像的系統與方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109143782A TWI754487B (zh) 2020-12-11 2020-12-11 應用深度學習的二維影像轉三維影像的系統與方法

Publications (2)

Publication Number Publication Date
TWI754487B true TWI754487B (zh) 2022-02-01
TW202224423A TW202224423A (zh) 2022-06-16

Family

ID=81329353

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109143782A TWI754487B (zh) 2020-12-11 2020-12-11 應用深度學習的二維影像轉三維影像的系統與方法

Country Status (1)

Country Link
TW (1) TWI754487B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI813487B (zh) * 2022-11-01 2023-08-21 瑞昱半導體股份有限公司 座標生成系統以及座標生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130162768A1 (en) * 2011-12-22 2013-06-27 Wen-Nung Lie System for converting 2d video into 3d video
US20170142394A1 (en) * 2015-11-13 2017-05-18 Craig Peterson 3d system including a neural network
CN112019828A (zh) * 2020-08-14 2020-12-01 上海网达软件股份有限公司 一种视频的2d到3d的转换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130162768A1 (en) * 2011-12-22 2013-06-27 Wen-Nung Lie System for converting 2d video into 3d video
US20170142394A1 (en) * 2015-11-13 2017-05-18 Craig Peterson 3d system including a neural network
CN112019828A (zh) * 2020-08-14 2020-12-01 上海网达软件股份有限公司 一种视频的2d到3d的转换方法

Also Published As

Publication number Publication date
TW202224423A (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
JP6951565B2 (ja) 深度推定方法及び装置、電子機器並びに媒体
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN106651938B (zh) 一种融合高分辨率彩色图像的深度图增强方法
US20220014723A1 (en) Enhancing performance capture with real-time neural rendering
CN112435325A (zh) 基于vi-slam和深度估计网络的无人机场景稠密重建方法
EP2595116A1 (en) Method for generating depth maps for converting moving 2d images to 3d
CN102592275A (zh) 虚拟视点绘制方法
CN112019828B (zh) 一种视频的2d到3d的转换方法
US20240087214A1 (en) Color and infra-red three-dimensional reconstruction using implicit radiance functions
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN113284173B (zh) 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN103679680A (zh) 立体匹配方法和系统
TWI754487B (zh) 應用深度學習的二維影像轉三維影像的系統與方法
JP6128748B2 (ja) 画像処理装置及び方法
CN109345444B (zh) 深度感知增强的超分辨率立体图像构建方法
CN112927348B (zh) 一种基于多视点rgbd相机高分辨率人体三维重建方法
Wang et al. Disparity manipulation for stereo images and video
CN116385845A (zh) 一种基于bev的多摄像机3d目标检测的深度学习算法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN110149508A (zh) 一种基于一维集成成像系统的阵列图生成及填补方法
CN113888692A (zh) 应用深度学习的二维影像转三维影像的系统与方法
Lee et al. Hole Filling in Image Conversion Using Weighted Local Gradients.