TWI787800B - 光場合成方法及系統 - Google Patents
光場合成方法及系統 Download PDFInfo
- Publication number
- TWI787800B TWI787800B TW110115479A TW110115479A TWI787800B TW I787800 B TWI787800 B TW I787800B TW 110115479 A TW110115479 A TW 110115479A TW 110115479 A TW110115479 A TW 110115479A TW I787800 B TWI787800 B TW I787800B
- Authority
- TW
- Taiwan
- Prior art keywords
- light field
- images
- image
- view
- error
- Prior art date
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 34
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 13
- 238000011056 performance test Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 4
- 230000003287 optical effect Effects 0.000 claims 1
- 101100269674 Mus musculus Alyref2 gene Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 101100537098 Mus musculus Alyref gene Proteins 0.000 description 4
- 101150095908 apex1 gene Proteins 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/282—Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Processing (AREA)
- Physical Or Chemical Processes And Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本發明公開一種光場合成方法及光場合成系統。該方法包括將對應一場景的光場資訊輸入經訓練學習模型,光場資訊為具有多個視角影像的光場,方法還包括使用經訓練學習模型依據所輸入的光場資訊產生合成光場。合成光場具有其它視角影像。經訓練學習模型係通過對學習模型執行訓練流程而獲得,且訓練流程係在重新聚焦影像域中對學習模型進行優化,以使重新對焦影像誤差最小化。
Description
本發明涉及一種光場合成方法及系統,特別是涉及一種在重新對焦影像域中的光場合成方法及系統。
在傳統成像中,一般的相機通常只有一個鏡頭,拍照時也只對一個物體對焦,因此傳統相機只能產生從單一視角看出去的單一焦距影像。而在光場成像(Light field imaging)中,光場攝影機則可以記錄來自不同方向的光線的空間角度資訊,進而使用光線的空間角度資訊執行影像重新聚焦來產生多視角及多焦點的影像。
在實際應用中,以擴增實境(Augmented Reality,AR)為例,當傳統影像投影在傳統擴增實境顯示器上時,虛擬物件(例如,文字、圖像等)成像在固定位置而無法適當與真實物件融合,導致使用者體驗不佳;當使用者的眼睛對焦在非成像位置時,虛擬物件會失焦而模糊不清。相較之下,當光場訊號投影在光場顯示器時,使用者能夠看清楚位於任何位置之虛擬物件,不受傳統固定成像平面之限制。
進一步地,當使用配備例如有微透鏡陣列或是攝影機陣列作的光場攝影機來擷取光場時,前者擷取的光場的角度解析度(angular resolution)會受限於每個微透鏡對應的感光元件的畫素數量,而後者擷取到的光場的角度解析度會受限於攝影機陣列中的相機數量。實驗發現,光場的角度解析度越高,則能夠合成出的影像品質越好。例如,當配備有微透鏡陣列的攝影機分別對焦於位在不同距離的物體上時,包含四個視角影像的光場所呈現出來的合成影像會產生混疊(Aliasing)現象而出現不自然之格狀紋路,而包含二十五個視角影像的光場所呈現出來的合成影像則不會產生混疊現象。因此,角度解析度高的光場其合成影像呈現出的視覺效果較為自然,意即影像品質較好。
據此,為了在有限的硬體條件下增加角度解析度,可以使用視角影像合成技術。通常,用於光場的視角影像合成方法可以分為兩種類型。第一種方法首先估計深度資訊(depth information),然後通過多視角影像立體算法對現有的視角影像執行影像變形(warp)運算以生成新的視角影像。第二種方法則不執行深度資訊估計,但需要對輸入的影像進行限制。
儘管以上方法在一定程度上解決了角度解析度不足的問題,但並未考慮重新聚焦影像的品質,因為落在人眼視網膜上之影像為重新聚焦影像,以上方法無法針對由人眼感知到的影像進行優化。
本發明針對現有技術的不足提供一種在重新對焦影像域中的光場合成方法及光場合成系統。
為了解決上述的技術問題,本發明所採用的其中一技術方案是提供一種光場合成方法,其包括:將對應一場景的光場資訊輸入一經訓練學習模型,其中,該光場資訊係一具有多個視角影像的光場;該經訓練學習模型依據該光場資訊產生一合成光場,該合成光場具有其它視角影像;該經訓練學習模型係通過對一學習模型執行一訓練流程而獲得,且該訓練流程係包含在一重新聚焦影像域(refocused image domain)中對該學習模型進行優化,以使一重新對焦影像誤差(refocused image error, RIE)最小化,其中,該重新對焦影像誤差係定義為由一合成光場產生的多個重新對焦影像及由一基準光場產生的多個重新對焦基準影像之間的誤差。
為了解決上述的技術問題,本發明所採用的另外一技術方案是提供一種光場合成系統,包括經訓練學習模型,該經訓練學習模型係通過對一學習模型執行一訓練流程而獲得,且該訓練流程係包含在一重新聚焦影像域(refocused image domain)中對該學習模型進行優化,以使一重新對焦影像誤差(refocused image error, RIE)最小化。該經訓練學習模型經配置以取得對應一場景的光場資訊。其中,該光場資訊係一具有多個視角影像的光場;該經訓練學習模型依據該光場資訊產生一合成光場,該合成光場具有其它視角影像;該重新對焦影像誤差係定義為由一合成光場產生的多個重新對焦影像及由一基準光場產生的多個重新對焦基準影像之間的誤差。
本發明的其中一有益效果在於,本發明所提供的光場合成方法及光場合成系統,通過在重新聚焦影像域中優化學習模型,藉此在確保重新聚焦影像品質的前提下,提升合成光場的角度解析度。
為使能進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
以下是通過特定的具體實施例來說明本發明所公開有關“光場合成方法及光場合成系統”的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以實行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不背離本發明的構思下進行各種修改與變更。另外,本發明的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容,但所公開的內容並非用以限制本發明的保護範圍。另外,本文中所使用的術語“或”,應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。
參考圖1,圖1為本發明實施例的光場合成系統的方塊圖。如圖1所示,本發明提供一種光場合成系統1,其包括經訓練學習模型TDP。其中,經訓練學習模型TDP均可以程式碼的形式儲存於一計算裝置的儲存單元中,且可經由該計算裝置的處理器來執行程式碼以實現功能,但上述僅爲舉例,不限於此。光場合成系統1實質上可由硬體、軟體或韌體的形式實現,且上述的計算裝置可由計算機系統(如桌上型電腦、伺服器等)實現,其例如具有中央處理器、南北橋、揮發性記憶體、儲存單元、網路晶片等電子元件。而計算裝置的儲存單元可例如為獨立磁碟備援陣列(Redundant Array of Independent Disks,RAID)或簡單磁碟綁定(Just a Bunch Of Disks,JBOD)系統等邏輯磁碟陣列。或者,儲存單元也可以是硬碟(Hard Disk Drive,HDD)等非揮發性儲存裝置。
將對應一場景的光場資訊(亦即,待合成光場LF_I)輸入經訓練學習模型TDP,產生合成光場LF_S。廣義而言,光場資訊係具有特定視角影像或稱爲視圖(views)的光場。然而,待合成光場LF_I可能缺乏部分視角影像,導致其角度解析度不足。而為了增加待合成光場LF_I的角度解析度,本發明的光場合成系統1通過將待合成光場LF_I輸入經訓練學習模型TDP,以藉由光場合成技術來產生原本待合成光場LF_I欠缺的視角影像,進而產生具有較高角度解析度的合成光場LF_S。
詳細而言,經訓練學習模型TDP是通過對學習模型DP執行訓練流程而獲得的,且此訓練流程是在重新聚焦影像域(refocused image domain)中對學習模型DP進行優化,以使重新對焦影像誤差(refocused image error, RIE)最小化。
在本發明中,考慮了由M. Levoy and P. Hanrahan, 於1996年所發表的“Light field rendering”一文中提出的四維光場,並在下表一中定義了本發明使用的符號。
表一
參數 | 描述 |
四維度光場;(x,y)表示空間座標,(s,t)表示角座標 | |
在角座標為(s,t)時的子孔徑(sub-aperture)影像,意即在角座標為(s,t)時擷取的視角影像 | |
未正規化的傅立葉(Fourier)轉換函數;為了簡潔表示,省略其常數係數 | |
傅立葉轉換函數的反函數;為了簡潔表示,省略其常數係數 | |
未正規化的Sinc函數sin(x)/x | |
G θ | 由參數θ進行參數化的類神經網路 |
g(r) | 高斯(Gaussian)函數,其為自然對數e的(-r 2)次方 |
關於RIE的計算方式,詳述如下。首先,給定一基準光場L,其包含多個基準視角影像,利用基準光場L來訓練以參數θ進行參數化的學習模型DP(例如類神經網路G,但本發明不限於此),此學習模型DP可依據輸入的該些基準視角影像產生合成光場G
θ(S),而訓練的目的則是爲了讓學習模型DP(即類神經網路G)產生的合成光場G
θ(S)盡可能地接近基準光場L。其在數學上的意義在於,對類神經網路G
θ進行訓練,以最大程度地降低合成光場G
θ(S)及基準光場L之間的損失,且損失函數
可由參數θ以下式表示:
一般而言,損失函數
選擇為基準光場L及合成光場G
θ(S)中,每個視角影像之間的均方誤差(Mean Square Error, MSE)或平均絕對誤差(Mean Absolute Error,MAE),稱之爲逐視角影像誤差(view-wise errors, VWE),如以下方程式所示:
逐視角影像誤差VWE
1、VWE
2分別對應平均絕對誤差(MAE)與平均平方誤差(MSE)。然而,選擇這種損失函數僅鼓勵類神經網路G儘可能的考慮子孔徑影像的品質,而無需考慮由合成光場G
θ(S)產生的重新聚焦影像的品質,爲此,本發明進一步採用RIE作爲損失函數
,以考慮由合成光場G
θ(S)產生的重新聚焦影像的品質。
然而,在說明RIE之前,首先要說明影像重新聚焦的方法,在本發明的實施例中採用了位移相加法(shift-and-add operation),但本發明不限於此,也包括其他能完成重新對焦的演算法,例如:基於傅立葉切面攝影的重新聚焦技術、使用學習模型的重新聚焦技術、基於視角合成的重新聚焦技術。在位移相加法中,首先將每個子孔徑影像(sub-aperture image),亦即一光場中所包含的視角影像,
以
進行位移,然後對所有經位移的子孔徑影像進行平均,以產生重新聚焦影像R,如下式所示:
其中,距離參數r的大小表示原始焦點與重新聚焦的焦點之間的距離,而距離參數r的正、負符號表示重新聚焦的焦點相對於原始焦點的位置。若距離參數r為正值,表示在較遠的物體上重新聚焦,若距離參數r為負值,表示在較近的物體上重新聚焦。
接著,進一步引入未加權連續重新對焦影像誤差(Unweighted Continuous Refocused Image Error,UCRIE),如下式所示:
其中,D是距離參數r在進行位移加法運算時的最大值。直觀上,未加權連續重新對焦影像誤差UCRIE
1與UCRIE
2分別對應平均絕對誤差(MAE)與平均平方誤差(MSE)。
此外,可由UCRIE
1與UCRIE
2在頻域(Spectral Domain)中的特性得知。例如,可使用傅立葉轉換及帕塞瓦爾公式(Plancherel’ s formula),將UCRIE
2改寫為頻域中的下式:
根據平均平方誤差(MSE)的定義,可進一步將VWE
2以頻域表示如下式:
由於在位移相加法中,低通sinc濾波器會讓重新對焦影像出現不良的振鈴效應(Ringing artifacts),導致重新對焦品質下降。因此,本發明進一步提供較為適合用來進行學習並能夠衡量合成光場與影像品質的重新對焦影像誤差,如下式所示:
其中,s是上式中用於求和運算的步長間隔(step interval)。
其中,
g(
r)為高斯函數。
如圖2所示,學習模型DP可例如為卷積神經網路,且包括第一子網路10、影像變形(warp)單元12及第二子網路14。第一子網路10及第二子網路14均為全卷積網路。
第一子網路10包含多個第一卷積層100至117,經配置以依據所輸入的多個基準視角影像V_0至V_n來估算對應的影像(Depth map),其中,所輸入的該些基準視角影像V_0至V_n包括中央視角影像(V_0)以及多個角落視角影像(V_1至V_n)。
影像變形(warp)單元12耦接於第一子網路10,且經配置以將中央視角影像(V_0)進行影像變形,以產生經影像變形影像並用於合成作爲合成光場LF_P的近似朗伯光場(approximate Lambertian light field)。
第二子網路14耦接於影像變形單元12且包含多個第二卷積層140至153,經配置以根據第一子網路10估算的影像及影像變形單元12影像變形中央視角影像(V_0)產生的經影像變形影像,來預測要加入所合成的近似朗伯光場的殘餘光場。
因此,學習模型DP可作爲一視角影像合成網路(view synthesis network),且可對上述學習模型DP的架構來進行訓練,但本發明不限於此,所有用於對輸入光場進行視角影像合成以產生合成光場的模型均涵蓋在本發明的範疇內。
請進一步參考圖3及圖4,圖3爲根據本發明實施例繪示的用於訓練學習模型的訓練流程的流程圖,圖4則為訓練流程的示意圖。
如圖3所示,此訓練流程主要是以RIE作爲損失函數來進行訓練,包括下列步驟:
步驟S200:將光場資料集分爲訓練光場資料集及測試光場資料集。本發明以兩個光場資料集來訓練網路:虛擬合成光場(HCI資料集)及實際光場(INRIA資料集)。例如,可將HCI資料集(總共24個光場)劃分為16個訓練用光場及8個測試用光場。類似的,可將INRIA資料集(總共59個光場)分為43個訓練用光場及16個測試用光場。
步驟S201:從訓練光場資料集取出基準光場及對應基準光場LF_G的基準視角影像V_0至V_n。例如,HCI及INRIA資料集的空間解析度均為512×512,前者的角度解析度為9×9,而後者的角度解析度為7×7。此外,從上述資料集中的每個光場中提取了5×5個視角影像的子光場,因此從HCI資料集中總共提取了(9-(5–1))
2= 25個子光場,而從INRIA資料集中提取了(7–(5–1))
2= 9個子光場。此部分說明僅爲舉例,本發明不限於此。
步驟S202:將基準光場LF_G的基準視角影像V_0至V_n的一部分輸入學習網路,以產生合成光場LF_P。例如,對於步驟S201取出的每個子光場,使用中央視角影像及四個角落視角影像輸入學習網路DP,輸出為3×3的合成光場LF_P。
步驟S203:執行重新聚焦演算法以計算並產生合成光場LF_P的多個重新對焦影像Ref1,以及計算並產生基準光場LF_G的多個重新對焦基準影像Ref2。影像重新聚焦演算法可例如為上文詳細描述過的位移相加法,在此不再贅述,影像重新聚焦演算法也包括其他能完成重新對焦的演算法,例如基於傅立葉切面攝影的重新聚焦技術、使用學習模型的重新聚焦技術、基於視角合成的重新聚焦技術。需要說明的是,該些重新對焦基準影像Ref2各自對應於該些重新對焦影像Ref1。
步驟S204:針對該些重新對焦基準影像Ref2及該些重新對焦影像Ref1中的每一個,估算該些重新對焦影像與該些重新對焦基準影像Ref2之間的重新對焦影像誤差。其中,可採用
或
作爲此步驟中所述的重新對焦影像誤差,如下所示:
當用於此步驟時,θ是參數,S是所輸入的該些基準視角影像的集合,
是以參數θ進行參數化後的合成光場,L是該基準光場,r是一原始焦點與一重新對焦焦點之間的一距離參數,D是該距離參數的一最大值,s是上式中用於求和運算的步長間隔(step interval) ,g(r)是一高斯函數,
是該些重新對焦影像,且
是該些重新對焦基準影像。
步驟S205:基於重新對焦影像誤差,以優化演算法對學習模型DP進行優化,直到重新對焦影像誤差最小化且學習模型DP通過效能測試,將通過效能測試的學習模型DP作爲經訓練學習模型TDP。
舉例而言,優化演算法可例如為Adam優化演算法,Adam優化演算法為一種基於訓練資料迭代地更新學習模型DP的常見演算法,於此不再贅述。
雖然此訓練流程主要是在重新對焦影像域中進行優化,以使RIE最小化,然而,在本發明的特定實施例中,更可進一步考慮基於視角影像對學習模型進行優化,以使逐視角影像誤差(view-wise error)最小化。逐視角影像誤差係定義為對應合成光場LF_P的多個預測視角影像及對應基準光場LF_G的多個基準視角影像之間的誤差。逐視角影像誤差可例如為上文中描述過的VWE
1或VWE
2,
如下所示:
因此,可選的,如圖3及圖4所示,訓練流程還可包括下列步驟:
步驟S205’:取得對應合成光場的多個預測視角影像。其中,該些預測視角影像在視角(亦即,角座標)上各自對應於該些基準視角影像。
步驟S206’:針對該些預測視角影像及該些基準視角影像中的每一個,估算該些預測視角影像及該些基準視角影像之間的該逐視角影像誤差。
步驟S207’:相加逐視角影像誤差與重新對焦影像誤差,以產生加總誤差。
步驟S208’:基於該加總誤差,以優化演算法對該學習模型進行優化,直到該加總誤差最小化且該學習模型通過效能測試,將通過效能測試的該學習模型作爲該經訓練學習模型。
為了分析光場與影像品質之間的關係,申請人使用了五種在影像處理領域中會使用的影像品質指標(Metric)來評估光場品質,其包含平均絕對誤差(Mean Absolute Error,MAE)、平均平方誤差(Mean Squared Error,MSE)、最大訊雜比(Peak Signal-to-Noise Ratio,PSNR)、灰階結構相似度(grayscale Structural Similarity,SSIM)、梯度值相似度偏差(Gradient Magnitude Similarity Deviation,GMSD)。
實驗結果顯示,根據重新對焦影像(Refocused Image)來合成光場的情況下,所得到的光場皆有較高的指標評分,意即不論是在哪個角度的光場的視圖,皆會受到重新對焦影像所影響而被人眼察覺。
據此,考慮人眼視覺特性,本發明已提出一種新的損失函數,以在重新對焦影像域中對光場合成技術進行優化,將重新對焦影像的影像品質納入衡量光場品質的標準,用來改善傳統的損失函數忽略了重新對焦影像的品質的問題。
[實施例的有益效果]
本發明的其中一有益效果在於,本發明所提供的光場合成方法及光場合成系統,通過在重新聚焦影像域中優化學習模型,藉此在確保重新聚焦影像品質的前提下,提升合成光場的角度解析度。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
1: 光場合成系統
10: 第一子網路
12: 影像變形單元
14: 第二子網路
100~117: 第一卷積層
140~153: 第二卷積層
V_0~V_n: 基準視角影像
LF_G: 基準光場
LF_I: 待合成光場
LF_P、LF_S: 合成光場
Ref1: 重新對焦影像
Ref2: 重新對焦基準影像
TDP: 經訓練學習模型
DP: 學習模型
圖1為本發明實施例的光場合成系統的方塊圖。
圖2為本發明實施例的光場合成系統的學習模型的示意圖。
圖3爲根據本發明實施例繪示的用於訓練學習模型的訓練流程的流程圖。
圖4爲根據本發明實施例繪示的用於訓練學習模型的訓練流程的的示意圖。
代表圖為流程圖,故無簡單符號說明。
Claims (20)
- 一種光場合成方法,包括: 將對應一場景的光場資訊輸入一經訓練學習模型,其中,該光場資訊係具有多個視角影像的光場;以及 配置該經訓練學習模型依據該光場資訊產生一合成光場,其中,該合成光場具有多個其它視角影像; 其中,該經訓練學習模型係通過對一學習模型執行一訓練流程而獲得,且該訓練流程係包含在一重新聚焦影像域(refocused image domain)中對該學習模型進行優化,以使一重新對焦影像誤差(refocused image error, RIE)最小化, 其中,該重新對焦影像誤差係定義為由該合成光場產生的多個重新對焦影像及由一基準光場產生的多個重新對焦基準影像之間的誤差。
- 如請求項1所述的光場合成方法,其中該訓練流程包括: 將一光場資料集分爲一訓練光場資料集及一測試光場資料集; 從該訓練光場資料集取出該基準光場及對應該基準光場的該些基準視角影像; 將該基準光場的該部分基準視角影像輸入該學習網路,以產生該合成光場; 執行一重新聚焦演算法以計算並產生該合成光場的該些重新對焦影像; 執行該重新聚焦演算法以計算並產生該基準光場的該些重新對焦基準影像,其中,該些重新對焦基準影像各自對應於該些重新對焦影像; 針對該些重新對焦基準影像及該些重新對焦影像中的每一個,估算該些重新對焦影像與該些重新對焦基準影像之間的該重新對焦影像誤差;以及 基於該重新對焦影像誤差,以一優化演算法對該學習模型進行優化,直到該重新對焦影像誤差最小化且該學習模型通過效能測試,將通過效能測試的該學習模型作爲該經訓練學習模型。
- 如請求項1所述的光場合成方法,其中該訓練流程更基於視角影像對該學習模型進行優化,以使一逐視角影像誤差(view-wise error)最小化,其中,該逐視角影像誤差係定義為由該合成光場產生的多個預測視角影像及對應該基準光場的該些基準視角影像之間的誤差。
- 如請求項3所述的光場合成方法,其中該訓練流程包括: 取得一光場資料集,將該光場資料集分爲一訓練光場資料集及一測試光場資料集; 從該訓練光場資料集取出該基準光場及對應該基準光場的該些基準視角影像; 將該基準光場的該部分基準視角影像輸入該學習網路,以產生該合成光場; 執行一重新聚焦演算法以計算並產生該合成光場的該些重新對焦影像; 執行該重新聚焦演算法以計算並產生該基準光場的該些重新對焦基準影像,其中,該些重新對焦基準影像在位置上各自對應於該些重新對焦影像; 針對該些重新對焦基準影像及該些重新對焦影像中的每一個,估算該些重新對焦影像與該些重新對焦基準影像之間的該重新對焦影像誤差; 取得對應該合成光場的該些預測視角影像,其中該些預測視角影像在視角上各自對應於該些基準視角影像; 針對該些預測視角影像及該些基準視角影像中的每一個,估算該些預測視角影像及該些基準視角影像之間的該逐視角影像誤差; 相加該逐視角影像誤差與該重新對焦影像誤差,以產生一加總誤差; 基於該加總誤差,以一優化演算法對該學習模型進行優化,直到該加總誤差最小化且該學習模型通過效能測試,將通過效能測試的該學習模型作爲該經訓練學習模型。
- 如請求項1所述的光場合成方法,其中該學習模型為一卷積神經網路,且包括: 一第一子網路,包含多個第一卷積層,經配置以依據所輸入的該些基準視角影像來估算多個影像,其中,所輸入的該些基準視角影像包括一中央視角影像以及多個角落視角影像; 一影像變形(warp)單元,耦接於該第一子網路,且經配置以將該中央視角影像進行影像變形,以產生一經影像變形影像並用於合成作爲該合成光場的一近似朗伯光場(approximate Lambertian light field);以及 一第二子網路,耦接於該影像變形單元且包含多個第二卷積層,經配置以根據該些影像及該經影像變形影像,預測要加入所合成的該近似朗伯光場的一殘餘光場。
- 如請求項2或4所述的光場合成方法,其中該優化演算法為Adam優化演算法。
- 一種光場合成系統,包括: 一經訓練學習模型,係通過對一學習模型執行一訓練流程而獲得,且該訓練流程係包含在一重新聚焦影像域(refocused image domain)中對該學習模型進行優化,以使一重新對焦影像誤差(refocused image error, RIE)最小化; 其中,該經訓練學習模型經配置以取得對應一場景的光場資訊,該光場資訊係具有多個視角影像的光場, 其中,該經訓練學習模型經配置以依據該些視角影像產生一合成光場,其中,該合成光場具有其它視角影像, 其中,該重新對焦影像誤差係定義為由該合成光場產生的多個重新對焦影像及由一基準光場產生的多個重新對焦基準影像之間的誤差。
- 如請求項11所述的光場合成系統,其中該訓練流程包括: 將一光場資料集分爲一訓練光場資料集及一測試光場資料集; 從該訓練光場資料集取出該基準光場及對應該基準光場的該些基準視角影像; 將該基準光場的部分基準視角影像輸入該學習網路,以產生該合成光場; 執行一重新聚焦演算法以計算並產生該合成光場的該些重新對焦影像; 執行該重新聚焦演算法以計算並產生該基準光場的該些重新對焦基準影像,其中,該些重新對焦基準影像各自對應於該些重新對焦影像; 針對該些重新對焦基準影像及該些重新對焦影像中的每一個,估算該些重新對焦影像與該些重新對焦基準影像之間的該重新對焦影像誤差;以及 基於該重新對焦影像誤差,以一優化演算法對該學習模型進行優化,直到該重新對焦影像誤差最小化且該學習模型通過效能測試,將通過效能測試的該學習模型作爲該經訓練學習模型。
- 如請求項11所述的光場合成系統,其中該訓練流程更基於視角影像對該學習模型進行優化,以使一逐視角影像誤差(view-wise error)最小化,其中,該逐視角影像誤差係定義為由該合成光場產生的多個預測視角影像及對應該基準光場的該些基準視角影像之間的誤差。
- 如請求項13所述的光場合成系統,其中該訓練流程包括: 取得一光場資料集,將該光場資料集分爲一訓練光場資料集及一測試光場資料集; 從該訓練光場資料集取出該基準光場及對應該基準光場的該些基準視角影像; 將該基準光場的該部分基準視角影像輸入該學習網路,以產生該合成光場; 執行一重新聚焦演算法以計算並產生該合成光場的該些重新對焦影像; 執行該重新聚焦演算法以計算並產生該基準光場的該些重新對焦基準影像,其中,該些重新對焦基準影像在位置上各自對應於該些重新對焦影像; 針對該些重新對焦基準影像及該些重新對焦影像中的每一個,估算該些重新對焦影像與該些重新對焦基準影像之間的該重新對焦影像誤差; 取得對應該合成光場的該些預測視角影像,其中該些預測視角影像在視角上各自對應於該些基準視角影像; 針對該些預測視角影像及該些基準視角影像中的每一個,估算該些預測視角影像及該些基準視角影像之間的該逐視角影像誤差; 相加該逐視角影像誤差與該重新對焦影像誤差,以產生一加總誤差; 基於該加總誤差,以一優化演算法對該學習模型進行優化,直到該加總誤差最小化且該學習模型通過效能測試,將通過效能測試的該學習模型作爲該經訓練學習模型。
- 如請求項11所述的光場合成系統,其中該學習模型為一卷積神經網路,且包括: 一第一子網路,包含多個第一卷積層,經配置以依據所輸入的該些基準視角影像來估算多個影像,其中,所輸入的該些基準視角影像包括一中央視角影像以及多個角落視角影像; 一影像變形(warp)單元,耦接於該第一子網路,且經配置以將該中央視角影像進行影像變形,以產生一經影像變形影像並用於合成作爲該合成光場的一近似朗伯光場(approximate Lambertian light field);以及 一第二子網路,耦接於該影像變形單元且包含多個第二卷積層,經配置以根據該些影像及該經影像變形影像,預測要加入所合成的該近似朗伯光場的一殘餘光場。
- 如請求項12或14所述的光場合成系統,其中該優化演算法為Adam優化算法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110115479A TWI787800B (zh) | 2021-04-29 | 2021-04-29 | 光場合成方法及系統 |
US17/732,474 US12058299B2 (en) | 2021-04-29 | 2022-04-28 | Light field synthesis method and light field synthesis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110115479A TWI787800B (zh) | 2021-04-29 | 2021-04-29 | 光場合成方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202243469A TW202243469A (zh) | 2022-11-01 |
TWI787800B true TWI787800B (zh) | 2022-12-21 |
Family
ID=84103294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110115479A TWI787800B (zh) | 2021-04-29 | 2021-04-29 | 光場合成方法及系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US12058299B2 (zh) |
TW (1) | TWI787800B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079827A (zh) * | 2014-06-27 | 2014-10-01 | 中国科学院自动化研究所 | 一种光场成像自动重对焦方法 |
TW202014665A (zh) * | 2018-10-12 | 2020-04-16 | 國立交通大學 | 位置檢測方法及其電腦程式產品 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9223134B2 (en) * | 2010-02-28 | 2015-12-29 | Microsoft Technology Licensing, Llc | Optical imperfections in a light transmissive illumination system for see-through near-eye display glasses |
EP3166073A1 (en) * | 2015-11-06 | 2017-05-10 | Thomson Licensing | Method for obtaining a refocused image from 4d raw light field data |
US20200004759A1 (en) * | 2017-06-05 | 2020-01-02 | Umajin Inc. | Generative content system and methods therefor |
WO2020040521A1 (ko) * | 2018-08-21 | 2020-02-27 | 삼성전자 주식회사 | 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법 |
RU2690757C1 (ru) * | 2018-08-21 | 2019-06-05 | Самсунг Электроникс Ко., Лтд. | Система синтеза промежуточных видов светового поля и способ ее функционирования |
US20220108466A1 (en) * | 2019-01-30 | 2022-04-07 | Technology Innovation Momentum Fund (Israel) Limited Partnership | System and method for reconstruction of compressed signal data using artificial neural networking |
MX2022003020A (es) * | 2019-09-17 | 2022-06-14 | Boston Polarimetrics Inc | Sistemas y metodos para modelado de superficie usando se?ales de polarizacion. |
JP7330376B2 (ja) * | 2019-10-07 | 2023-08-21 | ボストン ポーラリメトリックス,インコーポレイティド | 偏光によるセンサシステム及び撮像システムの増強のための方法 |
CN115428028A (zh) * | 2020-01-30 | 2022-12-02 | 因思创新有限责任公司 | 用于合成用于在包括偏振图像的不同成像模态下训练统计模型的数据的系统和方法 |
WO2021188839A1 (en) * | 2020-03-20 | 2021-09-23 | The Regents Of The University Of California | Single-shot autofocusing of microscopy images using deep learning |
US20230205133A1 (en) * | 2020-04-21 | 2023-06-29 | Massachusetts Institute Of Technology | Real-time Photorealistic 3D Holography With Deep Neural Networks |
WO2021217031A1 (en) * | 2020-04-23 | 2021-10-28 | The Regents Of The University Of California | Ultrafast light field tomography |
-
2021
- 2021-04-29 TW TW110115479A patent/TWI787800B/zh active
-
2022
- 2022-04-28 US US17/732,474 patent/US12058299B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079827A (zh) * | 2014-06-27 | 2014-10-01 | 中国科学院自动化研究所 | 一种光场成像自动重对焦方法 |
TW202014665A (zh) * | 2018-10-12 | 2020-04-16 | 國立交通大學 | 位置檢測方法及其電腦程式產品 |
Also Published As
Publication number | Publication date |
---|---|
US12058299B2 (en) | 2024-08-06 |
TW202243469A (zh) | 2022-11-01 |
US20220377301A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10540576B1 (en) | Panoramic camera systems | |
Wang et al. | The light field attachment: Turning a DSLR into a light field camera using a low budget camera ring | |
US9041819B2 (en) | Method for stabilizing a digital video | |
US20130127988A1 (en) | Modifying the viewpoint of a digital image | |
Meng et al. | Objective quality assessment of lenslet light field image based on focus stack | |
US8565557B2 (en) | Free view generation in ray-space | |
US20130129192A1 (en) | Range map determination for a video frame | |
US11527014B2 (en) | Methods and systems for calibrating surface data capture devices | |
US20130129193A1 (en) | Forming a steroscopic image using range map | |
Griffiths et al. | OutCast: Outdoor Single‐image Relighting with Cast Shadows | |
Zhang et al. | Sparse representation-based video quality assessment for synthesized 3D videos | |
JP2019508921A (ja) | フォーカス検出 | |
TW201518847A (zh) | 拍攝立體影像之方法以及電子裝置以及儲存其之電腦可讀取記錄媒體 | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
Choi et al. | Balanced spherical grid for egocentric view synthesis | |
TWI787800B (zh) | 光場合成方法及系統 | |
Kubota et al. | All-focused light field rendering. | |
Gilbert et al. | Inpainting of wide-baseline multiple viewpoint video | |
KR102523788B1 (ko) | Gan을 사용한 라이트 필드 이미지 인페이팅 방법 | |
Tao | Unified Multi-Cue Depth Estimation from Light-Field Images: Correspondence, Defocus, Shading, and Specularity | |
CN117058049B (zh) | 新视角图像合成方法、合成模型训练方法及存储介质 | |
Pohl et al. | Semi-Automatic 2D to 3D Video Conversion | |
Leistner | Deep Learning-Based Depth Estimation from Light Fields | |
Zhao et al. | A Study of Disparity Map Based on Improved Dynamic Programming Algorithm | |
Wang | Novel dense stereo algorithms for high-quality depth estimation from images |