TWI524307B - Two - dimensional image depth value estimation method and its system - Google Patents
Two - dimensional image depth value estimation method and its system Download PDFInfo
- Publication number
- TWI524307B TWI524307B TW102142562A TW102142562A TWI524307B TW I524307 B TWI524307 B TW I524307B TW 102142562 A TW102142562 A TW 102142562A TW 102142562 A TW102142562 A TW 102142562A TW I524307 B TWI524307 B TW I524307B
- Authority
- TW
- Taiwan
- Prior art keywords
- input vector
- neural network
- depth value
- depth
- training
- Prior art date
Links
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本發明係關於一種2D轉3D的影像處理技術,尤指運用類神經網路的演算法,對二維影像深度值所進行的一種估測技術。
按,一般在2D至3D轉換上,深度圖(Depth Map)一直扮演著重要的角色。2D影像加上由2D影像透過某種演算法所估測出的深度圖,之後利用深度影像繪圖法(Depth-image-based rendering,DIBR)的技術合成出左眼和右眼影像,然後搭配3D硬體設備,即可呈現出立體視覺的效果,如文獻[12]。
最早的二維影像深度值估測技術係採用左右眼影像深度估測法,其原理仿照人的雙眼其兩眼視差(Disparity)距離約為6cm。由於人的雙眼經由不斷的學習可判斷出物體的遠近,即深度(Depth)。將兩台相機擺放在同一水平線上其相機間隔六公分並同時拍攝同一物體(object)。經由公式的計算可計算出相機到物體的實際深度,如文獻[4],即可產生深度圖。
往後的二維影像深度值估測技術的發展上,本發明把它歸納為下列兩類:第一類,係在影像分類上的估測如:k-means、分水嶺(Watershed)或邊緣資訊(Edge information)。在深度線索上的估測如:移動視差(Mobile parallax)、線性透視(Linear perspective)、大氣透
視(Atmospheric perspective)、紋理梯度(Texture gradient)等等。
但目前只有史丹佛大學採用(Markov Random Field,MRF)訓練方式做range sensor深度圖估測,如文獻[13],係採用監督式學習的作法(Markov Random Field,MRF),並把影像分成室內和室外做訓練。由於local影像特徵不足,所以加入影像global內容,使用階層式架構來建立模型,最後所產生之深度圖與實際深度很相似。
然上述習式二維影像深度值估測技術作業繁瑣,耗時且所估測的深度值仍不夠準確,故現階段的二維影像深度值估測技術實有改善的空間。
引用文獻:文獻[4]:A. Klaus, M. Sormann, and K. Karner, "Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure," Pattern Recognition, 2006. ICPR 2006. 18th International Conference on, 2006, pp. 15-18.。
文獻[12]:Cheng. Chao-Chung, Li. Chung-Te, and Chen. Liang-Gee, "A novel 2Dd-to-3D conversion system using edge information," Consumer Electronics, IEEE Transactions on, vol. 56, pp. 1739-1745, 2010.。
文獻[13]:Ashutosh Saxena, H. Chung-Sung, and Y. Ng-Andrew, "3-D Depth Reconstruction from a Single Still Image," International Journal of Computer Vision(IJCV),Aug 2007.。
文獻[21]:類神經網路-MATLAB的應用(第三版),羅華強編著。
因此本發明之主要目的係提供估測二維影像深度值較為準確的一種二維影像深度值之估測方法及其系統。
為達上述目的,本發明一種二維影像深度值之估測方法所運用之技術手段係包含有:(a)、一第一定義步驟,係取一樣本影像並定義其f T (x,y)輸入向量及所對應深度值d(x,y)的目標向量;(b)、一創建網路步驟,係建立一類神經網路並對其作參數設置;(c)、一訓練網路步驟,係輸入該f T (x,y)輸入向量及其深度值的目標向量值,據以訓練該類神經網路,並得一NN權重值;(d)、一第二定義步驟、係定義該樣本影像的f t (x,y)輸入向量;及(e)、一輸出步驟,係輸入該f t (x,y)輸入向量於已訓練好的該類神經網路,並載入該NN權重值,可得該樣本影像的估測深度值de(x,y)。
上述估測方法中,另包含一步驟(f),其中該步驟(f)係為一比較步驟,其根據該深度值de(x,y),據以評估該類神經網路的訓練效果,若能符合需求,則停止訓練該類神經網路網路並可拿來使用;若未能符合需求,則該f T (x,y)輸入向量係設為多重輸入向量,或/及增加該類神經網路網路中的神經元數量,並重新訓練該類神經網路,據以能符合需求。
上述估測方法,係使用平均絕對誤差(Mean absolute error,MAE)來評估該類神經網路的訓練效果。
上述步驟(f)中的f T (x,y)多重輸入向量係設為一第一重輸入向量、一第二重輸入向量、一第三重重輸入向量及一第四重重輸入向量。
上述步驟(f)中輸入向量f T (x,y)的輸入法係採用頭頭相接法、zig-zag法或頭尾相接法。
上述步驟(f)中的神經元數量設定至少為700個。
上述步驟(b)中的類神經網路係設為一倒傳遞網路與一創建前饋網路的組合。
上述該類神經網路內部所設的一隱藏層係使用對數雙彎曲轉移函數(logsig)或正切雙彎曲轉移函數(tansig),又該類神經網路內部所設的一輸出層係使用線性轉移函數(purelin)。
上述該NN權重值係包含一權重(W)及一偏移值(b)。
一種二維影像深度值之估測系統,係使用上述估測方法所建構的系統。
藉由上述之技術手段具有如下功效之增進:1.本發明係率先提出一新的二維影像深度值之估測方法,運用類神經網路於二維影像之深度圖估測,可以有效地、精準地預測2D影像的深度圖之深度值;及2.本發明經由提出多重解析度預測方法,在雙重預測下(MAE可達到8.47),在三重預測下(MAE可達到7.23),在(MAE可達到5.47),為了在提升其預測精準度,於該類神經往路的訓練過程中,增加網路神經元數量,當神經元數量增加到1000時(MAE可達到1.0)。故本發明當增加重數及神經元數量時可有效提升2D影像的深度值之預測精確度。
(a)、(b)、(c)、(d)、(e)、(f)‧‧‧步驟
第1圖:係為本發明方法的步驟流程圖。
第2圖:係為本發明深度圖訓練與預測之系統架構圖。
第3a圖:係為本發明訓練網路時所輸入向量f 4 (x,y)及其對應的深度值d(x,y)之示意圖。
第3b圖:係為本發明第3a圖所擷取向量f 4 (x,y)之示意圖。
第4圖:係為本發明的神經元模型之示意圖。
第5a圖:係為本發明類神經網路的隱藏層所使用的對數雙彎曲轉移函數之示意圖。
第5b圖:係為本發明類神經網路的隱藏層所使用的正切雙彎曲轉移函數之示意圖。
第5c圖:係為本發明類神經網路的輸出層所使用的線性轉移函數之示意圖。
第6圖:係為本發明第3b圖的二維向量轉換成一維之示意圖。
第7圖:係為本發明單重解析度深度預測所創建的倒傳遞網路之架構圖。
第8a圖:係為本發明單重解析度深度預測所創建的前饋網路之架構圖。
第8b圖:係為本發明訓練類神經網路之示意圖。
第9a圖:係為本發明類神經網路預測深度值之示意圖。
第9b圖:係為本發明d(x,y)與de(x,y)深度值有效範圍之示意圖。
第10a圖:係為本發明測試樣本一的單重預測(fT=f4,ft=f4)結果之示意圖。
第10b圖:係為本發明測試樣本二的單重預測(fT=f4,ft=f3)結果之示意圖。
第11圖:係為本發明多重輸入向量及其對應的目標值之示意圖。
第12a圖:係為本發明多重輸入向量之示意圖。
第12b圖:係為本發明多重解析度訓練過程之示意圖。
第13圖:係為本發明多重解析度預測的倒傳遞網路架構圖。
第14圖:係為本發明的f 4 (x,y)&f 5 (x,y)及其對應的d(x,y)之示意圖。
第15圖:係為本發明的f 4 (x,y)&f 5 (x,y)&f 6 (x,y)及其對應的d(x,y)之示意圖。
第16圖:係為本發明多重訓練時間之成果圖。
第17圖:係為本發明測試樣本一的紋路影像所對應之深度圖。
第18圖:係為本發明測試樣本一的多重預測成果圖。
第19圖:係為本發明測試樣本二的紋路影像所對應之深度圖。
第20圖:係為本發明測試樣本二的多重預測成果圖。
第21圖:係為本發明增加神經元四重預測訓練時間之成果圖。
第22圖:係為本發明增加神經元四重預測深度之成果圖。
第23a圖:係為本發明神經元數與訓練時間之關係圖。
第23b圖:係為本發明神經元數與MAE值之關係圖。
第24a圖:係為本發明以zig-zag scan法重新設定輸入向量f T (x,y)。
第24b圖:係為本發明以頭尾相接法重新設定輸入向量f T (x,y)。
第25圖:係為本發明以Initial(頭頭相接)、zig-zag及頭尾相接法預測之深度圖成果之示意圖。
第26圖:係為本發明所選用14張灰階測試影像圖。
第27圖:係為本發明Lab01:訓練兩張影像,測試Inside兩張及(固定)Outside四張之成果圖。
第28圖:係為本發明Lab02:訓練五張影像,測試Inside四張及(固定)Outside四張之成果圖。
第29圖:係為本發明Lab03:訓練十張影像,測試Inside四張及(固定)Outside四張之成果圖。
第30a圖:係為本發明使用中值濾波器來濾除影像中小黑點,使影像看起來
平滑之成果圖。
第30b圖:係為運用本發明類神經網路所製作出的交錯式立體影像圖。
請參閱第1圖、第2圖所示,本發明係關於一種二維影像深度值之估測方法及其系統,係包含有:(a)、一第一定義步驟,係取一樣本影像並定義其f T (x,y)輸入向量及所對應深度值d(x,y)的目標向量;(b)、一創建網路步驟,係建立一類神經網路並對其作參數設置;(c)、一訓練網路步驟,係輸入該f T (x,y)輸入向量及其深度值的目標向量值,據以訓練該類神經網路,並得一NN權重值;(d)、一第二定義步驟、係定義該樣本影像的f t (x,y)輸入向量;(e)、一輸出步驟,係輸入該f t (x,y)輸入向量於已訓練好的該類神經網路,並載入該NN權重值,可得該樣本影像的估測深度值de(x,y);及(f)、一比較步驟,其係根據該深度值de(x,y),據以評估該類神經網路的訓練效果,若符合需求,則停止訓練該類神經網路,並拿來運用;若未能符合需求,則該輸入向量f T (x,y)係設為多重輸入向量,或/及增加該類神經網路網路中的神經元數量,並重新訓練該類神經網路,據以符合需求。茲進一步說明本發明方法的各步驟如下:本發明係採用類神經網路(以下簡稱NN)技術及灰階紋路影像來做深度圖估測,並把深度圖估測分成兩個過程:(a)訓練過程,(b)預測過程。如第2圖所示為本發明NN深度圖訓練與預測之系統架構。而下表1係為NN深度圖訓練與預測符號定義。
【表1】
關於本發明NN訓練過程:在訓練過程中,首先輸入灰階紋路影像f T (x,y)及灰階深度圖d(x,y),由單重或多重灰階紋路影像切方塊像素作為輸入向量,而其已知之深度值做為相對應之輸出,來訓練類神經網路,其訓練結果是一組神經元的權重值(W)。
關於本發明預測過程中:在預測過程中,分成兩個樣本做為測試。一、測試樣本1.灰階紋路影像f t1 (x,y)。二、測試樣本2.灰階紋路影像f t2 (x,y)。依輸入之二維灰階紋路影像取出輸入向量,其次載入已訓練好之神經元權重值,最後輸出估測深度值de(x,y),即完成整個深度圖訓練及預測的流程。
關於本發明第一定義步驟(a)方面:在定義輸入向量及目標值之前,首先介紹本發明所使用測試樣本的影像以及其各重(multi-resolution)之間的關係。而下表2係為灰階紋路影像與深度圖之對應關係。
【表2】
本發明類神經網路(Neural Network)的每一個輸入向量(Input Vector)輸入是一個固定5*5的block,可以取自不同的紋理層(Texture Layer)。表2的灰階紋路影像與深度圖之對應關係,其關係式如下:N(i)=(I(i)-n+1)*(J(i)-n+1)(block:n*n,i:1~8);P(i)*Q(i)=2(i-1)*2(i-1)。
本發明經由初步實驗結果得知,由於輸入向量太多導致電腦設備無法負荷其運算。為了減少輸入向量,故重新定義其灰階紋路影像大小與深度圖對應關係及其關係式,如表3所示者。
【表3】
上表的關係式:N(i)=(I(i)-n+1)*(J(i)-n+1);(block:n*n,i:4~8);其中下表4係為上述簡稱的意義。
單重解析度定義輸入向量及目標值:本發明所使用的輸入灰階紋路影像f T (x,y)和灰階深度值d(x,y)大小皆為68*90像素,擷取向量大小為5*5像素,且採用重疊(overlapping)的方式去作向量擷取,擷取方式依序由上到下,由左到右(間隔皆為一個像素)。
首先輸入灰階紋路影像f 4 (x,y)和與其對應之灰階深度
值d(x,y),經由本文所提出擷取向量大小及方式,去定義輸入向量及目標值,如第3a圖所示者。
其中該F 4 (x,y)係以f 4 (x,y)為中心之5*5向量。擷取向量公式=(x-2:x+2,y-2:y+2),如第3b圖所示。而且該f 4 (x,y)影像起始範圍:x[1:M],y[1:N];而F 4 (x,y)輸入向量中心點有效坐標範圍:x[3:M-2],y[3:N-2]。其中該d(x,y)目標值起始範圍:x[1:M],y[1:N],且該d(x,y)目標值有效對應坐標範圍:x[3:M-2],y[3:N-2]。
關於本發明創建網路網路步驟(b)方面:本發明使用Matlab7.14版Neural Network Toolbox7.0.3,來建立倒傳遞網路的架構。
每個Input都用一個適當的權重值(Weight)來加權,經過加權後的輸入和偏移值(bias)總和,形成轉移函數f的輸入。神經元能使用任何可微分的轉移函數f來產生神經元的輸出,如第4圖所示。倒傳遞網路具有權重值、偏移值,且其隱藏層(Hidden Layer)具有雙彎曲轉移函數(logsig或tansig函式),如第5a圖及第5b圖所示者,而其輸出層(Output Layer)具有線性轉移函數(purelin函式),如第5c圖所示,如此可使得網路能夠逼近於有限個不連續點的任何函數。下表5係為神經元模型各簡稱之說明。
由單重或多重紋路灰階影像切方塊像素作為輸入向量,而其已
知之深度值做為相對應之輸出,來訓練本發明的類神經網路。因為MATLAB Neural Network Toolbox網路的只允許一維的輸入向量,所以把5*5輸入向量轉為25*1(係採頭頭相接的方式),其轉換方式如第6圖所示。故本發明的倒傳遞網路架構(單重解析度深度預測),可如第7圖所示。
關於本發明類神經網路的參數設定:經由已知實際估測深度,如表6所示。初步實驗,訓練及預測都採用68*90影像大小,擷取局部的預測結果來做為觀察。當隱藏層使用logsig轉移函數時,所造成預測結果不佳,如表7所示。而使用tansig轉移函數時預測效果與實際估測深度比較相近,如表8所示。所以本發明隱藏層轉移函數選用tansig會較佳,而輸出層選用purelin。
本發明進一步創建前饋網路(Feedforward Network)MATLAB指令:newff,其指令語法如下:net=newff(Iv,[N1 N2...Ni],...{TF1 TF2...TFi},BTF,BLF,PF)。而表9則為創建前饋網路符號說明。
【表9】
通常該前饋網路時常具有一個或多個隱藏層,而本發明單重解析度深度預測網路架構係參考文獻[21],而此網路中所使用的權重值和偏移值總數為18901個。其算法如式1:
首先創建一個具輸入元素的二層前饋網路,其中輸入層輸入25個具代表性特徵向量,隱藏層(第一層)有700個神經元,輸出層(第二層)有1個神經元;第一層的轉移函數是正切雙彎曲轉移函數tansig,第二層的轉移函數是線性轉移函數purelin,網路的輸出能夠取任意值。訓練函數是Levenberg-Marquardt演算法trainlm。且訓練最大的迭代次數為200,而最
終的性能目標為1e-5。每一個輸入都用一個適當的權重值(W)來加權。此加權後輸入和偏移值(b)總和,形成轉移函數f的輸入。神經元能使用任何可微分的轉移函數f來產生神經元的輸出,如第8a圖所示。
關於本發明訓練網路步驟(c)方面:網路創建好之後,即可開始進行訓練網路的動作。本發明使用平均絕對誤差(Mean absolute error,MAE)來評估網路學習效果,在訓練網路過程中直到網路訓練出的深度值與已知實際值估測深度誤差不大下即可停止網路訓練,並儲存此網路用來做接下來的深度預測。訓練影像為1張大小皆為68*90。
所謂訓練過程(Training Process):訓練影像f 4 (x,y)為68*90,取出25*1 pixel為輸入向量與其相對應之深度值d(x,y)來訓練網路模型,將其稱之為「訓練過程」。直到網路能夠逼近於一個符合所需的深度值,即停止網路的訓練,第8b圖係為BPN訓練過程。
關於本發明第二定義步驟(d)方面:定義新的輸入向量,並輸入訓練灰階紋路影像f T (x,y)及測試灰階紋路影像f t (x,y),其輸入擷取向量方式及大小等同本發明的步驟(a)。新定義的輸入向量將用在於預測網路所使用,其範圍如下:f T (x,y)輸入向量範圍:x[1:M],y[1:N],輸入向量中心點有效坐標範圍x[3:M-2],y[3:N-2]。而f t (x,y)輸入向量範圍:x[1:2*M],y[1:2*N],輸入向量中心點有效坐標範圍:x[3:2*M-2],y[3:2*N-2]。而下表10為定義新的輸入向量一覽表。
【表10】
又預測網路的預測過程(Prediction Process),係經由已訓練過的網路模型來預測答案,將其稱之為「預測過程」。當給定此網路從不曾看過的輸入向量時,網路傾向於給定合理的答案,輸出所需的深度值,如第9a圖所示者為BPN預測過程。
本發明分成二測試樣本去做深度預測,測試樣本1.預測:fT=f4,ft=f4;測試樣本2.預測:fT=f4,ft=f3。而關於d(x,y),該d(x,y)起始範圍:x[1:M],y[1:N],該d(x,y)有效範圍:x[3:M-2],y[3:N-2]。關於de(x,y),該de(x,y)起始範圍:x[3:M-2],y[3:N-2],該de(x,y)有效範圍:x[3:M-2],y[3:N-2],如第9b圖所示者。
本發明拿兩張影像Image01和Image02來做為測試,第10a圖及第10b圖將顯示出所預測的結果及參數設置。為了比較已知實際深度d(x,y)與預測深度de(x,y)有何差異,本發明使用平均絕對誤差(Mean absolute error,MAE)來評估網路學習效果,其計算公式如式2。其中,n為輸出深度值個數,d為已知實際深度值,de為預測深度值。
而Neural Network訓練參數為(#neuron=700,hidden layer=1,epochs=200,goal=1e-5)。
本發明所提出的初步深度預測原理及架構,經由實驗結果得知,在單重解析度預測下,由測試樣本1.及測試樣本2.所預測出的結果顯
示。當在單重解析度深度預測下的方法,雖然可以預測f 4 (x,y)的輸入向量,但對於f 3 (x,y)的預測卻無法得到所需的結果。其一,推測其預測失敗的原因在於訓練的過程中輸入灰階紋路影像向量還不夠多,導致在預測時造成失敗。其二,在倒傳遞類神經網路的參數配置上無法掌握,如:神經元數量、隱層藏層數及一些細部的參數的調整且目前在神經元數量及隱藏層層數配置上並無一定規範,只能不斷嘗試去找尋最佳答案。
為改善單重解析度預測的缺失,接著本發明採用史丹佛大學所提出的階層式架構(Hierarchical Structure)的概念,如文獻[13]。利用此概念本發明把單重解析度預測加以改進,並發展出多重解析度深度預測。底下本發明會先介紹多重解析度深度預測結果,其次對於所預測出之深度圖進行主客觀的評估,最後使用深度影像繪圖法(Depth-image-based rendering,DIBR)的技術合成出左右眼影像。在透過3D顯示器,即可呈現出立體影像(Stereoscopic Image)。
而本發明增加多重目的:係在訓練過程中,增加灰階紋路影像向量來做訓練,使得在做深度預測時可以提升其精準度。接下來本發明將開始介紹多重解析度預測。
首先,定義各重輸入向量,其不同點在於訓練過程中所定義的輸入向量f T (x,y)與對應之目標值d(x,y)不同,其餘步驟同單重解析度深度預測,如第11圖及第12a圖所示。第一重輸入向量F4(x,y):以f 4 (x,y)為中心
之5*5向量,f 4 (x,y)起始範圍:x[1:M],y[1:N]。第二重輸入向量F5(x,y):以f 5 (,)為中心之5*5向量,f 5 (x,y)起始範圍:x[1:M/2],y[1:N/2]。第三重輸入向量F6(x,y):以f 6 (,)為中心之5*5向量,f 6 (x,y)起始範圍:x[1:M/4],y[1:N/4]。第四重輸入向量F7(x,y):以f 7 (,)為中心之5*5向量,f 7 (x,y)起始範圍:x[1:M/8],y[1:N/8]。
關於雙重解析度預測方面:其不同點在於訓練過程中所定義的輸入向量與目標值不同,其餘步驟同單重解析度預測,如第12b圖係為多重解析度訓練過程。其倒傳遞網路架構(多重解析度預測),如第13圖所示。
關於雙重解析度定義輸入向量及目標值:第一重輸入向量F 4 (x,y),第二重輸入向量F 5 (x,y),其向量擷取中心點f 4 (x,y)和f 5 (x,y)與其相對應之深度值d(x,y)中心點,如第14圖所示,其算法及過程如下列步驟:
第一重輸入向量F4(x,y):f 4 (x,y)起始範圍:x[1:M],y[1:N],而F 4 (x,y)輸入向量中心點有效坐標範圍:x[5:M-4],y[5:N-4]。第二重輸入向量F5(x,y):一開始先做f 4 (x,y)平均次取樣成f 5 (x,y),其公式如下:f 5 (x,=f 4 (x,y),其x,y範圍:x[1:M],y[1:N],且Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1.2y-1),該f 5 (x,y)起始範圍:x[1:M/2],y[1:N/2],而該F 5 (x,y)輸入向量中心點有效坐標範圍:x[3:M/2-2],y[3:N/2-2]。
另d(x,y),該d(x,y)起始範圍:x[1:M],y[1:N],而該d(x,y)目標值中心點有效坐標範圍:x[5:M-4],y[5:N-4]。
關於三重解析度預測,三重解析度定義輸入向量及目標值:第
一重輸入向量F 4 (x,y),第二重輸入向量F 5 (x,y),第三重輸入向量F 6 (x,y),其向量擷取中心點f 4 (x,y)、f 5 (x,y)及f 6 (x,y)與其相對應之深度值d(x,y)中心點,如第15圖所示,其算法及過程如下列步驟:
第一重輸入向量F4(x,y):1. f 4 (x,y)起始範圍:x[1:M],y[1:N];2. F 4 (x,y)輸入向量中心點有效坐標範圍:x[10:M-9],y[10:N-9]第二重輸入向量F5(x,y):1.一開始先做f 4 (x,y)平均次取樣成f 5 (x,y),其公式如下:f 5 (x=f 4 (x,y),其x,y範圍:x[1:M],y[1:N]。
Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1,2y-1);其中f 5 (x,y)起始範圍:x[1:M/2],y[1:N/2],該F 5 (x,y)輸入向量中心點有效坐標範圍:x[5:M/2-4],y[5:N/2-4]。第三重輸入向量F6(x,y):1.一開始先做f 5 (x,y)平均次取樣成f 6 (x,y),其公式如下:2. f 6 (x,y)=f 5 (x,y),其x,y範圍:x[1:M/2],y[1:N/2],Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1,2y-1);3. f 6 (x,y)起始範圍:x[1:M/4],y[1:N/4];4. F 6 (x,y)輸入向量中心點有效坐標範圍:x[3:M/4-2],y[3:N/4-2]。另該d(x,y):1. d(x,y)起始範圍:x[1:M],y[1:N];2. d(x,y)目標值中心點有效坐標範圍:x[10:M-9],y[10:N-9]。
關於四重解析度預測:四重解析度定義輸入向量及目標值,第
一重輸入向量F 4 (x,y),第二重輸入向量F 5 (x,y),第三重輸入向量F 6 (x,y),第四重輸入向量F 7 (x,y),其向量擷取中心點f 4 (x,y)、f 5 (x,y)、f 6 (x,y)及f 7 (x,y)與其相對應之深度值d(x,y)中心點,如第11圖所示,其算法及過程如下列步驟:
第一重輸入向量F4(x,y):1, f4(x,y)起始範圍:x[1:M],y[1:N];2. F 4 (x,y)輸入向量中心點有效坐標範圍:x[20:M-19],y[20:N-19]。第二重輸入向量F5(x,y):1.一開始先做f 4 (x,y)平均次取樣成f 5 (x,y),其公式如下;2. f 5 (x,y=f 4 (x,y),其x,y範圍:x[1:M],y[1:N],Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1,2y-1);3. f 5 (x,y)起始範圍:x[1:M/2],y[1:N/2];4. F 5 (x,y)輸入向量中心點有效坐標範圍:x[10:M/2-9],y[10:N/2-9]。第三重輸入向量F6(x,y):1.一開始先做f 5 (x,y)平均次取樣成f 6 (x,y),其公式如下;2. f 6 (x,y)=f 5 (x,y),其x,y範圍:x[1:M/2],y[1:N/2],Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1,2y-1);3. f 6 (x,y)起始範圍:x[1:M/4],y[1:N/4];4. F 6 (x,y)輸入向量中心點有效坐標範圍:x[5:M/4-4],y[5:N/4-4]。第四重輸入向量F7(x,y):1.一開始先做f 6 (x,y)平均次取樣成f 7 (x,y),其公式如下;2. f 7 (x,y)=f 6 (x,y),其x,y範圍:x[1:M/4],y[1:N/4],Σf(2x,2y)f(2x,2y-1)f(2x-1,2y)f(2x-1,2y-1);3. f 7 (x,y)起始範圍:x[1:M/8],y[1:N/8];4. F 7 (x,y)輸入向量中心點有效坐標範圍:x[3:M/4-2],y[3:N/4-2];另d(x,y):1. d(x,y)起始範圍:x[1:M],y[1:N];2. d(x,y)目標值中心點有效坐標範圍:x[20:M-19],y[20:N-19];3.額外加入global資訊,且將MATLAB指令:imresize,並使用imresize將M*N影像縮小成5*5即可。
本發明將取如下的二測試樣本進行深度值的估測實驗,測試樣本一:1.雙重預測(f T =f 4 +f 5 ,f t =f 4 );2.三重預測(f T =f 4 +f 5 +f 6 ,f t =f 4 );3.四重預測(f T =f 4 +f 5 +f 6 +f 7 ,f t =f 4 )。測試樣本二:1.雙重預測(f T =f 4 +f 5 ,f t =f 3 );2.三重
預測(f T =f 4 +f 5 +f 6 ,f t =f 3 );3.四重預測(f T =f 4 +f 5 +f 6 +f 7 ,f t =f 3 )。
然後將上述測試樣本進行二種實驗,實驗一為多重解析度預測,實驗二為增加神經元數量。首先本發明對多重解析度預測實驗進行說明。
關於該雙重、三重及四重訓練:Neural Network訓練參數為(#neuron=700,hiddenlayer=1,epochs=200,goal=1e-5)。如第16圖所示者,則為樣本一的多重訓練時間;如第17圖所示者,係為樣本一所對應之深度圖;如第18圖所示者,係為樣本一的多重預測結果。如第19圖所示者,係為樣本二所對應之深度圖;如第20圖所示者,則為樣本二的多重預測結果。
上述實驗一的結論:係經由訓練樣本f T =f 4 (x,y)所訓練出的網路,來預測其測試樣本f t (x,y)=f 3 (x,y),雖然多重解析度可以有效地預測。雙重預測(MAE可達到8.47),三重預測(MAE可達到7.23),四重預測(MAE可達到5.47)。但其預測精準度還不是最佳。而下述實驗二,本發明將增加其神經元數量,以提升其預測精準度。
實驗二,增加神經元數量:Neural Network訓練參數為(#neuron=700,hiddenlayer=1,epochs=200,goal=1e-5)。以實驗一的最佳結果四重解析度預測再增加神經元數目,除了以固定700個神經元訓練外,本發明額外增加750,800和1000神經元做測試。實驗成果請參閱第20圖至第22圖所示者。
另經統計可得出一神經元與訓練時間及MAE之關係,請參閱第23a圖及第23b圖者。
而本發明經上述實驗二可以獲得結論:除了原本固定700個神
經元之外,另外還增加神經元750、800及1000的實驗,其實驗結果證明,當增加重數及神經元數量時,有助於提升深度預測時的精準度。
另本發明再做一個實驗三,該實驗三係重新設定輸入向量並調整每個像素位置。分為兩種方式:1. zig-zag scan法;2.頭尾相接法。其中該zig-zag scan法係將5*5向量擷取完成後,使用zig-zag重新排序每個像素的位置,如第24a圖,並重新作訓練。而頭尾相接法係將5*5向量擷取完成後,使用頭尾相接重新排序每個像素的位置,如第24b圖,並重新作訓練。上述兩種方法Neural Network訓練參數為(#neuron=700,hiddenlayer=1,epochs=200,goal=1e-5)。其結果如第25圖所示。故使用zig-zag及頭尾相接重新排序每個像素位置並作訓練,其預測結果不如初始方法。基於上述最好之方法運用於底下作多張影像深度圖估測。
本實驗三進一步以多張影像作深度圖預測,選用十四張影像及其深度圖(大小皆為34*45),如第26圖所示。測試時Inside影像及Outside影像固定。其目的:訓練張數越多時,觀察inside及outside品質變化之規律。1. Lab01:訓練兩張影像,測試Inside兩張及(固定)Outside四張。2. Lab02:訓練五張影像,測試Inside四張及(固定)Outside四張。3. Lab03:訓練十張影像,測試Inside四張及(固定)Outside四張。
本發明在進行Lab01:訓練兩張影像,測試Inside兩張及(固定)Outside四張。Neuralnetwork訓練參數為(#neuron=200,hiddenlayer=1,epochs=200,goal=1e-5)。其成果如第27圖所示者。
本發明在進行Lab02:訓練五張影像,測試Inside四張及(固定)Outside四張。Neuralnetwork訓練參數
為(#neuron=500,hiddenlayer=1,epochs=200,goal=1e-5)。其成果如第28圖所示者。
本發明在進行Lab03:訓練十張影像,測試Inside四張及(固定)Outside四張。Neuralnetwork訓練參數為(#neuron=1000,hiddenlayer=1,epochs=200,goal=1e-5)。其成果如第29圖所示者。
經由上述實驗三所獲得的結論:本發明所挑選Inside影像(2)及Outside影像(12)來作為探討。首先,當本發明以兩張影像作訓練時,其Inside預測(MAE可達到2.47),但Outside預測效果其差(MAE為)。其次,以五張影像作訓練時,Inside預測(MAE可達到2.65),Outside預測(MAE為27.25)。最後,以十張影像作為訓練時,Inside預測(MAE可達到2.70),Outside預測(MAE為10.92)。綜合上述得到一個結果,當訓練張數增加時,其Inside預測會稍微退步,但其Outside預測會有顯著的進步。另本發明可以使用中值濾波器(Median filter)來濾除影像中小黑點,使影像看起來平滑(smooth)。其Inside預測結果經過後處理,如第30a圖所示,經由後處理中值濾波器修正過後,其MAE最好可達到2.03。
經上述實驗,當在增加重數及神經元時,MAE值有明顯的下降,且其估測出深度圖有越來越趨近於實際深度圖,再將該實際深度圖經DIBR技術合成出左右眼影像的交錯式立體影像,並輸出於顯示器上,如第30b圖所示者,係為本發明所選用的影像、所估測的深度圖及其交錯式立體影像。
綜合以上所述,本發明係關於一種「二維影像深度值之估測系
統」,係率先提出一新的二維影像深度值之估測方法,運用類神經網路於二維影像之深度圖估測,可以有效地、精準地預測深度圖的深度值,再以此方法製作成操作系統(即程式軟體),又其方法及以該方法所構成的系統均未曾見於諸書刊或公開使用,誠符合發明專利申請要件,懇請 鈞局明鑑,早日准予專利,至為感禱。
(a)、(b)、(c)、(d)、(e)、(f)‧‧‧步驟
Claims (8)
- 一種二維影像深度值之估測方法,係包含有:(a)、一第一定義步驟,係取一樣本影像並定義其f T (x,y)輸入向量及所對應深度值d(x,y)的目標向量;(b)、一創建網路步驟,係建立一類神經網路並對其作參數設置;(c)、一訓練網路步驟,係輸入該f T (x,y)輸入向量及其深度值的目標向量值,據以訓練該類神經網路,並得一NN權重值;(d)、一第二定義步驟、係定義該樣本影像的f t (x,y)輸入向量;(e)、一輸出步驟,係輸入該f t (x,y)輸入向量於已訓練好的該類神經網路,並載入該NN權重值,可得該樣本影像的估測深度值de(x,y);及(f)、一比較步驟,其根據該深度值de(x,y),據以評估該類神經網路的訓練效果,若能符合需求,則停止訓練該類神經網路網路並拿來運用;若未能符合需求,則該f T (x,y)輸入向量係設為多重輸入向量或/及增加該類神經網路網路中的神經元數量並重新訓練該類神經網路,又該f T (x,y)輸入向量係採用頭頭相接法、zig-zag法或頭尾相接法重之輸入方式。
- 依據申請專利範圍第1項所述之二維影像深度值之估測方法,係使用平均絕對誤差(Mean absolute error,MAE)來評估該類神經網路的訓練效果。
- 依據申請專利範圍第1項所述之二維影像深度值之估測方法,其中該步驟(f)中的f T (x,y)多重輸入向量係設為一第一重輸入向量、一第二重輸入向量、一第三重重輸入向量及一第四重重輸入向量。
- 依據申請專利範圍第2項所述之二維影像深度值之估測方法,其中該步驟(f)中的神經元數量設定至少為700個。
- 依據申請專利範圍第1或2項所述之二維影像深度值之估測方 法,其中該步驟(b)中的類神經網路係設為一倒傳遞網路與一創建前饋網路的組合。
- 依據申請專利範圍第7項所述之二維影像深度值之估測方法,其中該類神經網路內部所設的一隱藏層係使用對數雙彎曲轉移函數(logsig)或正切雙彎曲轉移函數(tansig),又該類神經網路內部所設的一輸出層係使用線性轉移函數(purelin)。
- 依據申請專利範圍第1或2項所述之二維影像深度值之估測方法,其中該NN權重值係包含一權重(W)及一偏移值(b)。
- 一種二維影像深度值之估測系統,係使用上述申請專利範圍第1項至第9項任一項所述的估測方法所建構的系統。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102142562A TWI524307B (zh) | 2013-11-22 | 2013-11-22 | Two - dimensional image depth value estimation method and its system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102142562A TWI524307B (zh) | 2013-11-22 | 2013-11-22 | Two - dimensional image depth value estimation method and its system |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201520978A TW201520978A (zh) | 2015-06-01 |
TWI524307B true TWI524307B (zh) | 2016-03-01 |
Family
ID=53935087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102142562A TWI524307B (zh) | 2013-11-22 | 2013-11-22 | Two - dimensional image depth value estimation method and its system |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI524307B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI562099B (en) * | 2015-12-23 | 2016-12-11 | Univ Nat Yunlin Sci & Tech | Markers Based 3D Position Estimation for Rod Shaped Object Using 2D Image and Its Application In Endoscopic MIS Instrument Tracking Positioning and Tracking |
CN107229518B (zh) * | 2016-03-26 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 一种分布式集群训练方法和装置 |
KR102595787B1 (ko) * | 2018-02-27 | 2023-11-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
-
2013
- 2013-11-22 TW TW102142562A patent/TWI524307B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TW201520978A (zh) | 2015-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3510561B1 (en) | Predicting depth from image data using a statistical model | |
CN107330437B (zh) | 基于卷积神经网络目标实时检测模型的特征提取方法 | |
CN104318569B (zh) | 基于深度变分模型的空间显著性区域提取方法 | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN105069423B (zh) | 一种人体姿态检测方法及装置 | |
CN104537647B (zh) | 一种目标检测方法及装置 | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
CN109035250B (zh) | 建立年龄预测模型的方法及装置、年龄预测方法及装置 | |
CN107066916B (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN102663747B (zh) | 一种基于视觉感知的立体图像客观质量评价方法 | |
CN109584290A (zh) | 一种基于卷积神经网络的立体图像匹配方法 | |
CN106023230B (zh) | 一种适合变形图像的稠密匹配方法 | |
CN109831664B (zh) | 基于深度学习的快速压缩立体视频质量评价方法 | |
CN109685772B (zh) | 一种基于配准失真表示的无参照立体图像质量评估方法 | |
TWI524307B (zh) | Two - dimensional image depth value estimation method and its system | |
JP2023524252A (ja) | 生成的非線形人間形状モデル | |
CN109788275A (zh) | 自然性、结构和双目不对称无参考立体图像质量评价方法 | |
Huang et al. | Toward naturalistic 2D-to-3D conversion | |
CN109978928B (zh) | 一种基于加权投票的双目视觉立体匹配方法及其系统 | |
CN105898279B (zh) | 一种立体图像质量客观评价方法 | |
CN110148083B (zh) | 基于快速bemd和深度学习的图像融合方法 | |
CN109523590B (zh) | 一种基于样例的3d图像深度信息视觉舒适度评估方法 | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN117036876A (zh) | 一种基于三维视角对齐的可泛化目标重识别模型构建方法 | |
CN116091705A (zh) | 基于神经辐射场的变拓扑动态场景重建与编辑方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |