TWI709106B

TWI709106B - 基於深度學習網路的室內場景結構估測系統及其估測方法

Info

Publication number: TWI709106B
Application number: TW108114308A
Authority: TW
Inventors: 林宏縉; 賴尚宏
Original assignee: 國立清華大學
Priority date: 2018-12-28
Filing date: 2019-04-24
Publication date: 2020-11-01
Also published as: US20200211284A1; TW202027036A; US10839606B2

Abstract

本發明係揭露一種基於深度學習網路的室內場景結構估測系統及其估測方法。一種基於深度學習網路的室內場景結構估測系統，係包含2D編碼器、2D平面解碼器、2D邊緣解碼器、2D角點解碼器及3D編碼器。2D編碼器接收輸入影像，且對輸入影像進行編碼。2D平面解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D平面分割佈局影像。2D邊緣解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D邊緣佈局影像。2D角點解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D角點佈局影像。3D編碼器連結2D平面解碼器、2D邊緣解碼器及2D角點解碼器，且接收2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像，並對2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像進行編碼而產生3D參數，且依據3D參數產生3D室內場景影像。

Description

基於深度學習網路的室內場景結構估測系統及其估測方法

本發明是有關於一種室內場景結構估測系統及其估測方法，特別是有關於一種以神經網路進行訓練及學習之基於深度學習網路的室內場景結構估測系統及其估測方法。

一般來說，習知的深度學習方法在輸出2D室內場景時，皆需要進行額外特殊的後處理或最佳化方法等來完成最終輸出，進而導致運算量增加，影響整體的處理效率。

另一方面，習知的深度學習方法並無法對3D室內場景進行估測，更別說可直接透過神經網路學習來輸出3D室內場景。是以，在3D室內場景之估測及輸出方面，仍是相關產業需面臨且亟須解決的一大課題。

有鑑於上述習知之問題，本發明的目的在於提供一種基於深度學習網路的室內場景結構估測系統及其估測方法，用以解決習知技術中所面臨之問題。

基於上述目的，本發明係提供一種基於深度學習網路的室內場景結構估測系統，係包含2D編碼器、2D平面解碼器、2D邊緣解碼器、2D角點解碼器及3D編碼器。2D編碼器接收輸入影像，且對輸入影像進行編碼。2D平面解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D平面分割佈局影像。2D邊緣解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D邊緣佈局影像。2D角點解碼器連結2D編碼器，且對編碼後之輸入影像進行解碼，並產生2D角點佈局影像。3D編碼器連結2D平面解碼器、2D邊緣解碼器及2D角點解碼器，且接收2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像，並對2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像進行編碼而產生3D參數，且依據3D參數產生3D室內場景影像。

較佳地，3D編碼器可具有第一訓練階段及第二訓練階段，第一訓練階段由隨機抽象層生成器產生虛擬3D參數及樣板立方體，樣板立方體輸入至2D編碼器進行編碼，且2D邊緣解碼器對編碼後之樣板立方體解碼而產生2D邊緣佈局影像，由預先訓練3D編碼器對2D邊緣佈局影像進行編碼而產生訓練3D參數，當訓練3D參數及虛擬3D參數相同時結束第一訓練階段，第二訓練階段輸入實際訓練影像至2D編碼器，再由2D邊緣解碼器對編碼後之實際訓練影像進行解碼而產生2D邊緣佈局影像，2D邊緣佈局影像輸入至預先訓練3D編碼器而經編碼後產生訓練3D參數，及2D邊緣佈局影像輸入至目標3D編碼器而經編碼後產生目標3D參數，當目標3D參數與訓練3D參數之誤差小於預設門檻值時結束第二訓練階段，且目標3D編碼器作為3D編碼器。

較佳地，2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像可運用損失函數處理，損失函數如下：Loss=L _plane+L _edge+L _corner

L _plane=L _seg+λ _s L _smooth

L _smooth=mean(|x _i-target _i|₁)

其中，Loss為損失函數，L_place為平面損失函數，L_edge為邊緣損失函數，L_corner為角點損失函數，L_seg為分割損失函數，L_smooth為平滑損失函數，λ_s為平滑損失函數的權重，x_i為估測輸出值，target_i為真實數據(ground truth)標籤。

較佳地，輸入圖片由相機提供，相機可具有相機內部矩陣，而3D室內場景影像之投影影像符合下列公式：X_2D≡π(X_3D|K,P,scale)

其中，X_2D為投影影像，π表示投影，X_3D為3D室內場景影像，K為該相機之相機內部矩陣，scale為由該相機所位於之室內場景所構成之立方體的邊長比例，f_x,f_y為該相機之焦距座標，c_x,c_y為該相機之中心點座標，R為3X3的旋轉矩陣，T為3X1的平移向量，P為投影矩陣。

較佳地，3D參數可包含三軸歐拉旋轉角、對應3D室內場景影像之立方體的三軸長度比例及輸出影像之相機之相機位置。

基於上述目的，本發明再提供一種基於深度學習網路的室內場景結構估測方法，適用於包含2D編碼器、2D平面解碼器、2D邊緣解碼器、2D角點解碼器及3D編碼器，機於深度學習網路的室內場景結構估測方法包含下列步驟：接收輸入影像，且對輸入影像進行編碼。對編碼後之輸入影像進行解碼，並產生2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像。對2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像進行編碼而產生3D參數。依據3D參數產生3D室內場景影像。

較佳地，3D編碼器可具有第一訓練階段及第二訓練階段，基於深度學習網路的室內場景結構估測方法更可包含下列步驟：由隨機抽象層生成器於第一訓練階段產生虛擬3D參數及樣板立方體。2D編碼器對樣板立方體進行編碼。對編碼後之樣板立方體解碼而產生該2D邊緣佈局影像。由預先訓練3D編碼器對2D邊緣佈局影像進行編碼而產生訓練3D參數，當訓練3D參數及虛擬3D參數相同時結束第一訓練階段。於第二訓練階段輸入實際訓練影像至2D編碼器。由2D邊緣解碼器對編碼後之實際訓練影像進行解碼而產生2D邊緣佈局影像。由預先訓練3D編碼器對2D邊緣佈局影像編碼後產生訓練3D參數。由目標3D編碼器對2D邊緣佈局影像編碼後產生目標3D參數，當目標3D參數與訓練3D參數之誤差小於預設門檻值時結束第二訓練階段，且目標3D編碼器作為3D編碼器。

L _plane=L _seg+λ _s L _smooth

L _smooth=mean(|x _i-target _i|₁)

其中，Loss為損失函數，L_place為平面損失函數，L_edge為邊緣損失函數，L_corner為角點損失函數，L_seg為分割損失函數， L_smooth為平滑損失函數，λ_s為平滑損失函數的權重，x_i為估測輸出值，target_i為真實數據標籤。

較佳地，輸入圖片由相機提供，相機具有相機內部矩陣，而3D室內場景影像之投影影像符合下列公式：X_2D≡π(X_3D|K,P,scale)

其中，X_2D為投影影像，π表示投影，X_3D為3D室內場景影像，K為相機之相機內部矩陣，scale為由相機所位於之室內場景所構成之立方體的邊長比例，f_x,f_y為相機之焦距座標，c_x,c_y為相機之中心點座標，R為3X3的旋轉矩陣，T為3X1的平移向量，P為投影矩陣。

較佳地，3D參數包含三軸歐拉旋轉角、對應3D室內場景影像之立方體的三軸長度比例及輸出影像之相機之相機位置。

承上所述，本發明之基於深度學習網路的室內場景結構估測系統及其估測方法經由兩階段估測的方式而取得場景結構之布局及3D參數，而達到輸出3D室內場景影像之目的；且進一步地，本發明之基於深度學習網路的室內場景結構估測系統及其估測方法不需藉由任何後處理或最佳化而可直接輸出3D室內場景影像，而具有降低系統運算量及提升系統處理效率之功效。

100:基於深度學習網路的室內場景結構估測系統

110:2D編碼器

120:2D平面解碼器

121:2D平面分割佈局影像

130:2D邊緣解碼器

131:2D邊緣佈局影像

140:2D角點解碼器

141:2D角點佈局影像

150:3D編碼器

151:預先訓練3D編碼器

152:目標3D編碼器

I1:輸入影像

I1’:編碼後之輸入影像

I2:實際訓練影像

TC:樣板立方體

第1圖係為本發明之基於深度學習網路的室內場景結構估測系統之示意圖。

第2圖係為本發明之基於深度學習網路的室內場景結構估測系統之角點佈局之示意圖。

第3圖係為本發明之基於深度學習網路的室內場景結構估測系統之第一訓練階段之示意圖。

第4圖係為本發明之基於深度學習網路的室內場景結構估測系統之第二訓練階段之示意圖。

第5圖係為本發明之模型訓練(a)無(b)有平滑損失函數之佈局估測結果比較之示意圖。

第6圖係為本發明之基於深度學習網路的室內場景結構估測系統之第一流程圖。

第7圖係為本發明之基於深度學習網路的室內場景結構估測系統之第二流程圖。

第8圖係為本發明之多任務網路輸出之第一示意圖。

第9圖係為本發明之多任務網路輸出之第二示意圖。

第10圖係為本發明之多任務網路輸出之第三示意圖。

第11圖係為本發明之LSUNRoom上之3D立方體和再投影佈局之第一示意圖。

第12圖係為本發明之LSUNRoom上之3D立方體和再投影佈局之第二示意圖。

第13圖係為本發明在Hedau測試組合中之佈局估測之可視化結果之示意圖。

第14圖係為本發明從Google中隨機選擇之影像之本模型可視化輸出之示意圖。

為利瞭解本發明之特徵、內容與優點及其所能達成之功效，茲將本發明配合圖式，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍。

本發明之優點、特徵以及達到之技術方法將參照例示性實施例及所附圖式進行更詳細地描述而更容易理解，且本發明或可以不同形式來實現，故不應被理解僅限於此處所陳述的實施例，相反地，對所屬技術領域具有通常知識者而言，所提供的實施例將使本揭露更加透徹與全面且完整地傳達本發明的範疇，且本發明將僅為所附加的申請專利範圍所定義。

請參閱第1圖，其係為本發明之基於深度學習網路的室內場景結構估測系統之示意圖。如圖所示，本發明之基於深度學習網路的室內場景結構估測系統100包含了2D編碼器110、2D平面解碼器120、2D邊緣解碼器130、2D角點解碼器140及3D編碼器150。

室內場景結構估測拆解為兩個階段，分別為2D佈局估測以及透過投影參數估測之3D立方體模型表現。基於深度學習網路的室內場景結構估測系統包含兩個子任務且可單獨或聯合應用。在本架構之第一階段中，透過基於ResNet之多流全卷積網路(multi-stream fully convolutional network,FCN)以估測2D佈局，可同時估測角點、邊緣和語義平面(semantic planes)的表現中的佈局，以作為最終輸出而無需使用後處理方法。

續言之，在2D佈局估測階段，上述之2D編碼器110接收輸入影像I1，且對輸入影像I1進行編碼。2D平面解碼器120連結2D編碼器110，且對編碼後之輸入影像I1’進行解碼，並產生2D平面分割佈局影像121。2D邊緣解碼器130連結2D編碼器110，且對編碼後之輸入影像I1’進行解碼，並產生2D邊緣佈局影像131。2D角點解碼器140連結2D編碼器110，且對編碼後之輸入影像I1’進行解碼，並產生2D角點佈局影像141。

其中，在沒有使用後處理方法的情況下獲得佈局估測，且透過採用有效的訓練策略以達到最出色的水平。透過輸入單張彩色影像，標準的(vanilla)ResNet101可作為2D編碼器110以擷取特徵，三個上取樣卷積層可分別作為2D平面解碼器120、2D邊緣解碼器130和2D角點解碼器140，並獲取共享特徵的跳接層(skip-connections layers)。詳述之，如同DeLay中提及的佈局表現，此佈局可以視為五級的平面語義分割問題。最後的平均池化層和全連接層在原始的ResNet101中被刪除，全連接層則以1×1卷積層代替，接著進行雙線性上取樣，以便從相應的前一層以跳接的形式來放大特徵圖(feature maps)。為了使特徵圖的維度一致，在連接到2D平面解碼器120、2D邊緣解碼器130和2D角點解碼器140的輸出之前，插入附加卷積層。在網路主幹中，在卷積分類器區塊(conv-classifier blocks)之前附加額外的兩個丟棄層(dropout layer)和批量標準層(batch-norm layer)，以防止特定任務中產生過度擬合。

另一方面，角點偵測也可調整至類似的框架。本模型不僅可以用於語義平面分割，也可用於估測角點和邊緣之佈局。因此，為了在語義平面上的多個同時發生之佈局估測以及於另一作業中的內外角點，亦修改且展示該網路。除此之外，將編碼之潛在佈局特徵圖作為用於多項任務之2D平面解碼器120、2D邊緣解碼器130、2D角點解碼器140、佈局分割(生成2D平面分割佈局影像121)、佈局角點(生成2D角點佈局影像141)和佈局邊緣(生成2D邊緣佈局影像131)之通用中間表示。因此，所有目標可以在一個多分支網路中建模，如第1圖所示。在此網路設計配置下，可使所有任務聯合訓練，而不是在一個分支上做策略訓練，然後在LayoutNet中對另一個分支進行微調。

補充說明，有關2D表現中的語義布局，在曼哈頓世界(Manhattan world)的假設下，每個室內場景皆視為由多個正交平面組成，且一般的房間佈局可進一步簡化為立方體模型。從此觀點來看，佈局估測也可視為立方體每個表面上的區域分割問題。為了描述這些區域的分割，可透過密集分割或多邊形邊界或點來實現參數化。在先前之佈局估測之深度學習設計中，可提出若干表示，例如具有語義標籤的平面分割、在佈局邊緣上的評分熱圖(scoring heatmap)以及角落熱圖(corner heatmaps)。

佈局分割：密集區分割可稱為語義平面表現，且這些平面可標記為五類：前壁，右壁，左壁、天花板和地板。接續之，可形成為一個語義分割，如同在更大的結構範圍之標記一樣，而非目標程度分割。

佈局角點：在RoomNet中，對於每個可能的佈局結構，角點可被估測為差不多五十幾個通道熱圖，而此作法效率不彰，因此LayoutNet將角點的類別簡化為僅一個通道。然而，每個房間佈局結構中的角點可由兩種點給出，一種是房間內的真實角點(內角)，另一種是與攝影機邊緣相交的點並且顯示在影像的邊界上(外角)如第2圖所示。換句話說，這些角點可分為兩類，而不是許多通道或單一通道。

佈局邊緣：佈局邊緣可由多邊形的邊框表示。邊界的偵測是用以決定像素是否為房間佈局的邊緣，且可被視為二元分類問題。

如第1圖所示，在透過投影參數估測之3D立方體模型表現階段，3D編碼器150連結2D平面解碼器120、2D邊緣解碼器130及2D角點解碼器140，且接收2D平面分割佈局影像121、2D邊緣佈局影像131及2D角點佈局影像141，並對2D平面分割佈局影像121、2D邊緣佈局影像131及2D角點佈局影像141進行編碼而產生3D參數θ(R,t,s)

，且依據3D參數θ產生3D室內場景影像。

在此階段，在曼哈頓世界假設下，此房間可視為一個立方體。在此假設下，日常生活中的一般房間可由立方體模型組成。大多數室內結構甚至可以簡單地用一個立方體表示，這也是現有資料集所適用的和大多數的日常室內場景的狀況。因此，先前的建模研究將各種房間場景之3D佈局視為是由箱子所組成的，而且所提出之佈局是基於2D人工提取的特徵定義(2D hand-craft cues)和以最佳化為基礎的管道(optimization-based pipeline)所產生的。然而，在幾何計算中，當深度資訊減化到2D空間時，2D角點可以被視為是3D佈局的表現。

基於此發現，3D佈局估測可制定成一個重建任務。因此，此任務可轉變為透過估測一形變立方體內的視點來重建佈局結構，並且將參數公式化以用於轉換和投影。需注意影像空間上顯示的佈局是來自3D空間的投影立方體，並考量和相機的擺放方式有關係的對應的立方體轉換。可利用此種轉換來參數化3D佈局，以在標準的3D坐標中重建佈局。此外，利用估測之投影參數將形變的立方體再投影回2D空間來，可視化3D佈局參數的有效性。

深度學習網路係用於估測3D佈局的立方體表現。然而，網路管理缺乏帶註釋的3D資訊。因此，合成數據可與我們的研究所提出之策略性抽象佈局生成(Abstract Layout Generation)一起使用，並透過轉移學習將此知識傳遞給真實狀況。透過這樣的公式化，並且可以來自第一階段之估測佈局(2D佈局估測)之2D中間表現之投影參數表現來估測3D房間佈局。端對端的3D佈局估測框架可透過深度網路進行。

更詳細地說，3D編碼器150可具有第一訓練階段及第二訓練階段。

請參閱第3圖，其係為本發明之基於深度學習網路的室內場景結構估測系統之第一訓練階段之示意圖。如圖所示，第一訓練階段由隨機抽象層生成器產生虛擬3D參數θ₁及樣板立方體TC，樣板立方體TC輸入至2D編碼器110進行編碼，且2D邊緣解碼器130對編碼後之樣板立方體TC解碼而產生2D邊緣佈局影像131，由預先訓練3D編碼器151對2D邊緣佈局影像131進行編碼而產生訓練3D參數θ₂，當訓練3D參數θ₂及虛擬3D參數θ₁相同時結束第一訓練階段。

上述之第一個訓練階段係關於前饋迴歸網路(Regression Forwarding Network)，該任務可規劃為關於立方體的外部縮放和轉換的迴歸任務。學習為導向的模型，例如卷積神經網路(CNN)，可應用於學習來自輸入數據的投影轉換參數θ_t。因此，可形成一個估測參數θ_p向目標參數θ_t進行迴歸之迴歸模型。

然而，訓練這樣的迴歸模型具挑戰性，因為大多數的佈局估測數據集不提供任何3D註釋。空間佈局的數據集通常以2D資訊來註釋，例如用於佈局的多邊形形狀和用於角點的影像坐標。將這些2D註釋「轉換」為目標3D參數空間θ_t作為迴歸網路的管理訊號實屬困難。

因此，將此問題系統地闡述如下。原始之任務是為了建立從輸入空間I

至目標投影參數θ_t

之迴歸模型，在此設置下，考量了中間2D佈局表現ε

，也就是2D佈局估測階段中的2D佈局網路的估測。任務拆解的關鍵在於，透過轉換形變的立方體盒並將盒的邊緣投影到影像平面上，可以很容易地合成中間佈局表現。因此，藉由使用轉換與投影模組，可透過隨機生成目標參數θ_g以及迴歸任務的相應2D佈局表現輸入I_g≡

來獲取許多合理的樣本。公式如下：X_2D≡π(X_3D|K,P,scale)

其中，K視為是在相機校驗過程中所給定的相機固有矩陣，P則是投影矩陣。

相應地，可採用這些配對訊號來訓練迴歸模型學習目標參數的編碼。利用這樣的策略，可改良不適定的迴歸任務，且可克服現有數據集缺少3D註釋的問題。此迴歸網路的設計係由諸多具有ReLU非線性觸發的跨卷積層之複合層組成，而對於立方體佈局表現的目標投影參數Θ

，1 X 1卷積層則在網路末端作為完全連接層。

請參閱第4圖，其係為本發明之基於深度學習網路的室內場景結構估測系統之第二訓練階段之示意圖。如圖所示，第二訓練階段為輸入實際訓練影像I2至2D編碼器110，再由2D邊緣解碼器131對編碼後之實際訓練影像I2進行解碼而產生2D邊緣佈局影像131，2D邊緣佈局影像131輸入至預先訓練3D編碼器151而經編碼後產生訓練3D參數θ₂，及2D邊緣佈局影像131輸入至目標3D編碼器152而經編碼後產生目標3D參數θ₃，當目標3D參數θ₃與訓練3D參數θ₂之誤差小於預設門檻值時結束第二訓練階段，且將目標3D編碼器152作為3D編碼器150。

上述之第二訓練階段係關於轉換學習網路。除合成數據之外，可使所訓練的迴歸模型對真實訊號起作用。迴歸模型應僅應用於有信心的2D佈局表示，意即自真實數據(ground truth)生成的佈局邊緣。輸入樣本可藉由將數據集的真實數據之註釋角點坐標P

連接起來，以獲得理想的佈局邊緣

。在此配置中，可以使用對假樣本的預先訓練模型來直接地評測，而在LSUN佈局數據集中，2D像素級(2D pixel-wise)精確度之表現可達到93%。

然而，由於從CNNs的實際輸出無法提供理想的佈局邊緣，因此很難應用於佈局估測之管道。但是，中間表現的一般性使其可以擴展到前一個階段的輸出，而該輸出也在同一空間中，意即邊緣圖中的2D佈局表現。儘管佈局邊緣的估測不如從真實數據所產生的估測理想，但可使用對假樣本的預先訓練模型，利用轉換學習策略來製造一個新的網路學習以對參數進行編碼。因此，透過單純深度網路，可為3D佈局估測實現端到端框架，而不需要任何最佳化或後處理方法。

在先前之作業中發現，如果將標準的(vanilla)語義分割標準直接應用於平面佈局估測，所得的結果通常會遭受扭曲並且自平面中心以及DeLay所述之平面與「波浪曲線」(非直線)，分裂。第5(a)圖為遠離平面表現的多邊形實例之實驗試驗結果。因此，施加平滑損失函數以減緩偽影問題，並且在邊緣上實現更平滑且連續的佈局估測，從而獲得更好的定性估測。

而，2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像可運用損失函數處理，損失函數如下：Loss=L _plane+L _edge+L _corner

L _plane=L _seg+λ _s L _smooth

L _smooth=mean(|x _i-target _i|₁)

其中，Loss為損失函數，L_place為平面損失函數，L_edge為邊緣損失函數，L_corner為角點損失函數，L_seg為分割損失函數，L_smooth為平滑損失函數，λ_s為平滑損失函數的權重，x_i為估測輸出值，target_i為真實數據標籤。

關於L_seg的詳細說明如下：平面佈局分割的核心目標函數是多類交叉熵損失L_seg(multi-class cross-entropy loss L_seg)，其為語義分割任務中最常見的損失函數，也是像素級分類問題，而此目標函數可由下列公式表示：L _seg(x,target)=CE(x,target)

其中，x為估測輸出，target為真實數據分割標籤，CE為數學上的交叉熵函數。

其中，對於以管道(channel)/高度/寬度塑形的多維度張量之單一估測，x為網路之輸出，所述管道即本任務的分級(classes)，在此針對語意平面分割提供了五個分級。

關於L _smooth的詳細說明如下：儘管標準的語義分割損失對平面分割任務能起作用，但估測平面區域偶爾會從內部扭曲，此非樂見的結果。為了實現較合理的平面估測，需要減少這些偽影，有效的方法是平滑輸出以利於後處理。然而，可在目標損失函數中應用額外的平滑損失函數L_smooth，其可促進每個平面通道c中的真實數據與分割佈局之間的像素級距離(pixel-wise distance)最小化，從而平滑估測。

L _smooth=mean(l(x,target)),l(x,target)={|x ₁-target ₁|₁,...,|x _c-target _c|₁}

其中，x為估測輸出，target為真實數據標籤，下標i指第i個分割通道，「mean」則指對這i個項取平均值。

第5圖的(a)和(b)部分係繪示應用額外限制條件的視覺效果。雖然在定量測量中沒有太多改善(降低誤差約為1%)，但最終的視覺結果顯示凌亂的場景得到了更平滑的表面預測。

關於L _edge及L _corner的詳細說明如下：角點和邊緣偵測任務可視為像素等級(pixel-level)的二元分類，因此損失函數可由二元交叉熵來表示：L _edge(x,target)=BCE(x,target)

L _corner(x,target)=ΣBCE(x _i,target _i)

其中，兩式中的x分別為角點和邊緣像素級估測的二元分類輸出，而target為代表角點和邊緣的真實數據熱圖。BCE表示二元交叉熵(binary cross-entropy)。在數學上，兩個概率分佈p和q之間的分類的交叉熵是

；對於二進制分類型狀況，它可以展開為H(p,q)=-p(x)log q(x)+(1-p(x))log(1-q(x))。

在邊緣偵測任務中，輸出和目標是為了確定一個像素是否屬於佈局結構邊緣，而角點可分別用於偵測內角點和外角點，這會是應用於雙管道角點輸出圖上的損耗之總和。

總而言之，平面佈局任務的標準是：L _plane=L _seg+λ_s L _smooth

此網路的整體目標損失函數是這三個分支的總和。模型訓練的整體損失函數由下式表示：Loss _Net2D=L _plane+L _edge+L _corner

而，輸入圖片由相機提供，相機具有相機內部矩陣，而3D室內場景影像之投影影像的詳細說明如下：所表示的方法可以兩種構成要素來表示，即可縮放立方體與相機的擺放方式。與相機擺放方式相關的參數可拆解為平移向量T和旋轉矩陣R，相機位置需要三個參數，沿著三個座標軸的旋轉角度也需要三個參數，且以四元數(quaternion)來表示。此外，沿著單位盒的三個軸進行的縮放則需要另外三個參數，模板立方體則放置在轉換空間(canonical space)的原點。以X_3D

來表示隸屬於單位盒的八個關鍵點(N=8)的3D座標，以及由特定的相機擺放方式所看到的盒子關鍵點的位置，並以X2D

表示影像空間中對應的2D座標。因此，兩個坐標之間的關係可由下式來表示：X_2D≡π(X_3D|K,P,scale)

其中K為在相機校驗過程中所給定的相機固有矩陣，而P為投影矩陣，並由下式表示：

值得注意的是，旋轉矩陣R

和平移向量T

包含相機擺放方式的非固有參數，且旋轉矩陣則由四元數向量

表示如下：

其中，quat2mat是一個偽數學函數，其可將四元數向量轉換為旋轉矩陣，且結果R在SO(3)空間(特殊正交組)中。

因此，可透過估測立方體模型的投影參數自2D空間中擷取3D立方體佈局。

其中，上述之3D參數θ可包含三軸歐拉旋轉角、對應3D室內場景影像之立方體的三軸長度比例及輸出影像之相機之相機位置，各對應3軸而共有9個參數。

儘管前述在說明本發明之基於深度學習網路的室內場景結構估測系統的過程中，亦已同時說明本發明之基於深度學習網路的室內場景結構估測方法的概念，但為求清楚起見，以下另繪示流程圖詳細說明。

請參閱第6圖，其係為本發明之基於深度學習網路的室內場景結構估測方法之第一流程圖。如圖所示，本發明再提供一種基於深度學習網路的室內場景結構估測方法，適用於包含2D編碼器、2D平面解碼器、2D邊緣解碼器、2D角點解碼器及3D編碼器，機於深度學習網路的室內場景結構估測方法包含下列步驟：

在步驟S61中：接收輸入影像，且對輸入影像進行編碼。

在步驟S62中：對編碼後之輸入影像進行解碼，並產生2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像。

在步驟S63中：對2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像進行編碼而產生3D參數。

在步驟S64中：依據3D參數產生3D室內場景影像。

請參閱第7圖，其係為本發明之基於深度學習網路的室內場景結構估測方法之第二流程圖。如圖所示，關於神經網路訓練部分，3D編碼器可具有第一訓練階段及第二訓練階段，基於深度學習網路的室內場景結構估測方法更可包含下列步驟：

在步驟S71中：由隨機抽象層生成器於第一訓練階段產生虛擬3D參數及樣板立方體。

在步驟S72中：2D編碼器對樣板立方體進行編碼。

在步驟S73中：對編碼後之樣板立方體解碼而產生該2D邊緣佈局影像。

在步驟S74中：由預先訓練3D編碼器對2D邊緣佈局影像進行編碼而產生訓練3D參數，當訓練3D參數及虛擬3D參數相同時結束第一訓練階段。

在步驟S75中：於第二訓練階段輸入實際訓練影像至2D編碼器。

在步驟S76中：由2D邊緣解碼器對編碼後之實際訓練影像進行解碼而產生2D邊緣佈局影像。

在步驟S77中：由預先訓練3D編碼器對2D邊緣佈局影像編碼後產生訓練3D參數。

在步驟S78中：由目標3D編碼器對2D邊緣佈局影像編碼後產生目標3D參數，當目標3D參數與訓練3D參數之誤差小於預設門檻值時結束第二訓練階段，且目標3D編碼器作為3D編碼器。

進一步地，2D平面分割佈局影像、2D邊緣佈局影像及2D角點佈局影像可運用損失函數處理，損失函數如下：Loss=L _plane+L _edge+L _corner

L _plane=L _seg+λ _s L _smooth

L _smooth=mean(|x _i-target _i|₁)

上述之輸入圖片由相機提供，相機具有相機內部矩陣，而3D室內場景影像之投影影像符合下列公式：X_2D≡π(X_3D|K,P,scale)

其中，X_2D為投影影像，π表示投影，X_3D為3D室內場景影像，K為相機之相機內部矩陣，scale為由相機所位於之室內場景所構成之立方體的邊長比例，f_x,f_y為相機之焦距座標，c_x,c_y 為相機之中心點座標，R為3X3的旋轉矩陣，T為3X1的平移向量，P為投影矩陣。

補充一提，上述之3D參數包含三軸歐拉旋轉角、對應3D室內場景影像之立方體的三軸長度比例及輸出影像之相機之相機位置。

本發明之基於深度學習網路的室內場景結構估測方法的詳細說明以及實施方式已於前面敘述本發明之基於深度學習網路的室內場景結構估測系統時描述過，在此為了簡略說明便不再贅述。

實驗結果：

使用LSUN Room Layout數據集，其包含用於評估2D語義平面分割和角點估測結果的4,000個訓練影像、394個驗證、以及1,000個測試影像。由於測試組合沒有公用標籤，因此便如先前之作業使用LSUN Room Layout正式工具包於驗證組合上進行方法的評估。此外，本模型的綜合能力由Hedau數據集進行評估，由於其嚴格的標籤方式，此為極具挑戰性的數據集。無法針對3D佈局估測做任何的3D精確度度量之評估，而這兩個常用數據集並不包含任何用於佈局估測的3D註釋。相反地，可使用3D佈局之再投影之2D度量來評估3D佈局估測結果。

值得注意的是，本模型僅在LSUN Room Layout的訓練分割上訓練，且直接在Hedau數據集的測試分割上進行測試，且未對其訓練數據進行微調。在訓練期間，應用隨機顏色抖動(random color jittering)來略微改變彩色影像的亮度和對比度，以增加場景的多樣性。除這些常見的擴增技術外，還能透過左右平面交換語義標籤，以進一步提出語義隨機水平翻轉，並實現本研究所提出的更有效的場景擴增以及佈局衰退(Layout Degeneration)擴增策略。所提出之特定佈局目標的有效性和應用於擴增之佈局衰退(Layout Degeneration)策略更進一步呈現出，其在質與量上皆有很大的改善結果。此外，與其他方法之比較，該方法之時間效率亦在實驗中得到驗證。

透過以下之實驗評估，在2D和3D佈局估測中，測量所提出之方法的表現：應用於單任務和多任務網路中的語義平面分割之2D像素精確度、關鍵點角點偵測的2D角點預測精確度、估測3D投影參數的2D度量之再投影精確度，以及估測參數的3D立方體房間視覺化。

此佈局估測結果之表現如表1所示。首先，用於平面分割的DeepRoom 2D在沒有任何訓練策略的情況下作為基線模型，其可能已經達到9.75%的誤差。此外，多任務的展開模型DeepRoom 2D可以將誤差降低到7.04%，較基線模型降低2.71%。此外，使用佈局衰退來訓練的方法可比擬LSUN Challenge中最先進的方法，且單個和多任務網路可分別實現6.25%和6.73%的像素級誤差。此外，如果在更公平的條件下進行比較，本模型甚至可擊敗最佳的方法ST-PIO(ST-PIO(2017)w/o optim.)，ST-PIO w/o optim.消除了物理性啟發最佳化法的極高成本，但仍在後處理程序留下了提案排序。

直接2D估測網路的結果和3D參數估測網絡的再投影之表現列於表一中。關於3D投影參數，以真實數據生成邊緣圖(ground truth generated edge map)作為輸入的DeepRoom 3D可在像素級精確度的度量中達成與2D網路相似的表現。此外，DeepRoom 2D/3D的端到端方法可以實現大約10%的誤差，該誤差與其它最先進的方法(LayoutNet)相似，且不需要後處理。

將多任務2D佈局估測網路的表現與同樣也使用角點和多任務技術的方法進行比較，本方法之角點係擷取自熱圖的峰值。然而，與後處理搭配的現有方法可以給出更精細的坐標。由表二中顯示的角點誤差可知，本方法仍比沒有任何後處理的LayoutNet略微準確。此表現可比擬RoomNet，其具有非常精簡的表現，且只有兩個管道而非五十幾個。

首先，證明了本佈局目標標準針對佈局分割的效果。如第5(b)圖所示，在加上平滑損失函數的情況下，估測變得更平滑並改善了鋸齒線的偽影狀況，估測結果看起來更像是多邊形狀而非扭曲的斷片區域。另外，針對本發明之具有完整的訓練策略之多流網路亦示出了視覺輸出，包括了第8圖、第9圖、第10圖中的佈局衰退(Layout Degeneration)以及佈局定制之目標標準。這些圖大部分包含又尖又直的邊緣，且在每個預測的平面中接具高一致性，內外角點表現則可以成功地偵測佈局中的兩種關鍵點。所偵測到的佈局邊緣與平面分割一樣出色，就好像它們是由同一個多任務網路所生成那樣。

為了評估3D房間之佈局估測，第11圖與第12圖示出了轉換之立方體與再投影結果的可視化，該結果對於僅使用單個影像之3D佈局估測是驚人的。如第11圖與第12圖所示，偶數欄即為具有估測參數的轉換立方體。奇數欄則是重疊的結果、輸入的彩色影像、深粉紅色的真實數據以及淺紫色的再投影佈局。

從可視化結果之表現來看，即使沒有重新訓練，本模型也可應用於不同的室內數據集。視覺結果如第13圖所示，其繪示了Hedau測試數據集中的高質量佈局估測結果的一些樣本。此外，表三中顯示，本模型的準確性幾乎可以達到最佳的結果。

針對從Google中隨機選擇的影像對本模型做出了評估，其結果如第14圖所示。

雖然此結果在數據集中無法表現出2D佈局估測度量最佳的精確度，計算效率為本模型的優點，因為本模型為沒有任何最佳化過程或循環結構的端到端系統。

本方法使用PyTorch執行，且所有實驗以機器使用單個NVIDIA GeForce 1080 GPU和Intel i7-7700K 4.20GHz CPU來執行。為了分析時間效率，表四說明了現有方法的網路前饋和後處理的消耗時間。相關論文沒有公開實作細節(程式及實驗環境)供比較。後處理欄中的列表來自正式的論文和引用的論文，或來自其發布的演示影片。對於網路前饋欄中的耗時，有幾種方法為Caffe發布了網路配置文件。因此，可使用正式的Caffe繪示工具(profiling tool)來測量時間，並在公平競爭下使用機器進行評估。

本模型也整合至演示系統中，此演示系統可以對多種輸入進行即時估測：(a)網路鏡頭和手機所拍攝的影片；(b)影像文件夾；以及(c)手持式網絡攝影機的即時拍攝。

本發明之基於深度學習網絡的室內場景結構估測系統及其估測方法提出了一種端到端框架，其框架由兩個可說明的網路組所成，其應用於將3D佈局估測任務拆解為兩個子任務，更可共同用於估測室內場景的空間佈局之3D立方體表現。到目前為止，這是第一個將佈局估測建模為兩階段深度學習前饋管道的研究，而非包含後處理或最佳化步驟的傳統系統。此外，兩種網路之組合得仰賴於中間表示，其搭配額外的數據集進行訓練和微調能使框架管道具有可擴展性而獲得了更好的結果。由於系統的高運算效率，本系統的能力也可應用於即時演示。因此，本系統可應用並擴展到即時應用，例如室內導航、定位和房間中的虛擬物品佈置。

以上所述之實施例僅係為說明本發明之技術思想及特點，其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施，當不能以之限定本發明之專利範圍，即大凡依本發明所揭示之精神所作之均等變化或修飾，仍應涵蓋在本發明之專利範圍內。

100:基於深度學習網路的室內場景結構估測系統

110:2D編碼器

120:2D平面解碼器

121:2D平面分割佈局影像

130:2D邊緣解碼器

131:2D邊緣佈局影像

140:2D角點解碼器

141:2D角點佈局影像

150:3D編碼器

I1:輸入影像

I1’:編碼後之輸入影像

Claims

一種基於深度學習網路的室內場景結構估測系統，係包含：一2D編碼器，係接收一輸入影像，且對該輸入影像進行編碼；一2D平面解碼器，係連結該2D編碼器，且對編碼後之該輸入影像進行解碼，並運用一損失函數產生一2D平面分割佈局影像，其中該損失函數如下：Loss=L _plane+L _edge+L _corner L _plane=L _seg+λ _s L _smooth,L _smooth=mean(|x _i-target _i|₁)，其中，Loss係為損失函數，L_place係為平面損失函數，L_edge係為邊緣損失函數，L_corner係為角點損失函數，L_seg係為分割損失函數，L_smooth係為平滑損失函數，λ_s為平滑損失函數的權重，x_i為估測輸出值，target_i為真實數據標籤；一2D邊緣解碼器，係連結該2D編碼器，且對編碼後之該輸入影像進行解碼，並運用該損失函數產生一2D邊緣佈局影像；一2D角點解碼器，係連結該2D編碼器，且對編碼後之該輸入影像進行解碼，並運用該損失函數產生一2D角點佈局影像；以及一3D編碼器，係連結該2D平面解碼器、該2D邊緣解碼器及該2D角點解碼器，且接收該2D平面分割佈局影像、該2D邊緣佈局影像及該2D角點佈局影像，並對該2D 平面分割佈局影像、該2D邊緣佈局影像及該2D角點佈局影像進行編碼而產生一3D參數，且依據該3D參數產生一3D室內場景影像。
如請求項1所述之基於深度學習網路的室內場景結構估測系統，其中該3D編碼器係具有一第一訓練階段及一第二訓練階段，該第一訓練階段係由一隨機抽象層生成器產生一虛擬3D參數及一樣板立方體，該樣板立方體輸入至該2D編碼器進行編碼，且該2D邊緣解碼器係對編碼後之該樣板立方體解碼而產生該2D邊緣佈局影像，由一預先訓練3D編碼器對該2D邊緣佈局影像進行編碼而產生一訓練3D參數，當該訓練3D參數及該虛擬3D參數係相同時結束該第一訓練階段，該第二訓練階段係輸入一實際訓練影像至該2D編碼器，再由該2D邊緣解碼器對編碼後之該實際訓練影像進行解碼而產生該2D邊緣佈局影像，該2D邊緣佈局影像輸入至該預先訓練3D編碼器而經編碼後產生該訓練3D參數，及該2D邊緣佈局影像輸入至一目標3D編碼器而經編碼後產生一目標3D參數，當該目標3D參數與該訓練3D參數之誤差係小於一預設門檻值時結束該第二訓練階段，且該目標3D編碼器作為該3D編碼器。
如請求項1所述之基於深度學習網路的室內場景結構估測系統，其中該輸入圖片由一相機提供，該相機係具有一相機內部矩陣，而該3D室內場景影像之一投影影像係符合下列公式：X_2D≡π(X_3D|K,P,scale)

其中，X_2D係為投影影像，π表示投影，X_3D係為3D室內場景影像，K係為該相機之相機內部矩陣，scale係為由該相機所位於之室內場景所構成之立方體的邊長比例，f_x,f_y係為該相機之焦距座標，c_x,c_y係為該相機之中心點座標，R係為3X3的旋轉矩陣，T係為3X1的平移向量，P係為投影矩陣。
如請求項1所述之基於深度學習網路的室內場景結構估測系統，其中該3D參數係包含三軸歐拉旋轉角、對應該3D室內場景影像之立方體的三軸長度比例及輸出該輸出影像之相機之相機位置。
一種基於深度學習網路的室內場景結構估測方法，適用於包含一2D編碼器、一2D平面解碼器、一2D邊緣解碼器、一2D角點解碼器及一3D編碼器，該機於深度學習網路的室內場景結構估測方法係包含下列步驟：接收一輸入影像，且對該輸入影像進行編碼；對編碼後之該輸入影像進行解碼，並運用一損失函數產生一2D平面分割佈局影像、一2D邊緣佈局影像及一2D角點佈局影像，其中該損失函數如下：Loss=L _plane+L _edge+L _corner L _plane=L _seg+λ _s L _smooth,L _smooth=mean(|x _i-target _i|₁)，其中，Loss係為損失函數，L_place係為平面損失函數，L_edge係為邊緣損失函數，L_corner係為角點損失函數，L_seg係為分割損失函數，L_smooth係為平滑損失函數，λ_s為平滑損失函數的權重，x_i為估測輸出值，target_i為真實數據標籤；對該2D平面分割佈局影像、該2D邊緣佈局影像及該2D角點佈局影像進行編碼而產生一3D參數；以及依據該3D參數產生一3D室內場景影像。
如請求項5所述之基於深度學習網路的室內場景結構估測方法，其中該3D編碼器係具有一第一訓練階段及一第二訓練階段，基於深度學習網路的室內場景結構估測方法更包含下列步驟：由一隨機抽象層生成器於該第一訓練階段產生一虛擬3D參數及一樣板立方體；該2D編碼器對該樣板立方體進行編碼；對編碼後之該樣板立方體解碼而產生該2D邊緣佈局影像；由一預先訓練3D編碼器對該2D邊緣佈局影像進行編碼而產生一訓練3D參數，當該訓練3D參數及該虛擬3D參數係相同時結束該第一訓練階段；於該第二訓練階段輸入一實際訓練影像至該2D編碼器；由該2D邊緣解碼器對編碼後之該實際訓練影像進行解碼而產生該2D邊緣佈局影像；由該預先訓練3D編碼器對該2D邊緣佈局影像編碼後產生該訓練3D參數；以及由一目標3D編碼器對該2D邊緣佈局影像編碼後產生一目標3D參數，當該目標3D參數與該訓練3D參數之誤差係小於一預設門檻值時結束該第二訓練階段，且該目標3D編碼器作為該3D編碼器。
如請求項5所述之基於深度學習網路的室內場景結構估測方法，其中該輸入圖片由一相機提供，該相機係具有一相機內部矩陣，而該3D室內場景影像之一投影影像係符合下列公式：X_2D≡π(X_3D|K,P,scale)

其中，X_2D係為投影影像，π表示投影，X_3D係為3D室內場景影像，K係為該相機之相機內部矩陣，scale係為由該相機所位於之室內場景所構成之立方體的邊長比例，f_x,f_y係為該相機之焦距座標，c_x,c_y係為該相機之中心點座標，R係為3X3的旋轉矩陣，T係為3X1的平移向量，P係為投影矩陣。
如請求項5所述之基於深度學習網路的室內場景結構估測方法，其中該3D參數係包含三軸歐拉旋轉角、對應該3D室內場景影像之立方體的三軸長度比例及輸出該輸出影像之相機位置。