TWI822987B

TWI822987B - 用於確定影像的深度資訊的系統及方法

Info

Publication number: TWI822987B
Application number: TW109111899A
Authority: TW
Inventors: 任昊宇; 哈米莫斯塔法伊爾; 正元李
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2019-04-09
Filing date: 2020-04-09
Publication date: 2023-11-21
Also published as: CN111798502A; US20200327685A1; KR102557561B1; KR20200119714A; US11094072B2; TW202038184A

Abstract

本文提供一種用於確定影像的深度資訊的方法及系統。根據一個實施例，所述方法包括：接收影像輸入；將所述輸入影像分類至多個深度範圍中的一個深度範圍中；以及藉由基於所述輸入影像被分類至的所述深度範圍應用深度估計來確定所述影像的深度圖。

Description

用於確定影像的深度資訊的系統及方法

本發明大體而言是有關於電腦視覺。具體而言，本發明是有關於一種用於基於深度神經網路提供單影像深度估計的系統及方法。

單影像深度估計（single image depth estimation，SIDE）是用於理解影像中場景的幾何結構的特徵。具體而言，深度圖可用於推斷三維（three-dimensional，3D）結構，此為3D視覺中例如影像重建（image reconstruction）、影像顯色（image rendering）及淺景深等許多主題的基本元素。然而，由於可自無限數目個不同的3D場景生成單個二維（two-dimensional，2D）影像，SIDE是一項問題。藉由使用深度迴旋神經網路（convolutional neural network，CNN），基於深度學習的方法已在解決SIDE問題時達成了效能改良，例如使CNN學習將影像映射至連續深度圖。

對所捕獲場景中元素的真實世界深度的估計具有例如將前景（近）物體與背景（遠）物體分離的能力等應用。準確的深度估計允許將場景中感興趣的前景物體與背景分離。準確的前景-背景分離（foreground-background separation）允許人們處理所捕獲影像以模擬例如背景虛化效果（Bokeh effect）等的效果。背景虛化是背景的柔和離焦（out-of-focus）模糊，其是藉由使用具有快速鏡頭及寬光圈的照相機中的正確設置並且使照相機較靠近被攝體（subject）並使被攝體較遠離背景以模擬淺景深來控制。因此，準確的深度估計允許處理來自非專業攝影師或具有較小鏡頭的照相機（例如行動電話照相機）的影像，以獲得具有聚焦於被攝體上的背景虛化效果的在美感上更令人愉悅的影像。準確深度估計的其他應用包括3D物體重建及虛擬實境（virtual reality）應用，其中期望改變背景或被攝體並根據所期望虛擬實境來對其進行顯色。自所捕獲場景進行準確深度估計的其他應用包括汽車自動化、監控攝影機、自動駕駛應用、以及藉由提高物體偵測準確度並估計物體與照相機的距離來增強安全性。

在針對SIDE設計深度CNN時存在二個問題。SIDE方法可以單獨的資料集來訓練不同的網路，此使得模型專用於某些域（domain）。因此，不同資料集（例如室內型樣與室外型樣）之間大的差異限制了SIDE網路的一般化能力。在一個資料集上達成可觀效能的模型在另一資料集上將會表現不佳。

另外，現有的SIDE網路利用非常深的架構作為主幹（backbone）。該些網路的大小是非常大的。此外，一些SIDE網路包含全連接層。因此，在預測期間需要滑動窗口策略（sliding-window strategy），以使得測試影像大小與訓練影像大小相同。因此，此類網路的效率及靈活性是不理想的。

根據一個實施例，一種方法包括：接收影像輸入；將所述輸入影像分類至多個深度範圍（depth range）中的一個深度範圍中；以及藉由基於所述輸入影像被分類至的所述深度範圍應用深度估計來確定所述影像的深度圖。

根據一個實施例，一種系統包括記憶體及處理器，所述處理器被配置成：接收影像輸入；將所述輸入影像分類至多個深度範圍中的一個深度範圍中；以及藉由基於所述輸入影像被分類至的所述深度範圍應用深度估計來確定所述影像的深度圖。

在下文中，參照附圖來詳細闡述本發明的實施例。應注意，儘管示出於不同圖式中，然而相同的元件將由相同的參考編號標示。在以下說明中，提供例如詳細配置及組件等具體細節僅是為了幫助全面理解本發明的實施例。因此，對於熟習此項技術者而言應顯而易見的是，可在不背離本發明的範圍的條件下對本文所述實施例作出各種改變及潤飾。另外，為清晰及簡潔起見，不再對眾所習知的功能及構造予以贅述。以下所述用語是慮及本發明中的功能而定義的用語，且可根據使用者、使用者的意圖、或習慣而有所不同。因此，應基於本說明書通篇的內容來確定各用語的定義。

本發明可具有各種潤飾及各種實施例，以下參照附圖來詳細闡述所述實施例中的一些實施例。然而應理解，本發明並非僅限於所述實施例，而是包括處於本發明的範圍內的所有潤飾、等效形式、及替代形式。

儘管可使用包括例如「第一」、「第二」等序數的用語來闡述各種元件，然而結構性元件不受所述用語限制。所述用語僅用於將一個元件與另一元件區分開。例如，在不背離本發明的範圍的條件下，可將第一結構性元件稱作第二結構性元件。相似地，亦可將第二結構性元件稱作第一結構性元件。本文中所使用的用語「及/或」包括一或多個相關聯項的任意及全部組合。

本文所使用的用語僅用於闡述本發明的各種實施例，而非旨在限制本發明。除非上下文中清楚地另外指明，否則單數形式旨在亦包括複數形式。在本發明中，應理解，用語「包括」或「具有」是指示特徵、數目、步驟、操作、結構性元件、部件、或其組合的存在，且不排除一或多個其他特徵、數目、步驟、操作、結構性元件、部件、或其組合的存在或添加的可能性。

除非不同地進行定義，否則本文中所使用的所有用語具有與由熟習本發明所屬技術者所理解的含義相同的含義。例如在常用字典中所定義的用語等此類用語應被解釋為具有與其在相關技術領域中的上下文含義相同的含義，且除非在本發明中進行清楚定義，否則不應將其解釋為具有理想或過於正式的含義。

根據一個實施例的電子裝置可為各種類型的電子裝置其中之一。電子裝置可包括例如可攜式通訊裝置（例如，智慧型電話）、電腦、可攜式多媒體裝置、可攜式醫療裝置、照相機、穿戴式裝置或家用電器。根據本發明的一個實施例，電子裝置並非僅限於上述該些裝置。

在本發明中使用的用語並非旨在限制本發明，而是旨在包括對應實施例的各種變化、等效形式或替代形式。關於附圖的說明，可使用相似的參考編號來指代相似或相關的元件。對應於一個項的名詞的單數形式可包括一或多個事物，除非相關上下文另外清楚地指示。本文中所使用的例如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B及C中的至少一者」以及「A、B或C中的至少一者」等片語中的每一者可包括在對應的一個片語中一起列舉的項的所有可能的組合。在本文中所使用的例如「第一（1^st ）」、「第二（2^nd ）」、「第一（first）」及「第二（second）」等用語可用於區分各組件，但並非旨在在其他態樣（例如，重要性或次序）限制所述組件。本發明的目的是，若在存在或不存在用語「以操作方式」或「以通訊方式」的情況下將一個元件（例如，第一元件）稱為「與」另一元件（例如，第二元件）「耦合」、「耦合至」所述另一元件、「與」所述另一元件「連接」、或「連接至」所述另一元件，則其指示所述元件可直接地（例如，有線地）、無線地或經由第三元件與所述另一元件耦合。

在本文中所使用的用語「模組」可包括在硬體、軟體或韌體中實施的單元，且可與其他用語（例如，「邏輯」、「邏輯區塊）、「部件」及「電路系統」）互換地使用。模組可為適於執行一或多個功能的單個整體組件或其最小單元或部件。例如，根據一個實施例，可以應用專用積體電路（application-specific integrated circuit，ASIC）的形式實施模組。

圖1示出根據實施例演示背景虛化效果的影像的圖。準確的深度估計具有許多應用。影像100示出了背景虛化效果。背景虛化是藉由使遠的被攝體離焦同時使較近的被攝體更清晰或對焦而使影像中的背景被攝體模糊的過程。影像背景虛化中的關鍵特徵是自深度圖提取的準確前景-背景分割。背景虛化效果的效能由所估計深度的準確性決定。

圖2示出根據實施例使用室內網路及室外網路的深度估計的圖。由於可自無限數目個不同的3D場景生成單個2D影像，因此SIDE具有一些問題。由於很難獲得準確的深度圖，因此大多數現有的背景虛化系統使用多個照相機而非單個照相機。這限制了應用情景。儘管一些現有的SIDE系統可在特定資料集中產生可觀的結果，但當給出來自不同資料集的影像時，該些系統不佳地工作。例如，當提供室外場景的輸入影像200時，在室內影像中訓練的神經網路不能很好地表現，如影像202處的所估計深度所示，此與由室外網路執行的影像204處的所估計深度形成對比。因此，有必要設計對於各種環境中的影像均很好地工作的穩健性SIDE系統。

圖3示出根據實施例提供深度估計的圖。深度估計系統300包括二級穩健性SIDE框架。在第一級304處，深度估計系統300將輸入影像302分類至不同的深度範圍306中（例如，室內影像可被分類為「低深度範圍」）。儘管繪示了最低深度範圍、中等深度範圍及最高深度範圍，但可利用任何數目及類型的範圍。在第二級308處，對於深度範圍中的每一者，本系統應用針對影像被分類至的深度範圍而最佳化的SIDE網路，以獲得準確的深度圖，且在310處輸出深度。

圖4示出根據實施例用於對影像執行深度估計的方法的流程圖400。在402處，系統接收影像輸入。儘管以下所述的實施例是有關於接收影像作為輸入，但應理解，系統可接收影像的一部分作為輸入，且本文所述的步驟可單獨地或彼此獨立地對影像的各部分執行。

在404處，系統將輸入影像分類至多個深度範圍之一中。系統可藉由將影像分類成預定義場景（例如，天空、冰山、房間）來將影像分類至一個深度範圍中。由於場景可能與特定或預定義深度範圍相關聯（例如，天空具有最高深度範圍，房間場景具有相對低的深度範圍），因此可自場景類別推斷輸入影像的確切深度範圍。

系統可基於多數投票演算法（majority voting algorithm）將影像分類成預定義場景。在一個實例中，在Places-365資料集中訓練WideResNet-18。資料集包括大量預定義或經標記的場景或場景類別。所述場景或場景類別基於其相關聯的深度範圍被進一步標記。假定輸入影像，系統使用最高數目的預測場景來投票贊成輸入影像的深度範圍分類。例如，若系統使用前15個預測場景且在前15個預測場景中存在多於7個低深度範圍投票，則系統將影像分類為低深度範圍。

系統可基於加權投票演算法將影像分類成預定義場景。及代表場景類別的統計中位數深度及最大（或X百分位數（X-percentile））深度。是當前場景由場景分類網路分類為第場景的概率。然後，可如方程式（1）中來估計當前場景的中位數深度：

（1）

並且可如方程式（2）中估計當前場景的所估計最大（或X百分位數）深度：

（2）

其中和是所有候選場景之和。使用所估計中位數深度及最大（或X百分位數）深度，系統可藉由將所估計影像的中位數深度或最大深度與各種預定義深度範圍臨限值進行比較來選擇深度範圍的經量化組距（quantized bin）。

作為另一選擇，系統可使用粗略深度估計（coarse depth estimation）將影像分類至一個深度範圍中。由於難於以單次性方式獲得準確的所估計深度，因此系統可首先獲得粗略的所估計深度圖，且然後使用其來決定深度範圍。任何SIDE網路均可用作粗略深度估計網路。當使用粗略的所估計深度圖來決定深度範圍時，系統可參考一些統計值（例如最大深度或最小深度），乃因高深度範圍影像（例如室外影像）將具有相對較高的最大深度。

系統可使用室內影像及室外影像的驗證資料（validation data）（例如，來自穩健性視覺挑戰賽（Robust Vision Challenge））來計算最大所估計深度這一統計值，且然後選擇低深度範圍/高深度範圍的決定臨限值（例如，若臨限值是深度值X ，且所估計深度圖的最大深度低於X ，則系統將影像分類為低深度範圍）。

在使用粗略深度估計來獲得深度範圍的更一般方式中，系統可建構自粗略深度圖至離散深度範圍的映射。此可藉由使分類器自粗略深度圖至深度範圍的映射進行學習來達成，即D=F(d)，其中D是所估計深度範圍，d是粗略深度圖，且F是分類器，例如支援向量機（support vector machine，SVM）、多類提升（Multi-class boosting）及隨機森林（random forest）。

在406處，系統基於輸入影像被分類至的深度範圍來確定影像的深度圖。

圖5示出根據實施例的SIDE網路的圖。系統利用基於編碼器-解碼器架構的高效SIDE網路（深度方向（depth-wise，DW）-SIDENet）。SIDE網路500包括編碼分支502、深度分類解碼分支504及深度迴歸解碼分支506。

編碼分支502包括編碼區塊508及若干深度方向可分離迴旋層（例如，編碼區塊510、512、514及516），以自輸入影像501提取區辨性特徵（discriminative feature）518。由於低深度範圍影像與高深度範圍影像具有不同的特性（例如，室內影像與室外影像具有不同的上下文），因此低深度範圍網路的編碼分支502與高深度範圍網路的略微不同。例如，系統可將高深度範圍編碼模組的輸出特徵圖大小設定為×4降低取樣（downsampled），並將低深度範圍編碼模組的輸出特徵圖大小設定為×32降低取樣。

網路使用深度分類分支504及深度迴歸分支506進行解碼。此二個分支具有基本相同的網路架構，但不同的輸出特徵圖及損失函數。深度分類解碼分支504包括：增加取樣（upsampling）解碼區塊520、522、524及526，利用具有跳躍連接的upproj-con層進行解碼；以及解碼區塊528，利用upproj層進行解碼以輸出深度圖529。深度迴歸解碼分支506包括：增加取樣解碼區塊530、532、534及536，利用具有跳躍連接的upproj-con層進行解碼；以及解碼區塊538，利用upproj層進行解碼以輸出深度圖539。在分類分支504中，SIDE網路500在將連續深度量化成若干組距之後執行深度分類。當計算分類分支504的損失函數時，網路使用經量化深度概率與經量化深度值的加權和作為每一畫素位置的預測經量化深度。在迴歸分支506中，網路直接將輸出特徵圖迴歸為連續視差圖。

DW-SIDENet 500的損失函數是深度值分類損失（胡伯（Huber））與深度迴歸損失的線性組合，並由方程式（3）給出：

（3）

其中是影像的真實深度，是經量化真實深度，及是二個分支的輸出。深度圖529由分類分支504確定，且深度圖539由迴歸分支506確定。

圖6示出根據實施例的upproj層的圖。upproj層600自前一解碼區塊接收X輸入602。輸入在604處被增加取樣至輸出大小，且然後藉由3×3迴旋層606被處理。3×3迴旋層606的輸出由第一5×5迴旋層608及第二5×5迴旋層610處理。第一5×5迴旋層608的輸出由3×3迴旋層612處理，3×3迴旋層612的輸出與第二5×5迴旋層610的輸出相組合。然後，生成輸出層614，進而給出最終所估計深度616。

圖7示出根據實施例具有跳躍連接的upproj層的圖。upproj層700自前一解碼區塊接收X輸入702。X輸入702被增加取樣至輸出大小703，且然後由3×3迴旋層704處理。層700自編碼模組接收Y輸入706，Y輸入706由1×1迴旋層708處理並在3×3迴旋層704處被序連（concatenate）。層700接收Z RGB輸入709。輸入709在710處被降低取樣至輸出大小，由1×1迴旋層712處理，並在3×3迴旋層704處被序連。3×3迴旋層704的輸出由第一5×5迴旋層714及第二5×5迴旋層716處理。第一5×5迴旋層714的輸出由3×3迴旋層718處理，3×3迴旋層718的輸出與層716的輸出相組合，進而生成解碼區塊的輸出720。

在網路500中，解碼區塊528及解碼區塊538利用upproj層600。解碼區塊520、522、524及526以及解碼區塊530、532、534及536利用具有跳躍連接的upproj層700。

在其中系統使用粗略深度估計來將影像分類至一個深度範圍中的實例中，在粗略深度估計期間產生的粗略深度圖可用作SIDE網路的輸入，且不同的SIDE網路可用作結果。

圖8示出根據實施例使用深度細化SIDE網路來提供深度估計的圖。深度估計系統800接收輸入影像802，並使用粗略深度估計804將影像分類至一個深度範圍中。然後，系統使用自此步驟產生的粗略深度圖806，以利用SIDE網路808進行深度細化深度估計。

圖9示出根據實施例使用RGB深度（RGBD）增強SIDE網路來提供深度估計的圖。深度估計系統900接收輸入影像902，並使用粗略深度估計904將影像分類至一個深度範圍中。然後，系統使用自此步驟產生的粗略深度圖906、以及輸入影像902，以利用SIDE網路908進行RGBD增強深度估計。RGBD增強中的D通道可使用密集的RGB影像但粗略深度圖中稀疏的取樣畫素、或者密集的RGB影像以及粗略深度圖中所有的畫素。

圖10示出根據一個實施例的網路環境1000中的電子裝置1001的方塊圖。參照圖10，網路環境1000中的電子裝置1001可經由第一網路1098（例如，短程無線通訊網路）與電子裝置1002通訊，或經由第二網路1099（例如，遠程無線通訊網路）與電子裝置1004或伺服器1008通訊。電子裝置1001可經由伺服器1008與電子裝置1004通訊。電子裝置1001可包括處理器1020、記憶體1030、輸入裝置1050、聲音輸出裝置1055、顯示裝置1060、音訊模組1070、感測器模組1076、介面1077、觸覺模組1079、照相機模組1080、電源管理模組1088、電池1089、通訊模組1090、用戶識別模組（subscriber identification module，SIM）1096、或天線模組1097。在一個實施例中，可自電子裝置1001省略所述組件中的至少一者（例如，顯示裝置1060或照相機模組1080），或者可將一或多個其他組件添加至電子裝置1001。在一個實施例中，所述組件中的一些組件可被實施為單個積體電路（integrated circuit，IC）。例如，感測器模組1076（例如，指紋感測器、虹膜感測器或照度感測器）可被嵌入於顯示裝置1060（例如，顯示器）中。

處理器1020可執行例如軟體（例如，程式1040）以控制與處理器1020耦合的電子裝置1001的至少一個其他組件（例如，硬體或軟體組件），且可執行各種資料處理或計算。作為資料處理或計算的至少一部分，處理器1020可將自另一組件（例如，感測器模組1076或通訊模組1090）接收的命令或資料載入於揮發性記憶體1032中，處理儲存於揮發性記憶體1032中的命令或資料，並將所得的資料儲存於非揮發性記憶體1034中。處理器1020可包括主處理器1021（例如，中央處理單元（central processing unit，CPU）或應用處理器（application processor，AP））以及能夠獨立於主處理器1021運行或與主處理器1021相結合地運行的輔助處理器1023（例如，圖形處理單元（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、感測器集線器處理器（sensor hub processor）或通訊處理器（communication processor，CP）。另外或作為另一選擇，輔助處理器1023可適於消耗較主處理器1021少的功率，或執行特定功能。輔助處理器1023可被實施為與主處理器1021分離或被實施為主處理器1021的一部分。

當主處理器1021處於非現用（例如，睡眠）狀態時，輔助處理器1023可代替主處理器1021來控制與電子裝置1001的組件中的至少一個組件（例如，顯示裝置1060、感測器模組1076或通訊模組1090）相關的至少一些功能或狀態，或者當主處理器1021處於現用狀態（例如，執行應用程式）時與主處理器1021一起進行上述控制。根據一個實施例，輔助處理器1023（例如，影像訊號處理器或通訊處理器）可被實施為在功能上與輔助處理器1023相關的另一個組件（例如，照相機模組1080或通訊模組1090）的一部分。

記憶體1030可儲存電子裝置1001的至少一個組件（例如，處理器1020或感測器模組1076）所使用的各種資料。所述各種資料可包括例如軟體（例如，程式1040）以及用於與其相關的命令的輸入資料或輸出資料。記憶體1030可包括揮發性記憶體1032或非揮發性記憶體1034。

程式1040可作為軟體被儲存於記憶體1030中，且可包括例如作業系統（operating system，OS）1042、中間軟體1044或應用程式1046。

輸入裝置1050可自電子裝置1001的外部（例如，使用者）接收電子裝置1001的其他組件（例如，處理器1020）將使用的命令或資料。輸入裝置1050可包括例如麥克風、滑鼠或鍵盤。

聲音輸出裝置1055可向電子裝置1001的外部輸出聲音訊號。聲音輸出裝置1055可包括例如揚聲器或接收器。揚聲器可用於一般目的，例如播放多媒體或錄製，且接收器可用於接收來電。根據一個實施例，接收器可被實施為自揚聲器分離或被實施為揚聲器的一部分。

顯示裝置1060可在視覺上向電子裝置1001的外部（例如，使用者）提供資訊。顯示裝置1060可包括例如顯示器、全像裝置（hologram device）、或投影儀以及用於控制顯示器、全像裝置以及投影儀中的對應一者的控制電路系統。根據一個實施例，顯示裝置1060可包括適於偵測觸控的觸控電路系統、或適於量測由觸控所產生的力的強度的感測器電路系統（例如，壓力感測器）。

音訊模組1070可將聲音轉換為電性訊號，反之亦可。根據一個實施例，音訊模組1070可經由輸入裝置1050獲得聲音，或經由聲音輸出裝置1055或與電子裝置1001直接地（例如，有線地）或無線地耦合的外部電子裝置1002的耳機而輸出聲音。

感測器模組1076可偵測電子裝置1001的操作狀態（例如，電源或溫度）或電子裝置1001外部的環境狀態（例如，使用者的狀態），且然後產生與所偵測狀態對應的電性訊號或資料值。感測器模組1076可包括例如手勢感測器、陀螺儀感測器、大氣壓力感測器、磁性感測器、加速度感測器、抓握感測器、接近感測器、顏色感測器、紅外線（infrared，IR）感測器、生物識別感測器（biometric sensor）、溫度感測器、濕度感測器或照度感測器。

介面1077可支援將用於電子裝置1001的一或多個指定協定，以直接地（例如，有線地）或無線地與外部電子裝置1002耦合。根據一個實施例，介面1077可包括例如高清晰度多媒體介面（high definition multimedia interface，HDMI）、通用串列匯流排（universal serial bus，USB）介面、安全數位（secure digital，SD）卡介面、或音訊介面。

連接端子1078可包括連接器，電子裝置1001可經由所述連接器與外部電子裝置1002實體連接。根據一個實施例，連接端子1078可包括例如HDMI連接器、USB連接器、SD卡連接器或音訊連接器（例如，耳機連接器）。

觸覺模組1079可將電性訊號轉換為機械刺激（例如，振動或運動）或電性刺激，所述機械刺激或電性刺激可由使用者藉由觸覺或動覺辨識。根據一個實施例，觸覺模組1079可包括例如馬達、壓電元件或電性刺激器。

照相機模組1080可捕獲靜止影像或移動影像。根據一個實施例，照相機模組1080可包括一或多個透鏡、影像感測器、影像訊號處理器或閃光燈。

電源管理模組1088可管理被供應至電子裝置1001的電源。電源管理模組1088可被實施為例如電源管理積體電路（power management integrated circuit，PMIC）的至少一部分。

電池1089可向電子裝置1001的至少一個組件供電。根據一個實施例，電池1089可包括例如不可再充電的一次電池、可再充電的二次電池、或燃料電池。

通訊模組1090可支援在電子裝置1001與外部電子裝置（例如，電子裝置1002、電子裝置1004或伺服器1008）之間建立直接（例如，有線）通訊通道或無線通訊通道，並經由所建立的通訊通道執行通訊。通訊模組1090可包括一或多個能夠獨立於處理器1020（例如，AP）運行的通訊處理器且支援直接（例如，有線）通訊或無線通訊。根據一個實施例，通訊模組1090可包括無線通訊模組1092（例如，蜂巢式通訊模組、短程無線通訊模組或全球導航衛星系統（global navigation satellite system，GNSS）通訊模組）或有線通訊模組1094（例如，區域網路（local area network，LAN）通訊模組或電源線通訊（power line communication，PLC）模組）。該些通訊模組中的對應一者可經由第一網路1098（例如短程通訊網路，例如藍芽^TM 、直接無線保真（wireless-fidelity，Wi-Fi）或紅外線資料協會（Infrared Data Association，IrDA）的標準）或第二網路1099（例如遠程通訊網路，例如蜂巢式網路、網際網路或電腦網路（例如，LAN或廣域網路（wide area network，WAN）））與外部電子裝置進行通訊。這些不同類型的通訊模組可被實施為單個組件（例如，單個IC），或者可被實施為彼此分開的多個組件（例如，多個IC）。無線通訊模組1092可使用儲存於用戶識別模組1096中的用戶資訊（例如，國際行動用戶識別（international mobile subscriber identity，IMSI））來在通訊網路（例如，第一網路1098或第二網路1099）中識別及認證電子裝置1001。

天線模組1097可向電子裝置1001的外部（例如，外部電子裝置）發射訊號或電力，或自電子裝置1001的外部（例如，外部電子裝置）接收訊號或電力。根據一個實施例，天線模組1097可包括一或多個天線，且可例如由通訊模組1090（例如，無線通訊模組1092）自所述一或多個天線選擇適用於在通訊網路（例如第一網路1098或第二網路1099）中使用的通訊方案的至少一個天線。然後，可經由所選擇的至少一個天線在通訊模組1090與外部電子裝置之間發射或接收訊號或電力。

上述組件中的至少一些組件可相互耦合，並且經由與外部設備之間的通訊方案（例如匯流排、通用輸入及輸出（general purpose input and output，GPIO）、串列周邊介面（serial peripheral interface，SPI）或行動產業處理器介面（mobile industry processor interface，MIPI）在其之間傳遞訊號（例如，命令或資料）。

根據一個實施例，命令或資料可經由與第二網路1099耦合的伺服器1008在電子裝置1001與外部電子裝置1004之間發射或接收。電子裝置1002及1004中的每一者可為與電子裝置1001相同類型或不同類型的裝置。將在電子裝置1001處執行的全部或部分操作可在外部電子裝置1002、1004或1008中的一或多者處執行。例如，若電子裝置1001應自動、或因應於來自使用者或另一裝置的請求而執行功能或服務，則電子裝置1001可請求一或多個外部電子裝置來執行所述功能或服務的至少一部分而非自身執行所述功能或服務，或除自身執行所述功能或服務以外還請求上述外部電子裝置來執行所述功能或服務的至少一部分。接收請求的一或多個外部電子裝置可執行所請求的功能或服務的至少一部分、或與所述請求相關的附加功能或附加服務，並將執行的結果傳送至電子裝置1001。電子裝置1001可提供所述結果（在將所述結果進行進一步的處理或不作進一步處理的情況下）作為對所述請求的答覆的至少一部分。為此，例如，可使用雲端計算、分佈式計算或客戶端-伺服器計算技術。

一個實施例可被實施為包括一或多個指令的軟體（例如，程式1040），所述指令儲存於可由機器（例如，電子裝置1001）讀取的儲存媒體（例如，內部記憶體1036或外部記憶體1038）中。例如，電子裝置1001的處理器可調用儲存於儲存媒體中的一或多個指令中的至少一者，並在使用或不使用在所述處理器的控制下的一或多個其他組件的情況下來執行所述指令。因此，可操作機器以根據調用的至少一個指令執行至少一個功能。所述一或多個指令可包括由編譯器產生的碼或可由解譯器執行的碼。可以非暫時性儲存媒體的形式提供機器可讀取儲存媒體。用語「非暫時性」表示儲存媒體是有形的裝置，並且不包括訊號（例如，電磁波），但此用語不區分資料半永久儲存於儲存媒體中的情形與資料臨時儲存於儲存媒體中的情形。

根據一個實施例，本發明的方法可包括並設置於電腦程式產品中。電腦程式產品可作為產品在賣方與買方之間進行交易。電腦程式產品可以機器可讀取儲存媒體（例如，光碟唯讀記憶體（compact disc read only memory，CD-ROM））的形式分配，或者藉由應用商店（例如，（電子市場（Play Store）^TM ）在線上分配（例如，下載或上傳），或直接在兩個使用者裝置（例如，智慧型電話）之間分配。若在線上分配，則電腦程式產品的至少一部分可被臨時產生或至少臨時儲存於機器可讀取儲存媒體（例如，製造商的伺服器的記憶體、應用程式商店的伺服器，或中繼伺服器）中。

根據一個實施例，上述組件中的每一組件（例如，模組或程式）可包括單個實體或多個實體。可省略上述組件中的一或多者，或者可添加一或多個其他組件。作為另一選擇或另外，多個組件（例如，模組或程式）可整合至單個組件中。在此情況下，整合的組件仍可以與整合前由多個組件中的相應一者執行的功能相同或類似的方式執行所述多個組件中的每一者的一或多個功能。由所述模組、程式或其他組件執行的操作可依序地、並行地、重複地或探試性地進行，或者可以不同的次序執行或省略所述操作中的一或多者，或者可添加一或多個其他操作。

儘管已在本發明的詳細說明中闡述了本發明的某些實施例，然而本發明可在不背離本發明的範圍的條件下被修改為各種形式。因此，本發明的範圍不應僅基於所述實施例來確定，而是更確切而言應基於隨附申請專利範圍及其等效範圍來確定。

100、202、204:影像 200、302、501、802、902:輸入影像 300、800、900:深度估計系統 304:第一級 306:深度範圍 308:第二級 310、402、404、406、604、703、710:操作 400:流程圖 500:單影像深度估計（SIDE）網路/深度方向（DW）-SIDENet/網路 502:編碼分支 504:深度分類分支/深度分類解碼分支/分類分支 506:深度迴歸解碼分支/深度迴歸分支/迴歸分支 508、510、512、514、516:編碼區塊 518:區辨性特徵 520、522、524、526、530、532、534、536:增加取樣解碼區塊/解碼區塊 528、538:解碼區塊 529、539:深度圖 600:upproj層 602、702:X輸入 606、612、704、718:3×3迴旋層 608、714:第一5×5迴旋層 610:第二5×5迴旋層 614:輸出層 616:最終所估計深度 700:upproj層/層 706:Y輸入 708、712:1×1迴旋層 709:Z RGB輸入/輸入 716:第二5×5迴旋層/層 720:輸出 804、904:粗略深度估計 806、906:粗略深度圖 808、908:SIDE網路 1001、1002、1004:電子裝置 1008:電子裝置/伺服器 1020:處理器 1021:主處理器 1023:輔助處理器 1030:記憶體 1032:揮發性記憶體 1034:非揮發性記憶體 1036:內部記憶體 1038:外部記憶體 1040:程式 1042:作業系統（OS） 1044:中間軟體 1046:應用程式 1050:輸入裝置 1055:聲音輸出裝置 1060:顯示裝置 1070:音訊模組 1076:感測器模組 1077:介面 1078:連接端子 1079:觸覺模組 1080:照相機模組 1088:電源管理模組 1089:電池 1090:通訊模組 1092:無線通訊模組 1094:有線通訊模組 1096:用戶識別模組（SIM） 1097:天線模組 1098:第一網路 1099:第二網路

藉由結合附圖閱讀以下詳細說明，本發明的某些實施例的以上及其他態樣、特徵、及優點將更顯而易見，在附圖中：圖1示出根據實施例演示背景虛化效果的影像的圖。圖2示出根據實施例使用室內網路及室外網路的深度估計的圖。圖3示出根據實施例提供深度估計的圖。圖4示出根據實施例用於對影像執行深度估計的方法的流程圖。圖5示出根據實施例的SIDE網路的圖。圖6示出根據實施例的upproj層的圖。圖7示出根據實施例具有跳躍連接（skip connection）的upproj層的圖。圖8示出根據實施例使用深度細化SIDE網路的深度估計的圖。圖9示出根據實施例使用RGB深度（RGB-depth，RGBD）增強SIDE網路的深度估計的圖。圖10示出根據一個實施例的網路環境中的電子裝置的方塊圖。

400:流程圖

402、404、406:操作

Claims

一種用於確定影像的深度資訊的方法，由處理器來執行，所述方法包括：接收影像輸入；使用第一網路將所輸入的所述影像分類至多個候選深度範圍中的第一深度範圍中，所述多個候選深度範圍包括所述第一深度範圍以及不同於所述第一深度範圍的第二深度範圍；因應於將所輸入的所述影像分類至所述第一深度範圍中從多個候選網路中選擇第二網路，所述多個候選網路包括：(i)最佳化以獲得所述第一深度範圍的深度圖的所述第二網路、以及(ii)最佳化以獲得所述第二深度範圍的深度圖的第三網路；以及藉由應用針對所述第二網路來確定所輸入的所述影像的深度圖。
如請求項1所述的方法，其中將所輸入的所述影像分類是基於粗略深度估計來執行。
如請求項2所述的方法，其中藉由應用所述第二網路來確定所述影像的所述深度圖更包括利用由所述粗略深度估計產生的粗略深度圖作為深度細化單影像深度估計(SIDE)網路的輸入。
如請求項3所述的方法，其中藉由應用所述第二網路來確定所述影像的所述深度圖更包括利用所述粗略深度圖及所輸入的所述影像作為RGB深度(RGBD)增強單影像深度估計網路的RGB深度輸入。
如請求項2所述的方法，其中所述粗略深度估計是藉由計算所輸入的所述影像的最大深度並將所述最大深度與深度範圍臨限值進行比較來執行。
如請求項1所述的方法，其中將所輸入的所述影像分類包括將所輸入的所述影像分類成預定義場景。
如請求項6所述的方法，其中將所輸入的所述影像分類成預定義場景是基於多數投票來執行。
如請求項6所述的方法，其中將所輸入的所述影像分類成預定義場景是基於加權投票來執行。
如請求項1所述的方法，其中藉由應用所述第二網路來確定所述影像的所述深度圖更包括：利用單影像深度估計(SIDE)網路，對所輸入的所述影像進行編碼；以及利用所述單影像深度估計網路，以深度迴歸解碼分支對所輸入的所述影像進行解碼。
如請求項1所述的方法，其中藉由應用所述第二網路來確定所述影像的所述深度圖更包括：利用單影像深度估計(SIDE)網路，對所輸入的所述影像進行編碼；以及利用所述單影像深度估計網路，以深度分類解碼分支對所輸入的所述影像進行解碼。
一種用於確定影像的深度資訊的系統，包括：記憶體；以及處理器，被配置成：接收影像輸入；使用第一網路將所輸入的所述影像分類至多個候選深度範圍中的第一深度範圍中，所述多個候選深度範圍包括所述第一深度範圍以及不同於所述第一深度範圍的第二深度範圍；因應於將所輸入的所述影像分類至所述第一深度範圍中從多個候選網路中選擇第二網路，所述多個候選網路包括：(i)最佳化以獲得所述第一深度範圍的深度圖的所述第二網路、以及(ii)最佳化以獲得所述第二深度範圍的深度圖的第三網路；以及藉由應用所述第二網路來確定所述影像的深度圖。
如請求項11所述的系統，其中所述處理器被配置成基於粗略深度估計分類所輸入的所述影像。
如請求項12所述的系統，其中所述處理器被配置成藉由利用由所述粗略深度估計產生的粗略深度圖作為深度細化單影像深度估計(SIDE)網路的輸入來藉由應用所述第二網路確定所述影像的所述深度圖。
如請求項13所述的系統，其中所述處理器更被配置成藉由利用所述粗略深度圖及所輸入的所述影像作為RGB深度(RGBD)增強單影像深度估計網路的RGB深度輸入來藉由應用所述第二網路確定所述影像的所述深度圖。
如請求項12所述的系統，其中所述粗略深度估計是藉由計算所輸入的所述影像的最大深度並將所述最大深度與深度範圍臨限值進行比較來執行。
如請求項11所述的系統，其中所述處理器被配置成藉由將所輸入的所述影像分類成預定義場景來分類所輸入的所述影像。
如請求項16所述的系統，其中將所輸入的所述影像分類成預定義場景是基於多數投票來執行。
如請求項16所述的系統，其中將所輸入的所述影像分類成預定義場景是基於加權投票來執行。
如請求項11所述的系統，其中所述處理器被配置成藉由以下操作來藉由應用所述第二網路確定所述影像的所述深度圖：利用單影像深度估計(SIDE)網路，對所輸入的所述影像進行編碼；以及利用所述單影像深度估計網路，以深度迴歸解碼分支對所輸入的所述影像進行解碼。
如請求項11所述的系統，其中所述處理器被配置成藉由以下操作來藉由應用所述第二網路確定所述影像的所述深度圖：利用單影像深度估計(SIDE)網路，對所輸入的所述影像進行編碼；以及利用所述單影像深度估計網路，以深度分類解碼分支對所輸入的所述影像進行解碼。