TW202016505A

TW202016505A - 使用具有不同視野的相機進行差異估測的電子裝置及方法

Info

Publication number: TW202016505A
Application number: TW108138813A
Authority: TW
Inventors: 哈米莫斯塔法伊爾; 任昊宇; 杜宪志; 正元李
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2018-10-29
Filing date: 2019-10-28
Publication date: 2020-05-01
Also published as: KR102644273B1; US20200134848A1; KR20200049502A; CN111105450A; US11055866B2

Abstract

本文中揭露一種電子裝置及方法。所述電子裝置包括：第一相機，具有第一視野（FOV）；第二相機，具有較第一視野窄的第二視野；以及處理器，被配置成：使用第一相機拍攝第一影像，所述第一影像具有聯合視野；使用第二相機拍攝第二影像；確定第一影像與第二影像之間的交疊視野；基於交疊視野而產生差異估測值；產生聯合視野差異估測值；以及將聯合視野差異估測值與交疊視野差異估測值進行合併。

Description

使用具有不同視野的相機進行差異估測的電子裝置及方法

本揭露大體而言是有關於一種影像處理系統。具體而言，本揭露是有關於一種使用具有不同視野的相機進行差異估測的方法及系統。

最近，人們對所拍攝的場景中的要素的真實世界深度的估測產生興趣。深度估測具有許多應用，例如將前景（近）物件與背景（遠）物件分開的能力。精確的深度估測使得場景中的感興趣的前景物件能夠與背景分開。精確的前景-背景分開使得能夠對所拍攝的影像進行處理以模仿例如焦外成像（Bokeh）效果等效果。焦外成像是背景的軟離焦（soft out-of-focus）模糊，背景的軟離焦模糊通常藉由在具有快鏡頭及寬孔徑的昂貴相機中使用正確的設定以及使相機更靠近主體且使主體距背景更遠以模仿淺景深（depth-of-field）來獲得。

精確的深度估測使得能夠處理來自非專業攝影者或鏡頭較小的相機（如行動電話相機）的影像，以獲得具有對主體聚焦的焦外成像效果的更美觀的影像。精確的深度估測的其他應用包括三維（three-dimensional，3D）物件重建及虛擬實境（virtual reality，VR）應用（在VR應用中，期望改變背景或主體並根據期望的VR呈現所述背景或主體）。根據所拍攝的場景進行精確深度估測的其他應用包括汽車自動化、監測相機、自動駕駛應用、以及藉由提高物件探測精確度及藉由僅使用相機的相機距離估測、或者相機輸入以及來自多個感測器的深度估測來增強安全性。

根據一個實施例，提供一種電子裝置。所述電子裝置包括：第一相機，具有第一視野（field of view，FOV）；第二相機，具有較所述第一FOV窄的第二FOV；以及處理器，被配置成：使用所述第一相機拍攝第一影像，所述第一影像具有聯合FOV；使用所述第二相機拍攝第二影像；確定所述第一影像與所述第二影像之間的交疊FOV；基於所述交疊FOV而產生差異估測值；產生聯合FOV差異估測值；以及將所述聯合FOV差異估測值與所述交疊FOV差異估測值進行合併。

根據一個實施例，提供一種方法。所述方法包括：使用具有第一視野（FOV）的第一相機拍攝第一影像，所述第一影像具有聯合FOV；使用具有第二FOV的第二相機拍攝第二影像，所述第二FOV較所述第一FOV窄；確定所述第一影像與所述第二影像之間的交疊FOV；基於所述交疊FOV而產生差異估測值；產生聯合FOV差異估測值；以及將所述聯合FOV差異估測值與所述交疊FOV差異估測值進行合併。

在下文中，參照附圖詳細闡述本揭露的實施例。應注意，相同的元件將由相同的參考編號指示，儘管它們示出於不同的圖式中。在以下說明中，提供例如詳細配置及組件等具體細節僅是為了幫助全面理解本揭露的實施例。因此，對熟習此項技術者應顯而易見，在不背離本揭露的範圍的條件下可對本文所述的實施例作出各種改變及潤飾。另外，為清晰及簡潔起見，省略對眾所習知的功能及構造的說明。以下所述用語是考量到本揭露中的功能而定義的用語，且可根據使用者、使用者的意圖或習慣而有所不同。因此，該些用語的定義應基於本說明書通篇的內容來確定。

本揭露可具有各種潤飾及各種實施例，以下參照附圖詳細闡述其中的一些實施例。然而應理解，本揭露並非僅限於所述實施例，而是包括處於本揭露的範圍內的所有潤飾、等效形式及替代形式。

儘管可能使用包括例如「第一（first）」、「第二（second）」等序數詞的用語來闡述各種元件，但結構元件不受該些用語限制。該些用語僅用於區分各個元件。舉例而言，在不背離本揭露的範圍的條件下，「第一結構元件」可被稱為「第二結構元件」。相似地，「第二結構元件」亦可被稱為「第一結構元件」。本文中所用的用語「及/或（and/or）」包括一或多個相關項的任意及所有組合。

本文中所用的用語僅用於闡述本揭露的各種實施例，而並非旨在限制本揭露。除非上下文清楚地另外指明，否則單數形式旨在包括複數形式。在本揭露中，應理解，用語「包括（include）」或「具有（have）」指示特徵、數目、步驟、操作、結構元件、部件或其組合的存在，而不排除一或多個其他特徵、數字、步驟、操作、結構元件、部件或其組合的存在或添加的可能。

除非進行不同地定義，否則本文中所用的所有用語均具有與熟習本揭露所屬技術者所理解的含意相同的含意。例如在常用字典中所定義的用語等用語應被解釋為具有與相關技術領域中的上下文含意相同的含意，且除非在本揭露中進行清楚定義，否則不應將其解釋為具有理想化或過於正式的含意。

根據一個實施例的電子裝置可為各種類型的電子裝置中的一種。電子裝置可包括例如可攜式通訊裝置（例如，智慧型電話）、電腦、可攜式多媒體裝置、可攜式醫療裝置、相機、可穿戴裝置或家用電器。根據本揭露的一個實施例，電子裝置並非僅限於上述電子裝置。

本揭露中所用的用語並非旨在限制本揭露，而是旨在包括對對應實施例的各種改變、等效形式或替換形式。關於對附圖的說明，可使用相似的參考編號指代相似的或相關的元件。除非相關上下文清楚地另外指明，否則與物項對應的名詞的單數形式可包括一或多個事物。本文所用的例如「A或B」、「A及B中的至少一者」、「A或B中的至少一者」、「A、B或C」、「A、B、及C中的至少一者」及「A、B、或C中的至少一者」等片語中的每一者可包括與片語中的對應一個片語一同枚舉的物項的所有可能組合。本文所用的例如「第一（1^st 、first）」及「第二（2nd、second）」等用語可用於將對應的組件與另一組件進行區分，而不旨在在其他態樣（例如，重要性或次序）對組件進行限制。本文意圖在於，若在帶有或不帶有用語「可操作地」或「可通訊地」的條件下將元件（例如，第一元件）稱為與另一元件（例如，第二元件）「耦合」、「耦合至」另一元件、與另一元件「連接」或「連接至」另一元件，則表示元件可直接地（例如，以有線方式）、無線地或藉由第三元件與另一元件耦合。

本文所用用語「模組」可包括以硬體、軟體或韌體形式實施的單元，且可與例如「邏輯」、「邏輯區塊」、「部件」及「電路系統」等其他用語互換使用。模組可為適以執行一或多種功能的單個整體組件或所述單個整體組件的最小單元或部件。舉例而言，根據一個實施例，模組可被實施為應用專用積體電路（application-specific integrated circuit，ASIC）的形式。

本系統及方法提供對由具有不同視野（FOV）的兩個相機拍攝的場景中的要素的真實深度的估測。可藉由計算兩個立體校正影像中的畫素之間的差異（例如，水平位移）來獲得根據所述兩個立體校正影像的精確的深度估測。

本系統及方法提供對所述兩個影像的FOV的聯合FOV中所有要素的深度的估測。可提供兩個相機，一個相機具有通常與低光學變焦（optical zoom）或無光學變焦相關聯的寬FOV，且另一相機具有常常與較大的光學變焦相關聯的較窄的FOV。最近的行動裝置配備有兩個或更多個相機。為利用額外的相機，常常將它們的鏡頭選擇成具有不同的光學變焦，以使所述裝置在近的物件及遠的物件二者處皆具有良好的解析度。具體而言，由於鏡頭及行動裝置的實體限制或者由於校準及安全目的（例如，自動駕駛（self-driving）應用），鏡頭的變焦水準不能由使用者改變。

本系統及方法可擴展至多個（例如，多於兩個）相機以自多個立體相機確定差異。

舉例而言，裝置中的一個鏡頭被設定成1倍變焦（例如，不放大）且具有廣角FOV（例如，寬FOV），而裝置中的另一鏡頭具有2倍變焦（例如，放大2倍）且具有較窄的攝遠FOV（例如，遠程FOV）。此兩個FOV的聯合是寬FOV的聯合。如本文中所揭露，實行對FOV的聯合FOV的深度的估測或者在此種情形中為對整個寬FOV的深度估測，儘管僅對於FOV的交叉點（其是遠程FOV）存在對應畫素。

本揭露的實例提供一種用於深度神經網路的統一架構、一種同時對多個任務訓練統一架構的方法以及一種對來自單影像深度估測演算法/過程與立體深度估測演算法/過程的結果進行融合的方法，所述統一架構可對來自2個或更多個相機的FOV的聯合FOV實行深度估測，而非僅對FOV的交疊交叉點進行估測。優點包括：對跨越所有相機的整個FOV進行深度估測，而非僅自FOV的交疊交叉點進行深度估測；以及藉由在具有固定預設變焦（如寬的1倍變焦及攝遠2倍固定變焦）的雙重相機的情形中對整個寬FOV而非交叉點FOV（其是較窄的攝遠FOV）應用焦外成像來產生跨越整個寬FOV的在美觀上更佳的影像。

圖1是根據實施例的焦外成像效果的圖。焦外成像是藉由使遠的主體離焦、同時使較近的主體更加銳化或聚焦來使影像中的背景主體模糊的過程。影像100繪示了遠程FOV上的焦外成像效果，而影像102繪示了寬FOV上的焦外成像效果。交疊FOV 104對應於影像100的整個FOV。此種效果可藉由帶有孔徑大（光圈值（f-stop）數目低）及焦距長的昂貴鏡頭以獲得淺景深的較昂貴的相機來獲得。由於影像感測器及鏡頭的尺寸及成本限制，在較便宜的小相機或在行動裝置上的相機中難以找到該些鏡頭。

圖2是根據實施例的立體匹配系統200的圖。不具有精確深度估測的系統可依靠由具有相同FOV的兩個相機201與202拍攝的兩個校正影像之間的立體匹配來確定兩個對應的畫素之間的差異d （水平偏移，其是點P相對於相機201的水平距離x 1與點P相對於相機202的水平距離x 2之間的差）。對於每一畫素，可接著藉由已知的相機基線b 及焦距f 將所述差異轉換成主體P的深度z 的量度。

最近的電子裝置配備有兩個或更多個相機。所述兩個相機的規格可分別為（f/1.7、26毫米、1倍光學變焦）及（f/2.4、52毫米、2倍光學變焦）。然而第一相機具有較寬的孔徑，第二相機具有較長的焦距及翻倍的光學變焦。然而，第二相機的FOV是2倍變焦（例如，遠程FOV）時的影像的中心部分。第一相機的FOV是1倍變焦時的整個寬FOV。使相機具有不同FOV的一個原因是為了多樣性，其中較大孔徑的相機用於在低光設定及較快快門情況下獲得較佳的影像，其中2倍變焦相機提供翻倍的光學變焦且為2倍FOV提供較高的解析度影像。

立體差異匹配的一個應用是藉由使背景模糊、同時保持感興趣的物件聚焦而在影像中產生焦外成像效果。然而，在此種情形中，立體匹配可僅對在所述兩個相機之間交疊的中心FOV進行。因此，若使用者選擇將焦外成像效果應用於所拍攝的影像，則僅可對中心遠程FOV進行，進而產生圖1所示影像100。

圖3是根據實施例的對影像應用焦外成像效果的流程圖300。在302處，確定兩個影像之間的交疊FOV。舉例而言，參照圖1，交疊FOV 104對應於影像100的整個FOV。

在304處，產生具有相同FOV及解析度的兩個影像。可藉由自具有較大FOV的影像102剪裁交疊FOV 104且在較高解析度影像100中縮小交疊FOV來產生所述影像。

在306處，確定兩個影像之間的差異資訊。可藉由對在304處產生的所述兩個影像應用立體匹配演算法/過程來確定所述差異資訊。差異資訊可對應於在交疊FOV 104中影像100之間的畫素與影像102中與所述畫素對應的畫素之間的水平偏移。

在308處，產生所述兩個影像中任一影像的深度資訊。可藉由恰當的反演（inversion）及縮放（scaling）對來自306的差異資進行變換來產生所述深度資訊。

在310處，應用焦外成像演算法/過程。焦外成像演算法/過程可使遠物件模糊並對近物件聚焦，進而產生與影像100相似的結果，其中焦外成像效果僅可應用於影像100的遠程FOV。

如本文中所述，交疊FOV可指存在於所有所使用的相機中的FOV，即使FOV處於不同的比例。聯合FOV可指在將比例調整至參考影像的比例之後將一個參考相機的FOV與另一相機的FOV相加而得到的FOV。

圖4是根據實施例的表示聯合FOV及交疊FOV的影像的圖。影像400表示聯合FOV，而影像402表示交疊FOV。影像400包括與影像402的交疊部分404。影像402被以因數2進行下採樣，以與影像400在交疊FOV處的解析度匹配。感興趣的物件常常不位於影像402的遠程FOV的中心，且不完全被影像402的遠程FOV拍攝。因此，如本文中所揭露，可使用影像402的交疊FOV自影像400的聯合FOV產生差異估測值。

圖5是根據實施例的產生聯合FOV的差異的流程圖500。在502處，產生聯合FOV的深度估測值且產生聯合FOV的差異估測值。可藉由使用具有單影像差異估測（SIDE）的場景理解來產生深度估測值。

圖6是根據實施例的紅-綠-藍單影像深度估測（RGB-SIDE）網路的圖。RGB-SIDE網路是使用完全卷積神經網路實施。對全寬FOV（例如，聯合FOV 400）實行差異估測，其中在FOV的某些部分中僅來自一個相機的資訊可用。在600處輸入聯合FOV影像且在602處輸出差異估測。藉由使用當前相機設定（例如，相機基線、相機焦距等），RGB-SIDE網路估測逆深度且逆深度在網路內被以隱式方式縮放成差異。由此，基於回歸的損失函數（regression based loss function）可用作差異誤差的量度，其中對於每一畫素，所估測的差異與真實差異之間的距離給出了用於隨機梯度下降最佳化的誤差成本函數。

由於RGB-SIDE網路需要對場景進行理解來學習不同物件相對於相機鏡頭的相對位置，因此全寬影像400被立即處理。此種解決方案的優點是，輸出使用僅一個影像及一個區塊來提供對全寬FOV的差異的估測值。此種解決方案的缺點是缺乏精確度，其中所估測的差異或深度非常粗略、具有模糊的邊緣且容易出現大的誤差。此乃因依靠場景理解及物件之間的相對位置以及物件的大小來估測物件在FOV中的深度。

在504處，產生交疊FOV的差異估測值。可藉由使用立體匹配差異估測（stereo matching disparity estimation，SMDE）在兩個影像（例如在圖3所示304處產生的兩個影像）之間產生差異估測值。SMDE網路自所述兩個輸入影像估測差異。SMDE網路可使用神經網路來估測差異。可利用多種類型的SMDE網路，例如可應用於交疊FOV的遠程-廣角SMDE網路（tele-wide SMDE network，TW-SMNet）（TW-SMNet(T)）或可應用於聯合FOV的TW-SMNet（TW-SMNet(W)）、及在TW-SMNet(W)上添加附加的SIDE網路的多任務TW-SMNet（MT-TW-SMNet）。

圖7是根據實施例的TW-SMNet的圖。在網路中，影像400及影像402二者分別在700處及702處輸入到網路中。TW-SMNet使用立體匹配自所述兩個輸入影像估測差異。藉由傳統技術進行立體匹配涉及到沿同一水平線對校正影像中的特徵進行匹配。深度神經網路亦可藉由以不同差異偏移產生影像的特徵圖的偏移版本來實行立體匹配，以構建被稱為成本體積的體積。立體匹配深度神經網路依靠對成本體積（例如深度特徵之間的距離或者偏移的深度特徵之間的相關性）的計算。

對於TW-SMNet(T)，使用立體匹配僅為交疊區提供差異估測。交疊部分404是影像400與影像402中的交疊FOV。此是藉由考量僅寬FOV影像400中的交疊部分404並將其與遠程FOV影像402進行立體匹配來進行的。演算法或神經網路被設計成僅使用交疊區回歸至真實差異。此方案將使遠程區中的差異估測值具有最佳精確度。

對於TW-SMNet(W)，演算法/過程使用影像400的全寬FOV來估測聯合FOV的差異。影像402被縮放成與影像400中的交疊部分404的解析度匹配。然而，缺失區（其在此種情形中表示交疊部分404之外的周圍區）被零填充以達到全寬FOV的大小。此區塊的輸出是對全寬FOV的差異圖（disparity map）的估測值。此方案將使遠程區中的差異估測值具有很高的精確度且使周圍區中具有相當粗略的估測值。

圖8是根據實施例的MT-TW-SMNet的圖。在圖8中，在800處輸入寬FOV影像400，且在802處輸入遠程FOV影像402。對在800處輸入的FOV影像400應用附加的SIDE網路。

此網路被訓練用於藉由立體匹配進行差異估測。將用於僅對影像400進行基於SIDE的估測的附加頭部（head）在成本體積804之前添加至網路。對此兩個頭部一同進行訓練，以使SIDE分支有助於共享層具有較佳的場景理解能力。將網路立體匹配損失針對SIDE損失進行正則化（regularize）。因此，損失函數是組合損失函數806，組合損失函數806將來自SIDE分支的差異估測值的精確度以及來自SMDE分支的差異估測值的精確度考量在內，且系統在808處輸出差異。此會改善周圍區（非交疊FOV）中的性能（由於在周圍區中的立體影像中缺少對應的物件，因此在周圍區中無法進行立體匹配）。然而，自此網路輸出僅一個差異圖，所述差異圖是來自SMDE分支及SIDE分支的兩個差異圖的函數。此網路可僅選擇立體匹配差異圖作為最終輸出，此乃因立體匹配差異圖常常具有較佳的精確度。

在506處，增強聯合FOV差異。圖9是根據實施例的差異增強系統的圖。在圖9中，在TW-SMNet 904的900處輸入寬FOV影像400且在TW-SMNet的902處輸入遠程FOV影像402，由TW-SMNet產生並輸出差異。在908處，寬FOV影像400亦被輸入至SIDE RGB差異（SIDE RGB-Disparity，SIDE-RGBD）估測網路910，且由TW-SMNet輸出的差異被輸入至SIDE-RGBD網路910的906中。

在508處，將所估測的差異進行合併。圖10到圖13是根據實施例的用於產生欲被合併且進行後期處理的差異估測值的系統的圖。

圖10繪示了RGB SIDE + TW-SMNet(T)系統1000。寬FOV影像1002被輸入至RGB SIDE網路1006及TW-SMNet(T) 1008中，而遠程FOV影像1004被輸入至TW-SMNet(T) 1008。在1010處合併所得差異估測值且在1012處對差異圖進行處理。

圖11繪示了RGBD SIDE + TW-SMNet系統1100。寬FOV影像1102被輸入至RGBD SIDE網路1106及TW-SMNet 1108中，而遠程FOV影像1104被輸入至TW-SMNet 1108中。在1110處合併所得差異估測值且在1112處對差異圖進行處理。

圖12繪示了RGB SIDE + RGBD SIDE + TW-SMNet系統1200。寬FOV影像1202被輸入至RGBD SIDE網路1206、RGB SIDE網路1208及TW-SMNet 1210中，而遠程FOV影像1204被輸入至TW-SMNet 1210中。來自RGB SIDE網路1208的差異估測值被輸入至RGBD SIDE網路1206中。在1212處將來自RGBD SIDE網路1206與TW-SMNet 1210的所得差異估測值進行合併且在1214處對差異圖進行處理。

圖13繪示了RGB SIDE + RGBD SIDE + MT-TW-SMNet系統1300。寬FOV影像1302被輸入至RGBD SIDE網路1306、RGB SIDE網路1308及MT-TW-SMNet 1310中，而遠程FOV影像1304被輸入至MT-TW-SMNet 1310中。來自RGB SIDE網路1308的差異估測值被輸入至RGBD SIDE網路1306中。在1312處對來自RGBD SIDE網路1306與TW-SMNet 1310的所得差異估測值進行合併且在1314處對差異圖進行處理。

可藉由估測兩個差異圖

、

的交疊FOV之間的偏項

、基於偏項調整來實行差異合併，如方程式（1）所示：

其中n是交疊FOV中畫素的數目。可基於

對

的周圍差異進行調整，且接著可使用

應用加權和或差異選擇。

可基於縮放調整來實行差異合併，其中在兩個差異圖

、

的交疊FOV之間估測縮放差s ，其中n是交疊FOV中畫素的數目，如方程式（2）所示：

可基於

對

的周圍差異進行調整，且接著可使用

應用加權和或差異選擇。

在510處，選擇差異圖。差異合併亦可藉由來自神經網路的所學習的非線性函數來達成，所述神經網路可由堆疊沙漏網路（stacked hourglass network）來實施。圖14是根據實施例的差異合併及選擇的圖。在圖14中，SIDE差異1402與SMDE差異1404由差異合併網路進行合併。所述網路是藉由回歸至實況（ground truth）差異進行訓練的。訓練網路的一種方法是將差異量化成多個層階且學習為每一層階輸出軟機率（soft probability）的分類器。回歸輸出1406是差異的期望值，其中使用所估測的機率來計算期望值。另外，所輸出的合併差異1406是由SIDE 1402及SMDE 1404獲得的輸入差異的非線性函數。

藉由使用SMDE，交疊FOV的差異可為最精確的。因此，選擇器1408可選擇為周圍區選擇合併差異1406或者為交疊遠程FOV選擇來自SMDE 1404的差異。

圖15是根據實施例的差異合併及選擇的圖。在圖15中，可使用立體匹配（stereo matching，SM）（例如，藉由使用TW-SMNet(T)）僅對交疊區進行更精確的差異估測。然而，對被零填充的寬FOV的立體匹配可藉由對全寬FOV使用TW-SMNet(W)來產生交疊區及周圍區二者的差異估測值，交疊區及周圍區二者的差異估測值可使用融合網路進行合併以產生周圍區的更精確的差異估測值。然而，若複雜性容許，則可藉由使用差異區塊的第三輸入來對交疊遠程FOV利用最佳演算法/過程，所述第三輸入表示來自交疊遠程區上的精確立體匹配的差異估測值。舉例而言，SIDE差異1502及TW-SMNet(W)差異1504被合併至合併差異1508中且在TW-SMNet(T)差異1506與合併差異1508之間實行選擇1510。

寬FOV及遠程FOV RGB影像特徵亦可被輸入至差異合併區塊。自RGB影像提取的其他特徵（例如邊緣圖或語義分段（semantic segmentation）圖）可進一步與不同的差異圖一同作為輸入特徵進行序連。

在512處，對差異圖進行後期處理以增強品質（例如，藉由圖10到圖13的後期處理區塊）。後期處理區塊旨在提供在感覺上令人愉悅的差異圖。即使如在神經網路中一樣使用非線性運算進行合併之後，仍可觀察到交疊FOV與非交疊FOV之間邊界周圍的不連續性。後期處理旨在緩和此種效應，使得邊界效應不明顯。後期處理亦用於調整所需應用的輸出差異。

用於減小交疊區邊界周圍的差異急劇變化效應的後期處理的一個實例是使差異平滑。然而，邊緣常常代表一個物件，且目標是用平滑的深度估測值填充所述物件。一種解決方案是使用邊緣保持平滑（edge preserving smoothing）。邊緣保持平滑可藉由將經濾波的輸出計算為加權平均值（此可迭代地實施）來實施。可利用例如雙向濾波器等局部濾波器（local filter）。雙向濾波器及其他局部濾波器的一個限制是，它們可能無法解決是對差異圖中的特定邊緣進行保持還是進行平滑的模糊兩可性。可利用如下方式：使用RGB影像作為對平滑的引導，以保持RGB影像中的邊緣（此被稱為邊緣引導濾波）。也可利用如下方式：將以資料約束及平滑度先驗（smoothness prior）界定的全域目標函數（global objective function）最佳化（被稱為快速全域平滑器（fast global smoother，FGS））。因此，邊界周圍的FGS濾波值取決於整個差異圖。在一個實例中，藉由部署FGS，使用全域濾波器來計算邊界周圍的濾波值。接著僅將合併差異中邊界周圍的條帶（strip）由經濾波的條帶替換，且其餘條帶部署原始合併值。

如上所述，本系統及方法利用僅兩個相機。然而，此可容易地擴展至多於兩個相機。圖16是根據實施例的當存在四個相機時聯合FOV及交疊FOV的圖。圖16示出了邊緣相機配置（verged camera configuration）1602，其中暗區1604示出了交疊FOV，交疊FOV是自所有相機可見的共用三維空間，且虛線區1606示出了聯合FOV。

一種簡單的方法是對每一參考影像進行校正並分別與（相機的數目–1）個校正影像進行立體匹配。藉由使用深度學習方法，可獲得在相機之間交疊的FOV 1604的非常精確的深度估測值。由於相機相對於彼此的位置是固定的，因此任何一對校正影像之間的差異應轉化為剩餘對之間的特定值，此可用於得到交疊FOV 1604的更精確的結果。聯合FOV 1606的一些部分將在兩個相機之間交疊而非在所有的相機之間交疊。可使用該些相機對之間的立體匹配在此區中得到差異的良好估測值。聯合FOV 1606中僅被一個相機看到的區將利用單影像差異估測。作為另外一種選擇，聯合FOV 1606可利用所有輸入影像、以及聯合FOV 1606中至少在相機之間交疊的部分的差異估測值。上述用於差異圖與後期處理平滑之間的融合的其他方法亦適用於此實例。

關於圖16的替代實例是利用三個相機的系統。第一相機可具有遠程FOV，第二相機可具有寬FOV，且第三相機可具有超寬FOV。如以上針對圖5所述，對於來自遠程FOV的影像及來自寬FOV的影像，可將聯合FOV差異估測值與交疊FOV差異估測值進行合併。此方法可使用寬FOV的先前所估測深度遞歸地進行重複，以藉由超寬FOV與寬FOV之間的立體匹配產生超寬FOV的深度估測。在此種實例中，超寬FOV可用作聯合FOV，且寬FOV可用作交疊FOV。

圖17是根據一個實施例的網路環境1700中的電子裝置1701的方塊圖。參照圖17，網路環境1700中的電子裝置1701可藉由第一網路1798（例如，短距離無線通訊網路）來與電子裝置1702進行通訊，或者藉由第二網路1799（例如，長距離無線通訊網路）來與電子裝置1704或伺服器1708進行通訊。電子裝置1701可藉由伺服器1708來與電子裝置1704進行通訊。電子裝置1701可包括處理器1720、記憶體1730、輸入裝置1750、聲音輸出裝置1755、顯示裝置1760、音訊模組1770、感測器模組1776、介面1777、觸感模組（haptic module）1779、相機模組1780、電源管理模組1788、電池1789、通訊模組1790、用戶識別模組（subscriber identification module，SIM）1796或天線模組1797。在一個實施例中，可自電子裝置1701省略該些組件中的至少一者（例如，顯示裝置1760或相機模組1780），或者可向電子裝置1701添加一或多個其他組件。在一個實施例中，所述組件中的一些組件可被實施為單個積體電路（integrated circuit，IC）。舉例而言，感測器模組1776（例如，指紋感測器（fingerprint sensor）、虹膜感測器（iris sensor）或亮度感測器（illuminance sensor））可嵌入於顯示裝置1760（例如，顯示器）中。

處理器1720可執行例如軟體（例如，程式1740）以控制與處理器1720耦合的電子裝置1701的至少一個其他組件（例如，硬體組件或軟體組件），且可實行各種資料處理或計算。作為資料處理或計算的至少一部分，處理器1720可在揮發性記憶體1732中加載自另一組件（例如，感測器模組1776或通訊模組1790）接收的命令或資料，處理儲存於揮發性記憶體1732中的命令或資料，以及將所得資料儲存於非揮發性記憶體1734中。處理器1720可包括主處理器1721（例如，中央處理單元（central processing unit，CPU）或應用處理器（application processor，AP））以及能夠獨立於主處理器1721運作或與主處理器1721結合運作的輔助處理器1723（例如，圖形處理單元（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、感測器集線器處理器（sensor hub processor）或通訊處理器（communication processor，CP））。另外地或作為另一選擇，輔助處理器1723可適以消耗較主處理器1721少的功率，或者執行特定功能。輔助處理器1723可與主處理器1721分開實施或者作為主處理器1721的一部分實施。

當主處理器1721處於非現用（inactive）（例如，睡眠）狀態時，輔助處理器1723可替代主處理器1721來控制與電子裝置1701的組件中的至少一個組件（例如，顯示裝置1760、感測器模組1776或通訊模組1790）相關的功能或狀態中的至少一些功能或狀態；或者當主處理器1721處於現用狀態（例如，正在執行應用時），輔助處理器1723可與主處理器1721一起控制上述功能或狀態中的至少一些功能或狀態。根據一個實施例，輔助處理器1723（例如，影像訊號處理器或通訊處理器）可被實施為在功能上與輔助處理器1723相關的另一組件（例如，相機模組1780或通訊模組1790）的一部分。

記憶體1730可儲存由電子裝置1701的至少一個組件（例如，處理器1720或感測器模組1776）使用的各種資料。所述各種資料可包括例如軟體（例如，程式1740）以及用於與軟體相關的命令的輸入資料或輸出資料。記憶體1730可包括揮發性記憶體1732或非揮發性記憶體1734。

程式1740可作為軟體儲存於記憶體1730中且可包括例如作業系統（operating system，OS）1742、中間軟體（middleware）1744或應用1746。

輸入裝置1750可自電子裝置1701的外部（例如，使用者）接收欲由電子裝置1701的其他組件（例如，處理器1720）使用的命令或資料。輸入裝置1750可包括例如麥克風、滑鼠或鍵盤。

聲音輸出裝置1755可將聲音訊號輸出至電子裝置1701的外部。聲音輸出裝置1755可包括例如揚聲器或接收器。揚聲器可用於一般用途（例如播放多媒體或錄音），且接收器可用於接收傳入呼叫。根據一個實施例，接收器可與揚聲器分開實施或作為揚聲器的一部分實施。

顯示裝置1760可向電子裝置1701的外部（例如，使用者）以視覺方式提供資訊。顯示裝置1760可包括例如顯示器、全息圖裝置（hologram device）或投影儀以及用於控制顯示器、全息圖裝置及投影儀中的對應一者的控制電路系統。根據一個實施例，顯示裝置1760可包括適以偵測觸摸的觸摸電路系統、或適以量測由觸摸引發的力的強度的感測器電路系統（例如，壓力感測器）。

音訊模組1770可將聲音轉換成電性訊號以及將電性訊號轉換成聲音。根據一個實施例，音訊模組1770可藉由輸入裝置1750獲得聲音，或者藉由聲音輸出裝置1755或藉由與電子裝置1701直接地（例如，以有線方式）耦合或無線耦合的外部電子裝置1702的頭戴耳機來輸出聲音。

感測器模組1776可偵測電子裝置1701的運作狀態（例如，功率或溫度）或者電子裝置1701外部的環境狀態（例如，使用者狀態），且接著產生與所偵測的狀態對應的電性訊號或資料值。感測器模組1776可包括例如手勢感測器（gesture sensor）、陀螺儀感測器（gyro sensor）、大氣壓感測器（atmospheric pressure sensor）、磁性感測器（magnetic sensor）、加速度感測器（acceleration sensor）、握持感測器（grip sensor）、接近感測器（proximity sensor）、顏色感測器（color sensor）、紅外（infrared，IR）感測器、生物特徵感測器（biometric sensor）、溫度感測器（temperature sensor）、濕度感測器（humidity sensor）或亮度感測器。

介面1777可支援為將電子裝置1701直接地（例如，以有線方式）或無線地與外部電子裝置1702耦合而使用的一或多種規定協定。根據一個實施例，介面1777可包括例如高清晰度多媒體介面（high definition multimedia interface，HDMI）、通用串列匯流排（universal serial bus，USB）介面、安全數位（secure digital，SD）卡介面或音訊介面。

連接端子1778可包括連接件，電子裝置1701可藉由連接件與外部電子裝置1702實體連接。根據一個實施例，連接端子1778可包括例如HDMI連接件、USB連接件、SD卡連接件或音訊連接件（例如，頭戴耳機連接件）。

觸感模組1779可將電性訊號轉換成機械刺激（例如，震動或移動）或者可由使用者藉由觸覺（tactile sensation）或動覺（kinesthetic sensation）識別的電性刺激。根據一個實施例，觸感模組1779可包括例如馬達（motor）、壓電式元件（piezoelectric element）或電性刺激器（electrical stimulator）。

相機模組1780可拍攝靜止影像或移動影像。根據一個實施例，相機模組1780可包括一或多個鏡頭、影像感測器、影像訊號處理器或閃光燈。

電源管理模組1788可管理向電子裝置1701供應的電力。電源管理模組1788可被實施為例如電源管理積體電路（power management integrated circuit，PMIC）的至少一部分。

電池1789可向電子裝置1701的至少一個組件供電。根據一個實施例，電池1789可包括例如不可再充電的原電池（primary cell）、可再充電的二次電池（secondary cell）或燃料電池（fuel cell）。

通訊模組1790可支援在電子裝置1701與外部電子裝置（例如，電子裝置1702、電子裝置1704或伺服器1708）之間建立直接的（例如，有線的）通訊通道或無線的通訊通道以及藉由所建立的通訊通道實行通訊。通訊模組1790可包括可獨立於處理器1720（例如，AP）運作的一或多個通訊處理器並支援直接的（例如，有線的）通訊或無線的通訊。根據一個實施例，通訊模組1790可包括無線通訊模組1792（例如，蜂巢式通訊模組、短距離無線通訊模組或全球導航衛星系統（global navigation satellite system，GNSS）通訊模組）或有線通訊模組1794（例如，局部區域網路（local area network，LAN）通訊模組或電力線通訊（power line communication，PLC）模組）。該些通訊模組中對應的一個通訊模組可藉由第一網路1798（例如，短距離通訊網路，例如藍芽^TM 、無線保真（wireless-fidelity，Wi-Fi）直接或紅外資料協會（Infrared Data Association，IrDA）標準）或第二網路1799（例如，長距離通訊網路，例如蜂巢式網路、網際網路或電腦網路（例如，LAN或廣域網路（wide area network，WAN）））與外部電子裝置進行通訊。該些各種類型的通訊模組可被實施為單個組件（例如，單個積體電路）或者可被實施為彼此分開的多個組件（例如，多個積體電路）。無線通訊模組1792可利用儲存於用戶識別模組1796中的用戶資訊（例如，國際行動用戶識別碼（international mobile subscriber identity，IMSI））來識別及認證通訊網路（例如第一網路1798或第二網路1799）中的電子裝置1701。

天線模組1797可將訊號或電力傳送至電子裝置1701外部（例如，外部電子裝置）或者自電子裝置1701外部（例如，外部電子裝置）接收訊號或電力。根據一個實施例，天線模組1797可包括一或多個天線，且可舉例而言由通訊模組1790（例如，無線通訊模組1792）自所述一或多個天線中選擇適用於在通訊網路（例如第一網路1798或第二網路1799）中使用的通訊方案的至少一個天線。接著可藉由所選擇的至少一個天線在通訊模組1790與外部電子裝置之間傳送或接收訊號或電力。

上述組件中的至少一些組件可相互耦合且所述至少一些組件之間可藉由周邊間通訊方案（inter-peripheral communication scheme）（例如，匯流排、通用輸入及輸出（general purpose input and output，GPIO）、串列周邊介面（serial peripheral interface，SPI）或行動產業處理器介面（mobile industry processor interface，MIPI））傳送訊號（例如，命令或資料）。

根據一個實施例，可藉由與第二網路1799耦合的伺服器1708在電子裝置1701與外部電子裝置1704之間傳送或接收命令或資料。電子裝置1702及電子裝置1704中的每一者可為與電子裝置1701為相同類型或不同類型的裝置。欲在電子裝置1701處執行的所有操作或一些操作可在外部電子裝置1702、外部電子裝置1704或外部電子裝置1708中的一或多者處執行。舉例而言，若電子裝置1701原本應自動地或響應於來自使用者或另一裝置的請求而實行功能或服務，則替代執行所述功能或服務或者除了執行所述功能或服務之外，電子裝置1701亦可請求所述一或多個外部電子裝置實行所述功能或服務的至少一部分。接收到所述請求的所述一或多個外部電子裝置可實行所請求的功能或服務的所述至少一部分，或者實行與所述請求相關的其他功能或其他服務，並將所述實行的結果傳輸至電子裝置1701。電子裝置1701可在對結果進行進一步處理或不進行進一步處理的情況下提供所述結果作為對請求的回復的至少一部分。為此，舉例而言，可使用雲端計算、分佈式計算或客戶機-伺服器計算技術。

一個實施例可被實施為包括儲存於可由機器（例如，電子裝置1701）讀取的儲存媒體（例如，內部記憶體1736或外部記憶體1738）中的一或多個指令的軟體（例如，程式1740）。舉例而言，電子裝置1701的處理器可在使用或不使用受處理器控制的一或多個其他組件的條件下調用儲存於儲存媒體中的所述一或多個指令中的至少一個指令，並執行所述至少一個指令。因此，可操作機器根據所調用的所述至少一個指令來實行至少一種功能。所述一或多個指令可包括由編譯器產生的代碼或者可由解釋器執行的代碼。機器可讀取儲存媒體可設置成非暫態儲存媒體形式。用語「非暫態」指示儲存媒體是有形裝置，且不包括訊號（例如，電磁波），但此用語並不區分資料以半永久方式儲存於儲存媒體中的情形與資料臨時儲存於儲存媒體中的情形。

根據一個實施例，本揭露的方法可包括在電腦程式產品中及在電腦程式產品中提供。電腦程式產品可在賣方與買方之間作為產品進行交易。電腦程式產品可以機器可讀取儲存媒體（例如，光盤唯讀記憶體（compact disc read only memory，CD-ROM））形式分發，或者藉由應用商店（例如，播放商店^TM （Play Store^TM ））在線分發（例如，下載或上傳），或者直接在兩個使用者裝置（例如，智慧型電話）之間分發。若在線分發，則電腦程式產品的至少一部分可在機器可讀取儲存媒體（例如，製造商伺服器的記憶體、應用商店的伺服器或中繼伺服器）中臨時產生或至少臨時儲存於所述機器可讀取儲存媒體中。

根據一個實施例，上述組件中的每一個組件（例如，模組或程式）可包括單個實體或多個實體。可省略上述組件中的一或多者，或者可添加一或多個其他組件。作為另一選擇或另外地，可將多個組件（例如，模組或程式）整合成單個組件。在此種情形中，積體組件仍可以與在整合之前所述多個組件中的對應一者實行一或多種功能的方式相同或相似的方式實行所述多個組件中的每一者的所述一或多種功能。由模組、程式或另一組件實行的操作可依序地、並列地、重複地或啟發式地執行，或者所述操作中的一或多個操作可以不同的次序執行或者被省略，或者可添加一或多個其他操作。

儘管已在本揭露的詳細說明中闡述了本揭露的某些實施例，然而在不背離本揭露的範圍的條件下可以各種形式來對本揭露進行修改。因此，本揭露的範圍不應僅基於所闡述的實施例來確定，而是應基於隨附申請專利範圍及其等效形式來確定。

100、102:影像 104:交疊視野（FOV） 200:立體匹配系統 201、202:相機 300、500:流程圖 302、304、306、308、310、502、504、506、508、510、512:步驟 400:影像/聯合FOV/全寬影像/寬FOV影像/FOV影像 402:影像/遠程FOV影像 404:交疊部分 600:輸入聯合FOV影像 602:輸出差異估測 700:輸入影像400 702:輸入影像402 800:輸入寬FOV影像400 802:輸入遠程FOV影像402 806:組合損失函數 808:輸出差異 900:輸入寬FOV影像400 902:輸入遠程FOV影像402 904:遠程-廣角立體匹配差異估測網路（TW-SMNet） 906:輸入TW-SMNet輸出的差異 908:輸入寬FOV影像400 910:單影像深度估測紅-綠-藍差異（SIDE-RGBD）估測網路 1000:紅-綠-藍單影像深度估測+遠程-廣角立體匹配差異估測網路（遠程）（RGB SIDE + TW-SMNet(T)）系統 1002、1102、1202、1302:寬FOV影像 1004、1104、1204、1304:遠程FOV影像 1006、1208、1308:RGB SIDE網路 1008:TW-SMNet(T) 1010、1110、1212、1312:合併所得差異估測值 1012、1112、1214、1314:對差異圖進行處理 1100:紅-綠-藍差異單影像深度估測+遠程-廣角立體匹配差異估測網路（RGBD SIDE + TW-SMNet）系統 1106、1206、1306:RGBD SIDE網路 1108、1210:TW-SMNet 1200:紅-綠-藍單影像深度估測+紅-綠-藍差異單影像深度估測+遠程-廣角立體匹配差異估測網路（RGB SIDE + RGBD SIDE + TW-SMNet）系統 1300:紅-綠-藍單影像深度估測+紅-綠-藍差異單影像深度估測+多任務遠程-廣角立體匹配差異估測網路（RGB SIDE + RGBD SIDE + MT-TW-SMNet）系統 1310:MT-TW-SMNet 1402:SIDE差異/SIDE 1404:SMDE差異/SMDE 1406:回歸輸出/合併差異 1408:選擇器 1502:SIDE差異 1504:TW-SMNet(W)差異 1506:TW-SMNet(T)差異 1508:合併差異 1510:選擇 1602:邊緣相機配置 1604:暗區/交疊FOV 1606:虛線區/聯合FOV 1700:網路環境 1701:電子裝置 1702、1704:電子裝置/外部電子裝置 1708:伺服器/外部電子裝置 1720:處理器 1721:主處理器 1723:輔助處理器 1730:記憶體 1732:揮發性記憶體 1734:非揮發性記憶體 1736:內部記憶體 1738:外部記憶體 1740:程式 1742:作業系統（OS） 1744:中間軟體 1746:應用 1750:輸入裝置 1755:聲音輸出裝置 1760:顯示裝置 1770:音訊模組 1776:感測器模組 1777:介面 1778:連接端子 1779:觸感模組 1780:相機模組 1788:電源管理模組 1789:電池 1790:通訊模組 1792:無線通訊模組 1794:有線通訊模組 1796:用戶識別模組（SIM） 1797:天線模組 1798:第一網路 1799:第二網路b:相機基線d:差異f:焦距 P:點/主體x1、x2:水平距離z:深度

結合附圖閱讀以下詳細說明，本揭露的某些實施例的以上及其他態樣、特徵及優點將更顯而易見，在附圖中：圖1是根據實施例的焦外成像效果的圖。圖2是根據實施例的立體匹配（stereo matching）系統的圖。圖3是根據實施例的使用兩個具有相似FOV的影像對影像應用焦外成像效果的流程圖。圖4是根據實施例的表示聯合FOV及交疊FOV的影像的圖。圖5是根據實施例的產生聯合FOV的差異的流程圖。圖6是根據實施例的紅-綠-藍（red-green-blue，RGB）單影像差異估測（red-green-blue single image disparity estimation，RGB-SIDE）網路的圖。圖7是根據實施例的遠程-廣角（tele-wide）立體匹配網路的圖。圖8是根據實施例的多任務遠程-廣角立體匹配網路的圖。圖9是根據實施例的差異增強系統的圖。圖10、圖11、圖12及圖13是根據實施例的用於產生欲被合併且進行後期處理的差異估測值的系統的圖。圖14是根據實施例的差異合併及選擇的圖。圖15是根據實施例的差異合併及選擇的圖。圖16是根據實施例的當存在四個相機時聯合FOV及交疊FOV的圖。圖17是根據一個實施例的網路環境中的電子裝置的方塊圖。

500:流程圖

502、504、506、508、510、512:步驟

Claims

一種電子裝置，包括：第一相機，具有第一視野（FOV）；第二相機，具有較所述第一視野窄的第二視野；以及處理器，被配置成：使用所述第一相機拍攝第一影像，所述第一影像具有聯合視野；使用所述第二相機拍攝第二影像；確定所述第一影像與所述第二影像之間的交疊視野；基於所述交疊視野而產生交疊視野差異估測值；產生聯合視野差異估測值；以及將所述聯合視野差異估測值與所述交疊視野差異估測值進行合併。
如申請專利範圍第1項所述的電子裝置，其中所述交疊視野差異估測是使用利用所述交疊視野的立體匹配網路差異估測而產生的。
如申請專利範圍第1項所述的電子裝置，其中所述處理器更被配置成自所述第一影像剪裁所確定的所述交疊視野且將所述交疊視野自所述第二影像縮放至與所述第一影像對應的解析度。
如申請專利範圍第3項所述的電子裝置，其中所述處理器更被配置成使用所述交疊視野差異估測值來增強所述聯合視野差異估測值。
如申請專利範圍第1項所述的電子裝置，其中所述聯合視野差異估測值是基於僅所述第一影像的所述第一視野的深度估測並根據基於所述第一相機的相機基線及焦距的資訊而產生的。
如申請專利範圍第1項所述的電子裝置，其中所述處理器被配置成基於所述聯合視野差異估測值及所述交疊視野差異估測值中所述交疊視野中的偏項及比例校準來將所述聯合視野差異估測值與所述交疊視野差異估測值進行合併。
如申請專利範圍第1項所述的電子裝置，其中所述聯合視野差異估測值是基於來自紅-綠-藍（RGB）單影像差異估測（RGB-SIDE）網路的差異估測值而產生的。
如申請專利範圍第1項所述的電子裝置，其中所述聯合視野差異估測值更在來自立體匹配差異估測（SMDE）網路的零填充交疊視野與所述聯合視野之間產生。
如申請專利範圍第1項所述的電子裝置，其中所述聯合視野差異估測值更在來自多任務立體匹配差異（MT-SMDE）及單影像差異估測網路的零填充交疊視野與所述聯合視野之間產生。
如申請專利範圍第1項所述的電子裝置，更包括：第三相機，具有較所述第一視野寬的第三視野，其中所述處理器更被配置成：使用所述第三相機拍攝第三影像，所述第三影像具有所述第三視野；以及基於所述第一影像的所述聯合視野的深度估測而產生所述第三影像的深度估測。
一種差異估測的方法，包括：使用具有第一視野（FOV）的第一相機拍攝第一影像，所述第一影像具有聯合視野；使用具有第二視野的第二相機拍攝第二影像，所述第二視野較所述第一視野窄; 確定所述第一影像與所述第二影像之間的交疊視野；基於所述交疊視野而產生交疊視野差異估測值；產生聯合視野差異估測值；以及將所述聯合視野差異估測值與所述交疊視野差異估測值進行合併。
如申請專利範圍第11項所述的方法，其中所述交疊視野差異估測是使用利用所述交疊視野的立體匹配網路差異估測而產生的。
如申請專利範圍第11項所述的方法，更包括：自所述第一影像剪裁所確定的所述交疊視野且將所述交疊視野自所述第二影像縮放至與所述第一影像對應的解析度。
如申請專利範圍第13項所述的方法，更包括：使用所述交疊視野差異估測值來增強所述聯合視野差異估測值。
如申請專利範圍第11項所述的方法，其中所述聯合視野差異估測值是基於僅所述第一影像的所述第一視野的深度估測並根據基於所述第一相機的相機基線及焦距的資訊而產生的。
如申請專利範圍第11項所述的方法，其中將所述聯合視野差異估測值與所述交疊視野差異估測值進行合併是基於所述聯合視野差異估測值及所述交疊視野差異估測值中所述交疊視野中的偏項及比例校準來實行。
如申請專利範圍第11項所述的方法，其中所述聯合視野差異估測值是基於來自紅-綠-藍（RGB）單影像深度估測（SIDE）網路的差異估測值而產生的。
如申請專利範圍第11項所述的方法，其中所述聯合視野差異估測值更在來自立體匹配差異估測（SMDE）網路的零填充交疊視野與所述聯合視野之間產生。
如申請專利範圍第11項所述的方法，其中所述聯合視野差異估測值更在來自多任務立體匹配差異（MT-SMDE）及單影像差異估測網路的零填充交疊視野與所述聯合視野之間產生。
如申請專利範圍第11項所述的方法，更包括：使用具有第三視野的第三相機拍攝第三影像，所述第三視野較所述第一視野寬，以及基於所述第一影像的所述聯合視野的深度估測而產生所述第三影像的深度估測。