TWI805282B

TWI805282B - 使用焦點資訊深度估計的方法和裝置

Info

Publication number: TWI805282B
Application number: TW111110302A
Authority: TW
Inventors: 王任; 劉育綸; 黃昱豪; 王寧緒
Original assignee: 聯發科技股份有限公司
Priority date: 2021-03-23
Filing date: 2022-03-21
Publication date: 2023-06-11
Also published as: US20220309696A1; US11967096B2; CN115115690A; TW202238522A

Abstract

一種從焦點進行深度估計的方法和系統，包括接收包含焦點資訊的輸入圖像資料，藉由AI模型生成中間注意力圖，藉由歸一化函數將中間注意力圖歸一化為深度注意力圖，以及導出輸入圖像資料的預期深度值，該輸入圖像資料包含來自深度注意力圖的焦點資訊。深度估計的AI模型可以在沒有地面實況深度圖的情況下進行非監督式訓練。一些實施例的AI模型是共用網路，該共用網路估計深度圖以及從具有不同焦點位置的一組圖像重構AiF圖像。

Description

使用焦點資訊深度估計的方法和裝置

本發明涉及圖像或視訊處理系統中的深度估計，更具體地講，本發明涉及基於機器學習的焦點資訊深度估計。

深度估計一直是用於諸如增強現實(Augmented Reality，簡稱AR)、虛擬實境(Virtual Reality，簡稱VR)和自動駕駛等下游任務的最基本的電腦視覺主題之一。深度估計使用不同的線索，例如顏色、語義、立體或圖像序列中的差異來預測和融合深度圖。深度資訊使越來越多的攝影和視訊會議應用成為可能，例如景深調整、背景替換以及在拍攝照片後改變焦點。在圖像或視訊擷取裝置的最新發展中，主動或被動深度感測技術嵌入在每個擷取裝置中以獲取深度資訊。由於需要專門的硬體，主動深度傳感解決方案(例如飛時測距(Time-of-Flight，簡稱ToF)和結構光)通常更昂貴且更耗電。與主動深度傳感技術相比，被動技術(例如雙目或多視圖立體)成本和功率效率更高，但在無紋理區域更容易出錯。

藉由直接從輸入圖像學習深度估計，基於深度學習的立體匹配方法以資料驅動的方式解決了這個問題。但是，它需要大量高品質的配對訓練資料，獲取這些資料既耗時又昂貴。立體匹配方法遇到的其他一些問題包括不完善的訓練資料、合成和不真實的輸入圖像以及不準確的注冊深度圖(registered depth map)。一些非監督式學習方法被開發來解決這個問題，這些方法依賴於圖像重構損失和一致性損失(consistency loss)，而不需要地面實況(ground truth)深度資料。域間隙(domain gap)藉由直接使用真實世界立體圖像進行訓練來緩解，而無需相應的註冊深度圖。

用於深度估計的另一種相對未充分探索的技術是散焦模糊。焦點深度(或散焦)的任務旨在從聚焦堆疊(focal stack)估計場景的深度圖。聚焦堆疊由同一相機在不同焦點位置拍攝的多個圖像組成。這允許消費者自動對焦單目相機在沒有額外硬體的情況下估計深度值。傳統的基於焦點深度優化的方法估計每個像素的銳度水平，以及經常遇到紋理較少的物件或光圈問題。深度學習技術有助於克服這些問題，但需要地面實況深度資料進行監督式訓練。使用已註冊的深度圖獲取聚焦堆疊既昂貴又耗時，更不用說藉由ToF感測器等硬體解決方案獲得的不完美深度資料了。許多工作旨在合成真實資料以解決目標域中對資料的需求，例如，使用合成深度圖在合成資料集上合成散焦模糊。然而，用於合成的薄透鏡模型能否精確地代表真實世界的光學仍然值得懷疑。

大多數深度估計方法假設輸入圖像是全焦點(All-in-Focus，簡稱AiF)，其中在真實世界場景中，大多數圖像被認為在背景中散焦或具有淺景深(Depth-of-Field，簡稱DoF)。很少有方法詳細說明散焦圖像的深度估計。基於常規優化的方法被提出來估計聚焦堆疊的深度。一種變分方法(variational approach)被提出來生成索引圖，其中每個像素都被分配到具有最大對比度的焦點位置。此外，基於深度學習的方法可以更精確地模擬模糊度以及實現更好的深度品質。一些方法找到了相對模糊和視差之間的關係，以增強匹配的魯棒性。焦點掃描視訊的深度目標是從具有連續焦點位置的圖像中估計深度。基於深度學習的方法進一步提高了深度品質，以及嘗試消除單個散焦圖像的散焦模糊。在目標域中收集資料變得非常重要，這將直接影響深度學習方法的結果。然而，真實世界資料的收集通常既昂貴又耗時。許多工作旨在合成現實資料，以解決在目標域中收集資料的需求。

用於圖像或視訊處理系統的使用焦點資訊的深度估計的方法的實施例包括接收包含焦點資訊的輸入圖像資料，藉由人工智慧(Artificial Intelligence，簡稱AI)模型從包含焦點資訊的輸入圖像資料生成中間注意力圖，藉由第一歸一化函數將中間注意力圖歸一化為深度注意力圖，以及從深度注意力圖中導出包含焦點資訊的輸入圖像資料的預期深度值。AI模型由一種或多種基於焦點的訓練材料進行非監督式訓練。包含焦點資訊的輸入圖像資料的一個示例是聚焦堆疊，該聚焦堆疊包括具有不同焦點位置的圖像堆疊，以及包含焦點資訊的輸入圖像資料的另一示例是獲取後重新聚焦的照片。獲取後重新聚焦的照片可以從光場相機獲取。

基於焦點的訓練材料的一個實施例是照片的至少一部分，獲取該照片所使用的光圈比用於獲取聚焦堆疊中的任一圖像的光圈小。基於焦點的訓練材料的另一實施例是從光場相機獲取的光圈縮小照片的至少一部分。基於焦點的訓練材料的另一實施例是從AiF圖像生成器輸出的地面實況全焦點(All-in-Focus，簡稱AiF)圖像，其中地面實況圖像的銳度值大於聚焦堆疊中每個圖像的銳度值。

在一些實施例中，AI模型由深度估計和AiF圖像重構任務共用，以及使用焦點資訊的深度估計的方法還包括藉由第二歸一化函數將中間注意力圖歸一化為AiF深度注意力圖以及從AiF深度注意力圖和包含焦點資訊的輸入資料中導出預期的AiF圖像。第一歸一化函數的一些示例將中間注意力圖歸一化為更平坦的概率分佈，而第二歸一化函數的一些示例將中間注意力圖歸一化為更銳利的概率分佈。例如，第一歸一化函數是softplus歸一化函數，第二歸一化函數是softmax歸一化函數。根據本發明的各種實施例，AI模型由地面實況深度圖進行監督式訓練，或者AI模型由地面實況AiF圖像非監督式訓練。在一實施例中，當深度估計任務被執行時，AI模型由地面實況深度圖監督式訓練。在一實施例中，藉由比較預期深度值和對應於包含焦點信息的輸入圖像資料的地面實況深度圖，AI模型被訓練。在另一實施例中，當AiF圖像重構任務被執行時，AI模型由地面實況AiF圖像進行非監督式訓練。在本實施例中，藉由比較預期的AiF圖像和對應於包含焦點資訊的輸入圖像的地面實況AiF圖像，AI模型被訓練。對於非監督式深度估計，根據一個實施例，藉由最小化結合了AiF訓練損失和平滑度損失的總損失，AI模型由地面實況AiF圖像訓練，其中AiF訓練損失表示預期AiF圖像與對應的地面實況AiF圖像之間的差異。

包含焦點資訊的輸入圖像資料的預期深度值從包含焦點資訊的輸入圖像資料的深度注意力圖和焦點位置導出。在本發明的一些實施例中，AI模型參數藉由獲得即時地面實況AiF圖像和藉由使用即時地面實況AiF圖像來訓練AI模型而更新，AI模型被訓練以適應當前情況或環境。AI模型是深度學習網路或機器學習網路，例如，AI模型的網路架構是由三維(three-dimensional，簡稱3D)卷積組成的編碼器-解碼器網路。AI模型可以藉由地面實況AiF圖像或地面實況深度值進行訓練，在藉由訓練AI模型更新AI模型參數後，至少一個預先存儲在寄存器或記憶體中用於AI模型的值被修改。

本公開的各方面還提供了一種用於在圖像或視訊處理系統中使用焦點資訊的深度估計的裝置。該裝置包括一個或多個電子電路，被配置為接收包含焦點資訊的輸入圖像資料，藉由AI模型從包含焦點資訊的輸入圖像資料生成中間注意力圖，藉由第一歸一化函數將中間注意力圖歸一化為深度注意力圖，以及從深度注意力圖中導出包含焦點資訊的輸入圖像資料的預期深度值。裝置中的AI模型可以藉由一種或多種基於焦點的訓練材料進行訓練，例如地面實況AiF圖像。

102:聚焦堆疊S

104:AI模型

106:中間注意力圖M

108:固定歸一化函數

110:固定歸一化函數

112:深度注意力圖MAiF

114:深度注意力圖Mdepth

116:焦點位置P

118:預期AiF圖像

120:深度值

202:聚焦堆疊S

206:中間注意力圖M

208:第二歸一化函數

210:第一歸一化函數

214:深度注意力圖Mdepth

216:焦點位置P

218:預期AiF圖像

220:預期深度值D

222:歸一化地面實況深度圖

224:地面實況AiF圖像

S302、S304、S306、S308:步驟

S402、S404、S406、S408、S410、S412:步驟

作為示例提出的本公開的各種實施例將參考以下附圖進行詳細描述，其中相同的數字表示相同的組件，以及其中：第1圖示出根據本發明實施例的使用焦點資訊的深度估計的示例性系統。

第2A圖示出根據本發明實施例的使用焦點資訊的深度估計系統中的AI模型的監督式學習。

第2B圖示出根據本發明實施例的使用焦點資訊的深度估計系統中AI模型的非監督式學習。

第3圖示出根據本發明實施例從包含焦點資訊的輸入圖像資料估計深度值的流程圖。

第4圖示出根據本發明的另一實施例從包含焦點資訊的輸入圖像資料估計深度值的流程圖。

將容易理解的是，如本文附圖中大體描述和圖示的本發明的組件可被佈置和設計成多種不同的配置。因此，如附圖中所表示的本發明的系統和方法的實施例的以下更詳細的描述並不旨在限制所要求保護的本發明的範圍，而僅代表本發明的選定實施例。

在整個說明書中對“一個實施例”、“一些實施例”或類似語言的引用意味著結合實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此，貫穿本說明書的各個地方出現的短語“在一個實施例中”或“在一些實施例中”不一定都指同一實施例，這些實施例可以單獨實施，也可以結合一個或多個其他實施例實施。此外，所描述的特徵、結構或特性可以在一個或多個實施例中以任一合適的方式組合。然而，相關領域的技術人員將認識到，本發明可以在沒有一個或多個具體細節的情況下，或使用其他方法、組件等來實踐。在其他情況下，未示出或未示出眾所周知的結構或操作。詳細描述以避免模糊本發明的方面。

使用焦點資訊的深度估計系統的概述 本發明的一些實施例藉由人工智慧(Artificial Intelligence，簡稱AI)模型從包含焦點資訊的輸入圖像資料執行深度估計。本發明的AI模型可以使用地面實況深度圖進行監督式訓練，也可以僅使用基於焦點的訓練材料進行非監督式訓練。基於焦點的訓練材料的示例包括地面實況全焦點(AiF)圖像的至少一部分、以小光圈拍攝的照片的至少一部分以及從光場相機獲取的光圈縮小照片的至少一部分。本發明的一些實施例從包含焦點資訊的輸入圖像資料聯合執行深度估計和AiF圖像重構。這兩個任務，深度估計和AiF圖像重構，由根據本發明實施例的共用AI模型藉由利用這兩個任務之間的關係來完成。共用AI模型可以使用基於深度的訓練材料(例如地面實況深度圖)或基於焦點的訓練材料(例如地面實況AiF圖像)進行訓練。與傳統方法中獲取高品質的基於深度的訓練材料(例如地面實況深度圖)相比，獲取地面實況AiF圖像等基於焦點的訓練材料相對容易。例如，真實的AiF圖像可以使用小光圈和長時間曝光來獲取。本發明的一些實施例中的AI模型在非監督的情況下從包含焦點資訊的輸入圖像資料中學習深度估計。也就是說，即使在地面實況深度資料不可用的情況下，域間隙也可以藉由對真實世界資料的測試時間訓練來減輕。

使用焦點資訊的深度估計系統的網路架構 第1圖示出根據本發明實施例的使用焦點資訊的深度估計系統的概述。使用焦點資訊的深度估計旨在藉由散焦線索(defocus cue)從包含焦點資訊的輸入圖像資料中恢復深度值。包含焦點資訊102的輸入圖像資料的一些示例是具有不同焦點位置的圖像堆疊，以及從光場相機或其他技術獲取的獲取後重新聚焦的照片。具有不同焦點位置的圖像堆疊也稱為聚焦堆疊，例如，聚焦堆疊是獲取裝置上的相機以不同焦點獲取的一組圖像。光場相機獲取空間分佈的光線。藉由重新渲染數位化光場資料，多視圖或可變光圈圖像可以在獲取後顯示。由於光場相機提供來自不同相機位置的多視圖場景，它可以幫助計算攝影比普通相機設備表現更好。給定F幅圖像的聚焦堆疊S

R ^{H＊W＊3＊F}，且F幅圖像具有逐漸變化的焦點位置P

R ^{H＊W＊1＊F}，深度估計方法藉由人工智慧(Artificial Intelligence，簡稱AI)模型產生多種注意力表示。如第1圖所示，包含焦點資訊102的輸入圖像資料被饋送到AI模型104以產生中間注意力圖M106。AI模型104可以被理解為AI模型參數的內核或網路，該AI模型參數由一個或多個地面實況AiF圖像或一個或多個地面實況深度圖來訓練。AI模型104也被稱為深度學習網路或機器學習網路，可以共用用於深度估計和AiF圖像重構的任務。根據本發明的一些實施例，AI模型104是用於深度估計和AiF圖像重構的共用網路，這與分別對這兩個任務使用單獨網路的現有技術方法不同。根據現有技術的方法，單獨的網路的網路參數被單獨訓練和確定，在單獨的網路中執行的計算是獨立的，用於存儲網路參數以及單獨的網路的相關軟體程式的寄存器或記憶體是不同的。根據本發明的AI模型104是這兩個任務的共用網路，因此AI模型參數是分開訓練和確定的，在共用網路中執行的計算由兩個任務共用，用於存儲AI模型參數和軟體程式設計的寄存器或記憶體是相同的。本發明的AI模型104的基礎架構的示例是Inception3D，其中AI模型104是由三維(3D)卷積組成的編碼器-解碼器網路。編碼器降低輸入圖像資料的解析度，而解碼器重構資訊以提高解析度。在AI模型104的另一示例中，編碼器-解碼器網路藉由編碼和解碼來保持解析度不變。藉由3D卷積，遍及幀各處的散焦線索可以更好地獲取，從而促進深度估計和AiF圖像重構的任務。歸因於3D卷積性質，AI模型104還可以處理的具有任意大小的聚焦堆疊。在另一示例中，AI模型104的基礎架構包括二維(two-dimensional，簡稱2D)卷積，它應用全域池化層(global pooling layer)作為多個權重共用2D卷積網路之間的通訊工具。

注意力機制 AI模型104的輸出是中間注意力圖M

R ^{H＊W＊1＊F} 106。中間注意力圖M 106的基本期望是它應該反映每個焦點位置導致最大銳度的概率。中間注意力圖M 106可以有利於深度估計和AiF圖像重構的任務。對於深度估計，中間注意力圖M 106藉由第一歸一化函數110歸一化為深度注意力圖Mdepth 114。第一歸一化函數110的示例是softplus歸一化函數，如以下等式所示。

M ^depth =ζ(M), 等式(1) 其中

softplus函數是ReLU函數的平滑版本。深度注意力圖Mdepth 114也可以解釋為概率分佈，因為softplus函數確保沒有負值，以及softplus函數將M 106歸一化為深度估計的有效概率分佈。如第1圖和等式(3)所示，每個像素的預期深度值120從深度注意力圖Mdepth 114和聚焦堆疊102的焦點位置P 116導出。

其中M ^depth為該深度注意力圖，P(i,j,1,t)對應於一像素的一焦點位置，F為一焦點位置數量，i為該像素的一高度索引，j為該像素的一寬度索引，t為一焦點位置索引。

對於AiF圖像重構，使用焦點資訊的深度估計系統執行與深度估計類似的過程，除了歸一化函數不同。AiF深度注意力圖MAiF 112藉由如第1圖所示的第二歸一化函數108從中間注意力圖M 106導出。例如，用於AiF圖像重構的第二歸一化函數108產生比用於深度估計的第一歸一化函數110更銳利的概率分佈。例如，softmax歸一化函數用於AiF圖像重構。用於藉由softmax函數將中間注意力圖M 106歸一化為AiF深度注意力圖MAiF 112的等式如下所示。

M ^AiF =σ(M), 等式(4) 其中

AiF深度注意力圖MAiF 112然後用於基於聚焦堆疊S 102的AiF圖像重構。預期AiF圖像118的每個像素基於AiF深度注意力圖MAiF 112和聚焦堆疊S 102由等式(6)表示。

深度和AiF圖像根據softmax和softplus函數等兩種不同的歸一化函數分別估計，以解決稀疏聚焦堆疊的問題。稀疏聚焦堆疊是指堆疊大小較小且每個稀疏聚焦堆疊內的焦點位置不密集的聚焦堆疊。具有更清晰分佈的歸一化函數被選擇用於AiF重構。對於AiF圖像的每個像素，沿堆疊維度的最銳利的像素在AiF圖像重構期間被選擇。更平坦的分佈導致具有最高銳度的多個像素。在稀疏堆疊中混合多個像素通常不會生成最銳利的像素。因此softmax歸一化函數被應用於中間注意力，以追求峰值現象，對AiF圖像中的每個像素提取最清晰的像素。對於深度估計，更銳利的分佈(例如softmax歸一化函數)會導致稀疏聚焦堆疊的嚴重量化，因為它只是選擇最大銳度的最近焦點位置。另一方面，歸一化函數導致更平坦的分佈，例如softplus歸一化函數藉由稀疏焦點位置之間的插值對深度預測更準確。softmax和softplus函數是用於導出深度值和AiF圖像的歸一化函數的示例，系統可以將另一歸一化函數應用於中間注意力圖以生成深度值或AiF圖像。

監督式或非監督式的深度估計 如第1圖所示，由使用焦點資訊的深度估計系統的AI模型104生成的中間注意力圖M 106橋接深度估計任務和AiF 圖像重構任務，這不需要中間監督訊號。此外，在生成中間注意力圖M 106之後沒有可學習的參數。從使用焦點資訊的深度估計系統輸出的預期深度值120和AiF圖像118藉由將固定歸一化函數110和108應用於中間注意力M 106來簡單地生成。在一些優選實施例中，用於導出預期深度值的固定歸一化函數120將中間注意力圖106歸一化為更平坦的概率分佈，而用於導出預期AiF圖像118的固定歸一化函數將中間注意力圖M 106歸一化為更銳利的概率分佈。即使當諸如地面實況深度圖之類的基於深度的訓練材料不可用時，在兩個任務之間共用的AI模型104仍然可以使用一種或多種基於焦點的訓練材料進行非監督式訓練。基於焦點的訓練材料的一個示例是一個或多個地面實況AiF圖像的至少一部分。也就是說，使用焦點資訊的深度估計系統的AI模型104在有或沒有基於深度的訓練材料(例如地面實況深度圖)的情況下，進行監督式或非監督式訓練。在一實施例中，AI模型104由一個或多個地面實況AiF圖像的至少一部分訓練以生成中間注意力圖M 106，以及聚焦堆疊S102的深度值120藉由歸一化中間注意力圖M106來估計。地面實況AiF圖像可以容易地獲取以訓練AI模型104以用於深度估計和AiF圖像重構任務。換言之，AI模型104通常可以在具有基本地面實況深度資料或基本地面實況AiF圖像的工廠(foundry)中進行訓練，然後藉由獲取即時地面實況AiF圖像在設備上進行更準確的訓練(也被稱為設備上訓練)以適應當前環境、環境或設置。地面實況AiF圖像的一個實施例是用小光圈拍攝的照片，其中用於獲取地面實況Ai圖像的光圈小於用於拍攝聚焦堆疊中任一圖像的光圈。地面實況AiF圖像的另一實施例是由從光場相機獲取的光圈縮小照片生成的。在又一實施例中，地面實況AiF圖像可以是來自任一全焦圖像生成器的圖像，使得地面實況AiF圖像的銳度大於聚焦堆疊中每個圖像的銳度。銳度描述了圖像中細節的明晰度。藉由將圖像轉換為頻域，圖像中細節密集的區域在高頻處將具有較大的幅度，而圖像中細節較少的區域將在高頻處具有較低的幅度。換句話說，銳度反映了分塊頻譜中的高頻功率。基於焦點的訓練材料可以被定義為圖像中的至少一個塊，與聚焦堆疊中其他圖像的相應塊的高頻幅度相比，該塊在高頻中具有更大的幅度。

訓練損失 對於監督式深度估計的實施例，第2A圖示出由具有簡單L1損失的地面實況深度圖訓練的AI模型，如等式(7)所示。

L _supervised=L _depth=E[kD-D _gt K ₁], 等式(7)其中Dgt代表地面實況深度。AI模型204生成聚焦堆疊S 202的中間注意力圖M 206。第一歸一化函數210應用於中間注意力圖M206以生成深度注意力圖Mdepth 214。第二歸一化函數208應用於中間注意力圖M 206以生成AiF深度注意力圖MAiF 212。預期深度值D 220從深度注意力圖Mdepth 214和焦點位置216導出。預期AiF圖像218從AiF深度注意力圖MAiF212和聚焦堆疊S202導出。藉由最小化地面實況深度圖222和預期深度值D 220之間的Lsupervised損失，AI模型204進行監督式訓練。

對於非監督式深度估計的實施例，第2B圖示出由具有AiF監督的L1損失訓練的AI模型。

L _AiF=E[kI-I _gt K ₁], 等式(8)其中Igt代表地面實況AiF圖像224。此外，深度圖可以使用邊緣感知(edge-aware)加權來局部平滑，如等式(9)所示。平滑度損失定義為：

λ是基於地面實況AiF圖像的邊緣加權的超參數(hyper-parameter)。非監督式深度估計的總損失是AiF訓練損失和平滑度損失的組合。

L _unsupervised=L _AiF+αL _smooth , 等式(11)其中α表示平滑度損失的重要程度。第2B圖中的AI模型204接收聚焦堆疊S 202以及輸出中間注意力圖M 206。在第二歸一化函數208將中間注意力圖M 206歸一化為AiF深度注意力圖MAiF 212時，第一歸一化函數210將中間注意力圖M 206歸一化為深度注意力圖Mdepth 214。預期深度值D 220由深度注意力圖Mdepth 214和焦點位置P 216導出，預期AiF圖像218由AiF深度注意力圖MAiF212和聚焦堆疊S 202導出。藉由最小化結合AiF訓練損失和平滑度損失的總損失，AI模型204進行非監督式訓練，其中AiF訓練損失表示預期AiF圖像218和對應的地面實況AiF圖像224之間的差異。

藉由最小化監督式或非監督式的深度估計的訓練損失，使用焦點資訊的深度估計系統的AI模型被訓練。本發明的深度學習訓練可以是設備上訓練，因為設備可以很容易地獲得地面實況AiF圖像，而無需任一額外的感測器。聚焦系統深度估計的一些優點包括成本低，因為不需要紅外感測器等輔助感測器來收集地面實況深度，以及深度圖比立體匹配方法更準確。AI模型的AI模型參數在訓練過程中更新，以追求更好的深度估計品質，其中一些預先存儲在AI模型的寄存器或記憶體中的值被修改。更新後的模型參數用於對輸入資料進行數學運算，或對輸入資料進行一系列運算後得到的值，在機器學習中也被稱為特徵。聚焦系統的深度估計輸出是深度圖，在許多電腦視覺應用中都很有用。一些可以實現本發明的使用焦點資訊的深度估計系統的產品應用和領域是機器人、監控攝像機、自動駕駛汽車以及增強實境(Augmented Reality，簡稱AR)和虛擬實境(Virtual Reality，簡稱VR)。

本發明實施例的代表性流程圖 第3圖是說明圖像或視訊處理系統中使用焦點資訊的深度估計方法的實施例的流程圖。在步驟S302，圖像或視訊處理系統接收包含焦點資訊的輸入圖像資料。例如，包含焦點資訊的輸入圖像資料是聚焦堆疊。在步驟S304，AI模型生成輸入圖像資料的中間注意力圖。在本實施例中，AI模型由一個或多個基於焦點的訓練資料進行訓練，例如，基於焦點的訓練資料是地面實況AiF圖像的至少一部分。在另一實施例中，AI模型由一個或多個基於深度的訓練材料訓練，或者在又一實施例中，AI模型由基於焦點的訓練材料和基於深度的訓練材料兩者訓練。基於深度的訓練材料的一個例子是地面實況深度圖。AI模型是在工廠內訓練的，或者AI模型是在設備上訓練的。在步驟S306中，藉由歸一化函數，中間注意力圖被歸一化為深度注意力圖。深度注意力圖是歸一化的深度注意力圖，表示導致深度估計的最大銳度的每個焦點位置的概率分佈。在步驟S308中，圖像或視訊處理系統從深度注意力圖導出包含焦點資訊的輸入圖像資料的預期深度值。

第4圖示出圖像或視訊處理系統中使用焦點資訊的深度估計方法的另一實施例的流程圖。在步驟S402中，由圖像或視訊處理系統接收包含焦點資訊的輸入圖像資料，例如聚焦堆疊。在步驟S404，AI模型生成輸入圖像資料的中間注意力圖。在本實施例中，AI模型由一種或多種基於焦點的訓練材料進行訓練。在另一實施例中，AI模型由一個或多個基於深度的訓練材料進行訓練，或者在又一實施例中，AI模型由基於焦點的訓練材料和基於深度的訓練材料兩者進行訓練。AI模型是用於深度估計和AiF圖像重構任務的共用網路。在步驟S406中，AI模型生成的中間注意力圖藉由第一歸一化函數被歸一化為深度注意力圖。在步驟S408中，包含焦點資訊的輸入圖像資料的預期深度值從深度注意力圖導出。在步驟S410中，中間注意力圖還藉由第二歸一化函數被歸一化為AiF注意力圖。在步驟S412，包含焦點資訊的輸入圖像資料的預期AiF圖像從AiF注意力圖導出。在一實施例中，預期AiF圖像對應於整個輸入圖像資料。但是，需要注意的是，預期的AiF圖像不一定對應於整個輸入圖像資料。例如，在一實施例中，輸入圖像資料由第一部分和第二部分組成，預期AiF圖像僅對應於輸入圖像資料的第一部分。在本實施例中，對應於輸入圖像資料的第二部分的另一預期AiF圖像可以在後續的訓練AI模型的步驟中從AiF注意力圖導出。因此，在本實施例中，對應於輸入圖像資料的第一部分的第一地面實況圖像和對應於輸入圖像資料的第二部分的第二地面實況圖像被使用。

在不背離其精神或基本特徵的情況下，本發明可以以其他特定形式體現。所描述的示例在所有方面都僅被認為是說明性的而不是限制性的。因此，本發明的範圍由所附申請專利範圍而不是由前述描述指示。在申請專利範圍的等效含義和範圍內的所有變化都應包含在其範圍內。

S302、S304、S306、S308:步驟

Claims

一種使用焦點資訊的深度估計方法，用於圖像或視訊處理系統，包括：接收包含焦點資訊的輸入圖像資料；藉由一人工智慧模型從包含焦點資訊的該輸入圖像資料生成一中間注意力圖，其中該人工智慧模型由一個或多個基於焦點的訓練材料訓練；藉由一第一歸一化函數將該中間注意力圖歸一化為一深度注意力圖；以及從該深度注意力圖中導出包含焦點資訊的該輸入圖像資料的多個預期深度值，其中該輸入圖像資料中的一像素的該預期深度值根據等式D _i,j,1=
導出，其中M ^depth為該深度注意力圖，P(i,j,1,t)對應於一像素的一焦點位置，F為一焦點位置數量，i為該像素的一高度索引，j為該像素的一寬度索引，t為一焦點位置索引。
如請求項1所述之使用焦點資訊的深度估計方法，其中，包含焦點資訊的該輸入圖像資料是一聚焦堆叠，該聚焦堆叠包括具有不同焦點位置的一堆圖像。
如請求項2所述之使用焦點資訊的深度估計方法，其中，該基於焦點的訓練材料是由一個光圈獲取的一張照片的至少一部分，該光圈比用於獲取該聚焦堆疊中的任一圖像的一光圈更小。
如請求項1所述之使用焦點資訊的深度估計方法，其中，包含焦點資訊的該輸入圖像資料是獲取後重新對焦的多個照片。
如請求項4所述之使用焦點資訊的深度估計方法，其中，該基於焦點的訓練材料是從一光場相機獲取的一光圈縮小照片的至少一部分。
如請求項1所述之使用焦點資訊的深度估計方法，其中，該基於焦點的訓練材料是從一全焦點圖像生成器輸出的一地面實況全焦點圖像的至少一部分，其中該地面實況圖像的一銳度值大於該聚焦堆叠中的每個圖像的一銳度值。
如請求項1所述之使用焦點資訊的深度估計方法，其中，該人工智慧模型被共用用於深度估計和全焦點圖像重構任務，以及該使用焦點資訊的深度估計方法進一步包括藉由一第二歸一化函數將該中間注意力圖歸一化為一全焦點注意力圖，以及從該全焦點注意力圖和包含焦點資訊的該輸入圖像資料導出一預期全焦點圖像，其中該預期全焦點圖像的一像素由等式I _i,j,1=
表示，其中M ^AiF為全焦點深度注意力圖，以及S為該聚焦堆疊。
如請求項7所述之使用焦點資訊的深度估計方法，其中，該第一歸一化函數將該中間注意力圖歸一化為更平坦的一概率分佈，以及該第二歸一化函數將該中間注意力圖歸一化為更銳利的一概率分佈。
如請求項7所述之使用焦點資訊的深度估計方法，其中，該第一歸一化函數是一softplus歸一化函數，該第二歸一化函數是一softmax歸一化函數。
如請求項7所述之使用焦點資訊的深度估計方法，其中，在該深度估計任務被執行時，該人工智慧模型由一地面實況深度圖進行監督式訓練。
如請求項10所述之使用焦點資訊的深度估計方法，其中，該人工智慧模型藉由將該等預期深度值與該地面實況深度圖進行比較來訓練，該地面實況深度圖與包含焦點資訊的該輸入圖像資料相對應。
如請求項10所述之使用焦點資訊的深度估計方法，其中，在該全焦點圖像重構任務被執行時，該人工智慧模型由該地面實況全焦點圖像進行非監督式訓練。
如請求項12所述之使用焦點資訊的深度估計方法，其中，該人工智慧模型藉由比較該預期全焦點圖像和該地面實況全焦點圖像來訓練，該地面實況全焦點圖像與包含焦點資訊的該輸入圖像資料相對應。
如請求項7所述之使用焦點資訊的深度估計方法，其中，該人工智慧模型是由該地面實況全焦點圖像藉由最小化一總損失來訓練，該總損失結合一全焦點訓練損失和一平滑度損失，其中該全焦點訓練損失表示該預期全焦點圖像與對應的該地面實況全焦點圖像之間的差異。
如請求項1所述之使用焦點資訊的深度估計方法，其中，該等預期深度值從該深度注意力圖和包含焦點資訊的該輸入圖像資料的多個焦點位置導出。
如請求項1所述之使用焦點資訊的深度估計方法，其中，藉由獲取多個即時地面實況全焦點圖像以及藉由使用該等即時地面實況全焦點圖像來訓練該人工智慧模型來更新多個人工智慧模型參數，該人工智慧模型在設備上被訓練以適應一當前情況。
如請求項1所述之使用焦點資訊的深度估計方法，其中，該人工智慧模型的一基礎架構是由多個三維卷積組成的一編碼器-解碼器網路。
如請求項1所述之使用焦點資訊的深度估計方法，進一步包括在訓練該人工智慧模型之後修改預先存儲在用於該人工智慧模型的一寄存器或一記憶體中的至少一個值。
一種使用焦點資訊的深度估計裝置，用於圖像或視訊處理系統，該裝置包括一個或多個電子電路，被設置為：接收包含焦點資訊的輸入圖像資料；藉由一人工智慧模型從包含焦點資訊的該輸入圖像資料生成一中間注意力圖，其中該人工智慧模型由一個或多個基於焦點的訓練材料訓練；藉由一第一歸一化函數將該中間注意力圖歸一化為一深度注意力圖；以及從該深度注意力圖中導出包含焦點資訊的該輸入圖像資料的多個預期深度值，其中該輸入圖像資料中的一像素的該預期深度值根據等式D _i,j,1=
導出，其中M ^depth為該深度注意力圖，P(i,j,1,t)對應於一像素的一焦點位置，F為一焦點位置數量，i為該像素的一高度索引，j為該像素的一寬度索引，t為一焦點位置索引。