TW202247100A

TW202247100A - 針對可變焦攝影機的深度估計方法、電腦系統及電腦可讀取儲存媒體

Info

Publication number: TW202247100A
Application number: TW111118758A
Authority: TW
Inventors: 切盧索沙巴托; 里卡都奧利瓦葛西亞; 喬斯曼紐羅瑞蓋茲拉莫斯
Original assignee: 西班牙商沃普責任有限公司
Priority date: 2021-05-20
Filing date: 2022-05-19
Publication date: 2022-12-01
Also published as: AU2022203080A1; KR20220157329A; JP2022179397A; EP4092572A1; AU2022203080B2; CL2022001304A1; CN115375532A; JP7449977B2; CA3157444A1; US20220383525A1; TWI791405B

Abstract

本發明關於一種用於從攝影機於不同焦點位置拍攝的多張影像擷取深度資訊的方法，包括：根據攝影機不同焦點位置時間順序的預定焦點時程，攝影機拍攝場景一系列影像，有卷積神經網路的機器學習演算法擷取及儲存預定數目拍攝影像的影像特徵，在已從預定數目拍攝影像擷取及儲存影像特徵後，機器學習演算法處理影像特徵尚未擷取拍攝影像，拍攝影像表示當前處理影像，產生至少一多維張量表示與當前處理影像的影像特徵對齊的至少一些處理影像的影像特徵，使用前述焦點位置及前述多維張量來產生二維深度圖。

Description

針對可變焦攝影機的深度估計方法

本發明關於一種用於從攝影機於不同的多個焦點位置拍攝的多張影像擷取深度資訊的電腦執行方法、電腦系統以及電腦可讀儲存媒體用於儲存多個電腦可執行指令。

當從三維場景拍攝二維影像時，例如從真實物理三維空間中的場景拍攝影像，深度資訊於三維場景投射至二維影像時遺失。

恢復至少部分的此遺失空間深度資訊在電腦視覺或機器人視覺中是一個重要且具挑戰性的任務，特別是針對自主機器人系統，以例如能識別三維物體及/或辨識所拍攝二維影像中背景和前景特徵或物體之間。

現存技術需要專用複雜特定硬體的使用，例如立體攝影機及/或特定光學顯微透鏡陣列，及/或需要所拍攝影像的特定電腦資源密集處理，例如來自動作技術的結構及/或來自焦點技術的深度。

特別地，例如動作技術的結構及/或來自焦點技術的深度的現在技術在嘗試從動態場景擷取或恢復深度資訊時產生不好的結果，例如當嘗試從影像流擷取深度資訊，其中在拍攝場景中物體或特徵的動作於場景的影像流被擷取時發生。

本發明的目的進一步提供用於從真實三維場景藉由攝影機/影像拍攝裝置所拍攝的二維影像擷取/估計/恢復深度資訊的改善方法。特別地，舉例來說，本發明的目的為對來自場景的多張拍攝影像加速估計深度資訊的處理及改善估計深度資訊的精確度，特別是在來自動態場景的拍攝影像的狀況中。

根據本發明，前述目的透過根據獨立項之電腦執行方法、電腦系統以及電腦可讀儲存媒體達成。

有利實施例及進一步發展為附屬項的主要內容。

舉例來說，一種電腦執行方法用於從攝影機於不同的多個焦點位置拍攝的多張影像擷取深度資訊可包括下列步驟之一、部分或全部。

根據指明攝影機的焦點位置的時間順序的預定焦點時程，在不同的多個焦點位置藉由攝影機拍攝場景的一系列影像，

藉由包含或作為卷積神經網路的機器學習演算法，擷取預定數目的多張拍攝影像的多個影像特徵並儲存所擷取的前述影像特徵，

在已從所述預定數目的拍攝影像擷取及儲存影像特徵後，藉由機器學習演算法處理多個影像特徵尚未被擷取的拍攝影像，所述拍攝影像表示當前處理影像，

所述處理更包含對齊從前述先前拍攝影像所儲存的該些影像特徵與當前處理影像的影像特徵，以及

產生至少一多維張量，該至少一多維張量表示與當前處理影像的前述影像特徵對齊的至少一些處理影像（較佳為所有的處理影像）的前述影像特徵，

以及使用預定焦點時程所指明的前述焦點位置及產生的至少一多維張量來產生二維深度圖。

於此，至少一些處理影像所表達的可指稱已處理的（即影像特徵已被擷取及儲存）預定數目的多張拍攝影像的子集，或可指稱一組包含所有處理的預定數目的多張拍攝影像。再者，所有處理影像所表達的可指稱一組包含所有處理的預定數目的多張拍攝影像及當前處理影像。

舉例來說，若k是表示可包括當前處理影像之多張拍攝影像的預定數目的自然數，至少一些處理影像所表達的可指稱自然數s，其中s小於或等於k且其中s大於或等於2。較佳地，s能相等於k。

於此，場景能理解為真實物理三維空間中的場景。

於此，影像或畫面框能被理解為二維像素化數位影像或具有寬度維度和高度維度的畫面框。

於此，多個/該些影像或畫面框可為視訊流的多個影像或多個畫面框。

於此，多個影像特徵能尤其被理解為拍攝影像的多個物體或主體的多個特徵或特性，例如形狀、輪廓、拍攝影像的多個物體或多個主體的顏色。多個影像特徵也指稱描述物體或主體為聚焦或失焦的資訊，即多個影像特徵可包含聚焦/失焦資訊。

前述預定焦點時程可指明攝影機在多個特定時間的多個特定焦點拍攝影像的順序。換句話說，焦點時程能指明由攝影機使用的多個焦點位置的預定清單且也能指明當藉由攝影機拍攝場景的一系列影像時如何遍歷此清單。

前述預定焦點時程可包含多個焦點位置，所述多個焦點位置可以包含不同的多個焦點位置及/或相同焦點位置。換句話說，焦點時程可指明攝影機的相同焦點位置可在不同的多個時間點被使用來拍攝影像。

攝影機可接著按時間順序遍歷前述例示焦點時程以在定義的多個焦點位置拍攝多個影像。

於此，攝影機能被理解為能拍攝像素化二維數位影像的影像拍攝系統。此外，需理解的是前述例示性攝影機能拍攝影像流，例如影像視訊流。特別是，攝影機於此可被理解為光學攝影機。

例示的攝影機可為常見的數位攝影機，例如智慧型手機的攝影機。再者，攝影機能用於在不同的多個焦點位置拍攝影像，即經過預定焦點時程。

舉例來說，攝影機可包含光學元件（例如一片或多片鏡片）來控制在影像偵測平面（例如影像感測平面）上之取得光匯聚的位置，即攝影機可為可變焦攝影機。

上述的例示方法步驟可迭代地執行或在迴圈中執行直到所有拍攝影像或所需數目的拍攝影像已被處理。

用於從攝影機於不同的多個焦點位置拍攝的多張影像擷取深度資訊之前述及於此描述的例示方法能比當前最新技術的聚焦測距演算法更快更準確地從變焦拍攝的影像擷取深度資訊。

根據在此描述的方法步驟的加速來自不同位置聚焦的影像擷取深度資訊允許即時影像流的深度資訊擷取，即對於攝影機的使用者來說無顯著延遲。

舉例來說，在由攝影機拍攝視訊流的期間，深度資訊能同時從拍攝的視訊流的多個影像擷取。舉例來說，深度資訊能以每張影像小於18ms的速度擷取，從而允許例如在此描述的方法應用在每秒至少30幀或更高的畫面框率的視訊流上。

再者，舉例來說，可能的是在攝影機的使用者致力於拍攝場景的照片前，攝影機可根據預定焦點時程自動以變焦拍攝前述場景的多張照片來擷取場景的深度資訊，以優化使用者想要拍攝影像的焦點設定及/或產生使用者想要拍攝場景的全焦點（all-in-focus）影像。

在此描述的用於從多張影像擷取深度資訊的方法的改善效能尤其因為一事實，此事實為至少一些或全部先前拍攝影像或過去影像的資訊在處理當前影像或當前輸入影像時被儲存、重複使用及被納入考量，從而避免額外計算的需求。

此外，在此描述的用於從多張影像擷取深度資訊的方法不需任何複雜的數位運算而是例如依賴像能平行執行加法及乘法的基礎數學運算或計算，此理想地適合由圖像處理單元（graphical processor unit，GPU）執行，圖像處理單元能比一般中央處理單元（central processor unit，CPU）較快地執行如此平行基礎計算。

此外，在此描述的用於從多張影像擷取深度資訊的方法提供更穩固且更精確之來自場景影像的絕對深度資訊擷取，特別是在動態場景的情況下，即物體及/或主體的動作在拍攝多張影像時發生的場景。

在此描述的例示方法的改良穩固性及精確性尤其因為一事實，此事實為拍攝影像的處理僅在特徵階段被執行而非在整個影像或畫面框階段被執行。

在此描述的方法免除一般聚焦測距技術所需之直接互相定位（registering）影像/畫面框的需要，互相定位影像/影像畫面特別在場景的多個物體或主體在拍攝影像之間移動時造成問題且其中前述動作可能造成影像對齊的現有技術失效。

相較於現有技術，在此描述的方法允許在特徵階段上執行對齊，即對齊多個過去/先前拍攝的特徵，多個過去/先前拍攝的特徵來自具有多個影像特徵之多張過去/先前拍攝影像，多個影像特徵來自當前處理影像/當前處理輸入影像，從而提供拍攝影像之間的間接隱含定位/對齊。本方法因而能較佳地處理可能發生在拍攝影像之間的場景中及/或因攝影機動作造成多個動作，例如因攝影機支架晃動。

除了使用即為產生的二維深度圖之擷取的深度資訊來產生較佳聚焦影像，在此描述的方法步驟及手段也可應用在機器視覺和電腦的領域中。

舉例來說，在此描述的方法能被使用來改善機器人或車子（例如自主機器人或自動駕駛車）的視覺物體認知，特別是用於改善自主導航能力。

在此描述的方法能被使用來改善影像的分類（例如改善影像或物體偵測演算法的性能及準確率）及/或改善使用擷取的深度資訊之影像/視訊分析系統。

再者，擷取的深度資訊（即產生的二維深度圖）能被使用作為顯示器的輸入，特別是例如作為三維顯示器的輸入以產生在一/多張二維影像中拍攝場景的三維影像。

再者，在此描述的方法及在此描述包含卷積神經網路的機器學習演算法獨立於所使用攝影機的任何類型，即在此描述的方法在此描述包含卷積神經網路的機器學習演算法能用於與任何類型的影像及攝影機。無需特定攝影機硬體或鏡片。

卷積神經網路能用不同攝影機及多個焦點配置來訓練，從而允許所述方法更好地普及到未知場景/未知樣品。

在上述及在此描述例示方法步驟中，多個影像特徵能由卷積神經網路的多層擷取作為多個三維特徵張量，所述多個三維張量包含寬度維度W、高度維度H及通道維度C，其中前述通道維度C能描述從卷積神經網路的一層或多層的影像擷取的特徵圖的數目且其中多個擷取的影像特徵的儲存能包含儲存多個擷取的影像特徵作為三維特徵張量清單。

例示特徵張量（例如當前處理影像的特徵張量F）可因而為

的元件，即

，其中C、W及H指稱上述維度。

在此，從影像擷取的特徵圖能理解為二維表示，二維表示具有由卷積神經網路的一層或多層偵測/擷取的影像的特徵或態樣或屬性或特性的寬度維度W及高度維度H。特別地，特徵圖能理解為由卷積神經網路的一層或多層偵測或擷取的影像的特徵或態樣或屬性或特性所在位置的二維表示。

前述特徵圖的寬度維度及高度維度可相等或相異於（例如小於）從影像擷取的特徵圖的寬度維度及高度維度。

前述多個例示特徵圖能理解為/表示為前述例示三維特徵張量的片段（slices）。

於此，影像或影像特徵的關係（term）特徵可因此被理解為在不同維度空間（例如高於特徵被擷取的影像的維度空間的高維空間）中影像的表示或影像態樣的表示。

在此描述藉由包含卷積神經網路的機器學習演算法從影像擷取多個影像特徵能因而被理解為轉換影像為多個影像特徵。

當多個特徵張量能由卷積神經網路更容易處理時，表示多個擷取的影像特徵為多個張量促進多個擷取的影像特徵的計算程序。

藉由卷積神經網路的多個影像特徵擷取能由包含多層卷積層、多個批次正規化（batch normalization，BN）、整流線性激勵函數（rectified linear activation functions，ReLu）、例如上取樣（up-sampling，Up）的重新取樣、重塑或池化、串接（concatenation，Concat）以及省略（skip）運算的一系列來執行。

於此，批次正規化可指稱使用估計平均E（x）（即移動平均）、變異數Var（x）、比率參數以及位移參數的標準化運作，其中前述比率參數及前述位移參數可已在訓練期間由卷積神經網路學習。

因此，批次正規化能例如表示為：

（a）.

在此，整流線性激勵函數（ReLu）能被理解為指稱卷積神經網路的激勵函數，卷積神經網路的激勵函數設定負值為0及留下包括0的正值而不改變。

因此，整流線性激勵函數（ReLu）能例如表示為：

（b）.

在此，上取樣（Up，UP，Up-sample）運算可指稱增加影像或影像特徵或影像特徵張量或特徵圖的寬度維度及/或高度維度的運算，其中此增加運算基於/包含內插或外插原始影像或原始影像特徵張量或初始特徵圖的多個值以取得多個上取樣值。

在此，重塑運算可指稱修改張量的形狀（即維度）的運算，例如影像或影像特徵或特徵圖或影像特徵張量的形狀，並同時維持張量的元素總數目。舉例來說，當所有形狀含有相同元素（540）的總數目時，形狀[10,3,9,2]的張量能被重塑成[10,3,18]、[30,18]、[30,1,18]或[540]。

在此，池化運算（Pool、Pooling、Spatial Pyramid Pooling）可被理解為類似上取樣運算的運算但對影像或影像特徵或影像特徵張量或特徵圖的寬度維度及/或高度維度進行下取樣。舉例來說，池化運算可應用一種運算（例如最大值函數或平均函數）於像素的子集（例如影像或影像特徵或特徵圖或影像特徵張量的多個像素），其中此子集對應具有預定跨步（stride）的預定核（kernel）/過濾器的尺寸以產生像素。

舉例來說，具有核尺寸=2且跨步=2的最大池化運算將使用形狀[2,2]的像素子集對輸入（例如影像或影像特徵或影像特徵張量或特徵圖）下取樣為其一半，其中下取樣因素對應特定跨步。

選定的核及跨步尺寸僅為例示。例如經驗判定的其他核及跨步尺寸也可被選定。

在此，串接運算可指稱沿著特定維度合併兩個或兩個以上張量，例如多張影像或多個影像特徵或多個影像特徵張量或多個特徵圖。此運算可需要所有待合併/串接的張量在除了串接維度之外的所有維度中具有相同形狀。

舉例來說，沿著第一維度串接的形狀[10,3,9]的張量t1及形狀[4,3,9]的張量t2造成形狀[14,3,9]的張量。

在此，省略運算可指稱使用特定運算連接卷積神經網路的多層非連續層或多個非連續運算序列的運算，例如加法運算。

舉例來說，用x0作為輸入，讓x1為層1（layer 1）運算的輸出，例如x1=layer1（x0），用x1作為輸入，讓x2為層2（layer2）運算的輸出，例如x2=layer2（x1），其中層2和層1為連續，及用x2作為輸入，讓x3為層3（layer3）運算的輸出，例如x3=layer3（x2），其中層3和層2為連續。

接著例示省略運算可界定為x3+x1的相加，即跳過層2。

在此，卷積層（convolutional layer或convolution layer）可指稱對多張影像或多個影像特徵或多個影像特徵張量或多個特徵圖執行卷積運算。

卷積神經網路的前述可能例示多個運算或多層可沿著多維度/遍及多維度/在多維度中執行。運算的維度數可依卷積神經網路中發生運算的地方而定。

舉例來說，藉由卷積神經網路之多個影像特徵擷取可涉及對多張影像或多個影像特徵或多個影像特徵張量或多個特徵圖執行特定運算/動作的高度H維度及寬度W維度之多個運算或多層且擷取的多個影像特徵的進一步處理（例如多個影像特徵的對齊）可涉及在進一步維度作用的卷積神經網路的多個運算或多層，例如焦點位置維度。

用於擷取多個影像特徵的例示卷積神經網路架構的例示特定配置將進一步提供如下。

儲存自多張先前拍攝影像的多個影像特徵與儲存自當前處理影像的多個影像特徵的上述對齊能包含利用四維編碼於儲存自多張先前拍攝影像的多個影像特徵與儲存自當前處理影像的多個影像特徵，其中多個影像特徵表示為多個張量。

舉例來說，前述四維編碼能包含嵌入時間、空間及焦點位置資訊至來自多張先前拍攝影像的多個影像特徵與來自當前處理影像的多個影像特徵。

舉例來說，四維編碼 E可根據下列兩個方程式來組成：

	（1）
	（2）

其中，α為校正常數，α較佳為大於 C， C為通道的數目或通道維度尺寸， x 、 y為空間像素座標， t為時間，t即為多個影像特徵被擷取的拍攝影像的時間位置/及時點/時間戳/時間指數， t

，其中 K表示多張先前拍攝影像數目，例如多張拍攝影像的預定數目，

為待編碼的給定影像的焦點平面位置/焦點位置/焦點位置指數，及

為多個影像的總數，例如焦點時程中的多張影像數目或焦點時程中的多張影像數目和從焦點時程的多張影像取得的多張影像數目的總和，其中前述取得的多張影像可根據焦點時程透過內插或外插拍攝影像而取得，且

為使用於劃分多個通道數目為用於編碼的偶數及奇數通道的指數。

由例示編碼

所組成的前述例示編碼 E透過相加當前處理影像

的多個影像特徵/特徵張量和多張先前拍攝影像的多個影像特徵/特徵張量之每一個（即過去K張影像

的多個影像特徵/特徵張量之每一個）而實施以取得如下所示

及

：

	（3）
	（4）

其中

為通道指數及

表示過去K張影像/多張先前拍攝影像的多個影像特徵/特徵張量的編碼，即

表示過去K張影像/多張先前拍攝影像/多張儲存影像的指數。

上述例子描述例示四維編碼，例示四維編碼為非線性及以使用三角函數為基礎，且其中四維編碼透過相加當前處理影像的多個影像特徵及儲存自多張先前拍攝影像的多個影像特徵而實施。然而，其他四維編碼也可被使用。

為了對齊編碼特徵張量 EF及 EPF且為了產生表示所有對齊當前處理影像的多個影像特徵的先前處理影像（例如K張處理影像）的多個影像特徵之至少一個多維張量，下列例示步驟能被執行。

多個編碼特徵張量的相似運算能基於下列例示相似度分數由卷積神經網路來執行：

（5）

其中， EF’為已用卷積神經網路重塑 EF來取得的二維矩陣，且其中i、j表示矩陣元素，其中 EPF’為已用卷積神經網路重塑 EPF來取得的三維張量，且其中k、i’、j表示三維張量的元素，k為表示過去K張/先前拍攝/儲存影像的影像特徵張量的指數。在此，指數i及i’例如具有[0,（H*W）-1]的範圍且指數j可具有[0,C-1]的範圍，H、W為多個特徵張量的高度維度和寬度維度且C為多個通道的數目。

為了完整性及如前所指示，值得一提的是可能 EPF也包含從當前處理影像擷取的多個影像特徵，即 EPF可包含當前處理影像的特徵張量。然而，因為當前處理影像的特徵張量必須完全相似於本身，相似分數在 EPF中包括當前處理影像的特徵張量時將不被影響。

然而， EPF中所包括當前處理影像的特徵張量可尤其在確認卷積神經網路的穩固性及有效性為有用的，特別是在例如訓練卷積神經網路的期間。

因此，

能被理解為當前處理影像的多個影像特徵和過去K張影像之每一張的多個影像特徵之間的多個相似分數。

前述相似分數能根據下式被轉變為機率

（6）

其中

為具有下列特性的標準化相似分數：

（7）

前述多個例示標準化相似分數能接著與過去K張影像

的重塑後編碼特徵張量相乘以取得

：

（8）

能接著被重塑為

。接著，

能沿著第一維度被聚集以將對應相同焦點位置的多個特徵組成群組，因此取得

，

，其中K為過去K張影像/多張先前拍攝影像/多張儲存影像的總數目，其也可包括當前處理影像或者，K為過去K張影像/多張先前拍攝影像/多張儲存影像之所有焦點位置的數目，其也可包括當前處理影像的焦點位置，而N為總共K個焦點位置中多個獨特焦點位置的數目。

接者，資訊能例如透過簡化（reduction）總和運算來合併：

為表示對齊當前處理影像的多個影像特徵之所有處理影像的多個影像特徵的至少一個多維張量的例子，其中n為[0,N-1]範圍中的指數及m為[0,M-1]範圍中的指數，N為多個獨特焦點位置的數目及M為如上所述。

如前所指示，也可能為並非對齊多張先前拍攝影像之所有儲存的影像特徵或所有處理的影像特徵與當前處理影像的多個影像特徵，可理解的是僅對齊已處理之預定數目的多張拍攝影像/過去K張影像之部分的多個影像特徵和當前處理影像的多個影像特徵。換句話說，可能的是

可例如僅表示對齊於當前處理影像的多個影像特徵之多個先前處理影像特徵之部分，即上述驗證指數範圍僅為例示。

使用預定焦點時程所指明的多個焦點位置及至少一個產生的多維張量產生二維深度圖的步驟可進一步包含藉由機器學習演算法使用取得的至少一個多維張量

來產生至少一個多維焦點機率圖

及使用預定焦點時程所指明的多個焦點位置重新映射前述至少一個多維焦點機率圖至之真實物理距離。

前述多維焦點機率圖

能尤其例如藉由卷積神經網路經由下列步驟來取得：

若需要，選擇性地將

上取樣到處理的拍攝影像的初始空間解析度，

卷積以將多個通道數目減少為1，

以及用歸一化指數函式（softmax）運算的標準化以取得多維焦點機率圖。

在此，卷積神經網路的歸一化指數函式運算可例如界定為

with x

（9）

具有特性

及

。

前述取得的例示性至少一張多維焦點機率圖

為具有寬度維度W、高度維度H及焦點位置維度N的三維張量，前述焦點位置維度描述多個焦點位置的數目，例如焦點時程中不同的多個焦點位置或來自焦點時程及合成/取得的多張影像之合成/取得的多個焦點位置之不同的多個焦點位置，前述合成/取得的多張影像已透過內插或外插多張拍攝影像來取得。

在此，寬度維度及高度維度的尺寸能相等於輸入影像的寬度維度及高度維度的尺寸，其中前述輸入影像為預定數目的多張拍攝影像之一或當前影像或合成影像。

使用預定焦點時程所指明的多個焦點位置重新映射至少一個多維焦點機率圖

至真實物理距離可包含計算至少一個多維焦點機率圖的每一個像素和焦點時程中已知的多個焦點位置的內積，從而取得具有拍攝場景的絕對深度資訊之二維深度圖。

上述例示描述的步驟可針對不同多個影像特徵尺度來執行，即預定數目的多張拍攝影像之多個影像特徵擷取的步驟，且當前處理影像的多個影像特徵擷取可進一步包含藉由機器學習演算法在不同多個尺度下擷取多個影像特徵，其中所述多個尺度界定為輸入影像的高度的分數及/或輸入影像的寬度的分數，其中所述輸入影像為預定數目的多張拍攝影像之一或當前處理影像。

再者，從預定數目的多張拍攝影像擷取的多個影像特徵/多個特徵張量及從當前處理影像擷取的多個影像特徵/多個特徵張量儲存在循環緩衝器中的電腦可讀儲存媒體，例如循環緩衝器能至少持有來自預定數目的多張拍攝影像的多個影像特徵。

此允許高效率記憶體管理及多個影像流（例如來自視訊流）的高效率處理，同時避免記憶體溢流（overflow）。

在此，預定數目的多張拍攝影像能至少相等或大於焦點時程所指明之不同的多個焦點位置。

上述及在此例示描述的卷積神經網路能為已在訓練樣本上訓練的訓練後卷積神經網路，訓練樣本包含用於來自真實物理世界的不同的多個場景的不同的多個焦點位置所聚焦的多張影像，其中多個場景為靜態的或動態的，且其中卷積神經網路的多個參數已透過比較由卷積神經網產生的多個預估深度圖和使用損失函數所對應的已知實況深度圖（即多個絕對值為已知的多個深度圖）來優化。

其中損失函數為測量多個預估/預測深度圖和相對的多個預期已知實況深度圖的不同程度。卷積神經網路的訓練運行直到損失函數已達到理想的/明定的最小值及卷積神經網路的多個理想模型參數已被判斷。損失函數的最小化可透過例如梯度下降演算法的優化技術來達成。然而，例如模擬退火演算法、基因演算法或馬可夫鏈蒙地卡羅演算法之其他優化技術也可應用來最小化損失函數及從訓練判斷卷積神經網路的最佳模型參數，例如多層卷積層的多個最佳權重值、多個最佳尺度值或多個位移參數值。

上述及在此例示描述的方法及方法步驟可由電腦系統執行，電腦系統包含：電腦記憶體及例如為中央處理單元及/或圖像處理單元的一或多個處理器，其中電腦計憶體可以儲存多個指令，多個指令以指示一或多個處理器執行在此描述之用於從由攝影機於不同的多個焦點位置拍攝的多張影像擷取深度資訊的一種方法或多個方法步驟。

由於在此描述的多個方法步驟能允許能比已知聚焦測距演算法更快的多張影像的處理，即時多張影像和多個影像流的處理即使在例如為智慧型手機的可攜式裝置的多個處理器上能達成。

因此，前述電腦系統能為例如為智慧型手機的可攜式行動裝置，可攜式行動裝置包含攝影機，攝影機用於在不同多個焦點位置拍攝一場景的多張影像。

再者，多個電腦可執行指令在由電腦系統執行時能執行用於從由攝影機於不同的多個焦點位置拍攝的多張影像擷取深度資訊的一種方法且能儲存在例如為非揮發性電腦儲存媒體的電腦可讀取儲存媒體。

上述預定數目的多張拍攝影像可例如小於、等於或大於預定焦點時程中多個焦點位置的數目及/或可等於或大於預定焦點時程中不同的（即獨特的）多個焦點位置的數目。特別地，預定數目的多張拍攝影像可為預定焦點時程中的多個焦點位置的數目的自然數的倍數。

圖1例示繪示用於從多張影像擷取深度資訊的方法和功能的一般概要圖。

場景的影像流700被輸入/餵入至包含卷積神經網路的機器學習模型/機器學習演算法720，其中前述影像流700由攝影機根據焦點時程710中不同多個焦點位置以變焦方式拍攝影像。

包含卷積神經網路的機器學習演算法輸出場景的焦點機率圖730，場景的焦點機率圖730能使用焦點時程710的已知多個焦點位置來重新映射740至多個絕對距離以取得場景的二維深度圖750。

圖2a繪示例示性可能的卷積神經網路架構的例示部分，卷積神經網路架構的例示部分能被使用來從已藉由相機在不同多個焦點位置所拍攝的多張影像101擷取多個影像特徵，且輸出例示性多個擷取特徵或多個擷取張量115、116、117及118。

圖2a所示例示性可能卷積神經網路架構的例示部分能被理解為表示二維編碼器100，二維編碼器100編碼來自輸入影像101的多個特徵為在每個通道維度C具有寬度W及高度H的多個二維特徵圖。

所述不同多個影像特徵被擷取為包含寬度維度W、高度維度H、及通道維度C的多個三維特徵張量115、116、117及118，其中前述通道維度描述了藉由卷積神經網路所示部分的一或多層或一或多區塊102、103、104、106、107、108、109、110、111、112、113、114從影像擷取的多個特徵圖的數目。

在所示的例示狀況中，來自輸入影像101的多個特徵在不同的4個尺度中被擷取，例如不同多個空間尺寸及/或不同多個通道維度。

舉例來說，三維輸出特徵張量/擷取特徵張量115可為形狀（C=16，H/8，W/8）、特徵張量116可為形狀（C=16，H/16，W/16）、特徵張量117可為形狀（C=16，H/32，W/32）以及特徵張量118可為形狀（C=32，H/64，W/64），其中H及W為輸入影像101的高度維度尺寸及寬度維度尺寸。

值得一提的是，不同的多個尺度的選擇及數目僅為例示性且也能僅使用單一尺度。多個通道的數目也僅為例示性且可例如根據經驗地判斷/界定。

以下，多個二維運算或層或區塊（例如二維卷積區塊或二維殘餘卷積區塊或二維空間金字塔池化區塊或二維多尺度特徵聚合區塊）能被理解為對特徵張量的高度維度及寬度維度（例如特徵圖的高度維度及寬度維度）進行作動/運算。前述高度維度及寬度維度可在尺寸上相同或在尺寸上相異於輸入影像101的高度維度及寬度維度之尺寸。

在四個不同尺度下的多個特徵的例示擷取藉由包含二維卷積區塊102以及四個二維殘餘卷積區塊103、104、105以及106的序列來達成。前述例示二維殘餘卷積區塊103、104、105以及106之每一個包含多層二維卷積層（Conv）、批次正規化（BN）、多個整流線性激勵函數（ReLu）、總和（Sum）以及連接給定殘餘卷積區塊的輸入及輸出之間的省略（skip）連接之序列。二維殘餘卷積區塊的例示配置為在圖2c中被提供。

前述二維卷積區塊102可例如包含多層二維卷積層（Conv）、批次正規化（BN）、多個整流線性激勵函數（ReLu）以及池化層（pool）的序列。二維卷積區塊的例示配置在圖2b中被提供。

在最後殘餘卷積區塊106被應用後，二維空間金字塔池化區塊107被應用。如此的二維空間金字塔池化區塊的例示配置在圖2e中被提供。

二維空間金字塔池化區塊107的輸出接著透過使用二維多尺度特徵聚合區塊108、109及110依序與來自前三個的二維殘餘卷積區塊103、104及105的多個中間輸出合併。

二維多尺度特徵聚合區塊的例示配置在圖2d中被提供。

作為最後步驟，針對每一個尺度，二維卷積層（Conv）111a、112a、113a、114a、批次正規化（BN）111b、112b、113b、114b、整流線性激勵函數（ReLu）111c、112c、113c、114c的序列111、112、113、114能針對例示四個特徵尺度被應用來取得多個擷取特徵/特徵張量115、116、117、118。

圖2b繪示圖2a的二維卷積區塊102的可能例示配置，二維卷積區塊102的可能例示配置包含三個序列119、120、121，其中每一個序列包含二維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算。在最後的序列121後，池化層（Pool）被應用來取得二維卷積區塊102的輸出。

圖2c例示性繪示圖2a的二維殘餘卷積區塊103、104、105、106的可能例示配置包含兩個支線128、129。

例示性支線128第一序列123及第二序列124，第一序列123包含二維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算，第二序列124包含批次正規化（BN）以及整流線性激勵函數（ReLu）運算。

例示性支線129僅包含二維卷積層（Conv）及批次正規化（BN）運算的單一序列。

前述例示性兩個支線的輸出使用總和（Sum）運算125合併且在最後整流線性激勵函數（ReLu）運算126之後取得二維殘餘卷積區塊的輸出。

圖2d例示性繪示圖2a的二維多尺度特徵聚合區塊108、109、110的可能例示配置。

前述例示性二維多尺度特徵聚合區塊能包含上取樣運算（UP）130、隨後之包含二維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算的序列131、隨後之串接（Concat）運算132以及包含二維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算的最後序列133。

圖2e例示性繪示圖2a的二維空間金字塔池化區塊107的可能例示配置。例示性二維空間金字塔池化區塊的輸入被導向為五個支線134、135、136、137及138，其中四個平行支線134、135、136、137之每一個包含池化層（Pool）、卷積層（Conv）以及上取樣運算（Up-sample）的序列，前述四個平行支線134、135、136、137的輸出接著與第五支線138合併，第五支線138透過總和（Sum）對應二維空間金字塔池化區塊的輸入以產生二維空間金字塔池化區塊的輸出，即支線138省略四個個平行支線134、135、136、137的運算。

圖3a繪示例示性可能卷積神經網路架構的例示部分，例示性可能卷積神經網路架構的例示部分接在圖2a所示例示性編碼器100的輸出115、116、117、118之後，即多個擷取特徵/特徵張量115、116、117、118變為圖3a所示例示性三維解碼器200的多個輸入。

舉例來說，例示形狀（C=16，H/8，W/8）的三維輸出特徵張量/擷取特徵張量115可變為輸入204、形狀（C=16，H/16，W/16）的特徵張量116可變為輸入203、形狀（C=16，H/32，W/32）的特徵張量117可變為輸入202以及形狀（C=32，H/64，W/64）的特徵張量118可變為解碼器200的輸入201。

例示解碼器200沿著其他三維中間機率圖280、290、300輸出最後三維焦點機率圖310，所有三維中間機率圖280、290、300具有形狀（N，H，W），其中N例如為焦點時程中不同多個焦點位置的數目，H和W對應圖2a的輸入影像101的高度尺寸及寬度尺寸。

然而，可理解的是在此N也標示焦點時程中未明定但已被卷積神經網路合成的額外多個焦點位置。如此多個合成/產生焦點位置可被使用來進一步取得額外多個焦點機率圖並因而增加可取得的深度解析度。

輸入特徵/特徵張量201、202、203、204的每一個首先穿越專用記憶體區塊240、250、260、270，多張先前處理影像及多張過去影像/先前拍攝影像之所儲存的多個特徵是從專用記憶體區塊240、250、260、270取出並與當前處理影像（例如輸入影像101）的多個影像特徵對齊並造成形狀（C，N，H，W）的多維張量，其中C為多個特徵圖的通道數目、N為焦點時程中不同多個焦點距離的數目以及H和W指稱多個擷取特徵的空間解析度，即多個特徵圖的高度維度及寬度維度。前述多維特徵張量表示從與當前處理影像擷取得多個影像特徵對齊的多張當前處理影像擷取多個影像特徵的給定尺度。

記憶體區塊的例子在圖4a中被出示。

以下，多個三維運算或層或區塊（例如三維殘餘卷積區塊或三維空間金字塔池化區塊或三維多尺度特徵聚合區塊）能被理解為在特徵張量的高度維度及寬度維度（例如特徵圖的高度維度及寬度維度）進行作動/運算以及對焦點位置維度進行作動/運算。前述高度維度及寬度維度的尺寸可相等於或相異於輸入影像101之高度維度及寬度維度的尺寸。

在穿越記憶體區塊240、250、260、270後，一個或多個三維殘餘卷積區塊320、350、380、410能被應用。在圖3a中，僅一個三維殘餘卷積區塊在給定特徵尺度中被出示，但其可以大於一個，例如五個。

三維殘餘卷積區塊的例子在圖3b中被出示。

殘餘卷積區塊320、350、380、410之每個之後接著三維空間金字塔池化區塊330、360、390、420。

三維空間金字塔池化區塊在圖3d中被出示。

三維空間金字塔池化區塊330、360、390的多個輸出例示性接在兩個支線支後：

其中上取樣（Up）發生在輸入影像101的尺寸/原始空間解析度的一個支線430、440、450隨後接著卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）的序列、進一步的卷積層（Conv）、進一步的批次正規化（BN）運算以減少多個通道數目為一個以及最後歸一化指數函式以取得中間焦點機率圖280、290、300。

其他支線431、441、451包含三維多尺度特徵聚合區塊340、370、400，三維多尺度特徵聚合區塊340、370、400合併多個三維空間金字塔池化區塊的多個輸出和記憶體區塊250、260、270的多個輸出。具體而言，所示例示架構中，記憶體區塊250的輸出與三維空間金字塔池化區塊330的輸出合併、記憶體區塊260的輸出與三維空間金字塔池化區塊360的輸出合併以及記憶體區塊270的輸出與三維空間金字塔池化區塊390的輸出合併。

三維多尺度特徵聚合區塊的例子在圖3c中被出示。

在所有尺度的多個特徵被聚合後且經過最後三維殘餘卷積區塊410及最後三維空間金字塔池化區塊360後，最後焦點機率圖310能透過應用包含卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）、進一步的卷積層（Conv）、進一步的批次正規化（BN）運算以及最後歸一化指數函式運算的最後序列460而取得。

使用由卷積神經網路所輸出的最後焦點機率圖（

）310，能透過

取得二維深度圖

，其中i和j為高度維度及寬度維度的自然數指數而

為多個獨特焦點位置，多個獨特焦點位置可包含焦點時程的多個獨特焦點位置及可已由卷積神經網路合成/產生的任何可能進一步的焦點位置，及n為自然數指數。

圖3b繪示三維殘餘卷積區塊320、350、380、410的例示配置，三維殘餘卷積區塊320、350、380、410的例示配置可使用在例示性卷積神經網路架構的圖3a之例示性三維解碼器200中。

三維殘餘卷積區塊能包括兩個支線501、502。

例示支線501包含第一序列503及第二序列504，第一序列503包含卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算，第二序列504包含批次正規化（BN）以及整流線性激勵函數（ReLu）運算。

例示性支線502僅包含三維卷積層（Conv）、批次正規化（BN）運算的單一序列。

前述兩個例示支線的輸出使用總和（Sum）運算506來合併且在最後整流線性激勵函數（ReLu）運算507後取得三維殘餘卷積區塊的輸出。

圖3c繪示圖3a之三維多尺度特徵聚合區塊340、370、400的可能例示配置。

前述例示三維多尺度特徵聚合區塊能包含上取樣運算（UP）508、隨後之包含三維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算的序列509、隨後之串接（Concat）運算510以及包含三維卷積層（Conv）、批次正規化（BN）以及整流線性激勵函數（ReLu）運算的最後序列511。

可理解的是先前提及的多個可能合成焦點位置可以在三維多尺度特徵聚合區塊內被產生。舉例來說，多個合成焦點位置可在串接（Concat）運算510前使用三維上取樣運算來產生。

圖3d繪示圖3a之三維空間金字塔池化區塊330、360、390、420的可能例示配置。

三維空間金字塔池化區塊的輸入涉及五個支線512、513、514、515及516，其中四個平行支線512、513、514、515之每一個包含池化層（Pool）、卷積層（Conv）以及上取樣運算（Up-sample）的序列，前述四個平行支線512、513、514、515的輸出接著與第五支線516合併，第五支線516透過總和（Sum）517對應三維空間金字塔池化區塊的輸入以產生三維空間金字塔池化區塊的輸出，即支線516省略四個平行支線512、513、514、515的運算。

圖4a繪示圖3a的解碼器200的記憶體區塊240、250、260、270的可能例示配置。

此可包含表示為儲存池4010的記憶體，其中已從預定數目K的先前拍攝/先前處理影像擷取的多個影像特徵/特徵張量能被儲存。

過去影像特徵儲存池4010能例如儲存最後K張影像的每一個的多個特徵/特徵張量，多個特徵/特徵張量藉由圖2a所示的二維編碼器從多張拍攝影像擷取，舉例來說，K為多個焦點位置的數目N的自然數的倍數。

當前處理影像之給定尺度為形狀（C,H,W）的特徵張量的多個影像特徵4000能被儲存在儲存池4010中，其中C為通道維度、H為高度維度及W為寬度維度。

記憶體區塊能進一步包含特徵對齊區塊4020，特徵對齊區塊4020能將儲存在儲存池4010中的多個特徵/特徵張量（例如從前述K張先前拍攝/先前處理影像擷取的多個特徵/特徵張量）和從當前處理影像擷取的多個特徵/特徵張量作為輸入並輸出形狀（C，N，H，W）的四維張量4020，形狀（C，N，H，W）表示與最後焦點位置依據時間順序對齊的每個焦點位置/每個焦點平面的多個影像特徵，最後焦點位置即當前處理影像的焦點位置。

在此，C再次指稱當前處理影像/影像特徵/影像特徵張量/特徵圖的通道維度，N指稱當前處理影像/影像特徵/影像特徵張量/特徵圖的焦點位置維度，H指稱當前處理影像/影像特徵/影像特徵張量/特徵圖的高度維度，W指稱當前處理影像/影像特徵/影像特徵張量/特徵圖的寬度維度。

圖4b繪示前述例示特徵對齊區塊4020配置的例示概要圖。

例示特徵對齊區塊4020具有兩個輸入，來自當前處理影像的多個三維影像特徵/三維特徵張量4040及四維張量4050，四維張量4050表示從已被儲存在過去影像特徵儲存池中（例如在過去影像特徵儲存池4010中）的預定數目K的先前拍攝/先前處理影像擷取的多個影像特徵。

例示特徵對齊區塊4020進一步包含至少一個特徵對齊頭4060及特徵組合運算器4070（例如總和運算器）來產生多維特徵張量作為輸出，多維特徵張量表示與當前處理影像的多個影像特徵對齊的所有處理影像的多個影像特徵，即形狀（C，N，H，W）的四維張量4030、4080表示與最後焦點位置依據時間順序對齊的每個焦點位置/每個焦點平面的多個影像特徵，最後焦點位置即當前處理影像的焦點位置。

特徵對齊頭4060劃分上述多個輸入為不同解析度的多個拼貼（patches），即與多個輸入特徵相比下在高度 h _p 和寬度 w _p 具有不同尺寸的多個拼貼，解析度的範圍例如從尺寸1x1（意謂多個輸入特徵維持不變）的多個拼貼至尺寸HxW（意謂整個輸入特徵將作為一個拼貼）的多個拼貼。

圖4c繪示例示特徵對齊頭的例示配置，例如來自特徵對齊區塊4020的特徵對齊頭能使用在圖3a所示的卷積神經網路架構的例示解碼器200。

多個當前影像特徵/特徵張量4090的輸入（即從當前處理影像擷取的多個影像特徵輸入）透過支線4091被餵入（第一）四維編碼區塊4110，四維編碼區塊4110嵌入如先前指示及如下進一步再詳述之時間空間焦點位置資訊至從當前處理影像擷取的多個影像特徵4090。

多個影像特徵4100、從多張先前拍攝影像擷取的多個影像特徵（例如從預定數目K的先前拍攝/先前處理影像擷取的多個影像特徵）的輸入透過4101被餵入個別的（第二）四維編碼區塊4190，四維編碼區塊4190嵌入時間空間焦點位置資訊至從先前拍攝影像擷取的多個影像特徵。

舉例來說，如先前指示的，四維編碼 E可根據下列兩個方程式而組成：

	（10）
	（11）

為待編碼的給定影像的焦點平面位置/焦點位置/焦點位置指數及

為多個影像的總數，例如焦點時程中的多張影像數目或焦點時程中的多張影像數目和從焦點時程的多張影像取得的多張影像數目的總和，其中前述取得的多張影像可根據焦點時程透過內插或外插影像而取得，且

由例示編碼

所組成的前述例示編碼E能考量特定拼貼寬度 w _p 及特定拼貼高度 h _p 的解析度，即

。

前述例示編碼可以透過相加當前處理影像

的多個影像特徵/特徵張量4090和多張先前拍攝影像的多個影像特徵/特徵張量4100之每一個（即過去K張影像

的多個影像特徵/特徵張量之每一個）而應用，以取得如下所示

及

。

四維編碼區塊4110能透過下式取得

（12）

且四維編碼區塊4190能透過下式取得

（13）

其中

表示來自過去/先前拍攝K張影像的多個影像特徵/特徵張量的多個編碼。

在四維編碼區塊4110的多個當前影像特徵的四維編碼後，具有批次正規化（BN）的二維卷積層（Conv）的序列4121被應用在 EF以沿著四維編碼區塊4110的輸出支線4120取得

。

相似地，在四維編碼區塊4190對多個過去影像特徵進行的四維編碼後，具有批次正規化（BN）及二維卷積層（Conv）的序列4131被應用在 EPF以沿著四維編碼區塊4190的輸出支線4130取得

。

在此，上標 query及 key僅作為多個取得系統的概念的例示性參考，如下文將進一步說明。

來自前述輸出支線4120及4130的輸出作為輸入被餵入至拼貼狀相似區塊4150。

此區塊4150首先重塑三維張量

為二維矩陣

且重塑四維張量

為

。

然後，重塑後的

和

的K個特徵張量的每一個之間的相似度被計算。此相似度運算能例如由拼貼狀相似區塊4150計算，其中

及

如下：

（14）

其中

作為當前處理影像的多個影像特徵和過去K張影像/多張先前拍攝影像之每一個的多個影像特徵之間多個相似分數。

特別地，

能被理解為當前處理影像之特徵張量的i拼貼和過去K張影像/多張先前拍攝影像的j拼貼的相似程度。

可具有[（H*W）/（w _p*h _p）,w _p*h _p*C]的形狀，w _p和h _p分別作為拼貼寬度及拼貼高度。例如假設[1,1]的拼貼尺寸，形狀將為[H*W,C]。因此，指數i及指數i‘將具有範圍[0,（H*W）-1]及指數j具有範圍[0,C-1]。

然後，相似分數透過拼貼狀相似區塊4150轉變為多個機率：

（15）

其中

為具有下列特性的標準化相似分數：

.

在第二四維編碼區塊4190處理從儲存在多張先前拍攝影像（例如從儲存在預定數目的拍攝影像（例如過去K張影像）擷取的多個影像特徵）擷取的多個影像特徵後，接著第一四維編碼區塊4110處理從當前處理影像擷取的多個影像特徵及從（第一、上部）支線4130接收的多個影像特徵，接著處理從支線4120接收的多個輸入後，所述標準化相似分數

係/表示為拼貼狀相似區塊4150的輸出4151。

為了完整性，值得一提的是在此描述的相似分數僅為例示且其他相似函式也能被使用來藉由先前處理及所儲存的多個影像特徵取得當前處理影像特徵的相似度測量。並非上述例示的歐式相似度，而是可應用例如餘弦相似度或使用矩陣乘法或能比較兩個樣品任何其他函式的相似度運算的其他相似函式。

第二四維編碼區塊4190的其他支線（第二，下部）支線4140包含第一序列4141及批次正規化（BN），第一序列4141包含二維卷積層（Conv）運算，批次正規化（BN）運算將

作為輸出，

接著透過重塑運算/層（Reshape）4142被重塑為

。

前述支線4140進一步包含矩陣乘法運算/層4143（Matmul），其中來自拼貼狀相似區塊4150的標準化相似分數

與

相乘以取得

：

（16）

接著進一步被重塑為

，其中H及W對應輸入影像101（即當前處理影像）的高度維度尺寸及寬度維度尺寸。

在此，上標 v 、 v’僅作為區分來自支線4140的

及

和來自支線4130的

和來自支線4120的

。

此重塑可為矩陣乘法運算/層4143（Matmul）的部分或可在進一步的個別重塑運算/層（未繪示）中執行。

然後，

透過區塊/運算/層4160沿著第一維度K被分組以對對應相同聚焦位置的多個特徵進行分組，從而取得

，

。

接著經過前述分組後，來自多個擷取特徵的所有資訊透過簡化總和運算/層4170（Reduce sum）來合併

（17）

為表示所有處理影像的多個影像特徵（即與當前處理影像的多個影像特徵對齊的所有處理焦點位置的多個影像特徵）之至少一個多維張量的例子。如前所指示，也可能的是產生多維張量並非表示所有處理影像的所有影像特徵而至少表示與當前處理影像的多個影像特徵對齊的多張處理影像/先前拍攝影像/過去影像的至少部分的多個影像特徵。

在此描述例示多個記憶體區塊及多個特徵對齊頭能被理解為形成取得系統的資料結構模型，資料結構模型中的多個影像特徵能被儲存在能被查詢（query）的鍵值對結構以對齊先前處理及儲存的多個影像特徵和當前處理影像的多個影像特徵。

舉例來說，在沿著下部支線4140應用包含二維卷積層（Conv）的序列4141和批次正規化（BN）後，前述鍵值對結構的值能被理解為先前處理及儲存的多個影像之多個影像特徵的四維張量

的內容/所表示的（即

的內容/所表示的），且在沿著接在四維位置編碼區塊4190後的上部支線4130應用包含二維卷積層（Conv）的序列4131和批次正規化（BN）後，鍵能被理解為先前處理及儲存的多個影像之多個影像特徵的四維張量

。

查詢能被理解為三維張量

的鍵，即處理來自當前處理影像的多個影像特徵之四維編碼區塊4110的沿著輸出支線4120之

的內容/所表示的。

換句話說，四維張量

表示映射到

查詢之取得系統中一組鍵以取得與查詢最佳匹配的這組鍵的特定值或內容或鍵。

為了完整性，值得一提的是應用在支線4130及4140的多層卷積層的多個權重可不同。前述權重可尤其例如在卷積網路訓練期間已被得知/優化。

圖5繪示一種用於攝影機於不同的多個焦點位置拍攝多張影像擷取深度資訊的方法的例示流程圖，此方法能包含下列多個步驟之一、部分或全部。

在801，根據指明攝影機的多個焦點位置的時間順序的預定焦點時程，在不同的多個焦點位置藉由攝影機拍攝場景的系列影像，其中前述焦點時程可包含多個獨特及/或非獨特（例如複製的）焦點位置的任意組合。

在802，藉由包含卷積神經網路的機器學習演算法，擷取預定數目的多張拍攝影像的多個影像特徵並儲存前述所擷取的多個影像特徵，前述卷積神經網路例如包含圖2a、圖2b、圖2c、圖2d、圖2e、圖3a、圖3b、圖3c、圖3d、圖4a、圖4b、圖4c中所描述的例示配置，及前述儲存可包含例如儲存前述多個特徵在記憶體區塊240、250、260、270內（例如在特徵儲存池4010中）。

在803，在已從前述預定數目的多張拍攝影像擷取及儲存多個影像特徵後，藉由機器學習演算法執行多個影像特徵尚未被擷取的拍攝影像的處理，前述拍攝影像表示當前處理影像，例如輸入影像101。

前述處理包含藉由機器學習演算法從當前處理影像擷取多個影像特徵並儲存所擷取的多個影像特徵。

前述處理更包含對從多個先前拍攝影像所儲存的多個影像特徵與該當前處理影像的多個影像特徵進行對齊，其中前述對齊例如透過圖3a、圖4a、圖4b、圖4c中例示描述的記憶體區塊的特徵對齊頭所執行。

在806，前述處理更包含產生至少一個多維張量，至少一多維張量表示與當前處理影像的多個影像特徵對齊的所有處理影像的多個影像特徵，例如如上所述的張量

。

使用預定焦點時程所指明的多個焦點位置及產生的至少一個多維張量來產生二維深度圖。

圖6針對包含如上述例示卷積神經網路的架構的機器學習演算法630繪示可能訓練方案的示意實例。

在此包含針對真實物理世界的多個不同場景根據焦點時程620在不同多個焦點位置聚焦之多張拍攝影像/一系列拍攝影像600訓練樣品能根據先前描述的多個步驟被處理，以在預定數目的多張拍攝影像已被處理後針對每一張影像取得一系列焦點機率圖640。

多張拍攝影像可已由相同攝影機或不同攝影機拍攝。換句話說，在此描述的方法獨立於攝影機類型，即並未限制特定類型攝影機的使用。

訓練樣品的多張影像在序列600中拍攝的多個場景能為靜態或動態，即影像之間能有移動，移動例如因多個物體或主體在場景中的移動及/或因攝影機的移動（例如振動是因使用者的手持有攝影機或攝影機改變位置）所造成。

取得的多個焦點機率圖使用來自已知焦點時程620的多個焦點位置重新映射670至多個真實距離。

此結果為一系列預測/估計深度圖，一系列預測/估計深度圖接著與一系列實況深度圖610（例如多個已知/預期深度圖）被使用為損失函數660的多個輸入。

損失函數為多個預估/預測深度圖和相對的多個預期已知實況深度圖的不同程度的量測。

包含卷積神經網路之機器學習演算法630的訓練運行直到損失函數已達到理想的/明定的最小值及卷積神經網路的多個理想模型參數已被判斷

損失函數的最小化可透過例如梯度下降演算法的優化技術來達成。

然而，例如模擬退火演算法、基因演算法或馬可夫鏈蒙地卡羅演算法之其他優化技術也可應用來最小化損失函數及從訓練判斷機器學習演算法/卷積神經網路的最佳模型參數

為了進一步優化訓練，目視提示能使用來較佳地取得語義正確深度圖。舉例來說，卷積神經網路能被訓練來辨認當物體遮蔽另一物體時，遮蔽物體相對於被遮蔽物體較靠近攝影機。

根據圖1、圖2a、圖2b、圖2c、圖2d、圖2e、圖3a、圖3b、圖3c、圖3d、圖4a、圖4b、圖4c、圖5及圖6，其中參考符號標示下列例示部件及例示步驟。 100:二維編碼器 101:輸入影像 102:二維卷積區塊 103~106:二維殘餘卷積區塊 107:二維空間金字塔池化區塊 108~110:二維多尺度特徵聚合區塊 111~114,119~121,127,131,133,505,4121,4131,4141:序列 111a,112a,113a,114a:二維卷積層 111b,112b,113b,114b:批次正規化 111c,112c,113c,114c:整流線性激勵函數 115~118:三維特徵張量 122:池化層 123,503:第一序列 124,504:第二序列 125:總和運算 126:整流線性激勵函數運算 128,129,134~138,430,431,441,451,440,450,460,501,502,509,511,512~516,4091,4101,4120,4130,4140:支線 130:上取樣運算 132,510:串接運算 139,506,517:總和運算 201~204:特徵張量 240,250,260,270:記憶體區塊 280,290,300,310:三維中間機率圖 320,350,380,410:三維殘餘卷積區塊 330,360,390,420:三維空間金字塔池化區塊 340,370,400:三維多尺度特徵聚合區塊 507:整流線性激勵函數運算 508:上取樣運算 600:一系列拍攝影像 610:一系列實況深度圖 620:焦點時程 630:機器學習演算法 640:一系列焦點機率圖 660:損失函數 670,740:重新映射 700:影像流 710:焦點時程 720:機器學習演算法 730:焦點機率圖 750:深度圖 801~807:步驟 4000,4040,4090:當前處理影像的影像特徵 4010:儲存池 4020:特徵對齊區塊 4030,4050,4080:四維張量 4060:特徵對齊頭 4070:特徵組合運算器 4100,4180:影像特徵 4110,4190:四維編碼區塊 4142:重塑運算 4143:矩陣乘法運算 4150:塊狀相似區塊 4151:輸出 4160,4170:層 BN:批量標準化 Conv:二維卷積層 Concat:串接 Pool:池化運算 ReLu:整流線性激勵函數 Reshape:重塑 Up:上取樣 Sum:總和

下圖例示性說明：圖1：用於擷取深度資訊的方法及手段的例示性示意圖。圖2a：卷積神經網路的例示性二維編碼器。圖2b：例示性二維卷積區塊。圖2c：例示性二維殘餘卷積區塊。圖2d：例示性二維多尺度特徵聚合區塊。圖2e：例示性二維空間金字塔池化（pyramid pooling）區塊。圖3a：卷積神經網路的例示性三維解碼器。圖3b：例示性三維殘餘卷積區塊。圖3c：例示性三維多尺度特徵聚合區塊。圖3d：例示性三維空間金字塔池化區塊。圖4a：例示性記憶體區塊。圖4b：例示性特徵對齊區塊。圖4c：例示性特徵對齊頭（head）。圖5：擷取深度資訊方法的例示性流程圖。圖6：機器學習演算法的訓練概述的例示性示意圖。

801~807:步驟

Claims

一種電腦執行方法（800），用於從由一攝影機於不同的多個焦點位置拍攝多張影像擷取一深度資訊，該電腦執行方法包含：（801）根據指明該攝影機的該些焦點位置的一時間順序的一預定焦點時程，在不同的該些焦點位置藉由該攝影機拍攝一場景的一系列影像；（802）藉由包含一卷積神經網路的一機器學習演算法，擷取一預定數目的多張拍攝影像的多個影像特徵並儲存所擷取的該些影像特徵；（803）在已從該預定數目的該些拍攝影像擷取及儲存該些影像特徵後，藉由該機器學習演算法執行多個影像特徵尚未被擷取的一拍攝影像的一處理，該拍攝影像表示一當前處理影像；該處理包含（804）藉由該機器學習演算法從該當前處理影像擷取該些影像特徵並儲存所擷取的該些影像特徵；該處理更包含（805）從先前該些拍攝影像所儲存的多個影像特徵與該當前處理影像的該些影像特徵的一對齊；以及（806）產生至少一多維張量，該至少一多維張量表示與該當前處理影像的該些影像特徵對齊的至少一些處理影像的該些影像特徵；（807）使用該預定焦點時程所指明的該些焦點位置及產生的該至少一多維張量來產生一二維深度圖。
如請求項1所述之電腦執行方法，其中該至少一些處理影像的該些影像特徵被擷取為多個三維特徵張量，該些三維特徵張量包含一寬度維度、一高度維度以及一通道維度，其中該通道維度描述藉由該卷積神經網路的一層或多層從一影像擷取的多個特徵圖的數目，且其中儲存作為該些三維特徵張量的所擷取的該些影像特徵包含儲存所擷取的該些影像特徵為一三維特徵張量清單。
如請求項1所述之方法，其中從先前該些拍攝影像所儲存的該些影像特徵與該當前處理影像的該些影像特徵的該對齊包含實施一四維編碼於從先前該些拍攝影像所儲存的該些影像特徵及來自該當前處理影像的該些影像特徵，該四維編碼包含將一時間資訊、一空間資訊及一焦點位置資訊嵌入至來自先前該些拍攝影像的該些影像特徵及嵌入至來自該當前處理影像的該些影像特徵。
如請求項3所述之方法，其中該四維編碼為非線性及/或其中該四維編碼透過相加來自該當前處理影像的該些影像特徵及從先前該些拍攝影像所儲存的該些影像特徵之每一個來實施。
如請求項4所述之方法，其中該四維編碼以使用三角函數為基礎。
如請求項1所述之方法，其中使用該預定焦點時程所指明的該些焦點位置及產生的該至少一多維張量來產生該二維深度圖的步驟包含藉由該機器學習演算法產生至少一多維焦點機率圖，並使用該預定焦點時程所指明的該些焦點位置重新映射該至少一多維焦點機率圖至真實物理距離。
如請求項6所述之方法，其中該至少一多維焦點機率圖為一三維張量，該三維張量具有一寬度維度、一高度維度以及一焦點位置維度，該焦點位置維度描述該些焦點位置的數目，且其中該寬度維度及該高度維度的尺寸相等於一輸入影像的一寬度維度及一高度維度的尺寸，其中該輸入影像為該預定數目的該些拍攝影像之一影像或該當前處理影像。
如請求項7所述之方法，其中使用該預定焦點時程所指明的該些焦點位置重新映射該至少一多維焦點機率圖至真實物理距離包含計算該至少一多維焦點機率圖的每一像素和該預定焦點時程中的該些焦點位置的一內積。
如請求項6所述之方法，其中產生的該至少一多維張量表示與該當前處理影像的該些影像特徵對齊的所有該些處理影像的該些影像特徵為一四維張量，該四維張量包含一寬度維度、一高度維度及一通道維度以及一焦點位置維度，其中該通道維度描述藉由該卷積神經網路的一層或多層從該些處理影像擷取的多個特徵圖的數目，該焦點位置維度描述該些焦點位置的數目。
如請求項1所述之方法，其中擷取該預定數目的該些拍攝影像的該些影像特徵及擷取該當前處理影像的該些影像特徵更包含藉由該機器學習演算法在不同的多個尺度擷取該預定數目的該些拍攝影像的該些影像特徵及該當前處理影像的該些影像特徵，其中該些尺度界定為一輸入影像的一高度的一分數及/或一輸入影像的一寬度的一分數，其中該輸入影像為該預定數目的該些拍攝影像之一影像或該當前處理影像。
如請求項1所述之方法，其中從該預定數目的該些拍攝影像所擷取的該些影像特徵及從該當前處理影像所擷取的該些影像特徵儲存在一循環緩衝器中的一電腦可讀儲存媒體。
如請求項11述之方法，其中該循環緩衝器能至少持有來自該預定數目的該些拍攝影像的該些影像特徵，及/或其中該些拍攝影像的該預定數目至少相等於或大於由該預定焦點時程所指明之不同的該些焦點位置的數目。
如請求項1所述之方法，其中該卷積神經網路為已在一訓練樣本上訓練的一訓練後卷積神經網路，該訓練樣本包含用於不同的多個場景的不同的多個焦點位置所聚焦的多張影像，其中該些場景為靜態的或動態的，且其中該卷積神經網路的多個參數透過比較由該卷積神經網產生的多個預估深度圖和使用損失函數所對應的已知實況深度圖來優化。
一種電腦系統，包含：一電腦計憶體；一或多個處理器，該電腦計憶體儲存多個指令，該些指令指導該一或多個處理器執行如請求項1至請求項13之一所述用於從由該攝影機於不同的該些焦點位置拍攝的該些影像擷取該深度資訊的電腦執行方法。
如請求項14所述之電腦系統，其中該一或多個處理器由為中央處理單元及/或影像處理單元實現。
如請求項14所述之電腦系統，其中該電腦系統為一可攜式行動裝置，該可攜式行動裝置包含一攝影機，該攝影機用於在不同該些焦點位置拍攝一場景的多張影像。
如請求項16所述之電腦系統，其中該可攜式行動裝置為智慧型手機。
一種電腦可讀取儲存媒體用於儲存多個電腦可執行指令，該電腦可讀取儲存媒體由一電腦系統執行時執行如請求項1至請求項13之一所述用於從該攝影機於不同的該些多焦點位置拍攝的該些影像擷取該深度資訊的電腦執行方法。