TWI709107B

TWI709107B - 影像特徵提取方法及包含其顯著物體預測方法

Info

Publication number: TWI709107B
Application number: TW107117158A
Authority: TW
Inventors: 孫民; 鄭仙資; 趙浚宏; 劉庭祿
Original assignee: 國立清華大學
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2020-11-01
Also published as: US20190355126A1; TW202004679A

Abstract

本發明揭露一種類神經網路之影像特徵提取方法，適用於一環景影像，包含下列步驟:將該環景影像投影至一立方模型以產生包含複數個圖像且彼此具有一連結關係的一圖像組；以該圖像組作為一類神經網路的輸入，其中，當該類神經網路之一運算層對其中該複數個圖像進行填補運算時，係跟據該連結關係由該複數個圖像中之相鄰圖像取得須填補之數據，以保留該圖像邊界部分之特徵；以及由該類神經網路之該運算層之運算而產生一填補特徵圖，並由該填補特徵圖中提取一影像特徵圖。

Description

影像特徵提取方法及包含其顯著物體預測方法

本發明是關於一種類神經網路之影像特徵提取方法，運用本發明之經由立方模型(Cube model)進行立方填補(Cube padding)的影像處理方式，使影像在極點的特徵表現完整且不失真，以符合使用者之需求。

近年來，影像拼接技術開始蓬勃發展，且360度環景影像是當今被廣泛應用的一種影像呈現方式，因為其可無死角的對應各個方位故可運用在各個領域上，並再套用於現今的機器學習方式，可研發出無死角的預測與學習。

但由於現今環景影像大多是等距圓柱投影方式(EQUI)即為方格投影，但等距圓柱投影會造成圖像在南北極(極點附近)的扭曲也會產生多餘的像素(即失真)，也產生物體辨識及應用的不便，以電腦視覺的系統處理這些影像時，也會因為投影的扭曲降低預測的精準度。

有鑑於此，在環景影像的顯著度預測上，如何能在機器學習的訓練架構中，更有效率的處理環景影像極點失真問題，並更快速且精準的產生輸出該特徵值將是相關影像處理廠商所希望達成之目標，因此，本發明之發明人思索並設計一種影像特徵提取方法並透過機器學習的方式與現有的技術做比較，並針對現有技術之缺失加以改善，進而增進產業上之實施利用。

有鑑於上述先前技術之問題，本發明之目的就是在提供一種影像特徵提取方法，以解決習知影像修補方法修補出來的物件可能仍有瑕疵或是不自然失真之無法提取圖像特徵值之缺陷。

根據本發明之目的，提出一種影像特徵提取方法，其包含以下步驟：於將環景影像投影至立方模型(Cube model)以產生包含複數個圖像且彼此具有連結關係的圖像組(Image stack)；以該圖像組作為該類神經網路(Convolution Neural Networks，CNN)的輸入，其中，當該類神經網路之該運算層(Operation layer)對其中該複數個圖像進行填補運算(Padding)時，係根據該連結關係由該複數個圖像中之相鄰圖像(Neighboring images)取得須填補之數據，以保留該圖像邊界部分之特徵；以及由該類神經網路之該運算層之運算而產生該填補特徵圖(Padded feature map)，並由該填補特徵圖中提取該影像特徵圖，該影像特徵圖並運用靜態模型再提取靜態顯著物體圖，也可在類神經網路之該運算層中插入長短期記憶神經網路運算層 (long short-term memory，LSTM)之運算產生填補特徵圖，並在運用損失方程式(Loss function) 對填補特徵圖進行修正後，進而產生的動態顯著物體圖。

較佳地，該環景影像可包含任何具有360度視角的影像呈現方式。

較佳地，該立方模型不侷限除了本發明之立方六面模型，也可包含延伸到具有多邊形模型，例如，八面模型及十二面模型等。

較佳地，複數個圖像且彼此具有連結關係的圖像組(Image stack)，其連接關係的連接方式係運用其立方模型並將環景影像放入該立方模型之中進行投影之預處理(Pre-process)，此預處理係將立方模型之六面的面與面之間相對應圖像邊界運用重疊方法(Overlap)的方式進行，使其在類神經網路訓練中在進行調整。

較佳地，複數個圖像可包含任何將環景影像投影至該立方模型且具有連結關係的複數個圖像所形成的圖像組，且圖像組之間係有依連接關係產生的相對性位置的複數個圖像。

較佳地，圖像組係確認連接關係的複數個圖像並運用如上述其經過預處理(Pre-process)之立方模型後，並依此圖像組做為類神經網路(CNN)的輸入。

較佳地，其圖像組係運用類神經網路之運算層訓練，在訓練過程中係會運用運算層(Operation layer)進行影像特徵提取訓練，並在訓練的同時對經過該立方模型且具有連結關係的複數個圖像所形成的圖像組中之相鄰圖像(Neighboring images)進行填補運算(Padding)即為立方填補(cube padding)，其相鄰圖像係為立方模型中該面與面之間的圖像即為相鄰圖像，如此每一個圖像組在類神經網路之運算層訓練皆有至少相對應的上方、下方、左方、右方之四方相鄰圖像，依據其相鄰圖像之重疊關係並確認其圖像邊界之特徵值，並運用其運算層之邊界再進一步確認其圖像邊界之邊界範圍。

較佳地，對該運算層的範圍可進一步包含該圖像之相鄰圖像取得須填補之數據的範圍係由該運算層之一過濾器(Filter)之維度(Dimension)所控制。

較佳地，圖像組在經過類神經網路之運算層訓練中確認相鄰圖像之標示與重疊關係後即為填補特徵圖，在本發明係調整圖像組在經過類神經網路之運算層訓練中確認相鄰圖像之標示與重疊關係使其在類神經網路訓練過程中在特徵抓取與效率上有最佳化的表現。

較佳地，運算層對該圖像組進行運算時，可進一步包含產生彼此具有上述連結關係之複數個該填補特徵圖。

較佳地，在圖像組在經過類神經網路之運算層訓練中確認相鄰圖像之表示與重疊關後即為填補特徵圖，在經由後處理模組(Post-process)，此後處理模組係對填補特徵圖中運用最大池化(Max-pooling)、反向投影(Inverse projection)以及升頻(Up-sampling)等處理方法把經過類神經網路之運算層的填補特徵圖提取出影像特徵圖。

較佳地，並對其影像特徵圖進行靜態模型(Static model,

)修正後對其提取靜態顯著物體圖，其靜態模型修正在影像特徵圖運用標示真值(Ground truth，GT)來確認影像特徵的方式並對各圖像的畫素進行顯著性評分(Saliency scoring)即為靜態顯著物體圖(Static saliency map,

)。

較佳地，本發明使用其顯著性評分方法需先經過掃描曲線下面積方法如本發明提及的線性相關係數(Linear Correlation Coefficient，CC)、賈德曲線下面積方法(AUC-Judd ，AUC-J) 以及多波曲線下面積方法(AUC-Borji ，AUC-B)皆為舉例之掃描曲線下面積方法，故本發明皆可適用於任一掃描曲線下面積方法，並在經過掃描曲線下面積方法過後才可對其抓取影像特徵圖進行一顯著性評分。

較佳地，顯著性評分，主要係調整再優化本發明之影像特徵提取方法在靜態模型以及插入長短期記憶神經網路運算層的動態模型之中，並可同時從評分上再比較現有習知方法以及基準線(Baseline)，例如零填補(Zero-padding)、運動幅度(Motion Magnitude)、一致性顯著影像(ConsistentVideoSal)以及顯著神經(SalGAN)，並確認此本發明從顯著性評分此客觀的方法中可明顯展現出卓越的分數。

較佳地，其圖像組經由類神經網路之運算層訓練係可插入在長短期記憶神經網路運算層中產生之兩個具有時間連續性特徵的填補特徵圖，且其圖像組係具有與上述所說明的該立方模型且具有連結關係的複數個圖像所形成的圖像組表示之。

較佳地，其圖像組經由類神經網路之運算層訓練係可插入在長短期記憶神經網路運算層中產生之具有時間連續性特徵的填補特徵圖，經過長短期記憶神經網路運算層的兩個連續填補特徵圖需再運用損失方程式進行修正，其損失方程式主要強化兩個連續填補特徵圖的時間一致性。

較佳地，運算層對該複數個圖像進行運算時，可進一步包含產生彼此具有該連結關係之複數個該填補特徵圖，形成該填補特徵圖組。

較佳地，該運算層可進一步包含卷積層(Convolutional layer)、池化層(Pooling layer)以及長短期記憶神經網路運算層 (LSTM) 。

根據本發明之另一目的，提出一種顯著物體預測的方法，適用於環景影像，包含下列步驟：提取環景影像之影像特徵圖，作為靜態模型；對靜態模型中各圖像的畫素進行顯著性評分，而取得靜態顯著物體圖；並在運算層中加入以長短期記憶神經網路運算層，將不同時間的複數個靜態顯著物體圖加以聚集，再經由顯著性評分而取得一動態顯著物體圖；以及以損失方程式，根據先前時間點之動態顯著物體圖對當前時間點之動態顯著物體圖進行優化，以作為該環景影像之顯著物體預測結果。

承上所述，依本發明之影像特徵提取方法及包含其之顯著物體預測方法，其可具有一或多個下述優點：

(1) 此影像特徵提取方法及包含其顯著物體預測方法能利用環景影像為基礎並運用立方模型方式進而使其極點影像特徵圖不扭曲失真，立方模型中參數能調整圖像重疊範圍而成型的深度網路架構，進而減少失真度以提升影像特徵圖抓取品質。

(2) 此影像特徵提取方法及包含其顯著物體預測方法能夠經由卷積神經網路並對影像進行修補，再運用熱影像作為完成影像輸出，使得修補完成的影像能更接近實際影像，減少影像當中不自然畫面的情況發生。

(3) 此影像特徵提取方法及包含其顯著物體預測方法能適用在任何全景攝影及虛擬實境之輔助當中，也不會因為龐大的運算量阻礙了裝置的操作，提升了使用上的普及性。

(4) 此影像特徵提取方法及包含其顯著物體預測方法在輸出效果上皆能與習知的影像填補方法在顯著性評分上皆能表現得更優化。

為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

如第1圖所示，其分別為本發明之擷取影像之影像特徵提取方法之實施例的方法圖，包含以下步驟(S101-S105)：

步驟S101：輸入一360度環景影像，該360度環景影像可藉由各種影像擷取裝置取得，例如，wild -360及Drone等。

步驟S102：運用一預處理模組(Pre-process)建立複數個圖像且彼此具有連結關係的圖像組(Image stack)。例如，預處理模組3013係將立方模型之六面當作一對應環景影像的對應複數個圖像，其連接關係係圖像邊界係運用重疊方法(Overlap)的方式進行，此預處理模組3013表示可參閱第3圖中的預處理模組3013表示，當中的環景影像It係經過預處理模型P過後，產生一對應於立方模型下的環景影像It。此立方模型可參閱第7圖，其中，立方模型701係從當中的環景影像係用圓形格線表示，並對應立方模型的B面、D面、F面、L面、R面、T面之六面表示，連接關係除了步驟S101提及的重疊方法(Overlap)外並進一步包含確認一相鄰圖像，並從立方模型903中可看出對應一F面之立方模型示意圖，並在確認連接關係的複數個圖像並運用如上述其經過預處理模組(Pre-process)之立方模型後即形成圖像組，並依此圖像組做為類神經網路(CNN)的輸入。

步驟S103：以圖像組進行類神經網路訓練，其類神經網路訓練過程會在之後類神經網路訓練流程中提及，其中在類神經網路訓練之運算層的範圍可進一步包含該圖像之相鄰圖像取得須填補之數據的範圍係由該運算層之一過濾器(Filter)之維度(Dimension)進一步控制相鄰圖像的圖像邊界之重疊(Overlap)，並從類神經網路訓練過程中在特徵抓取與效率上有找出最佳化的表現。圖像組再經過類神經網路訓練過後，係產生一填補特徵圖，並從第8圖中可說明其立方填補(Cube padding)及相鄰圖像可從立方模型801、802、803說明，例如從立方模型801係為立方模型展開圖表示，當中的F面為一面，其對於F面所相鄰的四面為T面、L面、R面、D面表示，且可進一步從立方模型802表示圖像之間的重疊，其填補特徵圖係一將圖像組當作輸入圖像，並在立方填補時運用神經網路訓練之運算層中維度調整過後的一輸出圖像即填補特徵圖。

步驟S104：用一後處理模組(Post-process)對填補特徵圖中運用最大池化(Max-pooling)、反向投影(Inverse projection)以及升頻(Up-sampling)等處理方法把經過類神經網路之運算層的填補特徵圖提取出影像特徵圖，再經過掃描曲線下面積方法，如線性相關係數(Linear Correlation Coefficient，CC)、賈德曲線下面積方法(AUC-Judd ，AUC-J) 以及多波曲線下面積方法(AUC-Borji ，AUC-B)，其皆為舉例之掃描曲線下面積方法。故本發明皆可適用於任一掃描曲線下面積方法，並在經過掃描曲線下面積方法過後才可對其抓取影像特徵圖。

步驟S105：對其經過掃描曲線下面積方法過後才可對其抓取影像特徵圖進行顯著性評分，主要係調整再優化本發明之影像特徵提取方法在靜態模型以及插入長短期記憶神經網路運算層的動態模型之中，並可同時從評分上再比較現有習知方法以及基準線(Baseline)，例如零填補(Zero-padding)、運動幅度(Motion Magnitude)、一致性顯著影像(ConsistentVideoSal)以及顯著神經(SalGAN)，並確認此本發明從顯著性評分此客觀的方法中可明顯展現出卓越的分數。

在步驟S102中詳述之，進入類神經網路(CNN)訓練的圖像組，即本發明之類神經網路訓練係運用如第5圖所示之500a係為VGG-16及第6圖所示之600a係為ResNet-50兩種類神經網路訓練模型進行訓練，進行類神經網路訓練之中的運算層包含卷積層(Convolutional layer)以及池化層(Pooling layer)的訓練，在卷積層中有使用

的卷積核。圖中以英文縮寫及數字對各卷積層命名及分組。

如第4圖與第5圖所示，本發明之影像特徵提取方法之類神經網路訓練模型，第4圖係VGG-16神經網路訓練模型400a和第5圖係ResNet-50神經網路訓練模型500a當中的運算層包含卷積層與池化層，此該運算層的範圍係由過濾器(Filter)之維度(Dimension)所控制，且控制此運算層的範圍同時控制立方填補的邊界範圍。

在400a中VGG-16神經網路訓練模型使用

的的卷積核其中第一組包含兩個第一卷積層

conv，64、尺寸Size：224及第一跨躍卷積層即第一池化層 pool/2；第二組包含兩個第二卷積層 conv，128、尺寸Size：112及第二跨躍卷積層即第二池化層 pool/2；第三組包含三個第三卷積層

Conv，256、尺寸Size：56及第三跨躍卷積層即第三池化層 pool/2；第四組包含三個第四卷積層

conv，512、尺寸Size：28及第四跨躍卷積層即第四池化層 pool/2；第五組包含三個第五卷積層

conv，512、尺寸Size：14及第五跨躍卷積層即第五池化層 pool/2；第六組則尺寸Size：7下即進行解析度掃描。這樣的分組表示經過該組產生後的填補特徵圖是相同維度的，Size數字即為解析度，運算層後的數字則代表特徵維度，該維度控制此運算層的範圍亦同時控制本發明之立方填補的邊界範圍。在這當中，卷積層與池化層兩者目的皆在於將前一層產生的資訊再進一步混合與擴散，隨著越後層的感受野(Receptive field)逐漸擴大，期望捕捉到圖像在不同層次下的特徵。跨越卷積層不同於正常卷積層之處在於跨躍步長設定為2，經過該層後的填補特徵圖之尺寸自然減半，達成更有效資訊交換同時降低了運算複雜度。

經過400a中VGG-16神經網路訓練模型卷積層卷積層之用途在於將前一層的資訊逐層整合，讓逐漸減小的填補特徵圖解析度擴增回原始輸入解析度，因此將放大倍率設定為2。另外，在此設計上同時使用池化層做連結將前面對應解析度的填補特徵圖串上目前卷積的結果繼續向後傳遞，目的在於將最前幾層保有強烈物體結構資訊用來提示及輔助卷積層的生成結果，使其能盡量接近原圖結構。本實施例之生成模型可將圖像輸入後，通過上述卷積、轉換而輸出產生影像，但本發明卷積層之形式與層數不侷限於圖中所述的架構，對於不同解析度圖像而對生成模型的卷積層類型及層數作出之調整，也應包含於本申請之範圍當中。

經過在500a中ResNet-50神經網路訓練模型使用類神經網路訓練模型有使用

以及

的卷積核，其中第一組包含第一卷積層

卷積核 conv，64/2及第一跨躍卷積層即第一最大池化層max pool/2；第二組在尺寸Size：56下包含三組運算層每組中皆包含三個第二卷積層

Conv，64、第二卷積層

conv，64、第二卷積層

conv，64並在卷基層間(實線表示)及跨躍卷積層間(虛線表示)皆運用第二最大池化層max pool/2做連結；第三組在尺寸Size：28下包含三組運算層每組中皆包含三個第三卷積層第一個第三卷基層

conv，128/2、

conv，64 以及

conv，512，第二個第三卷積層

conv，128、

conv，128 以及

conv，512，第三個第三卷積層

conv，128、

conv，128 以及

conv，512、及卷基層間及跨躍卷積層皆運用第三最大池化層max pool/2做連結；第四組在尺寸Size：14下包含三組運算層每組中皆包含三個第四卷積層，第一個第四卷基層

conv，256/2、

conv，256 以及

conv，1024，第二個第三卷積層

conv，256、

conv，256 以及

conv，1024，第三個第三卷積層

conv，256、

conv，256 以及

conv，1024及卷基層間及跨躍卷積層皆運用第四最大池化層max pool/2做連結；第五組在尺寸Size：7下包含三組運算層每組中皆包含三個第五卷積層，第一個第五卷基層

conv，512/2、

conv，512 以及

conv，2048，第二個第五卷積層

conv，512、

conv，512 以及

conv，2048，第三個第五卷積層

conv，512、

conv，512 以及

conv，2048及卷基層間運用第五最大池化層Max pool/2做連結及跨躍卷積層係運用平均池化層avg pool/2做連結；經過一平均池化層後即到第六組則尺寸Size：7下即進行解析度掃描，分組表示經過該組產生後的填補特徵圖是相同維度的，如每層後面括號數字所示，Size數字即為解析度，運算層後的數字則代表特徵維度，該維度控制此運算層的範圍亦同時控制本發明之立方填補的邊界範圍。在這當中，卷積層與池化層兩者目的皆在於將前一層產生的資訊再進一步混合與擴散，隨著越後層的感受野(Receptive field)逐漸擴大，期望捕捉到圖像在不同層次下的特徵。跨越不同卷積層於正常卷積層之處在於跨躍步長設定為2，經過該層後的填補特徵圖之解析度自然減半，達成更有效資訊交換同時降低了運算複雜度。

經過500a中ResNet-50神經網路訓練模型的卷積層之用途在於將前一層的資訊逐層整合，讓逐漸減小的填補特徵圖解析度擴增回原始輸入解析度，因此將放大倍率設定為2。另外，在此設計上同時使用池化層做連結將前面對應解析度的填補特徵圖串上目前卷積的結果繼續向後傳遞，目的在於將最前幾層保有強烈物體結構資訊用來提示及輔助卷積層的生成結果，使其能盡量接近原圖結構，當中再相同解析度下可用一組資料段(block)當做即時影像提取處理，不需要等到整個類神經網路訓練完成再做提取。本實施例之生成模型可將圖像輸入後，通過上述卷積、轉換而輸出產生影像，但本發明卷積層之形式與層數不侷限於圖中所述的架構，對於不同解析度圖像而對生成模型的卷積層類型及層數作出之調整，也應包含於本案之申請專利範圍當中。

上述第4圖及第5圖中提及的VGG-16、ResNet-50的兩種類神經網路訓練模型。如《IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition)》、1512.03385以及1409.1556中亦記載般，該影像特徵提取方法中將環景影像經由立方模型轉換並運用上述兩種類神經網路訓練模型進行立方填補中的並產生填補特徵圖。

在步驟S103中，圖像組再經過類神經網路訓練過後係為一填補特徵圖，該填補特徵圖且需再經過一後處理模組(Post-process)對填補特徵圖中運用最大池化(max-pooling)、反向投影(inverse projection)以及升頻(up-sampling)等處理方法把經過類神經網路之運算層的填補特徵圖提取出影像特徵圖。

在步驟S103中，該填補特徵圖且需再經過一後處理模(Post-process)即提取出經過類神經網路之運算層的填補特徵圖提取出影像特徵圖，該影像特徵圖係可運用熱地圖(Heat map)並抓取其熱領域(Heat zone)方式來確認其影像特徵與實際圖像特徵值做比較確認是否提取正確之影像特徵。

在步驟S103中，圖像組再經過類神經網路訓練之運算層時，可在其中插入長短期記憶神經網路運算層(LSTM)，並再做動態模型訓練，再訓練過程中需再加上損失方程式其主要強化經長短期記憶神經網路運算層訓練的兩個連續填補特徵圖的時間一致性。

如第2圖所示，其分別為本發明之擷取影像之影像特徵提取方法之實施例的環景影像輸入經過類神經網路訓練過後之靜態模型與動態模型流程圖，該元件說明及元件連接簡單描述，第2圖中I_t 及I_t-1 皆為一環景影像輸入並經過預處理模組203後，即進入類神經網路訓練模型204其中包含對環景影像進行立方填補CP，可得出填補特徵圖M_{S, t-1} 、M_S,t 並經過後處理模組205，即產生靜態顯著物體圖O^S _t-1 、O^S 或經過長短期記憶神經網路運算層206再經過後處理模組205後再經由損失模組207修正對應L_t-1 、L_t 即可得一動態顯著物體圖O_t-1 、O_t ，該元件之間關係相惜描述皆可由上述實施方式中說明及本發明提及的預處理模組203、後處理模組205、損失模組207會再下述加以描述之，其運用環景影像經由立方模型轉換出六面的二維圖像後並把此六面圖像當作一靜態模型201輸出M_S ，並通過將從卷積層(Convolutional layer)相乘特徵M_l 與完全相連的層W_fc ，運用其公式如下： M_S = M_l ∗ W_fc 當中，M_S ∈ R^6×K×w×w 、M_l ∈ R^6×c×w×w 、 W_fc ∈R^c×K×1×1 ，c是通道數量，w是相應的特徵寬度，｢∗ ｣表示卷積運算，K是在特定分類數據集上預訓練的模型的類數，為了生成靜態顯著圖S，按照像素移動圖片(Pixel-wisely)沿著維度(Dimension)的M_S 中的最大值。

如第3圖所示，係說明本發明運用的模組(301)，包含

損失模組(Loss，L)3011之運算模組，其經過長短期記憶神經網路運算層(LSTM)處理的動態顯著物體圖O_t 、O_t-1 及生成填補特徵圖m_t 在經過損失模組(L)會把圖像損失最小化形成動態顯著圖L_t ，其損失模組即運用一損失方程式(Loss function)進行，該損失方程式主要強化經長短期記憶神經網路運算層訓練的兩個連續填補特徵圖的時間一致性，其損失方程式會再下述說明。

後處理模組(Post-process)3012之運算模組，係指經過最大池化層Max過後的逆投影(Inverse projection)P^-1 轉換回圖像後再經過升頻(Upsampling)U處理，使該填補特徵圖M_t 或熱地圖H_t 經過投影至立方模型請經過類神經網路訓練包含立方填補後須經過後處理模組可還原出經類神經網路訓練的顯著物體圖O_t 、O_t ^S 。

預處理模組(Pre-process)3013為使用立方模型投影前須經過預處理模組，在預處理模組係產生包含將一環景影像It經預處理模組(P)將複數個圖像且放入立方模型中讓該複數個圖像彼此具有一連結關係形成一圖像組I_t 。

如第6圖所示，本發明之影像特徵提取方法之立方模型的圖像特徵示意圖與立方模型之六面分配圖，第6圖為實際環景影像601經由立方模型示意圖602後再轉換成對應實際環景影像601之熱影像方式603解決邊界問題後再經由影像特徵圖604表示為其影像特徵提取實際熱地圖(704 並從P1、P2、P3對應點的實際熱地圖可對應並從正常視野(Normal Field Of View )NFoVs角度表示其特徵圖應用605。

如第7圖係為立方模型下的環景影像(實線表示)，六面分別表示為B面、D面、F面、L面、R面以及T面並可從格線表示立方模型示意圖701與六面經由零填補方法的立方格線圖702及六面經由立方填補方法的立方格線圖703做比較可明顯看出零填補方法的立方格線圖702邊緣實線的扭曲，

並運用其立方模型公式如下：

(x, y) =

{

(k, x, y)} ; ∀j ∈ {B, D, F, L, R, T } 當中，

(x, y)的(x, y) 是顯著性評分(saliency scoring)S在立方面j的位置處，經過此立方模型公式。

如第8圖係實際影像對應六面(B面、D面、F面、L面、R面以及T面)立方展開圖801即可從立方模型處理順序802確認圖像重疊部分(框)並可從圖像邊界重疊示意圖得知，並可對應立方模型F面示意圖803的F面來做確認。

如第9圖所示，立方模型(Cube padding)方法與習知技術零填補方法(zero padding)其特徵圖圖像做明顯度比較，從第9圖的抓取特徵圖框可明顯看出經立方填補之影像特徵提取方法的黑白特徵圖中 901的白色區域明顯多於經零填補之影像特徵提取方法902的白色區域，並從圖示中可表示出立方模型處理過後的影像比零填補技術的影像更容易抓取其影像特徵，而在立方面903a、903b皆為立方模型過後的實際影像圖。

綜合上述，皆為靜態圖像處理，故會再如第2圖中時間模型202結合，使其靜態的圖像再加上時間序排列產生一連續的動態影像，該時間模202如第10圖長短期記憶神經網路運算層100a方塊圖所示，其長短期記憶神經網路運算層運作如下： i_t = σ(W_xi ∗ M_S,t + W_hi ∗ H_t−1 + W_ci ◦ C_t−1 + b_i ) f_t = σ(W_xf ∗ M_S,t + W_hf ∗ H_t−1 + W_cf ◦ C_t−1 + b_f ) g_t = tanh(W_xc ∗ X_t + W_hc ∗ H_t−1 + b_c ) C_t = i_t ◦ g_t + f_t ◦ C_t−1 o_t = σ(W_xo ∗ M_t + W_ho ∗ H_t−1 + W_co ◦ C_t + b_o ) H_t = o_t ◦ tanh(C_t ) 當中｢◦｣表示元素對元素之乘法，σ( )是S型函數，所有W_* 和b_* 是需學習的模型參數， i是輸入值，f是忽略值以及o輸出值為[0，1]的控制信號，g是經過變換的輸入信號，其值為[-1，-1 ]，C是記憶單元值，H ∈ R^6×K×w×w 是作為輸出和經常性輸入的表示方式，M_S 是靜態模型的輸出，t是時間索引並可以在下標中用來表示時間步長。，並將上述長短期記憶神經網路運算層(LSTM)進而帶入在立方填補過後的六個面(B面、D面、F面、L面、R面以及T面)。

其公式如下：

(x, y) =

{

(k, x, y)} ; ∀j ∈ {B, D, F, L, R, T } 當中，

(x, y) 是主要顯著性評分在位置(x, y)經一時間步長t在立方面j的位置處，且需再經過動態一致損失(Temporal consistent loss)調整下的離散圖像之間的模型相關性受到每像素位移翹曲，平滑度等的影響，因此本發明運用了3個損失函數來訓練時間模型並透過時間軸來優化重建損失

、平滑損失

、動態重建損失

，每個時間步長t的總損失函數可以表示為：

=

+ λ_s

+ λ_m

當中

為動態重建損失(Temporal reconstruction loss)，

為平滑損失(Smoothness loss)，

移動遮蔽損失(Motion masking loss)，經由動態一致損失調整過可以製定每個時間步長t的總損失函數，且在經由

動態重建損失方程式

=

動態重建損失方程式當中是由跨越不同時間步長t的相同像素應具有相似的顯著性評分，這個方程式有助於將特徵圖更精確地修補為具有相似運動模式的對像。

平滑損失方程式

=

平滑損失方程式當中用於限制附近的框架具有類似的響應而沒有大的改變，它也抑制了時間重建方程式與移動遮蔽損失方程式的嘈雜(Noisy)或漂移(Drifting)以及

移動遮蔽損失方程式

=

=

移動遮蔽損失方程式中運動幅度降低

如果移動模式在長時間步長內保持穩定，這些非移動像素的視頻顯著性評分應該低於改變補丁(Patch)。

並將不同時間的複數個該靜態顯著物體圖(

)加以聚集(aggregate)，再經由顯著性評分而取得動態顯著物體圖(Temporal saliency map,

)，並運用損失方程式(Loss function)，根據先前時間點之該動態顯著物體圖(

)對當前時間點之該動態顯著物體圖(

)進行優化，以作為環景影像之顯著物體預測結果。

如第11圖所示，比較靜態模型之影像特徵提取方法與習知影像提取方法在類神經網路訓練過程VGG-16與ResNet-50與加上長短期記憶神經網路運算層(LSTM)的動態模型下，且橫軸為圖像分辨率(像素從Full HD：1920 pixel至4K：3096pixel)，縱軸為每秒顯示張數(FPS)。

在靜態模型中比較四種影像分析方法。

1.等距圓柱投影方式(EQUI)1102，係為靜態模型採用的六面立方體作為輸入產生特徵圖(Our state)對其直接做等距圓柱投影方式。

2.立方體貼圖方法(Cubemap)1101係為靜態模型採用的六面立方體作為輸入產生特徵圖(Our state)，然而，使用零填補（ZP）透過操作類神經網路運算層經過卷積層與池化層過後的維度控制該零填補的圖像邊界，使得立方體的表面仍有連續性的損失。

3. 重疊方法(Overlap)1103係設定一立方填補的變體使其面與面之間的角度具有120度使圖像具有更多的重疊處來產生特徵圖，然而，使用零填補(ZP)並用於通過網路操作運算層經過卷積層(Convolution layer)與池化層(Pooling layer)過後的維度控制該零填補的圖像邊界，使得立方體的表面仍因零填補方法故有連續性的損失。

4.本發明之立方模型1104並僅將環景影像直接放入立方模型之預處理時並不作任何調整(Our static)，透過操作類神經網路運算層經過卷積層與池化層。

5. 本發明之影像特徵提取方法 (Ours)，簡述之本發明之方法係運用上述之立方填補模型方法1305且再進一步運用立方填補方式進行設定一重疊方法，用於通過類神經網路操作運算層經過卷積層(Convolution layer)與池化層(Pooling layer)的維度控制立方填補的邊界後，使得立方體的表面無連續性的損失。

6. 動態訓練過程主要是本發明之影像特徵提取方法 (Ours)，簡述之本發明之方法係運用上述之立方填補模型方法且再進一步運用立方填補方式進行設定一重疊方法，用於通過類神經網路操作運算層經過卷積層(Convolution layer)與池化層(Pooling layer)的維度控制立方填補的邊界後，並再之後再插入長短期記憶神經網路運算層 (LSTM)，及運用習知等距圓柱投影方式加上長短期記憶神經網路運算層(EQUI+LSTM)1105。

運用上述影像特徵提取方法1106做比較且從圖上經ResNet-50神經網路訓練模型1107以及VGG-16神經網路訓練模型1108可明顯看出隨著圖像分辨率的提高，其結果為立方填補模型方法1305的速度變得更接近立方貼圖方法，此外，本發明的立方填補模型方法1305及重疊方法的所有靜態模型測試的圖像分辨率皆超過等距長方圓柱靜態模型方法。

如表1所示，是上述第12A圖及第12B圖中的六種方法與基準線(Baseline)經顯著性評分化後的表示方式運用以下三種顯著物體預測方法評估方式進行比較，其等距圓柱投影方式(EQUI)、重疊方法(Overlap)、經長短期記憶神經網路運算層(LSTM)的動態訓練之比較方法與第5圖示皆相同。

顯著物體預測方法即並運用三種曲線下面積來做比較，一賈德曲線下面積方法(AUC-Judd，AUC-J)係通過計算視點的正誤率和誤判率來衡量我們的顯著性預測與人類視覺標記的基本事實之間的差異及一多波曲線下面積方法(AUC-Borji，AUC-B)係對圖像像素進行均勻隨機採樣，並將這些像素閾值以外的顯著圖值定義為誤判以及線性相關係數（CC）相關係數是一種基於分佈的度量，用於度量給定顯著性圖和視點之間的線性關係，係數值在-1和1之間，表示我們的輸出數值和地面實況之間是具有線性關係。

從表1中除了上述第11A圖至第11D圖中的方法外即再加上本發明之影像特徵提取方法 (Ours)1106，簡述之本發明之方法係運用上述之立方填補模型方法1305且再進一步運用立方填補方式進行設定一重疊方法，用於通過類神經網路操作運算層經過卷積層(Convolution layer)與池化層(Pooling layer)的維度控制立方填補的邊界後，使得立方體的表面無連續性的損失。

與其他習知基準線運動幅度(Motion Magnitude)、一致性顯著影像(ConsistentVideoSal)以及顯著神經(SalGAN)做顯著性評分比較。

從表1上的數字上可明顯看出本發明之影像特徵提取方法(Ours)1106除了在ResNet-50的類神經網路訓練下分數稍比僅用我們的立方模型(Our static)低外，其餘皆是最高的分數，由此得知本發明再顯著性評分係擁有較卓越的表現。

表1

如第12A圖至第12B圖所示，我們運用實際環景影像經過動態訓練的影像圖做分析從實際範圍熱地圖中可發現經由我們的方法紅色區域明顯增加，代表運用本發明與習之技術做比較可從圖中看出在等距圓柱投影方式1201、立方模型1202、重疊方法1203、真值1204圖像特徵圖上係能更優化的進行圖像特徵抓取。

如表2所示，係因為影像失真除了機器判定是否失真外，最後仍是由人眼來判定是否為失真為主要依據、故運用立方模型方法(Ours statics)、等距圓柱投影方式(EQUI)、立方體貼圖方法(Cubemap)以及真值(Ground truth，GT)做比較評分，其數值估計方法採用人眼判定是否失真，如圖像經人眼判定無失真當作得分(Win)而圖像失真當作失分(Loss)做比較，從比分上可確定本發明的影像特徵提取方法(Ours)1203評分是高於等距圓柱投影方式(EQUI)、立方體貼圖方法(Cubemap)以及運用立方模型但使用零填補的方法(Ours statics)等影像處理方法，且從人眼判定上經本發明之影像特徵提取方法1203的影像特徵已接近實際圖。

表2

再以第12A圖及第12B圖為例，並對應第12圖中的影像特徵提取方法1203，對應並與實際平面圖1205與實際平面放大圖1207同時比較，可明顯看出本發明之影像特徵提取方法1203主要在熱地圖上的表現跟其他方法比較較為顯著。

再以第13A圖及第13B圖為例，係運用兩種環景影像Wild-360 1306與Drone 1307做等距圓柱投影方式(EQUI)1304與立方填補模型方法(Ours static)1305並對其特向特徵圖1301做比較可明顯發現比較立方填補模型方法1305在實際熱地圖1302與正常視野圖1303以及實際平面圖Frame中再有時間軸Time變化時皆在圖像抓取上表現更優越。

本發明之影像特徵提取方法Ours係運用上述之立方填補模型方法1305且再運用立方填補方式進行設定一重疊方法，用於通過類神經網路操作運算層經過卷積層(Convolution layer)與池化層(Pooling layer)的維度控制立方填補的邊界後，使得立方體的表面無連續性的損失。上述環景影像之特徵提取方法及顯著物體預測方法可進一步運用於環景影像智慧運鏡剪輯、智慧監控系統、機器人場域導航、人工智能對廣角內容的感知與理解判定上，並不僅侷限於前述實施例中的環景影像之應用。

以上所述僅為舉例性，而非為限制性者，任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S101、S102、S103、S104、S105‧‧‧步驟201‧‧‧靜態模型202‧‧‧時間模型203、3013‧‧‧預處理模組204‧‧‧類神經網路訓練205、3012‧‧‧後處理模組206、100a‧‧‧長短期記憶神經網路運算層207、3011‧‧‧損失模組301‧‧‧模組400a‧‧‧VGG-16神經網路訓練模型500a‧‧‧ResNet-50神經網路訓練模型601‧‧‧環景影像602、1104、1202‧‧‧立方模型603‧‧‧解決邊界問題604‧‧‧影像特徵圖605‧‧‧特徵圖應用701‧‧‧立方模型示意圖702‧‧‧零填補方法的立方格線圖703‧‧‧立方填補方法的立方格線圖801‧‧‧立方展開圖802‧‧‧圖像邊界重疊示意圖803‧‧‧F面示意圖901‧‧‧立方填補902‧‧‧零填補903a、903b‧‧‧立方面1101‧‧‧立方體貼圖方法1102、1201、1304‧‧‧等距圓柱投影方式1103、‧‧‧重疊方法1105‧‧‧等距圓柱投影方式加上長短期記憶神經網路運算層1106、1203、Ours‧‧‧影像特徵提取方法1107‧‧‧ResNet-50神經網路訓練模型1108‧‧‧VGG-16神經網路訓練模型1301‧‧‧特向特徵圖1302‧‧‧實際熱地圖1303‧‧‧正常視野圖1305‧‧‧立方填補模型方法1306‧‧‧Drone1307‧‧‧Wild-360B、D、F、L、R、T‧‧‧立方模型的六面NFoVs‧‧‧正常視野圖P1、P2、P3‧‧‧對應點Size‧‧‧尺寸Pool/2‧‧‧池化層GT、1204‧‧‧真值Frame、1205‧‧‧實際平面圖Time‧‧‧時間軸

第1圖係為本發明實施例之影像特徵提取方法之步驟圖。

第2圖係為本發明實施例之影像特徵提取方法環景影像輸入經過類神經網路訓練過後之靜態模型與插入長短期記憶神經網路運算層之對應關係分配圖。

第3圖係為本發明實施例之影像特徵提取方法之運算模組示意圖。

第4圖係為本發明實施例之影像特徵提取方法之VGG-16神經網路訓練模型。

第5圖係為本發明實施例之影像特徵提取方法之ResNet-50神經網路訓練模型。

第6圖係為本發明實施例之影像特徵提取方法之立體影像示意圖。

第7圖係為本發明實施例之影像特徵提取方法之環景影像實線與立方模型格線表示圖。

第8圖係為本發明實施例之影像特徵提取方法之立體影像之六面分配圖。

第9圖係為本發明實施例之影像特徵提取方法之立方填補與零填補實際比較圖。

第10圖係為本發明實施例之影像特徵提取方法之長短期記憶神經網路運算層方塊圖。

第11A-11D圖係為本發明實施例之影像特徵提取方法之實際抓取效果圖。

第12A圖及第12B圖係為本發明實施例之比較影像特徵提取方法之實際抓取特徵熱地圖及實際平面圖。

第13A圖及第13B圖係為本發明實施例之影像特徵提取方法之不同影像來源實際抓取特徵及熱地圖。

S101、S102、S103、S104、S105‧‧‧步驟

Claims

一種類神經網路之影像特徵提取方法，適用於一環景影像，包含下列步驟: 將該環景影像投影至一立方模型以產生包含複數個圖像且彼此具有一連結關係的一圖像組；以該圖像組作為一類神經網路的輸入，其中，當該類神經網路之一運算層對其中該複數個圖像進行填補運算時，係根據該連結關係由該複數個圖像中之相鄰圖像取得須填補之數據，以保留該圖像邊界部分之特徵；以及由該類神經網路之該運算層之運算而產生一填補特徵圖，並由該填補特徵圖中提取一影像特徵圖。
如申請專利範圍第1項之影像特徵提取方法，其中該運算層係對該複數個圖像進行運算，進而產生彼此具有該連結關係之複數個該填補特徵圖，而形成一填補特徵圖組。
如申請專利範圍第2項之影像特徵提取方法，其中，當該類神經網路之該運算層對該複數個填補特徵圖其中之一進行填補運算時，係根據該連結關係，由該複數個填補特徵圖中之相鄰填補特徵圖取得須填補之數據。
如申請專利範圍第1至3項任一項之影像特徵提取方法，其中，該運算層為一卷積層或一池化層。
如申請專利範圍第4項之影像特徵提取方法，進一步包含該圖像之相鄰圖像取得須填補之數據的範圍係由該運算層之一過濾器之維度所控制。
如申請專利範圍第1項之影像特徵提取方法，其中該立方模型包含複數個面，並依據該複數個面的相對位置關係產生彼此具有該連結關係的該圖像組。
一種顯著物體預測方法，適用於一環景影像，包含下列步驟：以申請專利範圍第1至6項任一項所述之方法，提取該環景影像之一影像特徵圖，作為一靜態模型；對該靜態模型中各圖像的畫素進行顯著性評分，而取得一靜態顯著物體圖；並在運算層中加入以一長短期記憶神經網路運算層，將不同時間的複數個該靜態顯著物體圖加以聚集，再經由顯著性評分而取得一動態顯著物體圖；以及以一損失方程式，根據先前時間點之該動態顯著物體圖對當前時間點之該動態顯著物體圖進行優化，以作為該環景影像之一顯著物體預測結果。