TWI738045B

TWI738045B - 影像切割方法、裝置及其非暫態電腦可讀取媒體

Info

Publication number: TWI738045B
Application number: TW108131415A
Authority: TW
Inventors: 楊東庭; 王鈞立; 林政憲; 楊宏毅
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-09-05
Filing date: 2019-08-30
Publication date: 2021-09-01
Also published as: US20200074638A1; CN110880011A; CN110880011B; US10957048B2; TW202011350A

Abstract

一種影像切割方法，應用於影像切割裝置中，影像切割方法包括：自影像串流中接收對應於第一時間點的第一影像以及對應於第二時間點的第二影像；由切割神經網路對第二影像進行影像切割，以產生標籤機率組合；由相似度計算神經網路對第一影像以及第二影像進行相似度判斷運算，以產生相似度機率組合；由串接單元串接標籤機率組合以及相似度機率組合，以產生串接結果；以及由策略神經網路對串接結果進行進一步的推斷運算，以產生標籤遮罩。

Description

影像切割方法、裝置及其非暫態電腦可讀取媒體

本發明係有關於一種影像處理技術，且特別是有關於一種影像切割方法、裝置及其非暫態電腦可讀取媒體。

在電腦影像處理的領域中，影像切割是將數位影像切割為多個部分。影像切割的目標是為了簡化及/或改變影像的表示方式，以成為更有意義或是更容易分析的部分。然而，傳統的切割網路僅使用單一影像做為輸入，對於影像串流來說，其相對先前影像的估測將無法維持良好的精確度。

因此，如何設計一個新的影像切割方法、裝置及其非暫態電腦可讀取媒體，以解決上述的缺失，乃為此一業界亟待解決的問題。

本發明內容之一目的在於提供一種影像切割方法，應用於影像切割裝置中，影像切割方法包括：自影像串流中接收對應於第一時間點的第一影像以及對應於第二時間點的第二影像；由切割神經網路對第二影像進行影像切割，以產生標籤機率組合；由相似度計算神經網路對第一影像以及第二影像進行相似度判斷運算，以產生相似度機率組合；由串接單元串接標籤機率組合以及相似度機率組合，以產生串接結果；以及由策略神經網路對串接結果進行進一步的推斷運算，以產生標籤遮罩。

本發明內容之另一目的在於提供一種影像切割裝置，包括：儲存模組以及處理模組。儲存模組配置以儲存複數電腦可執行指令。處理模組電性耦接於儲存模組，並配置以擷取並執行電腦可執行指令，以執行影像切割方法。影像切割方法包括：自影像串流中接收對應於第一時間點的第一影像以及對應於第二時間點的第二影像；由切割神經網路對第二影像進行影像切割，以產生標籤機率組合；由相似度計算神經網路對第一影像以及第二影像進行相似度判斷運算，以產生相似度機率組合；由串接單元串接標籤機率組合以及相似度機率組合，以產生串接結果；以及由策略神經網路對串接結果進行進一步的推斷運算，以產生標籤遮罩。

本發明內容之又一目的在於提供一種非暫態電腦可讀取紀錄媒體，配置以儲存應用程式以藉由影像切割裝置執行影像切割方法。影像切割方法包括：自影像串流中接收對應於第一時間點的第一影像以及對應於第二時間點的第二影像；由切割神經網路對第二影像進行影像切割，以產生標籤機率組合；由相似度計算神經網路對第一影像以及第二影像進行相似度判斷運算，以產生相似度機率組合；由串接單元串接標籤機率組合以及相似度機率組合，以產生串接結果；以及由策略神經網路對串接結果進行進一步的推斷運算，以產生標籤遮罩。

本發明的影像切割方法、裝置及其非暫態電腦可讀取媒體可將先前影像納入考慮，以產生相似度的資訊來增加循序的切割結果間的一致性。

1‧‧‧影像切割裝置

100‧‧‧儲存模組

105‧‧‧電腦可執行指令

110‧‧‧處理模組

200‧‧‧影像切割方法

201-205‧‧‧步驟

3‧‧‧系統

300‧‧‧切割神經網路

310‧‧‧相似度計算神經網路

320‧‧‧串接單元

330‧‧‧策略神經網路

340、360‧‧‧編碼器

350、370‧‧‧解碼器

4‧‧‧系統

400‧‧‧分類神經網路

410‧‧‧編碼器

420‧‧‧處理器

BM‧‧‧空白遮罩

CPS‧‧‧類別機率組合

CR‧‧‧串接結果

IM1‧‧‧第一影像

IM2‧‧‧第二影像

LM‧‧‧標籤遮罩

LPS‧‧‧標籤機率組合

PLM‧‧‧先前標籤遮罩

SPS‧‧‧相似度機率組合

VS‧‧‧影像串流

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖為本發明一實施例中，一種影像切割裝置的方塊圖；第2圖為本發明一實施例中，一種影像切割方法的流程圖；第3圖為本發明一實施例中，根據影像切割裝置的運作所實現的系統的方塊圖；以及第4圖為本發明另一實施例中，根據影像切割裝置的運作所實現的系統的方塊圖。

請參照本揭示內容的實施例，其中以下的範例將搭配圖式進行說明。在圖式及說明中所使用相同的元件符號，將指稱相同或類似的元件。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，當元件被描述為「連接」或「耦接」至另一元件時，其可為直接連接或耦接至另一元件，或是可能存在有中間的元件。相對的，當元件被描述為「直接連接」或「直接耦接」至另一元件時，將不會有中間的元件存在。更進一步地，「電性連接」或「連接」可更用以指稱兩個或多個元件間的交互操作以及互動。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，雖然「第一」、「第二」等用語可用以描述不同的元件，這些元件可不被這些用語所限制。這些用語僅用以區分不同的元件。舉例來說，第一元件亦可被改稱為第二元件，且類似地，第二元件亦可被改稱第一元件，而不會悖離實施例的範圍。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「包含」、「包括」、「具有」、「含有」及類似的用語是被理解為開放性的，例如表示「包含，但不限於」。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，「及/或」的語句包含所列舉的一個或多個相關事物中的任何以及全部的組合。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，在以下的實施例的敘述中用以指稱方向的詞彙，例如「上」、「下」、「左」、「右」、「前」及「後」，是與圖式中的方向相關。因此，這樣指稱方向的詞彙是用以敘述，而非限制本揭示內容。

須注意的是，在說明書以及申請專利範圍中所進行的敘述中，除非另行定義，所有的用語(包含技術性或是科學性用語)具有任何本揭示內容所屬技術領域的通常知識者所普遍理解的相同意義。須更進一步了解的是，此些用語，例如定義於常用的字典者，除非特別定義，否則需解讀為具有與在相關的技術領域所使用的相同意義，而不能被廣泛地解讀。

請參照第1圖。第1圖為本發明一實施例中，一種影像切割裝置1的方塊圖。影像切割裝置1包含儲存模組100以及處理模組110。

於一實施例中，儲存模組100可為例如，但不限於光碟、隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read only memory；ROM)、軟碟、硬碟或光學磁碟片。儲存模組100配置以儲存複數電腦可執行指令105。

處理模組110電性耦接於儲存模組100。於一實施例中，處理模組110配置以擷取並執行電腦可執行指令105，並據以執行臉部影像切割裝置1的功能。更詳細地說，處理模組110自一個影像串流接收第一影像IM1及第二影像IM2，以根據第一影像IM1及第二影像IM2進行影像切割。

影像切割裝置1的運作將進一步於以下的段落詳述。

請同時參照第2圖及第3圖。

第2圖為本發明一實施例中，一種影像切割方法200的流程圖。影像切割方法200可應用於例如第1圖所繪示的影像切割裝置1中，或由其他硬體元件如資料庫、一般處理器、計算機、伺服器、或其他具特定邏輯電路的獨特硬體裝置或具特定功能的設備來實作，如將程式碼和處理器/晶片整合成獨特硬體。更詳細地說，影像切割方法200可使用電腦程式實現，以控制影像切割裝置1的各元件。電腦程式可儲存於一非暫態電腦可讀取記錄媒體中，例如唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。

第3圖為本發明一實施例中，根據影像切割裝置1的運作所實現的系統3的方塊圖。更詳細地說，當處理模組110執行電腦可執行指令105時，電腦可執行指令105運作為系統3的模組，以執行影像切割方法200。系統3包含切割神經網路300、相似度計算神經網路310、串接單元320以及策略神經網路330。

影像切割方法200包含下列步驟(應瞭解到，在本實施方式中所提及的步驟，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行)。

於步驟201，自影像串流VS中接收對應於第一時間點的第一影像IM1以及對應於第二時間點的第二影像IM2。其中，第二時間點在第一時間點後。

於一實施例中，第一影像IM1對應於時間點T-1，而第二影像IM2對應於時間點T。換句話說，第一影像IM1以及第二影像IM2為在影像串流VS中相鄰的兩個影像畫面。然而，第一影像IM1以及第二影像IM2亦可在影像串流VS中相隔一個以上的其他影像畫面。本發明並不為此所限。

更進一步地，在不同的實施例中，影像串流VS可由處理模組110自儲存模組100接收，或是透過有線或無線的方式自遠端伺服器接收。

於步驟202，由切割神經網路300對第二影像IM2進行影像切割，以產生標籤機率組合LPS。

於一實施例中，切割神經網路300為卷積神經網路(convolution neural network；CNN)，以對第二影像IM2進行卷積，產生標籤機率組合LPS。

切割神經網路300可分為編碼器340以及解碼器350。編碼器340配置以做為特徵擷取元件，以逐步縮降(down scale)第二影像IM2直到像素層次，來擷取特徵。解碼器350配置以做為特徵產生元件，以逐步擴升(up scale)編碼器340產生的像素來產生特徵，進一步產生標籤機率組合LPS。於一實施例中，標籤機率組合LPS包含多個標籤機率，各個標籤機率對應一個標籤的機率，且此標籤對應於一個預先定義物件。

於步驟203，由相似度計算神經網路310對第一影像IM1以及第二影像IM2進行相似度判斷運算，以產生相似度機率組合SPS。

於一實施例中，相似度計算神經網路310亦為卷積神經網路，以對第一影像IM1以及第二影像IM2進行卷積，產生相似度機率組合SPS。

類似地，相似度計算神經網路310亦可分為編碼器360以及解碼器370。編碼器360以及解碼器370的運作方式與編碼器340以及解碼器350類似但具有不同的拓墣結構，在此並不詳述。

需注意的是，於一實施例中，編碼器340以及編碼器360可由同一個編碼器實現。更詳細地說，切割神經網路300以及相似度計算神經網路310共享一個編碼器，而不需要拆分為兩個獨立網路運算。因此，對於切割神經網路300以及相似度計算神經網路310來說，僅需要一次縮降的運算即可。

於一實施例中，相似度機率組合SPS包含多個相似度機率，各相似度機率對應一個相似度的機率，且此相似度是第一影像IM1以及第二影像IM2間的一個對應像素間的相似度。

相似度計算神經網路310的功效在於，在循序(sequential)的影像切割中，當下影像與先前影像的差異很小，特別是當用以擷取影像的攝像裝置幾乎停留在相同的位置時。如果影像中的大部分並未變動，而僅有一點雜訊擾動，則未變動的像素對應的切割標籤有很大的機率會相同。藉由使用相似度計算神經網路310，各個像素與先前影像的相似度機率可被量測，並得到哪些部分的影像最有可能改變。最後，系統可據以調整預測的遮罩。

於步驟204，由串接單元320串接標籤機率組合LPS以及相似度機率組合SPS，以產生串接結果CR。

於一實施例中，由於標籤機率組合LPS以及相似度機率組合SPS是在像素層次產生，當第一影像IM1以及第二影像IM2各具有X×Y的大小時，標籤機率組合LPS以及相似度機率組合SPS亦各具有X×Y的大小。因此，串接結果CR的大小將為X×Y×2。

於步驟205，由策略神經網路330對串接結果CR進行進一步的推斷運算，以產生標籤遮罩LM。

於一實施例中，策略神經網路330亦為卷積神經網路，以對串接結果CR進行卷積，產生同樣具有大小X×Y的標籤遮罩LM。

於一實施例中，策略神經網路330亦可包含編碼器與解碼器，以藉由縮降與擴升串接結果CR進行卷積。於另一實施例中，策略神經網路330亦可在不縮降與擴升串接結果CR的情形下進行卷積。

由策略神經網路330產生的標籤遮罩LM可辨識對應不同預設物件的標籤。更詳細地說，標籤遮罩LM即是影像切割的結果。

需注意的是，於一實施例中，具有大小X×Y的一個先前標籤遮罩PLM可被傳送至串接單元320，以使串接單元320將標籤機率組合LPS、相似度機率組合SPS以及先前標籤遮罩PLM均串接在一起，產生具有大小X×Y×3的串接結果 CR。

在這樣的情形下，策略神經網路330將對具有大小X×Y×3的串接結果CR進行進一步的推斷運算，以產生標籤遮罩LM。標籤遮罩LM可作為新的先前標籤遮罩PLM，反饋至串接單元320。

在部份技術中，影像切割是僅考慮當下的影像來進行。在精確度不夠的情形下，估測結果將不會與先前影像一致。

然而，本發明的影像切割裝置1以及影像切割方法200可將先前影像納入考慮，以產生相似度的資訊來增加循序的切割結果間的一致性。更進一步地，藉由先前標籤遮罩的使用，先前的切割結果資訊亦可被納入考慮，以提供更一致的切割結果。

第4圖為本發明另一實施例中，根據影像切割裝置1的運作所實現的系統4的方塊圖。更詳細地說，當處理模組110執行電腦可執行指令105時，電腦可執行指令105運作為系統4的模組，以執行影像切割方法200。類似於第3圖中的系統3，系統4包含切割神經網路300、相似度計算神經網路310、串接單元320以及策略神經網路330。因此，相同的元件將不在此贅述。

系統4更包含分類神經網路400。分類神經網路400配置以對第二影像IM2進行分類，以產生類別機率組合CPS。

於一實施例中，分類神經網路400亦為卷積神經網路，以對第二影像IM2進行卷積，產生類別機率組合CPS。其中，分類是在影像層次進行。

於一實施例中，分類神經網路400亦可包含對串接結果CR進行縮降的編碼器410，以及包含處理縮降結果的傳統全連結(fully-connected)層或是其他分類網路模組的處理器420。

於一實施例中，分類神經網路400的編碼器410亦可與切割神經網路300的編碼器340以及相似度計算神經網路310的編碼器360共享，以減少計算量。

在產生類別機率組合CPS後，類別機率組合CPS可被傳送至分割神經網路300以及相似度計算神經網路310，以判斷對應一個所需類別是否存在，或是類別機率組合CPS中的一個所需類別的所需類別機率是否小於預設值。

舉例而言，如果所需類別對應於人臉，對應人臉的所需類別機率是否小於預設值將被判斷。

當所需類別機率小於預設值時，將停止進行影像切割以及相似度判斷運算。更詳細地說，切割神經網路300以及相似度計算神經網路310的運作將在所需類別機率小於預設值時停止。

於一實施例中，分類神經網路400、切割神經網路300以及相似度計算神經網路310共享同一個編碼器。因此，在分類神經網路400產生類別機率組合CPS後，切割神經網路300以及相似度計算神經網路310的解碼器350及370將停止後續的運算。

更進一步地，由於切割神經網路300以及相似度計算神經網路310的運作停止進行，策略神經網路330將產生空白遮罩BM。

由於切割神經網路300以及相似度計算神經網路310的運作相當耗時，分類神經網路400提供早期分類機制，以在所需類別的物件不存在時，減少耗時的運算。

總結來說，本發明的影像切割裝置1以及影像切割方法200可不僅根據當下影像，更根據先前影像執行分割，以增進循序分割結果的一致性。

雖然上文實施方式中揭露了本發明的具體實施例，然其並非用以限定本發明，本發明所屬技術領域中具有通常知識者，在不悖離本發明之原理與精神的情形下，當可對其進行各種更動與修飾，因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。

200‧‧‧影像切割方法

201-205‧‧‧步驟

Claims

一種影像切割方法，應用於一影像切割裝置中，該影像切割方法包括：自一影像串流中接收對應於一第一時間點的一第一影像以及對應於一第二時間點的一第二影像；由一切割神經網路對該第二影像進行影像切割，以產生一標籤(label)機率組合；由一相似度計算神經網路對該第一影像以及該第二影像進行相似度判斷運算，以產生一相似度機率組合；由一串接單元串接該標籤機率組合、該相似度機率組合以及一先前標籤遮罩，以產生一串接結果；以及由一策略神經網路對該串接結果進行進一步的推斷運算(inference)，以產生一標籤遮罩(label mask)。
如請求項1所述之影像切割方法，其中該切割神經網路、該相似度計算神經網路以及該策略神經網路分別為一卷積神經網路(convolution neural network；CNN)，且該切割神經網路配置以對該第二影像進行卷積，該相似度計算神經網路配置以對該第一影像以及該第二影像進行卷積，該策略神經網路配置以對該串接結果進行卷積。
如請求項1所述之影像切割方法，更包括：由該切割神經網路之一第一編碼器以及一第一解碼器對該第二影像進行影像切割，以產生該標籤機率組合；以及由該相似度計算神經網路之一第二編碼器以及一第二解碼器對該第一影像以及該第二影像進行相似度判斷運算，以產生該相似度機率組合。
如請求項3所述之影像切割方法，其中該第一編碼器以及該第二編碼器實際上為同一編碼器。
如請求項3所述之影像切割方法，其中該切割神經網路在一像素層次(pixel level)對該第二影像進行影像切割，且該影像切割方法更包括：由一分類神經網路對該第二影像進行分類，以產生一類別機率組合；判斷該類別機率組合中，對應一所需類別的一所需類別機率是否小於一預設值；以及在該所需類別機率小於該預設值時，停止進行影像切割以及相似度判斷運算，以產生一空白遮罩。
一種影像切割裝置，包括：一儲存模組，配置以儲存複數電腦可執行指令；以及一處理模組，電性耦接於該儲存模組，並配置以擷取並執行該等電腦可執行指令，以執行一影像切割方法，該影像切割方法包括：自一影像串流中接收對應於一第一時間點的一第一影像以及對應於一第二時間點的一第二影像；由一切割神經網路對該第二影像進行影像切割，以產生一標籤機率組合；由一相似度計算神經網路對該第一影像以及該第二影像進行相似度判斷運算，以產生一相似度機率組合；由一串接單元串接該標籤機率組合、該相似度機率組合以及一先前標籤遮罩，以產生一串接結果；以及由一策略神經網路對該串接結果進行進一步的推斷運算，以產生一標籤遮罩。
如請求項6所述之影像切割裝置，其中該切割神經網路在一像素層次對該第二影像進行影像切割，且該影像切割方法更包括：由一分類神經網路對該第二影像進行分類，以產生一類別機率組合；判斷該類別機率組合中，對應一所需類別的一所需類別機率是否小於一預設值；以及在該所需類別機率小於該預設值時，停止進行影像切割以及相似度判斷運算，以產生一空白遮罩。
一種非暫態電腦可讀取紀錄媒體，配置以儲存一應用程式以藉由一影像切割裝置執行一影像切割方法，該影像切割方法包括：自一影像串流中接收對應於一第一時間點的一第一影像以及對應於一第二時間點的一第二影像；由一切割神經網路對該第二影像進行影像切割，以產生一標籤機率組合；由一相似度計算神經網路對該第一影像以及該第二影像進行相似度判斷運算，以產生一相似度機率組合；由一串接單元串接該標籤機率組合、該相似度機率組合以及一先前標籤遮罩，以產生一串接結果；以及由一策略神經網路對該串接結果進行進一步的推斷運算，以產生一標籤遮罩。