TWI689894B

TWI689894B - 影像切割方法及裝置

Info

Publication number: TWI689894B
Application number: TW107117409A
Authority: TW
Inventors: 林政憲; 卓柏全; 楊宏毅
Original assignee: 宏達國際電子股份有限公司
Priority date: 2017-06-02
Filing date: 2018-05-22
Publication date: 2020-04-01
Also published as: CN108986100A; US20180350077A1; US10706547B2; TW201903714A; CN108986100B

Abstract

一種影像切割方法，用以透過由影像切割裝置實現之神經網路執行影像切割，影像切割方法包括：由神經網路之當下卷積神經網路單元接收先前卷積神經網路權重資料，其中先前卷積神經網路權重資料是由神經網路之先前卷積神經網路單元根據影像資料中對應先前時間點的先前影像產生；由當下卷積神經網路單元接收影像資料中對應當下時間點的當下影像，其中當下時間點鄰接於先前時間點後；以及由當下卷積神經網路單元根據先前卷積神經網路權重資料以及當下影像進行卷積，以產生當下影像切割結果。

Description

影像切割方法及裝置

本發明是有關於影像處理技術，且特別是有關於一種影像切割方法及裝置。

語意(semantic)影像切割在影像辨識中佔有重要的角色，使電腦得以辨識影像中的物件。物件的辨識與描繪(delineation)可由對影像中的各畫素進行分類而達成。這樣的處理方式在電腦視覺以及各種成長中的領域如自動駕駛和醫學影像上有廣泛的應用。然而，現在的影像切割技術，是對於影像資料中的不同影像畫面分別進行影像切割。因此，由這樣的方式所產生的整體影像資料的切割結果中，邊緣容易產生抖動的現象。

因此，如何設計一個新的影像切割方法及裝置，以解決上述的缺失，乃為此一業界亟待解決的問題。

本發明之目的在於提供一種影像切割(image segmentation)方法，用以透過由影像切割裝置實現之神經網路(neural network)執行影像切割，影像切割方法包括：由神經網路之當下卷積神經網路(convolution neural network；CNN)單元接收先前卷積神經網路權重資料，其中先前卷積神經網路權重資料是由神經網路之先前卷積神經網路單元根據影像資料中對應先前時間點的先前影像產生；由當下卷積神經網路單元接收影像資料中對應當下時間點的當下影像，其中當下時間點鄰接於先前時間點後；以及由當下卷積神經網路單元根據先前卷積神經網路權重資料以及當下影像進行卷積，以產生當下影像切割結果。

本發明之另一目的在於提供一種影像切割裝置，包括：儲存單元以及處理單元。儲存單元配置以儲存複數電腦可執行指令。處理單元電性耦接於儲存單元，並配置以擷取並執行電腦可執行指令，以執行影像切割方法，影像切割方法用以透過由處理單元執行電腦可執行指令時實現之神經網路執行影像切割，影像切割方法包括：由神經網路之當下卷積神經網路單元接收先前卷積神經網路權重資料，其中先前卷積神經網路權重資料是由神經網路之先前卷積神經網路單元根據影像資料中對應先前時間點的先前影像產生；由當下卷積神經網路單元接收影像資料中對應當下時間點的當下影像，其中當下時間點鄰接於先前時間點後；以及由當下卷積神經網路單元根據先前卷積神經網路權重資料以及當下影像進行卷積，以產生當下影像切割結果。

本發明的影像分割裝置及影像分割方法中，卷積神經網路單元形成遞歸神經網路，以使各卷積神經網路單元可根據對應當下時間點的當下影像以及對應先前時間點的先前卷積神經網路權重資料進行影像切割。根據上述方法所產生的影像切割結果，將具有較平滑的邊緣，並因為時序的資訊而具有較少的抖動。更進一步地，因為時序的資訊，隨時間逐漸改變角度的物件亦可被辨識出。

1‧‧‧影像切割裝置

10‧‧‧儲存單元

12‧‧‧處理單元

100‧‧‧電腦可執行指令

102‧‧‧影像資料

200‧‧‧影像切割方法

201-203‧‧‧步驟

3‧‧‧神經網路

400、500‧‧‧卷積神經網路單元

401、501‧‧‧輸入層

402、502‧‧‧隱藏層

403、503‧‧‧輸出層

CNN₀-CNN_N‧‧‧卷積神經網路單元

D_d、D₁-D_N-1‧‧‧先前卷積神經網路權重資料

D_d,0,0,0-D_d,A-1,B-1,2‧‧‧資料

D_0,0,0,0-D_0,A-1,B-1,2‧‧‧資料

h₀-h_N‧‧‧當下影像切割結果

h_0,0,0,0-h_0,A-1,B-1,2‧‧‧運算結果

T₀-T_N‧‧‧時間點

X₀-X_N‧‧‧影像

X_0,0,0,0-X_0,A-1,B-1,2‧‧‧資料

第1圖為本發明一實施例中，一種影像切割裝置的方塊圖；第2圖為本發明一實施例中，影像切割方法的流程圖；第3圖為本發明一實施例中，由影像切割裝置實現的神經網路的方塊圖；第4圖為本發明一實施例中，卷積神經網路單元的範例性示意圖；以及第5圖為本發明一實施例中，卷積神經網路單元的範例性示意圖。

請參照第1圖。第1圖為本發明一實施例中，一種影像切割裝置1的方塊圖。影像切割裝置1包含儲存單元10以及處理單元12。

於一實施例中，儲存單元10可為例如，但不限於光碟、隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read only memory；ROM)、軟碟、硬碟或光學磁碟片。儲存單元10配置以儲存複數電腦可執行指令100。

處理單元12電性耦接於儲存單元10。於一實施例中，處理單元12配置以擷取並執行電腦可執行指令100，並據以執行影像切割裝置1的功能。

更詳細地說，處理單元12接收影像資料102，以對影像資料102的各影像執行影像切割。於一實施例中，處理單元12接收儲存於儲存單元10中的影像資料102，如第1圖所示。於其他實施例中，處理單元12可利用例如，但不限於通訊單元(未繪示)，透過有線或是無線的方式自遠端伺服器(未繪示)接收影像資料102。

請同時參照第2圖及第3圖。影像切割裝置1的詳細功能將在後續段落搭配第2圖及第3圖進行說明。

第2圖為本發明一實施例中，影像切割方法200的流程圖。影像切割方法200可應用於第1圖的影像切割裝置1中。

第3圖為本發明一實施例中，由影像切割裝置1實現的神經網路3的方塊圖。其中當電腦可執行指令100由處理單元12執行時，將運作為神經網路3以執行影像切割方法200。

於一實施例中，神經網路3為遞歸神經網路，包含複數個串聯的卷積神經網路單元CNN₀、CNN₁、CNN₂、...及CNN_N。

影像切割方法200包含下列步驟(應瞭解到，在本實施方式中所提及的步驟，除特別敘明其順序者外，均可依實際需要調整其前後順序，甚至可同時或部分同時執行)。

於步驟201，由當下卷積神經網路單元接收先前卷積神經網路權重資料。

於一實施例中當，當下卷積神經網路單元為卷積神經網路單元CNN₀時，由於不存在有先前的卷積神經網路單元，因此先前卷積神經網路權重資料，亦即卷積神經網路權重資料D_d，為預設虛擬資料。

而如當下卷積神經網路單元為卷積神經網路單元CNN₁、CNN₂、...或CNN_N其中之一時，先前卷積神經網路權重資料是由先前卷積神經網路單元根據影像資料，例如第1圖中的影像資料102中，對應先前時間點的先前影像產生。

舉例而言，如當下卷積神經網路單元為卷積神經網路單元CNN₁時，先前卷積神經網路權重資料是由卷積神經網路單元CNN₀根據影像資料中對應時間點T₀的影像X₀。

於步驟202，由當下卷積神經網路單元接收影像資料中對應當下時間點的當下影像，其中當下時間點鄰接於先前時間點後。

以卷積神經網路單元CNN₀為例，如卷積神經網路單元CNN₀為當下卷積神經網路單元時，卷積神經網路單元CNN₀接收對應時間點T₀的影像X₀為當下影像。另一方面，如卷積神經網路單元CNN₁為當下卷積神經網路單元時，卷積神經網路單元CNN₁接收對應時間點T₁的影像X₁為當下影像。

於步驟203，由當下卷積神經網路單元根據先前卷積神經網路權重資料以及當下影像進行卷積，以產生當下影像切割結果。

以卷積神經網路單元CNN₀為例，如卷積神經網路單元CNN₀為當下卷積神經網路單元時，卷積神經網路單元CNN₀根據先前卷積神經網路權重資料D_d以及當下影像X₀進行卷積，以產生當下影像切割結果h₀。另一方面，如卷積神經網路單元CNN₁為當下卷積神經網路單元時，卷積神經網路單元CNN₁根據先前卷積神經網路權重資料D₁以及當下影像X₁進行卷積，以產生當下影像切割結果h₁。

類似地，影像切割方法200中的步驟可應用於卷積神經網路單元CNN₂...及CNN_N，以使各卷積神經網路單元CNN₂...及CNN_N根據先前卷積神經網路權重資料D₁...及D_N-1以及對應時間點T₂...及T_N的當下影像X₂...及X_N進行卷積，以產生當下影像切割結果h₂...及h_N。

請參照第4圖。第4圖為本發明一實施例中，卷積神經網路單元400的範例性示意圖。於一實施例中，於第3圖所繪示的各卷積神經網路單元CNN₀、CNN₁、CNN₂、...或CNN_N可由卷積神經網路單元400所實現。

於一實施例中，卷積神經網路單元400包括輸入層401、隱藏層402以及輸出層403。於一實施例中，各輸入層401、隱藏層402以及輸出層403包括複數個運算節點。

當卷積神經網路單元400被用來實現卷積神經網路單元CNN₀時，輸入層401配置以接收具有例如，但不限於A×B的尺寸且具有三個資料通道的影像X₀，其中影像X₀的各個畫素具有三個通道的資料。舉例而言，對應於位置(0,0)的畫素具有三個通道的資料，包括X_0,0,0,0、X_0,0,0,1及X_0,0,0,2。其中，下標的第一位數代表影像，第二位數及第三位數代表畫素的座標，第四位數代表通道數目。

因此，本實施例中的輸入層401具有A×B×3個運算點，分別對應X_0,0,0,0、X_0,0,0,1、X_0,0,0,2、...、X_0,A-1,B-1,0、X_0,A-1,B-1,1至X_0,A-1,B-1,2，以接收影像X₀的所有資料。於本實施例中，隱藏層402接收具有A×B×3的尺寸的先前卷積神經網路權重資料D_d，包括D_d,0,0,0、D_d,0,0,1、D_d,0,0,2、...、D_d,A-1,B-1,0、D_d,A-1,B-1,1至D_d,A-1,B-1,2的資料。

因此，卷積神經網路單元CNN₀根據影像X₀以及先前卷積神經網路權重資料D_d進行卷積，以使輸出層403產生包含h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、...、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的運算結果。

於一實施例中，各運算結果h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、...、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的數值表示切割物件的類別的機率。因此，對各畫素來說，運算結果，例如h_0,0,0,0、h_0,0,0,1、h_0,0,0,2的其中之一具有最大值者，將被選擇輸出為當下影像切割結果h₀的其中一個像素。舉例而言，當運算結果h_0,0,0,1具有大於運算結果h_0,0,0,0以及運算結果h_0,0,0,2的數值時，運算結果h_0,0,0,1將被選擇為當下影像切割結果h₀的輸出像素。

於一實施例中，第3圖所繪示的遞歸神經網路3為Elman網路，其中隱藏層402亦產生隱藏層運算結果，做為下一個卷積神經網路單元，例如卷積神經網路單元CNN₁的先前卷積神經網路權重資料D₀，包含D_0,0,0,0、D_0,0,0,1、D_0,0,0,2、...、D_0,A-1,B-1,0、D_0,A-1,B-1,1至D_0,A-1,B-1,2的資料，以使下一個卷積神經網路單元(例如卷積神經網路單元CNN₁)的輸入層以及隱藏層分別接收影像X₁及先前卷積神經網路權重資料D₀據以進行卷積。

需注意的是，第4圖中所繪示的各輸入層401、隱藏層402以及輸出層403的運算節點的數目僅為一範例。於其他實施例中，運算節點的數目可依實際應用而有所不同。

請參照第5圖。第5圖為本發明一實施例中，卷積神經網路單元500的範例性示意圖。於一實施例中，於第3圖所繪示的各卷積神經網路單元CNN₀、CNN₁、CNN₂、...或CNN_N可由卷積神經網路單元500所實現。

於一實施例中，卷積神經網路單元500包括輸入層501、隱藏層502以及輸出層503。於一實施例中，各輸入層501、隱藏層502以及輸出層503包括複數個運算節點。

當卷積神經網路單元500被用來實現卷積神經網路單元CNN₀時，輸入層501配置以接收具有例如，但不限於A×B的尺寸且具有三個資料通道的影像X₀，其中影像X₀的各個畫素具有三個通道的資料。舉例而言，對應於位置(0,0)的畫素具有三個通道的資料，包括X_0,0,0,0、X_0,0,0,1及X_0,0,0,2。其中，下標的第一位數代表影像，第二位數及第三位數代表畫素的座標，第四位數代表通道數目。

因此，本實施例中的輸入層501具有A×B×3個運算點，分別對應X_0,0,0,0、X_0,0,0,1、X_0,0,0,2、...、X_0,A-1,B-1,0、X_0,A-1,B-1,1至X_0,A-1,B-1,2，以接收影像X₀的所有資料。於本實施例中，隱藏層502接收具有A×B×3的尺寸的先前卷積神經網路權重資料D_d，包括D_d,0,0,0、D_d,0,0,1、D_d,0,0,2、...、D_d,A-1,B-1,0、D_d,A-1,B-1,1至D_d,A-1,B-1,2的資料。

因此，卷積神經網路單元CNN₀根據影像X₀以及先前卷積神經網路權重資料D_d進行卷積，以使輸出層503產生包含h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、...、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2的運算結果。

於一實施例中，第3圖所繪示的遞歸神經網路3為Jordan網路，其中由輸出層503產生的運算結果h_0,0,0,0、h_0,0,0,1、h_0,0,0,2、...、h_0,A-1,B-1,0、h_0,A-1,B-1,1至h_0,A-1,B-1,2做為下一個卷積神經網路單元，例如卷積神經網路單元CNN₁的先前卷積神經網路權重資料D₀，包含D_0,0,0,0、D_0,0,0,1、D_0,0,0,2、...、D_0,A-1,B-1,0、D_0,A-1,B-1,1至D_0,A-1,B-1,2的資料，以使下一個卷積神經網路單元(例如卷積神經網路單元CNN₁)的輸入層以及隱藏層分別接收影像X₁及先前卷積神經網路權重資料D₀據以進行卷積。

需注意的是，第5圖中所繪示的各輸入層501、隱藏層502以及輸出層503的運算節點的數目僅為一範例。於其他實施例中，運算節點的數目可依實際應用而有所不同。

需注意的是，在部分實施例中，先前卷積神經網路權重資料亦可由下一卷積神經網路單元的輸入層接收，以使下一卷積神經網路單元據以進行卷積。

在本發明的影像分割裝置1及影像分割方法200中，卷積神經網路單元CNN₀、CNN₁、CNN₂、...及CNN_N形成遞歸神經網路，以使各卷積神經網路單元CNN₀、CNN₁、CNN₂、...及CNN_N可根據對應當下時間點的當下影像以及對應先前時間點的先前卷積神經網路權重資料進行影像切割。根據上述方法所產生的影像切割結果，將具有較平滑的邊緣，並因為時序的資訊而具有較少的抖動。更進一步地，因為時序的資訊，隨時間逐漸改變角度的物件亦可被辨識出。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的原則之內所作的任何修改，等同替換和改進等均應包含本發明的保護範圍之內。

200‧‧‧影像切割方法

201-203‧‧‧步驟

Claims

一種影像切割(image segmentation)方法，用以透過由一影像切割裝置實現之一神經網路(neural network)執行影像切割，該影像切割方法包括：由該神經網路之一當下卷積神經網路(convolution neural network；CNN)單元接收一先前卷積神經網路權重資料，其中該先前卷積神經網路權重資料是由該神經網路之一先前卷積神經網路單元根據一影像資料中對應一先前時間點的一先前影像產生；由該當下卷積神經網路單元接收該影像資料中對應一當下時間點的一當下影像，其中該當下時間點鄰接於該先前時間點後；以及由該當下卷積神經網路單元根據該先前卷積神經網路權重資料以及該當下影像進行卷積，以產生一當下影像切割結果。
如請求項1所述的影像切割方法，其中該先前卷積神經網路權重資料包含由該先前卷積神經網路單元的一輸出層所輸出的複數先前輸出層運算結果，或是由該先前卷積神經網路單元的一隱藏層(hidden layer)所輸出的複數先前隱藏層運算結果。
如請求項1所述的影像切割方法，更包含：由該當下卷積神經網路單元之一輸入層接收該先前卷積神經網路權重資料以及該當下影像；以及根據該先前卷積神經網路權重資料以及該當下影像進行卷積，以由該當下卷積神經網路單元之一輸出層產生該當下影像切割結果。
如請求項1所述的影像切割方法，更包含：由該當下卷積神經網路單元之一輸入層接收該當下影像；由該當下卷積神經網路單元之一隱藏層接收該先前卷積神經網路權重資料；以及根據該先前卷積神經網路權重資料以及該當下影像進行卷積，以由該當下卷積神經網路單元之一輸出層產生該當下影像切割結果。
如請求項1所述的影像切割方法，更包含：選擇複數個當下運算結果中其中之一具有一最大值者以產生該當下影像切割結果，其中該等當下運算結果是由該當下卷積神經網路單元之一輸出層產生；以及傳送一當下卷積神經網路權重資料至一下一卷積神經網路單元，其中該當下卷積神經網路權重資料為該等當下運算結果或是由該當下卷積神經網路單元的一隱藏層所輸出的複數當下隱藏層運算結果。
如請求項1所述的影像切割方法，其中該神經網路為一遞歸神經網絡(recurrent neural network；RNN)，包含複數個卷積神經網路單元，該等卷積神經網路單元包含該先前卷積神經網路單元以及該當下卷積神經網路單元。
如請求項1所述的影像切割方法，其中當該先前卷積神經網路單元不存在時，該先前卷積神經網路權重資料為一預設虛擬資料(dummy data)。
一種影像切割裝置，包括：一儲存單元，配置以儲存複數電腦可執行指令；以及一處理單元，電性耦接於該儲存單元，並配置以擷取並執行該等電腦可執行指令，以執行一影像切割方法，該影像切割方法用以透過由該處理單元執行該等電腦可執行指令時實現之一神經網路執行影像切割，該影像切割方法包括：由該神經網路之一當下卷積神經網路單元接收一先前卷積神經網路權重資料，其中該先前卷積神經網路權重資料是由該神經網路之一先前卷積神經網路單元根據一影像資料中對應一先前時間點的一先前影像產生；由該當下卷積神經網路單元接收該影像資料中對應一當下時間點的一當下影像，其中該當下時間點鄰接於該先前時間點後；以及由該當下卷積神經網路單元根據該先前卷積神經網路權重資料以及該當下影像進行卷積，以產生一當下影像切割結果。
如請求項8所述的影像切割裝置，其中該先前卷積神經網路權重資料包含由該先前卷積神經網路單元的一輸出層所輸出的複數先前輸出層運算結果，或是由該先前卷積神經網路單元的一隱藏層所輸出的複數先前隱藏層運算結果。
如請求項8所述的影像切割裝置，其中該影像切割方法更包含：由該當下卷積神經網路單元之一輸入層接收該先前卷積神經網路權重資料以及該當下影像；以及根據該先前卷積神經網路權重資料以及該當下影像進行卷積，以由該當下卷積神經網路單元之一輸出層產生該當下影像切割結果。