TWI753332B

TWI753332B - 圖片處理方法

Info

Publication number: TWI753332B
Application number: TW108145601A
Authority: TW
Inventors: 王彥翔; 朱俊翰; 吳思為; 劉家瑀; 陳聖文
Original assignee: 萬里雲互聯網路有限公司
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-01-21
Also published as: TW202123167A

Abstract

一種圖片處理方法，包括：依據圖片分類神經模型，識別圖片的類型；若圖片屬於具有簡單背景的類型，依據物件偵測神經模型，偵測圖片中的主體及非主體；將圖片中的非主體移除，使得主體與非主體相互重疊的區域形成一缺失部；以及依據圖片修補神經模型，對缺失部修補以復原主體。

Description

圖片處理方法

本發明是有關於一種圖片編修技術，尤指一種利用人工智慧對圖片自動編修的方法。

網路販售通路，如拍賣網、購物網等，會呈現販售商品的圖片，讓使用者可以看到實品照片。然而，通路商往往會要求供貨商提供清楚的圖片，避免在圖片上顯示不必要的資訊（如文字、圖案）。因此，供貨商需要額外付出時間、人力來編修出合乎需求的圖片，十分不便。

有鑑於此，本發明實施例提出一種圖片處理方法，包括：依據圖片分類神經模型，識別圖片的類型；若圖片屬於具有簡單背景的類型，依據物件偵測神經模型，偵測圖片中的主體及非主體；將圖片中的非主體移除，使得主體與非主體相互重疊的區域形成一缺失部；以及依據圖片修補神經模型，對缺失部修補以復原主體。

綜上所述，根據本發明的實施例，能自動偵測並移除圖片中的非主體，並且能夠對主體進行修補，可匹量的取得合乎需求的圖片。

參照圖1，係為本發明一實施例之圖片處理方法流程圖。所述圖片處理方法係可由一電子裝置執行。參照圖2係為本發明一實施例之電子裝置之架構示意圖。電子裝置包括處理器221、記憶體222、非暫態電腦可讀取記錄媒體223、周邊介面224、及供上述元件彼此通訊的匯流排225。處理器221包括但不限於中央處理單元（CPU）2213和神經網路處理器（NPU）2215。記憶體222包括但不限於揮發性記憶體（如隨機存取記憶體（RAM））2224和非揮發性記憶體（如唯讀記憶體（ROM））2226。非暫態電腦可讀取記錄媒體223可例如為硬碟、固態硬碟等。周邊介面224可例如包括輸入輸出介面、繪圖介面、通訊介面（如網路介面）等。匯流排225包括但不限於系統匯流排、記憶體匯流排、周邊匯流排等一種或多種之組合。

電子裝置可以是由一個或多個計算裝置所構成。在一些實施例中，電子裝置可支援雲端計算服務，供其他連網裝置連接存取。雲端計算服務包括但不限於例如基礎結構即服務（infrastructure as a service）、平臺即服務（platform as a service）、軟體即服務（software as a service）、儲存即服務（storage as a service）、桌面即服務（desktop as a service）、資料即服務（data as a service）、安全即服務（security as a service）、以及API（應用程式介面）即服務（API as a service）。

合併參照圖1及圖3。圖3為本發明一實施例之圖片處理架構示意圖。在步驟S110中，係將待處理的圖片400輸入至圖片分類神經模型310中，以依據圖片分類神經模型310，識別圖片400的類型。並於步驟S120中，判斷圖片是否屬於能夠處理的類型。若識別出的圖片類型屬於能夠處理的類型，則將該圖片400輸入至物件偵測神經模型320中，以偵測該圖片400中的主體及非主體（步驟S130）。在此，能夠處理的類型為圖片400中具有簡單背景的類型。反之，若為不能夠處理的類型，在此為具有重複物件的類型或具有複雜背景的類型，則結束流程。所述簡單背景是指背景為漸層色彩、均一色彩、黑白、透明等。所述重複物件是指圖片400具有重複的主體。所述複雜背景是指不具規則的照片或圖畫，例如風景、情境、人文等。所述主體為一商品，但本發明非以此為限，例如主體可以是人物、動物等生物，或者為商品、建物等非生物。所述非主體可以是文字或/及圖案，文字可例如是說明性文字（如廣告文案、商品描述、商標、浮水印），圖案可例如是促銷圖案、邊框、浮水印、商標等。

請參照圖4與圖5，圖4為本發明一實施例之原始圖片400之示意圖，圖5為本發明一實施例之移除非主體420的圖片400之示意圖。如圖4所示，圖片400包括主體410及非主體420。在此，主體410以一液晶螢幕商品為例，非主體420為位於主體410左上方的廣告文字（包含藍色圓形底圖）及位於主體410右下方的商標。在步驟S140中，將圖片400中的非主體420移除，使得主體410與非主體420相互重疊的區域形成一缺失部430（如圖5所示）。在一些實施例中，還可將主體410外部的區域去除（去背）。

復參照圖1及圖3，在步驟S150中，將具有缺失部430的圖片400輸入至圖片修補神經模型330，以依據圖片修補神經模型330，對缺失部430進行修補以復原主體410。參照圖6，係顯示修補後的圖片400的示意圖。

參照圖7，係為本發明一實施例之圖片分類神經模型310之示意圖。圖片分類神經模型310是利用多任務學習的方式，包括一特徵抽取神經模型312及複數子神經網路模型314。圖片400輸入至特徵抽取神經模型312之後，特徵抽取神經模型312能取得圖片400的複數特徵向量。特徵抽取神經模型312可以例如使用谷歌公司的EfficientNet開源模型，但本發明不以此為限。複數子神經網路模型314在此以三個為例，分別用於識別出不同類型的圖片，因此各子神經網路模型314的參數不相互共享。舉例而言，第一個子神經網路模型314用於識別圖片400中是否有圖案，第二個子神經網路模型314用於識別圖片400是否具有重複物件，第三個子神經網路模型314用於識別圖片400是否具有複雜背景。所述子神經網路模型314可以利用MobileNetV2中的反向殘差塊（inverted residual block）來實現。

參照圖8，係為本發明一實施例之物件偵測神經模型320之示意圖，係使用RetinaNet架構。物件偵測神經模型320先利用殘差網路（Residual Network，ResNet）321來對圖片400抽取特徵圖譜（Feature Map），所抽取的特徵圖譜利用特徵金字塔網路（Feature Pyramid Networks，FPN）323來對每一層的特徵進行預測（predict）。每一預測分別輸入至一子神經網路模型325。每一個子神經網路模型325包括類別子網路（Class Subnet）3251及框子網路（Box Subnet）3252。類別子網路3251用以取得物件類別，框子網路3252用以取得物件位置。

在一實施例中，對圖片分類神經模型310及物件偵測神經模型320的訓練方式說明如下。參照圖9，係本發明一實施例之訓練圖片之產生示意圖，用以說明如何產生訓練圖片。第一，提供多個資料集。在此資料集包括內含複雜背景圖片的第一資料集510、內含簡單背景圖片的第二資料集520、內含主體圖片的第三資料集530、及內含非主體圖片的第四資料集540。在一些實施例中，主體圖片包括主體及單純的背景（如白色背景）。第二，隨機自第一資料集510或第二資料集520中挑選一第一圖片601、自第三資料集530中挑選一第二圖片602、自第四資料集540中挑選一第三圖片603。第三，合成第一圖片601、第二圖片602及第三圖片603為一訓練圖片700。重複上述步驟，可隨機生成多張訓練圖片700。依據此些訓練圖片700可對於圖片分類神經模型310及物件偵測神經模型320進行訓練。

在一些實施例中，由於訓練圖片700是自行生成的。在生成的同時，可以得知第一圖片601是從第一資料集510或第二資料集520中何者選出的，可據以產生一第一標記，即標記為複雜或簡單。並且，也能夠知道第二圖片602及第三圖片603在訓練圖片700中的位置、大小，從而可以產生標註主體410的第二標記及標註非主體420的第三標記。標註方式可例如使用方框等幾何圖形或按照物件輪廓圈選主體410與非主體420。於是，在訓練時，可依據第一標記、第二標記及第三標記，驗證圖片分類神經模型310及物件偵測神經模型320的輸出，以更新圖片分類神經模型310及物件偵測神經模型320的參數。也就是說，在對圖片分類神經模型310及物件偵測神經模型320進行訓練時，是依據訓練圖片700及第一標記、第二標記及第三標記進行。

參照圖10，係為本發明一實施例之圖片修補神經模型330之示意圖，係使用EdgeConnect架構。圖片修補神經模型330包括一邊緣產生器332及一修補產生器334。首先，依據具有缺失部430的圖片400產生灰階圖（Grayscale）、邊緣（Edge）和遮罩（Mask），並輸入至邊緣產生器332，以產生預測的邊緣圖。接著，將預測的邊緣圖和所述具有缺失部430的圖片400輸入至修補產生器334，以進行圖片修補，而於輸出端獲得修補後的圖片400。在此，邊緣產生器332由一產生器（Generator）3321及一判別器（Discriminator）3322構成。修補產生器334也由一產生器3341及一判別器3342構成。每一產生器3321、3341包括有編碼器（Encoder）、擴張捲積（Dilated Convolution）、殘差塊（Residual Block）及解碼器（Decoder）。每一判別器3322、3342包括有複數捲積層。

在一實施例中，對圖片修補神經模型330的訓練方式說明如下。第一，對邊緣產生器332進行訓練。先將一張或多張前述訓練圖片700隨機遮蔽一區域以形成的複數訓練資料。再將此些訓練資料輸入至邊緣產生器332，以獲得邊緣產生器332輸出的偵測結果。另一方面，利用邊緣偵測演算法（例如Canny 邊緣檢測）計算出該些訓練資料的邊緣，以驗證邊緣產生器332的偵測結果。在一些實施例，訓練圖片700為灰階圖，或預先將訓練圖片700轉為灰階圖。第二，對修補產生器334進行訓練。具體的，是將前述邊緣偵測演算法對於訓練圖片700計算出的邊緣以及訓練資料輸入至修補產生器334，以獲得修補產生器334的偵測結果，並驗證修補的準確度。第三，凍結邊緣產生器332的參數更新，而利用該些訓練資料對於邊緣產生器332及修補產生器334進行訓練。

綜上所述，根據本發明的實施例，能自動偵測並移除圖片400中的非主體420，並且能夠對主體410進行修補，可匹量的取得合乎需求的圖片400。

221:處理器 222:記憶體 223:非暫態電腦可讀取記錄媒體 224:周邊介面 225:匯流排 2213:中央處理單元 2215:神經網路處理器 2224:揮發性記憶體 2226:非揮發性記憶體 310:圖片分類神經模型 312:特徵抽取神經模型 314:子神經網路模型 320:物件偵測神經模型 321:殘差網路 323:特徵金字塔網路 325:子神經網路模型 3251:類別子網路 3252:框子網路 330:圖片修補神經模型 332:邊緣產生器 3321:產生器 3322:判別器 334:修補產生器 3341:產生器 3342:判別器 400:圖片 410:主體 420:非主體 430:缺失部 510:第一資料集 520:第二資料集 530:第三資料集 540:第四資料集 601:第一圖片 602:第二圖片 603:第三圖片 700:訓練圖片 S110、S120、S130、S140、S150:步驟

[圖1]為本發明一實施例之圖片處理方法流程圖。 [圖2]為本發明一實施例之電子裝置之架構示意圖。 [圖3]為本發明一實施例之圖片處理架構示意圖。 [圖4]為本發明一實施例之原始圖片之示意圖。 [圖5]為本發明一實施例之移除非主體的圖片之示意圖。 [圖6]為本發明一實施例之修補後的圖片之示意圖。 [圖7]為本發明一實施例之圖片分類神經模型之示意圖。 [圖8]為本發明一實施例之物件偵測神經模型之示意圖。 [圖9]為本發明一實施例之訓練圖片之產生示意圖。 [圖10]為本發明一實施例之圖片修補神經模型之示意圖。

S110、S120、S130、S140、S150:步驟

Claims

一種圖片處理方法，包括：依據一圖片分類神經模型，識別一圖片的類型；若該圖片屬於一具有簡單背景的類型，依據一物件偵測神經模型，偵測該圖片中的一主體及一非主體，該主體具有與該非主體相互重疊的一重疊區域；將該圖片中的該非主體移除，使得該主體的該重疊區域形成一缺失部；以及依據一圖片修補神經模型，對該缺失部修補以復原該主體。
如請求項1所述之圖片處理方法，其中所述依據該圖片分類神經模型，識別該圖片的類型之步驟，包括：依據一特徵抽取神經模型，取得該圖片的複數特徵向量；以及分別輸入該些特徵向量至複數子神經網路模型，各該子神經網路模型具有不相互共享的參數，以分別對於不同圖片類型進行識別。
如請求項2所述之圖片處理方法，其中該圖片的類型還包括不屬於該具有簡單背景的類型的一具有重複物件的類型及一具有複雜背景的類型。
如請求項3所述之圖片處理方法，其中所述識別一圖片的類型之步驟之結果若為該具有重複物件的類型或該具有複雜背景的類型，則不對該圖片進行處理。
如請求項1所述之圖片處理方法，其中該圖片修補神經模型包括一邊緣產生器及一修補產生器。
如請求項5所述之圖片處理方法，更包括對該圖片修補神經模型進行訓練的步驟，包括：利用將一訓練圖片隨機遮蔽一區域所形成的複數訓練資料輸入至該邊緣產生器，並依據一邊緣偵測演算法驗證該邊緣產生器的偵測結果；利用該邊緣偵測演算法對於該訓練圖片計算出的邊緣以及該些訓練資料對該修補產生器訓練；以及凍結該邊緣產生器的參數更新，而利用該些訓練資料對於該邊緣產生器及該修補產生器進行訓練。
如請求項1所述之圖片處理方法，其中該非主體為一文字或一圖案。
如請求項1所述之圖片處理方法，其中該主體為一商品。
如請求項1所述之圖片處理方法，更包括：提供多個資料集，該些資料集包括內含複雜背景圖片的一第一資料集、內含簡單背景圖片的一第二資料集、內含主體圖片的一第三資料集、及內含非主體圖片的一第四資料集；隨機自該第一資料集或該第二資料集中挑選一第一圖片、自該第三資料集中挑選一第二圖片、自該第四資料集中挑選一第三圖片；合成該第一圖片、該第二圖片及該第三圖片為一訓練圖片；以及依據該訓練圖片訓練該圖片分類神經模型及該物件偵測神經模型。
如請求項9所述之圖片處理方法，更包括：依據該第一圖片是從該第一資料集或該第二資料集中何者選出的，產生一第一標記；以及依據該第二圖片及該第三圖片在該訓練圖片中的位置、大小，分別產生一第二標記及一第三標記；其中，所述依據該訓練圖片訓練該圖片分類神經模型及該物件偵測神經模型的步驟還依據該第一標記、第二標記、及第三標記進行訓練。