TWI790471B

TWI790471B - 基於深度學習的影像校正方法及系統

Info

Publication number: TWI790471B
Application number: TW109129193A
Authority: TW
Inventors: 李冠德; 黃名嘉; 林宏軒; 李宇哲; 羅佳玲
Original assignee: 財團法人工業技術研究院
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-01-21
Also published as: DE102020134888A1; IL279443A; TW202209175A; US20220067881A1; CN114119379A; NO20210058A1; JP2022039895A; JP7163356B2

Abstract

一種基於深度學習的影像校正方法及系統。影像校正方法包括以下步驟。透過一深度學習模型接收具有至少一字元之一影像，並根據影像產生一透視變換矩陣。根據透視變換矩陣對影像執行一透視變換，以獲得包含此至少一字元之正面視角之一校正影像。根據影像產生包含此至少一字元之正面視角之一最佳校正影像。獲得對應影像與最佳校正影像之一最佳透視變換矩陣。計算最佳透視變換矩陣與透視變換矩陣之間之一損失值。使用損失值更新深度學習模型。

Description

基於深度學習的影像校正方法及系統

本發明是有關於一種影像校正方法及系統，且特別是有關於一種基於深度學習的影像校正方法及系統。

在影像辨識領域中，特別是影像中的字元辨識，通常需要在影像中先找出具有字元的區域影像，並將此區域影像校正成正面視角的影像，以便後續的辨識模型進行字元辨識。影像校正程序可將各種不同視角、距離的影像，轉成同一角度與距離之正面視角的影像，此程序可加快辨識模型的學習以及提高辨識正確率。

然而，在目前的技術中，影像校正程序仍需依靠傳統影像處理方法，以人工找出旋轉參數，並反覆調整參數才可提升影像校正程序的正確率。此外，影像校正程序也可由人工智慧(AI)執行，但是僅能找出順時針/逆時針旋轉角度，無法適用於複雜的影像縮放、位移、傾斜等。

因此，如何有效率地並正確地將各種影像校正成正面視角的影像，已成為產業界致力研究的一項目標。

本發明係有關於一種基於深度學習的影像校正方法及系統，其利用深度學習模型找出影像校正程序中的透視變換參數以有效率地將各種影像校正成正面視角的影像，並透過損失值更新深度學習模型以提高正確率。

根據本發明之一實施例，提出一種基於深度學習的影像校正方法。影像校正方法包括以下步驟。透過一深度學習模型接收具有至少一字元之一影像，並根據影像產生一透視變換矩陣。根據透視變換矩陣對影像執行一透視變換，以獲得包含此至少一字元之正面視角之一校正影像。根據影像產生包含此至少一字元之正面視角之一最佳校正影像。獲得對應影像與最佳校正影像之一最佳透視變換矩陣。計算最佳透視變換矩陣與透視變換矩陣之間之一損失值。使用損失值更新深度學習模型。

根據本發明之另一實施例，提出一種基於深度學習的影像校正系統。影像校正系統包括一深度學習模型、一處理單元及一模型調整單元。深度學習模型用以接收具有至少一字元之一影像，並根據影像產生一透視變換矩陣。處理單元用以接收影像及透視變換矩陣，並根據透視變換矩陣對影像執行一透視變換，以獲得包含此至少一字元之正面視角之一校正影像。模型訓練單元用以接收影像、根據影像產生包含此至少一字元之正面視角之一最佳校正影像、獲得對應影像與最佳校正影像之一最佳透視變換矩陣、計算最佳透視變換矩陣與透視變換矩陣之間之一損失值、並使用損失值更新深度學習模型。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

100,1100:影像校正系統

110,1110:深度學習模型

120,1120:處理單元

130,1130:模型調整單元

1140:影像擷取單元

IMG1,IMG3,IMG5:影像

IMG2,IMG6:校正影像

IMG4:延伸影像

L,L’:損失值

T,T’:透視變換矩陣

S110,S120,S130,S131,S132,S133,S134,S135,S1110,S1120,S1130,S1140,S1150:步驟

A,B,C,D,A’,B’,C’,D’:標記點

R,R’:標記範圍

BLK:空白影像

SI:拍攝資訊

第1圖繪示根據本發明一實施例之基於深度學習的影像校正系統的示意圖；第2圖繪示根據本發明一實施例之基於深度學習的影像校正方法的流程圖；第3圖繪示根據本發明一實施例之具有車牌之影像的示意圖；第4圖繪示根據本發明另一實施例之具有路標之影像的示意圖；第5圖繪示根據本發明一實施例之校正影像的示意圖；第6圖繪示根據本發明一實施例之步驟S130的子步驟的流程圖；第7圖繪示根據本發明一實施例之影像上之標記的示意圖；第8圖繪示根據本發明一實施例之影像及延伸影像的示意圖；第9圖繪示根據本發明一實施例之最佳校正影像之示意圖；第10圖繪示根據本發明一實施例之基於深度學習的影像校正系統的示意圖；及第11圖繪示根據本發明另一實施例之基於深度學習的影像校正方法的流程圖。

請參照第1圖，其繪示根據本發明一實施例之基於深度學習的影像校正系統100的示意圖。影像校正系統100包括一深度學習模型110、一處理單元120及一模型調整單元130。深度學習模型110例如是卷積神經網路模型(CNN)。處理單元120及模型調整單元130例如是一晶片、一電路板或一電路。

請同時參照第1及2圖。第2圖繪示根據本發明一實施例之基於深度學習的影像校正方法的流程圖。

步驟S110，透過深度學習模型110接收具有至少一字元之影像IMG1，並根據影像IMG1產生透視變換矩陣T。影像IMG1可為包含一車牌、一路標、一序號或一招牌等任何具有至少一字元之影像。字元例如包括數字、英文字、橫槓、標點符號或上述之組合。請參照第3及4圖。第3圖繪示根據本發明一實施例之具有車牌之影像IMG1的示意圖。在第3圖中，影像IMG1具有字元「ABC-5555」。第4圖繪示根據本發明另一實施例之具有路標之影像IMG1的示意圖。在第4圖中，影像IMG1中具有字元「WuXing St.」。深度學習模型110為已預先訓練之模型，可以影像IMG1作為深度學習模型110的輸入，接著深度學習模型110輸出對應影像IMG1之透視變換矩陣T。透視變換矩陣T包含多個透視變換參數T₁₁、T₁₂、T₁₃、T₂₁、T₂₂、T₂₃、T₃₁、T₃₂以及1，如式一所示。

步驟S120，處理單元120根據透視變換矩陣T對影像IMG1執行一透視變換，以獲得包含此至少一字元之正面視角之校正影像IMG2。處理單元120根據透視變換矩陣T對影像IMG1執行透視變換，以將影像IMG1轉換成包含此至少一字元之正面視角之校正影像IMG2。請參照第5圖，其繪示根據本發明一實施例之校正影像IMG2的示意圖。以第3圖之具有車牌之影像IMG1為例，根據透視變換矩陣T對影像IMG1執行透視變換之後，可獲得如第5圖所示之校正影像IMG2。

步驟S130，模型調整單元130使用損失值L更新深度學習模型110。請參照第6圖，其繪示根據本發明一實施例之步驟S130的子步驟的流程圖。步驟S130包括步驟S131至S135。

步驟S131，模型調整單元130標記影像IMG1，此標記具有涵蓋字元之一標記範圍。請參照第7圖，其繪示根據本發明一實施例之影像IMG1上之標記的示意圖。影像IMG1上之標記包括標記點A、B、C及D，且標記點A、B、C及D可形成標記範圍R涵蓋字元。在此實施例中，影像IMG1為具有車牌之影像，標記點A、B、C及D可位於車牌的四個角落，且標記範圍R為一四邊形。在另一實施例中，若影像IMG1為如第4圖所示之具有路標之影像，標記點A、B、C及D可位於路標的四個角落，且標記範圍為一四邊形。在另一實施例中，若影像IMG1中的字元並非位於如車牌、路標等幾何圖形的物件上時，則模型調整單元130只需使標記範圍涵蓋字元即可。在另一實施例中，模型調整單元130也可直接接收已標記之影像，而不執行標記。

請參照第8圖，其繪示根據本發明一實施例之影像IMG3及延伸影像IMG4的示意圖。在一實施例中，當無法透過標記範圍涵蓋影像IMG3中的字元時，或是當影像IMG3中的字元部分超出影像IMG3時，模型調整單元130延伸影像IMG3以獲得延伸影像IMG4，並標記延伸影像IMG4，使標記範圍R’涵蓋字元。在此實施例中，模型調整單元130係增加空白影像BLK至影像IMG3以獲得延伸影像IMG4。

請再次參照第7圖。接著，步驟S132，模型調整單元130根據影像IMG1產生包含字元之正面視角之最佳校正影像。在此實施例中，模型調整單元130將影像IMG1上位於標記點A、B、C及D之像素分別對齊至影像之四個角落；而後，對於影像IMG1執行透視變換以得到具有正面視角的校正影像IMG2，而後再獲得最佳校正影像。請參照第9圖，其繪示根據本發明一實施例之最佳校正影像之示意圖。如第9圖所示，最佳校正影像具有字元之正面視角。

步驟S133，模型調整單元130獲得對應影像IMG1與最佳校正影像之一最佳透視變換矩陣。由於影像IMG1與最佳校正影像之間具有透視變換的關係，因此模型調整單元130可由影像IMG1與最佳校正影像推算一透視變換矩陣作為最佳透視變換矩陣。

步驟S134，模型調整單元130計算最佳透視變換矩陣與透視變換矩陣T之間之一損失值L。接著，步驟S135，模型調整單元130使用損失值L更新深度學習模型110。如第5圖所示，由於根據透視變換矩陣T對影像IMG1執行透視變換所獲得之校正影像IMG2未達到一最佳結果，因此可透過模型調整單元130使用損失值L對深度學習模型110進行更新。

如此一來，本案所揭露之深度學習的影像校正系統100及方法，可利用深度學習模型找出影像校正程序中的透視變換參數以有效率地將各種影像校正成正面視角的影像，並透過損失值更新深度學習模型以提高正確率。

請參考第10圖，其繪示根據本發明一實施例之基於深度學習的影像校正系統1100的示意圖。影像校正系統1100與影像校正系統100不同的是更包括一影像擷取單元1140。影像擷取單元1140例如是一相機。請同時參照第10及11圖。第11圖繪示根據本發明另一實施例之基於深度學習的影像校正方法的流程圖。

步驟S1110，透過影像擷取單元1140拍攝具有至少一字元之影像IMG5。

步驟S1120，透過深度學習模型1110接收影像IMG5，並根據影像IMG5產生透視變換矩陣T’。步驟S1120類似於第2圖之步驟S110，在此不多贅述。

步驟S1130，透過深度學習模型1110接收拍攝資訊SI，並依據拍攝資訊SI限縮透視變換矩陣T’之複數個透視變換參數。拍攝資訊SI為一拍攝位置、一拍攝方向及一拍攝角度。拍攝位置、拍攝方向及拍攝角度可分別由3個參數、2個參數及1個參數表示。透視變換矩陣T’包含多個透視變換參數T’₁₁、T’₁₂、T’₁₃、T’₂₁、T’₂₂、T’₂₃、T’₃₁、T’₃₂以及1，如式二所示。其中透視變換參數T’₁₁、T’₁₂、T’₁₃、T’₂₁、 T’₂₂、T’₂₃、T’₃₁、T’₃₂可由拍攝位置、拍攝方向及拍攝角度的6個參數所決定。

首先，深度學習模型1110給定拍攝位置、拍攝方向及拍攝角度的6個參數的合理範圍，並以網格搜尋演算法計算透視變換參數T’_mn，並得到T’_mn的最大值L_mn及最小值S_mn。接著，深度學習模型1110透過式三計算每個透視變換參數T’_mn。

T’_mn=S_mn+(L_mn-S_mn)σ(Z_mn) (式三)其中Z_mn為無範圍限制的數值，以及σ為值域介於0到1的邏輯函數。如此，深度學習模型1110可確保透視變換參數T’₁₁、T’₁₂、T’₁₃、T’₂₁、T’₂₂、T’₂₃、T’₃₁、T’₃₂落於合理範圍。

步驟S1140，處理單元1120根據透視變換矩陣T’對影像IMG5執行一透視變換，以獲得包含此至少一字元之正面視角之校正影像IMG6。步驟S1140類似於第2圖之步驟S120，在此不多贅述。

步驟S1150，使用損失值L’更新深度學習模型1110。步驟S1150類似於第2圖之步驟S130，在此不多贅述。

如此一來，本案所揭露之深度學習的影像校正系統1100及方法，可利用拍攝資訊SI限縮透視變換參數的範圍，以提高深度學習模型1110的正確率，以及使深度學習模型1110更易於訓練。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

S110,S120,S130:步驟

Claims

一種基於深度學習的影像校正方法，包括：透過一深度學習模型接收具有至少一字元之一影像，並根據該影像產生一透視變換矩陣；透過一處理單元根據該透視變換矩陣對該影像執行一透視變換，以獲得包含該至少一字元之正面視角之一校正影像；透過一模型調整單元根據該影像產生包含該至少一字元之正面視角之一最佳校正影像；當一標記範圍無法涵蓋該至少一字元時，透過該模型調整單元增加一空白影像至該影像以獲得一延伸影像；透過該模型調整單元標記該延伸影像，使該標記範圍涵蓋該至少一字元；透過該模型調整單元獲得對應該影像與該最佳校正影像之一最佳透視變換矩陣；透過該模型調整單元計算該最佳透視變換矩陣與該透視變換矩陣之間之一損失值；以及透過該模型調整單元使用該損失值更新該深度學習模型。
如請求項1所述之影像校正方法，其中在根據該影像產生包含該至少一字元之正面視角之該最佳校正影像的步驟中包括：透過該模型調整單元標記該影像，該標記具有涵蓋該至少一字元之一標記範圍。
如請求項1所述之影像校正方法，其中更包括：透過一影像擷取單元擷取該影像；以及透過該處理單元根據該影像擷取單元之一拍攝資訊限縮該透視變換矩陣之複數個透視變換參數。
如請求項3所述之影像校正方法，其中該拍攝資訊包括一拍攝位置、一拍攝方向及一拍攝角度。
一種基於深度學習的影像校正系統，包括：一深度學習模型，用於執行以下動作：接收具有至少一字元之一影像，並根據該影像產生一透視變換矩陣；一處理單元，用於執行以下動作：接收該影像及該透視變換矩陣，並根據該透視變換矩陣對該影像執行一透視變換，以獲得包含該至少一字元之正面視角之一校正影像；以及一模型調整單元，用於執行以下動作：接收該影像，並根據該影像產生包含該至少一字元之正面視角之一最佳校正影像；當一標記範圍無法涵蓋該至少一字元時，增加一空白影像至該影像以獲得一延伸影像；標記該延伸影像，使該標記範圍涵蓋該至少一字元；獲得對應該影像與該最佳校正影像之一最佳透視變換矩陣；計算該最佳透視變換矩陣與該透視變換矩陣之間之一損失值；以及使用該損失值更新該深度學習模型。
如請求項5所述之影像校正系統，其中該模型調整單元更標記該影像，該標記具有涵蓋該至少一字元之一標記範圍。
如請求項5所述之影像校正系統，其中更包括：一影像擷取單元，用以擷取該影像；其中該處理單元根據該影像擷取單元之一拍攝資訊限縮該透視變換矩陣之複數個透視變換參數。
如請求項7所述之影像校正系統，其中該拍攝資訊包括一拍攝位置、一拍攝方向及一拍攝角度。