TWI748861B

TWI748861B - 字元分行方法

Info

Publication number: TWI748861B
Application number: TW110103716A
Authority: TW
Inventors: 吳東穎; 邱柏彰
Original assignee: 中國鋼鐵股份有限公司
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-12-01
Also published as: TW202232379A

Abstract

本發明提供了一種字元分行方法，其包含下列步驟：獲得一待測物之影像，該中之待測物上包含複數個字元；獲得該影像的該些字元各自的一X座標值及一Y座標值；計算該些X座標值及該些Y座標值的一特徵矩陣；將該些字元各自的X座標值及Y座標以此特徵矩陣進行轉換，獲得一轉換後之新的X座標值及Y座標值；以分群演算法將該些轉換後Y座標值分為複數個群；依該些分群結果將該些字元分類至相對應的一行。

Description

字元分行方法

本發明係關於分行方法，特別是一種字元分行方法。

在煉鋼產業或是重工業產線中，多會在物件(例如鋼胚或其它大型工件)上標記相關的物件資訊，以利於後續利用影像識別技術來取得物件的生產過程中的相關資訊。現行技術多會使用噴漆的方式來標記物件資訊，但是噴漆可能會因為噴嘴阻塞、漆液流動(特別是在鋼捲等物件)等因素造成物件資訊上的字元無法辨識，導致物件資訊不正確。

即便可以將物件資訊完整地標記在物件上(例如噴漆)，因為每次標記的角度或是影像擷取的角度會有偏差，請參閱第1圖，因此現行技術還需要人工校正物件資訊中的字元排列角度與分行，影像識別技術才可以正確獲得物件上的物件資訊。現行技術無法自動適應字元排列角度及分行的問題會降低物件的生產效率。

故，有必要提供一種字元分行方法，以解决習用技術所存在的問題。

本發明的目的在於提供一種字元分行方法，其可以針對待測物表面上的多行字元自動地辨識及分行。通過本發明所提供的字元分行方法，可以避免物件資訊中多行的字元因為排列角度所產生的辨識困難。也因為可以自動且正確的辨識，待測物上所標記的物件資訊可以包含更多資訊量，以利於後續生產作業中的管理。

為了達成上述目的，本發明提供了一種字元分行方法，其包含下列步驟：獲得一待測物的一影像，該包含複數個字元；獲得該影像的該些字元各自的一X座標值及一Y座標值；獲得該些X座標值及該些Y座標值的一特徵矩陣；將該些字元各自的該X座標值及該Y座標值與該特徵矩陣相乘，以獲得該些字元各自的一轉換後X座標值及一轉換後Y座標值；使用分群演算法將該些轉換後Y座標值分為複數個群；以及依該些群將該些字元分類至相對應的一行。

在本發明的一實施例中，獲得該些X座標值及該些Y座標值的該特徵矩陣，包含：計算該些X座標值的一X座標平均值及該些Y座標值的一Y座標平均值；計算各該X座標值與該X座標平均值的一X座標差值及各該Y座標值與該Y座標平均值的一Y座標差值；利用各該X座標差值及各該Y座標差值計算出一變異數矩陣；以及通過該變異數矩陣獲得該特徵矩陣。

在本發明的一實施例中，獲得該影像的該些字元各自的該X座標值及該Y座標值更包含：獲得該些字元各自的一信心度。

在本發明的一實施例中，獲得該影像的該些字元各自的該X座標值及該Y座標值更包含：獲得該些字元各自的一字元種類。

在本發明的一實施例中，該字元分行方法通過一深度學習網路架構來獲得該影像的該些字元各自的該X座標值及該Y座標值、該些信心度及該些字元種類。

在本發明的一實施例中，使用分群演算法演算法將該些轉換後Y座標值分為一第一群及一第二群，且該第一群的一第一群轉換後Y座標平均值大於該第二群的一第二群轉換後Y座標平均值。

在本發明的一實施例中，依該些群將該些字元分類至相對應的該行，包含：獲得位於該第一群與該第二群之間的一分隔界限；將該些轉換後Y座標值大於該分隔界限的該些字元分類至對應該第一群的一第一行；以及將該些轉換後Y座標值小於該分隔界限的該些字元分類至對應該第二群的一第二行。

在本發明的一實施例中，獲得位於該第一群與該第二群之間的該分隔界限，包含：計算該第一群的轉換後Y座標平均值與該第二群的轉換後Y座標平均值之間的一中間值，並且將該中間值做為該分隔界限。

在本發明的一實施例中，該字元分行方法更包含：在該待測物上刻印一物件資訊，且該物件資訊的一刻印深度為1至2毫米。

如上所述，本發明所提供的字元分行方法在獲得待測物上的物件資訊的影像後，辨識出影像中字元的X座標值及Y座標值，進而獲得代表字元分布方向的特徵矩陣。利用特徵矩陣將X座標值及Y座標值轉換為轉換後X座標值及轉換後Y座標值，再利用分群演算法將該些轉換後Y座標值分為複數個群，最後可以將字元分類至相對應的一行。如此一來，標記的角度或是影像擷取的角度的偏差就不會影響字元的辨識，而特徵矩陣更可以協助將多行的字元自動正確地分行。

爲了讓本發明之上述及其他目的、特徵、優點能更明顯易懂，下文將特舉本發明較佳實施例，並配合所附圖式，作詳細說明如下。再者，本發明所提到的方向用語，例如上、下、頂、底、前、後、左、右、內、外、側面、周圍、中央、水平、橫向、垂直、縱向、軸向、徑向、最上層或最下層等，僅是參考附加圖式的方向。因此，使用的方向用語是用以說明及理解本發明，而非用以限制本發明。

請參照第1圖，第1圖是利用現有技術所獲得具有一待測物的一影像100。該影像100中包含了呈現多行(橫向)排列的複數個字元101、102，其中該字元101為數字，而該字元102為英文字母。不論是標記時造成或是影像擷取時造成的，可以發現該些字元101、102的排列方向並非水平。而現行技術需要通過人工校正這樣的差異(例如，人工旋轉該影像100的角度或是人工設定校准水平線等)，一旦待測物的數量繁多再加上各自的影像都需要人工校正差異時，這些人工校正流程會降低產線的生產效率。

請參照第2圖至第4圖，第2圖是本發明一實施例的一種字元分行方法的一步驟流程圖。本發明所指的「分行」是指以橫向排列分成數個橫行(rows)，而非採縱向排列。第3圖是本發明一實施例中的一細部流程圖。第4圖是本發明一實施例中的一細部流程圖。本實施例提供了一種字元分行方法，其包含下列步驟：

步驟S110，獲得一待測物上的一物件資訊的一影像，該影像包含複數個字元。該些字元與該待測物上的該物件資訊一致，其中該些字元可以是數字(例如阿拉伯數字)或是字母(例如英文字母)。應當理解的是，該些字元也可以是其它代表數字的符號或是在其它地區使用的文字符號(例如日文的片假名文字或平假名文字、阿拉伯文字、韓文等)。此外，本實施例更可以在步驟S110之前，在該待測物上刻印該物件資訊，且該物件資訊的一刻印深度為1至2毫米。應當理解的是，本實施例也可以應用在通過印刷或噴漆等方式來標記物件資訊的待測物。此外，本實施例可以利用相機、攝影機或是其它可行的方式來獲得該待測物上的該物件資訊的該影像。

步驟S120，獲得該影像的該些字元各自的一X座標值、一Y座標值、一信心度及一字元種類。本實施例中的該字元分行方法可以通過一深度學習網路架構來獲得該影像的該些字元各自的該X座標值及該Y座標值、該些信心度及該些字元種類，其中該深度學習網路架構可以是區域卷積神經網路(Region-based Convolutional Neural Networks, RCNN)、卷積神經網路(Convolutional Neural Network, CNN)或是其它可行的深度學習網路架構。此外，本實施例還可以將信心度小於一預定值的辨識結果移除，也就是移除信心度較低的辨識結果，藉此增加該X座標值及該Y座標值及該些字元種類的準確度，以避免誤判。

步驟S130，計算該些X座標值及該些Y座標值的一特徵矩陣。步驟S130還可以包含：步驟S131，計算該些X座標值的一X座標平均值及該些Y座標值的一Y座標平均值；步驟S132，計算各該X座標值與該X座標平均值的一X座標差值及各該Y座標值與該Y座標平均值的一Y座標差值；步驟S133，利用各該X座標差值及各該Y座標差值計算出一變異數矩陣；及步驟S134，通過該變異數矩陣獲得該特徵矩陣。其中該變異數矩陣呈現如下數學式1： [數學式1]

其中，S為變異數矩陣、X _i為X座標值、Y _i為Y座標值、X _avg為X座標平均值、Y _avg為Y座標平均值。再來可以計算出該變異數矩陣的該特徵矩陣，而該特徵矩陣可以代表該些字元分布的方向性。

步驟S140，將該些字元各自的該X座標值及該Y座標值與該特徵矩陣相乘，以獲得該些字元各自的一轉換後X座標值及一轉換後Y座標值。也就是如下列數學式2： [數學式2]

其中X’為轉換後X座標值、Y’為轉換後Y座標值、M為特徵矩陣、X _i為X座標值、Y _i為Y座標值。也就是考慮了字元分布的方向性(及特徵矩陣)之後，將X座標值與Y座標值轉換成為轉換後X座標值與轉換後Y座標值。如此一來，就不需要再通過人工來校正該些字元排列方向並非水平的差異，避免人工校正流程降低產線的生產效率。

步驟S150，使用分群演算法將該些轉換後Y座標值分為複數個群。也就是說，通過均值偏移演算法可以將相近的轉換後Y座標值分配至同一群中。該分群演算法可以是均值偏移(Mean-Shift)演算法或是其他具有相同功效的演算法。

步驟S160，依該些群將該些字元分類至相對應的一行。步驟S160還可以包含：步驟S161，獲得位於該第一群與該第二群之間的一分隔界限；步驟S162，將該些轉換後Y座標值大於該分隔界限的該些字元分類至對應該第一群的一第一行；及步驟S163，將該些轉換後Y座標值小於該分隔界限的該些字元分類至對應該第二群的一第二行。如此一來，通過本實例該些字元可以自動地分行。此外，步驟S161還可以包含：步驟S161a，計算該第一群的轉換後Y座標平均值與該第二群的轉換後Y座標平均值之間的一中間值，並且將該中間值做為該分隔界限。應該理解的是，該中間值可以例如是第一群的轉換後Y座標平均值與第二群的轉換後Y座標平均值之間的中位數、第一四分位數或第三四分位數等數值。該中間值可視實際運作的需求進行調整。

請參照第5A圖至第5B圖，第5A圖至第5B圖是本發明實際運作的一示例。利用攝影機來獲得一待測物上的一物件資訊的一影像100，該影像100中包含字複數個字元101、102，其中字元101是阿拉伯數字，而字元102是大寫英文字母，如第5A圖所示。在將X座標值及Y座標值轉換成轉換後X座標值及轉換後Y座標值之後，使用均值偏移(Mean-Shift)演算法將具有相近的轉換後Y座標值的字元(1、2、3、4、5)分配為一第一群110，同理字元(A、B、C、D、E、F、G)分配為一第二群120，字元(2、4、6、8、0)分配為一第三群130。計算出該第一群110的轉換後Y座標平均值、該第二群120的轉換後Y座標平均值及該第三群130的轉換後Y座標平均值，將該第一群110的轉換後Y座標平均值與該第二群120的轉換後Y座標平均值之間的一中間值作為一第一分隔界限210，並且將該第二群120的轉換後Y座標平均值與該第三群130的轉換後Y座標平均值之間的一中間值作為一第二分隔界限220。接著將該影像100中，轉換後Y座標值大於該第一分隔界限210的字元分類至第一行，轉換後Y座標值大於該第二分隔界限220且小於該第一分隔界限210的字元分類至第二行，轉換後Y座標值小於該第二分隔界限220的字元分類至第三行，進而自動地完成字元分行。

如上所述，本發明所提供的字元分行方法在獲得待測物上的物件資訊的影像後，辨識出影像中字元的X座標值及Y座標值，進而獲得代表字元分布方向的特徵矩陣。利用特徵矩陣將X座標值及Y座標值轉換為轉換後X座標值及轉換後Y座標值，再利用分群演算法(例如，均值偏移(Mean-Shift)演算法)將該些轉換後Y座標值分為複數個群，最後可以將字元分類至相對應的一行。如此一來，標記的角度或是影像擷取的角度的偏差就不會影響字元的辨識，而特徵矩陣更可以協助將多行的字元自動正確地分行。

雖然本發明已以較佳實施例揭露，然其並非用以限制本發明，任何熟習此項技藝之人士，在不脫離本發明之精神和範圍內，當可作各種更動與修飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者爲準。

100:影像 101:字元 102:字元 110:第一群 120:第二群 130:第三群 210:第一分隔界限 220:第二分隔界限 S110～S163:步驟 S161a:步驟

第1圖是利用現有技術所獲得具有一待測物的一影像。第2圖是本發明一實施例的一種字元分行方法的一步驟流程圖。第3圖是本發明一實施例中的一細部流程圖。第4圖是本發明一實施例中的一細部流程圖。第5A圖至第5B圖是本發明實際運作的一示例。

S110~S160:步驟

Claims

一種字元分行方法，其包含下列步驟：使用一影像擷取裝置來獲得一待測物的一影像，該影像包含複數個字元；通過一深度學習網路架構來獲得該影像的該些字元各自的一X座標值及一Y座標值；通過該深度學習網路架構來計算該些X座標值及該些Y座標值的一特徵矩陣；通過該深度學習網路架構來將該些字元各自的該X座標值及該Y座標值與該特徵矩陣相乘，以獲得該些字元各自的一轉換後X座標值及一轉換後Y座標值；該深度學習網路架構使用分群演算法將該些轉換後Y座標值分為複數個群；以及該深度學習網路架構依該些群將該些字元分類至相對應的一行。
如請求項1所述之字元分行方法，其中通過該深度學習網路架構來計算該些X座標值及該些Y座標值的該特徵矩陣，包含：計算該些X座標值的一X座標平均值及該些Y座標值的一Y座標平均值；計算各該X座標值與該X座標平均值的一X座標差值及各該Y座標值與該Y座標平均值的一Y座標差值；利用各該X座標差值及各該Y座標差值計算出一變異數矩陣；以及通過該變異數矩陣獲得該特徵矩陣。
如請求項1所述之字元分行方法，其中通過該深度學習網路架構來獲得該影像的該些字元各自的該X座標值及該Y座標值更包含：獲得該些字元各自的一信心度。
如請求項3所述之字元分行方法，其中通過該深度學習網路架構來獲得該影像的該些字元各自的該X座標值及該Y座標值更包含：獲得該些字元各自的一字元種類。
如請求項1所述之字元分行方法，其中該深度學習網路架構使用分群演算法將該些轉換後Y座標值分為一第一群及一第二群，且該第一群的一第一群轉換後Y座標平均值大於該第二群的一第二群轉換後Y座標平均值。
如請求項5所述之字元分行方法，其中該深度學習網路架構依該些群將該些字元分類至相對應的該行，包含：獲得位於該第一群與該第二群之間的一分隔界限；將該些轉換後Y座標值大於該分隔界限的該些字元分類至對應該第一群的一第一行；以及將該些轉換後Y座標值小於該分隔界限的該些字元分類至對應該第二群的一第二行。
如請求項7所述之字元分行方法，其中獲得位於該第一群與該第二群之間的該分隔界限，包含：計算該第一群的轉換後Y座標平均值與該第二群的轉換後Y座標平均值之間的一中間值，並且將該中間值做為該分隔界限。
如請求項1所述之字元分行方法，更包含：在該待測物上刻印一物件資訊，且該物件資訊的一刻印深度為1至2毫米。