TWI607387B

TWI607387B - 字符辨識系統及其字符辨識方法

Info

Publication number: TWI607387B
Application number: TW105138810A
Authority: TW
Inventors: 高志忠; 康浩平; 吳佳樺
Original assignee: 財團法人工業技術研究院
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-12-01
Also published as: US10269120B2; CN108108732A; CN108108732B; US20180150956A1; TW201820203A

Description

字符辨識系統及其字符辨識方法

本揭露係有關於字符辨識系統及其相關字符辨識方法，特別是有關於一種基於卷積神經網路之字符辨識系統及其相關字符辨識方法。

隨著運動風氣的盛行及使用者需求的驅使下，每場賽事都會記錄大量的照片或影片。愈來愈多的賽事單位或運動網站提供運動員使用號碼布上標示的字符(譬如說號碼等)進行照片或影片搜尋的服務，以方便參賽者於賽後搜尋自己的照片或影片並分享於社群網路。一般而言，這類辨識係透過電腦來進行影像分析與處理。然而，因為照片或影片中號碼布位移與變形的關係，使得用電腦進行辨識號碼布上的字符的正確率較低，因此目前大都是以雇用大量工讀生進行人工辨識後，標記照片或影片上出現的號碼布上的字符，導致需耗費大量的人力、時間與成本。

近年來，隨著類神經網路的技術提升，使得辨識的效果跟以往的技術相比有相當顯著的進步，因此類神經網路可被廣泛用於譬如說文字辨識。傳統類神經網路的文字辨識的步驟包括文字偵測、文字分割和文字辨識等步驟，雖然使用類神經網路可提升辨識的效果，然而，因為號碼布上的文字容易受到號碼布的扭曲影響而無法完整的切割，導致後續的字元辨識(Optical Character Recognize,OCR)容易發生錯誤，影響文字辨識的正確率。

有鑑於此，本揭露提供一種基於卷積神經網路之字符辨識系統及其相關字符辨識方法。

本揭露的一實施例提供一種字符辨識方法，適用於包括一儲存裝置與一影像處理器的一字符辨識系統。字符辨識方法包括下列步驟：使用一第一卷積神經網路(Convolutional Neural Network,CNN)模型，辨識一有興趣區塊中的字符串(character string)，產出一辨識字符串，其中該有興趣區塊中的字符串包括一或多個字符；以及比較該辨識字符串與一字符資料庫中多個字符串，以尋找與該辨識字符串相對應的字符串，其中該多個字符串的每個字符串包括一或多個字符；其中，若找到該辨識字符串相對應的字符串，以該辨識字符串作為字符辨識結果，若未找到該辨識字符串相對應的字符串，使用一第二卷積神經網路模型，更正該辨識字符串，以產出一新辨識字符串作為字符辨識結果。

本揭露另一實施例提供一種字符辨識系統，包括：一儲存裝置以及一影像處理器。儲存裝置儲存有一字符資料庫。影像處理器係耦接儲存裝置，用以使用一第一卷積神經網路(Convolutional Neural Network,CNN)模型，辨識一有興趣區塊中的字符串(character string)，產出一辨識字符串，其中有興趣區塊中的字符串包括一或多個字符，並且比較該辨識字符串與該字符資料庫中多個字符串，以尋找與該辨識字符串相對應的字符串，其中多個字符串的每個字符串包括一或多個字符；其中，若找到辨識字符串相對應的字符串時，影像處理器係以辨識字符串作為字符辨識結果，若未找到辨識字符串相對應的字符串，影像處理器係使用一第二卷積神經網路模型，更正辨識字符串，以產出一新辨識字符串作為字符辨識結果。

本揭露之上述方法可經由本揭露之裝置或系統來實作，其為可執行特定功能之硬體或韌體，亦可以透過程式碼方式收錄於一紀錄媒體中，並結合特定硬體來實作。當程式碼被電子裝置、處理器、電腦或機器載入且執行時，電子裝置、處理器、電腦或機器變成用以實行本揭露之裝置或系統。

10‧‧‧輸入影像

100‧‧‧字符辨識系統

110‧‧‧影像輸入裝置

120‧‧‧影像處理器

122‧‧‧機器學習引擎

130‧‧‧儲存裝置

132‧‧‧字符資料庫

S202、S204、S206、S207、S208、S210、S211、S212、S213‧‧‧步驟

S302、S304‧‧‧步驟

S402、S404、S406、S408、S410、S412、S414‧‧‧步驟

S502、S504、S506‧‧‧步驟

700‧‧‧門檻值

第1圖係顯示依據本揭露之字符辨識系統一實施例之示意圖。

第2圖係顯示本揭露之字符辨識方法一實施例之流程圖。

第3圖係顯示本揭露一實施例之使用第二CNN模型更正辨識字符串之流程圖。

第4圖係顯示本揭露一實施例之用於第二CNN模型的部分字符串的字符個數及其所對應字符位置的計算之流程圖。

第5圖係顯示本揭露一實施例之調整後的字符串之產生方法流程圖。

第6圖係顯示本揭露一實施例之CNN模型之結構示意圖。

第7圖係顯示本揭露一實施例之可能組合數以及實際組合數之比例示意圖。

為讓本揭露之目的、特徵、和優點能更明顯易懂，特舉出下文實施例，並配合所附圖式，作詳細說明如下。注意的是，本章節所敘述的實施例目的在於說明本發明之實施方式而非用以限定本發明之保護範圍，任何熟悉此項技藝者，在不脫離本發明之精神和範圍內，當可做些許更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。應理解下列實施例可經由軟體，硬體，韌體，或上述任意組合來實現。

本揭露實施例提供一種字符辨識系統及其字符辨識方法，可利用多階層的卷積神經網路(Convolutional Neural Network，以下簡稱CNN)之架構，透過事先訓練好的多個CNN模型來對”具待辨識字符的物件影像”(或稱為輸入影像)如圖片或影片之畫面(例如：具門牌之房子、具車牌之車輛、具待辨識字符的紙張、具待辨識字符的衣服、運動賽事中具號碼布的參賽者等等，但並不以前述為限)進行字符串偵測並標記出字符串之位置，再搭配使用字符資料庫與字串檢查錯誤更正機制等進行字符辨識，將所分析之最有可能之辨識字符串輸出為辨識結果，可有效提高辨識的準確率與辨識速度。

第1圖顯示依據本揭露之字符辨識系統一實施例之示意圖。如第1圖所示，字符辨識系統100至少包括影像輸入裝置110、一影像處理器120、一機器學習引擎122、一儲存裝置130以及一顯示裝置140。影像輸入裝置110可用以接收或取得一輸入影像10，以提供輸入影像10至影像處理器120進行後續影像分析與處理。舉例來說，字符辨識系統100可為膝上型電腦、桌上型電腦、平板裝置或其它手持式裝置(例如，智慧型手機)等，但本揭露並不限於此。舉例來說，於一實施例中，影像輸入裝置110可為影像擷取單元，例如一紅外線影像擷取裝置、一光電耦合元件或一互補式金氧半導體光學感測元件之其中一者或其任意組合，但本揭露不限於此。其中，輸入影像10可為一圖片或一影片的一畫面，而輸入影像10中包括一待辨識的字符串。待辨識的字符串中的字符種類可為：各種類型符號(symbol)、各種類型字母(包括各國語言字母)、各種類型數字、各種類型文字、圖案或前述中至少兩項的任意組合。於一實施例中，待辨識的字符串可為包括至少一種字符種類的一字符串，例如包含至少一英文字母及至少一阿拉伯數字的字符串”B7”、”A12345”等。於另一些實施例中，待辨識的字符串可為僅包括單一字符種類的一字符串，例如：包含至少一英文字母的字符串”Z”、”AB”、”ABCDE”等或包含至少一阿拉伯數字的字符串”9”、”56”、”1234”等，但本揭露並不限於此。為便於解說，於後面段落的實施例中，將以輸入影像10可為一運動賽事的參賽者的照片或影片，而待辨識的字符串則為照片或影片上參賽者的號碼布上的字符，進行可能實施例之說明，習知技術者當可類推其他類型實施態樣。

影像處理器120係耦接至影像輸入裝置110與儲存裝置130，可從儲存裝置130中載入並執行指令集及/或程式碼，以依據影像輸入裝置110所提供的輸入影像10執行本案所述之字符辨識方法，其細節將於後進行說明。影像處理器120可為通用處理器、微處理器(Micro-Control Unit，MCU)、圖形處理器(Graphics Processing Unit,GPU)或數位訊號處理器(Digital Signal Processor，DSP)等，用以提供影像資料分析、處理及運算之功能。儲存裝置130可為非揮發性儲存媒體(例如：唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(Flash memory)、硬碟、光碟等)、揮發性儲存媒體(例如：隨機存取記憶體(Radom Access Memory，RAM))、或兩者之任意組合，用以儲存相關資料，例如運算過程中的中間資料及辨識結果資料等。於一些實施例中，儲存裝置130可事先儲存輸入影像10，影像處理器120則直接由儲存裝置130中存取輸入影像10進行後續處理，而無須透過影像輸入裝置110。

儲存裝置130可更包括字符資料庫132，其係存取有多個字符串，這些字符資料庫132中所存儲的字符串可用於後續的字符辨識。舉例來說，字符資料庫132可儲存所有實際參賽者的可能字符串，之後，影像處理器120可比對字符資料庫132中所存儲的字符串，來判斷辨識結果是否正確或有效。

機器學習引擎122可依據一機器學習演算法或機制，來訓練出多個CNN模型，用以對輸入影像10進行字符串偵測與辨識。其中，每一CNN模型採用多層CNN結構，用以提取特徵，每一層CNN都會進行特徵擷取(feature extraction)以及分類(classification)並且上一層的輸出作為下一層的輸入。CNN在特徵擷取的階段可取出主要特徵並透過後續的降解析(subsampling)，除了可以降低訓練網路的特徵維度(feature dimension)，並且可以達到平移不變性的效果。

如第1圖實施例所示，機器學習引擎122所採用之類神經網路為CNN且其採用的CNN模型至少包括一區塊偵測CNN模型、一第一CNN模型以及一第二CNN模型。其中，每一CNN模型可具有如第6圖所示的結構。第6圖係顯示本揭露一實施例之CNN模型之結構示意圖。如第6圖所示，CNN模型包括多層，可透過CNN網路的訓練與學習機制對輸入影像進行特徵擷取以及分類。其中，CNN各層依次為輸入層、多個卷積層、多個全連接層以及分類層，卷積層可更包括特徵提取層(feature extraction layer)以及特徵映射層(feature mapping layer)，特徵提取層的神經元的輸入與前一層的局部接受域相連，提取相關局部的特徵，特徵映射層由多個特徵映射而成，每個映射為一平面，相同特徵映射面上的神經元權值相同，所以其可並行學習。透過CNN模型的多個卷積層對輸入影像10進行特徵映射和提取，再經過全連接層以及分類層完成整個分類過程以得到一辨識字符串。

具體來說，區塊偵測CNN模型的輸入為輸入影像10，用以偵測輸入影像10，直接找出輸入影像10中的有興趣區塊(region of interest，ROI)。機器學習引擎122可事先將大量的包含有興趣區塊的輸入影像10交給CNN進行訓練，CNN便可找出有興趣區塊的抽象特徵定義，得到區塊偵測CNN模型。之後，機器學習引擎122便可透過區塊偵測CNN模型偵測出輸入影像10中的有興趣區塊。舉例來說，當輸入影像10(或稱為具待辨識字符的物件影像)為一參賽者的全身影像且其包括一號碼布時，有興趣區塊可為號碼布所在的區塊，區塊偵測CNN模型係用以辨識出號碼布所在的區塊，第一CNN模型係用以辨識號碼布內之字符串(例如：號碼及/或字元符號)，第二CNN模型係用以於第一CNN模型所辨識出的字符無效或不正確時，更正辨識出的部分字符串(例如：號碼)，以提高辨識的正確率。由於本案可偵測出輸入影像10中的號碼布之位置，因此只需辨識號碼布內之字符，可有效排除其他畫面內之其他辨識干擾(例如：其中非號碼布內之字符)，也可適用於非正面人形或非人形軀幹的物體例如動物上的字符辨識。注意的是，具體機器學習機制的細節係可採用本領域技藝人士所熟知的各種處理技術來加以實現，其細節在此省略。

顯示裝置140可為任一可用以顯示或呈現辨識結果之裝置。顯示裝置140係可顯示相關資料，例如是文字、圖形、介面及/或各種資訊如顯示或呈現辨識結果等。顯示裝置140可用以呈現辨識結果之影像(包含任一種影像格式，如bmp、jpg、png等)或呈現量測結果之畫面，例如：液晶顯示器(LCD)。應理解的是，於一些實施例中，顯示裝置140係結合觸碰感應裝置(未顯示)之螢幕。觸控感應裝置係具有一觸控表面，其包括至少一維度的感測器以偵測靠近或在觸控表面上的一輸入工具如手指或觸控筆等在其表面上的接觸及動作。因此，使用者可透過顯示裝置140來進行觸控輸入命令或訊號。

可理解的是，上述各元件或模組係為一具有對應功能的裝置，可具有適當的硬體電路或元件以執行對應功能，然而，該裝置並不以具有實體為限，其亦得為一虛擬的具有對應功能的程式、軟體，或是具有處理、運行該程式、軟體能力的裝置。而上述各元件運作的方式，可進一步的參閱以下對應之方法之說明。明確來說，字符辨識系統100可經由影像處理器120來控制機器學習引擎122中各CNN模型的操作來執行本案之字符辨識方法。

第2圖顯示本揭露之字符辨識方法一實施例之流程圖。請同時參照第1圖與第2圖。依據本揭露實施例之字符辨識方法可以適用於一字符辨識系統，舉例來說，可適用於第1圖的字符辨識系統100並由影像處理器120加以執行。

首先，如步驟S202，影像處理器120偵測一輸入影像10，以取得包含一字符串的一有興趣區塊。於一實施例中，影像處理器120係使用機器學習引擎122中的區塊偵測CNN模型，偵測輸入影像，取得包含字符串的有興趣區塊並將有興趣區塊正規化。於此步驟中，機器學習引擎122先針對輸入影像10進行有興趣區塊的偵測，在進行有興趣區塊的偵測時係使用事先訓練好的區塊偵測CNN模型。舉例來說，有興趣區塊可為包含一字符串的號碼布，而區塊偵測CNN模型可偵測輸入影像10來辨識出號碼布所在的區塊。於偵測出包含字符串的有興趣區塊之後，再將輸入影像10中有興趣區塊區塊的畫面正規化，縮放到一指定之大小(例如：將有興趣區塊區塊的畫面縮放至128x128像素)。之後，影像處理器120再使用事先訓練好的字符串辨識CNN模型並以縮放到指定大小的有興趣區塊區塊的畫面當作字符串辨識CNN模型的輸入進行字符串(例如：號碼)辨識。

接著，如步驟S204，影像處理器120使用第一CNN模型對有興趣區塊的字符串進行字符串辨識，產生一辨識字符串。舉例來說，當有興趣區塊為包含一號碼的號碼布時，第一CNN模型可對號碼布上的完整號碼進行號碼辨識，並於辨識完成後產生表示辨識結果的辨識號碼。舉例來說，由於號碼布之號碼字串可能是由26個英文字母加上10個阿拉伯數字中的數個英數字元組成，因此每一個符號都有36個可能的辨識結果。

於產生辨識字符串之後，如步驟S206，影像處理器 120判斷辨識字符串是否存在字符資料庫132中。其中字符資料庫132包括多個字符串且每個字符串可包括一或多個字符。具體來說，判斷辨識字符串是否存在字符資料庫132中係比較辨識字符串與字符資料庫132中多個字符串，以尋找字符資料庫132中是否有與辨識字符串相對應的字符串。當於字符資料庫132中尋找到與辨識字符串相對應的一字符串時便判定辨識字符串存在字符資料庫132。

當辨識字符串存在字符資料庫132時(步驟S206的是)，如步驟S207，表示辨識成功，於是輸出辨識字符串為字符辨識結果。舉例來說，假設辨識字符串為”A12345”，則當字符資料庫132中存在字符串”A12345”時便表示辨識成功。

相反地，當辨識字符串並不存在字符資料庫132時(步驟S206的否)，亦即，於字符資料庫132中找不到與辨識字符串相對應的任何字符串，表示辨識失敗，接著如步驟S208，影像處理器120使用第二CNN模型更正辨識字符串，產生一新辨識字符串。

於一些實施例中，使用第二CNN模型更正辨識字符串係使用第二CNN模型辨識有興趣區塊中的字符串中的部分字符串，並以辨識得的新部分字符串替換該辨識字符串中對應位置的前述部分字符串，其中有興趣區塊中的字符串包括多個字符，且部分字符串的字符個數小於有興趣區塊中的字符串的字符個數。步驟S208的具體內容請參見第3圖。第3圖係顯示本揭露一實施例之使用第二CNN模型更正辨識字符串之流程圖，其係可由影像處理器120所執行。

當辨識字符串並不存在字符資料庫132時，如步驟 S302，影像處理器120使用第二CNN模型辨識該有興趣區塊中的部分字符串，產生一辨識的部分字符串，並於辨識的部分字符串產生之後，如步驟S304，以辨識的部分字符串替換第一CNN模型所產生的辨識字符串的對應部分字符串，以得到步驟S208的新辨識字符串。舉例來說，假設有興趣區塊中的完整字符串為”A12345”，而辨識的部分字符串可為”345”、”123”或”2345”等。當第一CNN模型所產生的辨識字符串為”A12386”時，可將”A12386”中的對應部分字符串”386”替換為辨識的部分字符串”345”，便可得到新辨識字符串”A12345”。其中，部分字符串的字符數及對應位置的計算細節請參見以下第4圖。

第4圖係顯示本揭露一實施例之用於第二CNN模型的部分字符串的字符個數及其所對應字符位置的計算之流程圖，其係可由影像處理器120所執行。

首先，影像處理器120計算字符串中各字符位置之字符種類個數(步驟S402)。接著，影像處理器120依據各字符位置之字符種類個數，決定各字符位置之排序值並選定一字符位置(步驟S404)。選定字符位置之後，影像處理器120分別計算選定的字符位置的字符於資料庫中之一可能組合總數以及一實際組合總數(步驟S406)。之後，影像處理器120依據計算出的可能組合總數以及實際組合總數，得到一相應組合比例(即實際組合總數/可能組合總數)(步驟S408)。影像處理器120接著判斷相應組合比例是否大於一預設門檻值(步驟S410)。若相應組合比例大於門檻值，影像處理器120將部分字符串的字符個數增加1，並依據剩餘字符位置之排序值，新增並記錄下一選定字符位置(步驟S412)並重新執行步驟S406-S410的判斷。若相應組合比例未大於門檻值時，影像處理器120便可得到第二CNN模型所對應的部分字符串的字符個數及部分字符串所對應的字符位置(步驟S414)。

具體來說，假設S={S _n S _n-1...S _x...S ₁}是要辨識的字串，S ₁,...,S _n是個別的字元，n表示字串長度，|S _x|是字元S _x的種類數量(1 x n)，T為一預設門檻值，令P為組合各字元所形成的子字串(第2個CNN所要辨識的字串)，P ₁,...,P _k為個別字元，k是字串長度，|P _y|是字元P _y的種類數量(1 y k)，令C(P)為計算P在字符資料庫中的字串數量，則子字串的組合比例為。接著，在組合比例大於門檻值(R>T)的情況下，找出最長的部分字串P(最大的k)即可求得決定要訓練之位元個數與所訓練位元之位置第二CNN模型所對應的部分字符串的字符個數及其對應字符位置。

舉例來說，假設某場賽事的最大號碼為2799，則號碼的字符位置有個位數字位、十位數字位、百位數字位以及千位數字位，其中可先計算號碼的個別位元的種類數，得到個位數字位有10類(即數字0-9)、十位數字位有10類(即數字0-9)、百位數字位有8類(即數字0-7)以及千位數字位有3類(即數字0-2)。於本實施例中，依據前述個別位元的種類數高低，得到統計位元順序為個位數字位或十位數字位優先，接著再依序為百位數字位或千位數字位。於本例中，以個位數字位為起始判斷位元，計算個位數字位的字符於字符資料庫中可能組合之總數以及實際組合之總數，再計算該位元的實際組合與可能組合之比例。接著，判斷個位數字位計算出之組合比例是否大於門檻值，若小於門檻值，便可決定第二CNN模型用以訓練之字符個數為1且對應字符位置為個位數字位。於另一實施例中，若個位數字位計算出之組合比例大於門檻值，則再增加一個字符位置繼續進行下一個字元組之判斷。也就是說，再增加十位數字位進行下一輪判斷，計算十位數字位包含個位數字位的字符於字符資料庫中可能組合之總數以及實際組合之總數，再計算此字符組的實際組合與可能組合之比例。假設增加第四個字元時的組合比例小於門檻值，例如門檻值為0.9，則表示於訓練第二個CNN模型時，用以訓練之字符個數為3且對應字符位置為百位數字位、十位數字位以及個位數字位。可理解的是，透過選定不同的門檻值可決定用於決定訓練第二個CNN模型時之字符數及其位置，進而改善整體之辨識正確率。

第7圖係顯示本揭露一實施例之可能組合數以及實際組合數之比例示意圖。如第7圖所示，個位數字位表示為(10/10)代表可能組合數為10類，實際組合數為10類，而加上十位數字位表示為(99/100)代表可能組合數為100類，然實際組合數只為99類，依此類推。其中，可能組合數取決於已報名人數，而實際組合數取決於實際參加的人數，有些人可能報名但未參加，因此實際組合數可能小於可能組合數。於此例中，假設門檻值700設為0.9時，因為加上百位數時的比例為474/1000，小於0.9，因此可根據第7圖的統計結果求得用以訓練之字符個數為2且對應字符位置為十位數字位以及個位數字位。

回到第2圖，於步驟S208產生新辨識字符串之後，如步驟S210，影像處理器120判斷新辨識字符串是否存在字符資料庫132中。類似地，判斷新辨識字符串是否存在字符資料庫132中係比較新辨識字符串與字符資料庫132中多個字符串，以尋找字符資料庫132中是否有與新辨識字符串相對應的字符串。當於字符資料庫132中尋找到與新辨識字符串相對應的一字符串時便判定新辨識字符串存在字符資料庫132。

當新辨識字符串存在字符資料庫132時(步驟S210的是)，如步驟S211，表示辨識成功，於是影像處理器120輸出新辨識字符串為字符辨識結果。相反地，當新辨識字符串也不存在字符資料庫132時(步驟S210的否)，亦即，於字符資料庫132中找不到與新辨識字符串相對應的任何字符串，表示辨識失敗，接著如步驟S212，影像處理器120對辨識字符串進行編輯距離(Edit Distance)計算，以利用字符資料庫132中的字符串資料調整辨識字符串，產生一調整後的字符串。其中，調整後的字符串的產生細節請參見以下第5圖。

第5圖顯示本揭露一實施例之調整後的字符串之產生方法流程圖。請同時參照第1圖與第5圖。依據本實施例之調整後的字符串之產生方法可以適用於第1圖的字符辨識系統100並由影像處理器120加以執行。

首先，如步驟S502，影像處理器120依據字符資料庫132的多個字符串，統計每一字符位置之字符種類個數並據此決定每一字符位置之一調整權重。舉例來說，假設字符資料庫132中號碼的字符位置有個位數字位、十位數字位、百位數字位以及千位數字位，其中個位數字位有10類(即數字0-9)、十位數字位有10類(即數字0-9)、百位數字位有8類(即數字0-7)以及千位數字位有3類，則影像處理器120可依據每個字符位置的字符種類個數分配給予不同的調整權重。

接著，如步驟S504，影像處理器120利用調整權重進行最小編輯距離計算，計算字符資料庫132中每一字符串之一調整誤差。編輯距離係指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符，插入一個字符，刪除一個字符。一般來說，編輯距離越小，兩個串的相似度越大。編輯距離可應用於拼字校正或是計算兩個序列的相似程度。於本案中，依據每個字符位置的字符種類個數分配給予不同的調整權重並透過調整權重進行最小編輯距離計算，可進一步考慮位元間的種類數關係來篩選出最相似的字符串，增加辨識成功率。

於計算出字符資料庫中每一字符串的調整誤差之後，如步驟S506，影像處理器120輸出具有最小調整誤差之字符串為步驟S212的調整後的字符串。

回到第2圖，於步驟S212產生調整後的字符串之後，如步驟S213，影像處理器120輸出調整後的字符串為字符辨識結果。

於一些實施例中，當新辨識字符串於資料庫中未存在對應的字符串時，影像處理器120可再使用一第三CNN模型(未繪示)，來更正新辨識字符串，再利用更正後的字符串比較資料庫中的字符串。第三CNN模型的部分字符串可以類似於第二CNN模型的部分字符串或者可以是第二CNN模型的部分字符串以外的字符串。第三CNN模型的部分字符串的產生與決定方式與第二CNN模型類似，其細節不在此贅述。

因此，依據本揭露之字符辨識系統及其字符辨識方法可應用於具有不同顏色之字符串且能忍受有興趣區塊的部分影像與其字符串一定程度之彎曲變形、平移、遮蔽與陰影的現象。此外，依據本揭露之字符辨識系統及其字符辨識方法應用階層式卷積神經網路架構並搭配使用字符資料庫與拼字檢查錯誤更正機制進行字符辨識，可將所分析之最有可能之字符辨識結果進行輸出，可相較於現有方法都有更好的辨識效果，並有較高之準確率。

本揭露之方法，或特定型態或其部份，可以以程式碼的型態存在。程式碼可以包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體，亦或不限於外在形式之電腦程式產品，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本揭露之裝置。程式碼也可透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被機器，如電腦接收、載入且執行時，此機器變成用以參與本揭露之裝置。當在一般用途影像處理器實作時，程式碼結合影像處理器提供一操作類似於應用特定邏輯電路之獨特裝置。

雖然本揭露已以一些實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中包括通常知識者，在不脫離本揭露之精神和範圍內，當可作些許之更動與潤飾。舉例來說，本揭露實施例所述之系統以及方法可以硬體、軟體或硬體以及軟體的組合的實體實施例加以實現。因此本揭露之保護範圍當視後附之申請專利範圍所界定者為準。

S202、S204、S206、S207、S208、S210、S211、S212、S213‧‧‧步驟

Claims

一種字符辨識方法，適用於具一儲存裝置與一影像處理器的一字符辨識系統，包括：使用一第一卷積神經網路(Convolutional Neural Network,CNN)模型，辨識一有興趣區塊中的字符串(character string)，產出一辨識字符串，其中該有興趣區塊中的字符串包括一或多個字符；以及比較該辨識字符串與一字符資料庫中多個字符串，以尋找與該辨識字符串相對應的字符串，其中該多個字符串的每個字符串包括一或多個字符；其中，若找到該辨識字符串相對應的字符串，以該辨識字符串作為字符辨識結果，若未找到該辨識字符串相對應的字符串，使用一第二卷積神經網路模型，更正該辨識字符串，以產出一新辨識字符串作為字符辨識結果。
如申請專利範圍第1項所述之字符辨識方法，其中該有興趣區塊係使用一區塊偵測卷積神經網路模型，偵測一輸入影像而得，並且該有興趣區塊係被正規化。
如申請專利範圍第2項所述之字符辨識方法，其中該輸入影像為一圖片或一影片的一畫面。
如申請專利範圍第2項所述之字符辨識方法，其中，該區塊偵測卷積神經網路模型、該第一卷積神經網路模型、該第二卷積神經網路模型為預先訓練過的卷積神經網路模型。
如申請專利範圍第1項所述之字符辨識方法，其中該多個字符串包括各種類型符號、各種類型字母、各種類型數字、各種類型文字、或前述中至少兩項的任意組合。
如申請專利範圍第1項所述之字符辨識方法，更包括：比較該新辨識字符串與該字符資料庫中的字符串，以尋找與該新辨識字符串相對應的字符串；以及若找到與該新辨識字符串相對應的字符串，則輸出該新辨識字符串，若未找到與該新辨識字符串相對應的字符串，使用一第三CNN模型，更正該新辨識字符串。
如申請專利範圍第1項所述之字符辨識方法，其中該使用該第二卷積神經網路模型，更正該辨識字符串，以產出該新辨識字符串之步驟更包括：使用該第二卷積神經網路模型辨識該有興趣區塊中的字符串中的部分字符串，產生一辨識的部分字符串；以該辨識的部分字符串替換該第一卷積神經網路模型所產生的該辨識字符串的對應部分字符串，以得到該新辨識字符串，其中該有興趣區塊中的字符串包括多個字符，且該部分字符串的字符個數小於該有興趣區塊中的字符串的字符個數。
如申請專利範圍第7項所述之字符辨識方法，其中該有興趣區塊中的該等字符串中每一該等字符有一對應字符位置，該方法更包括：計算每一該等對應字符位置之一字符種類個數；依據該等對應字符位置之該等字符種類個數，決定每一該等對應字符位置之一排序值；以及依據該等對應字符位置之該等排序值，依序計算各該對應字符位置之一可能組合總數以及一實際組合總數，當該可能組合總數以及該實際組合總數之一組合比例大於一門檻值，則將該部分字符串的字符個數增加1，並依據剩餘字符位置之排序，新增並記錄下一選定字符位置，直到該組合比例小於該門檻值，則得到該第二卷積神經網路模型所對應的該部分字符串的字符個數及該部分字符串所對應的字符位置。
如申請專利範圍第1項所述之字符辨識方法，更包括：比較該新辨識字符串與該字符資料庫中的字符串，以尋找與該新辨識字符串相對應的字符串；以及若找到與該新辨識字符串相對應的字符串，則輸出該新辨識字符串，若未找到與該新辨識字符串相對應的字符串時，則使用一編輯距離計算更正該新辨識字符串，以利用該字符資料庫中之字符串資料產生一調整後的字符串，並輸出該調整後的字符串。
如申請專利範圍第9項所述之字符辨識方法，更包括：依據該字符資料庫，統計每一字符位置之字符種類個數並據此決定每一該等字符位置之一調整權重；利用該調整權重進行該最小編輯距離計算，計算該字符資料庫中每一字符串之一調整誤差；以及輸出具有最小調整誤差之該字符串為該調整後的字符串。
一種字符辨識系統，包括：一儲存裝置，儲存有一字符資料庫；以及一影像處理器，耦接該儲存裝置，用以使用一第一卷積神經網路(Convolutional Neural Network,CNN)模型，辨識一有興趣區塊中的字符串(character string)，產出一辨識字符串，其中該有興趣區塊中的字符串包括一或多個字符，並且比較該辨識字符串與該字符資料庫中多個字符串，以尋找與該辨識字符串相對應的字符串，其中該多個字符串的每個字符串包括一或多個字符；其中，若找到該辨識字符串相對應的字符串時，該影像處理器係以該辨識字符串作為字符辨識結果，若未找到該辨識字符串相對應的字符串，該影像處理器係使用一第二卷積神經網路模型，更正該辨識字符串，以產出一新辨識字符串作為字符辨識結果。
如申請專利範圍第11項所述之字符辨識系統，其中該影像處理器係使用一區塊偵測卷積神經網路模型偵測一輸入影像而得到該有興趣區塊。
如申請專利範圍第12項所述之字符辨識系統，其中該輸入影像為一圖片或一影片的一畫面。
如申請專利範圍第12項所述之字符辨識系統，其中，該區塊偵測卷積神經網路模型、該第一卷積神經網路模型、該第二卷積神經網路模型為預先訓練過的卷積神經網路模型。
如申請專利範圍第11項所述之字符辨識系統，其中該多個字符串包括各種類型符號、各種類型字母、各種類型數字、各種類型文字、或前述中至少兩項的任意組合。
如申請專利範圍第11項所述之字符辨識系統，其中該影像處理器更比較該新辨識字符串與該字符資料庫中的字符串，以尋找與該新辨識字符串相對應的字符串；若找到與該新辨識字符串相對應的字符串，則該影像處理器輸出該新辨識字符串，若未找到與該新辨識字符串相對應的字符串，使用一第三CNN模型，更正該新辨識字符串。
如申請專利範圍第11項所述之字符辨識系統，其中該影像處理器更使用該第二卷積神經網路模型辨識該有興趣區塊中的字符串中的部分字符串，產生一辨識的部分字符串，並以該辨識的部分字符串替換該第一卷積神經網路模型所產生的該辨識字符串的對應部分字符串，以得到該新辨識字符串，其中該有興趣區塊中的字符串包括多個字符，且該部分字符串的字符個數小於該有興趣區塊中的字符串的字符個數。
如申請專利範圍第17項所述之字符辨識系統，其中該有興趣區塊中的該等字符串中每一該等字符有一對應字符位置，該影像處理器更計算每一該等對應字符位置之一字符種類個數、依據該等對應字符位置之該等字符種類個數，決定每一該等對應字符位置之一排序值、依據該等對應字符位置之該等排序值，依序計算各該對應字符位置之一可能組合總數以及一實際組合總數，當該可能組合總數以及該實際組合總數之一組合比例大於一門檻值，則該部分字符串的字符個數增加1，並依據剩餘字符位置之排序，新增並記錄下一選定字符位置，直到該可能組合總數以及該實際組合總數之一組合比例小於一門檻值，則得到該第二卷積神經網路模型所對應的該部分字符串的字符個數及該部分字符串所對應的字符位置。
如申請專利範圍第11項所述之字符辨識系統，其中該影像處理器更比較該新辨識字符串與該字符資料庫中的字符串，以尋找與該新辨識字符串相對應的字符串，若找到與該新辨識字符串相對應的字符串，則該影像處理器輸出該新辨識字符串，若未找到與該新辨識字符串相對應的字符串時，則該影像處理器使用一編輯距離計算更正該新辨識字符串，以利用該字符資料庫中之字符串資料產生一調整後的字符串，並輸出該調整後的字符串。
如申請專利範圍第19項所述之字符辨識系統，其中該影像處理器更依據該字符資料庫，統計每一字符位置之字符種類個數並據此決定每一該等字符位置之一調整權重，利用該調整權重進行該最小編輯距離計算，計算該字符資料庫中每一字符串之一調整誤差以及輸出具有最小調整誤差之該字符串為該調整後的字符串。