TWM654255U

TWM654255U - 基於神經網路的手寫文字辨識系統

Info

Publication number: TWM654255U
Application number: TW112205240U
Authority: TW
Inventors: 陳頌光; 莊建明
Original assignee: 新加坡商泓宇星私人有限責任公司
Priority date: 2022-10-26
Filing date: 2023-05-25
Publication date: 2024-04-21
Also published as: DE202022106040U1; JP3244068U

Abstract

一種基於神經網路的手寫文字辨識系統，包含一筆畫輸入處理器用於接收聯機手寫之字符串手寫軌跡並進行預處理；一字符串資料庫用於儲存該筆畫輸入處理器所處理的為數眾多之字符串手寫軌跡；一文字辨識神經網路，包含一編碼器、一解碼器、一輸入介面及一輸出介面；該字符串資料庫的該字符串手寫軌跡中的各筆畫經由該輸入介面輸入到該編碼器及該解碼器中進行多次辨識，得到多個可能的字符串；在訓練階段時，該字符串手寫軌跡所對應的已知之字符串係做為該文字辨識神經網路的預期輸出；所辨識出的字符串係經由該輸出介面輸出到一後處理器進行規範化，以作為該文字辨識神經網路的輸出。

Description

基於神經網路的手寫文字辨識系統

本創作係有關於文字辨識系統，尤其是一種基於神經網路的手寫文字辨識系統。

聯機手寫文字行辨識技術是一種把一行手寫文字的動態筆跡轉換為字符串的技術。相較於印刷體辨識技術，手寫辨識需要考慮因人而異的書寫習慣，因此更為困難；而與離線手寫辨識相比，聯機手寫辨識則有額外的時序信息及較少的背景噪聲，因此可以達到較高的準確性。

習知技術中有兩種具有較高辨識率的聯機手寫辨識方法，第一種方法是基於切分解碼機制，首先對筆劃序列進行過切分，再應用動態規劃的方式利用分類器選取最佳的切分方式及對應的辨識結果。MyScript公司及早期的Google公司均使用這種方法，其優點在於能夠輸出準確的對應關係。第二種方法則是不進行顯式的切分，一般是基於雙向循環神經網路及CTC(Connectionist Temporal Classification)解碼器。使用這種方法的公司有Samsung和Google，這種方法的優點是容易實施，因為可以使用端到端可訓練(end-to-end training)的方式訓練相關的模型。

惟上述的習知技術，其辨識率仍不夠高，無法非常準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言)，或是辨識任意倒筆書寫的文字。

故本案希望提出一種嶄新的基於神經網路的手寫文字辨識系統，以解決上述先前技術上的缺陷。

所以本創作的目的係為解決上述習知技術上的問題，本創作中提出一種基於神經網路的手寫文字辨識系統，具有更高的辨識率，可以更加準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言)，並能夠提供輸入筆劃與輸出字符間的對應關係。也可以支援任意倒筆書寫的辨識。本案可以在實際應用時配置所需要的文字辨識範圍以支援開放或封閉詞典的應用。本案也可以應用於一般手機或平板電腦上的即時手寫文字辨識。

為達到上述目的本創作中提出一種基於神經網路的手寫文字辨識系統，其包含：一處理器及一記憶體；該處理器用於進行系統所需要的操作；該記憶體用於儲存該系統中電腦程式的資料或運算程式、相關的操作結果及相關的資料；該系統尚包含：一筆畫輸入處理器，用於接收聯機手寫之字符串手寫軌跡，該字符串手寫軌跡被拆成多個筆畫；在神經網路的訓練階段及預測階段，該筆畫輸入處理器將該字符串手寫軌跡的各筆畫進行預處理；其中在訓練階段，該字符串手寫軌跡的這些筆畫係對應到一已知的字符串，其由至少一字符所組成，該字符串手寫軌跡及其對應的字符串形成一字符串樣本；一字符串資料庫，連接該筆畫輸入處理器，用於儲存該筆畫輸入處理器所處理的為數眾多之字符串手寫軌跡；在訓練階段，該字符串資料庫係儲存該字符串手寫軌跡及其對應的字符串所形成的字符串樣本；一文字辨識神經網路，包含一編碼器、一解碼器、一輸入介面位在該編碼器、及一輸出介面位在該解碼器；該輸入介面連接該字符串資料庫，用於接收該字符串手寫軌跡的各筆畫；該編碼器用於在各筆畫中找出一上下文矩陣及該解碼器使用的初始狀態，該解碼器接收該上下文矩陣及該初始狀態，並從該輸出介面輸出預期輸出之字符串的片段及置信度，將此片段及置信度自回歸輸入到該解碼器中再進行辨識；如此反覆數次後，得到多個可能的字符串及對應之置信度，並儲存在一結果候選集中；該結果候選集經由該輸出介面向外輸出；在訓練階段時，該字符串手寫軌跡的各個筆畫係經由該輸入介面輸入該文字辨識神經網路，而該字符串手寫軌跡所對應的字符串則做為該文字辨識神經網路的預期輸出；一後處理器，連接該字符串資料庫及該文字辨識神經網路的該輸出介面；由該文字辨識神經網路的該輸出介面所輸出的該結果候選集的字符串係經由該後處理器進行規範化(Normalization)，以作為該文字辨識神經網路的輸出。

由下文的說明可更進一步瞭解本創作的特徵及其優點，閱讀時並請參考附圖。

1:系統

2:處理器

6:記憶體

10:筆畫輸入處理器

20:字符串資料庫

80:字符串手寫軌跡

81:筆畫

83:採樣點

90:字符串

91:字符

30:字符串樣本產生單元

35:語料及手寫樣本庫

40:文字辨識神經網路

41:編碼器

42:解碼器

43:輸入介面

44:輸出介面

50:後處理器

60:置信度調整單元

70:結果候選集

100:字符串樣本

圖1顯示本案之主要元件組合之架構示意圖。

圖2顯示本案之訓練階段之應用示意圖。

圖3顯示本案之字符串樣本之方塊示意圖。

圖4顯示本案之預測階段之應用示意圖。

圖5顯示本案之硬體結構架構圖。

茲謹就本案的結構組成，及所能產生的功效與優點，配合圖式，舉本案之一較佳實施例詳細說明如下。

請參考圖5，其中顯示本案的基於神經網路的手寫文字辨識系統1主要包含：一處理器2及一記憶體6。該處理器2用於進行系統1所需要的操作。該記憶體6用於儲存該系統1中電腦程式的資料或運算程式、相關的操作結果及相關的資料。其中所有的操作結果及相關的資料均儲存在該記憶體6中。

請參考圖1至圖5所示，顯示本創作之基於神經網路的手寫文字辨識系統，文字辨識被建模為一個序列到序列(sequence to sequence)問題，該問題的輸入為一列採樣點(包含x座標、y座標及筆畫結束標記)，而輸出為一列字符，兩者的長度皆非固定值。本案採用基於注意力機制的編碼器-解碼器架構來解決這個問題。

本案包含下列元件：

一筆畫輸入處理器10，用於接收聯機手寫之字符串手寫軌跡80，該字符串手寫軌跡80被拆成多個筆畫81。在神經網路的訓練階段及預測階段，該筆畫輸入處理器10將該字符串手寫軌跡80的各筆畫81進行預處理。其中在訓練階段，該字符串手寫軌跡80的這些筆畫81係對應到一已知的字符串90，其由至少一字符91所組成，該字符串手寫軌跡80及其對應的字符串90形成一字符串樣本100(如圖3所示)。該筆畫輸入處理器10的預處理方式為：

規範化筆畫順序：對各個筆畫81確定一外接方框，該外接方框為可以容納該筆畫81的最小方框。以各筆畫81的外接方框的左側位置為準，對所有筆畫81由左到右進行排序，即所謂的規範化。

接著估計行高：當一條筆畫81的長度與其外接方框的寬度相近時，以其外接方框的寬度作為筆畫尺度，否則以該外接方框的高度作為筆畫尺度。利用這些筆畫尺度的某個分位數作為行高的估計。

然後再進行重新採樣：每一筆畫81係以多個採樣點83表示，其中對於一採樣點83，當該採樣點83與前一採樣點83的距離小於行高估計的某個倍數時，則去除該採樣點83。對於該採樣點83與其前後方的採樣點83，當三點之間的夾角接近一平角(180度)時，則去除該採樣點83。如此可以大量減少採樣點83的數量。

最後進行座標規範化：將每個採樣點83的座標除以行高的估計。

在訓練階段時，該字符串手寫軌跡80的各個筆畫81經由該筆畫輸入處理器10進行預處理以用於作為神經網路的輸入，而該字符串手寫軌跡80所對應的字符串90則做為神經網路的預期輸出。

一字符串資料庫20，連接該筆畫輸入處理器10，用於儲存該筆畫輸入處理器10所處理的為數眾多之字符串手寫軌跡80。在訓練階段，該字符串資料庫20係儲存該字符串手寫軌跡80及其對應的字符串90所形成的字符串樣本100。各該字符串手寫軌跡80的各個筆畫81以多個採樣點83表示。其中各筆畫81的第一個採樣點83以座標(0,0)表示，其餘的採樣點83則應用相對於前一採樣點83的位移向量表示，每一筆畫81的最後採樣點83會有結束標記。

為了提高整個系統的泛化辨識能力，可以使用數據增廣的方法以增加字符串樣本100的數量。其中本案尚包含一字符串樣本產生單元30，其連接一語料及手寫樣本庫35及該筆畫輸入處理器10，該語料及手寫樣本庫35儲存特定語言的各種字符及單詞、及其對應之筆畫81的樣本。該字符串樣本產生單元30從該語料及手寫樣本庫35中抽取為數眾多的字符串90及其對應的筆畫81，而對這些字符串90合成其對應的字符串手寫軌跡80，以形成為數眾多的字符串樣本100，並經由該筆畫輸入處理器10的處理後儲存到該字符串資料庫20中，以用於訓練神經網路。該字符串樣本產生單元30合成該字符串手寫軌跡80的方式包含：

(1)利用文本排版算法渲染(render)該字符串90，並記錄字符串90中各個字符/單詞的位置，然後從該語料及手寫樣本庫35尋找各字符/單詞的筆畫81並放到相應位置，以得到這些字符/單詞中各筆畫81的規範化筆畫順序及行高估計，再輸入該筆畫輸入處理器10進行重新採樣及坐標規範化，以得到對應的字符串樣本100。

其中也可以對於該字符串90中的字符、單詞和行等等的級別予以分類，對其對應的筆畫81進行隨機仿射變換(Affine transformation)以進一步提高對應的字符串手寫軌跡80的多樣性，以得到更多的字符串樣本100用於訓練神經網路。

(2)利用帶標注的文本行樣本訓練出一序列到序列翻譯模型，該標注表示該文本行樣本中所對應的字符串90，該序列到序列翻譯模型用於將字符串90轉換為對應的字符串手寫軌跡80，以產生對應的字符串樣本100。

該字符串樣本產生單元30將所得到之字符串樣本100儲存到該字符串資料庫20。

一文字辨識神經網路40，包含一編碼器41、一解碼器42、一輸入介面43位在該編碼器41、及一輸出介面44位在該解碼器42。該輸入介面43連接該字符串資料庫20，用於接收該字符串手寫軌跡80的各筆畫81。該編碼器41用於在各筆畫81中找出一上下文矩陣及該解碼器42使用的初始狀態，該解碼器42接收該上下文矩陣及該初始狀態，並從該輸出介面44輸出預期輸出之字符串的片段及置信度，將此片段及置信度自回歸輸入到該解碼器42中再進行辨識。如此反覆數次後，得到多個可能的字符串90及對應之置信度，並儲存在一結果候選集70中。該結果候選集70經由該輸出介面44向外輸出。

如圖2所示，在訓練階段時，該字符串手寫軌跡80的各個筆畫81係經由該輸入介面43輸入該文字辨識神經網路40，而該字符串手寫軌跡80所對應的字符串90則做為該文字辨識神經網路40的預期輸出。

一後處理器50，連接該字符串資料庫20及該文字辨識神經網路40的該輸出介面44。由該文字辨識神經網路40的該輸出介面44所輸出的該結果候選集70的字符串90係經由該後處理器50進行規範化(Normalization)，以作為該文字辨識神經網路40的輸出。其中規範化的方式為：

(1)進行Unicode的NFKD格式(Normalization Form KD)的規範化。主要是將表現為不同形式的同一字符，規範為相同的程式碼。

(2)將Unicode碼位的順序從正常的邏輯順序轉換為視覺順序(從左到右)，從而大致與排序過的輸入對齊。在預測階段時，可以預期辨識結果通常也是規範化的，因此需要對所辨識出的字符串90進行Unicode的NFKC規範化，並將Unicode碼位的順序從視覺順序轉換回邏輯順序。

比如將一字符串90中具有不同排列順序的片段之字符整理成具有相同的排列順序。使得在訓練神經網路時較易辨識。

其中該編碼器41包含一多層雙向LSTM(Long Short-Term Memory)循環神經網路，及一全連接神經網路(Fully-connect Neural Network，FNN)。其中輸入該編碼器41的各筆畫81係進入多層雙向LSTM(Long Short-Term Memory)循環神經網路，該多層雙向LSTM循環神經網路的輸出即為一上下文矩陣 (context matrix)；對於該上下文矩陣進行全域平均池化(Global Average Pooling)後，再經過該全連接神經網路(Fully-connect Neural Network，FNN)，該全連接神經網路的輸出即為用於輸入該解碼器42的初始狀態。

其中該解碼器42的輸入包含一輸入字符、一解碼狀態、一收斂向量、及該上下文矩陣。該解碼器42係進行多步的解碼，其中在進行第一步解碼時，該輸入字符的初始值為一個內訂的開始符，該收斂向量的初始值為零向量，該解碼狀態的初始值為該編碼器41輸出的該初始狀態，該上下文矩陣由該編碼器41所輸出。該解碼器42的輸出為下一字符及其置信度(Confidence)分佈、新的解碼狀態及新的收斂向量，該下一字符係作為新的輸入字符，與新的解碼狀態及新的收斂向量一起自回歸輸入該解碼器42，以進行下一步的解碼。該解碼器42應用上述方式反覆進行多步的解碼。其中該收斂向量的維度代表各採樣點83，其作用係記錄哪些採樣點83已經有對應的輸出字符，各維度的初始座標為0。如果存在對應的輸出字符，則將對應該採樣點83的維度座標設為1。因此應用該收斂向量可以減少缺字或多字的情況。

其中該解碼器42可以定義一損失函數(loss function)，其為多個函數的線性組合，在計算時視需要定義有意義的損失函數。該損失函數用於校準置信度分佈的交叉熵(cross-entropy)以及引導該收斂向量結束時全1的均方差。當已知某些字符對應的筆畫81時(例如數據有字符級標注或者是合成的)，還引導解碼出一個字符時，則將該收斂向量對應於有關筆畫81的點的分量增大1。因此在預測階段時可以藉由該收斂向量的變化來判斷各個輸出的字符分別對應於哪些筆畫81。

在預測階段時，該解碼器42使用beam搜尋(Beam Search)的方式逐步建立候選行，並對於每條未完成的候選行，記錄其字符串、置信度、解碼狀態、收斂向量及一預測分析棧(predictive analysis stack)。該預測分析棧為預測分析法(predictive analytics)中包含文法符號序列的棧。當需要輸出字符級別的候選時，尚記錄每個字符的若干個其它候選字符及對應的置信度。當需要輸出筆畫81與字符的對應關係時，尚記錄歷史的收斂向量。該解碼器42在每一步解碼中係對於每條未完成的候選行進行下列步驟：

(1)調用該解碼器42以獲取下一字符的候選列表及對應的置信度，同時更新解碼狀態及收斂向量。

(2)將下一字符的各個候選經由該輸出介面44輸出到串接在該輸出介面44及該後處理器50之間的一置信度調整單元60，該置信度調整單元60應用n-gram的方式計算所獲得之字符串的機率，以調整下一字符的各候選的置信度。

(3)對於下一字符的各個候選，計算其與原字符串結合後的置信度及預測分析棧：

(a)若該候選為結束符且該預測分析棧為空，則得到一條已完成候選行。

(b)若該候選非結束符，且該預測分析棧不處於出錯狀態，則得到一條未完成候選行，用於在下一步解碼時進行處理。

其中每當下一步解碼開始時，該解碼器42僅保留置信度最高的若干條候選行。當已完成的候選行數目達到一預設值時，則停止解碼，此時已完成的候選行即為若干個可能的字符串90，將這些字符串90及其置信度儲存到該結果候選集70，由該輸出介面44向外輸出。

如圖4所示，在預測階段時，將一欲辨識的字符串手寫軌跡80的各個筆畫81經由該筆畫輸入處理器10處理後，經由該字符串資料庫20輸入到該文字辨識神經網路40進行辨識，將辨識結果經由該後處理器50處理後所得到的該結果候選集70，即包含對應該字符串手寫軌跡80的若干個可能的字符串90及其置信度。

本案的優點在於具有更高的辨識率，可以更加準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言)，並能夠提供輸入筆劃與輸出字符間的對應關係。也可以支援任意倒筆書寫的辨識。本案可以在實際應用時配置所需要的文字辨識範圍以支援開放或封閉詞典的應用。本案也可以應用於一般手機或平板電腦上的即時手寫文字辨識。

綜上所述，本案人性化之體貼設計，相當符合實際需求。其具體改進現有缺失，相較於習知技術明顯具有突破性之進步優點，確實具有功效之增進，且非易於達成。本案未曾公開或揭露於國內與國外之文獻與市場上，已符合專利法規定。

上列詳細說明係針對本創作之一可行實施例之具體說明，惟該實施例並非用以限制本創作之專利範圍，凡未脫離本創作技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。