TWM654255U - 基於神經網路的手寫文字辨識系統 - Google Patents
基於神經網路的手寫文字辨識系統 Download PDFInfo
- Publication number
- TWM654255U TWM654255U TW112205240U TW112205240U TWM654255U TW M654255 U TWM654255 U TW M654255U TW 112205240 U TW112205240 U TW 112205240U TW 112205240 U TW112205240 U TW 112205240U TW M654255 U TWM654255 U TW M654255U
- Authority
- TW
- Taiwan
- Prior art keywords
- string
- neural network
- stroke
- character
- output
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000005070 sampling Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一種基於神經網路的手寫文字辨識系統,包含一筆畫輸入處理器用於接收聯機手寫之字符串手寫軌跡並進行預處理;一字符串資料庫用於儲存該筆畫輸入處理器所處理的為數眾多之字符串手寫軌跡;一文字辨識神經網路,包含一編碼器、一解碼器、一輸入介面及一輸出介面;該字符串資料庫的該字符串手寫軌跡中的各筆畫經由該輸入介面輸入到該編碼器及該解碼器中進行多次辨識,得到多個可能的字符串;在訓練階段時,該字符串手寫軌跡所對應的已知之字符串係做為該文字辨識神經網路的預期輸出;所辨識出的字符串係經由該輸出介面輸出到一後處理器進行規範化,以作為該文字辨識神經網路的輸出。
Description
本創作係有關於文字辨識系統,尤其是一種基於神經網路的手寫文字辨識系統。
聯機手寫文字行辨識技術是一種把一行手寫文字的動態筆跡轉換為字符串的技術。相較於印刷體辨識技術,手寫辨識需要考慮因人而異的書寫習慣,因此更為困難;而與離線手寫辨識相比,聯機手寫辨識則有額外的時序信息及較少的背景噪聲,因此可以達到較高的準確性。
習知技術中有兩種具有較高辨識率的聯機手寫辨識方法,第一種方法是基於切分解碼機制,首先對筆劃序列進行過切分,再應用動態規劃的方式利用分類器選取最佳的切分方式及對應的辨識結果。MyScript公司及早期的Google公司均使用這種方法,其優點在於能夠輸出準確的對應關係。第二種方法則是不進行顯式的切分,一般是基於雙向循環神經網路及CTC(Connectionist Temporal Classification)解碼器。使用這種方法的公司有Samsung和Google,這種方法的優點是容易實施,因為可以使用端到端可訓練(end-to-end training)的方式訓練相關的模型。
惟上述的習知技術,其辨識率仍不夠高,無法非常準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言),或是辨識任意倒筆書寫的
文字。
故本案希望提出一種嶄新的基於神經網路的手寫文字辨識系統,以解決上述先前技術上的缺陷。
所以本創作的目的係為解決上述習知技術上的問題,本創作中提出一種基於神經網路的手寫文字辨識系統,具有更高的辨識率,可以更加準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言),並能夠提供輸入筆劃與輸出字符間的對應關係。也可以支援任意倒筆書寫的辨識。本案可以在實際應用時配置所需要的文字辨識範圍以支援開放或封閉詞典的應用。本案也可以應用於一般手機或平板電腦上的即時手寫文字辨識。
為達到上述目的本創作中提出一種基於神經網路的手寫文字辨識系統,其包含:一處理器及一記憶體;該處理器用於進行系統所需要的操作;該記憶體用於儲存該系統中電腦程式的資料或運算程式、相關的操作結果及相關的資料;該系統尚包含:一筆畫輸入處理器,用於接收聯機手寫之字符串手寫軌跡,該字符串手寫軌跡被拆成多個筆畫;在神經網路的訓練階段及預測階段,該筆畫輸入處理器將該字符串手寫軌跡的各筆畫進行預處理;其中在訓練階段,該字符串手寫軌跡的這些筆畫係對應到一已知的字符串,其由至少一字符所組成,該字符串手寫軌跡及其對應的字符串形成一字符串樣本;一字符串資料庫,連接該筆畫輸入處理器,用於儲存該筆畫輸入處理器所處理的為數眾多之字符串手寫軌跡;在訓練階段,該字符串資料庫係儲存該字符串手寫軌跡及其對應的字符串所形成的字符串樣本;一文字辨識神經網路,包含一編碼器、一解碼器、一輸入介面位在該
編碼器、及一輸出介面位在該解碼器;該輸入介面連接該字符串資料庫,用於接收該字符串手寫軌跡的各筆畫;該編碼器用於在各筆畫中找出一上下文矩陣及該解碼器使用的初始狀態,該解碼器接收該上下文矩陣及該初始狀態,並從該輸出介面輸出預期輸出之字符串的片段及置信度,將此片段及置信度自回歸輸入到該解碼器中再進行辨識;如此反覆數次後,得到多個可能的字符串及對應之置信度,並儲存在一結果候選集中;該結果候選集經由該輸出介面向外輸出;在訓練階段時,該字符串手寫軌跡的各個筆畫係經由該輸入介面輸入該文字辨識神經網路,而該字符串手寫軌跡所對應的字符串則做為該文字辨識神經網路的預期輸出;一後處理器,連接該字符串資料庫及該文字辨識神經網路的該輸出介面;由該文字辨識神經網路的該輸出介面所輸出的該結果候選集的字符串係經由該後處理器進行規範化(Normalization),以作為該文字辨識神經網路的輸出。
由下文的說明可更進一步瞭解本創作的特徵及其優點,閱讀時並請參考附圖。
1:系統
2:處理器
6:記憶體
10:筆畫輸入處理器
20:字符串資料庫
80:字符串手寫軌跡
81:筆畫
83:採樣點
90:字符串
91:字符
30:字符串樣本產生單元
35:語料及手寫樣本庫
40:文字辨識神經網路
41:編碼器
42:解碼器
43:輸入介面
44:輸出介面
50:後處理器
60:置信度調整單元
70:結果候選集
100:字符串樣本
圖1顯示本案之主要元件組合之架構示意圖。
圖2顯示本案之訓練階段之應用示意圖。
圖3顯示本案之字符串樣本之方塊示意圖。
圖4顯示本案之預測階段之應用示意圖。
圖5顯示本案之硬體結構架構圖。
茲謹就本案的結構組成,及所能產生的功效與優點,配合圖式,舉本
案之一較佳實施例詳細說明如下。
請參考圖5,其中顯示本案的基於神經網路的手寫文字辨識系統1主要包含:一處理器2及一記憶體6。該處理器2用於進行系統1所需要的操作。該記憶體6用於儲存該系統1中電腦程式的資料或運算程式、相關的操作結果及相關的資料。其中所有的操作結果及相關的資料均儲存在該記憶體6中。
請參考圖1至圖5所示,顯示本創作之基於神經網路的手寫文字辨識系統,文字辨識被建模為一個序列到序列(sequence to sequence)問題,該問題的輸入為一列採樣點(包含x座標、y座標及筆畫結束標記),而輸出為一列字符,兩者的長度皆非固定值。本案採用基於注意力機制的編碼器-解碼器架構來解決這個問題。
本案包含下列元件:
一筆畫輸入處理器10,用於接收聯機手寫之字符串手寫軌跡80,該字符串手寫軌跡80被拆成多個筆畫81。在神經網路的訓練階段及預測階段,該筆畫輸入處理器10將該字符串手寫軌跡80的各筆畫81進行預處理。其中在訓練階段,該字符串手寫軌跡80的這些筆畫81係對應到一已知的字符串90,其由至少一字符91所組成,該字符串手寫軌跡80及其對應的字符串90形成一字符串樣本100(如圖3所示)。該筆畫輸入處理器10的預處理方式為:
規範化筆畫順序:對各個筆畫81確定一外接方框,該外接方框為可以容納該筆畫81的最小方框。以各筆畫81的外接方框的左側位置為準,對所有筆畫81由左到右進行排序,即所謂的規範化。
接著估計行高:當一條筆畫81的長度與其外接方框的寬度相近時,以其外接方框的寬度作為筆畫尺度,否則以該外接方框的高度作為筆畫尺
度。利用這些筆畫尺度的某個分位數作為行高的估計。
然後再進行重新採樣:每一筆畫81係以多個採樣點83表示,其中對於一採樣點83,當該採樣點83與前一採樣點83的距離小於行高估計的某個倍數時,則去除該採樣點83。對於該採樣點83與其前後方的採樣點83,當三點之間的夾角接近一平角(180度)時,則去除該採樣點83。如此可以大量減少採樣點83的數量。
最後進行座標規範化:將每個採樣點83的座標除以行高的估計。
在訓練階段時,該字符串手寫軌跡80的各個筆畫81經由該筆畫輸入處理器10進行預處理以用於作為神經網路的輸入,而該字符串手寫軌跡80所對應的字符串90則做為神經網路的預期輸出。
一字符串資料庫20,連接該筆畫輸入處理器10,用於儲存該筆畫輸入處理器10所處理的為數眾多之字符串手寫軌跡80。在訓練階段,該字符串資料庫20係儲存該字符串手寫軌跡80及其對應的字符串90所形成的字符串樣本100。各該字符串手寫軌跡80的各個筆畫81以多個採樣點83表示。其中各筆畫81的第一個採樣點83以座標(0,0)表示,其餘的採樣點83則應用相對於前一採樣點83的位移向量表示,每一筆畫81的最後採樣點83會有結束標記。
為了提高整個系統的泛化辨識能力,可以使用數據增廣的方法以增加字符串樣本100的數量。其中本案尚包含一字符串樣本產生單元30,其連接一語料及手寫樣本庫35及該筆畫輸入處理器10,該語料及手寫樣本庫35儲存特定語言的各種字符及單詞、及其對應之筆畫81的樣本。該字符串樣本產生單元30從該語料及手寫樣本庫35中抽取為數眾多的字符串90及其對應的筆畫81,而對這些字符串90合成其對應的字符串手寫軌跡80,以形成為數眾
多的字符串樣本100,並經由該筆畫輸入處理器10的處理後儲存到該字符串資料庫20中,以用於訓練神經網路。該字符串樣本產生單元30合成該字符串手寫軌跡80的方式包含:
(1)利用文本排版算法渲染(render)該字符串90,並記錄字符串90中各個字符/單詞的位置,然後從該語料及手寫樣本庫35尋找各字符/單詞的筆畫81並放到相應位置,以得到這些字符/單詞中各筆畫81的規範化筆畫順序及行高估計,再輸入該筆畫輸入處理器10進行重新採樣及坐標規範化,以得到對應的字符串樣本100。
其中也可以對於該字符串90中的字符、單詞和行等等的級別予以分類,對其對應的筆畫81進行隨機仿射變換(Affine transformation)以進一步提高對應的字符串手寫軌跡80的多樣性,以得到更多的字符串樣本100用於訓練神經網路。
(2)利用帶標注的文本行樣本訓練出一序列到序列翻譯模型,該標注表示該文本行樣本中所對應的字符串90,該序列到序列翻譯模型用於將字符串90轉換為對應的字符串手寫軌跡80,以產生對應的字符串樣本100。
該字符串樣本產生單元30將所得到之字符串樣本100儲存到該字符串資料庫20。
一文字辨識神經網路40,包含一編碼器41、一解碼器42、一輸入介面43位在該編碼器41、及一輸出介面44位在該解碼器42。該輸入介面43連接該字符串資料庫20,用於接收該字符串手寫軌跡80的各筆畫81。該編碼器41用於在各筆畫81中找出一上下文矩陣及該解碼器42使用的初始狀態,該解碼器42接收該上下文矩陣及該初始狀態,並從該輸出介面44輸出預期輸出之字符
串的片段及置信度,將此片段及置信度自回歸輸入到該解碼器42中再進行辨識。如此反覆數次後,得到多個可能的字符串90及對應之置信度,並儲存在一結果候選集70中。該結果候選集70經由該輸出介面44向外輸出。
如圖2所示,在訓練階段時,該字符串手寫軌跡80的各個筆畫81係經由該輸入介面43輸入該文字辨識神經網路40,而該字符串手寫軌跡80所對應的字符串90則做為該文字辨識神經網路40的預期輸出。
一後處理器50,連接該字符串資料庫20及該文字辨識神經網路40的該輸出介面44。由該文字辨識神經網路40的該輸出介面44所輸出的該結果候選集70的字符串90係經由該後處理器50進行規範化(Normalization),以作為該文字辨識神經網路40的輸出。其中規範化的方式為:
(1)進行Unicode的NFKD格式(Normalization Form KD)的規範化。主要是將表現為不同形式的同一字符,規範為相同的程式碼。
(2)將Unicode碼位的順序從正常的邏輯順序轉換為視覺順序(從左到右),從而大致與排序過的輸入對齊。在預測階段時,可以預期辨識結果通常也是規範化的,因此需要對所辨識出的字符串90進行Unicode的NFKC規範化,並將Unicode碼位的順序從視覺順序轉換回邏輯順序。
比如將一字符串90中具有不同排列順序的片段之字符整理成具有相同的排列順序。使得在訓練神經網路時較易辨識。
其中該編碼器41包含一多層雙向LSTM(Long Short-Term Memory)循環神經網路,及一全連接神經網路(Fully-connect Neural Network,FNN)。其中輸入該編碼器41的各筆畫81係進入多層雙向LSTM(Long Short-Term Memory)循環神經網路,該多層雙向LSTM循環神經網路的輸出即為一上下文矩陣
(context matrix);對於該上下文矩陣進行全域平均池化(Global Average Pooling)後,再經過該全連接神經網路(Fully-connect Neural Network,FNN),該全連接神經網路的輸出即為用於輸入該解碼器42的初始狀態。
其中該解碼器42的輸入包含一輸入字符、一解碼狀態、一收斂向量、及該上下文矩陣。該解碼器42係進行多步的解碼,其中在進行第一步解碼時,該輸入字符的初始值為一個內訂的開始符,該收斂向量的初始值為零向量,該解碼狀態的初始值為該編碼器41輸出的該初始狀態,該上下文矩陣由該編碼器41所輸出。該解碼器42的輸出為下一字符及其置信度(Confidence)分佈、新的解碼狀態及新的收斂向量,該下一字符係作為新的輸入字符,與新的解碼狀態及新的收斂向量一起自回歸輸入該解碼器42,以進行下一步的解碼。該解碼器42應用上述方式反覆進行多步的解碼。其中該收斂向量的維度代表各採樣點83,其作用係記錄哪些採樣點83已經有對應的輸出字符,各維度的初始座標為0。如果存在對應的輸出字符,則將對應該採樣點83的維度座標設為1。因此應用該收斂向量可以減少缺字或多字的情況。
其中該解碼器42可以定義一損失函數(loss function),其為多個函數的線性組合,在計算時視需要定義有意義的損失函數。該損失函數用於校準置信度分佈的交叉熵(cross-entropy)以及引導該收斂向量結束時全1的均方差。當已知某些字符對應的筆畫81時(例如數據有字符級標注或者是合成的),還引導解碼出一個字符時,則將該收斂向量對應於有關筆畫81的點的分量增大1。因此在預測階段時可以藉由該收斂向量的變化來判斷各個輸出的字符分別對應於哪些筆畫81。
在預測階段時,該解碼器42使用beam搜尋(Beam Search)的方式逐步建立候選行,並對於每條未完成的候選行,記錄其字符串、置信度、解碼狀態、收斂向量及一預測分析棧(predictive analysis stack)。該預測分析棧為預測分析法(predictive analytics)中包含文法符號序列的棧。當需要輸出字符級別的候選時,尚記錄每個字符的若干個其它候選字符及對應的置信度。當需要輸出筆畫81與字符的對應關係時,尚記錄歷史的收斂向量。該解碼器42在每一步解碼中係對於每條未完成的候選行進行下列步驟:
(1)調用該解碼器42以獲取下一字符的候選列表及對應的置信度,同時更新解碼狀態及收斂向量。
(2)將下一字符的各個候選經由該輸出介面44輸出到串接在該輸出介面44及該後處理器50之間的一置信度調整單元60,該置信度調整單元60應用n-gram的方式計算所獲得之字符串的機率,以調整下一字符的各候選的置信度。
(3)對於下一字符的各個候選,計算其與原字符串結合後的置信度及預測分析棧:
(a)若該候選為結束符且該預測分析棧為空,則得到一條已完成候選行。
(b)若該候選非結束符,且該預測分析棧不處於出錯狀態,則得到一條未完成候選行,用於在下一步解碼時進行處理。
其中每當下一步解碼開始時,該解碼器42僅保留置信度最高的若干條候選行。當已完成的候選行數目達到一預設值時,則停止解碼,此時已完成的候選行即為若干個可能的字符串90,將這些字符串90及其置信度儲存到該結果候選集70,由該輸出介面44向外輸出。
如圖4所示,在預測階段時,將一欲辨識的字符串手寫軌跡80的各個筆畫81經由該筆畫輸入處理器10處理後,經由該字符串資料庫20輸入到該文字辨識神經網路40進行辨識,將辨識結果經由該後處理器50處理後所得到的該結果候選集70,即包含對應該字符串手寫軌跡80的若干個可能的字符串90及其置信度。
本案的優點在於具有更高的辨識率,可以更加準確地辨識世界上各種主流的自然語言(包含由右到左書寫的語言),並能夠提供輸入筆劃與輸出字符間的對應關係。也可以支援任意倒筆書寫的辨識。本案可以在實際應用時配置所需要的文字辨識範圍以支援開放或封閉詞典的應用。本案也可以應用於一般手機或平板電腦上的即時手寫文字辨識。
綜上所述,本案人性化之體貼設計,相當符合實際需求。其具體改進現有缺失,相較於習知技術明顯具有突破性之進步優點,確實具有功效之增進,且非易於達成。本案未曾公開或揭露於國內與國外之文獻與市場上,已符合專利法規定。
上列詳細說明係針對本創作之一可行實施例之具體說明,惟該實施例並非用以限制本創作之專利範圍,凡未脫離本創作技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。
10:筆畫輸入處理器
20:字符串資料庫
30:字符串樣本產生單元
40:文字辨識神經網路
41:編碼器
42:解碼器
43:輸入介面
44:輸出介面
50:後處理器
Claims (13)
- 一種基於神經網路的手寫文字辨識系統,其包含:一處理器及一記憶體;該處理器用於進行系統所需要的操作;該記憶體用於儲存該系統中電腦程式的資料或運算程式、相關的操作結果及相關的資料;該系統尚包含:一筆畫輸入處理器,用於接收聯機手寫之字符串手寫軌跡,該字符串手寫軌跡被拆成多個筆畫;在神經網路的訓練階段及預測階段,該筆畫輸入處理器將該字符串手寫軌跡的各筆畫進行預處理;其中在訓練階段,該字符串手寫軌跡的這些筆畫係對應到一已知的字符串,其由至少一字符所組成,該字符串手寫軌跡及其對應的字符串形成一字符串樣本;一字符串資料庫,連接該筆畫輸入處理器,用於儲存該筆畫輸入處理器所處理的為數眾多之字符串手寫軌跡;在訓練階段,該字符串資料庫係儲存該字符串手寫軌跡及其對應的字符串所形成的字符串樣本;一文字辨識神經網路,包含一編碼器、一解碼器、一輸入介面位在該編碼器、及一輸出介面位在該解碼器;該輸入介面連接該字符串資料庫,用於接收該字符串手寫軌跡的各筆畫;該編碼器用於在各筆畫中找出一上下文矩陣及該解碼器使用的初始狀態,該解碼器接收該上下文矩陣及該初始狀態,並從該輸出介面輸出預期輸出之字符串的片段及置信度,將此片段及置信度自回歸輸入到該解碼器中再進行辨識;如此反覆數次後,得到多個可能的字符串及對應之置信度,並儲存在一結果候選集中;該結果候選集經由該輸出介面向外輸出;在訓練階段時,該字符串手寫軌跡的各個筆畫係經由該輸入介面輸入該文字辨識神經網路,而該字符串手寫軌跡所對應的字符串則做為該文字 辨識神經網路的預期輸出;一後處理器,連接該字符串資料庫及該文字辨識神經網路的該輸出介面;由該文字辨識神經網路的該輸出介面所輸出的該結果候選集的字符串係經由該後處理器進行規範化(Normalization),以作為該文字辨識神經網路的輸出。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,其中該筆畫輸入處理器的預處理方式為:規範化筆畫順序:對各個筆畫確定一外接方框,該外接方框為可以容納該筆畫的最小方框;以各筆畫的外接方框的左側位置為準,對所有筆畫由左到右進行排序,即所謂的規範化;接著估計行高:當一條筆畫的長度與其外接方框的寬度相近時,以其外接方框的寬度作為筆畫尺度,否則以該外接方框的高度作為筆畫尺度;利用這些筆畫尺度的某個分位數作為行高的估計;然後再進行重新採樣:每一筆畫係以多個採樣點表示,其中對於一採樣點,當該採樣點與前一採樣點的距離小於行高估計的某個倍數時,則去除該採樣點;對於該採樣點與其前後方的採樣點,當三點之間的夾角接近一平角時,則去除該採樣點;最後進行座標規範化:將每個採樣點的座標除以行高的估計。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,尚包含一字符串樣本產生單元,其連接一語料及手寫樣本庫及該筆畫輸入處理器,該語料及手寫樣本庫儲存特定語言的各種字符及單詞、及其對應之筆畫的樣本;該字符串樣本產生單元從該語料及手寫樣本庫中抽取為數眾 多的字符串及其對應的筆畫,而對這些字符串合成其對應的字符串手寫軌跡,以形成為數眾多的字符串樣本,並經由該筆畫輸入處理器的處理後儲存到該字符串資料庫中,以用於訓練神經網路。
- 如申請專利範圍第3項所述之基於神經網路的手寫文字辨識系統,其中該字符串樣本產生單元合成該字符串手寫軌跡的方式為利用文本排版算法渲染(render)該字符串,並記錄字符串中各個字符/單詞的位置,然後從該語料及手寫樣本庫尋找各字符/單詞的筆畫並放到相應位置,以得到這些字符/單詞中各筆畫的規範化筆畫順序及行高估計,再輸入該筆畫輸入處理器進行重新採樣及坐標規範化,以得到對應的字符串樣本;其中也對於該字符串中的字符、單詞和行等等的級別予以分類,對其對應的筆畫進行隨機仿射變換(Affine transformation)以進一步提高對應的字符串手寫軌跡的多樣性。
- 如申請專利範圍第3項所述之基於神經網路的手寫文字辨識系統,其中該字符串樣本產生單元合成該字符串手寫軌跡的方式為利用帶標注的文本行樣本訓練出一序列到序列翻譯模型,該標注表示該文本行樣本中所對應的字符串,該序列到序列翻譯模型用於將字符串轉換為對應的字符串手寫軌跡,以產生對應的字符串樣本。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,其中該後處理器進行規範化的方式為進行Unicode的NFKD格式(Normalization Form KD)的規範化;主要是將表現為不同形式的同一字符,規範為相同的程式碼。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,其 中該後處理器進行規範化的方式為將Unicode碼位的順序從正常的邏輯順序轉換為視覺順序,從而大致與排序過的輸入對齊;其中對所辨識出的字符串進行Unicode的NFKC規範化,並將Unicode碼位的順序從視覺順序轉換回邏輯順序。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,其中該編碼器包含一多層雙向LSTM(Long Short-Term Memory)循環神經網路、及一全連接神經網路(Fully-connect Neural Network,FNN);其中輸入該編碼器的各筆畫係進入多層雙向LSTM(Long Short-Term Memory)循環神經網路,該多層雙向LSTM循環神經網路的輸出即為一上下文矩陣(context matrix);對於該上下文矩陣進行全域平均池化(Global Average Pooling)後,再經過該全連接神經網路(Fully-connect Neural Network,FNN),該全連接神經網路的輸出即為用於輸入該解碼器的初始狀態。
- 如申請專利範圍第8項所述之基於神經網路的手寫文字辨識系統,其中各該字符串手寫軌跡的各個筆畫以多個採樣點表示;其中各筆畫的第一個採樣點以座標(0,0)表示,其餘的採樣點則應用相對於前一採樣點的位移向量表示,每一筆畫的最後採樣點會有結束標記;其中該解碼器的輸入包含一輸入字符、一解碼狀態、一收斂向量、及該上下文矩陣;該解碼器係進行多步的解碼,其中在進行第一步解碼時,該輸入字符的初始值為一個內訂的開始符,該收斂向量的初始值為零向量,該解碼狀態的初始值為該編碼器輸出的該初始狀態,該上下文矩陣由該編碼器所輸出;該解碼器的輸出為下一字符及其置信度(Confidence)分佈、新的解碼狀態及新的收斂向量,該下一字符係作為新的輸入字符,與 新的解碼狀態及新的收斂向量一起自回歸輸入該解碼器,以進行下一步的解碼;該解碼器應用上述方式反覆進行多步的解碼;其中該收斂向量的維度代表各採樣點,其作用係記錄哪些採樣點已經有對應的輸出字符,各維度的初始座標為0;如果存在對應的輸出字符,則將對應該採樣點的維度座標設為1。
- 如申請專利範圍第9項所述之基於神經網路的手寫文字辨識系統,其中該解碼器中定義一損失函數(loss function),其為多個函數的線性組合,在計算時視需要定義有意義的損失函數;該損失函數用於校準置信度分佈的交叉熵(cross-entropy)以及引導該收斂向量結束時全1的均方差;當已知某些字符對應的筆畫時,還引導解碼出一個字符時,則將該收斂向量對應於有關筆畫的點的分量增大1;在預測階段時藉由該收斂向量的變化來判斷各個輸出的字符分別對應於哪些筆畫。
- 如申請專利範圍第9項所述之基於神經網路的手寫文字辨識系統,其中在預測階段時,該解碼器使用beam搜尋(Beam Search)的方式逐步建立候選行,並對於每條未完成的候選行,記錄其字符串、置信度、解碼狀態、收斂向量及一預測分析棧(predictive analysis stack);該預測分析棧為預測分析法(predictive analytics)中包含文法符號序列的棧;當需要輸出字符級別的候選時,尚記錄每個字符的若干個其它候選字符及對應的置信度;當需要輸出筆畫與字符的對應關係時,尚記錄歷史的收斂向量。
- 如申請專利範圍第11項所述之基於神經網路的手寫文字辨識系統,其中該解碼器在每一步解碼中係對於每條未完成的候選行進行下列步驟:(1)應用該解碼器以獲取下一字符的候選列表及對應的置信度,同時更 新解碼狀態及收斂向量;(2)將下一字符的各個候選經由該輸出介面輸出到串接在該輸出介面及該後處理器之間的一置信度調整單元,該置信度調整單元應用n-gram的方式計算所獲得之字符串的機率,以調整下一字符的各候選的置信度;(3)對於下一字符的各個候選,計算其與原字符串結合後的置信度及預測分析棧:(a)若該候選為結束符且該預測分析棧為空,則得到一條已完成候選行;(b)若該候選非結束符,且該預測分析棧不處於出錯狀態,則得到一條未完成候選行,用於在下一步解碼時進行處理;其中每當下一步解碼開始時,該解碼器僅保留置信度最高的若干條候選行;當已完成的候選行數目達到一預設值時,則停止解碼,此時已完成的候選行即為若干個可能的字符串,將這些字符串及其置信度儲存到該結果候選集,由該輸出介面向外輸出。
- 如申請專利範圍第1項所述之基於神經網路的手寫文字辨識系統,其中在預測階段時,欲辨識的字符串手寫軌跡的各個筆畫係經由該筆畫輸入處理器處理後,經由該字符串資料庫輸入到該文字辨識神經網路進行辨識,將辨識結果經由該後處理器處理後所得到的該結果候選集,即包含對應該字符串手寫軌跡的若干個可能的字符串及其置信度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022106040.1 | 2022-10-26 | ||
DE202022106040.1U DE202022106040U1 (de) | 2022-10-26 | 2022-10-26 | Handschrifterkennungssystem auf der Grundlage eines neuronalen Netzwerks |
Publications (1)
Publication Number | Publication Date |
---|---|
TWM654255U true TWM654255U (zh) | 2024-04-21 |
Family
ID=84192324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112205240U TWM654255U (zh) | 2022-10-26 | 2023-05-25 | 基於神經網路的手寫文字辨識系統 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3244068U (zh) |
DE (1) | DE202022106040U1 (zh) |
TW (1) | TWM654255U (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240087349A1 (en) * | 2022-09-14 | 2024-03-14 | Jianming Zhuang | Handwriting text recognition system based on neural network |
-
2022
- 2022-10-26 DE DE202022106040.1U patent/DE202022106040U1/de active Active
-
2023
- 2023-05-25 TW TW112205240U patent/TWM654255U/zh unknown
- 2023-08-10 JP JP2023002914U patent/JP3244068U/ja active Active
Also Published As
Publication number | Publication date |
---|---|
DE202022106040U1 (de) | 2022-11-08 |
JP3244068U (ja) | 2023-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Truong et al. | Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
KR100277694B1 (ko) | 음성인식시스템에서의 발음사전 자동생성 방법 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
WO2021127817A1 (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
Wang et al. | Stroke constrained attention network for online handwritten mathematical expression recognition | |
Jain et al. | Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
TWM654255U (zh) | 基於神經網路的手寫文字辨識系統 | |
JP3244068U6 (ja) | ニューラルネットワークに基づく手書き文字識別システム | |
Addis et al. | Printed ethiopic script recognition by using lstm networks | |
Jemni et al. | Domain and writer adaptation of offline Arabic handwriting recognition using deep neural networks | |
Ngo et al. | Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition | |
Zhu et al. | Attention combination of sequence models for handwritten Chinese text recognition | |
Khomenko et al. | Handwriting text/non-text classification on mobile device | |
TWM649558U (zh) | 語法制導之數學式識別系統 | |
CN115114887A (zh) | 一种联机手写文本行识别方法 | |
Balayn et al. | Data-driven development of virtual sign language communication agents | |
Zhang et al. | A two-stage framework for mathematical expression recognition | |
CN114692596A (zh) | 基于深度学习算法的债券信息解析方法、装置及电子设备 | |
KR20240037144A (ko) | 신경망 기반의 수기 문자 인식 시스템 | |
Hamdan et al. | ResneSt-Transformer: Joint attention segmentation-free for end-to-end handwriting paragraph recognition model | |
Su et al. | Deep rnn architecture: Design and evaluation | |
Maghraby et al. | Arabic Text Recognition with Harakat Using Deep Learning |