TW321745B - Improved recognition method of Chinese confusing character and device thereof - Google Patents
Improved recognition method of Chinese confusing character and device thereof Download PDFInfo
- Publication number
- TW321745B TW321745B TW085112544A TW85112544A TW321745B TW 321745 B TW321745 B TW 321745B TW 085112544 A TW085112544 A TW 085112544A TW 85112544 A TW85112544 A TW 85112544A TW 321745 B TW321745 B TW 321745B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- similar
- recognition
- candidate
- word
- Prior art date
Links
Landscapes
- Character Discrimination (AREA)
Description
321745五、發明説明(j A7 B7 發明領域 本發明是一種用於改進中文相似字的辨識方法及裝置。 相關技藝之説明 文字辨識技術之應用廣泛,其中可分為二種典型之應用:光學文 字閱讀機以及筆式輸入作業環境,在光學文字閲讀機中,包含印 刷及手寫文字及符號的文件經由光學掃瞄器的掃瞄後,以電子媒 體(數位影像)之方式儲存於電腦之記憶體中,而後再經由文字 辨識之裝置,對此數位影像做處理及辨識,最後成為易於處理之 電腦文字檔案。圖一是一個典型之光學閱讀系統5 〇的方塊圖, 這個系統5 G包含了-個自動送紙系統5 i,其主要功能為自動 將紙饋人-個光學影像掃囉5 2巾,讀執行影像輸入。此光 學影像掃瞄器被連接至一個處理單元5 4,此處理單元可為一般 ^個人電腦’或-特殊設計之硬黯。_般而言,此處理器 單兀須包括一微處理器5 6,一記憶體模组6 2,一個顯示螢幕 5 8 ;以及鍵盤或其他輸入裝置6 〇,以上之各元件主要是為了 h供此處理單元5 4執行文字辨識工作之所普。 (請先閱讀背面之注意事項再填寫本頁) 装.
>1T 經濟部中央標準局員工消費合作社印製 筆式輸人作》雖常朗地方是在__人餘魏(p_al Assistant,簡稱PDA)中。圖二中即繪示了—個筆式輸 入之PDA7 G。通常-個PDA是—台可槁式電腦,其中包本 -些簡單魏如約會日唇、電轉,備忘筆記本等;另外還可提 供無線通$之魏,例如傳眞、f子郵件等等。pDA的作業方 式是使用者湘-數位筆7 4將資料或命令手寫於—數位板 本纸張尺度適用中國國家標準(CN’S ) Α4思格(2ΐ〇χ_297公着了 ^1745 五 發明説明( > ) 7 2,此數位板7 2可對輸入之筆跡做高速取樣,並將取樣之座 標資料儲存起來,然後再利用文字辨識技術將此手寫輸入轉換為 電腦文字資料或命令,此辨識工作也是由pDA 7 0中之微處理 器執行。 f辨識過程一個很麻煩的問題就是如何有效處理相似字的問題, j個問題在中文字的辨識中尤其困難,原因在於中文字的字集相 备大,根據統計一般常用之中文字就有54〇1個而較完整的中文字 集更肩包括1删0字以上。目此其巾她字的組合實在是多得難 以估計。 ί利用—個既有之手寫中文字辨識系統作測試時,對5 4 0 i個 現二每字取1 Q G個樣本做辨識,將辨識後正確結果出 名候選字内的比率做統計’在下表中我們將&工到 識,絲發财_解叩=1無=2間辨 减辜遽升取大(95.16 - 90.02 = 5 1 /tv 是由於相似字_:== 經 濟 部 中 央 準 為 員 工 消 費 合 社 印 製 如圖三所示之三字‘己,8 G、‘已,s 2和 型的相似字例子。 4 P疋典 I紙張尺度適财(CNS) A· (2lQx 五、發明説明(9) A7 B7 選取之候選字數(N ) 正確答案落於前N名候選字内之正確率 N= 1 90.02% N= 2 95-16% N= 3 96-72% N= 4 97-41% N= 5 97-81% 經濟部中央標準局員工消費合作·杜印製 本 至目前為止,針對相似字的辨識問題有些研究人員提出了一些解 法,大部份的方法都著重於利用字型結構比對的方法先抽取一些 結構特徵例如筆劃、部首,再從這些特徵上去找出可以區分相似 字的特徵,例如Jeong-Seon Park和Seong-Wham Lee在International Woricshops on Frontiers in Handwriting Recognition IV 中的論文” Adaptive Nonlinear Pattern Matching Method for Off-Line Recognition of Handwritten Characters” 就提出了此類型之解法, 而 A.B. Wang、J.S. Huang 和 K.C. Fan 也在 Proceedings of 1992 Second National Workshop on Character Recognition 中的論文” Optical Recognition of Hand-written Chinese Characters by Modified Relaxation”也提出相關之方法。這種結構比對的方法雖然可以較 精密地區分相似字,但是卻有二大問題存在。第一個問題是結構 特徵的抽取到目前為止對電腦而言依然是一大難事,尤其是在經 過影像掃瞄器掃瞄後,失眞的手寫文字中抽取結構特徵更難。由 於結構特徵的難以抽取,致使對相似字辨識的改進效果受到極大 的負面影響。第二_題是在於巾文字集巾存在·讀計數目 的相似字組合’每-種相似字組合都需要不同的結構特徵來區 刀’面對这麼龐大數目的組合,根本無法以人工方式來個別為每 、張尺度適用巾國國家標準(CNS ) M規格(2丨〇><297公董 (請先聞讀背面之注意事項再填寫本頁) 裝 訂 3^1745 A7 _ B7 五、發明説明(+) '- 一個組合定義其區分特徵。 除了結構比對之方式外,也有人利用統計式的方法來解決相似字 的辨識問題。其與結構比對法之最大差異在於採用的特徵是屬於 統計式的特徵。所謂統計式的特徵是指利用收集好的樣本 影像上的像素(p i X e :1 )特徵,例如字元影像中四個方向 (水平、垂直、左斜、右斜)之線段上的像素個數、筆劃交叉點 等等,然後統計出其平均値、標準差作為比對辨識之參考樣板資 料庫,以便供比對之用。比對時乃將由輸入樣本抽取出之特徵資 料與參考樣板資料庫中之樣板比對,而後再挑出最接近的幾個候 選字作為輸出。一般而言,統計式特徵的抽取較結構式特徵容易 許多,穩定性也較大,較不受字形失眞或變異影響。採用統計式 特徵來設計手寫中文字辨識系統的典型實施例可見於、s $
Yu、H.F. Sun 和S.L. Chou所合著之論文” Handwritten and Printed
Chinese Character Recognition Using Bayes Rule M (發表於 Intelligent Systems for Processing Oriental Languages pp. 406-11 1992中)。利用統計式的方法來解決相似字辨識問題之實施例則 可以參閲 J.Z.Hu 在 Chinese Information Journal,Issue 1,Vol 9 pp.37-41 之論文” Identification of Similar Characters in Handwriting 經濟部中央標準局負工消費合作社印装 (請先閱讀背面之注意事項再填寫本頁) and Printed Chinese Character Recognition。在該論文中,作者提 出的方法是根據不同的相似字組合定義不同的統計式區分特徵以 便區分相似字,但是這種方法卻仍然遭遇到與結構比對法相同的 第二個問題,亦即,無法以人工去完全歸納出所有組合的區分特 徵。此外,定義大量額外的特徵還需要大量額外的記憶容量來儲 存,這對一些無法配備大量記憶容量和計算能力的裝置如PDA 而言,可能是不實際的作法。 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) Μ Β7 經濟部中央標準局員工消費合作社印裝 五、發明説明(Γ) 圖四是一上述之用以改進相似字辨識之統計式文字辨識裝置9 0 的方塊示意圖,其操作方式是將一輸入(筆式輸入或光學掃瞄輸 入)之字元輸入此辨識裝置,接著此輸入之字元被送去特徵抽取 器9 2中抽取其統計式特徵,而後再將此特徵送給一辨識引擎 9 4作辨識,此辨識引擎9 4之主要工作是將輸入特徵與參考樣 板資料庫9 6中之樣板比對,然後根據距離或相似度找出最接近 的幾個候選字作為輸出。在這個辨識裝置9 〇中,還包含了另一 個資料庫稱為區分特徵定義資料庫1 0 0,當候選字從辨識引擎 9 6輸出時,此區分特徵定義資料庫1 〇 〇會被查詢以檢視所輸 候選字間是否顧她字齡,如妓,則會從此區分特徵 疋義資料庫1 〇 G中找出可以分辨該她字组合中之她字的區 分特徵定義。然後再將原輸人字元送至—區分特徵抽取器9 8 中,根據所查詢之區分特徵定義抽取區分特徵,然後再將此抽出 之區分特徵送至-她字辨識裝置i 〇 2中,此她字辨識裝置 1〇 2,即將此輸入特徵與區分特徵參考樣板資料庫}〇 4中之 樣板比對,然後根據比對之距離重新調整候選字之輸出。在此辨 識裝置中,由於麟她字定義新的區分特徵,因此須倦存三^ ^料庫,這三個資料庫將侧不少記憶空間,而且柚取新的區分 特徵也將減慢辨識速度。 針對此些先前技藝之缺失,本發明之提出,主要有二大目標. 目標一:改進電腦對相似字的辨識效果。 目標二:儘量降低額外付出的時間及空間成本,如辨識速度及記情 容量。 〜〜 本纸伕尺度適用中國國家標準(CNS ) A4規格(210X 297公釐 (請先閲讀背面之注意事項再填寫本頁) 訂 321745 五、發明説明(
發明簡述 為達到上述之二大目標,本發明提出一種新 方法及裝置,本發明至少可提供以下三種功能: 依據此 功能-:自動建構-個中文字集中的相似字對(c〇nftisins Character Pair)資料庫。 功能二:根據每個相似字對,自動抽選可以區分此相似字對中之 相似字的統計式區分特徵。 功能三:根據抽選之區分特徵,自動對相似字作更精細之比對。 功能電腦自動執行,因此骑遭遇前有技衔中所 石亚到的人工無法處理之間題。 兹將本發明之大概操作原理説明如下:首先先收集大量之中 <樣本錢構絲雜本資贿,織_ 此資料庫作卿m,編_綱她^3= 據此誤認結果及頻率;可篩“ 有了相似字對資料庫而 :庫1二本’對此相似字對中的二個相似字之 i目轉制,最後躲«找料決定最佳 及,之區分特徵個數即可被建構為一區分特徵:個 ΞΐίΖίίΓϊ輯識她字_取用。^魏明二發 從現有辨ΐίΐΓ義新的特徵做為相似字之區分特徵,而只是 從現有辨咸系統所抽取之特徵中插選重要之區分特徵,因此可以 本紙張尺度適财關 請 先 閲 讀 背 面 之 注 項 再 填 寫 本 頁 4. 訂 、發明説明(7 免除辨識時抽取新特徵所需之時間以及不需對新特徵建立一新的 參考樣板資料庫。 一旦建構完成區分特徵表之後,本發明裝置即可執行相似字之辨 識,辨識方法説明於下:輸入一待辨文字影像,由現有之辨識系 統執行辨識,辨識後輸出前二名候選字至本發明裝置,然後由本 發明裝置至區分特徵表中檢視此二個候選字是否有與任一相似字 對吻合,若無吻合表示此二字非屬相似字組合,因此無須進一步 處理與辨識,故直接輸出原辨識結果。相反地,若有吻合發生, 則從表中取得區分特徵之個數資料,並對現有特徵依重要性做与 冪排序,再依取得之區分特徵個數資料依序取得適當個數之區必 特徵’並以取得之特徵對此二候選字做重新比對,再依此比對海 果做最後輸出。 .圖示之簡要説明 圖一.光學文字閲讀系統方塊示意圖。 圖二:個人數位助理俯瞰圖。 經濟部中央標準局員工消費合作社印製 圖三:説现三個本文相似字圖。 圖四:傳統統計式相似字辨識裝置方塊示意圖。 圖五:本發明所提之統計式相I拿辨識裝置方塊示意圖 圖六:本發明裝置中各模組間之關係示意圖。 圖七:本發明所提之統計式相似字辨識作業流程圖。 圖八:中文相似字對表範例。 圖九:區分特徵分析中針對相似字對(‘己, 本紙張尺度適用中國國家標隼(CNS ) A4規格(210X297公釐) ‘已,)之各特
五 、發明説明(g A7 B7 徵的c k値比較圖。 圖九A:圖九之前2 5鱗徵的e k俊之放大圖。 圖十:區分特徵分析中針對相似字對(‘己,,‘已, 徵的u k値比較圖。 圖十A. ®十之前25個特徵wUk値之放大圖。 本發明之詳細説明 本發爾提之統計式她字賴裝置2 Q q方塊示意圖 其中包了-個特徵抽取器2G2,—個辨則擎2Q4,一侧 徵參考樣板資料庫2 G 6,-個她字對賴元件2 ◦ 8以; 區分特徵個數表21〇。其中特》取以〇2' 辨滅擎04及特徵參考樣板資料庫2 G 6為-般現有統計5 辨識系統I鮮歡^0此在此不予。 、· (請先閱讀背面之注意事項再填寫本頁) 經濟部中央椟準局員工消費合作社印製 令贫明城王財二大王作單元,分別是 (—)訓練本發明裝置如何韻她字對之單元,和 (二)相似字對之辨識單元。 ί圖本發明妓25G各模組(包括訓_ 4)間的關侧,其間包括了_娜輝本 相似字對產生模组2 5 4、_加』, 厚z 5 2 ή ^ , ’ —個相似字辨識訓練模組2 5 6,- 個相似字區分特徵個數表21〇 〇〇«, f- 1 °以及—個相似字對辨識元子 上以各模、、且除了相似字對辨識元件2 〇 8屬於辨·-外,其餘模組均屬訓練單元。 屬於辨4早7 本纸張尺度朝t_家---- ΪΤ----- -Λ---
11 - I I I -I I- [ .I — . A7 B7 五、發明説明( 在學習樣本資料庫2 5 2巾,我情對每辦文字絲了多個樣 本,通常收集樣本越乡,崎結果正雜越高,因此也就對系統 的刘練效果越有㈣。她字對產生模組2 5 4之賴是對學習 樣本資料庫2 5 2中之樣本做辨識測試及統計分析,以便為每個 中文字篩選出易導致該中·文字被誤認之相似字。相似字辨識訓練 ,組2 5 6之功用在於針對由相似字對產生模組2 5 4所產生的 母組相似字對做特徵之統計分析,以便抽選出最佳數目之區分特 而每组相似轉及其抽選出之區分特徵個數即雖存於相似 =區分特徵個數表2 i 〇中。在執行相似字辨識時則是由相似字 去辨識7L件2 G 8接收辨識引擎2 〇 4輸出之前二位候選字並參 考相似字區分特徵錄表2 1 〇中之資料來做進—步之辨識。以 下我們分別對訓練部份及辨識部份之模組做更進一步之 明。 、β 第—部份:本發明裝置之訓練單元 (―)相似字對產生模組 , 固包含大量文字之字集如中文而言,要以人王的方式來找出 2的相卿對是不可能的,而且人眼騎納之相似字對對電腦 二不見得是相似字對,因此糊電腦的快速處理資科的能力來 ,分析域_村能_似字對才是較為可行的核。因此 =發财便糾—崎方法來讓電腦自動完成此項工作。此方 =利用—學習樣本資料庫2 5 2及-現有之辨識系統 ,方法如 .利用現有之辨識系統對學習樣本資料庫2 5 2中之樣本 作一辨識測試。 (CNS ) A4規格(21〇><297公着) (請先閱讀背面之注意事項再填寫本頁) 訂 f、 ------------ ---! 1 3 打 745 五 、發明説明(! 〇) 步驟二:辨識過程中記錄所有被誤認之輸出及其相對之誤認次數 (頻率)。 ' 步騾三:如果有二中文字八與3彼此間之誤認頻率(不管A誤钗 為B或B誤認為A)超過一指定値τ,則(A,B) ^ 成一相似字對。 在上法中,指定値T設愈低,則可能產生之字對就愈多,在本 明之較佳貫施例中,T = 2為一合理値。 (二)相似字辨識訓練模組 相似字辨識訓練模組2 5 6主要執行二件工作,分別是() 對每個產生之相似字對,計算各個特徵之重要性以及(2 )區分 特徵個數之決定。茲將此二工作分別詳述於下。 * (1 )特徵重要性之計算·· 訂 如前所述’在傳統的統計式辨識祕中都會包含—崎 板資料庫2 G 6,此參考樣板資料庫2 Q 6通常是细 資料庫2 5 2㈣縣她其特徵並崎各特徵之平触及 用Γ均値及標準差,即可算出輸入樣本與各樣“ <距離或她度,域録相近之_心事實上,這個 =平均似鮮差也可被用料算各特徵在_ Μ分―個相似 字對時的重要性,此重要性程度可以下法量化之·· W,·): Κ,· -m.f 〔式一〕 其中W/)為第i個特徵對區分她字對〔χ,y〕的 ~表示X字樣板的第i個特徵之統計平均値;〜表示y字樣板 本紙張尺度適用中國國家標牟(CNS) M規格(21QX297公整) 經濟部中央標準局員工消費合作社印製 A7 ~ — ,—一 ___ B7 五、發明説明(丨/ ) 的第i_個4争徵之統計平均値;^表示父字樣板的第^個特徵之 統计標準差,^表示y字樣板的第i個特徵之統計標準差。 從〔式〕中可知當X字樣板第丨個特徵與y字樣板的第丨個 徵之平均値差異大時,〔式_〕之分子就會增大,而同時若X字 i個特徵與y字樣板的第i個特徵之標準差的和越小時, ’-〕〈分母就變小,因此,U越大,代表此第i個特徵 越有助於她字對〔x,y〕之區分,脚其重要性越大。 (2 )區分特徵個數之決定: 有了各特之重s性的I化指標彳冑,各特徵就可依其重要性做降 冪之排列,然而對每個相似字對而言,並撕有特徵都有正面的 輔助辨識絲,相反地,根據實轉知,有許乡特徵不但沒有正 面效果,還反而有混淆辨識之作用,因此對任何相似字對 〔X,y〕而言,從所有特徵中濾去多餘無用的特徵是很重要的 工作。為了芫成此工作,本發明採用下述之方法為之。 步驟-:針對相似字對〔x,y〕,將所有特徵依〔式一〕計算 其重要性,並根據此計算出之重要性以降冪方式排列各 特徵之順序。 ' 步驟二:設定二個向量變數C= (c },c 2,. .,,c d) 及C=(M,u 2,. . .,u d )為零向量,其中d 為特徵個數。 步驟二:從學習樣本資料庫2 5 2中取出x字及y字的樣本,對 所有取出之樣本一一與X字及y字之樣板做比對(計算 樣本至二樣板之距離)。 ---..--:-----^、衣------訂 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(2l〇x 297公董) 五、發明説明( 步驟四:比對過程中執行下述之記錄工作. U)記錄各特徵之累進距離差d k (以“),d k之定義如下: CD (X i , f i ) _ D (Y i,f i ) 〔式二〕 其中f i為輸入樣本之第i個特徵;D (χ卜 Hi1.個(1)分別表示f丨至5"字樣板之第丨個特徵及y字 f第1個特徵之距離函數’在本發明中,此距離函數定義如 下: 和 i )= f請先閲讀背面之注意事颂再填寫本頁} 裘. 21og(vx.) + 21〇g(v, )· 〔式三〕 〔式四〕 其中 、vT,·、w t 平均値、標準差以:字_丨個特徵之統計 差。因此,脏r板弟1個特徵之統計平均値、標準 訂 經濟部中央標準局員工消費合作社印製 因此,將 ’式二〕及〔式四〕代入〔式· (b)對任何第k個特徵, 娜尺度適用中國國家 〕即得 21〇g(v ) + [式五] 若下列二條件之任一條件成立, 則將 10X297公釐)
"量變數C之第k個分項c k値加一: (讀先閱讀背面之注意事項再填寫本育) 條件~.此輸入樣本為X字之-樣本且d k < 〇 : (條件—.此輸入樣本為y字之-樣本且d k > 〇。 c對任何輸入樣本,依下式調整㈣量之第k個分項u k: uk = uk + ^ (dk-dk-l) 其^中如果該輸入樣本為χ字之一樣本,則α二_丄;否則 若該輸人樣本為y字之—樣本,則^ i。 從所有特徵k中找出其在向量魏c中的分項c k値, 丁 =從中找出具有最大値者,如果有超過二個以上之分項 相同値($為最大);則取其中之uk分項較大者, 假叹特徵k符合上述最大値之條件,則代表排序後之特 徵1、特徵2、...、特徵k*是眞正對分辨相似字到 〔x ’ y〕有用之區分特徵,而特徵k*+丄及其後之特 徵均因幫助不大故可捨棄之。 —込方f中’分項c k値之物理意義其實就代表在所有使用的X 子的予習樣本中,若僅使用特徵1、特徵2.....特 用 適 度 尺 張 紙 -1-------- 本 經濟部中央標準局員工消费合作社印製 因此,二+ 1及其後之特徵所能正確辨識的樣本數, _ 裒<ck値亦即代表找出具有最佳辨識效果的特徵 果,此時存在二偏上之特徵數得到最佳之辨識效 二XU k値來做為從中選—之依據,越大之u k値 此可對相似字對x和y而言,可產生較大之距離 (二)俜似字區分特徵個數表 中國國家榡準(CNS) A4規格(210X297公董) A7 ---- 67__________ 五、發明説明(丨^) 在相似字辨識訓練模組2 5 6完成區分特徵之決定後,本發明即 將每一個相似字對及其相對之區分特徵個數資料予以儲存成一資 料庫,以辨供相似字對辨識元件2 〇 8取用i此資料庫即稱為相 似冬區分特徵個數表2 1 〇。此表中每一筆資料包含三個欄位, 分別是(1 )相似字對中第一個相似字之編號,(2 )相似字對 中第二個相似字之編號,及(3 )該相似字對之區分特徵個數。 下表中為一個相似字對區分特徵個數表之範例。 第一相似字代號 第二相似字代號 區分特徵個數 1 2 15 1 8 14 1 15 16 2 3 28 2 6 50 為了增進她字餐識元件2 〇 8在搜尋相财區分姐個數表 2 1 0時的速度,本發明在實作時乃將該表以串列製作,針對每 個罕A,所有與字A構成相似字對的字3及其相對之區分特徵個 經濟部中央標準局員工消費合作社印製 數均被串連在-個,列之中,並依钟之編號作排序,因此,以 上述之字對區分特徵個數表範例而言,字丨之串列如下所示: 串列一: 第二字 序號 2 區分特徵數 15 (請先閲讀背面之注意事項再填寫本頁) 第二字 序號 8 第二字 序號 15 區分特徵數 14 區分特徵數 16 表紙張尺度適用中國國家標準(CNS } A4規格 (210X297公釐) 而字2之串列則如下所示: 串列二: 第二字 序號 3 第马 广 --^ 序號 6 區分特徵數 28 區分特徵數 50 在相似字對辨識元件2 〇 8要搜尋她字 字八之串财去搜尋字B之資料節點即可。’ B〕時只須由 第二部份:本發明裝置之相似字辨識單元 =目似字辨識料中僅有―模组, 疋件2 0 8,其功能是對-既有辨識系統2 q 選罕’根_分析之區分特徵再做—次特別之 = ,們將此元件之操作流輯出。如圖中所示,針對—輸辨 子疋,既有辨識系統2 G 4提供其辨識結果(步驟 一 ^位候選字_似字對賴树2 G 8,絲她持辨識= 2 0 8即根據此二候選罕至相似字區分特徵個數表2丨q 是否有與此二候選字吻合之相似字對(步驟3 Q 4 )。若無 則直接以既有辨識系統2 0 4之輸出為輸出(步驟3 〇 8 )。: 果孩二候選字與相似字區分特徵個數表2〗Q中之相似字對吻人 (步驟3 G 6 ) ’職字對之最無特韻數(k*)也會被^ 出(步驟3 1 2 ),此時相似字對辨識元件2 〇 8會先將二有 徵依其*重要性做降冪制(步驟3 1。),紐再郷區分特徵 個數k依序選取此指定個數之特徵重新計算此輸入字元與該二^ 321745 五、發明説明(^ ) A7 B7 選字之樣板重新計算距離,所使用之距離函數須與相似字辨識訓 練模組中所使用之距離函數一致(參見〔式三〕及〔式四〕), 因此,以本發明之較佳實施例為例,假設此二候選字分別為X和 y,此重新計算之二距離(d x和d y )計算如下: d X =Σ 21〇g(vx,f). (fi 〔式七〕 和 d km y =Σ 〔式八〕
yyJ 算出此二距離後,相似铸辨識元件2 Q 8再根據此二距離之大 小來決定是否調整此二候選字之順位(步驟3丄6 )。 n H .1 i - - - «n m 11 Ά I—I m 1 - -I -.1. - I *1T (請先閲讀背面之注意事項再填寫本頁) 使用的特徵是從既有辨識系統 經濟部中央標準局負工消費合作社印製 由於相似字對辨識元件2 2 〇 4所抽取之特徵中抽選,因此其參考樣板資料庫2 q 6可直 接被使用,;另外建讀的參考樣板讀庫,如此可減少額 的空間代價。 p 較佳實施例舒明 ^驗証本巧之功效,實作了本發明裝置,並以―含5 4 〇工信 子’母字含1Q G個樣本的字元影像資料庫作為學習標 貝枓庫2 5 2 ’並利用-個以Bayes統計理論為基礎之辨識系辦 木紙浪尺度適用中國國家榡率(CNS ) A4規格(2丨Οχ297公着 五、發明説明(丨9) 作為既有之辨識引擎2 ’依序實施以下之步驟。 (A )訓練工作: 料庫2 5 2 ,並預設門襤T値為 5共計產生了 8 “5個她轉,在圖八中 ί己ΡΊ 個。在圖九及圖十中,分別是在決定相似字到 5 2 數時所得之細_徵(共用7 其中=代1特徵依重要 现釉則為C 1値及U i値。為求清楚 丨把圖之$ 2 5個特徵分別放大在圖九么及圖十A中, :、、W。在圖十巾,我們卿相u丨魏著特徵之編號有漸 趨勢’此縣祕了我們的重躲排序的雜銳狀況頗為 付合。
在圖九中我們可發現第1 7個特徵及第i 8個特徵具有最大之c I
1.値為1 7 2 (參見圖九八),因此我們須在二者間選擇一丨 個,而—從圖十A中,我們發現u工7二2 . 5 7而 I 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) ’衣. •訂
u 1 8 = 0 . 5 6,所以我們乃取i 7作為最佳之區分特徵個,丨 數^因其可以從總共2 〇 〇個‘己,和‘已,的學習樣本中正確j 區分1 7 2個樣本而且產生最大之特徵距離差。如果我們選用了 I 全部特徵,結果發現反而只能正確區分丨6 5個樣本,因此這數 | 據驗荻了我們所提之並非所有特徵對區分相似字都有正面作用之 | 淪點。針對所有8 6 6 5個相似字對我們都可以此法分析出其最 丨丨 佳之區分特徵個數,然後再將其結果存成—相似字區分特徵個數 丨
表2 1 0,由於特徵之順序可在辨識時視需要再執行,因此在相 丨I
I
I
I
本錄纽適财國@家縣-------, I 五 、發明説明(/p ) :字區分特徵個數表210中 號,只須儲存區分特徵個數即可,…、心储存所有區分特徵之編 區分特徵個數表2 i 0才佔用^魏例中,此相似字 已,相當節省。 量43325位元組而 (B)相似字辨識之測試 提升為91.77%,其二=本rf置後r識率 =發現’如果增加相似字對的數目,對辨識率 之實施例僅為本發明—據以實施之較佳實_說明,熟 白此技蟄足人士所做讀何潤飾及修改,皆應涵蓋在本發明之 圍内。 ---{--'----7 装—I (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部中央橾準局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公董) ---------
Claims (1)
- 經濟部中央標隼局員工消費合作社印裝 •一種相似字辨識方法,包含: 用學f樣本及辨識H,自動建構出—相財對資料庫; •、B藉 =學習樣本之辨識及分析,自動針對每-她字對抽’ 選最能分別此相似字對中之相似字的區分特徵;以及 c *利用插選出的特徵執行相似字的辨識。 如中請專利範圍第1項所述之相似字辨識方法,其中之相似 字對資料庫自動建構法 ,可包括: a·利用—辨識器對所有學習樣本執行辨識; b·記綠任二字之間的誤認頻率;以及 c若任二字之間的誤認頻率超過一設定之門摇値,則此二 字構成一相似字對。 如申凊專利範圍第1項所述之相似字辨識方法,其中相似字 對區分特徵自動抽選方法,可包含: a ’決定所有特徵對於分辨該相似字對之重要性,並依降冪 排序之;以及 b.決定最佳之區分特徵。 如申請專利範圍第3項所述之相似字辨識方法,其中包含決 定每一文字特徵之重要性,以量化各特徵對相近字間之分辨 能力之步驟。 如申請專利範圍第4項所述之相似字辨識方法,其中之特徵 重要性,可由下列方法決定: I I i Hr i 裝-- (請先閱讀背面之注意事項再填寫本頁) 訂本紙張尺度適用中國國家樓準(CNS)八4賴_ (210x297公瘦) A8 B8 C8 m 申請專利範圍 其中η[^(0為第i個特徵對區分相似字對〔x,y〕的重要 性; \,,·表示X字樣板的第i個特徵之統計平均値; 切〜·表示y字樣板的第i個特徵之統計平均値;以及 表π X字樣板的第i個特徵之統計標準差; 表不丫字樣板的第i個特徵之統計標準差。 ^申請專利範㈣3項所述之相似字辨識方法,其中自動決 疋那一特徵為兩相似字間之主要區分特徵之步驟,可進一步 包含自動決定最佳之主要特徵。 如申请專利範圍第3項中所述之相似字辨識方法 ,其中決定 那一特徵為主要之區分特徵,包括下列步驟: a,根據特徵重要性安排特徵順序,· b.安排特徵順序之後,初始化計數器組為0 ; c•對訓練樣本資料庫中之相似字樣本作辨識; d·辨識每一樣本之過程中,執行下列程序: (1) 決定相似字間不同數目特徵之累進距離差;及 (2) 比較累進距離差,若累進距離差能正確區分相似字, 則增加此計數器組中計數器之値;以及 e•選出一具有最大値之計數器,由此計數器得到最後之主要 區分特徵。 如申請專利範圍第7項中所述之相似字辨識方法,其中· a.安排特徵重要性後,初始化另一計數器組為0 ; b•辨識訓練樣本之過程中,針對每一樣本,依下法調整 国国豕椟準(CNS )入4祕(210X297公釐) (請先閲讀背面之注意事項再填寫本頁)步驟a中之計數器値: Uk=Uk+<ar (ί!κ-(1κ-ι); 其中,如果此樣本為第一個相似字之樣本,則; 若此樣本為第二個相似字之樣本,則; Κ代表此計數器组中計數器之編號: , dK表使用Κ個特徵之累進距離差;以及 dic-i為使用K-1個特徵之累進距離差; c.辨識冗所有訓練樣本之後,可依下法取得最後之每一計數 器値UK : υκ=_ΙΛ_ nx+ny 其中Uk^針對兩相似字χ和y所有訓練樣本之第㈣争徵的十 均距離差; 队為相似字X之使用樣本數;及 ny則為相似字y之使用樣本數;以及 d·於前項之步物中若制有概崎數料有最大値,則進 一步從计數器組値uk中找一最大値者來決定最後之主要 區分特徵。 如申請糊綱帛7費狀相辨賴減,其中兩相似 字X與y間使用不同數目特徵之累進距離差,可以下法取 得: dk=2 CD ( Xi » f J ) _D (y. , f . } 1 其中f i為輸入樣本之第i個特徵.;1 i ;馮一辨識系統決定ί i至相似字兀之參考 樣板之距離的功能輸出値;以及 D (yi,f i)為—辨識系統決定f〗至相似字y之參考 樣板之距離的功能輸出値。 如申請專鄕圍帛7騎狀她字辨齡法, 差可由下法取得: di Έ /=1 21〇g(v ) Xj 其中fi為輸入樣本之第i個特徵; mx’i,vx,i,㈣和〜分別代表時樣板第丨個特徵之統計平均 値、標準差以及y字樣第i個特徵之統平均値標準差。 訂 如申請專利範圍第1項所述之相似字辨識方法,包含下步 驟: a,接收原辨識系統所輸出之第一名及第二名候選字; b·判別此二名候選字是否為相似字; c. 如果二候選字不是相似字,則將第一名候選字輸出為最 後之辨識結果;以及 d. 如果二候選字為相似字,則執行以下子步驟; (1) 根據計算之特徵重要性,排列各特徵之順序; (2) 取得二候選相似字間之最佳數目之主要區分特徵;及 (3) 以此取得之主要區分特徵重新計算距離,並判別輸入 樣本較像第一候選字或較像第二候選字,依比較結 果輸出較像之候選字為最後辨識結果。 •如申請專利範圍第1 1項所述之相似字辨識方法,其中決 __ · 六、申請專利範圍 定輸入樣本較像第一或第二位候選字之方法中,包含一計 算輸入樣本之主要區分特徵與二候選字樣板之主要區分特 徵間之距離。 1 3 . —種相似字辨識裝置,包括: a. 特徵抽取器,用以從影像抽取特徵; b. 特徵參考樣板資料庫,包含文字類別之各特徵資訊,· c. 辨識引擎,用以接收特徵抽器所抽取之特徵,並與特徵 參考樣板資料庫之樣板作比對,並依比對距離輸出一序 列之候選字; d. 近似字元區分特徵個數表,含有一争近似字元及編輯自 特徵參考資料庫之資訊;及 e. 相似字辨識,裝置,用以接收辨識引擎輸出之候選字並利 用特徵參考樣板資料庫及近似字元區分特徵個數表來分 • 辨相似字’並輸出一個最理想之候選字。 14.如申請專利範圍第13項所述之文字辨識裝置,其中之特 徵參考樣板資料庫包含由一訓練樣本資料庫所分析而得 之特徵資料。 1 5 _ —種相似字辨識裝置,包括: 經濟部中史梂準局負工消费合作社印裝 a ·學習樣本資料庫,包含複數個文字樣本; b .統計式之文字辨識模組,可抽取文字影像之特徵並執行 初步辨識工作; 12 .特徵參考樣板資料庫,乃由學習樣本資料庫之文字樣本 之特徵統計資料組成; d .相似字對自動產生模組,用以自動產生相似字對資料 本紙張尺度逋用中國國家樣準(CNs )人4規格(210x297公釐) A8 B8 C8 D8 321745 六 經濟部中央標準局員工消費合作社印製 、申請專利範園 庫; I I 1 n I I n t— I n ϋ I _ T . 、1 (請先閱讀背面之注意事項再填寫本頁} e相似丰對辨_練模组,用以自動決定各相似字對間 最佳區分特徵; f .相似子對區分特徵表,用以儲存相似字對最佳區分 數目;以及 m g .相似字對辨識模組,肋執行各相似字對中之相似字辨 識工作。 1 6 · —種利用文字辨識系統來分辨相似字之方法,包含下列步 驟: a.從文字辨識系統接收第一名及第二名之候選字; b .若第一名及第二名之候選字為相似字,則 (1) 依各特徵之重要性排列順序; (2) 取得複數個主要區分特徵; (3) 由主要區分特徵決定輸入影像與第一名及第二名候選 - 字之樣板間之差異;及 (4) 若輸入影像較接近第二名候選字,則對調第一名及第 二名候選字間之順序。 1 7 ·如申請專利範圍第1 6項所述之方法,其中在排各特徵順 序之前,計算相似字對各特徵値之重要性,以區分相似字 對〇 1 8 .如申請專利範圍第1 7項所述之方法,其中以一累進距離 差異來比較輸入樣本與第一候選字和第二候選字間之相近 程度。 1 9 .如申請專利範圍第1 8項所述之方法,其中之累進距離差 可以下法求得 本紙张尺度逋用中國國家標準(CNS ) A4規格(210X297公釐) D ( 申請專利範圍 dq〔D(Xi,fi)—D(yi,fi)〕 其中k為主要區分特徵個數。 如申請專利棚第i 9項所述之核,其中的減區分特 徵,重新計算待辨爾本與前二錢選字(假設為候選字 i及候選字j )間距離,此距離可以下式欠得. 21〇S(Vx,) 和1.-^---------裝—— .(請先閲讀背面之注意事項再填寫本頁) D ( Yi » f i ) 21〇g(v,i) + _yc^ fi為輸入樣本之第i個特徵; ’ 表示X字樣板的第i個特徵之統計平均値; k表示X字樣板的第i個特徵之統計標準差; 表示y字樣板的第i個待徵之統計平均値;及 v表示y字樣板的第i個特徵之統計標準差。 2 1 訂 如申請專纖M 1 8爾述之方法,累進距離差可依下 法求得: 經濟部中央標準局負工消費合作社印装 2 i〇g(〇+_ 2 log(',)+α· - )2 v 其中: fi為輸入樣本之第i個特徵; 〜表不X字樣板的第i個待徵之統計平均値; 匕,·表tfx i樣板的第i個特徵之統計標準差,· ^纸法纽適财國國家搞率(cNS)A4^ (210x297么^ΪΤ I— n A8 Βδ 745_!_§_ 六、申請專利範圍 w .表示y字樣板的第i個特徵之統計平均値;及 v .表不乂字樣板的第i個特徵之統計標準差。 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW085112544A TW321745B (en) | 1996-10-15 | 1996-10-15 | Improved recognition method of Chinese confusing character and device thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW085112544A TW321745B (en) | 1996-10-15 | 1996-10-15 | Improved recognition method of Chinese confusing character and device thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
TW321745B true TW321745B (en) | 1997-12-01 |
Family
ID=51567097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW085112544A TW321745B (en) | 1996-10-15 | 1996-10-15 | Improved recognition method of Chinese confusing character and device thereof |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW321745B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI494775B (zh) * | 2011-05-18 | 2015-08-01 | Inventec Corp | 提供形似字以學習漢字之系統及其方法 |
CN107871135A (zh) * | 2016-09-23 | 2018-04-03 | 创意引晴(开曼)控股有限公司 | 避免辨识结果混淆的影像辨识方法 |
-
1996
- 1996-10-15 TW TW085112544A patent/TW321745B/zh not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI494775B (zh) * | 2011-05-18 | 2015-08-01 | Inventec Corp | 提供形似字以學習漢字之系統及其方法 |
CN107871135A (zh) * | 2016-09-23 | 2018-04-03 | 创意引晴(开曼)控股有限公司 | 避免辨识结果混淆的影像辨识方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845358B (zh) | 一种手写体字符图像特征识别的方法及系统 | |
Wang et al. | Locality-preserved maximum information projection | |
CN115186665B (zh) | 一种基于语义的无监督学术关键词提取方法及设备 | |
Wolf et al. | Computerized paleography: tools for historical manuscripts | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Cao et al. | A probabilistic method for keyword retrieval in handwritten document images | |
Christlein | Handwriting analysis with focus on writer identification and writer retrieval | |
CN114398681A (zh) | 训练隐私信息分类模型、识别隐私信息的方法和装置 | |
Wei et al. | Representing word image using visual word embeddings and RNN for keyword spotting on historical document images | |
Li et al. | Unsupervised active learning via subspace learning | |
Inunganbi et al. | Recognition of handwritten Meitei Mayek script based on texture feature | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
Vellingiriraj et al. | Text analysis and information retrieval of historical Tamil ancient documents using machine translation in image zoning | |
TW321745B (en) | Improved recognition method of Chinese confusing character and device thereof | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN112329698A (zh) | 一种基于智慧黑板的人脸识别方法和系统 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
Khan et al. | Analysis of Cursive Text Recognition Systems: A Systematic Literature Review | |
Wei et al. | Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents | |
CN114707615A (zh) | 基于历时汉字知识图谱的古文字相似度量化方法 | |
Huang et al. | Age-puzzle facenet for cross-age face recognition | |
CN110033862B (zh) | 一种基于加权有向图的中医量化诊断系统及存储介质 | |
Paul et al. | Multi-facet universal schema | |
Assabie et al. | Writer-independent offline recognition of handwritten Ethiopic characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |