TW321745B - Improved recognition method of Chinese confusing character and device thereof - Google Patents

Improved recognition method of Chinese confusing character and device thereof Download PDF

Info

Publication number
TW321745B
TW321745B TW085112544A TW85112544A TW321745B TW 321745 B TW321745 B TW 321745B TW 085112544 A TW085112544 A TW 085112544A TW 85112544 A TW85112544 A TW 85112544A TW 321745 B TW321745 B TW 321745B
Authority
TW
Taiwan
Prior art keywords
feature
similar
recognition
candidate
word
Prior art date
Application number
TW085112544A
Other languages
English (en)
Inventor
Zheng-Qin Jiang
Shiaw-Shian Yu
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW085112544A priority Critical patent/TW321745B/zh
Application granted granted Critical
Publication of TW321745B publication Critical patent/TW321745B/zh

Links

Landscapes

  • Character Discrimination (AREA)

Description

321745五、發明説明(j A7 B7 發明領域 本發明是一種用於改進中文相似字的辨識方法及裝置。 相關技藝之説明 文字辨識技術之應用廣泛,其中可分為二種典型之應用:光學文 字閱讀機以及筆式輸入作業環境,在光學文字閲讀機中,包含印 刷及手寫文字及符號的文件經由光學掃瞄器的掃瞄後,以電子媒 體(數位影像)之方式儲存於電腦之記憶體中,而後再經由文字 辨識之裝置,對此數位影像做處理及辨識,最後成為易於處理之 電腦文字檔案。圖一是一個典型之光學閱讀系統5 〇的方塊圖, 這個系統5 G包含了-個自動送紙系統5 i,其主要功能為自動 將紙饋人-個光學影像掃囉5 2巾,讀執行影像輸入。此光 學影像掃瞄器被連接至一個處理單元5 4,此處理單元可為一般 ^個人電腦’或-特殊設計之硬黯。_般而言,此處理器 單兀須包括一微處理器5 6,一記憶體模组6 2,一個顯示螢幕 5 8 ;以及鍵盤或其他輸入裝置6 〇,以上之各元件主要是為了 h供此處理單元5 4執行文字辨識工作之所普。 (請先閱讀背面之注意事項再填寫本頁) 装.
>1T 經濟部中央標準局員工消費合作社印製 筆式輸人作》雖常朗地方是在__人餘魏(p_al Assistant,簡稱PDA)中。圖二中即繪示了—個筆式輸 入之PDA7 G。通常-個PDA是—台可槁式電腦,其中包本 -些簡單魏如約會日唇、電轉,備忘筆記本等;另外還可提 供無線通$之魏,例如傳眞、f子郵件等等。pDA的作業方 式是使用者湘-數位筆7 4將資料或命令手寫於—數位板 本纸張尺度適用中國國家標準(CN’S ) Α4思格(2ΐ〇χ_297公着了 ^1745 五 發明説明( > ) 7 2,此數位板7 2可對輸入之筆跡做高速取樣,並將取樣之座 標資料儲存起來,然後再利用文字辨識技術將此手寫輸入轉換為 電腦文字資料或命令,此辨識工作也是由pDA 7 0中之微處理 器執行。 f辨識過程一個很麻煩的問題就是如何有效處理相似字的問題, j個問題在中文字的辨識中尤其困難,原因在於中文字的字集相 备大,根據統計一般常用之中文字就有54〇1個而較完整的中文字 集更肩包括1删0字以上。目此其巾她字的組合實在是多得難 以估計。 ί利用—個既有之手寫中文字辨識系統作測試時,對5 4 0 i個 現二每字取1 Q G個樣本做辨識,將辨識後正確結果出 名候選字内的比率做統計’在下表中我們將&工到 識,絲發财_解叩=1無=2間辨 减辜遽升取大(95.16 - 90.02 = 5 1 /tv 是由於相似字_:== 經 濟 部 中 央 準 為 員 工 消 費 合 社 印 製 如圖三所示之三字‘己,8 G、‘已,s 2和 型的相似字例子。 4 P疋典 I紙張尺度適财(CNS) A· (2lQx 五、發明説明(9) A7 B7 選取之候選字數(N ) 正確答案落於前N名候選字内之正確率 N= 1 90.02% N= 2 95-16% N= 3 96-72% N= 4 97-41% N= 5 97-81% 經濟部中央標準局員工消費合作·杜印製 本 至目前為止,針對相似字的辨識問題有些研究人員提出了一些解 法,大部份的方法都著重於利用字型結構比對的方法先抽取一些 結構特徵例如筆劃、部首,再從這些特徵上去找出可以區分相似 字的特徵,例如Jeong-Seon Park和Seong-Wham Lee在International Woricshops on Frontiers in Handwriting Recognition IV 中的論文” Adaptive Nonlinear Pattern Matching Method for Off-Line Recognition of Handwritten Characters” 就提出了此類型之解法, 而 A.B. Wang、J.S. Huang 和 K.C. Fan 也在 Proceedings of 1992 Second National Workshop on Character Recognition 中的論文” Optical Recognition of Hand-written Chinese Characters by Modified Relaxation”也提出相關之方法。這種結構比對的方法雖然可以較 精密地區分相似字,但是卻有二大問題存在。第一個問題是結構 特徵的抽取到目前為止對電腦而言依然是一大難事,尤其是在經 過影像掃瞄器掃瞄後,失眞的手寫文字中抽取結構特徵更難。由 於結構特徵的難以抽取,致使對相似字辨識的改進效果受到極大 的負面影響。第二_題是在於巾文字集巾存在·讀計數目 的相似字組合’每-種相似字組合都需要不同的結構特徵來區 刀’面對这麼龐大數目的組合,根本無法以人工方式來個別為每 、張尺度適用巾國國家標準(CNS ) M規格(2丨〇><297公董 (請先聞讀背面之注意事項再填寫本頁) 裝 訂 3^1745 A7 _ B7 五、發明説明(+) '- 一個組合定義其區分特徵。 除了結構比對之方式外,也有人利用統計式的方法來解決相似字 的辨識問題。其與結構比對法之最大差異在於採用的特徵是屬於 統計式的特徵。所謂統計式的特徵是指利用收集好的樣本 影像上的像素(p i X e :1 )特徵,例如字元影像中四個方向 (水平、垂直、左斜、右斜)之線段上的像素個數、筆劃交叉點 等等,然後統計出其平均値、標準差作為比對辨識之參考樣板資 料庫,以便供比對之用。比對時乃將由輸入樣本抽取出之特徵資 料與參考樣板資料庫中之樣板比對,而後再挑出最接近的幾個候 選字作為輸出。一般而言,統計式特徵的抽取較結構式特徵容易 許多,穩定性也較大,較不受字形失眞或變異影響。採用統計式 特徵來設計手寫中文字辨識系統的典型實施例可見於、s $
Yu、H.F. Sun 和S.L. Chou所合著之論文” Handwritten and Printed
Chinese Character Recognition Using Bayes Rule M (發表於 Intelligent Systems for Processing Oriental Languages pp. 406-11 1992中)。利用統計式的方法來解決相似字辨識問題之實施例則 可以參閲 J.Z.Hu 在 Chinese Information Journal,Issue 1,Vol 9 pp.37-41 之論文” Identification of Similar Characters in Handwriting 經濟部中央標準局負工消費合作社印装 (請先閱讀背面之注意事項再填寫本頁) and Printed Chinese Character Recognition。在該論文中,作者提 出的方法是根據不同的相似字組合定義不同的統計式區分特徵以 便區分相似字,但是這種方法卻仍然遭遇到與結構比對法相同的 第二個問題,亦即,無法以人工去完全歸納出所有組合的區分特 徵。此外,定義大量額外的特徵還需要大量額外的記憶容量來儲 存,這對一些無法配備大量記憶容量和計算能力的裝置如PDA 而言,可能是不實際的作法。 本纸張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) Μ Β7 經濟部中央標準局員工消費合作社印裝 五、發明説明(Γ) 圖四是一上述之用以改進相似字辨識之統計式文字辨識裝置9 0 的方塊示意圖,其操作方式是將一輸入(筆式輸入或光學掃瞄輸 入)之字元輸入此辨識裝置,接著此輸入之字元被送去特徵抽取 器9 2中抽取其統計式特徵,而後再將此特徵送給一辨識引擎 9 4作辨識,此辨識引擎9 4之主要工作是將輸入特徵與參考樣 板資料庫9 6中之樣板比對,然後根據距離或相似度找出最接近 的幾個候選字作為輸出。在這個辨識裝置9 〇中,還包含了另一 個資料庫稱為區分特徵定義資料庫1 0 0,當候選字從辨識引擎 9 6輸出時,此區分特徵定義資料庫1 〇 〇會被查詢以檢視所輸 候選字間是否顧她字齡,如妓,則會從此區分特徵 疋義資料庫1 〇 G中找出可以分辨該她字组合中之她字的區 分特徵定義。然後再將原輸人字元送至—區分特徵抽取器9 8 中,根據所查詢之區分特徵定義抽取區分特徵,然後再將此抽出 之區分特徵送至-她字辨識裝置i 〇 2中,此她字辨識裝置 1〇 2,即將此輸入特徵與區分特徵參考樣板資料庫}〇 4中之 樣板比對,然後根據比對之距離重新調整候選字之輸出。在此辨 識裝置中,由於麟她字定義新的區分特徵,因此須倦存三^ ^料庫,這三個資料庫將侧不少記憶空間,而且柚取新的區分 特徵也將減慢辨識速度。 針對此些先前技藝之缺失,本發明之提出,主要有二大目標. 目標一:改進電腦對相似字的辨識效果。 目標二:儘量降低額外付出的時間及空間成本,如辨識速度及記情 容量。 〜〜 本纸伕尺度適用中國國家標準(CNS ) A4規格(210X 297公釐 (請先閲讀背面之注意事項再填寫本頁) 訂 321745 五、發明説明(
發明簡述 為達到上述之二大目標,本發明提出一種新 方法及裝置,本發明至少可提供以下三種功能: 依據此 功能-:自動建構-個中文字集中的相似字對(c〇nftisins Character Pair)資料庫。 功能二:根據每個相似字對,自動抽選可以區分此相似字對中之 相似字的統計式區分特徵。 功能三:根據抽選之區分特徵,自動對相似字作更精細之比對。 功能電腦自動執行,因此骑遭遇前有技衔中所 石亚到的人工無法處理之間題。 兹將本發明之大概操作原理説明如下:首先先收集大量之中 <樣本錢構絲雜本資贿,織_ 此資料庫作卿m,編_綱她^3= 據此誤認結果及頻率;可篩“ 有了相似字對資料庫而 :庫1二本’對此相似字對中的二個相似字之 i目轉制,最後躲«找料決定最佳 及,之區分特徵個數即可被建構為一區分特徵:個 ΞΐίΖίίΓϊ輯識她字_取用。^魏明二發 從現有辨ΐίΐΓ義新的特徵做為相似字之區分特徵,而只是 從現有辨咸系統所抽取之特徵中插選重要之區分特徵,因此可以 本紙張尺度適财關 請 先 閲 讀 背 面 之 注 項 再 填 寫 本 頁 4. 訂 、發明説明(7 免除辨識時抽取新特徵所需之時間以及不需對新特徵建立一新的 參考樣板資料庫。 一旦建構完成區分特徵表之後,本發明裝置即可執行相似字之辨 識,辨識方法説明於下:輸入一待辨文字影像,由現有之辨識系 統執行辨識,辨識後輸出前二名候選字至本發明裝置,然後由本 發明裝置至區分特徵表中檢視此二個候選字是否有與任一相似字 對吻合,若無吻合表示此二字非屬相似字組合,因此無須進一步 處理與辨識,故直接輸出原辨識結果。相反地,若有吻合發生, 則從表中取得區分特徵之個數資料,並對現有特徵依重要性做与 冪排序,再依取得之區分特徵個數資料依序取得適當個數之區必 特徵’並以取得之特徵對此二候選字做重新比對,再依此比對海 果做最後輸出。 .圖示之簡要説明 圖一.光學文字閲讀系統方塊示意圖。 圖二:個人數位助理俯瞰圖。 經濟部中央標準局員工消費合作社印製 圖三:説现三個本文相似字圖。 圖四:傳統統計式相似字辨識裝置方塊示意圖。 圖五:本發明所提之統計式相I拿辨識裝置方塊示意圖 圖六:本發明裝置中各模組間之關係示意圖。 圖七:本發明所提之統計式相似字辨識作業流程圖。 圖八:中文相似字對表範例。 圖九:區分特徵分析中針對相似字對(‘己, 本紙張尺度適用中國國家標隼(CNS ) A4規格(210X297公釐) ‘已,)之各特
五 、發明説明(g A7 B7 徵的c k値比較圖。 圖九A:圖九之前2 5鱗徵的e k俊之放大圖。 圖十:區分特徵分析中針對相似字對(‘己,,‘已, 徵的u k値比較圖。 圖十A. ®十之前25個特徵wUk値之放大圖。 本發明之詳細説明 本發爾提之統計式她字賴裝置2 Q q方塊示意圖 其中包了-個特徵抽取器2G2,—個辨則擎2Q4,一侧 徵參考樣板資料庫2 G 6,-個她字對賴元件2 ◦ 8以; 區分特徵個數表21〇。其中特》取以〇2' 辨滅擎04及特徵參考樣板資料庫2 G 6為-般現有統計5 辨識系統I鮮歡^0此在此不予。 、· (請先閱讀背面之注意事項再填寫本頁) 經濟部中央椟準局員工消費合作社印製 令贫明城王財二大王作單元,分別是 (—)訓練本發明裝置如何韻她字對之單元,和 (二)相似字對之辨識單元。 ί圖本發明妓25G各模組(包括訓_ 4)間的關侧,其間包括了_娜輝本 相似字對產生模组2 5 4、_加』, 厚z 5 2 ή ^ , ’ —個相似字辨識訓練模組2 5 6,- 個相似字區分特徵個數表21〇 〇〇«, f- 1 °以及—個相似字對辨識元子 上以各模、、且除了相似字對辨識元件2 〇 8屬於辨·-外,其餘模組均屬訓練單元。 屬於辨4早7 本纸張尺度朝t_家---- ΪΤ----- -Λ---
11 - I I I -I I- [ .I — . A7 B7 五、發明説明( 在學習樣本資料庫2 5 2巾,我情對每辦文字絲了多個樣 本,通常收集樣本越乡,崎結果正雜越高,因此也就對系統 的刘練效果越有㈣。她字對產生模組2 5 4之賴是對學習 樣本資料庫2 5 2中之樣本做辨識測試及統計分析,以便為每個 中文字篩選出易導致該中·文字被誤認之相似字。相似字辨識訓練 ,組2 5 6之功用在於針對由相似字對產生模組2 5 4所產生的 母組相似字對做特徵之統計分析,以便抽選出最佳數目之區分特 而每组相似轉及其抽選出之區分特徵個數即雖存於相似 =區分特徵個數表2 i 〇中。在執行相似字辨識時則是由相似字 去辨識7L件2 G 8接收辨識引擎2 〇 4輸出之前二位候選字並參 考相似字區分特徵錄表2 1 〇中之資料來做進—步之辨識。以 下我們分別對訓練部份及辨識部份之模組做更進一步之 明。 、β 第—部份:本發明裝置之訓練單元 (―)相似字對產生模組 , 固包含大量文字之字集如中文而言,要以人王的方式來找出 2的相卿對是不可能的,而且人眼騎納之相似字對對電腦 二不見得是相似字對,因此糊電腦的快速處理資科的能力來 ,分析域_村能_似字對才是較為可行的核。因此 =發财便糾—崎方法來讓電腦自動完成此項工作。此方 =利用—學習樣本資料庫2 5 2及-現有之辨識系統 ,方法如 .利用現有之辨識系統對學習樣本資料庫2 5 2中之樣本 作一辨識測試。 (CNS ) A4規格(21〇><297公着) (請先閱讀背面之注意事項再填寫本頁) 訂 f、 ------------ ---! 1 3 打 745 五 、發明説明(! 〇) 步驟二:辨識過程中記錄所有被誤認之輸出及其相對之誤認次數 (頻率)。 ' 步騾三:如果有二中文字八與3彼此間之誤認頻率(不管A誤钗 為B或B誤認為A)超過一指定値τ,則(A,B) ^ 成一相似字對。 在上法中,指定値T設愈低,則可能產生之字對就愈多,在本 明之較佳貫施例中,T = 2為一合理値。 (二)相似字辨識訓練模組 相似字辨識訓練模組2 5 6主要執行二件工作,分別是() 對每個產生之相似字對,計算各個特徵之重要性以及(2 )區分 特徵個數之決定。茲將此二工作分別詳述於下。 * (1 )特徵重要性之計算·· 訂 如前所述’在傳統的統計式辨識祕中都會包含—崎 板資料庫2 G 6,此參考樣板資料庫2 Q 6通常是细 資料庫2 5 2㈣縣她其特徵並崎各特徵之平触及 用Γ均値及標準差,即可算出輸入樣本與各樣“ <距離或她度,域録相近之_心事實上,這個 =平均似鮮差也可被用料算各特徵在_ Μ分―個相似 字對時的重要性,此重要性程度可以下法量化之·· W,·): Κ,· -m.f 〔式一〕 其中W/)為第i個特徵對區分她字對〔χ,y〕的 ~表示X字樣板的第i個特徵之統計平均値;〜表示y字樣板 本紙張尺度適用中國國家標牟(CNS) M規格(21QX297公整) 經濟部中央標準局員工消費合作社印製 A7 ~ — ,—一 ___ B7 五、發明説明(丨/ ) 的第i_個4争徵之統計平均値;^表示父字樣板的第^個特徵之 統计標準差,^表示y字樣板的第i個特徵之統計標準差。 從〔式〕中可知當X字樣板第丨個特徵與y字樣板的第丨個 徵之平均値差異大時,〔式_〕之分子就會增大,而同時若X字 i個特徵與y字樣板的第i個特徵之標準差的和越小時, ’-〕〈分母就變小,因此,U越大,代表此第i個特徵 越有助於她字對〔x,y〕之區分,脚其重要性越大。 (2 )區分特徵個數之決定: 有了各特之重s性的I化指標彳冑,各特徵就可依其重要性做降 冪之排列,然而對每個相似字對而言,並撕有特徵都有正面的 輔助辨識絲,相反地,根據實轉知,有許乡特徵不但沒有正 面效果,還反而有混淆辨識之作用,因此對任何相似字對 〔X,y〕而言,從所有特徵中濾去多餘無用的特徵是很重要的 工作。為了芫成此工作,本發明採用下述之方法為之。 步驟-:針對相似字對〔x,y〕,將所有特徵依〔式一〕計算 其重要性,並根據此計算出之重要性以降冪方式排列各 特徵之順序。 ' 步驟二:設定二個向量變數C= (c },c 2,. .,,c d) 及C=(M,u 2,. . .,u d )為零向量,其中d 為特徵個數。 步驟二:從學習樣本資料庫2 5 2中取出x字及y字的樣本,對 所有取出之樣本一一與X字及y字之樣板做比對(計算 樣本至二樣板之距離)。 ---..--:-----^、衣------訂 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(2l〇x 297公董) 五、發明説明( 步驟四:比對過程中執行下述之記錄工作. U)記錄各特徵之累進距離差d k (以“),d k之定義如下: CD (X i , f i ) _ D (Y i,f i ) 〔式二〕 其中f i為輸入樣本之第i個特徵;D (χ卜 Hi1.個(1)分別表示f丨至5"字樣板之第丨個特徵及y字 f第1個特徵之距離函數’在本發明中,此距離函數定義如 下: 和 i )= f請先閲讀背面之注意事颂再填寫本頁} 裘. 21og(vx.) + 21〇g(v, )· 〔式三〕 〔式四〕 其中 、vT,·、w t 平均値、標準差以:字_丨個特徵之統計 差。因此,脏r板弟1個特徵之統計平均値、標準 訂 經濟部中央標準局員工消費合作社印製 因此,將 ’式二〕及〔式四〕代入〔式· (b)對任何第k個特徵, 娜尺度適用中國國家 〕即得 21〇g(v ) + [式五] 若下列二條件之任一條件成立, 則將 10X297公釐)
"量變數C之第k個分項c k値加一: (讀先閱讀背面之注意事項再填寫本育) 條件~.此輸入樣本為X字之-樣本且d k < 〇 : (條件—.此輸入樣本為y字之-樣本且d k > 〇。 c對任何輸入樣本,依下式調整㈣量之第k個分項u k: uk = uk + ^ (dk-dk-l) 其^中如果該輸入樣本為χ字之一樣本,則α二_丄;否則 若該輸人樣本為y字之—樣本,則^ i。 從所有特徵k中找出其在向量魏c中的分項c k値, 丁 =從中找出具有最大値者,如果有超過二個以上之分項 相同値($為最大);則取其中之uk分項較大者, 假叹特徵k符合上述最大値之條件,則代表排序後之特 徵1、特徵2、...、特徵k*是眞正對分辨相似字到 〔x ’ y〕有用之區分特徵,而特徵k*+丄及其後之特 徵均因幫助不大故可捨棄之。 —込方f中’分項c k値之物理意義其實就代表在所有使用的X 子的予習樣本中,若僅使用特徵1、特徵2.....特 用 適 度 尺 張 紙 -1-------- 本 經濟部中央標準局員工消费合作社印製 因此,二+ 1及其後之特徵所能正確辨識的樣本數, _ 裒<ck値亦即代表找出具有最佳辨識效果的特徵 果,此時存在二偏上之特徵數得到最佳之辨識效 二XU k値來做為從中選—之依據,越大之u k値 此可對相似字對x和y而言,可產生較大之距離 (二)俜似字區分特徵個數表 中國國家榡準(CNS) A4規格(210X297公董) A7 ---- 67__________ 五、發明説明(丨^) 在相似字辨識訓練模組2 5 6完成區分特徵之決定後,本發明即 將每一個相似字對及其相對之區分特徵個數資料予以儲存成一資 料庫,以辨供相似字對辨識元件2 〇 8取用i此資料庫即稱為相 似冬區分特徵個數表2 1 〇。此表中每一筆資料包含三個欄位, 分別是(1 )相似字對中第一個相似字之編號,(2 )相似字對 中第二個相似字之編號,及(3 )該相似字對之區分特徵個數。 下表中為一個相似字對區分特徵個數表之範例。 第一相似字代號 第二相似字代號 區分特徵個數 1 2 15 1 8 14 1 15 16 2 3 28 2 6 50 為了增進她字餐識元件2 〇 8在搜尋相财區分姐個數表 2 1 0時的速度,本發明在實作時乃將該表以串列製作,針對每 個罕A,所有與字A構成相似字對的字3及其相對之區分特徵個 經濟部中央標準局員工消費合作社印製 數均被串連在-個,列之中,並依钟之編號作排序,因此,以 上述之字對區分特徵個數表範例而言,字丨之串列如下所示: 串列一: 第二字 序號 2 區分特徵數 15 (請先閲讀背面之注意事項再填寫本頁) 第二字 序號 8 第二字 序號 15 區分特徵數 14 區分特徵數 16 表紙張尺度適用中國國家標準(CNS } A4規格 (210X297公釐) 而字2之串列則如下所示: 串列二: 第二字 序號 3 第马 广 --^ 序號 6 區分特徵數 28 區分特徵數 50 在相似字對辨識元件2 〇 8要搜尋她字 字八之串财去搜尋字B之資料節點即可。’ B〕時只須由 第二部份:本發明裝置之相似字辨識單元 =目似字辨識料中僅有―模组, 疋件2 0 8,其功能是對-既有辨識系統2 q 選罕’根_分析之區分特徵再做—次特別之 = ,們將此元件之操作流輯出。如圖中所示,針對—輸辨 子疋,既有辨識系統2 G 4提供其辨識結果(步驟 一 ^位候選字_似字對賴树2 G 8,絲她持辨識= 2 0 8即根據此二候選罕至相似字區分特徵個數表2丨q 是否有與此二候選字吻合之相似字對(步驟3 Q 4 )。若無 則直接以既有辨識系統2 0 4之輸出為輸出(步驟3 〇 8 )。: 果孩二候選字與相似字區分特徵個數表2〗Q中之相似字對吻人 (步驟3 G 6 ) ’職字對之最無特韻數(k*)也會被^ 出(步驟3 1 2 ),此時相似字對辨識元件2 〇 8會先將二有 徵依其*重要性做降冪制(步驟3 1。),紐再郷區分特徵 個數k依序選取此指定個數之特徵重新計算此輸入字元與該二^ 321745 五、發明説明(^ ) A7 B7 選字之樣板重新計算距離,所使用之距離函數須與相似字辨識訓 練模組中所使用之距離函數一致(參見〔式三〕及〔式四〕), 因此,以本發明之較佳實施例為例,假設此二候選字分別為X和 y,此重新計算之二距離(d x和d y )計算如下: d X =Σ 21〇g(vx,f). (fi 〔式七〕 和 d km y =Σ 〔式八〕
yyJ 算出此二距離後,相似铸辨識元件2 Q 8再根據此二距離之大 小來決定是否調整此二候選字之順位(步驟3丄6 )。 n H .1 i - - - «n m 11 Ά I—I m 1 - -I -.1. - I *1T (請先閲讀背面之注意事項再填寫本頁) 使用的特徵是從既有辨識系統 經濟部中央標準局負工消費合作社印製 由於相似字對辨識元件2 2 〇 4所抽取之特徵中抽選,因此其參考樣板資料庫2 q 6可直 接被使用,;另外建讀的參考樣板讀庫,如此可減少額 的空間代價。 p 較佳實施例舒明 ^驗証本巧之功效,實作了本發明裝置,並以―含5 4 〇工信 子’母字含1Q G個樣本的字元影像資料庫作為學習標 貝枓庫2 5 2 ’並利用-個以Bayes統計理論為基礎之辨識系辦 木紙浪尺度適用中國國家榡率(CNS ) A4規格(2丨Οχ297公着 五、發明説明(丨9) 作為既有之辨識引擎2 ’依序實施以下之步驟。 (A )訓練工作: 料庫2 5 2 ,並預設門襤T値為 5共計產生了 8 “5個她轉,在圖八中 ί己ΡΊ 個。在圖九及圖十中,分別是在決定相似字到 5 2 數時所得之細_徵(共用7 其中=代1特徵依重要 现釉則為C 1値及U i値。為求清楚 丨把圖之$ 2 5個特徵分別放大在圖九么及圖十A中, :、、W。在圖十巾,我們卿相u丨魏著特徵之編號有漸 趨勢’此縣祕了我們的重躲排序的雜銳狀況頗為 付合。
在圖九中我們可發現第1 7個特徵及第i 8個特徵具有最大之c I
1.値為1 7 2 (參見圖九八),因此我們須在二者間選擇一丨 個,而—從圖十A中,我們發現u工7二2 . 5 7而 I 經濟部中央標準局員工消費合作社印製 (請先閲讀背面之注意事項再填寫本頁) ’衣. •訂
u 1 8 = 0 . 5 6,所以我們乃取i 7作為最佳之區分特徵個,丨 數^因其可以從總共2 〇 〇個‘己,和‘已,的學習樣本中正確j 區分1 7 2個樣本而且產生最大之特徵距離差。如果我們選用了 I 全部特徵,結果發現反而只能正確區分丨6 5個樣本,因此這數 | 據驗荻了我們所提之並非所有特徵對區分相似字都有正面作用之 | 淪點。針對所有8 6 6 5個相似字對我們都可以此法分析出其最 丨丨 佳之區分特徵個數,然後再將其結果存成—相似字區分特徵個數 丨
表2 1 0,由於特徵之順序可在辨識時視需要再執行,因此在相 丨I
I
I
I
本錄纽適财國@家縣-------, I 五 、發明説明(/p ) :字區分特徵個數表210中 號,只須儲存區分特徵個數即可,…、心储存所有區分特徵之編 區分特徵個數表2 i 0才佔用^魏例中,此相似字 已,相當節省。 量43325位元組而 (B)相似字辨識之測試 提升為91.77%,其二=本rf置後r識率 =發現’如果增加相似字對的數目,對辨識率 之實施例僅為本發明—據以實施之較佳實_說明,熟 白此技蟄足人士所做讀何潤飾及修改,皆應涵蓋在本發明之 圍内。 ---{--'----7 装—I (請先閱讀背面之注意事項再填寫本頁) 訂 經濟部中央橾準局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公董) ---------

Claims (1)

  1. 經濟部中央標隼局員工消費合作社印裝 •一種相似字辨識方法,包含: 用學f樣本及辨識H,自動建構出—相財對資料庫; •、B藉 =學習樣本之辨識及分析,自動針對每-她字對抽’ 選最能分別此相似字對中之相似字的區分特徵;以及 c *利用插選出的特徵執行相似字的辨識。 如中請專利範圍第1項所述之相似字辨識方法,其中之相似 字對資料庫自動建構法 ,可包括: a·利用—辨識器對所有學習樣本執行辨識; b·記綠任二字之間的誤認頻率;以及 c若任二字之間的誤認頻率超過一設定之門摇値,則此二 字構成一相似字對。 如申凊專利範圍第1項所述之相似字辨識方法,其中相似字 對區分特徵自動抽選方法,可包含: a ’決定所有特徵對於分辨該相似字對之重要性,並依降冪 排序之;以及 b.決定最佳之區分特徵。 如申請專利範圍第3項所述之相似字辨識方法,其中包含決 定每一文字特徵之重要性,以量化各特徵對相近字間之分辨 能力之步驟。 如申請專利範圍第4項所述之相似字辨識方法,其中之特徵 重要性,可由下列方法決定: I I i Hr i 裝-- (請先閱讀背面之注意事項再填寫本頁) 訂
    本紙張尺度適用中國國家樓準(CNS)八4賴_ (210x297公瘦) A8 B8 C8 m 申請專利範圍 其中η[^(0為第i個特徵對區分相似字對〔x,y〕的重要 性; \,,·表示X字樣板的第i個特徵之統計平均値; 切〜·表示y字樣板的第i個特徵之統計平均値;以及 表π X字樣板的第i個特徵之統計標準差; 表不丫字樣板的第i個特徵之統計標準差。 ^申請專利範㈣3項所述之相似字辨識方法,其中自動決 疋那一特徵為兩相似字間之主要區分特徵之步驟,可進一步 包含自動決定最佳之主要特徵。 如申请專利範圍第3項中所述之相似字辨識方法 ,其中決定 那一特徵為主要之區分特徵,包括下列步驟: a,根據特徵重要性安排特徵順序,· b.安排特徵順序之後,初始化計數器組為0 ; c•對訓練樣本資料庫中之相似字樣本作辨識; d·辨識每一樣本之過程中,執行下列程序: (1) 決定相似字間不同數目特徵之累進距離差;及 (2) 比較累進距離差,若累進距離差能正確區分相似字, 則增加此計數器組中計數器之値;以及 e•選出一具有最大値之計數器,由此計數器得到最後之主要 區分特徵。 如申請專利範圍第7項中所述之相似字辨識方法,其中· a.安排特徵重要性後,初始化另一計數器組為0 ; b•辨識訓練樣本之過程中,針對每一樣本,依下法調整 国国豕椟準(CNS )入4祕(210X297公釐) (請先閲讀背面之注意事項再填寫本頁)
    步驟a中之計數器値: Uk=Uk+<ar (ί!κ-(1κ-ι); 其中,如果此樣本為第一個相似字之樣本,則; 若此樣本為第二個相似字之樣本,則; Κ代表此計數器组中計數器之編號: , dK表使用Κ個特徵之累進距離差;以及 dic-i為使用K-1個特徵之累進距離差; c.辨識冗所有訓練樣本之後,可依下法取得最後之每一計數 器値UK : υκ=_ΙΛ_ nx+ny 其中Uk^針對兩相似字χ和y所有訓練樣本之第㈣争徵的十 均距離差; 队為相似字X之使用樣本數;及 ny則為相似字y之使用樣本數;以及 d·於前項之步物中若制有概崎數料有最大値,則進 一步從计數器組値uk中找一最大値者來決定最後之主要 區分特徵。 如申請糊綱帛7費狀相辨賴減,其中兩相似 字X與y間使用不同數目特徵之累進距離差,可以下法取 得: dk=2 CD ( Xi » f J ) _D (y. , f . } 1 其中f i為輸入樣本之第i個特徵.
    ;1 i ;馮一辨識系統決定ί i至相似字兀之參考 樣板之距離的功能輸出値;以及 D (yi,f i)為—辨識系統決定f〗至相似字y之參考 樣板之距離的功能輸出値。 如申請專鄕圍帛7騎狀她字辨齡法, 差可由下法取得: di Έ /=1 21〇g(v ) Xj 其中fi為輸入樣本之第i個特徵; mx’i,vx,i,㈣和〜分別代表時樣板第丨個特徵之統計平均 値、標準差以及y字樣第i個特徵之統平均値標準差。 訂 如申請專利範圍第1項所述之相似字辨識方法,包含下步 驟: a,接收原辨識系統所輸出之第一名及第二名候選字; b·判別此二名候選字是否為相似字; c. 如果二候選字不是相似字,則將第一名候選字輸出為最 後之辨識結果;以及 d. 如果二候選字為相似字,則執行以下子步驟; (1) 根據計算之特徵重要性,排列各特徵之順序; (2) 取得二候選相似字間之最佳數目之主要區分特徵;及 (3) 以此取得之主要區分特徵重新計算距離,並判別輸入 樣本較像第一候選字或較像第二候選字,依比較結 果輸出較像之候選字為最後辨識結果。 •如申請專利範圍第1 1項所述之相似字辨識方法,其中決 __ · 六、申請專利範圍 定輸入樣本較像第一或第二位候選字之方法中,包含一計 算輸入樣本之主要區分特徵與二候選字樣板之主要區分特 徵間之距離。 1 3 . —種相似字辨識裝置,包括: a. 特徵抽取器,用以從影像抽取特徵; b. 特徵參考樣板資料庫,包含文字類別之各特徵資訊,· c. 辨識引擎,用以接收特徵抽器所抽取之特徵,並與特徵 參考樣板資料庫之樣板作比對,並依比對距離輸出一序 列之候選字; d. 近似字元區分特徵個數表,含有一争近似字元及編輯自 特徵參考資料庫之資訊;及 e. 相似字辨識,裝置,用以接收辨識引擎輸出之候選字並利 用特徵參考樣板資料庫及近似字元區分特徵個數表來分 • 辨相似字’並輸出一個最理想之候選字。 14.如申請專利範圍第13項所述之文字辨識裝置,其中之特 徵參考樣板資料庫包含由一訓練樣本資料庫所分析而得 之特徵資料。 1 5 _ —種相似字辨識裝置,包括: 經濟部中史梂準局負工消费合作社印裝 a ·學習樣本資料庫,包含複數個文字樣本; b .統計式之文字辨識模組,可抽取文字影像之特徵並執行 初步辨識工作; 12 .特徵參考樣板資料庫,乃由學習樣本資料庫之文字樣本 之特徵統計資料組成; d .相似字對自動產生模組,用以自動產生相似字對資料 本紙張尺度逋用中國國家樣準(CNs )人4規格(210x297公釐) A8 B8 C8 D8 321745 六 經濟部中央標準局員工消費合作社印製 、申請專利範園 庫; I I 1 n I I n t— I n ϋ I _ T . 、1 (請先閱讀背面之注意事項再填寫本頁} e相似丰對辨_練模组,用以自動決定各相似字對間 最佳區分特徵; f .相似子對區分特徵表,用以儲存相似字對最佳區分 數目;以及 m g .相似字對辨識模組,肋執行各相似字對中之相似字辨 識工作。 1 6 · —種利用文字辨識系統來分辨相似字之方法,包含下列步 驟: a.從文字辨識系統接收第一名及第二名之候選字; b .若第一名及第二名之候選字為相似字,則 (1) 依各特徵之重要性排列順序; (2) 取得複數個主要區分特徵; (3) 由主要區分特徵決定輸入影像與第一名及第二名候選 - 字之樣板間之差異;及 (4) 若輸入影像較接近第二名候選字,則對調第一名及第 二名候選字間之順序。 1 7 ·如申請專利範圍第1 6項所述之方法,其中在排各特徵順 序之前,計算相似字對各特徵値之重要性,以區分相似字 對〇 1 8 .如申請專利範圍第1 7項所述之方法,其中以一累進距離 差異來比較輸入樣本與第一候選字和第二候選字間之相近 程度。 1 9 .如申請專利範圍第1 8項所述之方法,其中之累進距離差 可以下法求得 本紙张尺度逋用中國國家標準(CNS ) A4規格(210X297公釐) D ( 申請專利範圍 dq〔D(Xi,fi)—D(yi,fi)〕 其中k為主要區分特徵個數。 如申請專利棚第i 9項所述之核,其中的減區分特 徵,重新計算待辨爾本與前二錢選字(假設為候選字 i及候選字j )間距離,此距離可以下式欠得. 21〇S(Vx,) 和
    1.-^---------裝—— .(請先閲讀背面之注意事項再填寫本頁) D ( Yi » f i ) 21〇g(v,i) + _yc^ fi為輸入樣本之第i個特徵; ’ 表示X字樣板的第i個特徵之統計平均値; k表示X字樣板的第i個特徵之統計標準差; 表示y字樣板的第i個待徵之統計平均値;及 v表示y字樣板的第i個特徵之統計標準差。 2 1 訂 如申請專纖M 1 8爾述之方法,累進距離差可依下 法求得: 經濟部中央標準局負工消費合作社印装 2 i〇g(〇+_ 2 log(',)+α· - )2 v 其中: fi為輸入樣本之第i個特徵; 〜表不X字樣板的第i個待徵之統計平均値; 匕,·表tfx i樣板的第i個特徵之統計標準差,· ^纸法纽適财國國家搞率(cNS)A4^ (210x297么^ΪΤ I— n A8 Βδ 745_!_§_ 六、申請專利範圍 w .表示y字樣板的第i個特徵之統計平均値;及 v .表不乂字樣板的第i個特徵之統計標準差。 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)
TW085112544A 1996-10-15 1996-10-15 Improved recognition method of Chinese confusing character and device thereof TW321745B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW085112544A TW321745B (en) 1996-10-15 1996-10-15 Improved recognition method of Chinese confusing character and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW085112544A TW321745B (en) 1996-10-15 1996-10-15 Improved recognition method of Chinese confusing character and device thereof

Publications (1)

Publication Number Publication Date
TW321745B true TW321745B (en) 1997-12-01

Family

ID=51567097

Family Applications (1)

Application Number Title Priority Date Filing Date
TW085112544A TW321745B (en) 1996-10-15 1996-10-15 Improved recognition method of Chinese confusing character and device thereof

Country Status (1)

Country Link
TW (1) TW321745B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI494775B (zh) * 2011-05-18 2015-08-01 Inventec Corp 提供形似字以學習漢字之系統及其方法
CN107871135A (zh) * 2016-09-23 2018-04-03 创意引晴(开曼)控股有限公司 避免辨识结果混淆的影像辨识方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI494775B (zh) * 2011-05-18 2015-08-01 Inventec Corp 提供形似字以學習漢字之系統及其方法
CN107871135A (zh) * 2016-09-23 2018-04-03 创意引晴(开曼)控股有限公司 避免辨识结果混淆的影像辨识方法

Similar Documents

Publication Publication Date Title
CN106845358B (zh) 一种手写体字符图像特征识别的方法及系统
Wang et al. Locality-preserved maximum information projection
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
Wolf et al. Computerized paleography: tools for historical manuscripts
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Cao et al. A probabilistic method for keyword retrieval in handwritten document images
Christlein Handwriting analysis with focus on writer identification and writer retrieval
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
Wei et al. Representing word image using visual word embeddings and RNN for keyword spotting on historical document images
Li et al. Unsupervised active learning via subspace learning
Inunganbi et al. Recognition of handwritten Meitei Mayek script based on texture feature
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
Vellingiriraj et al. Text analysis and information retrieval of historical Tamil ancient documents using machine translation in image zoning
TW321745B (en) Improved recognition method of Chinese confusing character and device thereof
CN113360643A (zh) 一种基于短文本分类的电子病历数据质量评价方法
CN112329698A (zh) 一种基于智慧黑板的人脸识别方法和系统
CN110096708B (zh) 一种定标集确定方法及装置
Khan et al. Analysis of Cursive Text Recognition Systems: A Systematic Literature Review
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
CN114707615A (zh) 基于历时汉字知识图谱的古文字相似度量化方法
Huang et al. Age-puzzle facenet for cross-age face recognition
CN110033862B (zh) 一种基于加权有向图的中医量化诊断系统及存储介质
Paul et al. Multi-facet universal schema
Assabie et al. Writer-independent offline recognition of handwritten Ethiopic characters

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees