TW299425B - - Google Patents
Download PDFInfo
- Publication number
- TW299425B TW299425B TW083104858A TW83104858A TW299425B TW 299425 B TW299425 B TW 299425B TW 083104858 A TW083104858 A TW 083104858A TW 83104858 A TW83104858 A TW 83104858A TW 299425 B TW299425 B TW 299425B
- Authority
- TW
- Taiwan
- Prior art keywords
- printed
- string
- character
- text
- document
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- General Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Detection And Correction Of Errors (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
A7 B7 五、發明説明(1 ) 本文 本發明係關於自動產生文件檩記(marker)技術的應 用,本發明申請是延績1 9 9 2年1 0月9日編號爲0 7 /9 5 8,9 3 8的專利申請,確切而言,本發明係指利 用文件中各紙頁的編碼賫訊標記,以便提供一個特定裝置 ,不僅用以進行文件識別及文件結構辨認,同時在藉由光 學字符辨認技術再製出所標記的文件時,亦可執行錯誤檢 知和錯誤修正。 本發明背景 經濟部中央標準局員工消費合作社印製 利用電腦讀取條碼所進行的產品識別係藉由簡單的數 字編碼及掃瞄技術,針對具有一組固定數値的商品項目進 行辨識,其中的條碼係直接記錄在紙張上,對電腦產生及 儲存的文件而言,其文件的辨識属於另一種技術,此項技 術的發展是應用二値編碼並提供儲存文件的檢索。大部份 的文件產生軟《程式不僅提供文件的識別及/或檢索資訊 ,也針對其搭配使用的印表機提供編碼資訊,舉例而言, 這些資訊可以詳細地指定間隔,邊限以及相關的佈局資訊 ,然而,一且當文件被印製在紙頁上,這些資訊不會出現 在文件中,但其效果可爲使用者所分辨。 如果期望使用一個光學字符辨識(OC R )系統進行 再製文件,則目前無法取得自動裝®可以將佈局賫訊透過 掃瞄器進行通訊並且傳送至接收電腦,因此薔要將辨認技 術予以改良提供一種可以產生文件紙張版本的裝S,而這 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) A7 B7 五、發明説明(2 ) 些文件可藉由m腦以光學方式掃瞄包含在紙張文件上或其 中的一個標記,並且配合光學字符本文文件掃瞄予以辨載 ,再製及校讀。 過去所使用的文件或產品辨認系統包含了可廣泛應用 於多用途的條碼檫記及掃瞄器,對於紙張文件而言,紙頁 上所具有的特殊標記或圖樣已可用來提供若干資訊給相關 的設備,例如Hikawa在美國專利第5,0 5 1,7 7 9 號中所提及影像處理用之工作管制紙頁,以類似的方式, Johnson等人在美國專利第5,0 6 0,9 8 0猇中亦提 及包含在表格中的辨認槺記,道個系統可針對已存放在電 腦中的表格作編耩,使用者可編胲表格的拷貝,再經由掃 瞄,則可針對,以電子信號形式存放於氰腦中的複製表格 ,塡入其中的欄位。在最近所取得的美國專利第 5 ’ 〇 9 1 ,9 6 6 號中.,發明人Bloomberg等人 glyph· 碼進行解碼,這種碼是以數位方式在紙張上將資料編碼 而成,利用電腦可讀取辨認碼,然後有利於電腦處理文件 ,例如辨認,檢索以及俥输文件,然而現今的系統均未包 .1 括錯誤檢知或修正的功能,再者,道樣的系統要求在透過 掃瞄输入資訊前,必須在所使用的電腦中,將一份待處理 文件的拷貝存放在其記憶體中,如此無法逋用於利用光學 字符辨認且由掃瞄電腦產生的文件。 ffl1中的光學字符辨識系統一般而言包含一個數位化 掃瞄器1 6以及一個用以掃瞄一印刷紙頁丨4的%掃瞄' 镭:腦1 8 ’該印刷紙頁丨4是由原文產生電腦1 2所產生 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閲讀背面之注意事項再填寫本I)
5 經濟部中央標準局員工消费合作社印製 B7 五、發明説明(3 ) ,並由印表機1 3所输出,藉由掃瞄器1 6將本文( text )抽取出來並以一標準的電子格式,例如ASC I I ,製作成電子文件存放於《腦中,我們期望能夠加入若干 關於本文及佈局的賫訊以供錯誤檢知及修正之用,道些賫 訊可以光學方式掃瞄或自動输入。 由於掃瞄程序以及光學字符辨識系統在字符辨識準確 度上存在的限制,將會在输出結果上引入若干錯誤,其不 僅包括字符誤驊(misinterpretation)錯誤,也造成佈 局關連錯誤,發生於文件OC R再製過程中的典型字符誤 驊錯誤包含下述情形:第1種是'^置換錯誤(substitut-ion error)',其中辨認錯誤的字符被實際列印的字符 所取代(例如| b '辨識成| h # ,所以* the bat#變 成了 %the hat# ):第2種是*消除錯誤(deletion error)',其中的字符或空白自掃瞄區域中錯誤地被消 除了(例如,%thebat〃 變成了 ithat# ):而第3種 則是^插入錯誤(insertion error) f ,其中,字符或 空白被錯誤地插入再製i域中(例如,* the bat"變成 ^t, he bar )。而有一種常見的錯誤事實上是上述基 本錯誤型態的組合(例如,將'mV讀成'r η'包含了 置換及插錯誤,而將1#讀成'"則包含了置換和 消除錯誤),除之此外,在進行OCR掃瞄及再製過程中 ,亦有可能發生整行的本文被插入或被消除。一般而言, 傳統的錯誤檢知/修正機構可執行檢知及修正置換錯誤, 但是對於OC R過程中遇到的消除及插入錯誤,則無法有 本紙張尺度適用中國囷家標準(CNS ) Α4現格(210Χ297公釐) 83. 3.10,000 ίιιΑΛ ! (請先閱讀背面之注意事項再填寫本頁) 、νβ 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(4 ) 效地檢知及修正,以下將進一步說明。 後置處理,特定錯誤檢知及修正是下一階段必須進行 的工作,主要是以人眼來校讀再製出來的文件,利用人力 作後置處理工作是昂贵的,不僅因爲實際成本上的考量, 而完成處理文件所需的時間亦屬可觀,最佳的解決方法是 ,提供一種裝置不僅可以檢知字符置換錯誤,亦可以檢知 及修正所有的字符及列誤譁等錯誤,再者,一種理想的解 決方案亦可提供文件本身的辨認以及針對文件,傅遞適當 佈局結構的功能。 對已經使用在電腦文件產生技術(亦即文字處理)中 的錯誤檢知/修正系統而言,其所涵羞的技術係基礎於字 典査閱和/或企圓使用取自文件的語法,或內容,賫訊以 辨認及修正錯誤,許多道樣的系統要求文件中若有與字典 中字彙並不相關的字彙時,必須利用%人力後置處理器# 予以檢視,這種以字典爲基礎的系統,其所具備的自動錯 誤檢知功能在進行辨認過程中,將自發地修正與字典中字 彙不相關的字彙,吾人可輕易的想像出沒有自動拼字修正 的狀況,例如一個不正確的名字,一個有心的拼錯字及新 造的字詞等狀況,這種系統在使用字典比對的設定下,整 個文件中的字彙將與資料庫中字典的字彙相比對,文件中 各字詞與一特定字彙比對的成本相當昂貴;而串列錯誤檢 知及定位,無需逐字的加以比對,是我們所期待的。 抽取自文件的語法賫訊亦可使用在本技術領域中,其 可用於辨認以及針對檢知出的錯誤進行自動修正,而上述 本紙張尺度適用中國囷家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 ^^^1 —^1— ^^^1 ^^^1 ^^^1 1^1 HI^L I I (請先閱讀背面之注意事項再填寫本頁) -* 經濟部中央標準局負工消費合作社印製 A7 B7 五、發明説明(5 ) 檢知出的錯誤並非是可輕易辨認爲存在於字典中字彙的錯 拼(misspelling)或者類似一個以上存在於字典中字彙 的情形,當一個字典査閱的動作單純地剔除了該字或者作 了錯誤的修正,則骸系統將會進行辨識,並且將"^ofthe | —字修正爲’of the",同理,針對所使用的軟雅及硬 體,或者用於掃瞄的字體中,眾多經常發生的錯誤可應用 在文句內容,或酹法,賫訊中,以變進行辨認以及自動修 正常發生的錯誤,例如η"會被錯誤地辨認爲' ,或者字母、〇〃會被錯誤地辨認爲數字、〇# 。 爲了避免使用逐字査閱比對的方式來檢知錯誤,特別 是針對透過網路來傅遞的文件,系統已經使用同位位元與 資料同時進行傅输。一旦傅输開始,則進行*新#文件的 位元計數,如果所計算的位元符合傳输的同位位元,則認 定是一個無錯誤的傅输,此種同位及査核位元概念的延伸 ,如同Chandran等人在美國專利第5,0 6 8,8 5 4號 中所說明的,逋用於數位化編碼資訊的錯誤檢知,同位位 元概念的其他延伸,例如平衡加權錯誤修正碼可用於檢知 及修正一個以上的單一位元錯誤,在kir by的美國專利第 4,9 6 5,8 8 3號中可找到類似的技術,針對二値碼 資訊所發展出來的同位及査核位元系統可以合理的準確度 確定錯誤是否存在,而在某一數置錯誤接收之賫料中發生 錯誤位元符合待傳送資料之査核位元的機率是極低的。因 爲位元的計算是針對二値化編碼資料而言,因此特別逋用 於檢知單一位元錯誤:除了加權平衡及隨機査核所修正的 本紙張尺度適用中國國家樣率(CNS ) A4規格(210X297公釐) 83.3.10,000 n^i' ^^^1 tnn ^in (請先閲讀背面之注意事項再填寫本頁) -9 鍊 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(6 ) 情況。然而,一般而言,査核及同位位元系統傾向於利用 資料不相關的方法以確定電腦至電腦間的傅输是否爲無錯 誤傅输,因此,査核及同位位元系統並不能視爲徹底的檢 査系統,僅能視爲用於數位並數位通訊中的初階段篩選技 術,而明顯地並不適用於例如光學字符辨識系統中的類比 至數化轉換。 在Calvignac等人的美國專利第4,9 6 4,1 2 7 號說明中,提及另一個習用的系統,它所具有的一個1 6 位元査核序列是賫料相關的,且針對賫料欄位的內容進行 計算,道樣的系統仍然是逋用於沿著一個賫料路徑(data path)傳输的資料,而該資料是以數位的格式存在。 在光學字符辨識的領域中,所存在的一個相似的需求 是希望有一種裝置能針對經由光學掃瞄,位元對映及《腦 編碼等程序再製出的資料進行檢知及修正錯誤,字典査閑 及通用錯誤參考兩種方法已被提出且應用於OC R的文件 中,然而,如同過去文件產生的需求一般,逐字核對的方 法並非有效且無法保證產出正確的結果,同時,除了印刷 字之外,文件的佈局是爲OC R中的一個重要特徵,現今 使用在一個光學掃瞄,位元對映系統中的同位位元査核系 統充其置僅對錯誤檢知有效,對於錯誤定位的效果極低, 而針對不當佈局的檢知及修正則完全無效。 在Rudak的美國專利第4,9 7 4,2 6 2號中提出 一個使用在OCR設備中的裝置,其可以辨識及修正%無 法辨識(unrecognizable)#的字符,在此系統中,無法. 本紙張尺度適用中國國家標準(CNS > Α4規格(210Χ297公釐) 83. 3.10,000 nn It 1.^1 ^^^1 Γ戈 (請先閱讀背面之注意事項再填寫本頁) ,νβ 經濟部中央標隼局員工消费合作社印製 A7 B7 五、發明説明(7 ) 藉電子字典査閱作業辨識出的字符將選擇性顯示給操作貝 看,以便進行翻譯及修正,自動化較完整的OC R錯誤檢 知及修正功能有醫要的,但在目前並未出現。 檫題爲"^用於達成以光學字符讀取方式正確讀取印刷 文字的方法〃,發明人爲McGinn的美國專利第 4,1 0 5,9 9 7號専利中提出一種基本的錯誤檢知功 能,可用以檢査利用光學字符辨識所再製出之文字的準確 性。 此McGinn系統針對每一列使用ASCI I文字的資 料,計算出一個核對和(check-sum)値,並在文件中毎 一個待印的文字列終了處印上核對和符號,在毎一印刷列 進行OCR掃瞄時,而印出的核對和符號亦被掃瞄,並且 "……以相同的方式處理,以產生一個A S C I I碼序列 位元串……# ,在印刷列再製過程中,將計算再製文字列 的核對和値,並與掃瞄進來的符號相比較,如果兩個核對 値不符合,則假設有一個錯誤存在,該列再予以掃瞄,而 所須處理重覆進行直到符合爲止,McGinn系統無法執行 印刷列內錯誤的定位*也無法在不重覆掃瞄的情況下進行 檢知錯誤的實際修正以及再製出該印刷列。 因爲McGinn系統針對使用ASCI I文字的核對和 符號進行編碼,如同檫準文字的狀況,該符號將以相同的 技術藉由光學方式加以掃瞄並且進行辨識,結果是無錯誤 定位和核對和符號的辨識無法保證,而該辨識系統可能無 法自文字列中分辨出符號,再者,該符號可能會發生辨識 本紙張尺度適用中國國家標率(CNS ) Α4規格(210X297公釐) 83. 3.10,000 n^i ^^^1 Kt ^^^1 ^^^1 ^^8- .Μ (請先閲讀背面之注意事項再填寫本頁) 訂 10 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(8 ) 錯誤的情況,因此,經由掃瞄的符號以及針對再製文字所 計算出之核對和兩者間的差異可顯示出核對和符號的誤課 ,即使已經正確地完成了掃瞄文字的再製,另一類使用
McG inn系統無法考慮到的OC R再製錯誤爲整個文字列的 遺漏或插入,若缺少了相對應的掃瞄核對和,McGinn系統 無法顧及且無法修正整個文字列錯誤,因此實際上,
McGinn系統僅單純地確認了使用0 C R進行文字再製的準 確度,而非改善該準確度。 本發明的目的之一在提供一個裝置和方法,以便自動 地將資訊槺記加入一份紙張文件中,該資訊可透過編碼提 供各種有關於文件的詳細賫料給配合使用的電腦。 本發明另一個目的是確定一張使用〇C R技術再製出 的紙頁上是否存在錯誤,且不需作逐字的比對。 本發明另一個目的是提供一個錯誤檢知系統以及方法 ,用以在一張使用OC R技術再製出來的紙頁上準確的定 位出錯誤的所在。 本發明另一個目的則是提供一個能與現存之錯誤修正 系統共同使用的錯誤錯誤檢知系統,以便準確的定位出文 件的錯誤,並且在進行置換錯誤修正程序之前,針對消除 及插入錯誤作補償。 本發明另一個目的是針對利用OC R技術再製出的文 件,提供一個自動修正錯誤的裝置和方法。 本發明另一個目的是提供一個錯誤檢知系統,此系統 能涵盖蓄意的錯拼,縮寫等狀況。 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 --------丨 — tJk. (請先閲讀背面之注意事項再填寫本頁) 訂 -線 -11 - 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(9 ) 本發明另一個目的是提供一個錯誤檢知系統,此系統 可適用於任何的文件格式,字形及相關的硬體。 本發明另一個目的是提供一個裝置,能夠將唯一的槲 記與文件相結合,道些標記可用以將各種的賫訊傅給《腦 Ο 本發明另一個目的是提供一個裝置和方法,其能夠將 電腦可讀取的槺記供應給文件,道些檫記包含了與文件相 關的資訊,諸如:文件結構,錯誤辨認,定位及修正賨訊 ,以及文件辨認和檢索資訊。 本發明之總結 實現上述目的系統能夠針對文件的再製,產生標記, 並將此標記加入文件之中,標記可包括多樣的賫訊,諸如 :文件結構及錯誤檢知編碼,道個錯誤檢知/修正編碼資 訊包含一個證明書(certificate),而此證明害至少含 有一個針對文字計算的數値,同時在多種編碼技術中選擇 一個方法,將該數値加入標記的證明害之中,而該檫記係 存在於欲再製文件的紙頁上。在進行文件的OC R再製過 程中;針對文字的證明害數値,如同文字出現在再製文件 上,將予以再計算,然後與原先的保證害數値相比較,如 果兩個數値相符,則該再製作業有很大的機率爲零錯誤, 如果保證書數値並不相符,則在再製過程中,至少有一個 錯誤出現在文字中,證明害的作用不僅可以提供錯誤檢知 ,亦可進行錯誤定位(例如,一文字列中的那一個字符是 本紙張尺度適用中國國家標準(CNS〉A4規格(210X297公釐) 83. 3.10,000 n^i' ^^^1 ^^^1 m^i ^^—^1 I n^i ^^^1 (請先閱讀背面之注意事項再填寫本頁)
-、tT 祿「 -12 - 經濟部中央標準局員工消費合作社印製 2 的 425 五、發明説明(i〇 ) 錯誤的),同時其亦可包括錯誤修正碼或指標,有利於傳 統字典査閱及語法系統的作業:其他的資訊亦可透過解碼 ,其可與計算出的文字證明害搭配使用或如同機器可讀檩 記的各別賫訊一般,將電腦系統中有關於文件佈局,文件 辨藤:,文件位置以及針對文件傳遞之相關m腦及其他相連 週邊裝置的目的地,其他被窬要的資訊亦包含於其中。 附圖的簡述 以下將針對本發明,配合附圖詳細說明,其中: 圇1顯示出習知技術中,用以掃瞄及再製一份文件的 0 C R方法。 圚2顯示具有標記,且用以再製文件的OC R方法, 該檫記包含有證明睿以便提供錯誤檢知和修正功能。 圖3顯示一份根據本發明所產生的文件。 圓4顯示一份複雜的文件,其包括圖形,文字面塊以 及照片。 圖5A至5 F顯示一個針對圓4中顯示的複雜文件, 用以對該文件進行編碼的機制。 圚6係根據本發明,圚示一份文件檫記的內容。 圓7顯示一個利用編輯距離函數(以下即將提及)所 產生的回溯表(traceback table)。 圔8 A及8 B針對一印刷文句及Ο C R的再製,顯示 整個本文的對正(alignment)以及減列次序。 圚9提供一個由證明軟體所執行,且具有代表性之處 本紙張尺度適用中國國家梯準(CNS > A4規格(210X297公釐〉 83. 3.10,000 ^^i·- I tuf m ^^^1 m in «^9^ (請先閲讀背面之注意事項再填寫本頁) 、?τ_ -13 - A7 B7 五、發明説明(11 ) 理步騄的流程圓,其中,該證明軟髖使用的證明»具有根 據本發明且經由編碼而得的減數,錯誤修正碼以及核對和 資訊。 圆1 0顯示一個編輯距離數値的表格,它可用以確定 0 C R再製本文中的文字列以及原文中文字列的對應關係 ,並且可以定位出整個文字列的消除及插入。 本發明實例之詳述 根據本發明,用於紙張文件的檫記可含有與資料有關 的文件資訊,諸如:一ίί "證明書'編碼錯誤檢知和錯誤 修正資訊以及一個文件佈局碼,在使用OC R技術進行文 件再製作業時,道些資訊可用於'掃瞄#電腦的通訊,以 及掃瞄《腦的處理工作,但是所謂的資訊並不限制在上述 特定資訊。 經濟部中央標準局貝工消费合作社印製 在原始文件進行電腦產生及前置處理期間且正產生一 個槺記的保證害元件時,如圖2所示,原文產生電腦2 2 的保證害產生器21利用逋切的演算法計算出一個或多個 與賫料相關的證明害2 7,以下將以幾個例子來加以說明 :一個證明書是一種簡要且重要的編碼賫訊,該編碼資訊 與紙頁的內容相關,且在文件產生及列印期間所產生,藉 由OCR軟髗2 9及搭配使用的掃瞄電腦2 8可辨認出骸 項編碼資訊。由電腦產生的任何文件,其所具有的樣記至 少含有一個證明窨附在各個本文1E塊或紙頁中,或者與其 配合使用,產生標記的程序不須有人力的介入,且僅需增 83. 3. 10,000 |4乂 丨_ (請先閲讀背面之注意事項再填寫本頁) 嫌「 本紙張尺度適用中國國家標準(CNS > A4規格(210X297公釐) -14 - 經濟部中央標準局員工消費合作社印製 83. 3.10,000 A7 __B7___ 五、發明説明(12 ) 加少量的計算成本:如園3所示,以印刷紙頁或其他型式 媒體存在的文件3 4包含一特定區域3 5,它的格式主要 供使用人使用,該文件亦包含另一個特定區域3 7,其格 式係針對機器的處理,用有助於機器、了解#所謂的*使 用人# 1:域,使用人區域爲文件的類比部份,而機器區域 則爲文件的數位部份,這樣的區分是針對文件中各部份的 使用,而非針對特定的實例。道兩個部份可以使用,且最 好是使用相同的技術列印出來,舉例而言,*數位'部位 (亦即檩記)可使用一特殊字型,條碼或其他使用者可以 判讀或無法判讀的符號列印出來,但道種狀況的選用是考 量《腦的可讀性,使用標記係著眼於提供資訊給〇C R軟 髗,如此可針對原始的印刷文件紙頁,製作出一份完整的 數位化複製文件。 經由計算且列印在紙頁上的棵記包含了有關於該紙頁 之內容的賫訊,圓2中的原文產生電腦2 2包含’了稱爲證 明害產生器的證明軟嫌2 1,一旦完成了文件的產製,或 是在文件產製的過程中,證明軟體將依據文件中的賫訊計 算一個或多個證明害;値得注意的是當進行原始文件的產 生時,並不需要針對此原始文件指定證明書數値,但可以 在列印之前,透過證明軟《,進行前置處理以產生該原始 文件,包含一個或多個計算證明睿2 7的檫記被產製出來 後,將成爲文件拷貝2 4的一個機器可讀部份,且可利用 印表機1 3输出,如同習知技術,再製出的硬式拷貝( hard copy)是使用一個數位掃瞄器1 6掃瞄而得,此掃 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇><297公釐) (請先閲讀背面之注意事項再填寫本頁) ----訂 ---谦「 15 - 經濟部中央標準局員工消費合作社印製 A7 _B7_;_ 五、發明説明(13 ) 瞄機1 6與一個配備OCR軟«的第2電腦2 8共同使用 。原始棵記2 7亦可利用光學方式掃瞄並利用掃瞄髦腦備 存起來:在OCR文件產出之後,OCR軟雔利用相同的 演算法,如同使用原始列印軟體的狀況一般,針對抽取出 的本文,計算一個或多個證明書數値,圔中的|證明窨確 認器'2 6是電腦2 8的一個別部份,而%證明害產生器 # 2 1則爲電腦2 2的一部份,精於本技術領域的人士可 清楚的看出來,證明窨產生器或證明窨確認器是結合在整 個系統之中,且不需要是個別的程式,此外,針對原始或 掃瞄賫料所進行的證明害計算並不必然是各別的程序步驟 ,但是可配合資料的產生及/或備存同時進行,在計算期 間,新的證明書數値可與經掃瞄印刷紙頁所得的原始說明 睿數値相比較,如果這兩個新舊證明書數値相符,則互譯 工作視爲完成,且認定有極高的機率是零錯誤,如果不相 符,則OC R證明窨確認器軟體可檢知並且修正一少置的 錯誤,所使用的方法爲其本身具有或一個或數個已知的錯 誤修正機制,如上所述,道些修正機制是應用在現今的文 件產生或是OCR系統中。 如圖6所示,文件標記可包含數麗與資料相關的編碼 文件資訊,包括紙頁結構編碼(亦即文件佈局資訊)和一 個或多個本文的證明窨,如圖示,說明害的計算可以每一 文字列爲基礎,或以一面域的文字爲基礎,該ffi塊可包括 所有或紙頁的某部份,對文字進行編碼以結合證明害的數 種方法,包括圚6中的減置函數,在以下的內容中加以說 本紙張尺度適用中國國家梂準(CNS ) Λ4規格(210X297公釐) 83. 3.10,000 --------—Iff. (#先閲讀背面之注意事項再填寫本頁) 訂 -16 - A7 B7 五、發明説明(14 ) 明,除了列的本文減量編碼,該說明害可包含一個可選擇 性加入的錯誤修正碼以及一個可選擇加入的核對和,兩者 皆可用於確定再製作業及修正工作的準確性。値得注意的 是證明睿的'1組成部份',亦即減置字串,錯誤修正碼以 及核對和並不*要對紙頁上同量的內容作計算,如附圆的 建讖,該證明害可以包括各列中所有三個數値的編碼,其 中針對一面塊文字所進行的說明害產生,所涉及的步蹂包 括:針對骸班域文字計算出一個減置,針對本文提供一個 錯誤修正碼(或者提供一個指檩,通知掃瞄《腦召喚( invoke)某個已知的錯誤修正査表等),以及提供一個對 該區塊文字計算得出的核對和。另一種方法則是,針對不 同大小的文字區塊,計算出各種證明睿數値,舉例而言, 減量可用於一文字列的處理,而核對和可針對一照片或整 個紙頁內容作計算,若有其他實用的簧化方式,也都清楚 的包含在本發明之敘述及申請專利範園中。 經濟部中央標準局員工消費合作社印製 可能存在於文件檩記之說明睿部份的錯誤修正碼能夠 被選用來定址(address)典型的誤譁錯誤,道種有可能 發生在文字,列印碼,字型等以及預期掃瞄器技術中。若 考慮到是否有其他特別的錯誤。例如本文背景說明中所提 及的標準字型特徽描述錯誤,則可在給定本文的證明窨中 予以考慮,另一種方法是,證明睿中包括一個指標,能將 掃瞄竈腦指向存在其中可逋用的錯誤修正査表,吾人可以 想像的到,在現今可用的技術狀況下,預知的字符誤譯錯 誤數置之多,將使得本文變得無從修正,並且缺乏期望字 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標率(CNS > A4規格(210X297公釐) -17 - 經濟部中央標準局貝工消費合作社印製 A 7 B7 五、發明説明(15 ) 符及間隔的相似性,在此狀況下,最有利的做法是在證明 書中,針對整個本文或壓縮版本作編碼。 如上述,標記可以,且最好是利用某種技術,除了檫 準的印刷字符之外,被列印在待印文件的紙面上,針對道 個急待解決的問題,亦即所使用的〇C R技術無法完美的 再製出印刷字符:一種機器可讀性更高的再製技術,例如 條碼符號,最好可用來將槺記印製在文件的紙頁上,使用 可靠性較好的符號不僅保證能提供符號本身更準確的解譁 ,也能具有內部錯誤修正功能,以進一步確保標記讀取的 正確性,掃瞄電腦可事先以程式規劃,如此可在紙頁上將 槺記定位在一個預定的位置上,或者搜專與文件檫記相關 的各個紙頁,對文件的使用者而言,檫記不需具可讀性, 甚至不必要在使用者的視覺範圔內,事資上,檫記可存在 於紙頁表面上不可見的符號中,但仍可被掃瞄器讀取。 —旦檩記被掃瞄機器識別出來並加以解碼,則證明害 數値可被用以確認再製本文的準確性,第1等級的錯誤檢 知是減置及再對正函數,它們能夠檢知並修正插入錯誤, 也可以檢知消除錯誤且將它們轉換成置換錯誤,如此至少 可產生一個部份修正的候選本文字串,以下將進一步詳細 說明,在減置及再對正函數處理過後,如果錯誤修正賫已 在證明睿中予以解碼,則該錯誤修正資訊將被召喚以定址 出任何的置換錯誤,而道些錯誤可在一已知再對正候選字 串中發現,再者,不管是在完成了β換錯誤修正的重覆步 驟之前或者之後,如果取得了一個證明窨核對和,則將計 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 83. 3.10,000 --- (請先閲讀背面之注意事項再填寫本頁) 訂 -線; 附件-/1: 第 83104858五、發明説明(16 ) 號專利申謓案説_明窨修疋_3 民國83年10月修訂
V 算出一個針對修正後之再製本文的核對和,且針對相關的 本文區塊,與原先掃瞄取得的核對和相比較,如果該證明 書未包含任何錯誤修正碼,卻具有一個原始本文的核對和 ,則可針對一個再對正候選字串計算出一個核對和,除了 以減量及再對正函數所執行的錯誤修正之外,不骼要其他 任何的錯誤修正動作:在任何狀況下,連縝性的候選字串 可以試著進行錯誤修正,如果一開始所產生的一個字串並 非全然被修正過時。顯然的,召喚比較及修正等級的次序 是可變的,與錯誤修正碼和/或核對和的是否取得,預知 錯誤的特性及頻率,各個重覆步驟的成本(金錢以及時間 限制的考量)有關。 如以上申請書所敘述的內容,核對和的計算可使用任 何一種方法,舉例而言,以下顯示的程式是以列爲 基礎,計算出一個簡單的核對和: «include <stdio.h> Hinclude <ctype.h> ttdefine MAXLEN 200 /*maximuni input line length */ 請 先 Μ 1:黄 背 1¾ 意 事 項 再 填 % 本 頁 裝 訂
線 I 故
Main() { char line [MAXLEN], /* input line V hash; /* θ-bit hash value */ int len, /* length of input line */ i; /* counter V 中 央 捸 準 β) Ά 工 消 費 合 作 社 印 % hash = (hash <<1) | ((hash >> 7) & 0x01); /* left-rotate hash */ while (gets (line) !» NULL) { len = strlen(line); if (len > 〇) hash = 0; for (i = 0; i < len; i++){ if (!isspace (line[i】)){ hash '= line [i]; printf (. 2xM, hash E> Oxff); /* while more lines */
/* get length of input line V /* if line is non-empty V /* initialize 8-bit hash */
/* check each character V /* if character is non-space V '* X〇R ASCII value with hash V
/* print hash value V 83. 3. 10,000 本纸伕尺A通用中困國家搮準(CNS)八4此^( 2丨0X297公* ) -19 - 經濟部中央標準局員工消費合作社印製 A 7 _ B7_ 五、發明説明(17 ) 各個非間隔字符的ASC I I値與一個四捨五入的8 位元核對和作互斥運算,此核對和再向左旋轉1個位元, 而此程序連同字串中的下一個字符被重覆執行,在此狀況 下,文字列% This is a test#將接收一個核對和、 0 3 # (以十六進位表示),此核對和將依序列印在紙頁 上,如果在掃瞄過程中,OCR軟镫將文字誤讀爲| Thus is a test# ,計算出來的核對和爲’7 3# :因此,藉 由比較兩個核對和(一個是針對再製本文所計算出新的核 對和,而另一個核對和則是先前所計算,列印且由印出的 證明窨所讀取,OC R軟«可以檢知錯誤的存在,並且確 定道兩個核對和不相符,在應用此取樣系統時,本文中任 意兩文字列具有相同核對和的機率爲2 5 6分之1,這個 8位元核對和只是證明書數値計算系統的一個例子,精於 本技術領域的人士可以看出其他計算方法皆不離本發明的 範園,一個精於此技術的人士亦可明瞭核對和的大小和計 算方法可以有所變化,以針對特殊應用之醫求,增減錯誤 檢知的機率。 本發明的另一個本文編碼功能被稱爲 ' 減置及再對正 '函數,道個方法可有效地檢知及修正插入錯誤,也能夠 檢知消除錯誤,並在後績的錯誤修正步驟中,將其轉換成 可定址的置換錯誤,由於原始文件以及再製文件兩者的字 符間缺乏對應性,因此無法輕易地利用已知的置換演算法 定址出消除及插入錯誤並且針對相同的資料串列提供另一 串字符,上述的置換演算法可辨認出存在於一任童資料串 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 訂 線' -20 - 經濟部中央標準局黃工消費合作社印製 A7 B7 五、發明説明(18 ) 中的辨識字符錯誤,置換演算法無法顧及或辨識出插入或 消除錯誤的存在,因此,再對正函數的第1個階段是强制 取得原始及再製資料串列中字符的對應性,對於具有原始 本文字符串列的文句而言: % The quick brown fox jumped over the lazy dog’ , 以下經掃瞄取得的文字列字符串可以再製爲: 'The qUick br own fox jumped over the 1 a z y d o g 〃 値得注意的是,OC R再製文字列較之原始的本文文 字列,長度多了一個字符,如此則違反對正假設,且引發 傳統的錯誤修正碼,再者,該兩個文字列間的漢明距離( Hamming distance)(亦即,兩文字列相差的位置數目) 爲3 5,因此,即使原始文字列利用一額外的間隔或其他 t 字符加以擴充以便使得文字列的長度相同,一個傅統錯誤 修正碼應可以處理最多是3 5個置換錯誤以便修正賅文字 列,在現有的技術中,這種方法並未出現。 由隨機插入及/或消除所造成的問題是原始文字列及 再製文字列彼此相對位置的| s丨i d i n g (滑動)# ,如此 增加了漢明距離並引發了更多的置換錯誤,減置程序藉由 强制取得文字列中字符間的對應性而抵銷了消除及插入的 效應。 爲了辨認出消除及插入錯誤,吾人使用了一個著名的 概念,亦即近似字串匹配,兩個相似但不必然是相同的本 本紙張尺度逋用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 訂 -21 - 費许 % 83104858 號4利中務棄中文説明書修正頁 民躡5T今 經濟部中央標準局員工消費合作社印策
發明説明(19 ) 文文字列之間的關係可 的觀點而言變得準確, —個字符,插入一個任 一個字符。上述各個操作被指定了一個成本,Cdel ( X ) b(x,y )。消除字符X之成本 X),而插入字符y之成本指定爲 y取代字符X之成本指定爲Csub 使用一種編輯棋型, 其中使用到若干基本的操作:消除 意的字符以及以另外一個字符取代 * C i n s ( y ),和 C : 表示並指定爲値 Cins(y ) * 和 (X,y ) 0 而 所對應的最小成 動態可程式化演
S S i爲
Cdel ( 以字符‘ 對於將一字串轉換成另一字串的操作,其 本序列 算法來 原始文 稱爲編輯距離,可利用一個著名的 實現編輯距離的最佳化,其中S S 字列的前i個字符,而t i,t 2··· …13爲OCR再製文字列中的前j字字符,將定義 爲兩個副子串間的距離,則動態可程式化循環關係式爲 di-l,j + cdei(si) Li,j => min 《+ cins(tj) + csub(si,tj) 因此 生線之第 作(消除 參考圖7 y )指爲 且編輯成 於y,則 其它有利 例如 種更換( 的取代需 此外 決定)被 所指的操 ,藉由 一 j字 ,插入 ,此例 値1, 本Csu I Csub 於本發 ,編辑 例如以 求(例 ,如果 予以對 作是指 上述之式子,d i,』爲需要傳送OC R再 符進入原始線之第一 i字符之基本編輯操 ,和替換)之最低成本序列之全部成本。 中顯示,編輯成本Cdel ( X )和,CinS( 如果x = y (亦即X,和y相同字符時) b(x,y )指定爲値0,而如果X不等 (X,y )指定爲値1。但是,於此亦可 明之特殊應用之方式以指定編輯成本。 成本可安排成較低以用於特殊之取代,此 >0#取代'0'(零))之需求比其它 如以'^ w '取代、a # )頻繁。 造成最小値的選擇(上述計算所得的最佳 映,則所求得的回追表提供操作的順序, 執行轉換所需的對正及編辑*或修正再製 本紙張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐)_ π 請 閲 ί
I 頁
ft5. 1.9補毛丨 --2n- -— 五、發明説明() 字串,圚7中所顯示的編辑距離/回追表組合可用以將原 始字icharacte〆與再製出的錯誤字'"chanace〆相比 對;起始於表中右下角朝左上角指去的粗線箭頭串列對應 了最佳的編輯路徑,加了星號的箭頭棋示出一個消除(字 母、1_ )以及一個置換(字母取代)的位 置0 —般而言,透過該.表,可以有一個以上的最佳編輯路 徑。圇8A,8B和8C爲表示編輯距離軌跡回溯箭頭之 圖,其中在表內之實際距離人宜爲了清晰起見,業已刪除 。圖8 A爲編輯距離軌跡回溯箭頭之圖,和單一字(圖7 )比較,其表示顯示在圚7中除了整個句子(圖8A)之 外之程序。圖8 A顯示一個針對上述兩個句子,或字符串 列的對正圚表,如所見,兩者間的對應 性可提供兩種可能的解譯,取決於選擇那一徊字符是針對 消除,而那一個字符則是針對置換。 另一個方法是;進行原始,或來源本文的 ' 減量# , 亦即將原始本文的各個字符,包括間隔,對映到證明睿中 的一個單一位元;在ASC I I編碼的內容中,各個字符 之ASCI I表示的一個位元被指定到對應於該字符的證 明睿中,例如,一種已經不常使用的編碼方法是針對每個 字符,如同對應此字符的證明窖數値一般,利用其A S C I I編碼的下一個至最後一個位元,前述列印出來的原始 本文文字列的減置則變爲: 000000011011111011001000000110100000001000111 這個減置數値將被加入證明書中,而此證明書將與原 始的本文文字列相結合且印製在紙頁上:在進行文字列的 OC R再製過程中,證明軟體將字符以同樣的方法對映至 位元,針對前面印出的掃瞄文字列字符串,最終所得的減 置爲: 0000000110110111011001011000011110000000100111 本紙張尺度適用中國國家梂準(CNS ) A4規格(210X297公釐)-23 - (請先閱請背面之注意事項再填寫本頁) 訂 經濟部中央標準爲員工消费合作社印製 經濟部中央標準局貝工消費合作社印製 2d^425 A7 B7 五、發明説明(21 ) 證明軟«再執行兩個減置證明害間的串列對正,以便 確定可能的消除,插入,甚至若干置換的位置,圚8 B針 對兩個減置字串,顯示一個對正圓表或一個回追表,在減 置字串的對正程序中,不確定的區域面稹較之實際字符串 列的單純對正對應BE域爲大,很明顯的可看出,減置對正 能夠辨識出消除及插入,並且至少可以辨識出部份的置換 錯誤。 證明軟體召喚出一個再對正演算法,以便修正未對正 (亦即再製錯誤〉的掃瞄文字列字符串,如同部份的再對 正程序,該演算法可針對掃瞄文字列,產生相當數董的部 份修正版本,針對上述所提供的掃瞄字句,若干個被修正 的候選者可包含(包含在其他宇句中)以下的字符串:
The quick brown fox ju*ped ov*r the laz*ydog.
The quick bro%m fox jumped ov*r the lazy*dog.
The quick brown fox ju*ped ov*r the lazyd*og. 原始文字列以及候選文字列間的漢明距離分別爲5, 4及3,雖然置換錯誤'取代'u#並未在文字列中 被檢知出來,由於所應用的特殊減董函數,以'η'取 代的置換被標識出來,同時,一個額外的字符被消 除而以一個星號取代另一個字符,而以取代 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 訂 -24 - 經濟部中央標準局員工消费合作社印製 A7 _B7____ 五、發明説明(22 ) 的e換被標識出來,其中錯誤的字符被一個星號所取代, 加在*brown#中的間隔空白被檢知並予以消除,而在% lazy#及idog#間被消除的間隔空白可以被辨識出來, 並以一個星號塡補,因爲再對正無法準確的定位出後面內 容提及的消除,三個可能的後選者將會產生。 由再對正字符串中可明顯見到,針對文字列長度及字 符的對應性而言,消除及插入錯誤已利用再對正演算法予 以補償,假定只有插入錯誤存在,則再對正程序可以達成 1 〇 0 %的修正文字串,如果在檩記中有一個核對和,則 此修正文字串的核對和可被計算出來且與先前的核對和相 比較以顯示出透過再對正程序可以成功的完成修正工作。 如果再對正功能無法產生一個全部修正的字串,則可 使用本文證明書中其他可用的數値,如上面所敘述的內容 ,再對正軟髖將產生候選的字串,各個字串則透過動態程 式化回追表,對應到一個最小成本編辑路徑,如果證明書 j 額外的包含一個原始本文的選擇性核對和,則可產生一個 再對正候選字串的一個核對和,如此可與原先的核對和相 比較,顯然的,如果此兩個核對和具有關聯性,則可假定 再對正候選字串是*正確的〃,如果證明害包含一個原始 本文的錯誤修正碼,則錯誤修正碼可應用於再對正候選字 串,該本文的鐯誤本發明碼將予以編碼,以針對已知的字 符集合,預測出期待的OC R錯誤,如此則可藉由相伴的 錯誤修正碼輕易的地址及修正置換錯誤。 現已知有一文字列,其中的證明窨包含減量,錯誤修 本紙張尺度適用中國國家樣準(CNS ) A4規格(210X297公嫠) 83. 3.10,000 ----I----丄 (請先閲讀背面之注意事項再填寫本頁) 訂 25 經濟部中央標隼局員工消费合作社印製 A7 B7 五、發明説明(23 ) 正碼和一個核對和,針對此減*,對正及置換字串所計算 出的核對和可加以運用,並將所得到的核對和與原先的核 對和相比較,如果道兩個核對和並不相符,則再對正軟髏 可產生另一個部份修正候選者,其可應用在置換修正,核 對和計算以及比較等程序,直到原始字串的修正再製作業 完成,在無修正再製作業完成的稀有狀況下,有必要針對 手動的*後嫌[處理(ρ 〇 s t p r 〇 c e s s i n g ) #槺示出字串的 存在。 如同技術背景一節所提及的,可與OC R系統結合的 錯誤修正方法包括了字典査聞表搜尋法,語法或內容賫訊 碼以及常見錯誤辨識碼等方法,證明睿可改善OC R的辨 識率且提供可靠的方法,使用者利用此方法可以確定各個 掃瞄頁是否爲零錯誤,如上述,雖使用錯誤檢知及修正系 統,但卻不知道是否有蓄意的|錯誤#存在於文件中,實 際上將使得本文中出現錯誤,而若使用錯誤檢知及修正的 證明書系統,則可避免上述問題,舉例而言,在蓄意錯拼 (misspelling)的狀況下,證明害系統不會指示錯誤已 經造成,且不會因此而ίΐ誤地修正蓄意的錯拼。 圖9顯示出使用減置及再對正函數的代表性處理流程 ,其中的證明害不僅含有減置編碼,也包括了錯誤修正碼 及核對編碼,印刷紙頁7 4被掃瞄後,藉此將兩個資訊串 列俥給接收/掃瞄電腦,此電腦在此之前是以電腦系統2 表示,其中一個爲掃瞄電腦所接收的賫訊串列爲掃瞄文字 列字符串(以7 1標識)的ASC I I本文(有錯誤存在 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 -------ί—ΛΧ (請先閱讀背面之注意事項再填寫本頁) 、1Τ 線 -26 - 經濟部中央標準局貝工消費合作社印製 A7 B7 五、發明説明(24 ) ),另一個賫訊串爲出現在文件檩記中的原始證明窨,針 對本例而言,其至少包含一個原始減置字串,至少一個錯 誤修正碼以及至少一個由印刷頁掃瞄取得的核對和,此程 序以7 0檫識:證明軟镫將減置函數傳給掃瞄文字列字符 串的ASC I I本文,此程序以7 3檫識,並且在以7 5 檫識的再對正程序中,將所取得的減置字串與原始減置字 串相比較,在再對正程序中的第一次重覆動作結束時,緊 接著有兩條程序路徑可供遢擇(只能選一條),一個候選 修正字串可被直接用在核對和的計算以及比較,道可由再 對正程序至方塊7 6的直線加以標識,在方塊7 6中,將 針封候選字串進行核對和的計算,在方塊7 7之中,再將 計算出來的核對和與在方塊7 0中所求出的原始核對和相 比較,如同方塊7 8之中的判斷顯示,如果兩核對和相符 ,則在方塊8 0之中输出經證明合格的ASC I I本文, 否則再逋當地予以處理。 如果兩核對和並不相符,在方塊7 2中將針對置換錯 誤修正提供候選字串,如果在判斷方塊7 9中,就'"置換 錯誤修正是否完成? #所得到的答案是'^非(NO) ♦, 則有一條選擇路徑先針對候選字串進行置換錯誤修正,並 且假定其爲一完全修正字串,同時針對此修正後的候選字 串作計算,再將得出的核對和與原始核對和相比較,如果 此修正候選字串的核對和與原始核對和並不相符,且置換 錯誤修正必然已針對已知的候選者予以處理,則此處理程 序將針對另一個候選字串的處理,回復至方塊7 5的再對 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 83. 3.10,000 (請先閲讀背面之注意事項再填寫本頁) 訂 線f -27 - A7 B7 五、發明説明(25 ) 正步驟,對於精通本技術的人士而言,可以在不超出本發 明範園的情況下,針對上述的處理流程作若干修改以進一 步改善或取得最佳化。 請 先 閲 讀 背 面 之 注 意 事 項 再 t 先前提及有關於實現修正文字列消除及插入錯誤的困 難可以類似的方式,使用如圖1 〇中顯示之編輯距離處理 來加以定址,圈1 0中的對應性表格係用以比對原始本文 文字列和OC R本文字列,此種比對可確定每一文字列中 原始本文字符減置字串與〇C R再製本文減置字串之間的 編輯距離,如果文字列是對正的,則編辑距離爲零,基本 是以指示在對角線上,此假定再製文字列中並無 OCR錯誤,如果有OCR錐誤存在,則兩個'^正確對應 '文字列的編距離將會極小,且對應性表格的對角線上將 i 出現低數値的整數,文字列對應軟«可配合一個針對文字
線 I 經 濟 部 中 央 橾 準 局 貝 工 消 費 合 作 社 印 % 列 '相似性^所預先設定之極限値,提供可用碼已知的錯 誤修正能力,然而,如果原始文字列與〇C R文字列間的 編輯距離並不相對應時,則此編輯距離一定是相當大,在 表格中以逮離對角線的大數値整數表示,當遇到一個高編 辑距離數目對,文字列對應軟髏將原始本文的相關文字列 與OC R再製本文的另一個相異文字列相比較,並重覆此 —程序,直到找出一合理的對應文字列,亦即具有一個很 低的編輯距離數目。 圖1 0中的表格顯示出可以用編辑距離,文字列對應 函數加定址的二個文字列錯誤。 如同針對原始本文第5文字列所做的編辑距離分析, 83. 3.10,000 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公瘦) -28 - 經濟部中失揉準局員工消费合作社印製 A7 B7___ 五、發明説明(26 ) 因爲未出現低數値的整數,我們可明顯的看出在任何的 〇C R文字列以及原始本文第5文字列之間,存在著極少 的對應性,從道個分析中很明顯地可以得知,原始本文的 第5文字列已從〇C R再製文件被剔除,當檢視對應於 OC R第8文字列的文字行時,亦可明顯地從低數値整數 的缺乏看出,OCR再製本文的文字列中,只有極少數( 如果存在)字符與原始本文中任何文字列的字符相對應, 結論則是,OCR本文的第8文字列已被錯誤地插入,因 爲它不與原始本文中任何文字列相對應,在此之前,並不 存在任何的自動文件修正方法能夠提供道種層次的錯誤修 正。 從以上的內容可清楚的得知,文字列錯誤修正程序使 用字符減量證明鲁數値,如果知道存在有文字列錯誤,圖 9中的處理流程理想化的在方塊7 5中字符對正程序之前 加入一個文字列對應步騄;無庸多言,如果OC R再製文 字列無法正確的與原始文字列相對正,則無法與原始本文 的一個對應文字列相比較,也就無法有效地進行後縯的字 符對正。 有一個重要的考慮,特別是在具有複雜結構的文件中 ,是針對計算證明耆數値來確定正規詞類次序,明顯的, 計算原始證明書數値的軟髖以及0 C R軟懺兩者必須使用 同樣的次序,對佈局編碼而言,可使用一個線性化公式依 照一般人閱讀英文文字由左至右,右上而下的次序,另一 個方法是將一個紙頁的內容分解爲一系列的本文區塊,各 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公釐) 83. 3.10,000 --------„---^ X (請先閏讀背面之注意事項再填寫本頁) 訂 -29 - 經濟部中央揉準局員工消費合作社印製 A7 B7 五、發明説明(27 ) 個區塊在計算過程中是一個個別的實體,而包含圊片或其 他非文字資訊的任何區塊必須以異於檫準文字的方法來處 理,在含有圖表的狀況下,針對一群'^黏<> 所對應成的全 圓而言*欲進行辨識對影像處理軟髋而言是非常困難的, 然而,證明窨產生器若針對一已知包含3個圆形及一個三 角形之圖形賫訊作編碼時,道樣的資訊可以大大地加快處 理速度以及增加準確度,除了對圖形組成物之存在所作的 編碼之外,圖形中基本幾何構件的正確位置及大小可予以 編碼(亦即圖半徑0.3公分:X軸1.3公分:y軸 3.8公分等),除此之外,亦能夠採取一種證明窨機制 來辨識數學方程式以及其他特殊型式的結構。 現參考圖6,我們希望將文件結構資訊加入文件標記 中,一個長7英时宽6英寸,且具有複雜佈局結構的文件 如圖4所示,文件4 4包含了文字區塊4 5的A,B,D ,丑和0,在4 8的區塊C中之照片,以及在4 6的面塊 F中的圖形。爲了辨認出文件佈局且傳至掃瞄系統,可應 用的一個佈局辨認系統是基於一個平面分割模型,如圖 5 A至5 F所示,其他模型亦適切地予以應用,此種平面 分割模型實例先設定此文件的佈局不論如何複雜,可以若 干數目的剪裁(cut)部份來描述,平面分割可重覆性的 以一個二進樹(binary tree)來表示,假設以樹葉代表 之次平面的正規排序以經予以定義,各個分割平份及平面 先予以辨認,例如,其特徽可描述爲特定的水平及水平構 件,Η及V。各個分割部份經辨認而成爲一樹狀結構的一 本紙張尺度適用中國國家梂準(CNS〉A4規格(210X297公釐) 83. 3.10,000 ------- 4丄 (蜻先閲璜背面之注意事項再填寫本頁) 訂 線 -30 - A【7 A【7
經濟部中央搞準局員工消費合作社印衷 部份,此樹狀結構再被編性字串,針對此顯示出的 文件而言,一個重菝的語法可用來取得以下的結果: (H1"CRTA(V2"(H3.,CRTB(H5"PHTCCRTD) ) (V4._CRT (H3_.FIGFCRTG)〉)); 其中各個正確位©是以英时來表示,不管是垂直方向 或水平方向,CRT代表被指定文字區塊所計算得出的證 明窖:PHT代表照片;而F I G則爲圖形。短字串則可 全然描述文件的基本佈局:在字串中,可隱涵其他的資訊 ,例如,次平面內容的描述(亦即,文字,圖形,方程式 ,照片),紙頁上次平面的精確的X,Y座標,當然也含 有錯誤檢知/修正的證明書數値。 爲了不讓謓者清楚見到標記,舉例而言,可以將檩記 '藏(hide)'在一個記號(logo)中,一個 3/4 X 3 /4平方英吋的記號可以針對超過1 0 0 0 編碼,其他寅例可包括:使用隱形墨水或者 文件本身的格式中,不需要在文件中諛者可 例如空白邊綠區域中放入其他資訊,重要的 地確定資訊的所在位fi且輕易地讀取·編碼資 避免與諛者可諛部份產生混淆而變得無法閱 4 因爲標記在以上的說明中與0 C R的使 前爲止,我們假設用以讀取標記的裝置是一 器,由於其他輸入裝置的發展,所使用的編 相關的系統運作,如同以上所^的說明,對 本紙張尺度適用中國國家樣準(CNS ) Α4洗格(210Χ297公釐) 位元的資訊作 將標記隱藏在 諛部份之外, 是電腦可容易 訊,如此則可 諛0 用相關,至目 個數位化掃瞄 碼系統將配合 於精於本技術 83. 3.10,000 ----------裝 丄---訂------線—丄丨 ί . ' ' (請先間靖背而之注意亊項再填寫本頁) -31 - 經濟部中央標準局員工消費合作社印製 A7 B7 五、發明説明(29 ) 領域的人士而言,可以在不超出本發明之精神及申請專利 範園的原則下,針對本發明作各種修改。 (請先閲讀背面之注意事項再填寫本頁) -L!
、tT 83. 3.10,000 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) _ 32 -
Claims (1)
- 經濟部中央標準局員工消費合作社印製 A8 B8 C8 D8六、申請專利範圍 1 ·—種用以針對電腦產生的印刷文件,以電子方式 再製出字符資料的方法包含以下的步驟: 將若干個第1二進位數値指定給上述的第1字符資料 ,其中的一個第1二進位數値被指定給上述第1字符賫料 的各個字符: 印出上述資料及上述若干個第1二進位數値: 以光學方式掃瞄具有上述第1字符資料和上述若干個 第1二進位數値的印刷文件,以便產生一至少包含一個字 串的電子式文件,而該字串則包括第2字符:以及 將若干個第2二進位數値指定給上述具有第2字符的 字串,其中一個第2二進位數値係指定給各個第2字符: 以及 將上述若干個第1二進位數値與上述若干個第2二進 位數値比較: 2. 根據如申請專利範園第1項中的方法,亦包含辨 認第2字符錯誤之存在及位置的步驟,即使當一字符的第 2二進位數値與該字符的第1二進位數値不同。 3. 根據如申請專利範園第2項中的方法亦包括針對 辨認出之錯.誤作自動修正的步驟。 4. 根據如申請專利範園第3項中的方法,其中的修 正包含將該若干個第2二進位數値與賅若干個第2二進位 數値相對正以去除錯誤的步騍。 5. 根據如申請專利範園第4項中的方法,亦包含藉 由變更至少一個第2字符字串以產生至少一個第3字符字 (請先閲讀背面之注意事項再填寫本頁) r 、?τ 線Γ 本紙張尺度適用中國’國家標準(CNS ) Μ規格(210X297公釐) -33 - 經濟部中央標準局員工消費合作社印裝 A8 B8 C8 D8 六、申請專利範圍 串的步驟。 6. 根據如申腈專利範第5項中的方法,其中的指 定程序亦包含將至少一個第1賫料相關數値指定給第1字 符資料,而印刷程序亦包含印出至少一個第1賫料相關數 値的步驟。 7. 根據如申請専利範園第6項中的方法,其中將至 少一個第1資料相關數値指定給第1字符資料的程序亦包 含針對第1字符資料進行錯誤修正賫訊編碼的步驟。 8. 根據如申請専利範園第7項中的方法亦包含將錯 誤修正編碼賫訊傅給至少一個第3字符字串的步驟。 9. 根據如申請專利範園第6項中的方法,其中將至 少一個資料相關數値指定給第1字符資料的程序包含針對 第1字符資料計算出至少一個第1核對和的步驟。 10. 根據如申請專利範圍第9項中的方法亦包含以 下的步驟: 針對至少一個第3字符字串,計算出至少一個第2核 對和; 將至少一個第1核對和與至少一個第2核對和相比較 :以及 當兩核對和相異時,則針對至少一個第3字符字串, 檢知出至少一個錯誤。 11. 一種用以對資料相關黉訊作編碼的方法包含以 下的步騍,其中所謂的賫料相關賫趴係關於一個至少具有 若千個印刷文字列的印刷文件,上述步騍包括: _本紙用中國國家標準(CNS > A4規格(210X297公釐) (請先聞讀背面之注意事項再填寫本頁) 訂 線Γ -34 - 經濟部中央榇準局員工消費合作社印製 A8 B8 C8 D8 七、申請專利範圍 將印刷文件減量成若干個二進位數値:並且 在該印刷文件紙面上印上一個具有上述若干個二進位 編碼數値的檫記,而其中的二進位編碼數値是以機器可讀 取的符號來表示。 12. 申請專利範圍第11項中的方法亦包括對文件 佈局細部作編碼以及印出被編碼在該檫記中之文件佈局的 步驟。 13. 申請專利範園第11項中的方法亦包括將數個 置換錯誤修正碼指定給上述印刷文字以及在該檩記中印出 錯誤修正碼的步驟。 14. 申請專利範圍第11項中的方法亦包括針對上 述印刷文字計算出至少一個核對和以及在該標記中印出上 述錯誤修正碼的步驟。 1 5 .—個以機器可讀取符號表示兩存在於具有印刷 字符文字列之印刷文件表面的標記包含: 至少一個用以對印刷字符作編碼的減置字串。 16. 申請專利範_第15項中的標記亦包含至少一 個針對上述印刷字符而計算出的核對和。 17. 申請專利範圍第15項中的檫記亦包含至少一 個針對上述印刷文件之佈局而計算出的佈局相關數値。 18. 申請專利範園第15項中的檫記亦包含至少一 個與該印刷字符相關的錯誤修正碼。 19種可達成較準確之光學字符辨識文件再製程 序的方法,包括若干個步驟:其中所指的文件包含原始印 本紙張尺度適用中國國家標準(CNS ) Λ4规格(210X297公釐) (請先聞讀背面之注意事項再填寫本頁) 、1T -35 - 經濟部中央標準局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍 刷文件字列以及至少一個包含有若干個第1減量字串的文 件標記,各個減置字串與一個印刷文字字串相對應,賅文 件標記至少含有一個針對該印刷文字字串而計算出的第1 核對和數値,這些步驟包括: 產生一份電子式文件,此文件包含若干個藉由光學掃 瞄該原始印刷文字所得到第1再製文字字串; 對至少一個文件檫記作光學掃瞄: 針對掃瞄文件標記所得到的數個第1減置字串作編碼 * 將上述再製文字減童成數個第2減置字串; 藉由比較第1及第2減量字串而計算出原始印刷文字 以及再製印刷文字兩者相對應文字列間的編輯距離; 比較兩個編輯距離,若差異超過某一預設量時,則辨 認出再製文字中的文字列插入及消除錯誤: 修正所檢知到的列插入及消除錯誤; 比較各個第1減量字串和第2減置字串; 辨認出在再製文字中位於字串位置的文字錯誤,在 此位置上,上述的二個.減量字串並不符合; 針對已有文字錯誤被辨認出來的字串位置,將其中不 同的字符換掉以產生至少一個第2再製文字串: 將第2核對和與第1核對和相比較:並且 當第1及第2核對和相等時,針對第2再製文字串的 準確度進行確認。 2 〇 .根據申請專利範圍第1 9項中的方法,其中的 本紙張尺度適用中國'國家標準(CNS > A4规格(210X297公釐) ----^-------^ U ! (請先閲讀背面之注意事項再填寫本頁) 訂 線--Μ -36 - A8 B8 C8 D8 六、申請專利範圍 文件檩記亦包含數個原始本文的錯誤修正碼,也包含將對 應的錯誤修正碼在計算出該本文之第2核對和之前,使用 在至少一個第2再製本文字串中。 21.利用光學掃瞄以進行準確再製程序所採用的印 印文件包含讀者可見的印刷資料以及至少一個機器可讀的 標記,而此標記至少包含一個對該印刷資料進行編碼的一 個減量字串。 2 2 .根據申請專利範園第2 1項中的文件,其中至 少存在一個機器可讀的檫記,而此標記至少包含一個對該 印刷資料計算得出的核對和。 2 3 .根據申請專利範圔第2 1項中的文件,其中至 少存在一個機器可讀的標記,而此檫記亦至少包含一個針 對骸印刷文件之佈局所計算得到的佈局相關數値。 2 4 .根據申請專利範園第2 1項中的文件,其中至 存在一個機器可讀的標記,而此標記亦至少包含一個與該 印刷資料相關的錯誤修正碼。 (請先閱讀背面之注意事項再填寫本頁) 訂 if 經濟部中央標準局員工消費合作社印製 本紙張尺度逋用中國國家標準(CNS > A4規格(21〇Χ297公釐) -37 -
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/138,467 US5748807A (en) | 1992-10-09 | 1993-10-15 | Method and means for enhancing optical character recognition of printed documents |
Publications (1)
Publication Number | Publication Date |
---|---|
TW299425B true TW299425B (zh) | 1997-03-01 |
Family
ID=22482145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW083104858A TW299425B (zh) | 1993-10-15 | 1994-05-28 |
Country Status (5)
Country | Link |
---|---|
US (2) | US5748807A (zh) |
EP (1) | EP0649112A3 (zh) |
JP (1) | JPH07168912A (zh) |
KR (1) | KR950012276A (zh) |
TW (1) | TW299425B (zh) |
Families Citing this family (118)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
US5625711A (en) * | 1994-08-31 | 1997-04-29 | Adobe Systems Incorporated | Method and apparatus for producing a hybrid data structure for displaying a raster image |
JPH1044513A (ja) * | 1996-08-07 | 1998-02-17 | Olympus Optical Co Ltd | コード印刷装置及びそれに適用されるコード印刷媒体 |
US5889897A (en) * | 1997-04-08 | 1999-03-30 | International Patent Holdings Ltd. | Methodology for OCR error checking through text image regeneration |
US6910184B1 (en) * | 1997-07-25 | 2005-06-21 | Ricoh Company, Ltd. | Document information management system |
US6094665A (en) * | 1997-09-18 | 2000-07-25 | Hewlett-Packard Company | Method and apparatus for correcting a uniform resource identifier |
US6697525B1 (en) | 1998-10-02 | 2004-02-24 | Parthusceva Ltd. | System method and apparatus for performing a transform on a digital image |
US6662180B1 (en) * | 1999-05-12 | 2003-12-09 | Matsushita Electric Industrial Co., Ltd. | Method for searching in large databases of automatically recognized text |
US6549935B1 (en) * | 1999-05-25 | 2003-04-15 | Silverbrook Research Pty Ltd | Method of distributing documents having common components to a plurality of destinations |
JP2001052116A (ja) * | 1999-08-06 | 2001-02-23 | Toshiba Corp | パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法 |
CN1305251C (zh) * | 1999-08-21 | 2007-03-14 | 卓信科技有限公司 | 电子文件及其打印副本的合法性保护 |
US6657740B1 (en) * | 1999-09-10 | 2003-12-02 | The United States Of America As Represented By The National Security Agency | Method of printing portion of document with accountability and error detection |
US6674919B1 (en) | 1999-09-21 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for determining the skew angle of a two-dimensional barcode |
US6488205B1 (en) | 1999-12-03 | 2002-12-03 | Howard John Jacobson | System and method for processing data on an information card |
ES2208164T3 (es) * | 2000-02-23 | 2004-06-16 | Ser Solutions, Inc | Metodo y aparato para procesar documentos electronicos. |
US6950553B1 (en) * | 2000-03-23 | 2005-09-27 | Cardiff Software, Inc. | Method and system for searching form features for form identification |
US6741724B1 (en) * | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US7110621B1 (en) | 2000-05-19 | 2006-09-19 | Xerox Corporation | Assist channel coding using a rewrite model |
US6768560B1 (en) | 2000-05-19 | 2004-07-27 | Xerox Corporation | Assist channel coding with vertical block error correction |
US6628837B1 (en) | 2000-05-19 | 2003-09-30 | Xerox Corporation | Assist channel coding with convolution coding |
US6862113B1 (en) | 2000-05-19 | 2005-03-01 | Xerox Corporation | Assist channel coding with character classifications |
US7155667B1 (en) | 2000-06-21 | 2006-12-26 | Microsoft Corporation | User interface for integrated spreadsheets and word processing tables |
US7346848B1 (en) | 2000-06-21 | 2008-03-18 | Microsoft Corporation | Single window navigation methods and systems |
WO2001098928A2 (en) | 2000-06-21 | 2001-12-27 | Microsoft Corporation | System and method for integrating spreadsheets and word processing tables |
US7624356B1 (en) | 2000-06-21 | 2009-11-24 | Microsoft Corporation | Task-sensitive methods and systems for displaying command sets |
US6874143B1 (en) * | 2000-06-21 | 2005-03-29 | Microsoft Corporation | Architectures for and methods of providing network-based software extensions |
US6883168B1 (en) | 2000-06-21 | 2005-04-19 | Microsoft Corporation | Methods, systems, architectures and data structures for delivering software via a network |
US6948135B1 (en) | 2000-06-21 | 2005-09-20 | Microsoft Corporation | Method and systems of providing information to computer users |
US7191394B1 (en) | 2000-06-21 | 2007-03-13 | Microsoft Corporation | Authoring arbitrary XML documents using DHTML and XSLT |
US7000230B1 (en) | 2000-06-21 | 2006-02-14 | Microsoft Corporation | Network-based software extensions |
US6868186B1 (en) | 2000-07-13 | 2005-03-15 | Ceva D.S.P. Ltd. | Visual lossless image compression |
TW563058B (en) * | 2000-08-30 | 2003-11-21 | Ibm | Method for adding encoded information to mission-critical pages of a document during a document assembly process and documents produced thereby |
US7054509B2 (en) * | 2000-10-21 | 2006-05-30 | Cardiff Software, Inc. | Determining form identification through the spatial relationship of input data |
JP4421134B2 (ja) * | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
JP2002344736A (ja) * | 2001-05-21 | 2002-11-29 | Oki Electric Ind Co Ltd | プリント紙の原本保証システム,プリンタ装置,および,検証装置 |
US6816608B2 (en) * | 2001-07-05 | 2004-11-09 | International Business Machines Corporation | Storing information recorded as part of a financial transaction with a quantity of data stored determined by a monetary value of the transaction |
US6870947B2 (en) * | 2001-07-24 | 2005-03-22 | Ncr Corporation | Method of processing items in a check processing system and an apparatus therefor |
KR100408082B1 (ko) * | 2001-07-30 | 2003-12-03 | (주)유라비젼 | 인식률 및 가독성이 높은 한글 필기용 광학적 문자인식입력 방법 |
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
US7120299B2 (en) * | 2001-12-28 | 2006-10-10 | Intel Corporation | Recognizing commands written onto a medium |
US8086867B2 (en) * | 2002-03-26 | 2011-12-27 | Northrop Grumman Systems Corporation | Secure identity and privilege system |
US20030218767A1 (en) * | 2002-05-23 | 2003-11-27 | Schroath Leonard T. | Explicit feedback for remote printing |
US20030231344A1 (en) * | 2002-05-30 | 2003-12-18 | Fast Bruce Brian | Process for validating groups of machine-read data fields |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
US7310769B1 (en) | 2003-03-12 | 2007-12-18 | Adobe Systems Incorporated | Text encoding using dummy font |
US7275216B2 (en) | 2003-03-24 | 2007-09-25 | Microsoft Corporation | System and method for designing electronic forms and hierarchical schemas |
US7415672B1 (en) | 2003-03-24 | 2008-08-19 | Microsoft Corporation | System and method for designing electronic forms |
US7370066B1 (en) | 2003-03-24 | 2008-05-06 | Microsoft Corporation | System and method for offline editing of data files |
US7913159B2 (en) | 2003-03-28 | 2011-03-22 | Microsoft Corporation | System and method for real-time validation of structured data files |
US7296017B2 (en) | 2003-03-28 | 2007-11-13 | Microsoft Corporation | Validation of XML data files |
US7516145B2 (en) | 2003-03-31 | 2009-04-07 | Microsoft Corporation | System and method for incrementally transforming and rendering hierarchical data files |
US20030191681A1 (en) * | 2003-05-06 | 2003-10-09 | Gallion Kirk P. | Method for managing a business process related to a document publishing project |
US7451392B1 (en) | 2003-06-30 | 2008-11-11 | Microsoft Corporation | Rendering an HTML electronic form by applying XSLT to XML using a solution |
US7581177B1 (en) | 2003-08-01 | 2009-08-25 | Microsoft Corporation | Conversion of structured documents |
US7406660B1 (en) | 2003-08-01 | 2008-07-29 | Microsoft Corporation | Mapping between structured data and a visual surface |
US7334187B1 (en) | 2003-08-06 | 2008-02-19 | Microsoft Corporation | Electronic form aggregation |
US8661338B2 (en) * | 2004-01-14 | 2014-02-25 | Xerox Corporation | System and method for dynamic document layout |
US8819072B1 (en) | 2004-02-02 | 2014-08-26 | Microsoft Corporation | Promoting data from structured data files |
US7430711B2 (en) | 2004-02-17 | 2008-09-30 | Microsoft Corporation | Systems and methods for editing XML documents |
US7496837B1 (en) | 2004-04-29 | 2009-02-24 | Microsoft Corporation | Structural editing with schema awareness |
US7568101B1 (en) | 2004-05-13 | 2009-07-28 | Microsoft Corporation | Digital signatures with an embedded view |
US7774620B1 (en) | 2004-05-27 | 2010-08-10 | Microsoft Corporation | Executing applications at appropriate trust levels |
US20050281450A1 (en) * | 2004-06-18 | 2005-12-22 | Digicor Llc | System and method for correcting data in financial documents |
US11468128B1 (en) * | 2006-10-20 | 2022-10-11 | Richard Paiz | Search engine optimizer |
US7774705B2 (en) | 2004-09-28 | 2010-08-10 | Ricoh Company, Ltd. | Interactive design process for creating stand-alone visual representations for media objects |
US8549400B2 (en) * | 2004-09-28 | 2013-10-01 | Ricoh Company, Ltd. | Techniques for encoding media objects to a static visual representation |
US7725825B2 (en) * | 2004-09-28 | 2010-05-25 | Ricoh Company, Ltd. | Techniques for decoding and reconstructing media objects from a still visual representation |
US7516399B2 (en) | 2004-09-30 | 2009-04-07 | Microsoft Corporation | Structured-document path-language expression methods and systems |
US20060074933A1 (en) * | 2004-09-30 | 2006-04-06 | Microsoft Corporation | Workflow interaction |
US7584417B2 (en) | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Role-dependent action for an electronic form |
US7712022B2 (en) | 2004-11-15 | 2010-05-04 | Microsoft Corporation | Mutually exclusive options in electronic forms |
US7509353B2 (en) * | 2004-11-16 | 2009-03-24 | Microsoft Corporation | Methods and systems for exchanging and rendering forms |
US7721190B2 (en) | 2004-11-16 | 2010-05-18 | Microsoft Corporation | Methods and systems for server side form processing |
US7904801B2 (en) | 2004-12-15 | 2011-03-08 | Microsoft Corporation | Recursive sections in electronic forms |
US7437376B2 (en) | 2004-12-20 | 2008-10-14 | Microsoft Corporation | Scalable object model |
US7937651B2 (en) | 2005-01-14 | 2011-05-03 | Microsoft Corporation | Structural editing operations for network forms |
US8553968B1 (en) | 2005-02-18 | 2013-10-08 | Western Digital Technologies, Inc. | Using optical character recognition augmented by an error correction code to detect serial numbers written on a wafer |
US7725834B2 (en) | 2005-03-04 | 2010-05-25 | Microsoft Corporation | Designer-created aspect for an electronic form template |
US7543228B2 (en) | 2005-06-27 | 2009-06-02 | Microsoft Corporation | Template for rendering an electronic form |
US8200975B2 (en) | 2005-06-29 | 2012-06-12 | Microsoft Corporation | Digital signatures for network forms |
US8170289B1 (en) * | 2005-09-21 | 2012-05-01 | Google Inc. | Hierarchical alignment of character sequences representing text of same source |
US8001459B2 (en) | 2005-12-05 | 2011-08-16 | Microsoft Corporation | Enabling electronic documents for limited-capability computing devices |
RU2417435C2 (ru) | 2006-02-17 | 2011-04-27 | Лумекс Ас | Способ и система для проверки правильности неоднозначно распознанных слов в ocr-системе |
JP4539613B2 (ja) * | 2006-06-28 | 2010-09-08 | 富士ゼロックス株式会社 | 画像形成装置、画像生成方法およびプログラム |
US8155444B2 (en) * | 2007-01-15 | 2012-04-10 | Microsoft Corporation | Image text to character information conversion |
JP4363533B2 (ja) * | 2007-01-31 | 2009-11-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字化けを検出するための装置、方法、及びプログラム |
US10102439B2 (en) | 2008-01-14 | 2018-10-16 | Hewlett-Packard Development Company, L.P. | Document verification method and system |
CN101833545B (zh) * | 2009-03-11 | 2015-09-09 | 汉王科技股份有限公司 | 数字资源加工过程中的数据标引方法 |
DE112009005490T5 (de) * | 2009-12-31 | 2013-01-24 | Micron Technology, Inc. | Verfahren für eine Phasenwechselspeichermatrix |
GB2477307A (en) * | 2010-01-28 | 2011-08-03 | Adsensa Ltd | Embedding authentication data into an electronic document image |
JP5433470B2 (ja) * | 2010-03-17 | 2014-03-05 | 株式会社東芝 | 住所データベース構築装置および住所データベース構築方法 |
US9424242B2 (en) * | 2010-04-14 | 2016-08-23 | International Business Machines Corporation | Data capture and analysis |
US11379473B1 (en) | 2010-04-21 | 2022-07-05 | Richard Paiz | Site rank codex search patterns |
US11423018B1 (en) | 2010-04-21 | 2022-08-23 | Richard Paiz | Multivariate analysis replica intelligent ambience evolving system |
JP5636738B2 (ja) * | 2010-05-25 | 2014-12-10 | 株式会社リコー | 料金計算システム |
US9846688B1 (en) | 2010-12-28 | 2017-12-19 | Amazon Technologies, Inc. | Book version mapping |
US9069767B1 (en) | 2010-12-28 | 2015-06-30 | Amazon Technologies, Inc. | Aligning content items to identify differences |
US8798366B1 (en) * | 2010-12-28 | 2014-08-05 | Amazon Technologies, Inc. | Electronic book pagination |
US9881009B1 (en) | 2011-03-15 | 2018-01-30 | Amazon Technologies, Inc. | Identifying book title sets |
JP5594269B2 (ja) * | 2011-09-29 | 2014-09-24 | コニカミノルタ株式会社 | ファイル名作成装置、画像形成装置、およびファイル名作成プログラム |
EP2845147B1 (en) | 2012-04-29 | 2018-06-06 | Hewlett-Packard Development Company, L.P. | Re-digitization and error correction of electronic documents |
JP5962419B2 (ja) * | 2012-10-15 | 2016-08-03 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US9361531B2 (en) * | 2014-07-21 | 2016-06-07 | Optum, Inc. | Targeted optical character recognition (OCR) for medical terminology |
JP6319575B2 (ja) * | 2014-09-05 | 2018-05-09 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置および記号印刷プログラム |
KR101556998B1 (ko) * | 2015-01-27 | 2015-10-05 | 주식회사 다우인큐브 | 전자문서 서비스 시스템 및 방법 |
US9990268B2 (en) * | 2015-03-30 | 2018-06-05 | Infosys Limited | System and method for detection of duplicate bug reports |
US9858257B1 (en) * | 2016-07-20 | 2018-01-02 | Amazon Technologies, Inc. | Distinguishing intentional linguistic deviations from unintentional linguistic deviations |
RU2634194C1 (ru) * | 2016-09-16 | 2017-10-24 | Общество с ограниченной ответственностью "Аби Девелопмент" | Верификация результатов оптического распознавания символов |
US10296788B1 (en) * | 2016-12-19 | 2019-05-21 | Matrox Electronic Systems Ltd. | Method and system for processing candidate strings detected in an image to identify a match of a model string in the image |
US10192127B1 (en) | 2017-07-24 | 2019-01-29 | Bank Of America Corporation | System for dynamic optical character recognition tuning |
US10346702B2 (en) | 2017-07-24 | 2019-07-09 | Bank Of America Corporation | Image data capture and conversion |
US10445966B1 (en) | 2018-07-27 | 2019-10-15 | Hart Intercivic, Inc. | Optical character recognition of voter selections for cast vote records |
US11157626B1 (en) | 2019-05-29 | 2021-10-26 | Northrop Grumman Systems Corporation | Bi-directional chain of trust network |
CN113924567A (zh) * | 2019-06-03 | 2022-01-11 | 锡克拜控股有限公司 | 核证文本文件 |
US10929076B2 (en) | 2019-06-20 | 2021-02-23 | International Business Machines Corporation | Automatic scaling for legibility |
CN110659640B (zh) * | 2019-09-27 | 2021-11-30 | 深圳市商汤科技有限公司 | 文本序列的识别方法及装置、电子设备和存储介质 |
CN113723420B (zh) * | 2021-09-03 | 2024-07-02 | 安徽淘云科技股份有限公司 | 一种扫描方法及其相关设备 |
CN115439854B (zh) * | 2022-09-05 | 2023-05-02 | 深圳市学之友科技有限公司 | 一种基于扫描笔与智能终端互联的扫描显示方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3200372A (en) * | 1960-07-26 | 1965-08-10 | Ibm | Error detection and correction system |
US3713097A (en) * | 1971-05-14 | 1973-01-23 | Ibm | Test bit pattern generator for pattern recognition machines |
US3763467A (en) * | 1972-05-04 | 1973-10-02 | Ibm | Method and apparatus for reading documents |
US4013997A (en) * | 1975-11-17 | 1977-03-22 | Recognition Equipment Incorporated | Error detection/correction system |
US4105997A (en) * | 1977-01-12 | 1978-08-08 | United States Postal Service | Method for achieving accurate optical character reading of printed text |
US4325117A (en) * | 1979-12-31 | 1982-04-13 | Honeywell Information Systems Inc. | Apparatus for calculating a check digit for a stream of data read from a document |
EP0136587B1 (en) * | 1983-09-06 | 1991-04-17 | Kabushiki Kaisha Toshiba | Error correction circuit |
US4866666A (en) * | 1984-10-29 | 1989-09-12 | Francisco Michael H | Method for maintaining data integrity during information transmission by generating indicia representing total number of binary 1's and 0's of the data |
US5070504A (en) * | 1989-06-23 | 1991-12-03 | International Business Machines | Method and apparatus for providing error correction to symbol level codes |
US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
DE69331456T2 (de) * | 1992-10-09 | 2002-11-07 | Matsushita Electric Industrial Co., Ltd. | Überprüfbare optische Zeichenerkennung |
-
1993
- 1993-10-15 US US08/138,467 patent/US5748807A/en not_active Expired - Fee Related
-
1994
- 1994-05-28 TW TW083104858A patent/TW299425B/zh active
- 1994-10-04 EP EP94307242A patent/EP0649112A3/en not_active Ceased
- 1994-10-13 JP JP6246637A patent/JPH07168912A/ja active Pending
- 1994-10-15 KR KR1019940026443A patent/KR950012276A/ko not_active Application Discontinuation
-
1997
- 1997-08-20 US US08/915,278 patent/US6047093A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6047093A (en) | 2000-04-04 |
US5748807A (en) | 1998-05-05 |
JPH07168912A (ja) | 1995-07-04 |
KR950012276A (ko) | 1995-05-16 |
EP0649112A3 (en) | 1995-11-02 |
EP0649112A2 (en) | 1995-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW299425B (zh) | ||
TW401567B (en) | Certifiable optical character recognition | |
US4610025A (en) | Cryptographic analysis system | |
TWI238364B (en) | Character recognition, including method and system for processing checks with invalidated MICR lines | |
US8489388B2 (en) | Data detection | |
JP2009522675A (ja) | 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置) | |
CN113168498A (zh) | 语言校正系统及其方法以及系统中的语言校正模型学习方法 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
Carrasco | An open-source OCR evaluation tool | |
CN111460827A (zh) | 文本信息处理方法、系统、设备及计算机可读存储介质 | |
JPH03161891A (ja) | 表形式文書読取装置 | |
CN112084748A (zh) | 一种文本比对方法 | |
Davidson et al. | Arabic and Persian OCR training and test data sets | |
Al Azawi et al. | WFST-based ground truth alignment for difficult historical documents with text modification and layout variations | |
CN113408536A (zh) | 票据的金额识别方法、装置、计算机设备及存储介质 | |
JP7021496B2 (ja) | 情報処理装置及びプログラム | |
TW420774B (en) | Method and apparatus for automatically correcting documents in chinese language | |
Lund | Ensemble Methods for Historical Machine-Printed Document Recognition | |
US9531906B2 (en) | Method for automatic conversion of paper records to digital form | |
JP7315420B2 (ja) | テキストの適合および修正の方法 | |
Suchenwirth et al. | Optical recognition of Chinese characters | |
Tanner | Deciding whether optical character recognition is feasible | |
US20220309272A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
Balasooriya | Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine | |
JP2003173421A (ja) | 文字認識結果補正装置 |