TWI648685B - 自動化辨識表單並建立動態表單之系統及其方法 - Google Patents
自動化辨識表單並建立動態表單之系統及其方法 Download PDFInfo
- Publication number
- TWI648685B TWI648685B TW106125615A TW106125615A TWI648685B TW I648685 B TWI648685 B TW I648685B TW 106125615 A TW106125615 A TW 106125615A TW 106125615 A TW106125615 A TW 106125615A TW I648685 B TWI648685 B TW I648685B
- Authority
- TW
- Taiwan
- Prior art keywords
- database
- feature
- words
- field
- module
- Prior art date
Links
Landscapes
- Character Input (AREA)
Abstract
一種自動化辨識表單並建立動態表單之系統及其方法,包含:一辨識模組,透過光學字元識別技術辨識表單的文字及版面;一編排模組,修正欄位、文字或版面格式;一分類模組,判斷表單內容的屬性;一特徵資料庫,儲存表單上的特徵詞語及其關聯性詞語;及一系統資料庫,該分類模組將表單內容存入該系統資料庫指定的屬性中;其中該編排模組比對該特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;其中該分類模組藉由比對該特徵資料庫的特徵詞語判斷表單內容的屬性。
Description
本發明係關於一種辨識及建立表單的系統及其方法,特別係關於自動化辨識表單並建立動態表單之系統及其方法。
在今日交通工具發達、資訊往來頻繁的工商社會裡,每天可能都會收到許多來自各公司企業、政府或個人的書面文件,如何快速有效率的處理龐大書面文件,亦是辦公室自動化的重要課題之一。
許多文件為了統一格式或者讓使用者能簡單明瞭內容都會將文件以表格的方式呈現,而以表格方式呈現的文件,在辨識上通常較純文字的文件辨識來得更困難,因為表格文件通常包含了表格與文字,在表格的形態上往往也會隨著使用者的需要而變化出各式各樣不同的欄位與格線。
傳統書面文件轉成電子檔的方式大多是透過掃描器,將書面資料轉換成圖檔的電子數位影像格式,因為是圖檔的關係,電腦通常只會將其視為一張圖片,而無法確切取得其書面內容,故亦無法直接透過電腦分析此書面文件,還需要另外以人工的方式進行書面文件的判讀與分析後才能歸檔,當需要查詢此份文件時,更要明確的記得文件內容與檔案夾位置,造成文書處理上歸檔與查詢的不便。
由於表單的種類千變萬化,為了方便日後查找,大部份會分門別類,但多是採取人力方式判讀表單上的資訊再進行分類,且在日積月累後表單的文件資料數量可能非常龐大,若沒有分類得很精準,在日後查找文件時將會變得
非常不便,也可能始終都找不到該份文件。
此外,現有將書面表格轉換成動態表單的技術,也常需要以人工方式填入欲處理的欄位(即:項目名稱)與欄位裡的內容(即:數值或記載的資訊等),在先前的習知技術,各種流程往返的書面文件,若以人工的方式來完成數位資料庫的建立,將會花費企業非常龐大的作業成本,而且各種書面文件的種類也是琳瑯滿目,小至隨手筆記,大至研究報告,都需先將資料分類再一一檢視,手續十分繁雜且耗時耗力。
目前已公開的文字辨識產品大多是著重在正確辨識出文字、字型、文字大小、文字版面位置、辨識速度或正確率等;若有文字列表,則是盡可能辨識出欄位、表格版面、欄位內容,將其放在正確的表格位置,接著大多是儲存成Microsoft Office的Word或Excel檔案格式,然而這些檔案格式並非是電子資料庫運用的檔案格式,致使無法直接用各種資料庫管理系統進行管理,因此無法直接呼叫出欄位內的資料進行資料庫運算處理,而由程式產生新版面的表單。先前習知技術往往都是人工,或是根據個案撰寫程式處理這些經過光學字元識別(Optical Character Recognition,OCR)後的Word或Excel表格檔案,然後才把表格檔案想辦法轉存成電子資料庫型態。
相較於先前習知技術,根據本發明的自動化辨識表單並建立動態表單之系統及方法,在不需要以人工方式進行書面表單的辨識,而能夠自動化的辨識書面表單的內容,並依照使用者的需求建立客製化的動態表單,方便使用者判讀、分析、歸類與使用由程式自動產生的客製化動態表單,故相較於先前技術,更能達到簡化作業程序、節省大量作業時間與人力之效果。
有鑑於上述習知技術之缺點,本發明之主要目的在於提供一種自動化辨識表單並建立動態表單之系統,包含:一辨識模組,耦接於一處理器,透過光學字元識別(Optical Character Recognition,OCR)技術辨識表單的文字及版面;一編排模組,耦接於該處理器,修正欄位、文字或版面格式;一分類模組,
耦接於該處理器,判斷表單內容的屬性;一特徵資料庫,耦接於一儲存裝置,該儲存裝置耦接於該處理器,該特徵資料庫儲存表單上的特徵詞語及其關聯性詞語;及一系統資料庫,耦接於該儲存裝置,該分類模組將表單內容存入該系統資料庫指定的屬性中;其中該編排模組比對該特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;其中該分類模組藉由比對該特徵資料庫的特徵詞語判斷表單內容的屬性。其中該辨識模組所辨識的表單內容若為數位格式則直接紀錄文字與版面即可,若為類比畫面則進行圖形辨識;其中該編排模組取得的表單內容,若為數位格式則直接輸出,若為類比畫面則自動修正欄位內容、自動選擇適合的版面套用並輸出。
為達上述之目的,該自動化辨識表單並建立動態表單之系統,更包含:一驗證資料庫模組,耦接於該處理器,檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫;及一動態表單模組,耦接於該處理器,透過該系統資料庫依照需求產生指定欄位的新表單。由於透過本自動化辨識表單並建立動態表單之系統所取得的書面表單資料(包含:欄位位置、格線或字符等)已數位化存成資料庫,所以可由程式或使用者任意選擇所需要的欄位,依照使用者需求排列欄位版面,並可透過雲端計算即時產生新版面的動態表單。
為達上述之目的,其中該辨識模組藉由圈選表單的範圍或內容,藉此標定欄位的位置與範圍;其中該特徵資料庫包含至少一層次分類,該層次分類包含至少一子類。圈選方式包含使用滑鼠、鍵盤或觸控等,但不限於此;不同的該層次分類皆可分別指定儲存在不同的主機中。
為達上述之目的,其中該編排模組預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位;其中該特徵資料庫更新該子類時,會逐一往上一個層次進行更新。更新完成後,會對更新的內容進行比對過往的歷史資料,建立並儲存關聯性詞語,若有新增關聯性詞語則對每一該層次分類的該子類,進行逐層更新關聯性詞語的資料內容。
為達上述之目的,其中該驗證資料庫模組檢查修正該辨識模組、該編排模組或該分類模組的正確性,並將修正資訊回饋到特徵資料庫;其中該特徵資料庫補充該關聯性詞語的欄位內容到該系統資料庫。驗證資料庫模組檢查修正該辨識模組、該編排模組或該分類模組的正確性時可同時檢查、各別檢查、批次檢查或定時檢查,但不限於此。
本發明之另一目的係提供一種自動化辨識表單並建立動態表單之方法,包含:透過光學字元識別(Optical Character Recognition,OCR)技術辨識表單的文字及版面;比對一特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;比對該特徵資料庫的特徵詞語判斷表單內容的屬性;及將表單內容存入一系統資料庫指定的屬性中。
為達上述之另一目的,該自動化辨識表單並建立動態表單之方法,更包含:檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫;及透過該系統資料庫依照需求產生指定欄位的新表單。原則上自動化辨識表單並建立動態表單之方法其步驟係依照以上所述之順序,但不限於此,亦可同時進行、重複進行或任意步驟的調換等,在不脫離本發明精神下,可依需求作適當的變化。
為達上述之另一目的,其中,透過光學字元識別(Optical Character Recognition,OCR)技術辨識表單的文字及版面的步驟包含:藉由圈選表單的範圍或內容,藉此標定欄位的位置與範圍。除了透過光學字元識別(Optical Character Recognition,OCR)技術直接辨識出表單的文字及版面外,使用者亦可直接圈選表單的範圍或內容。
為達上述之另一目的,其中,比對一特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式的步驟包含:預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位。故該特徵詞語不僅可來自特徵資料庫原有的特徵詞語,亦可透過使用者預先定義該特徵詞語,以便產生的新表單更精確的符合使用者的需求。
為達上述之另一目的,其中,檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫的步驟包含:先檢查修正辨識表單的文字及版面、依據特徵詞語自動修正、判斷表單內容屬性的正確性,並將修正資訊回饋到特徵資料庫。透過本自動化辨識表單並建立動態表單之系統的修正資訊回饋到特徵資料庫,可不斷累積特徵資料庫的資訊,包含:特徵詞語或關聯性詞語等,故本自動化辨識表單並建立動態表單之系統可自動化學習,建立更完善的資料庫。
表單上的字詞及版面經過辨識、編排與分類後,可以儲存成系統資料庫,再依據該系統資料庫的內容,自動的動態建立指定的表單內容,故透過本自動化辨識表單並建立動態表單之系統能大量節省人工文書處理的成本。
100‧‧‧辨識模組
200‧‧‧編排模組
300‧‧‧分類模組
400‧‧‧驗證資料庫模組
500‧‧‧動態表單模組
600‧‧‧特徵資料庫
620‧‧‧層次分類
640‧‧‧子類
700‧‧‧系統資料庫
760‧‧‧處理器
770‧‧‧儲存裝置
810‧‧‧步驟
812‧‧‧步驟
820‧‧‧步驟
822‧‧‧步驟
830‧‧‧步驟
840‧‧‧步驟
850‧‧‧步驟
852‧‧‧步驟
860‧‧‧步驟
第一圖係顯示本發明實施例自動化辨識表單並建立動態表單之系統架構圖。
第二圖係顯示本發明實施例特徵資料庫之結構圖。
第三圖係顯示本發明實施例之流程步驟圖。
藉由參考下列詳細敘述,將可以更快地瞭解上述觀點以及本發明之優點,並且藉由下面的描述以及附加圖式,更容易了解本發明之精神。
本發明將以較佳之實施例及觀點加以詳細敘述。下列描述提供本發明特定的施行細節,俾使閱者徹底瞭解這些實施例之實行方式。然該領域之熟習技藝者須瞭解本發明亦可在不具備這些細節之條件下實行。此外,文中不會對一些已熟知之結構或功能或是作細節描述,以避免各種實施例間不必要相關描述之混淆,以下描述中使用之術語將以最廣義的合理方式解釋,即使其與本發明某特定實施例之細節描述一起使用。
參閱第一圖,該圖係顯示本發明實施例自動化辨識表單並建立動態表單之系統架構圖。根據本發明之一實施例,本發明之主要目的在於提供一種自動化辨識表單並建立動態表單之系統,包含:一辨識模組100,耦接於一處理器760,透過光學字元識別(Optical Character Recognition,OCR)技術辨識表單的文字及版面;一編排模組200,耦接於該處理器760,修正欄位、文字或版面格式;一分類模組300,耦接於該處理器760,判斷表單內容的屬性;一特徵資料庫600,耦接於一儲存裝置770,該儲存裝置770耦接於該處理器760,該特徵資料庫600儲存表單上的特徵詞語及其關聯性詞語;及一系統資料庫700,耦接於該儲存裝置770,該分類模組300將表單內容存入該系統資料庫700指定的屬性中;其中該編排模組200比對該特徵資料庫600的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;其中該分類模組300藉由比對該特徵資料庫600的特徵詞語判斷表單內容的屬性。
該自動化辨識表單並建立動態表單之系統得由不同電子計算裝置或雲端設備共同操作之,亦得以同一電子計算裝置或雲端設備執行之,進一步地,可由相異操作系統之電子計算裝置或雲端設備以完成本發明,操作系統包含IOS、Windows、Android等,但並不以此為限,同理,該處理器760與該儲存裝置770得包含於不同的電子計算裝置或雲端設備,亦得包含於同一電子計算裝置或雲端設備,因本文所述之各模組或各資料庫可分別獨立安裝於不同的硬體設備再串接成本發明之自動化辨識表單並建立動態表單之系統,故本文所述之「耦接」可以是直接耦接或間接耦接,該儲存裝置770包含硬碟、隨身碟、雲端硬碟等,但並不以此為限,下文所述的自動化辨識表單並建立動態表單之系統係以同一電子計算裝置進行操作來說明,熟知該項技術領域之通常知識者應當理解,可廣泛應用於諸多電子計算裝置或雲端設備,本文所述之電子計算裝置包含桌上型電腦、筆記型電腦、智慧型通訊電子裝置或平板電腦等,但並不以此為限,本文所述之雲端設備包含雲端電腦、雲端資料庫等,但並不以此為限。
參閱第一圖,該圖係顯示本發明實施例自動化辨識表單並建立動態表單之系統架構圖。根據本發明之較佳實施例,該自動化辨識表單並建立動態
表單之系統,包含:一辨識模組100,耦接於一處理器760,透過光學字元識別(Optical Character Recognition,OCR)技術辨識表單的文字及版面;一編排模組200,耦接於該處理器760,修正欄位、文字或版面格式;一分類模組300,耦接於該處理器760,判斷表單內容的屬性;一驗證資料庫模組400,耦接於該處理器760,檢查修正該系統資料庫700,並將修正資訊回饋到該特徵資料庫600;一動態表單模組500,耦接於該處理器760,透過該系統資料庫700依照需求產生指定欄位的新表單;一特徵資料庫600,耦接於一儲存裝置770,該儲存裝置770耦接於該處理器760,該特徵資料庫600儲存表單上的特徵詞語及其關聯性詞語;及一系統資料庫700,耦接於該儲存裝置770,該分類模組300將表單內容存入該系統資料庫700指定的屬性中;其中該辨識模組100藉由圈選表單的範圍或內容,藉此標定欄位的位置與範圍;其中該編排模組200比對該特徵資料庫600的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;其中該編排模組200預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位;其中該分類模組300藉由比對該特徵資料庫600的特徵詞語判斷表單內容的屬性;其中該驗證資料庫模組400檢查修正該辨識模組100、該編排模組200或該分類模組300的正確性,並將修正資訊回饋到特徵資料庫600;其中該特徵資料庫600包含至少一層次分類620,該層次分類620包含至少一子類640;其中該特徵資料庫600更新該子類640時,會逐一往上一個層次進行更新;其中該特徵資料庫600補充該關聯性詞語的欄位內容到該系統資料庫700。
其中該辨識模組100所辨識的表單內容若為數位格式則直接紀錄文字與版面即可,若為類比畫面則需擷取原始書面表單,將類比畫面轉存成數位影像,再進行圖形辨識,擷取原始書面表單的方式可透過許多不同的裝置或技術,例如:手機、相機、錄影機、掃描器等。此外,該辨識模組100可先比對該特徵資料庫600中是否有類似的既存版面可直接套用輸出,若無適合的版面,再選擇表單中需要文字辨識的區域或欄位,經光學字元識別(Optical Character Recognition,OCR)技術辨識成數位文字後輸出至該編排模組200,除了透過光學字元識別(Optical Character Recognition,OCR)技術直接辨識出表單的文字及版面外,使用者亦可直接圈選表單的範圍或內容,該辨識模組100圈選表單的
範圍或內容,其圈選方式包含使用滑鼠、鍵盤或觸控等,但不限於此。
其中該編排模組200取得來自辨識模組100的表單內容(包含:欄位數量、大小、欄位的關鍵名稱、欄位的描述內容等),若為數位格式則直接輸出,若為類比畫面則比對該特徵資料庫600的特徵詞語,依據特徵詞語自動修正欄位內容,例如:合併或分割欄位、修正該光學字元識別(Optical Character Recognition,OCR)技術所辨識出的文字等,但不限於此。該編排模組200亦可自動選擇適合的版面套用並輸出,最後記錄此表單的版面格式與表單內容的相關性。
因為表單格式或內容的多樣化,故該編排模組200可先從原始的表單找出特徵詞語,而此特徵詞語可視需要定義為一欄位,並對照原始表單的圖檔,藉此辨識出各個欄位排版的版面,該定義方式包含:一、預先定義常見詞語或表格樣板,可供使用者自由選擇。二、對照原始表單的圖檔,透過滑鼠、鍵盤或觸控等方式,圈選表單上的數個單字為一組特徵詞語。三、預先定義沒有文字處為沒有欄位或空白欄位,如:定義欄位間的空白處是空白欄位。
其中該分類模組300將表單內欄位的文字內容與該特徵資料庫600中所儲存的特徵詞語或關聯性詞語進行比對,以便判斷出表單內容的各種屬性,例如:判斷欄位中的文字應紀錄在該系統資料庫700中的欄位名稱(如:學校)或欄位內容(如:台灣大學)等,此外,在比對該特徵資料庫600的關聯性詞語時,可自動關聯原始表單中所沒有的資訊,例如:「學校/台灣大學」可以關聯出學校住址、英文名稱等相關資訊,再依據所有欄位的屬性,自動儲存至該系統資料庫700指定的屬性中。此系統還會對照曾經處理過的表單,依據其欄位的使用經驗,新增關聯性欄位,並記錄該關聯性欄位的關聯性詞語在特徵資料庫600中。
其中該驗證資料庫模組400檢查修正該辨識模組100、該編排模組200、該分類模組300或該系統資料庫700的正確性,並將修正資訊(如:版面格式、修正資料、特徵詞語等)回饋到特徵資料庫600。驗證資料庫模組400
檢查修正該辨識模組100、該編排模組200、該分類模組300或該系統資料庫700的正確性時可同時檢查、各別檢查、批次檢查或定時檢查,但不限於此。
參閱第二圖,該圖係顯示本發明實施例特徵資料庫600之結構圖。其中該特徵資料庫600中,不同分類的該子類640(如:第1子類640、第2子類640)可指定儲存在任一電子計算裝置或雲端設備中,而同一分類的該子類640(如:第1子類640、第1-1子類640與第1-2子類640)則可指定儲存在同一電子計算裝置或雲端設備中,在使用特徵資料庫600時,依據特徵詞語,只需存取相對應的同一電子計算裝置或雲端設備,藉此提高本自動化辨識表單並建立動態表單之系統的整體效能,此外,在更新該子類640時會由最底層的子類640往上一層逐一更新,例如:更新第1-1子類640後再更新第1子類640,並直到該特徵資料庫600全部完成更新。當該特徵資料庫600全部完成更新後,會對更新內容進行比對過往的歷史資料,建立並儲存關聯性詞語,若有新增關聯性詞語則對每一該層次分類620的該子類640,進行逐層更新關聯性詞語的資料內容,該特徵資料庫600還可儲存公認且一致的相關欄位內容(如:機構的中英文名稱、代表人、住址、聯絡電話等),當比對該特徵資料庫600時,可自動補充原先書面表單缺乏的欄位內容(如:機構的中英文名稱、代表人、住址、聯絡電話等)到系統資料庫700指定的屬性中,藉此模式,本自動化辨識表單並建立動態表單之系統在每完成一流程後,可累積特徵資料庫600的特徵詞語或關聯性詞語等,達到表格文件自動化學習辨識的效果,該自動化學習辨識的能力具有下列三項特點:一、制式的表格或文件,有許多重複的文字,不需要再一一辨識出所有重複的文字,只需專注在關鍵文字或欄位的辨識,節省文字或欄位辨識的處理時間,進而提高效能。二、由於表格文件的圖檔來源不一(如:掃描器、數位相機等),圖檔的解析度、拍攝角度、色差等也就不一致,較差的成像品質會影響文字辨識正確率,但可比對歷史資料的關鍵文字或圖形標誌,輔助判斷文字,進而增加文字辨識正確率。三、藉由前述兩項特點,在存進系統資料庫700時,因而能儲存於正確的欄位屬性,達到自動化學習判斷欄位屬性的功能。
於表單上的字詞及版面經過辨識、編排與分類後,已數位化並儲存在系統資料庫700中,其中該動態表單模組500再依據該系統資料庫700的
內容,自動的動態建立指定的表單內容,所以可由程式或使用者任意選擇所需要的欄位,依照使用者需求排列欄位版面,並可透過電子計算裝置或雲端設備即時產生新版面的動態表單,故透過本自動化辨識表單並建立動態表單之系統能大量節省人工文書處理的成本。
參閱第三圖,該圖係顯示本發明實施例之流程步驟圖。根據本發明之另一實施例,係提供一種自動化辨識表單並建立動態表單之方法,本文所述之流程提供不同步驟之示例。雖揭示特定順序及序列,除非另外指定,可更動流程之步驟順序。因此,所述之流程僅為示例性,且該流程得由不同順序步驟以執行之,甚至一些步驟可同時併行。除此之外,並非每一次執行皆包括相同步驟,故本文所述之實施例可能忽略一或多個步驟。本發明亦包括其他步驟流程。以下說明主要係藉由自動化辨識表單並建立動態表單之系統以操作下列步驟,必要時,得搭配其他習知步驟和元件以執行,該自動化辨識表單並建立動態表單之系統不侷限於由同一電子計算裝置實現步驟,得依照實際需求配置不同電子計算裝置以實現步驟流程。
步驟810:圈選表單的範圍或內容,藉此標定欄位的位置與範圍。該辨識模組100可透過使用者以圈選的方式藉由光學字元識別技術辨識表單的內容,並藉此標定欄位的位置與範圍。
步驟812:透過光學字元識別技術辨識表單的文字及版面。除了如步驟810採用圈選的方式以外,本自動化辨識表單並建立動態表單之系統亦可透過光學字元識別技術直接辨識表單的文字及版面。
步驟820:預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位。該編排模組200為了修正該辨識模組100所辨識出的表單文字或版面,使用者可預先定義特徵詞語,以便取得更符合使用者需求的表單格式。
步驟822:比對一特徵資料庫600的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式。除了如步驟820採用預先定義特徵詞語的方式以外,本自動化辨識表單並建立動態表單之系統亦可自動比對該特徵資料庫600的特徵詞語,並依據特徵詞語修正欄位、文字或版面格式。
步驟830:比對該特徵資料庫600的特徵詞語判斷表單內容的屬性。該分類模組300比對該特徵資料庫600的特徵詞語,藉此判斷表單內容係欄位名稱或欄位內容等屬性。
步驟840:將表單內容存入一系統資料庫700指定的屬性中。該分類模組300判斷出表單內容的屬性後,再存入系統資料庫700所指定的屬性中。
步驟850:檢查修正辨識表單的文字及版面、依據特徵詞語自動修正、判斷表單內容屬性的正確性,並將修正資訊回饋到特徵資料庫600。該驗證資料庫模組400,檢查修正該辨識模組100、該編排模組200與該分類模組300的正確性。
步驟852:檢查修正該系統資料庫700,並將修正資訊回饋到該特徵資料庫600。該驗證資料庫模組400除了如步驟850檢查修正該三大模組以外,亦可檢查修正該系統資料庫700,且修正的資訊皆會回饋到該特徵資料庫600中,可不斷累積特徵資料庫600的資訊,包含:特徵詞語或關聯性詞語等,故本系統可自動化學習,建立更完善的資料庫。
步驟860:透過該系統資料庫700依照需求產生指定欄位的新表單。經由上述辨識、編排、分類、驗證的步驟後,該系統資料庫700與該特徵資料庫600所具備的表單資料將不斷的更新且更加完備,故使用者可隨時透過動態表單模組500建立屬於自己的客製化表單。
上述之目的在於解釋,各種特定細節係為了提供對於本發明之徹
底理解。熟知本發明領域之通常知識者應可實施本發明,而無需其中某些特定細節。在其他實施例中,習知的結構及裝置並未顯示於方塊圖中。在圖式元件之間可能包含中間結構。所述的元件可能包含額外的輸入和輸出,其並未詳細描繪於圖式中。
本發明包含的各種處理程序,該處理程序得以硬碟元件加以執行,或內嵌於電腦可讀取指令中,其可形成一般或特殊目的且具有編程指令的處理器760或邏輯電路,以執行程序,除此之外,該程序亦得由硬體及軟體之組合加以執行。
用基本形式來描述方法,在未脫離本發明範疇下,任一方法或訊息得自程序中增加或刪除,熟知該項技術領域之通常知識者應可進一步改良或修正本發明,特定實施方式僅用以說明,非限制本發明。
若文中有一元件“A”耦接(或耦合)至元件“B”,元件A可能直接耦接(或耦合)至B,亦或是經元件C間接地耦接(或耦合)至B。若說明書載明一元件、特徵、結構、程序或特性A會導致一元件、特徵、結構、程序或特性B,其表示A至少為B之一部分原因,亦或是表示有其他元件、特徵、結構、程序或特性協助造成B。在說明書中所提到的“可能”一詞,其元件、特徵、程序或特性不受限於說明書中;說明書中所提到的數量不受限於“一”或“一個”等詞。
本發明並未侷限在此處所描述之特定細節特徵。在本發明之精神與範疇下,與先前描述與圖式相關之許多不同的發明變更是可被允許的。因此,本發明將由下述之專利申請範圍來包含其所可能之修改變更,而非由上方描述來界定本發明之範疇。
Claims (8)
- 一種自動化辨識表單並建立動態表單之系統,包含:一辨識模組,耦接於一處理器,透過光學字元識別技術辨識表單的文字及版面;一編排模組,耦接於該處理器,修正欄位、文字或版面格式;一分類模組,耦接於該處理器,判斷表單內容的屬性;一特徵資料庫,耦接於一儲存裝置,該儲存裝置耦接於該處理器,該特徵資料庫儲存表單上的特徵詞語及其關聯性詞語;及一系統資料庫,耦接於該儲存裝置,該分類模組將表單內容存入該系統資料庫指定的屬性中;其中該編排模組比對該特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式;其中該分類模組藉由比對該特徵資料庫的特徵詞語判斷表單內容的屬性;其中該編排模組預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位;其中該特徵資料庫更新該子類時,會逐一往上一個層次進行更新。
- 如申請專利範圍第1項所述之自動化辨識表單並建立動態表單之系統,更包含:一驗證資料庫模組,耦接於該處理器,檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫;及一動態表單模組,耦接於該處理器,透過該系統資料庫依照需求產生指定欄位的新表單。
- 如申請專利範圍第2項所述之自動化辨識表單並建立動態表單之系統,其中該辨識模組藉由圈選表單的範圍或內容,藉此標定欄位的位置與範圍;其中該特徵資料庫包含至少一層次分類,該層次分類包含至少一子類。
- 如申請專利範圍第1項所述之自動化辨識表單並建立動態表單之系統,其中該驗證資料庫模組檢查修正該辨識模組、該編排模組或該分類模組的正確性,並將修正資訊回饋到特徵資料庫;其中該特徵資料庫補充該關聯性詞語的欄位內容到該系統資料庫。
- 一種自動化辨識表單並建立動態表單之方法,包含:透過光學字元識別技術辨識表單的文字及版面;比對一特徵資料庫的特徵詞語,依據特徵詞語自動修正欄位、文字或版面格式,此步驟包含:預先定義特徵詞語,定義方式包含預先定義常見詞語或表格樣板、圈選表單上的數個單字為一組特徵詞語或預先定義沒有文字處為沒有欄位或空白欄位;比對該特徵資料庫的特徵詞語判斷表單內容的屬性;及將表單內容存入一系統資料庫指定的屬性中。
- 如申請專利範圍第5項所述之自動化辨識表單並建立動態表單之方法,更包含:檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫;及透過該系統資料庫依照需求產生指定欄位的新表單。
- 如申請專利範圍第6項所述之自動化辨識表單並建立動態表單之方法,其中,透過光學字元識別技術辨識表單的文字及版面的步驟包含:藉由圈選表單的範圍或內容,藉此標定欄位的位置與範圍。
- 如申請專利範圍第5項所述之自動化辨識表單並建立動態表單之方法,其中,檢查修正該系統資料庫,並將修正資訊回饋到該特徵資料庫的步驟包含:先檢查修正辨識表單的文字及版面、依據特徵詞語自動修正、判斷表單內容屬性的正確性,並將修正資訊回饋到特徵資料庫。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106125615A TWI648685B (zh) | 2017-07-28 | 2017-07-28 | 自動化辨識表單並建立動態表單之系統及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106125615A TWI648685B (zh) | 2017-07-28 | 2017-07-28 | 自動化辨識表單並建立動態表單之系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI648685B true TWI648685B (zh) | 2019-01-21 |
TW201911157A TW201911157A (zh) | 2019-03-16 |
Family
ID=65803889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106125615A TWI648685B (zh) | 2017-07-28 | 2017-07-28 | 自動化辨識表單並建立動態表單之系統及其方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI648685B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913930A (zh) * | 2019-05-10 | 2020-11-10 | 上海中晶科技有限公司 | 物种数据解析方法、系统及电脑程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6405190B1 (en) * | 1999-03-16 | 2002-06-11 | Oracle Corporation | Free format query processing in an information search and retrieval system |
CN1103087C (zh) * | 1996-02-07 | 2003-03-12 | 财团法人工业技术研究院 | 光学扫描表单识别及更正方法 |
TW200620033A (en) * | 2004-12-13 | 2006-06-16 | Taiwan Semiconductor Mfg Co Ltd | Systems and method for form generation, and computer readable medium thereof |
US7606741B2 (en) * | 2004-02-15 | 2009-10-20 | Exbibuo B.V. | Information gathering system and method |
-
2017
- 2017-07-28 TW TW106125615A patent/TWI648685B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1103087C (zh) * | 1996-02-07 | 2003-03-12 | 财团法人工业技术研究院 | 光学扫描表单识别及更正方法 |
US6405190B1 (en) * | 1999-03-16 | 2002-06-11 | Oracle Corporation | Free format query processing in an information search and retrieval system |
US7606741B2 (en) * | 2004-02-15 | 2009-10-20 | Exbibuo B.V. | Information gathering system and method |
TW200620033A (en) * | 2004-12-13 | 2006-06-16 | Taiwan Semiconductor Mfg Co Ltd | Systems and method for form generation, and computer readable medium thereof |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913930A (zh) * | 2019-05-10 | 2020-11-10 | 上海中晶科技有限公司 | 物种数据解析方法、系统及电脑程序产品 |
Also Published As
Publication number | Publication date |
---|---|
TW201911157A (zh) | 2019-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022057707A1 (zh) | 文本识别方法、图像识别分类方法、文档识别处理方法 | |
US8468167B2 (en) | Automatic data validation and correction | |
JP6938228B2 (ja) | 計算機、文書識別方法、及びシステム | |
US8155444B2 (en) | Image text to character information conversion | |
US11106906B2 (en) | Systems and methods for information extraction from text documents with spatial context | |
US9384389B1 (en) | Detecting errors in recognized text | |
US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
CA3035097A1 (en) | Automated document filing and processing methods and systems | |
KR20210090576A (ko) | 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램 | |
US11550995B2 (en) | Extracting structured data from handwritten and audio notes | |
US11341319B2 (en) | Visual data mapping | |
CN110175022B (zh) | 自动生成pojo类的方法、装置及存储介质、计算机设备 | |
US11386263B2 (en) | Automatic generation of form application | |
TWI648685B (zh) | 自動化辨識表單並建立動態表單之系統及其方法 | |
KR102282025B1 (ko) | 컴퓨터를 이용한 문서 분류 및 문자 추출 방법 | |
CN118095205A (zh) | 版式文件的信息提取方法、装置、设备及存储介质 | |
WO2024057589A1 (ja) | 修正提案方法、修正提案システム、及び修正提案プログラム | |
CN111177387A (zh) | 用户名单信息处理方法、电子装置及计算机可读存储介质 | |
US20170097697A1 (en) | Input device, document input system, document input method, and computer program product | |
US11294563B1 (en) | Parsing handwriting into online events | |
CN117111890A (zh) | 一种软件需求文档解析方法、设备及介质 | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
CN115828856A (zh) | 试卷生成的方法、装置、设备和存储介质 | |
Abdelaziz et al. | Applications of integration of AI-based Optical Character Recognition (OCR) and Generative AI in Document Understanding and Processing | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム |