TWI769809B - 內容擷取系統及內容擷取方法 - Google Patents
內容擷取系統及內容擷取方法 Download PDFInfo
- Publication number
- TWI769809B TWI769809B TW110116318A TW110116318A TWI769809B TW I769809 B TWI769809 B TW I769809B TW 110116318 A TW110116318 A TW 110116318A TW 110116318 A TW110116318 A TW 110116318A TW I769809 B TWI769809 B TW I769809B
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- text area
- characters
- processing module
- threshold
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Abstract
一種內容擷取方法,適用於擷取一文件圖片中的內容,內容擷取方法包含:接收一校正圖片,其中,該校正圖片中的內容包含複數個文字區域;將校正圖片或一第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),卷積神經網路輸出第一文字區域的座標;依據第一文字區域的座標將第一文字區域切割出來,藉由處理模組計算第一文字區域與一第二文字區域的一交併比,當判斷交併比大於一交併比門檻值時,將第一文字區域與第二文字區域皆視為一目標欄位,並取得目標欄位中的至少一目標文字。
Description
本發明實施例是關於一種內容擷取系統及內容擷取方法,特別是關於一種適用於擷取一文件圖片中的內容的內容擷取系統及內容擷取方法。
目前使用電腦視覺技術進行區域文字擷取的技術中,如果是針對文件類圖片,幾乎還是處於「全文辨識」,即是使用光學字元辨識(Optical Character Recognition,OCR)的技術將文件的內文全部解譯出來;但對於使用者所需要的特定欄位,光學字元辨識的技術無法有效辨識出結果。而擷取文件式圖片中的小範圍,例如擷取某個欄位,會因擷取的範圍過小而造成擷取結果不精準。一般來說,文件式圖片需擷取的小範圍欄位不只一個時,越多的小欄位,光學字元辨識的錯誤率會較高。
因此如何精準的辨識文件圖片中的內容,已成為本領域需解決的問題之一。
本揭露內容之一態樣提供了一種內容擷取系統,適用於擷取一文件圖片中的內容,內容擷取系統包含:一處理器以及一儲存裝置。處理器用以存取儲存裝置所儲存之程式,以實現一切割模組及一處理模組。切割模組用以接收一校正圖片,其中,校正圖片中的內容包含複數個文字區域,切割模組將校正圖片或一第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),卷積神經網路輸出第一文字區域的座標,切割模組依據第一文字區域的座標將第一文字區域切割出來,並將切割出來的第一文字區域輸入一文字辨識系統,藉由文字辨識系統取得第一文字區域中的複數個第一字元,計算此些第一字元的數量,以得到一第一字元數,並判斷第一字元數是否大於一字元數門檻值;其中,當切割模組判斷第一字元數大於字元數門檻值時,將第一文字區域輸入卷積神經網路;其中,當切割模組判斷第一字元數不大於字元數門檻值時,將第一文字區域傳送至處理模組;其中,當切割模組判斷第一字元數大於字元數門檻值時,將第一文字區域輸入卷積神經網路,並依據卷積神經網路輸出的一第二文字區域的座標所切割出的一第二文字區域中的一第二字元數,判斷第二字元數是否大於字元數門檻值,直到切割模組判斷第二字元數不大於字元數門檻值時,將第二文字區域傳送至處理模組;處理模組用以計算第一文字區域與第二文字區域的一交併比,當處理模組判斷交併比大於一交併比門檻值時,將第一文字區域與第二文字區域皆視為一目標欄位,並取得目標欄位中的至少一目標文字。
本揭露內容之一態樣提供了一種內容擷取方法,適用於擷取一文件圖片中的內容,內容擷取方法包含:接收一校正圖片,其中,該校正圖片中的內容包含複數個文字區域;將校正圖片或一第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),卷積神經網路輸出第一文字區域的座標;依據第一文字區域的座標將第一文字區域切割出來,並將切割出來的第一文字區域輸入一文字辨識系統,藉由文字辨識系統取得第一文字區域中的複數個第一字元,計算此些第一字元的數量,以得到一第一字元數,並判斷第一字元數是否大於一字元數門檻值;當判斷第一字元數大於字元數門檻值時,將第一文字區域輸入卷積神經網路;以及當判斷第一字元數不大於該字元數門檻值時,將第一文字區域傳送至一處理模組;其中,當判斷第一字元數大於字元數門檻值時,將第一文字區域輸入卷積神經網路,並依據卷積神經網路輸出的一第二文字區域的座標所切割出的一第二文字區域中的一第二字元數,判斷第二字元數是否大於字元數門檻值,直到判斷第二字元數不大於字元數門檻值時,將第二文字區域傳送至處理模組;藉由處理模組計算第一文字區域與第二文字區域的一交併比,當判斷交併比大於一交併比門檻值時,將第一文字區域與第二文字區域皆視為一目標欄位,並取得目標欄位中的至少一目標文字。
透過內容擷取方法及內容擷取系統,能有效提升發票文件中特定欄位的辨識精確度;內容擷取方法及內容擷取系統可以應用在會計系統中,當廠商開始請款時,會於系統上傳電子檔案發票;透過內容擷取方法及內容擷取系統,會進行至少一階段的區塊切割,擷取出多個目標欄位。後續透過文字辨識系統技術,取出內含文字,同時透過友善的使用者介面,將系統內資料與辨識後的資訊(即目標欄位中的內容)相互比對,以協助內部會計人員快速審視,有效降低會計入帳審核的時間,並減少人為操作造成的錯誤,確實達成人工智慧於會計上的新應用。
以下說明係為完成發明的較佳實現方式,其目的在於描述本發明的基本精神,但並不用以限定本發明。實際的發明內容必須參考之後的申請專利範圍。
必須了解的是,使用於本說明書中的”包含”、”包括”等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
於申請專利中使用如”第一”、"第二"、"第三"等詞係用來修飾申請專利中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
請參閱第1圖,第1圖係依照本發明實施例繪示一種內容擷取系統100之方塊圖。內容擷取系統100包含一處理器PR及一儲存裝置ST。於一實施例中,內容擷取系統100例如為電腦、伺服器或其他包含處理器PR及儲存裝置ST的電子裝置。
在一實施例中,處理器PR存取並執行儲存裝置ST中儲存之程式,以實現一切割模組10及一處理模組20。於一實施例中,處理器PR存取並執行儲存裝置ST中儲存之程式,以實現切割模組10、處理模組20、一轉換模組30及一校正模組40。
於一實施例中,切割模組10、處理模組20、一轉換模組30及一校正模組40可以各自或一併由軟體或韌體實現之。於一實施例中,處理器PR用以存取儲存裝置ST中的切割模組10、處理模組20、轉換模組30及校正模組40各自的運算結果。
於一實施例中,儲存裝置ST可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。
於一實施例中,切割模組10、處理模組20、轉換模組30及校正模組40可以各自或一併由硬體電路實現之。舉例而言,切割模組10、處理模組20、轉換模組30及校正模組40可藉由主動元件(例如開關、電晶體)、被動元件(例如電阻、電容、電感)所構成。於一實施例中,切割模組10、處理模組20、一轉換模組30及一校正模組40可以位於儲存裝置ST之外,各自耦接於處理器PR。
於一實施例中,切割模組10、處理模組20、轉換模組30及校正模組40各自或一併由一或多個處理器實現之,處理器可由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor,DSP )、現場可程式化邏輯閘陣列(Field Programmable Gate Array,FPGA)、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)或一邏輯電路來實施。
請參閱第2~5圖,第2圖係依照本發明實施例繪示一內容擷取方法200之流程圖。第3圖係依照本發明實施例繪示一種產生校正圖片IMG2之示意圖。第4圖係依照本發明實施例繪示一種切割文字區域之示意圖。第5圖係依照本發明實施例繪示一種切割文字區域之示意圖。內容擷取方法200可以由第1圖的元件實現之。
於一實施例中,處理器PR用以存取切割模組10及處理模組20,或存取並執行儲存裝置ST中的程式/演算法,實現切割模組10及處理模組20的功能。於一實施例中,切割模組10及處理模組20由硬體(例如為晶片或電路)實現時,可於接收到資料或訊號後自行運算,並將處理結果回傳給處理器PR。於一實施例中,切割模組10及處理模組20由軟體(例如為演算法)實現時,處理器PR執行切割模組10及處理模組20中的演算法,以取得處理結果。
於步驟210中,切割模組10接收一校正圖片,其中,校正圖片中的內容包含複數個文字區域。
於一實施例中,轉換模組30用以接收一檔案,將檔案轉換成符合一圖檔格式的一初始輸入圖片。更具體而言,使用者可以透過一使用者介面將檔案傳入內容擷取系統100,轉換模組30取得檔案後,負責進行檔案格式的轉換,依使用者上傳的檔案格式,確認是否為正常可處理的圖片格式;於一實施例中,當轉換模組30判斷使用者上傳的檔案格式是PDF檔案時(PDF檔案是指可攜式文件格式(Portable Document Format)檔案),轉換模組30會執行分頁轉換,將每頁PDF檔案各別轉換成單一圖檔,例如,此PDF檔案有10頁,轉換模組30將每一頁PDF檔案各自轉換成符合JPG格式的一初始輸入圖片(JPG是Joint Photographic Equipment Group 的縮寫又叫做JPEG,為聯合圖像設備集團所訂的影像處理格式),因此這10頁的PDF檔案會轉換成10張JPG格式的初始輸入圖片,並將每個初始輸入圖片、此初始輸入圖片的原始檔名、轉換過的新檔名及路徑對應儲存到儲存裝置ST中的資料庫。
若使用者上傳的檔案已為符合一圖檔格式(例如符合JPG格式),則轉換模組30不用轉換檔案格式,直接將此檔案視為初始輸入圖片,並將此初始輸入圖片、此初始輸入圖片的原始檔名、新檔名及路徑對應儲存下來。於一實施例中,為了檔名的規律性,轉換模組30會將原始檔名轉換成一新檔名,使儲存裝置ST中的資料庫中的所有檔案名具規律性。
然,此處僅為一例,圖檔格式不限於指定JPG檔案,使用者輸入的檔案也不限於PDF或JPG檔案。
於一實施例中,如第3圖所示,校正模組40用以接收來自轉換模組30的初始輸入圖片IMG0。當校正模組40判斷初始輸入圖片IMG0歪斜,例如,使用標準霍夫變換計算出線性的角度,線性的歪斜狀態可以透過線段標示於初始輸入圖片IMG0上(即圖片IMG1所示),依據線性角度將圖片校正為水片狀態,藉此將初始輸入圖片IMG0進行水平校正,以產生校正圖片IMG2。
藉此,可以提升後續圖片切割的精準度,一般圖片切割是採取矩形方式切割,非水平文字切割容易造成文字遺漏,因此,將初始輸入圖片IMG0進行水平校正,並使用校正圖片IMG2於後續進行圖片切割及文字辨識,都能取得較精準的結果。
於步驟220中,切割模組10將校正圖片IMGI或第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),卷積神經網路輸出第一文字區域的座標。
於一實施例中,卷積神經網路用以接收校正圖片(例如為第3圖中的校正圖片IMG2,以下以第4圖中的較大張的校正圖片IMGI為例)或已經截取出來的文字區域(例如第一文字區域),再輸出文字區域的座標。
於一實施例中,卷積神經網路事先透過大量已經標記文字區域及欄位的圖片進行訓練,並且辨識精準度大於一預設門檻值以上。此些標記文字區域及欄位例如為“公司”、“INVOICE”、“BILL TO:”、“SHIP TO:”…等目標欄位或目標文字區域。
切割模組10將校正圖片IMGI,輸入一卷積神經網路,如第4圖所示,卷積神經網路輸出多個文字區域B10、B20、B30的座標,例如文字區域B10可以用兩組座標(X1,Y1)及(X2,Y2)表示。其他文字區域(例如文字區域B20、B30)也可以座標表示,故不贅述之。
於步驟230中,切割模組10依據第一文字區域(例如文字區域B10)的座標將第一文字區域切割出來,並將切割出來的第一文字區域輸入文字辨識系統,藉由文字辨識系統取得第一文字區域中的多個第一字元(例如文字區域B10中的多個字元),計算此些第一字元的數量,以得到一第一字元數,並判斷第一字元數是否大於一字元數門檻值。
當切割模組10判斷第一字元數大於字元數門檻值時,執行步驟220。當切割模組10判斷第一字元數不大於字元數門檻值時,執行步驟240。
例如,字元數門檻值為300,若文字區域B10中的字元數為350,則切割模組10判斷文字區域B10中的字元數大於字元數門檻值,故執行步驟220,再次將文字區域B10輸入到卷積神經網路。
又例如,字元數門檻值為300,若文字區域B10中的字元數為200,則切割模組10判斷文字區域B10中的字元數不大於字元數門檻值,故執行步驟240。
於一實施例中,在卷積神經網路接收已經截取出來的文字區域(例如文字區域B10)的情況下,代表此已經截取出來的文字區域不夠精確,例如包含的文字字數太多,需要再次由卷積神經網路分析文字區域的座標。
於一實施例中,文字辨識系統例如為光學字元辨識(Optical Character Recognition,OCR)系統,可以對文字資料的圖像檔案進行分析辨識處理,以輸出字元。
其中,當切割模組10判斷第一字元數大於字元數門檻值時,將第一文字區域(例如文字區域B10)輸入卷積神經網路,並依據卷積神經網路輸出的一第二文字區域(例如卷積神經網路輸出文字區域B11、B12、B13、B14)的座標,所切割出的一第二文字區域中的一第二字元數,切割模組10判斷第二字元數是否大於字元數門檻值(例如切割模組10判斷每一個文字區域B11、B12、B13、B14中的字元數是否大於字元數門檻值),直到切割模組判斷第二字元數不大於字元數門檻值時,將第二文字區域傳送至處理模組10。
例如,切割模組10判斷每一個文字區域B11、B12、B13、B14中的字元數都已小於字元數門檻值,將這些文字區域B11、B12、B13、B14傳送至處理模組10,若仍有字元數大於字元數門檻值的文字區域,則會將大於字元數門檻值的文字區域視為校正圖片IMGI再次輸入卷積神經網路(針對此文字區域執行步驟220)。
如第4圖所示,切割模組10先判斷文字區域B10(視為第一文字區域)中的字元數大於字元數門檻值,故將文字區域B10輸入卷積神經網路,此次卷積神經網路輸出文字區域B11、B12、B13、B14(每個都視為第二文字區域)的座標,透過文字辨識系統可辨識出每個文字區域B11、B12、B13、B14中的字元,切割模組10判斷每一個文字區域B11、B12、B13、B14中的字元數都已小於字元數門檻值,將這些文字區域B11、B12、B13、B14傳送至處理模組10。
另外,切割模組10先判斷文字區域B30(視為第一文字區域)中的字元數大於字元數門檻值,故將文字區域B30輸入卷積神經網路,此次卷積神經網路輸出文字區域B31(視為第二文字區域)的座標,透過文字辨識系統可辨識出每個文字區域B31中的字元,切割模組10判斷文字區域B31中的字元數仍大於字元數門檻值,則將文字區域B31視為校正圖片IMGI,再次輸入卷積神經網路(針對此文字區域執行步驟220)。
如第5圖所示,此次卷積神經網路輸出文字區域B32、B33、B34(視為第三文字區域)的座標,透過文字辨識系統可辨識出每個文字區域B32、B33、B34中的字元,切割模組10判斷每一個文字區域B32、B33、B34中的字元數都已小於字元數門檻值,將這些文字區域B32、B33、B34傳送至處理模組10。
由上述可知,經由多次遞迴式的切割,切割模組10可以切割出7個文字區域B11、B12、B13、B14、B32、B33及B34。
於一實施例中,當切割出來的文字區域的位置與字數適當時,處理裝置20透過文字辨識系統的輔助可以得知各個文字區域中的內文,例如文字區域B32代表總數量為3000,文字區域B33代表幣別為USD,文字區域B34代表總金額為2545。
於步驟240中,切割模組10將第一文字區域傳送至處理模組20。
在第4圖與第5圖的例子中,切割模組10將7個文字區域B11、B12、B13、B14、B32、B33及B34傳送至處理模組20。換言之,切割模組會將每一輪計算出小於字元數門檻值所對應的文字區域(例如第一文字區域、第二文字區域)傳送到處理模組20。
於步驟250中,處理模組20計算第一文字區域(例如文字區域B10)與第二文字區域(例如文字區域B11)的交併比,當處理模組判斷交併比大於交併比門檻值時,將第一文字區域與第二文字區域皆視為目標欄位,並取得目標欄位中的至少一目標文字。
第6A圖係依照本發明實施例繪示一種切割文字區域之流程圖。第6A圖中的步驟用以更具體的解釋步驟230。第6B~6C圖係依照本發明實施例繪示一種切割文字區域之示意圖。第6D圖係依照本發明實施例繪示一種計算交併比之示意圖。第6D圖用以更具體的解釋步驟250。
於步驟610中,切割模組10讀取校正圖片IMGI’,於步驟620中,切割模組10將校正圖片IMGI’輸入卷積神經網路,卷積神經網路輸出文字區域(如文字區域B60)的座標,切割模組10依據文字區域的座標將文字區域切割出來,並將切割出來的文字區域輸入一文字辨識系統,藉由文字辨識系統取得文字區域中的複數個字元,計算此些字元的數量,以得到一字元數,於步驟630中,切割模組10判斷字元數是否大於字元數門檻值;若是,則於步驟640中,切割模組10將文字區域作為校正圖片IMGI’,並再次進入步驟620(將取得文字區域B61);若否,則結束流程。
於一實施例中,在每次結束流程前,切割模組10會將不大於字元數門檻值對應的文字區塊傳送到處理模組20。
於此例中,若進入步驟640執行第二次切割,則最後處理模組20得到第二文字區域(第二文字區域例如為文字區域B61,假設第二文字區域B61中的字元數不大於字元數門檻值),由於第二文字區域B61的區域範圍經過再次切割,通常會比第一文字區域B60的區域範圍小。因此,於一實施例中,處理模組20判斷第二文字區域B61與圖片邊緣距離若小於一邊緣距離(例如為0.1公分)時,將第二文字區域B61的邊界補償空白(例如將第二文字區域B61的長度及寬度加上白邊d,白邊d例如為0.2公分),以產生一補償文字區域B61’。
處理模組20用以計算第一文字區域B60與補償文字區域B61’的交併比,當處理模組20判斷交併比大於交併比門檻值時,將第一文字區域B60與第二文字區域B61皆視為目標欄位。
其中,交併比(Intersection-over-Union,IoU),是目標檢測中使用的一個概念,是產生的候選框(candidate bound)與原標記框(ground truth bound)的交疊率,即它們的交集與並集的比值,本發明的候選框指的是當前文字區域,原標記框指的是前一個文字區域,例如,當前文字區域為第二文字區域,則前一個文字區域為第一文字區域,又例如,當前文字區域為第三文字區域,則前一個文字區域為第二文字區域。交並比為已知的計算方式,故此處不贅述之。
於一實施例中,如第6D圖所示,處理模組20依據第一文字區域B60位於校正圖片IMGI’中的座標與第二文字區域61(也可以是補償文字區域B61’)位於校正圖片IMGI’中的座標進行交疊,以計算交併比。
其中,當處理模組20判斷交併比不大於交併比門檻值(例如80%)時,代表第二文字區域B61經過切割還有收斂效果,故將第二文字區域B61再次輸入卷積神經網路。此時相當於執行步驟620,將第二文字區域B61視為校正圖片IMGI’輸入卷積神經網路,並執行後續流程,直到切割文字區域的流程結束。
當處理模組20判斷交併比大於交併比門檻值(例如80%)時,代表第二文字區域B61與第一文字區域B60的重疊率很高,經過二次切割後,兩者結果幾乎一致,故可結束流程,處理模組20將第二文字區域B61與第二文字區域B61皆視為一目標欄位,得到透過文字辨識系統所取得的目標欄位中的多個目標文字。
同樣地,在第4圖與第5圖的例子中,切割模組10將7個文字區域B11、B12、B13、B14、B32、B33及B34傳送至處理模組20後,處理模組20各別計算此7個文字區域的當前文字區域與前一個文字區域的交併比,當處理模組20判斷交併比大於交併比門檻值時,將當前文字區域與前一個文字區域皆視為目標欄位,並取得目標欄位中的至少一目標文字。
藉此,此7個文字區域各自經過一或多次的切割後,最終處理模組20能得到此7個文字區域可視為目標欄位中的情形,並取得目標欄位中的目標文字。
此外,藉由動態增加文字區域的白邊,可避免字體太過靠近圖片邊緣而影響切割的準確度。另外,以交併比為準則可達到快速收斂圖片的切割次數的效果。
透過內容擷取方法及內容擷取系統,能有效提升發票文件中目標欄位的辨識精確度;內容擷取方法及內容擷取系統可以應用在會計系統中,當廠商開始請款時,會於系統上傳電子檔案發票;透過內容擷取方法及內容擷取系統,會進行至少一階段的區塊切割,擷取出多個目標欄位。後續透過文字辨識系統技術,取出內含文字,同時透過友善的使用者介面,將系統內資料與辨識後的資訊(即目標欄位中的內容)相互比對,以協助內部會計人員快速審視,有效降低會計入帳審核的時間,並減少人為操作造成的錯誤,確實達成人工智慧於會計上的新應用。
100:內容擷取系統
PR:處理器
ST:儲存裝置
10:切割模組
20:處理模組
30:轉換模組
40:校正模組
200:內容擷取方法
210~250,610~630:步驟
IMG0:初始輸入圖片
IMG1:圖片
IMGI’,IMG2,IMGI:校正圖片
(X1,Y1),(X2,Y2):座標
B10,B20,B30,B11,B12,B13,B14,B31,B32,B33,B34,B60,B61:文字區域
B61’:補償文字區域
d:白邊
第1圖係依照本發明實施例繪示一種內容擷取系統之方塊圖。
第2圖係依照本發明實施例繪示一內容擷取方法之流程圖。
第3圖係依照本發明實施例繪示一種產生校正圖片之示意圖。
第4圖係依照本發明實施例繪示一種切割文字區域之示意圖。
第5圖係係依照本發明實施例繪示一種切割文字區域之示意圖。
第6A圖係依照本發明實施例繪示一種切割文字區域之流程圖。
第6B~6C圖係依照本發明實施例繪示一種切割文字區域之示意圖。
第6D圖係依照本發明實施例繪示一種計算交併比之示意圖。
200:內容擷取方法
210~250:步驟
Claims (10)
- 一種內容擷取系統,適用於擷取一文件圖片中的內容,該內容擷取系統包含:一處理器;以及一儲存裝置,該處理器用以存取該儲存裝置所儲存之程式,以實現一切割模組及一處理模組;該切割模組用以接收一校正圖片,其中,該校正圖片中的內容包含複數個文字區域,該切割模組將該校正圖片或一第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),該卷積神經網路輸出該第一文字區域的座標,該切割模組依據該第一文字區域的座標將該第一文字區域切割出來,並將該切割出來的該第一文字區域輸入一文字辨識系統,藉由該文字辨識系統取得第一文字區域中的複數個第一字元,計算該些第一字元的數量,以得到一第一字元數,並判斷該第一字元數是否大於一字元數門檻值;其中,當該切割模組判斷該第一字元數大於該字元數門檻值時,將該第一文字區域輸入該卷積神經網路;其中,當該切割模組判斷該第一字元數不大於該字元數門檻值時,將該第一文字區域傳送至該處理模組;其中,當該切割模組判斷該第一字元數大於該字元數門檻值時,將該第一文字區域輸入該卷積神經網路,並依據該卷積神經網路輸出的一第二文字區域的座標所切割出的一第二文字區域中的一第二字元數,判斷該第二字元數是否大於該字元數門檻值, 直到該切割模組判斷該第二字元數不大於該字元數門檻值時,將該第二文字區域傳送至該處理模組;該處理模組用以計算該第一文字區域與該第二文字區域的一交併比,當該處理模組判斷該交併比大於一交併比門檻值時,將該第一文字區域與該第二文字區域皆視為一目標欄位,並取得該目標欄位中的至少一目標文字。
- 如請求項1之內容擷取系統,其中該處理模組將該第二文字區域的邊界補償空白,以產生一補償文字區域,該處理模組用以計算該第一文字區域與該補償文字區域的該交併比,當該處理模組判斷該交併比大於該交併比門檻值時,將該第一文字區域與該第二文字區域皆視為該目標欄位。
- 如請求項1之內容擷取系統,其中該處理器用以存取該儲存裝置所儲存之程式,以實現一轉換模組;該轉換模組用以接收一檔案,將該檔案轉換成符合一圖檔格式的一初始輸入圖片。
- 如請求項3之內容擷取系統,其中該處理器用以存取該儲存裝置所儲存之程式,以實現一校正模組;該校正模組用以接收該初始輸入圖片,並將該初始輸入圖片進行水平校正,以產生該校正圖片。
- 如請求項1之內容擷取系統,其中該處理模組依據該第一文字區域位於該校正圖片中的座標與該第二文字區域位於該校正圖片中的座標進行交疊,以計算該交併比;其中,當該處理模組判斷該交併比不大於該交併比門檻值時,將該第二文字區域再次輸入該卷積神經網路。
- 一種內容擷取方法,適用於擷取一文件圖片中的內容,該內容擷取方法包含:接收一校正圖片,其中,該校正圖片中的內容包含複數個文字區域;將該校正圖片或一第一文字區域輸入一卷積神經網路(Convolutional Neural Networks,CNN),該卷積神經網路輸出該第一文字區域的座標;依據該第一文字區域的座標將該第一文字區域切割出來,並將該切割出來的該第一文字區域輸入一文字辨識系統,藉由該文字辨識系統取得第一文字區域中的複數個第一字元,計算該些第一字元的數量,以得到一第一字元數,並判斷該第一字元數是否大於一字元數門檻值;當一切割模組判斷該第一字元數大於該字元數門檻值時,該切割模組將該第一文字區域輸入該卷積神經網路;以及當該切割模組判斷該第一字元數不大於該字元數門檻值時,該切割模組將該第一文字區域傳送至一處理模組;其中,當該切割模組判斷該第一字元數大於該字元數門檻值時,該切割模組將該第一文字區域輸入該卷積神經網路,並依據該卷積神經網路輸出的一第二文字區域的座標所切割出的一第二文字區域中的一第二字元數,該切割模組判斷該第二字元數是否大於該字元數門檻值,直到判斷該第二字元數不大於該字元數門檻值時,該切割模組將該第二文字區域傳送至該處理模組;藉由該處理模組計算該第一文字區域與該第二文字區域的一交併比,當判斷該交併比大於一交併比門檻值時,將該第一文字區 域與該第二文字區域皆視為一目標欄位,並取得該目標欄位中的至少一目標文字。
- 如請求項6之內容擷取方法,更包含:藉由該處理模組將該第二文字區域的邊界補償空白,以產生一補償文字區域;以及藉由該處理模組用以計算該第一文字區域與該補償文字區域的該交併比,當該處理模組判斷該交併比大於該交併比門檻值時,將該第一文字區域與該第二文字區域皆視為該目標欄位。
- 如請求項6之內容擷取方法,更包含:接收一檔案,將該檔案轉換成符合一圖檔格式的一初始輸入圖片。
- 如請求項6之內容擷取方法,更包含:接收該初始輸入圖片,並將該初始輸入圖片進行水平校正,以產生該校正圖片。
- 如請求項6之內容擷取方法,更包含:藉由該處理模組依據該第一文字區域位於該校正圖片中的座標與該第二文字區域位於該校正圖片中的座標進行交疊,以計算該交併比;其中,當該處理模組判斷該交併比不大於該交併比門檻值時,將該第二文字區域再次輸入該卷積神經網路。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110116318A TWI769809B (zh) | 2021-05-06 | 2021-05-06 | 內容擷取系統及內容擷取方法 |
CN202110544710.0A CN115311659A (zh) | 2021-05-06 | 2021-05-19 | 内容捕获系统及内容捕获方法 |
US17/361,805 US11587340B2 (en) | 2021-05-06 | 2021-06-29 | Content capturing system and content capturing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110116318A TWI769809B (zh) | 2021-05-06 | 2021-05-06 | 內容擷取系統及內容擷取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI769809B true TWI769809B (zh) | 2022-07-01 |
TW202244777A TW202244777A (zh) | 2022-11-16 |
Family
ID=83439540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110116318A TWI769809B (zh) | 2021-05-06 | 2021-05-06 | 內容擷取系統及內容擷取方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11587340B2 (zh) |
CN (1) | CN115311659A (zh) |
TW (1) | TWI769809B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050036042A1 (en) * | 2003-08-13 | 2005-02-17 | Haas William Robert | Systems and methods for associating images |
CN1670757A (zh) * | 2004-03-18 | 2005-09-21 | 德鑫科技股份有限公司 | 利用神经网络分辨影像中文字与图形的系统及其方法 |
TWM346078U (en) * | 2007-11-30 | 2008-12-01 | Chiung-Wei Huang | Lottery-verifying device and character pattern recognition system using in the same |
TW201820203A (zh) * | 2016-11-25 | 2018-06-01 | 財團法人工業技術研究院 | 字符辨識系統及其字符辨識方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US7099507B2 (en) * | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
TWI284288B (en) * | 2004-06-04 | 2007-07-21 | Benq Corp | Text region recognition method, storage medium and system |
CN101419661B (zh) * | 2007-10-26 | 2011-08-24 | 国际商业机器公司 | 基于图像中的文本进行图像显示的方法和系统 |
US8786781B2 (en) * | 2009-04-09 | 2014-07-22 | Ati Technologies Ulc | Detection and enhancement of in-video text |
KR101468231B1 (ko) * | 2009-09-11 | 2014-12-04 | 삼성전자주식회사 | 라벨 검색 방법 및 장치 |
US10171999B2 (en) * | 2012-12-07 | 2019-01-01 | Sitepro, Llc | Mobile surveillance unit |
US10372981B1 (en) * | 2015-09-23 | 2019-08-06 | Evernote Corporation | Fast identification of text intensive pages from photographs |
US11003831B2 (en) * | 2017-10-11 | 2021-05-11 | Adobe Inc. | Automatically pairing fonts using asymmetric metric learning |
US11024424B2 (en) * | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US11366968B2 (en) * | 2019-07-29 | 2022-06-21 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
US11138423B2 (en) * | 2019-07-29 | 2021-10-05 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
US11393234B2 (en) * | 2020-01-21 | 2022-07-19 | Canon Kabushiki Kaisha | Image processing system for computerizing document, control method thereof, and storage medium |
-
2021
- 2021-05-06 TW TW110116318A patent/TWI769809B/zh active
- 2021-05-19 CN CN202110544710.0A patent/CN115311659A/zh active Pending
- 2021-06-29 US US17/361,805 patent/US11587340B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050036042A1 (en) * | 2003-08-13 | 2005-02-17 | Haas William Robert | Systems and methods for associating images |
CN1670757A (zh) * | 2004-03-18 | 2005-09-21 | 德鑫科技股份有限公司 | 利用神经网络分辨影像中文字与图形的系统及其方法 |
TWM346078U (en) * | 2007-11-30 | 2008-12-01 | Chiung-Wei Huang | Lottery-verifying device and character pattern recognition system using in the same |
TW201820203A (zh) * | 2016-11-25 | 2018-06-01 | 財團法人工業技術研究院 | 字符辨識系統及其字符辨識方法 |
Also Published As
Publication number | Publication date |
---|---|
US11587340B2 (en) | 2023-02-21 |
US20220358319A1 (en) | 2022-11-10 |
CN115311659A (zh) | 2022-11-08 |
TW202244777A (zh) | 2022-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079570B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN109815788B (zh) | 一种图片聚类方法、装置、存储介质及终端设备 | |
KR102048390B1 (ko) | 심층 신경망 기반의 인식 장치, 트레이닝 장치, 및 이들의 방법 | |
WO2020252917A1 (zh) | 一种模糊人脸图像识别方法、装置、终端设备及介质 | |
US10311099B2 (en) | Method and system for 3D model database retrieval | |
CN113869293B (zh) | 车道线识别方法、装置、电子设备和计算机可读介质 | |
US11875599B2 (en) | Method and device for detecting blurriness of human face in image and computer-readable storage medium | |
US20210201068A1 (en) | Image processing method and apparatus, and electronic device | |
WO2020125229A1 (zh) | 特征融合方法、装置、电子设备及存储介质 | |
US11514548B1 (en) | Machine-learning for enhanced machine reading of non-ideal capture conditions | |
US12086982B2 (en) | Method for confirming cup-disc ratio based on neural network, apparatus, device, and computer readable storage medium | |
US20200184682A1 (en) | Object pose tracking method and apparatus | |
WO2023056723A1 (zh) | 故障诊断的方法、装置、电子设备及存储介质 | |
CN113326821B (zh) | 一种视频帧图像的人脸驱动方法及装置 | |
CN109447022B (zh) | 一种镜头类型识别方法及装置 | |
AU2020294190B2 (en) | Image processing method and apparatus, and electronic device | |
CN112307850A (zh) | 神经网络训练方法、车道线检测方法、装置和电子设备 | |
CN111222368A (zh) | 一种识别文档段落的方法、装置及电子设备 | |
JP2022185143A (ja) | テキスト検出方法、テキスト認識方法及び装置 | |
CN114724133B (zh) | 文字检测和模型训练方法、装置、设备及存储介质 | |
TWI769809B (zh) | 內容擷取系統及內容擷取方法 | |
CN117152760A (zh) | 图像处理方法、终端设备及存储介质 | |
US20220406082A1 (en) | Image processing apparatus, image processing method, and storage medium | |
CN115393669A (zh) | 训练样本集确定、模型训练、目标检测方法和装置 | |
US11847861B2 (en) | Method and system for providing signature recognition and attribution service for digital documents |