TWI810623B

TWI810623B - 文件校對方法及裝置、電腦可讀取的記錄媒體

Info

Publication number: TWI810623B
Application number: TW110128765A
Authority: TW
Inventors: 穎欣李; 邱建中; 李藝鋒; 宋政隆; 王俊權
Original assignee: 中國信託商業銀行股份有限公司
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-08-01
Also published as: TW202307730A

Abstract

一種文件校對方法，由一電腦裝置取得一原始文件檔案中被複數個第一文字框框選的文字和一待驗文件影像檔案中被複數個第二文字框框選的文字，且將M(2≤M≤N)個框選的文字是唯一的之第一文字框配對到M個框選的文字是唯一的之第二文字框，並取得M個第一文字框與M個第二文字框的四個角點及中點位置的座標，且根據M個第一文字框的該等座標和M個第二文字框的該等座標的對應關係計算一座標轉換矩陣，並利用座標轉換矩陣將該等第一文字框投影到該待驗文件影像檔案中，再比對原始文件檔案之被該第一文字框框選的文字與待驗文件影像檔案之被該第一文字框框選的文字。

Description

文件校對方法及裝置、電腦可讀取的記錄媒體

本發明是有關於一種校對方法，特別是指一種比對兩份文件相異處之文件校對方法。

在銀行、保險業等行業中，合約、同意書等客戶簽名的文件常需要人力進行校對確認，往往會耗費大量時間。而要找出原文件檔案與其經掃描或拍攝所產生的影像檔案的相異處，除了人工進行校對外，現有一種做法是先利用人工智慧訓練完成的深度學習模型對影像檔案進行文字偵測並產生文字框框選找到的文字影像，再對文字框框選的文字影像進行辨識，然後將辨識出來的整篇文字與原文件檔案作比對。這種做法的確可以迅速取得結果，但原文件檔案經過掃描或拍攝後產生的影像經常會有位移、旋轉、雜訊及手寫文字/簽名等狀況，易使得深度學習模型無法偵測並以文字框框選某些文字影像而影響文字辨識的準確度。

因此，本發明之目的，即在提供一種文件校對方法以及實現該方法的一種文件校對裝置和一種電腦可讀取的記錄媒體，其能精準地找出原始文件檔案中的文字與其經掃描或拍攝後產生的影像檔案中的文字的對應關係，以精準比對兩份文件的差異。

於是，本發明一種文件校對方法，用以校對一原始文件檔案與一待驗文件影像檔案，該方法包括下列步驟：(A)一電腦裝置取得該原始文件檔案中的複數個第一文字框以及被各該第一文字框框選的文字，並取得該待驗文件影像檔案中的複數個第二文字框以及被各該第二文字框框選的文字；(B)該電腦裝置判斷該原始文件檔案中至少N(N

2且N為正整數)個第一文字框所框選的文字是唯一的時，根據該N個第一文字框配對到該待驗文件影像檔案中框選唯一出現的文字的M(2

M

N且M為正整數)個第二文字框；(C)該電腦裝置取得配對的M個第一文字框與M個第二文字框的四個角點及其中點位置的座標；(D)該電腦裝置根據配對的M個第一文字框的該等座標和M個第二文字框的該等座標之間的對應關係，計算一座標轉換矩陣；(E)該電腦裝置根據該座標轉換矩陣，將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中，並取得該待驗文件影像檔案中被各該第一文字框框選的文字；及(F)該電腦裝置比對該原始文件檔案之被各該第一文字框框選的文字與該待驗文件影像檔案之被各該第一文字框框選的文字，並輸出一比對結果。

在本發明的一些實施態樣中，在步驟(B)中，該電腦裝置判斷該原始文件檔案中少於N個第一文字框所框選的文字是唯一的時，則記錄該原始文件檔案中框選的文字相同的該等第一文字框及其數量，並記錄該待驗文件影像檔案中框選的文字相同的該等第二文字框及其數量，且將該原始文件檔案中框選的文字相同的該等第一文字框與該待驗文件影像檔案中框選的文字相同且數量與該等第一文字框相同的該等第二文字框進行配對；在步驟(C)中，該電腦裝置將該原始文件檔案中框選的文字相同的該等第一文字框以一第一矩形框框在其中，並取得至少兩個該第一矩形框的四個角點及其中點位置的座標，且將該待驗文件影像檔案中框選的文字相同的該等第二文字框以一第二矩形框框在其中，並取得與至少兩個該第一矩形框配對的至少兩個該第二矩形框的四個角點及其中點位置的座標；在步驟(D)中，該電腦裝置根據配對的至少兩個該第一矩形框的該等座標以及至少兩個該第二矩形框的該等座標之間的對應關係，計算該座標轉換矩陣。

在本發明的一些實施態樣中，該電腦裝置還取得該原始文件檔案和該待驗文件影像檔案的頁數，且該電腦裝置判斷該原始文件檔案的頁數和該待驗文件影像檔案的頁數相同後，才執行步驟(A)。

在本發明的一些實施態樣中，該座標轉換矩陣是單應性矩陣。

再者，本發明實現上述文件校對方法的一種文件校對裝置，用以校對一原始文件檔案與一待驗文件影像檔案，並包括一儲存單元及一處理單元，該儲存單元儲存該原始文件檔案與該待驗文件影像檔案；該處理單元能存取該儲存單元並包含一文字擷取模組、一文字框配對模組、一轉換矩陣產生模組、一文字框投影模組及一比對模組；其中，該文字擷取模組從該原始文件檔案中取得複數個第一文字框以及被各該第一文字框框選的文字，並從該待驗文件影像檔案中取得複數個第二文字框以及被各該第二文字框框選的文字；該文字框配對模組判斷該原始文件檔案中至少N(N

M

N且M為正整數)個第二文字框，並取得配對的M個第一文字框與M個第二文字框的四個角點及其中點位置的座標；該轉換矩陣產生模組根據配對的M個第一文字框的該等座標以及M個第二文字框的該等座標之間的對應關係，計算一座標轉換矩陣；該文字框投影模組根據該座標轉換矩陣，將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中，並取得該待驗文件影像檔案中被各該第一文字框框選的文字；該比對模組比對該原始文件檔案之被各該第一文字框框選的文字與該待驗文件影像檔案之被各該第一文字框的文字資訊，並輸出一比對結果。

在本發明的一些實施態樣中，該文字框配對模組判斷該原始文件檔案中少於N個第一文字框所框選的文字是唯一的時，則記錄該原始文件檔案中框選的文字相同的該等第一文字框及其數量，並記錄該待驗文件影像檔案中框選的文字相同的該等第二文字框及其數量，且將該原始文件檔案中框選的文字相同的該等第一文字框與該待驗文件影像檔案中框選的文字相同且數量與該等第一文字框相同的該等第二文字框進行配對，並且將該原始文件檔案中框選的文字相同的該等第一文字框以一第一矩形框框在其中，並取得至少兩個該第一矩形框的四個角點及其中點位置的座標，且將該待驗文件影像檔案中框選的文字相同的該等第二文字框以一第二矩形框框在其中，並取得與至少兩個該第一矩形框配對的至少兩個該第二矩形框的四個角點及其中點位置的座標；該轉換矩陣產生模組根據配對的至少兩個該第一矩形框的該等座標以及至少兩個該第二矩形框的該等座標之間的對應關係，計算該座標轉換矩陣。

在本發明的一些實施態樣中，該文字擷取模組還取得該原始文件檔案和該待驗文件影像檔案的頁數，且該文字擷取模組判斷該原始文件檔案的頁數和該待驗文件影像檔案的頁數相同後，才從該原始文件檔案中取得該等第一文字框以及被各該第一文字框框選的文字，並從該待驗文件影像檔案中取得該等第二文字框以及被各該第二文字框框選的文字。

此外，本發明一種電腦可讀取的記錄媒體，其中儲存一包含一文字擷取模組、一文字框配對模組、一轉換矩陣產生模組、一文字框投影模組及一比對模組的程式，該程式被一電腦裝置載入並執行後，該電腦裝置能完成如上所述的文件校對方法。

本發明之功效在於：藉由將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中，再對該待驗文件影像檔案中被該等第一文字框框選的內容進行文字辨識，能解決該待驗文件影像檔案中某些文字因為位移、旋轉、雜訊或手寫文字/簽名/塗改等狀況而無法被偵測到的問題。

1、4:原始文件檔案

11、11’、41、41’:第一文字框

42:第一矩形框

2、5:待驗文件影像檔案

21、21’、51、51’:第二文字框

52:第二矩形框

3:文件校對裝置

31:儲存單元

32:處理單元

321:文字擷取模組

322:文字框配對模組

323:轉換矩陣產生模組

324:文字框投影模組

325:比對模組

S1~S6、S3’、S4’:步驟

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地顯示，其中：圖1是本發明文件校對方法的一實施例的主要流程；圖2是一原始文件檔案的示意圖；圖3是一待驗文件影像檔案的示意圖；圖4是本發明文件校對裝置的一實施例包括的硬體元件和模組方塊示意圖；圖5是在該原始文件檔案中以第一文字框框選偵測到的文字的示意圖；圖6是在該待驗文件影像檔案中以第二文字框框選偵測到的文字的示意圖；圖7是說明圖6所示的部分第一文字框與部分第二文字框配對的示意圖；圖8是說明取得配對的第一文字框和第二文字框的四個角點與中點位置的座標的示意圖；圖9是說明將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中的示意圖；圖10說明第一文字框的座標藉由座標轉換矩陣轉換成投影到該待驗文件影像檔案中的座標；圖11是說明該原始文件檔案中的第一文字框與該待驗文件影像檔案中的第二文字框的配對關係的示意圖；圖12說明將該原始文件檔案中框選相同文字的該等第一文字框以第一矩形框框在其中以及將該待驗文件影像檔案中框選相同文字的該等第二文字框以第二矩形框框在其中；圖13是說明取得該等第一文字框和該等第二文字框的四個角點與中點位置的座標的示意圖；及圖14是說明將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中的示意圖。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1所示，是本發明文件校對方法的一實施例的主要流程，其用以校對如圖2所示的一原始文件檔案1與如圖3所示的一待驗文件影像檔案2，其中，該待驗文件影像檔案2是該原始文件檔案1的紙本經過掃描或拍攝所產生；且本實施例的方法流程是由圖4所示的文件校對裝置3所實現，該文件校對裝置3是一電腦裝置，其主要包括一儲存單元31(例如電腦中內建、安裝或外接的記憶體模組)、一能存取該儲存單元31的處理單元32(例如中央處理器)以及圖4未示的其它相關零組件等。該儲存單元31中儲存或暫存要進行校對的該原始文件檔案1和該待驗文件影像檔案2；該處理單元32中預先載入有從一電腦可讀取的記錄媒體(例如該儲存單元31)讀取並可被該處理單元32執行的一程式，該程式包含一文字擷取模組321、一文字框配對模組322、一轉換矩陣產生模組323、一文字框投影模組324及一比對模組325。

藉此，如圖1的步驟S1，當該處理單元32執行該程式，該文字擷取模組321從該儲存單元31讀取該原始文件檔案1並偵測該原始文件檔案1的內容是否有文字，並將偵測到的文字以第一文字框11框選起來，以從該原始文件檔案1中獲得複數個第一文字框11以及被各該第一文字框11框選的內容12，如圖5所示；具體而言，該文字擷取模組321判斷該原始文件檔案1是PDF 格式時，則會使用文字偵測軟體，例如但不限於pdfminer等工具以文字框將偵測到的文字框選起來並讀取被文字框框選的內容，即文字資訊；且若該文字擷取模組321判斷該原始文件檔案1是DOC/ODF等文檔格式時，則將該原始文件檔案1轉換或轉存成PDF格式的檔案，再以上述文字偵測軟體偵測該原始文件檔案1中的文字並以文字框框選起來且讀取被文字框框選的內容，即文字資訊。

而若該文字擷取模組321判斷該原始文件檔案1是影像檔案時，則利用預先藉由深度學習訓練完成且用以偵測文字的一文字偵測模型，例如但不限於RCNN(Region-based Convolutional Neural Networks，基於區域的卷積神經網路)或YOLO(You Only Look Once)等深度學習模型，對該原始文件檔案1進行文字偵測並將偵測到的文字以文字框框選起來。然後，該文字擷取模組321再利用預先藉由深度學習訓練完成且用以辨識文字的一文字辨識模型，對該原始文件檔案1中被第一文字框11框選的內容進行文字辨識，以取得被該等第一文字框11框選的內容，即文字資訊，例如圖5中第一列的Cat、Dog，第二列的Fish、King，第三列的Dog、Egg，第四列的Dog、Egg...等。

同時，如圖6所示，該文字擷取模組321利用上述的該文字偵測模型偵測該待驗文件影像檔案2中的文字而產生複數個第二文字框21，再利用該文字辨識模型對該待驗文件影像檔案2中被第二文字框21框選的內容進行文字辨識，以取得各該第二文字框21框選的內容，即文字資訊，例如圖6中第一列的Cat、Dog，第二列的King，第三列的Dog、Egg，第四列的Egg...等；且由於該待驗文件影像檔案2可能是該原始文件檔案1經手寫文字/簽名/塗改等後經由掃描或拍攝所產生，所以其影像內容可能出現位移、旋轉、雜訊及手寫文字/簽名/塗改等狀況，而影響該文字偵測模型偵測文字及找到文字框，例如，當該待驗文件影像檔案2第四列中的”Dog”上出現一交叉斜線(或雜訊)時，該文字偵測模型將誤判該處沒有文字而沒有產生文字框框選”Dog”這個影像，且因為只有被第二文字框21框選的內容會被輸入該文字辨識模型中進行文字辨識，因而導致”Dog”這個字沒有被辨識出來。

值得一提的是，在進行上述步驟S1之前，該文字擷取模組321還可取得該原始文件檔案1和該待驗文件影像檔案2的頁數，且該文字擷取模組321判斷該原始文件檔案1的頁數和該待驗文件影像檔案2的頁數相同後，才執行步驟S1，否則即判定這兩份文件可能並無關聯而不執行步驟S1並輸出一文件錯誤訊息。

接著，該處理單元32執行圖1的步驟S2，令該文字框配對模組322判斷該原始文件檔案1中是否有至少N(N

2且N為正整數)個第一文字框11所框選的文字在該原始文件檔案1中是唯一的，若是，例如圖7所示，其中有五個第一文字框11’所框選的文字在該原始文件檔案1中是唯一出現的，即Cat、Fish、King、Car和Apple，則如圖1的步驟S3，該文字框配對模組322根據該五個第一文字框11’配對到該待驗文件影像檔案2中框選唯一出現的文字(例如圖7中的Cat、King、Car和Apple)的M(2

M

N)個第二文字框21’，在此M等於4，即該待驗文件影像檔案2中有四個第二文字框21’框選唯一出現的文字且所框選的文字與該五個第一文字框11’其中的四個第一文字框11’框選的文字配對；值得一提的是，該待驗文件影像檔案2中框選唯一出現的文字的第二文字框21’的數量不一定會與第一文字框11’相同(如同上述)，不過只要該待驗文件影像檔案2中框選唯一出現的文字的第二文字框21’的數量至少兩個且所框選的文字和該五個第一文字框11’所框選的文字其中至少兩個配對即可。

然後，如圖8所示，該文字框配對模組322取得配對的四個第一文字框11’與四個第二文字框21’的四個角點及其中點位置(如圖8中的黑點)的座標；且此處所述的座標是指在該原始文件檔案1和在該待驗文件影像檔案2上的圖素位置。

接著，如圖1的步驟S4，該處理單元32令該轉換矩陣產生模組323根據配對的四個第一文字框11’的該等座標(共25個座標)以及四個第二文字框21’的該等座標(共25個座標)之間的對應關係，計算一用以將該原始文件檔案1中的該等第一文字框11投影到該待驗文件影像檔案2中的座標轉換矩陣，且在本實施例中，該座標轉換矩陣可以是但不限於單應性矩陣(Homography matrix)。

然後，如圖1的步驟S5，該處理單元32令該文字框投影模組324根據該座標轉換矩陣，將該原始文件檔案1中的該等第一文字框11投影到該待驗文件影像檔案2中，如圖9所示；舉例來說，如圖10所示，以該原始文件檔案1中框選第一列的”Cat”的第一文字框11為例，將該第一文字框11的四個角點的座標(3,3)、(6,3)、(3,5)、(6,5)乘以該座標轉換矩陣H後，該第一文字框11的四個角點座標將轉換成(2,2)、(5,2)、(2,4)、(5,4)，且投影到該待驗文件影像檔案2時，該第一文字框11將剛好框選該待驗文件影像檔案2中的”Cat”。

藉此，即使該待驗文件影像檔案2之第四列中出現雜訊(交叉斜線)的”Dog”原本並未被偵測出來而未被第二文字框21框選，藉由上述將該原始文件檔案1中的全部第一文字框11投影到該待驗文件影像檔案2之步驟，則可將該待驗文件影像檔案2的第四列中未被偵測出來但在該原始文件檔案1的第四列中存在的”Dog”文字被第一文字框11框選起來，而彌補該待驗文件影像檔案2內容因為出現位移、旋轉、雜訊或手寫文字/簽名/塗改等狀況，導致文字無法被準確偵測到的缺點。

然後，該文字框投影模組324再利用上述的該文字辨識模型對該待驗文件影像檔案2中被該等第一文字框11框選的內容進行文字辨識，以獲得該待驗文件影像檔案2中被各該第一文字框11框選的文字資訊。

最後，如圖1的步驟S6，該處理單元32令該比對模組325比對該原始文件檔案1之被各該第一文字框11框選的文字與該待驗文件影像檔案2之被各該第一文字框11框選的文字，並輸出一比對結果，該比對結果可以是輸出或者標註該原始文件檔案1與該待驗文件影像檔案2內容相異之處，或者進一步判斷兩份文件之間的相異處是否大於設定的一門檻值，若是，則判定兩份文件的相異處過多，兩者可能並無關聯並輸出一錯誤訊息等。

此外，再回到上述的步驟S2，當該文字框配對模組322判斷如圖11所示的該原始文件檔案4中少於N個第一文字框41所框選的文字是唯一的時，則執行圖1的步驟S3’，該文字框配對模組322記錄該原始文件檔案4中框選的文字相同的該等第一文字框41及其數量(例如框選”Cat”的第一文字框41有兩個，框選”Dog”的第一文字框41有兩個，框選”Fish”的第一文字框41有兩個，框選”Egg”的第一文字框41有三個，框選”King”的第一文字框41有一個，框選”Apple”的第一文字框41有三個，框選”Car” 的第一文字框41有兩個)，以及記錄如圖11所示的該待驗文件影像檔案5中框選的文字相同的該等第二文字框51及其數量(例如框選”Cat”的第二文字框51有一個，框選”Dog”的第二文字框51有兩個，框選”Fish”的第二文字框51有兩個，框選”Egg”的第二文字框51有兩個，框選”King”的第二文字框51有一個，框選”Apple”的第二文字框51有兩個，框選”Car”的第二文字框51有兩個)。

然後，該文字框配對模組322將該原始文件檔案4中框選的文字相同的該等第一文字框41與該待驗文件影像檔案5中框選的文字相同且數量與該等第一文字框41相同的該等第二文字框51進行配對，例如圖11所示，該原始文件檔案4中框選”Dog”、”Fish”、”King”、”Car”的該等第一文字框41’能與該待驗文件影像檔案5中框選”Dog”、”Fish”、”King”、”Car”的該等第二文字框51’配對；且如圖12所示，該文字框配對模組322將該原始文件檔案4中框選的文字相同且與該待驗文件影像檔案5中該等第二文字框51’配對的該等第一文字框41’以一第一矩形框42框在其中，亦即以第一矩形框42將所有相同的文字皆包含在其中；同理，該文字框配對模組322也將該待驗文件影像檔案5中框選的文字相同且與該原始文件檔案4中該等第一文字框41’配對的該等第二文字框51’以一第二矩形框52框在其中，亦即以第二矩形框52將所有相同的文字皆包含在其中。

然後，如圖13所示，該文字框配對模組322取得該等第一矩形框42(共有四個)與該等第二矩形框52(共有四個)的四個角點及其中點位置(如圖13中的黑點)的座標，接著，該處理單元32執行圖1的步驟S4’，令該轉換矩陣產生模組323根據該等第一矩形框42的該等座標以及該等該第二矩形框52的該等座標之間的對應關係，計算該座標轉換矩陣。值得一提的是，該文字框配對模組322可以不用取全部的該第一矩形框42以及全部的該等該第二矩形框52的四個角點及其中點位置的座標來計算該座標轉換矩陣，亦即，也可以只取至少兩個該等第一矩形框42和與至少兩個第一矩形框42配對的至少兩個第二矩形框52的四個角點及其中點位置的座標來計算該座標轉換矩陣。

接著，進行上述的步驟S5，該文字框投影模組324根據步驟S4’計算得到的該座標轉換矩陣，將該原始文件檔案4中的該等第一文字框41投影到該待驗文件影像檔案5中，如圖14所示，藉此，該待驗文件影像檔案5之第三列中原本未被該第二文字框51框選的文字”Egg”就能被該第一文字框41框選，因此，當將該待驗文件影像檔案5中被該等第一文字框41框選的內容輸入該文字辨識模型進行辨識時，該待驗文件影像檔案5之第三列中原本被漏掉的文字”Egg”即能夠被該文字辨識模型辨識出來。

最後，進行如上所述的步驟S6，該處理單元32令該比對模組325比對該原始文件檔案4之被各該第一文字框41框選的文字資訊與該待驗文件影像檔案5之被各該第一文字框41框選的文字資訊，並輸出一比對結果。

綜上所述，由於該原始文件檔案1、4中的內容通常較該原始文件檔案1、4經掃描或拍攝後產生的該待驗文件影像檔案2、5中的內容來得清晰正確，因此相較於該待驗文件影像檔案2、5，該原始文件檔案1、4中的文字內容更能夠被直接讀取(例如該原始文件檔案1、4是PDF檔)或者被文字偵測軟體準確地偵測(例如該原始文件檔案1、4是影像檔)並以文字框框選起來；所以上述實施例藉由將該原始文件檔案1、4中的該等第一文字框11、41投影到該待驗文件影像檔案2、5中，再對該待驗文件影像檔案2、5中被該等第一文字框11、41框選的內容進行文字辨識，而解決該待驗文件影像檔案2、5中某些文字因為位移、旋轉、雜訊或手寫文字/簽名/塗改等狀況而無法被準確偵測到的問題，確實達到本發明的功效與目的。

惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

S1~S6:步驟

S3’、S4’:步驟

Claims

一種文件校對方法，用以校對一原始文件檔案與一待驗文件影像檔案，該方法包括下列步驟： (A) 一電腦裝置取得該原始文件檔案中的複數個第一文字框以及被各該第一文字框框選的文字，並取得該待驗文件影像檔案中的複數個第二文字框以及被各該第二文字框框選的文字； (B) 該電腦裝置判斷該原始文件檔案中有N(N≥2且N為正整數)個第一文字框所框選的文字是唯一的時，根據該N個第一文字框配對到該待驗文件影像檔案中框選唯一出現的文字的M(2≤M≤N且M為正整數)個第二文字框； (C) 該電腦裝置取得配對的M個第一文字框與M個第二文字框的四個角點及其中點位置的座標； (D) 該電腦裝置根據配對的M個第一文字框的該等座標和M個第二文字框的該等座標之間的對應關係，計算一座標轉換矩陣； (E) 該電腦裝置根據該座標轉換矩陣，將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中，並取得該待驗文件影像檔案中被各該第一文字框框選的文字；及 (F) 該電腦裝置比對該原始文件檔案之被各該第一文字框框選的文字與該待驗文件影像檔案之被各該第一文字框框選的文字，並輸出一比對結果。
如請求項1所述的文件校對方法，在步驟(B)中，該電腦裝置判斷該原始文件檔案中少於N個第一文字框所框選的文字是唯一的時，則記錄該原始文件檔案中框選的文字相同的該等第一文字框及其數量，並記錄該待驗文件影像檔案中框選的文字相同的該等第二文字框及其數量，且將該原始文件檔案中框選的文字相同的該等第一文字框與該待驗文件影像檔案中框選的文字相同且數量與該等第一文字框相同的該等第二文字框進行配對；在步驟(C)中，該電腦裝置將該原始文件檔案中框選的文字相同的該等第一文字框以一第一矩形框框在其中，並取得至少兩個該第一矩形框的四個角點及其中點位置的座標，且將該待驗文件影像檔案中框選的文字相同的該等第二文字框以一第二矩形框框在其中，並取得與至少兩個該第一矩形框配對的至少兩個該第二矩形框的四個角點及其中點位置的座標；在步驟(D)中，該電腦裝置根據配對的至少兩個該第一矩形框的該等座標以及至少兩個該第二矩形框的該等座標之間的對應關係，計算該座標轉換矩陣。
如請求項1或2所述的文件校對方法，其中該電腦裝置還取得該原始文件檔案和該待驗文件影像檔案的頁數，且該電腦裝置判斷該原始文件檔案的頁數和該待驗文件影像檔案的頁數相同後，才執行步驟(A)。
如請求項1或2所述的文件校對方法，其中該座標轉換矩陣是單應性矩陣。
一種文件校對裝置，用以校對一原始文件檔案與一待驗文件影像檔案，並包括：一儲存單元，其中儲存該原始文件檔案與該待驗文件影像檔案；及一處理單元，其能存取該儲存單元並包含一文字擷取模組、一文字框配對模組、一轉換矩陣產生模組、一文字框投影模組及一比對模組；其中該文字擷取模組從該原始文件檔案中取得複數個第一文字框以及被各該第一文字框框選的文字，並從該待驗文件影像檔案中取得複數個第二文字框以及被各該第二文字框框選的文字；該文字框配對模組判斷該原始文件檔案中至少N(N≥2且N為正整數)個第一文字框所框選的文字是唯一的時，根據該N個第一文字框配對到該待驗文件影像檔案中框選唯一出現的文字的M(2≤M≤N且M為正整數)個第二文字框，並取得配對的M個第一文字框與M個第二文字框的四個角點及其中點位置的座標；該轉換矩陣產生模組根據配對的M個第一文字框的該等座標以及M個第二文字框的該等座標之間的對應關係，計算一座標轉換矩陣；該文字框投影模組根據該座標轉換矩陣，將該原始文件檔案中的該等第一文字框投影到該待驗文件影像檔案中，並取得該待驗文件影像檔案中被各該第一文字框框選的文字；該比對模組比對該原始文件檔案之被各該第一文字框框選的文字與該待驗文件影像檔案之被各該第一文字框的文字資訊，並輸出一比對結果。
如請求項5所述的文件校對裝置，其中該文字框配對模組判斷該原始文件檔案中少於N個第一文字框所框選的文字是唯一的時，則記錄該原始文件檔案中框選的文字相同的該等第一文字框及其數量，並記錄該待驗文件影像檔案中框選的文字相同的該等第二文字框及其數量，且將該原始文件檔案中框選的文字相同的該等第一文字框與該待驗文件影像檔案中框選的文字相同且數量與該等第一文字框相同的該等第二文字框進行配對，並且將該原始文件檔案中框選的文字相同的該等第一文字框以一第一矩形框框在其中，並取得至少兩個該第一矩形框的四個角點及其中點位置的座標，且將該待驗文件影像檔案中框選的文字相同的該等第二文字框以一第二矩形框框在其中，並取得與至少兩個該第一矩形框配對的至少兩個該第二矩形框的四個角點及其中點位置的座標；該轉換矩陣產生模組根據配對的至少兩個該第一矩形框的該等座標以及至少兩個該第二矩形框的該等座標之間的對應關係，計算該座標轉換矩陣。
如請求項5或6所述的文件校對裝置，其中該文字擷取模組還取得該原始文件檔案和該待驗文件影像檔案的頁數，且該文字擷取模組判斷該原始文件檔案的頁數和該待驗文件影像檔案的頁數相同後，才從該原始文件檔案中取得該等第一文字框以及被各該第一文字框框選的文字資訊，並從該待驗文件影像檔案中取得該等第二文字框以及被各該第二文字框框選的文字資訊。
如請求項5或6所述的文件校對裝置，其中該座標轉換矩陣是單應性矩陣。
一種電腦可讀取的記錄媒體，其中儲存一包含一文字擷取模組、一文字框配對模組、一轉換矩陣產生模組、一文字框投影模組及一比對模組的程式，該程式被一電腦裝置載入並執行後，該電腦裝置能完成如請求項1至4其中任一項所述的文件校對方法。