TWM634167U

TWM634167U - 文件比對系統

Info

Publication number: TWM634167U
Application number: TW111207937U
Authority: TW
Inventors: 高瑞雲; 吳郁芳; 楊盛凱
Original assignee: 台塑網科技股份有限公司
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-11

Abstract

一種文件比對系統，包括使用者裝置與伺服主機。使用者裝置適於輸入擬校稿文件與底稿文件。伺服主機包括資料接收模組、文件轉換模組、文件比對模組、輸出模組及資料庫模組。資料接收模組適於接收擬校稿文件與底稿文件。文件轉換模組適於將擬校稿文件與底稿文件處理為相同尺寸，並對齊擬校稿文件與底稿文件。文件比對模組對擬校稿文件與底稿文件實施文字辨識，比較其中的文字，並產生多筆差異資料。輸出模組將差異資料傳送至一使用者裝置。資料庫模組適於儲存擬校稿文件、底稿文件與差異資料。

Description

文件比對系統

一種比對系統，特別是一種文件比對系統。

依據現行法規，所發行的藥物都需要附上仿單，即是記載品名、製造批號、製造廠名稱地址、藥商名稱、地址、使用說明、注意事項等資料的文件。目前藥廠將這些資料交付給印刷廠進行印刷。

對於印刷完成的仿單，目前藥廠仍是透過人工檢查印刷是否正確，然而仿單的內容通常非常繁雜，並且仿單紙張大小有限而字體不大，閱讀上並不容易，因此人工檢查的效率低落，並且無法有效地找出印刷錯誤的位置。

因此，如何解決上述問題便是本領具通常知識者值得去思量的。

有鑑於此，本創作提供一種文件比對系統，用於比對擬校稿文件與底稿文件，提供更有效更快速的比對方式，更能夠找出印刷錯誤的位置。齊具體技術手段如下：一種文件比對系統，包括至少一使用者裝置與至少一伺服主機。使用者裝置適於輸入一擬校稿文件與一底稿文件。伺服主機通訊連接至該使用者裝置，該伺服主機包括一資料接收模組、一文件轉換模組、一文件比對模組、一輸出模組及一資料庫模組。資料接收模組適於接收一擬校稿文件與一底稿文件，並產生一專案資料。文件轉換模組適於將該擬校稿文件與該底稿文件處理為相同尺寸，並對齊該擬校稿文件與該底稿文件。文件比對模組對該擬校稿文件與該底稿文件實施文字辨識，並比較該擬校稿文件與該底稿文件中的文字，並產生多筆差異資料，該差異資料是對應至該專案資料。輸出模組將該差異資料傳送至一使用者裝置。資料庫模組適於儲存該擬校稿文件、該底稿文件、該差異資料與該專案資料。

於上述之文件比對系統中，該擬校稿文件與該底稿文件為影像格式或PDF格式。

於上述之文件比對系統中，該文件轉換模組是經由特徵點檢測匹配演算法(AKAZE)找出特徵點，並對齊該擬校稿文件與該底稿文件。

於上述之文件比對系統中，該文件對比模組是更由萊文斯坦距離演算法比較該擬校稿文件與該底稿文件中的文字。

於上述之文件比對系統中，該輸出模組是經由電子郵件或推播將該差異資料傳送至該使用者裝置。

S10~S92:流程圖步驟

10:底稿文件

20:擬校稿文件

11a、11b、11c、11d、21a、21b、21c、22d:特徵點

12、12a、12b、12c、22、22a、22b、22c:文字區塊

100:文件比對系統

101:使用者裝置

102:伺服主機

110:資料接收模組

120:文件轉換模組

130:文件比對模組

140:輸出模組

150:資料庫模組

圖1A所繪示為本創作的文字件比對方法。

圖1B所繪示為對齊擬校稿文件與底稿文件的方法。

圖1C所繪示為比對文字差異的方法。

圖1D所繪示為二值化與顏色調整的步驟圖。

圖2A所繪示為底稿文件的示意圖。

圖2B所繪示為擬校稿文件的示意圖。

圖3A所繪示為產生文字區塊的底稿文件。

圖3B所繪示為產生文字區塊的擬校稿文件。

圖4所繪示為對齊與重疊的示意圖。

圖5所繪示為文件比對系統之架構圖。

請參閱圖1A，圖1A所繪示為本創作的文字件比對方法。本創作之文字件比對方法是由一計算機執行，計算機是能夠根據一系列指令指示並且自動執行任意算術或邏輯操作序列的裝置，例如為電腦或伺服主機。首先，進行步驟S10，提供一對比資料與一底稿文件。其中，對比資料例如為印刷之後的紙本仿單影像，是經過掃描之後所呈現的文件影像。底稿文件例如為原始的仿單資料，換句話說，底稿文件可經由印刷輸出成對比資料。

接著，進行步驟S20，判斷擬校稿文件與底稿文件的尺寸，若尺寸不同，便將擬校稿文件與底稿文件調整為相同尺寸。具體來說，是判斷擬校稿文件與底稿文件的長與高的像素值(Pixel)，若擬校稿文件與底稿文件的尺寸不同，則重新繪製並產生相同尺寸的擬校稿文件與底稿文件。

之後，進行步驟S30，對齊擬校稿文件與底稿文件，即是將相同尺寸的擬校稿文件與底稿文件相疊合。請參閱圖1B，圖1B所繪示為對齊擬校稿文件與底稿文件的方法，首先進行步驟S31，提取擬校稿文件與底稿文件中的多個特徵點。接著，進行步驟S32，匹配這些特徵，即是根據特徵點的位置進行匹配。

請參閱圖2A與圖2B，圖2A所繪示為底稿文件的示意圖，圖2B所繪示為擬校稿文件的示意圖。而擬校稿文件20為紙本文件所形成的影像，影像形成的過程可能因人為擺設或設備問題，以至於影像有所偏移，因此需要轉換擬校稿文件，讓擬校稿文件與底稿文件的視角更為接近，以利於後續的對齊。其中，特徵點便是擬校稿文件20與底稿文件10中相對應的特徵點，例如文件的四個角11a、21a、文件上的圖標11b、21b、關鍵文字11c、21c或是段落標題11d、21d等。接著匹配對應的特徵點，便是將擬校稿文件20與底稿文件10中相對應的特徵點相匹配，例如擬校稿文件20中文件的四個角21a與底稿文件10中文件的四個角11a相匹配。

請返參圖1B，然後，進行步驟S33，過濾並找出適合的特徵點，即是從多個特徵點中找出較為明顯的特徵。接下來，進行步驟S34，根據所找出適合的特徵點對擬校稿文件與底稿文件實施透視轉換，即是利用相對應的特徵點(例如文件的四個角11a、21a)將擬校稿文件與底稿文件換為相同視角下的影像。之後，進行步驟S35，根據所找出適合的特徵點對齊擬校稿文件與底稿文件，即是利用相對應的特徵點將擬校稿文件與底稿文件相疊合。在一實施例中，可透過特徵點檢測匹配演算法(AKAZE)來完成步驟S31至S33的處理方法。

接著，請返參圖1A，將擬校稿文件與底稿文件對齊之後，進行步驟S40，對擬校稿文件與底稿文件實施文字辨識，即是識別擬校稿文件與底稿文件中的文字。換句話說，是從影像資料中識別出個別的文字、單字或字母。在一實施例中，可經由光學字元辨識(Optical Character Recognition，OCR)工具來進行步驟S40。

完成對擬校稿文件與底稿文件的文字辨識後，進行步驟S50，比對擬校稿文件與底稿文件中的文字差異。具體來說，請參閱圖1C、圖3A與圖3B，圖1C所繪示為比對文字差異的方法，圖3A所繪示為產生文字區塊的底稿文件，圖3B所繪示為產生文字區塊的擬校稿文件。在本實施例中，是透過步驟S51至步驟S54來辨識文字的差異。首先，進行步驟S51，根據文字辨識結果在擬校稿文件與底稿文件上產生多個文字區塊，是經由文字辨識取得各個單字或數字後，以單字或數字為基礎產生文字區塊，如圖3A與圖3B所示，底稿文件10上會產生多個文字區塊12，擬校稿文件20上則會產生多個文字區塊22。接著，進行步驟S52，以萊文斯坦距離演算法計算這些文字區塊，取得多個萊文斯坦距離(Levenshtein distance)。然後，進行步驟S53判斷對應位置上的文字區塊之間的萊文斯坦距離，例如是計算擬校稿文件20中的文字區塊22c與底稿文件10中的文字區塊12c之間的萊文斯坦距離。之後，進行步驟S54，若文字區塊之間的萊文斯坦距離大於一預定值，便判斷文字不相同。舉例來說，預定值為0，文字區塊12c與22c中的數字經過萊文斯坦演算法計算，所計算出的萊文斯坦距離為1，大於該預定值，便會判斷為文字不相同。而在步驟S53中，對每一組文字區塊12與22逐一計算萊文斯坦距離，便可識別擬校稿文件20與底稿文件10的區別。例如印刷錯誤的文字區塊12a與22a、髒污的文字區塊12b與22c等等。

隨後，請返參圖1A，判斷擬校稿文件與底稿文件的文字差異後，進行步驟S60，根據擬校稿文件與底稿文件比對的結果產生一差異資料。之後，進行步驟S70，將這些差異資料傳送至一使用者裝置，供使用者參考這些差異資料，傳送方式例如為電子郵件或推播。然後，進行步驟S80，保存擬校稿文件、底稿文件與差異資料，以利後續調閱使用。

請參閱圖1D，圖1D所繪示為二值化與顏色調整的步驟圖。在一實施例中，本創作之文件對比方法還包括步驟S91與S92。其中步驟S91為對擬校稿文件與底稿文件實施二值化，即是將擬校稿文件與底稿文件轉換為只有純黑與純白的顏色。具體來說，是先取得擬校稿文件與底稿文件的灰階值，設定一閥值(例如127)，將灰階值大於閥值的部分全數調整為255，即純白。將灰階值小於閥值的部分全數調整為0，即純黑，如此便完成二值化。二值化可使擬校稿文件與底稿文件的特徵更為清晰。

步驟S92是將二值化後的底稿文件中的黑色轉換為其他顏色，例如轉換為綠色等亮色，如此一來對齊的擬校稿文件與底稿文件能夠以呈現較為明顯的視覺差異。此外，經由步驟S91與S92調整顏色之後的擬校稿文件與底稿文件，可於步驟S70中加入在差異資料中，並一同提供至使用者裝置。

請參閱圖4，圖4所繪示為對齊與重疊的示意圖，在圖4的實施例中，底稿文件的黑色被轉換為綠色，並且在對齊時，擬校稿文件與底稿文件可保持一段距離，更能夠呈現兩者的差異比較。如此一來，當疊合的擬校稿文件與底稿文件被顯示在使用者裝置時，讓使用者能夠更清晰地看出擬校稿文件與底稿文件的差異所在。值得注意的是，步驟S91與S92並不限定於步驟S80之後，而是能夠加入在步驟S30~S70中任一步驟之前。

在一實施例中，本創作之文件對比方法可經由文件比對系統實施，即是以伺服主機作為機算機來執行本創作之文件對比方法，以下將說明文件比對系統。

請參閱圖5，圖5所繪示為文件比對系統之架構圖。文件比對系統100包括至少一使用者裝置101與一伺服主機102，伺服主機102是通訊連接至使用者裝置101。使用者裝置101為使用者使用的裝置，例如為個人電腦或智慧型手機。使用者裝置101適於輸入一擬校稿文件與一底稿文件，即是使用者可經由使用者裝置101輸入欲比較的文件資料，可輸入的資料格式例如為影像格式或PDF格式。

伺服主機102包括一資料接收模組110、一文件轉換模組120、一文件比對模組130、一輸出模組140與一資料庫模組150。伺服主機102可為單一伺服器運算，也可為多個伺服器聯合運算。資料接收模組110適於接收擬校稿文件與底稿文件，便是從使用者裝置101接收使用者所輸入的擬校稿文件與底稿文件，並且資料接收模組110會將所接收的擬校稿文件與底稿文件建立關聯，以產生一專案資料。在本實施例中，資料接收模組110所接收的擬校稿文件與底稿文件可為影像檔案(例如jpg、png或tif)或PDF檔案。

文件轉換模組120適於將擬校稿文件與底稿文件處理為相同尺寸，並對齊擬校稿文件與底稿文件。具體來說，文件轉換模組120是將擬校稿文件與底稿文件被轉換為矩陣格式(Matrix)。其中，若擬校稿文件或底稿文件為影像檔案，則可直接轉換為矩陣格式，例如是經由org.opencv.imgcodescs工具進行轉換。若擬校稿文件或底稿文件為PDF檔案，則需要先轉換成BufferedImage格式，例如經由org.apache.pdfbox.rendering.PDFrenderer工具進行轉換，再將BufferedImage格式的檔案轉換為矩陣格式，例如是經由com.ftc.opencv.ImageConverter工具進行轉換。

此外，文件轉換模組120是經由org.opencv.core.Core.copyMakeBorder工具將擬校稿文件與底稿文件重繪成相同的尺寸，再經由org.opencv.Imgproc.cvtColor工具將擬校稿文件與底稿文件轉換為灰階影像。之後經由org.opencv.features2d工具中的特徵點檢測匹配演算法(AKAZE)，從擬校稿文件與底稿文件中擷取多個特徵點，並使用這些特徵點來對齊擬校稿文件與底稿文件。

文件轉換模組120還適於對擬校稿文件與底稿文件實施二值化，例如是經由org.opencv.imgproc.Imgproc.adaptiveThershold工具實施二值化，讓擬校稿文件與底稿文件轉換為僅有純黑或純白的影像。接著，文件轉換模組120還適於轉換底稿文件中黑色部分的顏色，例如是經由org.opencv.core.Mat工具進行顏色轉換。

文件比對模組130適於對擬校稿文件與底稿文件實施文字辨識，並比較擬校稿文件與底稿文件中的文字，並產生多筆差異資料，差異資料是對應至專案資料。具體來說，文件比對模組是經由光學字元辨識(OCR)辨識擬校稿文件與底稿文件上的文字，以產生多個文字方塊，例如是使用API工具來產生文字方塊。並透過萊文斯坦演算法計算擬校稿文件與底稿文件上對應位置文字方塊的萊文斯坦距離，再以萊文斯坦距離是否大於預定值來判斷擬校稿文件與底稿文件上的文字是否相同，從而產生差異資料。

輸出模組140適於將該差異資料傳送至使用者裝置101，即是使用者可透過使用者裝置101接收差異資料，進一步瀏覽辨識結果。其中，使用者裝置101所接收的差異資料，也包括了對其與變色之後的擬校稿文件與底稿文件(圖如4所示)，使用者便可從使用者裝置101直觀的看到擬校稿文件與底稿文件的對比差異。此外，差異資料還包括所有差異點的清單，並顯示於使用者裝置101上，供使用者點選，點選這些差異點，使用者裝置101便快速捲動擬校稿文件與底稿文至對應差異點的位置上。

資料庫模組150則適於儲存擬校稿文件、底稿文件、差異資料與專案資料，此外，使用者則可透過使用這裝置從資料庫裝模組中提取擬校稿文件、底稿文件、差異資料與專案資料。

因此透過本創作的文件對比方法與系統，使用者只要輸入欲進行比對的擬校稿文件與底稿文件，便可快速比對文件之差異，尤其應用於藥品仿單這類文字較小且篇幅較長的文件，可有效降低人為檢查的工作負擔，並提高檢查的效率。

本創作以實施例說明如上，然其並非用以限定本創作所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡本領域具有通常知識者，在不脫離本專利精神或範圍內，所作之更動或潤飾，均屬於本創作所揭示精神下所完成之等效改變或設計，且應包含在下述之申請專利範圍內。