TWI750572B

TWI750572B - 運用機器學習進行文件分類的文件處理系統及方法

Info

Publication number: TWI750572B
Application number: TW109102766A
Authority: TW
Inventors: 廖俊傑
Original assignee: 虹光精密工業股份有限公司
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2021-12-21
Also published as: US11663526B2; TW202129513A; CN113139071B; CN113139071A; US20210240974A1

Abstract

本發明關於一種運用機器學習進行文件分類的文件處理系統及方法，其包括一輸入模組、一處理模組、一個以上的儲存模組，且在一首次建模程序時該儲存模組預設一分類資料夾，並且分類資料夾對應一代碼，當該首次建模程序完成後，該輸入模組可接收一個以上的文件影像，該處理模組根據一組機器學習模型資訊與該文件影像進行計算，以產生一計算結果，該處理模組根據該計算結果將該文件影像儲存在該分類資料夾；透過對該文件影像進行即時判斷，並根據所對應的分類資料夾的代碼自動化完成文件影像的分類，藉此提升分類文件的準確性及效率性。

Description

運用機器學習進行文件分類的文件處理系統及方法

本發明關於一種文件處理系統及方法，尤指一種運用機器學習進行文件分類的文件處理系統及方法。

隨著科技的日新月異，許多協助人們方便辦公的電子設備如雨後春筍般的蓬勃發展，如影印機、掃描機或者多功能事務機，透過將紙本文件放入影印機、掃描機或者多功能事務機的一紙張饋入元件或者一紙張放置元件上，透過影印機、掃描機或者多功能事務機的一掃描元件將紙本文件掃描成電子文件影像儲存，以提升文件保管的便利性，所以諸如公家機關、醫院診所、便利商店、賣場、銀行等場所都會設置有影印機、掃描機或者多功能事務機，用以協助文件處理。

當民眾前往公家機關、銀行等辦公時，會需要填寫許多不同格式、業務的紙本申請文件，並且提交給承辦人員，承辦人員透過影印機、掃描機或者多功能事務機將這些紙本申請文件掃描成電子文件影像後，再透過人工的方式持一條碼掃描器掃描紙本申請文件上的條碼(Barcode、Patch code)、或者人工確認特定文字、表格方式，以分類歸檔電子文件影像並完成業務承辦。然而，當該條碼掃描器故障、條碼汙損無法被讀取時都會導致承辦人員作業時間拉長而沒效率，造成民眾因為等待時間過久而心生不耐，進而投訴承辦人員；又或者當承辦人員依據特定文字、表格分類歸檔電子文件影像的過程中，受民眾或其他承辦人員諮詢等外在環境影響時，可能會因為分心而分類歸檔錯誤或沒有分類，造成民眾權益受損。

此外，當民眾前往醫院診所看診時，需要填寫病人資料，再由櫃台人員透過影印機、掃描機或者多功能事務機將病人資料掃描成電子文件影像後分類歸檔，然而當該條碼掃描器故障、條碼汙損無法被讀取時都會導致作業時間拉長，導致病患等待時間過長而無法即時就醫，恐造成危險發生，又或者櫃檯人員依據特定文字、表格分類歸檔電子文件影像的過程中，受病患或護士諮詢等外在環境影響時，可能會因為分心而分類歸檔錯誤或沒有分類，造成病人資料異常，也恐發生後續醫療糾紛。

傳統上透過影印機、掃描機或者多功能事務機掃描紙本文件後取得的電子文件影像確實協助文件處理，然而在後續電子文件影像分類歸檔上，容易因為無法順利讀取文件上的條碼而造成作業時間拉長，導致作業緩慢，又或者容易受到外在環境影響造成電子文件影像分類歸檔上的錯誤或沒有分類，導致分類歸檔上的不準確，因此，現有技術在分類歸檔電子文件影像透過人工的方式存在費時、沒有效率、容易錯誤之不足。

有鑑於上述現有技術之不足，本發明的主要目的係提供一種運用機器學習進行文件分類的文件處理系統及方法，藉由預先設定好分類資料夾的代碼，並且利用機器學習對文件影像進行計算，以根據分類資料夾的代碼對計算後的結果進行分類、儲存，藉由自動化的分類方式提升分類準確性及效率。

為了達成上述目的所採取的主要技術手段，係令前述運用機器學習進行文件分類的文件處理方法，其執行在一文件處理系統上，該文件處理系統預設一個以上的分類資料夾，並且該分類資料夾對應有一代碼，且該方法包括以下步驟：接收一個以上的文件影像；根據一組已完成首次建模程序而產生的機器學習模型資訊與該文件影像進行計算，以產生一計算結果；根據該計算結果與該等分類資料夾的代碼，將該文件影像儲存於對應的分類資料夾。

根據上述方法可知，藉由將該文件影像與該機器學習模型資訊進行計算，以得到該計算結果，並且將該計算結果與該等分類資料夾的代碼進行處理後，將該文件影像儲存在對應的分類資料夾中，藉此不僅簡化分類流程，並且透過自動化的分類方式有效提升分類文件的效率性以及準確性。

為了達成上述目的所採取的另一主要技術手段，係令前述運用機器學習進行文件分類的文件處理系統，其包括：一輸入模組，取得一個以上的文件影像；一個以上的儲存模組，該儲存模組預設一分類資料夾，並且該分類資料夾對應有一代碼；一處理模組，分別連接該輸入模組及該儲存模組；其中，該處理模組接收該文件影像，並且與一組已完成首次建模程序而產生的機器學習模型資訊進行計算，以產生一計算結果，該處理模組根據該計算結果與該分類資料夾的代碼進行比對，以將該文件影像儲存在該分類資料夾。

根據上述系統可知，由該輸入模組取得該文件影像後，該處理模組將該文件影像與該組已完成首次建模程序而產生的機器學習模型資訊進行計算，以產生該計算結果，該處理模組再將該計算結果與該分類資料夾的代碼進行比對，以確認該文件影像是否儲存在該分類資料夾中，並且該處理模組將該文件影像儲存在該儲存模組的分類資料夾中，藉此不僅簡化分類流程，透過自動化的分類方式還可有效提升分類文件的效率性以及準確性。

關於本發明運用機器學習進行文件分類的文件處理系統的較佳實施例，請參考圖1所示，其包括一輸入模組11、一處理模組12以及一個以上的儲存模組13；該處理模組12分別電連接該輸入模組11及該儲存模組13；在本實施例中，本發明運用機器學習進行文件分類的文件處理系統包括一具有掃描文件功能的影印機、一掃描機或者一多功能事務機（Multi Function Product／Printer／Peripheral, MFP）。在本實施例中，進一步可包括兩個或多個的儲存模組13，以供分別儲存不同的資料。

在本實施例中，該輸入模組11係根據使用者所要掃描的一個以上的紙本文件，對應取得一個以上的文件影像，並且由該處理模組12進行處理後，儲存到該儲存模組13內，具體而言，該儲存模組13預設有一分類資料夾131，並且該分類資料夾131對應有一代碼132，透過該分類資料夾131的代碼132與該文件影像進行比對，以確認該文件影像是否儲存在該分類資料夾131中。進一步的，當包括兩個或多個的儲存模組13時，可於每一個儲存模組13中分別設有一個以上分類資料夾131，並且每一分類資料夾131對應有一代碼132，因此，透過將該文件影像與該等分類資料夾131的代碼132比對，以確認該文件影像所要儲存的分類資料夾131為何者。在本較佳實施例中，該等分類資料夾131對應有一代碼132的具體應用方式，係可於該等儲存模組13分別預設該等分類資料夾131時，分別自動化的標示對應的代碼132，無須人為或是先標記，以簡化判斷分類；另外，亦可基於特殊的識別需求，於該等儲存模組13分別預設該等分類資料夾131時，對該等分類資料夾131分別設置對應的代碼132，前述的應用方式在此僅為舉例，而非加以限制。

在使用上，由使用者將一個以上的紙張文件放入具有掃描文件功能的影印機、掃描機或者多功能事務機內後，由該輸入模組11對應取得一個以上的文件影像，並且輸出至該處理模組12，該處理模組12根據一組已完成首次建模程序而產生的機器學習模型資訊與接收到的文件影像進行計算，以產生一計算結果，該處理模組12根據該計算結果與該分類資料夾131的代碼132進行比對，以將該文件影像儲存在該分類資料夾131。

具體而言，對應該文件影像的計算結果包括一代碼，該處理模組12根據該計算結果的代碼比對該分類資料夾131的代碼132，以判斷是否比對到相同代碼，若是，則將該文件影像儲存至該分類資料夾131。

此外，當使用者透過本發明運用機器學習進行文件分類的文件處理系統分類文件影像的過程中，若該處理模組12根據計算結果判斷無法比對出當下欲分類的文件影像是否應該儲存在該分類資料夾131時，該處理模組12進一步執行一輔助判斷程序，以經過一輔助判斷流程來輔助判斷當下欲分類的文件影像是否應該儲存在該分類資料夾131，其中，該輔助判斷流程係為該處理模組12根據所接收到的文件影像取得對應該文件影像的一個以上的影像特徵資訊，並且根據該影像特徵資訊進行處理以產生一輔助判斷結果，並且根據該輔助判斷結果與該分類資料夾131的代碼132進行比對，以確認該文件影像是否儲存在該分類資料夾131中，具體而言，該輔助判斷結果包括一代碼，該處理模組12係將該輔助判斷結果的代碼與該分類資料夾131的代碼132進行比對，以確認是否將該文件影像儲存在該分類資料夾131中，藉由該輔助判斷程序，以提升分類該文件影像的準確性以及適用性。在本實施例中，該影像特徵資訊包括一光學字元辨識資訊（Optical Character Recognition, OCR）、一文件影像尺寸資訊、一文件影像色彩資訊等。

對於上述內容提到，該處理模組12用來與該文件影像進行計算的機器學習模型資訊是透過該首次建模程序而產生，對於該首次建模程序的具體流程係由該處理模組12先設定該分類資料夾131後，並且該分類資料夾131有對應的代碼132，其中對應的代碼132可由該處理模組12自動預先設定，或後續自動設定或者人為設定，該輸入模組11接收用來進行機器學習的多個文件影像，該處理模組12透過一機器學習程序對該等文件影像進行處理，以產生該組機器學習模型資訊，其中，該組機器學習模型資訊包括多組係數，並且該等係數中的一個係數與該分類資料夾131的代碼132相對應，當該處理模組12完成該組機器學習模型資訊的產生後，則完成該首次建模程序；透過該首次建模程序以建立用以自動化的分類文件影像所需的機器學習模型資訊，並且藉此提升分類文件影像的效率及準確性。

進一步的，在另一實施例中，請參考圖2所示，當使用者有不同類型的文件影像需要加入分類時，本發明運用機器學習進行文件分類的文件處理系統進一步包括一個以上的擴充儲存模組14，該擴充儲存模組14內預設一擴充分類資料夾141，該處理模組12進一步執行一擴充建模程序，以經過一擴充建模流程提供擴充分類不同類型的文件影像的功能，其中該擴充建模流程由該處理模組12設定對應的擴充分類資料夾141，且該擴充分類資料夾141對應有一代碼142，該處理模組12接收用來進行機器學習的多個文件影像，並且透過該機器學習程序對該等文件影像進行處理，以產生一組新的機器學習模型資訊，該組新的機器學習模型資訊包括多組新的係數，並且該等新的係數與該分類資料夾131的代碼132以及該擴充分類資料夾141的代碼142相對應，當該處理模組12完成該組新的機器學習模型資訊的產生後，則完成該擴充建模程序，透過該組新的機器學習模型資訊與不同類型的文件影像以及已可分類的文件影像進行計算，以分類不同類型的文件影像以及已可分類的文件影像，並且儲存在對應的分類資料夾131或者對應的擴充分類資料夾141，藉此提升本發明運用機器學習進行文件分類的文件處理系統的擴充性及使用彈性。

進一步的，為了能配合前述實施例的內容，試以一具體應用方式舉例說明一使用情境，但並非加以限制；例如，當使用者手上有兩份不同類型的帳單欲進行分類，透過該輸入模組11取得兩份不同類型的帳單的文件影像後，該處理模組12依序將所取得的二個文件影像與該組機器學習模型資訊進行計算，以依序取得對應的計算結果，該處理模組12將依序將二個計算結果分別與該分類資料夾131的代碼132比對，藉此確認哪一份類型的帳單的文件影像需要分類並儲存在該分類資料夾131中；進一步的，若其中一份帳單的文件影像無法比對出對應的分類資料夾131的代碼132時，則該處理模組12進一步透過該輔助判斷程序進行輔助，以進一步的確認所對應儲存的分類資料夾131。此外，若有其它不同類型的帳單的文件影像需要加入分類時，則提供對應數量的擴充儲存模組14，且每一個擴充儲存模組14分別預設對應的一擴充分類資料夾141，以及該處理模組12完成該擴充建模程序，以取得新的機器學習模型資訊便於計算出用以比對應該儲存在那一個分類資料夾131或者那一個擴充分類資料夾141的計算結果。

因此，根據上述各實施例以及具體應用方式的內容可知，藉由該輸入模組11將接收到的多個文件影像輸出至該處理模組12，該處理模組12根據該組機器學習模型資訊與接收到的文件影像進行計算，以產生該計算結果，該處理模組12再將該計算結果與該分類資料夾131的代碼132進行比對，以確認該文件影像是否應該分類並儲存在該分類資料夾131中，該處理模組12再將該文件影像儲存在對應的分類資料夾131，藉此不僅簡化分類流程，透過自動化的分類方式還可有效提升分類文件的效率性以及準確性。

此外，透過該輔助判斷流程可對當下無法判斷的文件影像，提供更進一步的輔助判斷，藉此提升本發明分類文件影像的準確性以及適用性。

另外，透過該擴充建模流程，可進一步的擴充分類不同類型的文件影像的功能，藉此提升本發明的使用擴充性及使用彈性。

根據上述各實施例內容以及具體應用方式，本發明進一步歸納出一運用機器學習進行文件分類的文件處理方法，請參考圖3所示，係執行在本發明運用機器學習進行文件分類的文件處理系統上，該文件處理系統預設一個以上的分類資料夾131，並且該分類資料夾131對應有一代碼132，且該方法包括以下步驟：接收一個以上的文件影像(S20)；根據一組已完成首次建模程序而產生的機器學習模型資訊與該文件影像進行計算，以產生一計算結果(S30)；根據該計算結果與該分類資料夾131的代碼132，將該文件影像儲存於對應的分類資料夾131(S40)。

其中，請參考圖4所示，當上述步驟執行至「根據該計算結果與該分類資料夾131的代碼132，將該文件影像儲存於對應的分類資料夾131(S40)」步驟，該方法更包括以下次步驟：根據該計算結果與該分類資料夾131的代碼132進行比對，以將該文件影像儲存於對應的分類資料夾131(S41)。

請參考圖5所示，當上述步驟執行至「根據該計算結果與該分類資料夾131的代碼132進行比對，以將該文件影像儲存於對應的分類資料夾131(S41)」之步驟，該方法更包括以下再次步驟：根據該計算結果的一代碼判斷是否比對到相同的分類資料夾131的代碼132(S411)；若是，將該文件影像儲存在對應的分類資料夾131(S412)。

請參考圖5所示，當上述執行至「根據該計算結果的一代碼判斷是否比對到相同的分類資料夾131的代碼132(S41)」步驟，若否，該文件處理系統進一步提供一輔助判斷程序(S413)。

請參考圖5、6所示，其中，該輔助判斷程序以下步驟：取得該文件影像的一個以上的影像特徵資訊(S4131)；根據該影像特徵資訊進行處理，以產生一輔助判斷結果(S4132)；根據該輔助判斷結果的一代碼與該等分類資料夾131的代碼132進行比對，以將該文件影像儲存於對應的分類資料夾131(S4133)；其中，該影像特徵資訊包括一光學字元辨識資訊（Optical Character Recognition, OCR）、一文件影像尺寸資訊、一文件影像色彩資訊等。

在本實施例中，請參考圖7所示，其中，前述的該首次建模程序更包括以下步驟：設定該分類資料夾131所對應的代碼132(S51)；接收多個文件影像(S52)；其中，所接收到的文件影像係用以進行機器學習；執行一機器學習程序對該等文件影像進行處理，以產生該組機器學習模型資訊(S53)；其中，該組機器學習模型資訊包括多組係數，該等係數中的一個與該分類資料夾131的代碼132對應。

在本實施例中，若要分類新的文件影像時，該文件處理系統進一步包括一個以上的擴充分類資料夾141，該方法進一步提供一擴充建模程序，並且請參考圖8所示，該擴充建模程序更包括以下步驟：設定該擴充分類資料夾141的一代碼142(S61)；接收多個文件影像(S62)；其中，所接收到的文件影像係用以進行機器學習；透過該機器學習程序對該等文件影像進行處理以產生一組新的機器學習模型資訊(S63)；其中，該組新的機器學習模型資訊包括多組新的係數，該等新的係數與該分類資料夾131的代碼132以及該擴充分類資料夾141的代碼142對應。

11:輸入模組 12:處理模組 13:儲存模組 131:分類資料夾 132:代碼 14:擴充儲存模組 141:擴充分類資料夾 142:代碼 S20、S30、S40、S41:步驟 S411~S413:步驟 S4131~S4133:步驟 S51~S53:步驟 S61~S63:步驟

圖1 係本發明較佳實施例的系統架構方塊圖。圖2 係本發明較佳實施例的另一系統架構圖。圖3 係本發明較佳實施例的第一方法流程圖。圖4 係本發明較佳實施例的第二方法流程圖。圖5 係本發明較佳實施例的第三方法流程圖。圖6 係本發明較佳實施例的第四方法流程圖。圖7 係本發明較佳實施例的第五方法流程圖。圖8 係本發明較佳實施例的第六方法流程圖。

11:輸入模組

12:處理模組

13:儲存模組

131:分類資料夾

132:代碼

Claims

一種運用機器學習進行文件分類的文件處理方法，其執行在一文件處理系統上，該文件處理系統預設一個以上的分類資料夾，並且該分類資料夾對應有一代碼，且該方法包括以下步驟：接收一個以上的文件影像；根據一組已完成首次建模程序而產生的機器學習模型資訊與該文件影像進行計算，以產生一計算結果；根據該計算結果與該分類資料夾的代碼，將該文件影像儲存於對應的分類資料夾。
如請求項1所述之運用機器學習進行文件分類的文件處理方法，當上述步驟執行至「根據該計算結果與該分類資料夾的代碼，將該文件影像儲存於對應的分類資料夾」之步驟，該方法更包括以下次步驟：根據該計算結果與該分類資料夾的代碼進行比對，以將該文件影像儲存於對應的分類資料夾。
如請求項2所述之運用機器學習進行文件分類的文件處理方法，當上述步驟執行至「根據該計算結果與該分類資料夾的代碼進行比對，以將該文件影像儲存於對應的分類資料夾」之步驟，該方法更包括以下再次步驟：根據該計算結果的一代碼判斷是否比對到相同的分類夾的代碼；若是，將該文件影像儲存在對應的分類資料夾。
如請求項3所述之運用機器學習進行文件分類的文件處理方法，當上述步驟執行至「根據該計算結果的一代碼判斷是否比對到相同的分類夾的代碼」之步驟，若否，則該方法進一步提供一輔助判斷程序。
如請求項4所述之運用機器學習進行文件分類的文件處理方法，該輔助判斷程序包括以下步驟：取得該文件影像的一個以上的影像特徵資訊；根據該影像特徵資訊進行處理，以產生一輔助判斷結果；根據該輔助判斷結果的一代碼與該分類資料夾的代碼進行比對，以將該文件影像儲存於對應的分類資料夾。
如請求項1所述之運用機器學習進行文件分類的文件處理方法，其中前述的首次建模程序更包括以下步驟：設定該分類資料夾所對應的代碼；接收多個文件影像；執行一機器學習程序對該等文件影像進行處理，以產生該組機器學習模型資訊。
如請求項6所述之運用機器學習進行文件分類的文件處理方法，其中，該組機器學習模型資訊包括多組係數，該等係數中的一個與該分類資料夾的代碼對應。
如請求項1所述之運用機器學習進行文件分類的文件處理方法，該文件處理系統進一步包括一個以上的擴充分類資料夾，該方法進一步提供一擴充建模程序。
如請求項8所述之運用機器學習進行文件分類的文件處理方法，其中該擴充建模程序更包括以下步驟：設定該擴充分類資料夾的一代碼；接收多個文件影像；透過該機器學習程序對該等文件影像進行處理以產生一組新的機器學習模型資訊。
如請求項9所述之運用機器學習進行文件分類的文件處理方法，其中，該組新的機器學習模型資訊包括多組新的係數，該等新的係數與該分類資料夾的代碼以及該擴充分類資料夾的代碼對應。
如請求項1所述之運用機器學習進行文件分類的文件處理方法，其中該文件處理系統包括一影印機、一掃描機或者一多功能事務機。
一種運用機器學習進行文件分類的文件處理系統，其包括：一輸入模組，取得一個以上的文件影像；一個以上的儲存模組，該儲存模組預設一分類資料夾，該分類資料夾對應有一代碼；一處理模組，分別連接該輸入模組及該等儲存模組；其中，該處理模組接收該文件影像，並且與一組已完成首次建模程序而產生的機器學習模型資訊進行計算，以產生一計算結果，該處理模組根據該計算結果與該分類資料夾的代碼進行比對，以將該文件影像儲存在對應的分類資料夾。
如請求項12所述之運用機器學習進行文件分類的文件處理系統，其中，該處理模組根據該計算結果的一代碼與該分類資料夾的代碼進行比對，當該處理模組比對到與該計算結果的代碼相同的分類資料夾的代碼時，則將該文件影像儲存到對應的分類資料夾。
如請求項13所述之運用機器學習進行文件分類的文件處理系統，其中，當該處理模組比對不到與該計算結果的代碼相同的分類資料夾的代碼時，該處理模組進一步執行一輔助判斷程序，並且根據該文件影像取得一個以上的影像特徵資訊，該處理模組根據該影像特徵資訊進行處理，以產生一輔助判斷結果，該處理模組將該輔助判斷結果的一代碼與該分類資料夾的代碼進行比對，以將該文件影像儲存於對應的分類資料夾。
如請求項14所述之運用機器學習進行文件分類的文件處理系統，該影像特徵資訊包括一光學字元辨識資訊、一文件影像尺寸資訊或一文件影像色彩資訊。
如請求項12所述之運用機器學習進行文件分類的文件處理系統，其中，當該處理模組執行該首次建模程序時，由該輸入模組接收多個文件影像，該處理模組透過一機器學習程序對該等文件影像進行處理以產生該組機器學習模型資訊，該組機器學習模型資訊包括多組係數，並且該等係數中的一個與該分類資料夾的代碼相對應。
如請求項12所述之運用機器學習進行文件分類的文件處理系統，其中，進一步包括一個以上的擴充儲存模組，該擴充儲存模組預設一擴充分類資料夾；該處理模組係執行一擴充建模程序，以設定對應該擴充分類資料夾的一代碼，該處理模組接收多個文件影像，並且透過該機器學習程序對該等文件影像進行處理以產生一組新的機器學習模型資訊，該組新的機器學習模型資訊包括多組新的係數，並且該等新的係數與該分類資料夾的代碼以及該擴充分類資料夾的代碼相對應。