TWM609543U

TWM609543U - 用於光學字元辨識的背景辨識系統

Info

Publication number: TWM609543U
Application number: TW109215669U
Authority: TW
Inventors: 黃璽軒; 黃哲瑄; 張書修
Original assignee: 樂達創意科技股份有限公司
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-21

Abstract

本創作公開一種用於光學字元辨識的背景辨識系統，包括資料產生器和元學習模型。資料產生器包括生成對抗網絡模型，用來產生訓練資料。訓練資料包括多個類別，且每一類別包括多個前景樣本和多個背景樣本。元學習模型利用這些類別的前景樣本和背景樣本作為支撐集來進行訓練，使得背景辨識系統在面對輸入影像時，能夠辨識輸入影像的背景。

Description

用於光學字元辨識的背景辨識系統

本創作涉及一種背景辨識系統，特別涉及一種用於光學字元辨識（Optical Character Recognition，OCR）的背景辨識系統。

OCR是指對文字的影像進行辨識處理，以取得文字的過程，且影像的內容可分為前景和背景。當背景較為複雜時，則可能造成文字辨識錯誤或無法辨識等問題。因此，現有技術會先將背景去除，以提高OCR的辨識效果。然而，如果使用人工智慧（Artificial Intelligence，AI）來辨識背景的話，機器學習（Machine Learning，ML）模型往往得用已標記好的大量資料來進行訓練，以至於資料收集的成本太高，且在機器學習模型又得辨識新類別時，勢必得再收集新類別的資料。

針對現有技術的不足，本創作公開一種用於OCR的背景辨識系統，包括資料產生器和元學習（Meta Learning）模型。資料產生器包括生成對抗網絡（Generative Adversarial Network，GAN）模型，用來產生訓練資料（Training Data）。訓練資料包括多個類別，且每一類別包括多個前景樣本和多個背景樣本。元學習模型利用這些類別的前景樣本和背景樣本作為支撐集（Support Sets）來進行訓練，使得背景辨識系統在面對輸入影像時，能夠辨識輸入影像的背景。

為使能更進一步瞭解本創作的特徵及技術內容，請參閱以下有關本創作的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本創作加以限制。

以下是通過特定的具體實施例來說明本創作的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本創作的優點與效果。本創作可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本創作的構思下進行各種修改與變更。另外，本創作的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本創作的相關技術內容，但所公開的內容並非用以限制本創作的保護範圍。

請參閱圖1，圖1是本創作公開的背景辨識系統的功能方塊圖。背景辨識系統1包括資料產生器10和元學習模型12。資料產生器10包括生成對抗網絡模型100，用來產生訓練資料（圖1未繪示）。訓練資料包括多個類別，且每一類別包括多個前景樣本和多個背景樣本。另外，元學習模型12利用這些類別的前景樣本和背景樣本作為支撐集來進行訓練。

應當理解的是，元學習又稱為 learn to learn，並在其訓練階段是將訓練資料分為不同的元任務（Task），去學習類別變化的情況下模型的泛化能力。因此，每一類別的前景樣本和背景樣本可構為一個元任務來輸入至元學習模型12中，且元學習模型12可從這些類別，例如10個類別的前景樣本和背景樣本中學到如何辨識前景和背景，使得背景辨識系統1在面對輸入影像（圖1未繪示）時，能夠辨識輸入影像的背景。

另外，因為元學習模型12在訓練階段用了不同的類別，所以元學習模型12可學到不同的元任務中的共性部分，以至於在面對未見過的元任務時，不需要變動已訓練好的元學習模型12，就可有效地辨識前景和背景。換句話說，即使輸入影像屬於新類別時，背景辨識系統1也能夠辨識輸入影像的背景，而不需再收集新類別的前景樣本和背景樣本。

另一方面，資料產生器10更可包括自動編碼器（Autoencoder）102，也用來產生訓練資料。總而言之，因為背景辨識系統1會利用生成對抗網絡模型100與自動編碼器102來負責產生包括多個類別的訓練資料，以供元學習模型12進行訓練，所以生成對抗網絡模型100與自動編碼器102則只要用已標記好的少量資料來進行訓練就夠。

綜上所述，本創作公開的背景辨識系統，可至少利用生成對抗網絡模型來產生包括多個類別的訓練資料，以供元學習模型進行訓練。因此，本創作的背景辨識系統不僅可降低資料收集的成本，亦能在有新類別出現時，不需再收集新類別的前景樣本和背景樣本，就可有效地辨識輸入影像的背景。

以上所公開的內容僅為本創作的優選可行實施例，並非因此侷限本創作的申請專利範圍，所以凡是運用本創作說明書及圖式內容所做的等效技術變化，均包含於本創作的申請專利範圍內。

1:背景辨識系統 10:資料產生器 12:元學習模型 100:生成對抗網絡模型 102:自動編碼器

圖1是本創作公開的背景辨識系統的功能方塊圖。

1:背景辨識系統

10:資料產生器

12:元學習模型

100:生成對抗網絡模型

102:自動編碼器

Claims

一種用於光學字元辨識的背景辨識系統，包括：一資料產生器，包括一生成對抗網絡模型，用來產生訓練資料，該訓練資料包括多個類別，且每一該些類別包括多個前景樣本和多個背景樣本；以及一元學習模型，利用該些類別的該些前景樣本和該些背景樣本作為支撐集來進行訓練，使得該背景辨識系統在面對一輸入影像時，能夠辨識該輸入影像的背景。
如請求項1所述的背景辨識系統，其中即使該輸入影像屬於一新類別時，該背景辨識系統也能夠辨識該輸入影像的該背景。
如請求項1所述的背景辨識系統，其中該資料產生器更包括一自動編碼器，也用來產生該訓練資料。
如請求項3所述的背景辨識系統，其中該生成對抗網絡模型與該自動編碼器則用已標記好的少量資料來進行訓練。