TWM609543U - 用於光學字元辨識的背景辨識系統 - Google Patents

用於光學字元辨識的背景辨識系統 Download PDF

Info

Publication number
TWM609543U
TWM609543U TW109215669U TW109215669U TWM609543U TW M609543 U TWM609543 U TW M609543U TW 109215669 U TW109215669 U TW 109215669U TW 109215669 U TW109215669 U TW 109215669U TW M609543 U TWM609543 U TW M609543U
Authority
TW
Taiwan
Prior art keywords
background
recognition system
samples
input image
data
Prior art date
Application number
TW109215669U
Other languages
English (en)
Inventor
黃璽軒
黃哲瑄
張書修
Original Assignee
樂達創意科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 樂達創意科技股份有限公司 filed Critical 樂達創意科技股份有限公司
Priority to TW109215669U priority Critical patent/TWM609543U/zh
Publication of TWM609543U publication Critical patent/TWM609543U/zh

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本創作公開一種用於光學字元辨識的背景辨識系統,包括資料產生器和元學習模型。資料產生器包括生成對抗網絡模型,用來產生訓練資料。訓練資料包括多個類別,且每一類別包括多個前景樣本和多個背景樣本。元學習模型利用這些類別的前景樣本和背景樣本作為支撐集來進行訓練,使得背景辨識系統在面對輸入影像時,能夠辨識輸入影像的背景。

Description

用於光學字元辨識的背景辨識系統
本創作涉及一種背景辨識系統,特別涉及一種用於光學字元辨識(Optical Character Recognition,OCR)的背景辨識系統。
OCR是指對文字的影像進行辨識處理,以取得文字的過程,且影像的內容可分為前景和背景。當背景較為複雜時,則可能造成文字辨識錯誤或無法辨識等問題。因此,現有技術會先將背景去除,以提高OCR的辨識效果。然而,如果使用人工智慧(Artificial Intelligence,AI)來辨識背景的話,機器學習(Machine Learning,ML)模型往往得用已標記好的大量資料來進行訓練,以至於資料收集的成本太高,且在機器學習模型又得辨識新類別時,勢必得再收集新類別的資料。
針對現有技術的不足,本創作公開一種用於OCR的背景辨識系統,包括資料產生器和元學習(Meta Learning)模型。資料產生器包括生成對抗網絡(Generative Adversarial Network,GAN)模型,用來產生訓練資料(Training Data)。訓練資料包括多個類別,且每一類別包括多個前景樣本和多個背景樣本。元學習模型利用這些類別的前景樣本和背景樣本作為支撐集(Support Sets)來進行訓練,使得背景辨識系統在面對輸入影像時,能夠辨識輸入影像的背景。
為使能更進一步瞭解本創作的特徵及技術內容,請參閱以下有關本創作的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本創作加以限制。
以下是通過特定的具體實施例來說明本創作的實施方式,本領域技術人員可由本說明書所公開的內容瞭解本創作的優點與效果。本創作可通過其他不同的具體實施例加以施行或應用,本說明書中的各項細節也可基於不同觀點與應用,在不背離本創作的構思下進行各種修改與變更。另外,本創作的附圖僅為簡單示意說明,並非依實際尺寸的描繪,事先聲明。以下的實施方式將進一步詳細說明本創作的相關技術內容,但所公開的內容並非用以限制本創作的保護範圍。
請參閱圖1,圖1是本創作公開的背景辨識系統的功能方塊圖。背景辨識系統1包括資料產生器10和元學習模型12。資料產生器10包括生成對抗網絡模型100,用來產生訓練資料(圖1未繪示)。訓練資料包括多個類別,且每一類別包括多個前景樣本和多個背景樣本。另外,元學習模型12利用這些類別的前景樣本和背景樣本作為支撐集來進行訓練。
應當理解的是,元學習又稱為 learn to learn,並在其訓練階段是將訓練資料分為不同的元任務(Task),去學習類別變化的情況下模型的泛化能力。因此,每一類別的前景樣本和背景樣本可構為一個元任務來輸入至元學習模型12中,且元學習模型12可從這些類別,例如10個類別的前景樣本和背景樣本中學到如何辨識前景和背景,使得背景辨識系統1在面對輸入影像(圖1未繪示)時,能夠辨識輸入影像的背景。
另外,因為元學習模型12在訓練階段用了不同的類別,所以元學習模型12可學到不同的元任務中的共性部分,以至於在面對未見過的元任務時,不需要變動已訓練好的元學習模型12,就可有效地辨識前景和背景。換句話說,即使輸入影像屬於新類別時,背景辨識系統1也能夠辨識輸入影像的背景,而不需再收集新類別的前景樣本和背景樣本。
另一方面,資料產生器10更可包括自動編碼器(Autoencoder)102,也用來產生訓練資料。總而言之,因為背景辨識系統1會利用生成對抗網絡模型100與自動編碼器102來負責產生包括多個類別的訓練資料,以供元學習模型12進行訓練,所以生成對抗網絡模型100與自動編碼器102則只要用已標記好的少量資料來進行訓練就夠。
綜上所述,本創作公開的背景辨識系統,可至少利用生成對抗網絡模型來產生包括多個類別的訓練資料,以供元學習模型進行訓練。因此,本創作的背景辨識系統不僅可降低資料收集的成本,亦能在有新類別出現時,不需再收集新類別的前景樣本和背景樣本,就可有效地辨識輸入影像的背景。
以上所公開的內容僅為本創作的優選可行實施例,並非因此侷限本創作的申請專利範圍,所以凡是運用本創作說明書及圖式內容所做的等效技術變化,均包含於本創作的申請專利範圍內。
1:背景辨識系統 10:資料產生器 12:元學習模型 100:生成對抗網絡模型 102:自動編碼器
圖1是本創作公開的背景辨識系統的功能方塊圖。
1:背景辨識系統
10:資料產生器
12:元學習模型
100:生成對抗網絡模型
102:自動編碼器

Claims (4)

  1. 一種用於光學字元辨識的背景辨識系統,包括: 一資料產生器,包括一生成對抗網絡模型,用來產生訓練資料,該訓練資料包括多個類別,且每一該些類別包括多個前景樣本和多個背景樣本;以及 一元學習模型,利用該些類別的該些前景樣本和該些背景樣本作為支撐集來進行訓練,使得該背景辨識系統在面對一輸入影像時,能夠辨識該輸入影像的背景。
  2. 如請求項1所述的背景辨識系統,其中即使該輸入影像屬於一新類別時,該背景辨識系統也能夠辨識該輸入影像的該背景。
  3. 如請求項1所述的背景辨識系統,其中該資料產生器更包括一自動編碼器,也用來產生該訓練資料。
  4. 如請求項3所述的背景辨識系統,其中該生成對抗網絡模型與該自動編碼器則用已標記好的少量資料來進行訓練。
TW109215669U 2020-11-27 2020-11-27 用於光學字元辨識的背景辨識系統 TWM609543U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109215669U TWM609543U (zh) 2020-11-27 2020-11-27 用於光學字元辨識的背景辨識系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109215669U TWM609543U (zh) 2020-11-27 2020-11-27 用於光學字元辨識的背景辨識系統

Publications (1)

Publication Number Publication Date
TWM609543U true TWM609543U (zh) 2021-03-21

Family

ID=76037222

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109215669U TWM609543U (zh) 2020-11-27 2020-11-27 用於光學字元辨識的背景辨識系統

Country Status (1)

Country Link
TW (1) TWM609543U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218667A (zh) * 2023-11-07 2023-12-12 华侨大学 一种基于字根的中文文字识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218667A (zh) * 2023-11-07 2023-12-12 华侨大学 一种基于字根的中文文字识别方法及系统
CN117218667B (zh) * 2023-11-07 2024-03-08 华侨大学 一种基于字根的中文文字识别方法及系统

Similar Documents

Publication Publication Date Title
US11170270B2 (en) Automatic generation of content using multimedia
CN108182976A (zh) 一种基于神经网络的临床医学信息提取方法
CN109918506A (zh) 一种文本分类方法及装置
CN109213856A (zh) 一种语义识别方法及系统
CN104504151B (zh) 微信舆情监测系统
TW201915942A (zh) 階層式影像辨識方法及系統
WO2024131054A1 (zh) 一种富媒体文稿辅助生成装置
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN106778817A (zh) 一种事件的自动分类方法
CN108829810A (zh) 面向健康舆情的文本分类方法
CN109902284A (zh) 基于论辩挖掘的一种无监督论点提取方法
TWM609543U (zh) 用於光學字元辨識的背景辨識系統
Sunder et al. One-shot information extraction from document images using neuro-deductive program synthesis
CN116821351A (zh) 一种基于跨度信息的端到端电力知识图谱关系抽取方法
CN110688515A (zh) 文本图像语义转换方法、装置、计算设备、及存储介质
CN105631032A (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN106599305B (zh) 一种基于众包的异构媒体语义融合方法
Wachsmuth et al. Back to the roots of genres: Text classification by language function
Khan et al. Tvgraz: Multi-modal learning of object categories by combining textual and visual features
CN107688744A (zh) 基于图像特征匹配的恶意文件分类方法及装置
Summers Authorship
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
CN102591850A (zh) 一种基于条件语句的错误文本语句纠正方法及系统
Seenivasan ETL in a World of Unstructured Data: Advanced Techniques for Data Integration
WO2021124488A1 (ja) 学習データ生成方法、学習データ生成装置及びプログラム