TW201734890A - 一種字符識別方法和裝置 - Google Patents

一種字符識別方法和裝置 Download PDF

Info

Publication number
TW201734890A
TW201734890A TW106105607A TW106105607A TW201734890A TW 201734890 A TW201734890 A TW 201734890A TW 106105607 A TW106105607 A TW 106105607A TW 106105607 A TW106105607 A TW 106105607A TW 201734890 A TW201734890 A TW 201734890A
Authority
TW
Taiwan
Prior art keywords
classifier
layer
character
picture
probability
Prior art date
Application number
TW106105607A
Other languages
English (en)
Other versions
TWI766855B (zh
Inventor
xu-dong Mao
Xing Shi
Wei Chu
meng-li Cheng
Wen-Meng Zhou
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201734890A publication Critical patent/TW201734890A/zh
Application granted granted Critical
Publication of TWI766855B publication Critical patent/TWI766855B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本發明提供了一種字符識別方法和裝置,涉及圖像識別技術領域。所述方法包括:獲取圖片資料;利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分類器;將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;根據置信度,輸出字符的識別結果。從而降低了計算時間,提高了字符識別的效率。

Description

一種字符識別方法和裝置
本發明涉及圖像識別技術領域,特別是涉及一種字符識別方法和一種字符識別裝置。
近年來隨著電腦技術和數位影像處理技術的飛速發展,圖片識別技術尤其是對於圖片中的數字、字母、特殊符號等字符進行識別的技術越來越多的在各個方面都有著較為廣泛的應用需求。
對於識別圖片中的字符,目前存在的識別過程是:1、檢測到圖片中字符的位置;2、切分成包含單個字符的圖片資料;3、使用字符分類器識別各個圖片資料。
其中,對於字符分類器,目前實現的方案主要包括以下兩種:1)首先提取圖片的特徵,比如HOG(Histogram of Oriented Gradient,方向梯度長條圖)特徵,然後使用SVM(Support Vector Machine,支援向量機)分類器、神經網路分類器等訓練字符識別模型;2)利用卷積神經網路(Convolutional Neural Networks,CNN),訓練字符識 別模型。然後利用訓練好的字符識別模型對輸入的圖片資料進行字符識別。
但是在實際應用過程中,例如在圖片比較模糊或者圖片中包含的字符比較多的情況下,可能會導致檢測到的字符位置不夠準確,其中會存在一些雜訊,例如不是字符的斑點等被檢測為字符,進而造成切分成的圖片資料中存在一些包含雜訊的圖片資料,所以在利用分類器識別各個圖片資料之後,需要從中篩選出不是雜訊的輸出結果。以身份證識別為例,如圖1A,其是從一張身份證圖片的身份證號碼區域切分得到的單字圖。如圖1A,在圖片本身比較模糊的時候,定位號碼行會不是很準確,頭部或者尾部會多出來一些雜訊,造成切單字的時候,會切出來前邊的雜訊,導致切出來的單字大於18個,需要選取18個數字。
針對上述的問題,已有的技術方案是增加一個識別“是不是字符”的CNN分類器。利用這個分類器,先排除不是數位的圖片資料,然後再利用“是何種字符”的字符分類器識別剩下的圖片資料,從剩下的圖片資料中識別具體的字符。但是該技術方案存在一定的缺點,如下:首先,增加一個分類器,其是先後進行計算,意味著同時增加了計算時間,影響運行效率;其次,在實際操作中,如果增加的用以識別“是不是數字”的CNN分類器的計算結果出現錯誤,則不管後續的字符識別模型是否會出現問題,整個識別過程都會不可避 免地發生錯誤,降低了字符識別的準確性。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種字符識別方法和相應的一種字符識別裝置。
為了解決上述問題,本發明公開了一種字符識別方法,其特徵在於,包括:獲取圖片資料;利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分類器;將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;根據置信度,輸出字符的識別結果。
較佳地,還包括:利用字符圖片樣本訓練第一分類器的各計算層的參數值;所述第一分類器包括前N層計算層和後M層計算層; 固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
較佳地,所述第一分類器和第二分類器共用的計算層包括:卷積層、或者卷積層和至少一層全連接層。
較佳地,所述字符為數字。
較佳地,所述獲取圖片資料的步驟,包括:從身份證明的圖片的號碼區域,切分各個圖片資料。
較佳地,所述根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度的步驟包括:將最大的第一機率與第二機率相乘,得到所述圖片資料為最大的第一機率對應的數字的置信度。
較佳地,所述根據置信度,輸出字符的識別結果的步驟,包括:從各個圖片資料中,選擇排序靠前的符合所述身份證規定個數的圖片所對應的數字,並按序輸出。
本發明還公開了一種字符識別裝置,其特徵在於,包括:圖片獲取模組,適於獲取圖片資料;第一結果計算模組,適於利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分 類器;第一機率計算模組,適於將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;第二機率計算模組,適於將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;置信度計算模組,適於根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;輸出模組,適於根據置信度,輸出字符的識別結果。
較佳地,還包括:第一分類器訓練模組,適於利用字符圖片樣本訓練第一分類器的各計算層的參數值;所述第一分類器包括前N層計算層和後M層計算層;第二分類器訓練模組,適於固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
較佳地,所述第一分類器和第二分類器共用的計算層包括:卷積層、或者卷積層和至少一層全連接層。
較佳地,所述字符為數字。
較佳地,所述圖片獲取模組,包括:圖片切分子模組,適於從身份證明的圖片的號碼區 域,切分各個圖片資料。
較佳地,所述置信度計算模組,包括:置信度計算子模組,適於將最大的第一機率與第二機率相乘,得到所述圖片資料為最大的第一機率對應的數字的置信度。
較佳地,所述輸出模組,包括:輸出子模組,適於從各個圖片資料中,選擇排序靠前的符合所述身份證規定個數的圖片所對應的數字,並按序輸出。
本發明實施例包括以下優點:
本發明實施例,在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。
其中,第二分類器時與第一分類器共用一部分計算層的,對於第二分類器與第一分類器共用的計算層,其計算過程以及計算結果也是共用的,所以相對於背景技術在字符分類器之前增加一個完整的“是不是字符”分類器,然後按序對圖片進行計算的過程,本發明相對增加的計算量比較少,降低了計算時間,相對於背景技術提高了字符識別 的效率。
另外,第二分類器與第一分類器並不是前後順序使用,而是將兩個分類器分別得到的機率值相乘得到一個置信度,然後根據置信度值輸出相應的識別結果,相對於背景技術提高了字符識別的準確率,不會因為“是不是字符”分類器出現問題,而對整個識別過程產生太大的影響。
110、120、130、140、150、160、210、220、230、240、250、260‧‧‧步驟
310、410‧‧‧圖片獲取模組
320、420‧‧‧第一結果計算模組
330、430‧‧‧第一機率計算模組
340、440‧‧‧第二機率計算模組
350、450‧‧‧置信度計算模組
360、460‧‧‧輸出模組
411‧‧‧圖片切分子模組
451‧‧‧置信度計算子模組
461‧‧‧輸出子模組
圖1是本發明的一種字符識別方法實施例的步驟流程圖;圖1A是本發明的一種身份證號碼示意圖;圖1B是本發明的一種第一分類器和第二分類器的示意圖;圖2本發明的一種字符識別方法實施例的步驟流程圖;圖3是本發明的一種字符識別裝置實施例的結構方塊圖;以及圖4是本發明的一種字符識別裝置實施例的結構方塊圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
本發明實施例的核心構思之一在於,在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。本發明使從圖片資料中識別具體字符的第一分類器和識別圖片資料是否為字符圖片的分類器的第二分類器可以共用部分計算層資料,從而在計算時可以同時對圖片資料,並且計算過程存在重合,降低計算量,提高計算準確度,並且通過兩個分類器計算結果一起對圖片進行識別,提高準確率,降低第二分類器出現問題對整個識別過程的影響。
實施例一
參照圖1,示出了本發明的一種字符識別方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟110,獲取圖片資料。
本發明介紹的是一種針對圖片的字符識別方法,首先需要獲取所要識別的圖片資料。
圖片是指由圖形、圖像等構成的平面媒體。本發明所述的圖片資料是數位圖片,數位圖片常用的儲存格式很多 ,例如BMP(Bitmap,標準影像檔格式)、TIFF(Tagged Image File Format,點陣圖圖像格式)、JPEG(Joint Photographic Experts Group,聯合圖像專家小組)、GIF(Graphics Interchange Format,圖像互換格式)、PSD(Photoshop專用格式)、PDF(Portable Document Format,可移植檔案格式)等格式。但是本發明對於具體的數位圖片的儲存格式不加以限定。
在本發明實施例中,還可以對步驟110獲取的圖片資料進行預處理,比如將上述圖片資料進行灰度化,那麼可以將彩色的圖片資料變成灰度的圖片資料,從而可以降低計算量。
步驟120,利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分類器。
為了降低識別錯誤的可能性,本發明利用兩個分類器完成對圖片資料的識別,其中第一分類器用以從圖片資料中識別具體字符,第二分類器用以識別圖片資料是否為字符圖片。同時為了降低識別的時間成本,提高識別的效率以及準確率所以第一分類器和第二分類器共用一部分計算層。
在本發明實施例中,所述具體字符比如0~9的阿拉伯數字,又比如希臘字符α、β、γ等字符,也可以為其他字符,具體可以根據實際需求設定。相應的模型也可以根 據相應字符的相應確定。
第一分類器和第二分類器都可以採用卷積神經網路(Convolutional Neural Networks,CNN)分類模型。卷積神經網路分類模型包括至少一個卷積層、至少一個全連接層、以及一個Softmax層。如圖1B為一個第一分類器和第二分類器的示意圖。其中,卷積層a、卷積層b、全連接層c、全連接層d、Softmax層以及數字分類器構成了第一分類器,而卷積層a、卷積層b、全連接層c、全連接層e、Softmax層以及是不是數字分類器構成了第二分類器。可見,此時第一分類器和第二分類器共用的計算層為卷積層a、卷積層b以及全連接層c,第一分類器和第二分類器不共用的是一個全連接層和一個Softmax層。在圖1B中,第一分類器和第二分類器都包含兩個卷積層、兩個全連接層以及一個Softmax層。但是,在實際應用中,可以根據需求靈活設定第一分類器和第二分類器所包含的卷積層以及全連接層的具體數量,對此本發明實施例不加以限定。
在本發明實施例中,可以先利用相應字符的圖片資料樣本,訓練第一分類器。比如,利用0~9的數字圖片樣本,訓練“是何種數字”的第一分類器。訓練第一分類器時,實際上是訓練該分類器的各個計算層的參數值。那麼本發明實施例在訓練了第一分類器後,可以固定前面部分計算層的參數,比如固定所有卷積層的參數,然後利用不是數字的圖片資料樣本和是數字的圖片資料樣本,在固定 了卷積層的參數值的情況下,訓練後續計算層的參數值。如此第二分類器與第一分類器則共用了參數值相同的計算層。
在本發明實施例中,最優的情況是共用卷積層,和除最後一層全連接層之前的全連接層。如此可以降低計算量,也可以提高準確度。
其中,卷積層的計算過程如下:假設輸入的圖片資料的維度為C×N×N,卷積層的卷積核(kernel)的大小是m×m。其中,C表示圖片資料的R(Red,紅色)、G(Green、綠色)、B(Blue、藍色)三通道,N×N的前後兩個N分別表示圖片資料在橫向方向上的圖元大小與縱向方向上的圖元大小,根據輸入圖像資料的不同,前後兩個N的值可以不同,也可以相同,對此本發明實施例不加以限定。對於卷積核的大小m×m,前後兩個m的值也可以相同或者不同,對此本發明實施例也不加以限定。需要說明的是,兩個m中的較大值應該小於兩個N中的較小值。則經過卷積層後,輸出值為:
其中,k,i,j表示輸出值的座標,k對應於圖片資料的R、G、B三通道,i對應於圖片資料在橫向方向上的圖元點位置,j對應於圖片資料在縱向方向上的圖元位置。 w是卷積層的參數值,x是輸入值,y是輸出值。在本發明實施例中,w是已知的參數,可以通過預先的對卷積層訓練獲得。
在本發明實施例中,對於每個卷積層,可以有多個卷積核,例如卷積核的個數可以與輸入圖片資料除了在橫向方向上圖元大小以及在縱向方向上的圖元大小之外的維度一致,例如前述圖片資料的三維矩陣C×N×N中的C,因為C代表圖片資料R、G、B三通道,所以此時卷積層可以有3個如前述的m×m的卷積核,則此時由該卷積層的卷積核構成的3×m×m的三維矩陣,即為該卷基層的卷積矩陣。在具體運算過程中,每個卷積核m×m與輸入圖片資料的三維矩陣C×N×N進行卷積,得到一個二維矩陣。.例如:第一個卷積核m×m與C為R通道時的圖片資料卷積,得到一個二維矩陣;第二個卷積核m×m與C為G通道時的圖片資料卷積,得到一個二維矩陣;第三個卷積核m×m與C為B通道時的圖片資料卷積,得到一個二維矩陣;將三個卷積核卷積得出的三個二維矩陣構成一個三維的矩陣,這個三維的矩陣就是公式(1)所示的卷積層的輸出結果。
全連接層的計算公式如下:假設輸入資料的維度為N,則經過全連接層後,輸出值為:
其中,σ(*)為sigmoid函數,,w為全連接層的參數。
Softmax層的計算公式如下:
其中,x為輸入值,j表示每一個類別,y表示類別標籤,θ為Softmax層的參數,e為常量。以數字為例y的類別包括0,1,2......9。那麼該公式可以計算數字圖片資料對應0、1、2......9這9個數字的機率。
由上述分析以及圖1B知,在將獲取的圖片資料登錄之後,第一分類器和第一分類器共用的計算層的計算過程是一致的,因此在經過第一分類器和第一分類器共用的計算層之後,獲取的第一結果也是一致的,而後,對於第一分類器和第一分類器不共用的計算層,如圖1B中的全連接層d和全連接層e,是將第一結果分別作為第一分類器和第一分類器不共用的計算層的輸入,此時,第一分類器和第一分類器不共用的計算層的計算過程不相同。
所以在本發明實施例中,先利用第一分類器和第二分 類器共用的計算層對所述圖片資料進行計算,得到第一結果。
在本發明另一個較佳的實施例中,在步驟120之前,還包括:
步驟S11,利用字符圖片樣本訓練第一分類器的各計算層的參數值;所述第一分類器包括前N層計算層和後M層計算層。
因為第一分類器和第二分類器中的參數可能為未知的,或者是為了進一步提高兩者的準確度,在本發明實施例中,在利用第一分類器以及第二分類器分別執行計算過程之前,需要先訓練第一分類器以及第二分類器中的參數。
因為第一分類器和第二分類器最終計算的機率本質上是不同的,所以對於第一分類器的訓練不需要考慮圖片資料不是字符的情況,所以在本發明實施例中,可以首先利用字符圖片樣本訓練第一分類器的各計算層的參數值。其中,第一分類器包括前N層計算層和後M層計算層,其前N層計算層是與第二分類器共用的計算層,後M層計算層則是不與第二分類器共用的計算層。
在本發明實施例中,可以利用至少一個字符圖片樣本訓練第一分類器,其中的字符圖片樣本是指已經明確識別出字符的字符圖片樣本,字符圖片樣本包括的字符種類應該大於設定的第一分類器和第二分類器可識別的字符種類。所以可知,對應於字符圖片樣本,其識別為自身對應 的字符的機率為1,為其他字符的機率都為0。此時,可以將字符圖片樣本作為第一分類器的輸入,將字符圖片樣本的機率為0的分類以及機率為1的分類作為理想輸出,對第一分類器的參數進行訓練。
訓練過程主要包括四步,這四步被分為兩個階段:
第一階段,向前傳播階段:(1)、選擇一個字符圖片樣本,輸入第一分類器;(2)、計算相應的實際輸出;在此階段,第一分類器會隨機產生初始參數,字符圖片資料從輸入層經過逐級的變換,傳送到輸出層。這個過程也是第一分類器在完成訓練後正常執行時執行的過程。
第二階段,向後傳播階段:(1)、計算實際輸出與相應的理想輸出的差;(2)、按極小化誤差的方法調整參數。
這兩個階段的工作一般應受到精度要求的控制,精度要求可以根據需求靈活設定,對此本發明不加以限定。
對於第一分類器的訓練,實際上是訓練各個卷積層對應的公式(1)中的參數w,各全連接層對應的公式(2)中的參數w,以及Softmax層中的參數θ。其中,不同的卷積層的公式(1)的w不同,不同的全連接層的公式(2)的w不同。
步驟S12,固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
因為第二分類器的前N層計算層是與第一分類器的前N層計算層共用的,所以在確定了第一分類器的前N層計算層的參數之後,那麼此時相當於第二分類器的前N層計算層的參數也一樣確定了,可以只訓練第二分類器的後L層的參數值,其中L與M可以相同,也可以不同,對此本發明不加以限定。
因為第二分類器時計算輸入圖片資料為字符圖片的機率,所以在對其訓練的過程還需要考慮非字符圖片的情況,所以,在申請實施例中,可以利用至少一個非字符圖片樣本和至少一個字符圖片樣本訓練第二分類器的後L層計算層的參數值。
對於非字符圖片樣本,其是字符圖片的機率為0,不是字符圖片的機率為1;而對於字符圖片樣本,其是字符圖片的機率為1,不是字符圖片的機率為0。此時,可以將各字符圖片樣本作為第二分類器的輸入,將機率為1作為理想輸出;將各非字符圖片樣本作為第二分類器的輸入,將機率為0作為理想輸出;對第二分類器的參數進行訓練。
具體的訓練過程,與步驟S11第一分類器的訓練過程類似,同樣主要包括四步,這四步被分為兩個階段:
第一階段,向前傳播階段:(1)、選擇一個字符圖片樣本或者非字符圖片樣本,輸入第一分類器;(2)、計算相應的實際輸出;在此階段,第一分類 器會隨機產生初始參數,字符圖片資料或者非字符圖片資料從輸入層經過逐級的變換,傳送到輸出層。這個過程也是第二分類器在完成訓練後正常執行時執行的過程。
第二階段,向後傳播階段:(1)、計算實際輸出與相應的理想輸出的差;(2)、按極小化誤差的方法調整參數。
這兩個階段的工作一般也應受到精度要求的控制,第二分類器器的精度要求同樣可以根據需求靈活設定,對此本發明不加以限定。
需要說明的是,在本發明的另一較佳地實施例中,也可以先利用非字符圖片樣本和字符圖片樣本訓練第二分類器的前N層計算層和後L層計算層的參數值,然後固定第一分類器的前N層計算層的參數為第二分類器的前N層計算層的參數,並利用字符圖片樣本訓練第一分類器的後M層計算層的參數值。
對於第二分類器的訓練,如果與第一分類器共用卷積層,則其各卷積層的公式(1)的參數由步驟S11確定;然後實際上利用前述(字符圖片資料樣本+非字符圖片資料樣本)訓練各全連接層對應的公式(2)中的參數w,以及Softmax層中的參數θ
如果如果與第一分類器共用卷積層+部分全連接層,當然共用的全連接層是按照參數的輸入順序共用,即共用排序靠前的全連接層,那麼其各卷積層的公式(1)的參數由步驟S11確定,其共用部分的全連接層的公式(2) 中的參數w也由步驟S11確定。然後利用前述(字符圖片資料樣本+非字符圖片資料樣本)訓練剩餘的未共用的全連接層對應的公式(2)中的參數w,以及Softmax層中的參數θ
步驟130,將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率。
第一分類器是用以從圖片資料中識別具體字符的分類器,將經步驟120得到的第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,即可以得到圖片資料可能為各字符的第一機率。例如將第一結果作為輸入值帶入圖1B所示的第一分類器中的全連接層d以及Softmax層1組成的整體,即可以得到對應各字符的第一機率。
其中,圖片資料對應的字符可以為0到9之間的阿拉伯數字,也可以為大寫字符A到Z之間以及小寫字母a到z之間的52個英文字符,或者是標點符號、特殊符號、漢字、羅馬字符等等在圖片資料中可能出現的字符類型中一種或多種字符。在本發明實施例中,所對應的具體字符種類可以根據需求設定,對此本發明實施例中不加以限定。
在Softmax層,如果已經設定可能的字符種類,則利用Softmax層的分類演算法,即可以算出輸入的圖片資料可能為各個字符的機率,即為其對應各字符的第一機率。
步驟140,將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率。
第二分類器是用以識別圖片資料是否為字符圖片的分類器,將經步驟120得到的第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,即可以得到圖片資料為字符圖片的第二機率。例如將第一結果作為輸入值帶入圖1B所示的第二分類器中的全連接層e以及Softmax層2組成的整體,即可以得到對應各字符的第二機率。
第二分類器得到的第二機率是圖片資料為字符圖片的機率,其中字符圖片所對應的字符同樣可能為步驟130所述的各種字符類型,可以根據需求設定,但是需要說明的是,第一分類器對應的字符種類與第二分類器對應的字符種類可以是一致的,或者第二分類器對應的字符種類包含第一分類器對應的字符種類,對此本發明實施例不加以限定。但是相對而言,對於第一分類器對應的字符種類與第二分類器對應的字符種類一致的情況,最終識別字符的效率以及準確度會更高。對於第二分類器而言,字符圖片是指包含設定的字符類型的圖片,計算圖片資料為字符圖片的機率是指計算圖片資料為包含設定的字符類型的圖片的機率,得到的結果即為第二機率。
第二分類器也是利用其自身的Softmax層計算第二機率,如果已經設定可能的字符種類,則利用Softmax層的分類演算法,即可以算出輸入的圖片資料可能為字符圖片 的機率,即為其對應各字符的第一機率。
需要說明的是,因為第一分類器和第二分類器計算得到的第一機率和第二機率的本質不相同,所以第一分類器和第二分類器除了共用的計算層之外剩餘的計算層,尤其是Softmax層的參數以及結構並不一定相同。
步驟150,根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度。
如前述,第一機率是指圖片資料可能為各個字符的機率,而第二機率是指圖片資料可能為字符圖片的機率,可知,對於一個圖片資料而言,其第一機率的個數是與設定的字符種類相對應的,第一機率的個數等同於字符種類的個數,至少為一個,而對應輸入一個圖片資料,得到的第二機率只能為一個。此時,根據圖像資料的第一機率和第二機率,可以計算該圖片資料可以識別為各個字符的置信度。例如,可以通過分別將圖像資料對應於各個字符的第一機率與該圖片資料的第二機率相乘,得到該圖片資料識別為各個字符的置信度。
例如若要識別一個圖片資料是否為0到9之間的阿拉伯數字,則經過第一分類器可以得到十個第一機率,分別對應於該圖片資料為0到9之間的阿拉伯數字的機率,例如第一機率p0是指該圖片資料為字符0的機率,第一機率p1是指該圖片資料為字符1的機率,第一機率p9是指該圖片資料為字符9的機率,等等。而經過第二分類器只能得到一個第二機率,即為該圖片資料滿足設定的條件, 例如為阿拉伯數字的機率s。此時,將p0與s相乘,得到的即為該圖片資料識別為字符0的置信度,而將p9與s相乘,得到的即為該圖片資料識別為字符9的置信度。
步驟160,根據置信度,輸出字符的識別結果。
在本發明實施例中,可以根據計算出來的圖片資料識別為各個字符的置信度,輸出其中對應置信度最高的字符作為識別結果輸出。
例如,步驟150中所述的識別一個圖片資料是否為0到9之間的阿拉伯數字,若最終計算得到的對應各個字符的置信度中,p9與s相乘得到的置信度最大,則可以將字符9作為識別結果輸出。
在本發明實施例中,在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。
其中,第二分類器時與第一分類器共用一部分計算層的,對於第二分類器與第一分類器共用的計算層,其計算過程以及計算結果也是共用的,所以相對於背景技術在字符分類器之前增加一個完整的“是不是字符”分類器,然後 按序對圖片進行計算的過程,本發明相對增加的計算量比較少,降低了計算時間,相對於背景技術提高了字符識別的效率。
另外,第二分類器與第一分類器並不是前後順序使用,而是將兩個分類器分別得到的機率值相乘得到一個置信度,然後根據置信度值輸出相應的識別結果,相對於背景技術提高了字符識別的準確率,不會因為“是不是字符”分類器出現問題,而對整個識別過程產生太大的影響。
實施例二
參照圖2,示出了本發明的一種字符識別方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟210,從身份證明的圖片的號碼區域,切分各個圖片資料。
在本發明實施例中,是對身份證明的圖片進行號碼識別,因為身份證明的圖片中可能包含多個號碼,例如身份證號碼,所以為了識別的方便,首先需要從身份證明的圖片的號碼區域,切分各個圖片資料,如圖1A,切分得到多個圖片資料。例如將身份證號碼所在的區域按序切分成隻包含一位元號碼的圖片資料,對於具體的切分方法,屬於本領域的公知技術,對此本發明實施例不加以贅述。
步驟220,利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分 類器為識別圖片資料是否為字符圖片的分類器。
在本發明的另一個較佳的實施例中,所述第一分類器和第二分類器共用的計算層包括:卷積層、或者卷積層和至少一層全連接層。
在本發明的另一個較佳的實施例中,所述字符為數字。
此時,第一分類器是計算輸入圖片資料分別為0到9之間任一數字的機率,第二分類器是計算輸入圖片資料可識別為數字的機率。
步驟230,將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率。
步驟240,將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率。
步驟250,將最大的第一機率與第二機率相乘,得到所述圖片資料為最大的第一機率對應的數字的置信度。
其中最大的第一機率即為輸入圖片資料最可能為的數字對應的第一機率,將最大的第一機率與第二機率相乘,即可以得到輸入的圖片資料為最大的第一機率對應的數字的置信度。
步驟260,從各個圖片資料中,選擇排序靠前的符合所述身份證規定個數的圖片所對應的數字,並按序輸出。
由於對切分得到的各個圖片都有對應數字0~9機率,而圖1B切分的圖片按身份證的撰寫習慣,從左端至 右端切分的排列的多個圖片。那麼本發明則確定各張圖片對應0~9中最大的機率,然後從排列好的圖片中以每張圖片最大的機率選擇機率最靠前的18張圖片,然後將相應機率數字圖片的排序組合,即得到身份證號碼。
當然,在本發明實施例中,圖片的排序在步驟210切圖時,可以對圖片進行標注以記錄。
例如,對於圖1A所示的身份證號碼進行字符識別,首先將其切分為多個字符資料,按照撰寫習慣,可以從左端到右端對其進行切分成互不相連的22個圖片資料,依次分別為a1到a22,然後利用第一分類器和第二分類器,計算各圖片資料對應最大的機率數字的置信度,並按照置信度從高到低的順序選擇18個圖片資料及18個圖片資料對應最大機率的數字,假設選擇出的圖片資料按該圖片中各數字的最大的照置信度從高到低的順序分別為:a5:(0.95,2)、a6:(0.94,0)、a12:(0.93,8)、a15:(0.92,9)、a11:(0.92,9)、a13:(0.90,9)、a16:(0.90,2)、a4:(0.89,4)、a10(0.89,1)、a14:(0.88,0),a7:(0.87,9)、a17:(0.86,6)、a8:(0.85,2)、a18:(0.84,5)、a9:(0.84,1)、a19:(0.83,1),a20:(0.81,3)、a21:(0.80,8),a2(0.1,8),a1(0.1,9),a22(0.09,0),a3(0.09,0)但是在輸出的過程中,仍然是按照最初切分時候的先後順序,輸出順序為:a4、a5、a6、a7、a8、a9、a10、a11、a12、a13、a14、a15、a16、 a17、a18、a19、a20、a21,則輸出的數字序列為420921198909265138
對於身份證明的圖片的號碼區域,可以切分為多個圖片資料,依次分別利用第一分類器和第二分類器,執行上述的步驟220-250,計算各個圖片資料置信度,並分別按序輸出各第一機率對應的數字,從而實現了對身份證明的號碼,例如身份證號碼的數字識別。
在本發明實施例中,同樣在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。進而相對於背景技術提高了字符識別的效率以及準確率。
另外,本發明在對第一分類器和第二分類器進行訓練的過程中,可以先訓練其中一個分類器,然後將第一分類器和第二分類器共用的計算層固定,繼續訓練另一個分類器未被訓練的計算層,相對於背景技術,降低了訓練的工作量,也提高了對第一分類器和第二分類器訓練的效率。進一步提高了字符識別的效率以及準確率。
需要說明的是,對於方法實施例,為了簡單描述,故 將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。
實施例三
參照圖3,示出了本發明的一種字符識別裝置實施例的結構方塊圖,具體可以包括如下模組:
圖片獲取模組310,適於獲取圖片資料。
第一結果計算模組320,適於利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分類器。
第一機率計算模組330,適於將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率。
第二機率計算模組340,適於將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率。
置信度計算模組350,適於根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度。
輸出模組360,適於根據置信度,輸出字符的識別結果。
在本發明的又一個較佳地實施例中,在第一結果計算模組320之前,還包括:第一分類器訓練模組370,適於利用字符圖片樣本訓練第一分類器的各計算層的參數值;所述第一分類器包括前N層計算層和後M層計算層。
在本發明的又一個較佳地實施例中,在第二機率計算模組340之前,還包括:第二分類器訓練模組380,適於固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
在本發明實施例中,在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。
其中,第二分類器時與第一分類器共用一部分計算層的,對於第二分類器與第一分類器共用的計算層,其計算 過程以及計算結果也是共用的,所以相對于背景技術增加一個完整的分類器,本發明相對增加的計算量比較少,相對於背景技術提高了字符識別的效率。
另外,第二分類器與第一分類器並不是前後順序使用,而是將兩個分類器分別得到的機率值相乘得到一個置信度,然後根據置信度值輸出相應的識別結果,相對於背景技術提高了字符識別的準確率。
實施例四
參照圖4,示出了本發明的一種字符識別裝置實施例的結構方塊圖,具體可以包括如下模組:圖片獲取模組410,適於獲取圖片資料。具體包括:圖片切分子模組411,適於從身份證明的圖片的號碼區域,切分各個圖片資料。
第一結果計算模組420,適於利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;所述第一分類器為從圖片資料中識別具體字符的分類器;所述第二分類器為識別圖片資料是否為字符圖片的分類器。
第一機率計算模組430,適於將所述第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率。
第二機率計算模組440,適於將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算, 得到第二機率。
置信度計算模組450,適於根據所述第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度。具體包括:置信度計算子模組451,適於將最大的第一機率與第二機率相乘,得到所述圖片資料為最大的第一機率對應的數字的置信度。
輸出模組460,適於根據置信度,輸出字符的識別結果。具體包括:輸出子模組461,適於從各個圖片資料中,選擇排序靠前的符合所述身份證規定個數的圖片所對應的數字,並按序輸出。
在本發明實施例中,同樣在獲取圖片資料之後利用第一分類器和第二分類器共用的計算層對所述圖片資料進行計算,得到第一結果;然後分別將第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將所述第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;進而根據第一機率和第二機率,計算所述圖片資料識別為各個字符的置信度;最後根據置信度,輸出字符的識別結果。進而相對於背景技術提高了字符識別的效率以及準確率。
另外,本發明在對第一分類器和第二分類器進行訓練的過程中,可以先訓練其中一個分類器,然後將第一分類 器和第二分類器共用的計算層固定,繼續訓練另一個分類器未被訓練的計算層,相對於背景技術,降低了訓練的工作量,也提高了對第一分類器和第二分類器訓練的效率。進一步提高了字符識別的效率以及準確率。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現 資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、字符多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media),如調製的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方框、以及流程圖和/或方塊圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶 體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的 過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種字符識別方法和一種字符識別裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (14)

  1. 一種字符識別方法,其包括:獲取圖片資料;利用第一分類器和第二分類器共用的計算層對該圖片資料進行計算,得到第一結果;該第一分類器為從圖片資料中識別具體字符的分類器;該第二分類器為識別圖片資料是否為字符圖片的分類器;將該第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;將該第一結果帶入第二分類器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;根據該第一機率和第二機率,計算該圖片資料識別為各個字符的置信度;根據置信度,輸出字符的識別結果。
  2. 根據申請專利範圍第1項所述的方法,其中,還包括:利用字符圖片樣本訓練第一分類器的各計算層的參數值;該第一分類器包括前N層計算層和後M層計算層;固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
  3. 根據申請專利範圍第1或2項所述的方法,其中,該第一分類器和第二分類器共用的計算層包括:卷積層、或者卷積層和至少一層全連接層。
  4. 根據申請專利範圍第1項所述的方法,其中,該字符為數字。
  5. 根據申請專利範圍第4項所述的方法,其中,該獲取圖片資料的步驟,包括:從身份證明的圖片的號碼區域,切分各個圖片資料。
  6. 根據申請專利範圍第5項所述的方法,其中,該根據該第一機率和第二機率,計算該圖片資料識別為各個字符的置信度的步驟包括:將最大的第一機率與第二機率相乘,得到該圖片資料為最大的第一機率對應的數字的置信度。
  7. 根據申請專利範圍第6項所述的方法,其中,該根據置信度,輸出字符的識別結果的步驟,包括:從各個圖片資料中,選擇排序靠前的符合該身份證規定個數的圖片所對應的數字,並按序輸出。
  8. 一種字符識別裝置,其包括:圖片獲取模組,適於獲取圖片資料;第一結果計算模組,適於利用第一分類器和第二分類器共用的計算層對該圖片資料進行計算,得到第一結果;該第一分類器為從圖片資料中識別具體字符的分類器;該第二分類器為識別圖片資料是否為字符圖片的分類器;第一機率計算模組,適於將該第一結果帶入第一分類器中除共用的計算層之外剩餘的計算層進行計算,得到對應各字符的第一機率;第二機率計算模組,適於將該第一結果帶入第二分類 器中除共用的計算層之外剩餘的計算層進行計算,得到第二機率;置信度計算模組,適於根據該第一機率和第二機率,計算該圖片資料識別為各個字符的置信度;輸出模組,適於根據置信度,輸出字符的識別結果。
  9. 根據申請專利範圍第8項所述的裝置,其中,還包括:第一分類器訓練模組,適於利用字符圖片樣本訓練第一分類器的各計算層的參數值;該第一分類器包括前N層計算層和後M層計算層;第二分類器訓練模組,適於固定第二分類器的前N層計算層的參數為第一分類器的前N層計算層的參數,並利用非字符圖片樣本和字符圖片樣本訓練第二分類器的後L層的參數值。
  10. 根據申請專利範圍第8或9項所述的裝置,其中,該第一分類器和第二分類器共用的計算層包括:卷積層、或者卷積層和至少一層全連接層。
  11. 根據申請專利範圍第8項所述的裝置,其中,該字符為數字。
  12. 根據申請專利範圍第11項所述的裝置,其中,該圖片獲取模組,包括:圖片切分子模組,適於從身份證明的圖片的號碼區域,切分各個圖片資料。
  13. 根據申請專利範圍第12項所述的裝置,其中,該 置信度計算模組,包括:置信度計算子模組,適於將最大的第一機率與第二機率相乘,得到該圖片資料為最大的第一機率對應的數字的置信度。
  14. 根據申請專利範圍第13項所述的裝置,其中,該輸出模組,包括:輸出子模組,適於從各個圖片資料中,選擇排序靠前的符合該身份證規定個數的圖片所對應的數字,並按序輸出。
TW106105607A 2016-03-29 2017-02-20 一種字符識別方法和裝置 TWI766855B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610188113.8A CN107239786B (zh) 2016-03-29 2016-03-29 一种字符识别方法和装置
CN201610188113.8 2016-03-29

Publications (2)

Publication Number Publication Date
TW201734890A true TW201734890A (zh) 2017-10-01
TWI766855B TWI766855B (zh) 2022-06-11

Family

ID=59963457

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106105607A TWI766855B (zh) 2016-03-29 2017-02-20 一種字符識別方法和裝置

Country Status (5)

Country Link
US (1) US10872274B2 (zh)
EP (1) EP3422256B1 (zh)
CN (1) CN107239786B (zh)
TW (1) TWI766855B (zh)
WO (1) WO2017167046A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239786B (zh) * 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
AU2018370412A1 (en) * 2017-11-15 2020-06-18 Angel Group Co., Ltd. Recognition system
CN109145891B (zh) * 2018-06-27 2022-08-02 上海携程商务有限公司 客户端及其识别身份证的方法、识别身份证的系统
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置
CN109902724B (zh) * 2019-01-31 2023-09-01 平安科技(深圳)有限公司 基于支持向量机的文字识别方法、装置和计算机设备
US11003937B2 (en) * 2019-06-26 2021-05-11 Infrrd Inc System for extracting text from images
CN110555462A (zh) * 2019-08-02 2019-12-10 深圳索信达数据技术有限公司 基于卷积神经网络的无固定多字符验证码识别方法
CN110765870B (zh) * 2019-09-18 2021-01-12 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
EP3800577A1 (en) * 2019-10-01 2021-04-07 Sensormatic Electronics, LLC Classification and re-identification using a neural network
CN110909734A (zh) * 2019-10-29 2020-03-24 福建两岸信息技术有限公司 一种文献文字检测和识别的方法
CN110827333B (zh) * 2019-10-31 2022-05-03 国网河北省电力有限公司电力科学研究院 一种继电保护的压板拼接识别方法、系统及介质
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111428552B (zh) * 2019-12-31 2022-07-15 深圳数联天下智能科技有限公司 黑眼圈识别方法、装置、计算机设备和存储介质
CN111428553B (zh) * 2019-12-31 2022-07-15 深圳数联天下智能科技有限公司 人脸色素斑识别方法、装置、计算机设备和存储介质
CN111914825B (zh) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 文字识别方法、装置及电子设备
CN111738269B (zh) * 2020-08-25 2020-11-20 北京易真学思教育科技有限公司 模型训练方法、图像处理方法及装置、设备、存储介质
CN112530086A (zh) * 2020-12-16 2021-03-19 合肥美的智能科技有限公司 自动售货柜及其商品sku计算方法、系统以及远程服务器
CN112861648B (zh) * 2021-01-19 2023-09-26 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
US11748923B2 (en) 2021-11-12 2023-09-05 Rockwell Collins, Inc. System and method for providing more readable font characters in size adjusting avionics charts
US11842429B2 (en) 2021-11-12 2023-12-12 Rockwell Collins, Inc. System and method for machine code subroutine creation and execution with indeterminate addresses
US11954770B2 (en) 2021-11-12 2024-04-09 Rockwell Collins, Inc. System and method for recreating graphical image using character recognition to reduce storage space
US11915389B2 (en) 2021-11-12 2024-02-27 Rockwell Collins, Inc. System and method for recreating image with repeating patterns of graphical image file to reduce storage space
US11887222B2 (en) 2021-11-12 2024-01-30 Rockwell Collins, Inc. Conversion of filled areas to run length encoded vectors
US12002369B2 (en) 2021-11-12 2024-06-04 Rockwell Collins, Inc. Graphical user interface (GUI) for selection and display of enroute charts in an avionics chart display system
CN116343232A (zh) * 2023-04-03 2023-06-27 内蒙古师范大学 一种基于预分类的古籍数学符号识别方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0944021B1 (en) 1992-06-19 2005-05-11 United Parcel Service Of America, Inc. Method and apparatus for training for generating and for adjusting a neuron
DE69431393T2 (de) 1994-01-13 2003-01-23 St Microelectronics Srl Anlage zur Bilderkennung alphanumerischen Zeichen
US5745599A (en) 1994-01-19 1998-04-28 Nippon Telegraph And Telephone Corporation Character recognition method
US5577135A (en) 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
US5912986A (en) * 1994-06-21 1999-06-15 Eastman Kodak Company Evidential confidence measure and rejection technique for use in a neural network based optical character recognition system
US5542006A (en) 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
US6026177A (en) 1995-08-29 2000-02-15 The Hong Kong University Of Science & Technology Method for identifying a sequence of alphanumeric characters
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JPH09223195A (ja) 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法
WO2002037933A2 (en) 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
AUPR824401A0 (en) 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
US7016529B2 (en) * 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition
SE0202446D0 (sv) 2002-08-16 2002-08-16 Decuma Ab Ideon Res Park Presenting recognised handwritten symbols
EP1661062A4 (en) 2003-09-05 2009-04-08 Gannon Technologies Group SYSTEMS AND METHODS FOR BIOMETRIC IDENTIFICATION THROUGH THE USE OF HANDWIRE IDENTIFICATION
US20070065003A1 (en) 2005-09-21 2007-03-22 Lockheed Martin Corporation Real-time recognition of mixed source text
US7646913B2 (en) 2005-12-19 2010-01-12 Microsoft Corporation Allograph based writer adaptation for handwritten character recognition
US7724957B2 (en) 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
CN100535931C (zh) * 2006-09-06 2009-09-02 中国科学院自动化研究所 一种多分辨率退化字符自适应识别系统及方法
CN101373519B (zh) * 2007-08-20 2011-01-19 富士通株式会社 字符识别装置和方法
CN101630367A (zh) * 2009-07-31 2010-01-20 北京科技大学 基于多分类器的手写体字符识别拒识方法
CN102375991B (zh) * 2010-08-24 2016-04-13 北京中星微电子有限公司 分类器训练方法和装置以及字符识别方法和装置
US8503801B2 (en) * 2010-09-21 2013-08-06 Adobe Systems Incorporated System and method for classifying the blur state of digital image pixels
US8867828B2 (en) * 2011-03-04 2014-10-21 Qualcomm Incorporated Text region detection system and method
CN103530600B (zh) * 2013-06-06 2016-08-24 东软集团股份有限公司 复杂光照下的车牌识别方法及系统
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
CN103971091B (zh) * 2014-04-03 2017-04-26 北京首都国际机场股份有限公司 飞机机号自动识别方法
CN105095889B (zh) * 2014-04-22 2018-12-07 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
CN105224939B (zh) * 2014-05-29 2021-01-01 小米科技有限责任公司 数字区域的识别方法和识别装置、移动终端
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
CN103996057B (zh) * 2014-06-12 2017-09-12 武汉科技大学 基于多特征融合的实时手写体数字识别方法
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107239786B (zh) * 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
US10818398B2 (en) * 2018-07-27 2020-10-27 University Of Miami System and method for AI-based eye condition determinations

Also Published As

Publication number Publication date
US10872274B2 (en) 2020-12-22
EP3422256B1 (en) 2023-06-07
TWI766855B (zh) 2022-06-11
CN107239786A (zh) 2017-10-10
EP3422256A1 (en) 2019-01-02
EP3422256A4 (en) 2019-10-09
US20190026607A1 (en) 2019-01-24
WO2017167046A1 (zh) 2017-10-05
CN107239786B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
TWI766855B (zh) 一種字符識別方法和裝置
WO2018010657A1 (zh) 结构化文本检测方法和系统、计算设备
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
CN111191649A (zh) 一种识别弯曲多行文本图像的方法与设备
CN114596566A (zh) 文本识别方法及相关装置
CN111368632A (zh) 一种签名识别方法及设备
CN110796145A (zh) 基于智能决策的多证件分割关联方法及相关设备
CN110991303A (zh) 一种图像中文本定位方法、装置及电子设备
CN114565768A (zh) 图像分割方法及装置
US20230036812A1 (en) Text Line Detection
CN110348022A (zh) 一种相似度分析的方法、装置、存储介质及电子设备
CN110348023A (zh) 一种中文文本分词的方法、装置、存储介质及电子设备
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
Nag et al. Offline extraction of Indic regional language from natural scene image using text segmentation and deep convolutional sequence
CN114399782A (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN116541549B (zh) 子图分割方法、装置、电子设备及计算机可读存储介质
CN113192093B (zh) 基于双流网络结构的快速显著性目标检测方法
CN116092105B (zh) 表格结构的解析方法和装置
WO2024103997A1 (zh) 手写体识别方法、手写体识别模型的训练方法及装置
US11972626B2 (en) Extracting multiple documents from single image
US20240107986A1 (en) Fish identification device and fish identification method
Guia et al. Intelligent Image Text Detection via Pixel Standard Deviation Representation.
CN117746394A (zh) 一种限速标志的识别方法、装置、电子设备及存储介质
CN116912863A (zh) 表格识别方法、装置及相关设备
CN116740729A (zh) 文档图像的版面理解方法、装置、电子设备