TW202137051A - 圖像識別方法、裝置、終端和儲存媒體 - Google Patents

圖像識別方法、裝置、終端和儲存媒體 Download PDF

Info

Publication number
TW202137051A
TW202137051A TW110107175A TW110107175A TW202137051A TW 202137051 A TW202137051 A TW 202137051A TW 110107175 A TW110107175 A TW 110107175A TW 110107175 A TW110107175 A TW 110107175A TW 202137051 A TW202137051 A TW 202137051A
Authority
TW
Taiwan
Prior art keywords
image
text
recognized
area
text area
Prior art date
Application number
TW110107175A
Other languages
English (en)
Other versions
TWI808386B (zh
Inventor
伍敏慧
黃華傑
林榆耿
Original Assignee
大陸商騰訊科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商騰訊科技(深圳)有限公司 filed Critical 大陸商騰訊科技(深圳)有限公司
Publication of TW202137051A publication Critical patent/TW202137051A/zh
Application granted granted Critical
Publication of TWI808386B publication Critical patent/TWI808386B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申請實施例揭示一種圖像識別方法、裝置、終端和儲存媒體。本申請實施例可以獲取待識別圖像,待識別圖像為待識別證件的圖像;對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;根據文本區域圖像確定目標文本的文本方向;根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。本申請可以依據目標文本的文本方向自動地修正歪斜、顛倒的文本區域圖像進行文本識別,從而提高文本識別準確度、提升圖像識別方法的效率。

Description

圖像識別方法、裝置、終端和儲存媒體
本申請係涉及圖像處理領域,特別有關一種圖像識別方法、裝置、終端和儲存媒體。
目前,計算機或電腦可以針對金融卡、身份證、會員卡等實體證件的目標文本進行識別,比如,用戶可以使用智慧型手機拍攝自己的金融卡的卡面,智慧型手機上相應的應用程式可以識別出該金融卡卡面上所顯示的卡號數字,用戶無需手動輸入,智慧型手機就可以自動地輸入用戶的金融卡卡號。
然而,一旦用戶不能清晰、完整地從正面拍攝實體證件,或實體證件的版面不同於常見的實體證件時,則需要用戶重新拍攝實體證件,否則會導致無法識別、識別錯誤、識別速度慢等情況,因此,目前的圖像識別方法效率低下。
本申請實施例提供一種圖像識別方法、裝置、終端和儲存媒體,可以提升圖像識別方法的效率。
本申請實施例提供一種圖像識別方法,包括:
獲取待識別圖像,所述待識別圖像為待識別證件的圖像;
對所述待識別圖像進行文本區域識別,得到所述待識別證件所對應的目標文本的文本區域圖像;
根據所述文本區域圖像確定所述目標文本的文本方向;
根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像;
基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
本申請實施例還提供一種圖像識別裝置,包括:
獲取單元,配置為獲取待識別圖像,所述待識別圖像為待識別證件的圖像;
文本單元,配置為對所述待識別圖像進行文本區域識別,得到所述待識別證件所對應的目標文本的文本區域圖像;
方向單元,配置為根據所述文本區域圖像確定所述目標文本的文本方向;
調整單元,配置為根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像;
識別單元,配置為基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
在一些實施例中,所述文本單元,包括:
圖像特徵子單元,配置為對所述待識別圖像進行圖像特徵提取,得到所述待識別圖像的圖像特徵;
圖像類型子單元,配置為採用圖像分類網路根據所述圖像特徵對所述待識別圖像進行圖像類型識別,確定所述待識別圖像的圖像類型;
文本區域子單元,配置為當所述待識別圖像的圖像類型為預設證件類型時,採用區域檢測網路根據所述圖像特徵對所述待識別圖像進行文本區域分割,得到所述待識別證件所對應的目標文本的文本區域圖像。
在一些實施例中,所述圖像子特徵單元,配置為對待識別圖像進行圖像切割處理,得到圖像片段組,所述圖像片段組中包括多個圖像片段;
採用分組卷積網路對所述圖像片段組進行多尺寸特徵抽取,得到多個不同尺寸的圖像片段特徵組,其中,每個圖像特徵組中的圖像片段特徵的尺寸相同;
基於所述不同尺寸的圖像片段特徵組進行特徵融合處理,得到所述待識別圖像的圖像特徵。
在一些實施例中,所述圖像類型子單元,配置為採用圖像分類網路根據所述圖像特徵確定所述待識別圖像的證件方向;
此時,在一些實施例中,所述方向單元,配置為 根據所述文本方向和所述待識別證件的證件方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像。
在一些實施例中,所述文本區域子單元,包括:
位置特徵子模組,配置為採用區域檢測網路根據所述圖像特徵確定文本區域位置特徵;
位置特徵點子模組,配置為根據所述文本區域位置特徵在所述待識別圖像中確定文本區域位置特徵點;
分割子模組,配置為根據所述文本區域位置特徵點在所述待識別圖像中分割得到文本區域圖像,所述文本區域圖像為包含了目標文本的圖像。
在一些實施例中,所述位置特徵子模組,配置為採用區域檢測網路根據所述圖像特徵確定文本區域圖像中目標文本的方向特徵;
所述根據所述文本區域圖像確定所述目標文本的文本方向,包括:
採用區域檢測網路根據所述文本區域圖像的方向特徵確定所述目標文本的文本方向。
在一些實施例中,所述區域檢測網路包括多通道輸出層,所述位置特徵子模組在配置為採用區域檢測網路根據所述文本區域圖像的方向特徵確定所述目標文本的文本方向時,配置為在所述多通道輸出層中根據所述方向特徵確定所述文本區域圖像中每個像素的方向預測值;
對所述文本區域圖像中每個像素的方向預測值進行統計,得到所述文本區域圖像的全域方向值;
根據所述全域方向值確定所述目標文本的文本方向。
在一些實施例中,所述文本單元,包括:
區域片段子單元,配置為對所述文本區域圖像進行圖像切割處理,得到文本區域圖像片段;
區域片段特徵子單元,配置為採用分組卷積網路對所述文本區域圖像片段進行特徵抽取,得到文本區域圖像片段特徵;
文本特徵子單元,配置為根據所述文本區域圖像片段特徵確定目標文本特徵;
文本識別子單元,配置為採用雙向循環網路基於所述目標文本特徵進行文本識別,得到所述目標文本的文本內容。
在一些實施例中,所述雙向循環網路包括正向層和逆向層,所述文本識別子單元,配置為確定所述雙向循環網路中的當前時刻,以及所述當前時刻的上一時刻所對應的正向隱層狀態、當前時刻的下一時刻所對應的逆向隱層狀態;
根據所述目標文本特徵、正向層在上一時刻的正向隱層狀態確定正向層在當前時刻的正向隱層狀態;
根據所述目標文本特徵、逆向層在下一時刻的逆向隱層狀態確定逆向層在當前時刻的逆向隱層狀態;
根據所述正向層在當前時刻的正向隱層狀態、逆向層在當前時刻的逆向隱層狀態確定文本語義向量;
根據文本語義向量確定所述目標文本的文本內容。
在一些實施例中,所述文本方向包括第一方向、第二方向、第三方向和第四方向,所述方向單元,配置為當所述文本方向為第一方向時,將所述文本區域圖像作為調整後的文本區域圖像;
當所述文本方向為第二方向時,將所述文本區域圖像逆時針旋轉90度,得到調整後的文本區域圖像;
當所述文本方向為第三方向時,將所述文本區域圖像逆時針旋轉180度,得到調整後的文本區域圖像;
當所述文本方向為第四方向時,將所述文本區域圖像逆時針旋轉270度,得到調整後的文本區域圖像。
在一些實施例中,所述識別單元,配置為 獲取文本區域訓練樣本圖像和預設循環卷積網路,所述文本區域訓練樣本圖像標註了目標文本的文本內容,所述預設循環卷積網路包括分組卷積網路、雙向循環網路、連接時序分類器;
根據所述文本區域訓練樣本圖像訓練所述預設循環卷積網路,直至所述連接時序分類器判斷所述預設循環卷積網路收斂,得到循環卷積網路;
在一些實施例中,所述識別單元,配置為採用所述循環卷積網路基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
在一些實施例中,所述方向單元,配置為獲取訓練樣本圖像、預設圖像分類網路和預設區域檢測網路,所述訓練樣本圖像標註了證件方向和文本方向;
採用所述預設圖像分類網路處理所述訓練樣本圖像,得到證件方向訓練結果;
根據所述訓練樣本圖像和所述證件方向訓練結果訓練預設區域檢測網路,直至所述預設區域檢測網路收斂,得到區域檢測網路;
採用所述區域檢測網路根據所述文本區域圖像確定所述目標文本的文本方向。
本申請實施例還提供一種終端,包括儲存器儲存有多條指令;所述處理器從所述儲存器中加載指令,以執行本申請實施例所提供的任一種圖像識別方法中的步驟。
本申請實施例還提供一種計算機可讀儲存媒體,所述計算機可讀儲存媒體儲存有多條指令,所述指令適於處理器進行加載,以執行本申請實施例所提供的任一種圖像識別方法中的步驟。
對於識別證件照片中目標文本的文本內容,目前常用的是OCR(Optical Character Recognition,光學字元識別)技術,OCR技術是一種常用的字元識別技術,可以識別將含有黑白點陣的圖像中的文字,將其轉換成文本格式,以供進一步編輯加工,其具體的識別方案是對證件圖像中的單個字元進行圖像分割,將分割出來的單字圖像與字典中的文本進行對比,從而實現對這單個字元的文字識別,然而該方法的準確度低、速度慢;此外,目前還可以透過深度學習的方法來對這分割出來的單字圖像進行文字識別,但該方法對證件的版式以及證件照片的拍攝角度、亮度、完整性等有較高的要求,一旦證件不能完整地位於圖片中央,且垂直、正對螢幕,或證件的版式不同於常規版式時,該方法很容易出現識別錯誤。
本申請實施例可以獲取待識別圖像,待識別圖像為待識別證件的圖像;對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像根據文本區域圖像確定目標文本的文本方向;根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;基於調整後的文本區域圖像進行文本識別,得到待識別證件的目標文本。
相比於現有的圖像識別方法,本申請可以對待識別圖像中所出現的待識別證件進行識別,識別出該待識別證件所對應的目標文本所在的位置區域,以及該位置區域中目標文本所處的拍攝角度方向,本申請可以在待識別圖像中截取其目標文本的文本區域圖像,並根據目標文本的角度方向來調整該文本區域圖像,以修正文本區域圖像中傾斜、顛倒的目標文本,從而便於識別待識別證件中目標文本的具體文本內容,從而提高識別準確度。
故本申請可以對不同版面的證件進行準確的識別,也可以適應不同拍攝角度的待識別圖像,對於證件照片的亮度和完整性沒有嚴格的要求,本技術方案識別準確率更高;由此,本技術方案提升了圖像識別方法的效率。
下面將結合本申請實施例中的圖式,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,所屬技術領域具有通常知識者在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
本申請實施例提供一種圖像識別方法、裝置、終端和儲存媒體。
其中,該圖像識別裝置具體可以集成在電子設備中,該電子設備可以為終端、伺服器等設備。其中,終端可以為手機、平板電腦、智能藍牙設備、筆記型電腦、或者個人電腦(Personal Computer,PC)等設備;伺服器可以是單一伺服器,也可以是由多個伺服器組成的伺服器集群。
例如,參考圖1a,該電子設備可以是智慧型手機,該智慧型手機可以透過攝像鏡頭拍攝待識別圖像,該待識別圖像可以是待識別的金融卡照片;智慧型手機可以對金融卡照片進行文本區域識別,得到該金融卡卡號的文本區域圖像,並根據文本區域圖像確定金融卡卡號的文本方向,然後根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像,最後基於調整後的文本區域圖像進行文本識別,得到金融卡卡號的具體卡號數字內容。
以下分別進行詳細說明。需說明的是,以下實施例的序號不作為對實施例優選順序的限定。
人工智能(Artificial Intelligence,AI)是一種利用數位電腦或計算機來模擬人類感知環境、獲取知識並使用知識的技術,該技術可以使機器具有類似於人類的感知、推理與決策的功能。人工智能技術主要包括計算機或電腦視覺技術、語音處理技術、自然語言處理技術以及機器學習等幾大方向。
其中,計算機視覺(Computer Vision,CV)是利用計算機代替人眼對待識別圖像進行識別、測量等操作並進一步進行處理的技術。計算機視覺技術通常包括圖像處理、圖像識別、圖像語義理解、圖像檢索、虛擬實境、增強現實、同步定位與地圖構建等技術,比如,圖像著色、圖像描邊提取等圖像處理技術。
在本實施例中,提供了一種基於人工智能的圖像識別方法,採用了CV技術,如圖1b所示,該圖像識別方法的具體流程可以如下:
101、獲取待識別圖像,待識別圖像為待識別證件的圖像。
待識別圖像是指包含了等待被識別的證件的圖像,該證件可以為金融卡、身份證、簽證、會員卡,等等。
獲取待識別圖像的方式具有多種,比如,可以透過圖像識別裝置搭載的攝像鏡頭等傳感器拍攝待識別證件,從而獲取待識別圖像;也可以透過網路從圖像資料庫中獲取;還可以從本地記憶體中讀取得到,等等。
102、對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像。
目標文本是指待識別證件中特定的文本,比如,目標文本可以是待識別證件中的證件編號文本、證件名稱文本、證件持有者姓名文本,等等。
其中,文本區域圖像是指該目標文本在待識別圖像中所出現的區域的圖像。
比如,參考圖1a,待識別圖像為用戶拍攝的金融卡照片,待識別證件是金融卡,目標文本是金融卡卡號,在步驟102中可以對金融卡照片進行文本區域識別,得到該金融卡卡號在該金融卡照片中的文本區域圖像。
需要注意的是,文本區域圖像可以為多種幾何形狀,比如,三角型、菱形、矩形、圓形,等等;例如,如圖1a,文本區域圖像可以是一個不規則的四邊形。
在一些實施例中,為了降低計算量、提高識別效率,在進行文本區域分割之前,可以檢測待識別圖像中是否存在待識別證件,比如,步驟102可以包括如下步驟:
(1)對待識別圖像進行圖像特徵提取,得到待識別圖像的圖像特徵;
(2)採用圖像分類網路根據圖像特徵對待識別圖像進行圖像類型識別,確定待識別圖像的圖像類型;
(3)當待識別圖像的圖像類型為預設證件類型時,採用區域檢測網路根據圖像特徵對待識別圖像進行文本區域分割,得到待識別證件所對應的目標文本的文本區域圖像。
在本實施例中,可以採用任意一種圖像特徵提取網路來對待識別圖像進行圖像特徵提取,比如,可以採用多種卷積神經網路模型,如LeNet、VGG、AlexNet、Unet、GoogleNet、RCNN,等等。
得到的圖像特徵可以為特徵向量,也可以為特徵矩陣、特徵圖,等等。
在本實施例中,圖像分類網路和區域檢測網路可以為任意卷積神經網路模型。
待識別圖像的圖像類型可以包括預設證件類型、無法識別類型、其他圖像內容類型,等等。比如,當對金融卡照片進行圖像類型識別時,可以識別出該照片的圖像類型為金融卡類型,當預設證件類型為身份證類型,該照片不是身份證類型時,在本實施例中則不需要對該照片進行進一步的處理,故提高了圖像識別效率。
在一些實施例中,可以採用RCNN模型執行步驟102,比如,採用EAST(An Efficient and Accurate Scene Text Detector)模型執行步驟102,其中,參考圖1c,該EAST模型中可以包括特徵提取層、特徵融合層和輸出層,在輸出層中可以包括多個通道,比如,輸出層可以包括圖像分類通道和區域檢測通道,該圖像分類通道可以為任意一種圖像分類網路,該區域檢測通道可以為任意一種區域檢測網路。
特徵提取網路可以為EAST模型的特徵提取層和特徵融合層,EAST模型的特徵提取層和特徵融合層為一種Unet網路,可以對特徵進行多尺度的識別,並對識別出的多尺度的特徵進行進一步的拼接、融合。
在一些實施例中,為了降低計算量、提高特徵提取效率,可以在EAST模型中採用高效的輕量級網路來作為圖像特徵提取網路,執行步驟“對待識別圖像進行圖像特徵提取,得到待識別圖像的圖像特徵”時可以包括如下步驟:
A. 對待識別圖像進行圖像切割處理,得到圖像片段組,圖像片段組中可以包括多個圖像片段;
B. 採用分組卷積網路對圖像片段組進行多尺寸特徵抽取,得到多個不同尺寸的圖像片段特徵組,其中,每個圖像特徵組中的圖像片段特徵的尺寸相同;
C. 基於不同尺寸的圖像片段特徵組進行特徵融合處理,得到待識別圖像的圖像特徵。
其中,輕量級網路可以為任意一種分組卷積網路,如Shufflenet、Mobilenet等,來對待識別圖像進行圖像特徵提取,得到待識別圖像的圖像特徵。
其中,分組卷積網路是由多個分組卷積(Group Convolution)組成的,分組卷積可以將不同特徵圖進行分組,然後採用不同的卷積核對各組的特徵圖進行卷積;相比於一般全通道卷積的通道密集連接方式(Channel Dense Connection),分組卷積網路作為一種通道稀疏連接方式(Channel Sparse Connection)可以有效地提高卷積速度,從而降低計算量。
在一些實施例中,EAST網路的輸出層中除了包括圖像分類通道和區域檢測通道,還可以包括證件方向通道,在該通道中可以識別待識別圖像的證件方向,該證件方向是指在待識別圖像中該待識別證件的正面方向,比如,參考圖1d,照片A中金融卡的證件方向為0°,照片B中金融卡的證件方向為170°
由於如圖1d中照片B所示的金融卡,某些證件的版面非常規,其證件方向與文本方向不同,僅僅採用該證件方向來對文本區域圖像進行方向調整可能會造成誤判,故採用該證件方向和文本方向同時來對文本區域圖像進行方向調整,可以有效降低誤判率,故在步驟102的步驟“採用圖像分類網路根據圖像特徵對待識別圖像進行圖像類型識別,確定待識別圖像的圖像類型”之後,還可以採用圖像分類網路根據圖像特徵確定待識別圖像的證件方向;在步驟104即可採用該證件方向和文本方向同時來對文本區域圖像進行方向調整。
在一些實施例中,步驟“採用區域檢測網路根據圖像特徵對待識別圖像進行文本區域分割,得到待識別證件所對應的目標文本的文本區域圖像”可以包括如下步驟:
採用區域檢測網路根據圖像特徵確定文本區域位置特徵;
根據文本區域位置特徵在待識別圖像中確定文本區域位置特徵點;
根據文本區域位置特徵點在待識別圖像中分割得到文本區域圖像,文本區域圖像為包含了目標文本的圖像。
其中,文本區域位置特徵點可以以坐標的形式表現,比如,文本區域為四邊形時,文本區域位置特徵點為(0,0)、(0,4)、(2,0)、(2,4),則該文本區域為4*2大小的矩形區域。
可以在待識別圖像中切割該文本區域位置特徵點所對應的文本區域,從而得到文本區域圖像。
在一些實施例中,在EAST網路的輸出層的區域檢測通道中可以識別待識別圖像中目標文本的文本方向,該文本方向是指在待識別圖像中該目標文本的正面方向,比如,參考圖1d,照片A中金融卡的文本方向為0°,照片B中金融卡的文本方向為260°。
103、根據文本區域圖像確定目標文本的文本方向。
在一些實施例中,可以在執行步驟102“採用圖像分類網路根據圖像特徵對待識別圖像進行圖像類型識別,確定待識別圖像的圖像類型”之後,採用圖像分類網路根據圖像特徵確定待識別圖像的證件方向,此時,可以根據文本方向和待識別證件的證件方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像。
由於如圖1d中照片B所示的金融卡,某些證件的版面非常規,其證件方向與文本方向不同,僅僅採用該證件方向來對文本區域圖像進行方向調整可能會造成誤判,故採用該證件方向和文本方向同時來對文本區域圖像進行方向調整,可以有效降低誤判率,故在步驟102“採用圖像分類網路根據圖像特徵對待識別圖像進行圖像類型識別,確定待識別圖像的圖像類型”之後,還可以採用圖像分類網路根據圖像特徵確定待識別圖像的證件方向;在步驟104即可採用該證件方向和文本方向同時來對文本區域圖像進行方向調整。
在一些實施例中,由於證件的版式不同,文本方向和證件方向可能不是同一方向,故可以採用證件方向來輔助訓練區域檢測網路,從而提高區域檢測網路識別文本方向的準確度,步驟103可以包括如下步驟:
獲取訓練樣本圖像、預設圖像分類網路和預設區域檢測網路,訓練樣本圖像標註了證件方向和文本方向;
採用預設圖像分類網路處理訓練樣本圖像,得到證件方向訓練結果;
根據訓練樣本圖像和證件方向訓練結果訓練預設區域檢測網路,直至預設區域檢測網路收斂,得到區域檢測網路;
採用區域檢測網路根據文本區域圖像確定目標文本的文本方向。
其中,“採用區域檢測網路根據所述圖像特徵確定文本區域位置特徵”的步驟之後,還包括:
採用區域檢測網路根據所述圖像特徵確定文本區域圖像中目標文本的方向特徵;
其中,根據文本區域圖像確定目標文本的文本方向”可以包括如下步驟:
採用區域檢測網路根據文本區域圖像的方向特徵確定目標文本的文本方向。
在一些實施例中,為了提高識別文本方向的準確率,區域檢測網路可以包括多通道輸出層,步驟“採用區域檢測網路根據文本區域圖像的方向特徵確定目標文本的文本方向”可以包括如下步驟:
在多通道輸出層中根據方向特徵確定文本區域圖像中每個像素的方向預測值;
對文本區域圖像中每個像素的方向預測值進行統計,得到文本區域圖像的全域方向值;
根據全域方向值確定目標文本的文本方向。
在本實施例中,可以預測文本區域圖像中每個像素點的方向,統計每個像素點的方向來確定文本區域圖像的全域方向值,根據全域方向值即可確定目標文本的文本方向。
比如,文本區域圖像的全域方向值為266,則可確定目標文本的文本方向為順時針266°。
104、根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像。
在一些實施例中,為了降低計算量、提高方向調整的效率,在步驟103識別出的文本方向可以包括第一方向、第二方向、第三方向和第四方向,其中,第一方向是指待識別圖像的正方向,第二方向是指待識別圖像的正方向的順時針90度,第三方向是指待識別圖像的正方向的順時針180度,第四方向是指待識別圖像的正方向的順時針270度,步驟“根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像”可以包括如下步驟:
當文本方向為第一方向時,將文本區域圖像作為調整後的文本區域圖像;
當文本方向為第二方向時,將文本區域圖像逆時針旋轉90度,得到調整後的文本區域圖像;
當文本方向為第三方向時,將文本區域圖像逆時針旋轉180度,得到調整後的文本區域圖像;
當文本方向為第四方向時,將文本區域圖像逆時針旋轉270度,得到調整後的文本區域圖像。
在另一些實施例中,為了提高調整精度,在步驟103識別出的文本方向可以包括多個不同的方向,比如,待識別圖像的正方向的順時針1度、待識別圖像的正方向的順時針2度、待識別圖像的正方向的順時針3度、待識別圖像的正方向的順時針4度...,等等,此時,方向調整的方法與上述方法類似,反方向旋轉相同度數即可。
105、基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
在一些實施例中,為了提高文本內容識別的準確性,可以採用任意一種卷積循環神經網路網路來執行步驟105。
其中,卷積循環神經網路可以包括卷積層、循環層和轉錄層。
在一些實施例中,為了降低計算量、提高計算效率,卷積循環神經網路的卷積層可以為任意一種輕量級的分組卷積網路網路,如Shufflenet、Mobilenet,等等。
在一些實施例中,為了提高文本內容的識別準確率、提高文本之間在時序上的邏輯緊密性,卷積循環神經網路的循環層可以為任意一種雙向循環網路,如雙向長短時間記憶網路(Bi-directional Long Short-Term Memory,BiLSTM)。
例如,在一些實施例中,可以採用包括以Shufflenet為卷積層、以BiLSTM為循環層的卷積循環神經網路來執行步驟105。故,步驟105可以包括如下步驟:
對文本區域圖像進行圖像切割處理,得到文本區域圖像片段;
採用分組卷積網路對文本區域圖像片段進行特徵抽取,得到文本區域圖像片段特徵;
根據文本區域圖像片段特徵確定目標文本特徵;
採用雙向循環網路基於目標文本特徵進行文本識別,得到目標文本的文本內容。
具體地,BiLSTM中具有正向層和逆向層,正向層和逆向層均具有其對應的隱層狀態,該隱層狀態可以用於記憶文本的時序邏輯,故在一些實施例中,步驟“雙向循環網路可以包括正向層和逆向層,採用雙向循環網路基於目標文本特徵進行文本識別,得到目標文本的文本內容”可以包括如下步驟:
確定雙向循環網路中的當前時刻,以及當前時刻的上一時刻所對應的正向隱層狀態、當前時刻的下一時刻所對應的逆向隱層狀態;
根據目標文本特徵、正向層在上一時刻的正向隱層狀態確定正向層在當前時刻的正向隱層狀態;
根據目標文本特徵、逆向層在下一時刻的逆向隱層狀態確定逆向層在當前時刻的逆向隱層狀態;
根據正向層在當前時刻的正向隱層狀態、逆向層在當前時刻的逆向隱層狀態確定文本語義向量;
根據文本語義向量確定目標文本的文本內容。
在一些實施例中,步驟105採用循環卷積網路進行文本識別,為了將文本的圖像與內容對齊、提高識別的準確度,在執行步驟105之前,還可以預先採用連接時序分類器(Connectionist temporal classification,CTC)訓練循環卷積網路,如下:
獲取文本區域訓練樣本圖像和預設循環卷積網路,文本區域訓練樣本圖像標註了目標文本的文本內容,預設循環卷積網路可以包括分組卷積網路、雙向循環網路、連接時序分類器;
根據文本區域訓練樣本圖像訓練預設循環卷積網路,直至連接時序分類器判斷預設循環卷積網路收斂,得到循環卷積網路。
由上可知,本申請實施例可以獲取待識別圖像,待識別圖像為待識別證件的圖像;對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;根據文本區域圖像確定目標文本的文本方向;根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
由此,本方案可以將目標文本的文本區域圖像進行方向調整,使得可以對正方向的文本區域圖像進行識別,從而實現了對不同版面、不同拍攝角度的證件的識別,且提高了識別的準確率,故提升圖像識別方法的效率。
根據上述實施例所描述的方法,以下將作進一步詳細說明。
參考圖1d,圖1d中包括了2種版面的金融卡照片,其中,照片A中是常規版面的金融卡,該金融卡的正面被完整地拍攝,其拍攝角度與鏡頭垂直,金融卡的方向與其卡號的方向相同;照片B中是特殊版面的金融卡,該金融卡的拍攝角度不與鏡頭垂直,且該金融卡的正面顛倒,金融卡未被完整拍攝。
在本實施例中,可以同時識別照片A和照片B中的金融卡的卡號,以下將以照片B的卡號識別為例,對本申請實施例的方法進行詳細說明。
如圖2a所示,一種圖像識別方法具體流程如下:
201、獲取訓練樣本圖像,並對訓練樣本圖像進行預處理。
在本實施例中,訓練樣本圖像可以為金融卡照片,該金融卡照片可以從圖片庫中獲取,也可以由技術人員拍攝獲取,等等,在此對其來源不作要求。
訓練樣本圖像可以由技術人員進行標註、篩選、清洗等預處理。
參考圖2b,訓練樣本圖像可以被標註其照片類型,比如,金融卡類型、身份證類型、護照類型、非證件類型、無法識別類型,等等。
訓練樣本圖像還可以被標註其中金融卡的金融卡方向,以及卡號的卡號區域、卡號內容和卡號方向,等等。
202、根據處理後的訓練樣本圖像訓練預設的圖像識別模型,得到圖像識別模型,該圖像識別模型包括EAST網路、CRNN網路。
在本實施例中,預設的圖像識別模型包括EAST網路和CRNN網路。
其中,參考圖2b,EAST網路可以包括特徵提取層、特徵融合層和輸出層,輸出層包括圖像類型通道和卡號方向通道,在輸出層得到訓練樣本圖像的圖像類型、卡號方向、卡號區域、卡號內容等信息。
其中,為了提高特徵提取和融合的效率,特徵提取層和特徵融合層可以採用shufflenet網路、mobilenet網路,等等。
在圖像類型通道,EAST網路可以預測訓練樣本圖像的圖像類型;在卡號方向通道可以預測訓練樣本圖像中卡號的方向。
參考圖2c,由於金融卡版式的不同,金融卡方向和卡號方向也有可能不同,且參考圖1a,由於金融卡照片中的金融卡未被完整地拍攝,故照片中的背景也可能對卡號方向的判斷產生干擾,故在一些實施例中,輸出層還包括金融卡方向通道,該金融卡方向通道可以預測訓練樣本圖像中金融卡的方向,用於輔助卡號方向通道判斷卡號方向。
其中,CRNN網路可以用於識別卡號內容,由CNN、BiLSTM和CTC構成,其中,CNN網路可以為shufflenet網路,用於提高識別效率。
203、獲取金融卡照片。
在本實施例中,金融卡照片可以由用戶採用智慧型手機進行拍攝得到。
204、採用EAST網路對金融卡照片進行卡號區域識別,得到該金融卡照片卡號的卡號區域圖像,並根據卡號區域圖像確定卡號方向。
首先,可以將金融卡照片輸入EAST網路,該在EAST網路輸出層的圖像方向通道可以用於判斷該照片中是否含有金融卡,該照片中不含金融卡,則停止識別,並提示用戶重新拍攝;若照片中含有金融卡,則可以繼續進行以下的處理步驟:
在EAST網路輸出層的卡號區域通道中可以檢測出金融卡照片中的卡號區域位置,該卡號區域位置可以由一個旋轉矩形框來描述,比如,該卡號區域位置由旋轉矩形框框的4個角點位置來描述。
然後,在EAST網路輸出層的卡號方向通道中可以預測金融卡卡號數字串的主方向。
205、根據文本方向對卡號區域圖像進行方向調整,得到調整後的卡號區域圖像。
在本實施例中,可以根據卡號方向將卡號區域圖像旋轉為正。
206、採用CRNN網路基於調整後的卡號區域圖像進行文本識別,得到金融卡的卡號內容。
最後,將旋轉為正方向的卡號區域圖像輸入CRNN網路,即可完成文本識別,得到金融卡的卡號內容。
由上可知,在本實施例中,可以獲取訓練樣本圖像,並對訓練樣本圖像進行預處理;根據處理後的訓練樣本圖像訓練預設的圖像識別模型,得到圖像識別模型,該圖像識別模型包括EAST網路、CRNN網路;獲取金融卡照片;採用EAST網路對金融卡照片進行卡號區域識別,得到該金融卡照片卡號的卡號區域圖像,並根據卡號區域圖像確定卡號方向;根據文本方向對卡號區域圖像進行方向調整,得到調整後的卡號區域圖像;採用CRNN網路基於調整後的卡號區域圖像進行文本識別,得到金融卡的卡號內容。
因此,本申請實施例可以支持多種角度、多種方向拍攝的金融卡圖像的識別,本申請實施例對證件的版式適應性良好,對用戶的拍攝要求低,同時保證了識別的速度和精度,從而提升圖像識別方法的效率。
為了更好地實施以上方法,本申請實施例還提供一種圖像識別裝置,該圖像識別裝置具體可以集成在電子設備中,該電子設備可以為終端、伺服器等設備。其中,終端可以為手機、平板電腦、智能藍牙設備、筆記型電腦、個人電腦等設備;伺服器可以是單一伺服器,也可以是由多個伺服器組成的伺服器集群。
比如,在本實施例中,將以圖像識別裝置具體集成在手機為例,對本申請實施例的方法進行詳細說明。
例如,如圖3所示,該圖像識別裝置可以包括獲取單元301、文本單元302、方向單元303、調整單元304以及識別單元305,如下:
(一)獲取單元301:
獲取單元301可以配置為獲取待識別圖像,待識別圖像為待識別證件的圖像。
(二)文本單元302:
文本單元302可以配置為對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像。
在一些實施例中,文本單元302可以包括圖像特徵子單元、圖像類型子單元以及文本區域子單元,如下:
(1)圖像特徵子單元:
圖像特徵子單元可以配置為對待識別圖像進行圖像特徵提取,得到待識別圖像的圖像特徵。
在一些實施例中,圖像子特徵單元可以配置為對待識別圖像進行圖像切割處理,得到圖像片段組,圖像片段組中可以包括多個圖像片段;
採用分組卷積網路對圖像片段組進行多尺寸特徵抽取,得到多個不同尺寸的圖像片段特徵組,其中,每個圖像特徵組中的圖像片段特徵的尺寸相同;基於不同尺寸的圖像片段特徵組進行特徵融合處理,得到待識別圖像的圖像特徵。
(2)圖像類型子單元:
圖像類型子單元可以配置為採用圖像分類網路根據圖像特徵對待識別圖像進行圖像類型識別,確定待識別圖像的圖像類型。
在一些實施例中,圖像類型子單元,還可以配置為採用圖像分類網路根據圖像特徵確定待識別圖像的證件方向。
(3)文本區域子單元:
文本區域子單元可以配置為當待識別圖像的圖像類型為預設證件類型時,採用區域檢測網路根據圖像特徵對待識別圖像進行文本區域分割,得到待識別證件所對應的目標文本的文本區域圖像。
在一些實施例中,文本區域子單元可以包括位置特徵子模組、位置特徵點子模組以及分割子模組,如下:
A. 位置特徵子模組:
位置特徵子模組配置為採用區域檢測網路根據圖像特徵確定文本區域位置特徵。
B. 位置特徵點子模組:
位置特徵點子模組可以配置為根據文本區域位置特徵在待識別圖像中確定文本區域位置特徵點。
在一些實施例中,位置特徵子模組,還可以配置為採用區域檢測網路根據圖像特徵確定文本區域圖像中目標文本的方向特徵;其中,根據文本區域圖像確定目標文本的文本方向”可以包括如下步驟:
採用區域檢測網路根據文本區域圖像的方向特徵確定目標文本的文本方向。
在一些實施例中,區域檢測網路可以包括多通道輸出層,位置特徵子模組在配置為採用區域檢測網路根據文本區域圖像的方向特徵確定目標文本的文本方向時,具體可以配置為:
在多通道輸出層中根據方向特徵確定文本區域圖像中每個像素的方向預測值;
對文本區域圖像中每個像素的方向預測值進行統計,得到文本區域圖像的全域方向值;
根據全域方向值確定目標文本的文本方向。
C. 分割子模組:
分割子模組可以配置為根據文本區域位置特徵點在待識別圖像中分割得到文本區域圖像,文本區域圖像為包含了目標文本的圖像。
在一些實施例中,文本單元302可以包括區域片段子單元、區域片段特徵子單元、文本特徵子單元以及文本識別子單元,如下:
(1)區域片段子單元:
區域片段子單元可以配置為對文本區域圖像進行圖像切割處理,得到文本區域圖像片段。
(2)區域片段特徵子單元:
區域片段特徵子單元配置為採用分組卷積網路對文本區域圖像片段進行特徵抽取,得到文本區域圖像片段特徵。
(3)文本特徵子單元:
文本特徵子單元可以配置為根據文本區域圖像片段特徵確定目標文本特徵。
(4)文本識別子單元:
文本識別子單元可以配置為採用雙向循環網路基於目標文本特徵進行文本識別,得到目標文本的文本內容。
在一些實施例中,雙向循環網路可以包括正向層和逆向層,文本識別子單元可以配置為:
確定雙向循環網路中的當前時刻,以及當前時刻的上一時刻所對應的正向隱層狀態、當前時刻的下一時刻所對應的逆向隱層狀態;根據目標文本特徵、正向層在上一時刻的正向隱層狀態確定正向層在當前時刻的正向隱層狀態;根據目標文本特徵、逆向層在下一時刻的逆向隱層狀態確定逆向層在當前時刻的逆向隱層狀態;根據正向層在當前時刻的正向隱層狀態、逆向層在當前時刻的逆向隱層狀態確定文本語義向量;根據文本語義向量確定目標文本的文本內容。
(三)方向單元303:
方向單元303可以配置為根據文本區域圖像確定目標文本的文本方向。
在一些實施例中,文本單元302可以包括圖像類型子單元,該圖像類型子單元還可以配置為採用圖像分類網路根據圖像特徵確定待識別圖像的證件方向,此時,方向單元303配置為根據文本方向和待識別證件的證件方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像。
在一些實施例中,文本方向可以包括第一方向、第二方向、第三方向和第四方向,方向單元303可以配置為:
當文本方向為第一方向時,將文本區域圖像作為調整後的文本區域圖像;
當文本方向為第二方向時,將文本區域圖像逆時針旋轉90度,得到調整後的文本區域圖像;
當文本方向為第三方向時,將文本區域圖像逆時針旋轉180度,得到調整後的文本區域圖像;
當文本方向為第四方向時,將文本區域圖像逆時針旋轉270度,得到調整後的文本區域圖像。
在一些實施例中,方向單元303配置為:
獲取訓練樣本圖像、預設圖像分類網路和預設區域檢測網路,訓練樣本圖像標註了證件方向和文本方向;
採用預設圖像分類網路處理訓練樣本圖像,得到證件方向訓練結果;
根據訓練樣本圖像和證件方向訓練結果訓練預設區域檢測網路,直至預設區域檢測網路收斂,得到區域檢測網路;
採用區域檢測網路根據文本區域圖像確定目標文本的文本方向。
(四)調整單元304:
調整單元304可以配置為根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像。
(五)識別單元305:
識別單元305可以配置為基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
在一些實施例中,識別單元305,還可以配置為:
獲取文本區域訓練樣本圖像和預設循環卷積網路,文本區域訓練樣本圖像標註了目標文本的文本內容,預設循環卷積網路可以包括分組卷積網路、雙向循環網路、連接時序分類器;
根據文本區域訓練樣本圖像訓練預設循環卷積網路,直至連接時序分類器判斷預設循環卷積網路收斂,得到循環卷積網路;
在一些實施例中,識別單元305可以配置為:
採用循環卷積網路基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
具體實施時,以上各個單元可以作為獨立的實體來實現,也可以進行任意組合,作為同一或複數個實體來實現,以上各個單元的具體實施可參見前面的方法實施例,在此不再贅述。
由上可知,本實施例的圖像識別裝置由獲取單元獲取待識別圖像,待識別圖像為待識別證件的圖像;由文本單元對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;由方向單元根據文本區域圖像確定目標文本的文本方向;由調整單元根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;由識別單元基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。由此,本申請實施例可以提升圖像識別方法的效率。
本申請實施例還提供一種電子設備,該電子設備可以為終端、伺服器等設備。其中,終端可以為手機、平板電腦、智能藍牙設備、筆記型電腦、個人電腦,等等;伺服器可以是單一伺服器,也可以是由多個伺服器組成的伺服器集群,等等。
在一些實施例中,該圖像識別裝置還可以集成在多個電子設備中,比如,圖像識別裝置可以集成在多個伺服器中,由多個伺服器來實現本申請的圖像識別方法。
在本實施例中,將以本實施例的電子設備是終端為例進行詳細描述,比如,如圖4所示,其示出了本申請實施例所涉及的終端的結構示意圖,具體來講:
該終端可以包括一個或者一個以上處理核心的處理器401、一個或一個以上計算機可讀儲存媒體的儲存器402、電源403、輸入模組404以及通信模組405等部件。所屬技術領域具有通常知識者可以理解,圖4中示出的終端結構並不構成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件佈置。其中:
處理器401是該終端的控制中心,利用各種連接埠和線路連接整個終端的各個部分,透過運行或執行儲存在儲存器402內的軟體程式和/或模組,以及調用儲存在儲存器402內的資料,執行終端的各種功能和處理資料,從而對終端進行整體監控。在一些實施例中,處理器401可包括一個或多個處理核心;在一些實施例中,處理器401可集成應用處理器和調製解調處理器,其中,應用處理器主要處理操作系統、用戶界面和應用程式等,調製解調處理器主要處理無線通信。可以理解的是,上述調製解調處理器也可以不集成到處理器401中。
儲存器402可配置為儲存軟體程式以及模組,處理器401透過運行儲存在儲存器402的軟體程式以及模組,從而執行各種功能應用以及資料處理。儲存器402可主要包括儲存程式區和儲存資料區,其中,儲存程式區可儲存操作系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等;儲存資料區可儲存根據終端的使用所創建的資料等。此外,儲存器402可以包括高速隨機存取儲存器,還可以包括非揮發性儲存器,例如至少一個磁碟儲存器件、快閃記憶體器件、或其他非揮發性固態儲存器件。相應地,儲存器402還可以包括儲存器控制器,以提供處理器401對儲存器402的訪問。
終端還包括給各個部件供電的電源403,在一些實施例中,電源403可以透過電源管理系統與處理器401邏輯相連,從而透過電源管理系統實現管理充電、放電、以及功耗管理等功能。電源403還可以包括一個或一個以上的直流或交流電源、再充電系統、電源故障檢測電路、電源轉換器或者逆變器、電源狀態指示器等任意組件。
該終端還可包括輸入模組404,該輸入模組404可配置為接收輸入的數字或字元信息,以及產生與用戶設置以及功能控制有關的鍵盤、滑鼠、搖桿、光學或者軌跡球信號輸入。
該終端還可包括通信模組405,在一些實施例中通信模組405可以包括無線模組,終端可以透過該通信模組405的無線模組進行短距離無線傳輸,從而為用戶提供了無線的寬頻網際網路訪問。比如,該通信模組405可以配置為幫助用戶收發電子郵件、瀏覽網頁和訪問串流媒體等。
該終端還可包括圖像採集模組406,在一些實施例中,圖像採集模組406可以包括攝像鏡頭模組,終端可以透過該圖像採集模組406的攝像鏡頭模組進行圖像採集,從而為用戶提供了圖像採集功能。比如,該圖像採集模組406可以配置為幫助用戶拍攝待識別圖像、錄製待識別證件、人臉識別的視頻等。
儘管未示出,終端還可以包括顯示單元等,在此不再贅述。具體在本實施例中,終端中的處理器401會按照如下的指令,將一個或一個以上的應用程式的行程對應的可執行檔加載到儲存器402中,並由處理器401來運行儲存在儲存器402中的應用程式,從而實現各種功能,如下:
獲取待識別圖像,待識別圖像為待識別證件的圖像;
對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;
根據文本區域圖像確定目標文本的文本方向;
根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;
基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
以上各個操作的具體實施可參見前面的實施例,在此不再贅述。
由上可知,本申請實施例可以提升圖像識別方法的效率。
所屬技術領域具有通常知識者可以理解,上述實施例的各種方法中的全部或部分步驟可以透過指令來完成,或透過指令控制相關的硬體來完成,該指令可以儲存於一計算機可讀儲存媒體中,並由處理器進行加載和執行。
為此,本申請實施例提供一種計算機可讀儲存媒體,其中儲存有多條指令,該指令能夠被處理器進行加載,以執行本申請實施例所提供的任一種圖像識別方法中的步驟。例如,該指令可以執行如下步驟:
獲取待識別圖像,待識別圖像為待識別證件的圖像;
對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;
根據文本區域圖像確定目標文本的文本方向;
根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;
基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容。
其中,該儲存媒體可以包括:唯讀記憶體(ROM,Read Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或光碟等。
由於該儲存媒體中所儲存的指令,可以執行本申請實施例所提供的任一種圖像識別方法中的步驟,因此,可以實現本申請實施例所提供的任一種圖像識別方法所能實現的有益效果,詳見前面的實施例,在此不再贅述。
以上對本申請實施例所提供的一種圖像識別方法、裝置、終端和計算機可讀儲存媒體進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
工業實用性
本申請實施例公開了一種圖像識別方法、裝置、終端和儲存媒體;本申請實施例可以獲取待識別圖像,待識別圖像為待識別證件的圖像;對待識別圖像進行文本區域識別,得到待識別證件所對應的目標文本的文本區域圖像;根據文本區域圖像確定目標文本的文本方向;根據文本方向對文本區域圖像進行方向調整,得到調整後的文本區域圖像;基於調整後的文本區域圖像進行文本識別,得到目標文本的文本內容,本申請可以提取待識別圖像中目標文本的文本區域圖像,並確定目標文本的文本方向,自動地採用該文本方向修正歪斜、顛倒的文本區域圖像後,該文本區域圖像可用於文本識別,從而提高文本識別準確度。由此,本方案可以提升圖像識別方法的效率。
101~105:步驟 201~206:步驟 301:獲取單元 302:文本單元 303:方向單元 304:調整單元 305:識別單元 401:處理器 402:儲存器 403:電源 404:輸入模組 405:通信模組 406:圖像採集模組
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本申請的一些實施例,對於所屬技術領域具有通常知識者來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其他的圖式。 [圖1a]是本申請實施例提供的圖像識別方法的場景示意圖; [圖1b]是本申請實施例提供的圖像識別方法的第一種流程示意圖; [圖1c]是本申請實施例提供的圖像識別方法的EAST網路結構示意圖; [圖1d]是本申請實施例提供的圖像識別方法中不同版面證件的證件方向和文本方向示意圖; [圖2a]是本申請實施例提供的圖像識別方法的第二種流程示意圖; [圖2b]是本申請實施例提供的圖像識別方法的EAST網路訓練流程示意圖; [圖2c]是本申請實施例提供的圖像識別方法的訓練樣本的標註示意圖; [圖3]是本申請實施例提供的圖像識別裝置的第一種結構示意圖; [圖4]是本申請實施例提供的終端的結構示意圖。
101~105:步驟

Claims (15)

  1. 一種圖像識別方法,所述方法由電子設備執行,所述圖像識別方法包括: 獲取待識別圖像,所述待識別圖像為待識別證件的圖像; 對所述待識別圖像進行文本區域識別,得到所述待識別證件所對應的目標文本的文本區域圖像; 根據所述文本區域圖像確定所述目標文本的文本方向; 根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像;以及 基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
  2. 如請求項1所述的圖像識別方法,其中,所述對所述待識別圖像進行文本區域識別,得到所述待識別證件所對應的目標文本的文本區域圖像,包括: 對所述待識別圖像進行圖像特徵提取,得到所述待識別圖像的圖像特徵; 採用圖像分類網路根據所述圖像特徵對所述待識別圖像進行圖像類型識別,確定所述待識別圖像的圖像類型;以及 當所述待識別圖像的圖像類型為預設證件類型時,採用區域檢測網路根據所述圖像特徵對所述待識別圖像進行文本區域分割,得到所述待識別證件所對應的目標文本的文本區域圖像。
  3. 如請求項2所述的圖像識別方法,其中,所述對所述待識別圖像進行圖像特徵提取,得到所述待識別圖像的圖像特徵,包括: 對所述待識別圖像進行圖像切割處理,得到圖像片段組,所述圖像片段組中包括多個圖像片段; 採用分組卷積網路對所述圖像片段組進行多尺寸特徵抽取,得到多個不同尺寸的圖像片段特徵組,其中,每個圖像特徵組中的圖像片段特徵的尺寸相同;以及 基於所述不同尺寸的圖像片段特徵組進行特徵融合處理,得到所述待識別圖像的圖像特徵。
  4. 如請求項2所述的圖像識別方法,其中,所述採用圖像分類網路根據所述圖像特徵對所述待識別圖像進行圖像類型識別,確定所述待識別圖像的圖像類型之後,還包括: 採用圖像分類網路根據所述圖像特徵確定所述待識別圖像的證件方向; 所述根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像,包括: 根據所述文本方向和所述待識別證件的證件方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像。
  5. 如請求項2所述的圖像識別方法,其中,所述採用區域檢測網路根據所述圖像特徵對所述待識別圖像進行文本區域分割,得到所述待識別證件所對應的目標文本的文本區域圖像,包括: 採用區域檢測網路根據所述圖像特徵確定文本區域位置特徵; 根據所述文本區域位置特徵在所述待識別圖像中確定文本區域位置特徵點;以及 根據所述文本區域位置特徵點在所述待識別圖像中分割得到文本區域圖像,所述文本區域圖像為包含了目標文本的圖像。
  6. 如請求項5所述的圖像識別方法,其中,所述採用區域檢測網路根據所述圖像特徵確定文本區域位置特徵之後,還包括: 採用區域檢測網路根據所述圖像特徵確定文本區域圖像中目標文本的方向特徵; 所述根據所述文本區域圖像確定所述目標文本的文本方向,包括: 採用區域檢測網路根據所述文本區域圖像的方向特徵確定所述目標文本的文本方向。
  7. 如請求項6所述的圖像識別方法,其中,所述區域檢測網路包括多通道輸出層,所述採用區域檢測網路根據所述文本區域圖像的方向特徵確定所述目標文本的文本方向,包括: 在所述多通道輸出層中根據所述方向特徵確定所述文本區域圖像中每個像素的方向預測值; 對所述文本區域圖像中每個像素的方向預測值進行統計,得到所述文本區域圖像的全域方向值;以及 根據所述全域方向值確定所述目標文本的文本方向。
  8. 如請求項1所述的圖像識別方法,其中,所述基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容,包括: 對所述文本區域圖像進行圖像切割處理,得到文本區域圖像片段; 採用分組卷積網路對所述文本區域圖像片段進行特徵抽取,得到文本區域圖像片段特徵; 根據所述文本區域圖像片段特徵確定目標文本特徵;以及 採用雙向循環網路基於所述目標文本特徵進行文本識別,得到所述目標文本的文本內容。
  9. 如請求項8所述的圖像識別方法,其中,所述雙向循環網路包括正向層和逆向層,所述採用雙向循環網路基於所述目標文本特徵進行文本識別,得到所述目標文本的文本內容,包括: 確定所述雙向循環網路中的當前時刻,以及所述當前時刻的上一時刻所對應的正向隱層狀態、當前時刻的下一時刻所對應的逆向隱層狀態; 根據所述目標文本特徵、正向層在上一時刻的正向隱層狀態確定正向層在當前時刻的正向隱層狀態; 根據所述目標文本特徵、逆向層在下一時刻的逆向隱層狀態確定逆向層在當前時刻的逆向隱層狀態; 根據所述正向層在當前時刻的正向隱層狀態、逆向層在當前時刻的逆向隱層狀態確定文本語義向量;以及 根據文本語義向量確定所述目標文本的文本內容。
  10. 如請求項1所述的圖像識別方法,其中,所述文本方向包括第一方向、第二方向、第三方向和第四方向,所述根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像,包括: 當所述文本方向為第一方向時,將所述文本區域圖像作為調整後的文本區域圖像; 當所述文本方向為第二方向時,將所述文本區域圖像逆時針旋轉90度,得到調整後的文本區域圖像; 當所述文本方向為第三方向時,將所述文本區域圖像逆時針旋轉180度,得到調整後的文本區域圖像;以及 當所述文本方向為第四方向時,將所述文本區域圖像逆時針旋轉270度,得到調整後的文本區域圖像。
  11. 如請求項1所述的圖像識別方法,其中,所述基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容之前,還包括: 獲取文本區域訓練樣本圖像和預設循環卷積網路,所述文本區域訓練樣本圖像標註了目標文本的文本內容,所述預設循環卷積網路包括分組卷積網路、雙向循環網路以及連接時序分類器;以及 根據所述文本區域訓練樣本圖像訓練所述預設循環卷積網路,直至所述連接時序分類器判斷所述預設循環卷積網路收斂,得到循環卷積網路; 所述基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容,包括: 採用所述循環卷積網路基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
  12. 如請求項1所述的圖像識別方法,其中,所述根據所述文本區域圖像確定所述目標文本的文本方向,包括: 獲取訓練樣本圖像、預設圖像分類網路和預設區域檢測網路,所述訓練樣本圖像標註了證件方向和文本方向; 採用所述預設圖像分類網路處理所述訓練樣本圖像,得到證件方向訓練結果; 根據所述訓練樣本圖像和所述證件方向訓練結果訓練預設區域檢測網路,直至所述預設區域檢測網路收斂,得到區域檢測網路;以及 採用所述區域檢測網路根據所述文本區域圖像確定所述目標文本的文本方向。
  13. 一種圖像識別裝置,其中,包括: 獲取單元,配置為獲取待識別圖像,所述待識別圖像為待識別證件的圖像; 文本單元,配置為對所述待識別圖像進行文本區域識別,得到所述待識別證件所對應的目標文本的文本區域圖像; 方向單元,配置為根據所述文本區域圖像確定所述目標文本的文本方向; 調整單元,配置為根據所述文本方向對所述文本區域圖像進行方向調整,得到調整後的文本區域圖像;以及 識別單元,配置為基於所述調整後的文本區域圖像進行文本識別,得到所述目標文本的文本內容。
  14. 一種終端,其中,包括處理器和儲存器,所述儲存器儲存有多條指令;所述處理器從所述儲存器中加載指令,以執行如請求項1~12任一項所述的圖像識別方法中的步驟。
  15. 一種計算機可讀儲存媒體,其中,所述計算機可讀儲存媒體儲存有多條指令,所述指令適於處理器進行加載,以執行請求項1~12任一項所述的圖像識別方法中的步驟。
TW110107175A 2020-03-25 2021-02-26 圖像識別方法、裝置、終端和儲存媒體 TWI808386B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010217627.8 2020-03-25
CN202010217627.8A CN111444908B (zh) 2020-03-25 2020-03-25 图像识别方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
TW202137051A true TW202137051A (zh) 2021-10-01
TWI808386B TWI808386B (zh) 2023-07-11

Family

ID=71629610

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110107175A TWI808386B (zh) 2020-03-25 2021-02-26 圖像識別方法、裝置、終端和儲存媒體

Country Status (4)

Country Link
US (1) US20220245954A1 (zh)
CN (1) CN111444908B (zh)
TW (1) TWI808386B (zh)
WO (1) WO2021190171A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111914840A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 一种文本识别方法、模型训练方法、装置及设备
CN112818979B (zh) * 2020-08-26 2024-02-02 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
KR20220028928A (ko) * 2020-08-31 2022-03-08 삼성전자주식회사 부분 영상 기반의 영상 처리 방법 및 장치
CN112085024A (zh) * 2020-09-21 2020-12-15 江苏理工学院 一种罐表面字符识别方法
CN112200182A (zh) * 2020-09-25 2021-01-08 杭州加速科技有限公司 基于深度学习的晶圆id识别方法和装置
CN112633279A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 文本识别方法、装置和系统
CN115050037A (zh) * 2021-02-25 2022-09-13 华为技术有限公司 卡证文本识别方法、装置和存储介质
CN113436079A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 证件图像检测方法和装置、电子设备、存储介质
CN113435437A (zh) * 2021-06-24 2021-09-24 随锐科技集团股份有限公司 开关分合指示牌状态的识别方法、识别装置及存储介质
CN113420757B (zh) * 2021-08-23 2021-11-30 北京每日优鲜电子商务有限公司 文本审核方法、装置、电子设备和计算机可读介质
CN113989806B (zh) * 2021-10-11 2024-05-24 康旭科技有限公司 一种可扩展的crnn银行卡号识别方法
CN115035360B (zh) * 2021-11-22 2023-04-07 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN114495106A (zh) * 2022-04-18 2022-05-13 电子科技大学 一种应用于dfb激光器芯片的深度学习mocr方法
CN115035541A (zh) * 2022-06-27 2022-09-09 中核核电运行管理有限公司 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN115205635B (zh) * 2022-09-13 2022-12-02 有米科技股份有限公司 图文语义对齐模型的弱监督自训练方法及装置
CN116129456B (zh) * 2023-02-09 2023-07-25 广西壮族自治区自然资源遥感院 一种产权权属信息识别录入方法及系统
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质
CN117375845A (zh) * 2023-10-17 2024-01-09 中国电子科技集团公司第十五研究所 一种网络资产证书识别方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625760A (zh) * 2009-07-28 2010-01-13 谭洪舟 一种证件图像倾斜校正的办法
EP2921989A1 (en) * 2014-03-17 2015-09-23 Université de Genève Method for object recognition and/or verification on portable devices
CN106295638B (zh) * 2016-07-29 2019-10-15 北京小米移动软件有限公司 证件图像倾斜校正方法和装置
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107729847B (zh) * 2017-10-20 2020-08-04 阿里巴巴集团控股有限公司 一种证件验证、身份验证方法和装置
CN107958249B (zh) * 2017-11-21 2020-09-11 众安信息技术服务有限公司 一种基于图像的文本录入方法
CN108256591B (zh) * 2018-02-26 2021-11-26 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108805800A (zh) * 2018-04-24 2018-11-13 北京嘀嘀无限科技发展有限公司 图片处理方法、装置及存储介质
CN109034165B (zh) * 2018-07-06 2022-03-01 北京中安未来科技有限公司 一种证件图像的裁切方法、装置、系统及存储介质
CN108885699B (zh) * 2018-07-11 2020-06-26 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109241974B (zh) * 2018-08-23 2020-12-01 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109492643B (zh) * 2018-10-11 2023-12-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109886077B (zh) * 2018-12-28 2021-07-09 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质

Also Published As

Publication number Publication date
US20220245954A1 (en) 2022-08-04
WO2021190171A1 (zh) 2021-09-30
CN111444908B (zh) 2024-02-02
CN111444908A (zh) 2020-07-24
TWI808386B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
TWI808386B (zh) 圖像識別方法、裝置、終端和儲存媒體
WO2020119350A1 (zh) 视频分类方法、装置、计算机设备和存储介质
US8971591B2 (en) 3D image estimation for 2D image recognition
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
US20220237812A1 (en) Item display method, apparatus, and device, and storage medium
CN110717470B (zh) 一种场景识别方法、装置、计算机设备和存储介质
WO2021175071A1 (zh) 图像处理方法、装置、存储介质及电子设备
WO2015101289A1 (zh) 图片管理方法、装置及系统
US20220084304A1 (en) Method and electronic device for image processing
CN111539412B (zh) 一种基于ocr的图像分析方法、系统、设备及介质
WO2021169754A1 (zh) 构图提示方法、装置、存储介质及电子设备
WO2019137259A1 (zh) 图像处理方法、装置、存储介质及电子设备
US20230082638A1 (en) Picture search method and apparatus, electronic device, computer-readable storage medium
CN107330387B (zh) 基于图像数据的行人检测方法
WO2021128846A1 (zh) 电子文件的控制方法、装置、计算机设备及存储介质
WO2023197648A1 (zh) 截图处理方法及装置、电子设备和计算机可读介质
US11709914B2 (en) Face recognition method, terminal device using the same, and computer readable storage medium
CN112990172B (zh) 一种文本识别方法、字符识别方法及装置
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
CN112597940B (zh) 证件图像识别方法、装置及存储介质
US11232616B2 (en) Methods and systems for performing editing operations on media
WO2023024424A1 (zh) 分割网络训练方法、使用方法、装置、设备及存储介质
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN111507421A (zh) 一种基于视频的情感识别方法及装置
CN111461248A (zh) 一种摄影构图线匹配方法、装置、设备及存储介质