TWI821671B - 一種文本區域的定位方法及裝置 - Google Patents

一種文本區域的定位方法及裝置 Download PDF

Info

Publication number
TWI821671B
TWI821671B TW110118406A TW110118406A TWI821671B TW I821671 B TWI821671 B TW I821671B TW 110118406 A TW110118406 A TW 110118406A TW 110118406 A TW110118406 A TW 110118406A TW I821671 B TWI821671 B TW I821671B
Authority
TW
Taiwan
Prior art keywords
text
pixel
area
value
feature
Prior art date
Application number
TW110118406A
Other languages
English (en)
Other versions
TW202207077A (zh
Inventor
費志軍
邱雪濤
何朔
Original Assignee
大陸商中國銀聯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商中國銀聯股份有限公司 filed Critical 大陸商中國銀聯股份有限公司
Publication of TW202207077A publication Critical patent/TW202207077A/zh
Application granted granted Critical
Publication of TWI821671B publication Critical patent/TWI821671B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本發明提供一種文本區域的定位方法及裝置,屬於電腦技術領域,關於人工智慧和電腦視覺技術,用於提高對商戶門頭圖片中文字區域定位的精確性。其中,文本區域的定位方法包括:獲取靶心圖表像中各個像素點的像素值;根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域;針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,並根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值;根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併;根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。

Description

一種文本區域的定位方法及裝置
本發明屬於電腦技術領域,尤其關於一種文本區域的定位方法及裝置。
門頭,是指企業、事業單位和個體工商戶在門口設置的牌匾及相關設施,是一個商鋪店門外的裝飾形式,是美化銷售場所和裝飾店鋪、吸引顧客的一種手段。
商戶的門頭中一般包含有商戶名稱、商戶位址等文字內容,在審核商戶真實性時,需要巡檢人員前往商鋪的位址進行拍照,然後再由審核人員進行資訊核對,效率低且易出錯。目前,為了實現商戶門頭圖片中自動識別文字,需要在街拍的商戶門頭圖片中定位商戶名稱的文字位置。
現有的圖像文字識別一般是對圖像中的全部文字進行識別,不能對商戶門頭圖片中的商戶名稱文字區域和其他文字區域進行有效區分,影響後續商戶名稱識別的準確性。
本發明實施例提供了一種文本區域的定位方法及裝置,用於提高對商戶門頭圖片中文字區域定位的精確性。
一方面,本發明實施例提供了一種文本區域的定位方法,包括:獲取靶心圖表像中各個像素點的像素值;根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域;針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,並根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值;根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併;根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
可選的,該根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,包括:將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
可選的,該由文本像素點形成多個文本連通域,包括:針對每一個文本像素點,確定該文本像素點與該文本像素點相鄰的像素點之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域。
可選的,該由文本像素點形成多個文本連通域之後,還包括:確定每個文本連通域的最小外接矩形; 該根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,包括:根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值;該根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值,包括:根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值。
可選的,該根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值,包括:針對每一個文本連通域的最小外接矩形,獲取該最小外接矩形中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該最小外接矩形的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據最小外接矩形的顏色特徵值,計算該兩個最小外接矩形之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個最小外接矩形之間的差異特徵值。
可選的,該根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值,包括:將兩個最小外接矩形之間的重疊面積與該兩個最小外接矩形的面積之和相比,得到該兩個最小外接矩形之間的鄰接特徵值。
可選的,該根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併,包括: 確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個最小外接矩形存在關聯關係;利用併查集演算法,根據關聯關係對所有最小外接矩形進行合併。
另一方面,本發明實施例還提供一種圖像文字識別方法,該方法包括:確定靶心圖表像中的目標文本區域,其中,該靶心圖表像中的目標文本區域是通過如上述文本區域的定位方法得到的;將該目標文本區域輸入已訓練的特徵提取模型中,得到該目標文本區域的目標特徵向量,該特徵提取模型利用訓練文本圖像以及對應的文字資訊進行訓練;將該目標特徵向量與標注樣本的標注特徵向量進行相似度對比,確定相似度最大的標注文本圖像,該標注樣本包括標注文本圖像、對應的標注特徵向量以及文字資訊;將該相似度最大的標注圖像的文字資訊作為該目標文本區域的文字資訊。
另一方面,本發明實施例還提供一種文本區域的定位裝置,該裝置包括:獲取單元,用於獲取靶心圖表像中各個像素點的像素值;連通單元,用於根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域;計算單元,用於針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,並根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值;合併單元,用於根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併; 過濾單元,用於根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
可選的,該連通單元,具體用於:將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
可選的,該連通單元,具體用於:針對每一個文本像素點,確定該文本像素點與該文本像素點相鄰的像素點之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域。
可選的,該計算單元,具體用於:針對任一文本連通域,獲取該文本連通域中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該文本連通域的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據文本連通域的顏色特徵值,計算該兩個文本連通域之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個連通域之間的差異特徵值。
可選的,該計算單元,具體用於:將該兩個文本連通域之間的距離與該兩個文本連通域的面積之和相比,得到該兩個文本連通域之間的鄰接特徵值; 可選的,該合併單元,具體用於:確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個文本連通域存在關聯關係;根據關聯關係,利用併查集演算法對所有文本連通域進行合併。
可選的,該連通單元,還用於確定每個文本連通域的最小外接矩形;該計算單元,還用於根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算該兩個文本連通域之間的差異特徵值;根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個文本連通域之間的鄰接特徵值。
另一方面,本發明實施例還提供一種圖像文字識別裝置,該裝置包括:定位單元,該定位單元包括如上述的文本區域的定位裝置;將該目標文本區域輸入特徵提取模型中,得到該目標文本區域的目標特徵向量;將該目標特徵向量與標注樣本的標注特徵向量相對比,確定相似度最大的標注圖像,該標注樣本包括標注圖像、對應的標注特徵向量以及文字資訊;將該相似度最大的標注圖像的文字資訊作為該目標文本區域的文字資訊。
另一方面,本發明實施例還提供一種電腦可讀存儲介質,該電腦可讀存儲介質內存儲有電腦程式,該電腦程式被處理器執行時,實現第一方面的文本區域的定位方法。
另一方面,本發明實施例還提供一種電子設備,包括記憶體和處理器,該記憶體上存儲有可在該處理器上運行的電腦程式,當該電腦程式被該處理器執行時,使得該處理器實現第一方面的文本區域的定位方法。
本發明實施例在對靶心圖表像進行文本區域定位時,獲取靶心圖表像中各個像素點的像素值。根據像素值,從靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域。針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算這兩個文本連通域之間的差異特徵值,同時,根據兩個文本連通域之間的距離,計算這兩個文本連通域之間的鄰接特徵值。之後,根據差異特徵值和鄰接特徵值,將多個文本連通域進行合併,並根據合併後的文本連通域的面積,確定靶心圖表像中的目標文本區域。本發明實施例中,計算文本連通域之間的差異特徵值和鄰接特徵值,根據這兩個條件將多個文本連通域進行合併,從而將顏色相近且距離相近的文本連通域合併,這樣,通過顏色和距離可將商戶門頭圖片中名稱的文字進行合併,形成目標文本區域。且由於商戶門頭圖片中商戶名稱所占面積最大,因此商戶名稱對應的合併後的文本連通域的面積最大,可以根據面積對合併後的文本連通域進行篩選,從而確定出目標文本區域。本發明實施例可以對商戶門頭圖片中文字區域與圖片區域進行有效區分,且對不同文字區域進行有效區分,從而提高了目標文本區域定位的準確性,進一步保證後續商戶名稱識別的準確性。
101:終端設備
102:伺服器
103:資料庫
501:獲取單元
502:連通單元
503:計算單元
504:合併單元
505:過濾單元
60:電子設備
61:處理器
62:顯示器
63:記憶體
64:通訊設備
65:匯流排
66:輸入裝置
201-208:步驟
圖1為本發明實施例提供的一種文本區域的定位方法的系統架構示意圖;圖2為本發明實施例提供的一種文本區域的定位方法的流程圖;圖3為本發明實施例提供的一種CNN像素分類模型的結構示意圖;圖4為本發明實施例提供的另一種文本區域的定位方法的流程圖; 圖5為本發明實施例提供的一種文本區域的定位裝置的結構示意圖;圖6為本發明實施例提供的一種電子設備的結構示意圖。
為利 貴審查委員了解本發明之技術特徵、內容與優點及其所能達到之功效,茲將本發明配合附圖及附件,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的申請範圍,合先敘明。
在本發明的描述中,需要理解的是,術語「中心」、「橫向」、「上」、「下」、「左」、「右」、「頂」、「底」、「內」、「外」等指示的方位或位置關係為基於圖式所示的方位或位置關係,僅是為了便於描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發明的限制。
以下對本發明實施例中的部分用語進行解釋說明,以便於本領域具通常知識者理解。
CNN:(Convolutional Neural Networks,卷積神經網路)是一類包含卷積計算且具有深度結構的前饋神經網路(Feedforward Neural Networks),是深度學習(deep learning)的代表演算法之一。卷積神經網路具有表徵學習(representation learning)能力,能夠按其階層結構對輸入資訊進行平移不變分類(shift-invariant classification),因此也被稱為“平移不變人工神經網路。
DBN:(Deep belief network,深度置信網路)神經網路的一種,包含全連接計算且具有深度結構的前饋神經網路,既可以用於非監督學習,類似於一個自編碼機;也可以用於監督學習,作為分類器來使用。從非監督學習來講,其目的是盡可能地保留原始特徵的特點,同時降低特徵的維度。從監督學習來講,其目的在於使得分類錯誤率盡可能地小。而不論是監督學習還是非監督學習,DBN的本質都是如何得到更好的特徵表達。
RNN:(Recurrent neural network,遞迴神經網路)包含循環連結結構且具有深度結構的前饋神經網路。是一類以序列(sequence)資料為輸入,在序列的演進方向進行遞迴(recursion)且所有節點(循環單元)按鏈式連接的遞迴神經網路(recursive neural network)。遞迴神經網路具有記憶性、參數共用並且圖靈完備(Turing completeness),因此在對序列的非線性特徵進行學習時具有一定優勢。遞迴神經網路在自然語言處理(Natural Language Processing,NLP),例如語音辨識、語言建模、機器翻譯等領域有應用,也被用於各類時間序列預報。引入了CNN構築的遞迴神經網路可以處理包含序列輸入的電腦視覺問題。
CRAFT:(Character Region Awareness For Text detection,文本檢測中的字元區域識別)一種用於文本定位的深度網路結構,提出單字分割以及單字間分割的方法,更符合目標檢測這一核心概念,不是把文字方塊當做目標,這樣使用小感受野也能預測大文本和長文本,只需要關注字元級別的內容而不需要關注整個文本實例,還提出如何利用現有文本檢測資料集合成資料得到真實資料的單字標注的弱監督方法。
CTPN:(Connectionist Text Proposal Network,基於連結關係的文本區域建議網路)一種用於文本定位的深度網路結構,CTPN結合CNN與LSTM深度網路,能有效的檢測出複雜場景的橫向分佈的文字,是目前效果比較好的文字檢測演算法。
PSEnet:(Progressive Scale Expansion Network,漸進式規模擴張網路),一種用於文本定位的深度網路結構,是一種新的實例分割網路,有兩方面的優勢。首先,PSEnet作為一種基於分割的方法,能夠對任意形狀的文本進行定位;其次,該模型提出了一種漸進的尺度擴展演算法,該演算法可以成功地識別相鄰文本實例。
VGG:(Very Deep Convolutional Networks For Large-scale Image Recognition,面向大規模圖像識別的深度卷積網路)包含卷積計算且具有深度結構的前饋神經網路,在VGG中,使用了3個3×3卷積核來代替7×7卷積核,使用了2個3×3卷積核來代替5×5卷積核,這樣做的主要目的是在保證具有相同感知野的條件下,提升了網路的深度,在一定程度上提升了神經網路的效果。
最小外接矩形:是指以二維座標表示的若干二維形狀(例如點、直線、多邊形)的最大範圍,即以給定的二維形狀各頂點中的最大橫坐標、最小橫坐標、最大縱坐標、最小縱坐標定下邊界的矩形。這樣的一個矩形包含給定的二維形狀,且邊與坐標軸平行。最小外接矩形是最小外接框(minimum bounding box)的二維形式。
像素點:是指在由一個數位序列表示的圖像中的一個最小單位,也稱為像素。像素是整個圖像中不可分割的單位或者是元素。每一個點陣圖像包含了一定量的像素,這些像素決定圖像在螢幕上所呈現的大小。一張圖片由好多 的像素點組成。例如圖片尺寸是500×338的,表示圖片是由一個500×338的像素點矩陣構成的,這張圖片的寬度是500個像素點的長度,高度是338個像素點的長度,共有500×338=149000個像素點。把滑鼠放在一個圖片上,這個時候會顯示尺寸和大小,這裡的尺寸就是像素。
顏色值:即RGB(Red Green Blue,紅綠藍)色彩模式,是工業界的一種顏色標準,是通過對紅(R)、綠(G)、藍(B)三個顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色的,RGB即是代表紅、綠、藍三個通道的顏色,這個標準幾乎包括了人類視力所能感知的所有顏色,是運用最廣的顏色系統之一。電腦螢幕上的所有顏色,都由這紅色綠色藍色三種色光按照不同的比例混合而成的。一組紅色綠色藍色就是一個最小的顯示單位。螢幕上的任何一個像素點的顏色都可以由一組RGB值來記錄和表達。在電腦中,RGB的所謂“多少”就是指亮度,並使用整數來表示。通常情況下,RGB各有256級亮度,用數字表示為從0、1、2...直到255。按照計算,256級的RGB色彩總共能組合出約1678萬種色彩,即256×256×256=16777216。
併查集:是一種用來管理元素分組情況的樹型的資料結構,用於處理一些不相交集合(Disjoint Sets)的合併及查詢問題。常常在使用中以森林來表示。併查集可以高效地進行如下操作:查詢元素a和元素b是否屬於同一組;合併元素a和元素b所在的組。
為了解決相關技術中的技術問題,本發明實施例提供了一種文本區域的定位方法及裝置。本發明實施例提供的文本區域的定位方法可以應用於目標文本區域的定位場景、文本識別場景等。
下面對本發明實施例的技術方案能夠適用的應用場景做一些簡單介紹,需要說明的是,以下介紹的應用場景僅用於說明本發明實施例而非限定。在具體實施時,可以根據實際需要靈活地應用本發明實施例提供的技術方案。
為進一步說明本發明實施例提供的技術方案,下面結合附圖以及具體實施方式對此進行詳細的說明。雖然本發明實施例提供了如下述實施例或附圖所示的方法操作步驟,但基於常規或者無需創造性的勞動在所述方法中可以包括更多或者更少的操作步驟。在邏輯上不存在必要因果關係的步驟中,這些步驟的執行順序不限於本發明實施例提供的執行順序。
本發明實施例提供的文本區域的定位方法的一種應用場景可以參見圖1所示,該應用場景中包括終端設備101、伺服器102和資料庫103。
其中,終端設備101為具有拍照或攝像功能,可以安裝各類用戶端,並且能夠將已安裝的用戶端的運行介面進行顯示的電子設備,該電子設備可以是行動式的,也可以是固定的。例如,手機、平板電腦、筆記型電腦、臺式電腦、各類可穿戴設備、智慧電視、車載設備或其它能夠實現上述功能的電子設備等。用戶端可以是視頻用戶端或流覽器用戶端等。各終端設備101通過通信網路與伺服器102連接,該通信網路可以是有線網路或無線網路。伺服器102可以是用戶端對應的伺服器,可以是一台伺服器或由若干台伺服器組成的伺服器集群或雲計算中心,或者是一個虛擬化平臺。
其中,圖1是以資料庫103獨立於該伺服器102存在進行說明的,在其他可能的實現方式中,資料庫103也可以位於伺服器102中。
伺服器102與資料庫103連接,資料庫103中存儲有歷史圖像、標注樣本、訓練文本圖像等,伺服器102接收終端設備101發送的待定位的靶心圖表像,根據靶心圖表像中各個像素點的像素值,確定文本像素點,並形成多個文本連通域,再計算任意兩個文本連通域之間的差異特徵值和鄰接特徵值,根據差異特徵值和鄰接特徵值將多個文本連通域合併,並根據合併後的文本連通域的面積,確定靶心圖表像中的目標文本區域,從而實現文本區域的定位。進一步地,伺服器102還將確定出的目標文本區域輸入已訓練的特徵提取模型中,得到目標特徵向量,並將目標特徵向量與標注樣本的標注特徵向量進行相似度對比,確定相似度最大的標注文本圖像,將相似度最大的標注圖像的文字資訊作為目標文本區域的文字資訊,從而實現圖像中目標文本區域的文字識別。
需要說明的是,本發明提供的文本區域的定位方法可以應用於伺服器102,由伺服器執行本發明實施例提供的文本區域的定位方法;也可以應用於終端設備的用戶端中,由終端設備101實施本發明提供的文本區域的定位方法,還可以由伺服器102與終端設備101中的用戶端配合完成。
圖2示出了本發明一個實施例提供的文本區域的定位方法的流程圖。如圖2所示,該方法包括如下步驟:
步驟S201,獲取靶心圖表像中各個像素點的像素值。
其中,靶心圖表像可以包括但不限於jpg、bmp、tif、gif、png等格式的影像檔,靶心圖表像也可以是截圖。靶心圖表像可以是終端設備即時拍攝後上傳的圖像,或者靶心圖表像可以是從網路中獲取的圖像,或者,靶心圖表像可以是本機存放區的圖像。
伺服器獲取靶心圖表像後,確定靶心圖表像中各個像素點的像素值。像素值是圖像被數位化時由電腦賦予的值,它代表了一個像素點的平均亮度資訊,或者說是該像素點的平均反射(透射)密度資訊。本發明實施例中,像素點的像素值可以是RGB色彩模式的顏色值,也可以是HSV(Hue-Saturation-Value,色調-飽和度-明度)色彩模型的顏色值,還可以是像素點的灰度值。
本領域具通常知識者應能理解,上述幾種場景和圖像來源僅為舉例,基於這些範例進行的適當變化也可適用於本發明,本發明實施例並不對靶心圖表像的來源和場景進行限定。
步驟S202、根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域。
具體實施過程中,靶心圖表像中的像素點可以分為文本像素點和非文本像素點,根據像素點的像素值可以將靶心圖表像中的所有像素點進行分類,確定每一個像素點是文本像素點還是非文本像素點。具體地,可以利用演算法模型對像素點進行分類,將靶心圖表像輸入CNN網路中,對靶心圖表像進行特徵提取,輸出的結果與像素點一一對應,例如,若像素點為文本像素點,則對該像素點標記為1,若像素點為非文本像素點,則對該像素點標記為0。
然後,根據像素點的分類,將所有文本像素點聚集在一起,相鄰的文本像素點可以形成一個文本連通域,所有文本像素點可以形成一個或多個文本連通域。對於所有文本像素點形成一個文本連通域的情況,該文本連通域即為目標文本區域,無需後續的定位過程。對於所有文本像素點形成多個文本連通域的情況,需要從這多個文本連通域中確定出目標文本區域。
本發明實施例中對像素點進行分類的演算法模型,可以是CNN網路,也可以是其它深度學習網路模型,這裡僅為舉例,不做限制。
步驟S203、針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,並根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值。
其中,像素點的像素值可以是該像素點的RGB色彩模式的顏色值,具體可以用Mi={Ri,Gi,Bi}表示第i個像素點的顏色值,其中,Ri為該像素點的紅色分量值,Gi為像素點的綠色分量值,Bi為像素點的藍色分量值。
根據文本連通域中各個像素點的顏色值可以計算出該文本連通域的顏色值,兩個文本連通域之間的差異特徵值可以根據兩個文本連通域的顏色值計算得出。差異特徵值表徵了兩個文本連通域之間顏色的差異程度,文本連通域之間的差異特徵值越大,表明兩個文本連通域之間的顏色差異越大,文本連通域之間的差異特徵值越小,表明兩個文本連通域之間的顏色差異越小。
另一方面,還需要計算兩個文本連通域之間的鄰接特徵值,這裡的鄰接特徵值為根據兩個文本連通域之間的距離計算得出,表徵了兩個文本連通域之間的距離,文本連通域之間的重疊面積越大,表明兩個文本連通域之間的距離越近,文本連通域之間的重疊面積越小,表明兩個文本連通域之間的距離越遠。
步驟S204、根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併。
具體實施過程中,需要將顏色差異較小、相距較小的兩個文本連通域進行合併。因此,針對任意兩個文本連通域,根據兩個文本連通域之間的差 異特徵值和鄰接特徵值,確定兩個文本連通域是否合併。進而,多個文本連通域之間進行合併後,得到一個或多個合併後的文本連通域。
一般來說,一個合併後的文本連通域對應一個文本區域,例如商戶門頭圖片中包括商戶名稱、商戶地址、商戶商標等,其中,商戶名稱的文本區域對應一個合併後的文本連通域,商戶位址的文本區域對應一個合併後的文本連通域。由於商戶門頭圖片中商戶名稱的面積最大,因此,可以根據合併後的文本連通域的面積,對合併後的文本連通域進行過濾,將過濾後留下的一個或兩個合併後的文本連通域作為目標文本區域。
步驟S205、根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
本發明實施例在對靶心圖表像進行文本區域定位時,獲取靶心圖表像中各個像素點的像素值。根據像素值,從靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域。針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算這兩個文本連通域之間的差異特徵值,同時,根據兩個文本連通域之間的距離,計算這兩個文本連通域之間的鄰接特徵值。之後,根據差異特徵值和鄰接特徵值,將多個文本連通域進行合併,並根據合併後的文本連通域的面積,確定靶心圖表像中的目標文本區域。本發明實施例中,計算文本連通域之間的差異特徵值和鄰接特徵值,根據這兩個條件將多個文本連通域進行合併,從而將顏色相近且距離相近的文本連通域合併,這樣,通過顏色和距離可將商戶門頭圖片中名稱的文字進行合併,形成目標文本區域。且由於商戶門頭圖片中商戶名稱所占面積最大,因此商戶名稱對應的合併後的文本連通域的面積最大,可以根據面積對合併後的文本連通域進行篩選,從而確 定出目標文本區域。本發明實施例可以對商戶門頭圖片中文字區域與圖片區域進行有效區分,且對不同文字區域進行有效區分,從而提高了目標文本區域定位的準確性,進一步保證後續商戶名稱識別的準確性。
進一步地,上述步驟S202、根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,包括:將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
具體實施過程中,像素分類模型可以為CNN網路模型,也可以為DBN網路模型,或者RNN網路模型等。本發明實施例CNN網路模型為例,介紹如何靶心圖表像中各個像素點的分類過程。
本發明實施例採用類Unet的CNN網路結構,對靶心圖表像進行特徵重構,即將靶心圖表像中每一個像素點的像素值輸入已訓練的CNN網路模型中,特徵提取結果與靶心圖表像中的像素點一一對應。本發明實施例中的特徵提取結果分為兩類,即文本像素點或非文本像素點。具體實施過程中,可以將文本像素點設置為1,非文本像素點設置為0,即若經過CNN網路模型計算得出某像素點的分類結果為文本像素點,則將該像素點的分類結果設置為1,若經過CNN網路模型計算出該像素點的分類結果為非文本像素點,則將該像素點的分類結果設置為0。
可選的,本發明實施例中的CNN網路結構包括2n+1級卷積層、n級池化層和n級反卷積層,其中,第1至第n級卷積層中,每級卷積層之後設置有一級池化層,即前n級卷積層與n級池化層交替設置。可選的,每級卷積層用於進行至少一次卷積處理。相應的,靶心圖表像經過n級卷積層和n級池化層處理後,即得到靶心圖表像對應的特徵圖,其中,特徵圖的通道數等於靶心圖表像的通道數,且特徵圖的尺寸等於靶心圖表像的尺寸。
下面以CNN像素分類模型為7級卷積層、3級池化層和3級反卷積層構成的U型的網路結構為例進行說明。卷積層用於提取特徵的層,分為卷積操作和啟動操作兩部分。其中,進行卷積操作時,使用預先經過訓練學習得到的卷積核進行特徵提取,進行啟動操作時,使用啟動函數對卷積得到的特徵圖進行啟動處理,常用的啟動函數包括線性整流(Rectified Linear Unit,ReLU)函數、S型(Sigmoid)函數和雙曲正切(Tanh)函數等。
池化(pooling)層,位於卷積層之後,用於降低卷積層輸出的特徵向量,即縮小特徵圖的尺寸,同時改善過擬合問題。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和隨機池化(stochastic-pooling)等。
反卷積層(deconvolution),用於對特徵向量進行上採樣的層,即用於增大特徵圖的尺寸。
如圖3所示,首先通過第i級卷積層對第i-1特徵圖進行卷積以及啟動處理,並將處理後的第i-1特徵圖輸入第i級池化層,2
Figure 110118406-A0305-02-0020-3
i
Figure 110118406-A0305-02-0020-4
n。對於第一級卷積層,其輸入為靶心圖表像;而對於第i級卷積層,其輸入則為第i-1級池化層輸出的特徵圖。可選的,第一級卷積層獲取到靶心圖表像後,通過預設卷積核對靶心圖表像進行卷積操作,再通過預設啟動函數進行啟動操作;第i級卷積層獲取第i-1池 化層輸出的第i-1特徵圖後,通過預設卷積核對第i-1特徵圖進行卷積操作,再通過預設啟動函數進行啟動操作,從而起到提取特徵的作用,其中,進行卷積處理後,特徵圖的通道數增加。如圖3所示,第一級卷積層對靶心圖表像進行兩次卷積處理;第二級卷積層對第一池化層輸出的第一特徵圖進行兩次卷積處理,第三級卷積層對第二池化層輸出的第二特徵圖進行兩次卷積處理,第四級卷積層對第三池化層輸出的第三特徵圖進行兩次卷積處理。其中,多通道特徵圖的高度用於表示尺寸,而寬度則用於表示通道數。
其次,通過第i級池化層對處理後的第i-1特徵圖進行池化處理,得到第i特徵圖。第i級卷積層完成卷積處理後,將處理後的第i-1特徵圖輸入第i-1級池化層,由第i-1級池化層進行池化處理,從而輸出第i特徵圖。其中,各級池化層用於縮小特徵圖的尺寸,並保留特徵圖中的重要資訊。可選的,各級池化層對輸入的特徵圖進行最大池化處理。示意性的,如圖3所示,第一級池化層對第一級卷積層輸出特徵圖進行處理,得到第一特徵圖,第二級池化層對第二級卷積層輸出特徵圖進行處理,得到第二特徵圖,第三級池化層對第三級卷積層輸出特徵圖進行處理,得到第三特徵圖。
最後,將第i特徵圖輸入第i+1級卷積層。完成池化處理後,第i級池化層將第i特徵圖輸入下一級卷積層,由下一級卷積層進一步進行特徵提取。如圖3所示,靶心圖表像依次經過第一級卷積層、第一級池化層、第二級卷積層和第二級池化層、第三卷積層以及第三池化層後,由第三級池化層將第三特徵圖輸入第四級卷積層。上述實施例僅以進行三次卷積、池化操作為例進行說明,在其他可能的實施方式中,CNN網路結構可以進行多次卷積、池化操作,本實施例並不對此構成限定。
在進行了交替的卷積層和池化層的處理操作後,還需要通過反卷積層得到分類結果圖,通過第n+1至第2n+1級卷積層和n級反卷積層,對中間特徵圖進行卷積以及反卷積處理,得到分類結果圖。其中,分類結果圖的尺寸等於靶心圖表像的尺寸。
在一種可能的實施方式中,通過第n+1至第2n+1級卷積層和n級反卷積層進行處理時包括如下步驟:首先,通過第j級反卷積層對第j+n級卷積層輸出的特徵圖進行反卷積處理,1
Figure 110118406-A0305-02-0022-5
j
Figure 110118406-A0305-02-0022-6
n。示意性的,如圖3所示,通過第一級反卷積層對第四級卷積層輸出的特徵圖進行反卷積處理;通過第二級反卷積層對第五級卷積層輸出的特徵圖進行反卷積處理;通過第三級反卷積層對第六級卷積層輸出的特徵圖進行反卷積處理。其中,反卷積處理作為卷積處理的逆過程,用於對特徵圖進行上採樣,從而縮小特徵圖的尺寸。如圖3所示,經過反卷積層處理後,特徵圖的尺寸減小。
其次,對反卷積處理後的特徵圖與第n-j+1級卷積層輸出的特徵圖進行拼接,並將拼接後的特徵圖輸入第j+n+1級卷積層,反卷積處理後的特徵圖與第n-j+1級卷積層輸出的特徵圖的尺寸相同。示意性的,如圖3所示,將第三級卷積層輸出的特徵圖以及第一級反卷積層輸出的特徵圖拼接,作為第五級卷積層的輸入;將第二級卷積層輸出的特徵圖以及第二級反卷積層輸出的特徵圖拼接,作為第六級卷積層的輸入,將第一級卷積層輸出的特徵圖以及第三級反卷積層輸出的特徵圖拼接,作為第七級卷積層的輸入。
最後,通過第j+n+1級卷積層對拼接後的特徵圖進行卷積處理,最終輸出與靶心圖表像尺寸一致的分類結果圖。
在確定了CNN網路結構和處理過程後,就可以通過歷史圖像的分類結果訓練CNN網路結構,然後根據訓練完成的CNN網路結構提取出分類結果。
將每一個像素點分類後,可根據分類結果,將文本像素點形成文本連通域。其中,由文本像素點形成多個文本連通域,包括:針對每一個文本像素點,確定該文本像素點與該文本像素點相鄰的像素點之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域。
具體實施過程中,通過像素分類模型得到每一個像素點的分類結果,根據分類結果可以得出每個像素點與相鄰像素點之間的鄰接關係,其中,除了靶心圖表像四邊上的像素點,靶心圖表像內部的每個像素點存在8個相鄰的像素點,即上、下、左、右,右上、右下、左上、左下8個像素點。針對每一個文本像素點,可以對該文本像素點與任一個相鄰像素點之間的關係進行標記,例如,若相鄰像素點也為文本像素點,標記為1,若相鄰像素點為非文本像素點,標記為0,則每一個文本像素點對應8個鄰接關係。
進而,根據鄰接關係,可以將相鄰的文本像素點連通,形成文本連通域,其中,一個文本連通域可以用一個集合CC標記,則CC={C1,C2,...,Cn},Cn為文本連通域集合CC中的第n個文本像素點。
進一步地,為了便於計算,本發明實施例中,針對每個文本連通域,確定每個文本連通域的最小外接矩形。
由於文本連通域的形狀不確定,不同形狀不便於後續計算,因此,為了減少計算難度,本發明實施例對每個文本連通域均確定最小外接矩形。最小 外接矩形即為在給出一個多邊形(或一群點),求出面積最小且外接多邊形的矩形。
以直角坐標系為例,其求解方法如下:(1)先確定文本連通域的簡單外接矩形。簡單外接矩形是指邊平行於x軸或y軸的外接矩形。簡單外接矩形很有可能不是最小外接矩形,卻是非常容易求得的外接矩形;(2)將文本連通域在平面上繞某一固定點旋轉某一角度。數學基礎是,設平面上點(x1,y1)繞另一點(x0,y0)逆時針旋轉A角度後的點為(x2,y2),則有:x2=(x1-x0)×cosA-(y1-y0)×sinA+x0……公式1
y2=(x1-x0)×sinA+(y1-y0)×cosA+y0……公式2順時針時,A改寫成-A即可;(3)旋轉文本連通域(循環,0-90°,間距設為1°),求旋轉每個度數後的文本連通域的簡單外接矩形,記錄簡單外接矩形的面積、頂點座標以及此時旋轉的度數;(4)比較在旋轉過程中文本連通域求得的所有簡單外接矩形,得到面積最小的簡單外接矩形,獲取該簡單外接矩形的頂點座標和旋轉的角度;(5)旋轉外接矩形。將上一步獲得面積最小的簡單外接矩形反方向(與第3步方向相反)旋轉相同的角度,即得最小外接矩形。
得到文本連通域的最小外接矩形後,後續步驟均可利用對應的最小外接矩形代替文本連通域進行計算。
該根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,包括: 根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值。
具體實施過程中,計算兩個文本連通域之間的差異特徵值即計算這兩個文本連通域對應的最小外接矩形的差異特徵值,包括:針對每一個文本連通域的最小外接矩形,獲取該最小外接矩形中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該最小外接矩形的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據最小外接矩形的顏色特徵值,計算該兩個最小外接矩形之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個最小外接矩形之間的差異特徵值。
具體來說,本發明實施例中像素點的顏色值可以是RGB色彩模式的顏色值,也可以是HSV色彩模型的顏色值,這裡以RGB色彩模式的顏色值為例進行介紹。針對一個文本連通域對應的最小外接矩形,獲取該最小外接矩形中各個像素點的RGB值,RGB值中包括該像素點的紅色分量、綠色分量、藍色分量,可以用Mi={Ri,Gi,Bi}表示。
根據所有像素點的RGB值計算該最小外接矩形的顏色特徵值,最小外接矩形的顏色特徵值包括最小外接矩形的紅色特徵值、綠色特徵值、藍色特徵值,其中,最小外接矩形的紅色特徵值等於該最小外接矩形中所有像素點的紅色分量的均值,最小外接矩形的綠色特徵值等於該最小外接矩形中所有像素點的綠色分量的均值,最小外接矩形的藍色特徵值等於該最小外接矩形中所有像素點的藍色分量的均值。最小外接矩形C的顏色特徵值用Mc={Rc,Gc,Bc}表示,則:
Figure 110118406-A0305-02-0026-1
其中,Rc為最小外接矩形的紅色特徵值,Gc為最小外接矩形的綠色特徵值,Bc為最小外接矩形的藍色特徵值。
之後,根據顏色特徵值,計算兩個最小外接矩形的顏色差異分量。一種具體的實施例中,顏色差異分量可以包括亮度差異、色調差異值、色彩濃度差異值。即根據兩個最小外接矩形的顏色特徵值,計算得出這兩個最小外接矩形的亮度差異、色調差異值和色彩濃度差異值。再從中選取值最大的顏色差異分量作為這兩個最小外接矩形的差異特徵值。
另一方面,利用文本連通域的最小外接矩形計算兩個文本連通域之間的鄰接特徵值。根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值,包括:根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值。
具體地,根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值,包括:將兩個最小外接矩形之間的重疊面積與該兩個最小外接矩形的面積之和相比,得到該兩個最小外接矩形之間的鄰接特徵值。
具體實施過程中,最小外接矩形的面積可以用最小外接矩形中包含的像素點的個數表示。例如最小外接矩形a包含100個像素點,則最小外接矩形a的面積為100,最小外接矩形b包含80個像素點,則最小外接矩形b的面積為80。最小外接矩形a和最小外接矩形b中包含20個相同的像素點,則將最小外接矩形a 和最小外接矩形b的重疊面積標記為20。則兩個最小外接矩形之間的鄰接特徵值等於最小外接矩形之間的重疊面積與最小外接矩形的面積之和的比值,即鄰接特徵值等於20與100加80之和的比值,等於1/9。
計算得到文本連通域之間的差異特徵值和鄰接特徵值之後,可以根據差異特徵值和鄰接特徵值確定不同文本連通域之間是否合併。
該根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併,包括:確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個最小外接矩形存在關聯關係;利用併查集演算法,根據關聯關係對所有最小外接矩形進行合併。
具體實施過程中,將差異特徵值與顏色閾值相對比,例如,顏色閾值可以設置為21,若差異特徵值小於顏色閾值,則認為最小外接矩形之間的顏色相近,可以合併;若差異特徵值大於或等於顏色閾值,則認為最小外接矩形之間的顏色差異較大,不進行合併。對於鄰接特徵值,將鄰接特徵值與面積閾值相對比,若鄰接特徵值大於面積閾值,則認為最小外接矩形之間的距離較近,可以合併;若鄰接特徵值小於或等於面積閾值,則認為最小外接矩形之間的距離較遠,不進行合併。本發明實施例中,認為差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個最小外接矩形存在關聯關係,可以進行合併。
將互相存在關聯關係的最小外接矩形進行合併,具體可以利用併查集演算法,確定需要合併的所有最小外接矩形。
最小外接矩形合併之後,可以根據合併後的最小外接矩形的面積,確定目標文本區域。具體來說,由於商戶門頭圖片中的商戶名稱一般為面積 最大的區域,因此,可以根據面積對靶心圖表像進行雜訊過濾,將合併後面積最大的最小外接矩形作為靶心圖表像中的目標文本區域。
進一步地,一種可選的實施例中,本發明實施例確定靶心圖表像中的目標文本區域之後,可以對目標文本區域中的文本識別,如圖4所示,上述步驟S205、根據合併後的文本連通域的面積,確定靶心圖表像中的目標文本區域之後,還包括:步驟S206、將該目標文本區域輸入已訓練的特徵提取模型中,得到該目標文本區域的目標特徵向量。其中,特徵提取模型利用訓練文本圖像以及對應的文字資訊進行訓練。
具體地,特徵提取模型可以為深度學習網路模型,如CTPN、PSEnet等模型,本發明實施例中以特徵提取模型為VGG網路為例。這裡的VGG網路利用標注的商戶門頭圖片以及對應的商戶名稱的文字資訊進行訓練。通過VGG網路得到目標文本區域的目標特徵向量,該目標特徵向量可以是一個1×1024的向量。
步驟S207、將該目標特徵向量與標注樣本的標注特徵向量進行相似度對比,確定相似度最大的標注文本圖像,該標注樣本包括標注文本圖像、對應的標注特徵向量以及文字資訊。
具體實施過程中,資料庫中存儲有大量的標注樣本,標注樣本包括標注文本圖像、標注特徵向量以及對應的文字資訊。將上述得到的目標特徵向量與資料庫中的標注特徵向量進行相似度對比,選取相似度最大的標注特徵向量對應的標注文本圖像。
這裡的相似度計算可以利用餘弦相似度公式進行計算。具體的相似度可以根據以下公式計算:
Figure 110118406-A0305-02-0029-2
其中,A為目標特徵向量,B為標注特徵向量,兩者均為一維特徵向量。
步驟S208、將該相似度最大的標注圖像的文字資訊作為該目標文本區域的文字資訊。
最後,選取與目標特徵向量相似度最大的標注特徵向量,將該標注特徵向量的文字資訊作為目標特徵向量的文字資訊,即目標文本區域的文字資訊。
本發明實施例在商戶門頭圖片的文本識別過程中,通過預先提取出目標文本區域,縮小了輸入特徵提取模型的圖像大小,能夠降低拍攝角度、雜訊對圖像檢索效果的影響,同時避免了複雜背景對文字識別性能的影響,提升文字識別準確率。
以下通過具體實例說明本發明實施例提供的文本區域的定位方法以及文本識別的實現過程。
首先接收靶心圖表像,確定靶心圖表像中各個像素點的像素值。將各個像素點的像素值輸入像素分類模型中,像素分類模型採用類Unet的卷積神經網路。通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果。
根據像素分類模型學習到的歷史圖像中像素點的分類結果,確定靶心圖表像中每個像素點的分類結果,其中,像素點的分類結果為該像素點為文本像素點或非文本像素點。
針對每一個文本像素點,確定該文本像素點與相鄰的像素點之前的鄰接關係。鄰接關係包括上、下、左、右、右上、右下、左上、左下。根據鄰接關係連通文本像素點,形成多個文本連通域,並確定每個文本連通域的最小外接矩形。
接下來,計算文本連通域之間的差異特徵值以及鄰接特徵值。
根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值。具體的,獲取最小外接矩形中各個像素點的顏色值,其中,顏色特徵值包括紅色分量值、綠色分量值和藍色分量值。計算所有像素點的顏色值的均值,作為最小外接矩形的顏色特徵值。根據最小外接矩形的顏色特徵值,計算兩個最小外接矩形之間的多個顏色差異分量,選取值最大的顏色差異分量作為兩個最小外接矩形之間的差異特徵值。
將兩個最小外接矩形之間的重疊面積與該兩個最小外接矩形的面積之和相比,得到兩個最小外接矩形之間的鄰接特徵值。
確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個最小外接矩形存在關聯關係。利用併查集演算法,根據關聯關係對所有最小外接矩形進行合併。將合併後面積最大的文本連通域作為靶心圖表像中的目標文本區域。
將目標文本區域輸入已訓練的特徵提取模型中,得到該目標文本區域的目標特徵向量。
將目標特徵向量與標注樣本的標注特徵向量進行相似度對比,確定相似度最大的標注文本圖像。其中,標注樣本包括標注文本圖像、對應的標注特徵向量以及文字資訊。
將該相似度最大的標注圖像的文字資訊作為目標文本區域的文字資訊。
下述為本發明裝置實施例,對於裝置實施例中未詳盡描述的細節,可以參考上述一一對應的方法實施例。
請參考圖5,其示出了本發明一個實施例提供的文本區域的定位裝置的結構方框圖。該裝置包括:獲取單元501、連通單元502、計算單元503、合併單元504、過濾單元505。
其中,獲取單元501,用於獲取靶心圖表像中各個像素點的像素值;連通單元502,用於根據像素值,從該靶心圖表像的所有像素點中確定文本像素點,並由文本像素點形成多個文本連通域;計算單元503,用於針對任意兩個文本連通域,根據文本連通域中各個像素點的顏色值,計算該兩個文本連通域之間的差異特徵值,並根據該兩個文本連通域之間的距離,計算該兩個文本連通域之間的鄰接特徵值;合併單元504,用於根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併; 過濾單元505,用於根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
一種可選的實施例中,該連通單元502,具體用於: 將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
一種可選的實施例中,該連通單元502,具體用於:針對每一個文本像素點,確定該文本像素點與該文本像素點相鄰的像素點之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域。
一種可選的實施例中,該計算單元503,具體用於:針對任一文本連通域,獲取該文本連通域中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該文本連通域的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據文本連通域的顏色特徵值,計算該兩個文本連通域之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個連通域之間的差異特徵值。
一種可選的實施例中,該計算單元503,具體用於:將該兩個文本連通域之間的距離與該兩個文本連通域的面積之和相比,得到該兩個文本連通域之間的鄰接特徵值; 一種可選的實施例中,該合併單元504,具體用於:確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個文本連通域存在關聯關係; 根據關聯關係,利用併查集演算法對所有文本連通域進行合併。
一種可選的實施例中,該連通單元502,還用於確定每個文本連通域的最小外接矩形;該計算單元,還用於根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算該兩個文本連通域之間的差異特徵值;根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個文本連通域之間的鄰接特徵值。
與上述方法實施例相對應地,本發明實施例還提供了一種電子設備。該電子設備可以是伺服器,如圖1中所示的伺服器102,該電子設備至少包括用於存儲資料的記憶體和用於資料處理的處理器。其中,對於用於資料處理的處理器而言,在執行處理時,可以採用微處理器、CPU、GPU(Graphics Processing Unit,圖形處理單元)、DSP或FPGA實現。對於記憶體來說,記憶體中存儲有操作指令,該操作指令可以為電腦可執行代碼,通過該操作指令來實現上述本發明實施例的視頻篩選方法的流程中的各個步驟。
圖6為本發明實施例提供的一種電子設備的結構示意圖;如圖6所示,本發明實施例中該電子設備60包括:處理器61、顯示器62、記憶體63、輸入裝置66、匯流排65和通訊設備64;該處理器61、記憶體63、輸入裝置66、顯示器62和通訊設備64均通過匯流排65連接,該匯流排65用於該處理器61、記憶體63、顯示器62、通訊設備64和輸入裝置66之間傳輸資料。
其中,記憶體63可用於存儲軟體程式以及模組,如本發明實施例中的文本區域的定位方法對應的程式指令/模組,處理器61通過運行存儲在記憶體63中的軟體程式以及模組,從而執行電子設備60的各種功能應用以及資料處理,如本發明實施例提供的文本區域的定位方法。記憶體63可主要包括存儲程式 區和存儲資料區,其中,存儲程式區可存儲作業系統、至少一個應用的應用程式等;存儲資料區可存儲根據電子設備60的使用所創建的資料(比如動畫片段、控制策略網路)等。此外,記憶體63可以包括高速隨機存取記憶體,還可以包括快閃記憶體,例如至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。
處理器61是電子設備60的控制中心,利用匯流排65以及各種介面和線路連接整個電子設備60的各個部分,通過運行或執行存儲在記憶體63內的軟體程式和/或模組,以及調用存儲在記憶體63內的資料,執行電子設備60的各種功能和處理資料。可選的,處理器61可包括一個或多個處理單元,如CPU、GPU(Graphics Processing Unit,圖形處理單元)、數文書處理單元等。
本發明實施例中,處理器61將確定的目標文本區域以及文字資訊通過顯示器62展示給用戶。
處理器61還可以通過通訊設備64連接網路,如果電子設備是伺服器,則處理器61可以通過通訊設備64與終端設備之間傳輸資料。
該輸入裝置66主要用於獲得用戶的輸入操作,當該電子設備不同時,該輸入裝置66也可能不同。例如,當該電子設備為電腦時,該輸入裝置66可以為滑鼠、鍵盤等輸入裝置;當該電子設備為智慧手機、平板電腦等可攜式裝置時,該輸入裝置66可以為觸控螢幕。
本發明實施例還提供了一種電腦存儲介質,該電腦存儲介質中存儲有電腦可執行指令,該電腦可執行指令用於實現本發明任一實施例的文本區域的定位方法。
在一些可能的實施方式中,本發明提供的文本區域的定位方法的各個方面還可以實現為一種程式產品的形式,其包括程式碼,當程式產品在電腦設備上運行時,程式碼用於使電腦設備執行本說明書上述描述的根據本發明各種示例性實施方式的文本區域的定位方法的步驟,例如,電腦設備可以執行如圖4所示的步驟S201至S208中的文本區域的定位流程。
程式產品可以採用一個或多個可讀介質的任意組合。可讀介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以是──但不限於──電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、可攜式盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式緊湊盤唯讀記憶體(CD-ROM)、光記憶體件、磁記憶體件、或者上述的任意合適的組合。
可讀信號介質可以包括在基頻中或者作為載波一部分傳播的資料信號,其中承載了可讀程式碼。這種傳播的資料信號可以採用多種形式,包括──但不限於──電磁信號、光信號或上述的任意合適的組合。可讀信號介質還可以是可讀存儲介質以外的任何可讀介質,該可讀介質可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程式。
在本發明所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或元件可以結合,或可以集成到另一個系統,或一些特徵可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或 通信連接可以是通過一些介面,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是實體上分開的,作為單元顯示的部件可以是、或也可以不是實體單元,即可以位於一個地方,也可以分佈到多個網路單元上;可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。
另外,在本發明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。
以上僅為本發明之較佳實施例,並非用來限定本發明之實施範圍,如果不脫離本發明之精神和範圍,對本發明進行修改或者等同替換,均應涵蓋在本發明申請專利範圍的保護範圍當中。
201-205:步驟

Claims (14)

  1. 一種文本區域的定位方法,應用於終端設備或者伺服器,其特徵在於,該方法包括:獲取靶心圖表像中各個像素點的像素值;根據像素值和像素分類模型,從該靶心圖表像的所有像素點中確定文本像素點,並針對每一個文本像素點,通過該像素分類模型確定該文本像素點與該文本像素點相鄰的像素點之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域;確定每個文本連通域的最小外接矩形,該最小外接矩形指面積最小且外接文本連通域的矩形;針對任意兩個文本連通域,根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值,並根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值;根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併;根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
  2. 如請求項1所述之文本區域的定位方法,其中,該根據像素值和像素分類模型,從該靶心圖表像的所有像素點中確定文本像素點,包括:將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模 型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
  3. 如請求項1所述之文本區域的定位方法,其中,該根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值,包括:針對每一個文本連通域的最小外接矩形,獲取該最小外接矩形中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該最小外接矩形的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據最小外接矩形的顏色特徵值,計算該兩個最小外接矩形之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個最小外接矩形之間的差異特徵值。
  4. 如請求項1所述之文本區域的定位方法,其中,該根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值,包括:將兩個最小外接矩形之間的重疊面積與該兩個最小外接矩形的面積之和相比,得到該兩個最小外接矩形之間的鄰接特徵值。
  5. 如請求項1所述之文本區域的定位方法,其中,該根據差異特徵 值和鄰接特徵值,將該多個文本連通域進行合併,包括:確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個最小外接矩形存在關聯關係;利用併查集演算法,根據關聯關係對所有最小外接矩形進行合併。
  6. 一種圖像文字識別方法,其特徵在於,該方法包括:確定靶心圖表像中的目標文本區域,其中,該靶心圖表像中的目標文本區域是通過如請求項1至5中任一項所述之文本區域的定位方法得到的;將該目標文本區域輸入已訓練的特徵提取模型中,得到該目標文本區域的目標特徵向量,該特徵提取模型利用訓練文本圖像以及對應的文字資訊進行訓練;將該目標特徵向量與標注樣本的標注特徵向量進行相似度對比,確定相似度最大的標注文本圖像,該標注樣本包括標注文本圖像、對應的標注特徵向量以及文字資訊;將該相似度最大的標注圖像的文字資訊作為該目標文本區域的文字資訊。
  7. 一種文本區域的定位裝置,其特徵在於,該裝置包括:獲取單元,用於獲取靶心圖表像中各個像素點的像素值;連通單元,用於根據像素值和像素分類模型,從該靶心圖表像的所有像素點中確定文本像素點,並針對每一個文本像素點,通過該像素分類模型確定該文本像素點與該文本像素點相鄰的像素點 之前的鄰接關係;根據鄰接關係,連通文本像素點,形成多個文本連通域;計算單元,用於確定每個文本連通域的最小外接矩形,該最小外接矩形指面積最小且外接文本連通域的矩形;針對任意兩個文本連通域,根據每個文本連通域對應的最小外接矩形中各個像素的顏色值,計算兩個最小外接矩形之間的差異特徵值,並根據兩個文本連通域的最小外接矩形之間的重疊面積,計算該兩個最小外接矩形之間的鄰接特徵值;合併單元,用於根據差異特徵值和鄰接特徵值,將該多個文本連通域進行合併;過濾單元,用於根據合併後的文本連通域的面積,確定該靶心圖表像中的目標文本區域。
  8. 如請求項7所述之文本區域的定位裝置,其中,該連通單元,具體用於:將該靶心圖表像輸入已訓練的像素分類模型中,通過像素分類模型中交替的卷積操作和池化操作得到所有像素點的像素特徵提取結果;根據該像素分類模型學習到的歷史圖像中像素點的分類結果,確定該靶心圖表像中每個像素點的分類結果,該像素點的分類結果為該像素點為文本像素點或非文本像素點。
  9. 如請求項7所述之文本區域的定位裝置,其中,該計算單元,具體用於: 針對任一文本連通域,獲取該文本連通域中各個像素點的顏色值;計算所有像素點的顏色值的均值,作為該文本連通域的顏色特徵值;該顏色特徵值包括紅色分量值、綠色分量值和藍色分量值;根據文本連通域的顏色特徵值,計算該兩個文本連通域之間的多個顏色差異分量;選取值最大的顏色差異分量作為該兩個連通域之間的差異特徵值。
  10. 如請求項7所述之文本區域的定位裝置,其中,該計算單元,具體用於:將該兩個文本連通域之間的距離與該兩個文本連通域的面積之和相比,得到該兩個文本連通域之間的鄰接特徵值。
  11. 如請求項7至10中任一項所述之文本區域的定位裝置,其中,該合併單元,具體用於:確定差異特徵值小於顏色閾值,並且鄰接特徵值大於面積閾值的兩個文本連通域存在關聯關係;根據關聯關係,利用併查集演算法對所有文本連通域進行合併。
  12. 一種圖像文字識別裝置,其特徵在於,該裝置包括:定位單元,該定位單元包括如請求項7至11中任一項所述之文本區域的定位裝置;將目標文本區域輸入特徵提取模型中,得到該目標文本區域的目標特徵向量; 將該目標特徵向量與標注樣本的標注特徵向量相對比,確定相似度最大的標注圖像,該標注樣本包括標注圖像、對應的標注特徵向量以及文字資訊;將該相似度最大的標注圖像的文字資訊作為該目標文本區域的文字資訊。
  13. 一種電腦可讀存儲介質,該電腦可讀存儲介質內存儲有電腦程式,其特徵在於:該電腦程式被處理器執行時,實現如請求項1至5中任一項所述之文本區域的定位方法。
  14. 一種電子設備,其特徵在於,包括記憶體和處理器,該記憶體上存儲有可在該處理器上運行的電腦程式,當該電腦程式被該處理器執行時,使得該處理器實現如請求項1至5中任一項所述之文本區域的定位方法。
TW110118406A 2020-08-14 2021-05-21 一種文本區域的定位方法及裝置 TWI821671B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010817763.0 2020-08-14
CN202010817763.0A CN112016546A (zh) 2020-08-14 2020-08-14 一种文本区域的定位方法及装置

Publications (2)

Publication Number Publication Date
TW202207077A TW202207077A (zh) 2022-02-16
TWI821671B true TWI821671B (zh) 2023-11-11

Family

ID=73504461

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110118406A TWI821671B (zh) 2020-08-14 2021-05-21 一種文本區域的定位方法及裝置

Country Status (3)

Country Link
CN (1) CN112016546A (zh)
TW (1) TWI821671B (zh)
WO (1) WO2022033095A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016546A (zh) * 2020-08-14 2020-12-01 中国银联股份有限公司 一种文本区域的定位方法及装置
CN112528827B (zh) * 2020-12-03 2023-04-07 和远智能科技股份有限公司 一种高铁接触网供电设备裂损自动检测方法
CN112766073B (zh) * 2020-12-31 2022-06-10 贝壳找房(北京)科技有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112801030B (zh) * 2021-02-10 2023-09-01 中国银联股份有限公司 一种目标文本区域的定位方法及装置
CN113780098B (zh) * 2021-08-17 2024-02-06 北京百度网讯科技有限公司 文字识别方法、装置、电子设备以及存储介质
CN114758350A (zh) * 2022-03-25 2022-07-15 北京尽微致广信息技术有限公司 一种设计图之间差异点的检测方法、装置和电子设备
CN115049649B (zh) * 2022-08-12 2022-11-11 山东振鹏建筑钢品科技有限公司 基于锈蚀程度的钢筋打磨除锈控制方法
CN115995080B (zh) * 2023-03-22 2023-06-02 曲阜市检验检测中心 基于ocr识别的档案智能管理系统
CN116453030B (zh) * 2023-04-07 2024-07-05 郑州大学 一种基于计算机视觉的建筑材料回收方法
CN116993133B (zh) * 2023-09-27 2024-01-26 尚云(广州)信息科技有限公司 一种基于人脸识别的智能工单系统
CN117593527B (zh) * 2024-01-18 2024-05-24 厦门大学 一种基于链式感知的指向性3d实例分割方法
CN118172738B (zh) * 2024-05-16 2024-07-26 山东力加力钢结构有限公司 基于机器视觉的交通工程路况检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201039149A (en) * 2009-04-17 2010-11-01 Yu-Chieh Wu Robust algorithms for video text information extraction and question-answer retrieval
US20110202516A1 (en) * 2008-08-07 2011-08-18 Gordon Rugg Method of and Apparatus for Analysing Data Files
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN107784301A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873215B2 (en) * 2007-06-27 2011-01-18 Seiko Epson Corporation Precise identification of text pixels from scanned document images
CN103093228B (zh) * 2013-01-17 2015-12-09 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN112016546A (zh) * 2020-08-14 2020-12-01 中国银联股份有限公司 一种文本区域的定位方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202516A1 (en) * 2008-08-07 2011-08-18 Gordon Rugg Method of and Apparatus for Analysing Data Files
TW201039149A (en) * 2009-04-17 2010-11-01 Yu-Chieh Wu Robust algorithms for video text information extraction and question-answer retrieval
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN107784301A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 用于识别图像中文字区域的方法和装置

Also Published As

Publication number Publication date
CN112016546A (zh) 2020-12-01
TW202207077A (zh) 2022-02-16
WO2022033095A1 (zh) 2022-02-17

Similar Documents

Publication Publication Date Title
TWI821671B (zh) 一種文本區域的定位方法及裝置
Chen et al. Linear spectral clustering superpixel
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN110321873B (zh) 基于深度学习卷积神经网络的敏感图片识别方法及系统
WO2020182121A1 (zh) 表情识别方法及相关装置
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
JP2016206837A (ja) オブジェクト検出方法及び画像検索システム
Mewada et al. Automatic room information retrieval and classification from floor plan using linear regression model
CN118135220B (zh) 一种基于体素和点集融合的点云分割方法、装置及设备
Zafari et al. Segmentation of partially overlapping convex objects using branch and bound algorithm
Wei et al. Food image classification and image retrieval based on visual features and machine learning
WO2024164979A1 (zh) 物品识别方法、装置、存储介质及电子设备
Feng Mobile terminal video image fuzzy feature extraction simulation based on SURF virtual reality technology
Biswas Finger detection for hand gesture recognition using circular hough transform
Evangelou et al. PU learning-based recognition of structural elements in architectural floor plans
CN114936395A (zh) 一种户型图识别方法、装置、计算机设备及存储介质
Sun et al. Contextual models for automatic building extraction in high resolution remote sensing image using object-based boosting method
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
Wu et al. Improved Faster R-CNN for the Detection Method of Industrial Control Logic Graph Recognition
Jiang et al. Research on feature point generation and matching method optimization in image matching algorithm
Muthu Kumara Swamy et al. Quality Evaluation of Image Segmentation in Mobile Augmented Reality
Chen et al. FPAN: fine-grained and progressive attention localization network for data retrieval
US20220391689A1 (en) Logic-based neural networks