TWI774659B

TWI774659B - 圖像文字的識別方法和裝置

Info

Publication number: TWI774659B
Application number: TW106105136A
Authority: TW
Inventors: 毛旭東; 施興; 褚崴; 程孟力; 周文猛
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-03-25
Filing date: 2017-02-16
Publication date: 2022-08-21
Also published as: CN107229932B; WO2017162069A1; CN107229932A; TW201740316A

Abstract

本發明實施例提供了一種圖像文字的識別方法和裝置，所述方法包括：獲取待識別的圖像，所述圖像包括多個像素點；根據所述多個像素點，確定所述圖像的第一文字區域；按照預設規則，從所述第一文字區域中提取出第二文字區域；對所述第二文字區域進行識別，能夠有效地去除待識別的圖像中的噪聲，大大提高了識別的準確率。

Description

圖像文字的識別方法和裝置

本發明關於文字識別技術領域，特別是關於一種圖像文字的識別方法和一種圖像文字的識別裝置。

模式識別技術的研究目的是根據人類大腦的識別機理，通過電腦模擬，構造出能代替人類完成分類和辨識的任務，進而進行自動資訊處理的機器系統。其中，漢字識別便是模式識別應用的一個重要領域，最典型的就是身份證識別，自動識別姓名、身份證號碼、地址、性別等資訊。

傳統的漢字識別方法主要是通過對圖像進行預處理，比如灰度化、降噪等，並基於傳統的圖像特徵抽取，然後再採用支持向量機SVM、神經網路等分類器訓練漢字識別模型來進行的。傳統的漢字識別通常基於人工經驗提取圖像特徵，不具備一定的噪聲抗干擾能力。因此，當噪聲干擾較大時，會導致漢字的識別率較低。近年來，隨著卷積神經網路CNN在電腦視覺領域取得巨大成功，CNN也被應用於漢字識別。CNN的識別效果，相比於傳統方法，準確率有了很大的提高。

但是，對於漢字識別，最大的問題在於漢字的多樣性，特別是形近字較多，傳統的漢字識別方法，對於形近字幾乎無能為力。很多漢字加一個偏旁就是另外一個字，比如“可”與“何”。如果輸入的圖片是“可”，但是在圖片的左側又存在一些小噪聲，由於CNN對位置資訊還是比較敏感，特別是在輸入資料不夠充分的情況下，現有的利用CNN識別漢字的方法會很難區分輸入圖片的到底是“可”還是“何”。因此，現有的利用CNN進行漢字識別的方法仍然不能很好的解決形近字的識別的問題。

鑒於上述問題，提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種圖像文字的識別方法和相應的一種圖像文字的識別裝置。

為了解決上述問題，本發明揭露了一種圖像文字的識別方法，包括：獲取待識別的圖像，所述圖像包括多個像素點；根據所述多個像素點，確定所述圖像的第一文字區域；按照預設規則，從所述第一文字區域中提取出第二文字區域；對所述第二文字區域進行識別。

可選地，所述根據所述多個像素點，確定所述圖像的第一文字區域的步驟包括：針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應的多個特徵值；根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。

可選地，所述根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果的步驟包括：按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

可選地，所述對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域的步驟包括：分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；若是，則將所述像素點標記為第一背景區域像素點；若否，則將所述像素點標記為第一文字區域像素點；從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。

可選地，在所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟前，還包括：對所述第一文字區域進行二值化處理。

可選地，所述對所述第一文字區域進行二值化處理的步驟包括：分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；若是，則將所述像素點標記為第二背景區域像素點；若否，則將所述像素點標記為第二文字區域像素點；可選地，所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟包括：確定所述第一文字區域中的多個連通區域；分別判斷所述多個連通區域是否滿足預設規則；若是，則提取出相對應的多個連通區域作為第二文字區域。

可選地，所述確定所述第一文字區域中的多個連通區域的步驟包括：遍歷所述第二文字區域像素點；將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；將包含所述多邊形的面積最小的外接矩形確定為連通區域。

可選地，所述對所述第二文字區域進行識別的步驟包括：採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。

為了解決上述問題，本發明揭露了一種圖像文字的識別裝置，包括：獲取模組，用於獲取待識別的圖像，所述圖像包括多個像素點；確定模組，用於根據所述多個像素點，確定所述圖像的第一文字區域；提取模組，用於按照預設規則，從所述第一文字區域中提取出第二文字區域；識別模組，用於對所述第二文字區域進行識別。

可選地，所述確定模組包括：直方圖計算子模組，用於針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應的多個特徵值；對比度歸一化處理子模組，用於根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；第一文字區域獲得子模組，用於對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。

可選地，所述對比度歸一化處理子模組包括：特徵值調整單元，用於按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；特徵值變換單元，用於採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；特徵值映射單元，用於分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

可選地，所述第一文字區域獲得子模組包括：第一預設閾值判斷單元，用於分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；第一背景區域像素點標記單元，用於在所述像素點的映射像素值大於第一預設閾值時，將所述像素點標記為第一背景區域像素點；第一文字區域像素點標記單元，用於在所述像素點的映射像素值不大於第一預設閾值時，將將所述像素點標記為第一文字區域像素點；第一文字區域提取單元，用於從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。

可選地，所述裝置還包括：二值化處理模組，用於對所述第一文字區域進行二值化處理。

可選地，所述二值化處理模組包括：第二預設閾值判斷子模組，用於分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；第二背景區域像素點標記子模組，用於在所述像素點的映射像素值大於第二預設閾值時，將所述像素點標記為第二背景區域像素點；第二文字區域像素點標記子模組，用於在所述像素點的映射像素值不大於第二預設閾值時，將將所述像素點標記為第二文字區域像素點；可選地，所述提取模組包括：連通區域確定子模組，用於確定所述第一文字區域中的多個連通區域；預設規則判斷子模組，用於分別判斷所述多個連通區域是否滿足預設規則；第二文字區域提取子模組，用於在所述多個連通區域滿足預設規則時，提取出相對應的多個連通區域作為第二文字區域。

可選地，所述連通區域確定子模組包括：第二文字區域像素點遍歷單元，用於遍歷所述第二文字區域像素點；第二文字區域像素點連接單元，用於將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；連通區域確定單元，用於將包含所述多邊形的面積最小的外接矩形確定為連通區域。

可選地，所述識別模組包括：識別子模組，用於採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。

與背景技術相比，本發明實施例包括以下優點：本發明實施例通過對待識別的圖像進行對比度歸一化處理以及二值化處理，從而提取出第一文字區域，然後在確定第一文字區域的連通區域基礎上，獲得第二文字區域，有效地去除了待識別的圖像中的噪聲，並通過對所述第二文字區域進行識別來實現對圖像文字的識別，避免了噪聲對圖像文字識別的干擾，大大提高了識別的準確率。

其次，在本發明實施例中，對於在身份證、護照等字體單一、背景簡單的文字識別場景中，通過對待識別圖像進行空間歸一化處理，能夠將訓練資料和測試資料在空間上盡可能的統一，使得形近字在空間歸一化後，具有不同的表現特徵，使得CNN漢字識別模型能夠更準確的識別形近字。

101:步驟

102:步驟

103:步驟

104:步驟

201:步驟

202:步驟

203:步驟

204:步驟

205:步驟

206:步驟

207:步驟

208:步驟

209:步驟

301:獲取模組

302:確定模組

303:提取模組

304:識別模組

圖1是本發明的一種圖像文字的識別方法實施例一的步驟流程圖；圖2是本發明的一種圖像文字的識別方法實施例二的步驟流程圖；圖3是本發明的一種圖像文字的識別裝置實施例的結構方塊圖。

為使本發明的上述目的、特徵和優點能夠更加明顯易懂，下面結合圖式和具體實施方式對本發明作進一步詳細的說明。

參照圖1，示出了本發明的一種圖像文字的識別方法實施例一的步驟流程圖，具體可以包括如下步驟：

步驟101，獲取待識別的圖像；在本發明實施例中，所述待識別的圖像可以是各類證件圖像，例如身份證、護照等。其中，所述圖像包括有多個像素點，像素點是指把某一圖像分割成若干個小方格，每個小方格便被稱為一個像素點，由這些像素點排列組成的柵格被稱為“光柵”，電腦可以通過表示這些像素點的位置、顏色、亮度等資訊，從而表示出整幅圖像。

通常，各類證件中的文字都有別於其他自然場景的漢字識別。證件中的文字的特點是：1)文字都是印刷體；2)文字都是單一(或種類不多)的字體，例如都是宋體字，或都是宋體字或楷體字；3)圖像背景簡單。

步驟102，根據所述多個像素點，確定所述圖像的第一文字區域；通常，為了對圖像中的文字進行識別，可以首先根據所述多個像素點，排除一些背景區域，以確定出所述圖像的第一文字區域。

在本發明實施例中，所述第一文字區域可以是經過初步篩選而確定的包括文字資訊的區域，從而有助於進一步地有針對性地對相應區域的文字進行識別。

在本發明的一種較佳實施例中，所述根據所述多個像素點，確定所述圖像的第一文字區域的步驟具體可以包括如下子步驟：

子步驟1021，針對所述多個像素點，計算所述圖像的直方圖；在具體實現中，當獲得待識別的圖像後，可以首先針對圖像中的多個像素點，計算出所述圖像的直方圖。直方圖是一種用來描述圖像灰度值的圖，可以把一定範圍內的圖像資料顯示出來，通過查看圖像的直方圖，可以瞭解圖像的曝光情況，或者畫面是否柔和等。所述直方圖可以具有對應的多個特徵值，即表示不同亮度的RGB數值。

一般地，直方圖的橫軸可以用來表示圖像亮度的變化，縱軸用來表示像素的多少。直方圖的橫軸從左到右表示亮度越來越高，從0到255，其中，0表示黑，255表示白。如果某個地方的峰越高，則說明在這個亮度下的像素越多。

子步驟1022，根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；在具體實現中，對所述直方圖進行對比度歸一化處理可以首先按比例對直方圖的多個特徵值進行調整，使調整後的多個特徵值的和為255。例如，若經過求和，得到所述直方圖的多個特徵值的和為765，則可以將每個特徵值乘以1/3，從而使得調整後的多個特徵值的和為255(765*1/3=255)；如果所述直方圖的多個特徵值的和小於255，則可以按比例擴大每個特徵值，使調整後的多個特徵值的和滿足上述要求。

然後，可以採用累積分佈函數對所述調整後的多個特徵值進行變換，得到變換後的多個特徵值。累積分佈函數是機率密度函數的積分，能夠完整描述一個實數隨機變量X的機率分佈情況。

進而，可以將獲得的變換後的多個特徵值作為映射表，將變換後的多個特徵值分別映射到所述圖像的多個像素點，以變換後的特徵值作為所述多個像素點的映射像素值，從而替換所述像素點原有的像素值。

子步驟1023，對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。

在本發明實施例中，可以首先遍歷所述多個像素點的映射像素值，分別判斷其映射像素值是否大於第一預設閾值，若是，則可以將所述像素點標記為第一背景區域像素點；若否，則可以將所述像素點標記為第一文字區域像素點；然後從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形，所述外接矩形即為所述圖像的第一文字區域。

在具體實現中，所述第一預設閾值可以通過大津算法(OTSU算法)計算得到。大津算法是一種對圖像進行二值化的高效算法，使用聚類的思想，通過把圖像的灰度數按灰度級分成兩個部分，使得兩個部分之間的灰度值差異最大，每個部分之間的灰度差異最小，然後通過方差的計算來尋找一個合適的灰度級別來劃分。因此，可以在二值化的時候，採用大津算法來自動選取閾值進行二值化。大津算法被認為是圖像分割中閾值選取的最佳算法，計算簡單，不受圖像亮度和對比度的影響。

步驟103，按照預設規則，從所述第一文字區域中提取出第二文字區域；在本發明實施例中，當從所述圖像中提取出第一文字區域後，可以繼續對所述第一文字區域進行篩選，以進一步排除背景區域，得到包含文字資訊的第二文字區域。

在本發明的一種較佳實施例中，在所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟前，還可以包括如下：對所述第一文字區域進行二值化處理。

在具體實現中，可以繼續按照步驟102中的方法對第一文字區域進行第二次二值化處理，從而標記出第二文字區域像素點，然後基於第二文字區域像素點，提取第二文字區域。

在本發明的一種較佳實施例中，所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟具體可以包括如下子步驟：子步驟1031，確定所述第一文字區域中的多個連通區域；子步驟1032，分別判斷所述多個連通區域是否滿足預設規則，若是，則提取出相對應的多個連通區域作為第二文字區域。

在具體實現中，可以基於第二次二值化處理標記的第二文字區域像素點，採用連通圖算法確定出所述第一文字區域中的多個連通區域。具體地，如下偽代碼是本發明實施例中採用的連通圖算法的一種示例：

然後，可以分別對每個連通區域進行判斷，刪除不滿足預設規則的連通區域，從而得到第二文字區域。

在本發明實施例中，所述不滿足預設規則的連通區域可以包括面積太小的連通區域，以及離最大連通區域距離較大的連通區域。

步驟104，對所述第二文字區域進行識別。

通常，在對待識別的圖像完成步驟102和步驟103的處理後，已基本達到去除噪聲的目的，從而可以對第二文字區域進行識別，獲得待識別的圖像中的文字資訊。

在本發明實施例中，通過對待識別的圖像進行對比度歸一化處理以及二值化處理，從而提取出第一文字區域，然後在確定第一文字區域的連通區域基礎上，獲得第二文字區域，有效地去除了待識別的圖像中的噪聲，並通過對所述第二文字區域進行識別來實現對圖像文字的識別，避免了噪聲對圖像文字識別的干擾，大大提高了識別的準確率。

參照圖2，示出了本發明的一種圖像文字的識別方法實施例二的步驟流程圖，具體可以包括如下步驟：

步驟201，獲取待識別的圖像；在本發明實施例中，所述待識別的圖像可以是各類證件圖像，例如身份證、護照等。通常，各類證件圖像中的文字都有別於其他自然場景的漢字識別。證件中的文字的特點是：1)文字都是印刷體；2)文字都是單一(或種類不多)的字體，例如都是宋體字，或都是宋體字或楷體字；3)圖像背景簡單。因此，基於空間歸一化操作的圖像文字識別可以應用於證件識別的場景中。

步驟202，針對所述多個像素點，計算所述圖像的直方圖；每一張圖像都包括有多個像素點，電腦可以通過表示這些像素點的位置、顏色、亮度等資訊，從而表示出整幅圖像。因此，在本發明實施例中，可以針對所述多個像素點，計算出所述圖像的直方圖。

步驟203，根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；在本發明的一種較佳實施例中，所述根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果的步驟具體可以包括如下子步驟：子步驟2031，按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；子步驟2032，採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；子步驟2033，分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

在具體實現中，對所述直方圖進行對比度歸一化處理可以首先按比例對直方圖的多個特徵值進行調整，使調整後的多個特徵值的和為255。例如，若經過求和，得到所述直方圖的多個特徵值的和為765，則可以將每個特徵值乘以1/3，從而使得調整後的多個特徵值的和為255(765*1/3=255)；如果所述直方圖的多個特徵值的和小於255，則可以按比例擴大每個特徵值，使調整後的多個特徵值的和滿足上述要求。

然後，可以採用累積分佈函數對所述調整後的多個特徵值進行變換，得到變換後的多個特徵值。累積分佈函數是機率密度函數的積分，能夠完整描述一個實數隨機變量X的機率分佈情況。即，第j個特徵值變換後的對應的值應該為在其前面的全部特徵值之和。

步驟204，對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域；在具體實現中，可以採用大津算法(OTSU算法)計算出第一預設閾值，通過將每個像素點的映射像素值與第一預設閾值進行比較，從而獲得所述圖像的第一文字區域。

在本發明的一種較佳實施例中，所述對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域的步驟具體可以包括如下子步驟：子步驟2041，分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；子步驟2042，若是，則將所述像素點標記為第一背景區域像素點；子步驟2043，若否，則將所述像素點標記為第一文字區域像素點；子步驟2044，從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。

在具體實現中，可以分別將每個像素點的映射像素值與第一預設閾值進行比較，若所述映射像素值大於第一預設閾值，則可以標記所述像素點為第一背景區域像素點，例如標記dst(x,y)=1，若所述映射像素值不大於第一預設閾值，則可以標記所述像素點為第一文字區域像素點，例如標記dst(x,y)=0。

然後，在所述圖像中找到一個面積最小的並且能將所有的dst(x,y)=0的像素點包含在內的矩形。所述矩形內的圖像就是一階空間歸一化的結果，即第一文字區域。

步驟205，對所述第一文字區域進行二值化處理；在本發明實施例中，對第一文字區域進行二值化處理的過程與步驟204相同，即所述對所述第一文字區域進行二值化處理的步驟具體可以包括如下子步驟：子步驟2051，分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；子步驟2052，若是，則將所述像素點標記為第二背景區域像素點；子步驟2053，若否，則將所述像素點標記為第二文字區域像素點；需要注意的是，在對第一文字區域進行第二次二值化處理時，需要重新計算預設閾值，即，需要通過大津算法(OTSU算法)計算出第二預設閾值，通過將每個像素點的映射像素值與第二預設閾值進行比較，從而標記出第二背景區域像素點以及第二文字區域像素點。例如若所述映射像素值大於第二預設閾值，則可以標記所述像素點為第二背景區域像素點，標記dst(x,y)=1，若所述映射像素值不大於第二預設閾值，則可以標記所述像素點為第二文字區域像素點，標記dst(x,y)=0。

步驟206，確定所述第一文字區域中的多個連通區域；在本發明實施例中，可以基於第二次二值化處理標記的第二文字區域像素點，採用連通圖算法確定出所述第一文字區域中的多個連通區域。

在本發明的一種較佳實施例中，所述確定所述第一文字區域中的多個連通區域的步驟具體可以包括如下子步驟：子步驟2061，遍歷所述第二文字區域像素點；子步驟2062，將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；子步驟2063，將包含所述多邊形的面積最小的外接矩形確定為連通區域。

在具體實現中，可以遍歷所述第二文字區域像素點，即在步驟205中二值化處理時，被標記為dst(x,y)=0的像素點，將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，得到一個全部以第二文字區域像素點為頂點的多邊形，然後，在所述第一文字區域中找到一個面積最小的並且能將所述多邊形包含在內的矩形。所述矩形內的圖像就是一個連通區域。

步驟207，分別判斷所述多個連通區域是否滿足預設規則；在本發明實施例中，在確定出全部的連通區域後，可以逐個判斷所述連通區域是否滿足預設規則，如果某一連通區域不滿足預設規則，則可以將該連通區域刪除，從而最終得到由剩餘的多個滿足預設規則的連通區域組成的第二文字區域。

在具體實現中，所述不滿足預設規則的連通區域可以包括面積太小的連通區域，以及離最大連通區域距離較大的連通區域。例如，面積小於2*2像素的連通區域，以及，離最大連通區域距離大於0.06的連通區域。

步驟208，提取出相對應的多個連通區域作為第二文字區域；

步驟209，採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。

在本發明實施例中，當獲得第二文字區域圖像後，可以採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。卷積神經網路(Convolutional Neural Network，CNN)是一種前饋神經網路，它的人工神經元可以響應一部分覆蓋範圍內的周圍單元，對於大型圖像處理有著出色的表現。

在具體實現中，可以利用上述步驟201至步驟208所述的方法對訓練資料進行空間歸一化操作，並用於CNN漢字識別模型的訓練，從而得到卷積神經網路CNN漢字識別模型。然後在圖像文字識別任務中，給定一張待識別的圖像，利用訓練好的CNN漢字識別模型進行識別。

在本發明實施例中，對於在身份證、護照等字體單一、背景簡單的文字識別場景中，通過對待識別圖像進行空間歸一化處理，能夠將訓練資料和測試資料在空間上盡可能的統一，使得形近字在空間歸一化後，具有不同的表現特徵，使得CNN漢字識別模型能夠更準確的識別形近字。

需要說明的是，對於方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本發明實施例並不受所描述的動作順序的限制，因為依據本發明實施例，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬較佳實施例，所涉及的動作並不一定是本發明實施例所必須的。

參照圖3，示出了本發明的一種圖像文字的識別裝置實施例的結構方塊圖，具體可以包括如下模組：獲取模組301，用於獲取待識別的圖像，所述圖像包括多個像素點；確定模組302，用於根據所述多個像素點，確定所述圖像的第一文字區域；提取模組303，用於按照預設規則，從所述第一文字區域中提取出第二文字區域；識別模組304，用於對所述第二文字區域進行識別。

在本發明實施例中，所述確定模組302具體可以包括如下子模組：直方圖計算子模組3021，用於針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應的多個特徵值；對比度歸一化處理子模組3022，用於根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；第一文字區域獲得子模組3023，用於對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。

在本發明實施例中，所述對比度歸一化處理子模組3022具體可以包括如下單元：特徵值調整單元221，用於按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；特徵值變換單元222，用於採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；特徵值映射單元223，用於分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。

在本發明實施例中，所述第一文字區域獲得子模組3023具體可以包括如下單元：第一預設閾值判斷單元231，用於分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；第一背景區域像素點標記單元232，用於在所述像素點的映射像素值大於第一預設閾值時，將所述像素點標記為第一背景區域像素點；第一文字區域像素點標記單元233，用於在所述像素點的映射像素值不大於第一預設閾值時，將將所述像素點標記為第一文字區域像素點；第一文字區域提取單元234，用於從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。

在本發明實施例中，所述裝置還可以包括如下模組：二值化處理模組305，用於對所述第一文字區域進行二值化處理。

在本發明實施例中，所述二值化處理模組305具體可以包括如下子模組：第二預設閾值判斷子模組3051，用於分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；第二背景區域像素點標記子模組3052，用於在所述像素點的映射像素值大於第二預設閾值時，將所述像素點標記為第二背景區域像素點；第二文字區域像素點標記子模組3053，用於在所述像素點的映射像素值不大於第二預設閾值時，將將所述像素點標記為第二文字區域像素點；在本發明實施例中，所述提取模組303具體可以包括如下子模組：連通區域確定子模組3031，用於確定所述第一文字區域中的多個連通區域；預設規則判斷子模組3032，用於分別判斷所述多個連通區域是否滿足預設規則；第二文字區域提取子模組3033，用於在所述多個連通區域滿足預設規則時，提取出相對應的多個連通區域作為第二文字區域。

在本發明實施例中，所述連通區域確定子模組3031具體可以包括如下單元：第二文字區域像素點遍歷單元311，用於遍歷所述第二文字區域像素點；第二文字區域像素點連接單元312，用於將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；連通區域確定單元313，用於將包含所述多邊形的面積最小的外接矩形確定為連通區域。

在本發明實施例中，所述識別模組304具體可以包括如下子模組：識別子模組3041，用於採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。

對於裝置實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒介(包括但不限於磁盤儲存器、CD-ROM、光學儲存器等)上實施的電腦程式產品的形式。

在一個典型的配置中，所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒介中的非永久性儲存器，隨機存取儲存器(RAM)及/或非易失性記憶體等形式，如只讀儲存器(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒介的示例。電腦可讀媒介包括永久性和非永久性、可行動和非可行動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒介的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取儲存器(SRAM)、動態隨機存取儲存器(DRAM)、其他類型的隨機存取儲存器(RAM)、只讀儲存器(ROM)、電可擦除可編程只讀儲存器(EEPROM)、快閃記憶體或其他記憶體技術、只讀光碟只讀儲存器(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、卡式磁帶，磁帶磁磁盤儲存或其他磁性儲存設備或任何其他非傳輸媒介，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒介不包括非持續性的電腦可讀媒體(transitory media)，如調變的資料信號和載波。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖及/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理終端設備的處理器以產生一個機器，使得通過電腦或其他可編程資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理終端設備以特定方式工作的電腦可讀儲存器中，使得儲存在該電腦可讀儲存器中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可編程資料處理終端設備上，使得在電腦或其他可編程終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

儘管已描述了本發明實施例的較佳實施例，但本領域內的技術人員一旦得知了基本進步性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發明所提供的一種圖像文字的識別方法和一種圖像文字的識別裝置，進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

Claims

一種圖像文字的識別方法，其藉由圖像文字的識別裝置所執行，包括：獲取待識別的圖像，所述圖像包括多個像素點；根據所述多個像素點，確定所述圖像的第一文字區域；按照預設規則，從所述第一文字區域中提取出第二文字區域；對所述第二文字區域進行識別。
根據申請專利範圍第1項所述的方法，其中，所述根據所述多個像素點，確定所述圖像的第一文字區域的步驟包括：針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應的多個特徵值；根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。
根據申請專利範圍第2項所述的方法，其中，所述根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果的步驟包括：按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。
根據申請專利範圍第3項所述的方法，其中，所述對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域的步驟包括：分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；若是，則將所述像素點標記為第一背景區域像素點；若否，則將所述像素點標記為第一文字區域像素點；從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。
根據申請專利範圍第1至4項中任一項所述的方法，其中，在所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟前，還包括：對所述第一文字區域進行二值化處理。
根據申請專利範圍第5項所述的方法，其中，所述對所述第一文字區域進行二值化處理的步驟包括：分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；若是，則將所述像素點標記為第二背景區域像素點；若否，則將所述像素點標記為第二文字區域像素點。
根據申請專利範圍第6項所述的方法，其中，所述按照預設規則，從所述第一文字區域中提取出第二文字區域的步驟包括：確定所述第一文字區域中的多個連通區域；分別判斷所述多個連通區域是否滿足預設規則；若是，則提取出相對應的多個連通區域作為第二文字區域。
根據申請專利範圍第7項所述的方法，其中，所述確定所述第一文字區域中的多個連通區域的步驟包括：遍歷所述第二文字區域像素點；將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；將包含所述多邊形的面積最小的外接矩形確定為連通區域。
根據申請專利範圍第1、2、3或4項所述的方法，其中，所述對所述第二文字區域進行識別的步驟包括：採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。
一種圖像文字的識別裝置，包括：獲取模組，獲取待識別的圖像，所述圖像包括多個像素點；確定模組，根據所述多個像素點，確定所述圖像的第一文字區域；提取模組，按照預設規則，從所述第一文字區域中提取出第二文字區域；識別模組，對所述第二文字區域進行識別。
根據申請專利範圍第10項所述的裝置，其中，所述確定模組包括：直方圖計算子模組，針對所述多個像素點，計算所述圖像的直方圖，所述直方圖具有對應的多個特徵值；對比度歸一化處理子模組，根據所述多個特徵值，對所述直方圖進行對比度歸一化處理，獲得對比度歸一化處理結果；第一文字區域獲得子模組，對所述對比度歸一化處理結果進行二值化處理，獲得所述圖像的第一文字區域。
根據申請專利範圍第11項所述的裝置，其中，所述對比度歸一化處理子模組包括：特徵值調整單元，按比例調整所述多個特徵值，使調整後的多個特徵值的和為特定數值；特徵值變換單元，採用累積分佈函數對所述調整後的多個特徵值進行變換，獲得變換後的多個特徵值；特徵值映射單元，分別將所述變換後的多個特徵值映射到所述多個像素點，獲得所述多個像素點的映射像素值。
根據申請專利範圍第12項所述的裝置，其中，所述第一文字區域獲得子模組包括：第一預設閾值判斷單元，分別判斷所述圖像中的多個像素點的映射像素值是否大於第一預設閾值；第一背景區域像素點標記單元，在所述像素點的映射像素值大於第一預設閾值時，將所述像素點標記為第一背景區域像素點；第一文字區域像素點標記單元，在所述像素點的映射像素值不大於第一預設閾值時，將將所述像素點標記為第一文字區域像素點；第一文字區域提取單元，從所述圖像中提取出包含全部第一文字區域像素點的面積最小的外接矩形。
根據申請專利範圍第10至13項中任一所述的裝置，其中，還包括：二值化處理模組，對所述第一文字區域進行二值化處理。
根據申請專利範圍第14項所述的裝置，其中，所述二值化處理模組包括：第二預設閾值判斷子模組，分別判斷所述第一文字區域中的多個像素點的映射像素值是否大於第二預設閾值；第二背景區域像素點標記子模組，在所述像素點的映射像素值大於第二預設閾值時，將所述像素點標記為第二背景區域像素點；第二文字區域像素點標記子模組，在所述像素點的映射像素值不大於第二預設閾值時，將將所述像素點標記為第二文字區域像素點。
根據申請專利範圍第15項所述的裝置，其中，所述提取模組包括：連通區域確定子模組，確定所述第一文字區域中的多個連通區域；預設規則判斷子模組，分別判斷所述多個連通區域是否滿足預設規則；第二文字區域提取子模組，在所述多個連通區域滿足預設規則時，提取出相對應的多個連通區域作為第二文字區域。
根據申請專利範圍第16項所述的裝置，其中，所述連通區域確定子模組包括：第二文字區域像素點遍歷單元，遍歷所述第二文字區域像素點；第二文字區域像素點連接單元，將當前第二文字區域像素點與相鄰的第二文字區域像素點相連，獲得以第二文字區域像素點為頂點的多邊形；連通區域確定單元，將包含所述多邊形的面積最小的外接矩形確定為連通區域。
根據申請專利範圍第10、11、12或13項所述的裝置，其中，所述識別模組包括：識別子模組，採用卷積神經網路CNN漢字識別模型對所述第二文字區域進行識別。