TW202038183A

TW202038183A - 文本識別方法及裝置、電子設備、儲存介質

Info

Publication number: TW202038183A
Application number: TW109102097A
Authority: TW
Inventors: 劉學博
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-04-03
Filing date: 2020-01-21
Publication date: 2020-10-16
Also published as: CN111783756A; CN111783756B; SG11202010525PA; JP2021520561A; TWI771645B; US20210042567A1; JP7066007B2; WO2020199704A1

Abstract

本公開涉及一種文本識別方法及裝置、電子設備和儲存介質，所述方法包括：對文本影像進行特徵提取，得到所述文本影像的特徵資訊；根據所述特徵資訊，獲取所述文本影像的文本識別結果；其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。

Description

文本識別方法及裝置、電子設備、儲存介質

本公開涉及影像處理技術，尤其涉及文本識別。

在對影像中的文本進行識別過程中，往往存在待識別影像中文本分佈不均勻的情況。例如，沿影像的水平方向分佈有多個字符，沿豎直方向分佈有單個字符，導致文本分佈不均勻。通常的文本識別方法無法很好地處理這種類型的影像。

本公開提出了一種文本識別技術方案。

根據本公開的一方面，提供了一種文本識別方法，包括：對文本影像進行特徵提取，得到所述文本影像的特徵資訊；根據所述特徵資訊，獲取所述文本影像的文本識別結果；其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。

在一種可能的實現方式中，所述對文本影像進行特徵提取，得到所述文本影像的特徵資訊，包括：透過至少一個第一卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本關聯特徵，其中，所述第一卷積層的卷積核尺寸為P×Q，P、Q為整數，且Q>P≥1。

在一種可能的實現方式中，所述特徵資訊還包括文本結構特徵；所述對文本影像進行特徵提取，得到所述文本影像的特徵資訊，包括：透過至少一個第二卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本結構特徵，其中，所述第二卷積層的卷積核尺寸為N×N，N為大於1的整數。

在一種可能的實現方式中，所述根據所述特徵資訊，獲取所述文本影像的文本識別結果，包括：對所述文本關聯特徵和所述特徵資訊包括的文本結構特徵進行融合處理，得到融合特徵；根據所述融合特徵，獲取所述文本影像的文本識別結果。

在一種可能的實現方式中，所述方法透過神經網路實現，所述神經網路中的編碼網路包括多個網路塊，每個網路塊包括卷積核尺寸為P×Q的第一卷積層和卷積核尺寸為N×N的第二卷積層，其中，所述第一卷積層和所述第二卷積層的輸入端分別與所述網路塊的輸入端連接。

在一種可能的實現方式中，所述對所述文本關聯特徵和所述文本結構特徵進行融合處理，得到融合特徵，包括：對所述多個網路塊中第一網路塊的第一卷積層輸出的文本關聯特徵和所述第一網路塊的第二卷積層輸出的文本結構特徵進行融合，得到所述第一網路塊的融合特徵。

所述根據所述融合特徵，獲取所述文本影像的文本識別結果，包括：對所述第一網路塊的融合特徵和所述第一網路塊的輸入資訊進行殘差處理，得到所述第一網路塊的輸出資訊；基於所述第一網路塊的輸出資訊，得到所述文本識別結果。

在一種可能的實現方式中，所述神經網路中的編碼網路包括下採樣網路以及與所述下採樣網路的輸出端連接的多級特徵提取網路，其中，每級特徵提取網路包括至少一個所述網路塊以及與所述至少一個網路塊的輸出端連接的下採樣模組。

在一種可能的實現方式中，所述神經網路為卷積神經網路。

在一種可能的實現方式中，所述對文本影像進行特徵提取，得到所述文本影像的特徵資訊，包括：對所述文本影像進行下採樣處理，得到下採樣結果；對所述下採樣結果進行特徵提取，得到所述文本影像的特徵資訊。

根據本公開的另一方面，提供了一種文本識別裝置，包括：特徵提取模組，用於對文本影像進行特徵提取，得到所述文本影像的特徵資訊；結果獲取模組，用於根據所述特徵資訊，獲取所述文本影像的文本識別結果；其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。

根據本公開的另一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存介質；其中，所述處理器被配置為調用所述儲存介質儲存的指令，以執行上述文本識別方法。

根據本公開的另一方面，提供了一種機器可讀儲存介質，其上儲存有機器可執行指令，所述機器可執行指令被處理器執行時實現上述文本識別方法。

根據本公開實施例的文本識別方法，能夠提取表示影像中字符之間的關聯性的文本關聯特徵，根據包括文本關聯特徵的特徵資訊獲取影像的文本識別結果，從而提高文本識別的準確性。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本公開。根據下面參考附圖對示例性實施例的詳細說明，本公開的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。除非特別指出，不必按比例繪製附圖。

在這裡專用的詞「示例性」意為「用作例子、實施例或說明性」。「示例性實施例」不必解釋為優於或好於其它實施例。

文本中術語「和/或」，僅僅用於描述關聯對象的關聯關係，表示可以存在多種關係。例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，文本中術語「至少一種」表示多種中的任意一種或多種中的至少兩種的任意組合。例如，A、B、C中的至少一種，可以表示從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本公開，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本公開同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本公開的主旨。

圖1繪示根據本公開實施例的文本識別方法的流程圖。該文本識別方法可以由終端設備或其它設備執行，其中，終端設備可以為使用者設備（User Equipment，UE）、移動設備、使用者終端、終端、蜂巢式電話、無繩電話、個人數位處理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等。

如圖1所示，所述方法包括：

步驟S11，對文本影像進行特徵提取，得到所述文本影像的特徵資訊；

步驟S12，根據所述特徵資訊，獲取所述文本影像的文本識別結果；

其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。

根據本公開實施例的文本識別方法，能夠提取包括文本關聯特徵的特徵資訊，其中，該文本關聯特徵表示影像中文本字符之間的關聯性，並根據該特徵資訊獲取影像的文本識別結果，從而提高文本識別的準確性。

舉例來說，文本影像可以是由影像擷取裝置（例如攝像頭）擷取的、包括字符的影像，例如在線身份驗證的場景下拍攝的、包括字符的證件影像。文本影像也可以是從網際網路下載、使用者上傳或以其他方式獲取的、包括字符的影像。本公開對文本影像的來源及類型不作限制。

另外，在本文中提到的「字符」可以包括任意文本字符，例如文字、字母、數字、符號等，在本公開中不對「字符」的類型進行限制。

在一些實施例中，在步驟S11中對文本影像進行特徵提取，得到文本影像的特徵資訊，該特徵資訊可包括文本關聯特徵，用於表示文本影像中的文本字符之間的關聯性，例如，各個字符的分佈次序、某幾個字符同時出現的概率等。

在一些實施例中，步驟S11包括：透過至少一個第一卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本關聯特徵，其中，所述第一卷積層的卷積核尺寸為P×Q，P、Q為整數，且Q>P≥1。

舉例來說，文本影像中可包括至少兩個字符，在不同方向上字符可能分佈不均勻，例如沿水平方向分佈有多個字符，沿豎直方向分佈有單個字符。在該情況下，進行特徵提取的卷積層可採用在不同方向上尺寸不對稱的卷積核，以更好地提取字符較多的方向上的文本關聯特徵。

在一些實施例中，透過卷積核尺寸為P×Q的至少一個第一卷積層對文本影像進行特徵提取處理，以便適應字符分佈不均勻的影像。在文本影像中水平方向的字符數量大於豎直方向的字符數量時，可以設定Q>P≥1，以便更好地提取水平方向（橫向）的語義資訊（文本關聯特徵）。在一些實施例中，Q與P之間的差別大於某一閾值。例如，文本影像中的字符為橫向排列（例如，單列）的多個文字時，第一卷積層可以採用1×5、1×7、1×9等尺寸的卷積核。

在一些實施例中，在文本影像中水平方向的字符數量小於豎直方向的字符數量時，可以設定P>Q≥1，以便更好地提取豎直方向（縱向）的語義資訊（文本關聯特徵）。例如，文本影像中的字符為縱向排列（例如，單排）的多個文字時，第一卷積層可以採用5×1、7×1、9×1等尺寸的卷積核。本公開對第一卷積層的層數以及卷積核的具體尺寸不作限制。

透過這種方式，能夠更好地提取文本影像中的字符較多的方向上的文本關聯特徵，從而提高文本識別的準確性。

在一些實施例中，所述特徵資訊還包括文本結構特徵；步驟S11包括：透過至少一個第二卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本結構特徵，其中，所述第二卷積層的卷積核尺寸為N×N，N為大於1的整數。

舉例來說，文本影像的特徵資訊還包括文本結構特徵，用於表示文本的空間結構資訊，例如字符的結構、形狀、筆劃粗細、字體類型或字體角度等資訊。在該情況下，進行特徵提取的卷積層可採用在不同方向上尺寸對稱的卷積核，以更好地提取文本影像中的各個字符的空間結構資訊，得到文本影像的文本結構特徵。

在一些實施例中，透過卷積核尺寸為N×N的至少一個第二卷積層對文本影像進行特徵提取處理，得到文本影像的文本結構特徵，N為大於1的整數。其中，N例如可取值為2、3、5等，也即第二卷積層可採用2×2、3×3、5×5等尺寸的卷積核。本公開對第二卷積層的層數以及卷積核的具體尺寸不作限制。透過這種方式，能夠提取文本影像中的字符的文本結構特徵，從而提高文本識別的準確性。

在一些實施例中，所述對文本影像進行特徵提取，得到所述文本影像的特徵資訊，包括：

對所述文本影像進行下採樣（subsampled）處理，得到下採樣結果；

對所述下採樣結果進行特徵提取，得到所述文本影像的特徵資訊。

舉例來說，在對文本影像特徵提取之前，首先透過下採樣網路對文本影像進行下採樣處理。該下採樣網路包括至少一個卷積層，該卷積層的卷積核尺寸例如為3×3。將下採樣結果分別輸入至少一個第一卷積層和至少一個第二卷積層進行特徵提取，得到文本影像的文本關聯特徵和文本結構特徵。透過下採樣處理，可進一步降低特徵提取的計算量，提高網路的運行速度；同時避免資料分佈不均衡對特徵提取產生的影響。

在一些實施例中，根據在步驟S11中得到的特徵資訊，可在步驟S12中獲取所述文本影像的文本識別結果。

在一些實施例中，文本識別結果是對特徵資訊進行分類處理之後的結果。文本識別結果例如為針對文本影像中各個字符的具有最大預測概率的預測結果字符。例如，將文本影像中位置1、2、3、4處的字符預測為「很多文字」。文本識別結果還例如為文本影像中各個字符的預測概率。例如，當文本影像中位置1、2、3、4處為「很多文字」四個漢字時，其對應的文本識別結果包括：將位置1的字符預測為「根」的概率為85%，預測為「很」的概率為98%；將位置2的字符預測為「夕」的概率為60%，預測為「多」的概率為90%；將位置3的字符預測為「紋」的概率為65%，預測為「文」的概率為94%；將位置4的字符預測為「寫」的概率為70%，預測為「字」的預測概率為90%。本公開對文本識別結果的表示形式不作限制。

在一些實施例中，可僅根據文本關聯特徵來獲取文本識別結果，也可根據文本關聯特徵和文本結構特徵來獲取文本識別結果。本公開對此不作限制。

在一些實施例中，步驟S12包括：

對所述文本關聯特徵和所述特徵資訊包括的文本結構特徵進行融合處理，得到融合特徵；

根據所述融合特徵，獲取所述文本影像的文本識別結果。

在本公開實施例中，可以透過具有不同卷積核尺寸的不同卷積層分別對文本影像進行卷積處理以獲得文本影像的文本關聯特徵和文本結構特徵。然後，對得到的文本關聯特徵和文本結構特徵進行融合，得到融合特徵。該「融合」處理例如可以為將該不同卷積層輸出的結果逐像素進行相加的操作。進而，根據融合特徵獲取文本影像的文本識別結果。獲取的融合特徵能夠更全面地指示文本資訊，從而提高文本識別的準確性。

在一些實施例中，所述文本識別方法透過神經網路實現，所述神經網路中的編碼網路包括多個網路塊，每個網路塊包括卷積核尺寸為P×Q的第一卷積層和卷積核尺寸為N×N第二卷積層，其中，所述第一卷積層和所述第二卷積層的輸入端分別與所述網路塊的輸入端連接。

在一些實施例中，所述神經網路例如為卷積神經網路，本公開對神經網路的具體類型不作限制。

舉例來說，該神經網路可包括編碼網路，編碼網路包括多個網路塊，每個網路塊包括卷積核尺寸為P×Q的第一卷積層和卷積核尺寸為N×N第二卷積層，分別用於提取文本影像的文本關聯特徵和文本結構特徵。其中，所述第一卷積層和所述第二卷積層的輸入端分別與所述網路塊的輸入端連接，以使網路塊的輸入資訊能夠分別被輸入第一卷積層和第二卷積層進行特徵提取。

在一些實施例中，在第一卷積層和第二卷積層之前，可以分別設置有卷積核尺寸例如為1×1的第三卷積層，對網路塊的輸入資訊進行降維處理；將降維後的輸入資訊分別輸入第一卷積層和第二卷積層進行特徵提取，從而有效減少特徵提取的計算量。

在一些實施例中，所述對所述文本關聯特徵和所述文本結構特徵進行融合處理，得到融合特徵的步驟，包括：對所述網路塊的第一卷積層輸出的文本關聯特徵和所述網路塊的第二卷積層輸出的文本結構特徵進行融合，得到所述網路塊的融合特徵。

所述根據所述融合特徵，獲取所述文本影像的文本識別結果的步驟，包括：對所述網路塊的融合特徵和所述網路塊的輸入資訊進行殘差處理，得到所述網路塊的輸出資訊；基於所述網路塊的輸出資訊，得到所述文本識別結果。

舉例來說，對於任意一個網路塊，可將網路塊的第一卷積層輸出的文本關聯特徵和網路塊的第二卷積層輸出的文本結構特徵進行融合，得到所述網路塊的融合特徵，獲取的融合特徵能夠更全面地指示文本資訊。

在一些實施例中，對網路塊的融合特徵和網路塊的輸入資訊進行殘差處理，得到網路塊的輸出資訊；進而根據網路塊的輸出資訊得到文本識別結果。這裡的「殘差處理」利用了與ResNet (Residual Neural Network) 中的殘差學習類似的技術。透過使用殘差連接，每個網路塊只需要學習輸出的融合特徵和輸入資訊之間的差值（網路塊的輸出資訊），而不需要學習全部特徵，使學習更容易收斂，從而減小網路塊的計算量，並使得網路塊更易於訓練。

圖2繪示根據本公開實施例的網路塊的示意圖。如圖2所示，該網路塊包括卷積核尺寸為1×1的第三卷積層21、卷積核尺寸為1×7的第一卷積層22以及卷積核尺寸為3×3的第二卷積層23。網路塊的輸入資訊24分別輸入兩個第三卷積層21中進行降維處理，從而減少特徵提取的計算量。將降維後的輸入資訊分別輸入第一卷積層22和第二卷積層23進行特徵提取，得到網路塊的文本關聯特徵和文本結構特徵。

在一些實施例中，對網路塊的第一卷積層輸出的文本關聯特徵和網路塊的第二卷積層輸出的文本結構特徵進行融合，得到所述網路塊的融合特徵，從而更全面地指示文本資訊。對網路塊的融合特徵與網路塊的輸入資訊行殘差處理，得到網路塊的輸出資訊25。根據網路塊的輸出資訊，可獲取文本影像的文本識別結果。

在一些實施例中，所述神經網路中的編碼網路包括下採樣網路以及與所述下採樣網路的輸出端連接的多級特徵提取網路，其中，每級特徵提取網路包括至少一個所述網路塊以及與所述至少一個網路塊的輸出端連接的下採樣模組。

舉例來說，可透過多級特徵提取網路對文本影像進行特徵提取。在該情況下，神經網路中的編碼網路包括下採樣網路以及與所述下採樣網路的輸出端連接的多級特徵提取網路。將文本影像輸入下採樣網路（包括至少一個卷積層）進行下採樣處理，輸出下採樣結果；將下採樣結果輸入多級特徵提取網路進行特徵提取，可得到文本影像的特徵資訊。

在一些實施例中，將文本影像的下採樣結果輸入到第一級特徵提取網路中進行特徵提取，輸出第一級特徵提取網路的輸出資訊；再將第一級特徵提取網路的輸出資訊輸入第二級特徵提取網路中，輸出第二級特徵提取網路的輸出資訊；以此類推，可將最後一級特徵提取網路的輸出資訊作為編碼網路最終的輸出資訊。

其中，每級特徵提取網路包括至少一個所述網路塊以及與所述至少一個網路塊的輸出端連接的下採樣模組。該下採樣模組包括至少一個卷積層，可在每個網路塊的輸出端連接下採樣模組，也可在每級特徵提取網路的最後一個網路塊的輸出端連接下採樣模組。這樣，每級特徵提取網路的輸出資訊都會經過下採樣再被輸入到下一級特徵提取網路，從而降低特徵尺寸，減小計算量。

圖3繪示根據本公開實施例的編碼網路的示意圖。如圖3所示，編碼網路包括下採樣網路31以及與下採樣網路的輸出端連接的五級特徵提取網路32、33、34、35、36，其中第一級特徵提取網路32至第五級特徵提取網路36分別包括1、3、3、3、2個網路塊，每級特徵提取網路的最後一個網路塊的輸出端連接有下採樣模組。

在一些實施例中，文本影像輸入下採樣網路31進行下採樣處理，輸出下採樣結果；下採樣結果輸入到第一級特徵提取網路32（網路塊+下採樣模組）中進行特徵提取，輸出第一級特徵提取網路32的輸出資訊；第一級特徵提取網路32的輸出資訊輸入到第二級特徵提取網路33中，依次經由三個網路塊以及下採樣模組處理，輸出第二級特徵提取網路33的輸出資訊；以此類推，將第五級特徵提取網路36的輸出資訊作為編碼網路最終的輸出資訊。

透過下採樣網路及多級特徵提取網路進行特徵提取，可形成瓶頸（bottleneck）結構，能夠提高文字識別的效果，顯著減小計算量，在網路訓練過程中更容易收斂，降低了訓練難度。

在一些可能的實現方式中，所述方法還包括：對所述文本影像進行預處理，得到預處理後的文本影像。

在本公開的實現方式中，所述文本影像可以是包括多行或多列的文本影像，預處理操作可以是將包括了多行或多列的文本影像分割為單行或單列的文本影像，進而開始識別。

在一些可能的實現方式中，所述預處理操作可以是歸一化處理、幾何變換處理和影像增強處理等操作。

在一些實施例中，可根據預設的訓練集對神經網路中的編碼網路進行訓練。在訓練過程中，使用聯結時序分類損失對編碼網路進行監督學習，對圖片每個部分的預測結果進行分類，分類結果與真實結果越接近損失越小。在滿足訓練條件時，可得到訓練後的編碼網路。本公開對編碼網路的損失函數的選取及具體訓練方式不作限制。

根據本公開實施例的文本識別方法，能夠透過卷積核尺寸不對稱的卷積層提取表示影像中字符之間的關聯性的文本關聯特徵，提高了特徵提取的效果並減小了不必要的計算量；能夠分別提取文本關聯特徵以及字符的文本結構特徵，實現了深度神經網路的並行化，顯著減少運算時間。

根據本公開實施例的文本識別方法，採用了利用殘差連接以及瓶頸結構的多級特徵提取網路的網路結構，不需要遞迴神經網路就可以很好地捕捉影像中的文本資訊，能夠得到很好的識別結果，大大減少了計算量；並且該網路結構易於訓練，能夠快速完成訓練過程。

根據本公開實施例的文本識別方法可應用於身份認證，內容審核，圖片檢索，圖片翻譯等使用場景中，實現文本識別。例如，在身份驗證的使用場景中，透過該方法提取身份證、銀行卡、駕駛證等各種類型的證件影像中的文字內容，以便完成身份驗證；在內容審核的使用場景中，透過該方法提取對社交網路中使用者上傳的影像中的文字內容，識別影像中是否包含非法資訊，例如暴力相關的文本等。

可以理解，本公開提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本公開不再贅述。本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

此外，本公開還提供了文本識別裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本公開提供的任一種文本識別方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖4繪示根據本公開實施例的文本識別裝置的方塊圖，如圖4所示，所述文本識別裝置包括：

特徵提取模組41，用於對文本影像進行特徵提取，得到所述文本影像的特徵資訊；結果獲取模組42，用於根據所述特徵資訊，獲取所述文本影像的文本識別結果；其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。

在一些實施例中，所述特徵提取模組包括：第一提取子模組，用於透過至少一個第一卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本關聯特徵，其中，所述第一卷積層的卷積核尺寸為P×Q，P、Q為整數，且Q>P≥1。

在一些實施例中，所述特徵資訊還包括文本結構特徵；所述特徵提取模組包括：第二提取子模組，用於透過至少一個第二卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的文本結構特徵，其中，所述第二卷積層的卷積核尺寸為N×N，N為大於1的整數。

在一些實施例中，所述結果獲取模組包括：融合子模組，用於對所述文本關聯特徵和所述特徵資訊包括的文本結構特徵進行融合處理，得到融合特徵；結果獲取子模組，用於根據所述融合特徵，獲取所述文本影像的文本識別結果。

在一些實施例中，所述裝置適用於神經網路，所述神經網路中的編碼網路包括多個網路塊，每個網路塊包括卷積核尺寸為P×Q的第一卷積層和卷積核尺寸為N×N的第二卷積層，其中，所述第一卷積層和所述第二卷積層的輸入端分別與所述網路塊的輸入端連接。

在一些實施例中，所述裝置適用於神經網路，所述神經網路中的編碼網路包括多個網路塊，所述融合子模組用於：對所述多個網路塊中第一網路塊的第一卷積層輸出的文本關聯特徵和所述第一網路塊的第二卷積層輸出的文本結構特徵進行融合，得到所述第一網路塊的融合特徵。

所述結果獲取子模組用於：對所述第一網路塊的融合特徵和所述第一網路塊的輸入資訊進行殘差處理，得到所述第一網路塊的輸出資訊；基於所述第一網路塊的輸出資訊，得到所述文本識別結果。

在一些實施例中，所述神經網路為卷積神經網路。

在一些實施例中，所述特徵提取模組包括：下採樣子模組，用於對所述文本影像進行下採樣處理，得到下採樣結果；第三提取子模組，用於對所述下採樣結果進行特徵提取，得到所述文本影像的特徵資訊。

在一些實施例中，本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本公開實施例還提出一種機器可讀儲存介質，其上儲存有機器可執行指令，所述機器可執行指令被處理器執行時實現上述方法。機器可讀儲存介質可以是非揮發性機器可讀儲存介質。

本公開實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的儲存介質；其中，所述處理器被配置為調用所述儲存介質儲存的指令，以執行上述方法。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖5繪示根據本公開實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖5，電子設備800可以包括以下一個或多個組件：處理組件802，儲存介質804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）介面812，感測器組件814，以及通訊組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通訊，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

儲存介質804被配置為儲存各種類型的資料以支持在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，影片等。儲存介質804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式唯讀記憶體（EPROM），可程式唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括提供所述電子設備800和使用者之間的輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸摸面板（TP）。如果螢幕包括觸摸面板，螢幕可以被實現為觸摸屏，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式，如拍攝模式或影片模式時，前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當電子設備800處於操作模式，如呼叫模式、記錄模式和語音識別模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在儲存裝置804或經由通訊組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/ O介面812為處理組件802和外圍介面模組之間提供介面，上述外圍介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，使用者與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD影像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通訊組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件816經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通訊組件816還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於無線射頻識別（RFID）技術，紅外數據協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用特定積體電路（ASIC）、數位訊號處理器（DSP）、數位訊號處理設備（DSPD）、可程式邏輯裝置（PLD）、現場可程式邏輯陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非揮發性機器可讀儲存介質，例如包括機器可執行指令的儲存介質804，上述機器可執行指令可由電子設備800的處理器820執行以完成上述方法。

圖6繪示根據本公開實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供為一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由儲存裝置1932所代表的儲存裝置資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。儲存裝置1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在儲存裝置1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非揮發性機器可讀儲存介質，例如包括電腦程式指令的儲存裝置1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：可攜電腦碟、硬碟、靜態隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可抹除可程式唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體（SRAM）、唯讀光碟（CD-ROM）、數位影音光碟（DVD）、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波（例如，透過光纖電纜的光脈衝）、或者透過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者透過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關電腦和/或邊緣伺服器。每個計算/處理設備中的網路配接卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的源代碼或目標代碼，所述程式設計語言包括面向對象的程式設計語言—諸如Smalltalk、C++等，以及常規的過程式程式設計語言—諸如「C」語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的軟體包執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以透過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到使用者電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供商來透過網際網路連接）。在一些實施例中，透過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式化邏輯電路、現場可程式邏輯陣列（FPGA）或可程式邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本公開的各個方面。

這裡參照根據本公開實施例的方法、裝置（系統）和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解，流程圖和/或方塊圖的每個方框以及流程圖和/或方塊圖中各方框的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式資料處理裝置的處理器，從而生產出一種機器，使得這些指令在透過電腦或其它可程式資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令加載到電腦、其它可程式資料處理裝置、或其它設備上，使得在電腦、其它可程式資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬件的系統來實現，或者可以用專用硬件與電腦指令的組合來實現。

以上已經描述了本公開的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。文本中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進，或者使本技術領域的其它普通技術人員能理解文本揭露的各實施例。

21:第三卷積層 22:第一卷積層 23:第二卷積層 24:輸入資訊 25:輸出資訊 31,32,33,34,35,36:特徵提取網路 41:特徵提取模組 42:結果獲取模組 802:處理組件 800,1900:電子設備 804:儲存介質 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通訊組件 820:處理器 1922:處理組件 1926:電源組件 1932:儲存裝置 1950:網路介面 1958:輸入輸出介面 S11~S12:步驟

圖1繪示根據本公開實施例的文本識別方法的流程圖。圖2繪示根據本公開實施例的網路塊的示意圖。圖3繪示根據本公開實施例的編碼網路的示意圖。圖4繪示根據本公開實施例的文本識別裝置的方塊圖。圖5繪示根據本公開實施例的一種電子設備的方塊圖。圖6繪示根據本公開實施例的一種電子設備的方塊圖。

S11~S12:步驟

Claims

一種文本識別方法，包括：對文本影像進行特徵提取，得到所述文本影像的特徵資訊；根據所述特徵資訊，獲取所述文本影像的文本識別結果；以及其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。
如請求項1所述的方法，其中對所述文本影像進行特徵提取，得到所述文本影像的所述特徵資訊的步驟，包括：透過至少一個第一卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的所述文本關聯特徵，其中，所述第一卷積層的卷積核尺寸為P×Q，P、Q為整數，且Q>P≥1。
如請求項1或2所述的方法，其中所述特徵資訊還包括文本結構特徵；以及其中對所述文本影像進行特徵提取，得到所述文本影像的所述特徵資訊，包括：透過至少一個第二卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的所述文本結構特徵，其中，所述第二卷積層的卷積核尺寸為N×N，N為大於1的整數。
如請求項3所述的方法，其中根據所述特徵資訊，獲取所述文本影像的所述文本識別結果，包括：對所述文本關聯特徵和所述特徵資訊包括的所述文本結構特徵進行融合處理，得到融合特徵；以及根據所述融合特徵，獲取所述文本影像的所述文本識別結果。
如請求項1所述的方法，其中所述方法透過神經網路實現，所述神經網路中的編碼網路包括多個網路塊，每個所述網路塊包括卷積核尺寸為P×Q的第一卷積層和卷積核尺寸為N×N的第二卷積層，其中，所述第一卷積層和所述第二卷積層的輸入端分別與所述網路塊的輸入端連接。
如請求項4所述的方法，其中所述方法透過神經網路實現，所述神經網路中的編碼網路包括多個網路塊，其中對所述文本關聯特徵和所述文本結構特徵進行融合處理，得到所述融合特徵，包括：對所述多個網路塊中第一網路塊的第一卷積層輸出的所述文本關聯特徵和所述第一網路塊的第二卷積層輸出的所述文本結構特徵進行融合，得到所述第一網路塊的所述融合特徵；其中根據所述融合特徵，獲取所述文本影像的所述文本識別結果，包括：對所述第一網路塊的所述融合特徵和所述第一網路塊的輸入資訊進行殘差處理，得到所述第一網路塊的輸出資訊；以及基於所述第一網路塊的所述輸出資訊，得到所述文本識別結果。
如請求項5或6所述的方法，其中所述神經網路中的編碼網路包括下採樣網路以及與所述下採樣網路的輸出端連接的多級特徵提取網路，其中，每級所述特徵提取網路包括至少一個所述網路塊以及與所述至少一個所述網路塊的輸出端連接的下採樣模組。
如請求項5或6所述的方法，其特徵在於，所述神經網路為卷積神經網路。
如請求項1所述的方法，其中對所述文本影像進行特徵提取，得到所述文本影像的所述特徵資訊，包括：對所述文本影像進行下採樣處理，得到下採樣結果；以及對所述下採樣結果進行特徵提取，得到所述文本影像的所述特徵資訊。
一種文本識別裝置，包括：特徵提取模組，用於對文本影像進行特徵提取，得到所述文本影像的特徵資訊；結果獲取模組，用於根據所述特徵資訊，獲取所述文本影像的文本識別結果；以及其中，所述文本影像中包括至少兩個字符，所述特徵資訊包括文本關聯特徵，所述文本關聯特徵用於表示所述文本影像中的字符之間的關聯性。
如請求項10所述的裝置，其中所述特徵提取模組包括：第一提取子模組，用於透過至少一個第一卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的所述文本關聯特徵，其中，所述第一卷積層的卷積核尺寸為P×Q，P、Q為整數，且Q>P≥1。
如請求項10或11所述的裝置，其中所述特徵資訊還包括文本結構特徵；以及所述特徵提取模組包括：第二提取子模組，用於透過至少一個第二卷積層對所述文本影像進行特徵提取處理，得到所述文本影像的所述文本結構特徵，其中，所述第二卷積層的卷積核尺寸為N×N，N為大於1的整數。
如請求項10或11所述的裝置，其中所述結果獲取模組包括：融合子模組，用於對所述文本關聯特徵和所述特徵資訊包括的文本結構特徵進行融合處理，得到融合特徵；以及結果獲取子模組，用於根據所述融合特徵，獲取所述文本影像的所述文本識別結果。
一種電子設備，包括：處理器；以及用於儲存處理器可執行指令的儲存介質；其中，所述處理器被配置為調用所述儲存介質儲存的指令，以執行請求項1至9中任意一項所述的方法。
一種機器可讀儲存介質，所述機器可讀儲存介質上儲存有機器可執行指令，其中所述機器可執行指令被處理器執行時實現請求項1至9中任意一項所述的方法。