TW202036464A

TW202036464A - 文本識別方法及裝置、電子設備和儲存介質

Info

Publication number: TW202036464A
Application number: TW109104030A
Authority: TW
Inventors: 劉學博
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2019-03-29
Filing date: 2020-02-10
Publication date: 2020-10-01
Also published as: CN111753822A; SG11202010916SA; JP2021520002A; CN111753822B; WO2020199730A1; US12014275B2; US20210042474A1; JP7153088B2

Abstract

本公開涉及一種文本識別方法及裝置、電子設備和儲存介質。所述方法包括：對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應；透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。

Description

文本識別方法及裝置、電子設備和儲存介質

本公開涉及電腦視覺技術，尤其涉及一種文本識別方法及裝置、電子設備和儲存介質。

自然場景下的文本識別是影像理解和影像恢復領域的重要問題。精確的文本識別能夠用於例如圖片理解、自動翻譯、盲人引導、機器人導航等。目前，基於編解碼框架的文本識別系統通常使用循環神經網路作為編碼器和解碼器。

根據本公開的一方面，提供了一種文本識別方法，其包括：對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應；透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。

根據本公開的實施例的文本識別方法，可提高文本識別的精確度。

在一些實施例中，對所述多個語義向量依次進行識別處理以得到所述文本序列的識別結果包括：透過所述卷積神經網路對目標語義向量的先驗資訊進行處理，獲得所述目標語義向量的權值參數，其中，所述目標語義向量為所述多個語義向量之一；根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果。

透過這種方式，可使用根據先驗資訊獲得的權值參數對目標語義向量進行加權，可在對目標語義向量的識別過程中參考先驗資訊，從而提高對目標語義向量的識別精度。

在一些實施例中，所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果和/或起始符。

在一些實施例中，對所述先驗資訊進行處理以獲得所述目標語義向量的權值參數包括：透過所述卷積神經網路中的至少一個第一卷積層對所述目標語義向量進行編碼處理，獲得所述目標語義向量的第一向量；透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量；基於所述第一向量和所述第二向量，確定所述權值參數。

透過這種方式，可使權值參數中包含先驗資訊，為識別目標語義向量提供依據。

在一些實施例中，對所述先驗資訊進行編碼處理以獲得與所述先驗資訊對應的第二向量包括：響應於所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果，對所述前一語義向量對應的文本識別結果進行詞嵌入處理，獲得與所述先驗資訊對應的特徵向量；對所述特徵向量進行編碼處理，得到所述第二向量。

透過這種方式，可使用卷積神經網路，根據前一字符的識別結果對當前目標語義向量對應的字符進行識別，從而避免了不可控的長依賴問題，提高了識別的準確率。

在一些實施例中，對所述先驗資訊進行編碼處理以獲得與所述先驗資訊對應的第二向量包括：對所述先驗資訊中的起始符對應的初始向量進行編碼處理，得到所述第二向量。

在一些實施例中，確定與所述目標語義向量對應的文本識別結果包括：基於所述權值參數和所述目標語義向量，獲得與所述目標語義向量對應的注意力分佈向量；透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，確定與所述目標語義向量對應的文本識別結果。

在一些實施例中，對所述待檢測影像進行特徵提取處理以獲得多個語義向量包括：對所述待檢測影像進行特徵提取，獲得特徵資訊；對所述特徵資訊進行下採樣處理，得到所述多個語義向量。

根據本公開的另一方面，提供了一種文本識別裝置，其包括：提取模組，用於對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應；識別模組，用於透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。

根據本公開的另一方面，提供了一種電子設備，其包括：處理器；用於儲存所述處理器可執行的指令的儲存裝置，其中，所述處理器在執行所述儲存裝置中儲存的指令時，實現上述文本識別方法。

根據本公開的另一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程序指令，所述電腦程序指令被處理器執行時，使所述處理器實現上述文本識別方法。

根據下面參考附圖對示例性實施例的詳細說明，本公開的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。

在本公開使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本公開。在本公開中所使用的單數形式諸如「一種」、「所述」、「該」等也旨在包括複數形式，除非上下文清楚地表示其他含義。「A和/或B」可以表示下列三種情況：單獨存在A、同時存在A和B、單獨存在B。「包括A、B、C中的至少一個」可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

儘管本公開可能採用術語「第一」、「第二」、「第三」等來描述各種資訊，但這些資訊不應受這些術語限制。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本公開範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語「如果」可以被解釋成為「在……時」或「當……時」或「響應於」。

另外，為了更好的說明本公開，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本公開同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本公開的主旨。

圖1示出根據本公開實施例的文本識別方法的流程圖。如圖1所示，所述方法可以包括步驟S11和S12。

在步驟S11中，對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應。

在步驟S12中，透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。

在一些實施例中，所述文本識別方法可以由終端設備執行。終端設備可以為使用者設備（User Equipment，UE）、移動設備、使用者終端、終端、蜂巢式電話機、無繩電話機、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等。所述方法可以透過由終端設備中的處理器調用儲存裝置中儲存的電腦可讀指令的方式來實現。或者，可由終端設備獲取待檢測影像，並將待檢測影像發送至服務器，從而透過服務器執行所述方法。

在一些實施例中，步驟S11可包括：對所述待檢測影像進行特徵提取，獲得特徵資訊；對所述特徵資訊進行下採樣處理，得到所述多個語義向量。

在一些實施例中，所述特徵資訊可以包括但不限於特徵圖或特徵向量等。

在示例中，待檢測影像中可具有例如由多個文本字符組成的文本序列。所述文本序列的各文本字符之間可具有一定的語義連接關係，即，所述文本序列可具有某種語義。

在一些實施例中，可使用特徵提取網路來提取待檢測影像中的多個語義向量。該特徵提取網路可以是例如卷積神經網路等神經網路。對待檢測影像進行特徵提取處理，獲得多個語義向量，可以包括：將所述待檢測影像輸入特徵提取網路，獲得所述多個語義向量。

在示例中，特徵提取網路可透過編碼處理等來獲取待檢測影像的一個或多個特徵矩陣。該特徵矩陣的維度可為M×P。例如，P可為32，M與P之比可以對應於待檢測影像的寬高比。例如，假設待檢測影像的解析度為1024×768，則經過編碼處理可獲得一個或多個43×32的特徵圖。

在示例中，特徵提取網路可對該特徵矩陣進行下採樣處理，以獲得一個或多個特徵向量作為語義向量。例如，可對維度為M×P的特徵矩陣進行下採樣處理，獲得一個或多個維度為M×1的特徵向量作為一維語義向量。針對前述示例中經過編碼處理獲得的43×32的特徵圖，可透過下採樣處理獲得一個或多個43×1的特徵向量。

透過上述特徵提取處理，可以降低文本識別的複雜度，從而提高文本識別的效率。

在一些實施例中，可在使用特徵提取網路對待檢測影像進行特徵提取處理前，對所述特徵提取網路進行訓練。

在一些實施例中，可拍攝多種背景、多種解析度、多種字體、多種光照條件、多種大小尺度、多種傾斜方向和多重模糊程度的多個影像作為第一樣本影像，對特徵提取網路進行訓練。

在一些實施例中，可根據概率字典對第一樣本影像中的文本進行標注，獲得第一樣本影像的標注語義向量（以下也可稱為第一樣本影像的真實語義向量）。所述概率字典可以包括使用者定義的關於文本的概率分佈。例如，可使用包括多個元素的向量表示概率字典中的各文本的概率分佈資訊。可根據各文本的概率分佈資訊確定概率字典中的文本，或者，可確定文本在概率字典中的概率分佈資訊，從而確定與所述文本對應的語義向量。在示例中，可確定第一樣本影像中的文本在所述概率字典中的概率分佈資訊，從而確定第一樣本影像中的文本對應的語義向量，並根據所述語義向量對第一樣本影像進行標注，獲得標注資訊。這樣，所述標注資訊可表示第一樣本影像的真實語義向量。

在一些實施例中，可將第一樣本影像輸入所述特徵提取網路中進行處理，獲得與第一樣本影像對應的樣本語義向量。所述樣本語義向量為特徵提取網路針對該第一樣本影像的輸出結果，該輸出結果可能存在誤差。

在一些實施例中，可根據針對第一樣本影像的標注資訊和輸出結果來確定特徵提取網路的網路損失。在示例中，可將第一樣本影像的真實語義向量（即，標注資訊）和樣本語義向量（即，輸出結果）進行對比，將二者之間的差異確定為特徵提取網路的損失函數。又例如，可根據標注資訊和輸出結果確定特徵提取網路的交叉熵損失函數。在示例中，可使用正則化的損失函數作為特徵提取網路的網路損失，從而可避免在迭代訓練過程中，特徵提取網路的網路參數出現過擬合的情況。

在一些實施例中，可根據網路損失來調整特徵提取網路的網路參數。在示例中，可調整網路參數以使網路損失最小化，使得調整後的特徵提取網路具有較高的擬合優度，同時避免過擬合。在示例中，可使用梯度下降法進行網路損失的反向傳播，以調整特徵提取網路的網路參數。例如，對於各神經元之間樹型連接的特徵提取網路，可使用隨機梯度下降法等調整網路參數，以降低調整網路參數的過程的複雜程度，提高調整網路參數的效率，並可避免調整後的網路參數出現過擬合的情況。

在一些實施例中，可對特徵提取網路進行迭代訓練，並將滿足訓練條件的特徵提取網路用於獲取語義向量的處理中。訓練條件可包括調整次數、網路損失的大小或網路損失斂散性等。可對特徵提取網路輸入預定數量的第一樣本影像，即，將特徵提取網路的網路參數調整預定次數，當調整次數達到所述預定次數時，即為滿足訓練條件。或者，可不限制調整次數，而在網路損失降低到一定程度或收斂於一定閾值內時，停止調整，獲得調整後的特徵提取網路，並可將調整後的特徵提取網路用於獲取待檢測影像的語義向量的處理中。透過標注資訊和輸出結果之差來訓練特徵提取網路，可降低損失函數的複雜程度，提高訓練速度。

在一些實施例中，在步驟S12中，可使用圖形處理單元（Graphics Processing Unit，GPU）對卷積神經網路進行加速，提高卷積神經網路的處理效率。

在一些實施例中，在步驟S12中，可透過卷積神經網路對目標語義向量的先驗資訊進行處理，獲得所述目標語義向量的權值參數，其中，所述目標語義向量為所述多個語義向量之一；並且可以根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果。

在一些實施例中，所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果和/或起始符。如果目標語義向量是多個語義向量中的第一個，則所述先驗資訊可以是起始符；如果目標語義向量不是多個語義向量中的第一個，則所述先驗資訊可以是目標語義向量的前一語義向量對應的文本識別結果。

在一些實施例中，可以透過所述卷積神經網路中的至少一個第一卷積層對所述目標語義向量進行編碼處理，獲得所述目標語義向量的第一向量。可以透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量。然後，可以基於所述第一向量和所述第二向量，確定所述目標語義向量的權值參數。

在一些實施例中，所述第一向量可具有目標語義向量的語義資訊，且第一向量具有目標語義向量所對應的字符的語義連接關係。

在一些實施例中，如果目標語義向量是多個語義向量中的第一個，即，目標語義向量為與文本序列中的第一個字符對應的語義向量，則可以透過對所述目標語義向量的先驗資訊中的起始符對應的初始向量進行編碼處理，得到與該先驗資訊對應的第二向量。在示例中，與起始符對應的初始向量可以是元素為預設值（例如，元素全為1）的向量。在示例中，文本序列中的字符為A、B、C和D，可對起始符S對應的初始向量進行編碼處理，得到第二向量。

在一些實施例中，如果目標語義向量不是多個語義向量中的第一個，則可以響應於所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果，對所述前一語義向量對應的文本識別結果進行詞嵌入處理，獲得與先驗資訊對應的特徵向量，並對所述特徵向量進行編碼處理，得到與該先驗資訊對應的第二向量。例如，若文本序列中的字符為A、B、C和D，目標語義向量為B、C或D對應的語義向量，則可對目標語義向量的前一語義向量的文本識別結果進行詞嵌入處理，獲得與先驗資訊對應的特徵向量，並對該特徵向量進行編碼處理，得到與該先驗資訊對應的第二向量。

在一些實施例中，如果目標語義向量不是多個語義向量中的第一個語義向量，則可對目標語義向量的前一個語義向量對應的文本識別結果進行詞嵌入處理，確定與該文本識別結果對應的特徵向量。在示例中，可透過Word2Vec或GloVe等演算法來對前一語義向量對應的文本識別結果進行詞嵌入處理，以獲得與先驗資訊對應的特徵向量。

在一些實施例中，在對目標語義向量的前一個語義向量對應的文本的識別過程中，可識別出待檢測影像的背景、拍攝角度、尺寸、光照條件和字體等資訊。即，所述前一個語義向量對應的文本識別結果是依據待檢測影像的背景、拍攝角度、尺寸、光照條件和字體等資訊的。因此，與所述前一個語義向量對應的文本識別結果對應的特徵向量可作為識別其後續字符的依據。此外，與所述前一個語義向量對應的文本識別結果對應的特徵向量具有所述前一個語義向量對應的文本識別結果的語義資訊，且具有所述前一個語義向量對應的文本識別結果的語義連接關係。

在一些實施例中，可根據所述第一向量和所述第二向量，確定所述權值參數，所述權值參數可以是權值矩陣。例如，可對第一向量和第二向量進行向量乘法，獲得所述權值矩陣。

在一些實施例中，可以基於所述權值參數和所述目標語義向量，獲得與所述目標語義向量對應的注意力分佈向量。可以透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，確定與所述目標語義向量對應的文本識別結果。

在一些實施例中，可透過殘差網路對權值參數和目標語義向量進行處理，獲得所述注意力分佈向量，或者，可以使用權值參數（權值矩陣）和目標語義向量進行矩陣乘法（即，對目標語義向量進行加權處理），獲得所述注意力分佈向量。這樣，注意力分佈向量可以具有待檢測影像的背景、拍攝角度、尺寸、光照條件和字體等資訊以及目標語義向量的語義資訊。

在一些實施例中，可根據注意力分佈向量確定關於概率字典的概率分佈資訊。例如，可透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，獲得關於概率字典的概率分佈資訊。然後，可以根據概率分佈資訊確定概率字典中的文本，即，確定與所述目標語義向量對應的文本識別結果。該文本識別結果可用於識別下一個字符的處理過程，依此類推，直到文本序列中的字符全部識別完成。在文本序列中的字符全部識別完成時，可向卷積神經網路輸入結束向量，所述結束向量的元素可以是預設的（例如，元素全為1）。在輸入結束向量時，待檢測影像中的文本序列的識別工作完成，並獲得所述文本序列的識別結果。

在一些實施例中，所述前一個語義向量對應的文本識別結果的語義資訊可被包含在與所述前一個語義向量對應的文本識別結果對應的特徵向量的權值參數（權值矩陣）中。該權值參數中的元素可具有待檢測影像的背景、拍攝角度、尺寸、光照條件和字體等資訊，可作為識別文本序列中的後續字符的依據。該權值參數包含的語義資訊也可作為識別後續字符的依據。例如，若目標語義向量為第二個語義向量，則目標語義向量的前一個語義向量為第一個語義向量，其對應的字符為文本序列中的第一個字符。對第一個字符的識別結果可作為識別目標語義向量對應的字符的依據，並且，對目標語義向量的識別結果可作為識別第三個語義向量（即，目標語義向量的下一個語義向量）所對應的字符的依據。

在示例中，對文本序列中第一個字符進行識別時，待識別影像中不存在已識別字符，因而利用作為先驗資訊的起始符識別第一個字符。舉例來說，文本序列中存在字符A、B、C和D時，在第一步，將起始符S作為先驗資訊，利用起始符S對應的初始向量識別出字符A，得到文本序列的第一個字符的識別結果為A。然後，利用已識別字符A識別字符B，得到第二個字符的識別結果B。依此類推，直至識別出全部字符A、B、C和D，得到文本序列的識別結果。

在一些實施例中，可在使用卷積神經網路確定文本識別結果之前，對所述卷積神經網路進行訓練。

在一些實施例中，可拍攝多種背景、多種解析度、多種字體、多種光照條件、多種大小尺度、多種傾斜方向和多重模糊程度的多個影像作為第二樣本影像，並使用多個第二樣本影像對卷積神經網路進行訓練。

在一些實施例中，可根據概率字典，獲得每個第二樣本影像中的字符的概率分佈資訊，並根據所述概率分佈資訊對該第二樣本影像進行標注，獲得該第二樣本影像中的每個字符的標注資訊，即，所述標注資訊為第二樣本影像中的相應字符的真實的概率分佈資訊。

在一些實施例中，可對任一第二樣本影像進行特徵提取處理，獲得與第二樣本影像中的多個字符分別對應的多個語義向量。可以向卷積神經網路的第一卷積層輸入第一個語義向量以及向第二卷積層輸入起始符，以獲得第一個語義向量的權值參數。進一步地，可使用該權值參數（權值矩陣）對第一個語義向量進行加權（即，進行矩陣乘法），獲得與第一個語義向量對應的樣本注意力分佈向量。

在一些實施例中，可透過卷積神經網路的反卷積層對樣本注意力分佈向量進行解碼處理，獲得卷積神經網路輸出的概率分佈資訊，即，卷積神經網路的輸出結果。進一步地，可根據標注資訊（真實的概率分佈資訊）和輸出結果（卷積神經網路輸出的概率分佈資訊）來確定卷積神經網路的網路損失。在示例中，可將第二樣本影像中的字符的標注資訊和卷積神經網路的輸出結果進行對比，將二者之間的差異確定為卷積神經網路的損失函數。又例如，可根據標注資訊和輸出結果確定卷積神經網路的交叉熵損失函數。在示例中，可使用正則化的損失函數作為卷積神經網路的網路損失，從而可避免在迭代訓練過程中，卷積神經網路的網路參數出現過擬合的情況。

在一些實施例中，可根據網路損失來調整卷積神經網路的網路參數。在示例中，可調整網路參數以使網路損失最小化，使得調整後的卷積神經網路具有較高的擬合優度，同時避免過擬合。在示例中，可使用梯度下降法進行網路損失的反向傳播，以調整卷積神經網路的網路參數。例如，對於各神經元之間樹型連接的卷積神經網路，可使用隨機梯度下降法等調整網路參數，以降低調整網路參數的過程的複雜程度，提高調整網路參數的效率，並可避免調整後的網路參數出現過擬合的情況。

在一些實施例中，可根據卷積神經網路輸出的概率分佈資訊以及概率字典，確定卷積神經網路識別出的字符，並對該字符進行詞嵌入處理，獲得與該字符對應的特徵向量。進一步地，可將該特徵向量輸入卷積神經網路的第二卷積層，並將第二樣本影像中的第二個語義向量輸入卷積神經網路的第一卷積層，以獲得第二個語義向量的權值參數。可以使用該權值參數對第二個語義向量進行加權，獲得與第二個語義向量對應的樣本注意力分佈向量。然後，可透過卷積神經網路的反卷積層對該樣本注意力分佈向量進行解碼，獲得概率分佈資訊。可以根據該概率分佈資訊與第二個字符的標注資訊確定網路損失，並使用網路損失再次調整卷積神經網路的網路參數。在示例中，可透過這種方式進行迭代調整。例如，可以根據卷積神經網路識別出的第二個字符對應的特徵向量與第三個語義向量，獲得第三個語義向量的權值參數，進而獲得與第三個語義向量對應的樣本注意力分佈向量；對其進行解碼處理後，可確定網路損失，並根據網路損失再次調整卷積神經網路。依此類推，還可根據第三個字符以及第四個語義向量調整卷積神經網路，根據第四個字符以及第五個語義向量調整卷積神經網路……直到該第二樣本影像中的字符全部識別完成。這樣，卷積神經網路的網路參數被調整了多次。

在一些實施例中，當卷積神經網路滿足訓練條件時，可將卷積神經網路用於識別待檢測影像中的文本序列的處理中。訓練條件可包括調整次數、網路損失的大小或網路損失斂散性等。可將卷積神經網路的網路參數調整預定次數，當調整次數達到所述預定次數時，即為滿足訓練條件。或者，可不限制調整次數，而在網路損失降低到一定程度或收斂於一定閾值內時，停止調整，獲得調整後的卷積神經網路。

根據本公開的實施例的文本識別方法，可從待檢測影像中提取語義向量，降低文本識別的複雜度，提高文本識別的效率。可使用卷積神經網路，依賴前一字符的識別結果對當前目標語義向量對應的字符進行識別，從而避免了不可控的長依賴問題，提高了識別的準確率。可使用GPU對卷積神經網路進行加速，提高卷積神經網路的處理效率。

圖2示意性示出了根據本公開實施例的用於文本識別的基於卷積神經網路的編解碼框架。

在一些實施例中，可對待檢測影像進行特徵提取處理，獲得多個語義向量。可透過卷積神經網路對目標語義向量的先驗資訊進行處理，獲得所述目標語義向量的權值參數，並且可以根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果。所述目標語義向量為多個語義向量中的任意一個。

在一些實施例中，多個語義向量可以對應於文本序列的多個字符，例如，文本序列的多個字符中每個字符對應於多個語義向量中的一個語義向量，但本公開實施例不限於此。如果目標語義向量為多個語義向量中的第一個語義向量（即，與待檢測影像中的文本序列中的第一個字符對應的語義向量），則將目標語義向量輸入所述卷積神經網路的第一卷積層進行編碼處理，獲得第一向量，並將起始符對應的初始向量輸入所述卷積神經網路的第二卷積層進行編碼處理，獲得第二向量。進一步地，可對第一向量和第二向量進行向量乘法，獲得第一個語義向量的權值參數，即權值矩陣。

在一些實施例中，可使用該權值矩陣對第一個語義向量進行加權處理，獲得第一個語義向量對應的注意力分佈向量，並可透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，獲得關於概率字典的概率分佈資訊。進一步地，可以根據該概率分佈資訊確定概率字典中的文本，即，確定與第一個語義向量對應的文本識別結果，從而獲得第一個字符的識別結果。

在一些實施例中，可對第一個字符的識別結果進行詞嵌入處理，獲得第一個字符對應的特徵向量。可將第一個字符對應的特徵向量輸入所述卷積神經網路的第二卷積層進行編碼處理，獲得第一個字符對應的第二向量。可將第二個語義向量（即，與待檢測影像中的字符序列中的第二個字符對應的語義向量）輸入卷積神經網路的第一卷積層進行編碼處理，獲得第二個語義向量的第一向量。進一步地，可對第二個語義向量的第一向量和第一個字符對應的第二向量進行向量乘法，獲得第二個語義向量的權值矩陣。可使用該權值矩陣對第二個語義向量進行加權處理（即，進行矩陣乘法），並將加權後的第二個語義向量輸入卷積神經網路的全連接層，以獲得第二個語義向量對應的注意力分佈向量。可透過所述卷積神經網路中的至少一個反卷積層對第二個語義向量對應的注意力分佈向量進行解碼處理，獲得關於概率字典的概率分佈資訊（即，第二個字符的識別結果的概率分佈）。可根據該概率分佈資訊確定概率字典中的文本，即，可獲得第二個字符的識別結果。進一步地，還可利用第二個字符的識別結果，確定第三個字符的識別結果，利用第三個字符的識別結果，確定第四個字符的識別結果，依此類推。

在一些實施例中，可透過上述方式對待處理影像中的各語義向量進行迭代處理，可獲得待檢測影像中的每個字符的識別結果，直到文本序列中的字符全部識別完成。在文本序列中的字符全部識別完成時，可向卷積神經網路輸入結束向量，以完成待檢測影像中的文本序列的識別工作，獲得文本序列的識別結果。

圖3示出可以實現根據上述任一實施例的文本識別方法的文本識別裝置的方塊圖。如圖3所示，所述裝置可以包括提取模組11和識別模組12。

提取模組11可以對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應。識別模組12可以透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。

在一些實施例中，所述識別模組可以用於：透過卷積神經網路對目標語義向量的先驗資訊進行處理，獲得所述目標語義向量的權值參數，其中，所述目標語義向量為所述多個語義向量之一；根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果。

在一些實施例中，所述識別模組可以用於：透過所述卷積神經網路中的至少一個第一卷積層對所述目標語義向量進行編碼處理，獲得所述目標語義向量的第一向量；透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量；基於所述第一向量和所述第二向量，確定所述權值參數。

在一些實施例中，所述識別模組可以用於：響應於所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果，對所述前一語義向量對應的文本識別結果進行詞嵌入處理，獲得與該先驗資訊對應的特徵向量；對所述特徵向量進行編碼處理，得到所述第二向量。

在一些實施例中，所述識別模組可以用於：對所述先驗資訊中的起始符對應的初始向量進行編碼處理，得到所述第二向量。

在一些實施例中，所述識別模組可以用於：基於所述權值參數和所述目標語義向量，獲得與所述目標語義向量對應的注意力分佈向量；透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，確定與所述目標語義向量對應的文本識別結果。

在一些實施例中，所述提取模組可以用於：對所述待檢測影像進行特徵提取，獲得特徵資訊；對所述特徵資訊進行下採樣處理，得到所述多個語義向量。

圖4是根據一示例性實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話機，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等。

參照圖4，電子設備800可以包括下列中的一個或多個：處理組件802，儲存裝置804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/ O）介面812，感測器組件814，以及通訊組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通訊，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以執行上述任一種文本識別方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

儲存裝置804可以儲存各種類型的資料以支持在電子設備800上的操作。這些資料的示例包括用於在電子設備800上執行的任何應用程序或方法的指令，連絡人資料，電話簿資料，消息，圖片，影片等。儲存裝置804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電子可抹除可程式化唯讀記憶體（EEPROM），可抹除可程式唯讀記憶體（EPROM），可程式唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁碟或光碟等。

電源組件806可以為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808可以包括在所述電子設備800和使用者之間提供介面（例如，圖形使用者介面（GUI））的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸摸面板（TP）。如果螢幕包括觸摸面板，螢幕可以被實現為觸摸屏，以接收來自使用者的輸入信號。觸摸面板可以包括一個或多個感測器，以感測在觸摸面板上的觸摸、滑動和/或其它手勢。所述感測器可以不僅感測觸摸或滑動動作的邊界，而且檢測與所述觸摸或滑動動作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式如拍攝模式或影片模式時，前置攝像頭和/或後置攝像頭可以採集外部的多媒體資料。前置攝像頭和後置攝像頭均可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810可以輸出和/或輸入音頻信號。例如，音頻組件810可以包括一個麥克風。當電子設備800處於操作模式如呼叫模式、記錄模式或語音識別模式時，麥克風可以採集外部音頻信號。所採集的音頻信號可以被儲存在儲存裝置804中或經由通訊組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O介面812可以在處理組件802和外圍設備之間提供介面。上述外圍設備可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814可以包括一個或多個感測器，用於為電子設備800提供各個方面的狀態資訊。例如，感測器組件814可以包括接近感測器，用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如互補金屬氧化物半導體（CMOS）或電荷耦合器件（CCD）影像感測器，用於成像應用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通訊組件816可以便於電子設備800和其他設備之間的有線或無線通訊。電子設備800可以接入基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件816可以經由廣播信道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通訊組件816還包括近場通訊（NFC）模組，以便於短程通訊。例如，NFC模組可基於無線射頻識別（RFID）技術，紅外數據協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術或其他技術來實現。

在示例性實施例中，電子設備800可以被實現為一個或多個特定積體電路（ASIC）、數位信號處理器（DSP）、數位訊號處理設備（DSPD）、可程式邏輯裝置（PLD）、現場可程式邏輯陣列（FPGA）、控制器、微控制器、微處理器或其他電子元件，以實現上述任一種文本識別方法。

在示例性實施例中，還可以提供一種非暫態電腦可讀儲存介質（例如，儲存裝置804），其上儲存有電腦程序指令。該電腦程序指令在由處理器（例如，處理器820）執行時，使該處理器實現上述任一種文本識別方法。

圖5是根據一示例性實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以是一服務器。

參照圖5，電子設備1900可以包括：處理組件1922，其可以包括一個或多個處理器；以及由儲存裝置1932所代表的儲存裝置資源，用於儲存可由處理組件1922執行的指令，例如應用程序。處理組件1922可以執行該指令，以實現上述任一種文本識別方法。

電子設備1900還可以包括：電源組件1926，用於執行電子設備1900的電源管理；有線或無線網路介面1950，用於將電子設備1900連接到網路；和輸入/輸出（I/O）介面1958。

電子設備1900可以基於儲存在儲存裝置1932中的操作系統（例如，Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等）而工作。

在示例性實施例中，還可以提供一種非暫態電腦可讀儲存介質（例如，儲存裝置1932），其上儲存有電腦程序指令。該電腦程序指令在由處理器（例如，處理組件1922）執行時，使該處理器實現上述任一種文本識別方法。

本公開可以被實現為裝置（系統）、方法和/或電腦程序產品。電腦程序產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本公開的文本識別方法的電腦可讀程序指令。

附圖中的流程圖和方塊圖顯示了根據本公開的各個實施例的裝置（系統）、方法和電腦程序產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方框可以代表一個模組、程序段或指令的一部分，所述模組、程序段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本公開的各實施例。上述說明是示例性的，並不旨在限制本公開。在不偏離本公開的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。凡在本公開的精神和原則之內所做的任何修改、等同替換、改進等，均應包含在本公開的範圍之內。

11:提取模組 12:識別模組 800,1900:電子設備 802,1922:處理組件 804,1932:儲存裝置 806,1926:電源組件 808:多媒體組件 810:音頻組件 812,1958:輸入/輸出介面 814:感測器組件 816:通訊組件 820:處理器 1950:網路介面 S11~S12:步驟

圖1繪示根據本公開實施例的文本識別方法的流程圖。圖2繪示根據本公開實施例的用於文本識別的基於卷積神經網路的編解碼框架的示意圖。圖3繪示根據本公開實施例的文本識別裝置的方塊圖。圖4繪示根據本公開實施例的電子裝置的方塊圖。圖5繪示根據本公開實施例的電子裝置的方塊圖。

S11~S12:步驟

Claims

一種文本識別方法，包括：對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應；以及透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。
如請求項1所述的方法，其中，透過所述卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的所述識別結果的步驟，包括：透過所述卷積神經網路對目標語義向量的先驗資訊進行處理，獲得所述目標語義向量的權值參數，其中，所述目標語義向量為所述多個語義向量之一；以及根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果。
如請求項2所述的方法，其中，所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果和/或起始符。
如請求項2或3所述的方法，其中，透過所述卷積神經網路對所述目標語義向量的所述先驗資訊進行處理，獲得所述目標語義向量的所述權值參數的步驟，包括：透過所述卷積神經網路中的至少一個第一卷積層對所述目標語義向量進行編碼處理，獲得所述目標語義向量的第一向量；透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的所述先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量；以及基於所述第一向量和所述第二向量，確定所述權值參數。
如請求項4所述的方法，其中，透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的所述先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量的步驟，包括：響應於所述先驗資訊包括所述目標語義向量的前一語義向量對應的文本識別結果，對所述前一語義向量對應的文本識別結果進行詞嵌入處理，獲得與所述先驗資訊對應的特徵向量；以及透過所述卷積神經網路中的至少一個第二卷積層對所述特徵向量進行編碼處理，得到所述第二向量。
如請求項4或5所述的方法，其中，透過所述卷積神經網路中的至少一個第二卷積層對所述目標語義向量的所述先驗資訊進行編碼處理，獲得與所述先驗資訊對應的第二向量的步驟，包括：透過所述卷積神經網路中的至少一個第二卷積層對所述先驗資訊中的起始符對應的初始向量進行編碼處理，得到所述第二向量。
如請求項2至6中任一項所述的方法，其中，根據所述權值參數和所述目標語義向量，確定與所述目標語義向量對應的文本識別結果的步驟，包括：基於所述權值參數和所述目標語義向量，獲得與所述目標語義向量對應的注意力分佈向量；以及透過所述卷積神經網路中的至少一個反卷積層對所述注意力分佈向量進行解碼處理，確定與所述目標語義向量對應的文本識別結果。
如請求項1至7中任一項所述的方法，其中，對所述待檢測影像進行特徵提取處理，獲得所述多個語義向量的步驟，包括：對所述待檢測影像進行特徵提取，獲得特徵資訊；以及對所述特徵資訊進行下採樣處理，得到所述多個語義向量。
一種文本識別裝置，包括：提取模組，用於對待檢測影像進行特徵提取處理，獲得多個語義向量，其中，所述多個語義向量分別與所述待檢測影像中的文本序列的多個字符對應；以及識別模組，用於透過卷積神經網路對所述多個語義向量依次進行識別處理，得到所述文本序列的識別結果。
一種電子設備，包括：處理器；以及用於儲存可由所述處理器執行的指令的儲存裝置，其中，所述處理器在執行所述儲存裝置中儲存的所述指令時，實現根據請求項1至8中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程序指令，所述電腦程序指令被處理器執行時，使所述處理器實現根據請求項1至8中任意一項所述的方法。