TW202141352A

TW202141352A - 字元識別方法及電子設備和電腦可讀儲存介質

Info

Publication number: TW202141352A
Application number: TW110113118A
Authority: TW
Inventors: 岳曉宇; 曠章輝; 藺琛皓; 孫紅斌; 張偉
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2020-04-16
Filing date: 2021-04-12
Publication date: 2021-11-01
Also published as: CN111539410A; JP2022533065A; CN111539410B; KR20220011783A; WO2021208666A1

Abstract

本發明關於一種字元識別方法及電子設備和電腦可讀儲存介質，其中，所述方法包括：獲取待識別的目標圖像；基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的；基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。本發明實施例可以提高字元識別的準確率。

Description

字元識別方法及電子設備和電腦可讀儲存介質

本發明關於電子技術領域，尤其關於一種字元識別方法及電子設備和電腦可讀儲存介質。

隨著電子技術的發展，越來越多的工作可以利用電子設備完成，或者，可以通過電子設備輔助完成，這為人們提供了便利條件。例如，可以利用電腦自動對字元進行識別，以提高人工處理的效率。

目前，字元識別可以針對規則的字元進行識別，例如，對文檔進行解析等。字元識別還可以針對不規則的字元進行識別，例如，對交通標誌、店面招牌等自然場景中的不規則字元進行識別。但是，由於視角變化、光照變化等因素，難以對不規則字元進行準確識別。

本發明提出了一種字元識別技術方案。

根據本發明的一方面，提供了一種字元識別方法，包括：獲取待識別的目標圖像；基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的；基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。

在一個可能的實現方式中，所述基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵，包括：對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果；根據所述第一圖像特徵的編碼結果，確定所述目標圖像的第二圖像特徵；基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵。這裡，由於第二圖像特徵具有更強的位置特徵，從而得到的目標圖像的字元特徵也具有更強的位置特徵，從而使由字元特徵得到字元識別結果更加準確，更加減少字元識別結果受到語義的影響。

在一個可能的實現方式中，所述對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果，包括：依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果。通過依次對第一圖像特徵的多個第一維度特徵向量進行一級或多級第一編碼處理，可以對第一圖像特徵中包括的位置特徵進行增強，得到的第一圖像特徵的編碼結果，可以具有字元之間更加明顯的位置特徵。

在一個可能的實現方式中，所述依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果，包括：針對所述至少一級第一編碼處理中的一級第一編碼處理，利用N個第一編碼節點依次對所述第一編碼節點的輸入資訊進行編碼，得到N個第一編碼節點的輸出結果；其中，在1＜i≤N的情況下，第i個第一編碼節點的輸入資訊包括第i-1個第一編碼節點的輸出結果，N和i為正整數；根據所述N個第一編碼節點的輸出結果，得到所述第一圖像特徵的編碼結果。這樣，第一個第一編碼節點的輸入資訊可以傳遞到最後一個第一編碼節點，從而可以使第一編碼節點的輸入資訊被長期記憶，使得得到的輸出結果更加準確。

在一個可能的實現方式中，所述第一編碼節點的輸入資訊還包括所述第一圖像特徵的第一維度特徵向量或者前一級第一編碼處理的輸出結果。這樣，一級第一編碼處理可以通過第一編碼節點將第一圖像特徵的第一維度特徵向量或者前一級第一編碼處理的輸出結果傳遞到最後一個第一編碼節點，使得一級第一編碼處理輸出結果可以更加準確。

在一個可能的實現方式中，所述基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵，包括：根據所述位置向量和所述第二圖像特徵，確定注意力權重；利用所述注意力權重對所述第一圖像特徵進行特徵加權，得到所述目標圖像的字元特徵。這裡，通過注意力權重可以進行一步對第一圖像特徵中需要進行關注的特徵進行增強，從而利用注意力權重對第一圖像特徵進行特徵加權後得到的字元特徵，可以更加準確地體現第一圖像特徵中更加重要的特徵部分。

在一個可能的實現方式中，所述方法還包括：獲取包括至少一個第一預設資訊的預設資訊序列；依次對所述至少一個第一預設資訊進行至少一級第二編碼處理，得到所述位置向量。由於在利用神經網路對至少一個第一預設資訊進行第二編碼處理的過程中，是依次對至少一個第一預設資訊進行編碼的，從而生成的位置向量與至少一個第一預設資訊的次序相關，從而位置向量可以表示字元之間的位置特徵。

在一個可能的實現方式中，所述依次對所述至少一個第一預設資訊進行至少一級第二編碼處理，得到所述位置向量，包括：針對所述至少一級第二編碼處理中的一級第二編碼處理，利用M個第二編碼節點依次對所述第二編碼節點的輸入資訊進行編碼，得到第M個第二編碼節點的輸出結果；其中，在1＜j≤M的情況下，第j個第二編碼節點的輸入資訊包括第i-1個第二編碼節點的輸出結果，M和j為正整數；根據所述第M個第二編碼節點的輸出結果，得到所述位置向量。這樣，第一個第二編碼節點的輸入資訊可以傳遞到最後一個第二編碼節點，使第二編碼節點的輸入資訊被長期記憶，使得得到是位置向量更加準確。

在一個可能的實現方式中，所述第二編碼節點的輸入資訊還包括所述第一預設資訊或者前一級第二編碼處理的輸出結果。這樣，一級第二編碼處理可以通過第二編碼節點將第一預設資訊或者前一級第二編碼處理的輸出結果傳遞到最後一個第一編碼節點，使得一級第一編碼處理輸出結果可以更加準確。

在一個可能的實現方式中，所述基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果，包括：提取所述目標圖像的語義特徵；基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果。這樣，在得到目標圖像的文字識別結果的過程中，可以將語義特徵和字元特徵相結合，提供字元識別結果的準確性。

在一個可能的實現方式中，所述提取所述目標圖像的語義特徵，包括：基於獲取的第二預設資訊，依次確定所述目標圖像在至少一個時間步的語義特徵；所述基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果，包括：基於所述目標圖像在至少一個時間步的語義特徵和所述字元特徵，得到所述目標圖像在至少一個時間步的字元識別結果。這裡，在目標圖像中的字元為多個的情況下，字元識別結果可以按照字元的位置（字元特徵）以及語義（語義特徵）依次得到的，從而可以提高字元識別結果的準確性。

在一個可能的實現方式中，所述基於獲取的第二預設資訊，依次確定所述目標圖像在至少一個時間步的語義特徵，包括：對所述第二預設資訊進行至少一級第三編碼處理，得到所述至少一個時間步中第一個時間步的語義特徵；對所述目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，得到所述目標圖像在第k個時間步的語義特徵，其中，k為大於1的整數。通過這種方式，排序在前的第三編碼節點的輸入資訊可以傳遞到排序在後的第三編碼節點，從而可以使第三編碼節點的輸入資訊被長期記憶，使得得到的語義特徵更加準確。

根據本發明的一方面，提供了一種字元識別裝置，包括：獲取部分，被配置為獲取待識別的目標圖像；確定部分，被配置為基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的；識別部分，被配置為基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。

在一個可能的實現方式中，所述確定部分，還被配置為對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果；根據所述第一圖像特徵的編碼結果，確定所述目標圖像的第二圖像特徵；基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵。

在一個可能的實現方式中，所述確定部分，還被配置為依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果。

在一個可能的實現方式中，所述確定部分，還被配置為針對所述至少一級第一編碼處理中的一級第一編碼處理，利用N個第一編碼節點依次對所述第一編碼節點的輸入資訊進行編碼，得到N個第一編碼節點的輸出結果；其中，在1＜i≤N的情況下，第i個第一編碼節點的輸入資訊包括所述第i-1個第一編碼節點的輸出結果，N和i為正整數；根據所述N個第一編碼節點的輸出結果，得到所述第一圖像特徵的編碼結果。

在一個可能的實現方式中，所述第一編碼節點的輸入資訊還包括所述第一圖像特徵的第一維度特徵向量或者前一級第一編碼處理的輸出結果。

在一個可能的實現方式中，所述確定部分，還被配置為根據所述位置向量和所述第二圖像特徵，確定注意力權重；利用所述注意力權重對所述第一圖像特徵進行特徵加權，得到所述目標圖像的字元特徵。

在一個可能的實現方式中，所述裝置還包括：編碼部分，被配置為獲取包括至少一個第一預設資訊的預設資訊序列；依次對所述至少一個第一預設資訊進行至少一級第二編碼處理，得到所述位置向量。

在一個可能的實現方式中，所述編碼部分，還被配置為針對所述至少一級第二編碼處理中的一級第二編碼處理，利用M個第二編碼節點依次對所述第二編碼節點的輸入資訊進行編碼，得到第M個第二編碼節點的輸出結果；其中，在1＜j≤M的情況下，第j個第二編碼節點的輸入資訊包括所述第i-1個第二編碼節點的輸出結果，M和j為正整數；根據所述第M個第二編碼節點的輸出結果，得到所述位置向量。

在一個可能的實現方式中，所述第二編碼節點的輸入資訊還包括所述第一預設資訊或者前一級第二編碼處理的輸出結果。

在一個可能的實現方式中，所述識別部分，還被配置為提取所述目標圖像的語義特徵；基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果。

在一個可能的實現方式中，所述識別部分，還被配置為基於獲取的第二預設信息，依次確定所述目標圖像在至少一個時間步的語義特徵；基於所述目標圖像在至少一個時間步的語義特徵和所述字元特徵，得到所述目標圖像在至少一個時間步的字元識別結果。

在一個可能的實現方式中，所述識別部分，還被配置為對所述第二預設資訊進行至少一級第三編碼處理，得到所述至少一個時間步中第一個時間步的語義特徵；對所述目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，得到所述目標圖像在第k個時間步的語義特徵，其中，k為大於1的整數。

根據本發明的一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行上述字元識別方法。

根據本發明的一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述字元識別方法。

根據本發明的一方面，提供了一種電腦程式，包括電腦可讀代碼，當所述電腦可讀代碼在電子設備中運行時，所述電子設備中的處理器執行時實現上述字元識別方法。

在本發明實施例中，可以獲取待識別的目標圖像，然後基於確定的位置向量以及目標圖像的第一圖像特徵，得到目標圖像的字元特徵，再基於字元特徵對目標圖像中的字元進行識別，得到目標圖像的字元識別結果。這裡，位置向量是基於預設資訊序列中字元的位置特徵確定的，可以表示字元之間的位置特徵，從而在字元識別過程中，可以增加字元之間的位置特徵對字元識別結果的影響，提高字元識別的準確率，例如，針對不規則字元、無語義字元，均可以得到較好的識別效果。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本發明。

根據下面參考附圖對示例性實施例的詳細說明，本發明的其它特徵及方面將變得清楚。

以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多個中的任意一種或多個中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本發明，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本發明同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本發明的主旨。

本發明實施例提供的字元識別方案，可以獲取待識別的目標圖像，然後基於確定的位置向量以及目標圖像的第一圖像特徵，得到目標圖像的字元特徵，再基於字元特徵對目標圖像中的字元進行識別，得到目標圖像的字元識別結果。其中，位置向量是基於預設資訊序列中字元的位置特徵確定的，可以用於表示字元的位置特徵，從而可以在字元識別過程中，對字元之間的位置特徵進行增強，使得到的字元識別結果更加準確。

在相關技術中，通常通過字元之間的語義特徵對字元序列進行識別，但是一些字元序列中的字元之間在語義上的關聯較少，例如，車牌號碼、房間號等字元序列的字元之間在語義上關聯較少，從而在通過語義特徵對字元序列進行識別的效果較差。本發明實施例提供的字元識別方案，可以增強字元的位置特徵對字元識別的影響，減少字元識別過程對語義特徵的依賴，對於語義關聯較少字元的識別或者不規則字元的識別具有較好的識別效果。

本發明實施例提供的技術方案可以應用於圖像中字元的識別、圖像-文本轉換等應用場景的擴展，本發明實施例對此不做限定。例如，對交通標誌中非規則字元進行字元識別，以確定交通標示表示的交通指示，為用戶提供便利。

圖1示出根據本發明實施例的字元識別方法的流程圖。該字元識別方法可以由終端設備、伺服器或其它類型的電子設備執行，其中，終端設備可以為使用者設備（User Equipment，UE）、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理（Personal Digital Assistant，PDA）、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中，該字元識別方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。下面以電子設備作為執行主體為例對本發明實施例的字元識別方法進行說明。

步驟S11，獲取待識別的目標圖像。

在本發明實施例中，電子設備可以具有圖像採集功能，可以對待識別的目標圖像進行採集。或者，電子設備可以從其他設備處獲取待識別的目標圖像，例如，電子設備可以從攝影設備、監控設備等到設備處獲取待識別的目標圖像。待識別的目標圖像可以是等待進行字元識別的圖像。目標圖像中可以攜帶有字元，字元可以是單個字元，也可以是字串。目標圖像中的字元可以是規則的字元，例如，用規範字體書寫的文字可以是規則的字元。規則的字元可以具有排列整齊、大小均一、未發生形變、未被遮擋等特點。一些實現方式中，目標圖像中的字元也可以是非規則的字元，例如，店鋪招牌、廣告封面上的一些具有藝術效果的文字。不規則的字元可以具有排列不整齊、大小不一、發生形變或被遮擋等特徵。

步驟S12，基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的。

在本發明實施例中，可以基於預設資訊序列中字元的位置特徵確定用於表示字元的位置特徵的位置向量，例如，可以獲取一定長度的預設資訊序列，然後提取預設資訊序列中字元的位置特徵。位置向量與字元所在的位置相關，舉例來說，一個待識別字元在字元序列中的位置是第三個字元位置，則位置向量可以表示待識別的字元在該字元序列中的相對位置，即，表示第三個字元位置。為了減少位置向量與字元語義的相關性，預設資訊序列中的字元可以相同。在一些實現方式中，預設資訊序列中的每個字元還可以設置為不存在語義的信息，從而進一步減少位置向量與字元語義的相關性。位置向量與字元的語義相關較少，從而對於不同的目標圖像，位置向量可以相同，也可以不同。

目標圖像的第一圖像特徵可以是針對目標圖像進行圖像提取得到的，例如，可以利用神經網路對目標圖像進行至少一次卷積操作，得到目標圖像的第一圖像特徵。根據確定的位置向量和目標圖像的第一圖像特徵，可以確定目標圖像的字元特徵，例如，將確定的位置向量和目標圖像的第一圖像特徵進行融合，得到目標圖像的字元特徵。這裡，由於字元特徵是基於位置向量和第一圖像特徵得到的，從而字元特徵受字元的語義影響較少。

步驟S13，基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。

在本發明實施例中，可以利用神經網路對字元特徵進行處理，例如，對字元特徵進行啟動操作，或者，將字元特徵輸出神經網路的全連接層進行全連接操作等，可以得到目標圖像的字元識別結果。字元識別結果可以是針對目標圖像中字元的識別結果。在目標圖像中包括一個字元的情況下，字元識別結果可以是一個字元。在目標圖像中包括字元序列的情況下，字元識別結果可以是一個字元序列，字元識別結果中每個字元的順序與目標圖像中相應字元的順序相同。

通過字元特徵得到的字元識別結果，受到字元的語義影響較少，從而針對一些字元之間在語義上關聯較少的字元序列也可以具有較好的識別效果，例如，可以針對車牌中在語義上無關聯的字元序列進行字元識別。

在上述步驟S12中，可以基於確定的位置向量以及目標圖像的第一圖像特徵，得到目標圖像的字元特徵，從而減小語義對字元特徵的影響。下面提供了一個得到目標圖像的字元特徵的實現方式。

在一個可能的實現方式中，可以對目標圖像的第一圖像特徵進行編碼，得到第一圖像特徵的編碼結果，然後根據第一圖像特徵的編碼結果，確定目標圖像的第二圖像特徵，然後基於預設的位置向量、第一圖像特徵以及第二圖像特徵，得到目標圖像的字元特徵。

在該實現方式中，可以利用神經網路對目標圖像的第一圖像特徵進行編碼，例如，可以針對第一圖像特徵逐行或者逐列進行編碼，從而可以針對第一圖像特徵中包括的位置特徵進行增強。然後根據對第一圖像特徵進行編碼得到的編碼結果，可以得到目標圖像的第二圖像特徵，例如，可以將第一圖像特徵和編碼結果進行融合，得到目標圖像的第二圖像特徵，第二圖像特徵相比於第一圖像特徵而言，具有更強的位置特徵。然後基於確定的位置向量、第一圖像特徵以及第二圖像特徵可以得到目標圖像的字元特徵，例如將確定的位置向量、第一圖像特徵以及第二圖像特徵進行融合得到目標圖像的字元特徵，由於第二圖像特徵具有更強的位置特徵，從而得到的目標圖像的字元特徵也具有更強的位置特徵，從而使由字元特徵得到字元識別結果更加準確，更加減少字元識別結果受到語義的影響。

上述實現方式中，可以通過對目標圖像的第一圖像特徵進行編碼，使得第一圖像特徵中包括的位置特徵得到增強，下面通過一示例對得到第一圖像特徵的編碼結果的過程進行說明。

在一個示例中，可以依次對第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到第一圖像特徵的編碼結果。

在該示例中，第一圖像特徵可以包括多個第一維度特徵向量。第一圖像特徵可以包括多個維度上的特徵，例如，第一圖像特徵可以包括長度、寬度、深度等多個維度。不同維度上的特徵維數可以不同。第一維度特徵向量可以是第一圖像特徵在一個維度上的特徵，例如，第一維度特徵向量可以是長度維度或寬度維度上的特徵。第一編碼處理可以是針對第一圖像特徵進行的編碼，相應地，神經網路可以包括至少一個第一編碼層，第一編碼層對應的編碼處理可以是第一編碼處理。這裡，可以利用神經網路依次對多個第一維度特徵向量進行一級或多級第一編碼處理，得到多個第一維度特徵向量的處理結果，一個第一維度特徵向量可以對應一個處理結果，然後可以將多個第一維度特徵的多個處理結果進行合併，可以形成第一圖像特徵的編碼結果。通過依次對第一圖像特徵的多個第一維度特徵向量進行一級或多級第一編碼處理，可以對第一圖像特徵中包括的位置特徵進行增強，得到的第一圖像特徵的編碼結果，可以具有字元之間更加明顯的位置特徵。

在本示例中，針對至少一級第一編碼處理中的一級第一編碼處理，可以利用N個第一編碼節點依次對第一編碼節點的輸入資訊進行編碼，得到N個第一編碼節點的輸出結果；其中，在1＜i≤N的情況下，第i個第一編碼節點的輸入資訊包括第i-1個第一編碼節點的輸出結果，N和i為正整數。根據N個第一編碼節點的輸出結果，得到第一圖像特徵的編碼結果。

在本示例中，可以利用神經網路對第一圖像特徵進行至少一級第一編碼處理，以得到第一圖像特徵的編碼結果。神經網路可以包括至少一級第一編碼層，第一編碼層可以執行第一編碼處理，每級第一編碼處理通過多個編碼節點實現。在第一編碼處理為多級的情況下，每級第一編碼處理執行的操作可以相同。針對至少一級第一編碼處理中的一級第一編碼處理，可以利用N個第一編碼節點依次對該級第一編碼處理的輸入資訊進行編碼，一個第一編碼節點可以對應一個輸入資訊，不同第一編碼節點的輸入資訊可以不同。相應地，一個第一編碼節點可以得到一個輸出結果。第一級第一編碼處理中第一編碼節點的輸入資訊可以是第一圖像特徵的第一維度特徵向量。第一級第一編碼處理中第一編碼節點的輸出結果可以作為第二級第一編碼處理中相同排序的第一編碼節點的輸入資訊，以此類推，直到最後一級第一編碼處理。最後一級第一編碼處理中第一編碼節點的輸出結果可以是上述第一維度特徵向量的處理結果。一級第一編碼處理中可以包括N個第一編碼節點，在1＜i≤N的情況下，即，在第一編碼節點是當前級的第一編碼處理中第一個第一編碼節點之外的其他第一編碼節點的情況下，第一編碼節點的輸入資訊還可以包括該級第一編碼處理中前一個第一編碼節點的輸出結果，從而第一個第一編碼節點的輸入資訊可以傳遞到最後一個第一編碼節點，從而可以使第一編碼節點的輸入資訊被長期記憶，使得得到的輸出結果更加準確。

圖2示出根據本發明實施例的確定目標圖像的第二圖像特徵一示例的方塊圖。在本示例中，可以利用神經網路（如長短期記憶網路（Long Short-Term Memory，LSTM））對目標圖像的第一圖像特徵F進行編碼。神經網路可以包括兩層第一編碼層，每層第一編碼層可以包括多個第一編碼節點（對應圖2中的編碼節點）。這裡，可以將目標圖像的第一圖像特徵F輸入神經網路的第一編碼層，分別利用第一編碼層的多個第一編碼節點對第一圖像特徵F的多個第一維度特徵向量（寬度維度特徵向量）進行編碼，得到每個第一編碼節點的輸出結果。其中，第一個第一編碼節點的輸入資訊是第一個第一維度特徵向量，第二個第一編碼節點的輸入資訊是第一個第一編碼節點的輸出結果和第二個第一維度特徵向量，以此類推，可以得到最後一個第一編碼節點的輸出結果。將多個第一編碼點的輸出結果輸入第二層第一編碼層，第二層第一編碼層的處理過程與第一層第一編碼層的處理過程相似，這裡不再贅述。最終可以得到第一圖像特徵的編碼結果F² 。然後可以將第一圖像特徵F和第一圖像特徵的編碼結果F² 進行特徵融合，這裡可以是特徵相加或合併，得到目標圖像的第二圖像特徵

。

這裡，以兩層LSTM對目標圖像的第一圖像特徵F進行編碼為例，由第一圖像特徵F得到第二圖像特徵

可以通過下述公式：

公式（1）；

公式（2）；

公式（3）；其中，

可以是第一圖像特徵F在（i,j）位置的特徵向量（第一維度特徵向量）；

可以表示第一層第一編碼層的輸出結果

在（i,j）位置的特徵向量；

可以表示輸出結果

在（i,j-1）位置的特徵向量；

可以表示編碼結果

在（i,j）位置的特徵向量；

可以表示編碼結果

在（i,j-1）位置的特徵向量；

可以表示得到的第二圖像特徵；

可以表示向量的加運算。這裡，i和j均為自然數。

在上述實現方式中，可以基於確定的位置向量、第一圖像特徵以及第二圖像特徵，得到目標圖像的字元特徵，下面提供一個示例對得到目標圖像的字元特徵的過程進行說明。

在一個示例中，可以根據確定的位置向量和第二圖像特徵，確定注意力權重，然後利用注意力權重對第一圖像特徵進行特徵加權，可以得到目標圖像的字元特徵。

在一個示例中，由於位置向量和第二圖像特徵均包括顯著的位置特徵，從而可以根據位置向量和第二圖像特徵確定注意力權重，例如，確定位置向量與第二圖像特徵的相關性，根據該相關性確定注意力權重。位置向量與第二圖像特徵的相關性可以通過位置向量與第二圖像特徵的點乘得到。利用確定的注意力權重，可以對第一圖像特徵進行特徵加權，例如，將注意力權重與第一圖像特徵相乘後求和，可以得到目標圖像的字元特徵。通過注意力權重可以進行一步對第一圖像特徵中需要進行關注的特徵進行增強，從而利用注意力權重對第一圖像特徵進行特徵加權後得到的字元特徵，可以更加準確地體現第一圖像特徵中更加重要的特徵部分。

在本示例中，注意力權重可以通過下述公式（4）進行確定：

公式（4）；其中，

表示注意力權重；

表示啟動函數；

表示位置向量

的轉置；

表示第二圖像特徵

在特徵位置

的特徵向量。利用上述公式（4），可以由位置向量和第二圖像特徵確定注意力權重。

在本示例中，字元特徵可以通過下述公式（5）進行確定：

公式（5）；其中，

表示字元特徵；

表示注意力權重；

表示第一圖像特徵

在特徵位置

的特徵向量。利用上述公式（5），可以由注意力權重和第一圖像特徵得到字元特徵。

在上述實現方式中可以根據確定的位置向量和第二圖像特徵，確定注意力權重。位置向量可以表示字元的位置特徵，即，可以表示字元之間的相對位置。下面通過一實現方式對確定位置向量的過程進行說明。

在一個可能的實現方式中，可以獲取包括至少一個第一預設資訊的預設資訊序列，然後依次對至少一個第一預設資訊進行至少一級第二編碼處理，可以得到位置向量。

在本實現方式中，預設資訊序列可以包括一個或多個第一預設資訊。第一預設資訊可以是根據實際場景進行設置的資訊，可以不具有特定的含義。例如，第一預設資訊可以是一個計數指令。可以利用神經網路依次對至少一個第一預設資訊進行一級或多級第二編碼處理，得到位置向量。由於至少一個第一預設資訊相同，並且沒有特定的含義，從而至少一個第一預設資訊之間在語義上關聯較小，進而依次對至少一個第一預設資訊進行一級或多級第二編碼處理得到的位置向量與語義相關程度較低。同時，由於在利用神經網路對至少一個第一預設資訊進行第二編碼處理的過程中，是依次對至少一個第一預設資訊進行編碼的，從而生成的位置向量與至少一個第一預設資訊的次序相關，即，可以理解為，與至少一個第一預設資訊之間的位置相關，從而位置向量可以表示字元之間的位置特徵。

在本實現方式的一個示例中，針對至少一級第二編碼處理中的一級第二編碼處理，可以利用M個第二編碼節點依次對第二編碼節點的輸入資訊進行編碼，得到第M個第二編碼節點的輸出結果。在1＜j≤M的情況下，第j個第二編碼節點的輸入資訊包括第i-1個第二編碼節點的輸出結果，M和j為正整數。根據第M個第二編碼節點的輸出結果，得到位置向量。

在本示例中，可以利用神經網路依次對至少一個第一預設資訊進行一級或多級第二編碼處理，以得到位置向量。在第二編碼處理為多級的情況下，每級第二編碼處理執行的操作可以相同。針對至少一級第二編碼處理中的一級第二編碼處理，可以利用M個第二編碼節點依次對該級第二編碼處理的輸入資訊進行編碼，一個第二編碼節點可以對應一個輸入資訊，不同第二編碼節點的輸入資訊可以不同。相應地，一個第二編碼節點可以得到一個輸出結果。第一級第二編碼處理中一個第二編碼節點的輸入資訊可以是一個第一預設資訊。第一級第一編碼處理中第二編碼節點的輸出結果可以作為第二級第二編碼處理中相同排序的第二編碼節點的輸入資訊，以此類推，直到最後一級第二編碼處理。最後一級第二編碼處理中最後一個第二編碼節點的輸出結果可以作為位置向量，或者，可以對最後一級第二編碼處理中最後一個第二編碼節點的輸出結果進行卷積、池化等進一步處理，可以得到位置向量。一級第二編碼處理中可以包括M個第二編碼節點，在1＜j≤M的情況下，即，在第二編碼節點是當前級的第二編碼處理中第一個第二編碼節點之外的其他第二編碼節點的情況下，第二編碼節點的輸入資訊還可以包括該級第二編碼處理中前一個第二編碼節點的輸出結果，從而第一個第二編碼節點的輸入資訊可以傳遞到最後一個第二編碼節點，使第二編碼節點的輸入資訊被長期記憶，使得得到是位置向量更加準確。

這裡，以第一預設資訊為常量“＜next＞”，第二編碼處理為二級LSTM的情況為例，可以利用下述公式（6）和公式（7）確定位置向量

。

公式（6）；

公式（7）；其中，

可以表示第一級第二編碼處理中第t個第二編碼節點的輸出結果；

表示第一級第二編碼處理中第t-1個第二編碼節點的輸出結果；

可以表示第二級第二編碼處理中第t個第二編碼節點的輸出結果，即，位置向量；

表示第二級第二編碼處理中第t-1個第二編碼節點的輸出結果。其中，t為自然數。

需要說明的是，由至少一個第一預設資訊得到位置向量的過程可以採用圖2所示的神經網路實現，其中，位置向量可以是第二級第二編碼處理中最後一個第二編碼節點的輸出結果，而非是多個第二編碼節點的輸出結果共同形成。

在上述步驟S13中，可以基於字元特徵對目標圖像中的字元進行識別，得到目標圖像的字元識別結果。為了提高字元識別結果的準確性，還可以在對目標圖像中的字元進行識別的過程中，考慮目標圖像中字元的語義特徵。下面通過一個實現方式對得到目標圖像的字元識別結果的過程進行說明。

在一個可能的實現方式中，可以提取目標圖像的語義特徵，然後基於目標圖像的語義特徵和字元特徵，得到目標圖像的字元識別結果。

在本實現方式中，可以對目標圖像的語義特徵提取，例如，可以利用一些場景的語義提取模型提取目標圖像的語義特徵，然後將目標圖像的語義特徵和字元特徵進行融合，得到融合結果，例如，可以將語義特徵和字元特徵進行拼接，或者，在將語義特徵和字元特徵進行拼接之後，再進行特徵加權，得到融合結果。這裡，特徵加權的權重可以是預先設置的，也可以是根據語義特徵和字元特徵進行計算得到的。然後根據該融合結果可以得到目標圖像的字元識別結果，例如，可以對融合結果進行至少一次卷積操作、全連接操作等，可以得到目標圖像的文字識別結果。這樣，在得到目標圖像的文字識別結果的過程中，可以將語義特徵和字元特徵相結合，提供字元識別結果的準確性。

舉例來說，語義特徵可以表示為

，字元特徵可以表示為

，可以利用下述公式（8）和公式（9）得到語義特徵和字元特徵的融合結果：

公式（8）；

公式（9）；其中，

可以表示融合結果；

可以表示對語義特徵

和字元特徵

進行特徵加權的權重；

可以表示第一映射矩陣，這裡，可以採用第一映射矩陣將語義特徵

和字元特徵

映射到一個二維向量空間；

可以表示第一偏置項。

在得到融合結果

之後，可以利用下述公式（10），得到目標圖像的文字識別結果：

公式（10）；其中，

可以表示文字識別結果；W可以表示第二映射矩陣，這裡，可以採用第二映射矩陣對融合結果

進行線性變換；b可以是第二偏置項。

在本實現方式的一個示例中，可以基於獲取的第二預設資訊，依次確定目標圖像在至少一個時間步的語義特徵，然後基於目標圖像在至少一個時間步的語義特徵和字元特徵，得到目標圖像在至少一個時間步的字元識別結果。

在本示例中，獲取的第二預設資訊可以根據實際場景進行選擇，第二預設資訊可以不具有特定的含義。例如，第二預設資訊可以是一個開始指令。時間步的步長可以根據實際應用需求進行設置。每間隔一個時間步，可以確定一個語義特徵，不同時間步得到的語義特徵可以不同。這裡，可以利用神經網路對第二預設資訊進行編碼，依次得到至少一個時間步的語義特徵，然後根據目標圖像在至少一個時間步的語義特徵和至少一個時間步的字元特徵，可以得到目標圖像在至少一個時間步的字元識別結果。一個時間步的語義特徵和相同時間步的字元特徵可以對應一個時間步的字元識別結果，也就是說，在目標圖像中的字元為多個的情況下，字元識別結果可以按照字元的位置（字元特徵）以及語義（語義特徵）依次得到的，從而可以提高字元識別結果的準確性。

在本示例中，可以對第二預設資訊進行至少一級第三編碼處理，得到至少一個時間步中第一個時間步的語義特徵，然後對目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，得到目標圖像在第k個時間步的語義特徵。其中，k為大於1的整數。

在本示例中，可以將第二預設資訊作為神經網路中至少一級第三編碼處理的輸入資訊。每級第三編碼處理中可以包括多個第三編碼節點，每個第三編碼節點可以對應一個時間步的輸入資訊。不同第三編碼節點的輸入資訊可以不同。相應地，一個第三編碼節點可以得到一個輸出結果。第一級第三編碼處理中第一個第三編碼節點的輸入資訊可以是第二預設資訊。第一級第三編碼處理中第三編碼節點的輸出結果可以作為第二級第三編碼處理中相同順序的第三編碼節點的輸入資訊，以此類推，直到最後一級第三編碼處理，如此，可以對第二預設資訊進行至少一級第三編碼處理，得到最後一級第三編碼處理中第一個第三編碼節點的輸出結果，該輸出結果可以是至少一個時間步中第一個時間步的語義特徵。進一步可以根據第一個時間步的語義特徵與相同時間步的字元特徵得到第一個時間步的字元識別結果。第一級第三處理中第二個第三編碼節點的輸入資訊可以是第一個時間步的字元識別結果。然後可以對第一個時間步的字元識別結果進行至少一級第三編碼處理，得到第二個時間步的語義特徵。進一步可以根據第二個時間步的語義特徵與相同時間步的字元特徵得到第二個時間步的字元識別結果。以此類推，直到最後一級第三編碼處理。最後一級第三編碼處理中，最後一個第三編碼節點的輸出結果可以是最後一個時間步的語義特徵。即，對目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，可以得到目標圖像在第k個時間步的語義特徵。在k是大於1的整數的情況下，即，在第三編碼節點是當前級的第三編碼處理中第一個第三編碼節點之外的其他第三編碼節點的情況下，第三編碼節點的輸入資訊還可以包括該級第三編碼處理中前一個第三編碼節點的輸出結果，從而排序在前的第三編碼節點的輸入資訊可以傳遞到排序在後的第三編碼節點，從而可以使第三編碼節點的輸入資訊被長期記憶，使得得到的語義特徵更加準確。

需要說明的是，由第二預設資訊確定語義特徵的過程可以採用圖2所示的神經網路實現，其中，第k個時間步的語義特徵可以是第二級第三編碼處理中第k個第三編碼節點的輸出結果。

本發明實施例中，可以利用神經網路得到目標圖像的字元識別結果。下面通過一個示例對利用神經網路得到目標圖像的字元識別結果的過程進行說明。

圖3示出根據本發明實施例的利用神經網路得到字元識別結果一示例的方塊圖。在本示例中，神經網路可以包括編碼器和解碼器。首先，可以將目標圖像輸出神經網路的編碼器中，利用編碼器提取目標圖像的圖像特徵，得到目標圖像的第一圖像特徵F。這裡，可以利用31層殘差神經網路（Residual Neural Network，ResNet）的網路架構對目標圖像進行圖像特徵提取。編碼器中可以包括位置資訊增強模組，可以利用位置資訊增強模組對第一圖像特徵中的位置資訊進行增強，得到目標圖像的第二圖像特徵

，位置資訊增強模組的網路架構可以如圖2所示。然後可以將第二圖像特徵

輸入解碼器的注意力模組，利用注意力模組將第二圖像特徵

與位置向量

進行矩陣乘法和啟動操作，得到注意力權重，然後利用注意力權重對第一圖像特徵F進行特徵加權，即，將注意力權重與第一圖像特徵進行矩陣乘法，得到目標圖像的字元特徵。解碼器還包括動態融合模組，可以利用動態融合模組將字元特徵和語義特徵進行融合，然後將融合結果輸入全連接層，可以得到字元識別結果。

這裡，解碼器中還包括位置編碼模組，可以將多個常量“＜next＞”（第一預設資訊）依次輸入位置編碼模組，即，每個時間步輸入一個常量“＜next＞”。位置編碼模組可以包括兩個編碼層（對應第一編碼處理），可以對輸入的“＜next＞”進行編碼，得到第t個時間步的位置向量

。這裡，位置編碼模組可以包括二層編碼層。解碼器中還包括語義模組，可以將一個特殊權杖“＜start＞”（第二預設資訊）輸入作為第一個時間步的輸入資訊輸入語義模組，得到語義模組輸出的第一個時間步的語義特徵。然後第一個時間步的字元識別結果

可以作為語義模組的第二個時間步的輸出結果，得到語義模組輸出的第二個時間步的語義特徵，以此類推，可以得到的語義模組在第t個時間步輸出的語義特徵

。語義模組可以包括二層編碼層。位置編碼模組和語義模組的網路架構可以與圖2中的網路構架相似，這裡不再贅述。

示例性的，編碼器包括位置資訊增強模組，解碼器包括：位置編碼模組、注意力模組、語義模組和動態融合模組；其中，位置資訊增強模組包括一個兩層的LSTM（參考圖2），通過兩層LSTM自左向右對目標圖像的第一圖像特徵進行編碼，得到第一圖像特徵的編碼結果，將第一圖像特徵的編碼結果與第一圖像特徵相加，得到目標圖像的第二特徵的編碼結果，進而確定第二圖像特徵，將第二圖像特徵作為位置資訊增強模組的輸出；位置編碼模組包括一個兩層的LSTM；位置編碼模組的每一次每一次的輸入都是一個特定輸入，使得它本質上是一個字元長度計數器；採用位置編碼模組可以對至少一個預設資訊進行兩級第二編碼處理，得到位置向量；將位置向量和第二圖像特徵輸入注意力模組，通過注意力模組將第二圖像特徵與位置向量進行矩陣乘法和啟動操作，得到注意力權重；再根據注意力權重，對第一圖像特徵取加權平均值，得到目標圖像的字元特徵；將第二預設資訊輸入語義模組，得到目標圖像的語義特徵；利用動態融合模組對語義特徵和字元特徵進行權重預測，將語義特徵和字元特徵的加權平均值作為融合結果輸出，將融合結果輸入預測模組，通過預測模組進行字元分類，進而得到字元識別結果。

本發明實施例通過的字元編碼方案，通過對字元之間的位置資訊進行增強，減少字元識別結果對語義的依賴，從而使得字元識別更加準確。本發明提供的字元編碼方案可以適用於更加複雜的字元識別場景，例如，對不規則字元的識別，對無語義字元的識別等，還可以適用於圖像識別等場景，例如，圖像審核、圖像分析等。

可以理解，本發明提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本發明不再贅述。

此外，本發明還提供了裝置、電子設備、電腦可讀儲存介質、程式，上述均可用來實現本發明提供的任一種字元識別方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

圖4示出根據本發明實施例的字元識別裝置的方塊圖，如圖4所示，所述裝置包括：獲取部分41，被配置為獲取待識別的目標圖像；確定部分42，被配置為基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的；識別部分43，被配置為基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。

在一個可能的實現方式中，所述確定部分42，還被配置為對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果；根據所述第一圖像特徵的編碼結果，確定所述目標圖像的第二圖像特徵；基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵。

在一個可能的實現方式中，所述確定部分42，還被配置為依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果。

在一個可能的實現方式中，所述確定部分42，還被配置為針對所述至少一級第一編碼處理中的一級第一編碼處理，利用N個第一編碼節點依次對所述第一編碼節點的輸入資訊進行編碼，得到N個第一編碼節點的輸出結果；其中，在1＜i≤N的情況下，第i個第一編碼節點的輸入資訊包括第i-1個第一編碼節點的輸出結果，N和i為正整數；根據所述N個第一編碼節點的輸出結果，得到所述第一圖像特徵的編碼結果。

在一個可能的實現方式中，所述確定部分42，還被配置為根據所述位置向量和所述第二圖像特徵，確定注意力權重；利用所述注意力權重對所述第一圖像特徵進行特徵加權，得到所述目標圖像的字元特徵。

在一個可能的實現方式中，所述編碼部分，還被配置為針對所述至少一級第二編碼處理中的一級第二編碼處理，利用M個第二編碼節點依次對所述第二編碼節點的輸入資訊進行編碼，得到第M個第二編碼節點的輸出結果；其中，在1＜j≤M的情況下，第j個第二編碼節點的輸入資訊包括第i-1個第二編碼節點的輸出結果，M和j為正整數；根據所述第M個第二編碼節點的輸出結果，得到所述位置向量。

在一個可能的實現方式中，所述識別部分43，還被配置為提取所述目標圖像的語義特徵；基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果。

在一個可能的實現方式中，所述識別部分43，還被配置為基於獲取的第二預設信息，依次確定所述目標圖像在至少一個時間步的語義特徵；基於所述目標圖像在至少一個時間步的語義特徵和所述字元特徵，得到所述目標圖像在至少一個時間步的字元識別結果。

在一個可能的實現方式中，所述識別部分43，還被配置為對所述第二預設資訊進行至少一級第三編碼處理，得到所述至少一個時間步中第一個時間步的語義特徵；對所述目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，得到所述目標圖像在第k個時間步的語義特徵，其中，k為大於1的整數。

在本發明實施例以及其他的實施例中，“部分”可以是部分電路、部分處理器、部分程式或軟體等等，當然也可以是單元，還可以是模組也可以是非模組化的。

在一些實施例中，本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

圖5是根據一示例性實施例示出的一種字元識別裝置800的方塊圖。例如，裝置800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等。

參照圖5，裝置800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出（I/O）的介面812，感測器組件814，以及通信組件816。

處理組件802通常控制裝置800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的資料以支援在裝置800的操作。這些資料的示例包括用於在裝置800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，訊息，圖片，視頻等。記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電可擦除可程式設計唯讀記憶體（EEPROM），可擦除可程式設計唯讀記憶體（EPROM），可程式設計唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為裝置800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為裝置800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述裝置800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器（LCD）和觸摸面板（TP）。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當裝置800處於操作模式，如拍攝模式或視訊模式時，前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風（MIC），當裝置800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O介面812為處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為裝置800提供各個方面的狀態評估。例如，感測器組件814可以檢測到裝置800的打開/關閉狀態，組件的相對定位，例如所述組件為裝置800的顯示器和小鍵盤，感測器組件814還可以檢測裝置800或裝置800一個組件的位置改變，使用者與裝置800接觸的存在或不存在，裝置800方位或加速/減速和裝置800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於裝置800和其他設備之間有線或無線方式的通信。裝置800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信（NFC）模組，以促進短程通信。例如，在NFC模組可基於射頻識別（RFID）技術，紅外資料協會（IrDA）技術，超寬頻（UWB）技術，藍牙（BT）技術和其他技術來實現。

在示例性實施例中，裝置800可以被一個或多個應用專用積體電路（ASIC）、數位訊號處理器（DSP）、數位信號處理設備（DSPD）、可程式設計邏輯器件（PLD）、現場可程式設計閘陣列（FPGA）、控制器、微控制器、微處理器或其他電子組件實現，用於執行上述方法。

在示例性實施例中，還提供了一種電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由裝置800的處理器820執行以完成上述方法。

本發明實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用記憶體804儲存的指令，以執行上述方法。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖6是根據一示例性實施例示出的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供為一伺服器。參照圖6，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出（I/O）介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子（非窮舉的列表）包括：可擕式電腦盤、硬碟、隨機存取記憶體（RAM）、唯讀記憶體（ROM）、可擦式可程式設計唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體（SRAM）、可擕式壓縮磁碟唯讀記憶體（CD-ROM）、數位多功能盤（DVD）、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多個程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等，以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路—包括局域網(LAN)或廣域網路(WAN)—連接到使用者電腦，或者，可以連接到外部電腦（例如利用網際網路服務提供者來通過網際網路連接）。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列（FPGA）或可程式設計邏輯陣列（PLA），該電子電路可以執行電腦可讀程式指令，從而實現本發明的各個方面。

這裡參照根據本發明實施例的方法、裝置（系統）和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本發明的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

工業實用性本發明實施例中，可以獲取待識別的目標圖像，然後基於確定的位置向量以及目標圖像的第一圖像特徵，得到目標圖像的字元特徵，再基於字元特徵對目標圖像中的字元進行識別，得到目標圖像的字元識別結果。這裡，位置向量是基於預設資訊序列中字元的位置特徵確定的，可以表示字元之間的位置特徵，從而在字元識別過程中，可以增加字元之間的位置特徵對字元識別結果的影響，減少字元識別過程對語義特徵的依賴，提高字元識別的準確率。

41:獲取部分 42:確定部分 43:識別部分 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音頻組件 812:輸入/輸出介面 814:感測器組件 816:通信組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入輸出介面 S11~S13:步驟

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本發明的實施例，並與說明書一起用於說明本發明的技術方案。圖1示出根據本發明實施例的字元識別方法的流程圖。圖2示出根據本發明實施例的確定目標圖像的第二圖像特徵一示例的方塊圖。圖3示出根據本發明實施例的利用神經網路得到字元識別結果一示例的方塊圖。圖4示出根據本發明實施例的字元識別裝置一示例的方塊圖。圖5示出根據本發明實施例的字元識別裝置一示例的方塊圖。圖6示出根據本發明實施例的電子設備示例的方塊圖。

S11~S13:步驟

Claims

一種字元識別方法，包括：獲取待識別的目標圖像；基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵；其中，所述位置向量是基於預設資訊序列中字元的位置特徵確定的；基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果。
根據請求項1所述的方法，其中，所述基於確定的位置向量以及所述目標圖像的第一圖像特徵，得到所述目標圖像的字元特徵，包括：對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果；根據所述第一圖像特徵的編碼結果，確定所述目標圖像的第二圖像特徵；基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵。
根據請求項2所述的方法，其中，所述對所述目標圖像的第一圖像特徵進行編碼，得到所述第一圖像特徵的編碼結果，包括：依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果。
根據請求項3所述的方法，其中，所述依次對所述第一圖像特徵的多個第一維度特徵向量進行至少一級第一編碼處理，得到所述第一圖像特徵的編碼結果，包括：針對所述至少一級第一編碼處理中的一級第一編碼處理，利用N個第一編碼節點依次對所述第一編碼節點的輸入資訊進行編碼，得到N個第一編碼節點的輸出結果；其中，在1＜i≤N的情況下，第i個第一編碼節點的輸入資訊包括第i-1個第一編碼節點的輸出結果，N和i為正整數；根據所述N個第一編碼節點的輸出結果，得到所述第一圖像特徵的編碼結果。
根據請求項4所述的方法，其中，所述第一編碼節點的輸入資訊還包括所述第一圖像特徵的第一維度特徵向量或者前一級第一編碼處理的輸出結果。
根據請求項2至5任一項所述的方法，其中，所述基於確定的位置向量、所述第一圖像特徵以及所述第二圖像特徵，得到所述目標圖像的字元特徵，包括：根據所述位置向量和所述第二圖像特徵，確定注意力權重；利用所述注意力權重對所述第一圖像特徵進行特徵加權，得到所述目標圖像的字元特徵。
根據請求項1至5任一項所述的方法，還包括：獲取包括至少一個第一預設資訊的預設資訊序列；依次對所述至少一個第一預設資訊進行至少一級第二編碼處理，得到所述位置向量。
根據請求項7所述的方法，其中，所述依次對所述至少一個第一預設資訊進行至少一級第二編碼處理，得到所述位置向量，包括：針對所述至少一級第二編碼處理中的一級第二編碼處理，利用M個第二編碼節點依次對所述第二編碼節點的輸入資訊進行編碼，得到第M個第二編碼節點的輸出結果；其中，在1＜j≤M的情況下，第j個第二編碼節點的輸入資訊包括第i-1個第二編碼節點的輸出結果，M和j為正整數；根據所述第M個第二編碼節點的輸出結果，得到所述位置向量。
根據請求項8所述的方法，其中，所述第二編碼節點的輸入資訊還包括所述第一預設資訊或者前一級第二編碼處理的輸出結果。
根據請求項1至5任一項所述的方法，其中，所述基於所述字元特徵對所述目標圖像中的字元進行識別，得到所述目標圖像的字元識別結果，包括：提取所述目標圖像的語義特徵；基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果。
根據請求項10所述的方法，其中，所述提取所述目標圖像的語義特徵，包括：基於獲取的第二預設資訊，依次確定所述目標圖像在至少一個時間步的語義特徵；所述基於所述目標圖像的語義特徵與所述字元特徵，得到所述目標圖像的字元識別結果，包括：基於所述目標圖像在至少一個時間步的語義特徵和所述字元特徵，得到所述目標圖像在至少一個時間步的字元識別結果。
根據請求項11所述的方法，其中，所述基於獲取的第二預設資訊，依次確定所述目標圖像在至少一個時間步的語義特徵，包括：對所述第二預設資訊進行至少一級第三編碼處理，得到所述至少一個時間步中第一個時間步的語義特徵；對所述目標圖像在第k-1個時間步的字元識別結果進行至少一級第三編碼處理，得到所述目標圖像在第k個時間步的語義特徵，其中，k為大於1的整數。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體儲存的指令，以執行請求項1至12中任一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至12中任一項所述的方法。