TW201732651A

TW201732651A - 一種單詞的分割方法和裝置

Info

Publication number: TW201732651A
Application number: TW106104295A
Authority: TW
Inventors: Wen-Meng Zhou; meng-li Cheng; xu-dong Mao; Xing Shi; Wei Chu
Original assignee: Alibaba Group Services Ltd
Priority date: 2016-02-29
Filing date: 2017-02-09
Publication date: 2017-09-16
Also published as: US10817741B2; CN107133622B; CN107133622A; US20190019055A1; TWI744283B; WO2017148265A1

Abstract

本發明提供一種單詞的分割方法和裝置，該方法包括：獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。藉由本發明的技術方案，精準的進行單詞分割，使得單詞分割的準確率得到提高，提高單詞分割的速度，提高使用者使用體驗。

Description

一種單詞的分割方法和裝置

本發明關於網際網路技術領域，尤其關於一種單詞的分割方法和裝置。

OCR(Optical Character Recognition，光學字元辨識)是指使用電子設備檢查紙上列印的字元，並藉由檢測暗、亮的模式確定其形狀，接著使用字元識別方法將形狀翻譯成電腦文字的過程；即，針對印刷體字元，採用光學的方式將紙質文件中的文字轉換成為黑白點陣的影像檔，並藉由識別軟體將該圖像中的文字轉換成文字格式，以供文書處理軟體進一步進行編輯加工的技術。因此，基於OCR技術，可以將文字圖像轉換成數字形式。

儘管OCR技術已經較為成熟，但由於圖像背景複雜，圖像中的文字字體、大小及顏色等變化繁多，再加上拍攝視角的變化，以及不同光照的影響等諸多因素，使得快速、準確地檢測出圖像中的文字區域的難度較大。

本發明提供一種單詞的分割方法和裝置，以對圖像進行單詞分割，並快速、準確地檢測出圖像中的文字區域，提高使用者使用體驗。技術方案如下：

本發明提供一種單詞的分割方法，所述方法包括以下步驟：獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。

所述獲取樣本圖像，包括：從字體庫中抽取至少兩個字母圖像，並對所述至少兩個字母圖像進行拼接，得到拼接圖像，並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記；將所述拼接圖像標記為所述樣本圖像；或者，對所述拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行所述操作之後的圖像標記為所述樣本圖像。

所述方法進一步包括：在利用卷積神經網路對所述樣本圖像進行處理之前，將所述樣本圖像轉換成灰階的樣本圖像，並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像，並對所述大小為M*N的樣本圖像進行標準化處理；在利用所述卷積神經網路對所述待測試圖像進行處理之前，將所述待測試圖像轉換成灰階的待測試圖像，並將所述灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對所述大小為M*L的待測試圖像進行標準化處理；其中，所述M為正整數、所述N為正整數、所述L為正整數，且所述M和所述L的比值，與所述待測試圖像的長寬比相同。

利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量，包括：將所述待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，以得到K+1個不同的待測試圖像，所述K為正整數；利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到所述待測試圖像對應的第二特徵向量。

所述得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程，具體包括：利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量，並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。

利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割，包括：將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到單詞間隔概率值的極大值位置，並利用所述極大值位置對所述待測試圖像進行單詞分割；或者，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用所述極小值位置對所述待測試圖像進行單詞分割。

本發明提供一種單詞的分割裝置，所述裝置具體包括：訓練模組，用於獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；預測模組，用於獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。

所述訓練模組，具體用於在獲取所述樣本圖像的過程中，從字體庫中抽取至少兩個字母圖像，並對所述至少兩個字母圖像進行拼接，得到拼接圖像，並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記；將所述拼接圖像標記為所述樣本圖像；或者，對所述拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行所述操作之後的圖像標記為所述樣本圖像。

所述訓練模組，還用於在利用卷積神經網路對樣本圖像進行處理之前，將所述樣本圖像轉換成灰階的樣本圖像，並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像，並對所述大小為M*N的樣本圖像進行標準化處理；所述預測模組，還用於在利用卷積神經網路對待測試圖像進行處理之前，將待測試圖像轉換成灰階的待測試圖像，並將灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對所述大小為M*L的待測試圖像進行標準化處理；其中，所述M為正整數、所述N為正整數、所述L為正整數，且所述M和所述L的比值，與所述待測試圖像的長寬比相同。

所述預測模組，具體用於在利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量的過程中，將所述待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，以得到K+1個不同的待測試圖像，所述K為正整數；利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到所述待測試圖像對應的第二特徵向量。

所述預測模組，具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中，利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量，並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。

所述預測模組，具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割的過程中，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到單詞間隔概率值的極大值位置，並利用所述極大值位置對所述待測試圖像進行單詞分割；或者，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用所述極小值位置對所述待測試圖像進行單詞分割。

基於上述技術方案，本發明實施例中，藉由卷積神經網路對圖像進行單詞分割，可以有效地將包含多個單詞的圖像分割成若干個小圖像，保證每個小圖像僅包含一個單詞，並且不會將一個單詞分割到多個小圖像中，從而精準的進行單詞分割，使得單詞分割的準確率得到提高，並且提高單詞分割的速度，可以快速、準確地檢測出圖像中的文字區域，提高使用者使用體驗。

11‧‧‧訓練模組

12‧‧‧預測模組

為了更加清楚地說明本發明實施例或者現有技術中的技術方案，下面將對本發明實施例或者現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明中記載的一些實施例，對於本領域普通技術人員來講，還可以根據這些附圖獲得其他的附圖。

圖1和圖2是本發明一種實施方式中的卷積神經網路的結構示意圖；圖3是本發明一種實施方式中的單詞的分割方法的流程圖；圖4是本發明一種實施方式中的樣本圖像的示意圖；圖5是本發明一種實施方式中的概率值結果圖的示意圖；圖6是本發明一種實施方式中的電子設備的硬體結構圖；圖7是本發明一種實施方式中的單詞的分割裝置的結構圖。

在本發明使用的用語僅僅是出於描述特定實施例的目的，而非限制本發明。本發明和申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也意於包括多數形式，除非上下文清楚地表示其它含義。還應當理解，本文中使用的用語“和/或”是指包含一個或多個相關的列出專案的任何或所有可能組合。

應當理解，儘管在本發明可能採用用語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些用語。這些用語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本發明範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，此外，所使用的詞語“如果”可以被解釋成為“在......時”或“當......時”或“回應於確定”。

為了從圖像中檢測出文字區域，如從圖像的單行文字中分割出英文單詞，在申請人已知的一種技術中，可以採用如下步驟：步驟1、將圖像轉換為灰階圖像。步驟2、對灰階圖像進行中值濾波。步驟3、對中值濾波後的圖像進行二值化處理，並使用連通分量進行標記，將各聯通區作為文字初步候選區域。步驟4、根據圖像中文字的先驗知識設置剔除判決條件，以文字候選區域的文字相似度、文字的筆劃寬度、高度等特徵，剔除不是文字的候選區域。步驟5、對步驟4中未被提出的候選區域進行形態學閉處理，並使用卷積神經網路判斷該文字區域，剔除不是文字的區域。步驟6、根據文字區域的間隔進行統計，若相鄰區域間隔大於人工設定的距離閾值，則將兩個區域分開。

在上述方式中，二值化過程對於複雜背景的圖像來說，可靠性非常差，很容易失敗，導致後續結果錯誤。而且，該方法引入了很多先驗的人工知識和規則，例如，利用文字的先驗知識設置判決條件，利用文字筆劃的寬度高度來剔除候選文字區域等，這些特徵都隨著場景的變化而變化，藉由人工規則的方式很難適應所有場景。而且，該方法對單詞的分割，是基於字元間距離大小設定人工閾值來判斷，對於字元間距稍大單詞，就容易把其都分割開。

針對上述發現，本發明實施例提出一種單詞的分割方法，藉由卷積神經網路對圖像進行單詞分割，可有效地將包含多個單詞的圖像分割成若干個小圖像，保證每個小圖像僅包含一個單詞，且不會將一個單詞分割到多個小圖像中，從而精準的進行單詞分割，單詞分割的準確率得到提高，並提高單詞分割的速度，可以快速、準確地檢測出圖像中的文字區域，提高使用者使用體驗。與上述已知技術相比，不需要對圖像進行二值化處理，提高演算法的可靠性，避免二值化過程導致的結果錯誤問題。此外，不需要引入很多先驗的人工知識和規則，藉由給卷積神經網路提供大量的樣本圖像，可以自動辨別單詞與單詞之間的間隔，這種方式完全由資料驅動，不需要人工干預。而且，藉由卷積神經網路進行加速，在保證識別準確率的前提下，識別速度很快。

其中，本發明實施例中所指的卷積神經網路均是全卷積神經網路。

本發明實施例中，為了完成單詞的分割，需要設計有效的卷積神經網路，並使用該卷積神經網路進行單詞分割。如圖1所示，為卷積神經網路的結構示意圖，卷積神經網路的輸入是二維圖像，卷積神經網路的輸出是單詞間隔概率值和/或非單詞間隔概率值，例如，卷積神經網路的輸出可以是兩個神經元，一個神經元輸出單詞間隔概率值，其表示當前圖像是單詞間隔的概率值，另一個神經元輸出非單詞間隔概率值，其表示當前圖像不是單詞間隔的概率值。此外，卷積神經網路的結構單元可以包括卷積層，池化層，全連接層等。

在卷積層中，藉由使用卷積核對圖像進行卷積運算，可以使圖像特徵增強，卷積層在空間範圍內使用卷積核進行卷積運算，該卷積核可以是一個m*n大小的矩陣，卷積層的輸入與卷積核進行卷積，即可得到卷積層的輸出。卷積運算實際上是一個濾波的過程，在卷積運算中，是將圖像上點(x，y)的灰階值f(x，y)與卷積核w(x，y)進行卷積。例如，提供一個4*4的卷積核，該4*4的卷積核中包含16個數值，這16個數值的大小可以根據實際需要任意配置。按照4*4的大小在圖像上依次滑動，得到多個4*4的滑動視窗，將該4*4的卷積核與每個滑動視窗進行卷積，得到多個卷積特徵，這些卷積特徵，就是卷積層的輸出，且被提供給池化層。

在池化層中，實際上是一個降取樣過程，藉由對多個卷積特徵(卷積層的輸出)進行取最大、取最小、取平均值等操作，從而減少計算量，並保持特徵不變性。在池化層中，利用圖像局部相關性的原理，對圖像進行子抽樣，從而可以減少資料處理量，並保留有用資訊。在一個例子中，可以利用如下公式對卷積特徵進行池化處理：，並得到池化處理後的特徵。其中，s表示對應的池化處理時的視窗大小(s*s)，m和n均為設定的數值，j和k為卷積層輸出的卷積特徵，i表示針對第i個圖像。

在池化層之後，通常可以使用啟動函數(如非線性函數)對池化層輸出的特徵進行映射，從而引入非線性因素，使得卷積神經網路藉由非線性的組合而增強表達能力。其中，啟動函數可以包括但不限於sigmoid(S型)函數、ReLU(Rectified Linear Units，整流線性單元)函數等。以ReLU函數為例進行說明，則該ReLU函數可以將池化層輸出的所有特徵中，小於0的特徵置0，而大於 0的特徵保持不變。

在全連接層中，全連接層用於將輸入給本全連接層的所有特徵進行全連接處理，從而得到一個特徵向量，且該特徵向量中會包括多個特徵。進一步的，全連接層還可以採用1*1的卷積層，以構成全卷積的網路。

在圖1中，卷積神經網路是以兩個卷積層、兩個池化層和兩個全連接層為例，當然，在實際應用中，卷積層的數量、池化層的數量和全連接層的數量還可以為其它數值。例如，在一種較佳的實施方式中，卷積層的數量可以為三個，池化層的數量可以為兩個，全連接層的數量可以為兩個，具體的網路結構還可以如圖2所示。在圖2中，卷積神經網路由三個卷積層、兩個池化層以及兩個全連接層構成，且每個池化層之後還可以包括一個ReLU。

基於上述卷積神經網路，本發明實施例中提出的單詞的分割方法，可以包括兩個階段，第一階段為訓練階段，第二階段為預測階段。在訓練階段中，藉由使用大量的樣本圖像，對卷積神經網路進行訓練，從而得到一個有識別單詞間隔能力的模型。在預測階段中，藉由訓練得到的卷積神經網路，對當前輸出的待測試圖像進行預測，並利用預測結果對待測試圖像進行單詞分割。

參見圖3所示的單詞的分割方法的流程圖，訓練階段的處理流程可以如步驟301所示，預測階段的處理流程可以步驟302所示。在圖3中：

步驟301，獲取樣本圖像，該樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對樣本圖像進行處理，得到該樣本圖像對應的第一特徵向量、該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。

步驟302，獲取待測試圖像，並利用該卷積神經網路對該待測試圖像進行處理，得到該待測試圖像對應的第二特徵向量、以及該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對該待測試圖像進行單詞分割。

本發明實施例中，第一特徵向量和第二特徵向量只是為了區分樣本圖像對應的特徵向量和待測試圖像對應的特徵向量，將樣本圖像對應的特徵向量稱為第一特徵向量，並將待測試圖像對應的特徵向量稱為第二特徵向量。

針對步驟301，在獲取樣本圖像的過程中，可以從字體庫中抽取至少兩個字母圖像，並對至少兩個字母圖像進行拼接，得到拼接圖像，並為該拼接圖像設定單詞間隔標記或者非單詞間隔標記。之後，可以將該拼接圖像標記為樣本圖像；或者，對該拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行操作之後的圖像標記為樣本圖像。

其中，在設計好卷積神經網路之後，為了對卷積神經網路進行訓練，需要獲取大量的樣本圖像，每個樣本圖像的處理過程均相同，即步驟301，因此，以一個樣本圖像的處理為例進行說明。在樣本圖像中，需要設定單詞間隔標記或者非單詞間隔標記，用以表示樣本圖像的每個區域是否是單詞間區域。

例如，針對由單詞a和單詞b組成的樣本圖像，該樣本圖像可以為ab，且a和b之間沒有空格，這樣，可以為該樣本圖像設定非單詞間隔標記，如標記0。或者，針對由單詞a和單詞b組成的樣本圖像，該樣本圖像可以為ab，且a和b之間有空格，這樣，可以為該樣本圖像設定單詞間隔標記。

由於對卷積神經網路進行訓練時，需要獲取大量的樣本圖像，如需要上百萬的樣本圖像，針對如此多的樣本圖像，無法藉由人工方式，在每個樣本圖像中設定單詞間隔標記或者非單詞間隔標記。因此，本發明實施例中，可以從字體庫中抽取至少兩個字母圖像，並對該至少兩個字母圖像進行拼接，得到拼接圖像，並直接為拼接圖像設定單詞間隔標記或者非單詞間隔標記，從而不需要藉由人工方式在每個樣本圖像中設定單詞間隔標記或者非單詞間隔標記。例如，可以從字體庫中抽取字母圖像a和字母圖像b，並將這兩個字母圖像拼接成單詞ab，假設ab之間沒有空格，則為該拼接成的圖像設定非單詞間隔標記。

進一步的，可以直接將拼接圖像標記為樣本圖像。或者，考慮到字體庫中的圖像品質很高，沒有任何形變和雜訊干擾，與實際採集到的真實圖像有一定差距，因此，還可以對拼接圖像進行隨機的平移操作、旋轉操作、拉伸操作，並添加一定程度的高斯雜訊，從而使得上述操作之後的圖像盡可能地接近真實圖像，並可以將進行上述操作之後的圖像標記為樣本圖像，如圖4所示。

針對步驟301，在利用卷積神經網路對樣本圖像進行處理之前，還可以將樣本圖像轉換成灰階的樣本圖像，並將灰階的樣本圖像轉換成大小為M*N的樣本圖像，對大小為M*N的樣本圖像進行標準化處理，並將標準化處理後的樣本圖像輸入到卷積神經網路，利用卷積神經網路對樣本圖像進行處理。

其中，M為正整數、且N為正整數。在一個例子中，M和N可以均為32，基於此，步驟301中獲取的樣本圖像可以為一個大小為32*32的樣本圖像，或者，當步驟301中獲取的樣本圖像不是大小為32*32的樣本圖像時，則需要將步驟301中獲取的樣本圖像轉換成大小為32*32的樣本圖像。

針對大小為32*32的樣本圖像，還可以進行標準化處理，其公式可以為：。在上述公式中，p(i,j)表示樣本圖像(灰階的樣本圖像)的一個像素值，i表示樣本圖像中的橫座標，j表示樣本圖像中的縱座標，p(i,j)就是在像素位置(i,j)的像素值。n表示樣本圖像預處理後的像素個數。p’(i,j)為標準化後的像素值。

其中，進行標準化處理的原因是：由於樣本圖像的輸入資料的單位不同，有些輸入資料的範圍可能特別大，其導致的結果是收斂慢、訓練時間長。而且，資料範圍大的輸入資料在模式分類中的作用可能會偏大，而資料範圍小的輸入資料在模式分類中的作用可能會偏小，因此，可以藉由對輸入資料進行標準化處理，將輸入資料映射到[-128,+128]區間、或其它區間。

針對步驟301，可以利用卷積神經網路對樣本圖像進行處理，最終得到該樣本圖像對應的第一特徵向量、該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。例如，基於圖2所示的卷積神經網路，將樣本圖像輸入到卷積層，並對樣本圖像進行卷積處理，並將卷積處理結果輸出給池化層，對卷積處理結果進行池化處理，並將池化處理結果輸出給ReLU函數，利用ReLU函數對池化處理結果進行映射，並將映射結果輸出給卷積層，以此類推，一直到進行全連接處理，得到第一特徵向量以及該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。針對卷積神經網路內的處理過程，本發明實施例中不再贅述，只要藉由卷積神經網路，得到第一特徵向量以及該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值即可。

由於卷積神經網路會對大量的樣本圖像進行處理，如對上百萬的樣本圖像進行處理，因此，利用卷積神經網路對樣本圖像進行處理的過程，可以藉由呼叫CAFFE(Convolutional Architecture for Fast Feature Embedding，卷積神經網路框架)，在GPU(Graphics Processing Unit，圖形處理器)集群上對樣本圖像進行處理，即同時對多個樣本圖像進行處理，從而加快處理速度。

基於上述過程，即可以訓練得到卷積神經網路，藉由該卷積神經網路可以對當前輸出的待測試圖像進行預測，並對待測試圖像進行單詞分割。

針對步驟302，在獲取待測試圖像的過程中，待測試圖像是指需要進行單詞分割的圖像，對於如何獲取待測試圖像的方式，在此不再贅述。

針對步驟302，在利用卷積神經網路對待測試圖像進行處理之前，還可以將該待測試圖像轉換成灰階的待測試圖像，並將灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對大小為M*L的待測試圖像進行標準化處理，之後，將標準化處理後的待測試圖像輸入到卷積神經網路。

其中，M為正整數、L為正整數，M和L的比值與待測試圖像的長寬比相同。在一個例子中，M可以為32。假設步驟302中獲取的待測試圖像的長為64，寬為60，則將待測試圖像轉換成大小為32*30的待測試圖像，即L=30。

針對大小為M*L的待測試圖像，還可以進行標準化處理，其公式可以為：。p(i,j)表示待測試圖像(灰階的待測試圖像)的一個像素值，i表示待測試圖像中的橫座標，j表示待測試圖像中的縱座標，p(i,j)就是在像素位置(i,j)的像素值。n表示待測試圖像預處理後的像素個數。p’(i,j)為標準化後的像素值。

其中，進行標準化處理的原因是：由於待測試圖像的輸入資料的單位不同，有些輸入資料的範圍可能特別大，其導致的結果是收斂慢、訓練時間長。而且，資料範圍大的輸入資料在模式分類中的作用可能會偏大，而資料範圍小的輸入資料在模式分類中的作用可能會偏小，因此，可以藉由對輸入資料進行標準化處理，將輸入資料映射到[-128,+128]區間、或其它區間。

在實際應用中，針對獲取的待測試圖像，可以將待測試圖像的儲存類型設置為浮點型，使得待測試圖像中的像素值可以包括小數點後的位置。例如，當像素值為1.2時，使用浮點型儲存待測試圖像時，像素值是真實的像素值1.2，而使用其它類型儲存待測試圖像時，像素值可能是不真實的像素值1。

針對步驟302，可以利用卷積神經網路對待測試圖像進行處理，最終得到該待測試圖像對應的第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。例如，基於圖2所示的卷積神經網路，將待測試圖像輸入到卷積層，並對待測試圖像進行卷積處理，並將卷積處理結果輸出給池化層，對卷積處理結果進行池化處理，並將池化處理結果輸出給ReLU函數，利用ReLU函數對池化處理結果進行映射，並將映射結果輸出給卷積層，以此類推，一直到進行全連接處理，得到第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。針對卷積神經網路內的處理過程，本發明實施例中不再贅述，只要藉由卷積神經網路，得到第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值即可。

本發明實施例中，針對得到第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程，在利用卷積神經網路得到第二特徵向量後，還可以利用卷積神經網路獲得該第二特徵向量匹配的多個第一特徵向量，並將這多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。具體的，將第一特徵向量對應的單詞間隔概率值作為該第二特徵向量對應的單詞間隔概率值，將第一特徵向量對應的非單詞間隔概率值作為該第二特徵向量對應的非單詞間隔概率值。

其中，針對獲得該第二特徵向量匹配的多個第一特徵向量的過程，由卷積神經網路自身的演算法決定，本發明實施例中不再詳加贅述。

其中，如果在步驟301中得到並記錄第一特徵向量對應的單詞間隔概率值，則在步驟302中，得到第二特徵向量對應的單詞間隔概率值。如果在步驟301中得到並記錄第一特徵向量對應的非單詞間隔概率值，則在步驟302中，得到第二特徵向量對應的非單詞間隔概率值。如果在步驟301中得到並記錄第一特徵向量對應的單詞間隔概率值和非單詞間隔概率值，則在步驟302中，得到第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。

其中，第二特徵向量對應的單詞間隔概率值表示第二特徵向量對應的待測試圖像位置(如第二特徵向量對應的多個第一特徵向量在待測試圖像中對應的位置)是單詞間隔的概率值，第二特徵向量對應的非單詞間隔概率值表示第二特徵向量對應的待測試圖像位置(如第二特徵向量對應的多個第一特徵向量在待測試圖像中對應的位置)不是單詞間隔的概率值。例如，第二特徵向量對應於待測試圖像上的位置1(水平方向x=16的垂直位置，該位置表示一條分隔號區域，此處僅以一個位置為例)，位置1是待測試圖像上的單詞best中的e所在位置，假設第二特徵向量對應的單詞間隔概率值為5%，表示位置1是單詞間隔的概率值僅為5%，假設第二特徵向量對應的非單詞間隔概率值為98%，表示位置1不是單詞間隔的概率值為98%。

針對步驟302，在利用卷積神經網路對待測試圖像進行處理，得到待測試圖像對應的第二特徵向量的過程中，可以將待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，得到K+1個不同的待測試圖像，K為正整數。利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到待測試圖像對應的第二特徵向量。

在實際應用中，由於池化處理過程實際上是一個降取樣(下取樣)過程，藉由對多個特徵進行取最大、取最小、取平均值等操作，將待測試圖像的大量特徵簡化為少量特徵，使得輸出特徵比待測試圖像的特徵數量少很多。例如，待測試圖像有1000個特徵，但是經過卷積神經網路對該待測試圖像進行處理後，得到的第二特徵向量中只包括50個特徵。這樣，最終得到的第二特徵向量無法完全體現出待測試圖像的所有特徵。基於此，本發明實施例中，可以將待測試圖像向左平移K次或者向右平移K次，得到K+1個不同的待測試圖像，在利用卷積神經網路對K+1個不同的待測試圖像進行處理後，可以得到K+1個不同的待測試圖像分別對應的特徵向量，並將K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到待測試圖像對應的第二特徵向量，這樣增加了特徵數量，使得第二特徵向量可以體現出待測試圖像的所有特徵。例如，當K為19時，則第二特徵向量中可以包括50*20個特徵。

其中，以將待測試圖像向左平移K次，K為5為例進行說明，針對一個32*30的待測試圖像1，向左平移一個像素，變成一個31*30的圖像，在該31*30的圖像最右側之後添加一列資料，得到一個32*30的待測試圖像2，在最右側之後添加的一列資料可以與31*30的圖像中的第31列資料相同。針對該32*30的待測試圖像1，向左平移兩個像素，變成一個30*30的圖像，在該30*30的圖像最右側之後添加兩列資料，得到一個32*30的待測試圖像3，在最右側之後添加的兩列資料可以與30*30的圖像中的第30列資料相同。針對該32*30的待測試圖像1，向左平移三個像素，以此類推，一直到向左平移五個像素，這樣可以得到待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6，利用卷積神經網路對待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6分別進行處理，得到6個不同的待測試圖像分別對應的特徵向量，並將6個不同的待測試圖像分別對應的特徵向量組合在一起，得到第二特徵向量。

由於利用卷積神經網路對待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6分別進行處理的過程，共用了大量的卷積操作，從而使得計算速度得到大大提高，加速了預測過程。

針對步驟302，在利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對待測試圖像進行單詞分割的過程中，方式一、將第二特徵向量對應的待測試圖像位置作為橫座標，將第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從概率值結果圖中找到單詞間隔概率值的極大值位置，並利用極大值位置對待測試圖像進行單詞分割。或者，方式二、將第二特徵向量對應的待測試圖像位置作為橫座標，將第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用極小值位置對待測試圖像進行單詞分割。

其中，將第二特徵向量對應的待測試圖像位置作為橫座標，將第二特徵向量對應的單詞間隔概率值/非單詞間隔概率值作為縱座標的過程，實際上是將第二特徵向量匹配的多個第一特徵向量在待測試圖像對應的位置作為橫座標，並將這多個第一特徵向量對應的單詞間隔概率值/非單詞間隔概率值作為縱座標。

上述方式一和方式二的處理類似，後續以方式一的處理為例進行說明。

針對方式一，在得到第二特徵向量對應的單詞間隔概率值之後，可以將第二特徵向量對應的待測試圖像位置作為橫座標，將第二特徵向量對應的單詞間隔概率值作為縱座標，具體的，將第二特徵向量匹配的多個第一特徵向量在待測試圖像中的位置作為橫座標，並將每個第一特徵向量對應的單詞間隔概率值作為縱座標，得到如圖5所示的概率值結果圖。在圖5中，概率值表示當前位置是否是單詞間隔的概率，概率值越大，則指出當前位置越有可能是單詞間隔。基於此，可以從概率值結果圖中找到單詞間隔概率值的極大值位置，並利用該極大值位置對待測試圖像進行單詞分割。

在實際應用中，可以使用非極大值抑制演算法找到這些極大值位置，即圖5中分隔號的位置，該非極大值抑制演算法在電腦視覺領域中已經被廣泛應用，在此不再贅述。在找到這些極大值位置後，可以在極大值位置處將待測試圖像分割開，即可得到單一單詞的小圖像，這樣，待測試圖像被分割成多個小圖像，每個小圖像僅包含一個單詞，且不會將一個單詞分割到多個小圖像。

當上述方法應用在文字識別任務時，如果需要對單詞句子進行翻譯，則採用上述方法將待測試圖像分割成多個小圖像後，可以對每個小圖像進行單詞識別，將若干個單詞識別結果加上空格拼接在一起，完成單詞句子的翻譯，本發明實施例的上述過程中，樣本圖像和待測試圖像均是指單行圖像，且該單行中包含多個單詞的圖像。此外，單詞可以包括但不限於：英文單詞、日文單詞、德文單詞、俄文單位、法文單詞、少數民族單詞等。

基於與上述方法同樣的申請構思，本發明實施例提供一種單詞的分割裝置，該單詞的分割裝置應用在電子設備上。該單詞的分割裝置可藉由軟體實現，也可藉由硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是藉由其所在的電子設備的處理器，讀取非揮發性記憶體中對應的電腦程式指令形成的。從硬體層面而言，如圖6所示，為本發明提出的單詞的分割裝置所在的電子設備的硬體結構圖，除了圖6所示的處理器、非揮發性記憶體外，電子設備還可以包括其他硬體，如負責處理報文的轉發晶片、網路介面、記憶體等；從硬體結構上來講，該電子設備還可能是分散式設備，可能包括多個介面卡，以便在硬體層面進行報文處理的擴展。

如圖7所示，為本發明提出的單詞的分割裝置的結構圖，所述裝置包括：訓練模組11，用於獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；預測模組12，用於獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。

所述訓練模組11，具體用於在獲取所述樣本圖像的過程中，從字體庫中抽取至少兩個字母圖像，並對所述至少兩個字母圖像進行拼接，得到拼接圖像，並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記；將所述拼接圖像標記為所述樣本圖像；或者，對所述拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行所述操作之後的圖像標記為所述樣本圖像。

所述訓練模組11，還用於在利用卷積神經網路對樣本圖像進行處理之前，將所述樣本圖像轉換成灰階的樣本圖像，並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像，並對所述大小為M*N的樣本圖像進行標準化處理；所述預測模組12，還用於在利用卷積神經網路對待測試圖像進行處理之前，將待測試圖像轉換成灰階的待測試圖像，並將灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對所述大小為M*L的待測試圖像進行標準化處理；其中，所述M為正整數、所述N為正整數、所述L為正整數，且所述M和所述L的比值，與所述待測試圖像的長寬比相同。

所述預測模組12，具體用於在利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量的過程中，將所述待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，以得到K+1個不同的待測試圖像，所述K為正整數；利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到所述待測試圖像對應的第二特徵向量。

所述預測模組12，具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中，利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量，並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。

所述預測模組12，具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割的過程中，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到單詞間隔概率值的極大值位置，並利用所述極大值位置對所述待測試圖像進行單詞分割；或者，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用所述極小值位置對所述待測試圖像進行單詞分割。

其中，本發明裝置的各個模組可以集成於一體，也可以分離部署。上述模組可以合併為一個模組，也可以進一步拆分成多個子模組。

藉由以上的實施方式的描述，本領域的技術人員可以清楚地瞭解到本發明可借助軟體加必需的通用硬體平臺的方式來實現，當然也可以藉由硬體，但很多情況下前者是更佳的實施方式。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存媒體中，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本發明各個實施例所述的方法。本領域技術人員可以理解附圖只是一個較佳實施例的示意圖，附圖中的模組或流程並不一定是實施本發明所必須的。

本領域技術人員可以理解實施例中的裝置中的模組可以按照實施例描述進行分佈於實施例的裝置中，也可以進行相應變化位於不同於本實施例的一個或多個裝置中。上述實施例的模組可以合併為一個模組，也可進一步拆分成多個子模組。上述本發明實施例序號僅僅為了描述，不代表實施例的優劣。

以上揭露的僅為本發明的幾個具體實施例，但是，本發明並非侷限於此，任何本領域的技術人員能思之的變化都應落入本發明的保護範圍。

Claims

一種單詞的分割方法，所述方法包括以下步驟：獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。
根據申請專利範圍第1項所述的方法，其中，所述獲取樣本圖像，包括：從字體庫中抽取至少兩個字母圖像，並對所述至少兩個字母圖像進行拼接，得到拼接圖像，並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記；將所述拼接圖像標記為所述樣本圖像；或者，對所述拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行所述操作之後的圖像標記為所述樣本圖像。
根據申請專利範圍第1項所述的方法，其中，所述方法進一步包括：在利用卷積神經網路對所述樣本圖像進行處理之前，將所述樣本圖像轉換成灰階的樣本圖像，並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像，並對所述大小為M*N的樣本圖像進行標準化處理；在利用所述卷積神經網路對所述待測試圖像進行處理之前，將所述待測試圖像轉換成灰階的待測試圖像，並將所述灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對所述大小為M*L的待測試圖像進行標準化處理；其中，所述M為正整數、所述N為正整數、所述L為正整數，且所述M和所述L的比值，與所述待測試圖像的長寬比相同。
根據申請專利範圍第1項所述的方法，其中，利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量，包括：將所述待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，以得到K+1個不同的待測試圖像，所述K為正整數；利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到所述待測試圖像對應的第二特徵向量。
根據申請專利範圍第1或4項所述的方法，其中，所述得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程，具體包括：利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量，並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
根據申請專利範圍第1或4項所述的方法，其中，利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割，包括：將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到單詞間隔概率值的極大值位置，並利用所述極大值位置對所述待測試圖像進行單詞分割；或者，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用所述極小值位置對所述待測試圖像進行單詞分割。
一種單詞的分割裝置，所述裝置具體包括：訓練模組，用於獲取樣本圖像，所述樣本圖像包括單詞間隔標記或者非單詞間隔標記；利用卷積神經網路對所述樣本圖像進行處理，得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值；預測模組，用於獲取待測試圖像，並利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值；利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割。
根據申請專利範圍第7項所述的裝置，其中，所述訓練模組，具體用於在獲取所述樣本圖像的過程中，從字體庫中抽取至少兩個字母圖像，並對所述至少兩個字母圖像進行拼接，得到拼接圖像，並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記；將所述拼接圖像標記為所述樣本圖像；或者，對所述拼接圖像進行以下操作之一或者任意組合：平移操作、旋轉操作、拉伸操作、添加高斯雜訊，並將進行所述操作之後的圖像標記為所述樣本圖像。
根據申請專利範圍第7項所述的裝置，其中，所述訓練模組，還用於在利用卷積神經網路對樣本圖像進行處理之前，將所述樣本圖像轉換成灰階的樣本圖像，並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像，並對所述大小為M*N的樣本圖像進行標準化處理；所述預測模組，還用於在利用卷積神經網路對待測試圖像進行處理之前，將待測試圖像轉換成灰階的待測試圖像，並將灰階的待測試圖像轉換成大小為M*L的待測試圖像，並對所述大小為M*L的待測試圖像進行標準化處理；其中，所述M為正整數、所述N為正整數、所述L為正整數，且所述M和所述L的比值，與所述待測試圖像的長寬比相同。
根據申請專利範圍第7項所述的裝置，其中，所述預測模組，具體用於在利用所述卷積神經網路對所述待測試圖像進行處理，得到所述待測試圖像對應的第二特徵向量的過程中，將所述待測試圖像向左平移K次或者向右平移K次，每次平移時的平移位置不同，以得到K+1個不同的待測試圖像，所述K為正整數；利用卷積神經網路對K+1個不同的待測試圖像進行處理，得到K+1個不同的待測試圖像分別對應的特徵向量，並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起，得到所述待測試圖像對應的第二特徵向量。
根據申請專利範圍第7或10項所述的裝置，其中，所述預測模組，具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中，利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量，並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值，作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
根據申請專利範圍第7或10項所述的裝置，其中，所述預測模組，具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值，對所述待測試圖像進行單詞分割的過程中，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到單詞間隔概率值的極大值位置，並利用所述極大值位置對所述待測試圖像進行單詞分割；或者，將所述第二特徵向量對應的待測試圖像位置作為橫座標，將所述第二特徵向量對應的非單詞間隔概率值作為縱座標，得到概率值結果圖；從所述概率值結果圖中找到非單詞間隔概率值的極小值位置，並利用所述極小值位置對所述待測試圖像進行單詞分割。