TW201732651A - 一種單詞的分割方法和裝置 - Google Patents

一種單詞的分割方法和裝置 Download PDF

Info

Publication number
TW201732651A
TW201732651A TW106104295A TW106104295A TW201732651A TW 201732651 A TW201732651 A TW 201732651A TW 106104295 A TW106104295 A TW 106104295A TW 106104295 A TW106104295 A TW 106104295A TW 201732651 A TW201732651 A TW 201732651A
Authority
TW
Taiwan
Prior art keywords
image
tested
probability value
word
word interval
Prior art date
Application number
TW106104295A
Other languages
English (en)
Other versions
TWI744283B (zh
Inventor
Wen-Meng Zhou
meng-li Cheng
xu-dong Mao
Xing Shi
Wei Chu
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201732651A publication Critical patent/TW201732651A/zh
Application granted granted Critical
Publication of TWI744283B publication Critical patent/TWI744283B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本發明提供一種單詞的分割方法和裝置,該方法包括:獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值;獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。藉由本發明的技術方案,精準的進行單詞分割,使得單詞分割的準確率得到提高,提高單詞分割的速度,提高使用者使用體驗。

Description

一種單詞的分割方法和裝置
本發明關於網際網路技術領域,尤其關於一種單詞的分割方法和裝置。
OCR(Optical Character Recognition,光學字元辨識)是指使用電子設備檢查紙上列印的字元,並藉由檢測暗、亮的模式確定其形狀,接著使用字元識別方法將形狀翻譯成電腦文字的過程;即,針對印刷體字元,採用光學的方式將紙質文件中的文字轉換成為黑白點陣的影像檔,並藉由識別軟體將該圖像中的文字轉換成文字格式,以供文書處理軟體進一步進行編輯加工的技術。因此,基於OCR技術,可以將文字圖像轉換成數字形式。
儘管OCR技術已經較為成熟,但由於圖像背景複雜,圖像中的文字字體、大小及顏色等變化繁多,再加上拍攝視角的變化,以及不同光照的影響等諸多因素,使得快速、準確地檢測出圖像中的文字區域的難度較大。
本發明提供一種單詞的分割方法和裝置,以對圖像進行單詞分割,並快速、準確地檢測出圖像中的文字區域,提高使用者使用體驗。技術方案如下:
本發明提供一種單詞的分割方法,所述方法包括以下步驟: 獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值; 獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。
所述獲取樣本圖像,包括:從字體庫中抽取至少兩個字母圖像,並對所述至少兩個字母圖像進行拼接,得到拼接圖像,並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記;將所述拼接圖像標記為所述樣本圖像;或者,對所述拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行所述操作之後的圖像標記為所述樣本圖像。
所述方法進一步包括:在利用卷積神經網路對所述樣本圖像進行處理之前,將所述樣本圖像轉換成灰階的樣本 圖像,並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像,並對所述大小為M*N的樣本圖像進行標準化處理;在利用所述卷積神經網路對所述待測試圖像進行處理之前,將所述待測試圖像轉換成灰階的待測試圖像,並將所述灰階的待測試圖像轉換成大小為M*L的待測試圖像,並對所述大小為M*L的待測試圖像進行標準化處理;其中,所述M為正整數、所述N為正整數、所述L為正整數,且所述M和所述L的比值,與所述待測試圖像的長寬比相同。
利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量,包括:將所述待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,以得到K+1個不同的待測試圖像,所述K為正整數;利用卷積神經網路對K+1個不同的待測試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到所述待測試圖像對應的第二特徵向量。
所述得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程,具體包括:利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量,並將所述多個第一特徵向量對應的單 詞間隔概率值或者非單詞間隔概率值,作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割,包括:將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到單詞間隔概率值的極大值位置,並利用所述極大值位置對所述待測試圖像進行單詞分割;或者,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用所述極小值位置對所述待測試圖像進行單詞分割。
本發明提供一種單詞的分割裝置,所述裝置具體包括:訓練模組,用於獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值;預測模組,用於獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔 概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。
所述訓練模組,具體用於在獲取所述樣本圖像的過程中,從字體庫中抽取至少兩個字母圖像,並對所述至少兩個字母圖像進行拼接,得到拼接圖像,並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記;將所述拼接圖像標記為所述樣本圖像;或者,對所述拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行所述操作之後的圖像標記為所述樣本圖像。
所述訓練模組,還用於在利用卷積神經網路對樣本圖像進行處理之前,將所述樣本圖像轉換成灰階的樣本圖像,並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像,並對所述大小為M*N的樣本圖像進行標準化處理;所述預測模組,還用於在利用卷積神經網路對待測試圖像進行處理之前,將待測試圖像轉換成灰階的待測試圖像,並將灰階的待測試圖像轉換成大小為M*L的待測試圖像,並對所述大小為M*L的待測試圖像進行標準化處理;其中,所述M為正整數、所述N為正整數、所述L為正整數,且所述M和所述L的比值,與所述待測試圖像的長寬比相同。
所述預測模組,具體用於在利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量的過程中,將所述待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,以得到K+1個不同的待測試圖像,所述K為正整數;利用卷積神經網路對K+1個不同的待測試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到所述待測試圖像對應的第二特徵向量。
所述預測模組,具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中,利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量,並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值,作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
所述預測模組,具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割的過程中,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到單詞間隔概率值的極大值位置,並利用所述極大值位置對所述待測試圖像進行單詞分割;或者,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第 二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用所述極小值位置對所述待測試圖像進行單詞分割。
基於上述技術方案,本發明實施例中,藉由卷積神經網路對圖像進行單詞分割,可以有效地將包含多個單詞的圖像分割成若干個小圖像,保證每個小圖像僅包含一個單詞,並且不會將一個單詞分割到多個小圖像中,從而精準的進行單詞分割,使得單詞分割的準確率得到提高,並且提高單詞分割的速度,可以快速、準確地檢測出圖像中的文字區域,提高使用者使用體驗。
11‧‧‧訓練模組
12‧‧‧預測模組
為了更加清楚地說明本發明實施例或者現有技術中的技術方案,下面將對本發明實施例或者現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1和圖2是本發明一種實施方式中的卷積神經網路的結構示意圖;圖3是本發明一種實施方式中的單詞的分割方法的流程圖;圖4是本發明一種實施方式中的樣本圖像的示意圖;圖5是本發明一種實施方式中的概率值結果圖的示意 圖;圖6是本發明一種實施方式中的電子設備的硬體結構圖;圖7是本發明一種實施方式中的單詞的分割裝置的結構圖。
在本發明使用的用語僅僅是出於描述特定實施例的目的,而非限制本發明。本發明和申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也意於包括多數形式,除非上下文清楚地表示其它含義。還應當理解,本文中使用的用語“和/或”是指包含一個或多個相關的列出專案的任何或所有可能組合。
應當理解,儘管在本發明可能採用用語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些用語。這些用語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本發明範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,此外,所使用的詞語“如果”可以被解釋成為“在......時”或“當......時”或“回應於確定”。
為了從圖像中檢測出文字區域,如從圖像的單行文字中分割出英文單詞,在申請人已知的一種技術中,可以採用如下步驟:步驟1、將圖像轉換為灰階圖像。步驟2、對灰階圖像進行中值濾波。步驟3、對中值濾波後的圖像 進行二值化處理,並使用連通分量進行標記,將各聯通區作為文字初步候選區域。步驟4、根據圖像中文字的先驗知識設置剔除判決條件,以文字候選區域的文字相似度、文字的筆劃寬度、高度等特徵,剔除不是文字的候選區域。步驟5、對步驟4中未被提出的候選區域進行形態學閉處理,並使用卷積神經網路判斷該文字區域,剔除不是文字的區域。步驟6、根據文字區域的間隔進行統計,若相鄰區域間隔大於人工設定的距離閾值,則將兩個區域分開。
在上述方式中,二值化過程對於複雜背景的圖像來說,可靠性非常差,很容易失敗,導致後續結果錯誤。而且,該方法引入了很多先驗的人工知識和規則,例如,利用文字的先驗知識設置判決條件,利用文字筆劃的寬度高度來剔除候選文字區域等,這些特徵都隨著場景的變化而變化,藉由人工規則的方式很難適應所有場景。而且,該方法對單詞的分割,是基於字元間距離大小設定人工閾值來判斷,對於字元間距稍大單詞,就容易把其都分割開。
針對上述發現,本發明實施例提出一種單詞的分割方法,藉由卷積神經網路對圖像進行單詞分割,可有效地將包含多個單詞的圖像分割成若干個小圖像,保證每個小圖像僅包含一個單詞,且不會將一個單詞分割到多個小圖像中,從而精準的進行單詞分割,單詞分割的準確率得到提高,並提高單詞分割的速度,可以快速、準確地檢測出圖像中的文字區域,提高使用者使用體驗。與上述已知技術 相比,不需要對圖像進行二值化處理,提高演算法的可靠性,避免二值化過程導致的結果錯誤問題。此外,不需要引入很多先驗的人工知識和規則,藉由給卷積神經網路提供大量的樣本圖像,可以自動辨別單詞與單詞之間的間隔,這種方式完全由資料驅動,不需要人工干預。而且,藉由卷積神經網路進行加速,在保證識別準確率的前提下,識別速度很快。
其中,本發明實施例中所指的卷積神經網路均是全卷積神經網路。
本發明實施例中,為了完成單詞的分割,需要設計有效的卷積神經網路,並使用該卷積神經網路進行單詞分割。如圖1所示,為卷積神經網路的結構示意圖,卷積神經網路的輸入是二維圖像,卷積神經網路的輸出是單詞間隔概率值和/或非單詞間隔概率值,例如,卷積神經網路的輸出可以是兩個神經元,一個神經元輸出單詞間隔概率值,其表示當前圖像是單詞間隔的概率值,另一個神經元輸出非單詞間隔概率值,其表示當前圖像不是單詞間隔的概率值。此外,卷積神經網路的結構單元可以包括卷積層,池化層,全連接層等。
在卷積層中,藉由使用卷積核對圖像進行卷積運算,可以使圖像特徵增強,卷積層在空間範圍內使用卷積核進行卷積運算,該卷積核可以是一個m*n大小的矩陣,卷積層的輸入與卷積核進行卷積,即可得到卷積層的輸出。卷積運算實際上是一個濾波的過程,在卷積運算中,是將 圖像上點(x,y)的灰階值f(x,y)與卷積核w(x,y)進行卷積。例如,提供一個4*4的卷積核,該4*4的卷積核中包含16個數值,這16個數值的大小可以根據實際需要任意配置。按照4*4的大小在圖像上依次滑動,得到多個4*4的滑動視窗,將該4*4的卷積核與每個滑動視窗進行卷積,得到多個卷積特徵,這些卷積特徵,就是卷積層的輸出,且被提供給池化層。
在池化層中,實際上是一個降取樣過程,藉由對多個卷積特徵(卷積層的輸出)進行取最大、取最小、取平均值等操作,從而減少計算量,並保持特徵不變性。在池化層中,利用圖像局部相關性的原理,對圖像進行子抽樣,從而可以減少資料處理量,並保留有用資訊。在一個例子中,可以利用如下公式對卷積特徵進行池化處理:,並得到池化處理後的特徵。其中,s表示對應的池化處理時的視窗大小(s*s),m和n均為設定的數值,j和k為卷積層輸出的卷積特徵,i表示針對第i個圖像。
在池化層之後,通常可以使用啟動函數(如非線性函數)對池化層輸出的特徵進行映射,從而引入非線性因素,使得卷積神經網路藉由非線性的組合而增強表達能力。其中,啟動函數可以包括但不限於sigmoid(S型)函數、ReLU(Rectified Linear Units,整流線性單元)函數等。以ReLU函數為例進行說明,則該ReLU函數可以將池化層輸出的所有特徵中,小於0的特徵置0,而大於 0的特徵保持不變。
在全連接層中,全連接層用於將輸入給本全連接層的所有特徵進行全連接處理,從而得到一個特徵向量,且該特徵向量中會包括多個特徵。進一步的,全連接層還可以採用1*1的卷積層,以構成全卷積的網路。
在圖1中,卷積神經網路是以兩個卷積層、兩個池化層和兩個全連接層為例,當然,在實際應用中,卷積層的數量、池化層的數量和全連接層的數量還可以為其它數值。例如,在一種較佳的實施方式中,卷積層的數量可以為三個,池化層的數量可以為兩個,全連接層的數量可以為兩個,具體的網路結構還可以如圖2所示。在圖2中,卷積神經網路由三個卷積層、兩個池化層以及兩個全連接層構成,且每個池化層之後還可以包括一個ReLU。
基於上述卷積神經網路,本發明實施例中提出的單詞的分割方法,可以包括兩個階段,第一階段為訓練階段,第二階段為預測階段。在訓練階段中,藉由使用大量的樣本圖像,對卷積神經網路進行訓練,從而得到一個有識別單詞間隔能力的模型。在預測階段中,藉由訓練得到的卷積神經網路,對當前輸出的待測試圖像進行預測,並利用預測結果對待測試圖像進行單詞分割。
參見圖3所示的單詞的分割方法的流程圖,訓練階段的處理流程可以如步驟301所示,預測階段的處理流程可以步驟302所示。在圖3中:
步驟301,獲取樣本圖像,該樣本圖像包括單詞間隔 標記或者非單詞間隔標記;利用卷積神經網路對樣本圖像進行處理,得到該樣本圖像對應的第一特徵向量、該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。
步驟302,獲取待測試圖像,並利用該卷積神經網路對該待測試圖像進行處理,得到該待測試圖像對應的第二特徵向量、以及該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對該待測試圖像進行單詞分割。
本發明實施例中,第一特徵向量和第二特徵向量只是為了區分樣本圖像對應的特徵向量和待測試圖像對應的特徵向量,將樣本圖像對應的特徵向量稱為第一特徵向量,並將待測試圖像對應的特徵向量稱為第二特徵向量。
針對步驟301,在獲取樣本圖像的過程中,可以從字體庫中抽取至少兩個字母圖像,並對至少兩個字母圖像進行拼接,得到拼接圖像,並為該拼接圖像設定單詞間隔標記或者非單詞間隔標記。之後,可以將該拼接圖像標記為樣本圖像;或者,對該拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行操作之後的圖像標記為樣本圖像。
其中,在設計好卷積神經網路之後,為了對卷積神經網路進行訓練,需要獲取大量的樣本圖像,每個樣本圖像的處理過程均相同,即步驟301,因此,以一個樣本圖像的處理為例進行說明。在樣本圖像中,需要設定單詞間隔 標記或者非單詞間隔標記,用以表示樣本圖像的每個區域是否是單詞間區域。
例如,針對由單詞a和單詞b組成的樣本圖像,該樣本圖像可以為ab,且a和b之間沒有空格,這樣,可以為該樣本圖像設定非單詞間隔標記,如標記0。或者,針對由單詞a和單詞b組成的樣本圖像,該樣本圖像可以為ab,且a和b之間有空格,這樣,可以為該樣本圖像設定單詞間隔標記。
由於對卷積神經網路進行訓練時,需要獲取大量的樣本圖像,如需要上百萬的樣本圖像,針對如此多的樣本圖像,無法藉由人工方式,在每個樣本圖像中設定單詞間隔標記或者非單詞間隔標記。因此,本發明實施例中,可以從字體庫中抽取至少兩個字母圖像,並對該至少兩個字母圖像進行拼接,得到拼接圖像,並直接為拼接圖像設定單詞間隔標記或者非單詞間隔標記,從而不需要藉由人工方式在每個樣本圖像中設定單詞間隔標記或者非單詞間隔標記。例如,可以從字體庫中抽取字母圖像a和字母圖像b,並將這兩個字母圖像拼接成單詞ab,假設ab之間沒有空格,則為該拼接成的圖像設定非單詞間隔標記。
進一步的,可以直接將拼接圖像標記為樣本圖像。或者,考慮到字體庫中的圖像品質很高,沒有任何形變和雜訊干擾,與實際採集到的真實圖像有一定差距,因此,還可以對拼接圖像進行隨機的平移操作、旋轉操作、拉伸操作,並添加一定程度的高斯雜訊,從而使得上述操作之後 的圖像盡可能地接近真實圖像,並可以將進行上述操作之後的圖像標記為樣本圖像,如圖4所示。
針對步驟301,在利用卷積神經網路對樣本圖像進行處理之前,還可以將樣本圖像轉換成灰階的樣本圖像,並將灰階的樣本圖像轉換成大小為M*N的樣本圖像,對大小為M*N的樣本圖像進行標準化處理,並將標準化處理後的樣本圖像輸入到卷積神經網路,利用卷積神經網路對樣本圖像進行處理。
其中,M為正整數、且N為正整數。在一個例子中,M和N可以均為32,基於此,步驟301中獲取的樣本圖像可以為一個大小為32*32的樣本圖像,或者,當步驟301中獲取的樣本圖像不是大小為32*32的樣本圖像時,則需要將步驟301中獲取的樣本圖像轉換成大小為32*32的樣本圖像。
針對大小為32*32的樣本圖像,還可以進行標準化處理,其公式可以為: 。在上述公式中,p(i,j)表示樣本圖像(灰階的樣本圖像)的一個像素值,i表示樣本圖像中的橫座標,j表示樣本圖像中的縱座標,p(i,j)就是在像素位置(i,j)的像素值。n表示樣本圖像預處理後的像素個數。p’(i,j)為標準化後的像素值。
其中,進行標準化處理的原因是:由於樣本圖像的輸 入資料的單位不同,有些輸入資料的範圍可能特別大,其導致的結果是收斂慢、訓練時間長。而且,資料範圍大的輸入資料在模式分類中的作用可能會偏大,而資料範圍小的輸入資料在模式分類中的作用可能會偏小,因此,可以藉由對輸入資料進行標準化處理,將輸入資料映射到[-128,+128]區間、或其它區間。
針對步驟301,可以利用卷積神經網路對樣本圖像進行處理,最終得到該樣本圖像對應的第一特徵向量、該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。例如,基於圖2所示的卷積神經網路,將樣本圖像輸入到卷積層,並對樣本圖像進行卷積處理,並將卷積處理結果輸出給池化層,對卷積處理結果進行池化處理,並將池化處理結果輸出給ReLU函數,利用ReLU函數對池化處理結果進行映射,並將映射結果輸出給卷積層,以此類推,一直到進行全連接處理,得到第一特徵向量以及該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值。針對卷積神經網路內的處理過程,本發明實施例中不再贅述,只要藉由卷積神經網路,得到第一特徵向量以及該第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值即可。
由於卷積神經網路會對大量的樣本圖像進行處理,如對上百萬的樣本圖像進行處理,因此,利用卷積神經網路對樣本圖像進行處理的過程,可以藉由呼叫CAFFE(Convolutional Architecture for Fast Feature Embedding, 卷積神經網路框架),在GPU(Graphics Processing Unit,圖形處理器)集群上對樣本圖像進行處理,即同時對多個樣本圖像進行處理,從而加快處理速度。
基於上述過程,即可以訓練得到卷積神經網路,藉由該卷積神經網路可以對當前輸出的待測試圖像進行預測,並對待測試圖像進行單詞分割。
針對步驟302,在獲取待測試圖像的過程中,待測試圖像是指需要進行單詞分割的圖像,對於如何獲取待測試圖像的方式,在此不再贅述。
針對步驟302,在利用卷積神經網路對待測試圖像進行處理之前,還可以將該待測試圖像轉換成灰階的待測試圖像,並將灰階的待測試圖像轉換成大小為M*L的待測試圖像,並對大小為M*L的待測試圖像進行標準化處理,之後,將標準化處理後的待測試圖像輸入到卷積神經網路。
其中,M為正整數、L為正整數,M和L的比值與待測試圖像的長寬比相同。在一個例子中,M可以為32。假設步驟302中獲取的待測試圖像的長為64,寬為60,則將待測試圖像轉換成大小為32*30的待測試圖像,即L=30。
針對大小為M*L的待測試圖像,還可以進行標準化處理,其公式可以為: 。p(i,j)表示待測試圖像(灰階的待測試圖像)的一個像素值,i表示待測試圖像中的橫座標,j表示待測試圖像中的縱座標,p(i,j)就是在像素位置(i,j)的像素值。n表示待測試圖像預處理後的像素個數。p’(i,j)為標準化後的像素值。
其中,進行標準化處理的原因是:由於待測試圖像的輸入資料的單位不同,有些輸入資料的範圍可能特別大,其導致的結果是收斂慢、訓練時間長。而且,資料範圍大的輸入資料在模式分類中的作用可能會偏大,而資料範圍小的輸入資料在模式分類中的作用可能會偏小,因此,可以藉由對輸入資料進行標準化處理,將輸入資料映射到[-128,+128]區間、或其它區間。
在實際應用中,針對獲取的待測試圖像,可以將待測試圖像的儲存類型設置為浮點型,使得待測試圖像中的像素值可以包括小數點後的位置。例如,當像素值為1.2時,使用浮點型儲存待測試圖像時,像素值是真實的像素值1.2,而使用其它類型儲存待測試圖像時,像素值可能是不真實的像素值1。
針對步驟302,可以利用卷積神經網路對待測試圖像進行處理,最終得到該待測試圖像對應的第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。例如,基於圖2所示的卷積神經網路,將待測試圖像輸入到卷積層,並對待測試圖像進行卷積處理,並將卷積處理結果輸出給池化層,對卷積處理結果進行池化處 理,並將池化處理結果輸出給ReLU函數,利用ReLU函數對池化處理結果進行映射,並將映射結果輸出給卷積層,以此類推,一直到進行全連接處理,得到第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。針對卷積神經網路內的處理過程,本發明實施例中不再贅述,只要藉由卷積神經網路,得到第二特徵向量、該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值即可。
本發明實施例中,針對得到第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程,在利用卷積神經網路得到第二特徵向量後,還可以利用卷積神經網路獲得該第二特徵向量匹配的多個第一特徵向量,並將這多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值,作為該第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。具體的,將第一特徵向量對應的單詞間隔概率值作為該第二特徵向量對應的單詞間隔概率值,將第一特徵向量對應的非單詞間隔概率值作為該第二特徵向量對應的非單詞間隔概率值。
其中,針對獲得該第二特徵向量匹配的多個第一特徵向量的過程,由卷積神經網路自身的演算法決定,本發明實施例中不再詳加贅述。
其中,如果在步驟301中得到並記錄第一特徵向量對應的單詞間隔概率值,則在步驟302中,得到第二特徵向量對應的單詞間隔概率值。如果在步驟301中得到並記錄 第一特徵向量對應的非單詞間隔概率值,則在步驟302中,得到第二特徵向量對應的非單詞間隔概率值。如果在步驟301中得到並記錄第一特徵向量對應的單詞間隔概率值和非單詞間隔概率值,則在步驟302中,得到第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
其中,第二特徵向量對應的單詞間隔概率值表示第二特徵向量對應的待測試圖像位置(如第二特徵向量對應的多個第一特徵向量在待測試圖像中對應的位置)是單詞間隔的概率值,第二特徵向量對應的非單詞間隔概率值表示第二特徵向量對應的待測試圖像位置(如第二特徵向量對應的多個第一特徵向量在待測試圖像中對應的位置)不是單詞間隔的概率值。例如,第二特徵向量對應於待測試圖像上的位置1(水平方向x=16的垂直位置,該位置表示一條分隔號區域,此處僅以一個位置為例),位置1是待測試圖像上的單詞best中的e所在位置,假設第二特徵向量對應的單詞間隔概率值為5%,表示位置1是單詞間隔的概率值僅為5%,假設第二特徵向量對應的非單詞間隔概率值為98%,表示位置1不是單詞間隔的概率值為98%。
針對步驟302,在利用卷積神經網路對待測試圖像進行處理,得到待測試圖像對應的第二特徵向量的過程中,可以將待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,得到K+1個不同的待測試圖像,K為正整數。利用卷積神經網路對K+1個不同的待測 試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到待測試圖像對應的第二特徵向量。
在實際應用中,由於池化處理過程實際上是一個降取樣(下取樣)過程,藉由對多個特徵進行取最大、取最小、取平均值等操作,將待測試圖像的大量特徵簡化為少量特徵,使得輸出特徵比待測試圖像的特徵數量少很多。例如,待測試圖像有1000個特徵,但是經過卷積神經網路對該待測試圖像進行處理後,得到的第二特徵向量中只包括50個特徵。這樣,最終得到的第二特徵向量無法完全體現出待測試圖像的所有特徵。基於此,本發明實施例中,可以將待測試圖像向左平移K次或者向右平移K次,得到K+1個不同的待測試圖像,在利用卷積神經網路對K+1個不同的待測試圖像進行處理後,可以得到K+1個不同的待測試圖像分別對應的特徵向量,並將K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到待測試圖像對應的第二特徵向量,這樣增加了特徵數量,使得第二特徵向量可以體現出待測試圖像的所有特徵。例如,當K為19時,則第二特徵向量中可以包括50*20個特徵。
其中,以將待測試圖像向左平移K次,K為5為例進行說明,針對一個32*30的待測試圖像1,向左平移一個像素,變成一個31*30的圖像,在該31*30的圖像最右側 之後添加一列資料,得到一個32*30的待測試圖像2,在最右側之後添加的一列資料可以與31*30的圖像中的第31列資料相同。針對該32*30的待測試圖像1,向左平移兩個像素,變成一個30*30的圖像,在該30*30的圖像最右側之後添加兩列資料,得到一個32*30的待測試圖像3,在最右側之後添加的兩列資料可以與30*30的圖像中的第30列資料相同。針對該32*30的待測試圖像1,向左平移三個像素,以此類推,一直到向左平移五個像素,這樣可以得到待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6,利用卷積神經網路對待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6分別進行處理,得到6個不同的待測試圖像分別對應的特徵向量,並將6個不同的待測試圖像分別對應的特徵向量組合在一起,得到第二特徵向量。
由於利用卷積神經網路對待測試圖像1、待測試圖像2、待測試圖像3、待測試圖像4、待測試圖像5、待測試圖像6分別進行處理的過程,共用了大量的卷積操作,從而使得計算速度得到大大提高,加速了預測過程。
針對步驟302,在利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對待測試圖像進行單詞分割的過程中,方式一、將第二特徵向量對應的待測試圖像位置作為橫座標,將第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從概率值結果圖中找到單詞間隔 概率值的極大值位置,並利用極大值位置對待測試圖像進行單詞分割。或者,方式二、將第二特徵向量對應的待測試圖像位置作為橫座標,將第二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用極小值位置對待測試圖像進行單詞分割。
其中,將第二特徵向量對應的待測試圖像位置作為橫座標,將第二特徵向量對應的單詞間隔概率值/非單詞間隔概率值作為縱座標的過程,實際上是將第二特徵向量匹配的多個第一特徵向量在待測試圖像對應的位置作為橫座標,並將這多個第一特徵向量對應的單詞間隔概率值/非單詞間隔概率值作為縱座標。
上述方式一和方式二的處理類似,後續以方式一的處理為例進行說明。
針對方式一,在得到第二特徵向量對應的單詞間隔概率值之後,可以將第二特徵向量對應的待測試圖像位置作為橫座標,將第二特徵向量對應的單詞間隔概率值作為縱座標,具體的,將第二特徵向量匹配的多個第一特徵向量在待測試圖像中的位置作為橫座標,並將每個第一特徵向量對應的單詞間隔概率值作為縱座標,得到如圖5所示的概率值結果圖。在圖5中,概率值表示當前位置是否是單詞間隔的概率,概率值越大,則指出當前位置越有可能是單詞間隔。基於此,可以從概率值結果圖中找到單詞間隔概率值的極大值位置,並利用該極大值位置對待測試圖像 進行單詞分割。
在實際應用中,可以使用非極大值抑制演算法找到這些極大值位置,即圖5中分隔號的位置,該非極大值抑制演算法在電腦視覺領域中已經被廣泛應用,在此不再贅述。在找到這些極大值位置後,可以在極大值位置處將待測試圖像分割開,即可得到單一單詞的小圖像,這樣,待測試圖像被分割成多個小圖像,每個小圖像僅包含一個單詞,且不會將一個單詞分割到多個小圖像。
當上述方法應用在文字識別任務時,如果需要對單詞句子進行翻譯,則採用上述方法將待測試圖像分割成多個小圖像後,可以對每個小圖像進行單詞識別,將若干個單詞識別結果加上空格拼接在一起,完成單詞句子的翻譯,本發明實施例的上述過程中,樣本圖像和待測試圖像均是指單行圖像,且該單行中包含多個單詞的圖像。此外,單詞可以包括但不限於:英文單詞、日文單詞、德文單詞、俄文單位、法文單詞、少數民族單詞等。
基於上述技術方案,本發明實施例中,藉由卷積神經網路對圖像進行單詞分割,可以有效地將包含多個單詞的圖像分割成若干個小圖像,保證每個小圖像僅包含一個單詞,並且不會將一個單詞分割到多個小圖像中,從而精準的進行單詞分割,使得單詞分割的準確率得到提高,並且提高單詞分割的速度,可以快速、準確地檢測出圖像中的文字區域,提高使用者使用體驗。
基於與上述方法同樣的申請構思,本發明實施例提供 一種單詞的分割裝置,該單詞的分割裝置應用在電子設備上。該單詞的分割裝置可藉由軟體實現,也可藉由硬體或者軟硬體結合的方式實現。以軟體實現為例,作為一個邏輯意義上的裝置,是藉由其所在的電子設備的處理器,讀取非揮發性記憶體中對應的電腦程式指令形成的。從硬體層面而言,如圖6所示,為本發明提出的單詞的分割裝置所在的電子設備的硬體結構圖,除了圖6所示的處理器、非揮發性記憶體外,電子設備還可以包括其他硬體,如負責處理報文的轉發晶片、網路介面、記憶體等;從硬體結構上來講,該電子設備還可能是分散式設備,可能包括多個介面卡,以便在硬體層面進行報文處理的擴展。
如圖7所示,為本發明提出的單詞的分割裝置的結構圖,所述裝置包括:訓練模組11,用於獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值;預測模組12,用於獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。
所述訓練模組11,具體用於在獲取所述樣本圖像的過程中,從字體庫中抽取至少兩個字母圖像,並對所述至少兩個字母圖像進行拼接,得到拼接圖像,並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記;將所述拼接圖像標記為所述樣本圖像;或者,對所述拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行所述操作之後的圖像標記為所述樣本圖像。
所述訓練模組11,還用於在利用卷積神經網路對樣本圖像進行處理之前,將所述樣本圖像轉換成灰階的樣本圖像,並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像,並對所述大小為M*N的樣本圖像進行標準化處理;所述預測模組12,還用於在利用卷積神經網路對待測試圖像進行處理之前,將待測試圖像轉換成灰階的待測試圖像,並將灰階的待測試圖像轉換成大小為M*L的待測試圖像,並對所述大小為M*L的待測試圖像進行標準化處理;其中,所述M為正整數、所述N為正整數、所述L為正整數,且所述M和所述L的比值,與所述待測試圖像的長寬比相同。
所述預測模組12,具體用於在利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量的過程中,將所述待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,以得到K+1個不同的待測試圖像,所述K為正整數; 利用卷積神經網路對K+1個不同的待測試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到所述待測試圖像對應的第二特徵向量。
所述預測模組12,具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中,利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量,並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值,作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
所述預測模組12,具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割的過程中,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到單詞間隔概率值的極大值位置,並利用所述極大值位置對所述待測試圖像進行單詞分割;或者,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用所述極小值位置對所述待測試圖像進行單詞分割。
基於上述技術方案,本發明實施例中,藉由卷積神經 網路對圖像進行單詞分割,可以有效地將包含多個單詞的圖像分割成若干個小圖像,保證每個小圖像僅包含一個單詞,並且不會將一個單詞分割到多個小圖像中,從而精準的進行單詞分割,使得單詞分割的準確率得到提高,並且提高單詞分割的速度,可以快速、準確地檢測出圖像中的文字區域,提高使用者使用體驗。
其中,本發明裝置的各個模組可以集成於一體,也可以分離部署。上述模組可以合併為一個模組,也可以進一步拆分成多個子模組。
藉由以上的實施方式的描述,本領域的技術人員可以清楚地瞭解到本發明可借助軟體加必需的通用硬體平臺的方式來實現,當然也可以藉由硬體,但很多情況下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存媒體中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本發明各個實施例所述的方法。本領域技術人員可以理解附圖只是一個較佳實施例的示意圖,附圖中的模組或流程並不一定是實施本發明所必須的。
本領域技術人員可以理解實施例中的裝置中的模組可以按照實施例描述進行分佈於實施例的裝置中,也可以進行相應變化位於不同於本實施例的一個或多個裝置中。上述實施例的模組可以合併為一個模組,也可進一步拆分成 多個子模組。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
以上揭露的僅為本發明的幾個具體實施例,但是,本發明並非侷限於此,任何本領域的技術人員能思之的變化都應落入本發明的保護範圍。

Claims (12)

  1. 一種單詞的分割方法,所述方法包括以下步驟:獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值;獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。
  2. 根據申請專利範圍第1項所述的方法,其中,所述獲取樣本圖像,包括:從字體庫中抽取至少兩個字母圖像,並對所述至少兩個字母圖像進行拼接,得到拼接圖像,並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記;將所述拼接圖像標記為所述樣本圖像;或者,對所述拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行所述操作之後的圖像標記為所述樣本圖像。
  3. 根據申請專利範圍第1項所述的方法,其中,所述方法進一步包括:在利用卷積神經網路對所述樣本圖像進行處理之前, 將所述樣本圖像轉換成灰階的樣本圖像,並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像,並對所述大小為M*N的樣本圖像進行標準化處理;在利用所述卷積神經網路對所述待測試圖像進行處理之前,將所述待測試圖像轉換成灰階的待測試圖像,並將所述灰階的待測試圖像轉換成大小為M*L的待測試圖像,並對所述大小為M*L的待測試圖像進行標準化處理;其中,所述M為正整數、所述N為正整數、所述L為正整數,且所述M和所述L的比值,與所述待測試圖像的長寬比相同。
  4. 根據申請專利範圍第1項所述的方法,其中,利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量,包括:將所述待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,以得到K+1個不同的待測試圖像,所述K為正整數;利用卷積神經網路對K+1個不同的待測試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到所述待測試圖像對應的第二特徵向量。
  5. 根據申請專利範圍第1或4項所述的方法,其中,所述得到所述第二特徵向量對應的單詞間隔概率值或 者非單詞間隔概率值的過程,具體包括:利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量,並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值,作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
  6. 根據申請專利範圍第1或4項所述的方法,其中,利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割,包括:將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到單詞間隔概率值的極大值位置,並利用所述極大值位置對所述待測試圖像進行單詞分割;或者,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用所述極小值位置對所述待測試圖像進行單詞分割。
  7. 一種單詞的分割裝置,所述裝置具體包括:訓練模組,用於獲取樣本圖像,所述樣本圖像包括單詞間隔標記或者非單詞間隔標記;利用卷積神經網路對所述樣本圖像進行處理,得到所述樣本圖像對應的第一特徵向量、所述第一特徵向量對應的單詞間隔概率值和/或非單詞間隔概率值; 預測模組,用於獲取待測試圖像,並利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量、所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值;利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割。
  8. 根據申請專利範圍第7項所述的裝置,其中,所述訓練模組,具體用於在獲取所述樣本圖像的過程中,從字體庫中抽取至少兩個字母圖像,並對所述至少兩個字母圖像進行拼接,得到拼接圖像,並為所述拼接圖像設定單詞間隔標記或者非單詞間隔標記;將所述拼接圖像標記為所述樣本圖像;或者,對所述拼接圖像進行以下操作之一或者任意組合:平移操作、旋轉操作、拉伸操作、添加高斯雜訊,並將進行所述操作之後的圖像標記為所述樣本圖像。
  9. 根據申請專利範圍第7項所述的裝置,其中,所述訓練模組,還用於在利用卷積神經網路對樣本圖像進行處理之前,將所述樣本圖像轉換成灰階的樣本圖像,並將所述灰階的樣本圖像轉換成大小為M*N的樣本圖像,並對所述大小為M*N的樣本圖像進行標準化處理;所述預測模組,還用於在利用卷積神經網路對待測試圖像進行處理之前,將待測試圖像轉換成灰階的待測試圖像,並將灰階的待測試圖像轉換成大小為M*L的待測試 圖像,並對所述大小為M*L的待測試圖像進行標準化處理;其中,所述M為正整數、所述N為正整數、所述L為正整數,且所述M和所述L的比值,與所述待測試圖像的長寬比相同。
  10. 根據申請專利範圍第7項所述的裝置,其中,所述預測模組,具體用於在利用所述卷積神經網路對所述待測試圖像進行處理,得到所述待測試圖像對應的第二特徵向量的過程中,將所述待測試圖像向左平移K次或者向右平移K次,每次平移時的平移位置不同,以得到K+1個不同的待測試圖像,所述K為正整數;利用卷積神經網路對K+1個不同的待測試圖像進行處理,得到K+1個不同的待測試圖像分別對應的特徵向量,並將所述K+1個不同的待測試圖像分別對應的特徵向量組合在一起,得到所述待測試圖像對應的第二特徵向量。
  11. 根據申請專利範圍第7或10項所述的裝置,其中,所述預測模組,具體用於在得到所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值的過程中,利用所述卷積神經網路獲得所述第二特徵向量匹配的多個第一特徵向量,並將所述多個第一特徵向量對應的單詞間隔概率值或者非單詞間隔概率值,作為所述第二特徵向量對應的單詞間隔概率值或者非單詞間隔概率值。
  12. 根據申請專利範圍第7或10項所述的裝置,其中,所述預測模組,具體用於在利用當前得到的單詞間隔概率值或者非單詞間隔概率值,對所述待測試圖像進行單詞分割的過程中,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到單詞間隔概率值的極大值位置,並利用所述極大值位置對所述待測試圖像進行單詞分割;或者,將所述第二特徵向量對應的待測試圖像位置作為橫座標,將所述第二特徵向量對應的非單詞間隔概率值作為縱座標,得到概率值結果圖;從所述概率值結果圖中找到非單詞間隔概率值的極小值位置,並利用所述極小值位置對所述待測試圖像進行單詞分割。
TW106104295A 2016-02-29 2017-02-09 一種單詞的分割方法和裝置 TWI744283B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610112463.6 2016-02-29
CN201610112463.6A CN107133622B (zh) 2016-02-29 2016-02-29 一种单词的分割方法和装置

Publications (2)

Publication Number Publication Date
TW201732651A true TW201732651A (zh) 2017-09-16
TWI744283B TWI744283B (zh) 2021-11-01

Family

ID=59721634

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104295A TWI744283B (zh) 2016-02-29 2017-02-09 一種單詞的分割方法和裝置

Country Status (4)

Country Link
US (1) US10817741B2 (zh)
CN (1) CN107133622B (zh)
TW (1) TWI744283B (zh)
WO (1) WO2017148265A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI689831B (zh) * 2018-02-05 2020-04-01 香港商阿里巴巴集團服務有限公司 詞向量產生方法、裝置以及設備
US10769383B2 (en) 2017-10-23 2020-09-08 Alibaba Group Holding Limited Cluster-based word vector processing method, device, and apparatus
US10846483B2 (en) 2017-11-14 2020-11-24 Advanced New Technologies Co., Ltd. Method, device, and apparatus for word vector processing based on clusters

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US11120334B1 (en) * 2017-09-08 2021-09-14 Snap Inc. Multimodal named entity recognition
US10909406B2 (en) * 2018-01-08 2021-02-02 Newgen Software Technologies Limited Image processing system and method
CN111062206B (zh) * 2018-10-16 2023-11-21 株式会社理光 一种子词单元的拆分方法、装置及计算机可读存储介质
CN109376739B (zh) * 2018-10-19 2021-03-26 北京奇艺世纪科技有限公司 一种编组方式确定方法及装置
BR112021005549A2 (pt) * 2018-10-24 2021-06-29 Fujitsu Frontech Limited dispositivo de inspeção de notas, método de fiscalização de notas e programa de inspeção de notas
CN109543777B (zh) * 2018-11-28 2020-10-27 中国科学院自动化研究所 手写汉字书写质量评价方法及系统
CN111401099B (zh) * 2018-12-28 2023-04-07 中国电信股份有限公司 文本识别方法、装置以及存储介质
CN111476067B (zh) * 2019-01-23 2023-04-07 腾讯科技(深圳)有限公司 图像的文字识别方法、装置、电子设备及可读存储介质
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
CN110472227B (zh) * 2019-07-05 2023-08-18 平安国际智慧城市科技股份有限公司 一种词汇掌握程度评估方法、装置、终端设备及存储介质
CN110703075B (zh) * 2019-09-10 2022-03-15 国网浙江省电力有限公司嘉兴供电公司 一种基于大数据技术的高压断路器快速检修方法
CN110751234B (zh) * 2019-10-09 2024-04-16 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN111104484B (zh) * 2019-12-19 2021-09-03 南京中孚信息技术有限公司 文本相似度检测方法、装置及电子设备
CN113282779A (zh) * 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
CN111597809B (zh) * 2020-06-09 2023-08-08 腾讯科技(深圳)有限公司 训练样本获取方法、模型训练方法、装置以及设备
CN112305506B (zh) * 2020-10-26 2023-02-14 哈尔滨工程大学 一种基于cnn的lpi雷达信号检测方法
CN112528882B (zh) * 2020-12-15 2024-05-10 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN113780265B (zh) * 2021-09-16 2023-12-15 平安科技(深圳)有限公司 英文单词的空格识别方法、装置、存储介质及计算机设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5402504A (en) 1989-12-08 1995-03-28 Xerox Corporation Segmentation of text styles
US6108444A (en) 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
FR2810765B1 (fr) 2000-06-27 2002-08-23 Mannesmann Dematic Postal Automation Sa Segmentation d'une image numerique d'un objet postal par la transformation de hough
GB2364416B (en) 2000-06-30 2004-10-27 Post Office Image processing for clustering related text objects
US7082219B2 (en) 2002-02-04 2006-07-25 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for separating text from images
ATE421735T1 (de) 2002-11-22 2009-02-15 Oce Tech Bv Segmentierung eines bildes mittels kürzester zyklen
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
US7376272B2 (en) 2004-06-14 2008-05-20 Xerox Corporation Method for image segmentation to identify regions with constant foreground color
US8098936B2 (en) 2007-01-12 2012-01-17 Seiko Epson Corporation Method and apparatus for detecting objects in an image
US8009928B1 (en) 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
US7471826B1 (en) 2008-03-31 2008-12-30 International Business Machines Corporation Character segmentation by slices
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US8509534B2 (en) 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US8345978B2 (en) * 2010-03-30 2013-01-01 Microsoft Corporation Detecting position of word breaks in a textual line image
US9391716B2 (en) 2010-04-05 2016-07-12 Microsoft Technology Licensing, Llc Data center using wireless communication
CN102254157A (zh) 2011-07-07 2011-11-23 北京文通图像识别技术研究中心有限公司 一种寻找左右字符的字符切分位置评价方法
CN102426649B (zh) * 2011-10-13 2013-08-21 石家庄开发区冀科双实科技有限公司 一种简单的高准确率的钢印数字自动识别方法
US20150055866A1 (en) 2012-05-25 2015-02-26 Mark Joseph Cummins Optical character recognition by iterative re-segmentation of text images using high-level cues
US8965127B2 (en) 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN103530600B (zh) * 2013-06-06 2016-08-24 东软集团股份有限公司 复杂光照下的车牌识别方法及系统
US9058517B1 (en) * 2014-04-16 2015-06-16 I.R.I.S. Pattern recognition system and method using Gabor functions
CN104050471B (zh) * 2014-05-27 2017-02-01 华中科技大学 一种自然场景文字检测方法及系统
CN104463241A (zh) * 2014-10-31 2015-03-25 北京理工大学 一种智能交通监控系统中的车辆类型识别方法
US9430703B2 (en) 2014-12-19 2016-08-30 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images using vertical projections of center zones of characters
US9384409B1 (en) 2015-01-29 2016-07-05 Konica Minolta Laboratory U.S.A., Inc. Word segmentation for document image using recursive segmentation
WO2016197381A1 (en) 2015-06-12 2016-12-15 Sensetime Group Limited Methods and apparatus for recognizing text in an image
CN104899571B (zh) * 2015-06-12 2018-12-04 成都数联铭品科技有限公司 一种用于复杂文字识别的随机样本产生方法
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
CN105469053A (zh) 2015-11-25 2016-04-06 成都数联铭品科技有限公司 一种基于贝叶斯优化的图像表格文字切分方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769383B2 (en) 2017-10-23 2020-09-08 Alibaba Group Holding Limited Cluster-based word vector processing method, device, and apparatus
TWI721310B (zh) * 2017-10-23 2021-03-11 開曼群島商創新先進技術有限公司 基於集群的詞向量處理方法、裝置以及設備
US10846483B2 (en) 2017-11-14 2020-11-24 Advanced New Technologies Co., Ltd. Method, device, and apparatus for word vector processing based on clusters
TWI689831B (zh) * 2018-02-05 2020-04-01 香港商阿里巴巴集團服務有限公司 詞向量產生方法、裝置以及設備

Also Published As

Publication number Publication date
US10817741B2 (en) 2020-10-27
CN107133622B (zh) 2022-08-26
CN107133622A (zh) 2017-09-05
US20190019055A1 (en) 2019-01-17
TWI744283B (zh) 2021-11-01
WO2017148265A1 (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
TWI744283B (zh) 一種單詞的分割方法和裝置
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
WO2022142611A1 (zh) 文字识别方法及装置、存储介质、计算机设备
CN111626190A (zh) 基于聚类分区进行刻度识别的水位监测方法
CN107808161B (zh) 一种基于光视觉的水下目标识别方法
He et al. Aggregating local context for accurate scene text detection
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
Qin et al. Robust and accurate text stroke segmentation
CN111242114B (zh) 文字识别方法及装置
Gui et al. A fast caption detection method for low quality video images
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
CN110633666A (zh) 一种基于手指颜色贴片的手势轨迹识别方法
Rashid et al. Discriminative learning for script recognition
Lei et al. Noise-robust wagon text extraction based on defect-restore generative adversarial network
Kaur et al. Text Extraction from Natural Scene using PCA.
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
CN112733670A (zh) 指纹特征提取方法、装置、电子设备及存储介质
Zhu et al. Chip surface character recognition based on improved LeNet-5 convolutional neural network
Dai et al. Automatic Identification of Bond Information Based on OCR and NLP.