TW202113660A - 文本序列的識別方法、電子設備和電腦可讀存儲介質 - Google Patents
文本序列的識別方法、電子設備和電腦可讀存儲介質 Download PDFInfo
- Publication number
- TW202113660A TW202113660A TW108141128A TW108141128A TW202113660A TW 202113660 A TW202113660 A TW 202113660A TW 108141128 A TW108141128 A TW 108141128A TW 108141128 A TW108141128 A TW 108141128A TW 202113660 A TW202113660 A TW 202113660A
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- text sequence
- binary tree
- sequence
- feature
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 91
- 230000011218 segmentation Effects 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 20
- 239000012634 fragment Substances 0.000 description 27
- 238000013527 convolutional neural network Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000001788 irregular Effects 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 19
- 230000007246 mechanism Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000000306 recurrent effect Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本發明涉及一種文本序列的識別方法、電子設備和電腦可讀存儲介質,其中,該文本序列的識別方法包括:獲取包含文本序列的待處理圖像;根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
Description
本發明涉及資料處理技術領域,尤其涉及一種文本序列的識別方法及裝置、電子設備和存儲介質。
在文本序列的識別場景中,識別不規則文字在諸如視覺理解、自動駕駛等領域有著重要的作用。不規則文字大量存在於交通標誌、店面招牌等自然場景中,由於視角變化、光照變化等因素,導致識別難度相較於對規則文字的識別更高,需要對其識別性能進行完善。
本發明提出了一種文本序列識別的技術方案。
根據本發明的一方面,提供了一種文本序列的識別方法,該文本序列的識別方法包括:
獲取包含文本序列的待處理圖像;
根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
採用本發明,獲取包含文本序列的待處理圖像,由於根據識別網路對文本序列進行識別,可以得到構成該文本序列的多個單字元,不依賴於字元之間的語義關係,則對多個單字元進行字元並行處理,得到識別結果,可以提高識別精度,且並行處理可以提高處理效率。
可能的實現方式中,該根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,包括:
根據該識別網路中設置的二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元。
採用本發明,基於二叉樹的處理可以達到對多個單字元並行編碼和解碼的作用,使單字元的識別精度大大提高。
可能的實現方式中,該根據該識別網路中設置的二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元,包括:
根據該二叉樹對該待處理圖像中的文本序列進行編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵;
根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元。
採用本發明,基於二叉樹編碼的過程中,可以對該待處理圖像中的文本序列進行編碼處理,以得到文本序列中對應文本片段的二叉樹節點特徵,即將一段文本序列透過編碼轉換為二叉樹的節點特徵,以便於後續基於該二叉樹進行解碼處理。
可能的實現方式中,該獲取包含文本序列的待處理圖像之後,該文本序列的識別方法還包括:
透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖,以根據該特徵圖識別該文本序列,得到構成該文本序列的多個單字元。
採用本發明,可以透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖,由於根據圖像特徵去處理,以便後續進行語義分析,而不是直接提取語義,相比較而言,語義分析的結果更為準確,從而提高了識別精度。
可能的實現方式中,該透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖,包括:
將該待處理圖像中的文本序列輸入特徵提取模組;
經該特徵提取模組的特徵提取,得到該特徵圖。
採用本發明,可以透過識別網路中的特徵提取模組進行特徵提取,由於網路是自適應調參的,因此,特徵提取所得到的特徵圖更為精確,從而提高了識別精度。
可能的實現方式中,該根據該二叉樹對該待處理圖像中的文本序列進行編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵,包括:
將該特徵圖輸入基於序列分割注意力規則的序列分割注意力模組;
根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,得到多個目標通道組;
根據該多個目標通道組進行文本分割,得到文本序列中對應文本片段的二叉樹節點特徵。
採用本發明,基於二叉樹編碼的過程中,可以透過識別網路中的序列分割注意力模組進行編碼,以得到文本序列中對應文本片段的二叉樹節點特徵,即將一段文本序列透過序列分割注意力模組中二叉樹的編碼轉換為二叉樹的節點特徵,以便於後續基於該二叉樹進行解碼處理。由於網路是自適應調參的,因此,透過序列分割注意力模組所得到的編碼結果更為精確,從而提高了識別精度。
可能的實現方式中,該根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,包括:
對該特徵圖基於該序列分割注意力規則進行處理,得到注意力特徵矩陣後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇。
採用本發明,透過序列分割注意力模組中二叉樹編碼的過程中,可以得到注意力特徵矩陣後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇,以便得到用於文本分割的多個目標通道組。
可能的實現方式中,該根據該多個目標通道組進行文本分割,得到文本序列中對應文本片段的二叉樹節點特徵,包括:
根據該多個目標通道組進行文本分割,得到多個注意力特徵圖;
對該特徵圖進行卷積處理,得到卷積處理結果;
將該多個注意力特徵圖與所述該卷積處理結果進行加權,根據加權結果得到文本序列中對應文本片段的二叉樹節點特徵。
採用本發明,透過序列分割注意力模組中二叉樹編碼的過程中,根據該多個目標通道組進行文本分割,得到多個注意力特徵圖,將多個注意力特徵圖與對特徵圖進行卷積處理得到的卷積處理結果進行加權,則可以根據加權結果得到文本序列中對應文本片段的二叉樹節點特徵,以便於後續基於該二叉樹進行解碼處理。
可能的實現方式中,該根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元,包括:
將該二叉樹和該二叉樹節點特徵輸入分類模組進行節點分類,得到分類結果;
根據該分類結果,識別出構成該文本片段的該多個單字元。
採用本發明,基於二叉樹的解碼過程可以採用分類模組進行分類處理。分類處理可以將二叉樹和之前編碼得到的二叉樹節點特徵輸入識別網路中的分類模組進行節點分類,得到分類結果,根據該分類結果,識別出構成該文本片段的該多個單字元。基於二叉樹的解碼處理也是並行的,且網路是自適應調參的,因此,透過分類模組所得到的解碼結果更為精確,從而提高了識別精度。
可能的實現方式中,該根據該分類結果,識別出構成該文本片段的該多個單字符元,包括:
該分類結果為單字元對應特徵的情況下,判斷該單字元對應特徵的文本語義,以識別出該單字元特徵對應的語義分類。
採用本公開發明,基於二叉樹的解碼過程可以採用分類模塊組進行分類處理。分類處理得到的分類結果為單字符元對應特徵的情況下,透過判斷出單字元對應特徵的文本語義,可以識別出單字元特徵對應的語義分類,由於不是直接提取語義,而是透過分析得到語義分類,從而提高了識別精度。
根據本發明的一方面,提供了一種文本序列的識別裝置,該文本序列的識別裝置包括:
獲取單元,用於獲取包含文本序列的待處理圖像;
識別單元,用於根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
可能的實現方式中,該識別單元,用於:
根據該識別網路中設置的二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元。
可能的實現方式中,該識別單元,用於:
根據該二叉樹對該待處理圖像中的文本序列進行編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵;
根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元。
可能的實現方式中,該識別單元,用於:
透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖,以根據該特徵圖識別該文本序列,得到構成該文本序列的多個單字元。
可能的實現方式中,該識別單元,用於:
將該待處理圖像中的文本序列輸入特徵提取模組;
經該特徵提取模組的特徵提取,得到該特徵圖。
可能的實現方式中,該識別單元,用於:
將該特徵圖輸入基於序列分割注意力規則的序列分割注意力模組;
根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,得到多個目標通道組;
根據該多個目標通道組進行文本分割,得到文本序列中對應文本片段的二叉樹節點特徵。
可能的實現方式中,該識別單元,用於:
對該特徵圖基於該序列分割注意力規則進行處理,得到注意力特徵矩陣後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇。
可能的實現方式中,該識別單元,用於:
根據該多個目標通道組進行文本分割,得到多個注意力特徵圖;
對該特徵圖進行卷積處理,得到卷積處理結果;
將該多個注意力特徵圖與該卷積處理結果進行加權,根據加權結果得到文本序列中對應文本片段的二叉樹節點特徵。
可能的實現方式中,該識別單元,用於:
將該二叉樹和該二叉樹節點特徵輸入分類模組進行節點分類,得到分類結果;
根據該分類結果,識別出構成該文本片段的該多個單字元。
可能的實現方式中,該識別單元,用於:
該分類結果為單字元對應特徵的情況下,判斷該單字元對應特徵的文本語義,以識別出該單字元特徵對應的語義分類。
根據本發明的一方面,提供了一種電子設備,包括:
處理器;
用於存儲處理器可執行指令的記憶體;
其中,該處理器被配置為:執行上述文本序列的識別方法。
根據本發明的一方面,提供了一種電腦可讀存儲介質,其上存儲有電腦程式指令,該電腦程式指令被處理器執行時實現上述文本序列的識別方法。
根據本發明的一方面,提供了一種電腦程式,其中,該電腦程式包括電腦可讀代碼,當該電腦可讀代碼在電子設備中運行時,該電子設備中的處理器執行用於實現上述文本序列的識別方法。
在本發明實施例中,透過獲取包含文本序列的待處理圖像,根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。採用本發明,獲取包含文本序列的待處理圖像,由於根據識別網路對文本序列進行識別,可以得到構成該文本序列的多個單字元,不依賴於字元之間的語義關係,則對多個單字元進行字元並行處理,得到識別結果,可以提高識別精度,且並行處理可以提高處理效率。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。
根據下面參考附圖對示例性實施例的詳細說明,本發明的其它特徵及方面將變得清楚。
以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好的說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
文本序列的識別場景中,可以對規則文字進行識別,也可以對不規則文字進行識別。以識別不規則文字為例,如店鋪上的店名或標識是不規則文字,交通標識是不規則文字,對不規則文字的識別在諸如視覺理解、自動駕駛等領域有著重要的作用。
雖然對於規則文字的識別,例如文檔解析等任務已經在相關技術中得到較好的解決。然而,不同於對規則文字的識別,對於不規則文字的識別來說,由於不規則文字大量存在於交通標誌、店面招牌等自然場景中,由於視角變化、光照變化等因素,其識別難度遠遠大於規則文字,因而,規則文字的識別技術並不能滿足不規則文字識別的應用需求。
不規則文字識別技術可以使用編碼-解碼框架,其中,編碼器和解碼器部分可以使用遞歸神經網路。遞歸神經網路是一個連續處理的網路,其本質是每一步進行一次輸入,相應的得到一個輸出結果。不管是針對規則文字還是不規則文字,使用遞歸神經網路的編碼和解碼都必須一個字元一個字元的編碼及解碼輸出。
將遞歸神經網路應用於規則文字識別中,可以採用一個卷積神經網路,對輸入圖像進行降採樣,最終得到一個高度為1像素,寬度為w像素的一個特徵圖,然後採用長短期記憶(LSTM,long short term memory)等遞歸神經網路,從左到右對文本序列中的字元進行編碼,得到一個特徵向量,隨後使用連接時序分類器(CTC,connectionist temporal classification)算法進行解碼操作,從而得到最終的字元輸出。
將遞歸神經網路應用於不規則文字識別中,可以從左到右對文本序列中的字元進行編碼,為了更好的提取圖像特徵,可以採用注意力模組與遞歸神經網路結合的方式來對圖像特徵進行提取,該網路可以為卷積神經網絡網路結構,採用卷積神經網路結構與上述對規則文字識別的做法基本相同,但是控制了降採樣的倍率,使得最後的特徵圖的高度不為1而為h。之後,採用一個最大池化層來讓特徵圖的高度變為1,然後依然採用遞歸神經網路進行編碼,取遞歸神經網路的最後一個輸出作為編碼結果。解碼器被替換成另外一個遞歸神經網路,第一次的遞歸輸入為編碼器的輸出,之後每次遞歸的輸出會被輸入到注意力模組對該特徵圖進行加權,從而得到每一步的文字輸出。每一步的文字輸出對應一個字元,並且最後一次的輸出為結束字元。
綜上所述,不論是規則文字識別,還是不規則文字識別,都採用了遞歸神經網路作為編碼器或解碼器,而文字識別本質上是一個序列化的任務,如果採用遞歸神經網路編碼或解碼,由於該遞歸神經網路只能連續處理的特性,其每一次遞歸的輸出往往依賴之前的輸出,容易造成累計誤差,導致對文字識別的精度低,且連續處理在很大程度上也限制了文字識別的處理效率。可見,遞歸神經網路的連續處理特性應用於序列化的文字識別任務,並不適用。尤其對於不規則文字的識別,很大程度上依賴於解碼器對上下文語義的編碼,而非圖像特徵編碼,這對於一些有重複字元或文字無語義的場景例如車牌號識別等來說,會導致識別精度更低。
採用本發明的識別網路(可以是基於注意力機制的卷積神經網路)對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,可以根據識別網路對該多個單字元進行字元並行處理,得到識別結果(如包含由多個單字元構成的上述文本序列)。從而,透過該識別網路和並行處理的方式,提高了對文本序列識別任務的識別精度和識別效率。其中,透過識別網路進行識別的過程中,可以包括:基於二叉樹進行編碼,以得到文本序列中文本片段的二叉樹節點特徵;以及,基於二叉樹進行解碼情況下,根據二叉樹節點特徵進行單字元識別。基於二叉樹進行編碼和解碼也是並行處理的機制,從而,可以進一步提高了對文本序列識別任務的識別精度和識別效率。
需要指出的是:本發明基於二叉樹的並行處理,可以把一個連續處理的任務分解開來,並將其分配給一個或多個二叉樹同時處理,二叉樹是樹形連接方式的資料結構。本發明不限於基於二叉樹的編碼和解碼,還可以是三叉樹等樹形的網路結構,及其他非樹形的網路結構,只要可以實現並行編碼和解碼的網路結構都在本發明的保護範圍之內。
圖1示出根據本發明實施例的文本序列識別方法的流程圖,該文本序列的識別方法應用于文本序列識別裝置,例如,該裝置部署於終端設備或伺服器或其它處理設備執行的情況下,可以執行圖像分類、圖像檢測和視頻處理等等。其中,終端設備可以為用戶設備(UE,User Equipment)、移動設備、蜂窩電話、無繩電話、個人數位助理(PDA,Personal Digital Assistant)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該處理方法可以透過處理器調用記憶體中存儲的電腦可讀指令的方式來實現。如圖1所示,該流程包括:
步驟S101、獲取包含文本序列的待處理圖像。
一示例中,可以透過對目標物件(如某家店鋪店名)進行圖像採集,得到包含文本序列(如不規則文本序列)的待處理圖像,當然,也可以接收外部設備傳輸的待處理圖像。不規則文本序列可以是店鋪上的店名或標識,還可以是各類交通標識等等。文字序列是否規則,可以透過文字行的形狀來判斷,比如,單行水準是規則的。而彎曲文字行,比如星巴克的標識是不規則的。
步驟S102、根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
一示例中,可以根據該識別網路中設置的二叉樹,對該待處理圖像中的文本序列中的該多個單字元進行識別。識別網路可以是:基於注意力機制的卷積神經網路,本發明不局限該具體的網路結構,可以設置有二叉樹並基於該二叉樹識別多個單字元的神經網路都在本發明的保護範圍之內。
一示例中,根據該識別網路對該多個單字元進行字元並行處理,得到包含由多個單字元構成的文本序列。該文本序列即為該識別結果。應用本發明識別網路中設置的二叉樹進行如下的編碼及解碼,可以將文本序列切割為文本片段,以識別出該文本片段中的多個單字元。識別出多個單字元後,繼續應用該識別網路進行字元並行處理,由於識別網路的本質是基於人工神經網路的神經網路模型,而神經網路模型的特性之一是可以實現並行分佈處理,因此,可以將多個單字元基於神經網路模型進行並行分別處理,從而得到由多個單字元構成的文本序列。
該識別過程可以包括:1)基於二叉樹進行編碼,以得到文本序列中文本片段的二叉樹節點特徵;以及,2)基於二叉樹進行解碼情況下,根據二叉樹節點特徵進行單字元識別。比如,可以透過特徵提取模組得到特徵圖,之後,將該特徵圖輸入基於注意力機制的序列分割注意力模組進行編碼,以產生二叉分割樹對應節點的特徵,即上述文本片段的二叉樹節點特徵,然後,將文本片段的二叉樹節點特徵輸出給分類模組進行解碼,可以在解碼過程中執行兩次分類,以識別得到文本片段中單字元的含義。
相關技術中,採用遞歸神經網路進行連續處理,比如,對於不規則文字,是從左到右對字元進行編碼,編碼依賴字元之間的語義關係,而採用本發明,獲取包含文本序列的待處理圖像後,可以透過識別網路(如基於注意力機制的卷積神經網路)得到構成該文本序列的多個單字元,對多個單字元進行字元並行處理,得到識別結果,由於不需要依賴於字元之間的語義關係,得到多個單字元後並行處理即可,從而提高了文字識別任務的識別精度和處理效率。
圖2示出根據本發明實施例的文本序列識別方法的流程圖,如圖2所示,該流程包括:
步驟S201、對目標物件進行圖像採集,得到包含文本序列的待處理圖像。
可以透過包含採集處理器(如攝像頭)的採集裝置對目標物件進行圖像採集,以得到包含文本序列,如不規則文本序列的待處理圖像。
步驟S202、透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖。
一示例中,透過該識別網路(如基於注意力機制的卷積神經網路),提取該待處理圖像中的文本序列的圖像特徵,可以得到圖像卷積特徵圖。相關技術中,透過遞歸神經網路由於只能進行連續處理,比如,對於不規則文字,是從左到右對字元進行編碼,採用這種方式不能很好的提取圖像特徵,且提取的通常是上下文語義,而採用本發明的識別網路提取的是圖像卷積特徵圖,相比之上下文語義包含了更多特徵信息,有助於後續的識別處理。
一示例中,該基於注意力機制的卷積神經網路,其注意力機制可以為序列分割注意力規則。
其中,注意力機制,被廣泛使用在自然語言處理、圖像識別及語音識別等至少一種不同類型的深度學習任務中,其目的是為了從眾多信息中選擇出對當前任務目標更關鍵的信息,提高了從大量信息中篩選出高價值信息的準確度和處理效率。通俗來說,與人類的注意力機制類似,比如,人類是透過快速掃描文本來獲得需要重點關注的區域,即注意力焦點,之後對這一區域投入更多注意力資源,以獲取更多所需要關注目標的細節信息,從而抑制其他無用信息,達到篩選出高價值信息的目的。
其中,該序列分割注意力規則,用於表徵單字元在該文本序列中的位置。由於該規則可以表徵單字元在該文本序列中的位置,且透過二叉樹編碼的目的是不依賴字元間的語義,是將文本序列拆分成文本片段,進而識別出文本片段中的多個單字元,並且為了對應二叉樹的編碼和後續的解碼,是透過該編碼將文本片段以文本序列中文本片段的二叉樹節點特徵進行描述,因此,遵循該規則並根據該規則進行二叉樹的寬度優先遍歷,從而,在編碼不依賴字元間語義的情況下實現了並行編碼,提高了識別精度和處理效率。也就是說,輸入文本序列或語音信號序列等到本發明的識別網路中,可以透過序列分割注意力規則和二叉樹,將這些序列轉換成一個中間層的描述(比如,文本片段的二叉樹節點特徵進行描述),然後基於該中間層的描述所提供的信息得到最終的識別結果。
就寬度優先遍歷而言,從根結點開始沿著二叉樹的寬度進行搜索遍歷,深度遍歷樹的至少一個節點,以便搜索到該二叉樹的至少一個分支。比如,從二叉樹的一個節點(可以是根節點,也可以是葉子節點)開始,檢查與這個節點相連的其他節點,以得到該至少一個訪問分支。
從網路結構來說,該基於注意力機制的卷積神經網路至少包括:用於提取特徵圖的特徵提取模組(可以由圖卷積神經網路來實現),以及結合二叉樹實現的序列分割注意力規則的序列分割注意力模組。可以將該待處理圖像中的文本序列輸入特徵提取模組進行特徵提取以得到特徵圖,該特徵提取模組為該識別網路前端的主幹(Backbone)模組。可以將該特徵圖輸入包含該二叉樹的序列分割注意力模組,透過該序列分割注意力模組對輸入的特徵圖進行編碼處理,以產生二叉分割樹每個節點對應的特徵,即文本序列中文本片段的二叉樹節點特徵,該序列分割注意力模組為該基於序列分割注意力規則的卷積神經網路的字元位置判別模組。該序列分割注意力模組還可以與分類模組連接,以便將文本序列中文本片段的二叉樹節點特徵輸入該分類模組進行解碼處理。
圖3示出根據本發明實施例的基於注意力機制的卷積神經網路的示意圖,包括:特徵提取模組11、序列分割注意力模組12和分類模組13。序列分割注意力模組12中包含預設的二叉樹(也可以稱為二叉分割樹或二叉選擇樹),透過特徵提取模組11可以根據輸入的圖像產生對應的特徵圖(如圖像卷積特徵圖)。透過序列分割注意力模組12可以將特徵提取模組輸出的特徵圖作為輸入,根據序列分割注意力模組中包含的二叉樹進行編碼,對文本序列不同位置的文字片段進行特徵提取,以產生每個二叉樹節點對應的特徵,如文本序列中對應文本片段的二叉樹節點特徵。透過分類模組13可以對序列分割注意力模組的輸出結果121進行分類,以得到最終的識別結果,即分類處理後識別得到由文本片段構成的該文本序列並將其作為識別結果。其中,特徵提取模組可以是卷積神經網路(CNN,convolutional neural network)或圖卷積網路(GCN,graph convolutional network)。序列分割注意力模組可以是序列分割注意力網路(SPA2Net,sequence partition-aware attention network)
其中,透過序列分割注意力模組中設置的二叉樹進行編碼的過程中,由於二叉樹每個節點都是與圖像卷積特徵圖通道數量相同維度的一個向量,則透過二叉樹對圖像卷積特徵圖的每個通道進行選擇時,可以由選擇出的通道組得到目前關注的字元序列部分的注意力位置,其中,選擇出的通道所對應在二叉樹的節點通道值為1,其他為0,比如,可以將“連續的一段1”來表示一組通道。而二叉樹每個節點都是一個向量,透過1和0可以表示二叉樹節點特徵,如圖4a-圖4d所示,透過基於節點特徵的編碼來描述目前關注的字元序列部分的注意力位置。還可以根據圖像卷積特徵圖得到注意力矩陣後進行該每個通道進行選擇的處理。執行所述該每個通道進行選擇的處理之後,將由此得到的不同注意力特徵圖與該圖像卷積特徵圖進行加權,根據得到的加權和可以進行基於神經網路全連接層(Full Connected layer,FC層)(如圖3中的FC層)的兩次分類。其中,根據第一次分類可以判斷該字元序列位置是否只包含一個文字,否的話,進行下一次文本片段基於二叉樹的文本分割編碼處理,是的話,進行第二次分類,根據第二次分類對單字元類別進行分類,以獲知其語義特徵,從而根據語義特徵識別出單字元所代表的含義。
由於序列分割注意力模組中設置的二叉樹的每個節點都可以並行的進行計算,且每個字元的預測並不依賴於其前後字元的預測,因此,透過二叉樹的葉子節點來編碼得到多個單字元後,遵循序列分割注意力模組所基於的上述序列分割注意力規則進行二叉樹的寬度優先遍歷,即可拿到至少一個的字元輸出,從而,在編碼不依賴字元間語義的情況下實現並行編碼,提高了識別精度和處理效率。圖4a-圖4d示出根據本發明實施例的基於注意力機制的卷積神經網路中所包含二叉樹的示意圖。圖4a-圖4d所採用的編碼格式,分別根據不同二叉樹對於不同長度的字元串進行編碼,可以得到經圖4a所示二叉樹對文本片段進行編碼,該文本片段中包含單字元“a”;以及經圖4b所示二叉樹對文本片段進行編碼,該文本片段為“ab”,包含多個單字元“a”和“b”;以及,經圖4c所示二叉樹對文本片段進行編碼,該文本片段為“abc”,包含多個單字元“a”、“b”和“c”;以及,經圖4d所示二叉樹對文本片段進行編碼,該文本片段為“abcd”,包含多個單字元“a”、“b”、“c”和“d”。至少一個二叉樹中針對每個節點都是並行計算的,在具體應用時可以如上添加一個寬度優先遍歷,以得到至少一個訪問分支。
步驟S203、根據識別網路中設置的二叉樹,對待處理圖像中的文本序列進行編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵。
一示例中,可以根據識別網路中設置的二叉樹,對待處理圖像中的文本序列進行用於對文本序列文本分割的編碼處理,可以簡稱文本分割的編碼處理。
步驟S204、根據識別網路中設置的二叉樹,對文本序列中對應文本片段的二叉樹節點特徵進行解碼處理,識別出該文本片段中的多個單字元。
一示例中,根據該二叉樹對該二叉樹節點特徵進行解碼處理的過程,可以透過分類模組來實現,本發明不局限透過分類處理來實現解碼處理和具體的模組結構,可以基於二叉樹實現解碼的處理模組都在本發明的保護範圍之內。
比如,透過分類模組的第一次分類來判斷文本序列中對應文本片段是否只包含單字元,如只包含單字元,則進行第二次分類;如果不只包含單字元,則進行下一次文本分割的編碼處理。對於第二次分類,是對單個字元的語義特徵進行識別。最終,對文本片段中的該多個單字元都進行了識別。
透過上述步驟S203-步驟S204,可以實現根據識別網路對待處理圖像中的文本序列進行識別,以得到構成文本序列的多個單字元。
步驟S205、根據該識別網路對該多個單字元進行字元並行處理,得到識別結果。
一示例中,根據該識別網路(如基於注意力機制的卷積神經網路)對該多個單字元進行字元並行處理,得到包含由多個單字元構成的文本序列。該文本序列即為該識別結果。
採用本發明,可以根據識別網路中設置的二叉樹,對待處理圖像中的文本序列進行編碼處理及對應的解碼處理,該識別網路可以基於序列分割注意力規則進行並行處理,也就是說,本發明基於包含二叉樹的該識別網路進行的編碼和解碼處理也是並行的,且透過該識別網路中的二叉樹可以使用固定比例的通道來編碼相同比例長度的文字行位置。
其中,二叉樹所基於的二分法的實現原理如下:二分法是對一文本序列,每次以“1/2的固定比例”取文本序列中間的一個數進行比較,以確定出將該文本序列如何分割成兩個文本片段,及對分割得到的文本片段繼續以“1/2的固定比例”比較,以得到比較結果,直到只剩一個單字元,結束分割處理。將二分法應用於二叉樹情況下,由於二叉樹的結構包括:根節點、根節點下面的葉子節點、葉子節點下面還可以有葉子節點的子節點等,且連接至少一個節點的通道稱之為節點通道,因此,從二叉樹的編碼角度可以理解為:將文本序列每次以“1/2的固定比例通道”分割並確定每次如何去掉一半的文本片段作為下一節點對應該文本片段的節點特徵,及對分割得到的文本片段繼續以“1/2的固定比例通道”比較,以得到比較結果,直到只剩一個單字元,結束分割處理。比如,採用二叉樹的根節點表示整個文本序列“abcdf”,該根節點編碼了5個字元。該根節點之後的左右孩子(左右孩子指根節點的葉子節點,葉子節點下面還可以有葉子節點的子節點等)分別對應該根節點所表示的文本序列“abcdf”的前一半文本片段“abc”與後一半文本片段“df”。然後,繼續對前一半文本片段“abc”繼續以“1/2的固定比例通道”分割,得到前一半文本片段“ab”與後一半文本片段“c”,對於包含後一半文本片段“c”的節點通道,由於只剩單字元,因此,對該節點通道分割結束;繼續對前一半文本片段“ab” 以“1/2的固定比例通道”分割,得到前一半文本片段“a”與後一半文本片段“b” 由於只剩單字元,因此,對該節點通道分割結束。同理,對文本片段“df”以“1/2的固定比例通道”分割,得到前一半文本片段“d”與後一半文本片段“f”,由於只剩單字元,因此,對該節點通道分割結束。雖然二叉樹基於二分法,在分割的編碼處理時都是基於“1/2的固定比例通道”予以分割,但是,對於字元處於無論文字序列中哪個具體文字行位置,都是採用相同比例長度來編碼,比如,可以採用4bit長度的編碼“1000”表示“a”,採用4bit長度的編碼“0011”表示“c”,採用4bit長度的編碼“1100”表示“ab”,採用4bit長度的編碼“1111”表示“abc”等等。也就是說,編碼的長度是相同比例長度,但是透過不同“1”和“0”的編碼組合可以描述文本序列中位於不同文字行位置的字元。
圖5示出根據本發明實施例的基於注意力機制的卷積神經網路中序列分割注意力模組的示意圖。透過特徵提取模組(如CNN或GCN),可以根據輸入的圖像產生對應的特徵圖(如圖像卷積特徵圖),如圖5中的X為該特徵圖。序列分割注意力模組(如SPA2Net)將特徵提取模組輸出的特徵圖作為輸入,根據序列分割注意力模組中包含的二叉樹進行編碼,對文本序列不同位置的文字片段進行特徵提取,以產生每個二叉樹節點對應的特徵,如文本序列中對應文本片段的二叉樹節點特徵,具體的,可以是根據一個文本片段得到一個二叉樹,也可以是根據一個文本序列得到一個二叉樹,然後一個二叉樹節點是一個文本片段。
其中,序列分割注意力模組中的a模組和b模組可以分別為卷積神經網路,比如可以為分別包含兩個卷積層的CNN,可以分別用來預測注意力和對特徵圖進行變化。比如,a模組用於獲得特徵圖X後獲取注意力的輸出,例如可以根據圖5中相對位置自注意模組採用如Transformer算法運算得到輸出特徵,將該輸出特徵透過至少一個卷積模組的運算及激活函數如Sigmoid的非線性運算,以得到注意力矩陣xa
,而b模組用於繼續提取特徵,來更新該特徵圖;xa
為a模組輸出的注意力矩陣,xa
會被c模組(如包含二叉樹的模組)來進行多通道選擇,Max指取最大值,是使用c模組對xa
逐通道進行乘法運算,對得到的特徵圖沿著通道維度取最大值,也就是說,選取數值最大的一個通道。例如圖5中使用c模組對xa
逐通道進行乘法運算,得到每個通道的注意力特徵圖d,所選擇出的不同注意力特徵圖d會用來對b模組的輸出進行加權和,從而提取每一部分的特徵e,將該特徵e作為透過序列分割注意力模組得到的輸出結果121並提供給分類模組進行分類處理。其中,該特徵e用於表徵整個序列文本中某文本片段的特徵,可以稱之為每個二叉樹節點對應的特徵,如文本序列中對應文本片段的二叉樹節點特徵。透過分類模組進行分類處理的過程中,該特徵首先會被分類出是否為單個字元識別的特徵,如果是的話,會直接被分類出字的類別,以獲知其語義特徵,從而根據語義特徵識別出單字元所代表的含義。
上述序列分割注意力模組的處理主要透過如下公式(1)-公式(3)實現,其中,公式(1)用於計算a模組輸出的注意力矩陣xa
;公式(2)用於計算注意力矩陣xa
被c模組(如包含二叉樹的模組)進行多通道選擇後所選擇出的不同注意力特徵圖d;公式(3)用於計算不同注意力特徵圖d用來對b模組的輸出進行加權和,以提取每一部分的特徵e,並將該特徵e作為透過序列分割注意力模組得到的輸出結果121。(1)(2)(3)
其中,公式(1)中,X為輸入的圖像透過特徵提取模組得到的卷積特徵圖;及分別為卷積運算的卷積核,為卷積運算符;T(X)為對特徵圖X透過相對位置自注意力模組進行運算得到的輸出特徵,為採用激活函數如Sigmoid函數運算,最終得到a模組輸出的注意力矩陣xa
。公式(2)中,xa
為a模組輸出的注意力矩陣;為逐通道乘法運算符,為基於二叉樹將文本序列分割為對應文本片段的編碼過程中第t個二叉樹節點特徵,即對應文本片段的字元位置編碼,其中,t為二叉樹的節點序號,如圖4a-圖4d所示的節點序號0-節點序號6;為沿通道方向的最大池化運算符;d為多通道選擇後所選擇出的不同注意力特徵圖。公式(3)中,為輸入的圖像透過特徵提取模組得到的特徵圖;及分別為卷積運算的卷積核;分別為注意力特徵圖d的高度信息和寬度信息;d為進行多通道選擇後所選擇出的不同注意力特徵圖;為由不同注意力特徵圖d與卷積特徵圖(b模組的輸出)進行加權得到的特徵向量;公式(2)-公式(3)中的i皆為基於二叉樹進行寬度優先遍歷所採用的遍歷參數。需要指出的是,d和e都是通用表達,d可以為,特指遍歷到二叉樹節點i位置對應的某特徵圖,e可以為,特指根據得到的特徵向量。
對本發明的編碼部分描述如下:
可能的實現方式中,對於根據該二叉樹對該待處理圖像中的文本序列進行文本分割的編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵,包括:將該特徵圖輸入包含該二叉樹的序列分割注意力模組,該序列分割注意力模組為該識別網路的字元位置判別模組;根據該二叉樹對該特徵圖進行多通道(如每個通道)選擇,得到多個目標通道組;根據該多個目標通道組進行文本分割的編碼,得到文本序列中對應文本片段的二叉樹節點特徵。
可能的實現方式中,對於根據該二叉樹對該特徵圖進行多通道選擇,包括:對該特徵圖基於該序列分割注意力規則進行處理,得到注意力特徵矩陣(如圖5中的xa
)後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇。比如,透過序列分割注意力規則進行預測後得到了注意力矩陣,然後,將該注意力矩陣提供給二叉樹做多通道選擇,最終輸出多個不同注意力特徵圖(如圖5中的d)。
可能的實現方式中,根據該多個目標通道組進行文本分割,得到文本序列中對應文本片段的二叉樹節點特徵,包括:根據該二叉樹對該特徵圖進行多通道選擇得到的該多個目標通道組進行文本分割的編碼,得到多個注意力特徵圖(如圖5中的d);對初始輸入該識別網路的該特徵圖進行卷積處理,得到卷積處理結果(如圖5中b模組的輸出);將該多個注意力特徵圖與該卷積處理結果進行加權,根據加權結果得到文本序列中對應文本片段的二叉樹節點特徵(如圖5中的e)。
本發明的解碼部分相對編碼來說,相對簡單,在分類模組中可以包括兩個分類器(如節點分類器和字元分類器)以進行兩次分類,透過節點分類器進行第一次分類,是對二叉樹節點特徵進行分類,得到根據節點分類器的輸出,將輸出結果(單字元)輸入字元分類器進行第二次分類,是對單字符元對應的文本語義進行分類。
對本發明的解碼部分描述如下:
可能的實現方式中,根據該二叉樹對該二叉樹節點特徵進行解碼處理,以對該文本片段中的該多個單字元進行識別,包括:將該二叉樹和該二叉樹節點特徵輸入分類模組進行節點分類,得到分類結果;根據該分類結果,對該文本片段中的該多個單字元進行識別。其中,根據該分類結果,對該文本片段中的該多個單字元進行識別,包括:該分類結果為單字元對應特徵的情況下,說明該二叉樹節點特徵對應的該文本片段中包含單字元,則判斷該單字元對應的文本語義(以獲知單個字元對應的含義),以識別出該單字元對應的語義分類。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。
此外,本發明還提供了文本序列的識別裝置、電子設備、電腦可讀存儲介質、程式,上述均可用來實現本發明提供的任一種文本序列的識別方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖6示出根據本發明實施例的文本序列的識別裝置的方塊圖,如圖6所示,該文本序列的識別裝置,包括:獲取單元31,用於獲取包含文本序列的待處理圖像;識別單元32,用於根據識別網路對該待處理圖像中的文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
可能的實現方式中,該識別單元,用於:根據該識別網路中設置的二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元。
可能的實現方式中,該識別單元,用於:根據該二叉樹對該待處理圖像中的文本序列進行編碼處理,得到文本序列中對應文本片段的二叉樹節點特徵;根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元。
可能的實現方式中,該識別單元,用於:透過該識別網路,提取該待處理圖像中的文本序列的圖像特徵,得到特徵圖,以根據該特徵圖識別該文本序列,得到構成該文本序列的多個單字元。
可能的實現方式中,該識別單元,用於:將該待處理圖像中的文本序列輸入特徵提取模組;經該特徵提取模組的特徵提取,得到該特徵圖。
可能的實現方式中,該識別單元,用於:將該特徵圖輸入基於序列分割注意力規則的序列分割注意力模組;根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,得到多個目標通道組;根據該多個目標通道組進行文本分割,得到文本序列中對應文本片段的二叉樹節點特徵。
可能的實現方式中,該識別單元,用於:對該特徵圖基於該序列分割注意力規則進行處理,得到注意力特徵矩陣後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇。
可能的實現方式中,該識別單元,用於:根據該多個目標通道組進行文本分割,得到多個注意力特徵圖;對該特徵圖進行卷積處理,得到卷積處理結果;將該多個注意力特徵圖與該卷積處理結果進行加權,根據加權結果得到文本序列中對應文本片段的二叉樹節點特徵。
可能的實現方式中,該識別單元,用於:將該二叉樹和該二叉樹節點特徵輸入分類模組進行節點分類,得到分類結果;根據該分類結果,識別出構成該文本片段的該多個單字元。
可能的實現方式中,該識別單元,用於:該分類結果為單字元對應特徵的情況下,判斷該單字元對應特徵的文本語義,以識別出該單字元特徵對應的語義分類。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明實施例還提出一種電腦可讀存儲介質,其上存儲有電腦程式指令,該電腦程式指令被處理器執行時實現上述方法。電腦可讀存儲介質可以是易失性電腦可讀存儲介質或非易失性電腦可讀存儲介質。
本發明實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的文本序列的識別指令。
本發明實施例還提供了另一種電腦程式產品,用於存儲電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的文本序列的識別方法的操作。
該電腦程式產品可以具體透過硬件、軟件或其結合的方式實現。在一個可選實施例中,該電腦程式產品具體體現為電腦存儲介質,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(SDK,Software Development Kit)等等。
本發明實施例還提出一種電子設備,包括:處理器;用於存儲處理器可執行指令的記憶體;其中,該處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖7是根據一示例性實施例示出的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖7,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/ O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為存儲各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,聯繫人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式唯讀記憶體(EEPROM),可擦除可程式唯讀記憶體(EPROM),可程式唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁碟或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在該電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸摸式螢幕,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。該觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與該觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/ O介面812為處理組件802和外圍介面模組之間提供介面,上述外圍介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如該組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,用戶與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,該通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位信號處理器(DSP)、數位信號處理設備(DSPD)、可程式邏輯器件(PLD)、現場可程式閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種電腦可讀存儲介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖8是根據一示例性實施例示出的一種電子設備900的方塊圖。例如,電子設備900可以被提供為一伺服器。參照圖8,電子設備900包括處理組件922,其進一步包括一個或多個處理器,以及由記憶體932所代表的記憶體資源,用於存儲可由處理組件922的執行的指令,例如應用程式。記憶體932中存儲的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件922被配置為執行指令,以執行上述方法。
電子設備900還可以包括一個電源組件926被配置為執行電子設備900的電源管理,一個有線或無線網路介面950被配置為將電子設備900連接到網路,和一個輸入輸出(I/O)介面958。電子設備900可以操作基於存儲在記憶體932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種電腦可讀存儲介質,例如包括電腦程式指令的記憶體932,上述電腦程式指令可由電子設備900的處理組件922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀存儲介質,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀存儲介質可以是可以保持和存儲由指令執行設備使用的指令的有形設備。電腦可讀存儲介質例如可以是――但不限於――電存儲設備、磁存儲設備、光存儲設備、電磁存儲設備、半導體存儲設備或者上述的任意合適的組合。電腦可讀存儲介質的更具體的例子(非窮舉的列表)包括:可擕式電腦光碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)、記憶棒、軟碟、機械編碼設備、例如其上存儲有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀存儲介質不被解釋為瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波(例如,通透過光纖電纜的光脈衝)、或者透過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀存儲介質下載到各個計算/處理設備,或者透過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存儲設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道計算機和/或邊緣伺服器。每個計算/處理設備中的網路適配卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供存儲在各個計算/處理設備中的電腦可讀存儲介質中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼,該程式語言包括物件導向的程式語言—諸如Smalltalk、C++等,以及常規的程式語言—諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的軟體套件執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以透過任意種類的網路—包括局域網(LAN)或廣域網路(WAN)—連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來透過網際網路連接)。在一些實施例中,透過利用電腦可讀程式指令的狀態信息來個性化定制電子電路,例如可程式邏輯電路、現場可程式閘陣列(FPGA)或可程式邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式資料處理裝置的處理器,從而生產出一種機器,使得這些指令在透過電腦或其它可程式資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令存儲在電腦可讀存儲介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,存儲有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式資料處理裝置、或其它設備上,使得在電腦、其它可程式資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,該模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬件的系統來實現,或者可以用專用硬件與電腦指令的組合來實現。
在不違背邏輯的情況下,本申請不同實施例之間可以相互結合,不同實施例描述有所側重,為側重描述的部分可以參見其他實施例的記載。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
11:特徵提取模組
12:序列分割注意力模組
121:輸出結果
13:分類模組
31:獲取單元
32:識別單元
800:電子設備
802:處理組件
804:記憶體
806:電源組件
808:多媒體組件
810:音頻組件
812:輸入/輸出介面
814:感測器組件
816:通信組件
820:處理器
900:電子設備
922:處理組件
926:電源組件
932:記憶體
950:網路介面
958:輸入輸出介面
a、b、c、d:圖4a~4d為單字元
X:特徵圖
xa
:注意力矩陣
a、b、c:圖5為模組
d:圖5為注意力特徵圖
e:圖5為特徵
Max:取最大值
FC:全連接
S101~S102:步驟
S201~S205:步驟
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本發明的實施例,並與說明書一起用於說明本發明的技術方案。
圖1示出根據本發明實施例的文本序列的識別方法的流程圖。
圖2示出根據本發明實施例的文本序列的識別方法的流程圖。
圖3示出根據本發明實施例的基於注意力機制的卷積神經網路的示意圖。
圖4a-圖4d示出根據本發明實施例的基於注意力機制的卷積神經網路中所包含二叉樹的示意圖。
圖5示出根據本發明實施例的基於注意力機制的卷積神經網路中序列分割注意力模組的示意圖。
圖6示出根據本發明實施例的處理裝置的方塊圖。
圖7示出根據本發明實施例的電子設備的方塊圖。
圖8示出根據本發明實施例的電子設備的方塊圖。
S101:步驟
S102:步驟
Claims (12)
- 一種文本序列的識別方法,該文本序列的識別方法包括: 獲取一包含一文本序列的待處理圖像; 根據一識別網路對該待處理圖像中的該文本序列進行識別,得到構成該文本序列的多個單字元,對該多個單字元進行字元並行處理,得到識別結果。
- 如請求項1所述的文本序列的識別方法,其中,該根據該識別網路對該待處理圖像中的該文本序列進行識別,得到構成該文本序列的該多個單字元,包括: 根據該識別網路中設置的一二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元。
- 如請求項2所述的文本序列的識別方法,其中,該根據該識別網路中設置的該二叉樹,識別出該待處理圖像中構成該文本序列的該多個單字元,包括: 根據該二叉樹對該待處理圖像中的該文本序列進行編碼處理,得到該文本序列中對應一文本片段的一二叉樹節點特徵; 根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元。
- 如請求項1所述的文本序列的識別方法,其中,該獲取該包含該文本序列的待處理圖像之後,該文本序列的識別方法還包括: 透過該識別網路,提取該待處理圖像中的該文本序列的圖像特徵,得到一特徵圖,以根據該特徵圖識別該文本序列,得到構成該文本序列的多個單字元。
- 如請求項4所述的文本序列的識別方法,其中,該透過該識別網路,提取該待處理圖像中的該文本序列的圖像特徵,得到該特徵圖,包括: 將該待處理圖像中的該文本序列輸入一特徵提取模組; 經該特徵提取模組的特徵提取,得到該特徵圖。
- 如請求項4或5所述的文本序列的識別方法,其中,該根據該二叉樹對該待處理圖像中的該文本序列進行編碼處理,得到該文本序列中對應該文本片段的該二叉樹節點特徵,包括: 將該特徵圖輸入基於一序列分割注意力規則的一序列分割注意力模組; 根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,得到多個目標通道組; 根據該多個目標通道組進行文本分割,得到該文本序列中對應該文本片段的該二叉樹節點特徵。
- 如請求項6所述的文本序列的識別方法,其中,該根據該序列分割注意力模組包含的該二叉樹對該特徵圖進行多通道選擇,包括: 對該特徵圖基於該序列分割注意力規則進行處理,得到一注意力特徵矩陣後,根據該二叉樹對該注意力特徵矩陣進行多通道選擇。
- 如請求項6所述的文本序列的識別方法,其中,該根據該多個目標通道組進行文本分割,得到該文本序列中對應該文本片段的該二叉樹節點特徵,包括: 根據該多個目標通道組進行文本分割,得到多個注意力特徵圖; 對該特徵圖進行卷積處理,得到一卷積處理結果; 將該多個注意力特徵圖與該卷積處理結果進行加權,根據加權結果得到該文本序列中對應該文本片段的該二叉樹節點特徵。
- 如請求項4所述的文本序列的識別方法,其中,該根據該二叉樹對該二叉樹節點特徵進行解碼處理,識別出構成該文本片段的該多個單字元,包括: 將該二叉樹和該二叉樹節點特徵輸入一分類模組進行節點分類,得到一分類結果; 根據該分類結果,識別出構成該文本片段的該多個單字元。
- 如請求項9所述的文本序列的識別方法,其中,該根據該分類結果,識別出構成該文本片段的該多個單字元,包括: 該分類結果為單字元對應特徵的情況下,判斷該單字元對應特徵的文本語義,以識別出該單字元特徵對應的語義分類。
- 一種電子設備,包括: 一處理器; 一用於存儲處理器可執行指令的記憶體; 其中,該處理器被配置為執行請求項1至請求項10中任意一項所述的文本序列的識別方法。
- 一種電腦可讀存儲介質,其上存儲有一電腦程式指令,其中,該電腦程式指令被處理器執行時實現請求項1至請求項10中任意一項所述的文本序列的識別方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910927338.4A CN110659640B (zh) | 2019-09-27 | 2019-09-27 | 文本序列的识别方法及装置、电子设备和存储介质 |
CN201910927338.4 | 2019-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202113660A true TW202113660A (zh) | 2021-04-01 |
TWI732338B TWI732338B (zh) | 2021-07-01 |
Family
ID=69039586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108141128A TWI732338B (zh) | 2019-09-27 | 2019-11-13 | 文本序列的識別方法、電子設備和電腦可讀存儲介質 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210232847A1 (zh) |
JP (1) | JP7123255B2 (zh) |
KR (1) | KR20210054563A (zh) |
CN (1) | CN110659640B (zh) |
SG (1) | SG11202105174XA (zh) |
TW (1) | TWI732338B (zh) |
WO (1) | WO2021056621A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494616B2 (en) * | 2019-05-09 | 2022-11-08 | Shenzhen Malong Technologies Co., Ltd. | Decoupling category-wise independence and relevance with self-attention for multi-label image classification |
US11763433B2 (en) * | 2019-11-14 | 2023-09-19 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
CN111539410B (zh) * | 2020-04-16 | 2022-09-06 | 深圳市商汤科技有限公司 | 字符识别方法及装置、电子设备和存储介质 |
CN111626293A (zh) * | 2020-05-21 | 2020-09-04 | 咪咕文化科技有限公司 | 图像文本识别方法、装置、电子设备及存储介质 |
CN111814796A (zh) * | 2020-06-29 | 2020-10-23 | 北京市商汤科技开发有限公司 | 字符序列识别方法及装置、电子设备和存储介质 |
CN111860506B (zh) * | 2020-07-24 | 2024-03-29 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
CN112132150B (zh) * | 2020-09-15 | 2024-05-28 | 上海高德威智能交通系统有限公司 | 文本串识别方法、装置及电子设备 |
CN112560862B (zh) | 2020-12-17 | 2024-02-13 | 北京百度网讯科技有限公司 | 文本识别方法、装置及电子设备 |
CN112837204B (zh) * | 2021-02-26 | 2024-07-23 | 北京小米移动软件有限公司 | 序列处理方法、序列处理装置及存储介质 |
CN113313127B (zh) * | 2021-05-18 | 2023-02-14 | 华南理工大学 | 文本图像识别方法、装置、计算机设备和存储介质 |
CN113343981A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 一种视觉特征增强的字符识别方法、装置和设备 |
CN113504891B (zh) * | 2021-07-16 | 2022-09-02 | 爱驰汽车有限公司 | 一种音量调节方法、装置、设备以及存储介质 |
CN113569839B (zh) * | 2021-08-31 | 2024-02-09 | 重庆紫光华山智安科技有限公司 | 证件识别方法、系统、设备及介质 |
CN113723094B (zh) * | 2021-09-03 | 2022-12-27 | 北京有竹居网络技术有限公司 | 文本处理方法、模型训练方法、设备及存储介质 |
AU2021290429A1 (en) * | 2021-12-20 | 2022-02-10 | Sensetime International Pte. Ltd. | Sequence recognition method and apparatus, electronic device, and storage medium |
CN114207673A (zh) * | 2021-12-20 | 2022-03-18 | 商汤国际私人有限公司 | 序列识别方法及装置、电子设备和存储介质 |
CN115497106B (zh) * | 2022-11-14 | 2023-01-24 | 合肥中科类脑智能技术有限公司 | 基于数据增强和多任务模型的电池激光喷码识别方法 |
CN115546810B (zh) * | 2022-11-29 | 2023-04-11 | 支付宝(杭州)信息技术有限公司 | 图像元素类别的识别方法及装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
JPH08147417A (ja) * | 1994-11-22 | 1996-06-07 | Oki Electric Ind Co Ltd | 単語照合装置 |
US6741749B2 (en) * | 2001-01-24 | 2004-05-25 | Advanced Digital Systems, Inc. | System, device, computer program product, and method for representing a plurality of electronic ink data points |
US8549399B2 (en) * | 2011-01-18 | 2013-10-01 | Apple Inc. | Identifying a selection of content in a structured document |
CN102509112A (zh) * | 2011-11-02 | 2012-06-20 | 珠海逸迩科技有限公司 | 车牌识别方法及其识别系统 |
US9818190B2 (en) * | 2013-03-14 | 2017-11-14 | Ventana Medical Systems, Inc. | Whole slide image registration and cross-image annotation devices, systems and methods |
US10354168B2 (en) * | 2016-04-11 | 2019-07-16 | A2Ia S.A.S. | Systems and methods for recognizing characters in digitized documents |
US10032072B1 (en) * | 2016-06-21 | 2018-07-24 | A9.Com, Inc. | Text recognition and localization with deep learning |
CN107527059B (zh) * | 2017-08-07 | 2021-12-21 | 北京小米移动软件有限公司 | 文字识别方法、装置及终端 |
CN108108746B (zh) * | 2017-09-13 | 2021-04-09 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN109871843B (zh) * | 2017-12-01 | 2022-04-08 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
CN110276342B (zh) * | 2018-03-14 | 2023-04-18 | 台达电子工业股份有限公司 | 车牌辨识方法以及其系统 |
JP7181761B2 (ja) * | 2018-10-30 | 2022-12-01 | 株式会社三井E&Sマシナリー | 読取システム及び読取方法 |
CN109615006B (zh) * | 2018-12-10 | 2021-08-17 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN110135427B (zh) * | 2019-04-11 | 2021-07-27 | 北京百度网讯科技有限公司 | 用于识别图像中的字符的方法、装置、设备和介质 |
TWM583989U (zh) * | 2019-04-17 | 2019-09-21 | 洽吧智能股份有限公司 | 序號檢測系統 |
CN110163206B (zh) * | 2019-05-04 | 2023-03-24 | 苏州科技大学 | 车牌识别方法、系统、存储介质和装置 |
CN110245557B (zh) * | 2019-05-07 | 2023-12-22 | 平安科技(深圳)有限公司 | 图片处理方法、装置、计算机设备及存储介质 |
CN110097019B (zh) * | 2019-05-10 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
-
2019
- 2019-09-27 CN CN201910927338.4A patent/CN110659640B/zh active Active
- 2019-10-15 SG SG11202105174XA patent/SG11202105174XA/en unknown
- 2019-10-15 WO PCT/CN2019/111170 patent/WO2021056621A1/zh active Application Filing
- 2019-10-15 JP JP2021518910A patent/JP7123255B2/ja active Active
- 2019-10-15 KR KR1020217010064A patent/KR20210054563A/ko active Search and Examination
- 2019-11-13 TW TW108141128A patent/TWI732338B/zh active
-
2021
- 2021-04-16 US US17/232,278 patent/US20210232847A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
TWI732338B (zh) | 2021-07-01 |
KR20210054563A (ko) | 2021-05-13 |
CN110659640A (zh) | 2020-01-07 |
WO2021056621A1 (zh) | 2021-04-01 |
JP2022504404A (ja) | 2022-01-13 |
US20210232847A1 (en) | 2021-07-29 |
CN110659640B (zh) | 2021-11-30 |
JP7123255B2 (ja) | 2022-08-22 |
SG11202105174XA (en) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI732338B (zh) | 文本序列的識別方法、電子設備和電腦可讀存儲介質 | |
TWI740309B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
JP6926339B2 (ja) | 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体 | |
TWI749423B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
JP7097513B2 (ja) | 画像処理方法及び装置、電子機器並びに記憶媒体 | |
WO2020029966A1 (zh) | 视频处理方法及装置、电子设备和存储介质 | |
TW202030637A (zh) | 人臉圖像識別方法、裝置、電子設備及儲存介質 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
WO2021208666A1 (zh) | 字符识别方法及装置、电子设备和存储介质 | |
WO2020173115A1 (zh) | 网络模块和分配方法及装置、电子设备和存储介质 | |
WO2020220807A1 (zh) | 图像生成方法及装置、电子设备及存储介质 | |
KR20210114511A (ko) | 얼굴 이미지 인식 방법 및 장치, 전자 기기 및 저장 매체 | |
TWI735112B (zh) | 圖像生成方法、電子設備和儲存介質 | |
CN110659690B (zh) | 神经网络的构建方法及装置、电子设备和存储介质 | |
TW202127369A (zh) | 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
CN110232181B (zh) | 评论分析方法及装置 | |
JP2022537865A (ja) | 対象計数方法、装置、電子機器、記憶媒体及びプログラム | |
CN114168798B (zh) | 文本存储管理与检索方法及装置 | |
WO2022141969A1 (zh) | 图像分割方法及装置、电子设备、存储介质和程序 | |
WO2023092975A1 (zh) | 图像处理方法及装置、电子设备、存储介质及计算机程序产品 | |
CN114842404A (zh) | 时序动作提名的生成方法及装置、电子设备和存储介质 | |
CN110019928B (zh) | 视频标题的优化方法及装置 | |
CN112860942B (zh) | 视频评论的获取方法及、装置、电子设备及存储介质 | |
CN114168807A (zh) | 字符串匹配方法及装置 |