LU503005B1 - A layout-unconstrained method based on graph reasoning network for reading text block - Google Patents

A layout-unconstrained method based on graph reasoning network for reading text block Download PDF

Info

Publication number
LU503005B1
LU503005B1 LU503005A LU503005A LU503005B1 LU 503005 B1 LU503005 B1 LU 503005B1 LU 503005 A LU503005 A LU 503005A LU 503005 A LU503005 A LU 503005A LU 503005 B1 LU503005 B1 LU 503005B1
Authority
LU
Luxembourg
Prior art keywords
character
graph
network
layout
text
Prior art date
Application number
LU503005A
Other languages
English (en)
Inventor
Ziyan Li
Lianwen Jin
Original Assignee
Univ South China Tech
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ South China Tech filed Critical Univ South China Tech
Priority to LU503005A priority Critical patent/LU503005B1/en
Application granted granted Critical
Publication of LU503005B1 publication Critical patent/LU503005B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19187Graphical models, e.g. Bayesian networks or Markov models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Character Discrimination (AREA)

Claims (8)

Revendications
1. Un procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte, caractérisé en ce qu'il comprend les étapes suivantes: acquérir des images de texte avec une mise en page sans contrainte et construire un réseau de convolution; extraire la carte des caractéristiques visuelles de l'image textuelle par le réseau de convolution, et effectuer la reconnaissance de caractères sur la carte des caractéristiques visuelles pixel par pixel; sur la base de la valeur de sortie du réseau de convolution, optimiser le réseau de convolution en agrégeant la fonction de perte entropique croisée pour obtenir un jeu de caractères non ordonné; construire un réseau de raisonnement de graphe et raisonner la relation entre les caractères dans le jeu de caractères à travers le réseau de raisonnement de graphe pour obtenir un jeu de connexion de caractères; intégrer le jeu de connexions de caractères et traduire le jeu de connexions de caractères intégré en lecture pour obtenir le résultat de reconnaissance de l'image de texte.
2. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 1, caractérisé en ce que, le processus de reconnaissance de caractères sur la carte de caractéristiques visuelles pixel par pixel comprend: prétraiter l'image de texte, prendre l'image de texte prétraitée comme entrée, extraire la carte des caractéristiques visuelles à travers le réseau de convolution, et — convertir la dimension de profondeur en numéro de catégorie de l'alphabet via la couche de connexion complète dans le réseau de convolution.
3. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 2, caractérisé en ce que, le
. . LU503005 processus d'obtention du jeu de caractères non ordonné comprend: sur la base de la valeur de sortie du réseau de convolution et du nombre de catégories, obtenir une matrice de probabilité des catégories de caractères, et respectivement sommer, trier et compter la matrice de probabilité pour obtenir un jeu de caractères non ordonné.
4. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 3, caractérisé en ce que, le processus de sommation, de tri et de comptage de la matrice de probabilités comprend respectivement: sur la base de la matrice de probabilité, sommer la matrice de probabilité à travers la dimension de pas de temps pour obtenir un vecteur de probabilité agrégé; optimiser le réseau de convolution par la fonction de perte d'entropie croisée d'agrégation, et trier les vecteurs de probabilité d'agrégation par les valeurs de probabilité des catégories de caractères pour obtenir des vecteurs de probabilité triés; sur la base du vecteur de probabilité trié, effectuer un comptage de caractères par valeurs de probabilité correspondantes de nombres entiers élément par élément pour obtenir une longueur de séquence de caractères N, et intercepter les N premiers caractères comptés pour obtenir un jeu de caractères non ordonné.
5. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 1, caractérisé en ce que, l'ensemble de connexion de caractères comprend un ensemble de prédiction de liaison globale de caractères et un ensemble de prédiction de liaison locale de caractères.
6. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 5, caractérisé en ce que, le processus d'obtention de l'ensemble de prédiction de liaison globale de caractères comprend: en fonction du jeu de caractères non ordonnés, prendre chaque caractère du jeu de caractéres non ordonnés comme un noeud de graphique, parmi eux, le noeud de HUS03005 graphe est caractérisé par l'incorporation et l'épissage de la catégorie et du numéro de série des caractères correspondants; par l'intermédiaire de la couche d'attention du graphe dans le réseau de raisonnement de graphe, effectuer une modélisation de relation pour chaque caractéristique de noeud de graphe afin d'obtenir des caractéristiques de modélisation globales, effectuer une activation non linéaire des fonctions de modélisation globale par la fonction Softmax, et prendre l'index correspondant de la valeur d'activation maximale par la fonction argmax pour obtenir l'ensemble de caractères de prédiction de liaison globale.
7. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 6, caractérisé en ce que, le processus d'obtention de l'ensemble de prédiction de liaison locale de caractère comprend: prendre chaque caractère du jeu de caractères non ordonné comme point d'ancrage de la composition et prendre plusieurs caractères adjacents au point d'ancrage de la composition dans le graphique local comme noeuds du graphique, et obtenir les caractéristiques de noeud normalisées en soustrayant les caractéristiques d'origine du point d'ancrage de la composition des caractéristiques d'origine de tous les noeuds du graphe; par l'intermédiaire de la couche d'attention des graphes dans le réseau de raisonnement des graphes, effectuer la modélisation des relations pour les caractéristiques de noeud des graphes locaux afin d'obtenir des caractéristiques de — modélisation locales, et effectuer une activation non linéaire pour les fonctions de modélisation locales par la fonction Sigmoid pour obtenir un ensemble de prédiction de liaison locale basé sur des points d'ancrage de composition.
8. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 7, caractérisé en ce que, le processus d'obtention du résultat de reconnaissance de l'image de texte comprend: 705008 sélectionner un ensemble de prédictions de liaison correspondant sur la base de l'ensemble de caractères global de prédiction de liaison et de l'ensemble de caractères local de prédiction de liaison en fonction du degré de confiance de la classification de la connexion;
sur la base de l'ensemble de prédiction de liaison, en utilisant chaque caractère de l'ensemble de prédiction de liaison comme noeud étoile de la liste liée à son tour, obtenir la prédiction de connexion des noeuds par récursion et construire un nouveau noeud de la liste liée, et une liste liée de connexion unidirectionnelle est construite sur la base du nouveau noeud:
calculer la longueur de toutes les listes liées unidirectionnelles et obtenir le résultat de reconnaissance des images texte en prenant la liste liée correspondante ayant la plus longue longueur comme ordre de lecture du jeu de caractères.
LU503005A 2022-11-05 2022-11-05 A layout-unconstrained method based on graph reasoning network for reading text block LU503005B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
LU503005A LU503005B1 (en) 2022-11-05 2022-11-05 A layout-unconstrained method based on graph reasoning network for reading text block

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
LU503005A LU503005B1 (en) 2022-11-05 2022-11-05 A layout-unconstrained method based on graph reasoning network for reading text block

Publications (1)

Publication Number Publication Date
LU503005B1 true LU503005B1 (en) 2023-05-05

Family

ID=86270931

Family Applications (1)

Application Number Title Priority Date Filing Date
LU503005A LU503005B1 (en) 2022-11-05 2022-11-05 A layout-unconstrained method based on graph reasoning network for reading text block

Country Status (1)

Country Link
LU (1) LU503005B1 (fr)

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Ghaderizadeh et al. Hyperspectral image classification using a hybrid 3D-2D convolutional neural networks
US20220092351A1 (en) Image classification method, neural network training method, and apparatus
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
WO2021022521A1 (fr) Procédé de traitement de données et procédé et dispositif d'apprentissage de modèle de réseau neuronal
CN106909924A (zh) 一种基于深度显著性的遥感影像快速检索方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
Li et al. A new method of image detection for small datasets under the framework of YOLO network
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
Saha et al. A Lightning fast approach to classify Bangla Handwritten Characters and Numerals using newly structured Deep Neural Network
Agarwal et al. Image understanding using decision tree based machine learning
CN112307982A (zh) 基于交错增强注意力网络的人体行为识别方法
US20230334829A1 (en) Hyperspectral image classification method based on context-rich networks
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN113033321A (zh) 目标行人属性识别模型的训练方法及行人属性识别方法
Ye et al. A joint-training two-stage method for remote sensing image captioning
CN115346071A (zh) 高置信局部特征与全局特征学习的图片分类方法及系统
CN114298233A (zh) 基于高效注意力网络和师生迭代迁移学习的表情识别方法
Gao et al. Deep transformer network for hyperspectral image classification
CN113642602A (zh) 一种基于全局与局部标签关系的多标签图像分类方法
LU503005B1 (en) A layout-unconstrained method based on graph reasoning network for reading text block