LU503005B1

LU503005B1 - A layout-unconstrained method based on graph reasoning network for reading text block

Info

Publication number: LU503005B1
Application number: LU503005A
Authority: LU
Inventors: Ziyan Li; Lianwen Jin
Original assignee: Univ South China Tech
Priority date: 2022-11-05
Filing date: 2022-11-05
Publication date: 2023-05-05

Claims

Revendications

1. Un procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte, caractérisé en ce qu'il comprend les étapes suivantes: acquérir des images de texte avec une mise en page sans contrainte et construire un réseau de convolution; extraire la carte des caractéristiques visuelles de l'image textuelle par le réseau de convolution, et effectuer la reconnaissance de caractères sur la carte des caractéristiques visuelles pixel par pixel; sur la base de la valeur de sortie du réseau de convolution, optimiser le réseau de convolution en agrégeant la fonction de perte entropique croisée pour obtenir un jeu de caractères non ordonné; construire un réseau de raisonnement de graphe et raisonner la relation entre les caractères dans le jeu de caractères à travers le réseau de raisonnement de graphe pour obtenir un jeu de connexion de caractères; intégrer le jeu de connexions de caractères et traduire le jeu de connexions de caractères intégré en lecture pour obtenir le résultat de reconnaissance de l'image de texte.

2. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 1, caractérisé en ce que, le processus de reconnaissance de caractères sur la carte de caractéristiques visuelles pixel par pixel comprend: prétraiter l'image de texte, prendre l'image de texte prétraitée comme entrée, extraire la carte des caractéristiques visuelles à travers le réseau de convolution, et — convertir la dimension de profondeur en numéro de catégorie de l'alphabet via la couche de connexion complète dans le réseau de convolution.

3. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 2, caractérisé en ce que, le

. . LU503005 processus d'obtention du jeu de caractères non ordonné comprend: sur la base de la valeur de sortie du réseau de convolution et du nombre de catégories, obtenir une matrice de probabilité des catégories de caractères, et respectivement sommer, trier et compter la matrice de probabilité pour obtenir un jeu de caractères non ordonné.

4. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 3, caractérisé en ce que, le processus de sommation, de tri et de comptage de la matrice de probabilités comprend respectivement: sur la base de la matrice de probabilité, sommer la matrice de probabilité à travers la dimension de pas de temps pour obtenir un vecteur de probabilité agrégé; optimiser le réseau de convolution par la fonction de perte d'entropie croisée d'agrégation, et trier les vecteurs de probabilité d'agrégation par les valeurs de probabilité des catégories de caractères pour obtenir des vecteurs de probabilité triés; sur la base du vecteur de probabilité trié, effectuer un comptage de caractères par valeurs de probabilité correspondantes de nombres entiers élément par élément pour obtenir une longueur de séquence de caractères N, et intercepter les N premiers caractères comptés pour obtenir un jeu de caractères non ordonné.

5. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 1, caractérisé en ce que, l'ensemble de connexion de caractères comprend un ensemble de prédiction de liaison globale de caractères et un ensemble de prédiction de liaison locale de caractères.

6. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 5, caractérisé en ce que, le processus d'obtention de l'ensemble de prédiction de liaison globale de caractères comprend: en fonction du jeu de caractères non ordonnés, prendre chaque caractère du jeu de caractéres non ordonnés comme un noeud de graphique, parmi eux, le noeud de HUS03005 graphe est caractérisé par l'incorporation et l'épissage de la catégorie et du numéro de série des caractères correspondants; par l'intermédiaire de la couche d'attention du graphe dans le réseau de raisonnement de graphe, effectuer une modélisation de relation pour chaque caractéristique de noeud de graphe afin d'obtenir des caractéristiques de modélisation globales, effectuer une activation non linéaire des fonctions de modélisation globale par la fonction Softmax, et prendre l'index correspondant de la valeur d'activation maximale par la fonction argmax pour obtenir l'ensemble de caractères de prédiction de liaison globale.

7. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 6, caractérisé en ce que, le processus d'obtention de l'ensemble de prédiction de liaison locale de caractère comprend: prendre chaque caractère du jeu de caractères non ordonné comme point d'ancrage de la composition et prendre plusieurs caractères adjacents au point d'ancrage de la composition dans le graphique local comme noeuds du graphique, et obtenir les caractéristiques de noeud normalisées en soustrayant les caractéristiques d'origine du point d'ancrage de la composition des caractéristiques d'origine de tous les noeuds du graphe; par l'intermédiaire de la couche d'attention des graphes dans le réseau de raisonnement des graphes, effectuer la modélisation des relations pour les caractéristiques de noeud des graphes locaux afin d'obtenir des caractéristiques de — modélisation locales, et effectuer une activation non linéaire pour les fonctions de modélisation locales par la fonction Sigmoid pour obtenir un ensemble de prédiction de liaison locale basé sur des points d'ancrage de composition.

8. Le procédé sans contrainte de disposition basé sur un réseau de raisonnement de graphe pour lire un bloc de texte selon la revendication 7, caractérisé en ce que, le processus d'obtention du résultat de reconnaissance de l'image de texte comprend: 705008 sélectionner un ensemble de prédictions de liaison correspondant sur la base de l'ensemble de caractères global de prédiction de liaison et de l'ensemble de caractères local de prédiction de liaison en fonction du degré de confiance de la classification de la connexion;

sur la base de l'ensemble de prédiction de liaison, en utilisant chaque caractère de l'ensemble de prédiction de liaison comme noeud étoile de la liste liée à son tour, obtenir la prédiction de connexion des noeuds par récursion et construire un nouveau noeud de la liste liée, et une liste liée de connexion unidirectionnelle est construite sur la base du nouveau noeud:

calculer la longueur de toutes les listes liées unidirectionnelles et obtenir le résultat de reconnaissance des images texte en prenant la liste liée correspondante ayant la plus longue longueur comme ordre de lecture du jeu de caractères.