WO2020232866A1

WO2020232866A1 - Procédé et appareil de segmentation de texte scanné, dispositif informatique et support de stockage

Info

Publication number: WO2020232866A1
Application number: PCT/CN2019/102549
Authority: WO
Inventors: 许剑勇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-20
Filing date: 2019-08-26
Publication date: 2020-11-26
Also published as: CN110245570B; CN110245570A

Abstract

L'invention concerne un procédé de segmentation de texte scanné qui consiste à : acquérir une image contenant un contenu de texte ; effectuer une reconnaissance de texte de l'image pour obtenir une page de texte, la page de texte contenant des caractères, dont l'ordre d'agencement correspond à celui du contenu de texte ; acquérir des paramètres de sommet de chaque ligne de caractères dans la page de texte, les paramètres de sommet de chaque ligne de caractères comprenant un premier groupe de paramètres de sommet et un second groupe de paramètres de sommet, et le second groupe de paramètres de sommet étant des paramètres de sommet utilisés pour déterminer un standard de segmentation ; reconnaître une ligne de caractères la plus longue dans la page de texte en fonction des paramètres de sommet, et acquérir le second groupe de paramètres de sommet de la ligne de caractères la plus longue en tant que paramètres standard ; calculer une valeur de différence entre le second groupe de paramètres de sommet de chaque ligne de caractères et les paramètres standard ; déterminer un caractère cible dans la ligne où la valeur de différence est supérieure à une valeur prédéfinie, et ajouter un symbole de segmentation après le caractère cible pour obtenir un texte segmenté.