WO2017167067A1

WO2017167067A1 - Procédé et dispositif pour une classification de texte de page internet, procédé et dispositif pour une reconnaissance de texte de page internet

Info

Publication number: WO2017167067A1
Application number: PCT/CN2017/077489
Authority: WO
Inventors: 段秉南
Original assignee: 阿里巴巴集团控股有限公司; 段秉南
Priority date: 2016-03-30
Filing date: 2017-03-21
Publication date: 2017-10-05
Also published as: TWI735543B; CN107291723A; TW201737118A; CN107291723B

Abstract

L'invention concerne un procédé et un dispositif pour une classification de texte de page Internet, ainsi qu'un procédé et un dispositif pour une reconnaissance de texte de page Internet. Le procédé pour une classification de texte de page Internet consiste : à rassembler des données de texte dans une page Internet (101) ; à segmenter les données de texte pour obtenir des segments de texte de base (102) ; à calculer une première valeur d'attribut et une seconde valeur d'attribut de chacun des segments de texte de base (103) ; à calculer une valeur de caractéristique de chacun des segments de texte de base selon la première valeur d'attribut et la seconde valeur d'attribut (104) ; à filtrer et à sélectionner des segments de texte de caractéristique parmi les segments de texte de base selon la valeur de caractéristique (105) ; à calculer un poids correspondant à chacun des segments de texte de caractéristique (106) ; à traiter le poids comme vecteur de caractéristique correspondant aux segments de texte de caractéristique, et à utiliser le vecteur de caractéristique pour apprendre un modèle de classification (107). Le procédé et le dispositif de la présente invention mesurent de manière efficace l'objectivité et la précision lors de l'extraction d'une caractéristique, et prennent également en compte l'influence d'une caractéristique sur la classification, permettant ainsi d'augmenter la précision de la classification de texte de page Internet, et de faciliter en outre l'obtention précise et opportune, par un utilisateur, d'informations efficaces dans une quantité massive de texte.