WO2023211304A1

WO2023211304A1 - Système et procédé de collecte et de traitement d'actualités dans le réseau internet

Info

Publication number: WO2023211304A1
Application number: PCT/RU2022/000146
Authority: WO
Inventors: Михаил Юрьевич ШЕВЦОВ; Андрей Михайлович КОЗЛОВ; Александр Дмитриевич ИВАНОВ; Павел Сергеевич ЗУБИЦКИЙ; Илья Александрович МАЛЫШЕВ
Original assignee: Публичное Акционерное Общество "Сбербанк России"
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-11-02

Abstract

L'invention se rapporte au domaine des techniques informatiques. Ce système (130) effectue une recherche de noms de domaines dans le réseau Internet (120), comprenant des sources d'actualités (PO). On effectue une analyse du code HTML des pages web afin de découvrir des lignes d'actualités à l'aide dun module d'analyseur (131). On détermine le type des lignes d'actualités et un algorithme de traitement pour extraire des renvois à des informations textes de la source d'actualités. On transmet les renvois trouvés vers les lignes d'actualités, ainsi que leur type et l'algorithme de traitement vers une base de données (132). On traite les renvois sauvegardés vers les lignes d'actualités à l'aide d'un algorithme d'analyse de marque de ressources web dans un module de moissonnage (133), et on effectue une transition en fonction du renvoi vers les ressources web, on vérifie le renvoi en termes de duplication avec les informations stockées dans la base de données et on obtient le code HTML. Sur la base du code HTML obtenu et à l'aide d'un module d'analyse (134), on effectue une extraction des informations textes à l'aide d'algorithmes de collecte de données textes, qui effectuent chacun un choix des nœuds HTML présentant la relation la plus élevée entre les symboles caractérisant le texte lié de la source d'actualités, et leur nombre commun. Les résultats d'extraction de chaque algorithme sont traités par un modèle d'apprentissage machine afin d'analyser les sources qui ne sont pas des sources d'actualités. L'invention a pour but d'augmenter la précision de collecte et de traitement d'informations textes depuis une page web.