WO2023211304A1 - System and method for collecting and processing news from the internet - Google Patents

System and method for collecting and processing news from the internet Download PDF

Info

Publication number
WO2023211304A1
WO2023211304A1 PCT/RU2022/000146 RU2022000146W WO2023211304A1 WO 2023211304 A1 WO2023211304 A1 WO 2023211304A1 RU 2022000146 W RU2022000146 W RU 2022000146W WO 2023211304 A1 WO2023211304 A1 WO 2023211304A1
Authority
WO
WIPO (PCT)
Prior art keywords
news
processing
text
algorithm
database
Prior art date
Application number
PCT/RU2022/000146
Other languages
French (fr)
Russian (ru)
Inventor
Михаил Юрьевич ШЕВЦОВ
Андрей Михайлович КОЗЛОВ
Александр Дмитриевич ИВАНОВ
Павел Сергеевич ЗУБИЦКИЙ
Илья Александрович МАЛЫШЕВ
Original Assignee
Публичное Акционерное Общество "Сбербанк России"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Публичное Акционерное Общество "Сбербанк России" filed Critical Публичное Акционерное Общество "Сбербанк России"
Priority claimed from RU2022111786A external-priority patent/RU2795678C1/en
Publication of WO2023211304A1 publication Critical patent/WO2023211304A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data

Definitions

  • the claimed solution relates to the field of computer technology, in particular, to an automated system for collecting data on the Internet.
  • Application US 20070198459 Al discloses a system for online analysis of information sources, containing a module for collecting information from the network and an analytics module that analyzes retrospective changes in data within the analyzed news topic.
  • the claimed system allows us to solve a technical problem in terms of increasing the accuracy of the collected information by checking the collected information for semantically coherent text characterizing the news source.
  • the technical result is to increase the accuracy of news data collection by analyzing website news feeds for the presence of semantically coherent text in news sources.
  • the claimed technical result is achieved through the implementation of a system for collecting and processing news on the Internet, containing: an analyzer module configured to searching for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a
  • the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
  • the scraping module is configured to analyze tapes of the following types:
  • the claimed technical result is also achieved by implementing a method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; Based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number ; process the results of extracting each algorithm by a machine learning model
  • FIG. 1 shows a conceptual diagram of the claimed solution.
  • FIG. Figure 2 shows an example of HTML code extracted from a resource by the analyzer module.
  • FIG. Figure 3 shows an example of extracting links from HTML code.
  • FIG. Figure 4 shows an example of recording a link to a news source in the database.
  • FIG. Figure 5 shows an example of a XPATH expression.
  • FIG. Figure 6 shows an example of HTML feed processing.
  • FIG. Figure 7 shows an example of extracted text from a news source.
  • FIG. 8 shows a general diagram of a computing device.
  • FIG. 1 shows a general diagram of the claimed system (130), which collects information from websites containing news sources (110).
  • the system (130) can be implemented on the basis of a single computing device, for example, a server, or it can be a software and hardware complex in which each of its elements is located on a separate computer, connected within a single functionality with other elements via an information network.
  • the system (130) contains a set of modules that implement the specified functionality.
  • the modules can be implemented structurally in the form of software and hardware solutions (for example, a system on a chip, microcontrollers, etc.) or in the form of software modules operating within a single software that implements the system operation algorithm (130) using a computing device.
  • the system (130) collects information from the Internet through an analyzer module (131) that connects to websites with news sources (110) through an information network (120).
  • the analyzer module (131) searches for domain names on the Internet containing news sources (software). After connecting to the sources, the module (131) analyzes the HTML code of the web pages of the corresponding domain names to identify news feeds. Analysis of news sources is carried out by analyzing the main page of a web resource, as well as all pages of the 1st nesting level. In FIG. 2 shows an example of extracting HTML code from the source (software) of the domain https://press.sber.ru.
  • the processing algorithm of the module (131) uses two types of algorithms rssfinder and htmlfinder, which provide analysis of web pages and identification of links to RSS feeds or HTML feeds.
  • An example of defining links to news feeds is shown in Fig. 3.
  • the module (131) determines the type of news feeds and the algorithm for processing the corresponding feed to extract a link to the text information of the news source.
  • the rssfinder algorithm works first, because RSS feeds are easier to process; if, as a result of the work, rssfinder did not reveal anything, then the htmlfinder algorithm is activated. In this case, there may be cases when the link is incorrect or the source is not available (no response from the server), in which case the type of tape is determined during the identification process and depends on which algorithm returned the values, and the very fact of receiving responses from the source server.
  • the presence of links, their number and signs of matches are also determined by keywords corresponding to the news source, for example, such as: “rss”, “feed”, “news”, “articles”, “news” “, “articles”, or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.)
  • keywords corresponding to the news source for example, such as: “rss”, “feed”, “news”, “articles”, “news” ", “articles”, or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.)
  • Identified links to news feeds, as well as their type (HTML or RSS) and the applicable processing algorithm for subsequent extraction of links to news feeds are transferred to the database (132).
  • the stored information in the database (132) is further processed using scraping (133) and parsing (134) modules.
  • the scraping module (133) ensures the processing of stored links to news feeds using the web resource markup analysis algorithm defined by the analyzer module (131), in which a link to the source web resource (110) is followed to check the link for duplication with the stored information in the database (132), as well as obtaining the HTML code for subsequent processing of text data by the parsing module (134).
  • An example of extracting links from HTML code is shown in Fig. 3.
  • the scraping module (133) performs continuous operation and iteratively processes the table of tape references from the database (132). In asynchronous mode, the module (133) operates three cycles that support processing of 3 types of feeds: RSS - RSS, Atom, JSON standards (type 1); HTML - regular HTML pages (2nd type); HTML pages processed using XPATH expressions (type 3), for which the path to news links is manually configured. An example of writing a XPATH expression is shown in Fig. 5.
  • Each of the loops processes part of the links corresponding to its algorithm, during which the link to the source (software) is accessed to analyze the resulting HTML code to extract links to news data.
  • An example of intermediate processing for HTML feed is shown in Fig. 6. All received links to news are checked for duplication by accessing the database (132); if the link is contained in the database (132), then it is excluded from processing, otherwise it is recorded in the database (132) and transferred for further processing.
  • the parsing module (134) processes the received HTML code from the scraping module (133). During the operation of the module (134), text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the coherent text of the news source to their total number .
  • An HTML node is understood as a hierarchical node of HTML markup, for example, ⁇ head>, ⁇ body>, etc.
  • One of the algorithms used is based on measuring the number of non-whitespace characters in the source HTML node. Another algorithm analyzes HTML nodes based on the amount of useful text, and extracts text from the nodes that have gained more weight. By testing these algorithms on one data set, differences in sets of high-quality texts were identified.
  • the algorithms work in parallel and the evaluation of the results is compared by a machine learning model, for example, a neural network algorithm trained on examples of news sources, which are reference news texts.
  • the machine learning model used within the parsing module (134) analyzes the presence of characteristics inherent in sources that are not news sources. These kinds of characteristics, as a rule, are stop words and special characters (for example, telephone numbers, a sequence of numbers, etc.).
  • the results of the above algorithms identify the most semantically coherent text, which clearly characterizes the news source.
  • the resulting text is subsequently stored in a database (132) for subsequent provision to the user or transmission to an automated system for selecting news by keywords.
  • An example of the extracted text is shown in Fig. 7
  • the claimed system (130) can be implemented on the basis of a single computing device (200), for example, a server.
  • FIG. 8 shows a general view of such a computing device (200).
  • a computing device contains one or more processors (201), memory devices such as RAM (202) and ROM (203), I/O interfaces (204), and input devices connected by a common information exchange bus. /output (205), and a device for network communication (206).
  • processors 201
  • memory devices such as RAM (202) and ROM (203)
  • I/O interfaces 204
  • input devices connected by a common information exchange bus.
  • /output /output
  • 206 a device for network communication
  • the processor (201) may be selected from a variety of devices commonly used today, such as those from IntelTM, AMDTM, AppleTM, Samsung ExynosTM, MediaTEKTM, Qualcomm SnapdragonTM and etc.
  • a graphics processor for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
  • RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) for performing the necessary logical data processing operations.
  • the RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.).
  • the ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
  • I/O interfaces To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
  • various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, stylus, touchpad, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
  • the network communication means (206) allows the device (200) to transmit data via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc.
  • One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
  • satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.

Abstract

The invention relates to the field of computer technologies. A system (130) performs a search of the Internet (120) for domain names containing news sources (110). The HTML code of the corresponding websites is analyzed to detect news feeds with the aid of an analysis module (131). The news feed type and a processing algorithm are determined to extract a link to the textual information of a news source. Identified links to news feeds, the news feed type and the processing algorithm are transmitted to a database (132). Saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource in a scraping module (133), wherein a web resource is accessed via a link, the link is checked for duplication among the saved information in the database, and the HTML code is obtained. Using the obtained HTML code and a parsing module (134), textual information is extracted with the aid of text data collection algorithms, each of which selects the HTML codes with the greatest ratio of symbols characterizing cohesive text of a news source to the total number of symbols. The extraction results of each algorithm are processed by a machine learning module to analyze sources that are not news sources. The invention is directed toward providing more accurate collection and processing of textual information from websites.

Description

СИСТЕМА И СПОСОБ СБОРА И ОБРАБОТКИ НОВОСТЕЙ В СЕТИ ИНТЕРНЕТ SYSTEM AND METHOD FOR COLLECTING AND PROCESSING NEWS ON THE INTERNET
ОБЛАСТЬ ТЕХНИКИ TECHNICAL FIELD
[0001] Заявленное решение относится к области компьютерных технологий, в частности, к автоматизированной системе для сбора данных в сети Интернет. [0001] The claimed solution relates to the field of computer technology, in particular, to an automated system for collecting data on the Internet.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE ART
[0002] Автоматизированный сбор новостей в сети Интернет широко применяется на сегодняшний день. Часто применяются различные методы парсинга информации с новостных источников, позволяющие выгружать данные с веб-ресурсов для их последующей обработки. [0002] Automated news gathering on the Internet is widely used today. Various methods of parsing information from news sources are often used, making it possible to download data from web resources for their subsequent processing.
[0003] В заявке US 20070198459 Al (Current Assignee Accenture Global Services Ltd, 23.08.2007) раскрывается система для онлайн анализа источников информации, содержащая модуль сбора информации из сети и модуль аналитики, выполняющий анализ ретроспективного изменения данных в рамках анализируемого новостного топика. [0003] Application US 20070198459 Al (Current Assignee Accenture Global Services Ltd, 08/23/2007) discloses a system for online analysis of information sources, containing a module for collecting information from the network and an analytics module that analyzes retrospective changes in data within the analyzed news topic.
[0004] Недостатками данного решения является отсутствие механизма проверки семантической связности текста, представленного в том или ином новостном источнике, что не позволяет проверить качество размещенной в сети информации, а также ее соответствие, как таковое, новостному источнику, а не иному типу данных, например, рекламному объявлению. В итоге такого рода решения позволяют осуществлять сбор данных без их предварительного анализа в части отношения к новостному источнику, в следствие чего снижается релевантность и качество собираемой информации. [0004] The disadvantages of this solution are the lack of a mechanism for checking the semantic coherence of the text presented in a particular news source, which does not allow checking the quality of information posted on the network, as well as its compliance, as such, with the news source, and not with another type of data, for example , advertisement. As a result, this kind of solutions allows for the collection of data without preliminary analysis of it in relation to the news source, as a result of which the relevance and quality of the collected information decreases.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
[0005] Заявленная система позволяет решить техническую проблему в части повышения точности собираемой информации за счет выполнения проверки собираемой информации на предмет семантически связного текста, характеризующего новостной источник. [0005] The claimed system allows us to solve a technical problem in terms of increasing the accuracy of the collected information by checking the collected information for semantically coherent text characterizing the news source.
[0006] Техническим результатом является повышение точности сбора новостных данных, за счет анализа новостных лент веб-сайтов на предмет наличия семантически связного текста в новостных источниках. [0006] The technical result is to increase the accuracy of news data collection by analyzing website news feeds for the presence of semantically coherent text in news sources.
[0007] Заявленный технический результат достигается за счет реализации системы сбора и обработки новостей в сети Интернет, содержащей: модуль анализатора, выполненный с возможностью поиска доменных имен в сети Интернет, содержащих новостные источники; анализа HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передачу выявленных ссылок на новостные ленты, их тип и алгоритм обработки в базу данных; модуль скраппинга, выполненный с возможностью обработки данных, сохраненных в базе данных, с помощью которого осуществляется обработка сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора, при которой выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; модуль парсинга, выполненный с возможностью получения HTML-кода от модуля скраппинга; извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых, осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обработку результатов извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. [0008] В одном из частных примеров реализации анализ HTML-кода осуществляется для главной страницы веб-ресурса и для всех страниц 1-го уровня вложенности. [0007] The claimed technical result is achieved through the implementation of a system for collecting and processing news on the Internet, containing: an analyzer module configured to searching for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a news source to their total number; processing the results of extracting each algorithm by a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database. [0008] In one of the particular implementation examples, the HTML code is analyzed for the main page of the web resource and for all pages of the 1st nesting level.
[0009] В другом частном примере реализации определяется наличие наличия ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику. [0009] In another particular implementation example, the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
[0010] В другом частном примере реализации модуль скраппинга выполнен с возможностью анализа лент следующих типов: [0010] In another particular implementation example, the scraping module is configured to analyze tapes of the following types:
- RSS - RSS, Atom, JSON стандарты; - RSS - RSS, Atom, JSON standards;
- HTML страницы; - HTML pages;
- HTML страницы, обрабатываемые с помощью ХРАТН выражений.- HTML pages processed using XPATE expressions.
[ООН] Заявленный технический результат достигается также за счет выполнения способа сбора и обработки новостей в сети Интернет, выполняемого с помощью процессора и содержащего этапы, на которых: выполняют поиск доменных имен в сети Интернет, содержащих новостные источники; осуществляют анализ HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определяют тип новостных лент и алгоритм обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передают выявленные ссылки на новостные ленты, их тип и алгоритм обработки в базу данных; выполняют обработку данных, сохраненных в базе данных, в ходе которой обрабатывают сохраненные ссылки на новостные ленты с помощью алгоритма анализа разметки веб-ресурса, при этом выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; на основании полученного HTML-кода от модуля выполняют извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обрабатывают результаты извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. [UN] The claimed technical result is also achieved by implementing a method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; Based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number ; process the results of extracting each algorithm by a machine learning model, and the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, and the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF THE DRAWINGS
[0012] На Фиг. 1 представлена концептуальная схема заявленного решения. [0012] In FIG. 1 shows a conceptual diagram of the claimed solution.
[0013] На Фиг. 2 представлен пример HTML-кода, извлекаемого с ресурса модулем анализатора. [0013] In FIG. Figure 2 shows an example of HTML code extracted from a resource by the analyzer module.
[0014] На Фиг. 3 представлен пример извлечения ссылок из HTML-кода. [0014] In FIG. Figure 3 shows an example of extracting links from HTML code.
[0015] На Фиг. 4 представлен пример записи ссылки на новостной источник в базе данных. [0015] In FIG. Figure 4 shows an example of recording a link to a news source in the database.
[0016] На Фиг. 5 представлен пример ХРАТН выражения. [0016] In FIG. Figure 5 shows an example of a XPATH expression.
[0017] На Фиг. 6 представлен пример обработки HTML ленты. [0017] In FIG. Figure 6 shows an example of HTML feed processing.
[0018] На Фиг. 7 представлен пример извлеченного текста из новостного источника. [0018] In FIG. Figure 7 shows an example of extracted text from a news source.
[0019] На Фиг. 8 представлена общая схема вычислительного устройства. [0019] In FIG. 8 shows a general diagram of a computing device.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ IMPLEMENTATION OF THE INVENTION
[0020] На Фиг. 1 представлена общая схема заявленной системы (130), выполняющей сбор информации с веб-сайтов, содержащих новостные источники (110). Система (130) может выполняться на базе единого вычислительного устройства, например, сервера, или представлять собой программно-аппаратный комплекс, в котором каждый из ее элементов расположен на отдельной вычислительной машине, связанный в рамках единого функционального обеспечения с другими элементами посредство информационной сети. [0020] In FIG. 1 shows a general diagram of the claimed system (130), which collects information from websites containing news sources (110). The system (130) can be implemented on the basis of a single computing device, for example, a server, or it can be a software and hardware complex in which each of its elements is located on a separate computer, connected within a single functionality with other elements via an information network.
[0021] Система (130) содержит совокупность модулей, которые реализуют заданный функционал. Модули могут выполняться конструктивно в виде программно-аппаратных решений (например, система на чипе, микроконтроллеров и т.п.) или в виде программных модулей, функционирующих в рамках единого программного обеспечения, реализующего алгоритм работы системы (130) с помощью вычислительного устройства. [0022] Сбор информации системой (130) из сети Интернет осуществляется посредством модуля анализатора (131), выполняющему подключение к веб-сайтам с новостными источниками (110) через информационную сеть (120). [0021] The system (130) contains a set of modules that implement the specified functionality. The modules can be implemented structurally in the form of software and hardware solutions (for example, a system on a chip, microcontrollers, etc.) or in the form of software modules operating within a single software that implements the system operation algorithm (130) using a computing device. [0022] The system (130) collects information from the Internet through an analyzer module (131) that connects to websites with news sources (110) through an information network (120).
[0023] Модуль анализатора (131) выполняет поиск доменных имен в сети Интернет, содержащих новостные источники (ПО). После подключения к источникам модуль (131) выполняет анализ HTML-кода веб-страниц соответствующих доменных имен на предмет выявления новостных лент. Анализ новостных источников выполняется с помощью анализа главной страницы веб-ресурса, а также всех страниц 1-го уровня вложенности. На Фиг. 2 представлен пример извлечения HTML-кода из источника (ПО) домена https://press.sber.ru. [0023] The analyzer module (131) searches for domain names on the Internet containing news sources (software). After connecting to the sources, the module (131) analyzes the HTML code of the web pages of the corresponding domain names to identify news feeds. Analysis of news sources is carried out by analyzing the main page of a web resource, as well as all pages of the 1st nesting level. In FIG. 2 shows an example of extracting HTML code from the source (software) of the domain https://press.sber.ru.
[0024] Алгоритм обработки модуля (131) использует два типа алгоритмов rssfinder и htmlfinder, которые обеспечивают анализ веб-страниц и выявление ссылок на RSS-ленты или HTML-ленты. Пример определения ссылок на новостные ленты представлен на Фиг. 3. После выявления одной или нескольких новостных лент модуль (131) выполняет определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника. Первым работает алгоритм rssfinder , т.к. rss ленты проще в обработке, если по итогу работы rssfinder ничего не выявил, то активируется алгоритм htmlfinder. При этом возможны случаи, когда ссылка некорректная или источник не доступен (нет отклика от сервера), в таком случае тип ленты определяется в процессе выявления и зависит от того, какой алгоритм вернул значения, и самого факта получения ответов от сервера источника. [0024] The processing algorithm of the module (131) uses two types of algorithms rssfinder and htmlfinder, which provide analysis of web pages and identification of links to RSS feeds or HTML feeds. An example of defining links to news feeds is shown in Fig. 3. After identifying one or more news feeds, the module (131) determines the type of news feeds and the algorithm for processing the corresponding feed to extract a link to the text information of the news source. The rssfinder algorithm works first, because RSS feeds are easier to process; if, as a result of the work, rssfinder did not reveal anything, then the htmlfinder algorithm is activated. In this case, there may be cases when the link is incorrect or the source is not available (no response from the server), in which case the type of tape is determined during the identification process and depends on which algorithm returned the values, and the very fact of receiving responses from the source server.
[0025] При работе модуля (131) также определяется наличие ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику, например, таким как: "rss", "feed", "news", "articles", "новости", "статьи", или исключающих (".png", ".pdf', паттерны: '.*login.*', '.*/([л-]*[-_][л-]*)+$' и др.). Выявленные ссылки на новостные ленты, а также их тип (HTML или RSS) и применимый алгоритм обработки для последующего извлечения ссылок на новости передаются в базу данных (132). Пример записи в базе данных представлен на Фиг. 4. [0025] During operation of the module (131), the presence of links, their number and signs of matches are also determined by keywords corresponding to the news source, for example, such as: “rss”, “feed”, “news”, “articles”, “news” ", "articles", or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.) Identified links to news feeds, as well as their type (HTML or RSS) and the applicable processing algorithm for subsequent extraction of links to news feeds are transferred to the database (132). An example of a record in the database is presented in Fig. 4 .
[0026] Сохраненная информация в базе данных (132) далее обрабатывается с помощью модулей скраппинга (133) и парсинга (134). Модуль скраппинга (133) обеспечивает обработку сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора (131), при которой выполняется переход по ссылке на веб-ресурс источника (110) для проверки ссылки на дубликацию с хранимой информацией в базе данных (132), а также получения HTML-кода для последующей обработки текстовых данных модулем парсинга (134). Пример извлесения ссылок из HTML-кода представлен на Фиг. 3. [0026] The stored information in the database (132) is further processed using scraping (133) and parsing (134) modules. The scraping module (133) ensures the processing of stored links to news feeds using the web resource markup analysis algorithm defined by the analyzer module (131), in which a link to the source web resource (110) is followed to check the link for duplication with the stored information in the database (132), as well as obtaining the HTML code for subsequent processing of text data by the parsing module (134). An example of extracting links from HTML code is shown in Fig. 3.
[0027] Модуль скраппинга (133) выполняет непрерывную работу и итеративно обрабатывает таблицу ссылок на ленты из базы данных (132). В асинхронном режиме в модуле (133) работает три цикла, поддерживающие обработку 3-х типов лент: RSS - RSS, Atom, JSON стандарты (1й тип); HTML - обычные HTML-страницы (2й тип); HTML- страницы, обрабатываемые с помощью ХРАТН выражений (Зй тип), для которых путь к ссылкам на новости конфигурируется вручную. Пример записи ХРАТН выражения представлен на Фиг. 5. [0027] The scraping module (133) performs continuous operation and iteratively processes the table of tape references from the database (132). In asynchronous mode, the module (133) operates three cycles that support processing of 3 types of feeds: RSS - RSS, Atom, JSON standards (type 1); HTML - regular HTML pages (2nd type); HTML pages processed using XPATH expressions (type 3), for which the path to news links is manually configured. An example of writing a XPATH expression is shown in Fig. 5.
[0028] Каждый из циклов обрабатывает часть соответствующих его алгоритму ссылок, при работе которых происходит обращение по ссылке к источнику (ПО) для анализа полученного HTML-кода для извлечения ссылок на новостные данные. Пример промежуточной обработки для HTML ленты представлен на Фиг. 6. Все полученные ссылки на новости проверяются на дублирование путем обращения к базе данных (132), если ссылка содержится в базе данных (132) - то она исключается из обработки, иначе - записывается в базу данных (132) и передается на дальнейшую обработку. [0028] Each of the loops processes part of the links corresponding to its algorithm, during which the link to the source (software) is accessed to analyze the resulting HTML code to extract links to news data. An example of intermediate processing for HTML feed is shown in Fig. 6. All received links to news are checked for duplication by accessing the database (132); if the link is contained in the database (132), then it is excluded from processing, otherwise it is recorded in the database (132) and transferred for further processing.
[0029] Модуль парсинга (134) обрабатывает полученный HTML-код от модуля скраппинга (133). В ходе работы модуля (134) осуществляется извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых, осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству. Под HTML-нодой понимается иерархический узел HTML разметки, например, <head>, <body> и т.п. [0029] The parsing module (134) processes the received HTML code from the scraping module (133). During the operation of the module (134), text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the coherent text of the news source to their total number . An HTML node is understood as a hierarchical node of HTML markup, for example, <head>, <body>, etc.
[0030] Один из применяемых алгоритмов основан на измерении количества непробельных символов в HTML-ноде источника. Другой алгоритм анализирует HTML- ноды по количеству полезного текста, и выполняет извлечение текста из набравших больший вес нод. Путем тестирования этих алгоритмов на одном наборе данных была выявлена разность множеств качественных текстов. Алгоритмы работают параллельно и сравнивается оценка результатов моделью машинного обучения, например, нейросетевым алгоритмом, обученным на примерах новостных источников, представляющих собой эталонные новостные тексты. Модель машинного обучения, применяемая в рамках работы модуля парсинга (134) выполняет анализ наличия характеристик, присущих источникам, не являющихся новостными источниками. Такого рода характеристики, как правило, представляют собой стоп-слова и спецсимволы (например, номера телефонов, последовательность цифр, и т.п.). На основании обработки моделью получаемых результатов работы указанных выше алгоритмов выполняется выявление наиболее семантически связного текста, что явно характеризует новостной источник. Полученный текст впоследствии сохраняется в базу данных (132) для последующего предоставления пользователю или передачи в автоматизированную систему подбора новостей по ключевым словам. Пример извлеченного текста представлен на Фиг. 7 [0030] One of the algorithms used is based on measuring the number of non-whitespace characters in the source HTML node. Another algorithm analyzes HTML nodes based on the amount of useful text, and extracts text from the nodes that have gained more weight. By testing these algorithms on one data set, differences in sets of high-quality texts were identified. The algorithms work in parallel and the evaluation of the results is compared by a machine learning model, for example, a neural network algorithm trained on examples of news sources, which are reference news texts. The machine learning model used within the parsing module (134) analyzes the presence of characteristics inherent in sources that are not news sources. These kinds of characteristics, as a rule, are stop words and special characters (for example, telephone numbers, a sequence of numbers, etc.). Based on the model’s processing of the resulting The results of the above algorithms identify the most semantically coherent text, which clearly characterizes the news source. The resulting text is subsequently stored in a database (132) for subsequent provision to the user or transmission to an automated system for selecting news by keywords. An example of the extracted text is shown in Fig. 7
[0031] Заявленная система (130) может быть реализована на базе единого вычислительного устройства (200), например, сервере. На Фиг. 8 представлен общий вид такого вычислительного устройства (200). [0031] The claimed system (130) can be implemented on the basis of a single computing device (200), for example, a server. In FIG. 8 shows a general view of such a computing device (200).
[0032] В общем случае вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0032] In general, a computing device (200) contains one or more processors (201), memory devices such as RAM (202) and ROM (203), I/O interfaces (204), and input devices connected by a common information exchange bus. /output (205), and a device for network communication (206).
[0033] Процессор (201) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр. [0033] The processor (201) (or multiple processors, multi-core processor) may be selected from a variety of devices commonly used today, such as those from Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ and etc. A graphics processor, for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
[0034] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). [0034] RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) for performing the necessary logical data processing operations. The RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.).
[0035] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др. [0035] The ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
[0036] Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0036] To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0037] Для обеспечения взаимодействия пользователя с вычислительным устройством (500) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0038] Средство сетевого взаимодействия (206) обеспечивает передачу данных устройством (200) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0037] To ensure user interaction with the computing device (500), various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, stylus, touchpad, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc. [0038] The network communication means (206) allows the device (200) to transmit data via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc. One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
[0039] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0039] Additionally, satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.
[0040] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. [0040] The submitted application materials disclose preferred examples of implementation of a technical solution and should not be interpreted as limiting other, particular examples of its implementation that do not go beyond the scope of the requested legal protection, which are obvious to specialists in the relevant field of technology.

Claims

ФОРМУЛА Система сбора и обработки новостей в сети Интернет, содержащая: модуль анализатора, выполненный с возможностью поиска доменных имен в сети Интернет, содержащих новостные источники; анализа HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передачу выявленных ссылок на новостные ленты, их тип и алгоритм обработки в базу данных; модуль скраппинга, выполненный с возможностью обработки данных, сохраненных в базе данных, с помощью которого осуществляется обработка сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора, при которой выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; модуль парсинга, выполненный с возможностью получения HTML-кода от модуля скраппинга; извлечения текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обработку результатов извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; FORMULA A system for collecting and processing news on the Internet, containing: an analyzer module configured to search for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a news source to their total number; processing the results of extracting each algorithm by a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters;
9 детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. 9 detect semantically coherent text characterizing a news source; saving the extracted text to the database.
2. Система по п.1, характеризующая тем, что анализ HTML-кода осуществляется для главной страницы веб-ресурса и для всех страниц 1-го уровня вложенности. 2. The system according to claim 1, characterized by the fact that the HTML code is analyzed for the main page of the web resource and for all pages of the 1st nesting level.
3. Система по п.2, характеризующая тем, что определяется наличие наличия ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику. 3. The system according to claim 2, characterized by the fact that the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
4. Система по п.1 , характеризующая тем, что модуль скраппинга выполнен с возможностью анализа лент следующих типов: 4. The system according to claim 1, characterized in that the scraping module is designed to analyze the following types of tapes:
- RSS - RSS, Atom, JSON стандарты; - RSS - RSS, Atom, JSON standards;
- HTML страницы; - HTML pages;
- HTML страницы, обрабатываемые с помощью ХРАТН выражений. - HTML pages processed using XPATE expressions.
5. Способ сбора и обработки новостей в сети Интернет, выполняемый с помощью процессора и содержащий этапы, на которых: выполняют поиск доменных имен в сети Интернет, содержащих новостные источники; осуществляют анализ HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определяют тип новостных лент и алгоритм обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передают выявленные ссылки на новостные ленты, их тип и алгоритм обработки в базу данных; выполняют обработку данных, сохраненных в базе данных, в ходе которой обрабатывают сохраненные ссылки на новостные ленты с помощью алгоритма анализа разметки веб-ресурса, при этом выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; на основании полученного HTML-кода от модуля выполняют извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обрабатывают результаты извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. 5. A method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number; processing the results of extracting each algorithm with a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database.
11 eleven
PCT/RU2022/000146 2022-04-29 2022-04-29 System and method for collecting and processing news from the internet WO2023211304A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2022111786A RU2795678C1 (en) 2022-04-29 System and method for collecting and processing news on the internet
RU2022111786 2022-04-29

Publications (1)

Publication Number Publication Date
WO2023211304A1 true WO2023211304A1 (en) 2023-11-02

Family

ID=88519360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2022/000146 WO2023211304A1 (en) 2022-04-29 2022-04-29 System and method for collecting and processing news from the internet

Country Status (1)

Country Link
WO (1) WO2023211304A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114324A1 (en) * 2003-09-14 2005-05-26 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US20070198459A1 (en) * 2006-02-14 2007-08-23 Boone Gary N System and method for online information analysis
RU2405197C2 (en) * 2004-02-12 2010-11-27 Майкрософт Корпорейшн Web-crawling based on statistical decision theory and predicting web page change
US20150106157A1 (en) * 2013-10-15 2015-04-16 Adobe Systems Incorporated Text extraction module for contextual analysis engine
US20190213488A1 (en) * 2016-09-02 2019-07-11 Hithink Financial Services Inc. Systems and methods for semantic analysis based on knowledge graph

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114324A1 (en) * 2003-09-14 2005-05-26 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
RU2405197C2 (en) * 2004-02-12 2010-11-27 Майкрософт Корпорейшн Web-crawling based on statistical decision theory and predicting web page change
US20070198459A1 (en) * 2006-02-14 2007-08-23 Boone Gary N System and method for online information analysis
US20150106157A1 (en) * 2013-10-15 2015-04-16 Adobe Systems Incorporated Text extraction module for contextual analysis engine
US20190213488A1 (en) * 2016-09-02 2019-07-11 Hithink Financial Services Inc. Systems and methods for semantic analysis based on knowledge graph

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
US9519686B2 (en) Confidence ranking of answers based on temporal semantics
JP5065420B2 (en) Method, system, and computer-readable medium for pre-assessment and refinement of the quality of a web service definition
US10089296B2 (en) System and method for sentiment lexicon expansion
US9760828B2 (en) Utilizing temporal indicators to weight semantic values
US20210209421A1 (en) Method and apparatus for constructing quality evaluation model, device and storage medium
WO2018184518A1 (en) Microblog data processing method and device, computer device and storage medium
WO2009096523A1 (en) Information analysis device, search system, information analysis method, and information analysis program
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
CN107301195A (en) Generate disaggregated model method, device and the data handling system for searching for content
Martens et al. Extracting and analyzing context information in user-support conversations on twitter
RU2795678C1 (en) System and method for collecting and processing news on the internet
US20230119590A1 (en) Automatic identification of document sections to generate a searchable data structure
WO2023211304A1 (en) System and method for collecting and processing news from the internet
CN110688558A (en) Method and device for searching web page, electronic equipment and storage medium
EA044489B1 (en) SYSTEM AND METHOD FOR COLLECTING AND PROCESSING NEWS ON THE INTERNET
CN112733542B (en) Theme detection method and device, electronic equipment and storage medium
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
McGillivray et al. Exploiting the Web for Semantic Change Detection
ÖZYİĞİT MUHASEBE ALANINA GÜNCEL YAKLAŞIMLAR: METİN MADENCİLİĞİ
CN113722421B (en) Contract auditing method and system and computer readable storage medium
RU2755606C2 (en) Method and system for classifying data for identifying confidential information in the text
KR101909537B1 (en) System and method for classifying social data
Orellana et al. Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22940413

Country of ref document: EP

Kind code of ref document: A1