WO2023211304A1 - System and method for collecting and processing news from the internet - Google Patents
System and method for collecting and processing news from the internet Download PDFInfo
- Publication number
- WO2023211304A1 WO2023211304A1 PCT/RU2022/000146 RU2022000146W WO2023211304A1 WO 2023211304 A1 WO2023211304 A1 WO 2023211304A1 RU 2022000146 W RU2022000146 W RU 2022000146W WO 2023211304 A1 WO2023211304 A1 WO 2023211304A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- news
- processing
- text
- algorithm
- database
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims description 15
- 238000007790 scraping Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 7
- 230000001427 coherent effect Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013480 data collection Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
Definitions
- the claimed solution relates to the field of computer technology, in particular, to an automated system for collecting data on the Internet.
- Application US 20070198459 Al discloses a system for online analysis of information sources, containing a module for collecting information from the network and an analytics module that analyzes retrospective changes in data within the analyzed news topic.
- the claimed system allows us to solve a technical problem in terms of increasing the accuracy of the collected information by checking the collected information for semantically coherent text characterizing the news source.
- the technical result is to increase the accuracy of news data collection by analyzing website news feeds for the presence of semantically coherent text in news sources.
- the claimed technical result is achieved through the implementation of a system for collecting and processing news on the Internet, containing: an analyzer module configured to searching for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a
- the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
- the scraping module is configured to analyze tapes of the following types:
- the claimed technical result is also achieved by implementing a method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; Based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number ; process the results of extracting each algorithm by a machine learning model
- FIG. 1 shows a conceptual diagram of the claimed solution.
- FIG. Figure 2 shows an example of HTML code extracted from a resource by the analyzer module.
- FIG. Figure 3 shows an example of extracting links from HTML code.
- FIG. Figure 4 shows an example of recording a link to a news source in the database.
- FIG. Figure 5 shows an example of a XPATH expression.
- FIG. Figure 6 shows an example of HTML feed processing.
- FIG. Figure 7 shows an example of extracted text from a news source.
- FIG. 8 shows a general diagram of a computing device.
- FIG. 1 shows a general diagram of the claimed system (130), which collects information from websites containing news sources (110).
- the system (130) can be implemented on the basis of a single computing device, for example, a server, or it can be a software and hardware complex in which each of its elements is located on a separate computer, connected within a single functionality with other elements via an information network.
- the system (130) contains a set of modules that implement the specified functionality.
- the modules can be implemented structurally in the form of software and hardware solutions (for example, a system on a chip, microcontrollers, etc.) or in the form of software modules operating within a single software that implements the system operation algorithm (130) using a computing device.
- the system (130) collects information from the Internet through an analyzer module (131) that connects to websites with news sources (110) through an information network (120).
- the analyzer module (131) searches for domain names on the Internet containing news sources (software). After connecting to the sources, the module (131) analyzes the HTML code of the web pages of the corresponding domain names to identify news feeds. Analysis of news sources is carried out by analyzing the main page of a web resource, as well as all pages of the 1st nesting level. In FIG. 2 shows an example of extracting HTML code from the source (software) of the domain https://press.sber.ru.
- the processing algorithm of the module (131) uses two types of algorithms rssfinder and htmlfinder, which provide analysis of web pages and identification of links to RSS feeds or HTML feeds.
- An example of defining links to news feeds is shown in Fig. 3.
- the module (131) determines the type of news feeds and the algorithm for processing the corresponding feed to extract a link to the text information of the news source.
- the rssfinder algorithm works first, because RSS feeds are easier to process; if, as a result of the work, rssfinder did not reveal anything, then the htmlfinder algorithm is activated. In this case, there may be cases when the link is incorrect or the source is not available (no response from the server), in which case the type of tape is determined during the identification process and depends on which algorithm returned the values, and the very fact of receiving responses from the source server.
- the presence of links, their number and signs of matches are also determined by keywords corresponding to the news source, for example, such as: “rss”, “feed”, “news”, “articles”, “news” “, “articles”, or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.)
- keywords corresponding to the news source for example, such as: “rss”, “feed”, “news”, “articles”, “news” ", “articles”, or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.)
- Identified links to news feeds, as well as their type (HTML or RSS) and the applicable processing algorithm for subsequent extraction of links to news feeds are transferred to the database (132).
- the stored information in the database (132) is further processed using scraping (133) and parsing (134) modules.
- the scraping module (133) ensures the processing of stored links to news feeds using the web resource markup analysis algorithm defined by the analyzer module (131), in which a link to the source web resource (110) is followed to check the link for duplication with the stored information in the database (132), as well as obtaining the HTML code for subsequent processing of text data by the parsing module (134).
- An example of extracting links from HTML code is shown in Fig. 3.
- the scraping module (133) performs continuous operation and iteratively processes the table of tape references from the database (132). In asynchronous mode, the module (133) operates three cycles that support processing of 3 types of feeds: RSS - RSS, Atom, JSON standards (type 1); HTML - regular HTML pages (2nd type); HTML pages processed using XPATH expressions (type 3), for which the path to news links is manually configured. An example of writing a XPATH expression is shown in Fig. 5.
- Each of the loops processes part of the links corresponding to its algorithm, during which the link to the source (software) is accessed to analyze the resulting HTML code to extract links to news data.
- An example of intermediate processing for HTML feed is shown in Fig. 6. All received links to news are checked for duplication by accessing the database (132); if the link is contained in the database (132), then it is excluded from processing, otherwise it is recorded in the database (132) and transferred for further processing.
- the parsing module (134) processes the received HTML code from the scraping module (133). During the operation of the module (134), text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the coherent text of the news source to their total number .
- An HTML node is understood as a hierarchical node of HTML markup, for example, ⁇ head>, ⁇ body>, etc.
- One of the algorithms used is based on measuring the number of non-whitespace characters in the source HTML node. Another algorithm analyzes HTML nodes based on the amount of useful text, and extracts text from the nodes that have gained more weight. By testing these algorithms on one data set, differences in sets of high-quality texts were identified.
- the algorithms work in parallel and the evaluation of the results is compared by a machine learning model, for example, a neural network algorithm trained on examples of news sources, which are reference news texts.
- the machine learning model used within the parsing module (134) analyzes the presence of characteristics inherent in sources that are not news sources. These kinds of characteristics, as a rule, are stop words and special characters (for example, telephone numbers, a sequence of numbers, etc.).
- the results of the above algorithms identify the most semantically coherent text, which clearly characterizes the news source.
- the resulting text is subsequently stored in a database (132) for subsequent provision to the user or transmission to an automated system for selecting news by keywords.
- An example of the extracted text is shown in Fig. 7
- the claimed system (130) can be implemented on the basis of a single computing device (200), for example, a server.
- FIG. 8 shows a general view of such a computing device (200).
- a computing device contains one or more processors (201), memory devices such as RAM (202) and ROM (203), I/O interfaces (204), and input devices connected by a common information exchange bus. /output (205), and a device for network communication (206).
- processors 201
- memory devices such as RAM (202) and ROM (203)
- I/O interfaces 204
- input devices connected by a common information exchange bus.
- /output /output
- 206 a device for network communication
- the processor (201) may be selected from a variety of devices commonly used today, such as those from IntelTM, AMDTM, AppleTM, Samsung ExynosTM, MediaTEKTM, Qualcomm SnapdragonTM and etc.
- a graphics processor for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
- RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) for performing the necessary logical data processing operations.
- the RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.).
- the ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
- I/O interfaces To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
- various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, stylus, touchpad, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc.
- the network communication means (206) allows the device (200) to transmit data via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc.
- One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
- satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.
Abstract
The invention relates to the field of computer technologies. A system (130) performs a search of the Internet (120) for domain names containing news sources (110). The HTML code of the corresponding websites is analyzed to detect news feeds with the aid of an analysis module (131). The news feed type and a processing algorithm are determined to extract a link to the textual information of a news source. Identified links to news feeds, the news feed type and the processing algorithm are transmitted to a database (132). Saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource in a scraping module (133), wherein a web resource is accessed via a link, the link is checked for duplication among the saved information in the database, and the HTML code is obtained. Using the obtained HTML code and a parsing module (134), textual information is extracted with the aid of text data collection algorithms, each of which selects the HTML codes with the greatest ratio of symbols characterizing cohesive text of a news source to the total number of symbols. The extraction results of each algorithm are processed by a machine learning module to analyze sources that are not news sources. The invention is directed toward providing more accurate collection and processing of textual information from websites.
Description
СИСТЕМА И СПОСОБ СБОРА И ОБРАБОТКИ НОВОСТЕЙ В СЕТИ ИНТЕРНЕТ SYSTEM AND METHOD FOR COLLECTING AND PROCESSING NEWS ON THE INTERNET
ОБЛАСТЬ ТЕХНИКИ TECHNICAL FIELD
[0001] Заявленное решение относится к области компьютерных технологий, в частности, к автоматизированной системе для сбора данных в сети Интернет. [0001] The claimed solution relates to the field of computer technology, in particular, to an automated system for collecting data on the Internet.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE ART
[0002] Автоматизированный сбор новостей в сети Интернет широко применяется на сегодняшний день. Часто применяются различные методы парсинга информации с новостных источников, позволяющие выгружать данные с веб-ресурсов для их последующей обработки. [0002] Automated news gathering on the Internet is widely used today. Various methods of parsing information from news sources are often used, making it possible to download data from web resources for their subsequent processing.
[0003] В заявке US 20070198459 Al (Current Assignee Accenture Global Services Ltd, 23.08.2007) раскрывается система для онлайн анализа источников информации, содержащая модуль сбора информации из сети и модуль аналитики, выполняющий анализ ретроспективного изменения данных в рамках анализируемого новостного топика. [0003] Application US 20070198459 Al (Current Assignee Accenture Global Services Ltd, 08/23/2007) discloses a system for online analysis of information sources, containing a module for collecting information from the network and an analytics module that analyzes retrospective changes in data within the analyzed news topic.
[0004] Недостатками данного решения является отсутствие механизма проверки семантической связности текста, представленного в том или ином новостном источнике, что не позволяет проверить качество размещенной в сети информации, а также ее соответствие, как таковое, новостному источнику, а не иному типу данных, например, рекламному объявлению. В итоге такого рода решения позволяют осуществлять сбор данных без их предварительного анализа в части отношения к новостному источнику, в следствие чего снижается релевантность и качество собираемой информации. [0004] The disadvantages of this solution are the lack of a mechanism for checking the semantic coherence of the text presented in a particular news source, which does not allow checking the quality of information posted on the network, as well as its compliance, as such, with the news source, and not with another type of data, for example , advertisement. As a result, this kind of solutions allows for the collection of data without preliminary analysis of it in relation to the news source, as a result of which the relevance and quality of the collected information decreases.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
[0005] Заявленная система позволяет решить техническую проблему в части повышения точности собираемой информации за счет выполнения проверки собираемой информации на предмет семантически связного текста, характеризующего новостной источник. [0005] The claimed system allows us to solve a technical problem in terms of increasing the accuracy of the collected information by checking the collected information for semantically coherent text characterizing the news source.
[0006] Техническим результатом является повышение точности сбора новостных данных, за счет анализа новостных лент веб-сайтов на предмет наличия семантически связного текста в новостных источниках. [0006] The technical result is to increase the accuracy of news data collection by analyzing website news feeds for the presence of semantically coherent text in news sources.
[0007] Заявленный технический результат достигается за счет реализации системы сбора и обработки новостей в сети Интернет, содержащей: модуль анализатора, выполненный с возможностью
поиска доменных имен в сети Интернет, содержащих новостные источники; анализа HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передачу выявленных ссылок на новостные ленты, их тип и алгоритм обработки в базу данных; модуль скраппинга, выполненный с возможностью обработки данных, сохраненных в базе данных, с помощью которого осуществляется обработка сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора, при которой выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; модуль парсинга, выполненный с возможностью получения HTML-кода от модуля скраппинга; извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых, осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обработку результатов извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных.
[0008] В одном из частных примеров реализации анализ HTML-кода осуществляется для главной страницы веб-ресурса и для всех страниц 1-го уровня вложенности. [0007] The claimed technical result is achieved through the implementation of a system for collecting and processing news on the Internet, containing: an analyzer module configured to searching for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a news source to their total number; processing the results of extracting each algorithm by a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database. [0008] In one of the particular implementation examples, the HTML code is analyzed for the main page of the web resource and for all pages of the 1st nesting level.
[0009] В другом частном примере реализации определяется наличие наличия ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику. [0009] In another particular implementation example, the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
[0010] В другом частном примере реализации модуль скраппинга выполнен с возможностью анализа лент следующих типов: [0010] In another particular implementation example, the scraping module is configured to analyze tapes of the following types:
- RSS - RSS, Atom, JSON стандарты; - RSS - RSS, Atom, JSON standards;
- HTML страницы; - HTML pages;
- HTML страницы, обрабатываемые с помощью ХРАТН выражений.- HTML pages processed using XPATE expressions.
[ООН] Заявленный технический результат достигается также за счет выполнения способа сбора и обработки новостей в сети Интернет, выполняемого с помощью процессора и содержащего этапы, на которых: выполняют поиск доменных имен в сети Интернет, содержащих новостные источники; осуществляют анализ HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определяют тип новостных лент и алгоритм обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передают выявленные ссылки на новостные ленты, их тип и алгоритм обработки в базу данных; выполняют обработку данных, сохраненных в базе данных, в ходе которой обрабатывают сохраненные ссылки на новостные ленты с помощью алгоритма анализа разметки веб-ресурса, при этом выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; на основании полученного HTML-кода от модуля выполняют извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обрабатывают результаты извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью
анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. [UN] The claimed technical result is also achieved by implementing a method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; Based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number ; process the results of extracting each algorithm by a machine learning model, and the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, and the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF THE DRAWINGS
[0012] На Фиг. 1 представлена концептуальная схема заявленного решения. [0012] In FIG. 1 shows a conceptual diagram of the claimed solution.
[0013] На Фиг. 2 представлен пример HTML-кода, извлекаемого с ресурса модулем анализатора. [0013] In FIG. Figure 2 shows an example of HTML code extracted from a resource by the analyzer module.
[0014] На Фиг. 3 представлен пример извлечения ссылок из HTML-кода. [0014] In FIG. Figure 3 shows an example of extracting links from HTML code.
[0015] На Фиг. 4 представлен пример записи ссылки на новостной источник в базе данных. [0015] In FIG. Figure 4 shows an example of recording a link to a news source in the database.
[0016] На Фиг. 5 представлен пример ХРАТН выражения. [0016] In FIG. Figure 5 shows an example of a XPATH expression.
[0017] На Фиг. 6 представлен пример обработки HTML ленты. [0017] In FIG. Figure 6 shows an example of HTML feed processing.
[0018] На Фиг. 7 представлен пример извлеченного текста из новостного источника. [0018] In FIG. Figure 7 shows an example of extracted text from a news source.
[0019] На Фиг. 8 представлена общая схема вычислительного устройства. [0019] In FIG. 8 shows a general diagram of a computing device.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ IMPLEMENTATION OF THE INVENTION
[0020] На Фиг. 1 представлена общая схема заявленной системы (130), выполняющей сбор информации с веб-сайтов, содержащих новостные источники (110). Система (130) может выполняться на базе единого вычислительного устройства, например, сервера, или представлять собой программно-аппаратный комплекс, в котором каждый из ее элементов расположен на отдельной вычислительной машине, связанный в рамках единого функционального обеспечения с другими элементами посредство информационной сети. [0020] In FIG. 1 shows a general diagram of the claimed system (130), which collects information from websites containing news sources (110). The system (130) can be implemented on the basis of a single computing device, for example, a server, or it can be a software and hardware complex in which each of its elements is located on a separate computer, connected within a single functionality with other elements via an information network.
[0021] Система (130) содержит совокупность модулей, которые реализуют заданный функционал. Модули могут выполняться конструктивно в виде программно-аппаратных решений (например, система на чипе, микроконтроллеров и т.п.) или в виде программных модулей, функционирующих в рамках единого программного обеспечения, реализующего алгоритм работы системы (130) с помощью вычислительного устройства.
[0022] Сбор информации системой (130) из сети Интернет осуществляется посредством модуля анализатора (131), выполняющему подключение к веб-сайтам с новостными источниками (110) через информационную сеть (120). [0021] The system (130) contains a set of modules that implement the specified functionality. The modules can be implemented structurally in the form of software and hardware solutions (for example, a system on a chip, microcontrollers, etc.) or in the form of software modules operating within a single software that implements the system operation algorithm (130) using a computing device. [0022] The system (130) collects information from the Internet through an analyzer module (131) that connects to websites with news sources (110) through an information network (120).
[0023] Модуль анализатора (131) выполняет поиск доменных имен в сети Интернет, содержащих новостные источники (ПО). После подключения к источникам модуль (131) выполняет анализ HTML-кода веб-страниц соответствующих доменных имен на предмет выявления новостных лент. Анализ новостных источников выполняется с помощью анализа главной страницы веб-ресурса, а также всех страниц 1-го уровня вложенности. На Фиг. 2 представлен пример извлечения HTML-кода из источника (ПО) домена https://press.sber.ru. [0023] The analyzer module (131) searches for domain names on the Internet containing news sources (software). After connecting to the sources, the module (131) analyzes the HTML code of the web pages of the corresponding domain names to identify news feeds. Analysis of news sources is carried out by analyzing the main page of a web resource, as well as all pages of the 1st nesting level. In FIG. 2 shows an example of extracting HTML code from the source (software) of the domain https://press.sber.ru.
[0024] Алгоритм обработки модуля (131) использует два типа алгоритмов rssfinder и htmlfinder, которые обеспечивают анализ веб-страниц и выявление ссылок на RSS-ленты или HTML-ленты. Пример определения ссылок на новостные ленты представлен на Фиг. 3. После выявления одной или нескольких новостных лент модуль (131) выполняет определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника. Первым работает алгоритм rssfinder , т.к. rss ленты проще в обработке, если по итогу работы rssfinder ничего не выявил, то активируется алгоритм htmlfinder. При этом возможны случаи, когда ссылка некорректная или источник не доступен (нет отклика от сервера), в таком случае тип ленты определяется в процессе выявления и зависит от того, какой алгоритм вернул значения, и самого факта получения ответов от сервера источника. [0024] The processing algorithm of the module (131) uses two types of algorithms rssfinder and htmlfinder, which provide analysis of web pages and identification of links to RSS feeds or HTML feeds. An example of defining links to news feeds is shown in Fig. 3. After identifying one or more news feeds, the module (131) determines the type of news feeds and the algorithm for processing the corresponding feed to extract a link to the text information of the news source. The rssfinder algorithm works first, because RSS feeds are easier to process; if, as a result of the work, rssfinder did not reveal anything, then the htmlfinder algorithm is activated. In this case, there may be cases when the link is incorrect or the source is not available (no response from the server), in which case the type of tape is determined during the identification process and depends on which algorithm returned the values, and the very fact of receiving responses from the source server.
[0025] При работе модуля (131) также определяется наличие ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику, например, таким как: "rss", "feed", "news", "articles", "новости", "статьи", или исключающих (".png", ".pdf', паттерны: '.*login.*', '.*/([л-]*[-_][л-]*)+$' и др.). Выявленные ссылки на новостные ленты, а также их тип (HTML или RSS) и применимый алгоритм обработки для последующего извлечения ссылок на новости передаются в базу данных (132). Пример записи в базе данных представлен на Фиг. 4. [0025] During operation of the module (131), the presence of links, their number and signs of matches are also determined by keywords corresponding to the news source, for example, such as: “rss”, “feed”, “news”, “articles”, “news” ", "articles", or excluding (".png", ".pdf', patterns: '.*login.*', '.*/([ l -]*[-_][ l -]*)+ $', etc.) Identified links to news feeds, as well as their type (HTML or RSS) and the applicable processing algorithm for subsequent extraction of links to news feeds are transferred to the database (132). An example of a record in the database is presented in Fig. 4 .
[0026] Сохраненная информация в базе данных (132) далее обрабатывается с помощью модулей скраппинга (133) и парсинга (134). Модуль скраппинга (133) обеспечивает обработку сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора (131), при которой выполняется переход по ссылке на веб-ресурс источника (110) для проверки ссылки на дубликацию с хранимой информацией в базе данных (132), а также получения HTML-кода
для последующей обработки текстовых данных модулем парсинга (134). Пример извлесения ссылок из HTML-кода представлен на Фиг. 3. [0026] The stored information in the database (132) is further processed using scraping (133) and parsing (134) modules. The scraping module (133) ensures the processing of stored links to news feeds using the web resource markup analysis algorithm defined by the analyzer module (131), in which a link to the source web resource (110) is followed to check the link for duplication with the stored information in the database (132), as well as obtaining the HTML code for subsequent processing of text data by the parsing module (134). An example of extracting links from HTML code is shown in Fig. 3.
[0027] Модуль скраппинга (133) выполняет непрерывную работу и итеративно обрабатывает таблицу ссылок на ленты из базы данных (132). В асинхронном режиме в модуле (133) работает три цикла, поддерживающие обработку 3-х типов лент: RSS - RSS, Atom, JSON стандарты (1й тип); HTML - обычные HTML-страницы (2й тип); HTML- страницы, обрабатываемые с помощью ХРАТН выражений (Зй тип), для которых путь к ссылкам на новости конфигурируется вручную. Пример записи ХРАТН выражения представлен на Фиг. 5. [0027] The scraping module (133) performs continuous operation and iteratively processes the table of tape references from the database (132). In asynchronous mode, the module (133) operates three cycles that support processing of 3 types of feeds: RSS - RSS, Atom, JSON standards (type 1); HTML - regular HTML pages (2nd type); HTML pages processed using XPATH expressions (type 3), for which the path to news links is manually configured. An example of writing a XPATH expression is shown in Fig. 5.
[0028] Каждый из циклов обрабатывает часть соответствующих его алгоритму ссылок, при работе которых происходит обращение по ссылке к источнику (ПО) для анализа полученного HTML-кода для извлечения ссылок на новостные данные. Пример промежуточной обработки для HTML ленты представлен на Фиг. 6. Все полученные ссылки на новости проверяются на дублирование путем обращения к базе данных (132), если ссылка содержится в базе данных (132) - то она исключается из обработки, иначе - записывается в базу данных (132) и передается на дальнейшую обработку. [0028] Each of the loops processes part of the links corresponding to its algorithm, during which the link to the source (software) is accessed to analyze the resulting HTML code to extract links to news data. An example of intermediate processing for HTML feed is shown in Fig. 6. All received links to news are checked for duplication by accessing the database (132); if the link is contained in the database (132), then it is excluded from processing, otherwise it is recorded in the database (132) and transferred for further processing.
[0029] Модуль парсинга (134) обрабатывает полученный HTML-код от модуля скраппинга (133). В ходе работы модуля (134) осуществляется извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых, осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству. Под HTML-нодой понимается иерархический узел HTML разметки, например, <head>, <body> и т.п. [0029] The parsing module (134) processes the received HTML code from the scraping module (133). During the operation of the module (134), text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the coherent text of the news source to their total number . An HTML node is understood as a hierarchical node of HTML markup, for example, <head>, <body>, etc.
[0030] Один из применяемых алгоритмов основан на измерении количества непробельных символов в HTML-ноде источника. Другой алгоритм анализирует HTML- ноды по количеству полезного текста, и выполняет извлечение текста из набравших больший вес нод. Путем тестирования этих алгоритмов на одном наборе данных была выявлена разность множеств качественных текстов. Алгоритмы работают параллельно и сравнивается оценка результатов моделью машинного обучения, например, нейросетевым алгоритмом, обученным на примерах новостных источников, представляющих собой эталонные новостные тексты. Модель машинного обучения, применяемая в рамках работы модуля парсинга (134) выполняет анализ наличия характеристик, присущих источникам, не являющихся новостными источниками. Такого рода характеристики, как правило, представляют собой стоп-слова и спецсимволы (например, номера телефонов, последовательность цифр, и т.п.). На основании обработки моделью получаемых
результатов работы указанных выше алгоритмов выполняется выявление наиболее семантически связного текста, что явно характеризует новостной источник. Полученный текст впоследствии сохраняется в базу данных (132) для последующего предоставления пользователю или передачи в автоматизированную систему подбора новостей по ключевым словам. Пример извлеченного текста представлен на Фиг. 7 [0030] One of the algorithms used is based on measuring the number of non-whitespace characters in the source HTML node. Another algorithm analyzes HTML nodes based on the amount of useful text, and extracts text from the nodes that have gained more weight. By testing these algorithms on one data set, differences in sets of high-quality texts were identified. The algorithms work in parallel and the evaluation of the results is compared by a machine learning model, for example, a neural network algorithm trained on examples of news sources, which are reference news texts. The machine learning model used within the parsing module (134) analyzes the presence of characteristics inherent in sources that are not news sources. These kinds of characteristics, as a rule, are stop words and special characters (for example, telephone numbers, a sequence of numbers, etc.). Based on the model’s processing of the resulting The results of the above algorithms identify the most semantically coherent text, which clearly characterizes the news source. The resulting text is subsequently stored in a database (132) for subsequent provision to the user or transmission to an automated system for selecting news by keywords. An example of the extracted text is shown in Fig. 7
[0031] Заявленная система (130) может быть реализована на базе единого вычислительного устройства (200), например, сервере. На Фиг. 8 представлен общий вид такого вычислительного устройства (200). [0031] The claimed system (130) can be implemented on the basis of a single computing device (200), for example, a server. In FIG. 8 shows a general view of such a computing device (200).
[0032] В общем случае вычислительное устройство (200) содержит объединенные общей шиной информационного обмена один или несколько процессоров (201), средства памяти, такие как ОЗУ (202) и ПЗУ (203), интерфейсы ввода/вывода (204), устройства ввода/вывода (205), и устройство для сетевого взаимодействия (206). [0032] In general, a computing device (200) contains one or more processors (201), memory devices such as RAM (202) and ROM (203), I/O interfaces (204), and input devices connected by a common information exchange bus. /output (205), and a device for network communication (206).
[0033] Процессор (201) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр. [0033] The processor (201) (or multiple processors, multi-core processor) may be selected from a variety of devices commonly used today, such as those from Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ and etc. A graphics processor, for example, Nvidia, AMD, Graphcore, etc., can also be used as a processor (501).
[0034] ОЗУ (202) представляет собой оперативную память и предназначено для хранения исполняемых процессором (201) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (202), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). [0034] RAM (202) is a random access memory and is designed to store machine-readable instructions executed by the processor (201) for performing the necessary logical data processing operations. The RAM (202) typically contains executable operating system instructions and associated software components (applications, program modules, etc.).
[0035] ПЗУ (203) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др. [0035] The ROM (203) is one or more permanent storage devices, such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
[0036] Для организации работы компонентов устройства (200) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (204). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0036] To organize the operation of device components (200) and organize the operation of external connected devices, various types of I/O interfaces (204) are used. The choice of appropriate interfaces depends on the specific design of the computing device, which can be, but is not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
[0037] Для обеспечения взаимодействия пользователя с вычислительным устройством (500) применяются различные средства (205) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое
перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п. [0038] Средство сетевого взаимодействия (206) обеспечивает передачу данных устройством (200) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (206) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0037] To ensure user interaction with the computing device (500), various means (205) of I/O information are used, for example, a keyboard, a display (monitor), a touch display, a touch pad, a joystick, a mouse, a light pen, stylus, touchpad, trackball, speakers, microphone, augmented reality tools, optical sensors, tablet, light indicators, projector, camera, biometric identification tools (retina scanner, fingerprint scanner, voice recognition module), etc. [0038] The network communication means (206) allows the device (200) to transmit data via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc. One or more means (206) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and/or BLE module, Wi-Fi module and etc.
[0039] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (200), например, GPS, ГЛОНАСС, BeiDou, Galileo. [0039] Additionally, satellite navigation tools can also be used as part of the device (200), for example, GPS, GLONASS, BeiDou, Galileo.
[0040] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.
[0040] The submitted application materials disclose preferred examples of implementation of a technical solution and should not be interpreted as limiting other, particular examples of its implementation that do not go beyond the scope of the requested legal protection, which are obvious to specialists in the relevant field of technology.
Claims
ФОРМУЛА Система сбора и обработки новостей в сети Интернет, содержащая: модуль анализатора, выполненный с возможностью поиска доменных имен в сети Интернет, содержащих новостные источники; анализа HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определение типа новостных лент и алгоритма обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передачу выявленных ссылок на новостные ленты, их тип и алгоритм обработки в базу данных; модуль скраппинга, выполненный с возможностью обработки данных, сохраненных в базе данных, с помощью которого осуществляется обработка сохраненных ссылок на новостные ленты с помощью применения алгоритма анализа разметки веб-ресурса, определенного модулем анализатора, при которой выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; модуль парсинга, выполненный с возможностью получения HTML-кода от модуля скраппинга; извлечения текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обработку результатов извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; FORMULA A system for collecting and processing news on the Internet, containing: an analyzer module configured to search for domain names on the Internet containing news sources; analyzing the HTML code of web pages of the corresponding domain names to identify news feeds; determining the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information from a news source; transfer of identified links to news feeds, their type and processing algorithm to the database; scraping module, configured to process data stored in the database, with the help of which the saved links to news feeds are processed using an algorithm for analyzing the markup of a web resource, defined by the analyzer module, when following a link to a web resource, checking links to duplication with stored information in the database, and obtaining HTML code for subsequent processing of text data; a parsing module configured to receive HTML code from the scraping module; extracting text information from HTML code using at least two algorithms for collecting text data, each of which selects an HTML node with the largest ratio of characters characterizing the coherent text of a news source to their total number; processing the results of extracting each algorithm by a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters;
9
детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. 9 detect semantically coherent text characterizing a news source; saving the extracted text to the database.
2. Система по п.1, характеризующая тем, что анализ HTML-кода осуществляется для главной страницы веб-ресурса и для всех страниц 1-го уровня вложенности. 2. The system according to claim 1, characterized by the fact that the HTML code is analyzed for the main page of the web resource and for all pages of the 1st nesting level.
3. Система по п.2, характеризующая тем, что определяется наличие наличия ссылок, их количества и признаков совпадений по ключевым словам, соответствующих новостному источнику. 3. The system according to claim 2, characterized by the fact that the presence of links, their number and signs of matches for keywords corresponding to the news source are determined.
4. Система по п.1 , характеризующая тем, что модуль скраппинга выполнен с возможностью анализа лент следующих типов: 4. The system according to claim 1, characterized in that the scraping module is designed to analyze the following types of tapes:
- RSS - RSS, Atom, JSON стандарты; - RSS - RSS, Atom, JSON standards;
- HTML страницы; - HTML pages;
- HTML страницы, обрабатываемые с помощью ХРАТН выражений. - HTML pages processed using XPATE expressions.
5. Способ сбора и обработки новостей в сети Интернет, выполняемый с помощью процессора и содержащий этапы, на которых: выполняют поиск доменных имен в сети Интернет, содержащих новостные источники; осуществляют анализ HTML-кода веб страниц соответствующих доменных имен для выявления новостных лент; определяют тип новостных лент и алгоритм обработки соответствующей ленты для извлечения ссылки на текстовую информацию новостного источника; передают выявленные ссылки на новостные ленты, их тип и алгоритм обработки в базу данных; выполняют обработку данных, сохраненных в базе данных, в ходе которой обрабатывают сохраненные ссылки на новостные ленты с помощью алгоритма анализа разметки веб-ресурса, при этом выполняется переход по ссылке на веб-ресурс, проверка ссылки на дубликацию с хранимой информацией в базе данных, и получение HTML-кода для последующей обработки текстовых данных; на основании полученного HTML-кода от модуля выполняют извлечение текстовой информации из HTML-кода с помощью по меньшей мере двух алгоритмов сбора текстовых
данных, каждый из которых осуществляет выбор HTML-ноды с наибольшим отношением символов, характеризующих связный текст новостного источника, к общему их количеству; обрабатывают результаты извлечения каждого алгоритма моделью машинного обучения, причем модель выполнена с возможностью анализировать наличие характеристик, присущих источникам, не являющихся новостным источниками, при этом характеристики представляют собой по меньшей мере стоп-слова и спецсимволы; детектировать семантически связный текст, характеризующий новостной источник; сохранения извлеченного текста в базу данных. 5. A method for collecting and processing news on the Internet, performed using a processor and containing the stages of: searching for domain names on the Internet containing news sources; analyze the HTML code of web pages of the corresponding domain names to identify news feeds; determine the type of news feeds and the algorithm for processing the corresponding feed to extract links to text information of the news source; transmit identified links to news feeds, their type and processing algorithm to the database; perform processing of data stored in the database, during which they process saved links to news feeds using an algorithm for analyzing the markup of a web resource, while following a link to a web resource, checking the link for duplication with the information stored in the database, and obtaining HTML code for subsequent processing of text data; based on the received HTML code from the module, text information is extracted from the HTML code using at least two algorithms for collecting text data, each of which selects the HTML node with the largest ratio of characters characterizing the connected text of the news source to their total number; processing the results of extracting each algorithm with a machine learning model, wherein the model is configured to analyze the presence of characteristics inherent in sources that are not news sources, wherein the characteristics are at least stop words and special characters; detect semantically coherent text characterizing a news source; saving the extracted text to the database.
11
eleven
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2022111786A RU2795678C1 (en) | 2022-04-29 | System and method for collecting and processing news on the internet | |
RU2022111786 | 2022-04-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023211304A1 true WO2023211304A1 (en) | 2023-11-02 |
Family
ID=88519360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/RU2022/000146 WO2023211304A1 (en) | 2022-04-29 | 2022-04-29 | System and method for collecting and processing news from the internet |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023211304A1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114324A1 (en) * | 2003-09-14 | 2005-05-26 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
US20070198459A1 (en) * | 2006-02-14 | 2007-08-23 | Boone Gary N | System and method for online information analysis |
RU2405197C2 (en) * | 2004-02-12 | 2010-11-27 | Майкрософт Корпорейшн | Web-crawling based on statistical decision theory and predicting web page change |
US20150106157A1 (en) * | 2013-10-15 | 2015-04-16 | Adobe Systems Incorporated | Text extraction module for contextual analysis engine |
US20190213488A1 (en) * | 2016-09-02 | 2019-07-11 | Hithink Financial Services Inc. | Systems and methods for semantic analysis based on knowledge graph |
-
2022
- 2022-04-29 WO PCT/RU2022/000146 patent/WO2023211304A1/en unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114324A1 (en) * | 2003-09-14 | 2005-05-26 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
RU2405197C2 (en) * | 2004-02-12 | 2010-11-27 | Майкрософт Корпорейшн | Web-crawling based on statistical decision theory and predicting web page change |
US20070198459A1 (en) * | 2006-02-14 | 2007-08-23 | Boone Gary N | System and method for online information analysis |
US20150106157A1 (en) * | 2013-10-15 | 2015-04-16 | Adobe Systems Incorporated | Text extraction module for contextual analysis engine |
US20190213488A1 (en) * | 2016-09-02 | 2019-07-11 | Hithink Financial Services Inc. | Systems and methods for semantic analysis based on knowledge graph |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019263758B2 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
US9519686B2 (en) | Confidence ranking of answers based on temporal semantics | |
JP5065420B2 (en) | Method, system, and computer-readable medium for pre-assessment and refinement of the quality of a web service definition | |
US10089296B2 (en) | System and method for sentiment lexicon expansion | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
US20210209421A1 (en) | Method and apparatus for constructing quality evaluation model, device and storage medium | |
WO2018184518A1 (en) | Microblog data processing method and device, computer device and storage medium | |
WO2009096523A1 (en) | Information analysis device, search system, information analysis method, and information analysis program | |
US10628749B2 (en) | Automatically assessing question answering system performance across possible confidence values | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
CN107301195A (en) | Generate disaggregated model method, device and the data handling system for searching for content | |
Martens et al. | Extracting and analyzing context information in user-support conversations on twitter | |
RU2795678C1 (en) | System and method for collecting and processing news on the internet | |
US20230119590A1 (en) | Automatic identification of document sections to generate a searchable data structure | |
WO2023211304A1 (en) | System and method for collecting and processing news from the internet | |
CN110688558A (en) | Method and device for searching web page, electronic equipment and storage medium | |
EA044489B1 (en) | SYSTEM AND METHOD FOR COLLECTING AND PROCESSING NEWS ON THE INTERNET | |
CN112733542B (en) | Theme detection method and device, electronic equipment and storage medium | |
Ma et al. | API prober–a tool for analyzing web API features and clustering web APIs | |
McGillivray et al. | Exploiting the Web for Semantic Change Detection | |
ÖZYİĞİT | MUHASEBE ALANINA GÜNCEL YAKLAŞIMLAR: METİN MADENCİLİĞİ | |
CN113722421B (en) | Contract auditing method and system and computer readable storage medium | |
RU2755606C2 (en) | Method and system for classifying data for identifying confidential information in the text | |
KR101909537B1 (en) | System and method for classifying social data | |
Orellana et al. | Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22940413 Country of ref document: EP Kind code of ref document: A1 |