RU2530672C1 - Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation - Google Patents

Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation Download PDF

Info

Publication number
RU2530672C1
RU2530672C1 RU2013134965/08A RU2013134965A RU2530672C1 RU 2530672 C1 RU2530672 C1 RU 2530672C1 RU 2013134965/08 A RU2013134965/08 A RU 2013134965/08A RU 2013134965 A RU2013134965 A RU 2013134965A RU 2530672 C1 RU2530672 C1 RU 2530672C1
Authority
RU
Russia
Prior art keywords
stream
links
streams
multimedia
database
Prior art date
Application number
RU2013134965/08A
Other languages
Russian (ru)
Inventor
Денис Олегович ОРЕЛ
Алексей Николаевич ФОМИЧЕВ
Original Assignee
Общество С Ограниченной Ответственностью "Балакам"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Балакам" filed Critical Общество С Ограниченной Ответственностью "Балакам"
Priority to RU2013134965/08A priority Critical patent/RU2530672C1/en
Priority to PCT/RU2013/001055 priority patent/WO2015012720A1/en
Application granted granted Critical
Publication of RU2530672C1 publication Critical patent/RU2530672C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: checking method of web pages for availability in them of real time multimedia flows involves the following: loading of a web page for time schedule checking, analysis of loaded web pages for availability in them of references to multimedia flows, checking of flow data for determination of their type, whether a multimedia flow is a real time flow or not, periodic checking of references to real time flows contained in database of flows, for detection of variations in a flow type, and/or state of flow, and/or in flow characteristics. New references are added to the time schedule for the web pages on which there have been detected references to real time multimedia flows, and/or checking period is changed for web page references existing in the time schedule, for which changes in a flow have been detected, and/or time of the beginning of the next check is changed.
EFFECT: improving efficient detection of real time multimedia flows and reducing the time required for saving of data and maintenance of its current status.
24 cl, 11 tbl, 7 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится к компьютерным и сетевым технологиям, а именно к поисковым системам в Интернете, целью которых является загрузка, анализ, сохранение и индексация веб-страниц, содержащих в себе целевой контент, представляющий собой, например, мультимедийный поток реального времени или так называемый «живой» поток или «живой» контент.The present invention relates to computer and network technologies, namely to search engines on the Internet, the purpose of which is to download, analyze, save and index web pages containing targeted content, which is, for example, a real-time multimedia stream or the so-called " live stream or live content.

Более конкретно, изобретение относится к технологии перепроверки веб-страниц, предварительно найденных поисковыми роботами в сети Интернет, на которых размещены мультимедийные потоки реального времени. При этом перепроверка осуществляется по расписанию, определяющему порядок (с использованием коэффициента значимости для страницы) и период (частоту) перепроверки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны быть перепроверены за определенный период с целью хранения в поисковой системе актуальных данных для дальнейшего предоставления пользователю возможности поиска.More specifically, the invention relates to a technology for rechecking web pages previously found by search robots on the Internet, which host real-time multimedia streams. In this case, rechecking is carried out according to a schedule that determines the order (using the coefficient of significance for the page) and the period (frequency) of rechecking. All web pages containing real-time multimedia streams should be double-checked for a certain period in order to store up-to-date data in the search system in order to further provide the user with the ability to search.

Изобретение может быть применено как для поиска специфических медиа-объектов (он-лайн радио, потоков с веб-камер, видеопотоков и др.), так и для поиска объектов в виде ссылок на внешние источники определенного вида, сигнализирующие о наличии целевого аудио и/или видео контента реального времени, например, схемы передачи данных - rtmp, rtsp, mms и т.д.The invention can be applied both to search for specific media objects (online radio, streams from webcams, video streams, etc.), and to search for objects in the form of links to external sources of a certain type, signaling the presence of target audio and / or real-time video content, for example, data transfer schemes - rtmp, rtsp, mms, etc.

Предшествующий уровень техникиState of the art

В настоящее время в мире широко известны и массово используются поисковые машины, которые обеспечивают пользователям возможность осуществлять в Интернете поиск веб-страниц, содержащих нужную для них информацию по вводимым ими поисковым запросам. Популярными поисковыми машинами являются, в частности, Yahoo!, Google, Yandex, Rambler.Currently, search engines are widely known and massively used in the world, which provide users with the ability to search the Internet for web pages containing the information they need for the search queries they enter. Popular search engines are, in particular, Yahoo !, Google, Yandex, Rambler.

Общий принцип работы известных поисковых машин основан на сборе информации по веб-страницам в Интернете, ее обработке и индексировании для дальнейшего предоставления пользователю возможности поиска необходимой информации в том объеме, который был обработан поисковой машиной. В состав каждой поисковой машины входят поисковые роботы, целью которых является сканирование веб-страниц Интернета и их загрузка. После обращения поискового робота по указанному адресу веб-страницы он просматривает, например, http-заголовки, проверяя, когда в последний раз была модифицирована эта страница. Если поисковый робот уже просматривал данную веб-страницу, а дата последней модификации страницы изменилась, тогда он загрузит ее для обработки вновь, если же просматриваемая им веб-страница вообще не просматривалась, тогда она сразу будет загружена для обработки.The general principle of operation of known search engines is based on the collection of information on web pages on the Internet, its processing and indexing to further provide the user with the opportunity to search for the necessary information to the extent that has been processed by the search engine. Each search engine includes search robots, the purpose of which is to scan web pages on the Internet and load them. After the search robot contacts the specified web page address, it scans, for example, http-headers, checking when the page was last modified. If the search robot has already viewed this web page, and the date of the last modification of the page has changed, then it will load it again for processing, if the web page it browses has not been viewed at all, then it will be immediately loaded for processing.

Веб-страницы, загруженные поисковым роботом, обрабатываются соответствующими программно-аппаратными компонентами поисковой машины. Целью такой обработки является анализ страницы: как правило, вначале из веб-страницы извлекается заголовок (Title), поскольку он несет в себе общую информацию о веб-странице. Далее извлекается и обрабатывается весь текст, который так или иначе выделен, например, курсивом, подчеркиванием или размером (в частности, размер его шрифта больше размера шрифта основного текста), поскольку поисковая машина предполагает, что это ключевые места в тексте и на них сделан акцент.Web pages loaded by the search robot are processed by the corresponding software and hardware components of the search engine. The purpose of this processing is to analyze the page: as a rule, the title is first extracted from the web page, since it carries general information about the web page. Next, all the text is extracted and processed, which is somehow highlighted, for example, in italics, underline or size (in particular, its font size is larger than the font size of the main text), since the search engine assumes that these are key places in the text and they are emphasized .

Некоторые поисковые машины просматривают метатеги веб-страниц, предполагая, что в них имеются ключевые слова или словосочетания страницы. В то же время, поскольку в содержимом метатегов зачастую дается недостоверная информация, некоторые поисковые машины не используют их для определения ключевых слов страницы.Some search engines look at the meta tags of web pages, suggesting that they contain keywords or phrases on the page. At the same time, since the content of meta tags is often given inaccurate information, some search engines do not use them to determine the keywords of the page.

Также весь текст веб-страницы подвергается полной обработке. Например, те поисковые машины, которые не используют метатеги для определения ключевых слов веб-страницы, ищут ключевые слова путем выполнения проверки на предмет того, как часто встречается то или иное слово в тексте, и для этого из текста удаляются все "стоп-слова", такие как <а>, <он>, <ты>, <в>, а также все символы и цифры, поскольку они создают шум при поиске ключевых слов.Also, the entire text of the web page is fully processed. For example, those search engines that do not use meta tags to determine the keywords of a web page search for keywords by checking for how often a particular word appears in the text, and for this all “stop words” are removed from the text such as <a>, <he>, <you>, <b>, as well as all the characters and numbers, as they create noise when searching for keywords.

Наконец, обработанный текст веб-страницы индексируется поисковой системой надлежащим образом, так чтобы предоставить пользователю посредством веб-интерфейса (например, браузера) возможность удобного поиска по базе данных поисковой машины на основе ввода поисковых запросов.Finally, the processed text of the web page is properly indexed by the search engine so as to provide the user with a web interface (for example, a browser) the ability to conveniently search the search engine database based on the input of search queries.

Более подробно структура и базовые принципы функционирования поисковых машин изложены, в частности, в "The anatomy of a large-scale hypertextual Web search engine", Brin, S., Page, L., Computer Networks and ISDN Systems, 30(1-7): 107-117, 1998; "Effective Web Crawling", Castillo, C., PhD thesis, University of Chile, 2004; "Crawling the Web". Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004.The structure and basic principles of the functioning of search engines are described in more detail, in particular, in "The anatomy of a large-scale hypertextual Web search engine", Brin, S., Page, L., Computer Networks and ISDN Systems, 30 (1-7 ): 107-117, 1998; "Effective Web Crawling", Castillo, C., PhD thesis, University of Chile, 2004; "Crawling the Web." Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004.

Однако построенные таким образом поисковые машины перестают отвечать требованиям сегодняшнего дня в силу все увеличивающегося объема и разнообразия информации, представляемой в Интернете. В частности, при проведении такого основывающегося на тексте поиска веб-страниц, где содержались бы интересующие пользователя картинки или видео, выдается обширный результирующий список веб-страниц, в котором доля страниц, действительно отвечающих требованиям и запросам пользователя, оказывается невелика, поскольку в данный список, в силу специфики описываемых поисковых машин, также попадут те веб-страницы, которые содержат упоминания, обсуждения, рекламу, отзывы и т.п., касающиеся требующихся картинок или видео, но непосредственно не содержат самих требующихся картинок или видео. По мере же роста совокупного объема и разнообразия веб-контента в Интернете доля релевантных веб-страниц при такого рода специфических поисках будет лишь снижаться, и, как следствие, пользователи вынуждены строить хитроумные, скорее всего неоднократные поисковые запросы и тратить время на просеивание больших массивов результатов поиска.However, search engines constructed in this way cease to meet the requirements of today because of the ever-increasing volume and variety of information presented on the Internet. In particular, when conducting such a text-based search of web pages that contain pictures or videos of interest to the user, an extensive resulting list of web pages is produced in which the proportion of pages that truly meet the requirements and requirements of the user is small, since this list , due to the specifics of the search engines described, those web pages that contain mentions, discussions, advertisements, reviews, etc. related to the required pictures or videos, but not directly from keep themselves required picture or video. As the aggregate volume and variety of web content on the Internet grows, the proportion of relevant web pages during this kind of specific searches will only decrease, and as a result, users will be forced to build clever, most likely repeated searches and spend time sifting large arrays of results search.

Этой проблемой обуславливается актуальность создания специализированных (так называемых вертикальных) поисковых систем, строго ориентированных на поиск по тематическим ресурсам Интернета, включающих систему повторной проверки найденных объектов по специальному расписанию.This problem determines the relevance of creating specialized (so-called vertical) search engines that are strictly focused on searching on thematic Internet resources, including a system for re-checking found objects according to a special schedule.

В частности, из уровня техники известны технические решения, обеспечивающие построение расписаний повторной проверки веб-страниц с целью хранения и индексации актуальных данных, размещенных в сети Интернет (патент на изобретение US 7886042 B2). Данное решение относится к поисковым системам, выполненным с возможностью загрузки веб-страниц, их дальнейшим сохранением в базе данных и индексацией с целью предоставления конечному пользователю возможности поиска по сформированной базе данных. Повторная проверка веб-страниц приводит к сохранению в индексе актуальных данных. Поскольку объем данных в сети Интернет является огромным, задача повторной проверки требует поиска более оптимальных решений с целью экономии ресурсов и выявления целевых страниц для перепроверки.In particular, technical solutions are known from the prior art that provide scheduling re-checking of web pages in order to store and index relevant data posted on the Internet (patent for invention US 7886042 B2). This solution relates to search engines capable of loading web pages, their further storage in the database and indexing in order to provide the end user with the ability to search the generated database. Re-checking web pages keeps the current data in the index. Since the amount of data on the Internet is huge, the task of re-checking requires finding more optimal solutions in order to save resources and identify landing pages for double-checking.

Наиболее близким к заявляемому техническому решению является способ и система для повторной проверки веб-документов по расписанию, представленные в патенте на изобретение US 8386459 B1 - «Scheduling a recrawl». В изобретении представлен способ, обеспечивающий построение расписания повторной проверки веб-документов, основываясь на информации о самом проверяемом документе. Согласно данному изобретению для построения расписания перепроверки веб-документа определяют частоту изменения самого веб-документа на основании истории его предыдущей проверки, что позволяет определить временной интервал, в рамках которого веб-документ изменялся, и, основываясь на данной информации, вычисляют оптимальный временной интервал для его перепроверки.Closest to the claimed technical solution is a method and system for re-checking web documents according to the schedule presented in the patent for invention US 8386459 B1 - "Scheduling a recrawl". The invention provides a method for constructing a re-check schedule for web documents based on information about the document being checked. According to the present invention, for constructing a web document rechecking schedule, the frequency of change of the web document itself is determined based on the history of its previous check, which allows one to determine the time interval within which the web document has changed, and based on this information, calculate the optimal time interval for double-checking it.

Однако известное решение основывается на перепроверке всех возможных веб-документов в сети Интернет. В данном решении не учитывается возможность исключения из проверки нецелевых данных. Также подобное решение требует хранения истории предыдущей проверки веб-документов, что является высокозатратным решением, учитывая имеющиеся объемы данных в Интернете. Более того, в известном техническом решении отсутствует возможность принятия решения о перепроверке динамически, так как построение расписания перепроверки основано на истории предыдущей проверки страницы.However, the known solution is based on double-checking all possible web documents on the Internet. This decision does not take into account the possibility of excluding non-target data from verification. Also, such a solution requires storing the history of the previous verification of web documents, which is a high-cost solution, given the amount of data available on the Internet. Moreover, in the known technical solution, there is no possibility of making a decision on rechecking dynamically, since the construction of a rechecking schedule is based on the history of the previous page check.

Сущность изобретенияSUMMARY OF THE INVENTION

Задачей настоящего изобретения является создание способа и системы, ориентированных на выявление веб-страниц со ссылкой(ами) на мультимедийный поток реального времени по итогам проверки массива веб-страниц по определенному расписанию.The objective of the present invention is to provide a method and system focused on identifying web pages with link (s) to the real-time multimedia stream based on the results of checking an array of web pages according to a specific schedule.

Техническим результатом изобретения является повышение эффективности (в т.ч. производительности) обнаружения мультимедийных потоков реального времени, ссылки на которые содержатся в проверяемых веб-страницах, а также снижение количества ресурсоемких операций (оптимизация используемых вычислительных и сетевых ресурсов), применяемых при проверке веб-страниц, которые такой контент не содержат, а также сокращение времени на сохранение и поддержание данных в актуальном состоянии, при повышении достоверности получаемых результатов.The technical result of the invention is to increase the efficiency (including performance) of detecting multimedia streams in real time, the links to which are contained in the checked web pages, as well as reducing the number of resource-intensive operations (optimization of the used computing and network resources) used in checking the web pages that do not contain such content, as well as reducing the time to save and maintain data up to date, while increasing the reliability of the results.

Таким образом, заявляемый способ может быть реализован со значительно меньшими затратами, в т.ч. временными (по сравнению с известными аналогами), необходимыми для поиска веб-страниц с целевым контентом при повышении степени релевантности обнаруженных веб-страниц на наличие в них целевого контента.Thus, the inventive method can be implemented with significantly lower costs, including temporary (in comparison with well-known counterparts) required to search for web pages with target content while increasing the relevance of the detected web pages to the presence of the target content.

При использовании заявляемого способа перепроверки веб-страниц результаты, выдаваемые поисковой программой, практически не содержат информационного шума. Таким образом, получаемые результаты максимально соответствуют заданному пользователем критерию поиска мультимедийного контента реального времени и содержат только достоверное информационное наполнение, благодаря чему пользователь тратит меньше времени на фильтрацию результатов поиска.When using the proposed method of double-checking web pages, the results produced by the search program, practically do not contain information noise. Thus, the results obtained correspond to the search criteria of the real-time multimedia content set by the user and contain only reliable content, so the user spends less time filtering the search results.

Поставленная задача решается тем, что способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно изобретению, осуществляют следующим образом:The problem is solved in that the method of checking web pages for the presence of multimedia streams in real time, according to the invention, is as follows:

- загружают веб-страницы для проверки по расписанию, определяющему период и порядок проверки ссылок на веб-страницы,- download web pages for checking according to a schedule that determines the period and procedure for checking links to web pages,

- анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей (или, другими словами, сохраняют взаимосвязь ссылок на веб-страницы и ассоциированных с ними ссылок на мультимедийные потоки),- analyze the loaded web pages for the presence of links to multimedia streams in them, followed by saving the found links to multimedia streams in the stream database, while information about the membership of the multimedia stream to the web page is stored in the relationship database (or, in other words, the relationship of links to web pages and their associated links to multimedia streams),

- при выявлении ссылок на мультимедийные потоки, отсутствующих в БД потоков, добавляют в БД потоков, после чего осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений,- when identifying links to multimedia streams that are not in the stream database, add to the stream database, after which they check the data streams to determine their type, whether the multimedia stream is a real-time stream or not, and also periodically check links to real-time streams, flows in the database, to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, followed by saving information about changes in the database of streams, while in the database of relationships do etc. about the fact of changes,

- при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.- at the same time, new links to web pages are added to the schedule, on which links to real-time multimedia streams are identified, and / or the check period is changed for existing links to web pages in the schedule, for which changes to the stream are detected, and / or are changed the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to the current one, if changes in the type and / or status of the stream are detected due to an increase in the number of links on the web page ok for real-time multimedia streams, the verification period is reduced, and when the number of links to real-time multimedia streams on a web page decreases, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes zero, this link to the web the page is excluded from the scan schedule.

В заявляемом изобретении веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей.In the claimed invention, a web page is a file directly containing the text of the web page and / or a script file associated with this web page.

Загрузка веб-страницы по ссылке может быть осуществлена посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.Downloading a web page by reference can be done by emulating the operation of a web browser by building a model of a web document and creating all objects that potentially contain links to multimedia streams.

Период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, может быть выбран из интервала значений 2-5 минут.The period of checking links to streams from the database of streams having the status of a multimedia stream of real time to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, can be selected from the interval of values of 2-5 minutes.

Состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.The state of the stream is determined based on whether it is on or off.

БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.The relationship database has a structure showing that a link to a web page belongs to one or more links to multimedia streams, while in the relationship database, streams that are of the type of real-time multimedia streams are noted.

В качестве характеристик потока могут быть использованы описание мультимедийного потока и технические характеристики потока. В качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть. В качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.As characteristics of the stream, a description of the multimedia stream and technical characteristics of the stream can be used. As a description of a multimedia stream, a textual description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and displaying its essence are used. As the technical characteristics of the stream, bitrate, format, information about audio or video codecs or any other technical characteristics of the stream are used.

По итогам анализа загруженных веб-страниц дополнительно определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки. В случае, если недоступная веб-страница находится в данном состоянии в течение недели, ссылку на данную веб-страницу исключают из расписания проверки.Based on the analysis of the loaded web pages, the availability of web pages is additionally determined, and if inaccessible web pages are detected, an appropriate check mark is made in the check schedule. If an unavailable web page is in this state for a week, the link to this web page is excluded from the scan schedule.

В одном из вариантов реализации для каждой ссылки на веб-страницу может быть определен коэффициент значимости (К), который может быть выбран равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки может быть вычислен исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки. При этом загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента (К).In one embodiment, for each link to a web page, a significance coefficient (K) can be determined, which can be chosen equal to the number of links to real-time multimedia streams on this page, and the verification period can be calculated based on the relation T = T const / K, where T const is the specified verification period, for example 24 hours, and in case T <T min , then T = T min , where T min is the minimum allowable verification period, for example 1 hour, followed by saving the results for (K) and (T) in the check schedule. In this case, the loading of web pages and their analysis is carried out starting with a link to a web page from the schedule that has the highest coefficient (K).

Поставленная задача решается также тем, компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени включает:The problem is also solved by the fact that a computer-implemented system for checking web pages for the presence of multimedia streams in real time includes:

БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки,Schedule database, including a list of links to web pages with a period for each link and the procedure for checking it,

БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков,Stream database, including a list of links to multimedia streams, as well as information about the type, status and characteristics of streams,

БД взаимосвязей, хранящую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока,Relationship database storing information about the affiliation of the multimedia stream to the corresponding web page, as well as the type of multimedia stream,

модуль загрузки данных, выполненный с возможностью загрузки веб-страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки,a data loading module configured to download web pages via a link from the schedule database and analyze downloaded web pages for links to multimedia streams in them,

модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей,a data management module, configured to save the links found to the multimedia streams found by the download module to the streams database, and also to save and / or change information about the relationship between the multimedia stream and the web page in the relationships database,

модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков,a module for checking streams from the database of streams, configured to determine the type of multimedia stream, as well as periodically check references to multimedia streams in real time to detect changes in the type of stream and / or in the state and / or characteristics of the stream, followed by storing the received information in the stream database

модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей,a flow control module configured to detect changes made to the flow database, followed by recording information about the presence of changes in the relationship database,

модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.a schedule management module, configured to change the schedule in the schedule database by adding new links to web pages into it, on which links to real-time multimedia streams are identified, and / or by changing the check period for existing links to web pages in the schedule, for which there are changes in the stream, and / or changes in the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to while maintaining its verification period; when detecting changes in the type and / or status of the stream associated with an increase in the number of links to real-time multimedia streams on a web page, the check period is reduced, and when the number of links to real-time multimedia streams on a web page decreases, the check period is increased, and when the number of links to real-time multimedia streams becomes equal to zero, this link to a web page is excluded from the scan schedule.

Модуль загрузки данных также выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки. Дополнительно модуль загрузки данных выполнен с возможностью определения доступности веб-страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания. В случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием выполнен с возможностью исключения ссылки на данную веб-страницу из БД расписания.The data loading module is also configured to emulate the operation of a web browser by building a model of a web document and creating all objects potentially containing links to multimedia streams. In addition, the data loading module is configured to determine the availability of a web page, and in case of unavailable web pages, information about this is recorded in the schedule database. If an unavailable web page is in this state for a week, the schedule management module is configured to exclude links to this web page from the schedule database.

Модуль проверки потоков также выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, от 2 до 5 минут. Модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном.The module for checking streams is also configured to change the period for checking links to streams from the database of streams having the status of a multimedia stream of real time from 2 to 5 minutes. The module for checking flows when checking the status of a real-time stream determines whether a given stream is on or off.

В БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока; в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть; в качестве технических характеристик потока присутствует битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.In the stream database, as a stream characteristic, a description of the multimedia stream and technical characteristics of the stream are present; as a description of a multimedia stream, there is a text description of the stream, the heading of the stream, an indication of the owner of the stream, a link to the site of the stream or any other data transmitted within the stream and displaying its essence; as the technical characteristics of the stream there is bitrate, format, information about audio or video codecs or any other technical characteristics of the stream.

Модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания. При этом модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К.The schedule management module is configured to determine a significance coefficient (K) for each link to a web page, which is chosen equal to the number of links on this page to real-time multimedia streams, and to calculate the verification period based on the relation T = T const / K, where T const is the specified verification period, for example 24 hours, and in the case where T <T min , then T = T min , where T min is the minimum allowable verification period, for example 1 hour, followed by saving the results for (K) and (T) in the schedule database. At the same time, the data loading module is configured to download web pages and analyze them starting from a link to a web page from the schedule database that has the highest coefficient K.

Отличительной особенностью заявляемого технического решения является то, что критерием для перепроверки веб-страницы (или веб-документа) является не сама веб-страница, а связь данной веб-страницы со ссылкой на мультимедийный поток реального времени (или информация о принадлежности мультимедийного потока к веб-странице). Критерием для проверки веб-страницы является наличие в данной странице ссылки на мультимедийный сервер, который вещает мультимедийный поток в реальном времени. Более того, заявляемое решение позволяет динамически исключать или включать из проверки веб-страницы, которые ссылаются на мультимедийные потоки в случае изменений данных в типе, состоянии или характеристиках потока, например, если мультимедийный поток реального времени отключается, то все веб-страницы, ссылающиеся на данный поток, исключаются из повторной проверки. Данное решение основывается не на динамике изменений данных веб-страниц, а на независимом ресурсе, таком как мультимедийный сервер, изменения в котором приводят к перепроверке веб-страницы, ссылающейся на данный мультимедийный ресурс.A distinctive feature of the claimed technical solution is that the criterion for rechecking the web page (or web document) is not the web page itself, but the connection of this web page with a link to the real-time multimedia stream (or information about the multimedia stream belonging to the web -page). The criterion for checking a web page is the presence in this page of a link to a multimedia server that broadcasts the multimedia stream in real time. Moreover, the claimed solution allows you to dynamically exclude or include from the scan web pages that link to multimedia streams in case of data changes in the type, state or characteristics of the stream, for example, if the real-time multimedia stream is turned off, then all web pages that link to given stream are excluded from re-checking. This decision is based not on the dynamics of changes in these web pages, but on an independent resource, such as a multimedia server, changes in which lead to a double-check of the web page that refers to this multimedia resource.

Описание чертежейDescription of drawings

Изобретение поясняется чертежами, где на фиг.1 представлена блок-схема заявляемой системы проверки веб-страниц на наличие в них мультимедийного потока реального времени; на фиг.2 представлена блок-схема, на которой отображена последовательность операций вычисления параметров проверки веб-страниц; на фиг.3 представлено отображение связи ссылки на веб страницу со ссылками на мультимедийные потоки; на фиг.4 представлен пример связи ссылок на веб-страницы и ссылок на потоки; на фиг.5 - пример связи данных после повторной проверки; на фиг.6 представлен алгоритм сохранения потоков в базе данных потоков; на фиг.7 представлено отображение изменений в структуре связей;The invention is illustrated by drawings, where figure 1 presents a block diagram of the inventive system for checking web pages for the presence of a multimedia stream of real time; figure 2 presents a flowchart showing a sequence of operations for calculating the parameters of checking web pages; figure 3 presents a display of the link links to a web page with links to multimedia streams; figure 4 presents an example of linking links to web pages and links to streams; figure 5 is an example of data communication after re-verification; figure 6 presents the algorithm for storing threads in the database of threads; figure 7 presents the display of changes in the structure of relations;

Позициями на фиг.1 обозначены: 1 - схематическое представление движения данных между модулями системы; 2 - модуль загрузки данных, получающий ссылки на веб-страницы из базы данных расписания 9; 3 - модуль управления данными, который создает и модифицирует ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 4 - база данных потоков, которая содержит ссылки на мультимедийные потоки и всю информацию о них; 5 - модуль проверки потоков, который определяет тип, статус и характеристики мультимедийного потока; 6 - база данных взаимосвязей, которая хранит актуальные ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 7 - модуль управления потоками, который выявляет изменения в типе, состоянии или характеристиках потоков в базе данных потоков 4 с последующей записью об изменениях в базе данных взаимосвязей 6; 8 - модуль управления расписанием, который вносит изменения в базу данных расписания 9 посредствам добавления в нее новых записей или посредствам модификаций уже существующих записей; 9 - база данных расписания, которая содержит список ссылок на веб-страницы с установленным для каждой ссылки периодом ее проверки и порядком проверки.The positions in figure 1 indicate: 1 - a schematic representation of the movement of data between the modules of the system; 2 - data loading module, receiving links to web pages from the database of schedule 9; 3 - a data management module that creates and modifies associative links between links to web pages and links to multimedia streams; 4 - stream database, which contains links to multimedia streams and all information about them; 5 - stream verification module, which determines the type, status and characteristics of the multimedia stream; 6 is a database of relationships, which stores relevant associative links between links to web pages and links to multimedia streams; 7 is a flow control module that detects changes in the type, condition, or characteristics of flows in a stream database 4, followed by a record of changes in the relationship database 6; 8 - schedule management module, which makes changes to the schedule database 9 by adding new records to it or by modifying existing records; 9 is a schedule database that contains a list of links to web pages with a period for checking it and a verification procedure for each link.

Подробное описание изобретенияDETAILED DESCRIPTION OF THE INVENTION

Заявляемое изобретение позволяет оптимизировать расписание проверки веб-страниц, на которых находится ссылки на мультимедийные потоки реального времени, посредством вычисления оптимального периода проверки. Изменение периода проверки веб-страницы основано на изменении:The claimed invention allows to optimize the scan schedule of web pages that contain links to real-time multimedia streams by calculating the optimal scan period. Changing the validation period of a web page is based on the change:

- типа мультимедийного потока - является ли ссылка на мультимедийный поток потоком реального времени; и/или- type of multimedia stream - is the link to the multimedia stream a real-time stream; and / or

- состояния мультимедийного потока - поток находится во включенном или выключенном состоянии; и/или- state of the multimedia stream - the stream is on or off; and / or

- характеристик или описания мультимедийного потока реального времени.- Characteristics or descriptions of the real-time multimedia stream.

Основанием для вычисления периода проверки веб-страницы выступают мультимедийные потоки реального времени, размещенные на веб-странице.The basis for calculating the period of checking the web page are multimedia streams of real time, located on the web page.

Поисковые роботы находят в Интернете веб-страницы, на которых размещены мультимедийные потоки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны повторно проверяться за определенный период с целью хранения в поисковой системе актуальных данных, связанных с проверяемой веб-страницей, для дальнейшего предоставления пользователю возможности поиска. Для перепроверки веб-страниц используется расписание, которое находится в базе данных расписания 9, в котором задается коэффициент значимости для проверяемой ссылки на веб-страницу, а также период проверки и время окончания последней проверки и начала следующей проверки. Все ссылки на веб-страницы, содержащие мультимедийные потоки, сохраняются в системе в базе данных расписания 9. Сами потоки, расположенные на странице, подвергаются проверке с целью определения их принадлежности к мультимедийным потокам реального времени. Целью повторной проверки веб-страниц является поиск на веб-страницах новых ссылок на мультимедийные потоки и подтверждение наличия на веб-странице ссылок на мультимедийные потоки, найденных при предыдущей проверке веб-страницы, а также актуализация доступности страницы и содержащейся на ней информации, отображающей ее суть.Search bots find web pages on the Internet that host multimedia streams. All web pages containing real-time multimedia streams should be re-checked for a certain period in order to store up-to-date data related to the checked web page in the search system in order to further provide the user with search capabilities. To double-check the web pages, the schedule is used, which is located in the database of schedule 9, in which the coefficient of significance for the checked link to the web page is set, as well as the period of verification and the time of the end of the last check and the start of the next check. All links to web pages containing multimedia streams are stored in the system in the schedule database 9. The streams located on the page are checked to determine their membership in real-time multimedia streams. The purpose of re-checking web pages is to search the web pages for new links to multimedia streams and confirm the presence on the web page of links to multimedia streams found during the previous check of the web page, as well as updating the availability of the page and the information contained on it that displays it the essence.

Модуль загрузки данных 2 получает список ссылок на веб-страницы, который необходимо проверить в соответствии с расписанием из БД расписания 9. Загруженные страницы модулем загрузки данных 2 подвергаются анализу, в рамках которого осуществляется поиск мультимедийных ссылок на потоки. Помимо ссылок из страницы извлекается сопутствующая к мультимедийным потока информация в виде текстового описания, которое в дальнейшем используется как часть описания мультимедийного потока. Полученная информация загруженной и проанализированной веб-страницы и найденных в ней ссылках на мультимедийные потоки передается модулю управления данными 3. Модуль управления данными сохраняет найденные ссылки на мультимедийные потоки в базе данных потоков 4. Для всех переданных ссылок на мультимедийные потоки модуль управления данными получает информацию из базы данных потоков 4 о текущем типе мультимедийного потока для отметки в базе данных взаимосвязей 6. После получения информации для найденных ссылок на мультимедийные потоки модуль управления данными 3 начинает проверять и вносить изменения в базу данных взаимосвязей 6:Data loading module 2 receives a list of links to web pages, which must be checked in accordance with the schedule from schedule database 9. The loaded pages of data loading module 2 are analyzed, which searches for multimedia links to streams. In addition to links from the page, information related to the multimedia stream is extracted in the form of a text description, which is further used as part of the multimedia stream description. The received information of the downloaded and analyzed web page and the links to the multimedia streams found in it is transmitted to the data management module 3. The data management module stores the found links to the multimedia streams in the stream database 4. For all the transferred links to the multimedia streams, the data management module receives information from database streams 4 about the current type of multimedia stream to mark in the database of relationships 6. After receiving information for the found links to multimedia streams m modulus data management 3 begins to check and make changes to the database linkages 6:

- проверяет предыдущую ассоциативную связь данной ссылки на веб-страницу и ссылок на мультимедийные потоки в базе данных взаимосвязей 6;- checks the previous associative link of this link to a web page and links to multimedia streams in the database of relationships 6;

- вносит изменения в ассоциативные связи между ссылкой на веб-страницу и ссылками на мультимедийные потоки на основании новых ассоциативных связей межу ссылкой на веб-страницу и найденными на веб-странице ссылками на мультимедийные потоки в базу данных взаимосвязей 6;- makes changes in the associative relations between the link to the web page and links to multimedia streams based on the new associative links between the link to the web page and the links to multimedia streams found on the web page in the relationship database 6;

- сохраняет изменения или в случае отсутствия изменений подтверждает предыдущую ассоциативную связь в базе данных взаимосвязей 6.- saves the changes or, in the absence of changes, confirms the previous associative relationship in the relationship database 6.

Все мультимедийные потоки, расположенные в базе данных потоков 4, подвергаются проверке модулем проверки потоков 5. Проверке подвергаются все новые потоки с целью выявления мультимедийных потоков реального времени, а также все мультимедийные потоки, которые определены как потоки реального времени и находятся в рабочем (включенном) состоянии либо находились во включенном состоянии, но в данный момент выключены. Регулярная проверка мультимедийных потоков, находящихся в статусе реального времени, осуществляется с целью хранения актуальной информации о потоках, в рамках которой определяют:All multimedia streams located in the stream database 4 are checked by the stream verification module 5. All new streams are checked to identify real-time multimedia streams, as well as all multimedia streams that are defined as real-time streams and are in working (on) state or were on, but currently turned off. A regular check of multimedia streams in real-time status is carried out in order to store relevant information about streams, in the framework of which it is determined:

- тип мультимедийного потока, с целью подтверждения принадлежности ссылки на поток к мультимедийным потокам реального времени;- type of multimedia stream, in order to confirm that the link to the stream belongs to multimedia streams in real time;

- статус мультимедийного потока (например, сервер, передающий мультимедийный поток, находится во включенном состоянии или выключенном);- the status of the multimedia stream (for example, the server transmitting the multimedia stream is on or off);

- технические характеристики и описание мультимедийного потока, а также отслеживаются их изменения.- technical specifications and description of the multimedia stream, as well as track their changes.

Модуль управления потоками 7 получает из базы данных потоков 4 список мультимедийных потоков реального времени, у которых есть изменения в типе, и/или статусе, и/или технических характеристиках, и/или описании. Далее модуль управления потоками 7 делает отметку об изменениях в базе данных взаимосвязей 6 для всех ссылок на веб-страницы, которые имеют ассоциативные связи с полученным списком мультимедийных потоков. Следует отметить, что с одной ссылкой на мультимедийный поток может быть связанно множество ссылок на веб-страницы. Модуль управления расписанием 8 извлекает список ссылок на веб-страницы из базы данных взаимосвязей 6, для которых есть отметка об изменениях в мультимедийных потоках реального времени. Для полученных ссылок на веб-страницы определяется степень изменений в потоке, выполняется вычисление коэффициента значимости, а также вычисление периода проверки. На основании полученных данных происходит вычисление времени начала следующей проверки. Модуль управления расписанием 8 сохраняет полученные результаты в базу данных расписания 9 для полученного списка ссылок на веб-страницы, изменяя время начала следующей проверки ссылок на веб-страницы, а также добавляет или исключает ссылки на веб-страницы из повторной проверки. Ссылки, доступные для загрузки по расписанию 9, отправляются на загрузку и анализ в модуль загрузки данных 2.The flow control module 7 receives from the stream database 4 a list of real-time multimedia streams that have changes in type, and / or status, and / or technical characteristics, and / or description. Next, the flow control module 7 makes a note of the changes in the relationship database 6 for all links to web pages that have associative links with the resulting list of multimedia streams. It should be noted that with one link to the multimedia stream can be associated with many links to web pages. Schedule Management Module 8 retrieves a list of links to web pages from the relationship database 6, for which there is a mark on changes in real-time multimedia streams. For the received links to web pages, the degree of changes in the stream is determined, the significance coefficient is calculated, and the verification period is calculated. Based on the received data, the calculation of the start time of the next check is performed. Schedule management module 8 saves the results to the database of schedule 9 for the received list of links to web pages, changing the start time of the next check for links to web pages, and also adds or excludes links to web pages from re-checking. Links available for download on schedule 9 are sent for download and analysis to data loading module 2.

Ниже представлено более подробное описание структуры модуля проверки потоков 6 и алгоритма его работы.Below is a more detailed description of the structure of the module for checking threads 6 and the algorithm of its operation.

Алгоритм проверки ссылок на потоки из БД потоков на наличие в них мультимедийных потоков реального времени включает следующие этапы:The algorithm for checking links to streams from the database of streams for the presence of multimedia streams in them in real time includes the following steps:

- подключение к медиасерверу по ссылке,- connection to the media server by reference,

- получение (загрузку) от медиасервера информации о медиапотоке, включающей характеристики потока в заданном формате и/или часть потока, предназначенную для воспроизведения на клиентской стороне,- receiving (downloading) from the media server information about the media stream, including the characteristics of the stream in a given format and / or part of the stream intended for playback on the client side,

- анализ полученной информации о медиапотоке, заключающийся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени,- analysis of the information received about the media stream, consisting in the search for signs indicating that the analyzed stream is a multimedia source, the broadcast of which is carried out in real time,

при этом в качестве признаков используют любую последовательность символов и/или байт в медиапотоке, на основе которых делают вывод о том, что медиапоток соответствует критерию мультимедийного потока реального времени («живой» поток).however, any sequence of characters and / or bytes in the media stream is used as signs, on the basis of which it is concluded that the media stream meets the criterion of a real-time multimedia stream (“live” stream).

В качестве информации о медиапотоке дополнительно могут быть использованы заголовки протокола.As information about the media stream, protocol headers can additionally be used.

При получении от сервера последовательности байт их анализ осуществляют в непрерывном режиме до получения данных, предназначенных непосредственно для воспроизведения, и при получении сообщения с информацией о том, что поток является записанным, делают вывод о том, что проверяемый поток не является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.When a sequence of bytes is received from the server, their analysis is carried out in continuous mode until the data intended for direct reproduction is received, and upon receipt of a message with information that the stream is recorded, it is concluded that the stream being tested is not a multimedia source, the broadcast of which carried out in real time.

В качестве признаков могут быть использованы:As signs can be used:

- параметр, характеризующий продолжительность потока (Duration), и/или- a parameter characterizing the duration of the stream (Duration), and / or

- параметр, характеризующий позицию, с которой начинается воспроизведение в потоке (Start Time), и/или- a parameter characterizing the position from which playback starts in the stream (Start Time), and / or

- параметр возможности перемотки в рамках передаваемого потока (Seekable).- parameter of the ability to rewind within the transmitted stream (Seekable).

В случае, если значение параметра, характеризующего продолжительность потока (Duration), является отрицательным, или нулевым, или больше заданного предела, осуществляют анализ значения параметра возможности перемотки в рамках передаваемого потока (Seekable), в случае, если он указывает на запрет перемотки в потоке, делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.If the value of the parameter characterizing the duration of the stream (Duration) is negative, or zero, or more than the specified limit, the value of the parameter of the possibility of rewinding within the transmitted stream (Seekable) is analyzed, if it indicates the prohibition of rewinding in the stream , conclude that the analyzed stream is a multimedia source, the broadcast of which is carried out in real time.

В случае, если значение параметра, характеризующего продолжительность потока (Duration), находится в интервале от нуля до заданного предела, осуществляют повторное подключение к медиасерверу и определение значений данного параметра и параметра, характеризующего позицию, с которой начинается воспроизведение (Start Time), которые сравнивают со значениями аналогичных параметров, полученных при первоначальном подключении, и в случае несовпадения хотя бы одного из значений параметров делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени; в случае, если значения параметров совпадают, осуществляют поиск признаков мультимедийного потока в заголовках ответа сервера, при обнаружении которых делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.If the value of the parameter characterizing the duration of the stream (Duration) is in the range from zero to the specified limit, reconnect to the media server and determine the values of this parameter and the parameter characterizing the position at which playback starts (Start Time), which compare with the values of similar parameters obtained during the initial connection, and in case of mismatch of at least one of the parameter values, it is concluded that the analyzed stream is the source ultimedia, broadcast which is carried out in real time; if the values of the parameters coincide, they search for signs of the multimedia stream in the server response headers, upon detection of which they conclude that the stream being tested is a multimedia source broadcast in real time.

Установленный предел значений параметра, характеризующего продолжительность потока, подобран экспериментально и может находиться в интервале значений от 5 до 9 часов.The established limit of the values of the parameter characterizing the duration of the flow is selected experimentally and can be in the range of values from 5 to 9 hours.

В случае, если от сервера не получены значения параметров продолжительности потока и/или позиции воспроизведения, делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.If the values of the stream duration and / or playback position parameters have not been received from the server, it is concluded that the stream being tested is a multimedia source broadcast in real time.

Модуль проверки потоков для реализации описанного выше алгоритма содержит:The thread verification module for implementing the above algorithm contains:

- мультимедийный клиент, выполненный с возможностью подключения к медиасерверу по ссылке и загрузки информации о медиапотоке, включающей характеристики потока в заданном формате, и/или определенной части потока, предназначенной для воспроизведения на клиентской стороне, и/или информации о заголовках протоколов, полученных от сервера,- a multimedia client, configured to connect to the media server by reference and download information about the media stream, including the characteristics of the stream in a given format, and / or a specific part of the stream intended for playback on the client side, and / or information about the protocol headers received from the server ,

- блок анализа информации о медиапотоке, который выполнен с возможностью проверки полученной информации о медиапотоке, заключающейся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени, где в качестве признаков использована любая последовательность символов или байт в медиапотоке, на основе которых делают вывод о том, что медиапоток соответствует критерию «живой» поток.- a unit for analyzing information about the media stream, which is configured to check the received information about the media stream, which consists in searching for signs indicating that the analyzed stream is a multimedia source broadcast in real time, where any sequence of characters is used as signs or bytes in the media stream, based on which they conclude that the media stream meets the criterion of "live" stream.

В качестве мультимедийного клиента могут быть использованы такие приложения как MPlayer или VLC media player, а также любой другой продукт, в том числе самостоятельно разработанный мультимедийный клиент, выполненный с возможностью коммуникации, обработки и предоставления необходимой информации.As a multimedia client, such applications as MPlayer or VLC media player can be used, as well as any other product, including a self-developed multimedia client made with the ability to communicate, process and provide the necessary information.

Таким образом, технология определения типа потока, является ли он потоком реального времени или статическим файлом фиксированной продолжительности, заключается в анализе метаинформации, получаемой из самого медиапотока. Медиаклиент подключается к медиасерверу, после чего получает от него метаинформацию о потоке в заданном формате, а также определенную часть потока, предназначенную для воспроизведения на клиентской стороне. Полученная метаинформация, а также переданный буфер медиапотока проходят стадию проверки с целью определения типа потока. Основная цель проверки заключается в анализе данных и поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени. При этом характерной чертой «живого» потока (контента) является невозможность выполнения в отношении него «перемотки вперед» с помощью средств клиентского воспроизводящего приложения.Thus, the technology for determining the type of stream, whether it is a real-time stream or a static file of a fixed duration, consists in analyzing meta-information obtained from the media stream itself. The media client connects to the media server, after which it receives meta-information about the stream in the specified format, as well as a certain part of the stream intended for playback on the client side. The received meta-information, as well as the transmitted media stream buffer, go through the verification stage in order to determine the type of stream. The main purpose of the check is to analyze the data and search for signs that indicate that the analyzed stream is a multimedia source, the broadcast of which is carried out in real time. At the same time, a characteristic feature of a “live” stream (content) is the inability to perform “fast forward” with respect to it using the means of a client playback application.

Типичными примерами «живого» AV контента в Интернете являются телевизионное (ТВ) и радиовещание эфирных студий, специальное Интернет-вещание профессиональных и любительских студий, изображение с веб-камеры потокового вещания.Typical examples of “live” AV content on the Internet are television (TV) and broadcasting of on-air studios, special Internet broadcasting by professional and amateur studios, and images from a webcam for streaming broadcasting.

Ниже более детально представлен принцип построения расписания 9.The principle of building a schedule 9 is presented in more detail below.

Для ссылки на веб-страницу модуль управления расписанием 8 определяет изменения в потоке. Если присутствуют изменения в характеристиках потока, которые могут включать в себя такие данные, как описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть, а также изменения в технических характеристика потока, таких как битрейт, формат, информация об аудио или видео кодеках или любых других технических характеристиках потока, тогда для проверяемой ссылки на поток устанавливается время начала следующей проверки, равное текущему времени. Установка времени начала следующей проверки ссылки на веб-страницу, равное текущему времени, приводит к тому, что ссылка будет проверена немедленно. Если для ссылки на мультимедийный поток реального времени изменяется тип или состояние, которое может принимать два значения, поток включен или поток выключен, тогда модуль управления расписанием 8 изменяет коэффициент значимости, период и время следующей проверки ссылки на веб-страницы. Если мультимедийный поток находится во включенном состоянии, тогда коэффициент значимости ссылки на веб-страницу увеличивается на единицу, если же поток был включен, а теперь он выключен, коэффициент значимости уменьшается на единицу. Например, для одной ссылки на веб-страницу может быть более одного «работающего» потока, если их будет три, тогда коэффициент значимости соответственно будет равен трем. В частном случае коэффициент значимости полностью соответствует количеству ссылок на мультимедийные потоки реального времени, находящихся на веб-странице. Условия для определения правил выбора коэффициента значимости для проверки ссылки на веб-странице могут не зависеть от количества ссылок на мультимедийные потоки реального времени, находящихся по указанному адресу веб-страницы, и, как следствие, могут быть определены другими условиями выбора коэффициента значимости. Если у проверяемой ссылки на веб-страницу имеется, например, две ссылки на мультимедийные потоки реального времени, и у обеих ссылок на потоки есть изменения в состоянии, например, потоки перестали работать (находятся в выключенном состоянии), в таком случае коэффициент значимости проверки ссылки на веб-страницу будет равен нулю, что приведет к исключению страницы из проверки. На основании коэффициента значимости осуществляется вычисление периода проверки ссылки на веб-страницу, а также устанавливается последовательность загрузки веб-страниц в модуле загрузки 2, для которых наступило время перепроверки. Правило расчета периода проверки может меняться в зависимости от событий, являющихся причиной для перепроверки веб-страницы. В частном случае для каждой ссылки на веб-страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной веб-странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например 1 час. Все изменения заносятся в базу данных расписания 9, из которой в дальнейшем данные поступают в модуль загрузки данных 2.To link to a web page, Schedule Management Module 8 determines the changes in the stream. If there are changes in the characteristics of the stream, which may include data such as a description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream or any other data transmitted within the stream and showing its essence, as well as changes in technical stream characteristics, such as bit rate, format, information about audio or video codecs or any other technical characteristics of the stream, then for the checked link to the stream, the start time of the next check is set equal to the current time. Setting the start time of the next link check to a web page equal to the current time causes the link to be checked immediately. If a link or a state that can take two values changes for a link to a real-time multimedia stream, the stream is turned on or the stream is turned off, then Schedule Control Module 8 changes the significance factor, period and time of the next check of the link to web pages. If the multimedia stream is in the on state, then the significance coefficient of the link to the web page is increased by one; if the stream was turned on and now it is off, the significance coefficient is reduced by one. For example, for one link to a web page there can be more than one “working” stream, if there are three, then the significance coefficient will be equal to three, respectively. In a particular case, the significance coefficient is fully consistent with the number of links to real-time multimedia streams located on a web page. The conditions for determining the rules for selecting a significance factor for checking links on a web page may not depend on the number of links to real-time multimedia streams located at the specified address of the web page, and, as a result, can be determined by other conditions for choosing the significance coefficient. If the checked link to the web page has, for example, two links to real-time multimedia streams, and both links to the streams have state changes, for example, the streams have stopped working (are off), in this case, the link check value is per web page will be zero, which will exclude the page from scanning. Based on the significance coefficient, the period for checking the link to the web page is calculated, and the sequence of loading the web pages in the loading module 2, for which the time has come to check, is established. The rule for calculating the validation period may vary depending on the events that are the reason for the re-checking of the web page. In a particular case, for each link to a web page, a significance coefficient (K) is determined, which is chosen equal to the number of links to real-time multimedia streams on this web page, and the verification period is calculated based on the ratio T = Tconst / K, where Tconst is a specified verification period, for example 24 hours, and if T <Tmin, then T = Tmin, where Tmin is the minimum validation period, for example 1 hour. All changes are recorded in the database of schedule 9, from which later the data goes to the data loading module 2.

Предлагаемая система может быть воплощена на одном или более серверных компьютерах, объединенных для совместной реализации предписанной функциональности, при этом вышеуказанные ее модули могут быть реализованы программными и аппаратными составляющими этих серверных компьютеров, известными специалистам и широко применяемыми в технике. В частности, вышеуказанные базы данных могут быть реализованы на одном или более широко известных машиночитаемых носителях, например накопителях на жестких дисках, RAID-массивах, твердотельной памяти и т.п. Модуль загрузки данных может быть подключен и может взаимодействовать с Интернет на основе широко известных проводных и/или беспроводных сетевых технологий и оборудования, в частности на основе стека протоколов http/tcp/ip. Для взаимодействия с модулями баз данных оператор может использовать любое известное терминальное оборудование, поддерживающее возможность исполнения команд языка взаимодействия с базой данных (например, SQL). Таковым оборудованием может быть, например, соответствующим образом сконфигурированный персональный/переносной/наладонный компьютер.The proposed system can be implemented on one or more server computers, combined to jointly implement the prescribed functionality, while the above modules can be implemented in software and hardware components of these server computers, known to specialists and widely used in technology. In particular, the aforementioned databases can be implemented on one or more widely known computer-readable media, for example, hard disk drives, RAID arrays, solid state memory, and the like. The data download module can be connected and can interact with the Internet on the basis of widely known wired and / or wireless network technologies and equipment, in particular, on the basis of the protocol stack http / tcp / ip. To interact with database modules, the operator can use any known terminal equipment that supports the ability to execute commands of the database interaction language (for example, SQL). Such equipment may be, for example, a suitably configured personal / laptop / handheld computer.

Ниже представлены конкретные примеры работы расписания перепроверки ссылок на веб-страницы с размещенными на них мультимедийными потоками реального времени.The following are specific examples of the schedule for rechecking links to web pages with real-time multimedia streams placed on them.

Пример №1:Example No. 1:

Первый пример демонстрирует появление новых ссылок на веб-странице в базе данных расписаний 9.The first example shows the appearance of new links on a web page in the schedule database 9.

Поисковой системой была найдена новая веб-страница по ссылке Reference_1, после анализа которой было выявлено, что на странице размещено две ссылки на мультимедийные потоки Stream_1 и Stream_2. Модулю управления данными 3 передается информация о веб-странице, которая содержит различную метаинформацию о самой странице и обнаруженные ссылки на мультимедийные потоки (см. фиг.3).The search engine found a new web page at Reference_1, after analyzing which it was revealed that the page has two links to the multimedia streams Stream_1 and Stream_2. Data management module 3 is transmitted information about the web page, which contains various meta-information about the page itself and the detected links to multimedia streams (see figure 3).

Модуль управления данными отправляет ссылки на поток в базу данных потоков 4, где попутно запрашивает статус для переданных потоков. Если в базу данных потоков 4 уже передавалась данная ссылка на мультимедийный поток, то модуль управления данными получит о ней информацию, если ссылка на поток новая, тогда информация о потоке останется не известной до тех пор, пока не будет проверена модулем проверки потоков 5. Далее модуль управления данными 3 проверяет информацию о ссылке Reference_1 в базе данных взаимосвязей 6 с целью определения ассоциативной связи данной ссылки на веб-страницу со ссылками на мультимедийные потоки, полученную при предыдущей проверке данной страницы. Если данная ссылка на веб-страницу отсутствует в базе данных взаимосвязей (то есть является новой), тогда она будет в нее добавлена, где будет указана связь данной ссылки на веб-страницу и ссылками на мультимедийные потоки (см. фиг.3). Информация о данной ссылке на веб-страницу останется без изменений в базе данных взаимосвязей до тех пор, пока не будут проверены ссылки на мультимедийные потоки, которые были найдены на ней. Изменения в базе данных взаимосвязей 6 и дальнейшая работа с данной ссылкой на веб-страницу будет осуществляться только в том случае, если после проверки ссылок на потоки будет определено, что хотя бы одна из них относится к ссылкам на мультимедийные потоки реального времени. Модуль проверки потоков 5 берет ссылки на проверку из базы данных потоков 4, после чего определяет, что одна из ссылок относится к мультимедийным потокам реального времени (см. Таблицу 1).The data management module sends links to the stream to the database of streams 4, where along with it it requests status for the transferred streams. If this link to the multimedia stream has already been transferred to the database of streams 4, then the data management module will receive information about it, if the link to the stream is new, then the stream information will remain unknown until it is verified by the streaming check module 5. Next data management module 3 checks the information about the reference Reference_1 in the relationship database 6 to determine the associative relationship of this link to a web page with links to multimedia streams obtained from the previous check of this page. If this link to the web page is not in the database of relationships (that is, new), then it will be added to it, where the link of this link to the web page and links to multimedia streams will be indicated (see figure 3). Information about this link to a web page will remain unchanged in the database of relationships until links to the multimedia streams that were found on it are checked. Changes to the relationship database 6 and further work with this link to the web page will be carried out only if after checking the links to the streams it will be determined that at least one of them refers to links to real-time multimedia streams. The module for checking streams 5 takes references to the verification from the database of streams 4, after which it determines that one of the links refers to multimedia streams in real time (see Table 1).

Таблица 1Table 1 Ссылка на потокStream link Информация о потокахStream Information Stream_1Stream_1 RTS (Ссылка на живой поток)RTS (Live Stream Link) Stream_2Stream_2 File (Ссылка на статический файл)File (Link to a static file)

Модуль управления потоками 7 запрашивает из базы данных потоков 4 информацию о потоках реального времени, у которых есть изменения в типе, состоянии или характеристиках. После запроса модуль управления потоками 7 получит ссылку на поток Stream_1, где будет указано, что поток перешел в тип потоков, которые относятся к живым потокам (см. таблицу 2).The thread control module 7 requests information from the thread database 4 about real-time streams that have changes in type, state or characteristics. After the request, the module 7 will receive a link to the stream Stream_1, where it will be indicated that the stream has switched to the type of streams that belong to live streams (see table 2).

Таблица 2table 2 Ссылка на потокStream link ИзменениеChange Stream_1Stream_1 RTS (Ссылка на живой поток)RTS (Live Stream Link)

Модуль управления потоками 7 делает отметку в базе данных взаимосвязей 6 для всех ссылок на веб-страницы, у которых есть связь с данной ссылкой на мультимедийный поток, что данный поток перешел в статус «живого» потока. Далее модуль управления расписанием 8 берет из базы данных взаимосвязей 6 все ссылки на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках для ссылок на потоки реального времени. Модуль управления расписанием 8 получит ссылку Reference_1, для которой будет указано количество потоков реального времени и отметка об изменениях в потоках (см. таблицу 3).The flow control module 7 makes a mark in the relationship database 6 for all links to web pages that have a link to this link to a multimedia stream that this stream has switched to the status of a "live" stream. Next, the schedule management module 8 takes from the relationship database 6 all links to web pages that have changes in the type, state or characteristics of links to real-time streams. Schedule management module 8 will receive the Reference_1 link, for which the number of real-time streams and a mark on changes in the streams will be indicated (see table 3).

Таблица 3Table 3 Веб-ссылкаWeb link Ссылка на потокStream link ИзменениеChange Reference_1Reference_1 Stream_1Stream_1 RTS (ссылка на живой поток)RTS (live stream link)

Поскольку для данной ссылки на веб-страницу приходится только одна ссылка на поток реального времени, ей будет установлен коэффициент значимости, равный единице, а также период проверки страницы, например, равный 24 часам, после чего данные будут сохранены в базе данных расписаний 9 (см. таблицу 4). Поскольку ссылка Reference_1 еще не участвовала в расписании повторной проверки, то для нее будет создана отдельная запись, в которой будет указано время, после которого она будет перепроверена. Время следующей проверки для новой ссылки на веб-страницу определяется как текущее время плюс период.Since for this link to a web page there is only one link to a real-time stream, it will be set to a significance factor equal to one, as well as a page verification period, for example, equal to 24 hours, after which the data will be stored in the schedule database 9 (see table 4). Since Reference_1 did not yet participate in the rechecking schedule, a separate record will be created for it, which will indicate the time after which it will be rechecked. The next check time for a new link to a web page is defined as the current time plus period.

Таблица 4Table 4 Веб-ссылкаWeb link Коэффициент значимостиSignificance coefficient ПериодPeriod Последнее время проверкиLast check time Следующее время начала проверкиNext check start time Reference_1Reference_1 1one 24 часа24 hours 0000-00-00 00:00:000000-00-00 00:00:00 Текущее время +24 часаCurrent time +24 hours

Пример №2Example No. 2

Рассмотрим ситуацию повторной проверки веб-страниц, которые уже присутствуют в расписании. Модуль загрузки данных 2 получает из базы данных расписания 9 (см. таблицу 5) три ссылки на веб-страницы, для которых наступило время начала проверки.Consider the situation of re-checking web pages that are already on the schedule. Data loading module 2 receives from the database of schedule 9 (see table 5) three links to web pages for which the time has come to start the scan.

Таблица 5Table 5 Веб-ссылкаWeb link Коэффициент значимостиSignificance coefficient ПериодPeriod Последнее время проверкиLast check time Следующее время начала проверкиNext check start time Reference_5Reference_5 22 12 часов12 hours 2013-07-05 15:34:272013-07-05 15:34:27 2013-07-06 3:34:272013-07-06 3:34:27 Reference_6Reference_6 1one 24 часов24 hours 2013-07-05 15:34:112013-07-05 15:34:11 2013-07-06 15:34:112013-07-06 15:34:11 Reference_7Reference_7 1one 24 часов24 hours 2013-07-05 15:34:182013-07-05 15:34:18 2013-07-06 15:34:112013-07-06 15:34:11

В базе данных взаимосвязей 6 до момента проверки ссылки на веб-страницы имеют следующие связи с мультимедийными ссылками на потоки реального времени (см. фиг. 4).In the relationship database 6, until the moment of verification, links to web pages have the following relationships with multimedia links to real-time streams (see Fig. 4).

Веб-страница по ссылке Reference_5 содержит две ссылки на потоки реального времени, при этом Reference_6 имеет с ней общий поток, а веб-страница по ссылке Reference_7 содержит независимую ссылку на поток, у которой нет пересечений с другими веб-страницами. Модуль загрузки данных 2 загружает веб-страницы по указанным ссылкам. Проанализировав содержимое, в загруженных документах были найдены ссылки на потоки, которые имеют связь, представленную на фиг.5.The reference_5 web page contains two links to real-time streams, while Reference_6 has a common stream with it, and the reference_7 web page contains an independent stream link that has no intersections with other web pages. Data Download Module 2 downloads web pages from the specified links. After analyzing the content, links to streams that have the connection shown in FIG. 5 were found in the downloaded documents.

Найденные данные передаются модулю управления данными 3. Далее модуль управления данными отправляет найденные ссылки на потоки в базу данных потоков 4 с целью сохранения новых ссылок на потоки и получения информации для уже известных потоков (см. фиг.6).The found data is transmitted to the data management module 3. Next, the data management module sends the found links to the streams to the database of streams 4 in order to save new links to the streams and obtain information for already known streams (see Fig. 6).

Полученная информация о потоках из базы данных потоков 4 (см. таблицу 6) указывает на то, что ссылки на поток Stream_10 и Stream_50 проверены и являются потоками реального времени, ссылка Stream_11 указывала на поток реального времени, находится в выключенном состоянии, a Stream_51 является новой ссылкой на мультимедийный поток и требует проверки модулем проверки потоков 5.The received information about streams from the stream database 4 (see table 6) indicates that the links to the stream Stream_10 and Stream_50 are checked and are real-time streams, the Stream_11 link pointed to a real-time stream, is off, and Stream_51 is new reference to the multimedia stream and requires verification by the streaming verification module 5.

Таблица 6Table 6 Ссылка на потокStream link Информация о потокахStream Information Stream_10Stream_10 RTS (Ссылка на живой поток)RTS (Live Stream Link) Stream_11Stream_11 RTS Off Air (Ссылка перестала работать)RTS Off Air (Link has stopped working) Stream_50Stream_50 RTS (Ссылка на живой поток)RTS (Live Stream Link) Stream_51Stream_51 New (Новая ссылка на мультимедийный поток)New (New link to the multimedia stream)

Далее модуль управления данными начинает проверку предыдущей ассоциативной связи для данных ссылок на веб-страницы в базе данных взаимосвязей 6. На основании проверки определяется, что у некоторых веб-страниц изменились ссылки на мультимедийные потоки, что приводит к изменениям в ассоциативных связях в базе данных взаимосвязей 6 для данных ссылок на веб-страницы (см. фиг.7).Next, the data management module starts checking the previous association for the data of links to web pages in the relationship database 6. Based on the check, it is determined that some web pages have changed links to multimedia streams, which leads to changes in the associations in the relationship database 6 for these web page links (see FIG. 7).

Модуль управления данными отмечает, что веб-страница по ссылке Reference_7 больше не содержит в себе ссылку на поток Stream_12 и присваивает ей новые связи, указывая, что она содержит потоки Stream_50 и Stream_51. Попутно с внесением изменений в ассоциативные связи вносится информация о потоках, которая была получена из базы данных потоков 4. Отмечается, что изменилось состояние ссылки на поток Stream_11, где указывается, что поток выключен, а ссылки на потоки Stream_10 и Stream_50 находятся в рабочем состоянии и являются мультимедийными потоками реального времени. Поскольку Stream_51 является новой ссылкой на поток, для него нет информации, которая может влиять на изменения в работе расписания 9. Модуль управления расписанием 8 запрашивает ссылки на веб-страницы, у которых есть изменения в потоках реального времени из базы данных взаимосвязей 6 (см. таблицу 7).The data management module notes that the web page at Reference_7 no longer contains a link to the Stream_12 stream and assigns new links to it, indicating that it contains Stream_50 and Stream_51 streams. Along with making changes in associative relations, information about the streams is received, which was obtained from the stream database 4. It is noted that the state of the link to the stream Stream_11 has been changed, where it is indicated that the stream is turned off, and the links to streams Stream_10 and Stream_50 are in working condition and are multimedia streams of real time. Since Stream_51 is a new link to a stream, there is no information for it that can affect changes in the schedule 9. Schedule management module 8 requests links to web pages that have changes in real-time streams from the relationship database 6 (see table 7).

Таблица 7Table 7 Веб-ссылкаWeb link Ссылка на потокStream link ИзменениеChange Reference_5Reference_5 Stream_10Stream_10 RTS (Ссылка на живой поток)RTS (Live Stream Link) Reference_5Reference_5 Stream_11Stream_11 RTS Off Air (Ссылка перестала работать)RTS Off Air (Link has stopped working) Reference_6Reference_6 Stream_11Stream_11 RTS Off Air (Ссылка перестала работать)RTS Off Air (Link has stopped working) Reference_7Reference_7 Stream_50Stream_50 RTS (Ссылка на живой поток)RTS (Live Stream Link)

Для ссылки Reference_5 будет вычислен коэффициент значимости, равный единице, так как один из двух доступных потоков перестал работать, для ссылки Reference_6 коэффициент значимости будет равен нулю, поскольку у нее нет на текущий момент потоков реального времени, находящихся во включенном состоянии, для ссылки Reference_7 коэффициент значимости останется равным единице. После вычисления коэффициента значимости и вычисления периода проверки для текущих ссылок на веб-страницы модуль управления расписанием вносит изменения в базу данных расписания 9 (см. таблицу 8).For the Reference_5 link, a significance coefficient equal to one will be calculated, since one of the two available threads has stopped working, for the Reference_6 link, the significance coefficient will be zero, because it does not currently have real-time streams in the on state, for the Reference_7 link coefficient significance will remain equal to one. After calculating the significance coefficient and calculating the validation period for current links to web pages, the schedule management module makes changes to the schedule 9 database (see table 8).

Таблица 8Table 8 Веб-ссылкаWeb link Коэффициент значимостиSignificance coefficient ПериодPeriod Последнее время проверкиLast check time Следующее время начала проверкиNext check start time Reference_5Reference_5 1one 24 часов24 hours 2013-07-06 3:34:272013-07-06 3:34:27 2013-07-07 3:34:272013-07-07 3:34:27 Reference_6Reference_6 00 0 часов0 hours 2013-07-0615:34:112013-07-0615: 34: 11 0000-00-00 00:00:000000-00-00 00:00:00 Reference_7Reference_7 1one 24 часов24 hours 2013-07-0615:34:112013-07-0615: 34: 11 2013-07-06 15:34:112013-07-06 15:34:11

Изменения касаются только двух записей, для Reference_5 понижается коэффициент значимости и, как следствие, увеличивается период. Ссылка Reference_6 исключается из проверки, так как для нее нет на текущий момент работающих потоков реального времени. Для ссылки Reference_7 изменений на текущий момент нет, так как до начала проверки по расписанию данная ссылка на веб-страницу имела ассоциативную связь с потоком Stream_12, после проверки она стала указывать на два потока, но только для одной ссылки на поток был известен тип потока, вторая ссылка на поток являлась новой, поэтому коэффициент значимости для данной ссылки на текущий момент остается равный 1. Модулем загрузки данных 2 была выявлена новая ссылка на поток Stream_51, для которой не был определен тип, после ее проверки модулем проверки потоков 5 определено, что данная ссылка указывает на поток реального времени. Модуль управления потоками 7 запрашивает данные из базы данных потоков 4 и получает информацию (см. таблицу 9), что Stream_51 относится к мультимедийным ссылкам на потоки реального времени.The changes concern only two records, for Reference_5 the significance coefficient decreases and, as a result, the period increases. Reference_6 is excluded from the scan because it does not currently have real-time streams working. There are currently no changes for Reference_7, since before the scheduled check this link to a web page had an associative connection with Stream_12, after checking it began to point to two streams, but the type of stream was known only for one link to the stream, the second link to the stream was new, so the significance coefficient for this link currently remains equal to 1. Data loading module 2 revealed a new link to Stream_51, for which the type was not determined, after it was checked by the thread verification module 5 о Roedel that the link points to a live stream. The flow control module 7 requests data from the database of streams 4 and receives information (see table 9) that Stream_51 refers to multimedia links to real-time streams.

Талица 9Talitsa 9 Ссылка на потокStream link ИзменениеChange Stream_51Stream_51 RTS (Ссылка на живой поток)RTS (Live Stream Link)

Далее модулем управления потоков вносятся изменения в базу данных взаимосвязей 6, где для всех ссылок на веб-страницы, у которых есть связь с потоком Stream_51, делается отметка об изменении в типе потока. Модуль управления расписанием 8 вновь запрашивает из базы данных взаимосвязей 6 информацию о ссылках на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках потоков реального времени, и получает данные (см. таблицу 10) об изменениях для ссылки Reference_7.Then, the flow control module makes changes to the relationship database 6, where for all links to web pages that have a connection with the stream Stream_51, a mark is made about the change in the type of stream. Schedule management module 8 again requests information about links to web pages that have changes in the type, state, or characteristics of real-time streams from the relationship database 6 and receives data (see table 10) about the changes for Reference_7.

Таблица 10Table 10 Веб-ссылкаWeb link Ссылка на потокStream link ИзменениеChange Reference_7Reference_7 Stream_50Stream_50 RTS (Ссылка на живой поток)RTS (Live Stream Link) Reference_7Reference_7 Stream_51Stream_51 RTS (Ссылка на живой поток)RTS (Live Stream Link)

Для ссылки Reference_7 вычисляется коэффициент значимости, период проверки и время следующего начала проверки, после чего вносятся изменения в базу данных расписания 9 (см таблицу 11).For reference_7, the significance coefficient, the verification period and the time of the next verification start are calculated, after which changes are made to the schedule 9 database (see table 11).

Таблица 11Table 11 Веб-ссылкаWeb link Коэффициент значимостиSignificance coefficient ПериодPeriod Последнее время проверкиLast check time Следующее время начала проверкиNext check start time Reference_5Reference_5 1one 24 часов24 hours 2013-07-06 3:34:272013-07-06 3:34:27 2013-07-07 3:34:272013-07-07 3:34:27 Reference_6Reference_6 00 0 часов0 hours 2013-07-06 15:34:112013-07-06 15:34:11 0000-00-00 00:00:000000-00-00 00:00:00 Reference_7Reference_7 22 12 часов12 hours 2013-07-06 15:34:112013-07-06 15:34:11 2013-07-07 3:34:112013-07-07 3:34:11

Поскольку на Reference_7 теперь приходится 2 ссылки на потоки реального времени, соответственно у нее повышается коэффициент значимости и изменяется период перепроверки, что приводит к изменению для следующего времени начала проверки ссылки на веб-страницу.Since Reference_7 now has 2 links to real-time streams, it accordingly increases the significance coefficient and the recheck period changes, which leads to a change for the next time that the link to the web page is checked.

Claims (24)

1. Способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно которому
загружают веб-страницы для проверки по расписанию, включающему ссылки на веб-страницы и определяющему период и порядок проверки ссылок на веб-страницы,
анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки, с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей,
затем осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений,
при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
1. A method of checking web pages for the presence of multimedia streams in real time, according to which
load web pages for checking according to a schedule that includes links to web pages and determines the period and procedure for checking links to web pages,
analyze downloaded web pages for the presence of links to multimedia streams in them, followed by saving the found links to multimedia streams in the stream database, while information about the membership of the multimedia stream to the web page is stored in the relationship database,
then check the data streams to determine their type, whether the multimedia stream is a real-time stream or not, and also periodically check links to real-time streams in the stream database to detect changes in the type of stream and / or stream status, and / or in the characteristics of the stream, with subsequent storage of information about changes in the database of flows, while in the database of relationships make a note about the fact of changes,
at the same time, new links to web pages on which links to real-time multimedia streams are identified are added to the schedule, and / or the check period for existing links to web pages for which changes in the stream are detected are changed and / or time is changed the beginning of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to the current one, if changes in the type and / or status of the stream are detected due to an increase in the number of links on the web page to real-time multimedia streams, the verification period is reduced, and when the number of links to real-time multimedia streams on a web page decreases, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes zero, this link to the web the page is excluded from the scan schedule.
2. Способ по п.1, характеризующийся тем, что веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей.2. The method according to claim 1, characterized in that the web page is a file directly containing the text of the web page, and / or a script file associated with this web page. 3. Способ по п.1, характеризующийся тем, что загрузку веб-страницы по ссылке осуществляют посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.3. The method according to claim 1, characterized in that the download of the web page by reference is carried out by emulating the operation of the web browser by building a model of the web document and creating all objects that potentially contain links to multimedia streams. 4. Способ по п.1, характеризующийся тем, что период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, выбирают из интервала значений 2-5 минут.4. The method according to claim 1, characterized in that the period of checking links to streams from the database of streams having the status of a multimedia stream of real time, to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, is selected from an interval of values of 2-5 minutes. 5. Способ по п.1, характеризующийся тем, что состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.5. The method according to claim 1, characterized in that the state of the stream is determined based on whether it is in the on state or off. 6. Способ по п.1, характеризующийся тем, что БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.6. The method according to claim 1, characterized in that the relationship database has a structure that displays the link of a web page to one or more links to multimedia streams, while in the relationship database mark streams that are of the type of multimedia streams in real time. 7. Способ по п.1, характеризующийся тем, что в качестве характеристик потока используют описание мультимедийного потока и технические характеристики потока.7. The method according to claim 1, characterized in that the characteristics of the stream use the description of the multimedia stream and the technical characteristics of the stream. 8. Способ по п.1, характеризующийся тем, что в качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть.8. The method according to claim 1, characterized in that as a description of the multimedia stream using a text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream or any other data transmitted within the stream and displaying its essence. 9. Способ по п.1, характеризующийся тем, что в качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.9. The method according to claim 1, characterized in that as the technical characteristics of the stream using bitrate, format, information about audio or video codecs or any other technical characteristics of the stream. 10. Способ по п.1, характеризующийся тем, что по итогам анализа загруженных веб-страниц определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки.10. The method according to claim 1, characterized in that according to the results of the analysis of the loaded web pages, the availability of the web pages is determined, and in the case of unavailable web pages, an appropriate check mark is made in the check schedule. 11. Способ по п.10, характеризующийся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, ссылку на данную веб-страницу исключают из расписания проверки.11. The method according to claim 10, characterized in that if the unavailable web page is in this state for a week, the link to this web page is excluded from the check schedule. 12. Способ по п.1, характеризующийся тем, что для каждой ссылки на веб-страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то Т=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки.12. The method according to claim 1, characterized in that for each link to a web page, a significance coefficient (K) is determined, which is chosen equal to the number of links on this page to real-time multimedia streams, and the verification period is calculated based on the relation T = T const / K, where T const is the specified test period, for example 24 hours, and in the case T <T min , then T = T min , where T min is the minimum allowable test period, for example 1 hour, followed by saving the received results for (K) and (T) in the check schedule. 13. Способ по п.12, характеризующийся тем, что загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента К.13. The method according to p. 12, characterized in that the loading of web pages and their analysis is carried out starting with a link to a web page from the schedule that has the highest coefficient K. 14. Компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени, включающая:
БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки;
БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков;
БД взаимосвязей, включающую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока;
модуль загрузки данных, выполненный с возможностью загрузки веб-страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки;
модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей;
модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков;
модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей;
модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.
14. A computer-implemented system for checking web pages for the presence of real-time multimedia streams, including:
Schedule database, including a list of links to web pages with a period for each link and the procedure for checking it;
Database of streams, including a list of links to multimedia streams, as well as information about the type, status and characteristics of streams;
Relationship database, including information on the affiliation of the multimedia stream to the corresponding web page, as well as the type of multimedia stream;
a data loading module configured to download web pages via a link from the schedule database and analyze downloaded web pages for links to multimedia streams;
a data management module, configured to save the links found to the multimedia streams found by the download module to the streams database, as well as to save and / or change information about the relationship between the multimedia stream and the web page in the relationships database;
a module for checking streams from the database of streams, configured to determine the type of multimedia stream, as well as periodically check references to multimedia streams in real time to detect changes in the type of stream and / or in the state and / or characteristics of the stream, followed by storing the received information in the stream database;
a flow control module configured to detect changes made to the flow database, followed by recording information about the presence of changes in the relationship database;
a schedule management module, configured to change the schedule in the schedule database by adding new links to web pages into it, on which links to real-time multimedia streams are identified, and / or by changing the check period for existing links to web pages in the schedule, for which there are changes in the stream, and / or changes in the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to while maintaining its verification period; when detecting changes in the type and / or status of the stream associated with an increase in the number of links to real-time multimedia streams on a web page, the check period is reduced, and when the number of links to real-time multimedia streams on a web page decreases, the check period is increased, and when the number of links to real-time multimedia streams becomes equal to zero, this link to a web page is excluded from the scan schedule.
15. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.15. The system of claim 14, characterized in that the data loading module is configured to emulate a web browser by building a model of a web document and creating all objects potentially containing links to multimedia streams. 16. Система по п.14, характеризующаяся тем, что модуль проверки потоков выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, от 2 до 5 минут.16. The system of claim 14, characterized in that the module for checking streams is configured to change the period for checking links to streams from the database of streams having the status of a multimedia stream of real time from 2 to 5 minutes. 17. Система по п.14, характеризующаяся тем, что модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном.17. The system according to 14, characterized in that the flow check module, when checking the status of the real-time stream, determines whether a given stream is on or off. 18. Система по п.14, характеризующаяся тем, что в БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока.18. The system according to 14, characterized in that in the stream database as a stream characteristics there is a description of the multimedia stream and technical characteristics of the stream. 19. Система по п.14, характеризующаяся тем, что в БД потоков в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока или любые другие данные, передающиеся в рамках потока и отображающие его суть.19. The system according to 14, characterized in that in the stream database as a description of the multimedia stream there is a text description of the stream, the stream title, an indication of the owner of the stream, a link to the site of the stream or any other data transmitted within the stream and displaying its essence . 20. Система по п.14, характеризующаяся тем, что в БД потоков в качестве технических характеристик потока присутствует битрейд, формат, информация об аудио или видео кодеках или любых других технических характеристиках потока.20. The system of claim 14, characterized in that the stream database contains bitstream, format, information about audio or video codecs or any other technical characteristics of the stream as technical characteristics of the stream. 21. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью определения доступности веб-страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания.21. The system according to 14, characterized in that the data loading module is configured to determine the availability of a web page, and in the event that inaccessible web pages are detected, information about this is recorded in the schedule database. 22. Система по п.21, характеризующаяся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием выполнен с возможностью исключения ссылки на данную веб-страницу из БД расписания.22. The system according to item 21, characterized in that if the unavailable web page is in this state for a week, the schedule management module is configured to exclude links to this web page from the schedule database. 23. Система по п.14, характеризующаяся тем, что модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т=Tconst/K, где Tconst - заданный период проверки, например 24 часа, и в случае, если Т<Tmin, то Т=Tmin, где Tmin - минимально допустимый период проверки, например 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания.23. The system of claim 14, characterized in that the schedule management module is configured to determine a significance coefficient (K) for each link to a web page that is selected equal to the number of links on this page to real-time multimedia streams, and calculating a period checks based on the ratio T = T const / K, where T const is the specified test period, for example 24 hours, and if T <T min , then T = T min , where T min is the minimum allowable test period, for example 1 hour, with the subsequent preservation of the received results atov for (R) and (T) in the schedule database. 24. Система по п.23, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К. 24. The system according to claim 23, characterized in that the data loading module is configured to download web pages and analyze them starting from a link to a web page from the schedule database having the highest coefficient K.
RU2013134965/08A 2013-07-26 2013-07-26 Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation RU2530672C1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2013134965/08A RU2530672C1 (en) 2013-07-26 2013-07-26 Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation
PCT/RU2013/001055 WO2015012720A1 (en) 2013-07-26 2013-11-25 Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013134965/08A RU2530672C1 (en) 2013-07-26 2013-07-26 Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation

Publications (1)

Publication Number Publication Date
RU2530672C1 true RU2530672C1 (en) 2014-10-10

Family

ID=52393617

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013134965/08A RU2530672C1 (en) 2013-07-26 2013-07-26 Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation

Country Status (2)

Country Link
RU (1) RU2530672C1 (en)
WO (1) WO2015012720A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689377B (en) * 2019-09-30 2023-04-18 北京达佳互联信息技术有限公司 Data detection method and device and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399090C2 (en) * 2008-12-03 2010-09-10 Общество С Ограниченной Ответственностью "Мералабс" System and method for real time internet search of multimedia content
US7886042B2 (en) * 2006-12-19 2011-02-08 Yahoo! Inc. Dynamically constrained, forward scheduling over uncertain workloads
US8386459B1 (en) * 2005-04-25 2013-02-26 Google Inc. Scheduling a recrawl

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386459B1 (en) * 2005-04-25 2013-02-26 Google Inc. Scheduling a recrawl
US7886042B2 (en) * 2006-12-19 2011-02-08 Yahoo! Inc. Dynamically constrained, forward scheduling over uncertain workloads
RU2399090C2 (en) * 2008-12-03 2010-09-10 Общество С Ограниченной Ответственностью "Мералабс" System and method for real time internet search of multimedia content

Also Published As

Publication number Publication date
WO2015012720A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
US9594826B2 (en) Co-selected image classification
US10140472B2 (en) Multi-level privacy evaluation
US8463795B2 (en) Relevance-based aggregated social feeds
US10264314B2 (en) Multimedia content management system
US8862607B2 (en) Content receiving apparatus with search query generator
US20140044407A1 (en) Segmenting video based on timestamps in comments
US7966341B2 (en) Estimating the date relevance of a query from query logs
US20210209402A1 (en) Weapon detection and tracking
US20160055164A1 (en) News alert system and method
US20180077250A1 (en) Method and System for Processing Data Used By Creative Users to Create Media Content
US20230145903A1 (en) Method and apparatus for determining and presenting answers to content-related questions
JP2015090716A (en) Moving image program recommendation method and server therefor
US20190005534A1 (en) Providing media assets to subscribers of a messaging system
CN113609374A (en) Data processing method, device and equipment based on content push and storage medium
US11108717B1 (en) Trends in a messaging platform
CN111104583A (en) Live broadcast room recommendation method, storage medium, electronic device and system
US9213745B1 (en) Methods, systems, and media for ranking content items using topics
RU2530672C1 (en) Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method&#39;s implementation
TWI709905B (en) Data analysis method and data analysis system thereof
RU2530671C1 (en) Checking method of web pages for content in them of target audio and/or video (av) content of real time
US10671616B1 (en) Selectively modifying scores of youth-oriented content search results
CN111970327A (en) News spreading method and system based on big data processing
JP6882534B2 (en) Identifying videos with inappropriate content by processing search logs
CN114969493A (en) Content recommendation method and related device
KR101984773B1 (en) Classifier recall estimation for sparse topics

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20170727