RU2399090C2 - System and method for real time internet search of multimedia content - Google Patents

System and method for real time internet search of multimedia content Download PDF

Info

Publication number
RU2399090C2
RU2399090C2 RU2008147755/09A RU2008147755A RU2399090C2 RU 2399090 C2 RU2399090 C2 RU 2399090C2 RU 2008147755/09 A RU2008147755/09 A RU 2008147755/09A RU 2008147755 A RU2008147755 A RU 2008147755A RU 2399090 C2 RU2399090 C2 RU 2399090C2
Authority
RU
Russia
Prior art keywords
web page
content
real
search
time
Prior art date
Application number
RU2008147755/09A
Other languages
Russian (ru)
Other versions
RU2008147755A (en
Inventor
Дмитрий Максимович Пономарев (RU)
Дмитрий Максимович Пономарев
Владимир Владимирович Крылов (RU)
Владимир Владимирович Крылов
Денис Олегович Орел (RU)
Денис Олегович ОРЕЛ
Original Assignee
Общество С Ограниченной Ответственностью "Мералабс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Мералабс" filed Critical Общество С Ограниченной Ответственностью "Мералабс"
Priority to RU2008147755/09A priority Critical patent/RU2399090C2/en
Publication of RU2008147755A publication Critical patent/RU2008147755A/en
Application granted granted Critical
Publication of RU2399090C2 publication Critical patent/RU2399090C2/en

Links

Images

Abstract

FIELD: information technology.
SUBSTANCE: search engine comprises: a feature search module which analyses the current loaded Web page for presence of features which indicate availability of real time broadcast of multimedia (AV) content from a predetermined set of features; a database which stores the address of the Web page where availability of real time AV content broadcast was established; a user interface for enabling the user to search the database; during analysis, the feature search module analyses text content of files of the Web page first in order to detect features therein which indicate an AV content player, and the, if detection is successful, presence therein of features which indicate that the played AV content is precisely real time AV content.
EFFECT: wide range of searching for searching multimedia content in real time.
31 cl, 4 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится, в общем, к компьютерным и сетевым технологиям, и более конкретно к системе и способу для поиска во Всемирной паутине (Web) аудио и/или видео (AV) контента реального времени.The present invention relates generally to computer and network technologies, and more particularly to a system and method for searching real-time audio and / or video (AV) content on the World Wide Web.

Предшествующий уровень техникиState of the art

В настоящее время в мире широко известны и массово используются поисковые машины, которые обеспечивают пользователям возможность осуществлять в Интернете поиск Web-страниц, содержащих нужную для них информацию, по вводимым ими поисковым запросам. Популярными поисковыми машинами являются, в частности, Yahoo!, Google, Yandex, Rambler.Currently, search engines are widely known and massively used in the world, which provide users with the ability to search the Internet for Web pages containing the information they need based on the search queries they enter. Popular search engines are, in particular, Yahoo !, Google, Yandex, Rambler.

Общий принцип работы известных поисковых машин основан на сборе информации по Web-страницам в Интернете, ее обработке и индексировании для дальнейшего предоставления пользователю возможности поиска необходимой информации в том объеме, который был обработан поисковой машиной. В состав каждой поисковой машины входят поисковые роботы, целью которых является сканирование Web-страниц Интернета и их загрузка. После обращения поискового робота по указанному адресу Web-страницы он просматривает, например, http-заголовки, проверяя, когда в последний раз была модифицирована эта страница. Если поисковый робот уже просматривал данную Web-страницу, а дата последней модификации страницы изменилась, тогда он загрузит ее для обработки вновь, если же просматриваемая им Web-страница вообще не просматривалась, тогда она сразу будет загружена для обработки.The general principle of operation of well-known search engines is based on the collection of information on Web pages on the Internet, its processing and indexing to further provide the user with the opportunity to search for the necessary information to the extent that has been processed by the search engine. Each search engine includes search robots, the purpose of which is to scan the Internet web pages and load them. After the search robot contacts the specified address of the Web page, it scans, for example, http-headers, checking when the page was last modified. If the search robot has already viewed this Web page, and the date of the last modification of the page has changed, then it will load it again for processing, if the web page it browses has not been viewed at all, then it will be immediately loaded for processing.

Web-страницы, загруженные поисковым роботом(ами), обрабатываются соответствующими программно-аппаратными компонентами поисковой машины. Целью такой обработки является анализ страницы: как правило, вначале из Web-страницы извлекается заголовок (Title), поскольку он несет в себе общую информацию о Web-странице. Далее извлекается и обрабатывается весь текст, который так или иначе выделен, например, курсивом, подчеркиванием или размером (в частности, размер его шрифта больше размера шрифта основного текста), поскольку поисковая машина предполагает, что это ключевые места в тексте и на них сделан акцент.Web pages loaded by the search robot (s) are processed by the corresponding software and hardware components of the search engine. The purpose of this processing is to analyze the page: as a rule, the title is first extracted from the web page, since it carries general information about the web page. Next, all the text is extracted and processed, which is somehow highlighted, for example, in italics, underline or size (in particular, its font size is larger than the font size of the main text), since the search engine assumes that these are key places in the text and they are emphasized .

Некоторые поисковые машины просматривают метатеги Web-страниц, предполагая, что в них имеются ключевые слова или словосочетания страницы. В то же время, поскольку в содержимом метатегов зачастую дается недостоверная информация, некоторые поисковые машины не используют их для определения ключевых слов страницы.Some search engines look at the meta tags of Web pages, assuming they have keywords or phrases on the page. At the same time, since the content of meta tags is often given inaccurate information, some search engines do not use them to determine the keywords of the page.

Также весь текст Web-страницы подвергается полной обработке. Например, те поисковые машины, которые не используют метатеги для определения ключевых слов Web-страницы, ищут ключевые слова путем выполнения проверки на предмет того, как часто встречается то или иное слово в тексте, и для этого из текста удаляются все “стоп-слова”, такие как <а>, <он>, <ты>, <в>, а также все символы и цифры, поскольку они создают шум при поиске ключевых слов.Also, the entire text of the Web page is fully processed. For example, those search engines that do not use meta tags to identify keywords on a Web page look for keywords by checking to see how often a particular word appears in the text, and for this, all “stop words” are removed from the text such as <a>, <he>, <you>, <b>, as well as all the characters and numbers, as they create noise when searching for keywords.

Наконец, обработанный текст Web-страницы индексируется поисковой системой надлежащим образом так, чтобы предоставить пользователю посредством Web-интерфейса (например, браузера) возможность удобного поиска по базе данных поисковой машины на основе ввода поисковых запросов.Finally, the processed text of the Web page is indexed by the search engine appropriately so as to provide the user with a Web interface (for example, a browser) the ability to conveniently search the search engine database based on the input of search queries.

Более подробно структура и базовые принципы функционирования поисковых машин изложены, в частности, в “The anatomy of a large-scale hypertextual Web search engine”, Brin, S., Page, L., Computer Networks and ISDN Systems, 30(1-7):107-117, 1998; “Effective Web Crawling”, Castillo, C., PhD thesis, University of Chile, 2004; “Crawling the Web”. Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004. The structure and basic principles of the functioning of search engines are described in more detail, in particular, in “The anatomy of a large-scale hypertextual Web search engine”, Brin, S., Page, L., Computer Networks and ISDN Systems, 30 (1-7 ): 107-117, 1998; “Effective Web Crawling”, Castillo, C., PhD thesis, University of Chile, 2004; “Crawling the Web”. Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004.

Однако построенные таким образом поисковые машины перестают отвечать требованиям сегодняшнего дня в силу все увеличивающегося объема и разнообразия информации, представляемой в Интернете. В частности, при проведении такого основывающегося на тексте поиска Web-страниц, где содержались бы интересующие пользователя картинки или видео, выдается обширный результирующий список Web-страниц, в котором доля страниц, действительно отвечающих требованиям и запросам пользователя, оказывается невелика, поскольку в данный список, в силу специфики описываемых поисковых машин, также попадут те Web-страницы, которые содержат упоминания, обсуждения, рекламу, отзывы и т.п., касающиеся требующихся картинок или видео, но непосредственно не содержат самих требующихся картинок или видео. По мере же роста совокупного объема и разнообразия Web-контента в Интернете доля релевантных Web-страниц при такого рода специфических поисках будет лишь снижаться, и, как следствие, пользователи вынуждены строить хитроумные, скорее всего неоднократные поисковые запросы и тратить время на просеивание больших массивов результатов поиска.However, search engines constructed in this way cease to meet the requirements of today because of the ever-increasing volume and variety of information presented on the Internet. In particular, when conducting such a text-based search for Web pages that contain pictures or videos of interest to the user, an extensive result list of Web pages is produced in which the proportion of pages that truly meet the requirements and requirements of the user is small, since this list , due to the specifics of the search engines described, those Web pages that contain mentions, discussions, advertisements, reviews, etc., relating to the required pictures or videos, but not directly contained, will also be included. The required pictures or videos themselves. As the aggregate volume and variety of Web content on the Internet grows, the proportion of relevant Web pages during this kind of specific searches will only decrease, and as a result, users will be forced to build clever, most likely repeated searches and spend time sifting large arrays of results search.

Этой проблемой обуславливается актуальность создания специализированных (так называемых вертикальных) поисковых систем, строго ориентированных на поиск по тематическим ресурсам Интернета.This problem is caused by the relevance of creating specialized (so-called vertical) search engines that are strictly oriented to search on thematic Internet resources.

Сущность изобретенияSUMMARY OF THE INVENTION

Задачей настоящего изобретения является создание вертикальной поисковой системы и способа, конкретно ориентированных на поиск в Интернете Web-страниц, на которых имеет место вещание AV контента в масштабе реального времени или, иными словами, так называемое “живое вещание”. Характерной чертой такого контента является невозможность выполнения в отношении него перемотки вперед с помощью средств клиентского воспроизводящего приложения. Типичными примерами “живого” AV контента в Интернете являются телевизионное (ТВ) и радиовещание эфирных студий, специальное Интернет-вещание профессиональных и любительских студий, потоковое вещание с Web-камер. An object of the present invention is to provide a vertical search engine and method specifically oriented to search the Internet for Web pages on which AV content is broadcast in real time or, in other words, the so-called “live broadcast”. A characteristic feature of such content is the inability to perform fast forward in relation to it using the means of a client playback application. Typical examples of “live” AV content on the Internet are television (TV) and broadcasting on-air studios, special Internet broadcasting by professional and amateur studios, and streaming from Web cameras.

Актуальность решения поставленной задачи обуславливается все возрастающим количеством Интернет-ресурсов, где осуществляется такого рода “живое” вещание, и соответственно желательностью для пользователей быстрым и надежным образом находить в Интернете такие ресурсы, не затрачивая при этом значительного времени на перекапывание больших объемов не относящейся к делу информации.The relevance of solving this problem is determined by the increasing number of Internet resources where this kind of "live" broadcasting is carried out, and accordingly, it is desirable for users to quickly and reliably find such resources on the Internet, without spending significant time digging large volumes of irrelevant information.

Известны примеры решения данной задачи путем ручного построения поисковых баз Web-страниц с, например, ТВ вещанием (см. такие Интернет-порталы, как Search TV и Find Internet TV (http://www.findinternettv.com)). Однако ручное построение приводит, во-первых, к крайне сильно выраженной инерции по отношению к изменениям в Интернете (появлению новых Web-страниц, обновлению или удалению имеющихся Web-страниц и т.п.), а, во-вторых, к относительно невысокой достоверности построенного индекса, поскольку вследствие человеческого фактора могут быть проиндексированы Web-страницы, где на самом деле нет никакого “живого” AV контента, а есть лишь записанные аудио/видео клипы.There are known examples of solving this problem by manually building search databases for Web pages with, for example, TV broadcasting (see Internet portals such as Search TV and Find Internet TV (http://www.findinternettv.com)). However, manual construction leads, firstly, to extremely pronounced inertia with respect to changes on the Internet (the appearance of new Web pages, updating or deleting existing Web pages, etc.), and, secondly, to a relatively low the reliability of the constructed index, because due to the human factor, Web pages can be indexed, where in fact there is no “live” AV content, but only recorded audio / video clips.

Для решения вышепоставленной задачи в настоящем описании предоставляется способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени. Способ содержит этапы, на которых: А) заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени; В) осуществляют анализ загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора; С) если такие признаки выявлены в Web-странице при анализе, сохраняют адрес данной Web-страницы в базе данных из состава поисковой системы. Если же на этапе С) такие признаки не выявлены, то переходят на этап D), на котором загружают новую Web-страницу и повторяют в отношении нее этапы B) и C). Наконец, обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных. To solve the above problem, the present description provides a method for providing a user with a search capability in a computer-implemented search engine designed to search the Internet for Web pages that broadcast real-time AV content. The method comprises the steps of: A) setting in advance in the search system an expandable and modifiable set of indications of the presence of real-time AV content on the broadcast web pages; C) analyze the loaded Web page for the presence of signs in it, indicating the presence on this web page broadcasting AV real-time content from the mentioned set; C) if such signs are detected in the Web page during analysis, they save the address of this Web page in a database from the search engine. If, however, no such signs were detected at step C), then go to step D), where a new Web page is loaded and steps B) and C) are repeated in relation to it. Finally, they provide the user with a search engine the ability to search the database.

Предлагаемый способ характеризуется тем, что анализ по этапу B) осуществляют посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени.The proposed method is characterized in that the analysis in step B) is carried out by parsing the text content of the files of the Web page first to detect at least one feature indicating the means or technology for reproducing AV content, and then, upon successful detection, to the presence in it of at least one feature indicating that the reproduced AV content is exactly the real-time AV content.

Признак может представлять собой некоторой символ или набор символов. В частности, признак может представлять собой элемент разметки Web-страницы, такой как тег, параметр или атрибут. The sign may be a symbol or a set of symbols. In particular, the feature may be a markup element of a Web page, such as a tag, parameter or attribute.

Под файлами Web-страницы, в отношении текстового содержимого которых выполняется разбор, понимаются как файлы, непосредственно содержащие текст Web-страницы, так и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.Files of a Web page with respect to the text contents of which are parsed are understood to mean both files directly containing the text of the Web page and script files associated with this Web page and intended for its processing.

Для решения поставленной задачи в настоящем изобретении также предоставляется компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени. В предлагаемой поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени. Данная система включает в себя: модуль поиска признаков, выполненный с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора; базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени; пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных.To solve this problem, the present invention also provides a computer-implemented search engine designed to search the Internet for Web pages that broadcast real-time AV content. The proposed search system contains a predetermined expandable and modifiable set of indications of the presence of real-time AV content on the broadcast web pages. This system includes: a feature search module configured to analyze a loaded Web page for signs in it indicating that there is real-time AV content broadcasting on a given Web page from their set; a database adapted for storing the addresses of Web pages in which the presence of broadcasting of real-time AV content has been determined by the feature search module according to the analysis results; user interface to enable the user to search the database.

Предлагаемая поисковая система характеризуется тем, что модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени.The proposed search system is characterized in that the feature search module performs the above analysis by parsing the text content of the files of the Web page first to detect at least one feature indicating the means or technology for reproducing AV content, and then, upon successful detection, on the subject of the presence of at least one feature indicating that the reproduced AV content is the real-time AV content.

Настоящим изобретением, таким образом, обеспечивается возможность эффективного поиска, по обширной автоматически пополняемой и обновляемой базе Web-страниц, “живого” AV контента в Интернете с высокой степенью релевантности.The present invention, thus, provides the ability to effectively search, on an extensive automatically updated and updated database of Web pages, “live” AV content on the Internet with a high degree of relevance.

Дополнительного повышения эффективности, в частности снижения времязатрат, можно добиться путем формирования, в параллель вышеизложенному построению и поддержанию базы данных, описаний для Web-страниц, хранимых в этой базе данных. Описания могут использоваться как при поиске по базе данных поисковой системы, так и при предоставлении пользователю результатов поиска, вследствие чего пользователь может в общих чертах узнать тематическую направленность найденной Web-страницы без непосредственного обращения к ней.An additional increase in efficiency, in particular, reduction of time costs, can be achieved by forming, in parallel with the above construction and maintenance of the database, descriptions for Web pages stored in this database. The descriptions can be used both when searching the search engine database, and when providing the user with search results, as a result of which the user can in general outline the thematic focus of the found Web page without directly accessing it.

Для реализации данного аспекта предлагаемые система и способ модернизируются следующим образом.To implement this aspect, the proposed system and method are modernized as follows.

В заявляемый способ добавляется этап, на котором формируют описание AV контента реального времени из текста текущей загруженной в поисковую систему Web-страницы. Для этого предпочтительно в поисковой системе заранее задают расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, анализируют текст текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из этого набора, и при их обнаружении включают, по меньшей мере частично, текст текущей Web-страницы в формируемое описание AV контента реального времени.A step is added to the inventive method in which a description of the real-time AV content is formed from the text of the current web page loaded into the search engine. To do this, it is preferable in the search engine to pre-set an expandable and modifiable set of words and / or phrases that are descriptive with respect to real-time AV content, analyze the text of the current Web page to detect words and / or phrases from this set in it, and when their detection includes, at least in part, the text of the current Web page in the generated description of the real-time AV content.

Если описание не удовлетворяет заранее заданному критерию, который может соответствовать минимально приемлемому объему описания, в формируемое описание AV контента реального времени включают, по меньшей мере частично, текст из Web-страниц, которые были обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Для этого предпочтительно выполняют пошаговый просмотр Web-страниц, обработанных поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, включают, по меньшей мере частично, ее текст в формируемое описание AV контента реального времени. При этом количество обратных шагов по упомянутому пути предпочтительно ограничено заранее заданным максимальным количеством.If the description does not meet a predetermined criterion that may correspond to the minimum acceptable description volume, the text from Web pages that have been processed by the search engine prior to the current Web page and which contain Link to the current web page. To do this, it is preferable to step-by-step browse the Web pages processed by the search engine to the current Web page, in the reverse order relative to the page path by which the search engine reached the current Web page for links to the current Web page, and if in the viewed Web page, the presence of a link to the current Web page is detected, include, at least in part, its text in the generated description of real-time AV content. Moreover, the number of reverse steps along said path is preferably limited to a predetermined maximum number.

Сформированное описание сохраняют совместно с адресом текущей Web-страницы в базе данных из состава поисковой системы.The generated description is saved together with the address of the current Web page in the database from the search engine.

Если же сформированное описание AV контента реального времени не удовлетворяет заранее заданному критерию, в описание AV контента реального времени включают, по меньшей мере частично, текст из загружаемой в поисковую систему новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу. If the generated description of the real-time AV content does not satisfy a predetermined criterion, the text from the new or updated web page uploaded to the search engine if it contains a link to the current web page is included in the description of the real-time AV content .

Предлагаемая же компьютерно-реализуемая поисковая система модернизируется включением в ее состав модуля формирования описания, выполненного с возможностью формирования описания AV контента реального времени из текста текущей Web-страницы, и модуля анализа ссылок, выполненного с возможностью включать в описание AV контента реального времени, по меньшей мере частично, текст из Web-страниц, которые были обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Поисковая система дополнительно выполнена с возможностью включать в описание AV контента реального времени, по меньшей мере частично, текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.The proposed computer-implemented search system is being modernized by including in its composition a description generation module configured to generate a description of real-time AV content from the text of the current Web page, and a link analysis module configured to include at least an AV content description at least in part, text from Web pages that have been processed by the search engine prior to the current Web page and which contain a link to the current Web page. The search system is further configured to include in the description of the real-time AV content, at least in part, text from a new or updated web page being loaded, if it contains a link to the current web page.

Перечень чертежейList of drawings

Вышеуказанные и иные аспекты и преимущества настоящего изобретения раскрыты в нижеследующем описании предпочтительных вариантов его осуществления, приводимого со ссылками на чертежи, на которых The above and other aspects and advantages of the present invention are disclosed in the following description of preferred embodiments thereof, given with reference to the drawings, in which

Фиг.1 - схематическая иллюстрация структуры и работы поисковой системы согласно настоящему изобретению;Figure 1 is a schematic illustration of the structure and operation of a search engine according to the present invention;

Фиг.2а, 2б - иллюстрации работы механизма “обратных ссылок” согласно настоящему изобретению;Figa, 2b illustrate the operation of the mechanism of “backlinks” according to the present invention;

Фиг.3 - блок-схема последовательности операций предпочтительного варианта осуществления способа, реализуемого поисковой системой связи по Фиг.1, согласно настоящему изобретению.FIG. 3 is a flowchart of a preferred embodiment of a method implemented by the communication search system of FIG. 1 according to the present invention.

Описание предпочтительных вариантов осуществления изобретенияDescription of preferred embodiments of the invention

Вначале со ссылкой на Фиг.1 дается общее схематичное описание структуры и работы предлагаемой поисковой системы 100, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени.First, with reference to FIG. 1, a general schematic description is given of the structure and operation of the proposed search engine 100, designed to search the Internet for Web pages that broadcast real-time AV content.

Построение индекса Интернет-источников “живого” AV контента реального времени начинается с того, что модуль 101 загрузки Web-страниц обращается по Интернет-адресу (например, URL) к Web-странице и загружает ее. По сути функции модуля 101 загрузки аналогичны функциям вышеупомянутых поисковых роботов известных поисковых машин.The construction of the index of Internet sources of “live” real-time AV content begins with the fact that the module 101 download Web pages refers to the Internet address (for example, URL) to the Web page and loads it. In essence, the functions of the download module 101 are similar to the functions of the aforementioned search robots of known search engines.

Загруженная Web-страница передается в модуль 102 поиска признаков, функцией которого является анализ всего текстового содержимого файлов Web-страницы, включая ассоциированные с ней скрипт-файлы, с целью выявления в нем признаков, свидетельствующих о том, что в данной Web-странице имеется источник AV контента, трансляция которого происходит в масштабе реального времени (то есть постоянно, независимо от того, просматривается он пользователем в данный момент или нет).The loaded Web page is transmitted to the feature search module 102, the function of which is to analyze the entire text content of the files of the Web page, including the script files associated with it, in order to identify signs in it indicating that the source has a source AV content, the broadcast of which takes place in real time (that is, constantly, regardless of whether it is viewed by the user at the moment or not).

Перед тем как начать поиск, модуль 102 поиска признаков загружает из хранилища 103 известных признаков набор признаков, которые известны на данный момент. Данный набор признаков в хранилище 103 известных признаков может быть расширен в любое время новыми признаками, подтверждающими наличие на Web-странице источника AV контента реального времени, по мере их появления. Также из данного набора могут по необходимости исключаться признаки, утратившие актуальность.Before starting the search, the feature search module 102 loads from the store of known features 103 a set of features that are currently known. This set of features in the repository 103 of known features can be expanded at any time with new features confirming the availability of real-time content on the AV web page source as they appear. Also, signs that have lost relevance may be excluded from this set, if necessary.

То, каким образом согласно настоящему изобретению модуль 102 поиска признаков осуществляет поиск признаков AV контента реального времени в загруженной Web-странице с использованием набора известных признаков, описано более подробно ниже.The manner in which, according to the present invention, the feature search module 102 searches for features of real-time AV content in a loaded Web page using a set of known features is described in more detail below.

Если модуль 102 поиска признаков обнаружит по меньшей мере один признак, подтверждающий наличие на Web-странице источника(ов) “живого” AV контента, адрес этой Web-страницы сохраняется в базе 104 данных, а выявленные признаки могут быть сохранены в служебных целях (например, для статистического анализа) в необязательно присутствующем хранилище 105 найденных признаков, после чего исследуемая Web-страница передается в модуль 106 формирования описания для полного анализа ее текста.If the feature search module 102 detects at least one feature that confirms that the source (s) of “live” AV content are on the Web page, the address of this Web page is stored in the database 104, and the identified features can be stored for business purposes (e.g. , for statistical analysis) in the optionally present repository 105 of the found features, after which the investigated web page is transferred to the description generation module 106 for a complete analysis of its text.

Модуль 106 формирования описания извлекает из Web-страницы весь текст, предназначенный для просмотра пользователем, анализирует его любым известным образом на предмет наличия значимых слов и/или словосочетаний из заранее заданного их набора, загруженного из хранилища 107 известных слов и словосочетаний, и при их обнаружении включает, по меньшей мере частично, данный текст в формируемое описание AV контента реального времени. Упомянутый набор, аналогичным образом, может быть расширен новыми словами и словосочетаниями, являющимися описательными по отношению к AV контенту реального времени, в любой момент времени. Все обнаруженные значимые слова и/или словосочетания в просматриваемой Web-странице могут быть сохранены в служебных целях в необязательно присутствующем хранилище 108 обработанного текста.The description generation module 106 extracts from the Web page all the text intended for viewing by the user, analyzes it in any known manner for the presence of significant words and / or phrases from a predetermined set of them loaded from the repository 107 of known words and phrases, and upon their detection includes, at least in part, this text in the generated description of the real-time AV content. The said set, likewise, can be expanded with new words and phrases that are descriptive with respect to real-time AV content, at any time. All detected significant words and / or phrases in the viewed Web page can be stored for official purposes in the optionally present repository 108 of processed text.

Если сформированное описание не удовлетворяет заранее заданному критерию (например, Web-страница, в которой были обнаружены признаки AV контента реального времени, не содержит в себе текст, либо, в общем, объем текста не удовлетворителен), то для формирования описания найденного “живого” AV контента дополнительно задействуется механизм “обратных ссылок”, отвечающий настоящему изобретению.If the generated description does not meet a predetermined criterion (for example, a web page in which signs of real-time AV content were detected does not contain text, or, in general, the volume of the text is not satisfactory), then to generate a description of the found “live” AV content is additionally activated by the mechanism of “backlinks” in accordance with the present invention.

Далее описывается суть механизма “Обратных ссылок”, а конкретные его примеры приведены ниже.The essence of the “Backlinks” mechanism is described below, and specific examples are given below.

Поисковая система 100 посредством своего модуля 101 загрузки Web-страниц возвращается на заранее заданное количество шагов по постраничному пути, которым поисковой системой была достигнута рассматриваемая в текущий момент Web-страница, в которой был обнаружен источник(и) AV контента реального времени. На каждом обратном шаге (шагами являются адреса прежде обработанных Web-страниц) загруженная Web-страница передается в модуль 109 анализа ссылок, который ищет в ней ссылку на упомянутую рассматриваемую Web-страницу. Если такая ссылка найдена и текст на загруженной Web-странице удовлетворяет предопределенному критерию, то данная загруженная Web-страница будет передана в модуль 110 формирования описания по обратным ссылкам. Текст страницы, обработанный модулем 110 формирования описания по обратным ссылкам, будет использоваться, по меньшей мере частично, в описании AV контента реального времени, вещание которого осуществляется на вышеуказанной рассматриваемой Web-странице.The search engine 100, through its Web page loading module 101, returns to a predetermined number of steps along the page path by which the search engine has reached the currently viewed Web page in which the source (s) of real-time AV content has been detected. At each reverse step (the steps are the addresses of previously processed web pages), the loaded web page is transferred to the link analysis module 109, which searches for a link to the mentioned web page in question. If such a link is found and the text on the loaded Web page meets the predetermined criterion, then this loaded Web page will be transmitted to the module 110 for generating a description via the backlinks. The page text processed by the backlink description generating unit 110 will be used, at least in part, in the description of the real-time AV content broadcast on the above-considered web page.

Следует отметить, что, согласно варианту осуществления, функциональные возможности модуля 110 формирования описания по обратным ссылкам могут быть осуществлены модулем 109 анализа ссылок, т.е. модули 109 и 110 могут быть реализованы в виде единого модуля.It should be noted that, according to an embodiment, the functionality of the backlink description generating unit 110 can be implemented by the link analysis module 109, i.e. modules 109 and 110 may be implemented as a single module.

Если и в результате применения механизма “Обратных ссылок” сформированное описание AV контента реального времени не будет удовлетворять заранее заданному критерию, то при осуществляемом вышеуказанным образом сканировании Интернета поисковая система акцентирует свое внимание не только на поиске новых (еще не найденных) источников AV контента реального времени, но также и на поиске ссылки на уже выявленный ею источник, для которого описание все еще не отвечает заранее заданному критерию. В случае, если будет обнаружена Web-страница со ссылкой на уже найденный источник “живого” AV контента, но для которого еще нет надлежащего описания, тогда, возможно, переработанный текст данной страницы будет использоваться, по меньшей мере частично, для построения описания этого “живого” AV контента.If, as a result of applying the “Backlinks” mechanism, the generated description of real-time AV content will not satisfy a predetermined criterion, while scanning the Internet in the above way, the search system focuses not only on the search for new (not yet found) sources of real-time AV content , but also searching for a link to a source she has already identified for which the description still does not meet a predetermined criterion. If a Web page with a link to an already found source of “live” AV content is found, but for which there is no proper description yet, then perhaps the processed text of this page will be used, at least partially, to build a description of this “ live ”AV content.

Данная функция по мониторингу ссылки может быть, например, делегирована модулю 109 анализа ссылок из состава поисковой системы 100.This link monitoring function may, for example, be delegated to link analysis module 109 of the search engine 100.

Как следует из вышесказанного, описание, в общем, может строиться не единовременно, разными модулями поисковой системы 100 и из текстов разных Web-страниц. При этом то, как именно им выбирается текст из Web-страниц для формирования описания и как конкретно формируется описание, не является принципиальным для настоящего изобретения и, в основном, известно из уровня техники. Например, выбранные для формирования описания порции текста Web-страниц могут комбинироваться известным образом (например, простым слиянием, либо с по меньшей мере частичным замещением), а определяющим фактором, по которому прекращается формирование описания, является то, удовлетворяет ли оно некоему заранее заданному критерию (например, достаточен ли его объем). При этом на различных стадиях формирования описания может известным образом применяться различного рода буферизация его сформированных фрагментов.As follows from the above, the description, in general, can be built not simultaneously, by different modules of the search engine 100 and from the texts of different Web pages. At the same time, how exactly he selects text from Web pages to form a description and how specifically a description is formed is not fundamental for the present invention and, basically, is known from the prior art. For example, portions of the text of Web pages selected to form a description can be combined in a known manner (for example, by simple merging, or with at least partial substitution), and the determining factor by which the description is stopped is whether it satisfies some predetermined criterion (e.g. if its volume is sufficient). Moreover, at various stages of the description formation, various buffering of its formed fragments can be applied in a known manner.

Описание “живого” AV контента, вне зависимости от того, как оно было сформировано, переносится в базу 104 данных поисковой системы 100, где оно сохраняется в ассоциативной связи с адресом Web-страницы, на которой был выявлен источник этого “живого” AV контента. Кроме того, в базе данных могут быть сохранены признаки “живого” AV контента и другая служебная (например, статистическая) информация. The description of the “live” AV content, regardless of how it was generated, is transferred to the database 104 of the search engine 100, where it is stored in associative connection with the address of the Web page on which the source of this “live” AV content was identified. In addition, signs of “live” AV content and other service (eg, statistical) information can be stored in the database.

Модуль 111 формирования страницы поиска формирует поисковую Web-страницу, которая, по сути, является интерфейсом к поисковой системе 100 и к которой любой пользователь может обратиться посредством браузера, работающего на его (клиентском) компьютере/терминале, для поиска требующихся источников AV контента реального времени. Пользователь стандартным образом задает на этой поисковой Web-странице поисковый запрос, который передается на модуль 112 обработки пользовательского запроса и обрабатывается им. На основе представленного поискового запроса модуль 112 обработки пользовательского запроса опрашивает базу 104 данных с целью нахождения в ней Web-страниц, соответствующих этому запросу, предпочтительно с учетом сохраненных в базе 104 данных описаний. В результате модуль 111 формирования страницы поиска отобразит пользователю Web-страницу с результатами поиска, на которой будут перечислены в той или иной форме Web-страницы с AV контентом реального времени, отвечающим запросу. На данной странице пользователю будет предоставлена возможность быстрого доступа к описаниям AV контента реального времени.The search page forming module 111 generates a search Web page, which, in essence, is an interface to the search system 100 and which any user can access through a browser running on his (client) computer / terminal to search for the required real-time AV content sources . The user in a standard manner sets a search query on this search Web page, which is transmitted to and processed by the user request processing unit 112. Based on the submitted search query, the user query processing module 112 polls the database 104 for the purpose of finding Web pages corresponding thereto, preferably taking into account the descriptions stored in the database 104. As a result, the search page forming module 111 will display to the user a web page with the search results, on which web pages with real-time AV content corresponding to the request will be listed in one form or another. On this page, the user will be given the opportunity to quickly access real-time AV content descriptions.

Далее приводится изложение того, как конкретно поисковой системой 100 (а именно модулем 102 поиска признаков из ее состава) осуществляется поиск признаков, свидетельствующих о наличии на Web-странице вещания AV контента реального времени.The following is a summary of how the search engine 100 (namely, the module 102 of searching for attributes from its structure) searches for signs indicative of the presence of real-time AV content on the broadcast webpage.

Данный поиск является двухстадийным. Сначала поисковой системой осуществляется, путем разбора текстового содержимого файлов анализируемой Web-страницы, поиск по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента подобного рода, из набора известных системе признаков. Иными словами, на первой стадии поисковая система ориентирована на поиск мультимедийного плейера или иных средств/технологий, обеспечивающих возможность воспроизводить мультимедийный контент. Например, подобными средствами могут служить такие плейеры как Windows Media Player, Real Player, Quick Time, а также такие технологии как Java Applet, потоковое воспроизведение картинок средствами технологии CGI и т.д. Также существует множество средств воспроизведения контента реального времени без участия вышеперечисленных механизмов воспроизведения, но которые также являются приоритетными для работы поисковой системы.This search is two-stage. First, the search system, by parsing the text content of the files of the analyzed Web page, searches for at least one feature pointing to a means or technology for reproducing AV content of this kind from a set of features known to the system. In other words, at the first stage, the search system is focused on the search for a multimedia player or other tools / technologies that provide the ability to play multimedia content. For example, such tools can be such players as Windows Media Player, Real Player, Quick Time, as well as technologies such as the Java Applet, streaming images using CGI technology, etc. There are also many means of reproducing real-time content without the participation of the above playback mechanisms, but which are also priority for the search engine.

После того как поисковой системой в Web-странице будут выявлены признаки, служащие показателем средства/технологии воспроизведения AV контента, на второй стадии поисковая система анализирует выявленное средство/технологию с тем, чтобы выяснить, AV контент какого характера воспроизводится данным средством/технологией, а именно AV контент реального времени или нет (т.е. предварительно записанный). Для этого поисковой системой используются заранее известные ей признаки, подтверждающие или указывающие на то, что воспроизводимые данные являются именно AV контентом реального времени. Под признаками в данном случае понимается символ или набор символов в любом месте тела Web-страницы и/или ассоциированных с ней файлах (например, в файлах JavaScript).After the search engine identifies features serving as an indicator of the means / technology for reproducing AV content in a web page, in the second stage, the search system analyzes the revealed means / technology in order to find out what kind of AV content is played by this means / technology, namely Real-time AV content or not (i.e. pre-recorded). To do this, the search engine uses signs previously known to it, confirming or indicating that the reproduced data is exactly the real-time AV content. In this case, signs are understood to mean a symbol or a set of symbols anywhere in the body of a Web page and / or its associated files (for example, in JavaScript files).

Вышеприведенным изложением определяется одно из отличий настоящего изобретения от известных поисковых машин, в которых анализируется все или определенные места текста Web-страницы, предназначенного для просмотра конечным пользователем.The foregoing description defines one of the differences of the present invention from known search engines, which analyze all or certain places in the text of a Web page intended for viewing by an end user.

Ниже приведен ряд конкретных примеров, иллюстрирующих поиск признаков согласно изобретению.The following are a number of specific examples illustrating the search for features according to the invention.

Пример 1.Example 1

<object width="384" height="288" classid="clsid:22d6f312-b0f6-11d0-94ab-0080c74c7e95" standby="loading windows media player components..." type="application/x-oleobject" <object width = "384" height = "288" classid = "clsid: 22d6f312-b0f6-11d0-94ab-0080c74c7e95" standby = "loading windows media player components ..." type = "application / x-oleobject"

codebase="http://activex.microsoft.com/activex/controls/mplayer/en/codebase = "http://activex.microsoft.com/activex/controls/mplayer/en/

nsmp2inf.cab#version=6,4,7,1112"> nsmp2inf.cab # version = 6,4,7,1112 ">

<param name="autostart" value="true"> <param name = "autostart" value = "true">

<param name="filename" value="http://www.sundiegolive.com/asx/pl1-cnssdtx-h559fseeqgiio.asx"> <param name = "filename" value = "http://www.sundiegolive.com/asx/pl1-cnssdtx-h559fseeqgiio.asx">

</object></object>

Поисковой системой при разборе Web-страницы обнаружен объект (object), встроенный в ее тело. Первым делом определяется, относится ли встроенный объект к средствам или технологиям воспроизведения мультимедийного контента. Поисковая система определяет, что встроенный объект является приложением Windows Media Player (WMP). Она делает данное заключение на основании трех обнаруженных известных ей признаков (данные признаки выделены выше курсивом):When parsing a Web page, the search engine detected an object embedded in its body. The first step is to determine whether the embedded object belongs to the means or technologies for reproducing multimedia content. The search engine determines that the embedded object is a Windows Media Player (WMP) application. She makes this conclusion on the basis of the three signs she knows are found (these signs are highlighted in italics above):

1. Атрибут standby явно говорит, что загружается WMP; 1. The standby attribute explicitly says that WMP is loading;

2. Атрибут type указывает нам на то, что проходящие через этот объект данные являются мультимедийными;2. The type attribute tells us that the data passing through this object is multimedia;

3. Атрибут codebase указывает на загрузку программы WMP, в случае если она отсутствует.3. The codebase attribute indicates the load of the WMP program, if it is missing.

Учитывая совокупность трех обнаруженных признаков, поисковая система делает заключение о том, что объект, обнаруженный в теле Web-страницы, является WMP и предназначен для воспроизведения мультимедийного контента. Given the combination of the three detected features, the search engine concludes that the object found in the body of the Web page is WMP and is designed to play multimedia content.

Дальнейшим действием поисковой системы является определение того, воспроизводятся ли данные в реальном времени или нет. Она находит параметр объекта, в котором присутствует ссылка на данные - в приведенном примере это ссылка на ASX-файл (выделена полужирным шрифтом). Поскольку ASX-формат определяет метафайл, ASX-файл открывается для анализа. A further action of the search engine is to determine whether the data is reproduced in real time or not. She finds the parameter of the object in which there is a link to the data - in the above example, this is a link to the ASX file (shown in bold). Because the ASX format defines the metafile, the ASX file is opened for analysis.

<ASX version="3"><ASX version = "3">

<Entry><Entry>

<TITLE>Live from San Diego, California!</TITLE><TITLE> Live from San Diego, California! </TITLE>

<AUTHOR>SunDiegoLive.com</AUTHOR><AUTHOR> SunDiegoLive.com </AUTHOR>

<COPYRIGHT>(C)2006 CommercialNetworkServices.com</COPYRIGHT><COPYRIGHT> (C) 2006 CommercialNetworkServices.com </COPYRIGHT>

<MoreInfo href = "http://www.SunDiegoLive.com/"></MoreInfo><MoreInfo href = "http://www.SunDiegoLive.com/"> </MoreInfo>

<PARAM name="HTMLView" value="http://www.sundiegolive.com/WM9Default.asp"/><PARAM name = "HTMLView" value = "http://www.sundiegolive.com/WM9Default.asp" />

<ref HREF="mms://wms.commercialnetworkservices.net/pl1-sundiegolive-AFJpdW" /><ref HREF = "mms: //wms.commercialnetworkservices.net/pl1-sundiegolive-AFJpdW" />

<Abstract>A live view of down town San Diego and the bay from Point Loma. Presented in stereo by Commercial Network Services of San Diego, California.</Abstract><Abstract> A live view of down town San Diego and the bay from Point Loma. Presented in stereo by Commercial Network Services of San Diego, California. </Abstract>

<Duration value = "01:00:00" /><Duration value = "01:00:00" />

<Logo href = "http://banners.commercial-illusions.com/cnsmswatermark.gif" Style = "MARK" /><Logo href = "http://banners.commercial-illusions.com/cnsmswatermark.gif" Style = "MARK" />

</Entry></Entry>

</ASX></ASX>

В анализируемом ASX-файле обнаружен поток данных, воспроизводимый по mms-протоколу (выделено выше полужирным шрифтом), и этот признак явно указывает на то, что данные воспроизводятся в реальном времени. A data stream reproduced by the mms protocol (highlighted in bold above) was detected in the analyzed ASX file, and this symptom clearly indicates that the data is being reproduced in real time.

На основании проведенного анализа поисковая система пометит данный ресурс как источник AV контента реального времени.Based on the analysis, the search engine will mark this resource as a source of real-time AV content.

В Примере показано, что существуют признаки, достаточно явно указывающие на то, что воспроизводимые данные являются AV контентом реального времени. К таким признакам, например, можно отнести вещательный протокол mms, протокол реального времени rtsp и т.п.The Example shows that there are signs that clearly indicate that the reproduced data is real-time AV content. Such signs, for example, include the mms broadcast protocol, the rtsp real-time protocol, etc.

Поскольку воспроизведение мультимедийного контента реального времени в Интернете осуществляется не только посредством объектов, встроенных в тело Web-страницы, целесообразно будет рассмотреть и другие примеры.Since the playback of real-time multimedia content on the Internet is carried out not only by means of objects embedded in the body of a Web page, it would be advisable to consider other examples.

Пример 2.Example 2

Предположим, что поисковой системой в Интернете обнаружена ссылка на ресурсSuppose a search engine on the Internet has found a link to a resource

http://ots.bne.jp/ViewerFrame?Mode=Motion&Resolution=640x480&Quality=Standard&Interval=30&Size=STD&PresetOperation=Move&Language=2" \t "_blankhttp://ots.bne.jp/ViewerFrame?Mode=Motion&Resolution=640x480&Quality=Standard&Interval=30&Size=STD&PresetOperation=Move&Language=2 "\ t" _blank

илиor

http://60.45.63.26/ViewerFrame?Mode=Refresh&Language=1http://60.45.63.26/ViewerFrame?Mode=Refresh&Language=1

Поскольку поисковой системе известно, что если в теле ссылки присутствует набор символов (признак) “ViewerFrame” (выделено курсивом выше), то это свидетельствует о том, что данная ссылка указывает на Web-камеру. При переходе по ссылке с таким признаком в заголовке Web-страницы обнаруживается наличие набора символов (признака) “Network Camera”, что свидетельствует о том, что на данной странице Web-камерой транслируются данные в режиме реального времени. Since the search engine knows that if the link body contains a set of characters (attribute) “ViewerFrame” (in italics above), this indicates that this link points to a Web camera. When you click on the link with this sign in the header of the Web page, the presence of the “Network Camera” character set (sign) is detected, which indicates that real-time data is broadcast on this page by the Web camera.

Пример 3.Example 3

В теле JavaScript скрипт-файла Web-страницы поисковая система находит блок текстаIn the body of the JavaScript script file of the web page, the search engine finds a block of text

document.write("<OBJECT ID=\"AxisCamControl\" CLASSID=\"CLSID:917623D1-D8E5-11D2-BE8B-00104B06BDE3\" WIDTH=\"640\" HEIGHT=\"480\" CODEBASE=\"/activex/AxisCamControl.cab#Version=1,0,2,15\">");document.write ("<OBJECT ID = \" AxisCamControl \ "CLASSID = \" CLSID: 917623D1-D8E5-11D2-BE8B-00104B06BDE3 \ "WIDTH = \" 640 \ "HEIGHT = \" 480 \ "CODEBASE = \" / activex / AxisCamControl.cab # Version = 1,0,2,15 \ ">");

document.write("<PARAM NAME=DisplaySoundPanel VALUE=0>");document.write ("<PARAM NAME = DisplaySoundPanel VALUE = 0>");

document.write("<PARAM NAME=URL VALUE=\"/axis-cgi/mjpg/video.cgi?camera=&resolution=640x480\">");document.write ("<PARAM NAME = URL VALUE = \" / axis-cgi / mjpg / video.cgi? camera = & resolution = 640x480 \ ">");

document.write("</OBJECT>");document.write ("</OBJECT>");

в котором есть следующие признаки, подтверждающие, в совокупности, что на данной Web-странице осуществляется вещание AV контента реального времени:in which there are the following signs, confirming, in aggregate, that real-time AV content is broadcast on this Web page:

1. Упоминание о AxisCamControl (выше выделено курсивом);1. Mention of AxisCamControl (above in italics);

2. Прямая ссылка на загрузку компонента AxisCamControl (выше выделено курсивом).2. Direct link to download the AxisCamControl component (above in italics).

3. Набор символов “axis-cgi/mjpg” в ссылке воспроизводимых данных (выше выделено полужирным шрифтом).3. The character set “axis-cgi / mjpg” in the link of the reproduced data (shown in bold above).

Далее со ссылкой на Фиг. 2а, 2б приводятся рабочие примеры механизма “обратных ссылок” согласно настоящему изобретению, реализуемого вышеуказанными модулями из состава поисковой системой 100 по Фиг.1.Next, with reference to FIG. 2a, 2b are working examples of the backlink mechanism according to the present invention implemented by the above modules from the search engine 100 of FIG. 1.

Пример 1. Пусть поисковая система двигалась путем, указанным на Фиг.2а, где последовательность переходов указана номером ссылки, и обнаружила при этом, что по адресу http://Reference_9.com осуществляется вещание “живого” AV контента, но на данной странице нет текста, предназначенного для просмотра пользователем, или он не удовлетворяет предопределенному критерию, что не позволяет построить на основе этого текста надлежащее описание для найденного “живого” AV контента.Example 1. Let the search engine move along the path indicated in Fig. 2a, where the sequence of transitions is indicated by the link number, and find out that the “live” AV content is being broadcast to the address http://Reference_9.com, but this page is not text intended for viewing by the user, or he does not meet a predetermined criterion, which does not allow to build on the basis of this text a proper description for the found “live” AV content.

В таком случае поисковая система возвращается на шаг назад, то есть переходит на страницу с адресом http://Reference_8.com. На этой странице ищется ссылка на http://Reference_9.com, и если такая ссылка будет обнаружена (пусть в данном случае она обнаружена), тогда переработанный текст Web-страницы с адресом http://Reference_8.com будет использоваться, по меньшей мере частично, в описании “живого” AV контента, обнаруженного по адресу http://Reference_9.com.In this case, the search engine goes back a step, that is, it goes to the page with the address http://Reference_8.com. A link to http://Reference_9.com is searched on this page, and if such a link is found (even if it is found in this case), then the processed text of the Web page with the address http://Reference_8.com will be used, at least in part, in the description of the “live” AV content found at http://Reference_9.com.

Возможна ситуация, что описание, сформированное тем или иным образом после обработки Web-страницы с адресом http://Reference_8.com, станет более адекватным, но по-прежнему не будет удовлетворять заранее заданному критерию - например, его объем все равно остается недостаточным, чтобы данное описание могло быть сочтено надлежащим полноценным описанием. Тогда, согласно вышесказанному, поисковая система продолжит работать в обычном режиме, осуществляя сканирование Интернета на предмет новых источников AV контента реального времени, но при этом еще и просматривая новые Web-страницы (то есть еще не просмотренные поисковой системой или модифицированные владельцами с момента последнего просмотра поисковой системой) на предмет обнаружения ссылки со на http://Reference_9.com. При обнаружении таковой ссылки в новой Web-странице переработанный текст данной страницы будет использоваться, по меньшей мере частично, в описании AV контента реального времени, выявленного по адресу http://Reference_9.com. Данный текст предпочтительно не будет заменять описание, уже имеющееся для http://Reference_9.com, а будет его расширять или дополнять.It is possible that the description generated in one way or another after processing the Web page with the address http://Reference_8.com will become more adequate, but will still not satisfy the predefined criteria - for example, its volume still remains insufficient, so that this description can be considered an appropriate, complete description. Then, according to the above, the search system will continue to work as usual, scanning the Internet for new sources of real-time AV content, but also browsing for new Web pages (that is, not yet viewed by the search engine or modified by the owners since the last time they were viewed) search engine) for links from http://Reference_9.com. If such a link is found in a new Web page, the processed text of this page will be used, at least in part, in the description of the real-time AV content identified at http://Reference_9.com. This text preferably will not replace the description already available for http://Reference_9.com, but will expand or supplement it.

Такой процесс постепенного формирования описания будет осуществляться до тех пор, пока оно не будет удовлетворять заранее заданному критерию - в частности, пока не будет достаточен его объем.Such a process of gradual formation of a description will be carried out until it satisfies a predetermined criterion - in particular, until its volume is sufficient.

Пример 2. Пусть поисковая система двигалась путем, указанным на Фиг.2б. Поисковая система начала пусть с адреса http://Reference_1.com, и на восьмом шаге http://Reference_8.com она обнаружила AV контент реального времени. Хотя на страницу http://Reference_8.com была ссылка с первой страницы (http://Reference_1.com), поисковая система по ней не прошла и вышла на источник через http://Reference_7.com. В таком случае по раннее описанному принципу переработанный текст Web-страницы с адресом http://Reference_7.com будет использоваться, по меньшей мере частично, в описании для источника “живого” AV контента по адресу http://Reference_1.com.Example 2. Let the search engine move along the path indicated in Fig.2b. The search engine started at the address http://Reference_1.com, and in the eighth step http://Reference_8.com, it detected real-time AV content. Although there was a link to the page http://Reference_8.com from the first page (http://Reference_1.com), the search engine did not go through it and reached the source through http://Reference_7.com. In this case, according to the earlier described principle, the processed text of the Web page with the address http://Reference_7.com will be used, at least partially, in the description for the source of “live” AV content at http://Reference_1.com.

В дополнение поисковая система вернется до первой страницы в обратной последовательности (то есть сначала на страницу 7 потом 6 и т.д., пока не дойдет до первой). Обнаружив на первой странице ссылку на http://Reference_1.com, текст этой первой Web-страницы будет переработан и добавлен, по меньшей мере частично, к уже имеющемуся описанию “живого” AV контента, выявленного по адресу http://Reference_1.com.In addition, the search engine will return to the first page in the reverse order (that is, first to page 7 then 6, etc., until it reaches the first). Having found the link to http://Reference_1.com on the first page, the text of this first Web page will be processed and added, at least in part, to the existing description of the “live” AV content detected at http://Reference_1.com .

Глубина обратного возвращения (движение по ссылкам пройденного пути, то есть в последовательности 7, 6, 5, 4, 3, 2 и, наконец, 1), определяется предустановленным критерием, предположим для данного примера максимальное количество обратных шагов было установлено равным десяти. Соответственно поисковая система дойдет до http://Reference_1.com и, переработав текст данной Web-страницы, добавит его, полностью или частично, к уже имеющемуся описанию.The depth of the return return (movement on the links of the path traveled, that is, in the sequence 7, 6, 5, 4, 3, 2 and, finally, 1), is determined by a predefined criterion, suppose for this example the maximum number of reverse steps was set to ten. Accordingly, the search engine will reach http://Reference_1.com and, having processed the text of this Web page, will add it, in whole or in part, to the existing description.

Дальше функционирование осуществляется аналогично Примеру 1, то есть формирование описания будет продолжаться до тех пор, пока не будет удовлетворен заранее заданный критерий.Further, the operation is carried out similarly to Example 1, that is, the formation of the description will continue until a predetermined criterion is satisfied.

Следует отметить, что конкретная реализация как самой поисковой системы согласно настоящему изобретению, так и отдельных ее компонентов, должна быть очевидна специалисту из уровня техники. В частности, предлагаемая система может быть воплощена на одном или более серверных компьютерах, объединенных для совместной реализации предписанной функциональности, при этом вышеуказанные ее модули могут быть известным образом реализованы программными и аппаратными составляющими этих серверных компьютеров, известными специалистам и широко применяемыми в технике. В частности, вышеуказанные хранилища и базы данных могут быть реализованы на одном или более широкоизвестных машиночитаемых носителях, таких как накопители на жестких дисках, RAID-массивы, твердотельная память и т.п. Поисковая система может быть подключена и может взаимодействовать с Интернетом и пользовательским оборудованием на основе широкоизвестных проводных и/или беспроводных сетевых технологий и оборудования, в частности на основе стека протоколов http/tcp/ip. Для взаимодействия с поисковой системой пользователь может использовать любое известное терминальное оборудование, поддерживающее возможность обращения к Web-страницам через Интернет (например, через исполняющийся на этом оборудовании Web-браузер). Таковым оборудованием может быть, например, соответствующим образом сконфигурированный персональный/переносной/наладонный компьютер, мобильный терминал и т.п.It should be noted that the specific implementation of both the search engine according to the present invention and its individual components should be obvious to a person skilled in the art. In particular, the proposed system can be implemented on one or more server computers, combined to jointly implement the prescribed functionality, while the above modules can be implemented in a known manner by the software and hardware components of these server computers, known to those skilled in the art and widely used in technology. In particular, the above storages and databases can be implemented on one or more well-known computer-readable media such as hard disk drives, RAID arrays, solid state memory, etc. The search system can be connected and can interact with the Internet and user equipment based on well-known wired and / or wireless network technologies and equipment, in particular based on the http / tcp / ip protocol stack. To interact with the search system, the user can use any known terminal equipment that supports the ability to access Web pages via the Internet (for example, through a web browser running on this equipment). Such equipment may be, for example, a suitably configured personal / laptop / handheld computer, a mobile terminal, etc.

Далее, со ссылкой на Фиг.3, приводится блок-схема последовательности операций предпочтительного варианта осуществления способа 300, реализуемого поисковой системой связи 100, согласно настоящему изобретению.Next, with reference to FIG. 3, a flowchart of a preferred embodiment of a method 300 implemented by a communication search engine 100 according to the present invention is provided.

На предварительном этапе 301 в поисковой системе 100 задают расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, а также максимальное количество обратных шагов для “механизма обратных ссылок”. Указанные наборы сохраняются в соответствующих хранилищах 103, 107.At a preliminary step 301, an expandable and modifiable set of signs for the presence of real-time AV content on web pages of broadcasting web pages, an expandable and modifiable set of words and / or phrases that are descriptive with respect to real-time AV content, and a maximum number of reverse steps for the “backlink mechanism”. These kits are stored in the respective storages 103, 107.

На этапе 302 модуль 101 загрузки Web-страниц загружает в поисковую систему 100 Web-страницу, которая ранее не была исследована поисковой системой или претерпела изменения с момента ее исследования поисковой системой.At step 302, the web page loading module 101 loads into the search engine 100 a web page that has not been previously examined by the search system or has undergone changes since it was examined by the search system.

На этапе 303 модуль 102 поиска признаков осуществляет анализ текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на ней вещания AV контента реального времени, из упомянутого их набора. При этом, как отмечено ранее, модуль 102 поиска признаков осуществляет данный анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени. At step 303, the feature search module 102 analyzes the currently loaded Web page for the presence of features indicative of the presence of real-time AV content broadcasting therefrom from said set thereof. In this case, as noted earlier, the feature search module 102 performs this analysis by parsing the text content of the files of the Web page first to detect at least one feature indicative of the means or technology for reproducing the AV content, and then, upon successful detection, for the presence in it of at least one feature indicating that the reproduced AV content is exactly the real-time AV content.

Если на этапе 303 модуль 102 поиска признаков выявил такие признаки в текущей Web-странице, то поисковая система 100 переходит на этап 304, в противном случае - возвращается на этап 302.If, at step 303, the feature search module 102 has detected such features in the current Web page, then the search engine 100 proceeds to step 304, otherwise, returns to step 302.

Далее, на этапе 304 модуль 106 формирования описания формирует описание выявленного AV контента реального времени из текста текущей Web-страницы. Для этого модуль 106 формирования описания выполняет анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включает, по меньшей мере частично, текст текущей Web-страницы в формируемое описание.Next, at step 304, the description generating unit 106 generates a description of the detected real-time AV content from the text of the current Web page. To this end, the description generation module 106 analyzes the text of the current Web page to detect words and / or phrases from said set in it, and when they are detected, includes, at least in part, the text of the current Web page in the generated description.

Если описание, сформированное на этапе 304, не удовлетворяет заранее заданному критерию, например его объем не соответствует минимально приемлемому объему, поисковая система 100 переходит на этап 305, в противном случае - на этап 306.If the description generated in step 304 does not satisfy a predetermined criterion, for example, its volume does not correspond to the minimum acceptable volume, the search system 100 proceeds to step 305, otherwise, to step 306.

На этапе 305 в формируемое описание AV контента реального времени модуль 109 анализа ссылок включает, по меньшей мере частично, текст из Web-страниц, которые обработаны поисковой системой 100 до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Для этого, как отмечено ранее, модуль 109 анализа ссылок пошагово, с учетом предустановленного ограничения, просматривает Web-страницы, обработанные поисковой системой 100 до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой 100 была достигнута текущая страница, на предмет наличия в них ссылки на текущую Web-страницу. Если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, модуль 109 анализа ссылок (или, как вариант, модуль 110 формирования описания по обратным ссылкам) включает, по меньшей мере частично, ее текст в формируемое описание AV контента реального времени.At step 305, the link analysis module 109 includes, at least in part, the text from the Web pages that have been processed by the search engine 100 to the current Web page and which contain a link to the current Web page, in the generated real-time AV content description. For this, as noted earlier, the link analysis module 109 step by step, taking into account a predefined restriction, scans the Web pages processed by the search engine 100 to the current Web page, in the reverse order relative to the page path by which the current page was reached by the search system 100, the subject of the link to the current Web page. If a web page being viewed has a link to the current Web page, the link analysis module 109 (or, alternatively, the backlink description generation module 110) includes, at least in part, its text in the generated real-time AV content description.

На этапе 306 поисковая система 100 сохраняет сформированное описание совместно с, по меньшей мере, адресом текущей Web-страницы в базе 104 данных.At step 306, the search engine 100 stores the generated description together with at least the address of the current Web page in the database 104.

Если описание, сформированное на этапах 304, 305, вновь не удовлетворяет заранее заданному критерию, поисковая система 100 возвращается на этап 302 (на Фиг.3 показано пунктирной стрелкой), на котором модуль 109 анализа ссылок включает в описание выявленного AV контента реального времени, по меньшей мере частично, текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.If the description generated in steps 304, 305 again does not satisfy a predetermined criterion, the search engine 100 returns to step 302 (shown by a dashed arrow in FIG. 3), in which the link analysis module 109 includes in the description of the detected real-time AV content, at least in part, text from a downloadable new or updated Web page, if it contains a link to the current Web page.

На этапе 307 пользователь посредством браузера на своем компьютере обращается к поисковой системе 100 и осуществляет поиск требующегося “живого” AV контента по базе 104 данных с использованием сохраненных в ней описаний.At step 307, the user accesses the search engine 100 through a browser on his computer and searches for the required “live” AV content from the database 104 using the descriptions stored therein.

Для специалиста должно быть очевидно, что вышеприведенная последовательность операций не является строго детерминированной, в частности, некоторые из этапов (например, 307) могут выполняться параллельно с другими.For a specialist it should be obvious that the above sequence of operations is not strictly determined, in particular, some of the steps (for example, 307) can be performed in parallel with others.

Следует также отметить, что раскрытый выше аспект, связанный с формированием и сохранением описаний AV контента, является в высокой степени предпочтительным и выгодным в контексте настоящего изобретения, однако оно может быть реализовано и без задействования этого аспекта, по-прежнему обеспечивая вышеуказанные преимущества.It should also be noted that the above aspect related to the generation and storage of descriptions of AV content is highly preferred and advantageous in the context of the present invention, however, it can be implemented without invoking this aspect, while still providing the above advantages.

Изобретение было раскрыто выше со ссылкой на конкретные варианты его осуществления. Для специалистов могут быть очевидны и иные варианты осуществления изобретения, не меняющие его сущности, как она раскрыта в настоящем описании. Соответственно изобретение следует считать ограниченным по объему только нижеследующей формулой изобретения.The invention has been disclosed above with reference to specific options for its implementation. Other specialists may be obvious to other embodiments of the invention, without changing its essence, as it is disclosed in the present description. Accordingly, the invention should be considered limited in scope only by the following claims.

Claims (31)

1. Способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, содержащий этапы, на которых:
A. заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени;
B. осуществляют анализ загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора;
C. если такие признаки выявлены в Web-странице при анализе, сохраняют адрес данной Web-страницы в базе данных из состава поисковой системы, в противном случае переходят на этап D;
D. загружают новую Web-страницу и повторяют в отношении нее этапы В и С;
E. обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных,
при этом анализ по этапу В осуществляют посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.
1. A method for providing a user with a search capability in a computer-implemented search engine designed to search the Internet for Web pages that broadcast audio and / or video (AV) content in real time, comprising the steps of:
A. pre-set in the search engine an expandable and modifiable set of signs of the presence on the web pages of broadcasting AV real-time content;
B. analyze the downloaded Web page for signs of evidence of the presence of real-time AV content on the given web page from their set;
C. if such signs are detected in the Web page during analysis, they save the address of this Web page in a database from the search engine, otherwise they proceed to stage D;
D. Download a new Web page and repeat steps B and C with respect to it;
E. provide the user with a search engine the ability to search the database,
wherein the analysis of step B is carried out by parsing the text content of the files of the Web page first to detect at least one feature indicative of a means or technology for reproducing AV content, and then upon successful detection of at least one a sign indicating that the reproduced AV content is real-time AV content.
2. Способ по п.1, в котором признак представляет собой символ или набор символов.2. The method according to claim 1, in which the sign is a symbol or a set of characters. 3. Способ по п.2, в котором признак представляет собой элемент разметки Web-страницы.3. The method according to claim 2, in which the sign is a markup element of a Web page. 4. Способ по п.3, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.4. The method according to claim 3, in which the markup element of the Web page is a tag, parameter or attribute. 5. Способ по п.1, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.5. The method according to claim 1, in which the files of the Web page, in relation to the text contents of which are parsed, are files directly containing the text of the Web page and / or script files associated with this Web page and intended for processing it. 6. Компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом система включает в себя:
модуль поиска признаков, выполненный с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора;
базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени;
пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных;
при этом что модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.
6. A computer-implemented search system designed to search the Internet for Web pages that broadcast audio and / or video (AV) content in real time, and the search engine contains a predefined expandable and modifiable set of signs of presence on the Web pages of broadcasting AV content of real time, while the system includes:
a feature search module configured to analyze the loaded Web page for signs in it indicative of the presence of real-time AV content broadcasting on the given web page from their set;
a database adapted for storing the addresses of Web pages in which the presence of broadcasting of real-time AV content has been determined by the feature search module according to the analysis results;
user interface to enable the user to search the database;
wherein the feature search module performs the above analysis by parsing the text content of the files of the Web page first to detect at least one feature indicative of the means or technology for reproducing the AV content, and then upon successful detection of the presence of at least at least one sign indicating that the reproduced AV content is real-time AV content.
7. Система по п.6, дополнительно содержащая модуль загрузки Web-страниц, выполненный с возможностью загрузки в поисковую систему Web-страниц из Интернета.7. The system of claim 6, further comprising a module for downloading Web pages configured to download Web pages from the Internet to a search engine. 8. Система по п.6, в которой признак представляет собой символ или набор символов.8. The system according to claim 6, in which the sign is a symbol or a set of characters. 9. Система по п.8, в котором признак представляет собой элемент разметки Web-страницы.9. The system of claim 8, in which the sign is a markup element of a Web page. 10. Система по п.9, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.10. The system of claim 9, wherein the Web page markup element is a tag, parameter, or attribute. 11. Система по п.6, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.11. The system according to claim 6, in which the files of the Web page with respect to the text contents of which are parsed are files directly containing the text of the Web page and / or script files associated with this Web page and intended for processing it. 12. Модуль поиска признаков из состава компьютерно-реализуемой поисковой системы, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом модуль поиска признаков выполнен с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора, причем модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.12. Feature search module from a computer-implemented search system designed to search the Internet for Web pages that broadcast audio and / or video (AV) content in real time, and the search system contains a predetermined expandable and modifiable set there are signs of the presence of real-time AV content on the broadcast web pages, while the feature search module is capable of analyzing the loaded web page for signs in it indicating the presence of this W an e-page of broadcasting real-time AV content from said set thereof, the feature search module performing said analysis by parsing the text content of the files of the Web page first to detect at least one feature indicative of the means or technology for reproducing the AV content, and then upon successful detection of the presence of at least one feature indicating that the reproduced AV content is real-time AV content. 13. Способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, содержащий этапы, на которых:
А. заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени;
C. осуществляют анализ текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на текущей Web-странице вещания AV контента реального времени, из упомянутого их набора и, если такие признаки выявлены в текущей Web-странице, переходят на этап D, в противном случае переходят на этап G;
D. формируют описание AV контента реального времени из текста текущей Web-страницы и, если описание не удовлетворяет заранее заданному критерию, переходят на этап Е, в противном случае переходят на этап F;
E. в формируемое описание AV контента реального времени включают по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу;
F. сохраняют сформированное описание совместно с по меньшей мере адресом текущей Web-страницы в базе данных из состава поисковой системы;
G. загружают новую или обновленную Web-страницу и повторяют в отношении нее этапы C-F;
I. обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных с использованием сохраненных в ней описаний,
при этом анализ по этапу С осуществляют посредством разбора текстового содержимого файлов текущей Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени;
при этом, если описание AV контента реального времени, сформированное на этапах D и Е, не удовлетворяет заранее заданному критерию, на этапе G дополнительно в описание AV контента реального времени включают по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
13. A method for providing a user with a search capability in a computer-implemented search engine designed to search the Internet for Web pages that broadcast audio and / or video (AV) content in real time, comprising the steps of:
A. pre-set in the search engine an expandable and modifiable set of signs of the presence on the web pages of broadcasting AV real-time content;
C. analyze the currently loaded Web page for the presence of signs indicating the presence of real-time AV content on the current web page from the mentioned set and, if such signs are detected in the current web page, proceed to step D otherwise go to step G;
D. generate a description of the real-time AV content from the text of the current Web page and, if the description does not meet a predetermined criterion, go to step E, otherwise go to step F;
E. the generated description of real-time AV content includes at least partially text from web pages that have been processed by the search engine prior to the current web page and that contain a link to the current web page;
F. save the generated description together with at least the address of the current Web page in the database from the search engine;
G. Download a new or updated Web page and repeat the CF steps with respect to it;
I. provide the user with the search engine the ability to search the database using the descriptions stored in it,
wherein the analysis in step C is carried out by parsing the text content of the files of the current Web page first to detect at least one feature indicating the means or technology for reproducing the AV content, and then upon successful detection for the presence of at least one feature indicating that the reproduced AV content is real-time AV content;
if the description of the real-time AV content generated in steps D and E does not satisfy a predetermined criterion, in step G, in addition to the description of the real-time AV content, at least partially, text from a new or updated web page is loaded, if it contains a link to the current web page.
14. Способ по п.13, в котором признак представляет собой символ или набор символов.14. The method according to item 13, in which the sign is a symbol or a set of characters. 15. Способ по п.14, в котором признак представляет собой элемент разметки Web-страницы.15. The method according to 14, in which the sign is a markup element of a Web page. 16. Способ по п.15, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.16. The method according to clause 15, in which the markup element of the Web page is a tag, parameter or attribute. 17. Способ по п.13, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст текущей Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.17. The method according to item 13, in which the files of the Web page, in relation to the text content of which is parsed, are files directly containing the text of the current Web page, and / or script files associated with this Web page and intended for its processing. 18. Способ по п.13, в котором заранее заданный критерий соответствует минимально приемлемому объему описания.18. The method according to item 13, in which a predetermined criterion corresponds to the minimum acceptable amount of description. 19. Способ по п.13, дополнительно содержащий этап В, на котором заранее задают в поисковой системе расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, при этом при формировании описания по этапу D выполняют анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включают по меньшей мере частично текст текущей Web-страницы в формируемое описание AV контента реального времени.19. The method according to item 13, further comprising a step B, in which an expandable and modifiable set of words and / or phrases that are descriptive with respect to the real-time AV content is predetermined in the search engine, and when analyzing the description of step D, an analysis is performed the text of the current Web page to detect words and / or phrases from said set in it, and when they are detected, include at least partially the text of the current Web page in the generated description of the AV content in real time. 20. Способ по п.13, в котором на этапе Е пошагово просматривают Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницы, включают по меньшей мере частично ее текст в формируемое описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством.20. The method according to item 13, in which at the step E step by step view the Web pages processed by the search engine to the current Web page, in the reverse order relative to the page path by which the search engine reached the current Web page for their presence links to the current Web page, and if a link to the current Web page is found in the viewed Web page, include at least partially its text in the generated description of the real-time AV content, while the number of reverse steps along the mentioned path is limited a predetermined maximum number. 21. Компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом поисковая система включает в себя:
модуль поиска признаков, выполненный с возможностью анализа текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на текущей Web-странице вещания AV контента реального времени, из упомянутого их набора;
модуль формирования описания, выполненный с возможностью формирования описания AV контента реального времени из текста текущей Web-страницы;
модуль анализа ссылок, выполненный с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу;
базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени, и описаний AV контента реального времени;
пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных с использованием сохраненных в ней описаний;
при этом модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов текущей Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени; и
при этом поисковая система выполнена с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
21. A computer-implemented search system designed to search the Internet for Web pages that broadcast audio and / or video (AV) content in real time, and the search system contains a predefined expandable and modifiable set of signs of presence on the Web- pages broadcasting real-time AV content, while the search engine includes:
a feature search module configured to analyze the currently loaded Web page for the presence of features indicative of the presence of real-time AV content from the current set on the current Web page;
a description generating unit configured to generate real-time AV content descriptions from the text of the current Web page;
a link analysis module, configured to include in the description of the real-time AV content at least partially text from web pages that have been processed by the search engine prior to the current web page and which contain a link to the current web page;
a database adapted for storing the addresses of Web pages in which the search module for signs according to the analysis revealed the presence of broadcast AV content in real time, and descriptions of AV content in real time;
a user interface to enable the user to search the database using the descriptions stored in it;
wherein the feature search module performs the aforementioned analysis by parsing the text content of the files of the current Web page first to detect at least one feature indicative of the means or technology for reproducing the AV content, and then upon successful detection for the presence of at least at least one sign indicating that the reproduced AV content is real-time AV content; and
however, the search system is configured to include in the description of the real-time AV content at least partially text from a new or updated web page being loaded if it contains a link to the current web page.
22. Система по п.21, дополнительно содержащая модуль загрузки Web-страниц, выполненный с возможностью загрузки в поисковую систему Web-страниц из Интернета.22. The system of claim 21, further comprising a module for downloading Web pages configured to download Web pages from the Internet to a search engine. 23. Система по п.21, в которой признак представляет собой символ или набор символов.23. The system according to item 21, in which the sign is a symbol or set of characters. 24. Система по п.23, в котором признак представляет собой элемент разметки Web-страницы.24. The system of claim 23, wherein the feature is a Web page markup element. 25. Система по п.24, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.25. The system according to paragraph 24, in which the markup element of the Web page is a tag, parameter or attribute. 26. Система по п.25, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.26. The system of claim 25, wherein the web page files for which the text is parsed are files directly containing the text of the web page and / or script files associated with the web page and intended for processing it. 27. Система по п.21, в которой дополнительно содержится заранее заданный расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, при этом при формировании описания модуль формирования описания выполняет анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включает по меньшей мере частично текст текущей Web-страницы в формируемое описание AV контента реального времени.27. The system according to item 21, which further comprises a predetermined expandable and modifiable set of words and / or phrases that are descriptive with respect to real-time AV content, while when generating a description, the description generating module analyzes the text of the current Web page on the subject of detecting words and / or phrases from said set of them, and when detected, includes at least partially the text of the current Web page in the generated description of the real-time AV content. 28. Система по п.21, в котором модуль анализа ссылок пошагово просматривает Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницы, включает по меньшей мере частично ее текст в формируемое описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством.28. The system according to item 21, in which the link analysis module step by step browses the Web pages processed by the search engine to the current Web page, in the reverse order relative to the page path by which the current web page was reached by the search engine for the presence of them links to the current Web page, and if a link to the current Web page is detected in the viewed Web page, includes at least partially its text in the generated description of the real-time AV content, while the number of reverse steps for the mentioned The uti is limited to a predetermined maximum quantity. 29. Система по п.21, в которой возможность по по меньшей мере частичному включению в описание AV контента реального времени текста из загружаемой новой или обновленной Web-страницы реализуется модулем анализа ссылок.29. The system according to item 21, in which the ability to at least partially include in the description of the AV content real-time text from a downloadable new or updated Web page is implemented by the link analysis module. 30. Модуль анализа ссылок, предназначенный для поиска описания для аудио и/или видео (AV) контента реального времени, из состава компьютерно-реализуемой поисковой системы, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени, и выполненный с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей загруженной в поисковую систему Web-страницы и в которых содержится ссылка на текущую Web-страницу, причем модуль анализа ссылок дополнительно выполнен с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.30. Link analysis module, designed to search for descriptions for audio and / or video (AV) content in real time, from a computer-implemented search system designed to search the Internet for Web pages that broadcast real-time AV content, and configured to include in the description of the real-time AV content at least partially text from web pages that have been processed by the search system to the current web page loaded into the search system and which contain a link to the current web page ANRITSU, and link analysis module is further configured to include a description of the AV content real-time is at least partially loaded text from a new or updated Web-page if it contains a reference to the current Web-page. 31. Модуль анализа ссылок по п.30, в который сконфигурирован пошагово просматривать Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, включать по меньшей мере частично ее текст в описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством. 31. The link analysis module according to claim 30, in which it is configured to step-by-step browse web pages processed by the search engine up to the current web page, in the reverse order relative to the page path by which the current web page was reached by the search system for their presence links to the current Web page, and if a link to the current Web page is detected in the viewed Web page, include at least partially its text in the description of the real-time AV content, while the number of reverse steps along the mentioned path limited to a predetermined maximum quantity.
RU2008147755/09A 2008-12-03 2008-12-03 System and method for real time internet search of multimedia content RU2399090C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008147755/09A RU2399090C2 (en) 2008-12-03 2008-12-03 System and method for real time internet search of multimedia content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008147755/09A RU2399090C2 (en) 2008-12-03 2008-12-03 System and method for real time internet search of multimedia content

Publications (2)

Publication Number Publication Date
RU2008147755A RU2008147755A (en) 2010-06-10
RU2399090C2 true RU2399090C2 (en) 2010-09-10

Family

ID=42681252

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008147755/09A RU2399090C2 (en) 2008-12-03 2008-12-03 System and method for real time internet search of multimedia content

Country Status (1)

Country Link
RU (1) RU2399090C2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014126502A1 (en) * 2013-02-12 2014-08-21 Общество С Ограниченной Ответственностью "Балакам" Method for identifying media streams and system for implementing same
RU2530671C1 (en) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Checking method of web pages for content in them of target audio and/or video (av) content of real time
RU2530672C1 (en) * 2013-07-26 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation
RU2568276C2 (en) * 2014-01-24 2015-11-20 Закрытое акционерное общество "РИВВ" Method of extracting useful content from mobile application setup files for further computer data processing, particularly search
RU2608884C2 (en) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Computer-executed method of graphical user interface management on a display screen of an electronic device browser context helper (versions), server and electronic device used therein
RU2615057C2 (en) * 2014-08-13 2017-04-03 Сяоми Инк. Method and device for access to web-page and router
US20220382419A1 (en) * 2019-11-14 2022-12-01 Lg Electronics Inc. Display device and control method thereof

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014126502A1 (en) * 2013-02-12 2014-08-21 Общество С Ограниченной Ответственностью "Балакам" Method for identifying media streams and system for implementing same
RU2549102C2 (en) * 2013-02-12 2015-04-20 Общество С Ограниченной Ответственностью "Балакам" Method of determining real-time broadcast media streams and system therefor
RU2530671C1 (en) * 2013-07-24 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Checking method of web pages for content in them of target audio and/or video (av) content of real time
WO2015012714A1 (en) * 2013-07-24 2015-01-29 Общество С Ограниченной Ответственностью "Балакам" Method for checking websites for real-time target audio and/or video (av) content
RU2530672C1 (en) * 2013-07-26 2014-10-10 Общество С Ограниченной Ответственностью "Балакам" Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation
WO2015012720A1 (en) * 2013-07-26 2015-01-29 Общество С Ограниченной Ответственностью "Балакам" Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method
RU2568276C2 (en) * 2014-01-24 2015-11-20 Закрытое акционерное общество "РИВВ" Method of extracting useful content from mobile application setup files for further computer data processing, particularly search
RU2608884C2 (en) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Computer-executed method of graphical user interface management on a display screen of an electronic device browser context helper (versions), server and electronic device used therein
RU2615057C2 (en) * 2014-08-13 2017-04-03 Сяоми Инк. Method and device for access to web-page and router
US20220382419A1 (en) * 2019-11-14 2022-12-01 Lg Electronics Inc. Display device and control method thereof

Also Published As

Publication number Publication date
RU2008147755A (en) 2010-06-10

Similar Documents

Publication Publication Date Title
KR101175858B1 (en) System and method of inclusion of interactive elements on a search results page
KR101153009B1 (en) Live graphical preview with text summaries
US8150846B2 (en) Content searching and configuration of search results
US8595375B1 (en) Segmenting video based on timestamps in comments
US8631001B2 (en) Systems and methods for weighting a search query result
US9009153B2 (en) Systems and methods for identifying a named entity
US7664734B2 (en) Systems and methods for generating multiple implicit search queries
CN102789453B (en) Advertising message put-on method and device
RU2399090C2 (en) System and method for real time internet search of multimedia content
US20070276801A1 (en) Systems and methods for constructing and using a user profile
US20020032677A1 (en) Methods for creating, editing, and updating searchable graphical database and databases of graphical images and information and displaying graphical images from a searchable graphical database or databases in a sequential or slide show format
US20120005200A1 (en) Systems and Methods for Analyzing Boilerplate
US20080097970A1 (en) Intelligent Video Summaries in Information Access
JP2004514978A (en) Systems and processes for media crawling
KR20110085995A (en) Providing search results
KR20190086741A (en) Animated snippets for search results
CN103838862B (en) Video searching method, device and terminal
US20100057695A1 (en) Post-processing search results on a client computer
US7174513B1 (en) System and method for advanced network viewing
Messer et al. SeeNSearch: A context directed search facilitator for home entertainment devices
JP2010128928A (en) Retrieval system and retrieval method
KR101503268B1 (en) Symantic client, symantic information management server, method for generaing symantic information, method for searching symantic information and computer program recording medium for performing the methods
US20090313558A1 (en) Semantic Image Collection Visualization
RU2530671C1 (en) Checking method of web pages for content in them of target audio and/or video (av) content of real time
JP4477931B2 (en) Search request device, search request method, search request program, and computer-readable recording medium storing search request program

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20120402

MM4A The patent is invalid due to non-payment of fees

Effective date: 20131204

NF4A Reinstatement of patent

Effective date: 20141027

MM4A The patent is invalid due to non-payment of fees

Effective date: 20171204