RU2635905C2 - Способ и сервер прогнозирования популярности элемента содержимого - Google Patents

Способ и сервер прогнозирования популярности элемента содержимого Download PDF

Info

Publication number
RU2635905C2
RU2635905C2 RU2015140585A RU2015140585A RU2635905C2 RU 2635905 C2 RU2635905 C2 RU 2635905C2 RU 2015140585 A RU2015140585 A RU 2015140585A RU 2015140585 A RU2015140585 A RU 2015140585A RU 2635905 C2 RU2635905 C2 RU 2635905C2
Authority
RU
Russia
Prior art keywords
content
search
server
data
content item
Prior art date
Application number
RU2015140585A
Other languages
English (en)
Other versions
RU2015140585A (ru
Inventor
Глеб Геннадьевич Гусев
Алексей Валерьевич Друца
Павел Викторович СЕРДЮКОВ
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2015140585A priority Critical patent/RU2635905C2/ru
Priority to US15/262,283 priority patent/US20170083625A1/en
Publication of RU2015140585A publication Critical patent/RU2015140585A/ru
Application granted granted Critical
Publication of RU2635905C2 publication Critical patent/RU2635905C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/252Processing of multiple end-users' preferences to derive collaborative data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44204Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Изобретение относится к прогнозированию популярности элемента содержимого. Техническим результатом является расширение арсенала технических средств прогнозирования популярности содержимого. В способе прогнозирования популярности содержимого получают из базы данных поискового робота указание на элемент содержимого, получают данные из поискового журнала и журнала браузера. Данные из поискового журнала представляют собой поисковую активность пользователей сервера поисковой системы, направленную на элемент содержимого. Данные из журнала браузера представляют собой браузерную активность пользователей браузерного приложения, направленную на элемент содержимого. Получают из базы данных поискового робота статистические веб-данные, которые представляют встроенные объекты или ссылки на элемент содержимого, которое содержится на веб-ресурсах, которые ведут на элемент содержимого. Прогнозируют популярность содержимого на основе (i) данных из поискового журнала; (ii) данных из журнала браузера или (iii) статистических веб-данных. 2 н. и 34 з.п. ф-лы, 6 ил.

Description

Область техники, к которой относится изобретение
[01] Настоящее техническое решение относится к способу прогнозирования популярности элемента содержимого.
Уровень техники
[02] Вместе с увеличением числа создаваемых пользователем элементов содержимого постоянно увеличивается число компаний, которые работают с элементами веб-содержимого и при этом не размещают их у себя. Таким образом, можно определить два типа компаний. К первому типу относятся организации, которые предоставляют возможность размещения пользовательского содержимого (поставщики хостинга содержимого). Существуют видео-хостинги, например Youtube™, сервисы обмена музыкой, например Soundcloud™, и так далее. Ко второму типу относятся организации (компании-операторы), которые работают с пользовательским содержимым, расположенным на внешних поставщиках хостинга содержимого. Примерами компаний-операторов являются поставщики поисковых систем (например, Yandex™, Google™, Bing™), агрегаторы содержимого (например, Digg™, Reddit™), системы рекомендаций содержимого (например, StumbleUpon™, Pinterest™) и так далее. Естественно, одна компания может одновременно являться поставщиком хостинга и компанией-оператором. Например, большие социальные сети, такие как Facebook™ и Twitter™ хранят миллиарды пользовательских сообщений и одновременно предоставляют возможность добавлять внешние видео и изображения напрямую в сообщения.
[03] Поскольку компании-операторы имеют дело с гигантскими количествами внешнего содержимого, неизбежно возникает проблема оценки текущей и будущей популярности (т.е. числа просмотров, числа полученных комментариев и т.д.) элементов содержимого. Считается, что прогнозируемые текущее и будущее значения популярности содержимого могут служить в качестве надежных характеристик для ранжирования содержимого и для проблем анализа содержимого в целом. Таким образом, высококачественный механизм прогнозирования популярности является важным компонентом любой компании-оператора, поскольку он влияет на качество услуг, предоставляемых ее конечным пользователям.
[04] В некоторых ситуациях популярность содержимого прописана у поставщика хостинга содержимого с помощью интерфейса программирования приложений (API); тем не менее в других случаях значение популярности не может быть получено от поставщика хостинга содержимого (например, в случае, когда API отсутствует). Одновременно, даже если API предоставляет информацию о популярности, API может быть периодически или перманентно недоступен или же может устанавливать ограничение по числу возможных запросов в заданный период времени, которое может быть недостаточным для удовлетворения потребностей компаний-операторов. Кроме того, предоставляемый API может доставлять информацию с задержкой.
[05] Неточность в популярности элемента содержимого может вызывать недовольство пользователя, желающего найти элемент содержимого, который был бы ему интересен. Кроме того, неточность или ошибочность данных о элементе содержимого может привести к необходимости поведения повторного поиска для пользователя, в результате чего будет увеличиваться расход батареи и расход трафика.
[06] Задачей предлагаемого технического решения является устранение по меньшей мере некоторых недостатков, присущих известному уровню техники.
[07] Патент США №US 7,801,888, опубл. 21.10.2010, описывает результаты поиска медиа содержимого, ранжированные по популярности. В некоторых вариантах осуществления технологии, зрителем может быть инициирован поисковый запрос на телевизионное медиа содержимое и может быть определено телевизионное медиа содержимое, релевантное поисковому запросу. Релевантное телевизионное медиа содержимое далее может быть ранжировано на основе рейтинга популярности таким образом, что релевантное телевизионное медиа содержимое будет отображаться в списке, упорядоченном с учетом рейтинга популярности.
[08] Патентная заявка США № US 2013/0311408, опубл. 21.11.2013, описывает процессы и системы, которые могут быть использованы для прогнозирования того, какое содержимое (например, программы, сериалы, фильмы, каналы и так далее) будет популярным в будущем. Процессы и системы могут использовать модель, которая обучена с помощью данных из истории, которые отображают информацию о предыдущих показах программ, например информацию о рейтинге, поведении зрителей (например, смена канала и цифровая видеозапись), онлайн активность в соцсетях (например, лайки в сети Facebook и релевантные сообщения в сети Twitter) и/или другие данные. Соответственно, возможно предоставлять прогностические рекомендации популярного содержимого, например, до того, как содержимое выходит в эфир или каким-либо иным образом становится доступным для зрителей. Результаты подобного прогноза могут быть интегрированы, например, в программу передач, которая доступна зрителям.
[09] Патент США № US 8856113, опубл. 07.10.2014, описывает ответы на запросы к агрегированному видео и/или аудио содержимому, которое встроено в веб-страницы. Конкретнее, эта технология относится к ранжированию результатов поиска и составлению индекса, по которому проводится поиск.
[10] Патент США № US 7783632, опубл. 24.08.2010, относится к системе ранжирования и способу, который способствует улучшению ранжирования и упорядочения объектов для дальнейшего повышения качества, точности и выдачи результатов поиска в ответ на поисковый запрос. Система и способ включают в себя мониторинг и отслеживание объекта в значении того, сколько было к нему обращений и, опционально, кем они были осуществлены, когда, как надолго и какова была скорость доступа. Также могут отслеживаться взаимодействия пользователя с объектом. Путем отслеживания объектов может быть определена мера популярности. Ранжирование на основе популярности может быть вычислено на основе меры популярности или ее функции. На меру популярности могут влиять такие характеристики, как время доступа, инициатор доступа, продолжительность взаимодействий пользователя с объектом в момент доступа. Ранжирование на основе популярности может быть использовано поисковым компонентом для улучшения качества и получения результатов поиска.
Раскрытие изобретения
[11] Одним объектом настоящего технического решения является способ прогнозирования популярности элемента содержимого, способ выполняется на сервере, сервер соединен с сетью передачи данных, сеть передачи данных соединена с сервером поисковой системы и сервером хостинга содержимого. Способ включает в себя получение из базы данных поискового робота указания на элемент содержимого; получение из журналов, включая поисковый журнал и журнал браузера, данных из поискового журнала и журнала браузера, причем данные из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера поисковой системы, направленную на элемент содержимого, а данные из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения, направленную на элемент содержимого; получение из базы данных поискового робота статистических веб-данных, которые представляют по меньшей мере один из встроенных объектов или ссылок на элемент содержимого, которое содержится на одном или нескольких веб-ресурсах, которые ведут на элемент содержимого; и прогнозирование популярности содержимого, основанного по меньшей мере частично на (i) данных из поискового журнала; (ii) данных из журнала браузера; и (iii) статистических веб-данных.
[12] В другом варианте осуществления настоящего технического решения способ включает в себя получение от сервера хостинга содержимого через интерфейс программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента содержимого, причем (i) статистические характеристики включают в себя характеристики, описывающие элемент содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент содержимого, которые учитывают отношение между элементом содержимого и взаимодействиями пользователя; и прогнозирование популярности содержимого на основе, по меньшей мере частично, (i) данных из поискового журнала; (ii) данных из журнала браузера; (iii) статистических веб-данных, и (iv) статистических и динамических характеристик, полученных через API сервиса хостинга содержимого.
[13] В другом варианте осуществления настоящего технического решения, сервер реализован как часть сервера поисковой системы.
[14] В другом варианте осуществления настоящего технического решения, поисковые журналы реализованы как часть сервера поисковой системы.
[15] В другом варианте осуществления настоящего технического решения, журналы браузера реализованы как часть сервера поисковой системы.
[16] В еще одном варианте осуществления настоящего технического решения, сервер хостинга содержимого, на котором хранится веб-ресурс хостинга содержимого, на котором размещен элемент содержимого, был ранее просмотрен поисковым роботом, и указание на просмотренный поисковым роботом веб-ресурс хостинга содержимого хранится в базе данных поискового робота.
[17] В еще одном варианте осуществления настоящего технического решения статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, были ранее просмотрены поисковым роботом с сервера веб-ресурса и сохранены в базе данных поискового робота.
[18] В другом варианте осуществления настоящего технического решения, данные из поисковых журналов включают в себя динамические-характеристики-поисковых-журналов, связанные с элементом содержимого, причем динамические-характеристики-поисковых-журналов включают в себя по меньшей мере одно из:
- число показов URL (Единый Указатель Ресурсов) элемента содержимого на странице результатов поиска (SERP).
- число кликов на URL элемента содержимого на SERP; и
- число переходов по URL элемента содержимого на SERP.
[19] В другом варианте осуществления настоящего технического решения, данные из журнала браузера включают в себя динамические-характеристики-журналов-браузера, связанные с элементом содержимого, динамические-характеристики-журналов-браузера включают в себя число посещений URL элемента содержимого, зарегистрированных в журналах браузера.
[20] В другом варианте осуществления настоящего технического решения, статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя агрегированные-динамические-веб-характеристики, связанные с элементом содержимого, причем агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- число всех встроенных объектов элемента содержимого;
- число всех хостов со встроенными объектами элемента содержимого;
- максимальное число встроенных объектов элемента содержимого на хост;
- среднее число встроенных объектов элемента содержимого на хост;
- максимальное число встроенных объектов элемента содержимого на страницу;
- среднее число встроенных объектов элемента содержимого на страницу;
- число дней, которое прошло с первого встроенного объекта элемента содержимого;
- число дней, которое прошло с последнего встроенного объекта элемента содержимого;
- среднее число дней, которое прошло с любого встроенного объекта элемента содержимого;
- число всех ссылок на элемент содержимого;
- число всех хостов со ссылками на элемент содержимого;
- максимальное число ссылок на элемент содержимого на хост;
- среднее число ссылок на элемент содержимого на хост;
- число дней, которое прошло со дня первой ссылки;
- число дней, которое прошло с последнего раза, когда элемент содержимого был связан со ссылкой; и
- среднее число дней, которое прошло с момента когда была опубликована какая-либо ссылка на элемент содержимого.
[21] В другом варианте осуществления настоящего технического решения, статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя не-агрегированные-динамические-веб-характеристики, связанные с элементом содержимого, причем не-агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов элемента содержимого; и
- список хостов с временными отметками ссылок на элемент содержимого.
[22] В другом варианте осуществления настоящего технического решения, прогнозирование популярности содержимого выполняется с помощью алгоритма машинного обучения.
[23] Дополнительно, алгоритм машинного обучения использует модель Фридмана градиентного бустинга деревьев решений.
[24] Далее модель Фридмана градиентного бустинга деревьев решений получает вывод линейной модели влияния как входную характеристику.
[25] В другом варианте осуществления настоящего технического решения, линейная модель влияния получает не-агрегированные-динамические-веб-характеристики как входную характеристику.
[26] В другом варианте осуществления настоящего технического решения, алгоритм машинного обучения проходит обучение.
[27] Дополнительно, обучение алгоритма машинного обучения выполняется параллельно с прогнозированием популярности содержимого.
[28] В другом варианте осуществления настоящего технического решения, ранжирование элемента содержимого основано на определенном прогнозе популярности содержимого.
[29] Другим объектом настоящего технического решения является сервер, соединенный с сетью передачи данных, с которой соединены сервер поисковой системы и сервер хостинга содержимого. Сервер включает в себя интерфейс связи, настроенный и выполненный с возможностью устанавливать соединение с сервером поисковой системы через сеть передачи данных, и по меньшей мере один компьютерный процессор, функционально соединенный с интерфейсом связи, который настроен и выполнен с возможностью осуществлять получение из базы данных поискового робота указания на элемент содержимого; получение из журналов, включая поисковый журнал и журнал браузера, данных из поискового журнала и журнала браузера, причем данные из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера поисковой системы, направленную на элемент содержимого, а данные из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения, направленную на элемент содержимого; получение из базы данных поискового робота статистических веб-данных, которые представляют по меньшей мере один из встроенных объектов или ссылок на элемент содержимого, которое содержится на одном или нескольких веб-ресурсах, которые ведут на элемент содержимого; и прогнозирование популярности содержимого, основанного по меньшей мере частично на (i) данных из поискового журнала; (ii) данных из журнала браузера и (iii) статистических веб-данных.
[30] В другом варианте осуществления сервера процессор выполнен с возможностью осуществлять получение от сервера хостинга содержимого через интерфейс программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента содержимого, причем (i) статистические характеристики включают в себя характеристики, описывающие элемент содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент содержимого, которые учитывают отношение между элементом содержимого и взаимодействиями пользователя; и прогнозирование популярности содержимого на основе, по меньшей мере частично, (i) данных из поискового журнала; (ii) данных из журнала браузера; (iii) статистических веб-данных, и (iv) статистических и динамических характеристик, полученных через API сервиса хостинга содержимого.
[31] В другом варианте осуществления настоящего технического решения, сервер реализован как часть сервера поисковой системы.
[32] В другом варианте осуществления настоящего технического решения, поисковые журналы реализованы как часть сервера поисковой системы.
[33] В другом варианте осуществления настоящего технического решения, журналы браузера реализованы как часть сервера поисковой системы.
[34] В еще одном варианте осуществления настоящего технического решения, сервер хостинга содержимого, на котором хранится веб-ресурс хостинга содержимого, на котором размещен элемент содержимого, был ранее просмотрен поисковым роботом, и указание на просмотренный поисковым роботом веб-ресурс хостинга содержимого хранится в базе данных поискового робота.
[35] В варианте осуществления настоящего технического решения статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, были ранее просмотрены поисковым роботом с сервера веб-ресурса и сохранены в базе данных поискового робота.
[36] В варианте осуществления настоящего технического решения, данные из поисковых журналов включают в себя динамические-характеристики-поисковых-журналов, связанные с элементом содержимого, причем динамические-характеристики-поисковых-журналов включают в себя по меньшей мере одно из:
- число показов URL (Единый Указатель Ресурсов) элемента содержимого на странице результатов поиска (SERP);
- число кликов на URL элемента содержимого на SERP; и
- число переходов по URL элемента содержимого на SERP.
[37] В другом варианте осуществления настоящего технического решения, данные из журнала браузера включают в себя динамические-характеристики-журналов-браузера, связанные с элементом содержимого, динамические-характеристики-журналов-браузера включают в себя число посещений URL элемента содержимого, зарегистрированных в журналах браузера.
[38] В другом варианте осуществления настоящего технического решения, статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя агрегированные-динамические-веб-характеристики, связанные с элементом содержимого, причем агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- число всех встроенных объектов элемента содержимого;
- число всех хостов со встроенными объектами элемента содержимого;
- максимальное число встроенных объектов элемента содержимого на хост;
- среднее число встроенных объектов элемента содержимого на хост;
- максимальное число встроенных объектов элемента содержимого на страницу;
- среднее число встроенных объектов элемента содержимого на страницу;
- число дней, которое прошло с первого встроенного объекта элемента содержимого;
- число дней, которое прошло с последнего встроенного объекта элемента содержимого;
- среднее число дней, которое прошло с любого встроенного объекта элемента содержимого;
- число всех ссылок на элемент содержимого;
- число всех хостов со ссылками на элемент содержимого;
- максимальное число ссылок на элемент содержимого на хост;
- среднее число ссылок на элемент содержимого на хост;
- число дней, которое прошло со дня первой ссылки;
- число дней, которое прошло с последнего раза, когда элемент содержимого был связан со ссылкой; и
- среднее число дней, которое прошло с момента, когда была опубликована какая-либо ссылка на элемент содержимого.
[39] В другом варианте осуществления настоящего технического решения, статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя не-агрегированные-динамические-веб-характеристики, связанные с элементом содержимого, причем не-агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов элемента содержимого; и
- список хостов с временными отметками ссылок на элемент содержимого.
[40] В другом варианте осуществления настоящего технического решения, прогнозирование популярности содержимого процессором выполняется с помощью алгоритма машинного обучения.
[41] В другом варианте осуществления настоящего технического решения, алгоритм машинного обучения использует модель Фридмана градиентного бустинга деревьев решений.
[42] В другом варианте осуществления настоящего технического решения, модель Фридмана градиентного бустинга деревьев решений получает вывод линейной модели влияния как входную характеристику.
[43] В другом варианте осуществления настоящего технического решения, линейная модель влияния получает не-агрегированные-динамические-веб-характеристики как входную характеристику.
[44] В еще одном варианте осуществления настоящего технического решения, алгоритм машинного обучения проходит обучение.
[45] В другом варианте осуществления настоящего технического решения, обучение алгоритма машинного обучения выполняется параллельно с прогнозированием популярности содержимого.
[46] В другом варианте осуществления настоящего технического решения, ранжирование элемента содержимого основано на определенном прогнозе популярности содержимого.
[47] В контексте настоящего описания, если конкретно не указано иное, термин «база данных» подразумевает под собой любой структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения по управлению базой данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом оказываются доступны для использования. База данных может находиться на том же оборудовании, выполняющем процесс, который сохраняет или использует информацию, хранящуюся в базе данных, или же она может находиться на отдельном оборудовании, например выделенном сервере или множестве серверов.
[48] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов "первый сервер" и "третий сервер " не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание "первого" элемента и "второго" элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, "первый" сервер и "второй" сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.
[49] В контексте настоящего описания «сервер» подразумевает под собой компьютерную программу, работающую на соответствующем оборудовании, которая способна получать запросы (например, от клиентских устройств) по сети и выполнять эти запросы или инициировать выполнение этих запросов. Оборудование может представлять собой один физический компьютер или одну физическую компьютерную систему, но ни то, ни другое не является обязательным для настоящего технического решения. В контексте настоящего технического решения использование выражения «сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована к выполнению одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных устройств может быть вовлечено в прием/передачу, выполнение или инициирование выполнения любого запроса или последствия любого запроса, связанного с клиентским устройством, и все это программное и аппаратное обеспечение может быть одним сервером или несколькими серверами, оба варианта включены в выражение «по меньшей мере один сервер».
[50] В контексте настоящего описания «клиентское устройство» подразумевает под собой аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. В контексте настоящего описания термин «электронное устройство» связан с пользователем. Таким образом, неограничивающими примерами электронных устройств могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Важно иметь в виду, что в контексте настоящего описания факт того, что устройство функционирует как электронное устройство, не означает того, что оно не может функционировать как сервер для других электронных устройств. Использование выражения «электронное устройство» не исключает возможности использования множества электронных устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же любых этапов способа, представленного в настоящем описании.
[51] В контексте настоящего описания, если специально не указано иное, термин «элемент содержимого» относится к любым данным, которые могут быть представлены (визуально, в аудио формате или как-либо иначе) электронным устройством 102. Таким образом, элемент содержимого может включать в себя написанный текст, изображения, графику, анимацию, видео, музыку, запись голоса и так далее, а также любую их комбинацию. Например, если поставщик хостинга содержимого представляет собой онлайн платформу для доступа к видеофайлам, такую как Youtube™, то элемент содержимого может включать в себя видеофайлы, загруженные индивидуальными пользователями или организациями. Аналогично, если поставщик хостинга содержимого представляет собой платформу цифровой дистрибуции мобильных приложений, такую как Арр Store™, элемент содержимого может включать в себя приложения, доступные для скачивания поставщиками приложений. Если поставщик хостинга содержимого представляет собой онлайн сервис социальной сети, например, Twitter™, элемент содержимого может включать в себя короткие сообщения, так называемые «твиты», опубликованные индивидуальными пользователями или организациями. Кроме того, если поставщик хостинга содержимого представляет собой новостной онлайн сервис, например VICE News™, элемент содержимого может включать в себя текстовую информацию, изображения и/или видео.
Краткое описание чертежей
[52] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:
[53] На Фиг. 1 представлено схематичное изображение системы, выполненной в соответствии с неограничивающими вариантами осуществления настоящего технического решения прогнозирования популярности элемента содержимого.
[54] На Фиг. 2 представлено схематичное изображение примера сервера хостинга содержимого, выполненного в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения.
[55] На Фиг. 3 представлено схематичное изображение примера сервера веб-ресурса, выполненного в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения.
[56] На Фиг. 4 представлено схематичное изображение примера журналов, выполненных в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения.
[57] На Фиг. 5 представлено схематичное изображение сервера прогнозирования популярности, API сервиса хостинга содержимого, журналов и базы данных поискового робота, выполненных в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения.
[58] На Фиг. 6 представлена блок-схема примерного способа прогнозирования популярности элемента содержимого.
Осуществление изобретения
[59] На Фиг. 1 представлена принципиальная схема системы 100, выполненной в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где это еще не было сделано, т.е. там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого экземпляра настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.
[60] Система 100 включает в себя электронное устройство 102. Электронное устройство 102 обычно связано с пользователем (не показан) и, таким образом, иногда может упоминаться как «клиентское устройство». Следует отметить, что тот факт, что электронное устройство 102 связано с пользователем, не подразумевает какого-либо конкретного режима работы, равно как и необходимости входа в систему, быть зарегистрированным, или чего-либо подобного.
[61] В контексте настоящего описания, если конкретно не указано иное, «электронное устройство» подразумевает под собой аппаратное устройство, способное работать с программным обеспечением, подходящим к решению соответствующей задачи. Таким образом, примерами электронных устройств (среди прочего) могут служить персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.п.) смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует иметь в виду, что устройство, ведущее себя как электронное устройство в настоящем контексте, может вести себя как сервер по отношению к другим электронным устройствам. Использование выражения «электронное устройство» не исключает возможности использования множества электронных устройств для получения/отправки, выполнения или инициирования выполнения любой задачи или запроса, или же последствий любой задачи или запроса, или же этапов любого вышеописанного метода.
[62] Электронное устройство 102 содержит аппаратное и/или прикладное программное, и/или системное программное обеспечение (или их комбинацию), как известно в области техники, чтобы выполнять браузерное приложение 103. В общем случае, целью браузерного приложения 103 является предоставление пользователю возможности получать доступ к одному или нескольким веб-ресурсам 124 и/или веб-ресурсам 204 хостинга содержимого. То, как именно реализованы веб-ресурсы 204 хостинга содержимого, никак конкретно не ограничено, и они могут соответствовать веб-платформе, на которой может быть размещен элемент 206 содержимого (описанный далее). В общем случае, веб-ресурсы 204 хостинга содержимого хранятся на сервере 114 хостинга содержимого, который управляется поставщиком (не показан) хостинга содержимого, например Youtube™. С другой стороны, то, как именно реализованы веб-ресурсы 124, никак конкретно не ограничено, и может соответствовать веб-платформе, на которой может быть осуществлен «репост» (вторичное размещение) элемента 206 содержимого, размещенного на веб-ресурсах 204 хостинга содержимого.
[63] Реализация браузерного приложения 103 никак конкретно не ограничена. Например, браузерное приложение 103 может быть реализовано как Яндекс.Браузер™. Реализация браузерного приложения 103 хорошо известна в данной области техники и поэтому не будет описана подробно.
[64] Электронное устройство 102 также включает в себя аппаратное, и/или прикладное программное, и/или системное программное обеспечение (или их комбинацию), как известно в данной области техники, для использования поискового приложения 104. В общем случае, задачей поискового приложения 104 является предоставление пользователю возможности выполнять веб-поиск. С этой целью, поисковое приложение 104 включает в себя интерфейс запроса 106 и интерфейс результатов поиска 108.
[65] Реализация поискового приложения 104 никак конкретно не ограничена. Один из примеров поискового приложения 104 может быть реализован в вызове пользователем веб-сайта, соответствующего поисковой системе, для получения доступа к поисковому приложению 104. Например, поисковое приложение может быть вызвано путем ввода URL, связанного с поисковой системой Yandex™, доступной по адресу www.yandex.ru. Важно иметь в виду, что поисковое приложение 104 может быть вызвано с помощью любой другой коммерчески доступной или собственной поисковой системы.
[66] В общем случае, поисковое приложение 104 выполнено с возможностью получать от пользователя запрос, например «поисковую строку», и предоставлять поисковые результаты, которые отвечают на запрос. Коротко говоря, запрос передается серверу 118 поисковой системы (описан ниже) по сети 110 передачи данных (описана ниже) и сервер 118 поисковой системы передает запрос или инициирует передачу запроса.
[67] Электронное устройство 102 соединено с сетью 110 передачи данных через линию 112 передачи данных. В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 110 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения сеть 110 передачи данных может быть реализована иначе - в виде глобальной сети связи, локальной сети связи, частной сети связи и т.п.
[68] Реализация линии связи 112 не ограничена и будет зависеть от того, какое электронное устройство 102 используется. В качестве примера, но не ограничения, в данных вариантах осуществления настоящего технического решения, когда электронное устройство 102 представляет собой беспроводное устройство связи (например, смартфон), линия 112 передачи данных представляет собой беспроводную сеть передачи данных (например, среди прочего, линия передачи данных сети 3G, линия передачи данных сети 4G, беспроводной интернет Wireless Fidelity или коротко WiFi®, Bluetooth® и т.п.).
[69] Важно иметь в виду, что варианты осуществления электронного устройства 102, линии 112 передачи данных и сети 110 передачи данных даны исключительно в иллюстрационных целях. Таким образом, специалисты в данной области техники смогут легко оценить другие конкретные подробности различных вариантов осуществления электронных устройств 102. То есть представленные здесь примеры не ограничивают объем настоящего технического решения.
[70] С сетью 110 передачи данных также соединен сервер 114 хостинга содержимого. Сервер 114 хостинга содержимого может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения сервер 116 хостинга содержимого может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 114 хостинга содержимого может представлять собой любое другое подходящее аппаратное, и/или прикладное программное, и/или системное программное обеспечение, или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 114 хостинга содержимого является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 114 хостинга содержимого может быть разделена и может выполняться с помощью нескольких серверов.
[71] В некоторых вариантах осуществления настоящего технического решения сервер 114 хостинга содержимого находится под контролем и/или управлением поставщика хостинга содержимого (не показан), такие, например, как Youtube™, Vimeo™, Soundcloud™, iTunes™, App Store™, Amazon™.
[72] В некоторых вариантах осуществления настоящего технического решения сервер 114 хостинга содержимого включает в себя одну или несколько баз 115 данных, которая хранит содержимое веб-ресурсов 204 хостинга содержимого (описано ниже), которое может передаваться и отображаться на электронном устройстве 102. Веб-ресурсы 204 хостинга содержимого (описано ниже) размещают по меньшей мере один элемент 206 содержимого (описано ниже) и являются доступными для электронного устройства 102 через сеть 110 передачи данных, например, путем ввода URL или выполнения веб-поиска с помощью поискового приложения 104. В общем случае, каждый элемент содержимого обладает назначенным сервером именем файла, которое уникально идентифицирует файл в базе 115 данных. Каждая база 115 данных включает в себя, для каждого сохраненного элемента содержимого, индексные данные, с помощью которых каждый элемент содержимого может быть идентифицирован и отдельно получен из базы данных по запросу, например, электронного устройства 102.
[73] Несмотря на то, что база 115 данных представлена как отдельная от сервера 114 хостинга содержимого, с которым она соединена с помощью соответствующей линии (не пронумерована), база 115 данных может быть реализована как часть сервера 114 хостинга содержимого.
[74] В контексте настоящего описания термин «элемент содержимого» относится к любым данным, которые могут быть представлены (визуально, в аудио формате или как-либо иначе) электронным устройством 102. Таким образом, элемент содержимого может включать в себя написанный текст, изображения, графику, анимацию, видео, музыку, запись голоса и так далее, а также любую их комбинацию. Как было описано ранее, сервер 114 хостинга содержимого, на котором хранится элемент содержимого, находится под контролем и/или управлением поставщика хостинга содержимого (не показан). Например, если поставщик хостинга содержимого представляет собой онлайн платформу для доступа к видеофайлам, такую как Youtube™, то элемент содержимого может включать в себя видеофайлы, загруженные индивидуальными пользователями или организациями. Аналогично, если поставщик хостинга содержимого представляет собой платформу цифровой дистрибуции мобильных приложений, такую как App Store™, элемент содержимого может включать в себя приложения, доступные для скачивания поставщиками приложений. Если поставщик хостинга содержимого представляет собой онлайн сервис социальной сети, например Twitter™, элемент содержимого может включать в себя короткие сообщения, так называемые «твиты», опубликованные индивидуальными пользователями или организациями. Кроме того, если поставщик хостинга содержимого представляет собой новостной онлайн сервис, например VICE News™, элемент содержимого может включать в себя текстовую информацию, изображения и/или видео.
[75] Кроме того, в некоторых вариантах осуществления сервер 114 хостинга содержимого может размещать один или несколько веб-сервисов, которое предоставляет одну или несколько библиотек интерфейсов программирования приложений (API) («API 116 сервиса хостинга содержимого»). Реализация API 116 сервиса хостинга содержимого хорошо известна в данной области техники и поэтому не будет здесь описана подробно. Достаточно сказать, что при запросе, например, сервером 134 прогнозирования популярности (описан ниже), API 116 сервиса хостинга содержимого предоставляет список статистических данных, связанных с конкретным элементом содержимого, который содержится в базе 115 данных. В общем случае, данные, связанные с конкретным элементом содержимого, относятся к статическим и динамическим характеристикам элемента содержимого (описано ниже).
[76] С сетью 110 передачи данных также соединен сервер 118 поисковой системы. Достаточно сказать, что сервер 118 поисковой системы может быть реализован тем же способом, что и сервер 114 хостинга содержимого. В общем случае, сервер 118 поисковой системы находится под контролем и/или управлением поставщика поисковой системы (не показан), такого, например, как оператор поисковой системы Yandex™. Таким образом, сервер 118 поисковой системы может быть выполнен с возможностью выполнять один или несколько поисков в ответ на «поисковую строку», введенную пользователем в интерфейс 106 запроса. Сервер 118 поисковой системы также выполнен с возможностью передавать электронному устройству 102 набор результатов поиска, который будет отображаться пользователю через интерфейс 108 результатов поиска.
[77] Сервер 118 поисковой системы также выполнен с возможностью выполнять функцию поискового робота и, с этой целью, включает в себя приложение 120 поискового робота. Несмотря на то, что приложение 120 поискового робота представлено как включенное в сервер 118 поисковой системы, это не является ограничением. В общем случае, приложение 120 поискового робота выполнено с возможностью получать доступ к серверу 114 хостинга содержимого для идентификации и получения веб-ресурсов 204 хостинга содержимого (описано ниже). Например, без установления ограничений, приложение 120 поискового робота регулярно просматривает ленты RRS сервера 114 хостинга содержимого для идентификации и получения новых элементов содержимого.
[78] Просмотр с помощью приложения 120 поискового робота не ограничивается только веб-ресурсами 204 хостинга содержимого, расположенными на сервере 114 хостинга содержимого, и также может включать в себя веб-ресурсы 124 (описаны ниже), расположенные на сервере 122 веб-ресурсов.
[79] В рамках системы 100 представлен сервер 122 веб-ресурсов, соединенный с сетью 110 передачи данных через соответствующую линию (не показано). Аналогично серверу 118 поисковой системы сервер 122 веб-ресурсов может быть реализован тем же способом, что и сервер 114 хостинга содержимого. Дополнительно, несмотря на то, что представлен только один сервер, сервер 122 веб-ресурсов может представлять собой множество серверов веб-ресурсов.
[80] В некоторых вариантах осуществления настоящего технического решения, сервер 122 веб-ресурсов включает в себя одну или несколько баз 123 данных, которые функционируют для сохранения данных, указывающих на веб-ресурсы 124, которые доступны электронному устройству 102 через сеть 110 передачи данных. В общем случае, веб-ресурсы 124 могут быть доступны для электронного устройства 102 путем ввода/копирования/нажатия на URL или выполнения веб-поиска с помощью поискового приложения 104. Несмотря на то, что база 123 данных представлена как отдельная от сервера 122 веб-ресурсов и соединенная с ним с помощью соответствующей линии (не пронумерована), она может быть реализована как часть сервера 122 веб-ресурсов.
[81] В некоторых вариантах осуществления настоящего технического решения, приложение 120 поискового робота выполнено с возможностью получать доступ к серверу 122 веб-ресурсов для идентификации и получения одного или нескольких веб-ресурсов 124.
[82] Достаточно сказать, что указание на просмотренные объекты индексируется и сохраняется в базе 126 данных поискового робота. Несмотря на то, что база 126 данных представлена как отдельная от сервера 118 поисковой системы и соединенная с ним с помощью соответствующей линии (не пронумерована), она может быть реализована как часть сервера 118 поисковой системы. В общем случае, база 126 данных поискового робота также содержит записи для каждого просмотренного объекта, причем запись может включать в себя данные, такие как дата последнего просмотра или получения доступа, которые могут быть использованы приложением 120 поискового робота для поддержания базы 126 данных в актуальном состоянии, и в дальнейшем для снижения числа дубликатов или избавления от них.
[83] Сервер 118 поисковой системы обладает доступом к журналам 128 через линию (не пронумерована). В широком смысле, журналы 128 могут хранить данные, связанные с пользовательскими сетевыми взаимодействиями через браузерное приложение 103 и поисковое приложение 104. В некоторых неограничивающих вариантах осуществления настоящего технического решения журналы 128 соединены через соответствующие линии (не показаны) с двумя типами журналов: поисковым журналом 130 и журналом 132 браузера. В общем случае, «поисковые строки», которые пользователи вводят в поисковое приложение 104, а также данные о поисковых действиях пользователей хранятся в поисковых журналах 130, а журналы 132 браузера хранят указание на веб-содержимое, которое было просмотрено пользователем с помощью браузерного приложения 103.
[84] Несмотря на то, что поисковые журналы 132 представлены как отдельные от журналов 128 и сервера 118 поисковой системы элементы, возможно, что поисковые журналы 130 и журналы 132 браузера будут реализованы как часть сервера 118 поисковой системы и/или журналов 128.
[85] Сервер 118 поисковой системы также соединен с сервером 134 прогнозирования популярности. Достаточно сказать, что сервер 134 прогнозирования популярности может быть реализован тем же способом, что и сервер 114 хостинга содержимого. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 134 прогнозирования популярности является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 134 прогнозирования популярности может быть разделена и может выполняться с помощью нескольких серверов. Кроме того, несмотря на то, что в представленном варианте осуществления настоящего технического решения, сервер 134 прогнозирования популярности представлен как отдельный от сервера 118 поисковой системы, это не является ограничением, и он может быть реализован как часть сервера 118 поисковой системы.
[86] На Фиг. 2 представлено схематичное изображение архитектуры 200, демонстрирующее пример сервера 114 хостинга содержимого, который выполнен в соответствии с некоторыми вариантами осуществления технологии. Сервер 114 хостинга содержимого в целом функционирует как хранилище для множества веб-ресурсов 204, 2042 и 2044 хостинга содержимого, сохраняя их в базу 115 данных.
[87] В некоторых вариантах осуществления настоящего технического решения, база 115 данных содержит список идентификаторов, таких как URL (представлены как URL#1 202, URL#2 2022, и URL#3 2024), которые соответствуют веб-ресурсам 204, 2042, 2044 хостинга содержимого соответственно. Каждый из веб-ресурсов 204, 2042, 2044 хостинга содержимого содержит один или несколько элементов 206, 2062, 2064 содержимого соответственно. Как было описано выше, элементы 206, 2062, 2064 содержимого могут включать в себя написанный текст, изображения, графику, анимацию, видео, музыку, запись голоса и так далее, а также любую их комбинацию.
[88] В общем случае, пользователь сервиса хостинга содержимого загружает (или размещает) новые элементы содержимого в сеть, создается новый веб-ресурс хостинга содержимого, обладающий уникальным URL, и URL сохраняется в базе 115 данных. Например, если пользователь размещает новое видео на YouTube™, создается веб-ресурс хостинга содержимого, обладающий уникальным URL и содержащий видео файл и его URL будет сохранен в базе 115 данных.
[89] Таким образом, несмотря на то, что база 115 данных представлена как содержащая только три URL (URL#1 202, URL#2 2022 и URL#3 2024), это не является ограничением, и она может содержать множество URL, которые соответствуют существующим веб-ресурсам хостинга содержимого.
[90] Также на Фиг. 2 представлен сервер 118 поисковой системы, содержащий приложение 120 поискового робота. Как было вкратце описано ранее, приложение 120 поискового робота выполнено с возможностью периодически получать доступ к серверу 114 хостинга содержимого для идентификации и получения элементов 206, 2062, и 2064 содержимого. Приложение 120 поискового робота далее выполнено с возможностью создавать индекс просмотренных элементов 206, 2062 и 2064 содержимого в базе 126 данных поискового робота. Например, как представлено на Фиг. 2, база 126 данных поискового робота содержит указание на элементы 206, 2062, 2064 содержимого, например URL веб-ресурсов 204, 2042 и 2044 хостинга содержимого.
[91] На Фиг. 3 представлено схематичное изображение архитектуры 300, демонстрирующее пример сервера 122 веб-ресурсов, который выполнен в соответствии с некоторыми вариантами осуществления настоящего технического решения. Сервер 122 веб-ресурсов в целом функционирует как хранилище для множества веб-ресурсов 124 (индивидуальные веб-ресурсы перенумерованы как 304, 3042, 3044), сохраняя их в базу 123 данных.
[92] В некоторых вариантах осуществления настоящего технического решения, база 123 данных содержит список идентификаторов, таких как URL (представлены как URL#1 302, URL#2 3022, и URL#3 3024), которые соответствуют URL веб-ресурсов (304, 3042, 3044 соответственно). То, как именно реализованы веб-ресурсы 304, 3042 и 3044, никак конкретно не ограничено, и может соответствовать веб-ресурсу, принадлежащему множеству веб-платформ, на которых может быть осуществлен «репост» (вторичное размещение) элементов 206, 2062, 2064 содержимого. Например, веб-ресурсы 304, 3042, 3044 могут включать в себя веб-ресурсы, которые используются развлекательными новостными сервисами (например, BuzzFeed™), сервисами социальных сетей (например, Reddit™, 9GAG™), блогами (например, WordPress™) и так далее, а также любой их комбинацией.
[93] В общем случае, пользователь веб-сервиса загружает (или размещает) на веб-сервис новый веб-ресурс, создается уникальный URL для этого веб-ресурса, который сохраняется в базе 123 данных. Например, если пользователь блога ежедневно размещает в нем различные посты, каждый из них будет обладать различным URL и каждый URL будет храниться в базе 123 данных. Тем не менее это не всегда так. Например, в веб-ресурсе, на котором размещена «разветвленная дискуссия» между несколькими пользователями (например, Reddit™ или область «комментариев» в блоге, например, WordPress™ и тому подобное), посты каждого пользователя только немного изменяют содержимое веб-ресурса, но не создают новый веб-ресурс.
[94] Таким образом, несмотря на то, что база 123 данных представлена как содержащая только три URL (URL#1 302, URL#2 3022 и URL#3 3024), это не является ограничением, и она может содержать множество URL существующих веб-ресурсов 124.
[95] В некоторых вариантах осуществления настоящего технического решения, один или несколько веб-ресурсов 124 могут содержать ссылку или внедренный объект или их комбинацию, ведущие на веб-ресурсы 204, 2042 и 2044 хостинга содержимого. Например, веб-ресурс 3042 содержит ссылку 306 на ресурс 2042 хостинга содержимого, на котором расположен элемент 2062 содержимого. В другом варианте осуществления настоящего технического решения, веб-ресурс 3044 содержит внедренный объект 308, соответствующий элементу 2064 содержимого, который расположен на веб-ресурсе 2044 хостинга содержимого.
[96] Также на Фиг. 3 представлен сервер 118 поисковой системы, содержащий приложение 120 поискового робота. Аналогично приложению 120 поискового робота, представленному на Фиг. 2, приложение 120 поискового робота выполнено с возможностью серверу 122 веб-ресурсов идентифицировать и получать веб-ресурсы 304, 3042 и 3044. Поисковый робот далее выполнен с возможностью создавать индекс просмотренных элементов 304, 3042 и 3044 содержимого в базе 126 данных поискового робота. Например, приложение 120 поискового робота периодически получает доступ к базе 123 данных для идентификации и извлечения веб-ресурсов 124 путем получения доступа к URL, которые содержатся в базе 123 данных, или для обновления ранее просмотренных веб-ресурсов 124 и сохранения указания на просмотренные веб-ресурсы 124 в базе 126 данных поискового робота.
[97] В некоторых неограничивающих вариантах осуществления настоящего технического решения, приложение 120 поискового робота в процессе сохранения извлеченных веб-ресурсов 124 извлекает текст, метаданные или другие типы данных, содержащихся в элементах 206, 2062, 2064 содержимого. Таким образом, приложение 120 поискового робота идентифицирует любой URL (например, гиперссылки 306), содержащиеся в просмотренных веб-ресурсах 124, или встроенные объекты 308, содержащихся в них. Например, как представлено на Фиг. 3, база 123 данных содержит список URL просмотренных веб-ресурсов 124, а именно URL#1 302, URL#2 3022 и URL#3 3024. Рядом с каждым URL в базе 123 данных также содержатся данные о любых ссылках или встроенных объектах, которые содержатся в соответствующих URL. Например, поскольку веб-ресурс 304 не содержит никаких ссылок или встроенных объектов, база 123 данных не связывает его ни с каким из веб-ресурсов 204, 2042 и 2044 хостинга содержимого. А веб-ресурс 3042 содержит ссылку 306, направленную на веб-ресурс 2042 хостинга содержимого, поэтому база 123 данных содержит указание на то, что URL#2 3022 содержит ссылку на веб-ресурс 2042 хостинга содержимого. В дальнейшем примере, веб-ресурс 3044 содержит встроенный объект 308, ведущий к элементу 2064 содержимого, расположенному на веб-ресурсе 2044 хостинга содержимого, и, следовательно, база 123 данных содержит указание на то, что URL#3 3024 содержит встроенный объект элемента 2064 содержимого веб-ресурса 2044 хостинга содержимого.
[98] На Фиг. 4 представлено схематичное изображение архитектуры 400, демонстрирующее пример журналов 128, выполненный в соответствии с некоторыми вариантами осуществления настоящего технического решения. Журналы 128 в общем случае функционируют для сбора поисковых активностей и просматривают активности пользователя, который использует электронное устройство 102, в сети. Конкретнее, браузерные активности, также упоминаемые как история браузера, относящиеся к пользователю, который использует браузерное приложение 103, сохраняются в журнале 132 браузера, а поисковые активности, также упоминаемые как поисковая история, относящиеся к пользователю, который использует поисковое приложение 104, сохраняются в поисковых журналах 130.
[99] В общем случае, способ, в соответствии с которым собирается браузерная активность пользователя в журналы 132 браузера, никак конкретно не ограничен. Например, браузерные активности могут быть получены из различных источников, таких как просматривание журналов браузера пользовательских устройств, а также другая предоставляемая пользователями информация. Кроме того, пользователи браузерного приложения 103 могут давать согласие на то, чтобы данные из их истории браузера передавались в журналы 132 браузера. Соответственно, большое число браузерных активностей пользователя может быть получено из браузерного приложения 103 и сохранено в журналах 132 браузера. То, как именно браузерное приложение 103 передает данные о браузерной активности, никак конкретно не ограничено, и, следовательно, они могут передаваться через соответствующую линию (не пронумерована), как представлено, или через сеть 110 передачи данных.
[100] В общем случае, в отличие от истории браузера, которая изначально сохраняется браузерным приложением 103, поисковая история сохраняется в удаленной базе данных, которая управляется поставщиком поисковой системы, например, в поисковых журналах 130. Поиски, которые проводятся с помощью, например, без установления ограничений, «поисковой строки» и выводов, пользователем поискового приложения 104, регистрируются поисковым приложением 104 в поисковые журналы 130. То, как именно поисковое приложение 104 передает данные о поисковой активности, никак конкретно не ограничено, и, следовательно, они могут передаваться через соответствующую линию (не пронумерована), как представлено, или через сеть передачи данных.
[101] Несмотря на то, что журналы 128, поисковые журналы 130 и журналы 132 браузера представлены в виде отдельных элементов, соединенных через соответствующую линию, это не является ограничением, и они могут представлять собой единый элемент.
[102] На Фиг. 5 представлено схематическое изображение архитектуры 500, иллюстрирующей пример сервера 134 прогнозирования популярности, API 116 сервиса хостинга содержимого, журналов 128 и базы 126 данных поискового робота в соответствии с вариантом осуществления настоящего технического решения. Сервер 134 прогнозирования популярности взаимодействует с API 116 сервиса хостинга содержимого, журналами 128 и базой 126 данных поискового робота для прогнозирования популярности элемента содержимого.
[103] В некоторых неограничивающих вариантах осуществления настоящего технического решения, база 126 данных поискового робота передает пакет 136 данных, который содержит указание (например, URL), например, на веб-ресурс 204 хостинга содержимого, на котором расположен элемент 206 содержимого.
[104] База 126 данных поискового робота также передает пакет 137 данных, который содержит статистические веб-данные, относящиеся к элементу 206 содержимого. С учетом того, что приложение 120 поискового робота извлекает текст, метаданные или другой тип данных, которые отражают содержимое просмотренных веб-ресурсов 124, пакет 137 данных содержит статистическую информацию о ссылках и встроенных объектах, доступных в сети, которые ведут, например, на элемент 206 содержимого.
[105] В некоторых неограничивающих вариантах реализации сервера журналы 128, которые включают в себя поисковые журналы 130 и журналы 132 браузера, передают пакет 138 данных серверу 134 прогнозирования популярности, причем пакет 138 данных содержит поисковые и браузерные активности одного или нескольких пользователей.
[106] В другом варианте осуществления настоящего технического решения, API 116 сервиса хостинга содержимого передает пакет 140 данных серверу 134 прогнозирования данных. Пакет 140 данных включает в себя статистические данные, собранные поставщиком хостинга содержимого, относящиеся, например, к элементу 206 содержимого.
[107] На основе по меньшей мере полученного пакета 136, 137, 138 данных, сервер 134 прогнозирования популярности может быть реализован с помощью алгоритма машинного обучения для оценки параметра прогнозирования популярности, например элемента 206 содержимого. В другом варианте осуществления настоящего технического решения, на основе по меньшей мере пакета 136, 137, 138, 140 данных, сервер 134 прогнозирования популярности может быть реализован с помощью алгоритма машинного обучения для оценки параметра прогнозирования популярности, например элемента 206 содержимого.
[108] Оценка параметра прогнозирования популярности
[109] В общем случае, параметр прогнозирования популярности представляет прогнозирование общего числа просмотров данного элемента содержимого на данный момент времени.
[110] Сервер 134 прогнозирования популярности определяет параметр прогнозирования популярности после указания, например, на элемент 206 содержимого, который получен от базы 126 данных поискового робота. Алгоритм машинного обучения, используемый сервером 134 прогнозирования популярности, обучается (будет более подробно описано ниже) для прогнозирования части общего числа просмотров, которые будут осуществлены к данному моменту времени.
[111] Прогнозирование популярности элемента содержимого с помощью алгоритма машинного обучения
[112] В некоторых неограничивающих вариантах осуществления настоящего технического решения, для того, чтобы сервер 134 прогнозирования популярности осуществлял прогнозирование параметра популярности элемента содержимого, может быть использован алгоритм машинного обучения.
[113] Алгоритм машинного обучения, использующийся сервером 134 прогнозирования популярности, обучается для прогнозирования популярности элемента содержимого с помощью модели Фридмана градиентного бустинга деревьев решений и линейной модели влияния.
[114] Как будет описано ниже, для алгоритма машинного обучения требуется набор связанных характеристик, например элемент 206 содержимого, для выполнения прогнозирования параметра популярности.
[115] Как известно специалистам в данной области техники, для того чтобы алгоритм машинного обучения прогнозировал популярность, его необходимо «обучить» с помощью набора обучающих данных.
[116] В некоторых неограничивающих вариантах осуществления настоящего технического решения обучающие данные могут включать в себя: а) пакет 136 данных, предоставленный базой 126 данных поискового робота, который включает в себя указание (например, URL), например, на веб-ресурсы 204, 2042 и 2066 хостинга содержимого, на которых расположены элементы 206, 2062 и 2064 содержимого; b) пакет 137 данных, предоставляемых базой 126 данных поискового робота, который представляет статистические веб-данные, связанные с элементом содержимого, причем веб-данные включают в себя по меньшей мере одно из встроенных объектов или ссылок на веб-ресурсы 204, 2042 и 2044 хостинга содержимого; и с) пакет 138 данных, предоставляемый журналами 128, представляющими указания на поисковые активности пользователей, и содержимое, просмотренное пользователями, связанное с элементом содержимого.
[117] В другом варианте осуществления настоящего технического решения, обучающие данные могут включать в себя дополнительный набор обучающих данных, пакет 140 данных, предоставленный API 116 сервиса хостинга содержимого, представляющим список статистических данных, связанных с конкретным элементом содержимого, которое было собрано поставщиком хостинга содержимого, например статистические и динамические характеристики элемента содержимого (описаны ниже).
[118] Подробное описание пакетов 136, 137, 138 и 140 данных представлено ниже.
[119] Пакет 140 данных. Как описано ранее, пакет 140 данных получают от API 116 сервиса хостинга содержимого, и он содержит статистические данные в отношении элементов 206, 2062, 2064 содержимого, размещенного на веб-ресурсах 204, 2042, 2046 хостинга содержимого, хранящихся в базе 115 данных.
[120] В некоторых неограничивающих вариантах осуществления настоящего технического решения, данные, содержащиеся в пакете 140 данных, могут быть разделены на два типа. К первому типу данных относится набор статистических характеристик соответствующих элементов 206, 2062 и 2064 содержимого. Ко второму типу данных относится набор динамических характеристик соответствующих элементов 206, 2062 и 2064 содержимого.
[121] В широком смысле «статистические» характеристики относятся к характеристикам, описывающим элементы 206, 2062 и 2064 содержимого, которые не зависят от просмотров пользователей. Список статистических характеристик не является исчерпывающим. Примерами подобных характеристик могут служить:
- Продолжительность элемента содержимого в секундах;
- Категория элемента содержимого;
- Длина названия элемента содержимого, выраженная в количестве символов;
- День недели, соответствующий дате загрузки элемента содержимого;
- Конкретный час, соответствующий времени загрузки элемента содержимого;
- Возраст автора, выраженный в количестве дней, прошедших с момента даты его регистрации;
- Число элементов содержимого, загруженных автором;
- Общее время в секундах, которое было потрачено зрителями на просмотр элементов содержимого от этого автора;
- Число друзей автора; и
- Число подписчиков автора.
[122] В широком смысле, «динамическая» характеристика относится к характеристике, описывающей элементы 206, 2062 и 2064 содержимого, которая описывает взаимодействие между элементом 206, 2062 и 2064 содержимого и пользователем. Список динамических характеристик также не является исчерпывающим. Примерами подобных характеристик могут служить:
- Число всех комментариев к элементу содержимого;
- Число «лайков» (оценок «мне нравится»), проставленных элементу содержимого;
- Число «дислайков» (оценок «мне не нравится»), проставленных элементу содержимого;
- Минимальный рейтинг, назначенный элементу содержимого;
- Максимальный рейтинг, назначенный элементу содержимого;
- Средний рейтинг, назначенный элементу содержимого; и
- Число дней, прошедших с даты последнего обновления.
[123] Пакет 138 данных. Как было описано ранее, пакет 138 данных получают из журналов 128.
[124] В некоторых неограничивающих вариантах осуществления настоящего технического решения, пакет 138 данных может быть разделен на два типа данных. Первый тип данных, изначально хранящийся в поисковых журналах 130, содержит динамические характеристики из поисковых журналов 130 («динамические-поисковые-журнальные-характеристики»), которые относятся к поисковым активностям пользователя, который использует поисковое приложение 104. Второй тип данных, изначально хранящийся в журналах 132 браузера, содержит динамические характеристики из журналов 132 браузера («динамические-характеристики-журналов-браузера»), которые относятся к браузерным активностям пользователя, использующего браузерное приложение 103.
[125] Список динамических-характеристик-поисковых-журналов не является исчерпывающим. Примерами подобных динамических-характеристик-поисковых-журналов могут служить:
- Число показов URL (Единый Указатель Ресурсов) элемента содержимого на странице результатов поиска (SERP).
- Число кликов на URL элемента содержимого на SERP; и
- Число переходов по URL элемента содержимого на SERP.
[126] Список динамических-характеристик-журналов-браузера не является исчерпывающим. Некоторые примеры динамических-характеристик-журналов-браузера могут включать в себя число посещений URL содержимого, зарегистрированного в журнале 132 браузера.
[127] Пакет 137 данных - Как было описано выше, пакет 137 данных получает база 126 данных поискового робота, которая включает в себя статистическую информацию о ссылках и встроенных объектах, доступных в сети, которые ведут на элементы 206, 2062, 2064 содержимого.
[128] В некоторых неограничивающих вариантах осуществления настоящего технического решения, характеристики веб-ресурсов 124 от общественно доступных ресурсов разделены на агрегированные характеристики («агрегированные-динамические-веб-характеристики») и неагрегированные характеристики («не-агрегированные-динамические-веб-характеристики»). Коротко говоря, агрегированная характеристика - это характеристика, которая агрегирует информацию о количестве элементарных характеристик, которые называются неагрегированными характеристиками. Конкретнее, каждый веб-сайт (хост) является элементарной неагрегированной характеристикой, которая обладает данными об элементе содержимого. Обычно, из-за большого их числа, подобные характеристики агрегируются в небольшое число характеристик, и каждая из которых представляет некоторый аспект элемента содержимого.
[129] Список агрегированных-динамических-веб-характеристик не является исчерпывающим. Примерами подобных агрегированных-динамических-веб-характеристик могут служить:
- число всех встроенных объектов элемента содержимого;
- число всех хостов со встроенными объектами элемента содержимого;
- максимальное число встроенных объектов элемента содержимого на хост;
- среднее число встроенных объектов элемента содержимого на хост;
- максимальное число встроенных объектов элементов содержимого на страницу;
- среднее число встроенных объектов элемента содержимого на страницу;
- число дней, которое прошло с первого встроенного объекта элемента содержимого;
- число дней, которое прошло с последнего встроенного объекта элемента содержимого;
- среднее число дней, которое прошло с любого встроенного объекта элемента содержимого;
- число всех ссылок на элемент содержимого;
- число всех хостов со ссылками на элемент содержимого;
- максимальное число ссылок на элемент содержимого на хост;
- среднее число ссылок на элемент содержимого на хост;
- число дней, которое прошло со дня первой ссылки;
- число дней, которое прошло с последнего раза, когда элемент содержимого был связан со ссылкой; и
- среднее число дней, которое прошло с момента когда была опубликована какая-либо ссылка на элемент содержимого.
[130] Список не-агрегированных-динамических-веб-характеристик не является исчерпывающим. Примерами подобных не-агрегированных-динамических-веб-характеристик могут служить:
- список хостов с временными отметками встроенных объектов элемента содержимого; и
- список хостов с временными отметками ссылок на элемент содержимого.
[131] Пакет 136 данных - как было описано выше, пакет 136 данных получает база 126 данных поискового робота и он содержит указание (например, URL), например, веб-ресурсов 204, 2042 и 2046 хостинга содержимого, на которых размещены элементы 206, 2062 и 2064 содержимого. В некоторых вариантах осуществления настоящего технического решения приложение 120 поискового робота регулярно посматривает ленты RSS сервера 114 хостинга содержимого с доступными элементами содержимого и сохраняет указание, например URL, на веб-ресурсы 204, 2042 и 2044 хостинга содержимого в базе 126 данных поискового робота.
[132] Методология моделирования алгоритма машинного обучения
[133] В первую очередь, определяется период наблюдения. Для каждого дня в этот период сервер 134 прогнозирования популярности получает пакет 136 данных от базы 126 данных поискового робота. Как было описано ранее, пакет 136 содержит указание (например, URL), например, на веб-ресурсы 204, 2042 и 2044 хостинга содержимого, на которых размещены элементы 206, 2062 и 2066 содержимого соответственно.
[134] В другом варианте осуществления настоящего технического решения, в конце каждого дня пакет 140 данных получают от API 116 сервиса хостинга содержимого.
[135] По окончании периода наблюдения получают пакеты 137 и 138 данных.
[136] С помощью различных пакетов данных алгоритм машинного обучения сервера 132 прогнозирования популярности обучается для прогнозирования популярности элемента содержимого, который размещен на сервере 114 хостинга содержимого. Достаточно сказать, что в некоторых неограничивающих вариантах осуществления настоящего технического решения различные полученные характеристики используются как обучающий набор данных для модели Фридмана градиентного бустинга деревьев решений. В другом варианте осуществления настоящего технического решения не-агрегированные-динамические-характеристики используются как обучающий набор данных для линейной модели влияния. В дополнительном варианте осуществления настоящего технического решения, вывод линейной модели влияния может быть использован как входная характеристика в модели Фридмана градиентного бустинга деревьев решений.
[137] На Фиг. 6 представлен способ 600 прогнозирования популярности содержимого в соответствии с одним вариантом осуществления настоящего технического решения. Способ 600 может соответствовать различным аспектам работы сервера 134 прогнозирования популярности. Следует отметить, что некоторые этапы способа 600 могут выполняться параллельно или в различной последовательности и что блок-схема, представленная на Фиг. 6, служит только для иллюстративных целей.
[138] Этап 602 - получение из базы данных поискового робота указания на элемент содержимого, размещенного на веб-ресурсе хостинга содержимого.
[139] Способ начинается на этапе 602, где сервер 134 прогнозирования популярности получает из базы 126 данных поискового робота указание на элемент содержимого. Этап 602 выполняется в ответ на то, что приложение 120 поискового робота просматривает сервер 114 хостинга содержимого для извлечения нового загруженного элемента содержимого и индексирования его в базе 126 данных поискового робота. Этап 602 также может быть выполнен в ответ на определение того, что прогнозирование популярности элемента содержимого, который сохранен в базе 126 данных поискового робота, еще не было осуществлено.
[140] Способ 600 будет описан ниже со ссылкой на один сценарий, который соответствует элементу 206 содержимого. Важно иметь в виду, что сценарий, который представлен ниже, служит только для целей иллюстрации, и настоящее техническое решение никаким образом не ограничивается представленным ниже сценарием.
[141] Сценарий 1: Пользователь загружает элемент 206 содержимого (Фиг. 2) с помощью сервиса хостинга содержимого. Создается веб-ресурс 204 хостинга содержимого, на котором расположен элемент 206 содержимого. База 115 данных обновляется таким образом, чтобы она включала в себя указание на веб-ресурс 204 хостинга содержимого, например, URL #1 202. В данном сценарии элемент 206 содержимого представляет собой видео с гиперактивым котом, который прыгает в шляпе, озаглавленное «Веселый кот в шляпе» пользователем, который загрузил это видео. Указание на элемент 206 содержимого определяется как http://www.example.com/party-cat-in-a-hat.
[142] Приложение 120 поискового робота, которое регулярно просматривает веб-ресурсы 204 хостинга содержимого, размещенные на сервере 114 хостинга содержимого через базу 115 данных, получает URL http://www.example.com/party-cat-in-a-hat и сохраняет его в базе 126 данных поискового робота. База 126 данных поискового робота далее передает пакет 136 данных серверу 134 прогнозирования популярности, который содержит указание на элемент 206 содержимого (например, URL#1 202).
[143] Этап 604 - получение из журналов, которые включают в себя поисковый журнал и журнал браузера, данных из поисковых журналов и журналов браузера, причем данные из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера поисковой системы, направленную на элемент содержимого, а данные из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения, направленную на элемент содержимого.
[144] На этапе 604 сервер 134 прогнозирования популярности получает из журналов 128 данные из поисковых журналов и данные из журналов браузера. Данные из поисковых журналов представляют поиски, проведенные одним или несколькими пользователями, направленные на элемент 206 содержимого, с помощью поискового приложения 104, которые фиксируются с помощью поискового приложения 104 в поисковых журналах 130. Данные из журналов браузера представляют историю браузера, связанную с элементом 206 содержимого, с помощью браузерного приложения 103, которая изначально фиксируется в браузерном приложении 103 и далее передается в журналы 132 браузера. Опять же, процесс сбора истории браузера браузерным приложением 103 в журналы 132 браузера никак конкретно не ограничен и может осуществляться пользователем.
[145] Этап 604 выполняется в ответ на то, что сервер 134 прогнозирования популярности получает пакет 136 данных. Излишне упоминать, что поисковые журналы 130, которые содержат данные журналов, и журналы 132 браузера могут быть реализованы отдельно от журналов 128. То есть сервер 134 прогнозирования популярности может получать соответствующие данные от каждого из поисковых журналов 130 и журналов 132 браузера без использования журналов 128.
[146] Сценарий 1: Когда элемент 206 содержимого становится доступным в сети, множество пользователей получают доступ к элементу 206 содержимого путем поучения доступа к URL http://www.example.com/party-cat-in-a-hat (в том случае, если элемент 206 содержимого является публичным). В общем случае, множество пользователей может получить доступ к элементу 206 содержимого путем прямого ввода URL адреса http://www.example.com/party-cat-in-a-hat в строку URL браузерного приложения 103 или путем проведения поиска в поисковом приложении 104 с помощью «поисковых строк», таких как «видео, веселый кот в шляпе».
[147] Журналы 128 передают пакет 138 данных серверу 134 прогнозирования популярности. Пакет 138 данных включает в себя два типа данных: i) данные из поисковых журналов, относящиеся к «поисковым строкам», введенным множеством пользователей поискового приложения 104, например содержимое SERP, которое отображается как результат «поискового запроса», и ii) данные из журналов браузера, относящиеся к истории браузера множества пользователей с помощью браузерного приложения 103.
[148] Излишне говорить, что множество данных, содержащихся в пакете 138 данных, направлено на элемент 206 содержимого. Конкретнее, данные из поисковых журналов, передающиеся через пакет 136 данных, относятся, среди прочего, к указанию на элемент 206 содержимого, например к числу показов URL http://www.example.com/party-cat-in-a-hat на SERP, причем URL является ресурсом, который соответствует запросам пользователя. Кроме того, данные из журналов браузера, которые передаются с помощью пакета 138 данных, также относятся к указанию на элемент 206 содержимого, например число посещений URL http://www.example.com/party-cat-in-a-hat. [149] Этап 606 - получение из базы данных поискового робота статистических веб-данных, которые представляют по меньшей мере одно из встроенных объектов или ссылок на один или несколько веб-ресурсов, которые ведут на элемент содержимого.
[150] На этапе 606 сервер 134 прогнозирования популярности получает из базы 126 данных поискового робота, статические веб-данные, относящиеся к ссылкам и встроенным объектам, которые доступны в сети (т.е. пакет 137 данных), который направлен на указание на элемент 206 содержимого, например, URL #1 202.
[151] Сценарий 1: Поскольку элемент 206 данных является публично доступным в сети, множество пользователей, которым это видео кажется интересным, может делиться по сети этим видео в дни, следующие за днем первоначальной загрузки. Например, пользователь, у которого есть блог о животных, может опубликовать новую запись на веб-ресурсе 3042 со ссылкой http://www.example.com/party-cat-in-a-hat, что позволяет читателям блога нажимать на ссылку и получать прямой доступ к веб-ресурсу 204 хостинга содержимого для просмотра видео. С другой стороны, журналист сервиса новостей о животных может опубликовать новостную статью на веб-ресурсе 3044 со встроенным объектом видео, что позволяет читателям напрямую просматривать элемент 206 данных, без перенаправления на веб-ресурс хостинга содержимого.
[152] После того как веб-ресурсы 3042 и 3044 были созданы, они сохраняются на сервере 122 веб-ресурсов через базу 123 данных. Как упоминалось ранее, приложение 120 поискового робота периодически получает доступ к базе 123 данных и сохраняет извлеченный текст, метаданные и другой тип данных, отражающий указание на элемент 206 содержимого, например, URL http://www.example.com/party-cat-in-a-hat.
[153] База 126 данных поискового робота передает серверу 134 прогнозирования популярности пакет 137 данных, который содержит веб-данные, относящиеся к ссылкам или встроенным объектам, доступным по сети, и ведущим к http://www.example.com/party-cat-in-a-hat.
[154] Этап 608 - прогнозирование популярности содержимого, основанное по меньшей мере частично на (i) данных из поискового журнала; (ii) данных из журнала браузера; и (iii) статистических веб-данных.
[155] Наконец, на этапе 608, на основе по меньшей мере (i) данных из поискового журнала; (ii) данных из журнала браузера и (iii) статистических веб-данных, сервер 134 прогнозирования популярности прогнозирует популярность элемента содержимого.
[156] Сценарий 1: С помощью данных, полученных из пакетов 137 и 138 данных, алгоритм машинного обучения сервера 134 прогнозирования популярности создает параметр прогнозирования популярности для элемента 206 содержимого.
[157] Затем способ 600 завершается.
[158] Опциональные усовершенствования способа 600
[159] В другом варианте осуществления настоящего технического решения сервер 134 прогнозирования популярности также может получать пакет 140 данных от API 116 сервиса хостинга содержимого, который содержит статистические данные, собранные поставщиком хостинга содержимого в отношении элемента 206 содержимого. В некоторых неограничивающих вариантах осуществления настоящего технического решения, алгоритм машинного обучения сервера 134 прогнозирования популярности выполнен с возможностью создавать параметр прогнозирования популярности элемента 206 содержимого с помощью данных, полученных из пакетов 137, 138 и 140 данных.
[160] Одно из основных применений параметра предсказания популярности содержимого - правильное ранжирование элементов содержимого по их популярности. Конкретнее, он позволяет компании-оператору отображать наиболее популярные элементы на главной странице, которая всегда привлекает большую часть пользовательского трафика.
[161] В некоторых вариантах осуществления настоящего технического решения, параллельно с выполнением способа 600 сервер 134 прогнозирования популярности может собирать различные характеристики, представленные выше, и улучшать представленный алгоритм машинного обучения.
[162] Важно иметь в виду, что могут быть использованы и другие способы улучшения прогнозирования популярности содержимого. Специалисты в данной области техники, обладающие преимуществами от прочтения описания настоящего технического решения, будут способны выбрать правильные алгоритмы прогнозирования популярности содержимого, которые бы учитывали журналы и веб-характеристики, как было описано в соответствии с вариантами осуществления настоящего технического решения.
[163] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.
[164] Варианты осуществления настоящего технического решения можно изложить следующим образом, в виде пронумерованных пунктов:
[165] ПУНКТ 1. Способ (600) прогнозирования популярности содержимого, способ (600) выполняется на сервере, сервер соединен с сетью (110) передачи данных, сеть (110) передачи данных соединена с сервером (118) поисковой системы, и сервером (114) хостинга содержимого, способ (600) включает в себя:
a) получение (602) из базы (126) данных поискового робота с сервера поисковой системы указания (136) на элемент (206) содержимого, размещенного на веб-ресурсе (204) хостинга содержимого сервера хостинга содержимого;
b) получение (604) с сервера поисковой системы из журналов (128), которые включают в себя поисковый журнал (130) и журнал (132) браузера, данных (138) из поисковых журналов и данные (138) из журналов браузера, причем данные (138) из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера (118) поисковой системы, направленную на элемент (206) содержимого, а данные (138) из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения (103), направленную на элемент (206) содержимого;
c) получение (606) из базы (126) данных поискового робота с сервера поисковой системы статистических веб-данных (137), которые представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на один или несколько веб-ресурсов (124), которые ведут на элемент (206) содержимого; и
d) прогнозирование (608) популярности содержимого, основанное по меньшей мере частично на (i) данных (138) из поискового журнала; (ii) данных (138) из журнала браузера и (iii) статистических веб-данных (137).
[166] ПУНКТ 2. Способ по п. 1, дополнительно включающий в себя:
получение от сервера (114) хостинга содержимого через интерфейс (116) программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента (140) содержимого, причем (i) статистические характеристики включают в себя характеристики, описывающие элемент (206) содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент (206) содержимого, которые учитывают отношение между элементом (206) содержимого и взаимодействиями пользователя;
и в котором прогнозирование включает в себя:
прогнозирование популярности содержимого на основе, по меньшей мере частично, (i) данных (138) из поискового журнала; (ii) данных (138) из журнала браузера; (iii) статистических веб-данных (137) и (iv) статистических и динамических характеристик (140), полученных через API (116) сервиса хостинга содержимого.
[167] ПУНКТ 3. Способ по любому из пп. 1 и 2, в котором сервер реализован как часть сервера (118) поисковой системы.
[168] ПУНКТ 4. Способ по любому из пп. 1 и 2, в котором поисковые журналы (130) реализованы как часть сервера (118) поисковой системы.
[169] ПУНКТ 5. Способ по любому из пп. 1 и 2, в котором журналы (132) браузера реализованы как часть сервера (118) поисковой системы.
[170] ПУНКТ 6. Способ по любому из пп. 1-5, в котором сервер (114) хостинга содержимого, на котором хранится веб-ресурс (204) хостинга содержимого, на котором размещен элемент (206) содержимого, был ранее просмотрен поисковым роботом, и указание на просмотренный поисковым роботом веб-ресурс (204) хостинга содержимого хранится в базе (126) данных поискового робота.
[171] ПУНКТ 7. Способ по любому из пп. 1-6, в котором статистические веб-данные (137) представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемент (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), которые были ранее просмотрены поисковым роботом с сервера (122) веб-ресурсов и сохранены в базе (126) данных поискового робота.
[172] ПУНКТ 8. Способ по любому из пп. 1-7, в котором данные (138) из поисковых журналов включают в себя динамические-характеристики-поисковых-журналов, связанные с элементом (206) содержимого, причем динамические-характеристики-поисковых-журналов включают в себя по меньшей мере одно из:
- число показов URL (Единый Указатель Ресурсов) элемента (206) содержимого на странице результатов поиска (SERP);
- число кликов на URL элемента (206) содержимого на SERP; и
- число переходов по URL элемента (206) содержимого на SERP.
[173] ПУНКТ 9. Способ по любому из пп. 1-8, в котором данные (138) из журнала браузера включают в себя динамические-характеристики-журналов-браузера, связанные с элементом (206) содержимого, динамические-характеристики-журналов-браузера включают в себя число посещений URL элемента (206) содержимого, зарегистрированных в журналах (132) браузера.
[174] ПУНКТ 10. Способ по любому из пп. 1-9, в котором статистические веб-данные (137) представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемент (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), включают в себя агрегированные-динамические-веб-характеристики, связанные с элементом (206) содержимого, причем агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
число всех встроенных объектов (308) элемента (206) содержимого;
число всех хостов со встроенными объектами (308) элемента (206) содержимого;
максимальное число встроенных объектов (308) элемента (206) содержимого на хост;
среднее число встроенных объектов (308) элемента (206) содержимого на хост;
максимальное число встроенных объектов (308) элемента (206) содержимого на страницу;
среднее число встроенных объектов (308) элемента (206) содержимого на страницу;
число дней, которое прошло с первого встроенного объекта (308) элемента (206) содержимого;
число дней, которое прошло с последнего встроенного объекта (308) элемента (206) содержимого;
среднее число дней, которое прошло с любого встроенного объекта (308) элемента (206) содержимого;
число всех ссылок (306) на элемент (206) содержимого;
число всех хостов со ссылками (306) на элемент (206) содержимого;
максимальное число ссылок (306) на элемент (206) содержимого на хост;
среднее число ссылок (306) на элемент (206) содержимого на хост;
число дней, которое прошло со дня первой ссылки (306);
число дней, которое прошло с последнего раза, когда элемент (206) содержимого был связан со ссылкой; и
среднее число дней, которое прошло с момента, когда была опубликована какая-либо ссылка (306) на элемент (206) содержимого.
[175] ПУНКТ 11. Способ по любому из пп. 1-6, в котором статистические веб-данные (137) представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемент (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), включают в себя не-агрегированные-динамические-веб-характеристики, связанные с элементом (206) содержимого, причем не-агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов (308) элемента (206) содержимого; и
- список хостов с временными отметками ссылок (306) на элемент (206) содержимого; и
[176] ПУНКТ 12. Способ по любому из пп. 1-11, в котором прогнозирование популярности содержимого выполняется с помощью алгоритма машинного обучения.
[177] ПУНКТ 13. Способ по п. 12, в котором алгоритм машинного обучения использует модель Фридмана градиентного бустинга деревьев решений.
[178] ПУНКТ 14. Способ по п. 13, в котором модель Фридмана градиентного бустинга деревьев решений получает вывод линейной модели влияния как входную характеристику.
[179] ПУНКТ 15. Способ по п. 14, в котором линейная модель влияния получает не-агрегированную-динамическую-веб-характеристику как входную характеристику.
[180] ПУНКТ 16. Способ по п. 13, включающий в себя обучение алгоритма машинного обучения.
[181] ПУНКТ 17. Способ по п. 16, в котором обучение алгоритма машинного обучения выполняется параллельно с прогнозированием популярности содержимого.
[182] ПУНКТ 18. Способ по любому из пп. 1-17, включающий в себя ранжирование элемента (206) содержимого на основе определенного прогнозирования популярности содержимого.
[183] ПУНКТ 19. Сервер прогнозирования популярности содержимого, выполненный с возможностью соединения по сети (110) передачи данных с сервером (118) поисковой системы и сервером (114) хостинга содержимого, сервер (600) включает в себя:
a) интерфейс связи, выполненный с возможностью устанавливать соединение с сервером (118) поисковой системы через сеть (110) передачи данных;
b) по меньшей мере один компьютерный процессор, функционально соединенный с интерфейсом связи, выполненный с возможностью осуществлять:
i) получение из базы (126) данных поискового робота указания (136) на элемент (206) содержимого, размещенного на веб-ресурсе (204) хостинга содержимого;
ii) получение из журналов (128), которые включают в себя поисковый журнал (130) и журнал (132) браузера, данных (138) из поисковых журналов и данные (138) из журналов браузера, причем данные (138) из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера (118) поисковой системы, направленную на элемент (206) содержимого, а данные (138) из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения (103), направленную на элемент (206) содержимого;
iii) получение из базы (126) данных поискового робота статистических веб-данных (137), которые представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на один или несколько веб-ресурсов (124), которые ведут на элемент (206) содержимого; и
iv) прогнозирование популярности содержимого, основанное по меньшей мере частично на (i) данных (138) из поискового журнала; (ii) данных (138) из журнала браузера и (iii) статистических веб-данных (137).
[184] ПУНКТ 20. Сервер по п. 19, в котором процессор дополнительно выполнен с возможностью осуществлять:
получение от сервера (114) хостинга содержимого через интерфейс (116) программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента (140) содержимого, причем (i) статистические характеристики включают в себя характеристики, описывающие элемент (206) содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент (206) содержимого, которые учитывают отношение между элементом (206) содержимого и взаимодействиями пользователя;
и для осуществления прогнозирования процессор выполнен с возможностью осуществлять:
прогнозирование популярности содержимого на основе, по меньшей мере частично, (i) данных (138) из поискового журнала; (ii) данных (138) из журнала браузера; (iii) статистических веб-данных (137), и (iv) статистических и динамических характеристик (140), полученных через API (116) сервиса хостинга содержимого.
[185] ПУНКТ 21. Сервер по любому из пп. 19 и 20, в котором сервер реализован как часть сервера (118) поисковой системы.
[186] ПУНКТ 22. Сервер по любому из пп. 19 и 20, в котором процессор выполнен с возможностью осуществлять получение из поисковых журналов (130) данных (138) из поисковых журналов при этом поисковые журналы (130) реализованы как часть сервера (118) поисковой системы.
[187] ПУНКТ 23. Сервер по любому из пп. 19 и 20, в котором процессор выполнен с возможностью осуществлять получение из журналов (132) браузера, данных (138), при этом журналы (132) браузера реализованы как часть сервера (118) поисковой системы.
[188] ПУНКТ 24. Сервер по любому из пп. 19-23, в котором процессор выполнен с возможностью получения из базы (126) данных поискового робота указания на просмотренный поисковым роботом веб-ресурс (204) хостинга содержимого, хранящийся в базе (126) данных поискового робота.
[189] ПУНКТ 25. Сервер по любому из пп. 19-24, в котором процессор дополнительно выполнен с возможностью осуществлять:
получение от сервера (114) хостинга содержимого через интерфейс (116) программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента (140) содержимого, статистические веб-данные (137) представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемент (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), которые были ранее просмотрены поисковым роботом с сервера (122) веб-ресурса и сохранены в базе (126) данных поискового робота.
[190] ПУНКТ 26. Сервер по любому из пп. 19-25, в котором процессор выполнен с возможностью осуществлять получение данных (138) из поисковых журналов, которые включают в себя динамические-характеристики-поисковых-журналов, связанные с элементом (206) содержимого, причем динамические-характеристики-поисковых-журналов включают в себя по меньшей мере одно из:
- число показов URL (Единый Указатель Ресурсов) элемента (206) содержимого на странице результатов поиска (SERP);
- число кликов на URL элемента (206) содержимого на SERP; и
- число переходов по URL элемента (206) содержимого на SERP.
[191] ПУНКТ 27. Сервер по любому из пп. 19-26, в котором процессор выполнен с возможностью осуществлять получение данных (138) из журнала браузера, которые включают в себя динамические-характеристики-журналов-браузера, связанные с элементом (206) содержимого, динамические-характеристики-журналов-браузера включают в себя число посещений URL элемента (206) содержимого, зарегистрированных в журналах (132) браузера.
[192] ПУНКТ 28. Сервер по любому из пп. 19-27, в котором процессор выполнен с возможностью осуществлять получение статистических веб-данных (137), которые представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемента (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), включают в себя агрегированные-динамические-веб-характеристики, связанные с элементом (206) содержимого, причем агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
число всех встроенных объектов (308) элемента (206) содержимого;
число всех хостов со встроенными объектами (308) элемента (206) содержимого;
максимальное число встроенных объектов (308) элемента (206) содержимого на хост;
среднее число встроенных объектов (308) элемента (206) содержимого на хост;
максимальное число встроенных объектов (308) элемента (206) содержимого на страницу;
среднее число встроенных объектов (308) элемента (206) содержимого на страницу;
число дней, которое прошло с первого встроенного объекта (308) элемента (206) содержимого;
число дней, которое прошло с последнего встроенного объекта (308) элемента (206) содержимого;
среднее число дней, которое прошло с любого встроенного объекта (308) элемента (206) содержимого;
число всех ссылок (306) на элемент (206) содержимого;
число всех хостов со ссылками (306) на элемент (206) содержимого;
максимальное число ссылок (306) на элемент (206) содержимого на хост;
среднее число ссылок (306) на элемент (206) содержимого на хост;
число дней, которое прошло со дня первой ссылки (306);
число дней, которое прошло с последнего раза, когда элемент (206) содержимого был связан со ссылкой; и
среднее число дней, которое прошло с момента когда была опубликована какая-либо ссылка (306) на элемент (206) содержимого.
[193] ПУНКТ 29 Сервер по любому из пп. 19-24, в котором процессор выполнен с возможностью осуществлять получение списка статистических веб данных, причем статистические веб-данные (137) представляют по меньшей мере одно из встроенных объектов (308) или ссылок (306) на элемент (206) содержимого, которое содержится на одном или нескольких веб-ресурсах (124), включают в себя агрегированные-динамические-веб-характеристики, связанные с элементом (206) содержимого, причем агрегированные-динамические-веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов (308) элемента (206) содержимого; и
- список хостов с временными отметками ссылок (306) на элемент (206) содержимого; и
[194] ПУНКТ 30. Сервер по любому из пп. 19-29, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения.
[195] ПУНКТ 31. Сервер по п. 30, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений.
[196] ПУНКТ 32. Сервер по п. 31, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений, где вывод линейной модели влияния является входной характеристикой.
[197] ПУНКТ 33. Сервер по п. 32, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений, где вывод линейной модели влияния является вводной характеристикой, а входной характеристикой линейной модели влияния является не-агрегированная-динамическая-веб-характеристика.
[198] ПУНКТ 34. Сервер по п. 31, в котором процессор выполнен с возможностью обучения алгоритма машинного обучения.
[199] ПУНКТ 35. Сервер по п. 34, в котором процессор выполнен с возможностью осуществлять обучение алгоритма машинного обучения параллельно с прогнозированием популярности содержимого.
[200] ПУНКТ 36. Сервер по любому из пп. 19-35, в котором процессор выполнен с возможностью ранжирования элемента (206) содержимого на основе определенного прогнозирования популярности содержимого.

Claims (94)

1. Способ прогнозирования популярности содержимого, способ выполняется на сервере, сервер соединен с сетью передачи данных, сеть передачи данных соединена с сервером поисковой системы и сервером хостинга содержимого, способ включает в себя:
получение из базы данных поискового робота с сервера поисковой системы указания на элемент содержимого, размещенного на веб-ресурсе хостинга содержимого сервера хостинга содержимого;
получение из журналов с сервера поисковой системы, которые включают в себя поисковый журнал и журнал браузера, данных из поисковых журналов и журналов браузера, причем данные из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера поисковой системы, направленную на элемент содержимого, а данные из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения, направленную на элемент содержимого;
получение из базы данных поискового робота с сервера поисковой системы статистических веб-данных, которые представляют по меньшей мере одно из встроенных объектов или ссылок на один или несколько веб-ресурсов, которые ведут на элемент содержимого;
прогнозирование популярности содержимого, основанное по меньшей мере частично на данных из поискового журнала; данных из журнала браузера и статистических веб-данных.
2. Способ по п. 1, в котором дополнительно выполняют:
получение от сервера хостинга содержимого через интерфейс программирования приложений (API) сервиса хостинга содержимого списка статистических данных, связанного со статическими и динамическими характеристиками элемента содержимого, причем статистические характеристики включают в себя характеристики, описывающие элемент содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент содержимого, которые учитывают отношение между элементом содержимого и взаимодействиями пользователя;
и в котором осуществляют:
прогнозирование популярности содержимого на основе по меньшей мере частично данных из поискового журнала; данных из журнала браузера; статистических веб-данных и статистических и динамических характеристик, полученных через API сервиса хостинга содержимого.
3. Способ по п. 1, в котором сервер реализуют как часть сервера поисковой системы.
4. Способ по п. 1, в котором поисковые журналы реализуют как часть сервера поисковой системы.
5. Способ по п. 1, в котором журналы браузера реализуют как часть сервера поисковой системы.
6. Способ по п. 1, в котором сервер хостинга содержимого, на котором хранится веб-ресурс хостинга содержимого, на котором размещен элемент содержимого, был ранее просмотрен поисковым роботом, и указание на просмотренный поисковым роботом веб-ресурс хостинга содержимого хранится в базе данных поискового робота.
7. Способ по п. 1, в котором статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, заранее просматривают поисковым роботом с сервера веб-ресурсов и сохраняют в базе данных поискового робота.
8. Способ по п. 1, в котором данные из поисковых журналов включают в себя динамические характеристики поисковых журналов, связанные с элементом содержимого, причем динамические характеристики поисковых журналов включают в себя по меньшей мере одно из:
число показов URL (Единый Указатель Ресурсов) элемента содержимого на странице результатов поиска (SERP);
число кликов на URL элемента содержимого на SERP; и,
число переходов по URL элемента содержимого на SERP.
9. Способ по п. 1, в котором данные из журнала браузера включают в себя динамические характеристики журналов браузера, связанные с элементом содержимого, динамические характеристики журналов браузера включают в себя число посещений URL элемента содержимого, зарегистрированных в журналах браузера.
10. Способ по п. 1, в котором статистические веб-данные, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя агрегированные динамические веб-характеристики, связанные с элементом содержимого, причем агрегированные динамические веб-характеристики включают в себя по меньшей мере одно из:
- число всех встроенных объектов элемента содержимого;
- число всех хостов со встроенными объектами элемента содержимого;
- максимальное число встроенных объектов элемента содержимого на хост;
- среднее число встроенных объектов элемента содержимого на хост;
- максимальное число встроенных объектов элемента содержимого на страницу;
- среднее число встроенных объектов элемента содержимого на страницу;
- число дней, которое прошло с первого встроенного объекта элемента содержимого;
- число дней, которое прошло с последнего встроенного объекта элемента содержимого;
- среднее число дней, которое прошло с любого встроенного объекта элемента содержимого;
- число всех ссылок на элемент содержимого;
- число всех хостов со ссылками на элемент содержимого;
- максимальное число ссылок на элемент содержимого на хост;
- среднее число ссылок на элемент содержимого на хост;
- число дней, которое прошло со дня первой ссылки;
- число дней, которое прошло с последнего раза, когда элемент содержимого был связан со ссылкой; и
- среднее число дней, которое прошло с момента, когда была опубликована какая-либо ссылка на элемент содержимого.
11. Способ по п. 1, в котором статистические веб-данные представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя неагрегированные динамические веб-характеристики, связанные с элементом содержимого, причем неагрегированные динамические веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов элемента содержимого; и
- список хостов с временными отметками ссылок на элемент содержимого.
12. Способ по п. 1, в котором прогнозирование популярности содержимого выполняют с помощью алгоритма машинного обучения.
13. Способ по п. 12, в котором алгоритм машинного обучения использует модель Фридмана градиентного бустинга деревьев решений.
14. Способ по п. 13, в котором модель Фридмана градиентного бустинга деревьев решений получает вывод линейной модели влияния как входную характеристику.
15. Способ по п. 14, в котором линейная модель влияния получает неагрегированную динамическую веб-характеристику как входную характеристику.
16. Способ по п. 13, в котором выполняют обучение алгоритма машинного обучения.
17. Способ по п. 16, в котором обучение алгоритма машинного обучения выполняют параллельно с прогнозированием популярности содержимого.
18. Способ по п. 1, в котором выполняют ранжирование элемента содержимого на основе определенного прогнозирования популярности содержимого.
19. Сервер прогнозирования популярности содержимого, выполненный с возможностью соединения по сети передачи данных с сервером поисковой системы и сервером хостинга содержимого, сервер включает в себя:
интерфейс связи, выполненный с возможностью устанавливать соединение с сервером поисковой системы через сеть передачи данных;
по меньшей мере один компьютерный процессор, функционально соединенный с интерфейсом связи, выполненный с возможностью осуществлять:
получение из базы данных поискового робота с сервера поисковой системы указания на элемент содержимого, размещенного на веб-ресурсе хостинга содержимого сервера хостинга содержимого;
получение из журналов, которые включают в себя поисковый журнал и журнал браузера, данных из поисковых журналов и журналов браузера, причем данные из поискового журнала представляют собой поисковую активность одного или нескольких пользователей сервера поисковой системы, направленную на элемент содержимого, а данные из журнала браузера представляют собой браузерную активность одного или нескольких пользователей браузерного приложения, направленную на элемент содержимого;
получение из базы данных поискового робота с сервера поисковой системы статистических веб-данных, которые представляют по меньшей мере одно из встроенных объектов или ссылок на один или несколько веб-ресурсов, которые ведут на элемент содержимого;
прогнозирование популярности содержимого, основанное по меньшей мере частично на данных из поискового журнала; данных из журнала браузера; и статистических веб-данных.
20. Сервер по п. 19, в котором процессор дополнительно выполнен с возможностью осуществлять:
получение от сервера хостинга содержимого через интерфейс программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента содержимого, причем статистические характеристики включают в себя характеристики, описывающие элемент содержимого, которые остаются независимыми от просмотров пользователей, а динамические характеристики включают в себя характеристики, описывающие элемент содержимого, которые учитывают отношение между элементом содержимого и взаимодействиями пользователя;
и для осуществления прогнозирования процессор выполнен с возможностью осуществлять:
прогнозирование популярности содержимого на основе по меньшей мере частично данных из поискового журнала; данных из журнала браузера; статистических веб-данных и статистических и динамических характеристик, полученных через API сервиса хостинга содержимого.
21. Сервер по п. 19, в котором сервер реализован как часть сервера поисковой системы.
22. Сервер по п. 19, в котором в котором процессор выполнен с возможностью осуществлять получение данных из поисковых журналов, при этом поисковые журналы реализованы как часть сервера поисковой системы.
23. Сервер по п. 19, в котором в котором процессор выполнен с возможностью осуществлять получение данных из журналов браузера, при этом журналы браузера реализованы как часть сервера поисковой системы.
24. Сервер по п. 19, в котором процессор выполнен с возможностью получения из базы данных поискового робота указания на просмотренный поисковым роботом веб-ресурс хостинга содержимого, хранящийся в базе данных поискового робота.
25. Сервер по п. 19, в котором процессор выполнен с дополнительной возможностью осуществлять: получение от сервера хостинга содержимого через интерфейс программирования приложений (API) сервиса хостинга содержимого, списка статистических данных, связанного со статическими и динамическими характеристиками элемента содержимого, статистические веб-данные представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которое содержится на одном или нескольких веб-ресурсах, которые были ранее просмотрены поисковым роботом с сервера веб-ресурса и сохранены в базе данных поискового робота.
26. Сервер по п. 19, в котором процессор выполнен с возможностью осуществлять получение данных (138) из поисковых журналов, которые включают в себя динамические характеристики поисковых журналов, связанные с элементом (206) содержимого, причем динамические характеристики поисковых журналов включают в себя по меньшей мере одно из:
- число показов URL (Единый Указатель Ресурсов) элемента содержимого на странице результатов поиска (SERP);
- число кликов на URL элемента содержимого на SERP; и
- число переходов по URL элемента содержимого на SERP.
27. Сервер по п. 19, в котором процессор выполнен с возможностью осуществлять получение данных из журнала браузера, которые включают в себя динамические характеристики журналов браузера, связанные с элементом содержимого, динамические характеристики журналов браузера включают в себя число посещений URL элемента содержимого, зарегистрированных в журналах браузера.
28. Сервер по п. 19, в котором процессор выполнен с возможностью осуществлять получение статистических веб-данных, которые представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которое содержится на одном или нескольких веб-ресурсах, включают в себя агрегированные динамические веб-характеристики, связанные с элементом содержимого, причем агрегированные динамические веб-характеристики включают в себя по меньшей мере одно из:
- число всех встроенных объектов элемента содержимого;
- число всех хостов со встроенными объектами элемента содержимого;
- максимальное число встроенных объектов элемента содержимого на хост;
- среднее число встроенных объектов элемента содержимого на хост;
- максимальное число встроенных объектов элемента содержимого на страницу;
- среднее число встроенных объектов элемента содержимого на страницу;
- число дней, которое прошло с первого встроенного объекта элемента содержимого;
- число дней, которое прошло с последнего встроенного объекта элемента содержимого;
- среднее число дней, которое прошло с любого встроенного объекта элемента содержимого;
- число всех ссылок на элемент содержимого;
- число всех хостов со ссылками на элемент содержимого;
- максимальное число ссылок на элемент содержимого на хост;
- среднее число ссылок на элемент содержимого на хост;
- число дней, которое прошло со дня первой ссылки;
- число дней, которое прошло с последнего раза, когда элемент содержимого был связан со ссылкой; и
- среднее число дней, которое прошло с момента, когда была опубликована какая-либо ссылка на элемент содержимого.
29. Сервер по п. 19, в котором процессор выполнен с возможностью осуществлять получение списка статистических веб-данных, причем статистические веб-данные представляют по меньшей мере одно из встроенных объектов или ссылок на элемент содержимого, которые содержатся на одном или нескольких веб-ресурсах, включают в себя неагрегированные динамические веб-характеристики, связанные с элементом содержимого, причем неагрегированные динамические веб-характеристики включают в себя по меньшей мере одно из:
- список хостов с временными отметками встроенных объектов элемента содержимого; и
- список хостов с временными отметками ссылок на элемент содержимого.
30. Сервер по п. 19, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения.
31. Сервер по п. 30, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений.
32. Сервер по п. 31, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений, где вывод линейной модели влияния является входной характеристикой.
33. Сервер по п. 32, в котором процессор выполнен с возможностью выполнения прогнозирования популярности содержимого с помощью алгоритма машинного обучения с использованием модели Фридмана градиентного бустинга деревьев решений, где вывод линейной модели влияния является вводной характеристикой, а входной характеристикой линейной модели влияния является неагрегированная динамическая веб-характеристика.
34. Сервер по п. 31, в котором процессор выполнен с возможностью обучения алгоритма машинного обучения.
35. Сервер по п. 34, в котором процессор выполнен с возможностью осуществлять обучение алгоритма машинного обучения параллельно с прогнозированием популярности содержимого.
36. Сервер по п. 19, в котором процессор выполнен с возможностью ранжирования элемента содержимого на основе определенного прогнозирования популярности содержимого.
RU2015140585A 2015-09-23 2015-09-23 Способ и сервер прогнозирования популярности элемента содержимого RU2635905C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2015140585A RU2635905C2 (ru) 2015-09-23 2015-09-23 Способ и сервер прогнозирования популярности элемента содержимого
US15/262,283 US20170083625A1 (en) 2015-09-23 2016-09-12 Method and system for predicting popularity of a content item

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015140585A RU2635905C2 (ru) 2015-09-23 2015-09-23 Способ и сервер прогнозирования популярности элемента содержимого

Publications (2)

Publication Number Publication Date
RU2015140585A RU2015140585A (ru) 2017-03-29
RU2635905C2 true RU2635905C2 (ru) 2017-11-16

Family

ID=58282894

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015140585A RU2635905C2 (ru) 2015-09-23 2015-09-23 Способ и сервер прогнозирования популярности элемента содержимого

Country Status (2)

Country Link
US (1) US20170083625A1 (ru)
RU (1) RU2635905C2 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180012130A1 (en) * 2016-07-05 2018-01-11 Facebook, Inc. Systems and methods for forecasting trends
CN108960431A (zh) * 2017-05-25 2018-12-07 北京嘀嘀无限科技发展有限公司 指标的预测、模型的训练方法及装置
JP2023020667A (ja) * 2021-07-30 2023-02-09 テルモ株式会社 医療情報処理方法、医療情報処理装置およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080222106A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Media content search results ranked by popularity
US20110302103A1 (en) * 2010-06-08 2011-12-08 International Business Machines Corporation Popularity prediction of user-generated content
RU2011151394A (ru) * 2009-06-16 2013-06-20 Майкрософт Корпорейшн Служба рекомендации медиаресурсов
US20130311408A1 (en) * 2012-05-15 2013-11-21 Comcast Cable Communications, Llc Determining and Predicting Popularity of Content
US8856113B1 (en) * 2009-02-23 2014-10-07 Mefeedia, Inc. Method and device for ranking video embeds
US9122989B1 (en) * 2013-01-28 2015-09-01 Insidesales.com Analyzing website content or attributes and predicting popularity

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198882A1 (en) * 2001-03-29 2002-12-26 Linden Gregory D. Content personalization based on actions performed during a current browsing session
US8125922B2 (en) * 2002-10-29 2012-02-28 Searchbolt Limited Method and apparatus for generating a ranked index of web pages
US8589373B2 (en) * 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
US8849821B2 (en) * 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US10019518B2 (en) * 2009-10-09 2018-07-10 Excalibur Ip, Llc Methods and systems relating to ranking functions for multiple domains

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080222106A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Media content search results ranked by popularity
US8856113B1 (en) * 2009-02-23 2014-10-07 Mefeedia, Inc. Method and device for ranking video embeds
RU2011151394A (ru) * 2009-06-16 2013-06-20 Майкрософт Корпорейшн Служба рекомендации медиаресурсов
US20110302103A1 (en) * 2010-06-08 2011-12-08 International Business Machines Corporation Popularity prediction of user-generated content
US20130311408A1 (en) * 2012-05-15 2013-11-21 Comcast Cable Communications, Llc Determining and Predicting Popularity of Content
US9122989B1 (en) * 2013-01-28 2015-09-01 Insidesales.com Analyzing website content or attributes and predicting popularity

Also Published As

Publication number Publication date
US20170083625A1 (en) 2017-03-23
RU2015140585A (ru) 2017-03-29

Similar Documents

Publication Publication Date Title
US9953063B2 (en) System and method of providing a content discovery platform for optimizing social network engagements
RU2720899C2 (ru) Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации
US10706325B2 (en) Method and apparatus for selecting a network resource as a source of content for a recommendation system
US10430481B2 (en) Method and apparatus for generating a content recommendation in a recommendation system
Calzarossa et al. Workload characterization: A survey revisited
RU2731335C2 (ru) Способ и система для формирования рекомендаций цифрового контента
RU2720952C2 (ru) Способ и система для создания рекомендации цифрового содержимого
US9497276B2 (en) Trackable sharing of on-line video content
US8918330B1 (en) Display of videos based on referrers
RU2731654C1 (ru) Способ и система для создания пуш-уведомлений, связанных с цифровыми новостями
RU2693323C2 (ru) Способ и сервер для выбора элементов рекомендаций для пользователя
US9171319B2 (en) Analysis system and method used to construct social structures based on data collected from monitored web pages
US20170090867A1 (en) Method and apparatus for generating a recommended set of items
US10311362B1 (en) Identification of trending content using social network activity and user interests
US10387513B2 (en) Method and apparatus for generating a recommended content list
US9369740B1 (en) Custom media player
US20120317151A1 (en) Model-Based Method for Managing Information Derived From Network Traffic
CA2780404A1 (en) Network based electronic book usage tracing system and method
US10674215B2 (en) Method and system for determining a relevancy parameter for content item
US20170193059A1 (en) Searching For Applications Based On Application Usage
RU2635905C2 (ru) Способ и сервер прогнозирования популярности элемента содержимого
US20150294331A1 (en) Peer-to-peer data collector and analyzer
US9602852B1 (en) Metering of internet protocol video streams
US20220172234A1 (en) Determining real-time impact of digital content through digital surveys
US10868872B2 (en) Method and system for determining a source link to a source object

Legal Events

Date Code Title Description
HE9A Changing address for correspondence with an applicant