RU2818279C2 - Способ и сервер для ранжирования цифровых документов в ответ на запрос - Google Patents

Способ и сервер для ранжирования цифровых документов в ответ на запрос Download PDF

Info

Publication number
RU2818279C2
RU2818279C2 RU2020143966A RU2020143966A RU2818279C2 RU 2818279 C2 RU2818279 C2 RU 2818279C2 RU 2020143966 A RU2020143966 A RU 2020143966A RU 2020143966 A RU2020143966 A RU 2020143966A RU 2818279 C2 RU2818279 C2 RU 2818279C2
Authority
RU
Russia
Prior art keywords
server
resources
document
training
ranked list
Prior art date
Application number
RU2020143966A
Other languages
English (en)
Other versions
RU2020143966A (ru
Inventor
Сергей Игоревич Дормидонтов
Иван Анатольевич Тямгин
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to US17/399,579 priority Critical patent/US11734376B2/en
Publication of RU2020143966A publication Critical patent/RU2020143966A/ru
Application granted granted Critical
Publication of RU2818279C2 publication Critical patent/RU2818279C2/ru

Links

Abstract

Изобретение относится к области вычислительной техники. Техническим результатом является выявление подозрительных коммерческих ресурсов, регулирование трафика от пользовательских устройств к данным подозрительным ресурсам и тем самым снижение риска посещения подозрительного ресурса, потенциального мошенничества и воздействия мошеннического контента на устройство пользователя. Раскрытый способ включает в себя определение целевого ресурса, на котором размещен документ, и генерирование первого и второго случайно выбранных значений для упомянутого документа. В течение первого временного интервала осуществляют генерирование первого ранжированного списка. В течение второго временного интервала осуществляют генерирование второго ранжированного списка документов. Причем позиция повышенного ранга в первом ранжированном списке находится выше позиции пониженного ранга во втором ранжированном списке для увеличения разрыва в пользовательском трафике к целевому документу между первым временным интервалом и вторым временным интервалом. 2 н. и 22 з.п. ф-лы, 7 ил.

Description

Область техники
[01] Настоящая технология относится к технологиям поисковых машин. В частности, настоящая технология направлена на способы и серверы для ранжирования цифровых документов в ответ на запрос.
Уровень техники
[02] Интернет обеспечивает доступ к широкому спектру ресурсов, например, видеофайлам, файлам изображений, аудиофайлам или веб-страницам. Для поиска этих ресурсов используются поисковые машины. Например, цифровые изображения, которые удовлетворяют информационные потребности пользователя, могут быть идентифицированы поисковой машиной в ответ на получение пользовательского запроса, отправленного пользователем. Пользовательские запросы могут состоять из одного или более термов (term, слово) запроса. Поисковая система выбирает и ранжирует результаты поиска на основе их релевантности запросу пользователя и их важности или качества по сравнению с другими результатами поиска, а также предоставляет пользователю наилучшие результаты поиска.
[03] Системы поисковых машин содержат компонент, называемый инвертированным индексом, который включает в себя большое количество списков документов (posting lists), связанных с соответствующими поисковыми термами, и хранит указания документов, которые содержат соответствующие поисковые термы. Такие структуры данных позволяют сократить время, память и ресурсы обработки для выполнения поиска.
[04] Некоторые запросы, отправляемые в поисковую машину, предназначены для коммерческих целей. Например, пользователь может стремиться приобрести продукт или услугу, отправив поисковый запрос, указывающий на это намерение, и получить в ответ один или более результатов поиска, представляющих объекты, предоставляющие такие продукты или услуги. Некоторые из этих поставщиков продуктов и/или услуг могут быть мошенниками.
[05] Публикация патентной заявки США № 2009/0198673, озаглавленной «Forum mining for suspicious link spam sites detection» и опубликованной 6 августа 2009 г., раскрывает методики борьбы со спамом для защиты ранжирования в поисковых машинах, основанные на интеллектуальном анализе форумов по поисковой оптимизации (SEO). Эта методика защиты от спама собирает веб-страницы, такие как сообщения форума SEO, из списка веб-сайтов, подозреваемых в спаме, и извлекает подозреваемые в обмене ссылками URL-адреса и соответствующую формацию ссылок из собранных веб-страниц. Затем к подозреваемым в обмене ссылками URL-адресам применяется штраф ранжирования поисковой машины. Штраф, по меньшей мере частично, определяется тем, что информация о ссылке связана с соответствующим подозреваемым в обмене ссылками URL. Чтобы обнаружить больше подозреваемых в обмене ссылками URL, эта методика может распространяться на один или более уровней от начального набора подозреваемых в обмене ссылками URL, сгенерированных интеллектуальным анализом форумов SEO.
Сущность изобретения
[06] Варианты осуществления настоящей технологии были разработаны на основе выявления разработчиками по меньшей мере одной технической проблемы, связанной с подходами предшествующего уровня техники к классификации объектов.
[07] По меньшей мере в одном широком аспекте настоящей технологии предоставляется сервер, выполняющий множество реализованных на компьютере алгоритмов, называемых здесь «поисковой машиной», которая в широком смысле сконфигурирована для предоставления результатов поиска в ответ на запрос, представленный пользователем электронного устройства.
[08] В широком смысле, сетевая поисковая машина - это программная система, предназначенная для выполнения веб-поиска. Результаты поиска обычно представлены в ранжированном формате, то есть результаты поиска представлены в списке, ранжированном на основе релевантности запросу. Информация обычно отображается пользователю через страницу результатов поисковой машины (SERP). Результатами поиска могут быть цифровые документы, такие как, но не ограничиваясь этим, веб-страницы, изображения, видео, инфографика, статьи, исследовательские работы и другие типы цифровых файлов.
[09] Следует отметить, что некоторые пользователи могут отправлять запросы поисковой машине в коммерческих целях. Например, пользователь может желать приобрести продукт или услугу. Пользователь может отправить поисковый запрос, указывающий на продукт или услугу, которые пользователь хочет приобрести, и в ответ поисковая машина может предоставить список результатов поиска, содержащий наиболее релевантные веб-ресурсы для этого запроса. В некоторых случаях поисковая машина может найти веб-ресурс, который мошенническим образом рекламирует этот продукт или услугу.
[10] Обычно способы обнаружения мошенничества, используемые поставщиками услуг поисковых машин, основаны на анализе взаимодействия пользователей между пользователями и веб-ресурсами. Например, анализ, среди прочего, рейтинга кликов (click-through rate) может иметь значение для идентификации того, какие веб-ресурсы являются мошенническими, а какие нет. Однако такие способы обнаружения мошенничества обнаруживают мошеннические ресурсы постфактум, то есть после того, как один или более пользователей перешли к мошенническому ресурсу, и после того, как произошло мошенничество.
[11] По меньшей мере в некоторых вариантах осуществления настоящей технологии разработчики настоящей технологии разработали способы и системы для снижения риска мошенничества путем удержания операторов мошеннических ресурсов от продолжения их мошеннических схем. Следует отметить, что операторы мошеннических ресурсов уделяют пристальное внимание пользовательскому трафику, так как это один из основных факторов, способствующих мошенничеству.
[12] Разработчики настоящей технологии разработали способы и системы для искусственного увеличения разрыва или изменения пользовательского трафика к заданному коммерческому веб-ресурсу между различными временными интервалами. В результате оператор заданного коммерческого веб-ресурса может понять, что между первым временным интервалом и вторым временным интервалом пользовательский трафик к заданному коммерческому веб-ресурсу значительно упал. Если оператор участвует в мошеннической схеме, он может рассмотреть вопрос о прекращении своей мошеннической деятельности, поскольку теперь уменьшенный пользовательский трафик может не принести достаточных преимуществ для продолжения мошеннической схемы.
[13] Как станет понятно из приведенного ниже описания, разработчики настоящей технологии разработали способы и системы для увеличения разрыва или изменения пользовательского трафика к заданному ресурсу путем поочередного повышения и понижения заданного ресурса в ранжированных результатах поиска во время соответствующих временных интервалов. Таким образом, разрыв в пользовательском трафике между следующими друг за другом временными интервалами искусственно увеличивается, и оператор ресурса может понять, что мошенническая схема больше не эффективна.
[14] В первом широком аспекте настоящей технологии предоставляется способ ранжирования документов в ответ на запрос. Запрос отправляется пользователем электронного устройства в поисковую машину. Поисковая машина размещена на сервере. Способ исполняется на сервере. Способ содержит определение сервером целевого ресурса среди множества ресурсов. Множество ресурсов размещает в себе цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска. Целевой ресурс размещает в себе целевой документ. Способ содержит генерирование сервером первого случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала. Способ содержит в течение первого временного интервала получение сервером указания запроса от электронного устройства. Способ содержит в течение первого временного интервала генерирование сервером первого ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, первого случайно выбранного значения. Первый ранжированный список релевантных документов содержит целевой документ в позиции повышенного ранга. Первое случайно выбранное значение предназначено для повышения целевого документа в ранжированном списке релевантных документов. Способ содержит генерирование сервером второго случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение второго временного интервала. Способ содержит получение сервером в течение второго временного интервала указания запроса от электронного устройства. Способ содержит в течение второго временного интервала генерирование сервером второго ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, второго случайно выбранного значения. Второй ранжированный список релевантных документов содержит целевой документ в позиции пониженного ранга. Второе случайно выбранное значение предназначено для понижения целевого документа во втором ранжированном списке релевантных документов. Позиция повышенного ранга в первом ранжированном списке находится выше позиции пониженного ранга во втором ранжированном списке для увеличения разрыва в пользовательском трафике к целевому документу между первым временным интервалом и вторым временным интервалом.
[15] В некоторых вариантах осуществления способа генерирование первого случайно выбранного значения и второго случайно выбранного значения содержит использование сервером алгоритма рандомизации.
[16] В некоторых вариантах осуществления способа алгоритм рандомизации генерирует (i) положительное значение, когда используется для генерирования первого случайно выбранного значения, и (ii) отрицательное значение, когда используется для генерирования второго случайно выбранного значения.
[17] В некоторых вариантах осуществления способа способ дополнительно содержит выполнение в течение первого временного интервала сервером, на котором размещена поисковая машина, первого множества поисков, а в течение второго временного интервала выполнение сервером, на котором размещена поисковая машина, второго множества поисков. Целевой документ предоставляется как результат поиска для поднабора из первого множества поисков и поднабора из второго множества поисков.
[18] В некоторых вариантах осуществления способа способ дополнительно содержит отслеживание сервером пользовательского трафика к целевому документу в течение первого временного интервала и в течение второго временного интервала.
[19] В некоторых вариантах осуществления способа генерирование первого ранжированного списка и второго ранжированного списка выполняется алгоритмом машинного обучения (MLA), обученным ранжировать документы на основе (i) соответствующей оценочной релевантности запросу и (ii) соответствующих случайно выбранных значений.
[20] В некоторых вариантах осуществления способа способ дополнительно содержит обучение сервером упомянутого MLA ранжированию документов. Обучение содержит получение сервером обучающих данных для обучающей пары документ-запрос, причем обучающие данные содержат (i) данные запроса, связанные с обучающим запросом, (ii) данные документа, связанные с обучающим документом, включая обучающее случайно выбранное значение, и (iii) оценочную метку, указывающую на релевантность обучающего документа обучающему запросу. Обучение содержит генерирование сервером модифицированной метки в виде комбинации оценочной метки и обучающего случайно выбранного значения, с помощью чего генерируется обучающий набор, содержащий данные запроса, данные документа и модифицированную метку. Обучение содержит во время заданной итерации обучения ввод сервером в MLA данных запроса и данных документа для генерирования предсказанной оценки ранжирования для обучающего документа. Предсказанная оценка ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу. Обучение содержит во время заданной итерации обучения корректировку сервером MLA на основе сравнения предсказанной оценки ранжирования с модифицированной меткой, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
[21] В некоторых вариантах осуществления способа определение целевого ресурса содержит осуществление доступа сервером к системе базы данных для извлечения данных прошлых поисков, причем данные прошлых поисков содержат данные, указывающие на прошлые запросы и, соответственно, связанные документы, которые были предоставлены в качестве результатов поиска в ответ на них. Определение целевого ресурса содержит определение сервером множества коммерческих ресурсов путем определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам. Заданный прошлый коммерческий запрос является заданным прошлым запросом, имеющим по меньшей мере один предварительно определенный терм. Определение целевого ресурса содержит фильтрацию сервером множества коммерческих ресурсов путем удаления ресурсов с высоким трафиком, с помощью чего определяется набор коммерческих ресурсов. Фильтрация содержит применение сервером основанного на трафике порога к пользовательскому трафику, связанному с соответствующими ресурсами из множества коммерческих ресурсов. Определение целевого ресурса содержит фильтрацию сервером упомянутого набора коммерческих ресурсов путем удаления высококачественных ресурсов, с помощью чего определяется поднабор коммерческих ресурсов. Фильтрация содержит применение сервером основанного на качестве порога к данным, связанным с соответствующими данными из набора коммерческих ресурсов. Поднабор коммерческих ресурсов содержит целевой ресурс.
[22] В некоторых вариантах осуществления способа способ дополнительно содержит выбор сервером целевого ресурса среди поднабора коммерческих ресурсов, причем целевой ресурс является заданным коммерческим ресурсом.
[23] В некоторых вариантах осуществления способа способ дополнительно содержит определение сервером множества коммерческих ресурсов на основе данных поиска поисковой машины и определение сервером поднабора коммерческих ресурсов путем отфильтровывания группы коммерческих ресурсов из множества коммерческих ресурсов. Группа ресурсов с высокой вероятностью не включает в себя мошеннические ресурсы на основе одного или более предварительно определенных параметров.
[24] В некоторых вариантах осуществления способа способ дополнительно содержит определение сервером группы коммерческих ресурсов путем применения предварительно определенного параметра к данным поиска, связанным с соответствующими ресурсами из множества коммерческих ресурсов. Предварительно определенный параметр является по меньшей мере одним из основанного на трафике порога и основанного на качестве порога. Ресурсы с высоким трафиком и высококачественные ресурсы среди множества коммерческих ресурсов с высокой вероятностью не являются мошенническими ресурсами.
[25] В некоторых вариантах осуществления способа первый временной интервал и второй временной интервал имеют общую продолжительность времени.
[26] В некоторых вариантах осуществления способа первый временной интервал предшествует второму временному интервалу.
[27] В некоторых вариантах осуществления способа первый временной интервал следует после второго временного интервала.
[28] В некоторых вариантах осуществления способа первый временной интервал является одним из множества первых временных интервалов, а второй временной интервал является одним из множества вторых временных интервалов, причем соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов последовательно смещены во времени.
[29] Во втором широком аспекте настоящей технологии предоставляется сервер для ранжирования документов в ответ на запрос. Запрос отправляется пользователем электронного устройства в поисковую машину. Поисковая машина размещена на сервере. Сервер сконфигурирован для определения целевого ресурса среди множества ресурсов. Множество ресурсов размещает в себе цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска. Целевой ресурс размещает в себе целевой документ. Сервер сконфигурирован для генерирования первого случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала. Сервер сконфигурирован для получения в течение первого временного интервала указания запроса от электронного устройства. Сервер сконфигурирован так, чтобы в течение первого временного интервала генерировать первый ранжированный список релевантных документов для упомянутого запроса на основе, по меньшей мере частично, первого случайно выбранного значения. Первый ранжированный список релевантных документов содержит целевой документ в позиции повышенного ранга. Первое случайно выбранное значение предназначено для повышения целевого документа в ранжированном списке релевантных документов. Сервер сконфигурирован для генерирования второго случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение второго временного интервала. Сервер сконфигурирован для получения в течение второго временного интервала указания запроса от электронного устройства. Сервер сконфигурирован так, чтобы в течение второго временного интервала генерировать второй ранжированный список релевантных документов для упомянутого запроса на основе, по меньшей мере частично, второго случайно выбранного значения. Второй ранжированный список релевантных документов содержит целевой документ в позиции пониженного ранга. Второе случайно выбранное значение предназначено для понижения целевого документа во втором ранжированном списке релевантных документов. Позиция повышенного ранга в первом ранжированном списке находится выше позиции пониженного ранга во втором ранжированном списке для увеличения разрыва в пользовательском трафике к целевому документу между первым временным интервалом и вторым временным интервалом.
[30] В некоторых вариантах осуществления сервера сервер, сконфигурированный для генерирования первого случайно выбранного значения и второго случайно выбранного значения, содержит сервер, сконфигурированный для использования алгоритма рандомизации.
[31] В некоторых вариантах осуществления сервера алгоритм рандомизации генерирует (i) положительное значение, когда используется для генерирования первого случайно выбранного значения, и (ii) отрицательное значение, когда используется для генерирования второго случайно выбранного значения.
[32] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован так, чтобы в течение первого временного интервала выполнять поисковой машиной первое множество поисков, а в течение второго временного интервала выполнять поисковой машиной второе множество поисков. Целевой документ предоставляется как результат поиска для поднабора из первого множества поисков и поднабора из второго множества поисков.
[33] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован для отслеживания пользовательского трафика к целевому документу в течение первого временного интервала и в течение второго временного интервала.
[34] В некоторых вариантах осуществления сервера сервер, сконфигурированный для генерирования первого ранжированного списка и второго ранжированного списка, использует алгоритм машинного обучения (MLA), обученный ранжировать документы на основе (i) соответствующей оценочной релевантности запросу и (ii) соответствующих случайно выбранных значений.
[35] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован для обучения MLA ранжированию документов. Сервер, сконфигурированный для обучения MLA, содержит сервер, сконфигурированный для получения обучающих данных для обучающей пары документ-запрос, причем обучающие данные содержат (i) данные запроса, связанные с обучающим запросом, (ii) данные документа, связанные с обучающим документом, включая обучающее случайно выбранное значение, и (iii) оценочную метку, указывающую на релевантность обучающего документа обучающему запросу. Сервер, сконфигурированный для обучения MLA, содержит сервер, сконфигурированный для генерирования модифицированной метки в виде комбинации оценочной метки и обучающего случайно выбранного значения, с помощью чего генерируется обучающий набор, содержащий данные запроса, данные документа и модифицированную метку. Сервер, сконфигурированный для обучения MLA, содержит сервер, сконфигурированный для ввода во время заданной итерации обучения в MLA данных запроса и данных документа для генерирования предсказанной оценки ранжирования для обучающего документа. Предсказанная оценка ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу. Сервер, сконфигурированный для обучения MLA, содержит сервер, сконфигурированный для того, чтобы во время заданной итерации обучения корректировать MLA на основе сравнения предсказанной оценки ранжирования с модифицированной меткой, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
[36] В некоторых вариантах осуществления сервера сервер, сконфигурированный для определения целевого ресурса, содержит сервер, сконфигурированный для осуществления доступа к системе базы данных для извлечения данных прошлых поисков, причем данные прошлых поисков содержат данные, указывающие на прошлые запросы и, соответственно, связанные документы, которые были предоставлены в качестве результатов поиска в ответ на них, определения множества коммерческих ресурсов путем определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам, причем заданный прошлый коммерческий запрос является заданным прошлым запросом, имеющим по меньшей мере один предварительно определенный терм. Сервер, сконфигурированный для определения целевого ресурса, содержит сервер, сконфигурированный для фильтрации множества коммерческих ресурсов путем удаления ресурсов с высоким трафиком, с помощью чего определяется набор коммерческих ресурсов. Сервер, сконфигурированный для фильтрации, содержит сервер, сконфигурированный для применения основанного на трафике порога к пользовательскому трафику, связанному с соответствующими ресурсами из множества коммерческих ресурсов. Сервер, сконфигурированный для определения целевого ресурса, содержит сервер, сконфигурированный для фильтрации упомянутого набора коммерческих ресурсов путем удаления высококачественных ресурсов, с помощью чего определяется поднабор коммерческих ресурсов. Сервер, сконфигурированный для фильтрации, содержит сервер, сконфигурированный для применения основанного на качестве порога к данным, связанным с соответствующими данными из набора коммерческих ресурсов. Поднабор коммерческих ресурсов содержит целевой ресурс.
[37] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован для выбора целевого ресурса среди поднабора коммерческих ресурсов, причем целевой ресурс является заданным коммерческим ресурсом.
[38] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован для определения множества коммерческих ресурсов на основе данных поиска поисковой машины, определения поднабора коммерческих ресурсов путем отфильтровывания группы коммерческих ресурсов из множества коммерческих ресурсов, причем группа ресурсов с высокой вероятностью не включает в себя мошеннические ресурсы на основе одного или более предварительно определенных параметров.
[39] В некоторых вариантах осуществления сервера сервер дополнительно сконфигурирован для определения группы коммерческих ресурсов путем применения предварительно определенного параметра к данным поиска, связанным с соответствующими ресурсами из множества коммерческих ресурсов, причем предварительно определенный параметр является по меньшей мере одним из основанного на трафике порога и основанного на качестве порога. Ресурсы с высоким трафиком и высококачественные ресурсы среди множества коммерческих ресурсов с высокой вероятностью не являются мошенническими ресурсами.
[40] В некоторых вариантах осуществления сервера первый временной интервал и второй временной интервал имеют общую продолжительность времени.
[41] В некоторых вариантах осуществления сервера первый временной интервал предшествует второму временному интервалу.
[42] В некоторых вариантах осуществления сервера первый временной интервал следует после второго временного интервала.
[43] В некоторых вариантах осуществления сервера первый временной интервал является одним из множества первых временных интервалов, а второй временной интервал является одним из множества вторых временных интервалов, причем соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов последовательно смещены во времени.
[44] В контексте настоящего описания, если явно не указано иное, «электронное устройство», «электронное устройство», «сервер», «удаленный сервер» и «компьютерная система» представляют собой любое аппаратное обеспечение и/или программное обеспечение, подходящее для соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного обеспечения и/или программного обеспечения включают в себя компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и т.д.) и/или их комбинации.
[45] В контексте настоящего описания, если специально не указано иное, выражения «компьютерно-читаемый носитель» и «память» предназначены включать в себя носители любого характера и вида, неограничивающие примеры которых включают в себя RAM, ROM, диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-ключи, карты флэш-памяти, твердотельные накопители и ленточные накопители.
[46] В контексте настоящего описания, если прямо не предусмотрено иное, "указание" информационного элемента может быть самим информационным элементом или указателем, ссылкой, гиперссылкой или другим опосредованным механизмом, позволяющим получателю такого указания найти местоположение в сети, памяти, базе данных или другом компьютерно-читаемом носителе, из которого информационный элемент может быть извлечен. Например, указание документа может включать в себя сам документ (т.е. его содержимое), или оно может быть уникальным дескриптором документа, идентифицирующим файл относительно некоторой конкретной файловой системы, или некоторым другим средством направления получателя такого указания в местоположение в сети, таблицу базы данных или иное местоположение, в котором можно осуществить доступ к файлу. Специалист в заданной области поймет, что степень точности, требуемая в указании, зависит от степени какого-либо предварительного понимания того, какая интерпретация будет обеспечена информации, обмениваемой во взаимодействии между отправителем и получателем такого указания. Например, если понимается, что до связи между отправителем и получателем указание информационного элемента будет иметь форму ключа базы данных для записи в некоторой конкретной таблице предварительно определенной базы данных, содержащей информационный элемент, то отправка ключа базы данных является всем, что требуется для эффективной передачи информационного элемента получателю, даже если сам информационный элемент не был передан во взаимодействии между отправителем и получателем такого указания.
[47] В контексте настоящего описания, если специально не предусмотрено иное, слова «первый», «второй», «третий» и т.д. Использовались в качестве прилагательных только с целью обеспечения различия между существительными, которые они изменяют, от одного к другому, и не с целью описания каких-либо конкретных отношений между этими существительными. Таким образом, например, следует понимать, что использование понятий "первый сервер" и "третий сервер" не подразумевает какого-либо конкретного порядка, типа, хронологии, иерархии или ранжирования (например) таких/между такими серверами, равно как и их использование (само по себе) не означает, что какой-либо "второй сервер" должен обязательно существовать в любой определенной ситуации. Кроме того, как обсуждается в других контекстах данного документа, ссылка на "первый" элемент и "второй" элемент не исключает того, что эти два элемента фактически являются одним и тем же элементом реального мира. Таким образом, например, в некоторых случаях "первый" сервер и "второй" сервер могут быть одним и тем же программным обеспечением и/или аппаратным обеспечением, в других случаях они могут представлять собой разное программное обеспечение и/или аппаратное обеспечение.
[48] Каждая из реализаций настоящей технологии обладает по меньшей мере одним из вышеупомянутых аспектов и/или целей, но не обязательно имеет их все. Следует понимать, что некоторые аспекты настоящей технологии, которые возникли в попытке достичь вышеупомянутой цели, могут не удовлетворять этой цели и/или удовлетворять другим целям, которые не описаны в данном документе явным образом. Дополнительные и/или альтернативные признаки, аспекты и преимущества реализаций настоящей технологии станут понятными из нижеследующего описания, сопроводительных чертежей и приложенной формулы изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[49] Для лучшего понимания настоящей технологии, а также других аспектов и ее дополнительных признаков, производится обращение к нижеследующему описанию, которое должно использоваться в сочетании с сопроводительными чертежами, на которых:
[50] Фиг. 1 изображает схему системы, реализуемой в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[51] Фиг. 2 изображает представление того, как алгоритм фильтрации используется системой, показанной на Фиг. 1, для определения поднабора коммерческих ресурсов в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[52] Фиг. 3 изображает представление итерации обучения модели ранжирования системы, показанной на Фиг. 1, в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[53] На Фиг. 4 показано, как целевой документ связан с первым случайно выбранным значением и вторым случайно выбранным значением в различные временные интервалы в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[54] Фиг. 5 изображает представление ранжированных списков документов, сгенерированных системой, показанной на Фиг. 1, в ответ на заданный запрос в различные моменты времени в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[55] Фиг. 6 изображает представление того, как пользовательский трафик к целевому документу по Фиг. 4 изменяется в зависимости от соответствующих временных интервалов в соответствии с неограничивающими вариантами осуществления настоящей технологии.
[56] Фиг. 7 - схематическое представление способа, выполняемого сервером системы, показанной на Фиг. 1, в соответствии с неограничивающими вариантами осуществления настоящей технологии.
Подробное описание
[57] Приведенные в данном документе примеры и условные формулировки призваны главным образом помочь читателю понять принципы настоящей технологии, а не ограничить ее объем такими конкретно приведенными примерами и условиями. Следует понимать, что специалисты в заданной области смогут разработать различные механизмы, которые, хоть и не описаны в данном документе явным образом, тем не менее воплощают принципы настоящей технологии и включаются в ее сущность и объем.
[58] Кроме того, нижеследующее описание может описывать реализации настоящей технологии в относительно упрощенном виде для целей упрощения понимания. Специалисты в заданной области техники поймут, что различные реализации настоящей технологии могут иметь и большую сложность.
[59] В некоторых случаях также могут быть изложены примеры модификаций настоящей технологии, которые считаются полезными. Это делается лишь для содействия пониманию и, опять же, не для строгого определения объема или очерчивания границ настоящей технологии. Эти модификации не являются исчерпывающим списком, и специалист в заданной области может осуществлять другие модификации, все еще оставаясь причем в рамках объема настоящей технологии. Кроме того, случаи, когда примеры модификаций не приводятся, не следует толковать так, что никакие модификации не могут быть осуществлены и/или что описанное является единственным способом реализации такого элемента настоящей технологии.
[60] Кроме того, все содержащиеся в данном документе утверждения, в которых указываются принципы, аспекты и реализации настоящей технологии, а также их конкретные примеры, призваны охватить как структурные, так и функциональные эквиваленты, вне зависимости от того, известны ли они в настоящее время или будут разработаны в будущем. Таким образом, например, специалисты в заданной области должны понимать, что любые блок-схемы в данном документе представляют концептуальные виды иллюстративной схемы, воплощающей принципы настоящей технологии. Аналогичным образом, следует понимать, что любые блок-схемы, схемы последовательности операций, схемы изменения состояний, псевдо-коды и подобное представляют различные процессы, которые могут быть по сути представлены на компьютерно-читаемых носителях и исполнены компьютером или процессором вне зависимости от того, показан такой компьютер или процессор явным образом или нет.
[61] Функции различных элементов, показанных на фигурах, в том числе любого функционального блока, помеченного как "процессор" или "графический процессор", могут быть обеспечены с помощью специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного исполнять программное обеспечение и связанного с надлежащим программным обеспечением. При обеспечении процессором функции могут быть обеспечены одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут быть совместно используемыми. В некоторых вариантах осуществления настоящей технологии процессор может быть процессором общего назначения, таким как центральный процессор (CPU) или процессор, выделенный для конкретной цели, например графический процессор (GPU). Кроме того, явное использование понятия "процессор" или "контроллер" не должно истолковываться как относящееся исключительно к аппаратному обеспечению, способному исполнять программное обеспечение, и может в неявной форме включать в себя, без ограничений, аппаратное обеспечение цифрового сигнального процессора (DSP), сетевой процессор, интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянную память (ROM) для хранения программного обеспечения, оперативную память (RAM) и энергонезависимое хранилище. Другое аппаратное обеспечение, традиционное и/или специализированное, также может быть включено в состав.
[62] Программные модули, или просто модули, в качестве которых может подразумеваться программное обеспечение, могут быть представлены в настоящем документе как любая комбинация элементов блок-схемы последовательности операций или других элементов, указывающих выполнение этапов процесса и/или текстовое описание. Такие модули могут выполняться аппаратным обеспечением, которое явно или неявно показано.
[63] Учитывая эти основополагающие вещи, рассмотрим некоторые неограничивающие примеры, чтобы проиллюстрировать различные реализации аспектов настоящей технологии.
[64] Со ссылкой на Фиг. 1 проиллюстрировано схематичное представление системы 100, причем система 100 подходит для реализации неограничивающих вариантов осуществления настоящей технологии. Следует четко понимать, что изображенная система 100 является лишь иллюстративной реализацией настоящей технологии. Таким образом, нижеследующее описание предназначено лишь для того, чтобы использоваться в качестве описания иллюстративных примеров настоящей технологии.
[65] В проиллюстрированном примере система 100 может использоваться для предоставления одной или более онлайн-услуг заданному пользователю. С этой целью система 100 содержит, среди прочего, электронное устройство 104, связанное с пользователем 101, сервер 112, множество серверов 108 ресурсов и подсистему 150 базы данных.
[66] В контексте настоящей технологии система 100 используется для предоставления услуг поисковой машины. Например, пользователь 101 может отправить заданный запрос через электронное устройство 104 на сервер 112, который, в ответ, сконфигурирован для предоставления результатов поиска пользователю 101. Сервер 112 генерирует эти результаты поиска на основе информации, которая была извлечена, например, из множества серверов 108 ресурсов и сохранена в подсистеме 150 базы данных. Эти результаты поиска, предоставленные системой 100, могут быть релевантными отправленному запросу.
[67] Можно сказать, что сервер 112 сконфигурирован для выполнения множества реализованных на компьютере алгоритмов, которые в дальнейшем именуются «поисковой машиной» 160. Как станет понятно из приведенного ниже описания, поисковая машина 160 в целом сконфигурирована для идентификации потенциально релевантных цифровых документов для запроса и ранжирования их на основе их релевантности запросу.
ЭЛЕКТРОННОЕ УСТРОЙСТВО
[68] Как упомянуто выше, система 100 содержит электронное устройство 104, связанное с пользователем 101. Таким образом, электронное устройство 104 или просто «устройство» 102 иногда может называться «клиентским устройством», «устройством конечного пользователя» или «клиентским электронным устройством». Следует отметить, что тот факт, что электронное устройство 104 связано с пользователем 101, не обязательно предполагает или подразумевает какой-либо режим работы - например, необходимость входа в систему, необходимость регистрации или тому подобное.
[69] В контексте настоящего описания, если прямо не указано иное, «электронное устройство» или «устройство» - это любое компьютерное аппаратное обеспечение, которое способно запускать программное обеспечение, подходящее для соответствующей решаемой задачи. Таким образом, некоторые неограничивающие примеры устройства 104 включают персональные компьютеры (настольные компьютеры, ноутбуки, нетбуки и т.д.), смартфоны, планшеты и т.п. Устройство 104 содержит аппаратное и/или программное обеспечение, и/или микропрограммное обеспечение (или их комбинацию), как известно в заданной области техники, для выполнения заданного приложения браузера (не показано).
[70] В широком смысле, назначением определенного приложения браузера является предоставление пользователю 101 возможности доступа к одному или более веб-ресурсам. Реализация определенного приложения браузера не ограничена особым образом. Один из примеров заданного приложения браузера, которое выполняется устройством 104, может быть реализован как браузер Яндекс™. Например, пользователь 101 может использовать заданное приложение браузера для (i) перехода к заданному веб-сайту поисковой машины и (ii) отправки запроса, в ответ на который ему (ей) должны быть предоставлены релевантные результаты поиска.
[71] Устройство 104 сконфигурировано для генерирования запроса 180 для связи с сервером 112. Запрос 180 может принимать форму одного или более пакетов данных, содержащих информацию, указывающую, в одном примере, запрос, представленный пользователем 101. Устройство 104 также сконфигурировано для приема ответа 190 от сервера 112. Ответ 190 может принимать форму одного или более пакетов данных, содержащих информацию, указывающую, в одном примере, результаты поиска, которые являются релевантными отправленному запросу, и компьютерно-читаемые инструкции для отображения заданным приложением браузера пользователю 101 этих результатов поиска.
Сеть связи
[72] Система 100 содержит сеть 110 связи. В одном неограничивающем примере сеть 110 связи может быть реализована как Интернет. В других неограничивающих примерах сеть 110 связи может быть реализована по-другому, например, любая глобальная сеть связи, локальная сеть связи, частная сеть связи и т.п. Фактически, то, как реализована сеть 110 связи, не является ограничением и будет зависеть, среди прочего, от того, как реализованы другие компоненты системы 100.
[73] Назначение сети 110 связи состоит в том, чтобы соединять с возможностью осуществления связи по меньшей мере некоторые компоненты системы 100, такие как устройство 104, множество серверов 108 ресурсов и сервер 112. Например, это означает, что ко множеству серверов 108 ресурсов может осуществляться доступ через сеть 110 связи устройством 104. В другом примере это означает, что ко множеству серверов 108 ресурсов может осуществляться доступ через сеть 110 связи сервером 112. В другом примере это означает, что к серверу 112 может осуществляться доступ через сеть 110 связи устройством 104.
[74] Сеть 110 связи может использоваться для передачи пакетов данных между устройством 104, множеством серверов 108 ресурсов и сервером 112. Например, сеть 110 связи может использоваться для передачи запроса 180 от устройства 104 на сервер 112. В другом примере сеть 110 связи может использоваться для передачи ответа 190 от сервера 112 на устройство 104.
Множество серверов ресурсов
[75] Как упомянуто выше, к множеству серверов 108 ресурсов можно осуществить доступ через сеть 110 связи. Множество серверов 108 ресурсов может быть реализовано как обычные компьютерные серверы. В неограничивающем примере варианта осуществления настоящей технологии заданный один из множества серверов 108 ресурсов может быть реализован как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Заданный один из множества серверов 108 ресурсов также может быть реализован в любом другом подходящем аппаратном и/или программном и/или встроенном программном обеспечении или их комбинации.
[76] Множество серверов 108 ресурсов сконфигурированы для размещения (веб) ресурсов, к которым может осуществлять доступ устройство 104 и/или сервер 106. Например, заданный ресурс, размещенный на множестве серверов 108 ресурсов, может быть заданным веб-сайтом, к которому может осуществлять доступ устройство 104 и/или сервер 106.
[77] Какой тип ресурсов размещает множество серверов 108 ресурсов, не ограничивается. По меньшей мере в одном варианте осуществления настоящей технологии множество серверов 108 ресурсов может содержать один или более коммерческих ресурсов. Например, по меньшей мере один веб-ресурс может быть веб-сайтом, соответствующим платформе электронной коммерции, такой как платформы электронного рынка Ebay™ и Amazon™. Следует отметить, что заданный ресурс, размещенный на множестве серверов 108 ресурсов, может содержать множество цифровых документов или просто «документов», представляющих соответствующие веб-страницы заданного веб-сайта.
[78] В общем случае, заданный документ может быть написан на языке разметки и может содержать среди прочего (i) содержимое (контент) соответствующей веб-страницы и (ii) компьютерно-читаемые инструкции для отображения соответствующей веб-страницы (ее содержимого). Можно сказать, что заданный ресурс, такой как веб-сайт электронного рынка Amazon™, содержит множество документов, представляющих веб-страницы. Например, эти соответствующие веб-страницы могут быть связаны с соответствующими товарами, которые коммерчески доступны на веб-сайте электронного рынка Amazon™ для продажи.
[79] Устройство 104 может осуществить доступ к заданному одному из множества серверов 108 ресурсов для извлечения заданного документа, хранящегося на заданном одном из множества серверов 108 ресурсов. Например, пользователь 101 может ввести веб-адрес, связанный с заданной веб-страницей, в заданном приложении браузера устройства 104, и в ответ устройство 104 может осуществить доступ к заданному серверу ресурсов, на котором размещена заданная веб-страница, для получения документа, представляющего заданную веб-страницу, для отображения содержимого веб-страницы через заданное приложение браузера.
[80] Сервер 112 может осуществить доступ к заданному одному из множества серверов 108 ресурсов, чтобы извлечь заданный документ, хранящийся на заданном одном из множества серверов 108 ресурсов. Назначение, по которому сервер 112 осуществляет доступ и извлекает документы из множества серверов 108 ресурсов, будет описано более подробно в данном документе ниже.
Подсистема базы данных
[81] Сервер 112 соединен с возможностью осуществления связи с подсистемой 150 базы данных. В широком смысле, подсистема 150 базы данных сконфигурирована для получения данных с сервера 112, хранения данных и/или предоставления данных на сервер 106 для дальнейшего использования.
[82] В некоторых вариантах осуществления подсистема 150 базы данных может быть сконфигурирована для хранения информации, связанной с сервером 112, в данном документе, называемой «данными поисковой машины» 175. Например, подсистема 150 базы данных может хранить информацию о ранее выполненных поисках поисковой машиной 160, информацию о ранее отправленных запросах на сервер 112 и о документах, которые были предоставлены поисковой машиной 160 сервера 112 в качестве результатов поиска.
[83] Предполагается, что в качестве части данных 175 поисковой машины подсистема 150 базы данных может хранить данные запроса, связанные с соответствующими запросами, отправленными в поисковую машину 160. Данные запроса, связанные с заданным запросом, могут быть разных типов и не являются ограничивающими. Например, подсистема 150 базы данных может хранить данные запроса для соответствующих запросов, такие как, но не ограничиваясь этим:
популярность заданного запроса;
частота отправки заданного запроса;
количество кликов (click, нажатий, щелчков), связанных с заданным запросом;
указания других отправленных запросов, связанных с заданным запросом;
указания документов, связанных с заданным запросом;
другие статистические данные, связанные с заданным запросом;
поисковые термы, связанные с заданным запросом;
количество символов в заданном запросе; и
другие присущие запросу характеристики заданного запроса.
[84] Предполагается, что в качестве части данных 175 поисковой машины подсистема 150 базы данных также может хранить данные документа, связанные с соответствующими документами. Данные документа, связанные с заданным документом, могут быть разных типов и не являются ограничивающими. Например, подсистема 150 базы данных может хранить данные документов для соответствующих документов, такие как, но не ограничиваясь этим:
популярность заданного документа;
рейтинг кликов (соотношение числа кликов к числу показов) для заданного документа;
время на клик, связанное с заданным документом;
указания запросов, связанных с заданным документом;
другие статистические данные, связанные с заданным документом;
текст, связанный с заданным документом;
размер файла заданного документа; и
другие присущие документу характеристики заданного документа.
[85] Как будет обсуждаться более подробно ниже, подсистема 150 базы данных может быть сконфигурирована для хранения содержимого, связанного с соответствующими цифровыми документами, на основе документ-за-документом. Например, подсистема 150 базы данных может быть сконфигурирована для хранения содержимого, связанного с заданным цифровым документом.
[86] Следует также отметить, что подсистема 150 базы данных может быть сконфигурирована для хранения данных пользовательского трафика, связанных с соответствующими цифровыми документами, которые предоставляются в качестве результатов поиска пользователям поисковой машины 160. Например, сервер 112 может быть сконфигурирован для отслеживания и сбора данных, представляющих пользовательский трафик (например, количество пользователей, посещающих заданный документ, соотношение посещений в единицу времени и т.д.), которые поисковая машина 160 предоставляет для заданного документа. Кроме того, как будет рассмотрено ниже, подсистема 150 базы данных может быть сконфигурирована для хранения данных о пользовательском трафике по каждому документу в дополнение или вместо сохранения данных о пользовательском трафике по каждому ресурсу. В одном примере сервер 112 может быть сконфигурирован для отслеживания и сбора данных, представляющих пользовательский трафик, который поисковая машина 160 предоставляет заданному ресурсу, посредством предоставления пользователям соответствующего одного или более цифровых документов, размещенных на заданном ресурсе, в качестве результатов поиска поисковой машины 160.
[87] Предполагается, что в качестве части данных 175 поисковой машины подсистема 150 базы данных также может хранить пользовательские данные, связанные с соответствующими пользователями. Пользовательские данные, связанные с заданным пользователем, могут быть разных типов и не являются ограничивающими. Например, подсистема 150 базы данных может хранить пользовательские данные для соответствующих пользователей, такие как, но не ограничиваясь этим:
данные прошлой веб-сессии, связанные с заданным пользователем;
прошлые запросы, отправленные заданным пользователем;
данные истории «кликов», связанные с заданным пользователем;
другие данные о взаимодействии с заданным пользователем и документами; и
предпочтения пользователя.
[88] Как проиллюстрировано на Фиг. 1, подсистема 150 базы данных также сконфигурирована для хранения структурированного набора данных, далее именуемого «инвертированный индекс» 170. В широком смысле, инвертированный индекс 170 - это структура данных, которую можно назвать компонентом поисковой машины 160. Например, сначала может быть сгенерирован прямой индекс, в котором хранятся списки слов (или термов) для каждого документа - затем прямой индекс может быть инвертирован таким образом, чтобы в нем сохранялись списки документов для каждого терма. Для запроса к прямому индексу может потребоваться последовательная итерация по каждому документу и каждому терму для проверки совпадающего документа. Время, память и ресурсы обработки для выполнения такого запроса не всегда технически реалистичны. Напротив, одно из преимуществ инвертированного индекса 170 состоит в том, что для запроса к такой структуре данных в реальном времени требуется сравнительно меньше времени, памяти и ресурсов обработки.
[89] Таким образом, инвертированный индекс 170 сконфигурирован для хранения множества списков документов, каждый из которых связан с соответствующим термом, и причем заданный список документов содержит множество документов, содержащих соответствующий терм.
Сервер
[90] Система 100 содержит сервер 112, который может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящей технологии сервер 112 может быть реализован как сервер Dell™ PowerEdge™, работающий под управлением операционной системы Microsoft™ Windows Server™. Само собой разумеется, что сервер 106 может быть реализован в любом другом подходящем аппаратном и/или программном и/или встроенном программном обеспечении или их комбинации. В изображенном неограничивающем варианте осуществления настоящей технологии сервер 112 является одиночным сервером. В альтернативных неограничивающих вариантах осуществления настоящей технологии функциональные возможности сервера 106 могут быть распределены и могут быть реализованы посредством многочисленных серверов.
[91] Как показано на Фиг. 1, сервер 112 сконфигурирован для размещения поисковой машины 160 для предоставления услуг поисковой машины. В некоторых вариантах осуществления сервер 112 может находиться под управлением и/или администрированием провайдера поисковой машины (не показан), такого как, например, оператор поисковой машины Яндекс™. По существу, сервер 112 может быть сконфигурирован для размещения поисковой машины 160 для выполнения одного или более поисков в ответ на запросы, отправленные пользователями поисковой машины 160.
[92] Например, сервер 112 может получить запрос 180 от устройства 104, указывающий запрос, отправленный пользователем 101. Сервер 112 может выполнять поиск в ответ на отправленный запрос для генерирования результатов поиска, релевантных отправленному запросу. В результате сервер 112 может быть сконфигурирован для генерирования ответа 190, указывающего результаты поиска, и может передавать ответ 190 устройству 104 для отображения результатов поиска пользователю 101, например, через заданное приложение браузера.
[93] Результаты поиска, сгенерированные для отправленного запроса, могут принимать разные формы. Однако в одном неограничивающем примере настоящей технологии результаты поиска, сгенерированные сервером 112, могут указывать на документы, которые являются релевантными отправленному запросу. То, как сервер 112 сконфигурирован для определения и извлечения документов, которые являются релевантными отправленному запросу, станет понятным из приведенного здесь описания.
[94] Сервер 106 также может быть сконфигурирован для выполнения приложения 120 поискового робота. В широком смысле, приложение 120 поискового робота может использоваться сервером 112, чтобы «посещать» ресурсы, доступные через сеть 110 связи, и извлекать/загружать их для дальнейшего использования. Например, приложение 120 поискового робота может использоваться сервером 106 для доступа к множеству серверов 108 ресурсов и для извлечения/загрузки документов, представляющих веб-страницы, размещенные на множестве серверов 108 ресурсов.
[95] Предполагается, что приложение 120 поискового робота может периодически выполняться сервером 112 для извлечения/загрузки документов, которые были обновлены и/или стали доступными по сети 110 связи с момента предыдущего выполнения приложения 120 поискового робота.
[96] Сервер 112 также может быть сконфигурирован для выполнения «модели ранжирования» 130, в широком смысле сконфигурированной для использования информации о заданном запросе и множестве потенциально релевантных документов для ранжирования этих документов в ответ на запрос. По меньшей мере в одном варианте осуществления настоящей технологии модель 130 ранжирования может быть реализована как один или более алгоритмов машинного обучения (MLA). Предполагается, что множество потенциально релевантных документов может быть идентифицировано сервером 112 с использованием информации, хранящейся в инвертированном индексе 170.
[97] В широком смысле, заданный MLA сначала «строится» (или обучается) с использованием обучающих данных и обучающих целей. Во время заданной итерации обучения в MLA вводятся обучающие входные данные, и он генерирует соответствующее предсказание. Затем сервер 112 конфигурируется для того, чтобы в некотором смысле «настраивать» MLA на основе сравнения результата предсказания с соответствующей обучающей целью для обучающих входных данных. Например, настройка может выполняться сервером 112 с использованием одного или более методов машинного обучения, таких как, но не ограничиваясь этим, метод обратного распространения ошибки. Таким образом, после большого количества итераций обучения MLA «настраивается» таким образом, чтобы делать предсказания на основе введенных данных, чтобы эти предсказания были близки к соответствующим обучающим целям.
[98] В некоторых вариантах осуществления настоящей технологии модель 130 ранжирования может быть реализована как нейронная сеть (NN). В широком смысле, NN - это особый класс MLA, состоящий из взаимосвязанных групп искусственных «нейронов», которые обрабатывают информацию, используя коннекционистский подход к вычислениям. NN используются для моделирования сложных взаимосвязей между входными и выходными данными (без фактического знания этих взаимосвязей) или для поиска закономерностей в данных. NN сначала подготавливаются во время фазы обучения, во время которой им предоставляется некоторый известный набор «входных данных» и информация для адаптации NN к генерированию надлежащих выходных данных (для некоторой определенной ситуации, которую пытаются смоделировать). Во время этой фазы обучения эта NN адаптируется к изучаемой ситуации и меняет свою структуру так, чтобы заданная NN могла обеспечивать разумные предсказанные выходные данные для определенных входных данных во время некоторой новой ситуации (на основе того, что было изучено). Таким образом, вместо того, чтобы пытаться определить сложные статистические схемы или математические алгоритмы для некоторой определенной ситуации, заданная NN пытается дать «интуитивный» ответ, основанный на «восприятии» ситуации. Таким образом, заданная NN является своего рода обученным «черным ящиком», который можно использовать в ситуации, когда то, что находится в «ящике», может быть менее важным; и когда более важным является обладание «коробкой», которая дает разумные ответы на имеющиеся входные данные. Например, NN обычно используются для оптимизации распределения веб-трафика между серверами и при обработке данных, включая фильтрацию, кластеризацию, разделение сигналов, сжатие, генерирование векторов и тому подобное.
[99] В других вариантах осуществления настоящей технологии модель 130 ранжирования может быть реализована как MLA на основе данного дерева решений. В широком смысле, MLA на основе данного дерева решений - это модель машинного обучения, имеющая одно или более «деревьев решений», которые используются (i) для перехода от наблюдений за объектом (представленных в ветвях) к заключениям о целевом значении объекта (представлены в листьях). В одной неограничивающей реализации настоящей технологии MLA на основе дерева решений может быть реализовано в соответствии со структурой CatBoost.
[100] Как MLA, основанный на дереве решений, может быть обучен в соответствии, по меньшей мере, с некоторыми вариантами осуществления настоящей технологии, раскрыто в патентной публикации США № 2019/0164084, озаглавленной «METHOD OF AND SYSTEM FOR GENERATING PREDICTION QUALITY PARAMETER FOR A PREDICATION MODEL EXECUTED IN A MACHINE LEARNING ALGORITHM», опубликованной 30 мая 2019 г., содержание которой полностью включено в настоящий документ посредством ссылки. Дополнительная информация о библиотеке CatBoost, ее реализации и алгоритмах градиентного бустинга доступна на https://catboost.ai.
[101] Как сервер 112 сконфигурирован для обучения модели 130 ранжирования для генерирования оценок ранжирования для ранжирования документов, потенциально релевантных запросу, по меньшей мере в некоторых вариантах осуществления настоящей технологии, будет более подробно обсуждаться в данном документе ниже со ссылкой на Фиг. 3.
[102] Сервер 106 сконфигурирован для выполнения одного или более алгоритмов, реализованных на компьютере, в дальнейшем называемых «алгоритмом рандомизации» 140, который в широком смысле сконфигурирован для генерирования случайных значений. Можно сказать, что сервер 106 может использовать алгоритм 140 рандомизации, чтобы генерировать «случайно выбранные» значения для различных временных интервалов. Например, сервер 106 может использовать алгоритм 140 рандомизации, чтобы сгенерировать заданное случайно выбранное значение для первого временного интервала и сохранить это заданное случайно выбранное значение для первого временного интервала в подсистеме 180 базы данных. В том же примере сервер 106 может использовать алгоритм 140 рандомизации, чтобы сгенерировать другое заданное случайно выбранное значение для второго временного интервала и сохранить это другое заданное случайно выбранное значение для второго временного интервала в подсистеме базы данных 180.
[103] Как станет понятно из приведенного ниже описания, следует отметить, что сервер 106 может быть сконфигурирован для использования случайно выбранных значений для повышения или понижения целевых документов в ранжированном списке результатов поиска. Как сервер 106 может быть сконфигурирован для использования этих случайно выбранных значений в течение соответствующих временных интервалов для повышения или понижения целевых документов, будет более подробно описано в данном документе ниже со ссылкой на Фиг. 4 и 5.
[104] Сервер 112 также может быть сконфигурирован для выполнения одного или более алгоритмов, реализованных на компьютере, в дальнейшем называемых «алгоритмом фильтрации» 150, который в широком смысле сконфигурирован для определения одного или более коммерческих ресурсов.
[105] Со ссылкой на Фиг. 2 изображено представление 200 того, как сервер 112 сконфигурирован для использования алгоритма 150 фильтрации для определения поднабора коммерческих ресурсов 204, которые потенциально являются мошенническими. Сервер 112 сконфигурирован для доступа к подсистеме 180 базы данных для извлечения данных прошлых поисков. Например, данные прошлых поисков могут содержать данные, указывающие на прошлые запросы, отправленные в поисковую машину 160, а также соответственно связанные документы, которые были ранее предоставлены в качестве результатов поиска в ответ на них.
[106] Предполагается, что сервер 112 может быть сконфигурирован для определения множества коммерческих ресурсов среди ресурсов, содержащих цифровые документы, которые потенциально могут быть предоставлены в качестве результатов поиска пользователям поисковой машины. С этой целью сервер 112 сконфигурирован для использования данных прошлых поисков для определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым «коммерческим запросам».
[107] Следует отметить, что в контексте настоящей технологии заданный коммерческий запрос - это заданный запрос, который имеет по меньшей мере один предварительно определенный коммерчески ориентированный терм (слово). Например, эти коммерческие термы могут быть определены оператором поисковой машины 160. В одном неограничивающем примере список предварительно определенных термов может храниться в подсистеме 180 базы данных и может содержать термы «купить», «продать», «заказать», «цена» и т.п.
[108] Сервер 112 может быть сконфигурирован для определения того, что ресурсы, содержащие документы, которые были предоставлены в ответ на прошлые запросы, содержащие по меньшей мере один из предварительно определенных термов, могут быть коммерческими ресурсами. Например, как показано на Фиг. 2, предположим, что сервер 112 определяет множество коммерческих ресурсов 202, содержащих коммерческие ресурсы 210, 211, 212, 213, 214, 215 и 216.
[109] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть сконфигурирован для использования алгоритма 150 фильтрации для определения поднабора коммерческих ресурсов 204 среди множества коммерческих ресурсов 202. В общем случае, алгоритм 150 фильтрации может быть сконфигурирован для применения предварительно определенного параметра к данным прошлых поисков, связанным с соответствующими данными из множества коммерческих ресурсов 202. В проиллюстрированном неограничивающем примере по меньшей мере один предварительно определенный параметр, используемый алгоритмом 150 фильтрации, содержит основанный на трафике порог 220 и основанный на качестве порог 230.
[110] Например, сервер 112 может быть сконфигурирован для сравнения значения показателя пользовательского трафика, связанного с соответствующими ресурсами из множества коммерческих ресурсов 202, с основанным на трафике порогом 220, чтобы определить, какие из них являются ресурсами с высоким трафиком. Не желая быть привязанными к какой-либо конкретной теории, разработчики настоящей технологии выявили, что коммерческие ресурсы, которые имеют относительно высокий пользовательский трафик, с высокой вероятностью не являются мошенническими ресурсами (или иными словами имеют низкую вероятность мошенничества). Основанный на трафике порог 220 может быть определен эмпирически или предварительно определен оператором поисковой машины 160 и может зависеть, среди прочего, от конкретных реализаций настоящей технологии.
[111] По меньшей мере в одном варианте осуществления сервер 112 может быть сконфигурирован для ранжирования множества коммерческих ресурсов 202 на основе их соответствующих значений показателей пользовательского трафика. Затем сервер 102 может быть сконфигурирован так, чтобы идентифицировать число N коммерческих ресурсов, расположенных наверху в ранжированном таким образом списке коммерческих ресурсов, как ресурсы с высоким трафиком. Следовательно, предполагается, что основанный на трафике порог 220 может указывать по меньшей мере на одно из (i) заданного порогового значения показателя пользовательского трафика и (ii) ранжированной позиции в ранжированном списке коммерческих ресурсов, ранжированных на основе соответствующих значений показателей пользовательского трафика.
[112] Как упомянуто выше, сервер 112 также может быть сконфигурирован для сравнения значения показателя качества, связанного с соответствующими из множества коммерческих ресурсов 202, с основанным на качестве порогом 230, чтобы определить, какие из них являются высококачественными ресурсами. В некоторых неограничивающих примерах заданная метрика качества может представлять собой, но не ограничивается этим, количество и/или процент пользователей, возвращающихся на веб-ресурс, количество и/или процент положительных отзывов об этом веб-ресурсе, соотношение прямых посещений (например, через закладки или строку ввода в браузере) к общему числу посещений веб-сайта, долгосрочное удержание (например, сколько пользователей посещают веб-сайт в течение более чем года), доля кликов по рекламе на веб-сайте от всех исходящих переходов в целом, доля длительных сеансов из всех сеансов на веб-сайте. Не желая быть привязанными к какой-либо конкретной теории, разработчики настоящей технологии выявили, что коммерческие ресурсы, которые имеют относительно высокое качество, с высокой вероятностью не являются мошенническими ресурсами (или иными словами имеют низкую вероятность мошенничества). Основанный на качестве порог 230 может быть определен эмпирически или предварительно определен оператором поисковой машины 160 и может зависеть, среди прочего, от характера показателя качества и конкретных реализаций настоящей технологии.
[113] По меньшей мере в одном варианте осуществления сервер 112 может быть сконфигурирован для ранжирования множества коммерческих ресурсов 202 на основе их соответствующих значений показателей качества. Затем сервер 102 может быть сконфигурирован так, чтобы идентифицировать число M коммерческих ресурсов, расположенных наверху в ранжированном таким образом списке коммерческих ресурсов, как высококачественные ресурсы. Следовательно, предполагается, что основанный на качестве порог 230 может указывать по меньшей мере на одно из (i) заданного порогового значения показателя качества и (ii) ранжированной позиции в ранжированном списке коммерческих ресурсов, ранжированных на основе их соответствующих значений показателей качества.
[114] Предположим, что сервер 112 идентифицировал коммерческий ресурс 214 как заданный ресурс с высоким трафиком, а коммерческие ресурсы 215 и 216 как высококачественные ресурсы. Таким образом, сервер 112 может быть сконфигурирован для определения поднабора коммерческих ресурсов 204 среди множества коммерческих ресурсов 202 путем удаления ресурса 214 с высоким трафиком и высококачественных ресурсов 215 и 216. Можно сказать, что в некоторых вариантах осуществления настоящей технологии сервер 112 может быть сконфигурирован для определения группы коммерческих ресурсов 206, которая включает в себя коммерческие ресурсы, которые, вероятно, не являются мошенническими.
[115] Предполагается, что набор ресурсов с высоким трафиком и набор высококачественных ресурсов не обязательно могут быть взаимоисключающими в каждом варианте осуществления настоящей технологии. Например, заданный высококачественный ресурс также может быть ресурсом с высоким трафиком и наоборот, по меньшей мере в некоторых вариантах осуществления настоящей технологии.
[116] В некоторых вариантах осуществления настоящей технологии можно сказать, что сервер 112, использующий алгоритм 150 фильтрации, может быть сконфигурирован для определения группы коммерческих ресурсов 206 из множества коммерческих ресурсов 202, которые содержат высококачественные ресурсы и ресурсы с высоким трафиком. Также предполагается, что сервер 112 может быть сконфигурирован для хранения поднабора коммерческих ресурсов 204 в ассоциации с данными, которые указывают на то, что соответствующие ресурсы из поднабора коммерческих ресурсов не являются ресурсами с высоким трафиком или высоким качеством.
[117] Сервер 106 может быть сконфигурирован для использования информации, указывающей, какие коммерческие ресурсы включены в поднабор коммерческих ресурсов 204, чтобы идентифицировать один или более целевых документов, которые будут повышаться или понижаться в ранжированных списках результатов поиска. Как будет обсуждаться более подробно ниже со ссылкой на Фиг. 4 и 5, сервер 106 может быть сконфигурирован для идентификации документов, связанных с коммерческими ресурсами в поднаборе коммерческих ресурсов 204, в качестве целевых документов, которые должны быть повышены или понижены в разные моменты времени, когда они предоставляются в качестве результатов поиска в ответ на запрос.
[118] Со ссылкой на Фиг. 3 изображено представление 300 одной итерации обучения модели 130 ранжирования. Сервер 112 может быть сконфигурирован для получения обучающих данных 302 для обучающей пары документ-запрос. Обучающие данные 302 содержат (i) данные 306 запроса, связанные с обучающим запросом, (ii) данные 304 документа, связанные с обучающим документом, включая обучающее случайно выбранное значение 308, и (iii) оценочную метку 310, указывающую релевантность обучающего документа обучающему запросу.
[119] Сервер 112 может быть сконфигурирован для генерирования модифицированной метки 320 как комбинации оценочной метки 310 и обучающего случайно выбранного значения 308. Например, сервер 106 может быть сконфигурирован для использования алгоритма 140 рандомизации, чтобы генерировать случайно выбранное значение 308 во время обучения модели 130 ранжирования. Таким образом, можно сказать, что сервер 112 может быть сконфигурирован для генерирования обучающего набора, содержащего данные 306 запроса, данные 304 документа и модифицированную метку 320.
[120] Следует отметить, что во время итерации обучения сервер 112 сконфигурирован для ввода в обучаемый MLA данных 306 запроса и данных 304 документа для генерирования предсказанной оценки 330 ранжирования для обучающего документа. В общем случае, предсказанная оценка 330 ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу. Сервер 112 также сконфигурирован для корректировки MLA на основе сравнения предсказанной оценки 330 ранжирования с модифицированной меткой 310, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
[121] Следует отметить, что использование модифицированной метки 320, в отличие от оценочной метки 310, может позволить серверу 106 обучить модель 130 ранжирования учитывать случайно выбранные значения во время фазы использования модели 130 ранжирования при ранжировании документов в ответ на запрос.
[122] Со ссылкой на Фиг. 4 изображено представление 400 того, как целевой документ 404 (размещенный на коммерческом ресурсе 210 из поднабора коммерческих ресурсов 204) может быть сохранен в ассоциации со случайно выбранными значениями в соответствующие временные интервалы.
[123] Сервер 106 может быть сконфигурирован для использования алгоритма 140 рандомизации для генерирования первого случайно выбранного значения 415 для первого временного интервала 410 и второго случайно выбранного значения 425 для второго временного интервала 420. Например, допустим, что сервер 106 генерирует заданное положительное значение в качестве первого случайно выбранного значения 415 и заданное отрицательное значение в качестве второго случайно выбранного значения 425.
[124] В некоторых вариантах осуществления первый временной интервал 410 и второй временной интервал 420 могут иметь общую продолжительность времени, то есть первый временной интервал 410 и второй временной интервал 420 могут иметь одинаковую продолжительность времени. Как проиллюстрировано, первый временной интервал 410 находится перед вторым временным интервалом 420, однако это не обязательно может быть так во всех без исключения реализациях настоящей технологии. В одном варианте осуществления первый временной интервал 410 с положительным случайно выбранным значением может следовать после второго временного интервала 420 с отрицательным случайно выбранным значением. Кроме того, предполагается, что первый временной интервал 410 может быть одним из множества первых временных интервалов, а второй временной интервал 420 может быть одним из множества вторых временных интервалов. В таких вариантах осуществления соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов могут быть последовательно смещены во времени. В одном варианте осуществления предполагается, что сервер 106, использующий алгоритм рандомизации, может быть сконфигурирован для генерирования положительных случайно выбранных значений и отрицательных случайно выбранных значений в ступенчатой последовательности для соответствующих временных интервалов.
[125] Следует отметить, что в течение первого временного интервала 410 сервер 106 может быть сконфигурирован для выполнения первого множества поисков. Предположим, что целевой документ 404 должен быть предоставлен в качестве результата поиска для заданного одного из первого множества поисковых запросов, выполняемых сервером 106 в течение первого временного интервала 410. В этом случае сервер 106 может быть сконфигурирован для проверки того, связан ли целевой документ 404 с заданным ресурсом из поднабора коммерческих ресурсов 204. Если это так, сервер 106 может быть сконфигурирован для извлечения из подсистемы 180 базы данных текущего случайно выбранного значения для целей ранжирования целевого документа 404. Следует отметить, что в проиллюстрированном примере текущее случайно выбранное значение в течение первого временного интервала является первым случайно выбранным значением 415.
[126] Кроме того, в течение второго временного интервала 420 сервер 106 может быть сконфигурирован для выполнения второго множества поисков. Предположим, что целевой документ 404 должен быть предоставлен в качестве результата поиска для заданного одного из второго множества поисков, выполняемых сервером 106 в течение второго временного интервала 420. В этом случае сервер 106 может быть сконфигурирован для проверки того, связан ли целевой документ 404 с заданным ресурсом из поднабора коммерческих ресурсов 204. Если это так, сервер 106 может быть сконфигурирован для извлечения из подсистемы 180 базы данных текущего случайно выбранного значения для целей ранжирования целевого документа 404. Следует отметить, что в проиллюстрированном примере текущее случайно выбранное значение в течение второго временного интервала является вторым случайно выбранным значением 425.
[127] Теперь со ссылкой на Фиг. 4 и 5 предположим, что целевой документ 404 должен быть предоставлен в качестве результата поиска в ответ на запрос 511 в разные моменты времени.
[128] В первом примере предположим, что запрос 511 получен в течение временного интервала 401, в течение которого сервер 106 не использует алгоритм 140 рандомизации для целей ранжирования. В таком случае сервер 106 может быть сконфигурирован для использования модели 130 ранжирования для генерирования ранжированного списка 501 документов в ответ на запрос 511. Действительно, если целевой документ 404 должен быть ранжирован в течение временного интервала 401, сервер 106 может ранжировать целевой документ 404 так, чтобы он занимал четвертую позицию в ранжированном списке 501 в ответ на запрос 511.
[129] Во втором примере предположим, что запрос 511 получен в течение первого временного интервала 410, в течение которого сервер 106 использует алгоритм 140 рандомизации для целей ранжирования. В таком случае сервер 106 может быть сконфигурирован для использования первого случайно выбранного значения 415 для ранжирования целевого документа 404 с помощью модели 130 ранжирования. Когда сервер 106 вводит данные, связанные с целевым документом 404, в модель 130 ранжирования, сервер 106 конфигурируется также для ввода первого случайно выбранного значения 415. С учетом того, что первое случайно выбранное значение 415 является положительным значением, модель 130 ранжирования может быть сконфигурирована для генерирования ранжированного списка 502, когда целевой документ 404 ранжируется в другой, более высокой позиции, чем в ранжированном списке 501. В проиллюстрированном примере сервер 106 может быть сконфигурирован для ранжирования целевого документа 404 таким образом, чтобы он занимал вторую позицию в ранжированном списке 502 в ответ на запрос 511 в течение первого временного интервала 410.
[130] Следовательно, можно сказать, что в этом втором примере сервер 106 может быть сконфигурирован для генерирования первого ранжированного списка релевантных документов (ранжированного списка 502) для запроса 511 на основе, по меньшей мере частично, первого случайно выбранного значения 415. Первый ранжированный список релевантных документов (ранжированный список 502) содержит целевой документ 404 в позиции повышенного ранга, то есть целевой документ 404 занимает вторую позицию в ранжированном списке 502, в отличие от его позиции по умолчанию - четвертой позиции в ранжированном списке 501. Следовательно, можно сказать, что первое случайно выбранное значение 415 (в этом примере предполагается, что оно положительное) повышает целевой документ 404 в ранжированном списке релевантных документов.
[131] В третьем примере предположим, что запрос 511 получен в течение второго временного интервала 420, в течение которого сервер 106 использует алгоритм 140 рандомизации для целей ранжирования. В таком случае сервер 106 может быть сконфигурирован для использования второго случайно выбранного значения 425 для ранжирования целевого документа 404 с помощью модели 130 ранжирования. Когда сервер 106 вводит данные, связанные с целевым документом 404, в модель 130 ранжирования, сервер 106 конфигурируется также для ввода второго случайно выбранного значения 425. С учетом того, что второе случайно выбранное значение 425 является отрицательным значением, модель 130 ранжирования может быть сконфигурирована для генерирования ранжированного списка 503, когда целевой документ 404 ранжируется в другой, более низкой позиции, чем в ранжированном списке 501. В проиллюстрированном примере сервер 106 может быть сконфигурирован для ранжирования целевого документа 404 таким образом, чтобы он занимал шестую позицию в ранжированном списке 503 в ответ на запрос 511 в течение второго временного интервала 420.
[132] Следовательно, можно сказать, что в этом третьем примере сервер 106 может быть сконфигурирован для генерирования второго ранжированного списка релевантных документов (ранжированного списка 503) для запроса 511 на основе, по меньшей мере частично, второго случайно выбранного значения 425. Второй ранжированный список релевантных документов (ранжированный список 503) содержит целевой документ 404 в позиции пониженного ранга, то есть целевой документ 404 занимает шестую позицию в ранжированном списке 503 в отличие от его позиции по умолчанию - четвертой позиции в ранжированном списке 501. Следовательно, можно сказать, что второе случайно выбранное значение 425 (в этом примере предполагается, что оно отрицательное) понижает целевой документ 404 в ранжированном списке релевантных документов.
[133] Разработчики настоящей технологии выявили, что использование случайно выбранных значений, как описано выше, для последовательного повышения целевого документа 404 в течение первого временного интервала 410 и понижения целевого документа 404 в течение второго временного интервала 420 может быть полезным для снижения риска мошенничества, если целевой документ 404 исходит из потенциально мошеннического веб-ресурса. Следует отметить, что сервер 106 сконфигурирован для выполнения множества поисков в течение первого временного интервала 410 и в течение второго временного интервала 420 соответственно. В результате, когда целевой документ 404 в целом повышается в рангах в течение первого временного интервала 410 и в целом понижается в рангах в течение второго временного интервала 420, увеличивается разрыв в пользовательском трафике к целевому документу 404 (и, следовательно, к соответствующему веб-ресурсу) между первым временным интервалом 410 и вторым временным интервалом 420.
[134] Чтобы лучше проиллюстрировать это, теперь будет сделана ссылка на Фиг. 6, на которой показано представление 600 того, как пользовательский трафик к целевому документу 404 может изменяться в зависимости от соответствующих временных интервалов и соответствующих случайно выбранных значений, используемых для ранжирования целевого документа 404.
[135] В частности, представление 600 показывает указание пользовательского трафика 601 в течение временного интервала 401, указание пользовательского трафика 610 в течение первого временного интервала 410 и указание пользовательского трафика 620 в течение второго временного интервала 420. Как объяснено выше, предполагая, что в течение временного интервала 401 сервер 106 не использует алгоритм 140 рандомизации для целей ранжирования, указание пользовательского трафика 601 является указанием пользовательского трафика к целевому документу 404, если релевантность целевого документа 404 не корректируется заданным случайно выбранным значением.
[136] В проиллюстрированном примере указание пользовательского трафика 610 является указанием пользовательского трафика к целевому документу 404, если релевантность целевого документа 404 положительно скорректирована первым случайно выбранным значением 415. Действительно, если целевой документ 404 представлен в позиции повышенного ранга в течение первого временного интервала 410, пользовательский трафик к целевому документу 404 обычно имеет тенденцию к увеличению. Кроме того, указание пользовательского трафика 620 является указанием пользовательского трафика к целевому документу 404, если релевантность целевого документа 404 отрицательно скорректирована вторым случайно выбранным значением 425. Действительно, если целевой документ 404 представлен в позиции пониженного ранга в течение второго временного интервала 420, пользовательский трафик к целевому документу 404 обычно имеет тенденцию к уменьшению.
[137] Следовательно, ранжирование целевого документа 404 на позициях повышенного ранга в течение первого временного интервала 410 и на позициях пониженного ранга в течение второго временного интервала 420 приводит к разрыву 650 в пользовательском трафике к целевому документу 404 между первым временным интервалом 410 и вторым временным интервалом 420.
[138] На Фиг. 7 схематично показан способ 700 ранжирования цифровых документов в ответ на запрос. Например, сервер 112 может быть сконфигурирован для выполнения способа 700, этапы которого теперь будут обсуждаться более подробно.
ЭТАП 702: определение целевого ресурса среди множества ресурсов, причем множество ресурсов размещает в себе цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска, причем целевой ресурс размещает в себе целевой документ
[139] Способ 700 начинается на этапе 702 с того, что сервер 112 конфигурируется для определения заданного целевого ресурса среди множества ресурсов. Например, сервер 112 может быть сконфигурирован для определения целевого коммерческого ресурса 210 среди множества ресурсов 202, содержащих цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска. Следует отметить, что целевой ресурс 210 содержит целевой документ 404.
[140] В некоторых вариантах осуществления следует отметить, что сервер 112 может быть сконфигурирован для осуществления доступа к подсистеме 180 базы данных для извлечения данных прошлых поисков. Данные прошлых поисков содержат данные, указывающие на прошлые запросы и, соответственно, связанные документы, которые были предоставлены в качестве результатов поиска в ответ на них. Сервер 112 также может быть сконфигурирован для определения множества коммерческих ресурсов 202 путем определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам. Следует отметить, что заданный прошлый коммерческий запрос может быть заданным прошлым запросом, который имеет по меньшей мере один предварительно определенный терм.
[141] Сервер 112 также может быть сконфигурирован для фильтрации множества коммерческих ресурсов 202 путем удаления ресурсов с высоким трафиком, с помощью чего определяется набор коммерческих ресурсов. Сервер 112 может быть сконфигурирован для применения заданного основанного на трафике порога к пользовательскому трафику, связанному с соответствующими ресурсами из множества коммерческих ресурсов, для определения набора коммерческих ресурсов.
[142] Сервер 112 также может быть сконфигурирован для фильтрации определенного таким образом набора коммерческих ресурсов путем удаления высококачественных ресурсов, с помощью чего определяется поднабор коммерческих ресурсов 204. Сервер 112 может быть сконфигурирован для применения заданного основанного на качестве порога к данным, связанным с соответствующими данными из набора коммерческих ресурсов. Поднабор коммерческих ресурсов 204 содержит целевой ресурс 210.
[143] Предполагается, что сервер 112 может быть сконфигурирован для определения группы коммерческих ресурсов 206, которые, вероятно, не являются мошенническими коммерческими ресурсами (например, коммерческие ресурсы с высоким качеством и высоким трафиком). В некоторых вариантах осуществления сервер 112 может быть сконфигурирован для выбора целевого ресурса 210 среди поднабора коммерческих ресурсов 204.
[144] В других вариантах осуществления сервер 112 может быть сконфигурирован для определения множества коммерческих ресурсов 202 на основе данных поиска поисковой машины и определения поднабора коммерческих ресурсов 204 путем отфильтровывания группы коммерческих ресурсов 206 из множества коммерческих ресурсов 202. Группа коммерческих ресурсов 206 с высокой вероятностью не включает в себя мошеннические ресурсы на основе одного или более предварительно определенных параметров.
[145] В некоторых вариантах осуществления сервер 112 может быть сконфигурирован для определения группы коммерческих ресурсов 206 путем применения предварительно определенного параметра к данным поиска, связанным с соответствующими данными из множества коммерческих ресурсов 202, и причем предварительно определенный параметр является по меньшей мере одним из основанного на трафике порога 220 и основанного на качестве порога 230. Ресурсы с высоким трафиком и высококачественные ресурсы среди множества коммерческих ресурсов 202 с высокой вероятностью не являются мошенническими ресурсами.
ЭТАП 704: генерирование первого случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала
[146] Способ 700 переходит к этапу 704, на котором сервер 112 сконфигурирован для генерирования первого случайно выбранного значения 415 для целевого документа 404, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала 410.
[147] В некоторых вариантах осуществления сервер 112 может быть сконфигурирован для использования алгоритма 140 рандомизации для генерирования первого случайно выбранного значения 415. Следует отметить, что в некоторых вариантах осуществления первое случайно выбранное значение 415 может быть заданным положительным значением.
ЭТАП 706: в течение первого временного интервала получение указания запроса от электронного устройства
[148] Способ 700 переходит к этапу 706, на котором сервер 112 сконфигурирован так, чтобы в течение первого временного интервала 410 получать указание запроса 511 от заданного электронного устройства (например, устройства 104).
ЭТАП 708: в течение первого временного интервала генерирование первого ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, первого случайно выбранного значения
[149] Способ 700 переходит к этапу 708, на котором сервер 112 сконфигурирован так, чтобы в течение первого временного интервала 410 генерировать первый ранжированный список 502 релевантных документов для запроса 511 на основе, по меньшей мере частично, первого случайно выбранного значения 415. Следует отметить, что первый ранжированный список 502 релевантных документов содержит целевой документ 404 на позиции повышенного ранга. Как показано на Фиг. 5, позиция повышенного ранга является второй позицией. Следует также отметить, что первое случайно выбранное значение 415 повышает целевой документ 404 в ранжированном списке 502 релевантных документов, как объяснялось ранее, по сравнению с позицией целевого документа 404 в ранжированном списке 501.
[150] Следует отметить, что сервер может быть сконфигурирован для выполнения в течение первого временного интервала первого множества поисков (аналогично поиску, дающему первый ранжированный список 502), и причем целевой документ 404 предоставляется как результат поиска для поднабора из первого множества поисков.
[151] В некоторых вариантах осуществления настоящей технологии следует отметить, что первый ранжированный список 502 может быть сгенерирован с помощью MLA (модели 130 ранжирования), обученного ранжировать документы на основе соответствующей оценочной релевантности запросу 511 и соответствующих случайно выбранных значений. Например, более одного целевого документа может быть ранжировано в первом ранжированном списке 502 на основе соответствующей оценочной релевантности запросу 511 и соответствующих случайно выбранных значений.
[152] В некоторых вариантах осуществления сервер 112 может быть сконфигурирован для обучения модели 130 ранжирования ранжированию документов. С этой целью сервер 112 может быть сконфигурирован для получения обучающих данных 302 для обучающей пары документ-запрос. Обучающие данные 302 содержат (i) данные 306 запроса, связанные с обучающим запросом, (ii) данные 304 документа, связанные с обучающим документом, включая обучающее случайно выбранное значение 308, и (iii) оценочную метку 310, указывающую релевантность обучающего документа обучающему запросу.
[153] Сервер 112 может быть сконфигурирован для генерирования модифицированной метки 320 как комбинации оценочной метки 310 и обучающего случайно выбранного значения 308. Например, сервер 106 может быть сконфигурирован для использования алгоритма 140 рандомизации, чтобы генерировать случайно выбранное значение 308 во время обучения модели 130 ранжирования. Таким образом, можно сказать, что сервер 112 может быть сконфигурирован для генерирования обучающего набора, содержащего данные 306 запроса, данные 304 документа и модифицированную метку 320.
[154] Следует отметить, что во время итерации обучения сервер 112 сконфигурирован для ввода в обучаемый MLA данных 306 запроса и данных 304 документа для генерирования предсказанной оценки 330 ранжирования для обучающего документа. В общем случае, предсказанная оценка 330 ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу. Сервер 112 также может быть сконфигурирован для корректировки MLA на основе сравнения предсказанной оценки 330 ранжирования с модифицированной меткой 310, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
[155] В других вариантах осуществления настоящей технологии сервер 112 может быть сконфигурирован для обучения модели 130 ранжирования при использовании оценочной метки 310 (в отличие от модифицированной метки 320) для сравнения с предсказанной оценкой 330 ранжирования. В таких вариантах осуществления сервер 112 может использовать модель 130 ранжирования во время фазы использования для предсказания оценки ранжирования при использовании для пары целевой документ 404 - запрос 511, а затем корректировать определенную таким образом оценку ранжирования при использовании первым случайно выбранным значением 415 в течение первого временного интервала 410. Целевой документ 404 может быть ранжирован в первом ранжированном списке 502 на основе скорректированной таким образом оценки ранжирования при использовании.
ЭТАП 710: генерирование второго случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение второго временного интервала
[156] Способ 700 переходит к этапу 710, на котором сервер 112 сконфигурирован для генерирования второго случайно выбранного значения 425 для целевого документа 404, которое должно использоваться для ранжирования целевого документа 404 в течение второго временного интервала 420.
[157] В некоторых вариантах осуществления сервер 112 может быть сконфигурирован для использования алгоритма 140 рандомизации для генерирования второго случайно выбранного значения 425. Следует отметить, что в некоторых вариантах осуществления второе случайно выбранное значение 425 может быть заданным отрицательным значением.
[158] В некоторых вариантах осуществления первый временной интервал 410 и второй временной интервал 420 имеют общую продолжительность времени. В других вариантах осуществления первый временной интервал 410 находится перед вторым временным интервалом 420. В дополнительных вариантах осуществления первый временной интервал 410 следует после второго временного интервала 420. В еще других вариантах осуществления первый временной интервал 410 является одним из множества первых временных интервалов, а второй временной интервал 420 является одним из множества вторых временных интервалов. В таких случаях соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов могут быть последовательно смещены во времени.
ЭТАП 712: в течение второго временного интервала получение указания запроса от электронного устройства
[159] Способ 700 переходит к этапу 712, на котором сервер 112 сконфигурирован так, чтобы в течение второго временного интервала 420 получать указание запроса 511 от заданного электронного устройства (например, устройства 104).
ЭТАП 714: в течение второго временного интервала генерирование второго ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, второго случайно выбранного значения
[160] Способ 700 переходит к этапу 714, на котором сервер 112 сконфигурирован для генерирования второго ранжированного списка 503 релевантных документов для запроса 511 на основе, по меньшей мере частично, второго случайно выбранного значения 425. Следует отметить, что второй ранжированный список 503 релевантных документов содержит целевой документ 404 в позиции пониженного ранга. Как показано на Фиг. 5, позиция пониженного ранга - шестая. Следует также отметить, что второе случайно выбранное значение 425 понижает ранжирование целевого документа 404 во втором ранжированном списке 503 релевантных документов, как объяснялось ранее, по сравнению с положением целевого документа 404 в ранжированном списке 501.
[161] Следует отметить, что в некоторых вариантах осуществления сервер 112 может быть сконфигурирован для выполнения первого множества поисков в течение первого временного интервала 410 и второго множества поисков в течение второго временного интервала 420, причем по меньшей мере некоторые из первого множества поисков и второго множества поисков дают целевой документ 404 как заданный результат поиска.
[162] Следует отметить, что позиция повышенного ранга в первом ранжированном списке 502 находится выше позиции пониженного ранга во втором ранжированном списке 503 для увеличения разрыва 650 в пользовательском трафике к целевому документу 404 между первым временным интервалом 410 и вторым временным интервалом 420.
[163] В некоторых вариантах осуществления настоящей технологии сервер 112 может быть сконфигурирован для отслеживания пользовательского трафика к целевому документу 404 в течение первого временного интервала 410 и в течение второго временного интервала 420.
[164] В тех вариантах осуществления, в которых сервер 112 сконфигурирован для обучения модели 130 ранжирования при использовании оценочной метки 310 (в отличие от модифицированной метки 320) для сравнения с предсказанной оценкой 330 ранжирования, сервер 112 может использовать модель 130 ранжирования во время своей фазы использования для предсказания оценки ранжирования при использовании для пары целевой документ 404 - запрос 511, а затем корректировать определенную таким образом оценку ранжирования при использовании вторым случайно выбранным значением 425 в течение первого временного интервала 420. Целевой документ 404 может быть ранжирован во втором ранжированном списке 503 на основе скорректированной таким образом оценки ранжирования при использовании.
[165] Разработчики настоящей технологии разработали способы и системы для искусственного увеличения разрыва или изменения пользовательского трафика к заданному коммерческому веб-ресурсу между различными временными интервалами. В результате оператор заданного коммерческого веб-ресурса (например, целевого ресурса 210, на котором размещен целевой документ 404) может понять, что между первым временным интервалом 410 и вторым временным интервалом 410 пользовательский трафик к заданному коммерческому веб-ресурсу упал. Если оператор участвует в мошеннической схеме, он может рассмотреть вопрос о прекращении своей мошеннической деятельности, поскольку теперь уменьшенный пользовательский трафик может не принести достаточных преимуществ для продолжения мошеннической схемы.
[166] Следует четко понимать, что не все технические эффекты, упомянутые в данном документе, обязательно будут достигаться в каждом и каждом варианте осуществления настоящей технологии. Например, варианты осуществления настоящей технологии могут быть реализованы без достижения некоторых из этих технических эффектов, в то время как другие варианты осуществления могут быть реализованы с достижением других технических эффектов или вообще без них.
[167] Некоторые из вышеупомянутых этапов, а также отправка/прием сигналов хорошо известны в заданной области техники и, как таковые, были опущены в некоторых частях этого описания для его упрощения. Сигналы могут отправляться/приниматься с использованием оптических средств (например, оптоволоконного соединения), электронных средств (например, используя проводное или беспроводное соединение), а также механических средств (например, средств, основанных на давлении, на температуре, или на основе любого другого подходящего физического параметра).
[168] Модификации и улучшения вышеописанных реализаций настоящей технологии могут стать понятными для специалистов в заданной области техники. Предшествующее описание предназначено для того, чтобы быть примерным, а не ограничивающим. Поэтому подразумевается, что объем настоящей технологии ограничен только объемом прилагаемой формулы изобретения.

Claims (84)

1. Способ обеспечения доступа к документу в ответ на запрос, причем запросы отправляются пользователями электронных устройств в поисковую машину, поисковая машина размещена на сервере, способ выполняется сервером и для каждого запроса пользователя содержит:
осуществление доступа сервером к системе базы данных для извлечения данных прошлых поисков, причем данные прошлых поисков содержат данные, указывающие на прошлые запросы и, соответственно, связанные документы, которые были предоставлены в качестве результатов поиска в ответ на них;
определение сервером множества коммерческих ресурсов на основе данных поиска поисковой машины;
определение сервером поднабора коммерческих ресурсов путем фильтрации группы коммерческих ресурсов из упомянутого множества коммерческих ресурсов, причем упомянутая группа коммерческих ресурсов включает в себя ресурсы, для которых по меньшей мере один из показателя трафика и показателя качества превышает основанный на трафике порог и основанный на качестве порог, причем показатель качества ресурса включает в себя по меньшей мере одно из следующего: количество и/или процент пользователей, возвращающихся на ресурс, количество и/или процент положительных отзывов об этом ресурсе, соотношение прямых посещений к общему числу посещений ресурса, долгосрочное удержание пользователей, доля кликов по рекламе на ресурсе от всех исходящих переходов в целом, доля длительных сеансов из всех сеансов на ресурсе;
причем упомянутый поднабор коммерческих ресурсов содержит целевой ресурс;
определение сервером целевого ресурса среди упомянутого поднабора коммерческих ресурсов, причем ресурсы размещают в себе цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска, причем целевой ресурс размещает в себе целевой документ;
генерирование сервером первого случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала;
в течение первого временного интервала:
получение сервером указания запроса от электронного устройства;
генерирование сервером первого ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, первого случайно выбранного значения, причем первый ранжированный список релевантных документов содержит целевой документ в позиции повышенного ранга, причем первое случайно выбранное значение предназначено для повышения целевого документа в ранжированном списке релевантных документов;
генерирование сервером второго случайно выбранного значения для целевого документа, которое должно использоваться для ранжирования целевого документа в течение второго временного интервала;
в течение второго временного интервала:
получение сервером указания запроса от электронного устройства;
генерирование сервером второго ранжированного списка релевантных документов для упомянутого запроса на основе, по меньшей мере частично, второго случайно выбранного значения, причем второй ранжированный список релевантных документов содержит целевой документ в позиции пониженного ранга, причем второе случайно выбранное значение предназначено для понижения целевого документа во втором ранжированном списке релевантных документов,
причем позиция повышенного ранга в первом ранжированном списке находится выше позиции пониженного ранга во втором ранжированном списке для увеличения разрыва в пользовательском трафике к целевому документу между первым временным интервалом и вторым временным интервалом;
обеспечение пользователю доступа к выбранному документу из первого ранжированного списка релевантных документов или второго ранжированного списка релевантных документов для упомянутого запроса в зависимости от временного интервала.
2. Способ по п. 1, в котором генерирование первого случайно выбранного значения и второго случайно выбранного значения содержит использование сервером алгоритма рандомизации.
3. Способ по п. 2, в котором алгоритм рандомизации генерирует (i) положительное значение, когда используется для генерирования первого случайно выбранного значения, и (ii) отрицательное значение, когда используется для генерирования второго случайно выбранного значения.
4. Способ по п. 1, причем способ дополнительно содержит:
в течение первого временного интервала выполнение сервером, на котором размещена поисковая машина, первого множества поисков; и
в течение второго временного интервала выполнение сервером, на котором размещена поисковая машина, второго множества поисков; и
причем целевой документ предоставляется как результат поиска для поднабора из первого множества поисков и поднабора из второго множества поисков.
5. Способ по п. 1, причем способ дополнительно содержит:
отслеживание сервером пользовательского трафика к целевому документу в течение первого временного интервала и в течение второго временного интервала.
6. Способ по п. 1, в котором генерирование первого ранжированного списка и второго ранжированного списка выполняется алгоритмом машинного обучения (MLA), обученным ранжировать документы на основе (i) соответствующей оценочной релевантности запросу и (ii) соответствующих случайно выбранных значений.
7. Способ по п. 6, в котором способ дополнительно содержит обучение сервером упомянутого MLA ранжированию документов, причем обучение содержит:
получение сервером обучающих данных для обучающей пары документ-запрос, причем обучающие данные содержат (i) данные запроса, связанные с обучающим запросом, (ii) данные документа, связанные с обучающим документом, включая обучающее случайно выбранное значение, и (iii) оценочную метку, указывающую на релевантность обучающего документа обучающему запросу;
генерирование сервером модифицированной метки в виде комбинации оценочной метки и обучающего случайно выбранного значения, с помощью чего генерируется обучающий набор, содержащий данные запроса, данные документа и модифицированную метку;
во время заданной итерации обучения:
ввод сервером в MLA данных запроса и данных документа для генерирования предсказанной оценки ранжирования для обучающего документа, причем предсказанная оценка ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу;
корректировка сервером MLA на основе сравнения предсказанной оценки ранжирования с модифицированной меткой, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
8. Способ по п. 1, в котором определение поднабора коммерческих ресурсов содержит:
определение сервером множества коммерческих ресурсов путем определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам,
причем заданный прошлый коммерческий запрос является заданным прошлым запросом, имеющим по меньшей мере один предварительно определенный терм;
фильтрацию сервером множества коммерческих ресурсов путем удаления ресурсов с высоким трафиком, с помощью чего определяется набор коммерческих ресурсов, причем фильтрация содержит:
применение сервером основанного на трафике порога к пользовательскому трафику, связанному с соответствующими ресурсами из множества коммерческих ресурсов;
фильтрацию сервером упомянутого набора коммерческих ресурсов путем удаления высококачественных ресурсов, с помощью чего определяется поднабор коммерческих ресурсов, причем фильтрация содержит:
применение сервером основанного на качестве порога к данным, связанным с соответствующими данными из набора коммерческих ресурсов.
9. Способ по п. 1, в котором первый временной интервал и второй временной интервал имеют общую продолжительность времени.
10. Способ по п. 1, в котором первый временной интервал предшествует второму временному интервалу.
11. Способ по п. 1, в котором первый временной интервал следует после второго временного интервала.
12. Способ по п. 1, в котором первый временной интервал является одним из множества первых временных интервалов, а второй временной интервал является одним из множества вторых временных интервалов, причем соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов последовательно смещены во времени.
13. Сервер для обеспечения доступа пользователю к документу в ответ на запрос, причем запросы отправляются пользователями электронных устройств в поисковую машину, поисковая машина размещена на сервере, причем сервер сконфигурирован с возможностью для каждого запроса пользователя:
осуществлять доступ к системе базы данных для извлечения данных прошлых поисков, причем данные прошлых поисков содержат данные, указывающие на прошлые запросы и, соответственно, связанные документы, которые были предоставлены в качестве результатов поиска в ответ на них;
определять множество коммерческих ресурсов на основе данных поиска поисковой машины;
определять поднабор коммерческих ресурсов путем фильтрации группы коммерческих ресурсов из упомянутого множества коммерческих ресурсов, причем упомянутая группа коммерческих ресурсов включает в себя ресурсы, для которых по меньшей мере один из показателя трафика и показателя качества превышает основанный на трафике порог и основанный на качестве порог, причем показатель качества ресурса включает в себя по меньшей мере одно из следующего: количество и/или процент пользователей, возвращающихся на ресурс, количество и/или процент положительных отзывов об этом ресурсе, соотношение прямых посещений к общему числу посещений ресурса, долгосрочное удержание пользователей, доля кликов по рекламе на ресурсе от всех исходящих переходов в целом, доля длительных сеансов из всех сеансов на ресурсе;
причем упомянутый поднабор коммерческих ресурсов содержит целевой ресурс;
определять целевой ресурс среди упомянутого поднабора коммерческих ресурсов, причем ресурсы размещают в себе цифровые документы, которые потенциально могут быть предоставлены поисковой машиной в качестве результатов поиска, причем целевой ресурс размещает в себе целевой документ;
генерировать первое случайно выбранное значение для целевого документа, которое должно использоваться для ранжирования целевого документа в течение первого временного интервала;
в течение первого временного интервала:
получать указание запроса от электронного устройства;
генерировать первый ранжированный список релевантных документов для упомянутого запроса на основе, по меньшей мере частично, первого случайно выбранного значения, причем первый ранжированный список релевантных документов содержит целевой документ в позиции повышенного ранга, причем первое случайно выбранное значение предназначено для повышения целевого документа в ранжированном списке релевантных документов;
генерировать второе случайно выбранное значение для целевого документа, которое должно использоваться для ранжирования целевого документа в течение второго временного интервала;
в течение второго временного интервала:
получать указание запроса от электронного устройства;
генерировать второй ранжированный список релевантных документов для упомянутого запроса на основе, по меньшей мере частично, второго случайно выбранного значения, причем второй ранжированный список релевантных документов содержит целевой документ в позиции пониженного ранга, причем второе случайно выбранное значение предназначено для понижения целевого документа во втором ранжированном списке релевантных документов,
причем позиция повышенного ранга в первом ранжированном списке находится выше позиции пониженного ранга во втором ранжированном списке для увеличения разрыва в пользовательском трафике к целевому документу между первым временным интервалом и вторым временным интервалом;
обеспечивать доступ пользователю к выбранному документу из первого ранжированного списка релевантных документов или второго ранжированного списка релевантных документов для упомянутого запроса в зависимости от временного интервала.
14. Сервер по п. 13, причем сервер, сконфигурированный для генерирования первого случайно выбранного значения и второго случайно выбранного значения, содержит сервер, сконфигурированный для использования алгоритма рандомизации.
15. Сервер по п. 14, в котором алгоритм рандомизации генерирует (i) положительное значение, когда используется для генерирования первого случайно выбранного значения, и (ii) отрицательное значение, когда используется для генерирования второго случайно выбранного значения.
16. Сервер по п. 13, причем сервер дополнительно сконфигурирован с возможностью:
в течение первого временного интервала выполнять поисковой машиной первое множество поисков; и
в течение второго временного интервала выполнять поисковой машиной второе множество поисков; и
причем целевой документ предоставляется как результат поиска для поднабора из первого множества поисков и поднабора из второго множества поисков.
17. Сервер по п. 13, причем сервер дополнительно сконфигурирован с возможностью:
отслеживать пользовательский трафик к целевому документу в течение первого временного интервала и в течение второго временного интервала.
18. Сервер по п. 13, причем сервер, сконфигурированный для генерирования первого ранжированного списка и второго ранжированного списка, использует алгоритм машинного обучения (MLA), обученный ранжировать документы на основе (i) соответствующей оценочной релевантности запросу и (ii) соответствующих случайно выбранных значений.
19. Сервер по п. 18, причем сервер дополнительно сконфигурирован для обучения MLA ранжированию документов, причем сервер, сконфигурированный для обучения MLA, содержит сервер, сконфигурированный с возможностью:
получать обучающие данные для обучающей пары документ-запрос, причем обучающие данные содержат (i) данные запроса, связанные с обучающим запросом, (ii) данные документа, связанные с обучающим документом, включая обучающее случайно выбранное значение, и (iii) оценочную метку, указывающую на релевантность обучающего документа обучающему запросу;
генерировать модифицированную метку в виде комбинации оценочной метки и обучающего случайно выбранного значения, с помощью чего генерируется обучающий набор, содержащий данные запроса, данные документа и модифицированную метку;
во время заданной итерации обучения:
вводить в MLA данные запроса и данные документа для генерирования предсказанной оценки ранжирования для обучающего документа, причем предсказанная оценка ранжирования указывает на предсказанную релевантность обучающего документа обучающему запросу;
корректировать MLA на основе сравнения предсказанной оценки ранжирования с модифицированной меткой, чтобы обучить MLA генерировать предсказанные оценки ранжирования, которые подобны модифицированной метке.
20. Сервер по п. 13, причем сервер, сконфигурированный для определения поднабора коммерческих ресурсов, содержит сервер, сконфигурированный с возможностью:
определять множество коммерческих ресурсов путем определения того, какие ресурсы размещают в себе цифровые документы, которые были предоставлены в качестве результатов поиска по прошлым коммерческим запросам,
причем заданный прошлый коммерческий запрос является заданным прошлым запросом, имеющим по меньшей мере один предварительно определенный терм;
фильтровать множество коммерческих ресурсов путем удаления ресурсов с высоким трафиком, с помощью чего определяется набор коммерческих ресурсов, причем сервер, сконфигурированный для фильтрации, содержит сервер, сконфигурированный с возможностью:
применять основанный на трафике порог к пользовательскому трафику, связанному с соответствующими ресурсами из множества коммерческих ресурсов;
фильтровать набор коммерческих ресурсов путем удаления высококачественных ресурсов, с помощью чего определяется поднабор коммерческих ресурсов, причем сервер, сконфигурированный с возможностью фильтрации, содержит сервер, сконфигурированный с возможностью:
применять основанный на качестве порог к данным, связанным с соответствующими данными из набора коммерческих ресурсов.
21. Сервер по п. 13, в котором первый временной интервал и второй временной интервал имеют общую продолжительность времени.
22. Сервер по п. 13, в котором первый временной интервал предшествует второму временному интервалу.
23. Сервер по п. 13, в котором первый временной интервал следует после второго временного интервала.
24. Сервер по п. 13, в котором первый временной интервал является одним из множества первых временных интервалов, а второй временной интервал является одним из множества вторых временных интервалов, причем соответствующие интервалы из множества первых временных интервалов и из множества вторых временных интервалов последовательно смещены во времени.
RU2020143966A 2020-12-30 2020-12-30 Способ и сервер для ранжирования цифровых документов в ответ на запрос RU2818279C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/399,579 US11734376B2 (en) 2020-12-30 2021-08-11 Method and server for ranking digital documents in response to a query

Publications (2)

Publication Number Publication Date
RU2020143966A RU2020143966A (ru) 2022-06-30
RU2818279C2 true RU2818279C2 (ru) 2024-04-27

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059258A1 (en) * 2004-06-24 2008-03-06 Nhn Corporation Method and System for Selecting Search List Table in Internet Search Engine in Response to Search Request
US8473477B1 (en) * 2004-10-06 2013-06-25 Shopzilla, Inc. Search ranking estimation
US9218397B1 (en) * 2003-12-03 2015-12-22 Google Inc. Systems and methods for improved searching
RU2632138C2 (ru) * 2015-09-14 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер ранжирования поисковых результатов на основе параметра полезности

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218397B1 (en) * 2003-12-03 2015-12-22 Google Inc. Systems and methods for improved searching
US20080059258A1 (en) * 2004-06-24 2008-03-06 Nhn Corporation Method and System for Selecting Search List Table in Internet Search Engine in Response to Search Request
US8473477B1 (en) * 2004-10-06 2013-06-25 Shopzilla, Inc. Search ranking estimation
RU2632138C2 (ru) * 2015-09-14 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер ранжирования поисковых результатов на основе параметра полезности

Similar Documents

Publication Publication Date Title
US20180075137A1 (en) Method and apparatus for training a machine learning algorithm (mla) for generating a content recommendation in a recommendation system and method and apparatus for generating the recommended content using the mla
US10061820B2 (en) Generating a user-specific ranking model on a user electronic device
US8244752B2 (en) Classifying search query traffic
US20190163758A1 (en) Method and server for presenting a recommended content item to a user
US11288333B2 (en) Method and system for estimating user-item interaction data based on stored interaction data by using multiple models
US10754863B2 (en) Method and system for ranking a plurality of documents on a search engine results page
US20170140053A1 (en) Method and system of processing a search query
US10387513B2 (en) Method and apparatus for generating a recommended content list
US20080282186A1 (en) Keyword generation system and method for online activity
US11086888B2 (en) Method and system for generating digital content recommendation
US8868570B1 (en) Selection and display of online content items
US11194848B2 (en) Method of and system for building search index using machine learning algorithm
US10956502B2 (en) Method of and system for recommending fresh search query suggestions on search engine
Song et al. Context-aware web search abandonment prediction
US10824627B2 (en) Method and system for determining rank positions of non-native items by a ranking system
US11734376B2 (en) Method and server for ranking digital documents in response to a query
US20110066608A1 (en) Systems and methods for delivering targeted content to a user
US11551281B2 (en) Recommendation engine based on optimized combination of recommendation algorithms
US20180191837A1 (en) Pattern based optimization of digital component transmission
US8683521B1 (en) Feature-based video suggestions
EP3293646A1 (en) Method and server for training a machine learning algorithm (mla) for content recommendation generation
RU2818279C2 (ru) Способ и сервер для ранжирования цифровых документов в ответ на запрос
Yuan et al. Enriching one-class collaborative filtering with content information from social media
Gharibshah et al. Mining actionable information from security forums: the case of malicious IP addresses
US11537674B2 (en) Method of and system for generating search query completion suggestion on search engine