RU2608886C2 - Ранжиратор результатов поиска - Google Patents

Ранжиратор результатов поиска Download PDF

Info

Publication number
RU2608886C2
RU2608886C2 RU2014126774A RU2014126774A RU2608886C2 RU 2608886 C2 RU2608886 C2 RU 2608886C2 RU 2014126774 A RU2014126774 A RU 2014126774A RU 2014126774 A RU2014126774 A RU 2014126774A RU 2608886 C2 RU2608886 C2 RU 2608886C2
Authority
RU
Russia
Prior art keywords
document
parameter
search results
objective function
search
Prior art date
Application number
RU2014126774A
Other languages
English (en)
Other versions
RU2014126774A (ru
Inventor
Павел Викторович СЕРДЮКОВ
Юрий Михайлович УСТИНОВСКИЙ
Глеб Геннадьевич Гусев
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2014126774A priority Critical patent/RU2608886C2/ru
Priority to EP14890458.4A priority patent/EP3005144A1/en
Priority to PCT/IB2014/066704 priority patent/WO2016001724A1/en
Priority to US14/866,380 priority patent/US9501575B2/en
Publication of RU2014126774A publication Critical patent/RU2014126774A/ru
Application granted granted Critical
Publication of RU2608886C2 publication Critical patent/RU2608886C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

Изобретение относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска. Техническими результатами являются повышение релевантности результатов поиска, ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов. В способе оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска, получают первый набор пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра. Генерируют весовой вектор, имеющий количество весовых значений, соответствующее количеству параметров постпросмотра в каждом из векторов параметров постпросмотра первого набора. Генерируют целевую функцию с использованием весового вектора и векторов параметров постпросмотра первого набора. Оптимизируют весовые значения весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией. Оптимизируют ранжиратор результатов поиска с помощью оптимизированной целевой функции и используют оптимизированный ранжиратор результатов поиска для ранжирования результатов поиска. 3 н. и 14 з.п. ф-лы, 4 ил.

Description

Область техники
Данная технология относится к ранжираторам результатов поиска, в частности к способу оптимизации ранжираторов результатов поиска.
Уровень техники
При выполнении поиска в интернете с помощью поисковой системы, например, предоставленной Яндекс™ (www.yandex.com), сервер сначала принимает поисковый запрос, введенный пользователем на пользовательском устройстве, например, компьютере, смартфоне или планшете, после чего сервер извлекает документы для данного запроса; затем с помощью ранжиратора результатов поиска документы ранжируются, а затем команды для открытия страницы результатов поиска (SERP) посылаются клиентскому устройству сервером. С помощью SERP предоставляется список ссылок на документы, а также, как правило, часть документа (или моментальный снимок, также известный как «скриншот», имеющейся в документе информации), упорядоченные в порядке релевантности.
Документы, найденные с помощью поисковой системы, могут существенно отличаться в отношении их практической ценности. Одной из основных проблем ранжирования результатов поиска является определение размещения наиболее релевантных документов в верхней части поисковой выдачи (т.е. SERP).
В некоторых поисковых системах ранжиратором результатов поиска для ранжирования результатов используется релевантность. С помощью релевантности определяется, в какой мере найденный документ соответствует поисковому запросу. Наиболее релевантным документом является тот, который располагается в самом верху. В некоторых поисковых системах релевантность вычисляется с помощью формулы ранжирования, которая является функцией множества факторов. Фактором является численная характеристика запроса, документа или пары запрос-документ, который может использоваться для оценки уместности результата в выдаче по запросу.
Примеры факторов включают количество слов поискового запроса, содержащихся в тексте документа, или принадлежность запроса к определенной категории. В некоторых случаях релевантность документа также может зависеть от пользователя, отправившего запрос.
Количество проиндексированных документов и потребности пользователей постоянно меняются. Именно поэтому формула ранжирования результатов поиска, используемая ранжиратором, должна регулярно обновляться. Для изменения формулы применяются методы машинного обучения. На основе данных экспертной оценки, предоставленных релевантностью набора известных документов для набора известных поисковых запросов, определяется зависимость между характеристиками документа и их размещением в поисковой выдаче (т.е. SERP). Определенные зависимости используются для внесения изменений в формулу.
Экспертными данными, используемыми для машинного обучения, являются оценки, описывающие, насколько уместно и корректно упорядочены документы в поисковой выдаче по конкретным запросам. Эти оценки назначаются экспертами.
Помимо использования в машинном обучении, экспертные оценки используются также для оценки качества результатов поиска, то есть степени удовлетворенности пользователей результатами поиска и их порядком следования.
При этом в случае, если необходима массовая выборка, предоставление таких экспертных оценок является непрактичным и очень сложным. Например, для такой массовой выборки необходимо персонализировать результаты поиска. Персонализация позволяет упорядочивать результаты поиска на основе личных предпочтений пользователей, тем самым улучшая качество поиска. Например, в зависимости от профиля пользователя, по запросу «zeppelin» для некоторых пользователей документы, относящиеся к типу дирижабля, будут ранжированы как документы с наивысшим рейтингом, в то время как для других пользователей документами с наивысшим рейтингом будут документы, относящиеся к группе Led Zeppelin.
С целью улучшить ранжирование для такого большого набора данных некоторые поисковые системы рассматривают взаимодействие пользователей с результатами поиска, представленными в SERP, вместо или как дополнение к экспертным данным. Эти данные иногда называются параметрами постпросмотра, которые в дальнейшем используются для улучшения формулы ранжиратора результатов поиска и, следовательно, оценок документов для будущих поисков. Примеры параметров постпросмотра включают: был ли кликнут документ; время, в течение которого пользователь просматривал документ, называемое иногда временем просмотра.
Тем не менее, документ может быть кликнут не потому, что в SERP он являлся релевантным. Аналогично, он может быть не кликнут не потому, что он нерелевантен. С помощью изучения таких параметров, как время просмотра, можно улучшить представление о релевантности документа и, таким образом, улучшить качество ранжирования. При этом величина времени просмотра нужна для определения того, является ли документ релевантным и не является ли он отчасти выбранным произвольно.
Таким образом, хотя с учетом параметров постпросмотра и можно улучшить ранжирование результатов, при этом трудно определить, какие параметры должны использоваться, и в случае параметров, значения которых взаимосвязаны, например, время просмотра сайта, значение какого должно соответствовать параметру для анализа релевантности документа для того, чтобы улучшить формулу результатов поиска ранжиратора.
Таким образом, необходим способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска.
Раскрытие изобретения
Целью данной технологии является улучшение по меньшей мере некоторых из недостатков, имеющихся в известном уровне техники.
В соответствии с одним из аспектов данной технологии предлагается реализованный на компьютере способ оптимизации оценки результатов поиска, полученных от ранжиратора результатов поиска. Способ включает следующие этапы: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого множества; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии способ также включает этап выбора метрики производительности, в зависимости от параметров целевой функции.
В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, применимой ко второму набору пар запрос-документ.
В некоторых вариантах реализации данной технологии после оптимизации ранжиратора результатов поиска и перед его использованием, способ также включает этап оценки оптимизированного ранжиратора результатов поиска с помощью третьего набора пар запрос-документ.
В некоторых вариантах реализации данной технологии параметр постпросмотра содержит по меньшей мере один параметр из по меньшей мере одного параметра уровня документа и по меньшей мере один параметр уровня страницы результатов поиска (SERP).
В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня документа содержит по меньшей мере один из следующих параметров: параметр клика, отображающий, был ли документ кликнут; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика для отображения в случае, если документ был кликнут в прошлом, или если время просмотра сайта превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному, документ; и параметр пропуска выше, отображающий количество пропущенных документов.
В некоторых вариантах реализации данной технологии по меньшей мере один параметр уровня SERP содержит один из следующих параметров: параметр клика вверху, отображающий наивысшую оценку выбранных документов в рейтинге; параметр клика внизу, отображающий наименьшую оценку выбранных документов в рейтинге; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшей оценкой на SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий период времени до первого клика на SERP.
В некоторых вариантах реализации данной технологии параметры постпросмотра содержат по меньшей мере один из следующих параметров: параметр клика, отображаемый в случае, если документ был выбран; параметр просмотра, отображающий время просмотра документа; параметр длительного просмотра, отображаемый в случае, если время просмотра документа превысило заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был выбран последним; параметр первого клика, отображаемый в случае, если документ был выбран первым; параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или в случае, если время просмотра превышает заданную величину; параметр положения, отображающий исходное положение документа на SERP; параметр пропуска, отображаемый в случае, если был пропущен документ; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предыдущий по рейтингу документ; параметр пропусков выше, отображающий количество документов, предшествующих пропущенному документу в рейтинге; параметр клика вверху, отображающий наивысший рейтинг выбранных документов; параметр клика внизу, отображающий наименьшую оценку выбранных в рейтинге документов; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшим рейтингом SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запроса, отображающий последний запрос в поисковой сессии; и параметр времени просмотра, отображающий время до первого клика на SERP.
В некоторых вариантах реализации данной технологии использование ранжиратора результатов поиска включает: получение поискового запроса от клиентского устройства по меньшей мере одним сервером посредством сети передачи данных; инициализацию по меньшей мере одним сервером, поиска в соответствии с поисковым запросом; ранжирование по меньшей мере одним сервером, документов, найденных в результате поиска с помощью ранжиратора результатов поиска, включающего оптимизированную целевую функцию; отправку на клиентское устройство посредством сети передачи данных по меньшей мере одним сервером команды для инициализации отображения пользователю с помощью пользовательского интерфейса клиентского устройства страницы результатов поиска (SERP), содержащей ссылки на документы, найденные с помощью поиска, упорядоченные на SERP согласно рейтингу документов, найденных в результате поиска.
В некоторых вариантах реализации данной технологии оптимизация весовых значений весового вектора включает оптимизацию весовых значений весового вектора с помощью алгоритма градиентного спуска.
В некоторых вариантах реализации данной технологии метрика производительности является одной из следующего: значение усредненной ценности ответов (MRR) и среднее значение средней точности (MAP).
В соответствии с другим аспектом данной технологии представлена система для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска. Система содержит процессор и машиночитаемое средство для хранения информации, соединенное с процессором. На машиночитаемом средстве для хранения информации хранятся команды, инициирующие выполнение системой следующих этапов: получение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерация весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизация весовых значений весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии на машиночитаемом средстве для хранения информации также хранятся команды, инициирующие выполнение системой этапа выбора метрики производительности, в зависимости от параметров целевой функции.
В некоторых вариантах реализации данной технологии оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
В соответствии с другим аспектом данной технологии представлено машиночитаемое средство для хранения информации, на котором хранятся команды для оптимизации ранжирования результатов поиска, полученных из ранжиратора результатов поиска. Выполнение команд компьютером инициирует выполнение операций, включающих: извлечение первого набора пар запрос-документ, каждая из которых имеет соответствующий вектор параметров постпросмотра; генерацию весового вектора, имеющего количество весовых значений, соответствующее количеству параметров постпросмотра в каждом векторе параметров постпросмотра первого набора; генерирование целевой функции с использованием весового вектора и векторов параметров постпросмотра из первого набора; оптимизацию весовых коэффициентов весового вектора с использованием первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией; оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
В некоторых вариантах реализации данной технологии операции дополнительно включают выбор метрики производительности, в зависимости от параметров целевой функции.
Некоторые варианты реализации данной технологии отличаются тем, что оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
В контексте данного описания под «сервером» подразумевается компьютерная программа, выполняемая с помощью соответствующего аппаратного обеспечения, выполненного с возможностью получения запросов (от клиентских устройств) по сети передачи данных и выполнения этих запросов или инициирования их выполнения. С физической точки зрения оборудование может представлять собой один компьютер или компьютерную систему, но ни то, ни другое не является обязательным для реализации данной технологии. В контексте данной технологии использование определения «по меньшей мере, один сервер» не означает, что каждая задача (например, полученные команды или запросы) или какая-либо конкретная задача будет получена, выполнена или инициирована для выполнения одним и тем же сервером (то есть одним и тем же программным обеспечением и/или аппаратным обеспечением); это означает, что любое количество элементов программного обеспечения или аппаратных средств может быть задействовано для приема/передачи, выполнения или инициирования выполнения любого запроса или последовательности любых запросов, связанных с клиентским устройством, и все эти программные и аппаратные средства могут быть одним или несколькими серверами, оба из которых включаются в определение «по меньшей мере, один сервер».
В контексте данного описания под «клиентским устройством» подразумевается аппаратное устройство, выполненное с возможностью работы с программным обеспечением, соответствующим решению соответствующей задачи. Примерами клиентских устройств, среди прочего, являются персональные компьютеры (настольные компьютеры, ноутбуки и т.д.), смартфоны и планшеты.
В контексте данного описания под «базой данных» подразумевается структурированный набор данных, не зависящий от конкретной структуры, программного обеспечения для управления базами данных, аппаратного обеспечения компьютера, на котором данные хранятся, используются или иным образом становятся доступными для использования. В данном контексте база данных находится в «функциональном взаимодействии» в случае, если она является доступной для использования как часть системы управления базой данных, которая подключена к доступной сети передачи данных.
В контексте данного описания под «машиночитаемым средством для хранения информации» подразумевается носитель любого типа и принципа действия, включая ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-флеш-накопители, твердотельные накопители, накопители на магнитной ленте и т.д.
В контексте данной заявки определения «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что при использовании терминов «первый сервер» и «третий сервер» не подразумевается какой-либо порядок, принадлежность к определенному типу, хронологии, иерархии или ранжированию (например) серверов или между серверами, равно как и их использование (отдельно) не предполагает, что обязательно должен существовать в той или иной ситуации некий «второй сервер».
Каждый вариант реализации данной технологии включает по меньшей мере одну из вышеупомянутых целей и/или аспектов, но не обязательно наличие их всех.
Следует иметь в виду, что некоторые аспекты данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут не удовлетворять эту цель и/или могут удовлетворять другие цели, не указанные отдельно в данной заявке.
Дополнительные и/или альтернативные параметры, аспекты и преимущества вариантов реализации данной технологии станут очевидными из последующего описания, прилагаемых фигур, а также прилагаемой формулы изобретения.
Технический результат, достигаемый с помощью описанного в заявке изобретения, - повышение релевантности результатов поиска, а также ускорение поиска пользователя, снижение трафика и нагрузки на поисковый сервер и на серверы веб-ресурсов.
Краткое описание фигур
Для лучшего понимания данной технологии, а также других аспектов и параметров выполнена ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми фигурами, на которых:
На Фиг. 1 проиллюстрировано схематическое изображение компьютерной системы, являющейся вариантом реализации данной технологии.
На Фиг. 2 представлена блок-схема способа предоставления пользователю результатов поиска;
На Фиг. 3 представлено типовое изображение страницы результатов поиска (SERP); и
На Фиг. 4 представлена блок-схема реализованного на компьютере способа оптимизации ранжирования результатов поиска.
В конце данного описания предоставлено приложение, которое содержит копию еще не опубликованной статьи под названием "Learning Personalization Targets Extracted from User Interaction with Search Engine Results" и копию еще не опубликованного документа под названием «Обучение весов примеров (confidence))) (что переводится как «Teaching Weights Examples (confidence)*). Эти статья и документ предоставляют дополнительную информацию, описание вариантов реализации данной технологии и примеры. Данные статья и документ полностью включены в данную заявку посредством ссылки для всех стран и территорий.
Осуществление изобретения
На Фиг. 1 представлена компьютерная система 10, включающая варианты реализации данной технологии. Следует ясно понимать, что компьютерная система 10 является лишь одним из вариантов реализации данной технологии. Представленное описание предназначается исключительно в целях предоставления наглядного примера данной технологии. Это описание не предназначается для определения объема и границ данной технологии. Некоторые полезные примеры модификаций компьютерной системы 10 также могут быть охвачены нижеследующим описанием. Таким образом, нижеследующее описание не предназначается для определения объема или границ данной технологии. Эти модификации не являются исчерпывающими и, как будет понятно специалистам в данной области техники, другие модификации также возможны. Кроме того, не следует истолковывать то, что не реализовано (т.е. там, где не были приведены примеры модификации), таким образом, что никакие изменения не возможны, и/или описанное является единственным способом реализации этого элемента в данное время. Специалистам в данной области техники будет понятно, что это не так. Кроме того, должно быть понятно, что компьютерная система 10 предоставляет простую реализацию данной технологии, представленной таким образом для облегчения понимания. Специалистам в данной области техники будет понятно, что большинство вариантов реализации данной технологии будут более сложными.
Компьютерная система 10 содержит клиентское устройство 12, используемое пользователем 14. Клиентское устройство 12 может быть любым из трех клиентских устройств 12, изображенных на Фиг.1, а именно настольным компьютером 12А, например iMac™, смартфоном 12В, например iPhone™ 4S™, и планшетным компьютером 12С, например iPad™. В других вариантах реализации клиентские устройства 12 могут включать другие марки и/или модели смартфона, планшетного компьютера, электронной книги, портативного компьютера, настольного компьютера, КПК или другого устройства, подключенного к Интернету.
Клиентское устройство 12 подключено к Интернету 16 (которое может быть подключено, в зависимости от конкретных обстоятельств, посредством мобильной телефонной сети, сети Wi-Fi, или Bluetooth™ соединения). На клиентском устройстве 12 установлено приложение веб-браузера, например Safari™, являющееся частью пользовательского интерфейса клиентского устройства 12. Предполагается, что на клиентском устройстве также могут быть установлены другие веб-браузеры и/или другие приложения, функционирующие через Интернет. Несмотря на то что представлено лишь одно клиентское устройство 12 (пользователь 14 использует только одно из клиентских устройств 12А, 12В или 12С), следует помнить, что в системе 10 также могут использоваться несколько клиентских устройств.
Компьютерная система 10 также содержит множество серверов 18, подключенных к Интернету 16. Для облегчения понимания показаны только три сервера 18, но следует понимать, что предполагается больше (и меньше), чем три сервера 18. Например, предполагается, что система 10 может содержать любой из серверов 18, подключенных к Интернету 16. Также предполагается, что система 10 может содержать только серверы 18, находящиеся в конкретном географическом месте. Каждый из серверов 18 может являться хостом для одной или нескольких веб-страниц, доступ к которым клиентское устройство 12 может получить через Интернет 16.
Компьютерная система 10 также содержит сервер поисковой системы 20. Для облегчения понимания показан только один сервер поисковой системы 20, но следует понимать, что предполагается больше чем один сервер поисковой системы 20. Как видно, сервер поисковой системы 20 взаимодействует с Интернетом 16. Следует понимать, что вместо передачи данных через Интернет 16 клиентское устройство 12 и серверы 18, 20, 24 могут взаимодействовать с помощью сети передачи данных другого типа. Примерами вариантов сетей передачи данных, среди прочего, могут быть локальная вычислительная сеть (ЛВС), глобальная вычислительная сеть и интранет. Хотя это не показано, сервер поисковой системы 20 также взаимодействует с базой данных индексации, содержащей информацию индексирования для множества документов, находящихся на серверах 18 (т.е. вебстраниц, изображений, видео и т.д.). Эту информацию получают, например, с помощью поисковых роботов (не показаны).
Сервер поисковой системы 20 также обменивается данными с обучающим сервером 22 по сети (отдельно не пронумерована). В альтернативных вариантах реализации сервер поисковой системы 20 может обмениваться данными с обучающим сервером 22 по сети Интернет 16.
С целью облегчения понимания показан только один обучающий сервер 22, но следует понимать, что предполагается более одного обучающего сервера 22. Как будет описано ниже, обучающий сервер 22 используется с целью оптимизации ранжиратора результатов поиска, используемого сервером поисковой системы 20 для ранжирования результатов поиска. Предполагается, что функции сервера поисковой системы 20 и обучающего сервера 22 могут быть объединены или могут быть дополнительно разделены для выполнения более чем двумя серверами.
Обучающий сервер 22 обменивается данными с базой данных пар запрос-документ (3-Д) 24. С целью облегчения понимания показана только одна база данных пар 3-Д 24, но следует понимать, что предполагается более чем одна база данных пар 3-Д 24. Как следует из названия, база данных пар 3-Д 24 содержит данные для набора пар запроса, а также соответствующие документы (т.е. пары 3-Д). Документ каждой пары 3-Д является документом, ранее полученным сервером поисковой системы 20 для запроса пары 3-Д. Хотя это не показано, база данных пар 3-Д 24 также обменивается данными с сервером поисковой системы 20. Следует понимать, что база данных пар 3-Д 24 может обмениваться данными с ранее упомянутой базой данных индексации. Также предполагается, что база данных пар 3-Д 24 может объединяться с ранее упомянутой базой данных индексации. По меньшей мере, некоторые из этих пар 3-Д упорядочены в наборы. Для облегчения понимания показаны четыре набора 3-Д 26, 28, 30, 32, но следует понимать, что предполагается больше или меньше четырех наборов 3-Д.
Перейдем к Фиг. 2, на которой представлен способ, в котором для предоставления результатов поиска в ответ на запрос пользователя используется сервер поисковой системы 20. Способ начинается с этапа 100, когда пользователь 14 вводит поисковый запрос с помощью пользовательского интерфейса клиентского устройства 12. Пользователь 14 вводит запрос с помощью типового пользовательского интерфейса, представленного на Фиг. 3, путем ввода поискового запроса в поле поиска 50, в этом случае «Яндекс», и затем нажимает кнопку поиска 52 для того, чтобы начать поиск. На этапе 102 сервер поисковой системы 20 получает поисковый запрос от пользовательского устройства 12 через Интернет 16.
На этапе 104, сервер поисковой системы 20 выполняет поиск для запроса и получает релевантные документы и/или информацию относительно релевантных документов. Сервер поисковой системы 20 может искать серверы 18, используя Интернет 16 и/или базы данных индексации и/или базы данных пар 3-Д для соответствующих запросов. Подразумевается, что способ, с помощью которого сервер поисковой системы 20 осуществляет поиск, идентификацию и извлечение соответствующих документов (или информации, касающейся соответствующих документов), может выполняться различным образом, как предполагается, хорошо известными специалистами в данной области.
Затем на этапе 106 с помощью сервера поисковой системы 20 найденные документы ранжируются в порядке их релевантности. Для ранжирования документов сервером поисковой системы 20 используется ранжиратор результатов поиска. Ранжиратор результатов поиска является алгоритмом, в котором используются параметры предпросмотра, связанные с документами, для оценки релевантности каждого документа и дальнейшей сортировки документов по оценкам. Параметры предпросмотра являются параметрами, которые могут вычисляться на основе данных, имеющихся в наличии до того, как пользователю 14 будет показана страница результатов поиска. Параметры предпросмотра содержат, но не ограничиваются этим, взаимосвязь между текстом документа и запросом, метаданные документа, специфичную для пользователя популярность документа и соответствие между текстом документа и профилем пользовательского интереса.
Несмотря на то что сервер поисковой системы 20 описывается как использующий параметры предпросмотра, связанные с документами, для ранжирования документов как часть этапа 106, в альтернативных вариантах реализации технологии документы могут быть ранжированы по параметрам предпросмотра, а также параметрам предпросмотра, связанным со взаимодействиями других пользователей с SERP, предоставленными в ответ на такие, практически такие или аналогичные поисковые запросы, отправленные другими пользователями ранее. Отображение параметров постпросмотра может хранится в журнале (не показан), доступном для сервера поисковой системы 20. В некоторых вариантах реализации технологии отображение параметров постпросмотра может быть анонимным (т.е. не связанным с идентификаторами последних пользователей, которые осуществляли такие, практически такие или аналогичные поиски). Подробная информация о различных вариантах реализации параметров постпросмотра будет представлена ниже.
Затем на этапе 108 с помощью сервера поисковой системы 20 через Интернет 16 посылаются команды на клиентское устройство 12 для отображения SERP, например показанного на Фиг. 3. Клиентское устройство 12 принимает эти команды и отображает SERP пользователю 14 на экране клиентского устройства 12. SERP содержит ссылку и связанное с ней краткое описание или фрагмент документа 54 (Фиг. 3) для документов, являющихся результатом поискового запроса.
Ссылки 54 ранжируются в порядке от наибольшей к наименьшей релевантности, начиная с верхней части SERP, как определено ранжиратором результатов поиска. В примере, представленном на Фиг. 3, ссылка 54А, находящаяся в верхней части SERP ссылок на документ, ранжирована ранжиратором результатов поиска как наиболее релевантная, ссылка 54В упорядочена как вторая наиболее релевантная и так далее.
На этапе 110 сервером поисковой системы 110 фиксируется взаимодействие пользователя 14 с результатами поиска, отображаемыми на SERP, которое сохраняется в базе данных пар 3-Д 24. Каждый документ, приведенный на SERP, образует пару 3-Д для определенного запроса, и взаимодействие пользователя с документами пар 3-Д записывается как параметры постпросмотра для этих определенных пар 3-Д. Примеры взаимодействия включают, но не ограничиваются этим, какие документы были просмотрены пользователем 14 (или «кликнуты»), как долго просматривался документ, какой документ был просмотрен первым и какой был просмотрен последним. Затем эти данные используются сервером поисковой системы 20 для оптимизации ранжиратора результатов поиска, как будет описано ниже.
Используемый сервером поисковой машины 20 способ предоставления результатов поиска в ответ на запрос пользователя завершается этапом 112 в случае, если пользователь 14 инициирует новый поиск, причем способ начинается снова с этапа 100 для нового поиска в случае, если к SERP не обращались в течение определенного периода времени, или если пользователь 14 закрывает пользовательский интерфейс. Также предполагается, что к завершению способа могут привести и другие действия.
На Фиг. 4 представлен способ оптимизации ранжиратора результатов поиска. Посредством оптимизации ранжиратора результатов поиска ранжирование результатов поиска таким оптимизированным ранжиратором поиска также является оптимизированным.
Способ начинается этапом 200 с копирования на обучающий сервер 22 ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20. Предполагается, что вместо копирования ранжиратора результатов поиска, используемого в данный момент сервером поисковой системы 20, этот способ может выполняться на любом ранжираторе результатов поиска, который затем может быть сравнен с ранжиратором поиска, используемым в данный момент сервером поисковой системы 20, и если этот новый оптимизированный ранжиратор поиска предоставляет более высокий рейтинг, этот новый оптимизированный ранжиратор поиска может загружаться на сервер поисковой системы для замены ранжиратора результатов поиска, используемого в настоящее время сервером поисковой системы 20, как описывается ниже применительно к этапу 218. Последующие этапы с 202 до 218 могут выполняться обучающим сервером 22 автономно (т.е. без подключения к Интернету 16 или серверу поисковой системы 20), но подключением посредством сети передачи данных к базе данных пар 3-Д 24.
На этапе 202 обучающий сервер 22 получает от базы данных пар 3-Д 24 наборы пар 3-Д, которые в данном случае являются четырьмя наборами пар 3-Д 26, 28, 30, 32. Предполагается, что может использоваться больше или меньше, чем четыре набора пар 3-Д. Каждый набор 3-Д содержит ряд пар 3-Д. Каждая пара 3-Д имеет связанные с ней параметры предпросмотра и постпросмотра. Примеры параметров предпросмотра приводятся выше. Параметры постпросмотра соответствуют реакции пользователя 14 на список и ранжирование документов (Д) для конкретного запроса 3 пары 3-Д. Существует два типа параметров постпросмотра: параметры уровня документа и параметры уровня SERP.
Примеры параметров постпросмотра уровня документа содержат, но не являются ограничивающими: параметр клика, отображающий, был ли нажат документ; параметр просмотра документа, отображающий время просмотра документа; параметр длительного просмотра документа, отображаемый в случае, если время просмотра документа превышает заранее определенную величину; параметр последнего клика, отображаемый в случае, если документ был кликнут последним; параметр первого клика, отображаемый в случае, если документ был кликнут первым; параметр удовлетворенного клика, отображаемый в случае, если документ был кликнут в прошлом, или если время просмотра документа превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP; параметр пропуска, отображаемый в случае, если документ был пропущен; параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой, предшествующий данному документ; и параметр пропуска выше, отображающий количество пропущенных документов.
Все эти параметры являются двоичными, то есть они имеют значение 0 или 1, за исключением параметра просмотра, параметра положения и параметра пропуска выше. Для недвоичных параметров (т.е. просмотра, положения и пропуска выше) возможные значения этих параметров делятся на несколько уровней дискретизации, каждый из которых является двоичным.
Например, если в типовой SERP, представленной на Фиг. 3 документ 54А не выбран пользователем и документ 54В является первым документом, выбранным на SERP, но пользователь быстро вернулся к SERP из-за несоответствия документа тому, что он искал, и после этого были кликнуты другие документы, в таком случае для документа 54В, клик имеет значение 1, первый уровень дискретизации параметров просмотра (т.е. от 0 до короткого периода времени) имеет значение 1, и все последующие уровни дискретизации (т.е. диапазоны более длительных периодов времени) имеют значение 0, длительный просмотр имеет значение 0, последний клик имеет значение 0, первый клик имеет значение 1, удовлетворенный клик имеет значение 0, первый уровень дискретизации положения соответствует верхней позиции на SERP и имеет значение 0, второй уровень дискретизации положения, соответствующий второму положению на SERP, имеет значение 1, последующие уровни дискретизации положения имеют значение 0, пропуск имеет значение 0, предыдущий пропуск имеет значение 1, уровень дискретизации первого пропущенного выше, соответствующий тому, что нет пропущенных выше документов, имеет значение 0, уровень дискретизации второго пропущенного выше документа, соответствующий тому, что один документ пропущен выше, имеет значение 1, и последующие уровни дискретизации пропущенного выше документа имеют значение 0.
Примеры параметров постпросмотра уровня SERP включают, но не ограничиваются ими: параметр клика вверху, отображающий наивысшую оценку выбранных документов в рейтинге; параметр клика внизу, отображающий самую низкую оценку выбранных документов в рейтинге; параметр количества кликов, отображающий количество кликов на SERP; параметр количества кликов на первую тройку, отображающий количество кликов на три документа с наивысшей оценкой на SERP; параметр количества пропусков, отображающий количество документов, пропущенных на SERP; параметр последнего запрос, отображающий последний запрос в поисковой сессии; и параметр времени рассмотрения, отображающий время до первого клика на SERP.
Из всех параметров только последний запрос является двоичным параметром. Все остальные перечисленные выше параметры уровня SERP являются недвоичными параметрами, и их возможные значения были разделены на несколько уровней дискретизации, каждый из которых является двоичным.
Предполагается, что каждая пара 3-Д может иметь большее или меньшее количество параметров постпросмотра, отличающееся от перечисленного выше. Также предполагается, что каждая пара 3-Д может иметь параметры постпросмотра, отличающиеся от перечисленных выше. Также предполагается, что в последующих этапах способа можно использовать только некоторые из параметров постпросмотра, представленных для каждой пары 3-Д.
Также предполагается, что каждая пара 3-Д может иметь параметры постпросмотра, являющиеся комбинацией других параметров постпросмотра. Один из таких параметров соответствует документу пары 3-Д, который был пропущен и не был кликнут. Другой такой параметр соответствует документу, предшествующему документу пропущенной пары 3-Д, и документу выбранной пары 3-Д. Также предполагаются другие комбинации параметров постпросмотра.
Таким образом, для каждой пары 3-Д есть вектор параметров постпросмотра. Вектором параметров постпросмотра является М-мерный вектор-строка параметров постпросмотра, где Μ соответствует количеству параметров постпросмотра и уровням дискретизации параметров постпросмотра, связанным с парой 3-Д.
После этапа 202, на этапе 204 обучающий сервер 22 генерирует весовой вектор. Весовой вектор является М-мерным вектором-столбцом весовых значений. Таким образом, количество весовых значений в весовом векторе соответствует числу параметров постпросмотра и уровням дискретизации параметра постпросмотра, соответствующим парам 3-Д наборов 3-Д или парам 26, 28, 30, 32 (т.е. существует Μ весовых значений).
Затем на этапе 206 обучающий сервер 22 генерирует целевую функцию с помощью весового вектора и векторов параметра постпросмотра пар 3-Д, например, набора пар 3-Д 26. В целевой функции каждый параметр постпросмотра имеет соответствующее весовое значение. Как описано в следующих этапах, путем оптимизации или подбора величины этих весовых значений можно определить относительную релевантность каждого параметра постпросмотра при определении релевантности документа. Параметры постпросмотра, являющиеся более релевантными, будут иметь большее весовое значение. В упрощенном виде целевая функция является линейной функцией. Тем не менее, также предполагаются нелинейные целевые функции.
На этапе 208 выбирается метрика производительности (показатель производительности), которая будет использоваться для оптимизации целевой функции на этапе 210. Метрика производительности является статистической мерой, используемой для оценки целевой функции. Существует множество различных типов метрики производительности. Примеры включают, но не ограничиваются ими, значение усредненной ценности ответов (MRR), среднее значение средней точности (MAP), приведенную суммарную эффективность релевантности (DCG) и нормализованную приведенную суммарную эффективность релевантности (NDCG). В зависимости от параметров постпросмотра, учитываемых целевой функцией, некоторые метрики производительности могут быть более подходящими, нежели другие.
Затем на этапе 210 обучающий сервер 22 использует метрику, выбранную на этапе 208 и целевую функцию, сгенерированную на этапе 206 с набором пар 3-Д 26 для оптимизации весовых значений целевой функции, результатом чего является оптимизированная целевая функция. Весовые значения оптимизированы с помощью итеративного процесса.
В данном варианте реализации технологии, оптимизация весовых значений достигается путем использования алгоритма градиентного спуска. Предполагается, что могут использоваться другие алгоритмы оптимизации на основе градиента. После завершения определенного количества итераций или уменьшения величины весовых значений меньше заданного значения, обучающий сервер переходит к этапу 212.
Предполагается, что в оптимизацию целевой функции могут быть включены другие параметры весовых значений. Эти другие параметры весовых значений используются при оценке функции ошибки и представляют собой уровень достоверности в значениях целевой функции. Затем при выполнении процедуры оптимизации подбираются эти другие весовые значения с целью снижения уровня ошибок для дальнейшего улучшения полученной оптимизированной целевой функции.
На этапе 212 обучающий сервер 22 оценивает оптимизированную целевую функцию, полученную на этапе 210, путем применения этой функции к набору пар 3-Д 28. Оценка проводится с использованием метрики производительности, выбранной на этапе 208, применимой к оптимизированной целевой функции и полученной на этапе 210.
Если оптимизированная целевая функция, полученная на этапе 210, должным образом выполняется на наборе пар 3-Д 28, например, предоставляя лучшие результаты, по сравнению с целевой функцией этапа 206, применимой к набору пар 3-Д 28, то обучающий сервер 22 переходит к этапу 214. Если оптимизированная целевая функция не выполняется должным образом, то способ возвращается к этапу 202 и выполняется с использованием другого набора пар 3-Д для создания новой целевой функции.
С другой стороны, если оптимизированная целевая функция не выполняется должным образом, то способ может вернуться к этапу 208 для выбора другой метрики производительности, а затем к выполнению этапа 210 с этой новой метрикой, или же может вернуться к этапу 210 для использования другого алгоритма оптимизации. Предполагается, что в качестве альтернативы на этапе 212 обучающим сервером 22 может оцениваться целевая функция, полученная при каждой итерации целевой функции на этапе 210, и может быть выбрана целевая функция, обеспечивающая наилучшую производительность.
После определения на этапе 212 оптимизированной целевой функции, на этапе 214 обучающим сервером 22 оптимизируется ранжиратор результатов поиска с помощью оптимизированной целевой функции с набором пар 3-Д 30. Документы пар 3-Д набора 30 ранжируются обучающим сервером 22 с помощью ранжиратора результатов поиска, оценивающего релевантность документов с точки зрения их параметров предпросмотра, связанных с парами 3-Д, и этот рейтинг сравнивается с рейтингом полученной оптимизированной целевой функции, которая ранжирует документы пар 3-Д с точки зрения их параметров постпросмотра, связанных с парами 3-Д.
Затем обучающий сервер 22 использует алгоритмы машинного обучения для оптимизации ранжиратора результатов поиска с целью более точного соответствия рейтингу, полученному с помощью оптимизированной целевой функции. Например, ранжиратор результатов поиска может быть оптимизирован с помощью метрики производительности и процесса оптимизации, подобного описанному выше, на этапе 210 для оптимизации целевой функции. Предполагается, что вместо использования всех параметров оптимизированной целевой функции для ранжирования документов из пар 3-Д, в зависимости от параметров постпросмотра, могут использоваться только параметры, имеющие наибольшие весовые значения или только один параметр, имеющий наибольшее весовое значение.
На этапе 216 обучающий сервер 22 оценивает оптимизированный ранжиратор результатов поиска из этапа 214 путем применения к набору пар 3-Д 32. Оценка выполняется так же, как и при использовании для оценки оптимизированной целевой функции на этапе 212 или с помощью любого другого известного способа. Если оптимизированный ранжиратор результатов поиска, полученный на этапе 216, должным образом выполняется на наборе пар 3-Д 32, например, предоставляя лучшие результаты, по сравнению с ранжиратором результатов поиска, полученным на этапе 200 и применяемым к набору пар 3-Д 32, то обучающий сервер 22 переходит к этапу 218.
Если ранжиратор результатов поиска не выполняется должным образом, то способ возвращается к этапу 202 и переходит к использованию другого набора пар 3-Д для создания новой целевой функции, полученной в новом оптимизированном ранжираторе результатов поиска. С другой стороны, если ранжиратор результатов поиска не выполняется должным образом, то способ может возвратиться к этапу 208 для выбора другой метрики производительности, а затем к выполнению этапа 210 с этой новой метрикой, или может возвратиться к этапу 210 для использования другого алгоритма оптимизации целевой функции, или может возвратиться к этапу 216 для использования другого алгоритма оптимизации ранжиратора результатов поиска. Предполагается, что в качестве альтернативы на этапе 216 обучающим сервером 22 может оцениваться ранжиратор результатов поиска, полученный при каждой итерации ранжиратора результатов поиска на этапе 214, и выбирается тот, который обеспечивает наилучшую производительность.
После подтверждения оптимизированного ранжиратора результатов поиска на этапе 216, на этапе 218 обучающим сервером 22 на сервер поисковой системы 20 выгружается оптимизированный ранжиратор результатов поиска. Оптимизированный ранжиратор результатов поиска заменяет ранжиратор результатов поиска, предварительно сохраненный на обучающем сервере 22. Затем оптимизированный ранжиратор результатов поиска используется сервером поисковой системы 20 для ранжирования документов в 106 описанным выше способом.
Затем на этапе 220 способ завершается. Порядок этапов с 200 по 220 повторяется циклически, поскольку количество пар 3-Д постоянно растет и с течением времени потребности пользователей возрастают.
Команды для описанного выше порядка этапов с 100 по 112 хранятся на одном или более машиночитаемых средствах для хранения информации и взаимодействуют с одним или более процессорами сервера поисковой системы 20. С целью реализации способа эти команды выполняются одним или более процессорами.
Кроме того, описанные выше команды для выполнения порядка этапов с 200 по 220 хранятся на одном или нескольких машиночитаемых средствах для хранения информации и взаимодействуют с одним или более процессоров на обучающем сервере 22. С целью реализации способа эти команды выполняются одним или более процессоров. Предполагается, что для хранения команд для выполнения последовательности этапов с 100 по 112 и последовательности этапов с 200 по 220 может использоваться одно или более общее машиночитаемое средство для хранения информации.
Модификации и усовершенствования вышеописанных вариантов реализации данной технологии могут стать очевидными специалистам в данной области техники. Вышеприведенное описание приводится с целью пояснения, а не ограничения объема технологии. Таким образом, объем данной технологии должен ограничиваться исключительно объемом прилагаемой формулы изобретения.

Claims (75)

1. Способ, реализованный на компьютере для оптимизации рейтинга результатов поиска, полученных от ранжиратора результатов поиска, включающий:
получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;
генерирование весового вектора, который имеет количество весовых значений, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;
генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;
оптимизацию весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;
оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; и
использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
2. Способ по п. 1, дополнительно включающий выбор метрики производительности на основе параметров целевой функции.
3. Способ по п. 1, в котором оптимизация ранжиратора результатов поиска с использованием оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с использованием оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
4. Способ по п. 3, который после оптимизации ранжиратора результатов поиска и перед использованием ранжиратора результатов поиска дополнительно включает:
оценку оптимизированного ранжиратора результатов поиска с использованием третьего набора пар запрос-документ.
5. Способ по п. 1, в котором параметры постпросмотра содержат, по меньшей мере, один параметр уровня документа и, по меньшей мере, один параметр уровня страницы результатов поиска (SERP).
6. Способ по п. 5, в котором, по меньшей мере, один параметр уровня документа содержит, по меньшей мере, одно из:
параметр клика, отображаемый в случае, если документ был выбран;
параметр просмотра, отображающий время просмотра документа;
параметр длительного просмотра, отображаемый в случае, если время просмотра документа превышает заранее определенную величину;
параметр последнего клика, отображаемый в случае, если документ был выбран последним;
параметр первого клика, отображаемый в случае, если документ был выбран первым;
параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или если время ожидания превышает заданную величину; параметр положения, отображающий исходное положение документа в SERP;
параметр пропуска, отображаемый в случае, если документ был пропущен;
параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой предыдущий по рейтингу документ; и
параметр пропуска выше, отображающий количество предыдущих в рейтинге пропущенных документов.
7. Способ по п. 5, в котором, по меньшей мере, один параметр уровня SERP содержит, по меньшей мере, один из следующих параметров:
параметр клика вверху, отображающий наибольший рейтинг выбранных в рейтинге документов;
параметр клика внизу, отображающий наименьший рейтинг выбранных в рейтинге документов;
параметр количества кликов, отображающий количество кликов на SERP;
параметр количества кликов на первую тройку, отображающий количество кликов на три документа на SERP с наибольшим рейтингом;
параметр количества пропусков, отображающий количество пропущенных на SERP документов;
параметр последнего запроса, отображающий последний запрос в поисковой сессии; и
параметр времени просмотра, отображающий время до первого клика на SERP.
8. Способ по п. 1, в котором параметры постпросмотра содержат, по меньшей мере, один из следующих параметров:
параметр клика, отображаемый в случае, если документ был выбран;
параметр просмотра, отображающий время просмотра документа;
параметр длительного просмотра, отображаемый в случае, если время просмотра документа превышает заранее определенную величину;
параметр последнего клика, отображаемый в случае, если документ был выбран последним;
параметр первого клика, отображаемый в случае, если документ был выбран первым;
параметр удовлетворяющего клика, отображаемый в случае, если документ был выбран последним, или если время ожидания превышает заданную величину;
параметр положения, отображающий исходное положение документа в SERP;
параметр пропуска, отображаемый в случае, если документ был пропущен;
параметр предыдущего пропуска, отображаемый в случае, если был пропущен другой документ, находящийся выше по рейтингу;
параметр пропуска выше, отображающий количество пропущенных документов, предыдущих в рейтинге;
параметр клика вверху, отображающий наибольший рейтинг выбранных в рейтинге документов;
параметр клика внизу, отображающий наименьший рейтинг выбранных в рейтинге документов;
параметр количества кликов, отображающий количество кликов на SERP;
параметр количества кликов на первую тройку, отображающий количество кликов на три документа на SERP с наибольшим рейтингом;
параметр количества пропусков, отображающий количество пропущенных на SERP документов;
параметр последнего запроса, отображающий последний запрос в поисковой сессии; и
параметр времени просмотра, отображающий время до первого клика на SERP.
9. Способ по п. 1, в котором используемый ранжиратор результатов поиска, включает:
получение поискового запроса от клиентского устройства, по меньшей мере, одним сервером с помощью сети передачи данных;
выполнение, по меньшей мере, одним сервером поиска в соответствии с поисковым запросом;
ранжирование, по меньшей мере, одним сервером, документов, найденных в результате поиска, с использованием ранжиратора результатов поиска, включающего оптимизированную целевую функцию;
отправку на клиентское устройство посредством сети передачи данных, по меньшей мере, одним сервером команд для инициализации отображения пользователю с помощью пользовательского интерфейса клиентского устройства страницы результатов поиска (SERP), включая ссылки на документы, найденные с помощью поиска, ранжированные ссылки на SERP, согласно рейтингу документов, найденных в результате поиска.
10. Способ по п. 1, в котором оптимизация весовых значений весового вектора включает оптимизацию весовых значений весового вектора с использованием алгоритма градиентного спуска.
11. Способ по п. 1, в котором метрика производительности является или значением усредненной ценности ответов (MRR) или средним значением средней точности (MAP).
12. Система для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска, содержащая:
процессор; и
машиночитаемое средство для хранения информации, обменивающиеся данными с процессором и хранящее команды, инициирующие выполнение системой следующих этапов:
получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;
генерирование весового вектора, который имеет количество весовых коэффициентов, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;
генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;
оптимизация весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;
оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции; и
использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
13. Система по п. 12, в которой на материальном машиночитаемом средстве для хранения информации также хранятся команды, инициирующие выполнение системой этапа выбора метрики производительности, в зависимости от параметров целевой функции.
14. Система по п. 12, в которой оптимизация ранжиратора результатов поиска с использованием оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с использованием оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
15. Машиночитаемое средство для хранения информации, на котором хранятся команды для оптимизации ранжирования результатов поиска, полученных от ранжиратора результатов поиска, причем в случае выполнения инструкций компьютером, компьютер инициализирует выполнение операций, включающих:
получение первого набора пар запрос-документ, каждой из которых соответствует вектор параметров постпросмотра;
генерирование весового вектора, который имеет количество весовых коэффициентов, соответствующее количеству параметров постпросмотра в каждом из векторов параметра постпросмотра первого набора;
генерирование целевой функции путем использования весового вектора и векторов параметров постпросмотра из первого набора;
оптимизацию весовых значений весового вектора путем использования первого набора пар запрос-документ для получения оптимизированной целевой функции с использованием метрики производительности, связанной с целевой функцией;
оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции; и
использование оптимизированного ранжиратора результатов поиска для ранжирования результатов поиска.
16. Средство для хранения информации по п. 15, в котором дополнительно содержит команды для выбора метрики производительности, в зависимости от параметров целевой функции.
17. Средство для хранения информации по п. 15, в котором оптимизация ранжиратора результатов поиска с помощью оптимизированной целевой функции включает оптимизацию ранжиратора результатов поиска с помощью оптимизированной целевой функции, примененной ко второму набору пар запрос-документ.
RU2014126774A 2014-06-30 2014-06-30 Ранжиратор результатов поиска RU2608886C2 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2014126774A RU2608886C2 (ru) 2014-06-30 2014-06-30 Ранжиратор результатов поиска
EP14890458.4A EP3005144A1 (en) 2014-06-30 2014-12-08 Search result ranker
PCT/IB2014/066704 WO2016001724A1 (en) 2014-06-30 2014-12-08 Search result ranker
US14/866,380 US9501575B2 (en) 2014-06-30 2015-09-25 Search result ranker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014126774A RU2608886C2 (ru) 2014-06-30 2014-06-30 Ранжиратор результатов поиска

Publications (2)

Publication Number Publication Date
RU2014126774A RU2014126774A (ru) 2016-01-27
RU2608886C2 true RU2608886C2 (ru) 2017-01-25

Family

ID=55018506

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014126774A RU2608886C2 (ru) 2014-06-30 2014-06-30 Ранжиратор результатов поиска

Country Status (4)

Country Link
US (1) US9501575B2 (ru)
EP (1) EP3005144A1 (ru)
RU (1) RU2608886C2 (ru)
WO (1) WO2016001724A1 (ru)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2656469C1 (ru) * 2017-02-20 2018-06-05 Дарья Игоревна Лапшина Способ структурирования результатов поиска по текстам, содержащим информацию о научной и исследовательской деятельности
RU2664481C1 (ru) * 2017-04-04 2018-08-17 Общество С Ограниченной Ответственностью "Яндекс" Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения
RU2677380C2 (ru) * 2017-04-05 2019-01-16 Общество С Ограниченной Ответственностью "Яндекс" Способ и система ранжирования множества документов на странице результатов поиска
RU2718216C2 (ru) * 2018-07-03 2020-03-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для ранжирования документов на странице результатов поиска
RU2720905C2 (ru) * 2018-09-17 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска
RU2721159C1 (ru) * 2018-12-13 2020-05-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер генерирования мета-признака для ранжирования документов
RU2744028C2 (ru) * 2018-12-26 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для хранения множества документов
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
RU2776034C2 (ru) * 2019-09-09 2022-07-12 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для выявления аномального рейтингования

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762091B2 (en) * 2014-09-08 2020-09-01 Salesforce.Com, Inc. Interactive feedback for changes in search relevancy parameters
US11636120B2 (en) * 2014-11-21 2023-04-25 Microsoft Technology Licensing, Llc Offline evaluation of ranking functions
RU2666331C1 (ru) 2017-04-04 2018-09-06 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания оффлайн страницы результатов поиска
CN107688595B (zh) * 2017-05-10 2019-03-15 平安科技(深圳)有限公司 信息检索准确性评估方法、装置及计算机可读存储介质
US11698936B2 (en) 2017-10-09 2023-07-11 Home Depot Product Authority, Llc System and methods for search engine parameter tuning using genetic algorithm
US20190132274A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Techniques for ranking posts in community forums
US11093512B2 (en) * 2018-04-30 2021-08-17 International Business Machines Corporation Automated selection of search ranker
RU2019128026A (ru) 2019-09-05 2021-03-05 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для ранжирования множества цифровых документов
WO2023234865A1 (en) * 2022-06-01 2023-12-07 Grabtaxi Holdings Pte. Ltd. A communication server, a method, a user device, and a system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006360A1 (en) * 2007-06-28 2009-01-01 Oracle International Corporation System and method for applying ranking svm in query relaxation
US20100082510A1 (en) * 2008-10-01 2010-04-01 Microsoft Corporation Training a search result ranker with automatically-generated samples
US20110016065A1 (en) * 2009-07-16 2011-01-20 Yahoo! Inc. Efficient algorithm for pairwise preference learning
RU2435212C2 (ru) * 2006-03-02 2011-11-27 Майкрософт Корпорейшн Сбор данных о пользовательском поведении при веб-поиске для повышения релевантности веб-поиска
RU2443015C2 (ru) * 2006-07-31 2012-02-20 Майкрософт Корпорейшн Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением
US8645390B1 (en) * 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US20140095495A1 (en) * 2007-03-13 2014-04-03 Google Inc. Systems and Methods for Promoting Personalized Search Results Based on Personal Information

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562068B2 (en) * 2004-06-30 2009-07-14 Microsoft Corporation System and method for ranking search results based on tracked user preferences
US7546294B2 (en) * 2005-03-31 2009-06-09 Microsoft Corporation Automated relevance tuning
US7647314B2 (en) * 2006-04-28 2010-01-12 Yahoo! Inc. System and method for indexing web content using click-through features
US7805438B2 (en) * 2006-07-31 2010-09-28 Microsoft Corporation Learning a document ranking function using fidelity-based error measurements
US7895198B2 (en) * 2007-09-28 2011-02-22 Yahoo! Inc. Gradient based optimization of a ranking measure
US8108374B2 (en) * 2008-09-16 2012-01-31 Yahoo! Inc. Optimization framework for tuning ranking engine
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US8676827B2 (en) * 2009-02-04 2014-03-18 Yahoo! Inc. Rare query expansion by web feature matching
US20100250523A1 (en) * 2009-03-31 2010-09-30 Yahoo! Inc. System and method for learning a ranking model that optimizes a ranking evaluation metric for ranking search results of a search query
US8935258B2 (en) * 2009-06-15 2015-01-13 Microsoft Corporation Identification of sample data items for re-judging
US8498974B1 (en) * 2009-08-31 2013-07-30 Google Inc. Refining search results
US10140339B2 (en) * 2010-01-26 2018-11-27 Paypal, Inc. Methods and systems for simulating a search to generate an optimized scoring function
US8615514B1 (en) * 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US20120022937A1 (en) * 2010-07-22 2012-01-26 Yahoo! Inc. Advertisement brand engagement value
US20120143790A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Relevance of search results determined from user clicks and post-click user behavior obtained from click logs
US9104733B2 (en) * 2012-11-29 2015-08-11 Microsoft Technology Licensing, Llc Web search ranking

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2435212C2 (ru) * 2006-03-02 2011-11-27 Майкрософт Корпорейшн Сбор данных о пользовательском поведении при веб-поиске для повышения релевантности веб-поиска
RU2443015C2 (ru) * 2006-07-31 2012-02-20 Майкрософт Корпорейшн Функции ранжирования, использующие модифицированный наивный байесовский классификатор запросов с инкрементным обновлением
US20140095495A1 (en) * 2007-03-13 2014-04-03 Google Inc. Systems and Methods for Promoting Personalized Search Results Based on Personal Information
US20090006360A1 (en) * 2007-06-28 2009-01-01 Oracle International Corporation System and method for applying ranking svm in query relaxation
US8645390B1 (en) * 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US20100082510A1 (en) * 2008-10-01 2010-04-01 Microsoft Corporation Training a search result ranker with automatically-generated samples
US20110016065A1 (en) * 2009-07-16 2011-01-20 Yahoo! Inc. Efficient algorithm for pairwise preference learning

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2656469C1 (ru) * 2017-02-20 2018-06-05 Дарья Игоревна Лапшина Способ структурирования результатов поиска по текстам, содержащим информацию о научной и исследовательской деятельности
RU2664481C1 (ru) * 2017-04-04 2018-08-17 Общество С Ограниченной Ответственностью "Яндекс" Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения
US10642670B2 (en) 2017-04-04 2020-05-05 Yandex Europe Ag Methods and systems for selecting potentially erroneously ranked documents by a machine learning algorithm
RU2677380C2 (ru) * 2017-04-05 2019-01-16 Общество С Ограниченной Ответственностью "Яндекс" Способ и система ранжирования множества документов на странице результатов поиска
US10754863B2 (en) 2017-04-05 2020-08-25 Yandex Europe Ag Method and system for ranking a plurality of documents on a search engine results page
US10909127B2 (en) 2018-07-03 2021-02-02 Yandex Europe Ag Method and server for ranking documents on a SERP
RU2718216C2 (ru) * 2018-07-03 2020-03-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для ранжирования документов на странице результатов поиска
RU2720905C2 (ru) * 2018-09-17 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска
RU2721159C1 (ru) * 2018-12-13 2020-05-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер генерирования мета-признака для ранжирования документов
US11308097B2 (en) 2018-12-13 2022-04-19 Yandex Europe Ag Method of and server for generating meta-feature for ranking documents
RU2744028C2 (ru) * 2018-12-26 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для хранения множества документов
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
RU2776034C2 (ru) * 2019-09-09 2022-07-12 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для выявления аномального рейтингования

Also Published As

Publication number Publication date
EP3005144A4 (en) 2016-04-13
EP3005144A1 (en) 2016-04-13
US9501575B2 (en) 2016-11-22
WO2016001724A1 (en) 2016-01-07
US20160019219A1 (en) 2016-01-21
RU2014126774A (ru) 2016-01-27

Similar Documents

Publication Publication Date Title
RU2608886C2 (ru) Ранжиратор результатов поиска
RU2640639C2 (ru) Способ и система обработки поискового запроса
US9436707B2 (en) Content-based image ranking
RU2677380C2 (ru) Способ и система ранжирования множества документов на странице результатов поиска
US8694540B1 (en) Predictive analytical model selection
US8843427B1 (en) Predictive modeling accuracy
US8965872B2 (en) Identifying query formulation suggestions for low-match queries
US10642905B2 (en) System and method for ranking search engine results
JP5185498B2 (ja) エンティティ固有の調整された検索
US20130110815A1 (en) Generating and presenting deep links
US20170091670A1 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
US9183499B1 (en) Evaluating quality based on neighbor features
JP2009528619A (ja) ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること
WO2016065302A1 (en) Systems and methods for managing hashtags
US20150169576A1 (en) Dynamic Search Results
EP2715574A1 (en) Method and apparatus of providing suggested terms
RU2731658C2 (ru) Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
RU2733481C2 (ru) Способ и система генерирования признака для ранжирования документа
RU2634218C2 (ru) Способ определения последовательности просмотра веб-страниц и сервер, используемый в нем
US9785712B1 (en) Multi-index search engines
US7769749B2 (en) Web page categorization using graph-based term selection
US8712991B2 (en) Document-related representative information
JP6203304B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN110413763B (zh) 搜索排序器的自动选择
JP2013054606A (ja) 文書検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
HE9A Changing address for correspondence with an applicant
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160802

NF4A Reinstatement of patent

Effective date: 20171004