RU2018132848A

RU2018132848A - Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска

Info

Publication number: RU2018132848A
Application number: RU2018132848A
Authority: RU
Inventors: Александр Николаевич Готманов; Евгений Александрович Гречников; Александр Валерьевич Сафронов
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2020-03-17
Also published as: US20200089684A1; US11113291B2; RU2720905C2; RU2018132848A3

Claims

1. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:

прием сервером от электронного устройства указания на текущий запрос;

формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему запросу;

извлечение сервером из базы данных множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов;

расчет сервером соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на текущих документах из набора текущих документов и прошлых документах из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов;

выбор подмножества из множества прошлых запросов на основе соответствующего параметра сходства, превышающего заранее заданный порог сходства;

ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим подмножество из множества прошлых запросов в качестве ранжирующего признака; и

передачу сервером страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.

2. Способ по п. 1, отличающийся тем, что текущий документ из набора текущих документов связан с прошлыми действиями некоторых из множества прошлых пользователей в отношении этого документа, представленного в ответ на прошлый запрос, подобный текущему запросу, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на этот прошлый запрос, а расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении текущих документов из набора текущих документов и на прошлых действиях пользователей в отношении прошлых документов из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов.

3. Способ по п. 2, отличающийся тем, что перед извлечением множества прошлых запросов он дополнительно включает в себя формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей, связанных с текущими документами, при этом способ перед расчетом соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов дополнительно включает в себя формирование сервером вектора соответствующего запроса, связанного с соответствующим запросом из множества прошлых запросов, на основе прошлых документов из соответствующего набора прошлых документов и прошлых действий пользователей в отношении прошлых документов, а расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.

4. Способ по п. 3, отличающийся тем, что ранжирование набора текущих документов для получения ранжированного набора документов дополнительно включает в себя учет первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.

5. Способ по п. 4, отличающийся тем, что соответствующий параметр сходства рассчитывается с использованием скалярного умножения или на основе близости косинусов углов вектора текущего запроса и вектора соответствующего запроса.

6. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, содержащим второй алгоритм машинного обучения, обученный определять сходство запросов на основе текстового контента, и включающий в себя:

прием сервером от электронного устройства указания на текущий запрос, ранее не отправлявшийся серверу;

формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;

извлечение вторым алгоритмом машинного обучения из базы данных множества прошлых запросов, каждый из которых ранее отправлялся серверу;

расчет вторым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на по меньшей мере одном текстовом признаке нового запроса и по меньшей мере одном текстовом признаке этого запроса из множества прошлых запросов;

7. Способ по п. 6, отличающийся тем, что перед извлечением множества прошлых запросов он дополнительно включает в себя формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса, при этом способ перед расчетом соответствующего параметра сходства дополнительно включает в себя получение вторым алгоритмом машинного обучения из базы данных вектора соответствующего запроса, связанного с запросом из множества прошлых запросов и сформированного на основе по меньшей мере одного соответствующего текстового признака этого запроса из множества прошлых запросов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.

8. Способ по п. 7, отличающийся тем, что извлечение множества прошлых запросов основано на векторе текущего запроса.

9. Способ по п. 7, отличающийся тем, что на этапе обучения дополнительно включает в себя:

получение сервером из связанной с сервером второй базы данных набора обучающих объектов, ранее сформированного сервером, при этом обучающий объект из набора обучающих объектов содержит первый прошлый запрос и второй прошлый запрос, которые были выбраны на основе соответствующего параметра сходства между первым прошлым запросом и вторым прошлым запросом, рассчитанного на основе прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых документов, представленных в ответ на второй прошлый запрос;

формирование вектора первого прошлого запроса на основе по меньшей мере одного текстового признака первого прошлого запроса;

формирование вектора второго прошлого запроса на основе по меньшей мере одного текстового признака второго прошлого запроса;

обучение второго алгоритма MLA на наборе обучающих объектов для определения параметра сходства между вектором нового запроса, ранее не отправлявшегося серверу, и соответствующим вектором прошлого запроса из множества прошлых запросов.

10. Способ по п. 9, отличающийся тем, что расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на второй прошлый запрос.

11. Способ по п. 10, отличающийся тем, что параметр сходства, превышающий заранее заданный порог, используется в качестве положительной метки для обучения.

12. Способ по п. 9, отличающийся тем, что ранжирование набора текущих документов для получения ранжированного набора документов дополнительно включает в себя учет первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.

13. Способ по п. 9, отличающийся тем, что обучение второго алгоритма машинного обучения включает в себя использование алгоритма вида поиска K ближайших соседей (K-NNS), а способ после обучения второго алгоритма машинного обучения дополнительно включает в себя формирование сервером в базе данных для каждого прошлого запроса из множества прошлых запросов вектора соответствующего запроса, связанного с этим прошлым запросом, и указания на этот прошлый запрос, а также сохранение вектора соответствующего запроса в базе данных.

14. Способ по п. 9, отличающийся тем, что алгоритм вида K-NSS представляет собой алгоритм иерархического малого мира (HNSW).

15. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:

определение сервером наличия прошлых действий пользователей в отношении текущих документов из набора текущих документов, выполненных в связи с прошлым запросом, подобным текущему запросу;

извлечение сервером из базы данных набора из множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на прошлый запрос, при этом извлечение выполняется следующим образом:

в ответ на положительный результат определения:

формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей в отношении текущих документов из набора текущих документов;

формирование сервером вектора соответствующего запроса, связанного с каждым запросом из множества прошлых запросов, на основе прошлых документов и прошлых действий пользователей в отношении прошлых документов из соответствующего набора прошлых документов;

выбор множества прошлых запросов на основе сходства вектора текущего запроса и вектора соответствующего запроса;

в ответ на отрицательный результат определения:

формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса;

формирование сервером вектора соответствующего запроса, связанного с каждым прошлым запросом из множества прошлых запросов, на основе по меньшей мере одного текстового признака этого прошлого запроса;

ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим по меньшей мере один прошлый запрос в наборе из множества прошлых запросов;

16. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:

извлечение сервером из базы данных множества прошлых запросов на основе указания на текущий запрос;

расчет сервером соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов;

ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим вхождение поисковых терминов по меньшей мере одного прошлого запроса из множества прошлых запросов в документ из набора текущих документов таким образом, что это вхождение поисковых терминов повышает ранг этого текущего документа; и

17. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:

прием от электронного устройства указания на текущий запрос;

формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему запросу;

извлечение из базы данных множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов;

расчет соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на текущих документах из набора текущих документов и прошлых документах из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов;

передача страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.

18. Система по п. 17, отличающаяся тем, что текущий документ из набора текущих документов связан с прошлыми действиями некоторых из множества прошлых пользователей в отношении этого документа, представленного в ответ на прошлый запрос, подобный текущему запросу, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на этот прошлый запрос, а расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении текущих документов из набора текущих документов и на прошлых действиях пользователей в отношении прошлых документов из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов.

19. Система по п. 18, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения следующего действия перед извлечением множества прошлых запросов: формирование вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей, связанных с текущими документами; и дополнительно выполнен с возможностью выполнения следующего действия перед расчетом соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов: формирование вектора соответствующего запроса, связанного с соответствующим запросом из множества прошлых запросов, на основе прошлых документов из соответствующего набора прошлых документов и прошлых действий пользователей в отношении прошлых документов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.

20. Система по п. 19, отличающаяся тем, что с целью ранжирования набора текущих документов для получения ранжированного набора документов процессор дополнительно выполнен с возможностью учета первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.

21. Система по п. 20, отличающаяся тем, что соответствующий параметр сходства рассчитывается с использованием скалярного умножения или на основе близости косинусов углов вектора текущего запроса и вектора соответствующего запроса.

22. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, способная выполнять второй алгоритм машинного обучения, обученный определять сходство запросов на основе текстового контента, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:

прием от электронного устройства указания на текущий запрос, ранее не отправлявшийся в систему;

формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;

извлечение вторым алгоритмом машинного обучения из базы данных множества прошлых запросов, каждый из которых ранее отправлялся в систему;

23. Система по п. 22, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения следующего действия перед извлечением множества прошлых запросов: формирование вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса; и дополнительно выполнен с возможностью инициирования выполнения следующего действия перед расчетом соответствующего параметра сходства: получение вторым алгоритмом машинного обучения из базы данных вектора соответствующего запроса, связанного с запросом из множества прошлых запросов и сформированного на основе по меньшей мере одного соответствующего текстового признака этого запроса из множества прошлых запросов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.

24. Система по п. 23, отличающаяся тем, что извлечение множества прошлых запросов основано на векторе текущего запроса.

25. Система по п. 23, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения на этапе обучения следующих действий:

получение из связанной с системой второй базы данных набора обучающих объектов, ранее сформированного системой, при этом обучающий объект из набора обучающих объектов содержит первый прошлый запрос и второй прошлый запрос, которые были выбраны на основе соответствующего параметра сходства между первым прошлым запросом и вторым прошлым запросом, рассчитанного на основе прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых документов, представленных в ответ на второй прошлый запрос;

обучение второго алгоритма MLA на наборе обучающих объектов для определения параметра сходства между вектором нового запроса, ранее не отправлявшегося в систему, и соответствующим вектором прошлого запроса из множества прошлых запросов.

26. Система по п. 25 отличающаяся тем, что расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на второй прошлый запрос.

27. Система по п. 26, отличающаяся тем, что параметр сходства, превышающий заранее заданный порог, используется в качестве положительной метки для обучения.

28. Система по п. 25, отличающаяся тем, что с целью ранжирования набора текущих документов для получения ранжированного набора документов процессор выполнен с возможностью учета первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.

29. Система по п. 25, отличающаяся тем, что обучение второго алгоритма машинного обучения включает в себя использование алгоритма вида поиска K ближайших соседей (K-NNS), а процессор дополнительно выполнен с возможностью выполнения следующих действий после обучения второго алгоритма машинного обучения:

формирование в базе данных для каждого прошлого запроса из множества прошлых запросов вектора соответствующего запроса, связанного с этим прошлым запросом, и указания на этот прошлый запрос; и

сохранение вектора соответствующего запроса в базе данных.

30. Система по п. 29, отличающаяся тем, что алгоритм вида K-NSS представляет собой алгоритм иерархического малого мира (HNSW).

31. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:

определение наличия прошлых действий пользователей в отношении текущих документов из набора текущих документов, выполненных в связи с прошлым запросом, подобным текущему запросу;

извлечение из базы данных набора из множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на прошлый запрос, при этом извлечение выполняется следующим образом:

формирование вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей в отношении текущих документов из набора текущих документов;

формирование вектора соответствующего запроса, связанного с каждым запросом из множества прошлых запросов, на основе прошлых документов и прошлых действий пользователей в отношении прошлых документов из соответствующего набора прошлых документов;

формирование вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса;

формирование вектора соответствующего запроса, связанного с каждым прошлым запросом из множества прошлых запросов, на основе по меньшей мере одного текстового признака этого прошлого запроса;

32. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:

извлечение из базы данных множества прошлых запросов на основе указания на текущий запрос;

расчет соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов;