RU2018132848A - Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска - Google Patents

Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска Download PDF

Info

Publication number
RU2018132848A
RU2018132848A RU2018132848A RU2018132848A RU2018132848A RU 2018132848 A RU2018132848 A RU 2018132848A RU 2018132848 A RU2018132848 A RU 2018132848A RU 2018132848 A RU2018132848 A RU 2018132848A RU 2018132848 A RU2018132848 A RU 2018132848A
Authority
RU
Russia
Prior art keywords
past
request
current
documents
vector
Prior art date
Application number
RU2018132848A
Other languages
English (en)
Other versions
RU2720905C2 (ru
RU2018132848A3 (ru
Inventor
Александр Николаевич Готманов
Евгений Александрович Гречников
Александр Валерьевич Сафронов
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2018132848A priority Critical patent/RU2720905C2/ru
Priority to US16/387,679 priority patent/US11113291B2/en
Publication of RU2018132848A publication Critical patent/RU2018132848A/ru
Publication of RU2018132848A3 publication Critical patent/RU2018132848A3/ru
Application granted granted Critical
Publication of RU2720905C2 publication Critical patent/RU2720905C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (110)

1. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:
прием сервером от электронного устройства указания на текущий запрос;
формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему запросу;
извлечение сервером из базы данных множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов;
расчет сервером соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на текущих документах из набора текущих документов и прошлых документах из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов;
выбор подмножества из множества прошлых запросов на основе соответствующего параметра сходства, превышающего заранее заданный порог сходства;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим подмножество из множества прошлых запросов в качестве ранжирующего признака; и
передачу сервером страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
2. Способ по п. 1, отличающийся тем, что текущий документ из набора текущих документов связан с прошлыми действиями некоторых из множества прошлых пользователей в отношении этого документа, представленного в ответ на прошлый запрос, подобный текущему запросу, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на этот прошлый запрос, а расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении текущих документов из набора текущих документов и на прошлых действиях пользователей в отношении прошлых документов из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов.
3. Способ по п. 2, отличающийся тем, что перед извлечением множества прошлых запросов он дополнительно включает в себя формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей, связанных с текущими документами, при этом способ перед расчетом соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов дополнительно включает в себя формирование сервером вектора соответствующего запроса, связанного с соответствующим запросом из множества прошлых запросов, на основе прошлых документов из соответствующего набора прошлых документов и прошлых действий пользователей в отношении прошлых документов, а расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.
4. Способ по п. 3, отличающийся тем, что ранжирование набора текущих документов для получения ранжированного набора документов дополнительно включает в себя учет первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.
5. Способ по п. 4, отличающийся тем, что соответствующий параметр сходства рассчитывается с использованием скалярного умножения или на основе близости косинусов углов вектора текущего запроса и вектора соответствующего запроса.
6. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, содержащим второй алгоритм машинного обучения, обученный определять сходство запросов на основе текстового контента, и включающий в себя:
прием сервером от электронного устройства указания на текущий запрос, ранее не отправлявшийся серверу;
формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
извлечение вторым алгоритмом машинного обучения из базы данных множества прошлых запросов, каждый из которых ранее отправлялся серверу;
расчет вторым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на по меньшей мере одном текстовом признаке нового запроса и по меньшей мере одном текстовом признаке этого запроса из множества прошлых запросов;
выбор подмножества из множества прошлых запросов на основе соответствующего параметра сходства, превышающего заранее заданный порог сходства;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим подмножество из множества прошлых запросов в качестве ранжирующего признака; и
передачу сервером страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
7. Способ по п. 6, отличающийся тем, что перед извлечением множества прошлых запросов он дополнительно включает в себя формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса, при этом способ перед расчетом соответствующего параметра сходства дополнительно включает в себя получение вторым алгоритмом машинного обучения из базы данных вектора соответствующего запроса, связанного с запросом из множества прошлых запросов и сформированного на основе по меньшей мере одного соответствующего текстового признака этого запроса из множества прошлых запросов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.
8. Способ по п. 7, отличающийся тем, что извлечение множества прошлых запросов основано на векторе текущего запроса.
9. Способ по п. 7, отличающийся тем, что на этапе обучения дополнительно включает в себя:
получение сервером из связанной с сервером второй базы данных набора обучающих объектов, ранее сформированного сервером, при этом обучающий объект из набора обучающих объектов содержит первый прошлый запрос и второй прошлый запрос, которые были выбраны на основе соответствующего параметра сходства между первым прошлым запросом и вторым прошлым запросом, рассчитанного на основе прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых документов, представленных в ответ на второй прошлый запрос;
формирование вектора первого прошлого запроса на основе по меньшей мере одного текстового признака первого прошлого запроса;
формирование вектора второго прошлого запроса на основе по меньшей мере одного текстового признака второго прошлого запроса;
обучение второго алгоритма MLA на наборе обучающих объектов для определения параметра сходства между вектором нового запроса, ранее не отправлявшегося серверу, и соответствующим вектором прошлого запроса из множества прошлых запросов.
10. Способ по п. 9, отличающийся тем, что расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на второй прошлый запрос.
11. Способ по п. 10, отличающийся тем, что параметр сходства, превышающий заранее заданный порог, используется в качестве положительной метки для обучения.
12. Способ по п. 9, отличающийся тем, что ранжирование набора текущих документов для получения ранжированного набора документов дополнительно включает в себя учет первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.
13. Способ по п. 9, отличающийся тем, что обучение второго алгоритма машинного обучения включает в себя использование алгоритма вида поиска K ближайших соседей (K-NNS), а способ после обучения второго алгоритма машинного обучения дополнительно включает в себя формирование сервером в базе данных для каждого прошлого запроса из множества прошлых запросов вектора соответствующего запроса, связанного с этим прошлым запросом, и указания на этот прошлый запрос, а также сохранение вектора соответствующего запроса в базе данных.
14. Способ по п. 9, отличающийся тем, что алгоритм вида K-NSS представляет собой алгоритм иерархического малого мира (HNSW).
15. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:
прием сервером от электронного устройства указания на текущий запрос;
формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
определение сервером наличия прошлых действий пользователей в отношении текущих документов из набора текущих документов, выполненных в связи с прошлым запросом, подобным текущему запросу;
извлечение сервером из базы данных набора из множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на прошлый запрос, при этом извлечение выполняется следующим образом:
в ответ на положительный результат определения:
формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей в отношении текущих документов из набора текущих документов;
формирование сервером вектора соответствующего запроса, связанного с каждым запросом из множества прошлых запросов, на основе прошлых документов и прошлых действий пользователей в отношении прошлых документов из соответствующего набора прошлых документов;
выбор множества прошлых запросов на основе сходства вектора текущего запроса и вектора соответствующего запроса;
в ответ на отрицательный результат определения:
формирование сервером вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса;
формирование сервером вектора соответствующего запроса, связанного с каждым прошлым запросом из множества прошлых запросов, на основе по меньшей мере одного текстового признака этого прошлого запроса;
выбор множества прошлых запросов на основе сходства вектора текущего запроса и вектора соответствующего запроса;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим по меньшей мере один прошлый запрос в наборе из множества прошлых запросов;
передачу сервером страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
16. Реализуемый компьютером способ ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, выполняемый сервером, связанным с базой данных и связанным с электронным устройством через сеть связи, и включающий в себя:
прием сервером от электронного устройства указания на текущий запрос;
формирование сервером набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
извлечение сервером из базы данных множества прошлых запросов на основе указания на текущий запрос;
расчет сервером соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим вхождение поисковых терминов по меньшей мере одного прошлого запроса из множества прошлых запросов в документ из набора текущих документов таким образом, что это вхождение поисковых терминов повышает ранг этого текущего документа; и
передачу сервером страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
17. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:
прием от электронного устройства указания на текущий запрос;
формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему запросу;
извлечение из базы данных множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов;
расчет соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на текущих документах из набора текущих документов и прошлых документах из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов;
выбор подмножества из множества прошлых запросов на основе соответствующего параметра сходства, превышающего заранее заданный порог сходства;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим подмножество из множества прошлых запросов в качестве ранжирующего признака; и
передача страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
18. Система по п. 17, отличающаяся тем, что текущий документ из набора текущих документов связан с прошлыми действиями некоторых из множества прошлых пользователей в отношении этого документа, представленного в ответ на прошлый запрос, подобный текущему запросу, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на этот прошлый запрос, а расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении текущих документов из набора текущих документов и на прошлых действиях пользователей в отношении прошлых документов из соответствующего набора прошлых документов, связанных с этим запросом из множества запросов.
19. Система по п. 18, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения следующего действия перед извлечением множества прошлых запросов: формирование вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей, связанных с текущими документами; и дополнительно выполнен с возможностью выполнения следующего действия перед расчетом соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов: формирование вектора соответствующего запроса, связанного с соответствующим запросом из множества прошлых запросов, на основе прошлых документов из соответствующего набора прошлых документов и прошлых действий пользователей в отношении прошлых документов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.
20. Система по п. 19, отличающаяся тем, что с целью ранжирования набора текущих документов для получения ранжированного набора документов процессор дополнительно выполнен с возможностью учета первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.
21. Система по п. 20, отличающаяся тем, что соответствующий параметр сходства рассчитывается с использованием скалярного умножения или на основе близости косинусов углов вектора текущего запроса и вектора соответствующего запроса.
22. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, способная выполнять второй алгоритм машинного обучения, обученный определять сходство запросов на основе текстового контента, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:
прием от электронного устройства указания на текущий запрос, ранее не отправлявшийся в систему;
формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
извлечение вторым алгоритмом машинного обучения из базы данных множества прошлых запросов, каждый из которых ранее отправлялся в систему;
расчет вторым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, а расчет для запроса из множества прошлых запросов основан на по меньшей мере одном текстовом признаке нового запроса и по меньшей мере одном текстовом признаке этого запроса из множества прошлых запросов;
выбор подмножества из множества прошлых запросов на основе соответствующего параметра сходства, превышающего заранее заданный порог сходства;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим подмножество из множества прошлых запросов в качестве ранжирующего признака; и
передача страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
23. Система по п. 22, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения следующего действия перед извлечением множества прошлых запросов: формирование вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса; и дополнительно выполнен с возможностью инициирования выполнения следующего действия перед расчетом соответствующего параметра сходства: получение вторым алгоритмом машинного обучения из базы данных вектора соответствующего запроса, связанного с запросом из множества прошлых запросов и сформированного на основе по меньшей мере одного соответствующего текстового признака этого запроса из множества прошлых запросов, при этом расчет соответствующего параметра сходства основан на векторе текущего запроса и векторе соответствующего запроса.
24. Система по п. 23, отличающаяся тем, что извлечение множества прошлых запросов основано на векторе текущего запроса.
25. Система по п. 23, отличающаяся тем, что процессор дополнительно выполнен с возможностью выполнения на этапе обучения следующих действий:
получение из связанной с системой второй базы данных набора обучающих объектов, ранее сформированного системой, при этом обучающий объект из набора обучающих объектов содержит первый прошлый запрос и второй прошлый запрос, которые были выбраны на основе соответствующего параметра сходства между первым прошлым запросом и вторым прошлым запросом, рассчитанного на основе прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых документов, представленных в ответ на второй прошлый запрос;
формирование вектора первого прошлого запроса на основе по меньшей мере одного текстового признака первого прошлого запроса;
формирование вектора второго прошлого запроса на основе по меньшей мере одного текстового признака второго прошлого запроса;
обучение второго алгоритма MLA на наборе обучающих объектов для определения параметра сходства между вектором нового запроса, ранее не отправлявшегося в систему, и соответствующим вектором прошлого запроса из множества прошлых запросов.
26. Система по п. 25 отличающаяся тем, что расчет соответствующего параметра сходства дополнительно основан на прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на первый прошлый запрос, и прошлых действиях пользователей в отношении прошлых документов, представленных в ответ на второй прошлый запрос.
27. Система по п. 26, отличающаяся тем, что параметр сходства, превышающий заранее заданный порог, используется в качестве положительной метки для обучения.
28. Система по п. 25, отличающаяся тем, что с целью ранжирования набора текущих документов для получения ранжированного набора документов процессор выполнен с возможностью учета первым алгоритмом машинного обучения соответствующего параметра сходства между текущим запросом и по меньшей мере одним прошлым запросом в качестве веса ранжирующего признака.
29. Система по п. 25, отличающаяся тем, что обучение второго алгоритма машинного обучения включает в себя использование алгоритма вида поиска K ближайших соседей (K-NNS), а процессор дополнительно выполнен с возможностью выполнения следующих действий после обучения второго алгоритма машинного обучения:
формирование в базе данных для каждого прошлого запроса из множества прошлых запросов вектора соответствующего запроса, связанного с этим прошлым запросом, и указания на этот прошлый запрос; и
сохранение вектора соответствующего запроса в базе данных.
30. Система по п. 29, отличающаяся тем, что алгоритм вида K-NSS представляет собой алгоритм иерархического малого мира (HNSW).
31. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:
прием от электронного устройства указания на текущий запрос;
формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
определение наличия прошлых действий пользователей в отношении текущих документов из набора текущих документов, выполненных в связи с прошлым запросом, подобным текущему запросу;
извлечение из базы данных набора из множества прошлых запросов, каждый из которых связан с соответствующим набором прошлых документов, представленным в качестве результатов поиска в ответ на прошлый запрос из числа по меньшей мере некоторых других запросов из множества прошлых запросов, при этом каждый прошлый документ из соответствующего набора прошлых документов связан с прошлыми действиями пользователей в отношении соответствующего прошлого документа, представленного в ответ на прошлый запрос, при этом извлечение выполняется следующим образом:
в ответ на положительный результат определения:
формирование вектора текущего запроса, связанного с текущим запросом, на основе текущих документов из набора текущих документов и прошлых действий пользователей в отношении текущих документов из набора текущих документов;
формирование вектора соответствующего запроса, связанного с каждым запросом из множества прошлых запросов, на основе прошлых документов и прошлых действий пользователей в отношении прошлых документов из соответствующего набора прошлых документов;
выбор множества прошлых запросов на основе сходства вектора текущего запроса и вектора соответствующего запроса;
в ответ на отрицательный результат определения:
формирование вектора текущего запроса, связанного с текущим запросом, на основе по меньшей мере одного текстового признака текущего запроса;
формирование вектора соответствующего запроса, связанного с каждым прошлым запросом из множества прошлых запросов, на основе по меньшей мере одного текстового признака этого прошлого запроса;
выбор множества прошлых запросов на основе сходства вектора текущего запроса и вектора соответствующего запроса;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим по меньшей мере один прошлый запрос в наборе из множества прошлых запросов;
передача страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
32. Система для ранжирования результатов поиска в ответ на текущий запрос с использованием первого алгоритма машинного обучения, связанная с базой данных и связанная с электронным устройством через сеть связи, содержащая процессор и машиночитаемый физический носитель информации, содержащий команды, при выполнении которых процессор инициирует выполнение следующих действий:
прием от электронного устройства указания на текущий запрос;
формирование набора результатов поиска, содержащего набор текущих документов, релевантных текущему поисковому запросу;
извлечение из базы данных множества прошлых запросов на основе указания на текущий запрос;
расчет соответствующего параметра сходства между текущим запросом и соответствующим запросом из множества прошлых запросов, при этом соответствующий параметр сходства указывает на степень сходства между текущим запросом и соответствующим запросом из множества прошлых запросов;
ранжирование набора текущих документов для получения ранжированного набора документов, которое выполняется первым алгоритмом машинного обучения, учитывающим вхождение поисковых терминов по меньшей мере одного прошлого запроса из множества прошлых запросов в документ из набора текущих документов таким образом, что это вхождение поисковых терминов повышает ранг этого текущего документа; и
передача страницы результатов поисковой системы (SERP), содержащей ранжированный набор документов, для отображения на электронном устройстве.
RU2018132848A 2018-09-17 2018-09-17 Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска RU2720905C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2018132848A RU2720905C2 (ru) 2018-09-17 2018-09-17 Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска
US16/387,679 US11113291B2 (en) 2018-09-17 2019-04-18 Method of and system for enriching search queries for ranking search results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018132848A RU2720905C2 (ru) 2018-09-17 2018-09-17 Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска

Publications (3)

Publication Number Publication Date
RU2018132848A true RU2018132848A (ru) 2020-03-17
RU2018132848A3 RU2018132848A3 (ru) 2020-03-17
RU2720905C2 RU2720905C2 (ru) 2020-05-14

Family

ID=69774206

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018132848A RU2720905C2 (ru) 2018-09-17 2018-09-17 Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска

Country Status (2)

Country Link
US (1) US11113291B2 (ru)
RU (1) RU2720905C2 (ru)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472296A (zh) * 2018-10-17 2019-03-15 阿里巴巴集团控股有限公司 一种基于梯度提升决策树的模型训练方法及装置
US11443202B2 (en) * 2019-07-03 2022-09-13 Google Llc Real-time on the fly generation of feature-based label embeddings via machine learning
US11531671B2 (en) * 2019-08-19 2022-12-20 Technion Research & Development Foundation Limited Estimating query cardinality
RU2020107002A (ru) * 2020-02-14 2021-08-16 Общество С Ограниченной Ответственностью «Яндекс» Способ и система приема метки для цифровой задачи, исполняемой в краудсорсинговой среде
CN111651682A (zh) * 2020-05-28 2020-09-11 广西东信互联科技有限公司 一种用于挖掘圈层社交商业价值的系统
CN112115347B (zh) * 2020-07-17 2023-12-12 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置及存储介质
US11868413B2 (en) 2020-12-22 2024-01-09 Direct Cursus Technology L.L.C Methods and servers for ranking digital documents in response to a query
US20230410155A1 (en) * 2021-07-07 2023-12-21 Baidu Usa Llc Systems and methods for gating-enhanced multi-task neural networks with feature interaction learning
KR20230037333A (ko) * 2021-09-09 2023-03-16 삼성전자주식회사 스토리지 장치 및 메모리 시스템
US20230135703A1 (en) * 2021-11-03 2023-05-04 Etsy, Inc. Implementing machine learning in a low latency environment
US11520739B1 (en) * 2022-04-24 2022-12-06 Morgan Stanley Services Group Inc. Distributed query execution and aggregation
WO2023211813A1 (en) * 2022-04-24 2023-11-02 Morgan Stanley Services Group Inc. Dynamic script generation for distributed query execution and aggregation

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US8775396B2 (en) * 1999-04-15 2014-07-08 Intellectual Ventures I Llc Method and system for searching a wide area network
US7698270B2 (en) 2004-12-29 2010-04-13 Baynote, Inc. Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge
US8832100B2 (en) * 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US20090234711A1 (en) * 2005-09-14 2009-09-17 Jorey Ramer Aggregation of behavioral profile data using a monetization platform
US20120130814A1 (en) * 2007-11-14 2012-05-24 Paul Vincent Hayes System and method for search engine result ranking
US7792813B2 (en) * 2007-08-31 2010-09-07 Microsoft Corporation Presenting result items based upon user behavior
US8645390B1 (en) 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US7877385B2 (en) 2007-09-21 2011-01-25 Microsoft Corporation Information retrieval using query-document pair information
US8965786B1 (en) * 2008-04-18 2015-02-24 Google Inc. User-based ad ranking
US9183323B1 (en) 2008-06-27 2015-11-10 Google Inc. Suggesting alternative query phrases in query results
US20100010895A1 (en) 2008-07-08 2010-01-14 Yahoo! Inc. Prediction of a degree of relevance between query rewrites and a search query
US8515950B2 (en) 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US8156129B2 (en) 2009-01-15 2012-04-10 Microsoft Corporation Substantially similar queries
US20100198816A1 (en) 2009-01-30 2010-08-05 Yahoo! Inc. System and method for presenting content representative of document search
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8606786B2 (en) 2009-06-22 2013-12-10 Microsoft Corporation Determining a similarity measure between queries
US9317613B2 (en) * 2010-04-21 2016-04-19 Yahoo! Inc. Large scale entity-specific resource classification
US10289735B2 (en) * 2010-04-27 2019-05-14 Microsoft Technology Licensing, Llc Establishing search results and deeplinks using trails
US8650173B2 (en) * 2010-06-23 2014-02-11 Microsoft Corporation Placement of search results using user intent
US9098571B2 (en) 2011-01-24 2015-08-04 Aol Inc. Systems and methods for analyzing and clustering search queries
US9818065B2 (en) * 2014-03-12 2017-11-14 Microsoft Technology Licensing, Llc Attribution of activity in multi-user settings
US10642845B2 (en) * 2014-05-30 2020-05-05 Apple Inc. Multi-domain search on a computing device
RU2608886C2 (ru) * 2014-06-30 2017-01-25 Общество С Ограниченной Ответственностью "Яндекс" Ранжиратор результатов поиска
RU2014131311A (ru) * 2014-07-29 2016-02-20 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) генерации страницы результатов поиска, сервер, используемый в нем, и способ определения позиции веб-страницы в списке веб-страниц
US10606946B2 (en) 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
US9659248B1 (en) 2016-01-19 2017-05-23 International Business Machines Corporation Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations
US10762439B2 (en) 2016-07-26 2020-09-01 International Business Machines Corporation Event clustering and classification with document embedding
US20180121550A1 (en) * 2016-10-28 2018-05-03 Facebook, Inc. Ranking Search Results Based on Lookalike Users on Online Social Networks
US10915524B1 (en) * 2017-06-27 2021-02-09 Amazon Technologies, Inc. Scalable distributed data processing and indexing

Also Published As

Publication number Publication date
US20200089684A1 (en) 2020-03-19
US11113291B2 (en) 2021-09-07
RU2720905C2 (ru) 2020-05-14
RU2018132848A3 (ru) 2020-03-17

Similar Documents

Publication Publication Date Title
RU2018132848A (ru) Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска
JP6634515B2 (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
US9177046B2 (en) Refining image relevance models
US20230409653A1 (en) Embedding Based Retrieval for Image Search
US9607014B2 (en) Image tagging
RU2017111480A (ru) Способ и система ранжирования множества документов на странице результатов поиска
KR101220557B1 (ko) 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템
US20160103833A1 (en) Ranking query results using biometric parameters
RU2019116123A (ru) Система ответа на вопросы из разных областей знаний в режиме реального времени
EP3128448A1 (en) Factorized models
US20110179021A1 (en) Dynamic keyword suggestion and image-search re-ranking
RU2018144177A (ru) Способ и система генерирования признака для ранжирования документа
RU2016145396A (ru) Способ и устройство извлечения тематических предложений веб-страниц
RU2016149526A (ru) Изучение и использование контекстных правил извлечения контента для устранения неоднозначности запросов
US20170364810A1 (en) Method of generating a training object for training a machine learning algorithm
RU2016138553A (ru) Корректировка представления страницы результатов системы поиска (serp) на основе цели запроса
US8583672B1 (en) Displaying multiple spelling suggestions
US20200201915A1 (en) Ranking image search results using machine learning models
RU2014126774A (ru) Ранжиратор результатов поиска
RU2015106797A (ru) Способ и сервер обработки поискового предложения
RU2014118338A (ru) Способ обработки поискового запроса, сервер и машиночитаемый носитель для его осуществления
EP3241131B1 (en) Images for query answers
EP3090393A1 (en) Ranking of discussion threads in a question-and-answer forum
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN112612875B (zh) 一种查询词自动扩展方法、装置、设备及存储介质