RU2019128026A - Способ и система для ранжирования множества цифровых документов - Google Patents
Способ и система для ранжирования множества цифровых документов Download PDFInfo
- Publication number
- RU2019128026A RU2019128026A RU2019128026A RU2019128026A RU2019128026A RU 2019128026 A RU2019128026 A RU 2019128026A RU 2019128026 A RU2019128026 A RU 2019128026A RU 2019128026 A RU2019128026 A RU 2019128026A RU 2019128026 A RU2019128026 A RU 2019128026A
- Authority
- RU
- Russia
- Prior art keywords
- document
- documents
- vector
- server
- training
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 16
- 239000013598 vector Substances 0.000 claims 80
- 230000015572 biosynthetic process Effects 0.000 claims 3
- 238000013528 artificial neural network Methods 0.000 claims 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
Claims (70)
1. Компьютерный способ ранжирования множества документов, которое связано с соответствующими данными документов и должно использоваться в качестве результатов поиска в ответ на запрос, связанный с данными запроса и отправленный пользователем поисковой системе, размещенной на сервере, при этом:
- множество документов связано с векторами соответствующих документов, а запрос связан с вектором запроса,
- вектор документа сформирован на основе данных документа, связанных с соответствующим документом, а вектор запроса сформирован на основе данных запроса,
- вектор документа сформирован так, что значение близости вектора соответствующего документа и вектора запроса представляет собой релевантность соответствующего документа запросу,
- способ выполняется сервером и включает в себя:
- определение сервером для каждого документа из множества документов значения близости вектора соответствующего документа и вектора другого документа, при этом значение близости для соответствующего документа указывает на сходство соответствующего документа и по меньшей мере одного другого документа из множества документов; и
- использование сервером значений близости для множества документов с целью ранжирования этого множества документов.
2. Способ по п. 1, отличающийся тем, что векторы документов и вектор запроса сформированы сервером, выполняющим алгоритм машинного обучения (MLA), обученный на основе обучающей пары документ-запрос, связанной с соответствующим коэффициентом релевантности, указывающим на релевантность обучающего документа из обучающей пары обучающему запросу из этой обучающей пары, формированию вектора обучающего документа для обучающего документа и вектора обучающего запроса для обучающего запроса так, что значение близости вектора обучающего документа для обучающего документа и вектора обучающего запроса для обучающего запроса представляет собой коэффициент релевантности.
3. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя формирование сервером базисного вектора для множества документов в виде сочетания векторов документов, связанных с этим множеством документов, при этом базисный вектор является вектором другого документа, а значение близости указывает на сходство соответствующего документа и других документов из этого множества документов.
4. Способ по п. 3, отличающийся тем, что базисный вектор представляет собой:
- усредненный вектор, сформированный на основе векторов документов;
- вектор средних значений, сформированный на основе векторов документов; или
- вектор медоида, сформированный на основе векторов документов.
5. Способ по п. 1, отличающийся тем, что множество документов предварительно выбирается из пула документов для ранжирования, при этом предварительный выбор выполняется сервером до определения для каждого документа из этого множества документов значения близости вектора соответствующего документа и вектора другого документа.
6. Способ по п. 5, отличающийся тем, что предварительный выбор включает в себя первый этап предварительного выбора и второй этап предварительного выбора, при этом:
- первый этап предварительного выбора включает в себя:
- определение сервером для документов из пула документов соответствующих параметров частоты, указывающих на количество вхождений терминов из запроса в соответствующем документе; и
- выбор сервером из пула документов первого набора документов, содержащего документы, связанные с соответствующими параметрами частоты, превышающими первое пороговое значение; а
- второй этап предварительного выбора включает в себя:
- формирование сервером, выполняющим алгоритм MLA, векторов документов для соответствующих документов из первого набора документов на основе соответствующих данных документов;
- формирование сервером, выполняющим алгоритм MLA, вектора запроса, связанного с запросом, на основе данных этого запроса;
- определение сервером для каждого документа из первого набора документов соответствующего значения близости вектора соответствующего документа и вектора запроса, при этом значение близости представляет собой релевантность соответствующего документа запросу; и
- выбор сервером из первого набора документов второго набора документов, содержащего документы, связанные с соответствующими значениями близости, превышающими второе пороговое значение.
7. Способ по п. 6, отличающийся тем, что второй набор документов представляет собой упомянутое множество документов.
8. Способ по п. 1, отличающийся тем, что сервер выполняет алгоритм ранжирования, способный ранжировать множество документов на основе данных документов, связанных с соответствующими документами из множества документов, и дополнительных данных документов, связанных с этим множеством документов.
9. Способ по п. 8, отличающийся тем, что использование значений близости для множества документов с целью ранжирования этого множества документов включает в себя использование сервером значений близости в качестве дополнительных данных документов с целью ранжирования множества документов путем использования алгоритма ранжирования.
10. Способ по п. 1, отличающийся тем, что данные документов содержат данные документов первого вида.
11. Способ по п. 10, отличающийся тем, что первый документ из множества документов имеет данные документа первого вида, а для второго документа из множества документов отсутствуют данные документа первого вида, при этом способ дополнительно включает в себя:
- определение сервером значения близости вектора первого документа и вектора второго документа; и
- использование сервером данных первого документа первого вида в качестве оценки данных второго документа первого вида, если значение близости вектора первого документа и вектора второго документа превышает пороговое значение.
12. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя инициирование сервером отображения на устройстве, связанном с пользователем, страницы результатов поисковой системы, содержащей множество результатов поиска, при этом множество документов используется в качестве множества результатов поиска, ранжируемого в том же порядке, что и ранжированное множество документов.
13. Способ по п. 2, отличающийся тем, что алгоритм MLA представляет собой нейронную сеть, содержащую предназначенную для документа часть и предназначенную для запроса часть, при этом:
- предназначенная для документа часть способна формировать вектор обучающего документа на основе данных документа, связанных с обучающим документом;
- предназначенная для запроса часть способна формировать вектор обучающего запроса на основе данных запроса, связанных с обучающим запросом; и
- предназначенная для документа часть и предназначенная для запроса часть совместно обучаются так, что значение близости вектора обучающего документа и вектора обучающего запроса представляет собой коэффициент релевантности.
14. Сервер для ранжирования множества документов, которое связано с соответствующими данными документов и должно использоваться в качестве результатов поиска в ответ на запрос, связанный с данными запроса и отправленный пользователем поисковой системе, размещенной на сервере, при этом:
- множество документов связано с векторами соответствующих документов, а запрос связан с вектором запроса,
- вектор документа сформирован на основе данных документа, связанных с соответствующим документом, а вектор запроса сформирован на основе данных запроса,
- вектор документа сформирован так, что значение близости вектора соответствующего документа и вектора запроса представляет собой релевантность соответствующего документа запросу, и
- сервер выполнен с возможностью:
- определения для каждого документа из множества документов значения близости вектора соответствующего документа и вектора другого документа, при этом значение близости для соответствующего документа указывает на сходство соответствующего документа и по меньшей мере одного другого документа из этого множества документов; и
- использования значений близости для множества документов с целью ранжирования этого множества документов.
15. Сервер по п. 14, отличающийся тем, что векторы документов и вектор запроса сформированы сервером, выполненным с возможностью выполнения алгоритма MLA, обученного на основе обучающей пары документ-запрос, связанной с соответствующим коэффициентом релевантности, указывающим на релевантность обучающего документа из обучающей пары обучающему запросу из этой обучающей пары, формированию вектора обучающего документа для обучающего документа и вектора обучающего запроса для обучающего запроса так, что значение близости вектора обучающего документа для обучающего документа и вектора обучающего запроса для обучающего запроса представляет собой коэффициент релевантности.
16. Сервер по п. 14, отличающийся тем, что он дополнительно выполнен с возможностью формирования базисного вектора для множества документов в виде сочетания векторов документов, связанных с этим множеством документов, при этом базисный вектор является вектором другого документа, а значение близости указывает на сходство соответствующего документа и других документов из этого множества документов.
17. Сервер по п. 16, отличающийся тем, что базисный вектор представляет собой:
- усредненный вектор, сформированный на основе векторов документов;
- вектор средних значений, сформированный на основе векторов документов; или
- вектор медоида, сформированный на основе векторов документов.
18. Сервер по п. 14, отличающийся тем, что множество документов предварительно выбрано из пула документов для ранжирования, при этом предварительный выбор выполнен сервером до определения для каждого документа из множества документов значения близости вектора соответствующего документа и вектора другого документа.
19. Сервер по п. 18, отличающийся тем, что предварительный выбор включает в себя первый этап предварительного выбора и второй этап предварительного выбора, при этом:
- первый этап предварительного выбора включает в себя использование сервера, выполненного с возможностью:
- определения для документов из пула документов соответствующих параметров частоты, указывающих на количество вхождений терминов из запроса в соответствующем документе; и
- выбора из пула документов первого набора документов, содержащего документы, связанные с соответствующими параметрами частоты, превышающими первое пороговое значение; а
- второй этап предварительного выбора включает в себя использование сервера, выполненного с возможностью:
- формирования путем выполнения алгоритма MLA векторов документов для соответствующих документов из первого набора документов на основе соответствующих данных документов;
- формирования путем выполнения алгоритма MLA вектора запроса, связанного с запросом, на основе данных этого запроса;
- определения для каждого документа из первого набора документов соответствующего значения близости вектора соответствующего документа и вектора запроса, при этом значение близости представляет собой релевантность соответствующего документа запросу; и
- выбора из первого набора документов второго набора документов, содержащего документы, связанные с соответствующими значениями близости, превышающими второе пороговое значение.
20. Сервер по п. 19, отличающийся тем, что второй набор документов представляет собой упомянутое множество документов.
21. Сервер по п. 14, отличающийся тем, что он выполнен с возможностью выполнения алгоритма ранжирования, способного ранжировать множество документов на основе данных документов, связанных с соответствующими документами из этого множества документов, и дополнительных данных документов, связанных с этим множеством документов.
22. Сервер по п. 21, отличающийся тем, что возможность использования сервером значений близости для множества документов с целью ранжирования этого множества документов дополнительно включает в себя возможность использования значений близости в качестве дополнительных данных документов с целью ранжирования множества документов путем использования алгоритма ранжирования.
23. Сервер по п. 14, отличающийся тем, что данные документов содержат данные документов первого вида.
24. Сервер по п. 23, отличающийся тем, что первый документ из множества документов имеет данные документа первого вида, а для второго документа из множества документов отсутствуют данные документа первого вида, при этом сервер дополнительно выполнен с возможностью:
- определения значения близости вектора первого документа и вектора второго документа; и
- использования данных первого документа первого вида в качестве оценки данных второго документа первого вида, если значение близости вектора первого документа и вектора второго документа превышает пороговое значение.
25. Сервер по п. 14, отличающийся тем, что он дополнительно выполнен с возможностью инициирования отображения на устройстве, связанном с пользователем, страницы результатов поисковой системы, содержащей множество результатов поиска, при этом множество документов используется в качестве множества результатов поиска, ранжированного в том же порядке, что и ранжированное множество документов.
26. Сервер по п. 15, отличающийся тем, что алгоритм MLA представляет собой нейронную сеть, содержащую предназначенную для документа часть и предназначенную для запроса часть, при этом:
- предназначенная для документа часть позволяет формировать вектор обучающего документа на основе данных документа, связанных с этим обучающим документом;
- предназначенная для запроса часть позволяет формировать вектор обучающего запроса на основе данных запроса, связанных с обучающим запросом; и
- предназначенная для документа часть и предназначенная для запроса часть совместно обучены так, что значение близости вектора обучающего документа и вектора обучающего запроса представляет собой коэффициент релевантности.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019128026A RU2019128026A (ru) | 2019-09-05 | 2019-09-05 | Способ и система для ранжирования множества цифровых документов |
US16/934,820 US11556549B2 (en) | 2019-09-05 | 2020-07-21 | Method and system for ranking plurality of digital documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019128026A RU2019128026A (ru) | 2019-09-05 | 2019-09-05 | Способ и система для ранжирования множества цифровых документов |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2019128026A true RU2019128026A (ru) | 2021-03-05 |
Family
ID=74850981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019128026A RU2019128026A (ru) | 2019-09-05 | 2019-09-05 | Способ и система для ранжирования множества цифровых документов |
Country Status (2)
Country | Link |
---|---|
US (1) | US11556549B2 (ru) |
RU (1) | RU2019128026A (ru) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12314675B2 (en) * | 2021-05-10 | 2025-05-27 | Walden University, Llc | System and method for a cognitive conversation service |
US11880798B2 (en) * | 2021-05-17 | 2024-01-23 | Capital One Services, Llc | Determining section conformity and providing recommendations |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7761447B2 (en) | 2004-04-08 | 2010-07-20 | Microsoft Corporation | Systems and methods that rank search results |
US8185523B2 (en) | 2005-03-18 | 2012-05-22 | Search Engine Technologies, Llc | Search engine that applies feedback from users to improve search results |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
US20090116746A1 (en) | 2007-11-06 | 2009-05-07 | Copanion, Inc. | Systems and methods for parallel processing of document recognition and classification using extracted image and text features |
US8255391B2 (en) | 2008-09-02 | 2012-08-28 | Conductor, Inc. | System and method for generating an approximation of a search engine ranking algorithm |
US8533129B2 (en) | 2008-09-16 | 2013-09-10 | Yahoo! Inc. | Efficient data layout techniques for fast machine learning-based document ranking |
US10346453B2 (en) * | 2010-12-21 | 2019-07-09 | Microsoft Technology Licensing, Llc | Multi-tiered information retrieval training |
US9535960B2 (en) * | 2014-04-14 | 2017-01-03 | Microsoft Corporation | Context-sensitive search using a deep learning model |
RU2608886C2 (ru) | 2014-06-30 | 2017-01-25 | Общество С Ограниченной Ответственностью "Яндекс" | Ранжиратор результатов поиска |
US10762144B2 (en) * | 2015-09-09 | 2020-09-01 | International Business Machines Corporation | Search engine domain transfer |
US10394832B2 (en) | 2016-10-24 | 2019-08-27 | Google Llc | Ranking search results documents |
US10261954B2 (en) * | 2016-12-30 | 2019-04-16 | Dropbox, Inc. | Optimizing search result snippet selection |
US20180225379A1 (en) * | 2017-02-06 | 2018-08-09 | Flipboard, Inc. | Recommendation Based On Thematic Structure Of Content Items In Digital Magazine |
US11188824B2 (en) * | 2017-02-17 | 2021-11-30 | Google Llc | Cooperatively training and/or using separate input and subsequent content neural networks for information retrieval |
RU2664481C1 (ru) | 2017-04-04 | 2018-08-17 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения |
RU2677380C2 (ru) | 2017-04-05 | 2019-01-16 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система ранжирования множества документов на странице результатов поиска |
RU2744028C2 (ru) | 2018-12-26 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для хранения множества документов |
US11321312B2 (en) * | 2019-01-14 | 2022-05-03 | ALEX—Alternative Experts, LLC | Vector-based contextual text searching |
-
2019
- 2019-09-05 RU RU2019128026A patent/RU2019128026A/ru not_active Application Discontinuation
-
2020
- 2020-07-21 US US16/934,820 patent/US11556549B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11556549B2 (en) | 2023-01-17 |
US20210073239A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12332940B2 (en) | Method and system for providing query suggestions based on user feedback | |
RU2018132848A (ru) | Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска | |
CN109166017B (zh) | 基于重聚类的推送方法、装置、计算机设备及存储介质 | |
CN105550746B (zh) | 机器学习模型的训练方法和训练装置 | |
RU2017111480A (ru) | Способ и система ранжирования множества документов на странице результатов поиска | |
KR101657371B1 (ko) | 검색 방법 및 검색 엔진 | |
RU2018122689A (ru) | Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения | |
WO2014011464A4 (en) | Personal taste assessment method and system | |
RU2017142709A (ru) | Система и способ формирования обучающего набора для алгоритма машинного обучения | |
JP2020532804A5 (ru) | ||
RU2019128026A (ru) | Способ и система для ранжирования множества цифровых документов | |
RU2015106797A (ru) | Способ и сервер обработки поискового предложения | |
CN106372101A (zh) | 一种视频推荐方法和装置 | |
Uricchio et al. | An evaluation of nearest-neighbor methods for tag refinement | |
CN104462554A (zh) | 问答页面相关问题推荐方法和装置 | |
JP2018173909A (ja) | 学習プログラム、学習方法および学習装置 | |
Verberne et al. | Query term suggestion in academic search | |
RU2017146280A (ru) | Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа | |
WO2020073526A1 (zh) | 基于信任网络的推送方法、装置、计算机设备及存储介质 | |
US20130091131A1 (en) | Meta-model distributed query classification | |
JP6375706B2 (ja) | 属性推定プログラム及び情報処理装置 | |
US9785676B2 (en) | Systems and methods for providing ordered results for search queries | |
Bernardis et al. | A novel graph-based model for hybrid recommendations in cold-start scenarios | |
CN114528478B (zh) | 一种用户查询推荐方法、装置、电子设备及存储介质 | |
JP6062981B2 (ja) | 映像検索装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20220314 |
|
FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20220323 |