RU2015121844A - Способ создания аннотированного поискового индекса и сервер, используемый в нем - Google Patents

Способ создания аннотированного поискового индекса и сервер, используемый в нем Download PDF

Info

Publication number
RU2015121844A
RU2015121844A RU2015121844A RU2015121844A RU2015121844A RU 2015121844 A RU2015121844 A RU 2015121844A RU 2015121844 A RU2015121844 A RU 2015121844A RU 2015121844 A RU2015121844 A RU 2015121844A RU 2015121844 A RU2015121844 A RU 2015121844A
Authority
RU
Russia
Prior art keywords
resource
search
history
parameter
index
Prior art date
Application number
RU2015121844A
Other languages
English (en)
Other versions
RU2606309C2 (ru
Inventor
Виктор Витальевич Плошихин
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2015121844A priority Critical patent/RU2606309C2/ru
Priority to PCT/IB2015/057820 priority patent/WO2016198927A1/en
Priority to US15/510,770 priority patent/US9773035B1/en
Publication of RU2015121844A publication Critical patent/RU2015121844A/ru
Application granted granted Critical
Publication of RU2606309C2 publication Critical patent/RU2606309C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

1. Способ создания аннотированного поискового индекса, способ выполняется на сервере и включает в себя:- извлечение части поисковой сессии из истории для первого поискового запроса, причем эта часть включает в себя первый ресурс и второй ресурс, которые релевантны первому поисковому запросу,первый ресурс включает в себя по меньшей мере некоторые из поисковых терминов из первого поискового запроса, и первый ресурс был проиндексирован по включенным в него поисковым терминам в первом поисковом индексе,второй ресурс не включает в себя ни один из поисковых терминов из первого поискового запроса и не был проиндексирован по поисковым терминам в первом поисковом индексе;- создание параметра связи для второго ресурса, причем параметр связи основан на первом параметре истории и втором параметре истории,первый параметр истории является числом переходов между первым ресурсом и вторым ресурсом в поисковой сессии из истории, ивторой параметр истории является временем, проведенным предыдущим пользователем во взаимодействии со вторым ресурсом в поисковой сессии из истории; и- в ответ на то, что параметр связи для второго ресурса превышает заранее определенный порог, связывание второго ресурса с одним или несколькими первыми ресурсами и включенными в него или них поисковыми терминами, что создает аннотированный поисковый индекс для этих поисковых терминов.2. Способ по п. 1, в котором параметр связи находится выше предварительно определенного порога, когда первый параметр истории является одним из следующего: 1, или 2, или 3 перехода, а второй параметр истории составляет по меньшей мере 30 секунд.3. Способ по п. 1, в котором второй ресурс является одним

Claims (14)

1. Способ создания аннотированного поискового индекса, способ выполняется на сервере и включает в себя:
- извлечение части поисковой сессии из истории для первого поискового запроса, причем эта часть включает в себя первый ресурс и второй ресурс, которые релевантны первому поисковому запросу,
первый ресурс включает в себя по меньшей мере некоторые из поисковых терминов из первого поискового запроса, и первый ресурс был проиндексирован по включенным в него поисковым терминам в первом поисковом индексе,
второй ресурс не включает в себя ни один из поисковых терминов из первого поискового запроса и не был проиндексирован по поисковым терминам в первом поисковом индексе;
- создание параметра связи для второго ресурса, причем параметр связи основан на первом параметре истории и втором параметре истории,
первый параметр истории является числом переходов между первым ресурсом и вторым ресурсом в поисковой сессии из истории, и
второй параметр истории является временем, проведенным предыдущим пользователем во взаимодействии со вторым ресурсом в поисковой сессии из истории; и
- в ответ на то, что параметр связи для второго ресурса превышает заранее определенный порог, связывание второго ресурса с одним или несколькими первыми ресурсами и включенными в него или них поисковыми терминами, что создает аннотированный поисковый индекс для этих поисковых терминов.
2. Способ по п. 1, в котором параметр связи находится выше предварительно определенного порога, когда первый параметр истории является одним из следующего: 1, или 2, или 3 перехода, а второй параметр истории составляет по меньшей мере 30 секунд.
3. Способ по п. 1, в котором второй ресурс является одним пунктом из следующего списка: документом, изображением, аудиофайлом, веб-страницей, твитом (записью в Твиттере), ссылкой, заголовком документа или фрагментом документа.
4. Способ по п. 1, в котором на этапе связывания второго ресурса с одним или несколькими первыми ресурсами второй ресурс связан и с первым ресурсом, и с включенными в него или них поисковыми терминами.
5. Способ по п. 1, в котором на этапе связывания второго ресурса с одним или несколькими первыми ресурсами второй ресурс связан с одним или несколькими первыми ресурсами и включенными в него или них поисковыми терминами во втором поисковом индексе, причем созданный аннотированный поисковый индекс включает в себя второй поисковый индекс и отличается от первого поискового индекса.
6. Способ по п. 2, в котором параметр связи находится выше предварительно определенного порога, когда первый параметр истории является одним из следующего: 1 или 2 перехода, а второй параметр истории составляет по меньшей мере 30 секунд.
7. Способ по п. 2, в котором число переходов между первым поисковым запросом и первым ресурсом равно одному.
8. Способ по п. 4, в котором первый поисковый индекс является инвертированным индексом; первый ресурс и включенные в него поисковые термины связаны друг с другом в списке (списках) словопозиций в инвертированном индексе; и на этапе связывания второго ресурса с одним или несколькими первыми ресурсами ссылку на второй ресурс вставляют в подходящий список (списки) словопозиций в инвертированном индексе, что создает аннотированный поисковой индекс.
9. Способ по п. 5, в котором второй поисковый индекс является трех- или четырехмерным массивом данных.
10. Способ по п. 9, в котором 3 или 4 измерения содержат один или более пунктов из списка: ID документа, ID разрыва, ID области и ID источника.
11. Сервер для создания аннотированного поискового индекса включает в себя:
интерфейс передачи данных для передачи данных по сети передачи данных поисковому кластеру, который имеет доступ к базе данных;
память;
процессор, функционально соединенный с интерфейсом передачи данных и памятью, причем процессор выполнен с возможностью сохранять объекты в памяти; процессор дополнительно выполнен с возможностью:
- извлекать части поисковой сессии из истории для первого поискового запроса, причем эта часть включает в себя первый ресурс и второй ресурс, которые релевантны первому поисковому запросу,
- создавать параметр связи для второго ресурса, причем параметр связи основан на первом параметре истории и втором параметре истории,
первый параметр истории является числом переходов между первым ресурсом и вторым ресурсом в поисковой сессии из истории, и
второй параметр истории является временем, проведенным предыдущим пользователем во взаимодействии со вторым ресурсом в поисковой сессии из истории;
и
- в ответ на то, что параметр связи для второго ресурса превышает заранее определенный порог, связывать второй ресурс с одним или несколькими первыми ресурсами и включенными в него или них поисковыми терминами, что создает аннотированный поисковый индекс для этих поисковых терминов.
12. Сервер по п. 11, в котором процессор выполнен с возможностью связывать второй ресурс с первым ресурсом и с включенными в него поисковыми терминами для создания аннотированного поискового индекса.
13. Сервер по п. 11, в котором процессор выполнен с возможностью связывать второй ресурс с одним или несколькими первыми ресурсами и включенными в него или них поисковыми терминами во втором поисковом индексе, причем созданный аннотированный поисковый индекс включает в себя второй поисковый индекс и отличается от первого поискового индекса.
14. Сервер по п. 12, в котором процессор выполнен с возможностью вносить ссылку на второй ресурс в подходящий список (списки) словопозиций в инвертированном индексе на этапе связывания второго ресурса с одним или несколькими первыми ресурсами, что создает аннотированный поисковой индекс.
RU2015121844A 2015-06-09 2015-06-09 Способ создания аннотированного поискового индекса и сервер, используемый в нем RU2606309C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2015121844A RU2606309C2 (ru) 2015-06-09 2015-06-09 Способ создания аннотированного поискового индекса и сервер, используемый в нем
PCT/IB2015/057820 WO2016198927A1 (en) 2015-06-09 2015-10-13 A system and method for an annotation search index
US15/510,770 US9773035B1 (en) 2015-06-09 2015-10-13 System and method for an annotation search index

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015121844A RU2606309C2 (ru) 2015-06-09 2015-06-09 Способ создания аннотированного поискового индекса и сервер, используемый в нем

Publications (2)

Publication Number Publication Date
RU2015121844A true RU2015121844A (ru) 2016-12-27
RU2606309C2 RU2606309C2 (ru) 2017-01-10

Family

ID=57503092

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015121844A RU2606309C2 (ru) 2015-06-09 2015-06-09 Способ создания аннотированного поискового индекса и сервер, используемый в нем

Country Status (3)

Country Link
US (1) US9773035B1 (ru)
RU (1) RU2606309C2 (ru)
WO (1) WO2016198927A1 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910887B2 (en) * 2013-04-25 2018-03-06 Facebook, Inc. Variable search query vertical access
RU2718435C2 (ru) * 2013-07-08 2020-04-02 Общество С Ограниченной Ответственностью "Яндекс" Исполняемый на компьютере способ и система для поиска в инвертированном индексе, обладающем множеством списков словопозиций
CN109712674B (zh) * 2019-01-14 2023-06-30 深圳市泰尔迪恩生物信息科技有限公司 注释数据库索引结构、快速注释遗传变异的方法及系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5237499A (en) * 1991-11-12 1993-08-17 Garback Brent J Computer travel planning system
US7257774B2 (en) * 2002-07-30 2007-08-14 Fuji Xerox Co., Ltd. Systems and methods for filtering and/or viewing collaborative indexes of recorded media
US20040260714A1 (en) * 2003-06-20 2004-12-23 Avijit Chatterjee Universal annotation management system
US8321470B2 (en) * 2003-06-20 2012-11-27 International Business Machines Corporation Heterogeneous multi-level extendable indexing for general purpose annotation systems
US7257591B2 (en) * 2003-06-20 2007-08-14 International Business Machines Corporation Method of referencing data via edge definition
US7308643B1 (en) * 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
WO2005020103A1 (en) * 2003-08-18 2005-03-03 Sap Aktiengesellschaft Generic search engine framework
US7231375B2 (en) * 2003-10-10 2007-06-12 Microsoft Corporation Computer aided query to task mapping
US8134575B2 (en) * 2004-09-30 2012-03-13 Microsoft Corporation Maintaining graphical presentations based on user customizations
US20060101012A1 (en) 2004-11-11 2006-05-11 Chad Carson Search system presenting active abstracts including linked terms
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US20070022135A1 (en) * 2005-07-25 2007-01-25 Dale Malik Systems and methods for organizing and annotating an information search
US20070038608A1 (en) 2005-08-10 2007-02-15 Anjun Chen Computer search system for improved web page ranking and presentation
CA2669236C (en) 2005-11-16 2016-05-24 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
AU2007324329B2 (en) * 2006-11-20 2012-01-12 Squiz Pty Ltd Annotation index system and method
US7987185B1 (en) 2006-12-29 2011-07-26 Google Inc. Ranking custom search results
US8271475B2 (en) * 2008-05-27 2012-09-18 International Business Machines Corporation Application of user context to searches in a virtual universe
US20100001005A1 (en) * 2008-07-01 2010-01-07 The Boeing Company Composite Cryogenic Tank with Thermal Strain Reducer Coating
US8095545B2 (en) 2008-10-14 2012-01-10 Yahoo! Inc. System and methodology for a multi-site search engine
US20110196602A1 (en) 2010-02-08 2011-08-11 Navteq North America, Llc Destination search in a navigation system using a spatial index structure
US8307005B1 (en) 2010-06-30 2012-11-06 Google Inc. Determining reachability
RU2473119C1 (ru) * 2011-08-05 2013-01-20 Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН) Способ и система семантического поиска электронных документов
US9298825B2 (en) 2011-11-17 2016-03-29 Microsoft Technology Licensing, Llc Tagging entities with descriptive phrases
US8886630B2 (en) 2011-12-29 2014-11-11 Mcafee, Inc. Collaborative searching
US9183312B2 (en) * 2012-03-20 2015-11-10 Google Inc. Image display within web search results
US20150012558A1 (en) * 2013-07-02 2015-01-08 Google Inc. Using models to annotate search queries
US9378517B2 (en) 2013-07-03 2016-06-28 Google Inc. Methods and systems for providing potential search queries that may be targeted by one or more keywords

Also Published As

Publication number Publication date
US9773035B1 (en) 2017-09-26
RU2606309C2 (ru) 2017-01-10
WO2016198927A1 (en) 2016-12-15
US20170262481A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
US9697261B2 (en) Application representation for application editions
KR102244748B1 (ko) 컨텍스트 큐를 이미지와 상관시켜 이미지를 분류하기 위한 시스템 및 방법
KR102268934B1 (ko) 정보 추천 방법 및 장치
IL295003A (en) Network document extension
US10410128B2 (en) Method, device, and server for friend recommendation
JP2016189214A5 (ru)
WO2017166644A1 (zh) 一种数据采集方法和系统
US9984427B2 (en) Data ingestion module for event detection and increased situational awareness
US11106691B2 (en) Automated extraction rule generation using a timestamp selector
US10394939B2 (en) Resolving outdated items within curated content
US20190258687A1 (en) Automatically separating claim into elements/limitations and automatically finding art for each element/limitation
US20160125096A1 (en) Context aware query selection
US20150127677A1 (en) Enterprise graph search based on object and actor relationships
US10904316B2 (en) Data processing method and apparatus in service-oriented architecture system, and the service-oriented architecture system
US20240020305A1 (en) Systems and methods for automatic archiving, sorting, and/or indexing of secondary message content
US10785236B2 (en) Generation of malware traffic signatures using natural language processing by a neural network
US9544177B2 (en) System and method for contact merge management
US20170339252A1 (en) Generating a response to a client device in an internet of things domain
RU2015121844A (ru) Способ создания аннотированного поискового индекса и сервер, используемый в нем
US20150312190A1 (en) System and methods for integrating social network information
US20150106899A1 (en) System and method for cross-cloud identity matching
Sharma et al. Real-time detection of phishing Tweets
US9495147B2 (en) Method and apparatus for obtaining context information for a software development task
CN105426422B (zh) 分布式服务的数据处理方法及装置
US20160156693A1 (en) System and Method for the Management of Content on a Website (URL) through a Device where all Content Originates from a Secured Content Management System