RU2005113189A - Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности - Google Patents

Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности Download PDF

Info

Publication number
RU2005113189A
RU2005113189A RU2005113189/09A RU2005113189A RU2005113189A RU 2005113189 A RU2005113189 A RU 2005113189A RU 2005113189/09 A RU2005113189/09 A RU 2005113189/09A RU 2005113189 A RU2005113189 A RU 2005113189A RU 2005113189 A RU2005113189 A RU 2005113189A
Authority
RU
Russia
Prior art keywords
document
documents
affinity
rank
group
Prior art date
Application number
RU2005113189/09A
Other languages
English (en)
Other versions
RU2383922C2 (ru
Inventor
Бэньюй ЧЖАН (US)
Бэньюй ЧЖАН
Хуа-Цзюнь ЦЗЭН (US)
Хуа-Цзюнь ЦЗЭН
Вэй-Ин МА (US)
Вэй-Ин МА
Чжэн ЧЭНЬ (US)
Чжэн ЧЭНЬ
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Publication of RU2005113189A publication Critical patent/RU2005113189A/ru
Application granted granted Critical
Publication of RU2383922C2 publication Critical patent/RU2383922C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Claims (31)

1. Реализуемый в компьютерной системе способ ранжирования документов результата поиска, содержащий этапы, на которых для каждого документа результата поиска, инициализируют ранг сродства на основании информационной насыщенности для документа и для каждой группы схожих документов, регулируют ранг сродства для документов в группе так, чтобы ранги сродства за исключением наивысшего ранга сродства были ниже наивысшего ранга сродства документа в группе.
2. Способ по п.1, в котором на этапе регулировки ранга сродства для документов в группе понижают ранг сродства каждого документа в группе за исключением ранга сродства документа в группе с наивысшим рангом сродства.
3. Способ по п.2, в котором ранг сродства документа, более схожего с документом с наивысшим рангом сродства, понижают больше, чем для документа, менее схожего с документом с наивысшим рангом сродства.
4. Способ по п.1, в котором на этапе регулировки ранга сродства для документов в группе удаляют документ с наивысшим рангом сродства из группы и понижают ранги сродства оставшихся документов группы, причем порядок удаления документов представляет ранжирование документов результата поиска.
5. Способ по п.1, в котором для каждого документа вычисляют релевантность для этого документа на основании отрегулированных рангов сродства и релевантности на основе поиска.
6. Реализуемый в компьютерной системе способ упорядочения документов результата поиска для увеличения разнообразия тем в высоко упорядоченных документах, при этом способ содержит этапы, на которых идентифицируют группы схожих документов результата поиска, выбирают по одному документу из каждой из идентифицированных групп и ранжируют выбранные документы выше других документов результата поиска.
7. Способ по п.6, в котором каждый документ имеет начальное ранжирование, и на этапе ранжирования ранжируют выбранный документ выше, чем другие документы, имеющие более высокое начальное ранжирование.
8. Способ по п.6, в котором каждый документ имеет начальное ранжирование, и выбранный документ из каждой из идентифицированных групп является документом с наивысшим начальным ранжированием.
9. Способ по п.6, в котором повторно ранжируют невыбранные документы группы на основании их схожести с выбранным документом группы.
10. Способ по п.9, в котором при повторном ранжировании ранг невыбранного документа группы, наиболее схожего с выбранным документом группы, снижают в наибольшей степени относительно документов группы.
11. Способ по п.10, в котором невыбранные документы группы ранжируют согласно их повторному ранжированию.
12. Способ по п.10, в котором выбирают по одному документу из каждой из идентифицированных групп после повторного ранжирования, и ранжируют эти документы выше других документов, которые еще не выбраны.
13. Способ по п.9, в котором при повторном ранжировании применяют штраф за схожесть.
14. Способ по п.6, в котором выбранный документ из каждой группы имеет наивысшую информационную насыщенность среди документов в группе.
15. Способ по п.6, в котором группы идентифицируют с использованием графа сродства.
16. Реализуемый в компьютерной системе способ вычисления информационной насыщенности документа в собрании документов, содержащий этапы, на которых идентифицируют сродство, которое каждый документ в собрании имеет к документу, и определяют информационную насыщенность для документа на основании сродства, которое другие документы в собрании имеют к документу.
17. Способ по п.16, в котором на этапе идентификации сродства каждого документа генерируют граф сродства.
18. Способ по п.16, в котором сродство является мерой степени, до которой информационный контент одного документа поглощен другим документом.
19. Способ по п.16, в котором сродство определяют как
Figure 00000001
20. Способ по п.16, в котором информационная насыщенность является мерой степени, до которой информационный контент одного документа поглощает информационный контент других документов.
21. Способ по п. 16, в котором информационную насыщенность определяют как
Figure 00000002
22. Машиночитаемый носитель, содержащий команды, предписывающие компьютерной системе ранжировать документы способом, содержащим этапы, на которых для каждого документа, инициализируют ранг сродства на основании информационной насыщенности документа и когда документ имеет высокий ранг сродства, понижают ранг сродства для родственных документов, причем ранг сродства представляет ранжирование документов.
23. Машиночитаемый носитель по п.22, в котором информационная насыщенность документа вычисляется на основании отношений сродства для пар документов.
24. Машиночитаемый носитель по п.23, в котором информационная насыщенность определена как
Figure 00000003
25. Машиночитаемый носитель по п.23, в котором сродство определено как
Figure 00000004
26. Машиночитаемый носитель по п.22, в котором ранг сродства родственного документа, более схожего с документом с высоким рангом сродства, понижается больше, чем для документа, менее схожего с документом с высоким рангом сродства.
27. Машиночитаемый носитель по п.22, в котором для каждого документа вычисляется релевантность для этого документа на основании ранга сродства документа и релевантности на основе поиска для этого документа.
28. Компьютерная система для вычисления информационной насыщенности документа в собрании документов, содержащая компонент, который идентифицирует сродство, которое каждый документ в собрании имеет к документу, и компонент, который определяет информационную насыщенность для документа на основании сродства, которое другие документы в собрании имеют к документу.
29. Компьютерная система по п.28, в которой компонент для идентификации генерирует граф сродства.
30. Компьютерная система по п.28, в которой сродство является мерой степени, до которой информационный контент одного документа поглощен другим документом.
31. Компьютерная система по п.28, в которой информационная насыщенность является мерой степени, до которой информационный контент одного документа поглощает информационный контент других документов.
RU2005113189/09A 2004-04-30 2005-04-29 Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности RU2383922C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/837,540 US7664735B2 (en) 2004-04-30 2004-04-30 Method and system for ranking documents of a search result to improve diversity and information richness
US10/837,540 2004-04-30

Publications (2)

Publication Number Publication Date
RU2005113189A true RU2005113189A (ru) 2006-11-10
RU2383922C2 RU2383922C2 (ru) 2010-03-10

Family

ID=34939598

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005113189/09A RU2383922C2 (ru) 2004-04-30 2005-04-29 Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности

Country Status (10)

Country Link
US (1) US7664735B2 (ru)
EP (1) EP1591923A1 (ru)
JP (1) JP4845420B2 (ru)
KR (1) KR101130535B1 (ru)
CN (1) CN100573513C (ru)
AU (1) AU2005201824A1 (ru)
BR (1) BRPI0502189A (ru)
CA (1) CA2505904C (ru)
MX (1) MXPA05004681A (ru)
RU (1) RU2383922C2 (ru)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US20070073708A1 (en) * 2005-09-28 2007-03-29 Smith Adam D Generation of topical subjects from alert search terms
US20070094242A1 (en) * 2005-10-26 2007-04-26 John Dove System and method for returning search results
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering
US20070112867A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for rank-based response set clustering
US7827208B2 (en) 2006-08-11 2010-11-02 Facebook, Inc. Generating a feed of stories personalized for members of a social network
US8171128B2 (en) * 2006-08-11 2012-05-01 Facebook, Inc. Communicating a newsfeed of media content based on a member's interactions in a social network environment
US7644074B2 (en) * 2005-12-22 2010-01-05 Microsoft Corporation Search by document type and relevance
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US20080005137A1 (en) * 2006-06-29 2008-01-03 Microsoft Corporation Incrementally building aspect models
US9779441B1 (en) 2006-08-04 2017-10-03 Facebook, Inc. Method for relevancy ranking of products in online shopping
US20080109435A1 (en) * 2006-11-07 2008-05-08 Bellsouth Intellectual Property Corporation Determining Sort Order by Traffic Volume
US8156112B2 (en) 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US8301621B2 (en) 2006-11-07 2012-10-30 At&T Intellectual Property I, L.P. Topic map for navigational control
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US7958126B2 (en) * 2006-12-19 2011-06-07 Yahoo! Inc. Techniques for including collection items in search results
US20080154878A1 (en) * 2006-12-20 2008-06-26 Rose Daniel E Diversifying a set of items
US20080215571A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Product review search
US8117137B2 (en) 2007-04-19 2012-02-14 Microsoft Corporation Field-programmable gate array based accelerator system
US8832140B2 (en) * 2007-06-26 2014-09-09 Oracle Otc Subsidiary Llc System and method for measuring the quality of document sets
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US20090094209A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Determining The Depths Of Words And Documents
WO2009059481A1 (en) * 2007-11-08 2009-05-14 Shanghai Hewlett-Packard Co., Ltd Navigational ranking for focused crawling
US8321406B2 (en) 2008-03-31 2012-11-27 Google Inc. Media object query submission and response
KR100926876B1 (ko) * 2008-04-01 2009-11-16 엔에이치엔(주) 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템
US20090287668A1 (en) * 2008-05-16 2009-11-19 Justsystems Evans Research, Inc. Methods and apparatus for interactive document clustering
JP5146108B2 (ja) * 2008-05-27 2013-02-20 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
CN101625680B (zh) * 2008-07-09 2012-08-29 东北大学 面向专利领域的文档检索方法
US8131659B2 (en) * 2008-09-25 2012-03-06 Microsoft Corporation Field-programmable gate array based accelerator system
US8301638B2 (en) * 2008-09-25 2012-10-30 Microsoft Corporation Automated feature selection based on rankboost for ranking
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8458171B2 (en) 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8533202B2 (en) * 2009-07-07 2013-09-10 Yahoo! Inc. Entropy-based mixing and personalization
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
CN101650746B (zh) * 2009-09-27 2011-06-29 中国电信股份有限公司 一种对排序结果进行验证的方法和系统
CA2836700C (en) * 2010-05-25 2017-05-30 Mark F. Mclellan Active search results page ranking technology
US9240020B2 (en) 2010-08-24 2016-01-19 Yahoo! Inc. Method of recommending content via social signals
EP2568396A1 (en) * 2011-09-08 2013-03-13 Axel Springer Digital TV Guide GmbH Method and apparatus for generating a sorted list of items
US8838583B1 (en) 2011-10-05 2014-09-16 Amazon Technologies, Inc Diversity within search results
US9075498B1 (en) * 2011-12-22 2015-07-07 Symantec Corporation User interface for finding similar documents
US9501566B1 (en) 2012-01-17 2016-11-22 Veritas Technologies Llc User interface for transparent concept search
JP6149434B2 (ja) * 2012-04-10 2017-06-21 株式会社リコー 情報処理装置、文書管理サーバ、プログラム、ファイルシステム
US20140075282A1 (en) * 2012-06-26 2014-03-13 Rediff.Com India Limited Method and apparatus for composing a representative description for a cluster of digital documents
US9400789B2 (en) * 2012-07-20 2016-07-26 Google Inc. Associating resources with entities
US9536001B2 (en) * 2012-11-13 2017-01-03 Microsoft Technology Licensing, Llc Intent-based presentation of search results
US9129020B2 (en) 2012-12-21 2015-09-08 Microsoft Technology Licensing, Llc Search results through interest circles
CN103927545B (zh) * 2014-03-14 2017-10-17 小米科技有限责任公司 聚类方法及相关装置
US9355227B2 (en) 2014-06-30 2016-05-31 Konica Minolta Laboratory U.S.A., Inc. Dynamic document display personalization implemented in a digital rights management system
US9992262B2 (en) * 2014-07-29 2018-06-05 Konica Minolta Laboratory U.S.A., Inc. Personalized document content aggregation and document association implemented in a digital rights management system
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
KR102243286B1 (ko) * 2014-09-18 2021-04-22 경북대학교 산학협력단 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US10467215B2 (en) * 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10685029B2 (en) 2015-11-23 2020-06-16 Google Llc Information ranking based on properties of a computing device
GB2545931A (en) * 2015-12-31 2017-07-05 Francis Murphy Dominic Defining edges and their weights between nodes in a network
CN105955990A (zh) * 2016-04-15 2016-09-21 北京理工大学 一种兼顾多样性和有效性的评论排序和筛选方法
RU2630427C2 (ru) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Способ и система семантической обработки текстовых документов
US10733359B2 (en) * 2016-08-26 2020-08-04 Adobe Inc. Expanding input content utilizing previously-generated content
GB2570447A (en) * 2018-01-23 2019-07-31 Canon Kk Method and system for improving construction of regions of interest
US11699094B2 (en) * 2018-10-31 2023-07-11 Salesforce, Inc. Automatic feature selection and model generation for linear models
US11328238B2 (en) * 2019-04-01 2022-05-10 Microsoft Technology Licensing, Llc Preemptively surfacing relevant content within email
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US20020194161A1 (en) * 2001-04-12 2002-12-19 Mcnamee J. Paul Directed web crawler with machine learning
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
JP4356347B2 (ja) * 2003-04-16 2009-11-04 セイコーエプソン株式会社 文書抽出システム

Also Published As

Publication number Publication date
KR101130535B1 (ko) 2012-04-12
CA2505904A1 (en) 2005-10-30
KR20060047664A (ko) 2006-05-18
JP2005322244A (ja) 2005-11-17
CN100573513C (zh) 2009-12-23
RU2383922C2 (ru) 2010-03-10
AU2005201824A1 (en) 2005-11-17
BRPI0502189A (pt) 2006-01-10
CN1758244A (zh) 2006-04-12
JP4845420B2 (ja) 2011-12-28
EP1591923A1 (en) 2005-11-02
US20050246328A1 (en) 2005-11-03
CA2505904C (en) 2013-09-03
US7664735B2 (en) 2010-02-16
MXPA05004681A (es) 2006-03-08

Similar Documents

Publication Publication Date Title
RU2005113189A (ru) Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности
JP2005322244A5 (ru)
Qiao et al. Understanding the Behaviors of BERT in Ranking
Kraft et al. Searching with context
US8548995B1 (en) Ranking of documents based on analysis of related documents
US20110004609A1 (en) Generating search results based on user feedback
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US7991762B1 (en) Managing URLs
US20110225137A1 (en) Enhancing and optimizing enterprise search
JP2011525678A5 (ru)
US9734211B1 (en) Personalizing search results
ATE426207T1 (de) Methode und system einer gewichteten kontextruckmeldung zur verbesserung von ergebnissen in der informationswiederauffindung
CN1773492A (zh) 组织多个文档的方法以及显示多个文档的设备
US20110302156A1 (en) Re-ranking search results based on lexical and ontological concepts
WO2008023904A1 (en) Document ranking granting method and computer readable record medium thereof
US20100145922A1 (en) Personalized search apparatus and method
Altingovde et al. Static index pruning in web search engines: Combining term and document popularities with query views
WO2013056192A1 (en) Presenting search results based upon subject-versions
RU2009127889A (ru) Способ классификации веб-страниц и организации соответствующего информационного наполнения
Kaczmarek Interactive query expansion with the use of clustering-by-directions algorithm
Lee et al. A query-dependent ranking approach for search engines
Yi et al. A content based approach for discovering missing anchor text for web search
CA2649534A1 (en) Systems and methods for performing searches within vertical domains
Ettaleb et al. A combination of reduction and expansion approaches to deal with long natural language queries
Markov et al. Unsupervised linear score normalization revisited

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20130430