RU2005113189A - Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности - Google Patents
Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности Download PDFInfo
- Publication number
- RU2005113189A RU2005113189A RU2005113189/09A RU2005113189A RU2005113189A RU 2005113189 A RU2005113189 A RU 2005113189A RU 2005113189/09 A RU2005113189/09 A RU 2005113189/09A RU 2005113189 A RU2005113189 A RU 2005113189A RU 2005113189 A RU2005113189 A RU 2005113189A
- Authority
- RU
- Russia
- Prior art keywords
- document
- documents
- affinity
- rank
- group
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Claims (31)
1. Реализуемый в компьютерной системе способ ранжирования документов результата поиска, содержащий этапы, на которых для каждого документа результата поиска, инициализируют ранг сродства на основании информационной насыщенности для документа и для каждой группы схожих документов, регулируют ранг сродства для документов в группе так, чтобы ранги сродства за исключением наивысшего ранга сродства были ниже наивысшего ранга сродства документа в группе.
2. Способ по п.1, в котором на этапе регулировки ранга сродства для документов в группе понижают ранг сродства каждого документа в группе за исключением ранга сродства документа в группе с наивысшим рангом сродства.
3. Способ по п.2, в котором ранг сродства документа, более схожего с документом с наивысшим рангом сродства, понижают больше, чем для документа, менее схожего с документом с наивысшим рангом сродства.
4. Способ по п.1, в котором на этапе регулировки ранга сродства для документов в группе удаляют документ с наивысшим рангом сродства из группы и понижают ранги сродства оставшихся документов группы, причем порядок удаления документов представляет ранжирование документов результата поиска.
5. Способ по п.1, в котором для каждого документа вычисляют релевантность для этого документа на основании отрегулированных рангов сродства и релевантности на основе поиска.
6. Реализуемый в компьютерной системе способ упорядочения документов результата поиска для увеличения разнообразия тем в высоко упорядоченных документах, при этом способ содержит этапы, на которых идентифицируют группы схожих документов результата поиска, выбирают по одному документу из каждой из идентифицированных групп и ранжируют выбранные документы выше других документов результата поиска.
7. Способ по п.6, в котором каждый документ имеет начальное ранжирование, и на этапе ранжирования ранжируют выбранный документ выше, чем другие документы, имеющие более высокое начальное ранжирование.
8. Способ по п.6, в котором каждый документ имеет начальное ранжирование, и выбранный документ из каждой из идентифицированных групп является документом с наивысшим начальным ранжированием.
9. Способ по п.6, в котором повторно ранжируют невыбранные документы группы на основании их схожести с выбранным документом группы.
10. Способ по п.9, в котором при повторном ранжировании ранг невыбранного документа группы, наиболее схожего с выбранным документом группы, снижают в наибольшей степени относительно документов группы.
11. Способ по п.10, в котором невыбранные документы группы ранжируют согласно их повторному ранжированию.
12. Способ по п.10, в котором выбирают по одному документу из каждой из идентифицированных групп после повторного ранжирования, и ранжируют эти документы выше других документов, которые еще не выбраны.
13. Способ по п.9, в котором при повторном ранжировании применяют штраф за схожесть.
14. Способ по п.6, в котором выбранный документ из каждой группы имеет наивысшую информационную насыщенность среди документов в группе.
15. Способ по п.6, в котором группы идентифицируют с использованием графа сродства.
16. Реализуемый в компьютерной системе способ вычисления информационной насыщенности документа в собрании документов, содержащий этапы, на которых идентифицируют сродство, которое каждый документ в собрании имеет к документу, и определяют информационную насыщенность для документа на основании сродства, которое другие документы в собрании имеют к документу.
17. Способ по п.16, в котором на этапе идентификации сродства каждого документа генерируют граф сродства.
18. Способ по п.16, в котором сродство является мерой степени, до которой информационный контент одного документа поглощен другим документом.
20. Способ по п.16, в котором информационная насыщенность является мерой степени, до которой информационный контент одного документа поглощает информационный контент других документов.
22. Машиночитаемый носитель, содержащий команды, предписывающие компьютерной системе ранжировать документы способом, содержащим этапы, на которых для каждого документа, инициализируют ранг сродства на основании информационной насыщенности документа и когда документ имеет высокий ранг сродства, понижают ранг сродства для родственных документов, причем ранг сродства представляет ранжирование документов.
23. Машиночитаемый носитель по п.22, в котором информационная насыщенность документа вычисляется на основании отношений сродства для пар документов.
26. Машиночитаемый носитель по п.22, в котором ранг сродства родственного документа, более схожего с документом с высоким рангом сродства, понижается больше, чем для документа, менее схожего с документом с высоким рангом сродства.
27. Машиночитаемый носитель по п.22, в котором для каждого документа вычисляется релевантность для этого документа на основании ранга сродства документа и релевантности на основе поиска для этого документа.
28. Компьютерная система для вычисления информационной насыщенности документа в собрании документов, содержащая компонент, который идентифицирует сродство, которое каждый документ в собрании имеет к документу, и компонент, который определяет информационную насыщенность для документа на основании сродства, которое другие документы в собрании имеют к документу.
29. Компьютерная система по п.28, в которой компонент для идентификации генерирует граф сродства.
30. Компьютерная система по п.28, в которой сродство является мерой степени, до которой информационный контент одного документа поглощен другим документом.
31. Компьютерная система по п.28, в которой информационная насыщенность является мерой степени, до которой информационный контент одного документа поглощает информационный контент других документов.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/837,540 US7664735B2 (en) | 2004-04-30 | 2004-04-30 | Method and system for ranking documents of a search result to improve diversity and information richness |
US10/837,540 | 2004-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2005113189A true RU2005113189A (ru) | 2006-11-10 |
RU2383922C2 RU2383922C2 (ru) | 2010-03-10 |
Family
ID=34939598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005113189/09A RU2383922C2 (ru) | 2004-04-30 | 2005-04-29 | Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности |
Country Status (10)
Country | Link |
---|---|
US (1) | US7664735B2 (ru) |
EP (1) | EP1591923A1 (ru) |
JP (1) | JP4845420B2 (ru) |
KR (1) | KR101130535B1 (ru) |
CN (1) | CN100573513C (ru) |
AU (1) | AU2005201824A1 (ru) |
BR (1) | BRPI0502189A (ru) |
CA (1) | CA2505904C (ru) |
MX (1) | MXPA05004681A (ru) |
RU (1) | RU2383922C2 (ru) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US7809548B2 (en) * | 2004-06-14 | 2010-10-05 | University Of North Texas | Graph-based ranking algorithms for text processing |
US20070073708A1 (en) * | 2005-09-28 | 2007-03-29 | Smith Adam D | Generation of topical subjects from alert search terms |
US20070094242A1 (en) * | 2005-10-26 | 2007-04-26 | John Dove | System and method for returning search results |
US20070112898A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for probe-based clustering |
US20070112867A1 (en) * | 2005-11-15 | 2007-05-17 | Clairvoyance Corporation | Methods and apparatus for rank-based response set clustering |
US7827208B2 (en) | 2006-08-11 | 2010-11-02 | Facebook, Inc. | Generating a feed of stories personalized for members of a social network |
US8171128B2 (en) * | 2006-08-11 | 2012-05-01 | Facebook, Inc. | Communicating a newsfeed of media content based on a member's interactions in a social network environment |
US7644074B2 (en) * | 2005-12-22 | 2010-01-05 | Microsoft Corporation | Search by document type and relevance |
US7814099B2 (en) * | 2006-01-31 | 2010-10-12 | Louis S. Wang | Method for ranking and sorting electronic documents in a search result list based on relevance |
US7818315B2 (en) * | 2006-03-13 | 2010-10-19 | Microsoft Corporation | Re-ranking search results based on query log |
US20080005137A1 (en) * | 2006-06-29 | 2008-01-03 | Microsoft Corporation | Incrementally building aspect models |
US9779441B1 (en) | 2006-08-04 | 2017-10-03 | Facebook, Inc. | Method for relevancy ranking of products in online shopping |
US20080109435A1 (en) * | 2006-11-07 | 2008-05-08 | Bellsouth Intellectual Property Corporation | Determining Sort Order by Traffic Volume |
US8156112B2 (en) | 2006-11-07 | 2012-04-10 | At&T Intellectual Property I, L.P. | Determining sort order by distance |
US8301621B2 (en) | 2006-11-07 | 2012-10-30 | At&T Intellectual Property I, L.P. | Topic map for navigational control |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US7958126B2 (en) * | 2006-12-19 | 2011-06-07 | Yahoo! Inc. | Techniques for including collection items in search results |
US20080154878A1 (en) * | 2006-12-20 | 2008-06-26 | Rose Daniel E | Diversifying a set of items |
US20080215571A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Product review search |
US8117137B2 (en) | 2007-04-19 | 2012-02-14 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US8832140B2 (en) * | 2007-06-26 | 2014-09-09 | Oracle Otc Subsidiary Llc | System and method for measuring the quality of document sets |
US8935249B2 (en) | 2007-06-26 | 2015-01-13 | Oracle Otc Subsidiary Llc | Visualization of concepts within a collection of information |
US8543380B2 (en) * | 2007-10-05 | 2013-09-24 | Fujitsu Limited | Determining a document specificity |
US20090094209A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Determining The Depths Of Words And Documents |
WO2009059481A1 (en) * | 2007-11-08 | 2009-05-14 | Shanghai Hewlett-Packard Co., Ltd | Navigational ranking for focused crawling |
US8321406B2 (en) | 2008-03-31 | 2012-11-27 | Google Inc. | Media object query submission and response |
KR100926876B1 (ko) * | 2008-04-01 | 2009-11-16 | 엔에이치엔(주) | 랭크 발생 확률을 이용한 랭크 학습 모델 생성 방법 및랭크 학습 모델 생성 시스템 |
US20090287668A1 (en) * | 2008-05-16 | 2009-11-19 | Justsystems Evans Research, Inc. | Methods and apparatus for interactive document clustering |
JP5146108B2 (ja) * | 2008-05-27 | 2013-02-20 | 日本電気株式会社 | 文書重要度算出システム、文書重要度算出方法およびプログラム |
CN101625680B (zh) * | 2008-07-09 | 2012-08-29 | 东北大学 | 面向专利领域的文档检索方法 |
US8131659B2 (en) * | 2008-09-25 | 2012-03-06 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US8301638B2 (en) * | 2008-09-25 | 2012-10-30 | Microsoft Corporation | Automated feature selection based on rankboost for ranking |
US9135396B1 (en) * | 2008-12-22 | 2015-09-15 | Amazon Technologies, Inc. | Method and system for determining sets of variant items |
US8458171B2 (en) | 2009-01-30 | 2013-06-04 | Google Inc. | Identifying query aspects |
US8533202B2 (en) * | 2009-07-07 | 2013-09-10 | Yahoo! Inc. | Entropy-based mixing and personalization |
US8245135B2 (en) * | 2009-09-08 | 2012-08-14 | International Business Machines Corporation | Producing a visual summarization of text documents |
CN101650746B (zh) * | 2009-09-27 | 2011-06-29 | 中国电信股份有限公司 | 一种对排序结果进行验证的方法和系统 |
CA2836700C (en) * | 2010-05-25 | 2017-05-30 | Mark F. Mclellan | Active search results page ranking technology |
US9240020B2 (en) | 2010-08-24 | 2016-01-19 | Yahoo! Inc. | Method of recommending content via social signals |
EP2568396A1 (en) * | 2011-09-08 | 2013-03-13 | Axel Springer Digital TV Guide GmbH | Method and apparatus for generating a sorted list of items |
US8838583B1 (en) | 2011-10-05 | 2014-09-16 | Amazon Technologies, Inc | Diversity within search results |
US9075498B1 (en) * | 2011-12-22 | 2015-07-07 | Symantec Corporation | User interface for finding similar documents |
US9501566B1 (en) | 2012-01-17 | 2016-11-22 | Veritas Technologies Llc | User interface for transparent concept search |
JP6149434B2 (ja) * | 2012-04-10 | 2017-06-21 | 株式会社リコー | 情報処理装置、文書管理サーバ、プログラム、ファイルシステム |
US20140075282A1 (en) * | 2012-06-26 | 2014-03-13 | Rediff.Com India Limited | Method and apparatus for composing a representative description for a cluster of digital documents |
US9400789B2 (en) * | 2012-07-20 | 2016-07-26 | Google Inc. | Associating resources with entities |
US9536001B2 (en) * | 2012-11-13 | 2017-01-03 | Microsoft Technology Licensing, Llc | Intent-based presentation of search results |
US9129020B2 (en) | 2012-12-21 | 2015-09-08 | Microsoft Technology Licensing, Llc | Search results through interest circles |
CN103927545B (zh) * | 2014-03-14 | 2017-10-17 | 小米科技有限责任公司 | 聚类方法及相关装置 |
US9355227B2 (en) | 2014-06-30 | 2016-05-31 | Konica Minolta Laboratory U.S.A., Inc. | Dynamic document display personalization implemented in a digital rights management system |
US9992262B2 (en) * | 2014-07-29 | 2018-06-05 | Konica Minolta Laboratory U.S.A., Inc. | Personalized document content aggregation and document association implemented in a digital rights management system |
US9858251B2 (en) | 2014-08-14 | 2018-01-02 | Rakuten Kobo Inc. | Automatically generating customized annotation document from query search results and user interface thereof |
KR102243286B1 (ko) * | 2014-09-18 | 2021-04-22 | 경북대학교 산학협력단 | 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체 |
CN104881798A (zh) * | 2015-06-05 | 2015-09-02 | 北京京东尚科信息技术有限公司 | 基于商品图像特征的个性化搜索装置及方法 |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10467215B2 (en) * | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10685029B2 (en) | 2015-11-23 | 2020-06-16 | Google Llc | Information ranking based on properties of a computing device |
GB2545931A (en) * | 2015-12-31 | 2017-07-05 | Francis Murphy Dominic | Defining edges and their weights between nodes in a network |
CN105955990A (zh) * | 2016-04-15 | 2016-09-21 | 北京理工大学 | 一种兼顾多样性和有效性的评论排序和筛选方法 |
RU2630427C2 (ru) * | 2016-08-12 | 2017-09-07 | Дмитрий Владимирович Мительков | Способ и система семантической обработки текстовых документов |
US10733359B2 (en) * | 2016-08-26 | 2020-08-04 | Adobe Inc. | Expanding input content utilizing previously-generated content |
GB2570447A (en) * | 2018-01-23 | 2019-07-31 | Canon Kk | Method and system for improving construction of regions of interest |
US11699094B2 (en) * | 2018-10-31 | 2023-07-11 | Salesforce, Inc. | Automatic feature selection and model generation for linear models |
US11328238B2 (en) * | 2019-04-01 | 2022-05-10 | Microsoft Technology Licensing, Llc | Preemptively surfacing relevant content within email |
CN110516062B (zh) * | 2019-08-26 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种文档的搜索处理方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5020019A (en) * | 1989-05-29 | 1991-05-28 | Ricoh Company, Ltd. | Document retrieval system |
US5598557A (en) * | 1992-09-22 | 1997-01-28 | Caere Corporation | Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5870740A (en) * | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US20020194161A1 (en) * | 2001-04-12 | 2002-12-19 | Mcnamee J. Paul | Directed web crawler with machine learning |
WO2004025490A1 (en) * | 2002-09-16 | 2004-03-25 | The Trustees Of Columbia University In The City Of New York | System and method for document collection, grouping and summarization |
JP4356347B2 (ja) * | 2003-04-16 | 2009-11-04 | セイコーエプソン株式会社 | 文書抽出システム |
-
2004
- 2004-04-30 US US10/837,540 patent/US7664735B2/en not_active Expired - Fee Related
-
2005
- 2005-04-28 BR BR0502189-8A patent/BRPI0502189A/pt not_active IP Right Cessation
- 2005-04-29 KR KR1020050036407A patent/KR101130535B1/ko not_active IP Right Cessation
- 2005-04-29 CA CA2505904A patent/CA2505904C/en not_active Expired - Fee Related
- 2005-04-29 RU RU2005113189/09A patent/RU2383922C2/ru not_active IP Right Cessation
- 2005-04-29 AU AU2005201824A patent/AU2005201824A1/en not_active Abandoned
- 2005-04-29 EP EP05103553A patent/EP1591923A1/en not_active Withdrawn
- 2005-04-29 MX MXPA05004681A patent/MXPA05004681A/es not_active Application Discontinuation
- 2005-04-30 CN CNB2005100896477A patent/CN100573513C/zh not_active Expired - Fee Related
- 2005-05-02 JP JP2005134488A patent/JP4845420B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR101130535B1 (ko) | 2012-04-12 |
CA2505904A1 (en) | 2005-10-30 |
KR20060047664A (ko) | 2006-05-18 |
JP2005322244A (ja) | 2005-11-17 |
CN100573513C (zh) | 2009-12-23 |
RU2383922C2 (ru) | 2010-03-10 |
AU2005201824A1 (en) | 2005-11-17 |
BRPI0502189A (pt) | 2006-01-10 |
CN1758244A (zh) | 2006-04-12 |
JP4845420B2 (ja) | 2011-12-28 |
EP1591923A1 (en) | 2005-11-02 |
US20050246328A1 (en) | 2005-11-03 |
CA2505904C (en) | 2013-09-03 |
US7664735B2 (en) | 2010-02-16 |
MXPA05004681A (es) | 2006-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2005113189A (ru) | Способ и система для ранжирования документов результата поиска для повышения уровня разнообразия и информационной насыщенности | |
JP2005322244A5 (ru) | ||
Qiao et al. | Understanding the Behaviors of BERT in Ranking | |
Kraft et al. | Searching with context | |
US8548995B1 (en) | Ranking of documents based on analysis of related documents | |
US20110004609A1 (en) | Generating search results based on user feedback | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US7991762B1 (en) | Managing URLs | |
US20110225137A1 (en) | Enhancing and optimizing enterprise search | |
JP2011525678A5 (ru) | ||
US9734211B1 (en) | Personalizing search results | |
ATE426207T1 (de) | Methode und system einer gewichteten kontextruckmeldung zur verbesserung von ergebnissen in der informationswiederauffindung | |
CN1773492A (zh) | 组织多个文档的方法以及显示多个文档的设备 | |
US20110302156A1 (en) | Re-ranking search results based on lexical and ontological concepts | |
WO2008023904A1 (en) | Document ranking granting method and computer readable record medium thereof | |
US20100145922A1 (en) | Personalized search apparatus and method | |
Altingovde et al. | Static index pruning in web search engines: Combining term and document popularities with query views | |
WO2013056192A1 (en) | Presenting search results based upon subject-versions | |
RU2009127889A (ru) | Способ классификации веб-страниц и организации соответствующего информационного наполнения | |
Kaczmarek | Interactive query expansion with the use of clustering-by-directions algorithm | |
Lee et al. | A query-dependent ranking approach for search engines | |
Yi et al. | A content based approach for discovering missing anchor text for web search | |
CA2649534A1 (en) | Systems and methods for performing searches within vertical domains | |
Ettaleb et al. | A combination of reduction and expansion approaches to deal with long natural language queries | |
Markov et al. | Unsupervised linear score normalization revisited |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20130430 |