WO2011072172A1

WO2011072172A1 - Système et procédé permettant de déterminer rapidement un sous-ensemble de données non pertinentes à partir d'un vaste contenu de données

Info

Publication number: WO2011072172A1
Application number: PCT/US2010/059775
Authority: WO
Inventors: Andrew Kraftsow; Mary K. O'brien
Original assignee: Renew Data Corp.
Priority date: 2009-12-09
Filing date: 2010-12-09
Publication date: 2011-06-16
Also published as: US20110145269A1

Abstract

L'invention concerne un système et un procédé permettant de rechercher rapidement tous les éléments de données non pertinents dans un ensemble de données d'après une expression logique d'une question d'intérêt pour un utilisateur, qui décrit ce que recherche l'utilisateur. En effectuant cette recherche, la taille du jeu de données qui doit être recherché pour trouver des documents pertinents est considérablement réduite. Le système peut servir également à identifier des termes qui sont utilisés de façon éventuellement incohérente avec leurs moyens normalement acceptés de façon à pouvoir découvrir des mots codés. De plus, le système est capable de rechercher des termes commerciaux qui ne sont pas contenus dans des dictionnaires. Dans certains modes de réalisation, le système et le procédé de l'invention peuvent utiliser des techniques de recherche automatisée avancée, qui comprennent la capacité de mise en évidence pour déterminer des sous-ensembles de données de contenu pertinentes ou non pertinentes (sous forme papier ou électronique). Ces techniques sont avantageuses pour examiner de vastes collections de données de contenu ou de documents et identifier finalement des données pertinentes ou des documents pertinents à partir des collections. Les techniques de recherche avancée s'exécutent selon des termes de recherche, qui isolent des données de contenu pertinentes ou non pertinentes qui répondent aux termes de recherche. Si la recherche concerne des données pertinentes, une probabilité de pertinence peut être déterminée pour une unité de données de contenus ou un document dans le sous-ensemble retourné pour faciliter l'exclusion d'un document du sous-ensemble s'il n'atteint pas une probabilité seuil de pertinence. Des documents dans un fil d'une correspondance (par exemple, un courrier électronique) dans le sous-ensemble de documents de réponse peuvent être ajoutés au sous-ensemble de documents de réponse. De plus, une pièce jointe à un document dans le sous-ensemble de documents de réponse peut être ajoutée au sous-ensemble de documents de réponse. Une technique statistique est appliquée pour déterminer si des documents restants dans la collection satisfont un niveau d'acceptation prédéterminé.