WO2022119702A1

WO2022119702A1 - Vectorisation de corps de document et formation par contraste de bruit

Info

Publication number: WO2022119702A1
Application number: PCT/US2021/059302
Authority: WO
Inventors: Junaid Ahmed; Li Xiong; Arnold OVERWIJK; Chenyan XIONG
Original assignee: Microsoft Technology Licensing, Llc
Priority date: 2020-12-04
Filing date: 2021-11-15
Publication date: 2022-06-09

Abstract

Des vecteurs d'incorporation de document associés à chaque document d'un corpus peuvent être générés en combinant des vecteurs d'incorporation associés à des sous-parties de document, ce qui produit un vecteur d'incorporation final associé au document. Un modèle d'apprentissage machine est formé en utilisant un corpus d'interrogations et le corpus de documents. Le modèle génère un score de classement pour une paire donnée (interrogation, document). Pendant la formation, les scores de classement sont générés au moyen du modèle, de sorte que l'ensemble de données de formation est encore affiné en utilisant les scores de classement générés. Par exemple, des documents supérieurs et un document négatif peuvent être déterminés pour une interrogation donnée puis utilisés comme données de formation. De multiples documents négatifs peuvent donc être déterminés pour une interrogation donnée. Un document négatif pour une interrogation donnée peut être déterminé à partir des documents négatifs à l'aide d'une estimation de contraste de bruit. Ces documents négatifs déterminés peuvent être évalués au moyen d'une fonction de perte pendant une formation du modèle, ce qui produit un modèle de traitement de recherche plus robuste.