WO2023091436A1

WO2023091436A1 - Système et techniques de manipulation d'un texte long pour des modèles de langage préentraînés

Info

Publication number: WO2023091436A1
Application number: PCT/US2022/050024
Authority: WO
Inventors: Thanh Tien Vu; Tuyen Quang Pham; Mark Edward Johnson; Thanh Long Duong; Ying Xu; Poorya Zaremoodi; Omid Mohamad NEZAMI; Budhaditya Saha; Cong Duy Vu Hoang
Original assignee: Oracle International Corporation
Priority date: 2021-11-22
Filing date: 2022-11-16
Publication date: 2023-05-25

Abstract

Selon certains aspects, un dispositif informatique peut recevoir, au niveau d'un système de traitement de données, un ensemble d'énoncés à des fins d'entraînement ou d'inférence avec un dispositif de reconnaissance d'entité nommée pour attribuer une étiquette à chaque élément de jeton à partir de l'ensemble d'énoncés. Le dispositif informatique peut déterminer une longueur de chaque énoncé dans l'ensemble et, lorsque la longueur de l'énoncé dépasse un seuil prédéterminé d'éléments de jeton : diviser l'énoncé en une pluralité de blocs chevauchants d'éléments de jeton ; attribuer une étiquette avec un score de confiance pour chaque élément de jeton dans un bloc ; déterminer une étiquette finale et un score de confiance associé pour chaque bloc d'éléments de jeton par fusion de deux scores de confiance ; déterminer une étiquette annotée finale pour l'énoncé sur la base au moins de la fusion des deux scores de confiance ; et stocker l'étiquette annotée finale dans une mémoire.