WO2014189399A1

WO2014189399A1 - Modèle de langage à structure mélangée basé sur n-grammes

Info

Publication number: WO2014189399A1
Application number: PCT/RS2013/000009
Authority: WO
Inventors: Stevan OSTROGONAC; Milan SEĈUJSKI; Vlado Delić; Dragiša MIŠKOVIĆ; Nikša JAKOVLJEVIĆ; Nataša VUJNOVIĆ SEDLAR
Original assignee: Axon Doo
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2014-11-27

Abstract

L'invention concerne un modèle de langage à structure mélangée basé sur n-grammes et un procédé de détermination de probabilité de séquence de mots basé sur ce type de modèle. La structure mélangée comprenant un lemme et des informations de classes morphologiques pour tous les mots d'un n-gramme active une technique de modélisation qui assure l'inclusion des informations les plus fiables obtenues à partir d'un corpus d'apprentissage et active la création de modèles de qualité élevée même lorsque une petite quantité de données est disponible. L'invention concerne également différentes techniques d'élagage pouvant être utilisées afin de réduire le nombre de n-grammes inclus dans le modèle si une grande quantité de données est disponible pour l'apprentissage de classes morphologiques.