WO2020131004A1

WO2020131004A1 - Traitement automatisé indépendant du domaine de texte en forme libre

Info

Publication number: WO2020131004A1
Application number: PCT/US2017/068911
Authority: WO
Inventors: Ahmet AKYAMAC; Rajarshi BHOWMIK
Original assignee: Nokia Technologies Oy; Nokia Usa Inc.
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-06-25

Abstract

La présente invention concerne un procédé et un appareil pour un traitement de texte en forme libre amélioré qui est non informé du domaine et identifie automatiquement des sujets clé pour des données textuelles qui ne nécessitent pas d'apprentissage préalable ou de supervision, de pré-étiquetage ou d'annotation des données, ou d'une expertise de domaine. Un processus à étapes multiples (c'est-à-dire, un pipeline de traitement de texte) est utilisé et se trouve être indépendant du domaine, automatisé et non supervisé. Compte tenu d'un ensemble de documents textuels de forme libre, le pipeline de traitement de texte tire profit à la fois de statistiques d'occurrence de mots intradocuments et de corpus (c'est-à-dire, inter-documents) pour une extraction de phrases clés de haute qualité. Une représentation de caractéristique automatique est effectuée à l'aide des phrases clés extraites et une réduction de dimensionnalité est appliquée pour minimiser la distance entre des documents quasi-similaires dans l'espace vectoriel. Pour chaque document textuel, le pipeline de traitement de texte attribue soit une catégorie hiérarchique soit un sujet identifié au moyen de des mots clés topiques.