WO2015145981A1

WO2015145981A1 - Dispositif d'apprentissage de degré de similarité de documents multilingues, dispositif de détermination de degré de similarité de documents multilingues, procédé d'apprentissage de degré de similarité de documents multilingues, procédé de détermination de degré de similarité de documents multilingues, et support de stockage

Info

Publication number: WO2015145981A1
Application number: PCT/JP2015/001028
Authority: WO
Inventors: 定政　邦彦
Original assignee: 日本電気株式会社
Priority date: 2014-03-28
Filing date: 2015-02-27
Publication date: 2015-10-01
Also published as: JPWO2015145981A1

Abstract

La présente invention concerne une technologie permettant de rechercher des documents similaires dans un groupe de documents multilingues à un coût inférieur et avec une plus grande précision, même si trois ou plusieurs langues sont présentes. Le dispositif d'apprentissage de degré de similarité de documents multilingues (1) comporte les éléments suivants : une unité de stockage de matrices multilingues (11) qui stocke une matrice pour chaque langue cible ; une unité d'acquisition de vecteurs de mot (12) qui sert à acquérir un vecteur de mot correspondant à un document ; une unité de création de vecteurs de signification (13) qui sert à créer un vecteur de signification pour ledit document en fonction du vecteur de mot pour ledit document et de la matrice correspondant à la langue dans laquelle est écrit ledit document ; une unité de calcul de degré de similarité (14) qui sert à calculer des degrés de similarité en fonction de vecteurs de signification pour des documents dans un groupe de documents ; et une unité d'apprentissage de matrices multilingues (15) qui met en œuvre l'apprentissage par le réglage de valeurs dans les matrices correspondant aux langues cibles respectives de telle sorte que, à l'intérieur d'un ensemble de documents écrits chacun dans l'une des langues cibles, les degrés de similarité pour des groupes de documents qui présentent des relations de traduction de source sont plus élevés que les degrés de similarité pour des groupes de documents qui ne présentent pas de relations de traduction de source.