WO2022116442A1

WO2022116442A1 - Procédé et appareil, basés sur la géométrie, pour le criblage d'échantillons de parole, dispositif informatique et support de stockage

Info

Publication number: WO2022116442A1
Application number: PCT/CN2021/083934
Authority: WO
Inventors: 罗剑; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-01
Filing date: 2021-03-30
Publication date: 2022-06-09
Also published as: CN112530409B; CN112530409A

Abstract

La présente invention concerne un procédé et un appareil (100), basés sur la géométrie, pour le criblage d'échantillons de parole, ainsi qu'un dispositif informatique (500) et un support de stockage, qui se rapportent à la technologie de l'intelligence artificielle. Le procédé consiste : à acquérir un ensemble d'échantillons de parole initiaux, et à extraire une caractéristique de parole correspondant à chaque élément de données d'échantillon de parole initial dans l'ensemble d'échantillons de parole initiaux, de façon à constituer un ensemble de caractéristiques de parole (S110) ; à acquérir une distance euclidienne entre des caractéristiques de parole dans l'ensemble de caractéristiques de parole au moyen d'un algorithme de distorsion temporelle dynamique, de façon à effectuer un groupement de K-moyennes pour obtenir un résultat de groupement (S120) ; à appeler une condition de criblage de sous-ensemble d'échantillons prédéfinie, et à acquérir, à partir du résultat de groupement, un groupe qui satisfait la condition de criblage de sous-ensemble d'échantillons, de façon à constituer un ensemble de groupes cibles (S130) ; et à acquérir, à partir de l'ensemble de groupes cibles, une valeur annotée correspondant à chaque caractéristique de parole, de façon à obtenir un ensemble d'échantillons de parole actuel correspondant à l'ensemble de groupes cibles (S140). Des échantillons ayant une redondance relativement faible sont automatiquement sélectionnés pour l'entraînement d'un modèle de reconnaissance de parole, ce qui permet de réduire le coût d'annotation d'une tâche de reconnaissance de parole dans un contexte d'apprentissage profond, et d'améliorer la vitesse d'entraînement d'un modèle de reconnaissance de parole.