WO2020224114A1

WO2020224114A1 - Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support

Info

Publication number: WO2020224114A1
Application number: PCT/CN2019/103155
Authority: WO
Inventors: 彭俊清; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-09
Filing date: 2019-08-29
Publication date: 2020-11-12
Also published as: CN110232932B; CN110232932A

Abstract

L'invention concerne un procédé et un appareil de confirmation de locuteur basée sur un réseau à retard résiduel, un dispositif et un support. Ledit procédé consiste à : construire un réseau à retard résiduel, et entraîner le réseau à retard résiduel à l'aide d'un ensemble d'échantillons d'apprentissage prédéfini (S101) ; acquérir un ensemble d'informations audio d'un utilisateur de test, l'ensemble d'informations audio comprenant des données audio et de test enregistrées (S102) ; effectuer un prétraitement sur l'ensemble d'informations audio de l'utilisateur de test (S103) ; effectuer une extraction de caractéristique sur l'ensemble d'informations audio prétraité pour obtenir des coefficients cepstre de fréquence Mel de l'audio enregistré et de l'audio de test, respectivement (S104) ; transmettre le coefficient cepstre de fréquence Mel de l'audio enregistré en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique enregistré de l'utilisateur de test (S105) ; transmettre le coefficient cepstre de fréquence Mel de l'audio de test en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique à tester de l'utilisateur de test (S106) ; entrer, dans un modèle d'analyse discriminante linéaire de probabilité prédéfinie, le vecteur de caractéristique enregistré et le vecteur de caractéristique à tester, et acquérir un score délivré en sortie par le modèle d'analyse de discrimination linéaire de probabilité (S107) ; et délivrer en sortie un résultat de confirmation de locuteur en fonction du score (S108). Ledit procédé résout le problème lié à la faible précision du procédé existant de confirmation de locuteur indépendant du texte en termes d'audio court.