WO2020224114A1 - Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support - Google Patents

Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support Download PDF

Info

Publication number
WO2020224114A1
WO2020224114A1 PCT/CN2019/103155 CN2019103155W WO2020224114A1 WO 2020224114 A1 WO2020224114 A1 WO 2020224114A1 CN 2019103155 W CN2019103155 W CN 2019103155W WO 2020224114 A1 WO2020224114 A1 WO 2020224114A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio information
delay network
residual delay
audio
feature vector
Prior art date
Application number
PCT/CN2019/103155
Other languages
English (en)
Chinese (zh)
Inventor
彭俊清
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020224114A1 publication Critical patent/WO2020224114A1/fr

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

L'invention concerne un procédé et un appareil de confirmation de locuteur basée sur un réseau à retard résiduel, un dispositif et un support. Ledit procédé consiste à : construire un réseau à retard résiduel, et entraîner le réseau à retard résiduel à l'aide d'un ensemble d'échantillons d'apprentissage prédéfini (S101) ; acquérir un ensemble d'informations audio d'un utilisateur de test, l'ensemble d'informations audio comprenant des données audio et de test enregistrées (S102) ; effectuer un prétraitement sur l'ensemble d'informations audio de l'utilisateur de test (S103) ; effectuer une extraction de caractéristique sur l'ensemble d'informations audio prétraité pour obtenir des coefficients cepstre de fréquence Mel de l'audio enregistré et de l'audio de test, respectivement (S104) ; transmettre le coefficient cepstre de fréquence Mel de l'audio enregistré en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique enregistré de l'utilisateur de test (S105) ; transmettre le coefficient cepstre de fréquence Mel de l'audio de test en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique à tester de l'utilisateur de test (S106) ; entrer, dans un modèle d'analyse discriminante linéaire de probabilité prédéfinie, le vecteur de caractéristique enregistré et le vecteur de caractéristique à tester, et acquérir un score délivré en sortie par le modèle d'analyse de discrimination linéaire de probabilité (S107) ; et délivrer en sortie un résultat de confirmation de locuteur en fonction du score (S108). Ledit procédé résout le problème lié à la faible précision du procédé existant de confirmation de locuteur indépendant du texte en termes d'audio court.
PCT/CN2019/103155 2019-05-09 2019-08-29 Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support WO2020224114A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910384582.0A CN110232932B (zh) 2019-05-09 2019-05-09 基于残差时延网络的说话人确认方法、装置、设备及介质
CN201910384582.0 2019-05-09

Publications (1)

Publication Number Publication Date
WO2020224114A1 true WO2020224114A1 (fr) 2020-11-12

Family

ID=67860506

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103155 WO2020224114A1 (fr) 2019-05-09 2019-08-29 Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support

Country Status (2)

Country Link
CN (1) CN110232932B (fr)
WO (1) WO2020224114A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613468A (zh) * 2020-12-31 2021-04-06 平安国际智慧城市科技股份有限公司 基于人工智能的疫情排查方法及相关设备
CN112735470A (zh) * 2020-12-28 2021-04-30 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081278A (zh) * 2019-12-18 2020-04-28 公安部第三研究所 一种对讲终端通话质量的测试方法及测试系统
CN111133507B (zh) * 2019-12-23 2023-05-23 深圳市优必选科技股份有限公司 一种语音合成方法、装置、智能终端及可读介质
CN111916074A (zh) * 2020-06-29 2020-11-10 厦门快商通科技股份有限公司 一种跨设备语音控制方法、系统、终端及存储介质
CN111885275B (zh) * 2020-07-23 2021-11-26 海尔优家智能科技(北京)有限公司 语音信号的回声消除方法、装置、存储介质以及电子装置
CN112992157A (zh) * 2021-02-08 2021-06-18 贵州师范大学 一种基于残差和批量归一化的神经网络带噪声纹识别方法
CN112992155B (zh) * 2021-03-02 2022-10-14 复旦大学 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113178196B (zh) * 2021-04-20 2023-02-07 平安国际融资租赁有限公司 音频数据提取方法、装置、计算机设备和存储介质
CN113724731B (zh) * 2021-08-30 2024-01-05 中国科学院声学研究所 利用音频判别模型进行音频判别的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
US20180350351A1 (en) * 2017-05-31 2018-12-06 Intel Corporation Feature extraction using neural network accelerator
CN109166586A (zh) * 2018-08-02 2019-01-08 平安科技(深圳)有限公司 一种识别说话人的方法及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2539442C (fr) * 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Procedes et appareil pour activer un dispositif de mesure d'audience au moyen d'instructions vocales
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法
CN107464568B (zh) * 2017-09-25 2020-06-30 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN108281146B (zh) * 2017-12-29 2020-11-13 歌尔科技有限公司 一种短语音说话人识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
US20180350351A1 (en) * 2017-05-31 2018-12-06 Intel Corporation Feature extraction using neural network accelerator
CN108109613A (zh) * 2017-12-12 2018-06-01 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109166586A (zh) * 2018-08-02 2019-01-08 平安科技(深圳)有限公司 一种识别说话人的方法及终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735470A (zh) * 2020-12-28 2021-04-30 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质
CN112735470B (zh) * 2020-12-28 2024-01-23 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质
CN112613468A (zh) * 2020-12-31 2021-04-06 平安国际智慧城市科技股份有限公司 基于人工智能的疫情排查方法及相关设备
CN112613468B (zh) * 2020-12-31 2024-04-05 深圳平安智慧医健科技有限公司 基于人工智能的疫情排查方法及相关设备

Also Published As

Publication number Publication date
CN110232932B (zh) 2023-11-03
CN110232932A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
WO2020224114A1 (fr) Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support
WO2020177380A1 (fr) Procédé, appareil et dispositif de détection d'empreinte vocale sur la base d'un texte court, et support d'enregistrement
WO2021164147A1 (fr) Procédé et appareil d'évaluation de service basée sur l'intelligence artificielle, dispositif et support de stockage
WO2019232829A1 (fr) Procédé et appareil de reconnaissance d'empreinte vocale, dispositif informatique et support d'enregistrement
Reynolds An overview of automatic speaker recognition technology
US9502038B2 (en) Method and device for voiceprint recognition
CN109473105A (zh) 与文本无关的声纹验证方法、装置和计算机设备
WO2014114116A1 (fr) Procédé et système de reconnaissance d'empreinte vocale
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2019232826A1 (fr) Procédé d'extraction de vecteur i, procédé et appareil d'identification de locuteur, dispositif, et support
CN108564956B (zh) 一种声纹识别方法和装置、服务器、存储介质
US20190325880A1 (en) System for text-dependent speaker recognition and method thereof
Revathi et al. Text independent speaker recognition and speaker independent speech recognition using iterative clustering approach
CN111063359B (zh) 电话回访有效性判别方法、装置、计算机设备和介质
Nirjon et al. sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study
Dovydaitis et al. Building LSTM neural network based speaker identification system
Akinrinmade et al. Creation of a Nigerian voice corpus for indigenous speaker recognition
Pickersgill et al. Investigation of DNN prediction of power spectral envelopes for speech coding & ASR
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Balpande et al. Speaker recognition based on mel-frequency cepstral coefficients and vector quantization
Sailaja et al. Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model
Wei Adaptive Speaker Recognition Based on Hidden Markov Model Parameter Optimization
Neiberg Text Independent speaker verification using adapted Gaussian mixture models
Musaev et al. Advanced feature extraction method for speaker identification using a classification algorithm
M Ahmed et al. Speaker Recognition Systems in the Last Decade–A Survey

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19927645

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19927645

Country of ref document: EP

Kind code of ref document: A1