WO2020224114A1 - Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support - Google Patents
Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support Download PDFInfo
- Publication number
- WO2020224114A1 WO2020224114A1 PCT/CN2019/103155 CN2019103155W WO2020224114A1 WO 2020224114 A1 WO2020224114 A1 WO 2020224114A1 CN 2019103155 W CN2019103155 W CN 2019103155W WO 2020224114 A1 WO2020224114 A1 WO 2020224114A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio information
- delay network
- residual delay
- audio
- feature vector
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
L'invention concerne un procédé et un appareil de confirmation de locuteur basée sur un réseau à retard résiduel, un dispositif et un support. Ledit procédé consiste à : construire un réseau à retard résiduel, et entraîner le réseau à retard résiduel à l'aide d'un ensemble d'échantillons d'apprentissage prédéfini (S101) ; acquérir un ensemble d'informations audio d'un utilisateur de test, l'ensemble d'informations audio comprenant des données audio et de test enregistrées (S102) ; effectuer un prétraitement sur l'ensemble d'informations audio de l'utilisateur de test (S103) ; effectuer une extraction de caractéristique sur l'ensemble d'informations audio prétraité pour obtenir des coefficients cepstre de fréquence Mel de l'audio enregistré et de l'audio de test, respectivement (S104) ; transmettre le coefficient cepstre de fréquence Mel de l'audio enregistré en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique enregistré de l'utilisateur de test (S105) ; transmettre le coefficient cepstre de fréquence Mel de l'audio de test en tant que vecteur d'entrée au réseau à retard résiduel entraîné, et acquérir un vecteur de caractéristique délivré en sortie par le réseau à retard résiduel à un niveau de tranche de session en tant que vecteur de caractéristique à tester de l'utilisateur de test (S106) ; entrer, dans un modèle d'analyse discriminante linéaire de probabilité prédéfinie, le vecteur de caractéristique enregistré et le vecteur de caractéristique à tester, et acquérir un score délivré en sortie par le modèle d'analyse de discrimination linéaire de probabilité (S107) ; et délivrer en sortie un résultat de confirmation de locuteur en fonction du score (S108). Ledit procédé résout le problème lié à la faible précision du procédé existant de confirmation de locuteur indépendant du texte en termes d'audio court.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910384582.0A CN110232932B (zh) | 2019-05-09 | 2019-05-09 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
CN201910384582.0 | 2019-05-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020224114A1 true WO2020224114A1 (fr) | 2020-11-12 |
Family
ID=67860506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/103155 WO2020224114A1 (fr) | 2019-05-09 | 2019-08-29 | Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110232932B (fr) |
WO (1) | WO2020224114A1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613468A (zh) * | 2020-12-31 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的疫情排查方法及相关设备 |
CN112735470A (zh) * | 2020-12-28 | 2021-04-30 | 携程旅游网络技术(上海)有限公司 | 基于时延神经网络的音频切割方法、系统、设备及介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081278A (zh) * | 2019-12-18 | 2020-04-28 | 公安部第三研究所 | 一种对讲终端通话质量的测试方法及测试系统 |
CN111133507B (zh) * | 2019-12-23 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、装置、智能终端及可读介质 |
CN111916074A (zh) * | 2020-06-29 | 2020-11-10 | 厦门快商通科技股份有限公司 | 一种跨设备语音控制方法、系统、终端及存储介质 |
CN111885275B (zh) * | 2020-07-23 | 2021-11-26 | 海尔优家智能科技(北京)有限公司 | 语音信号的回声消除方法、装置、存储介质以及电子装置 |
CN112992157A (zh) * | 2021-02-08 | 2021-06-18 | 贵州师范大学 | 一种基于残差和批量归一化的神经网络带噪声纹识别方法 |
CN112992155B (zh) * | 2021-03-02 | 2022-10-14 | 复旦大学 | 一种基于残差神经网络的远场语音说话人识别方法及装置 |
CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
CN113724731B (zh) * | 2021-08-30 | 2024-01-05 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
US20180350351A1 (en) * | 2017-05-31 | 2018-12-06 | Intel Corporation | Feature extraction using neural network accelerator |
CN109166586A (zh) * | 2018-08-02 | 2019-01-08 | 平安科技(深圳)有限公司 | 一种识别说话人的方法及终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2539442C (fr) * | 2003-09-17 | 2013-08-20 | Nielsen Media Research, Inc. | Procedes et appareil pour activer un dispositif de mesure d'audience au moyen d'instructions vocales |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN108281146B (zh) * | 2017-12-29 | 2020-11-13 | 歌尔科技有限公司 | 一种短语音说话人识别方法和装置 |
-
2019
- 2019-05-09 CN CN201910384582.0A patent/CN110232932B/zh active Active
- 2019-08-29 WO PCT/CN2019/103155 patent/WO2020224114A1/fr active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034472A (zh) * | 2009-09-28 | 2011-04-27 | 戴红霞 | 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
US20180350351A1 (en) * | 2017-05-31 | 2018-12-06 | Intel Corporation | Feature extraction using neural network accelerator |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108694949A (zh) * | 2018-03-27 | 2018-10-23 | 佛山市顺德区中山大学研究院 | 基于重排序超向量和残差网络的说话人识别方法及其装置 |
CN109166586A (zh) * | 2018-08-02 | 2019-01-08 | 平安科技(深圳)有限公司 | 一种识别说话人的方法及终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735470A (zh) * | 2020-12-28 | 2021-04-30 | 携程旅游网络技术(上海)有限公司 | 基于时延神经网络的音频切割方法、系统、设备及介质 |
CN112735470B (zh) * | 2020-12-28 | 2024-01-23 | 携程旅游网络技术(上海)有限公司 | 基于时延神经网络的音频切割方法、系统、设备及介质 |
CN112613468A (zh) * | 2020-12-31 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的疫情排查方法及相关设备 |
CN112613468B (zh) * | 2020-12-31 | 2024-04-05 | 深圳平安智慧医健科技有限公司 | 基于人工智能的疫情排查方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110232932B (zh) | 2023-11-03 |
CN110232932A (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020224114A1 (fr) | Procédé et appareil de confirmation de locuteur basée sur un réseau à retard résiduel, dispositif et support | |
WO2020177380A1 (fr) | Procédé, appareil et dispositif de détection d'empreinte vocale sur la base d'un texte court, et support d'enregistrement | |
WO2021164147A1 (fr) | Procédé et appareil d'évaluation de service basée sur l'intelligence artificielle, dispositif et support de stockage | |
WO2019232829A1 (fr) | Procédé et appareil de reconnaissance d'empreinte vocale, dispositif informatique et support d'enregistrement | |
Reynolds | An overview of automatic speaker recognition technology | |
US9502038B2 (en) | Method and device for voiceprint recognition | |
CN109473105A (zh) | 与文本无关的声纹验证方法、装置和计算机设备 | |
WO2014114116A1 (fr) | Procédé et système de reconnaissance d'empreinte vocale | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2019232826A1 (fr) | Procédé d'extraction de vecteur i, procédé et appareil d'identification de locuteur, dispositif, et support | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
US20190325880A1 (en) | System for text-dependent speaker recognition and method thereof | |
Revathi et al. | Text independent speaker recognition and speaker independent speech recognition using iterative clustering approach | |
CN111063359B (zh) | 电话回访有效性判别方法、装置、计算机设备和介质 | |
Nirjon et al. | sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study | |
Dovydaitis et al. | Building LSTM neural network based speaker identification system | |
Akinrinmade et al. | Creation of a Nigerian voice corpus for indigenous speaker recognition | |
Pickersgill et al. | Investigation of DNN prediction of power spectral envelopes for speech coding & ASR | |
Hossan et al. | Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization | |
Sailaja et al. | Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model | |
Wei | Adaptive Speaker Recognition Based on Hidden Markov Model Parameter Optimization | |
Neiberg | Text Independent speaker verification using adapted Gaussian mixture models | |
Musaev et al. | Advanced feature extraction method for speaker identification using a classification algorithm | |
M Ahmed et al. | Speaker Recognition Systems in the Last Decade–A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19927645 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19927645 Country of ref document: EP Kind code of ref document: A1 |