WO2023116660A3 - 一种模型训练以及音色转换方法、装置、设备及介质 - Google Patents

一种模型训练以及音色转换方法、装置、设备及介质 Download PDF

Info

Publication number
WO2023116660A3
WO2023116660A3 PCT/CN2022/140253 CN2022140253W WO2023116660A3 WO 2023116660 A3 WO2023116660 A3 WO 2023116660A3 CN 2022140253 W CN2022140253 W CN 2022140253W WO 2023116660 A3 WO2023116660 A3 WO 2023116660A3
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
tone
sample
tone conversion
conversion model
Prior art date
Application number
PCT/CN2022/140253
Other languages
English (en)
French (fr)
Other versions
WO2023116660A2 (zh
Inventor
黄家鸿
李玉乐
项伟
Original Assignee
广州市百果园网络科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州市百果园网络科技有限公司 filed Critical 广州市百果园网络科技有限公司
Priority to EP22909972.6A priority Critical patent/EP4425482A2/en
Publication of WO2023116660A2 publication Critical patent/WO2023116660A2/zh
Publication of WO2023116660A3 publication Critical patent/WO2023116660A3/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

一种训练音色转换模型以及音色转换的方法、装置,该音色转换模型的训练方法包括:获取样本集,样本集中包含有不同发音人的样本音频数据,每个样本音频数据分别对应有目标音频数据,目标音频数据与样本音频数据的语义信息相同(S101);对于任一样本音频数据,通过原始音色转换模型中的音色提取网络,获取样本音频数据的第一音色特征;通过原始音色转换模型中的去除音色网络,基于第一音色特征以及样本音频数据对应的线性频谱,获取第一语义特征;其中,第一语义特征为样本音频数据中与发音人音色无关且与语义信息有关的特征;通过原始音色转换模型中的声码器,基于第一语义特征以及样本音频数据对应的目标音频数据的第二音色特征,获取合成音频数据(S102);基于每个样本音频数据分别对应的目标音频数据以及合成音频数据,对原始音色转换模型进行训练,以获取训练完成的音色转换模型(S103)。
PCT/CN2022/140253 2021-12-22 2022-12-20 一种模型训练以及音色转换方法、装置、设备及介质 WO2023116660A2 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP22909972.6A EP4425482A2 (en) 2021-12-22 2022-12-20 Model training and tone conversion method and apparatus, device, and medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111577618.0A CN114333865B (zh) 2021-12-22 2021-12-22 一种模型训练以及音色转换方法、装置、设备及介质
CN202111577618.0 2021-12-22

Publications (2)

Publication Number Publication Date
WO2023116660A2 WO2023116660A2 (zh) 2023-06-29
WO2023116660A3 true WO2023116660A3 (zh) 2023-08-17

Family

ID=81054746

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/140253 WO2023116660A2 (zh) 2021-12-22 2022-12-20 一种模型训练以及音色转换方法、装置、设备及介质

Country Status (3)

Country Link
EP (1) EP4425482A2 (zh)
CN (1) CN114333865B (zh)
WO (1) WO2023116660A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333865B (zh) * 2021-12-22 2024-07-19 广州市百果园网络科技有限公司 一种模型训练以及音色转换方法、装置、设备及介质
WO2023236054A1 (zh) * 2022-06-07 2023-12-14 北京小米移动软件有限公司 一种生成音频的方法、装置及存储介质
CN116704999A (zh) * 2022-09-15 2023-09-05 荣耀终端有限公司 一种音频数据处理方法、装置、存储介质和电子设备
CN117219055A (zh) * 2023-10-27 2023-12-12 之江实验室 一种基于音色分离的语音生成方法、装置、介质及设备
CN118298836B (zh) * 2024-05-29 2024-08-23 摩尔线程智能科技(北京)有限责任公司 音色转换方法、装置、电子设备、存储介质和程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
WO2020236990A1 (en) * 2019-05-23 2020-11-26 Google Llc Variational embedding capacity in expressive end-to-end speech synthesis
CN112037754A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音合成训练数据的生成方法及相关设备
CN112382271A (zh) * 2020-11-30 2021-02-19 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和存储介质
CN112652318A (zh) * 2020-12-21 2021-04-13 北京捷通华声科技股份有限公司 音色转换方法、装置及电子设备
CN113053356A (zh) * 2019-12-27 2021-06-29 科大讯飞股份有限公司 语音波形生成方法、装置、服务器及存储介质
CN113470622A (zh) * 2021-09-06 2021-10-01 成都启英泰伦科技有限公司 一种可将任意语音转换成多个语音的转换方法及装置
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN114333865A (zh) * 2021-12-22 2022-04-12 广州市百果园网络科技有限公司 一种模型训练以及音色转换方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6347536B2 (ja) * 2014-02-27 2018-06-27 学校法人 名城大学 音合成方法及び音合成装置
CN109448752B (zh) * 2018-11-28 2021-01-01 广州市百果园信息技术有限公司 音频数据的处理方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020236990A1 (en) * 2019-05-23 2020-11-26 Google Llc Variational embedding capacity in expressive end-to-end speech synthesis
CN113053356A (zh) * 2019-12-27 2021-06-29 科大讯飞股份有限公司 语音波形生成方法、装置、服务器及存储介质
CN111785261A (zh) * 2020-05-18 2020-10-16 南京邮电大学 基于解纠缠和解释性表征的跨语种语音转换方法及系统
CN112037754A (zh) * 2020-09-09 2020-12-04 广州华多网络科技有限公司 一种语音合成训练数据的生成方法及相关设备
CN112382271A (zh) * 2020-11-30 2021-02-19 北京百度网讯科技有限公司 语音处理方法、装置、电子设备和存储介质
CN112652318A (zh) * 2020-12-21 2021-04-13 北京捷通华声科技股份有限公司 音色转换方法、装置及电子设备
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN113470622A (zh) * 2021-09-06 2021-10-01 成都启英泰伦科技有限公司 一种可将任意语音转换成多个语音的转换方法及装置
CN114333865A (zh) * 2021-12-22 2022-04-12 广州市百果园网络科技有限公司 一种模型训练以及音色转换方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2023116660A2 (zh) 2023-06-29
EP4425482A2 (en) 2024-09-04
CN114333865A (zh) 2022-04-12
CN114333865B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
WO2023116660A3 (zh) 一种模型训练以及音色转换方法、装置、设备及介质
EP4113354A3 (en) Method and apparatus for generating pre-trained language model, electronic device and storage medium
US20080140391A1 (en) Method for Varying Speech Speed
CN104867489B (zh) 一种模拟真人朗读发音的方法及系统
WO2018042791A1 (ja) 情報処理装置、情報処理方法及び記録媒体
CN111968617B (zh) 一种非平行数据的语音转换方法及系统
WO2015159731A1 (ja) 音場再現装置および方法、並びにプログラム
CN101740034A (zh) 一种实现声音变速不变调方法及变速变调系统
JP2015040903A (ja) 音声処理装置、音声処理方法、及び、プログラム
CN109308901A (zh) 歌唱者识别方法和装置
US20230040657A1 (en) Method and system for instrument separating and reproducing for mixture audio source
CN101221763B (zh) 针对子带编码音频的三维声场合成方法
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
CN104882146A (zh) 音频推广信息的处理方法及装置
Graetzer et al. Clarity: Machine learning challenges to revolutionise hearing device processing
WO2023063880A3 (en) System and method for training a transformer-in-transformer-based neural network model for audio data
Terrell et al. Automatic monitor mixing for live musical performance
Tamesue et al. Study on achieving speech privacy using masking noise
Kurian A review on speech corpus development for automatic speech recognition in Indian languages
CN102682766A (zh) 可自学习的情侣声音对换机
Kuang et al. A lightweight speech enhancement network fusing bone-and air-conducted speech
CN109559753B (zh) 语音识别方法和装置
Siddiq Real-time morphing of impact sounds
Wang et al. Stream attention based U-Net for L3DAS23 challenge

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22909972

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 2022909972

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022909972

Country of ref document: EP

Effective date: 20240530

WWE Wipo information: entry into national phase

Ref document number: 2024116658

Country of ref document: RU

WWE Wipo information: entry into national phase

Ref document number: 2024116658

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE