WO2023116660A3 - 一种模型训练以及音色转换方法、装置、设备及介质 - Google Patents
一种模型训练以及音色转换方法、装置、设备及介质 Download PDFInfo
- Publication number
- WO2023116660A3 WO2023116660A3 PCT/CN2022/140253 CN2022140253W WO2023116660A3 WO 2023116660 A3 WO2023116660 A3 WO 2023116660A3 CN 2022140253 W CN2022140253 W CN 2022140253W WO 2023116660 A3 WO2023116660 A3 WO 2023116660A3
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio data
- tone
- sample
- tone conversion
- conversion model
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title abstract 9
- 238000000034 method Methods 0.000 title abstract 4
- 238000000605 extraction Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 abstract 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP22909972.6A EP4425482A2 (en) | 2021-12-22 | 2022-12-20 | Model training and tone conversion method and apparatus, device, and medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111577618.0A CN114333865B (zh) | 2021-12-22 | 2021-12-22 | 一种模型训练以及音色转换方法、装置、设备及介质 |
CN202111577618.0 | 2021-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2023116660A2 WO2023116660A2 (zh) | 2023-06-29 |
WO2023116660A3 true WO2023116660A3 (zh) | 2023-08-17 |
Family
ID=81054746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/140253 WO2023116660A2 (zh) | 2021-12-22 | 2022-12-20 | 一种模型训练以及音色转换方法、装置、设备及介质 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4425482A2 (zh) |
CN (1) | CN114333865B (zh) |
WO (1) | WO2023116660A2 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333865B (zh) * | 2021-12-22 | 2024-07-19 | 广州市百果园网络科技有限公司 | 一种模型训练以及音色转换方法、装置、设备及介质 |
WO2023236054A1 (zh) * | 2022-06-07 | 2023-12-14 | 北京小米移动软件有限公司 | 一种生成音频的方法、装置及存储介质 |
CN116704999A (zh) * | 2022-09-15 | 2023-09-05 | 荣耀终端有限公司 | 一种音频数据处理方法、装置、存储介质和电子设备 |
CN117219055A (zh) * | 2023-10-27 | 2023-12-12 | 之江实验室 | 一种基于音色分离的语音生成方法、装置、介质及设备 |
CN118298836B (zh) * | 2024-05-29 | 2024-08-23 | 摩尔线程智能科技(北京)有限责任公司 | 音色转换方法、装置、电子设备、存储介质和程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
WO2020236990A1 (en) * | 2019-05-23 | 2020-11-26 | Google Llc | Variational embedding capacity in expressive end-to-end speech synthesis |
CN112037754A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音合成训练数据的生成方法及相关设备 |
CN112382271A (zh) * | 2020-11-30 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN113053356A (zh) * | 2019-12-27 | 2021-06-29 | 科大讯飞股份有限公司 | 语音波形生成方法、装置、服务器及存储介质 |
CN113470622A (zh) * | 2021-09-06 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
CN113689868A (zh) * | 2021-08-18 | 2021-11-23 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN114333865A (zh) * | 2021-12-22 | 2022-04-12 | 广州市百果园网络科技有限公司 | 一种模型训练以及音色转换方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744854B1 (en) * | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
JP6347536B2 (ja) * | 2014-02-27 | 2018-06-27 | 学校法人 名城大学 | 音合成方法及び音合成装置 |
CN109448752B (zh) * | 2018-11-28 | 2021-01-01 | 广州市百果园信息技术有限公司 | 音频数据的处理方法、装置、设备及存储介质 |
-
2021
- 2021-12-22 CN CN202111577618.0A patent/CN114333865B/zh active Active
-
2022
- 2022-12-20 EP EP22909972.6A patent/EP4425482A2/en active Pending
- 2022-12-20 WO PCT/CN2022/140253 patent/WO2023116660A2/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020236990A1 (en) * | 2019-05-23 | 2020-11-26 | Google Llc | Variational embedding capacity in expressive end-to-end speech synthesis |
CN113053356A (zh) * | 2019-12-27 | 2021-06-29 | 科大讯飞股份有限公司 | 语音波形生成方法、装置、服务器及存储介质 |
CN111785261A (zh) * | 2020-05-18 | 2020-10-16 | 南京邮电大学 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
CN112037754A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音合成训练数据的生成方法及相关设备 |
CN112382271A (zh) * | 2020-11-30 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN112652318A (zh) * | 2020-12-21 | 2021-04-13 | 北京捷通华声科技股份有限公司 | 音色转换方法、装置及电子设备 |
CN113689868A (zh) * | 2021-08-18 | 2021-11-23 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN113470622A (zh) * | 2021-09-06 | 2021-10-01 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
CN114333865A (zh) * | 2021-12-22 | 2022-04-12 | 广州市百果园网络科技有限公司 | 一种模型训练以及音色转换方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023116660A2 (zh) | 2023-06-29 |
EP4425482A2 (en) | 2024-09-04 |
CN114333865A (zh) | 2022-04-12 |
CN114333865B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023116660A3 (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
EP4113354A3 (en) | Method and apparatus for generating pre-trained language model, electronic device and storage medium | |
US20080140391A1 (en) | Method for Varying Speech Speed | |
CN104867489B (zh) | 一种模拟真人朗读发音的方法及系统 | |
WO2018042791A1 (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
CN111968617B (zh) | 一种非平行数据的语音转换方法及系统 | |
WO2015159731A1 (ja) | 音場再現装置および方法、並びにプログラム | |
CN101740034A (zh) | 一种实现声音变速不变调方法及变速变调系统 | |
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
CN109308901A (zh) | 歌唱者识别方法和装置 | |
US20230040657A1 (en) | Method and system for instrument separating and reproducing for mixture audio source | |
CN101221763B (zh) | 针对子带编码音频的三维声场合成方法 | |
CN111142066A (zh) | 波达方向估计方法、服务器以及计算机可读存储介质 | |
CN115359778A (zh) | 基于说话人情感语音合成模型的对抗与元学习方法 | |
CN104882146A (zh) | 音频推广信息的处理方法及装置 | |
Graetzer et al. | Clarity: Machine learning challenges to revolutionise hearing device processing | |
WO2023063880A3 (en) | System and method for training a transformer-in-transformer-based neural network model for audio data | |
Terrell et al. | Automatic monitor mixing for live musical performance | |
Tamesue et al. | Study on achieving speech privacy using masking noise | |
Kurian | A review on speech corpus development for automatic speech recognition in Indian languages | |
CN102682766A (zh) | 可自学习的情侣声音对换机 | |
Kuang et al. | A lightweight speech enhancement network fusing bone-and air-conducted speech | |
CN109559753B (zh) | 语音识别方法和装置 | |
Siddiq | Real-time morphing of impact sounds | |
Wang et al. | Stream attention based U-Net for L3DAS23 challenge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22909972 Country of ref document: EP Kind code of ref document: A2 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2022909972 Country of ref document: EP |
|
ENP | Entry into the national phase |
Ref document number: 2022909972 Country of ref document: EP Effective date: 20240530 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2024116658 Country of ref document: RU |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2024116658 Country of ref document: RU |
|
NENP | Non-entry into the national phase |
Ref country code: DE |