RU2012120562A - Способ переозвучивания аудиоматериалов и устройство для его осуществления - Google Patents
Способ переозвучивания аудиоматериалов и устройство для его осуществления Download PDFInfo
- Publication number
- RU2012120562A RU2012120562A RU2012120562/08A RU2012120562A RU2012120562A RU 2012120562 A RU2012120562 A RU 2012120562A RU 2012120562/08 A RU2012120562/08 A RU 2012120562/08A RU 2012120562 A RU2012120562 A RU 2012120562A RU 2012120562 A RU2012120562 A RU 2012120562A
- Authority
- RU
- Russia
- Prior art keywords
- output
- input
- audio
- base
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract 15
- 238000006243 chemical reaction Methods 0.000 claims abstract 18
- 230000010365 information processing Effects 0.000 claims abstract 11
- 230000006870 function Effects 0.000 claims abstract 6
- 238000013475 authorization Methods 0.000 claims 6
- 238000001514 detection method Methods 0.000 claims 1
- 230000004069 differentiation Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
1. Способ переозвучивания аудиоматериалов, заключающийся в том, что в программно управляемом, электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов и акустическую обучающую базу, включающую аудиофайлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих аудиофайлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы для отображения пользователю, пользователь посредством микрофона воспроизводит звуковые фразы, в соответствии с воспроизводимыми фразами создают аудиофайлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, формируют файл функции конверсии, затем файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в аудиофайл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.2. Способ по п.1, отличающийся тем, что при использовании в качестве управляемого электронного устройства обработки �
Claims (13)
1. Способ переозвучивания аудиоматериалов, заключающийся в том, что в программно управляемом, электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов и акустическую обучающую базу, включающую аудиофайлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих аудиофайлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы для отображения пользователю, пользователь посредством микрофона воспроизводит звуковые фразы, в соответствии с воспроизводимыми фразами создают аудиофайлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, формируют файл функции конверсии, затем файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в аудиофайл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.
2. Способ по п.1, отличающийся тем, что при использовании в качестве управляемого электронного устройства обработки информации удаленного сервера или компьютера, функционирующего в многопользовательском режиме, дополнительно производят регистрацию пользователя.
3. Способ по п.1, отличающийся тем, что перед воспроизведением пользователем посредством микрофона звуковых фраз, производят запись фонового шума, которую сохраняют в виде аудиофайла в акустической базе целевого диктора, а программно управляемое электронное устройство обработки информации осуществляет шумоподавление фонового шума.
4. Способ по п.1, отличающийся тем, что при формировании акустической базы целевого диктора программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой пользователем фразы и ее громкости.
5. Способ по п.1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет фильтрацию цифрового RAW-потока, соответствующего воспроизводимой фразе, рассчитывают мгновенную энергию и сглаживают результаты расчета мгновенной энергии, сравнивают значение сглаженного значения средней энергии с заданным пороговьм значением, подсчитывают среднюю продолжительность пауз в аудиофайле, и программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
6. Способ по п.1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет оценку длительности слоговых сегментов, для этого производят нормирование речевого сигнала воспроизводимой фразы, фильтрацию, детектирование, перемножение огибающих сигналов воспроизводимой фразы, дифференцирование, сравнение полученного сигнала воспроизводимой фразы с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента, рассчитывают длительность слогового сегмента, после чего программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
7. Способ по п.1, отличающийся тем, что при контроле громкости воспроизводимой фразы задают нижнюю границу диапазона громкости и верхнюю границу диапазона громкости, сравнивают громкость воспроизводимой фразы с границами диапазона громкости, при громкости воспроизводимой фразы вне упомянутых границ диапазона программно управляемое электронное устройство обработки информации отображает на экране монитора сообщение о нарушении громкости воспроизводимой фразы.
8. Способ по п.1, отличающийся тем, что при формировании акустической базы исходных аудиоматериалов используют параметрические файлы, а акустической обучающей базы - wav файлы. Кроме параметрических файлов могут быть использованы любые файлы, содержащие аудиопоток.
9. Способ по п.1, отличающийся тем, что звуковые фразы для отображения пользователю передают на устройство воспроизведения звука.
10. Способ по п.1, отличающийся тем, что в процессе воспроизведения звуковых фраз пользователем на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести.
11. Способ по п.1, отличающийся тем, что после сохранения аудиофайлов в акустической базе целевого диктора и аудиофайлов в акустической обучающей базе программно управляемое электронное устройство обработки информации производит нормализацию аудиофайлов, их обрезку, шумоподавление и контроль соответствия воспроизведенного и отображенного текста воспроизводимой фразы.
12. Устройство переозвучивания аудиоматериалов, содержащее блок управления, блок выбора аудиоматериалов, акустическую базу исходных аудиоматериалов, акустическую базу целевого диктора, блок обучения, блок воспроизведения фраз, блок записи фраз, акустическую обучающую базу, блок конверсии, базу функций конверсии, акустическую базу конвертированных аудиоматериалов, блок отображения результатов конверсии, монитор, клавиатуру, манипулятор, микрофон, устройство воспроизведения звука, при этом выход клавиатуры подсоединен к первому входу блока управления, к первому входу блока выбора аудиоматериалов, и к первому входу блока отображения результатов конверсии, выход манипулятора подсоединен к второму входу блока управления, к второму входу блока выбора аудиоматериалов, и к второму входу блока отображения результатов конверсии, вход монитора подсоединен к выходу блока выбора аудиоматериалов, к выходу блока обучения, к первому выходу блока воспроизведения фраз, к выходу блока записи фраз, к выходу блока конверсии, к выходу блока отображения результатов конверсии, вход устройства воспроизведения звука подсоединен к. второму выходу блока воспроизведения фраз, выход микрофона подсоединен к входу блока записи фраз, первый вход/выход блока управления подсоединен к первому входу/выходу блока выбора аудиоматериалов, второй вход/выход блока управления - к первому входу/выходу акустической базы целевого диктора, третий вход/выход блока управления - к первому входу/выходу блока обучения, четвертый вход/выход блока управления - к первому входу/выходу блока конверсии, пятый вход/выход блока управления - к первому входу/выходу блока отображения результатов конверсии, второй вход/выход блока выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы исходных аудиоматериалов, а второй вход/выход акустической базы исходных аудиоматериалов подсоединен к четвертому входу/выходу блока конверсии, второй вход/выход акустической базы целевого диктора подсоединен к первому входу/выходу блока записи фраз, а второй вход/выход блока записи фраз - к третьему входу/выходу блока обучения, второй вход/выход блока обучения подсоединен к первому входу/выходу блока воспроизведения фраз, а второй вход/выход блока воспроизведения фраз - к входу/выходу акустической обучающей базы, четвертый вход/выход блока обучения подсоединен к первому входу/выходу базы функций конверсии, второй вход/выход базы подсоединен к второму входу/выходу блока конверсии, третий вход/выход блока конверсии подсоединен к второму входу/выходу акустической базы конвертированных аудиоматериалов, а первый вход/выход акустической базы конвертированных аудиоматериалов подсоединен к второму входу/выходу блока отображения результатов конверсии.
13. Устройство по п.12, отличающееся тем, что введены блок авторизации/регистрации и база зарегистрированных пользователей, выход клавиатуры подсоединен к первому входу блока авторизации/регистрации, а выход манипулятора подсоединен к, второму входу блока авторизации/регистрации, вход монитора подсоединен к выходу блока авторизации/регистрации, шестой вход/выход блока управления подсоединен к первому входу/выходу блока авторизации/регистрации, а второй вход/выход блока авторизации/регистрации подсоединен к входу/выходу базы зарегистрированных пользователей.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012120562/08A RU2510954C2 (ru) | 2012-05-18 | 2012-05-18 | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
US14/402,084 US20150112687A1 (en) | 2012-05-18 | 2013-05-16 | Method for rerecording audio materials and device for implementation thereof |
PCT/RU2013/000404 WO2013180600A2 (ru) | 2012-05-18 | 2013-05-16 | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012120562/08A RU2510954C2 (ru) | 2012-05-18 | 2012-05-18 | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2012120562A true RU2012120562A (ru) | 2013-11-27 |
RU2510954C2 RU2510954C2 (ru) | 2014-04-10 |
Family
ID=49624902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012120562/08A RU2510954C2 (ru) | 2012-05-18 | 2012-05-18 | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150112687A1 (ru) |
RU (1) | RU2510954C2 (ru) |
WO (1) | WO2013180600A2 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10008198B2 (en) * | 2013-03-28 | 2018-06-26 | Korea Advanced Institute Of Science And Technology | Nested segmentation method for speech recognition based on sound processing of brain |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
US11069334B2 (en) * | 2018-08-13 | 2021-07-20 | Carnegie Mellon University | System and method for acoustic activity recognition |
US11361760B2 (en) * | 2018-12-13 | 2022-06-14 | Learning Squared, Inc. | Variable-speed phonetic pronunciation machine |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006187A (en) * | 1996-10-01 | 1999-12-21 | Lucent Technologies Inc. | Computer prosody user interface |
DE69826446T2 (de) * | 1997-01-27 | 2005-01-20 | Microsoft Corp., Redmond | Stimmumwandlung |
JP3317181B2 (ja) * | 1997-03-25 | 2002-08-26 | ヤマハ株式会社 | カラオケ装置 |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
DE102004012208A1 (de) * | 2004-03-12 | 2005-09-29 | Siemens Ag | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
JP4829477B2 (ja) * | 2004-03-18 | 2011-12-07 | 日本電気株式会社 | 声質変換装置および声質変換方法ならびに声質変換プログラム |
JP4093252B2 (ja) * | 2005-05-12 | 2008-06-04 | セイコーエプソン株式会社 | 話者音質変換方法および話者音質変換装置 |
US20070038455A1 (en) * | 2005-08-09 | 2007-02-15 | Murzina Marina V | Accent detection and correction system |
RU66103U1 (ru) * | 2007-05-21 | 2007-08-27 | Общество с ограниченной ответственностью "ТЕЛЕКОНТЕНТ" | Устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования в выходной голосовой сигнал |
US8751239B2 (en) * | 2007-10-04 | 2014-06-10 | Core Wireless Licensing, S.a.r.l. | Method, apparatus and computer program product for providing text independent voice conversion |
US8996376B2 (en) * | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
WO2010031437A1 (en) * | 2008-09-19 | 2010-03-25 | Asociacion Centro De Tecnologias De Interaccion Visual Y Comunicaciones Vicomtech | Method and system of voice conversion |
RU2393548C1 (ru) * | 2008-11-28 | 2010-06-27 | Общество с ограниченной ответственностью "Конвент Люкс" | Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US20110208508A1 (en) * | 2010-02-25 | 2011-08-25 | Shane Allan Criddle | Interactive Language Training System |
RU2427044C1 (ru) * | 2010-05-14 | 2011-08-20 | Закрытое акционерное общество "Ай-Ти Мобайл" | Текстозависимый способ конверсии голоса |
US9679496B2 (en) * | 2011-12-01 | 2017-06-13 | Arkady Zilberman | Reverse language resonance systems and methods for foreign language acquisition |
US9275633B2 (en) * | 2012-01-09 | 2016-03-01 | Microsoft Technology Licensing, Llc | Crowd-sourcing pronunciation corrections in text-to-speech engines |
US9075760B2 (en) * | 2012-05-07 | 2015-07-07 | Audible, Inc. | Narration settings distribution for content customization |
US20140258858A1 (en) * | 2012-05-07 | 2014-09-11 | Douglas Hwang | Content customization |
-
2012
- 2012-05-18 RU RU2012120562/08A patent/RU2510954C2/ru not_active IP Right Cessation
-
2013
- 2013-05-16 US US14/402,084 patent/US20150112687A1/en not_active Abandoned
- 2013-05-16 WO PCT/RU2013/000404 patent/WO2013180600A2/ru active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20150112687A1 (en) | 2015-04-23 |
RU2510954C2 (ru) | 2014-04-10 |
WO2013180600A2 (ru) | 2013-12-05 |
WO2013180600A3 (ru) | 2014-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210005222A1 (en) | Looping audio-visual file generation based on audio and video analysis | |
US10381016B2 (en) | Methods and apparatus for altering audio output signals | |
CN104080024B (zh) | 音量校平器控制器和控制方法以及音频分类器 | |
US8548618B1 (en) | Systems and methods for creating narration audio | |
CN104079247B (zh) | 均衡器控制器和控制方法以及音频再现设备 | |
TWI544477B (zh) | 音樂播放裝置及播放方法 | |
US10623879B2 (en) | Method of editing audio signals using separated objects and associated apparatus | |
US8457322B2 (en) | Information processing apparatus, information processing method, and program | |
KR101164379B1 (ko) | 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법 | |
CN107994879A (zh) | 响度控制方法及装置 | |
RU2012120562A (ru) | Способ переозвучивания аудиоматериалов и устройство для его осуществления | |
WO2023207472A1 (zh) | 一种音频合成方法、电子设备及可读存储介质 | |
JPWO2011158435A1 (ja) | 音声制御装置、音声制御プログラム、及び音声制御方法 | |
JP2021144065A (ja) | 情報処理装置および情報処理方法 | |
US20230186782A1 (en) | Electronic device, method and computer program | |
KR101507468B1 (ko) | 사용자 음성 중심의 음원 데이터의 생성 시스템 및 방법 | |
Misra et al. | Microphone as Sensor in Mobile Phone Performance. | |
CN110727411A (zh) | 一种音频信号的处理方法、装置、存储介质以及终端 | |
CN114678038A (zh) | 音频噪声检测方法、计算机设备和计算机程序产品 | |
CN105976801A (zh) | 基于用户实时动作输入的纯音乐自动生成方法 | |
US20140185830A1 (en) | Methods, systems, and apparatus for audio backtracking control | |
CN105741830B (zh) | 一种音频合成方法及装置 | |
JP2007149163A (ja) | コンテンツ再生装置 | |
TWI470589B (zh) | 雲端數位語音教學錄音系統 | |
JP2011154290A (ja) | 部分的に一人二重唱になる楽曲の歌唱を支援するカラオケ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20150519 |