RU2012120562A - Способ переозвучивания аудиоматериалов и устройство для его осуществления - Google Patents

Способ переозвучивания аудиоматериалов и устройство для его осуществления Download PDF

Info

Publication number
RU2012120562A
RU2012120562A RU2012120562/08A RU2012120562A RU2012120562A RU 2012120562 A RU2012120562 A RU 2012120562A RU 2012120562/08 A RU2012120562/08 A RU 2012120562/08A RU 2012120562 A RU2012120562 A RU 2012120562A RU 2012120562 A RU2012120562 A RU 2012120562A
Authority
RU
Russia
Prior art keywords
output
input
audio
base
unit
Prior art date
Application number
RU2012120562/08A
Other languages
English (en)
Other versions
RU2510954C2 (ru
Inventor
Александр Юрьевич Бредихин
Original Assignee
Александр Юрьевич Бредихин
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Юрьевич Бредихин filed Critical Александр Юрьевич Бредихин
Priority to RU2012120562/08A priority Critical patent/RU2510954C2/ru
Priority to US14/402,084 priority patent/US20150112687A1/en
Priority to PCT/RU2013/000404 priority patent/WO2013180600A2/ru
Publication of RU2012120562A publication Critical patent/RU2012120562A/ru
Application granted granted Critical
Publication of RU2510954C2 publication Critical patent/RU2510954C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

1. Способ переозвучивания аудиоматериалов, заключающийся в том, что в программно управляемом, электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов и акустическую обучающую базу, включающую аудиофайлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих аудиофайлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы для отображения пользователю, пользователь посредством микрофона воспроизводит звуковые фразы, в соответствии с воспроизводимыми фразами создают аудиофайлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, формируют файл функции конверсии, затем файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в аудиофайл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.2. Способ по п.1, отличающийся тем, что при использовании в качестве управляемого электронного устройства обработки �

Claims (13)

1. Способ переозвучивания аудиоматериалов, заключающийся в том, что в программно управляемом, электронном устройстве обработки информации формируют акустическую базу исходных аудиоматериалов и акустическую обучающую базу, включающую аудиофайлы обучающих фраз диктора и соответствующую акустической базе исходных аудиоматериалов, транспортируют данные из акустической базы исходных аудиоматериалов для отображения списка исходных аудиоматериалов на экране монитора, при выборе пользователем из списка акустической базы исходных аудиоматериалов по меньшей мере одного аудиоматериала, данные о нем передают для сохранения в оперативное запоминающее устройство программно управляемого электронного устройства обработки информации, и осуществляют выбор из акустической обучающей базы соответствующих аудиофайлов обучающих фраз диктора выбранному аудиоматериалу, которые преобразуют в звуковые фразы для отображения пользователю, пользователь посредством микрофона воспроизводит звуковые фразы, в соответствии с воспроизводимыми фразами создают аудиофайлы, которые сохраняют по порядку воспроизведения фраз в формируемой акустической базе целевого диктора, формируют файл функции конверсии, затем файлы акустической базы исходных аудиоматериалов, используя файл функции конверсии, конвертируют и преобразуют в аудиофайл для сохранения в формируемой акустической базе конвертированных аудиоматериалов и предоставления пользователю данных о конвертированных аудиоматериалах на экране монитора.
2. Способ по п.1, отличающийся тем, что при использовании в качестве управляемого электронного устройства обработки информации удаленного сервера или компьютера, функционирующего в многопользовательском режиме, дополнительно производят регистрацию пользователя.
3. Способ по п.1, отличающийся тем, что перед воспроизведением пользователем посредством микрофона звуковых фраз, производят запись фонового шума, которую сохраняют в виде аудиофайла в акустической базе целевого диктора, а программно управляемое электронное устройство обработки информации осуществляет шумоподавление фонового шума.
4. Способ по п.1, отличающийся тем, что при формировании акустической базы целевого диктора программно управляемое электронное устройство обработки информации производит контроль скорости воспроизводимой пользователем фразы и ее громкости.
5. Способ по п.1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет фильтрацию цифрового RAW-потока, соответствующего воспроизводимой фразе, рассчитывают мгновенную энергию и сглаживают результаты расчета мгновенной энергии, сравнивают значение сглаженного значения средней энергии с заданным пороговьм значением, подсчитывают среднюю продолжительность пауз в аудиофайле, и программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
6. Способ по п.1, отличающийся тем, что при контроле скорости воспроизводимой фразы программно управляемое электронное устройство обработки информации осуществляет оценку длительности слоговых сегментов, для этого производят нормирование речевого сигнала воспроизводимой фразы, фильтрацию, детектирование, перемножение огибающих сигналов воспроизводимой фразы, дифференцирование, сравнение полученного сигнала воспроизводимой фразы с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента, рассчитывают длительность слогового сегмента, после чего программно управляемое электронное устройство обработки информации принимает решение о соответствии скорости речи эталонной.
7. Способ по п.1, отличающийся тем, что при контроле громкости воспроизводимой фразы задают нижнюю границу диапазона громкости и верхнюю границу диапазона громкости, сравнивают громкость воспроизводимой фразы с границами диапазона громкости, при громкости воспроизводимой фразы вне упомянутых границ диапазона программно управляемое электронное устройство обработки информации отображает на экране монитора сообщение о нарушении громкости воспроизводимой фразы.
8. Способ по п.1, отличающийся тем, что при формировании акустической базы исходных аудиоматериалов используют параметрические файлы, а акустической обучающей базы - wav файлы. Кроме параметрических файлов могут быть использованы любые файлы, содержащие аудиопоток.
9. Способ по п.1, отличающийся тем, что звуковые фразы для отображения пользователю передают на устройство воспроизведения звука.
10. Способ по п.1, отличающийся тем, что в процессе воспроизведения звуковых фраз пользователем на экране монитора отображают текст воспроизводимой фразы и курсор, перемещающийся по тексту фразы в соответствии с тем, как пользователь должен ее воспроизвести.
11. Способ по п.1, отличающийся тем, что после сохранения аудиофайлов в акустической базе целевого диктора и аудиофайлов в акустической обучающей базе программно управляемое электронное устройство обработки информации производит нормализацию аудиофайлов, их обрезку, шумоподавление и контроль соответствия воспроизведенного и отображенного текста воспроизводимой фразы.
12. Устройство переозвучивания аудиоматериалов, содержащее блок управления, блок выбора аудиоматериалов, акустическую базу исходных аудиоматериалов, акустическую базу целевого диктора, блок обучения, блок воспроизведения фраз, блок записи фраз, акустическую обучающую базу, блок конверсии, базу функций конверсии, акустическую базу конвертированных аудиоматериалов, блок отображения результатов конверсии, монитор, клавиатуру, манипулятор, микрофон, устройство воспроизведения звука, при этом выход клавиатуры подсоединен к первому входу блока управления, к первому входу блока выбора аудиоматериалов, и к первому входу блока отображения результатов конверсии, выход манипулятора подсоединен к второму входу блока управления, к второму входу блока выбора аудиоматериалов, и к второму входу блока отображения результатов конверсии, вход монитора подсоединен к выходу блока выбора аудиоматериалов, к выходу блока обучения, к первому выходу блока воспроизведения фраз, к выходу блока записи фраз, к выходу блока конверсии, к выходу блока отображения результатов конверсии, вход устройства воспроизведения звука подсоединен к. второму выходу блока воспроизведения фраз, выход микрофона подсоединен к входу блока записи фраз, первый вход/выход блока управления подсоединен к первому входу/выходу блока выбора аудиоматериалов, второй вход/выход блока управления - к первому входу/выходу акустической базы целевого диктора, третий вход/выход блока управления - к первому входу/выходу блока обучения, четвертый вход/выход блока управления - к первому входу/выходу блока конверсии, пятый вход/выход блока управления - к первому входу/выходу блока отображения результатов конверсии, второй вход/выход блока выбора аудиоматериалов подсоединен к первому входу/выходу акустической базы исходных аудиоматериалов, а второй вход/выход акустической базы исходных аудиоматериалов подсоединен к четвертому входу/выходу блока конверсии, второй вход/выход акустической базы целевого диктора подсоединен к первому входу/выходу блока записи фраз, а второй вход/выход блока записи фраз - к третьему входу/выходу блока обучения, второй вход/выход блока обучения подсоединен к первому входу/выходу блока воспроизведения фраз, а второй вход/выход блока воспроизведения фраз - к входу/выходу акустической обучающей базы, четвертый вход/выход блока обучения подсоединен к первому входу/выходу базы функций конверсии, второй вход/выход базы подсоединен к второму входу/выходу блока конверсии, третий вход/выход блока конверсии подсоединен к второму входу/выходу акустической базы конвертированных аудиоматериалов, а первый вход/выход акустической базы конвертированных аудиоматериалов подсоединен к второму входу/выходу блока отображения результатов конверсии.
13. Устройство по п.12, отличающееся тем, что введены блок авторизации/регистрации и база зарегистрированных пользователей, выход клавиатуры подсоединен к первому входу блока авторизации/регистрации, а выход манипулятора подсоединен к, второму входу блока авторизации/регистрации, вход монитора подсоединен к выходу блока авторизации/регистрации, шестой вход/выход блока управления подсоединен к первому входу/выходу блока авторизации/регистрации, а второй вход/выход блока авторизации/регистрации подсоединен к входу/выходу базы зарегистрированных пользователей.
RU2012120562/08A 2012-05-18 2012-05-18 Способ переозвучивания аудиоматериалов и устройство для его осуществления RU2510954C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2012120562/08A RU2510954C2 (ru) 2012-05-18 2012-05-18 Способ переозвучивания аудиоматериалов и устройство для его осуществления
US14/402,084 US20150112687A1 (en) 2012-05-18 2013-05-16 Method for rerecording audio materials and device for implementation thereof
PCT/RU2013/000404 WO2013180600A2 (ru) 2012-05-18 2013-05-16 Способ переозвучивания аудиоматериалов и устройство для его осуществления

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012120562/08A RU2510954C2 (ru) 2012-05-18 2012-05-18 Способ переозвучивания аудиоматериалов и устройство для его осуществления

Publications (2)

Publication Number Publication Date
RU2012120562A true RU2012120562A (ru) 2013-11-27
RU2510954C2 RU2510954C2 (ru) 2014-04-10

Family

ID=49624902

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012120562/08A RU2510954C2 (ru) 2012-05-18 2012-05-18 Способ переозвучивания аудиоматериалов и устройство для его осуществления

Country Status (3)

Country Link
US (1) US20150112687A1 (ru)
RU (1) RU2510954C2 (ru)
WO (1) WO2013180600A2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10008198B2 (en) * 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
US11069334B2 (en) * 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
US11361760B2 (en) * 2018-12-13 2022-06-14 Learning Squared, Inc. Variable-speed phonetic pronunciation machine

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
DE69826446T2 (de) * 1997-01-27 2005-01-20 Microsoft Corp., Redmond Stimmumwandlung
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US7292980B1 (en) * 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
JP4829477B2 (ja) * 2004-03-18 2011-12-07 日本電気株式会社 声質変換装置および声質変換方法ならびに声質変換プログラム
JP4093252B2 (ja) * 2005-05-12 2008-06-04 セイコーエプソン株式会社 話者音質変換方法および話者音質変換装置
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
RU66103U1 (ru) * 2007-05-21 2007-08-27 Общество с ограниченной ответственностью "ТЕЛЕКОНТЕНТ" Устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования в выходной голосовой сигнал
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
WO2010031437A1 (en) * 2008-09-19 2010-03-25 Asociacion Centro De Tecnologias De Interaccion Visual Y Comunicaciones Vicomtech Method and system of voice conversion
RU2393548C1 (ru) * 2008-11-28 2010-06-27 Общество с ограниченной ответственностью "Конвент Люкс" Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US20110208508A1 (en) * 2010-02-25 2011-08-25 Shane Allan Criddle Interactive Language Training System
RU2427044C1 (ru) * 2010-05-14 2011-08-20 Закрытое акционерное общество "Ай-Ти Мобайл" Текстозависимый способ конверсии голоса
US9679496B2 (en) * 2011-12-01 2017-06-13 Arkady Zilberman Reverse language resonance systems and methods for foreign language acquisition
US9275633B2 (en) * 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
US9075760B2 (en) * 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US20140258858A1 (en) * 2012-05-07 2014-09-11 Douglas Hwang Content customization

Also Published As

Publication number Publication date
US20150112687A1 (en) 2015-04-23
RU2510954C2 (ru) 2014-04-10
WO2013180600A2 (ru) 2013-12-05
WO2013180600A3 (ru) 2014-02-20

Similar Documents

Publication Publication Date Title
US20210005222A1 (en) Looping audio-visual file generation based on audio and video analysis
US10381016B2 (en) Methods and apparatus for altering audio output signals
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
US8548618B1 (en) Systems and methods for creating narration audio
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
TWI544477B (zh) 音樂播放裝置及播放方法
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
US8457322B2 (en) Information processing apparatus, information processing method, and program
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
CN107994879A (zh) 响度控制方法及装置
RU2012120562A (ru) Способ переозвучивания аудиоматериалов и устройство для его осуществления
WO2023207472A1 (zh) 一种音频合成方法、电子设备及可读存储介质
JPWO2011158435A1 (ja) 音声制御装置、音声制御プログラム、及び音声制御方法
JP2021144065A (ja) 情報処理装置および情報処理方法
US20230186782A1 (en) Electronic device, method and computer program
KR101507468B1 (ko) 사용자 음성 중심의 음원 데이터의 생성 시스템 및 방법
Misra et al. Microphone as Sensor in Mobile Phone Performance.
CN110727411A (zh) 一种音频信号的处理方法、装置、存储介质以及终端
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品
CN105976801A (zh) 基于用户实时动作输入的纯音乐自动生成方法
US20140185830A1 (en) Methods, systems, and apparatus for audio backtracking control
CN105741830B (zh) 一种音频合成方法及装置
JP2007149163A (ja) コンテンツ再生装置
TWI470589B (zh) 雲端數位語音教學錄音系統
JP2011154290A (ja) 部分的に一人二重唱になる楽曲の歌唱を支援するカラオケ装置

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20150519