RU2700394C2 - Способ очистки речевой фонограммы - Google Patents
Способ очистки речевой фонограммы Download PDFInfo
- Publication number
- RU2700394C2 RU2700394C2 RU2017139275A RU2017139275A RU2700394C2 RU 2700394 C2 RU2700394 C2 RU 2700394C2 RU 2017139275 A RU2017139275 A RU 2017139275A RU 2017139275 A RU2017139275 A RU 2017139275A RU 2700394 C2 RU2700394 C2 RU 2700394C2
- Authority
- RU
- Russia
- Prior art keywords
- module
- signal
- click
- phonogram
- clicks
- Prior art date
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims abstract description 10
- 230000001934 delay Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000000746 purification Methods 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Noise Elimination (AREA)
Abstract
Изобретение относится к области вычислительной техники для цифровой обработки звуковой фонограммы. Технический результат заключается в повышении скорости обработки цифровой фонограммы с записью речи. Технический результат достигается за счет способа очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата, который осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором. 1 ил.
Description
Область техники, к которой относится изобретение
Изобретение относится к области звукозаписи, в частности к цифровой обработке звуковой фонограммы.
Характеристика прототипа
Ближайшим аналогом изобретения является US 8311229 В2 - Reduction of clicking sounds in audio data stream, в котором раскрыт метод уменьшения звуков щелчка в потоке аудиоданных. Образцы аудиоданных задерживаются на заданную величину в скользящем окне времени. Производится обнаружение заданного щелчка и замена его на аудиоданные из заранее подготовленного потока. Недостатком данного способа является различие звуков замененных щелчков относительно первоначальной фонограммы, отсутствие единства звучания. В отличие от прототипа в охарактеризованном способе очитка от щелчков производится путем изменения первоначального сигнала, а не заменой его элементов.
Техническая задача, решаемая изобретением
Повышение скорости обработки цифровой фонограммы с записью речи за счет автоматической очистки от артефактов повышенной влажности речевого аппарата.
Сущность изобретения (Раскрытие изобретения)
Сигнал цифровой речевой фонограммы в первоначальном виде насыщен щелчками и импульсными помехами, которые порождены артикуляцией речевого аппарата носителя голоса. В представленном способе учитывается ряд особенностей речевого аппарата человека, что позволяет подробно очистить запись речи от вышеуказанных помех, при этом сохранив качество фонограммы, а также снизить время обработки фонограммы.
Модуль очистки от импульсных щелчков осуществляет полную очистку первоначальной фонограммы путем разбиения цифровыми фильтрами на поддиапазоны. Здесь учтены особенности спектральной огибающей речевого сигнала. Затем осуществляется обработка каждого поддиапазона отдельной обработкой очистки от щелчков, причем для каждого щелчка глубина обработки выбирается с учетом эффективности и максимального сохранения качества. Все поддиапазоны суммируются. В результате получается фонограмма с очищенным речевым сигналом.
Резкие, импульсные звуки при произношении таких букв, как «П», «Т», «К» и подобных как же подверглись обработке и частично удаляются или смягчаются. Полученная речевая фонограмма, где присутствуют вышеуказанные звуки, при субъективном прослушивании ощущается сильно искаженной. Чтобы вышеуказанные звуки присутствовали в фонограмме в неискаженном виде, осуществляется ряд обработок целью которых является восстановление импульсных звуков таких букв, как «П», «Т», «К» и подобных.
На модуль выделения щелчков поступает первоначальная фонограмма, осуществляется обработка элементом очистки от щелчков, инвертирование и суммирование с исходной фонограммой. Таким образом, на выходе получается фонограмма, включающая в себя только ряд импульсных звуков. Дале сигнал поступает на первый модуль задержки.
Из потока фонограммы с импульсами также должны быть выделены только необходимые импульсные звуки, которые были образованы артикуляцией при произношении таких звуков, как «П», «Т», «К» и подобных и добавлены к фонограмме полученной с выхода модуля очистки от импульсных щелчков. Для выделения необходимых звуков используется система динамического подавления всех посторонних импульсных звуков фонограммы в модуле динамической обработки, который включает в себя несколько последовательно соединенных элементов обработки - гейт, компрессор и фильтр. Для осуществления процесса используются два дополнительных служебных модуля. Первый служебный модуль получает сигнал с выхода модуля очистки от импульсных щелчков, фильтрует его, и передает на вход сайдчена первого элемента в модуле динамической обработки - гейта. Задача последнего - подавлять все импульсные щелчки в фонограмме при отсутствии сигнала с первого служебного модуля. Второй служебный модуль забирает сигнал с модуля очистки от импульсных щелчков предварительно пропущенный через второй модуль задержки. Сигнал фильтруется и отправляется на вход сайдчена второго элемента в модуле динамической обработки - компрессора, задачей которого является подавление импульсных щелчков при присутствии сигнала с второго служебного модуля.
Таким образом формируются два потока фонограмм. Первый поток - очищенная речевая фонограмма с выхода модуля очистки от импульсных щелчков, второй поток - фонограмма, содержащая щелчки, образованные при произнесении таких букв, как «П», «Т», «К» и подобных с выхода модуля динамической обработки. Перед суммированием этих сигналов выставлены третий и четвертый модули задержки соответственно, задачей которых является компенсация расхождения и выставление синфазности двух потоков.
В результате финального суммирования получается поток речевой фонограммы, очищенный от большинства нежелательных импульсных помех при этом сохранив яркость и четкость произношения всех букв.
Краткое описание чертежей
На фиг. 1 представлен способ очистки речевой фонограммы, где:
1. Модуль очистки от импульсных щелчков,
2. Модуль выделения щелчков,
3. Модуль динамической обработки,
4. Первый модуль задержки,
5. Второй модуль задержки,
6. Первый служебный сигнал,
7. Второй служебный сигнал,
8. Модуль финальной задержки
9. Сумматор.
Осуществление изобретения
Технический результат достигается при помощи параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков 1, модулем выделения щелчков 2, модулем динамической обработки 3, первым 6 и вторым 7 служебными сигналами, первым 4 и вторым 5 модулями задержки, модулями финальной задержки 8 и сумматором 9. Модуль очистки звука от импульсных щелчков 1 содержит фильтры, разделяющие сигнал на две или более частотных полос и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос. Модуль выделения щелчков 2 производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы. Модуль динамической обработки 3 производит подавление нежелательных импульсных щелчков сигнала полученного с модуля выделения щелчков 2 с помощью экспандера и затем компрессора которые управляются служебными сигналами 6 и 7. Первый служебный сигнал 6 выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки 3. Второй служебный сигнал 7 выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки 3. Служебные сигналы 6 и 7 основаны на сигнале с модуля очистки от импульсных щелчков 1. Сигнал с модуля очистки от импульсных щелчков 1 и модуля динамической обработки 3 синфазно выравниваются с помощью модулей финальной задержки 8 и суммируются при помощи сумматора 9.
Claims (1)
- Способ очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором, отличающийся тем, что модуль очистки звука от импульсных щелчков содержит фильтры, разделяющие сигнал на две или более частотных полос, и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос, модуль выделения щелчков производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы, модуль динамической обработки производит подавление нежелательных импульсных щелчков сигнала, полученного с модуля выделения щелчков с помощью экспандера и затем компрессора, которые управляются служебными сигналами, первый служебный сигнал выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки, второй служебный сигнал выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки, служебные сигналы основаны на сигнале с модуля очистки от импульсных щелчков, сигнал с модуля очистки от импульсных щелчков и модуля динамической обработки синфазно выравниваются с помощью модулей финальной задержки и суммируются при помощи сумматора.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017139275A RU2700394C2 (ru) | 2017-11-13 | 2017-11-13 | Способ очистки речевой фонограммы |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017139275A RU2700394C2 (ru) | 2017-11-13 | 2017-11-13 | Способ очистки речевой фонограммы |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017139275A3 RU2017139275A3 (ru) | 2019-05-13 |
RU2017139275A RU2017139275A (ru) | 2019-05-13 |
RU2700394C2 true RU2700394C2 (ru) | 2019-09-16 |
Family
ID=66548786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017139275A RU2700394C2 (ru) | 2017-11-13 | 2017-11-13 | Способ очистки речевой фонограммы |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2700394C2 (ru) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109225A1 (en) * | 2005-03-11 | 2008-05-08 | Kabushiki Kaisha Kenwood | Speech Synthesis Device, Speech Synthesis Method, and Program |
US20100298959A1 (en) * | 2007-08-21 | 2010-11-25 | Voxmol Llc | Speech reproducing method, speech reproducing device, and computer program |
US20110200048A1 (en) * | 1999-04-13 | 2011-08-18 | Thi James C | Modem with Voice Processing Capability |
US20140188468A1 (en) * | 2012-12-28 | 2014-07-03 | Dmitry Dyrmovskiy | Apparatus, system and method for calculating passphrase variability |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
-
2017
- 2017-11-13 RU RU2017139275A patent/RU2700394C2/ru not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110200048A1 (en) * | 1999-04-13 | 2011-08-18 | Thi James C | Modem with Voice Processing Capability |
US20080109225A1 (en) * | 2005-03-11 | 2008-05-08 | Kabushiki Kaisha Kenwood | Speech Synthesis Device, Speech Synthesis Method, and Program |
US20100298959A1 (en) * | 2007-08-21 | 2010-11-25 | Voxmol Llc | Speech reproducing method, speech reproducing device, and computer program |
US20140188468A1 (en) * | 2012-12-28 | 2014-07-03 | Dmitry Dyrmovskiy | Apparatus, system and method for calculating passphrase variability |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
Also Published As
Publication number | Publication date |
---|---|
RU2017139275A3 (ru) | 2019-05-13 |
RU2017139275A (ru) | 2019-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3204945B1 (en) | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal | |
KR101610662B1 (ko) | 분해된 오디오 신호의 재구성 시스템 및 방법 | |
US7492814B1 (en) | Method of removing noise and interference from signal using peak picking | |
US7676046B1 (en) | Method of removing noise and interference from signal | |
WO2002005262A3 (en) | Sub-band exponential smoothing noise canceling system | |
EP2124485A3 (en) | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
US11051121B2 (en) | Spectral defect compensation for crosstalk processing of spatial audio signals | |
EP3731227A1 (en) | Voice signal enhancing method and device | |
Braun et al. | Task splitting for dnn-based acoustic echo and noise removal | |
RU2700394C2 (ru) | Способ очистки речевой фонограммы | |
JP2013007944A5 (ru) | ||
TWI421858B (zh) | 用於處理音頻訊號的系統及方法 | |
Luo et al. | Audio-visual speech separation using i-vectors | |
KR100848789B1 (ko) | 크로스토크를 제거하기 위한 후처리 방법 | |
Tawara et al. | Adversarial autoencoder for reducing nonlinear distortion | |
CN109791773B (zh) | 音频输出产生系统、音频通道输出方法和计算机可读介质 | |
Bhagat et al. | Improved audio filtering using extended high pass filters | |
Wager et al. | Dereverberation using joint estimation of dry speech signal and acoustic system | |
Childers et al. | Co--Channel speech separation | |
Chen et al. | Dereverberation based on bin-wise temporal variations of complex spectrogram | |
Zhigalov | Applying a proven filtering method to adjust the training sample of neural networks | |
WO2002082426A1 (en) | Adpcm speech coding system with phase-smearing and phase-desmearing filters | |
TWI634549B (zh) | 音訊強化裝置及方法 | |
Nakamura et al. | Unaliasing of Recorded Signals Based on Blind Source Separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20191114 |