RU2700394C2 - Способ очистки речевой фонограммы - Google Patents

Способ очистки речевой фонограммы Download PDF

Info

Publication number
RU2700394C2
RU2700394C2 RU2017139275A RU2017139275A RU2700394C2 RU 2700394 C2 RU2700394 C2 RU 2700394C2 RU 2017139275 A RU2017139275 A RU 2017139275A RU 2017139275 A RU2017139275 A RU 2017139275A RU 2700394 C2 RU2700394 C2 RU 2700394C2
Authority
RU
Russia
Prior art keywords
module
signal
click
phonogram
clicks
Prior art date
Application number
RU2017139275A
Other languages
English (en)
Other versions
RU2017139275A3 (ru
RU2017139275A (ru
Inventor
Федор Павлович Трошинкин
Original Assignee
Федор Павлович Трошинкин
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федор Павлович Трошинкин filed Critical Федор Павлович Трошинкин
Priority to RU2017139275A priority Critical patent/RU2700394C2/ru
Publication of RU2017139275A3 publication Critical patent/RU2017139275A3/ru
Publication of RU2017139275A publication Critical patent/RU2017139275A/ru
Application granted granted Critical
Publication of RU2700394C2 publication Critical patent/RU2700394C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)

Abstract

Изобретение относится к области вычислительной техники для цифровой обработки звуковой фонограммы. Технический результат заключается в повышении скорости обработки цифровой фонограммы с записью речи. Технический результат достигается за счет способа очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата, который осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором. 1 ил.

Description

Область техники, к которой относится изобретение
Изобретение относится к области звукозаписи, в частности к цифровой обработке звуковой фонограммы.
Характеристика прототипа
Ближайшим аналогом изобретения является US 8311229 В2 - Reduction of clicking sounds in audio data stream, в котором раскрыт метод уменьшения звуков щелчка в потоке аудиоданных. Образцы аудиоданных задерживаются на заданную величину в скользящем окне времени. Производится обнаружение заданного щелчка и замена его на аудиоданные из заранее подготовленного потока. Недостатком данного способа является различие звуков замененных щелчков относительно первоначальной фонограммы, отсутствие единства звучания. В отличие от прототипа в охарактеризованном способе очитка от щелчков производится путем изменения первоначального сигнала, а не заменой его элементов.
Техническая задача, решаемая изобретением
Повышение скорости обработки цифровой фонограммы с записью речи за счет автоматической очистки от артефактов повышенной влажности речевого аппарата.
Сущность изобретения (Раскрытие изобретения)
Сигнал цифровой речевой фонограммы в первоначальном виде насыщен щелчками и импульсными помехами, которые порождены артикуляцией речевого аппарата носителя голоса. В представленном способе учитывается ряд особенностей речевого аппарата человека, что позволяет подробно очистить запись речи от вышеуказанных помех, при этом сохранив качество фонограммы, а также снизить время обработки фонограммы.
Модуль очистки от импульсных щелчков осуществляет полную очистку первоначальной фонограммы путем разбиения цифровыми фильтрами на поддиапазоны. Здесь учтены особенности спектральной огибающей речевого сигнала. Затем осуществляется обработка каждого поддиапазона отдельной обработкой очистки от щелчков, причем для каждого щелчка глубина обработки выбирается с учетом эффективности и максимального сохранения качества. Все поддиапазоны суммируются. В результате получается фонограмма с очищенным речевым сигналом.
Резкие, импульсные звуки при произношении таких букв, как «П», «Т», «К» и подобных как же подверглись обработке и частично удаляются или смягчаются. Полученная речевая фонограмма, где присутствуют вышеуказанные звуки, при субъективном прослушивании ощущается сильно искаженной. Чтобы вышеуказанные звуки присутствовали в фонограмме в неискаженном виде, осуществляется ряд обработок целью которых является восстановление импульсных звуков таких букв, как «П», «Т», «К» и подобных.
На модуль выделения щелчков поступает первоначальная фонограмма, осуществляется обработка элементом очистки от щелчков, инвертирование и суммирование с исходной фонограммой. Таким образом, на выходе получается фонограмма, включающая в себя только ряд импульсных звуков. Дале сигнал поступает на первый модуль задержки.
Из потока фонограммы с импульсами также должны быть выделены только необходимые импульсные звуки, которые были образованы артикуляцией при произношении таких звуков, как «П», «Т», «К» и подобных и добавлены к фонограмме полученной с выхода модуля очистки от импульсных щелчков. Для выделения необходимых звуков используется система динамического подавления всех посторонних импульсных звуков фонограммы в модуле динамической обработки, который включает в себя несколько последовательно соединенных элементов обработки - гейт, компрессор и фильтр. Для осуществления процесса используются два дополнительных служебных модуля. Первый служебный модуль получает сигнал с выхода модуля очистки от импульсных щелчков, фильтрует его, и передает на вход сайдчена первого элемента в модуле динамической обработки - гейта. Задача последнего - подавлять все импульсные щелчки в фонограмме при отсутствии сигнала с первого служебного модуля. Второй служебный модуль забирает сигнал с модуля очистки от импульсных щелчков предварительно пропущенный через второй модуль задержки. Сигнал фильтруется и отправляется на вход сайдчена второго элемента в модуле динамической обработки - компрессора, задачей которого является подавление импульсных щелчков при присутствии сигнала с второго служебного модуля.
Таким образом формируются два потока фонограмм. Первый поток - очищенная речевая фонограмма с выхода модуля очистки от импульсных щелчков, второй поток - фонограмма, содержащая щелчки, образованные при произнесении таких букв, как «П», «Т», «К» и подобных с выхода модуля динамической обработки. Перед суммированием этих сигналов выставлены третий и четвертый модули задержки соответственно, задачей которых является компенсация расхождения и выставление синфазности двух потоков.
В результате финального суммирования получается поток речевой фонограммы, очищенный от большинства нежелательных импульсных помех при этом сохранив яркость и четкость произношения всех букв.
Краткое описание чертежей
На фиг. 1 представлен способ очистки речевой фонограммы, где:
1. Модуль очистки от импульсных щелчков,
2. Модуль выделения щелчков,
3. Модуль динамической обработки,
4. Первый модуль задержки,
5. Второй модуль задержки,
6. Первый служебный сигнал,
7. Второй служебный сигнал,
8. Модуль финальной задержки
9. Сумматор.
Осуществление изобретения
Технический результат достигается при помощи параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков 1, модулем выделения щелчков 2, модулем динамической обработки 3, первым 6 и вторым 7 служебными сигналами, первым 4 и вторым 5 модулями задержки, модулями финальной задержки 8 и сумматором 9. Модуль очистки звука от импульсных щелчков 1 содержит фильтры, разделяющие сигнал на две или более частотных полос и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос. Модуль выделения щелчков 2 производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы. Модуль динамической обработки 3 производит подавление нежелательных импульсных щелчков сигнала полученного с модуля выделения щелчков 2 с помощью экспандера и затем компрессора которые управляются служебными сигналами 6 и 7. Первый служебный сигнал 6 выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки 3. Второй служебный сигнал 7 выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки 3. Служебные сигналы 6 и 7 основаны на сигнале с модуля очистки от импульсных щелчков 1. Сигнал с модуля очистки от импульсных щелчков 1 и модуля динамической обработки 3 синфазно выравниваются с помощью модулей финальной задержки 8 и суммируются при помощи сумматора 9.

Claims (1)

  1. Способ очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором, отличающийся тем, что модуль очистки звука от импульсных щелчков содержит фильтры, разделяющие сигнал на две или более частотных полос, и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос, модуль выделения щелчков производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы, модуль динамической обработки производит подавление нежелательных импульсных щелчков сигнала, полученного с модуля выделения щелчков с помощью экспандера и затем компрессора, которые управляются служебными сигналами, первый служебный сигнал выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки, второй служебный сигнал выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки, служебные сигналы основаны на сигнале с модуля очистки от импульсных щелчков, сигнал с модуля очистки от импульсных щелчков и модуля динамической обработки синфазно выравниваются с помощью модулей финальной задержки и суммируются при помощи сумматора.
RU2017139275A 2017-11-13 2017-11-13 Способ очистки речевой фонограммы RU2700394C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017139275A RU2700394C2 (ru) 2017-11-13 2017-11-13 Способ очистки речевой фонограммы

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017139275A RU2700394C2 (ru) 2017-11-13 2017-11-13 Способ очистки речевой фонограммы

Publications (3)

Publication Number Publication Date
RU2017139275A3 RU2017139275A3 (ru) 2019-05-13
RU2017139275A RU2017139275A (ru) 2019-05-13
RU2700394C2 true RU2700394C2 (ru) 2019-09-16

Family

ID=66548786

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017139275A RU2700394C2 (ru) 2017-11-13 2017-11-13 Способ очистки речевой фонограммы

Country Status (1)

Country Link
RU (1) RU2700394C2 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109225A1 (en) * 2005-03-11 2008-05-08 Kabushiki Kaisha Kenwood Speech Synthesis Device, Speech Synthesis Method, and Program
US20100298959A1 (en) * 2007-08-21 2010-11-25 Voxmol Llc Speech reproducing method, speech reproducing device, and computer program
US20110200048A1 (en) * 1999-04-13 2011-08-18 Thi James C Modem with Voice Processing Capability
US20140188468A1 (en) * 2012-12-28 2014-07-03 Dmitry Dyrmovskiy Apparatus, system and method for calculating passphrase variability
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110200048A1 (en) * 1999-04-13 2011-08-18 Thi James C Modem with Voice Processing Capability
US20080109225A1 (en) * 2005-03-11 2008-05-08 Kabushiki Kaisha Kenwood Speech Synthesis Device, Speech Synthesis Method, and Program
US20100298959A1 (en) * 2007-08-21 2010-11-25 Voxmol Llc Speech reproducing method, speech reproducing device, and computer program
US20140188468A1 (en) * 2012-12-28 2014-07-03 Dmitry Dyrmovskiy Apparatus, system and method for calculating passphrase variability
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке

Also Published As

Publication number Publication date
RU2017139275A3 (ru) 2019-05-13
RU2017139275A (ru) 2019-05-13

Similar Documents

Publication Publication Date Title
EP3204945B1 (en) A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
KR101610662B1 (ko) 분해된 오디오 신호의 재구성 시스템 및 방법
US7492814B1 (en) Method of removing noise and interference from signal using peak picking
US7676046B1 (en) Method of removing noise and interference from signal
WO2002005262A3 (en) Sub-band exponential smoothing noise canceling system
EP2124485A3 (en) Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
Roman et al. Pitch-based monaural segregation of reverberant speech
US11051121B2 (en) Spectral defect compensation for crosstalk processing of spatial audio signals
EP3731227A1 (en) Voice signal enhancing method and device
Braun et al. Task splitting for dnn-based acoustic echo and noise removal
RU2700394C2 (ru) Способ очистки речевой фонограммы
JP2013007944A5 (ru)
TWI421858B (zh) 用於處理音頻訊號的系統及方法
Luo et al. Audio-visual speech separation using i-vectors
KR100848789B1 (ko) 크로스토크를 제거하기 위한 후처리 방법
Tawara et al. Adversarial autoencoder for reducing nonlinear distortion
CN109791773B (zh) 音频输出产生系统、音频通道输出方法和计算机可读介质
Bhagat et al. Improved audio filtering using extended high pass filters
Wager et al. Dereverberation using joint estimation of dry speech signal and acoustic system
Childers et al. Co--Channel speech separation
Chen et al. Dereverberation based on bin-wise temporal variations of complex spectrogram
Zhigalov Applying a proven filtering method to adjust the training sample of neural networks
WO2002082426A1 (en) Adpcm speech coding system with phase-smearing and phase-desmearing filters
TWI634549B (zh) 音訊強化裝置及方法
Nakamura et al. Unaliasing of Recorded Signals Based on Blind Source Separation

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20191114