RU2701120C1 - Устройство для обработки речевого сигнала - Google Patents

Устройство для обработки речевого сигнала Download PDF

Info

Publication number
RU2701120C1
RU2701120C1 RU2018117773A RU2018117773A RU2701120C1 RU 2701120 C1 RU2701120 C1 RU 2701120C1 RU 2018117773 A RU2018117773 A RU 2018117773A RU 2018117773 A RU2018117773 A RU 2018117773A RU 2701120 C1 RU2701120 C1 RU 2701120C1
Authority
RU
Russia
Prior art keywords
digital
filter
speech signal
coefficients
detector
Prior art date
Application number
RU2018117773A
Other languages
English (en)
Inventor
Андрей Андреевич Катанович
Андрей Андреевич Привалов
Павел Валерьевич Попов
Original Assignee
Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" filed Critical Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова"
Priority to RU2018117773A priority Critical patent/RU2701120C1/ru
Application granted granted Critical
Publication of RU2701120C1 publication Critical patent/RU2701120C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Изобретение относится к области электротехники и может быть использовано в автоматизированных комплексах связи. Технический результат заключается в повышении надежности работы устройства в условиях высоких шумов. Устройство для обработки речевого сигнала состоит из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, и исполнительного блока. Выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем. Исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра. В первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12. Выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки. На первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум. 1 ил.

Description

Изобретение относится к области кибернетики и вычислительной техники и может быть использовано в комплексных системах автоматического распознавания речевых сигналов.
Идентификация человека по голосу - один из традиционных способов распознавания, применяемый повсеместно. Можно легко узнать собеседника по телефону, не видя его. Также можно определить психологическое состояние по эмоциональной окраске голоса.
Одной из основных целей машинного автоматического распознавания голоса (речи) является создание ориентированного на человека интерфейса компьютерных систем.
Распознавание голоса происходит следующим образом: при помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фокусируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема - это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса является лишь опознавание говорящего (что и означает термин «распознавание голоса»), то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы.
После преобразования акустического сигнала в слова и предложения начинается этап обработки естественного языка. В процессе обработки лингвистической информации последовательности слов, на основании контекста, шаблонов речи и, возможно, априорных знаний о предмете разговора, разбиваются на логические единицы - фразы. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны компьютерной системе или конкретному приложению.
Так как голосовая идентификация бесконтактная и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес к этой области связи связан еще и с прогнозами повсеместного внедрения голосовых интерфейсов.
Сегодня существуют два основных вида технологий распознавания голоса. Один из них - это распознавание речи, зависящее от диктора, т.е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи независящее от диктора, т.е. система способна распознать любую речь, независимо от того, кто говорит.
Известно устройство автоматического распознавания говорящего по голосу. Патент РФ на ПМ №102408 от 27.02.2011 г., а также Устройство автоматического распознавания речи. Катанович А.А., Ершов В.Н. Комплексы и системы связи ВМФ. Судостроение, СПб., 2014 г. 231 с.
Устройство содержит блок обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, при этом нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления.
Известна также «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07. 2008 г.
Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей, параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока, состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.
Однако известные системы не полностью учитывают индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализаций, осуществляемых всеми тремя программами вместе, а также высокую стоимость.
Цель изобретения - расширение технических средств автоматического распознавания речевых сигналов.
Поставленная цель достигается за счет того, что в устройстве, состоящем из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП) и исполнительного блока, при этом исполнительный блок, состоит из первого цифрового колебательного фильтра (под цифровым колебательным фильтром здесь понимается цифро-аналоговый преобразователь (ЦАП), на выходе которого стоит полосовой фильтр с полосой пропускания равной полосе стандартного спектра человеческого голоса), линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра (функциональных элементов-резисторов резистивной матрицы ЦАП, Радиотехника: Энциклопедия / Под ред. Ю.Л. Мазора, Е.А. Мачусского, В.И. Правды. - М.: ДМК Пресс, 2016, с. 769) составляет от 10 до 12 (a1, …а12), выходы этих элементов соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается тон и случайный шум.
На фиг. показана функциональная схема устройства, она содержит:
1 - детектор огибающей; 2 - нормализатор уровня;
3 - детектор основного тона; 4 - спектрально-полосовой анализатор;
5 - аналого-цифровой преобразователь;
6 - первый цифровой колебательный фильтр; 7 - линия задержки;
8 - устройство изменяемых коэффициентов;
9 - второй цифровой колебательный контур.
Работа устройства осуществляется следующим образом. Речевой сигнал через микрофон и усилитель (на фиг. не показано) поступает на вход детекторов огибающей 1, основного тона 3 и нормализатор уровня 2, а затем на спектрально полосовой анализатор 4, с которого он через аналого-цифровой преобразователь 5 - в цифровой колебательный фильтр 6.
Согласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов точно соответствует периоду основного тона голоса. Динамические характеристики колокола меняются, чтобы получить форму, близкую к голосовой фразе. В качестве колокола используется цифровой колебательный фильтр 6.
Число коэффициентов числового колебательного фильтра 6 колеблется от 10 до 12 (a1, …a12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Поток команд на изменение коэффициентов поступает с устройства 8 на функциональные элементы коэффициентов, для изменения их номиналов и, соответственно, электрических характеристик. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчетов («ударов»).
Вычисление параметров предсказателя (цифрового фильтра) находим решением системы из 10…12 линейных уравнений. Для того чтобы понизить вычислительную нагрузку частоту дискретизации понижаем до 8 кГц.
При имитации согласованных звуков на вход цифрового колебательного фильтра подается периодическая последовательность импульсов, промодулированных по амплитуде. В этом случае на входе второго колебательного фильтра 9 появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход подают случайный шум нужной амплитуды.
При обучении системы на ее вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую последовательность коэффициентов линейного предсказателя. Получается массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.
В аналоговой части системы происходит описание голосов верифицируемых операторов и распознаваемых команд. В операционной
части системы происходит установление принадлежности голоса оператора к классу «Свой» или «Чужой».
Таким образом, использование аппарата линейного предсказания уменьшает количество ошибок (пропуск чужого) до 0,00000001%.
Предложенная система также позволяет и существенно сократить объем запоминаемой информации (в 8-10 раз по сравнению с использованием индивидуальных эталонных изображений звуков).
Раздельная нормализация индивидуального различия говорящих (ИРГ) для различных групп сонорных звуков (гласных и сонантов) эффективна лишь в том случае, когда процедура классификации звуков из указанных групп осуществляется также раздельно, т.е. сначала определяется принадлежность неизвестного звука, а затем его место внутри найденной группы

Claims (1)

  1. Устройство для обработки речевого сигнала, состоящее из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП), и исполнительного блока, отличающееся тем, что исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12 (а1…а12), выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум.
RU2018117773A 2018-05-14 2018-05-14 Устройство для обработки речевого сигнала RU2701120C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2018117773A RU2701120C1 (ru) 2018-05-14 2018-05-14 Устройство для обработки речевого сигнала

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018117773A RU2701120C1 (ru) 2018-05-14 2018-05-14 Устройство для обработки речевого сигнала

Publications (1)

Publication Number Publication Date
RU2701120C1 true RU2701120C1 (ru) 2019-09-24

Family

ID=68063541

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018117773A RU2701120C1 (ru) 2018-05-14 2018-05-14 Устройство для обработки речевого сигнала

Country Status (1)

Country Link
RU (1) RU2701120C1 (ru)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366649B1 (en) * 1997-08-28 2002-04-02 Samsung Electronics Co., Ltd. Method and apparatus for managing voice registration entries of voice recognition apparatus for use in both handset and hands-free kit
RU2231133C2 (ru) * 2000-06-01 2004-06-20 Юрьев Дмитрий Николаевич Способ распознавания звуков
RU2231830C2 (ru) * 2000-06-01 2004-06-27 Юрьев Дмитрий Николаевич Способ распознавания звуков
WO2004072948A2 (en) * 2003-02-07 2004-08-26 Motorola, Inc. Class quantization for distributed speech recognition
JP3803029B2 (ja) * 1998-09-09 2006-08-02 旭化成株式会社 音声認識装置
RU75074U1 (ru) * 2008-01-25 2008-07-20 24 Центральный научно-исследовательский институт Министерства обороны РФ Комплексная система автоматического распознавания речевых сигналов
RU102408U1 (ru) * 2010-10-29 2011-02-27 Андрей Андреевич Катанович Устройство автоматического распознавания говорящего по голосу
US8577675B2 (en) * 2003-12-29 2013-11-05 Nokia Corporation Method and device for speech enhancement in the presence of background noise

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366649B1 (en) * 1997-08-28 2002-04-02 Samsung Electronics Co., Ltd. Method and apparatus for managing voice registration entries of voice recognition apparatus for use in both handset and hands-free kit
JP3803029B2 (ja) * 1998-09-09 2006-08-02 旭化成株式会社 音声認識装置
RU2231133C2 (ru) * 2000-06-01 2004-06-20 Юрьев Дмитрий Николаевич Способ распознавания звуков
RU2231830C2 (ru) * 2000-06-01 2004-06-27 Юрьев Дмитрий Николаевич Способ распознавания звуков
WO2004072948A2 (en) * 2003-02-07 2004-08-26 Motorola, Inc. Class quantization for distributed speech recognition
US8577675B2 (en) * 2003-12-29 2013-11-05 Nokia Corporation Method and device for speech enhancement in the presence of background noise
RU75074U1 (ru) * 2008-01-25 2008-07-20 24 Центральный научно-исследовательский институт Министерства обороны РФ Комплексная система автоматического распознавания речевых сигналов
RU102408U1 (ru) * 2010-10-29 2011-02-27 Андрей Андреевич Катанович Устройство автоматического распознавания говорящего по голосу

Similar Documents

Publication Publication Date Title
AU2007210334B2 (en) Non-intrusive signal quality assessment
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
US20070185715A1 (en) Method and apparatus for generating a frequency warping function and for frequency warping
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
JPH0361959B2 (ru)
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
WO2000077772A2 (en) Speech and voice signal preprocessing
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
JPH02298998A (ja) 音声認識装置とその方法
Hagen Robust speech recognition based on multi-stream processing
WO2021152566A1 (en) System and method for shielding speaker voice print in audio signals
RU2701120C1 (ru) Устройство для обработки речевого сигнала
US10957318B2 (en) Dynamic voice authentication
CN113314109B (zh) 一种基于循环生成网络的语音生成方法
RU80000U1 (ru) Устройство для фонетического анализа речи
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
Maciejewski et al. Speaker Verification-Based Evaluation of Single-Channel Speech Separation.
RU2296376C2 (ru) Способ распознавания слов речи
JPH0315898A (ja) 音声認識方法
RU2234746C2 (ru) Способ дикторонезависимого распознавания звуков речи
Punchihewa et al. Voice command interpretation for robot control
CN111199747A (zh) 人工智能通信系统及通信方法
JPH04324499A (ja) 音声認識装置
Jangir et al. Voice Identification Secure System by Statistical Model of Speech Signal Using Normalization Technique

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20200515