RU2701120C1 - Устройство для обработки речевого сигнала - Google Patents
Устройство для обработки речевого сигнала Download PDFInfo
- Publication number
- RU2701120C1 RU2701120C1 RU2018117773A RU2018117773A RU2701120C1 RU 2701120 C1 RU2701120 C1 RU 2701120C1 RU 2018117773 A RU2018117773 A RU 2018117773A RU 2018117773 A RU2018117773 A RU 2018117773A RU 2701120 C1 RU2701120 C1 RU 2701120C1
- Authority
- RU
- Russia
- Prior art keywords
- digital
- filter
- speech signal
- coefficients
- detector
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 11
- 230000003534 oscillatory effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 3
- 238000004870 electrical engineering Methods 0.000 abstract 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000000034 method Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004040 coloring Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Изобретение относится к области электротехники и может быть использовано в автоматизированных комплексах связи. Технический результат заключается в повышении надежности работы устройства в условиях высоких шумов. Устройство для обработки речевого сигнала состоит из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, и исполнительного блока. Выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем. Исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра. В первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12. Выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки. На первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум. 1 ил.
Description
Изобретение относится к области кибернетики и вычислительной техники и может быть использовано в комплексных системах автоматического распознавания речевых сигналов.
Идентификация человека по голосу - один из традиционных способов распознавания, применяемый повсеместно. Можно легко узнать собеседника по телефону, не видя его. Также можно определить психологическое состояние по эмоциональной окраске голоса.
Одной из основных целей машинного автоматического распознавания голоса (речи) является создание ориентированного на человека интерфейса компьютерных систем.
Распознавание голоса происходит следующим образом: при помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фокусируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема - это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса является лишь опознавание говорящего (что и означает термин «распознавание голоса»), то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы.
После преобразования акустического сигнала в слова и предложения начинается этап обработки естественного языка. В процессе обработки лингвистической информации последовательности слов, на основании контекста, шаблонов речи и, возможно, априорных знаний о предмете разговора, разбиваются на логические единицы - фразы. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны компьютерной системе или конкретному приложению.
Так как голосовая идентификация бесконтактная и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес к этой области связи связан еще и с прогнозами повсеместного внедрения голосовых интерфейсов.
Сегодня существуют два основных вида технологий распознавания голоса. Один из них - это распознавание речи, зависящее от диктора, т.е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи независящее от диктора, т.е. система способна распознать любую речь, независимо от того, кто говорит.
Известно устройство автоматического распознавания говорящего по голосу. Патент РФ на ПМ №102408 от 27.02.2011 г., а также Устройство автоматического распознавания речи. Катанович А.А., Ершов В.Н. Комплексы и системы связи ВМФ. Судостроение, СПб., 2014 г. 231 с.
Устройство содержит блок обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, при этом нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления.
Известна также «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07. 2008 г.
Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей, параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока, состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.
Однако известные системы не полностью учитывают индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализаций, осуществляемых всеми тремя программами вместе, а также высокую стоимость.
Цель изобретения - расширение технических средств автоматического распознавания речевых сигналов.
Поставленная цель достигается за счет того, что в устройстве, состоящем из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП) и исполнительного блока, при этом исполнительный блок, состоит из первого цифрового колебательного фильтра (под цифровым колебательным фильтром здесь понимается цифро-аналоговый преобразователь (ЦАП), на выходе которого стоит полосовой фильтр с полосой пропускания равной полосе стандартного спектра человеческого голоса), линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра (функциональных элементов-резисторов резистивной матрицы ЦАП, Радиотехника: Энциклопедия / Под ред. Ю.Л. Мазора, Е.А. Мачусского, В.И. Правды. - М.: ДМК Пресс, 2016, с. 769) составляет от 10 до 12 (a1, …а12), выходы этих элементов соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается тон и случайный шум.
На фиг. показана функциональная схема устройства, она содержит:
1 - детектор огибающей; 2 - нормализатор уровня;
3 - детектор основного тона; 4 - спектрально-полосовой анализатор;
5 - аналого-цифровой преобразователь;
6 - первый цифровой колебательный фильтр; 7 - линия задержки;
8 - устройство изменяемых коэффициентов;
9 - второй цифровой колебательный контур.
Работа устройства осуществляется следующим образом. Речевой сигнал через микрофон и усилитель (на фиг. не показано) поступает на вход детекторов огибающей 1, основного тона 3 и нормализатор уровня 2, а затем на спектрально полосовой анализатор 4, с которого он через аналого-цифровой преобразователь 5 - в цифровой колебательный фильтр 6.
Согласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов точно соответствует периоду основного тона голоса. Динамические характеристики колокола меняются, чтобы получить форму, близкую к голосовой фразе. В качестве колокола используется цифровой колебательный фильтр 6.
Число коэффициентов числового колебательного фильтра 6 колеблется от 10 до 12 (a1, …a12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Поток команд на изменение коэффициентов поступает с устройства 8 на функциональные элементы коэффициентов, для изменения их номиналов и, соответственно, электрических характеристик. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчетов («ударов»).
Вычисление параметров предсказателя (цифрового фильтра) находим решением системы из 10…12 линейных уравнений. Для того чтобы понизить вычислительную нагрузку частоту дискретизации понижаем до 8 кГц.
При имитации согласованных звуков на вход цифрового колебательного фильтра подается периодическая последовательность импульсов, промодулированных по амплитуде. В этом случае на входе второго колебательного фильтра 9 появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход подают случайный шум нужной амплитуды.
При обучении системы на ее вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую последовательность коэффициентов линейного предсказателя. Получается массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.
В аналоговой части системы происходит описание голосов верифицируемых операторов и распознаваемых команд. В операционной
части системы происходит установление принадлежности голоса оператора к классу «Свой» или «Чужой».
Таким образом, использование аппарата линейного предсказания уменьшает количество ошибок (пропуск чужого) до 0,00000001%.
Предложенная система также позволяет и существенно сократить объем запоминаемой информации (в 8-10 раз по сравнению с использованием индивидуальных эталонных изображений звуков).
Раздельная нормализация индивидуального различия говорящих (ИРГ) для различных групп сонорных звуков (гласных и сонантов) эффективна лишь в том случае, когда процедура классификации звуков из указанных групп осуществляется также раздельно, т.е. сначала определяется принадлежность неизвестного звука, а затем его место внутри найденной группы
Claims (1)
- Устройство для обработки речевого сигнала, состоящее из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП), и исполнительного блока, отличающееся тем, что исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12 (а1…а12), выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018117773A RU2701120C1 (ru) | 2018-05-14 | 2018-05-14 | Устройство для обработки речевого сигнала |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2018117773A RU2701120C1 (ru) | 2018-05-14 | 2018-05-14 | Устройство для обработки речевого сигнала |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2701120C1 true RU2701120C1 (ru) | 2019-09-24 |
Family
ID=68063541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018117773A RU2701120C1 (ru) | 2018-05-14 | 2018-05-14 | Устройство для обработки речевого сигнала |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2701120C1 (ru) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366649B1 (en) * | 1997-08-28 | 2002-04-02 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice registration entries of voice recognition apparatus for use in both handset and hands-free kit |
RU2231133C2 (ru) * | 2000-06-01 | 2004-06-20 | Юрьев Дмитрий Николаевич | Способ распознавания звуков |
RU2231830C2 (ru) * | 2000-06-01 | 2004-06-27 | Юрьев Дмитрий Николаевич | Способ распознавания звуков |
WO2004072948A2 (en) * | 2003-02-07 | 2004-08-26 | Motorola, Inc. | Class quantization for distributed speech recognition |
JP3803029B2 (ja) * | 1998-09-09 | 2006-08-02 | 旭化成株式会社 | 音声認識装置 |
RU75074U1 (ru) * | 2008-01-25 | 2008-07-20 | 24 Центральный научно-исследовательский институт Министерства обороны РФ | Комплексная система автоматического распознавания речевых сигналов |
RU102408U1 (ru) * | 2010-10-29 | 2011-02-27 | Андрей Андреевич Катанович | Устройство автоматического распознавания говорящего по голосу |
US8577675B2 (en) * | 2003-12-29 | 2013-11-05 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
-
2018
- 2018-05-14 RU RU2018117773A patent/RU2701120C1/ru not_active IP Right Cessation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6366649B1 (en) * | 1997-08-28 | 2002-04-02 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice registration entries of voice recognition apparatus for use in both handset and hands-free kit |
JP3803029B2 (ja) * | 1998-09-09 | 2006-08-02 | 旭化成株式会社 | 音声認識装置 |
RU2231133C2 (ru) * | 2000-06-01 | 2004-06-20 | Юрьев Дмитрий Николаевич | Способ распознавания звуков |
RU2231830C2 (ru) * | 2000-06-01 | 2004-06-27 | Юрьев Дмитрий Николаевич | Способ распознавания звуков |
WO2004072948A2 (en) * | 2003-02-07 | 2004-08-26 | Motorola, Inc. | Class quantization for distributed speech recognition |
US8577675B2 (en) * | 2003-12-29 | 2013-11-05 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
RU75074U1 (ru) * | 2008-01-25 | 2008-07-20 | 24 Центральный научно-исследовательский институт Министерства обороны РФ | Комплексная система автоматического распознавания речевых сигналов |
RU102408U1 (ru) * | 2010-10-29 | 2011-02-27 | Андрей Андреевич Катанович | Устройство автоматического распознавания говорящего по голосу |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2007210334B2 (en) | Non-intrusive signal quality assessment | |
KR100643310B1 (ko) | 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치 | |
US20070185715A1 (en) | Method and apparatus for generating a frequency warping function and for frequency warping | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
JPH0361959B2 (ru) | ||
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
WO2000077772A2 (en) | Speech and voice signal preprocessing | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
JPH02298998A (ja) | 音声認識装置とその方法 | |
Hagen | Robust speech recognition based on multi-stream processing | |
WO2021152566A1 (en) | System and method for shielding speaker voice print in audio signals | |
RU2701120C1 (ru) | Устройство для обработки речевого сигнала | |
US10957318B2 (en) | Dynamic voice authentication | |
CN113314109B (zh) | 一种基于循环生成网络的语音生成方法 | |
RU80000U1 (ru) | Устройство для фонетического анализа речи | |
Chen et al. | CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application | |
Maciejewski et al. | Speaker Verification-Based Evaluation of Single-Channel Speech Separation. | |
RU2296376C2 (ru) | Способ распознавания слов речи | |
JPH0315898A (ja) | 音声認識方法 | |
RU2234746C2 (ru) | Способ дикторонезависимого распознавания звуков речи | |
Punchihewa et al. | Voice command interpretation for robot control | |
CN111199747A (zh) | 人工智能通信系统及通信方法 | |
JPH04324499A (ja) | 音声認識装置 | |
Jangir et al. | Voice Identification Secure System by Statistical Model of Speech Signal Using Normalization Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20200515 |