RU102408U1 - Устройство автоматического распознавания говорящего по голосу - Google Patents
Устройство автоматического распознавания говорящего по голосу Download PDFInfo
- Publication number
- RU102408U1 RU102408U1 RU2010144573/08U RU2010144573U RU102408U1 RU 102408 U1 RU102408 U1 RU 102408U1 RU 2010144573/08 U RU2010144573/08 U RU 2010144573/08U RU 2010144573 U RU2010144573 U RU 2010144573U RU 102408 U1 RU102408 U1 RU 102408U1
- Authority
- RU
- Russia
- Prior art keywords
- pass filter
- microphone
- voice
- envelope detector
- recognition device
- Prior art date
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Устройство автоматического распознавания говорящего по голосу, состоящее из блока обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, отличающееся тем, что нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления, который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон типа ДЭМШ.
Description
Полезная модель относиться к области электрорадиотехники, а именно, к устройствам распознавания речевых сигналов и может быть использована на стационарных и подвижных объектах.
Необходимость разработки автоматических устройств опознавания говорящего по голосу главным образом диктуется практикой. Так, например, требуется подтвердить (верифицировать) определенную личность в контрольных и пропускных пунктах, чтобы обеспечить допуск лишь ограниченного круга лиц к управлению механизмами специального назначения или к различным информационным системам. Кроме того, проблема автоматического опознавания индивидуального голоса имеет большое значение в решении ряда криминалистических задач, в военном деле, в частности в области радиоразведки и др.
Известен Патент США. Система распознавания речи. Кл. 338-18 №3292116. В этой системе предлагается корректор, имеющий набор частотных характеристик с крутизной подъема в сторону высоких частот, равной 6, 12, и 24 дБ/окт. В зависимости от соотношения уровней входного сигнала в полосах 100-500 Гц и 500-5000 Гц включается управляющая цепь с соответствующей корректирующей характеристикой.
Наиболее близкой к заявляемому устройству является «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07.08 г. Автор Катанович А.А. и др.
Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.
Однако, как аналог, так и прототип недостаточно способны учитывать индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализации, осуществляемо всеми тремя программами вместе, а также высокую стоимость.
Целью полезной модели является повышения надежности работы устройства, а также упрощения его конструкции.
Поставленная цель достигается тем, что устройство автоматического распознавания говорящего по голосу состоящее из блока обработки речевого сигнала, в который входит микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, причем нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон, типа ДЭМШ.
На Фиг.1 приведена структурная схема устройства.
На Фиг.2 - зависимость ошибки анализа от номера сеанса при адаптации эталонов.
Структурная схема, показанная на Фиг.1 содержит:
1 - шумостойкий микрофон;
2 - предварительный усилитель;
3 - высокочастотный усилитель;
4 - усилитель с автоматической регулировкой усиления (АРУ) диапазон 40 дБ
5 - полосовой фильтр;
6 - детектор огибающей;
7 - фильтр нижних частот.
В микрофоне, помимо сужения полосы пропускания и, значит, потери полезной голосовой информации, речевой сигнал подвергается воздействию внутриканальных искажающих факторов, таких как специфические трески и шумы. Поэтому с целью отстраивания от внешних шумов в устройстве применен шумостойкий микрофон типа ДЭМШ.
Работа системы осуществляется следующим образом.
Речевой сигнал через микрофон 1 и усилители 2 и 3 попадает на нормализатор уровня сигнала. Роль нормализатора выполняет схема автоматического регулирования усилителя 4, позволяющая работать в динамическом диапазоне 40 дБ. Нормализованный сигнал далее поступает на 16 - канальную гребенку полосовых фильтров 5, равномерно накрывающих диапазон 300-3000 Гц. Полоса пропускания фильтров составляет 220 Гц. После детектирования выходные сигналы попадают на фильтры нижних частот 7 и сглаживаются. Полученные таким образом огибающие 6 квантуются во времени через каждые 10 мс и представляются по амплитуде 7 битами. 17 - канал используется для получения общей интенсивности сигнала, что обеспечивает машинное определение энергетически мощных звуков речи - гласных. 17-м каналом служит фильтр с полосой пропускания 300-4000 Гц. На этих участках далее выбираются 6 спектральных срезов, отстоящих друг от друга на 20 мс и охватывающих таким образом отрезок 100 мс. В результате такой обработки каждая фраза представлена 16×6×7=672 битами информации, что и считается эталонным описанием данного голоса.
В процессе эксплуатации системы при успешных попытках верификации эталонные спектральные срезы-векторы подвергались периодической корректировке или адаптации. Роль адаптации эталонов в снижении ошибок верификации показана на Фиг.2. Виден многотонный спад числа ошибок с ростом сеансов экспериментов.
Процесс верификации заключался в непрерывном сравнении поступающих в ЭВМ спектральных срезов контрольного речевого материала с эталонным набором векторов и в определении наиболее вероятных опорных точек парольной фразы.
Решающее правило было основано на изменении минимума квадрата отклонения спектральных срезов опорных точек испытуемой фразы к эталонным векторам. Время верификации составляло 5,8 с.
Необходимость осуществления процесса верификации в реальном масштабе времени поставила перед устройством ряд требований. В первую очередь устройство должно было состоять из аналогового процессора, обеспечивающего мгновенный анализ сигнала. Процедура машинной обработки данных также упрощалась максимально путем введения простых операций выделения признаков и, в особенности, принятием решений.
Речевым материалом, как и почти во всех системах верификации, служили парольные фразы. В данном случае они состояли из четырехсложного предложения, причем каждое слово было односложным. Выбор таких слов обеспечил легкую сегментацию сигнала на фонемы и выделение энергетически сильных гласных звуков. Четыре гласных в дальнейшем принимались за так называемые опорные точки, служащие ориентиром для удовлетворительного сопоставления контрольных и эталонных данных.
Проверка работоспособности устройства происходила в лабораторных условиях с использованием звукоизолирующих камер. Было произведено более 30 сеансов, в каждом из которых как «своими», так и «чужими» дикторами произносились пять парольных фраз. Каждая последующая фраза произносилась при неудачной сегментации предыдущей фразы, или же когда хотели определить повышение надежности верификации в условиях предъявления системе нескольких парольных фраз.
Обобщенное число ошибок не превысило 1,5% при верификации, осуществляемой по одной фразе, 0,40% по двум фразам и 0,21% по трем фразам.
Среднее число фраз, при котором надежность верификации «своих» дикторов достигала 99%, а надежность непринятия «чужих» 99,9%, было меньше 1,3%.
Предложенное устройство существенно упростило конструкцию системы распознавания речевых сигналов, а также сократило расходы на его изготовления, при этом повысилась надежность эксплуатационной работы.
Claims (1)
- Устройство автоматического распознавания говорящего по голосу, состоящее из блока обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, отличающееся тем, что нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления, который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон типа ДЭМШ.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010144573/08U RU102408U1 (ru) | 2010-10-29 | 2010-10-29 | Устройство автоматического распознавания говорящего по голосу |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010144573/08U RU102408U1 (ru) | 2010-10-29 | 2010-10-29 | Устройство автоматического распознавания говорящего по голосу |
Publications (1)
Publication Number | Publication Date |
---|---|
RU102408U1 true RU102408U1 (ru) | 2011-02-27 |
Family
ID=46310885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010144573/08U RU102408U1 (ru) | 2010-10-29 | 2010-10-29 | Устройство автоматического распознавания говорящего по голосу |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU102408U1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2701120C1 (ru) * | 2018-05-14 | 2019-09-24 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для обработки речевого сигнала |
-
2010
- 2010-10-29 RU RU2010144573/08U patent/RU102408U1/ru not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2701120C1 (ru) * | 2018-05-14 | 2019-09-24 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для обработки речевого сигнала |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI92113C (fi) | Puheprosessori ja soluradiopääte | |
US9940934B2 (en) | Adaptive voice authentication system and method | |
EP2592546B1 (en) | Automatic Gain Control in a multi-talker audio system | |
US9881616B2 (en) | Method and systems having improved speech recognition | |
Ferrer et al. | A noise-robust system for NIST 2012 speaker recognition evaluation. | |
CN105913849A (zh) | 一种基于事件检测的说话人分割方法 | |
CN106448712B (zh) | 一种音频信号的自动增益控制方法和装置 | |
US4829572A (en) | Speech recognition system | |
CN106448690A (zh) | 一种音频信号的自动增益控制方法和装置 | |
US6768801B1 (en) | Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same | |
RU102408U1 (ru) | Устройство автоматического распознавания говорящего по голосу | |
EP3696815A1 (en) | Nonlinear noise reduction system | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
US11528571B1 (en) | Microphone occlusion detection | |
Sanaullah et al. | Neural network based classification of stressed speech using nonlinear spectral and cepstral features | |
US5897614A (en) | Method and apparatus for sibilant classification in a speech recognition system | |
EP3926983A3 (de) | Hörsystem mit mindestens einem am kopf des nutzers getragenen hörinstrument sowie verfahren zum betrieb eines solchen hörsystems | |
KR102306608B1 (ko) | 음성을 인식하기 위한 방법 및 장치 | |
RU75074U1 (ru) | Комплексная система автоматического распознавания речевых сигналов | |
KR20000032269A (ko) | 음향 기기의 음성인식장치 | |
CN116682453B (zh) | 语音处理方法、装置、设备及计算机可读存储介质 | |
RU2701120C1 (ru) | Устройство для обработки речевого сигнала | |
CN117854481A (zh) | 音频信号处理方法、设备、服务器及计算机可读存储介质 | |
DE10209323C1 (de) | Automatische Signalpegelanpassung für Spracherkennungssysteme | |
JPH05224694A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Utility model has become invalid (non-payment of fees) |
Effective date: 20110316 |