RU102408U1 - Устройство автоматического распознавания говорящего по голосу - Google Patents

Устройство автоматического распознавания говорящего по голосу Download PDF

Info

Publication number
RU102408U1
RU102408U1 RU2010144573/08U RU2010144573U RU102408U1 RU 102408 U1 RU102408 U1 RU 102408U1 RU 2010144573/08 U RU2010144573/08 U RU 2010144573/08U RU 2010144573 U RU2010144573 U RU 2010144573U RU 102408 U1 RU102408 U1 RU 102408U1
Authority
RU
Russia
Prior art keywords
pass filter
microphone
voice
envelope detector
recognition device
Prior art date
Application number
RU2010144573/08U
Other languages
English (en)
Inventor
Андрей Андреевич Катанович
Борис Павлович Ивченко
Сергей Матвеевич Никифоров
Николай Васильевич Тамодин
Original Assignee
Андрей Андреевич Катанович
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Андрей Андреевич Катанович filed Critical Андрей Андреевич Катанович
Priority to RU2010144573/08U priority Critical patent/RU102408U1/ru
Application granted granted Critical
Publication of RU102408U1 publication Critical patent/RU102408U1/ru

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

Устройство автоматического распознавания говорящего по голосу, состоящее из блока обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, отличающееся тем, что нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления, который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон типа ДЭМШ.

Description

Полезная модель относиться к области электрорадиотехники, а именно, к устройствам распознавания речевых сигналов и может быть использована на стационарных и подвижных объектах.
Необходимость разработки автоматических устройств опознавания говорящего по голосу главным образом диктуется практикой. Так, например, требуется подтвердить (верифицировать) определенную личность в контрольных и пропускных пунктах, чтобы обеспечить допуск лишь ограниченного круга лиц к управлению механизмами специального назначения или к различным информационным системам. Кроме того, проблема автоматического опознавания индивидуального голоса имеет большое значение в решении ряда криминалистических задач, в военном деле, в частности в области радиоразведки и др.
Известен Патент США. Система распознавания речи. Кл. 338-18 №3292116. В этой системе предлагается корректор, имеющий набор частотных характеристик с крутизной подъема в сторону высоких частот, равной 6, 12, и 24 дБ/окт. В зависимости от соотношения уровней входного сигнала в полосах 100-500 Гц и 500-5000 Гц включается управляющая цепь с соответствующей корректирующей характеристикой.
Наиболее близкой к заявляемому устройству является «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07.08 г. Автор Катанович А.А. и др.
Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.
Однако, как аналог, так и прототип недостаточно способны учитывать индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализации, осуществляемо всеми тремя программами вместе, а также высокую стоимость.
Целью полезной модели является повышения надежности работы устройства, а также упрощения его конструкции.
Поставленная цель достигается тем, что устройство автоматического распознавания говорящего по голосу состоящее из блока обработки речевого сигнала, в который входит микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, причем нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон, типа ДЭМШ.
На Фиг.1 приведена структурная схема устройства.
На Фиг.2 - зависимость ошибки анализа от номера сеанса при адаптации эталонов.
Структурная схема, показанная на Фиг.1 содержит:
1 - шумостойкий микрофон;
2 - предварительный усилитель;
3 - высокочастотный усилитель;
4 - усилитель с автоматической регулировкой усиления (АРУ) диапазон 40 дБ
5 - полосовой фильтр;
6 - детектор огибающей;
7 - фильтр нижних частот.
В микрофоне, помимо сужения полосы пропускания и, значит, потери полезной голосовой информации, речевой сигнал подвергается воздействию внутриканальных искажающих факторов, таких как специфические трески и шумы. Поэтому с целью отстраивания от внешних шумов в устройстве применен шумостойкий микрофон типа ДЭМШ.
Работа системы осуществляется следующим образом.
Речевой сигнал через микрофон 1 и усилители 2 и 3 попадает на нормализатор уровня сигнала. Роль нормализатора выполняет схема автоматического регулирования усилителя 4, позволяющая работать в динамическом диапазоне 40 дБ. Нормализованный сигнал далее поступает на 16 - канальную гребенку полосовых фильтров 5, равномерно накрывающих диапазон 300-3000 Гц. Полоса пропускания фильтров составляет 220 Гц. После детектирования выходные сигналы попадают на фильтры нижних частот 7 и сглаживаются. Полученные таким образом огибающие 6 квантуются во времени через каждые 10 мс и представляются по амплитуде 7 битами. 17 - канал используется для получения общей интенсивности сигнала, что обеспечивает машинное определение энергетически мощных звуков речи - гласных. 17-м каналом служит фильтр с полосой пропускания 300-4000 Гц. На этих участках далее выбираются 6 спектральных срезов, отстоящих друг от друга на 20 мс и охватывающих таким образом отрезок 100 мс. В результате такой обработки каждая фраза представлена 16×6×7=672 битами информации, что и считается эталонным описанием данного голоса.
В процессе эксплуатации системы при успешных попытках верификации эталонные спектральные срезы-векторы подвергались периодической корректировке или адаптации. Роль адаптации эталонов в снижении ошибок верификации показана на Фиг.2. Виден многотонный спад числа ошибок с ростом сеансов экспериментов.
Процесс верификации заключался в непрерывном сравнении поступающих в ЭВМ спектральных срезов контрольного речевого материала с эталонным набором векторов и в определении наиболее вероятных опорных точек парольной фразы.
Решающее правило было основано на изменении минимума квадрата отклонения спектральных срезов опорных точек испытуемой фразы к эталонным векторам. Время верификации составляло 5,8 с.
Необходимость осуществления процесса верификации в реальном масштабе времени поставила перед устройством ряд требований. В первую очередь устройство должно было состоять из аналогового процессора, обеспечивающего мгновенный анализ сигнала. Процедура машинной обработки данных также упрощалась максимально путем введения простых операций выделения признаков и, в особенности, принятием решений.
Речевым материалом, как и почти во всех системах верификации, служили парольные фразы. В данном случае они состояли из четырехсложного предложения, причем каждое слово было односложным. Выбор таких слов обеспечил легкую сегментацию сигнала на фонемы и выделение энергетически сильных гласных звуков. Четыре гласных в дальнейшем принимались за так называемые опорные точки, служащие ориентиром для удовлетворительного сопоставления контрольных и эталонных данных.
Проверка работоспособности устройства происходила в лабораторных условиях с использованием звукоизолирующих камер. Было произведено более 30 сеансов, в каждом из которых как «своими», так и «чужими» дикторами произносились пять парольных фраз. Каждая последующая фраза произносилась при неудачной сегментации предыдущей фразы, или же когда хотели определить повышение надежности верификации в условиях предъявления системе нескольких парольных фраз.
Обобщенное число ошибок не превысило 1,5% при верификации, осуществляемой по одной фразе, 0,40% по двум фразам и 0,21% по трем фразам.
Среднее число фраз, при котором надежность верификации «своих» дикторов достигала 99%, а надежность непринятия «чужих» 99,9%, было меньше 1,3%.
Предложенное устройство существенно упростило конструкцию системы распознавания речевых сигналов, а также сократило расходы на его изготовления, при этом повысилась надежность эксплуатационной работы.

Claims (1)

  1. Устройство автоматического распознавания говорящего по голосу, состоящее из блока обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, отличающееся тем, что нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления, который последовательно соединен с полосовым фильтром, детектором огибающей и фильтром нижних частот, а высокочастотный усилитель своим вторым выходом соединен с фильтром нижних частот, при этом в качестве микрофона применен шумостойкий микрофон типа ДЭМШ.
    Figure 00000001
RU2010144573/08U 2010-10-29 2010-10-29 Устройство автоматического распознавания говорящего по голосу RU102408U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2010144573/08U RU102408U1 (ru) 2010-10-29 2010-10-29 Устройство автоматического распознавания говорящего по голосу

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2010144573/08U RU102408U1 (ru) 2010-10-29 2010-10-29 Устройство автоматического распознавания говорящего по голосу

Publications (1)

Publication Number Publication Date
RU102408U1 true RU102408U1 (ru) 2011-02-27

Family

ID=46310885

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010144573/08U RU102408U1 (ru) 2010-10-29 2010-10-29 Устройство автоматического распознавания говорящего по голосу

Country Status (1)

Country Link
RU (1) RU102408U1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Similar Documents

Publication Publication Date Title
FI92113C (fi) Puheprosessori ja soluradiopääte
US9940934B2 (en) Adaptive voice authentication system and method
EP2592546B1 (en) Automatic Gain Control in a multi-talker audio system
US9881616B2 (en) Method and systems having improved speech recognition
Ferrer et al. A noise-robust system for NIST 2012 speaker recognition evaluation.
CN105913849A (zh) 一种基于事件检测的说话人分割方法
CN106448712B (zh) 一种音频信号的自动增益控制方法和装置
US4829572A (en) Speech recognition system
CN106448690A (zh) 一种音频信号的自动增益控制方法和装置
US6768801B1 (en) Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same
RU102408U1 (ru) Устройство автоматического распознавания говорящего по голосу
EP3696815A1 (en) Nonlinear noise reduction system
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
US11528571B1 (en) Microphone occlusion detection
Sanaullah et al. Neural network based classification of stressed speech using nonlinear spectral and cepstral features
US5897614A (en) Method and apparatus for sibilant classification in a speech recognition system
EP3926983A3 (de) Hörsystem mit mindestens einem am kopf des nutzers getragenen hörinstrument sowie verfahren zum betrieb eines solchen hörsystems
KR102306608B1 (ko) 음성을 인식하기 위한 방법 및 장치
RU75074U1 (ru) Комплексная система автоматического распознавания речевых сигналов
KR20000032269A (ko) 음향 기기의 음성인식장치
CN116682453B (zh) 语音处理方法、装置、设备及计算机可读存储介质
RU2701120C1 (ru) Устройство для обработки речевого сигнала
CN117854481A (zh) 音频信号处理方法、设备、服务器及计算机可读存储介质
DE10209323C1 (de) Automatische Signalpegelanpassung für Spracherkennungssysteme
JPH05224694A (ja) 音声認識装置

Legal Events

Date Code Title Description
MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20110316