RU2231830C2 - Способ распознавания звуков - Google Patents

Способ распознавания звуков Download PDF

Info

Publication number
RU2231830C2
RU2231830C2 RU2000113855/09A RU2000113855A RU2231830C2 RU 2231830 C2 RU2231830 C2 RU 2231830C2 RU 2000113855/09 A RU2000113855/09 A RU 2000113855/09A RU 2000113855 A RU2000113855 A RU 2000113855A RU 2231830 C2 RU2231830 C2 RU 2231830C2
Authority
RU
Russia
Prior art keywords
sound
formants
phoneme
narrow
recorded
Prior art date
Application number
RU2000113855/09A
Other languages
English (en)
Other versions
RU2000113855A (ru
Inventor
Д.Н. Юрьев (RU)
Д.Н. Юрьев
Original Assignee
Юрьев Дмитрий Николаевич
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Юрьев Дмитрий Николаевич filed Critical Юрьев Дмитрий Николаевич
Priority to RU2000113855/09A priority Critical patent/RU2231830C2/ru
Publication of RU2000113855A publication Critical patent/RU2000113855A/ru
Application granted granted Critical
Publication of RU2231830C2 publication Critical patent/RU2231830C2/ru

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

Изобретение относится к средствам для распознавания звуков. Его использование позволяет обеспечить технический результат в виде повышения разрешающей способности. В способе преобразуют звук в электрический сигнал с записью фонемы каждого звука в форме амплитудно-частотной зависимости, определяют частоты характерных для данной фонемы формант, которым в зависимости от положения относительно оси абсцисс присваивают значения “0”, “+1” и “-1”, электрический сигнал представляют в виде амплитудно-частотной характеристики, анализируют ее набором узкополосных частотных фильтров, который разделяют на группы с частичным перекрытием диапазонов смежных частотных фильтров, подключенных к входам регистраторов формант, выходы которых подключают к входу регистратора фонем, сравнивают зарегистрированный набор формант с заранее определенными наборами формант и определяют записанный звук, причем выходы регистратора фонем подключают к печатающему устройству. Технический результат достигается благодаря тому, что группы узкополосных частотных фильтров подбирают таким образом, что часть этих фильтров в группе соответствует частотам одной из формант конкретного звука, при отсутствии сигналов от всех регистраторов печатающее устройство записывает пробел, перед преобразованием звука в электрический сигнал регулируют уровень записи звука, сравнивая величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем. 1 ил.

Description

Изобретение относится к области приборостроения, а именно к области способов и устройств, применяемых для распознавания звуков.
Известен способ распознавания звуков (Винницкий А.С. Методы помехоустойчивого приема ЧМ и ФМ сигналов. М., “Советское радио”, 1976, стр.80). Согласно известному способу звук преобразуют в электрический сигнал, представленный в комплексной форме. Определяют последовательность значений параметров и сравнивают полученную последовательность с соответствующими эталонными значениями.
Недостатком известного способа следует признать слабую разрешающую способность сходных по звучанию звуков.
Известен также способ распознания звуков (Дж.Д.Маркел. Линейное предсказание речи. М., “Связь”, 1980, с.279-284). Согласно известному способу звук преобразуют в электрический сигнал, а электрический сигнал в свою очередь преобразуют в совокупность предсказаний сигнала, которую сравнивают с ранее полученными эталонами для принятия решения.
Недостатком известного способа следует признать низкую разрешающую способность сходных по звучанию звуков, а также зависимость точности распознания звука от его конкретного источника.
Техническая задача, решаемая посредством настоящего изобретения, состоит в разработке способа распознания звука, разрешающая способность которого не зависит от источника анализируемого звука.
Технический результат, получаемый в результате реализации изобретения, состоит в обеспечении возможности создания устройств распознавания речи, не зависящих от источника произносимых звуков.
Указанный технический результат достигается использованием следующей совокупности признаков. Первоначально фонему каждого звука записывают в форме амплитудно-частотной зависимости. Определяют частоты характерных для данной фонемы формант, т.е. лежащих выше и ниже оси абсцисс. Величину, определяемую как разность абсолютных значений максимальной и минимальной амплитуд амплитудно-частотной характеристики для каждого звука, разделяют на три области, причем область, лежащую вблизи оси абсцисс и не захватывающую характерные для фонемы данного звука, определяют как область сигнала “0”, область, расположенную выше области “0” и захватывающую форманты, лежащие выше оси абсцисс, определяют как область сигнала “+1”, а область, лежащую ниже области “0” и захватывающую форманты, лежащие ниже оси абсцисс, определяют как область сигнала “-1”. Исследуемый звук записывают в форме электрического сигнала с разложением последнего в виде амплитудно-частотной характеристики. Для исследования полученной амплитудно-частотной характеристики используют набор узкополосных частотных фильтров, способных регистрировать соответствующие форманты, как сигнал “-1”, сигнал “0” и сигнал “+1”. Указанный набор узкополосных частотных фильтров разделяют на группы, с частичным перекрытием диапазонов смежных частотных фильтров, причем набор узкополосых частотных фильтров полностью перекрывает весь диапазон звуковых частот. Указанные группы узкополосных частотных фильтров подключают к входам регистраторов формант, способных регистрировать сигналы “-1”, “0”, “+1”, поступающих от узкополосых частотных фильтров, выходы регистраторов формант подключают к входу регистратору фонем, способных регистрировать суммарные значения формант, выраженных суммами сигналов “-1”, “0” и “+1”. Сравнивают зарегистрированный набор формант с заранее определенными как суммы сигналов “-1”, “0” и “+1” наборами формант для каждого звука и по итогам сравнения определяют записанный звук.
Способ может быть реализован с использованием программного обеспечения.
Предпочтительно группы узкополосых частотных фильтров подобраны таким образом, что часть узкополосых частотных фильтров в группе соответствует частотам одной из формант конкретного звука, а остальные фильтры группы не соответствуют. Выход регистратора фонем может быть подключен к печатающему устройству. При этом при отсутствии сигналов от всех регистраторов печатающее устройство осуществляет при письме пробел. Выход регистратора фонем может быть подведен к записывающему, предпочтительно на магнитный или оптический носитель, устройству. Обычно перед преобразованием звука в электрический сигнал производят регулирование уровня записи звука. При этом, предпочтительно, сравнивают величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем. Преимущественно предварительно задают ширину групп узкополосых фильтров, предпочтительно ширину групп задают с учетом речевых характеристик пользователя способа.
Обычно дополнительно к записыванию фонем записывают амплитудно-частотные характеристики служебных слов, посредством которых осуществляют управление записью звуков. В качестве регистратор формант и фонем предпочтительно используют сумматоры, причем в качестве регистратора формант и фонем может быть использован сумматор троичной логики.
Сумматор троичной логики содержит разделитель сигналов, имеющий два входа и два выхода, причем первый выход разделителя сигналов, предназначенный для прохождения сигналов отрицательной полярности, через первое пороговое устройство соединен с входом первого нормально разомкнутого ключа, выход которого соединен с входом первого усилителя, выход которого подключен к общему выходу прибора, а второй выход разделителя сигналов, предназначенный для прохождения сигналов отрицательной полярности, через второе пороговое устройство соединен с входом второго нормально разомкнутого ключа, выход которого соединен с входом второго усилителя, выход которого подключен к общему выходу, причем разделитель сигналов выполнен по мостовой схеме из четырех диодов, пороговые устройства выполнены, предпочтительно, на базе двунаправленных стабилитронов, нормально разомкнутые ключи выполнены на базе транзисторов, при этом открытый транзистор ключа своим переходом эмиттер-коллектор шунтирует базовое смещение транзистора, на базе которого выполнен соответствующий усилитель.
Изобретение может быть реализовано с использованием устройства, приведенного на чертеже. Устройство содержит приемник 1 звуков, выполненный с возможностью перевода звуковых колебаний в электрические и, предпочтительно, с возможностью усиливать или ослаблять уровень звуковых колебаний. Выход приемника 1 соединен с входами узкополосых фильтров 2. Выходы узкополосых фильтров 2 соединены с входами регистраторов 3 формант, причем к входам регистраторов 3 формант подключены, предпочтительно, выходы тех узкополосых фильтров 2, которые соответствуют частотным границам регистрируемых формант. Количество подключенных к регистраторам формант узкополосых фильтров определяется возможностями сумматоров, используемых в качестве регистраторов формант. Выходы регистраторов 3 формант соединены с входами регистраторов 4 фонем, причем, предпочтительно, к входам регистраторов фонем подключены выходы регистраторов тех формант, которые входят в регистрируемые фонемы. Выходы регистраторов 4 фонем могут быть подключены к регистраторам букв, соответствующих указанным фонемам и/или их наборам. Для управления величиной звукового сигнала может быть использован автоматический регулятор 6 уровня, вход которого соединен с выходами наиболее употребительных и стабильных формант и/или фонем, а выход соединен с приемником 1 звуков.
Известно (см., например Р.К.Потапова. Речь: коммуникация, информатика, кибернетика. М., “Радио и связь”, 1997, стр.310-324), каким образом проводят определение амплитудно-частотных характеристик звуков. Также известны (там же) форманты звуков. Это позволяет выбрать набор узкополосых фильтров, позволяющий выделить отдельные форманты всех фонем, соответствующих всех звукам любого языка.
Например, для звука “о” в диапазоне частот 125-600 Гц энергия звука составляет 59%, в диапазоне 600-1600 Гц - 35%, в диапазоне 1600-3150 Гц - 4%, в диапазоне 3150-6300 Гц - 2. Для звука “с” соответственно в диапазоне 125-600 Гц - 11%, в диапазоне 600-1600 Гц - 3%, в диапазоне 1600-3150 Гц - 16%, в диапазоне 3150-6300 Гц - 70%. Аналогичные разложения величины энергии звука по частотным диапазонам (амплитудно-частотная характеристика звука) известны для всех звуков.
Это позволяет входы регистраторов фонем каждого звука соединить с выходами регистраторов соответствующих формант, а входы регистраторов формант с соответствующими узкополосыми фильтрами, чтобы при одновременном попадании в регистратор фонемы сигналов всех составляющих ее формант зарегистрировать наличие соответствующего звука. Для регистрации буквы, которой соответствует набор фонем, необходимо поступление на регистратор указанной буквы сигналов, полного набора фонем.
Поскольку происходит регистрация изначально присущих характеристик звука вне зависимости от особенностей источника звука, обеспечена возможность создания устройств распознавания речи, не зависящих от источника произносимых звуков.

Claims (1)

  1. Способ распознавания звуков, включающий преобразование звука в электрический сигнал и анализ полученного электрического сигнала, причем предварительно фонему каждого звука записывают в форме амплитудно-частотной зависимости акустического колебания, определяют частоты характерных для данной фонемы формант, причем область, лежащую вблизи оси абсцисс и не захватывающую форманты, характерные для фонемы данного звука, определяют как область сигнала “0”, область, расположенную выше области “0” и захватывающую форманты, лежащие выше оси абсцисс, определяют как область сигнала “+1”, а область, лежащую ниже области “0” и захватывающую форманты, лежащие ниже оси абсцисс, определяют как область сигнала “-1”, электрический сигнал, соответствующий фонеме звука, представляют в виде его амплитудно-частотной характеристики, анализируют указанную характеристику с использованием набора узкополосных частотных фильтров, причем указанный набор узкополосных частотных фильтров разделяют на группы с частичным перекрытием диапазонов смежных частотных фильтров, при этом набор узкополосных частотных фильтров полностью перекрывает весь диапазон звуковых частот, указанные группы узкополосных частотных фильтров предварительно подключают к входам регистраторов формант, а выходы регистраторов формант - к входу регистратора фонем, сравнивают зарегистрированный набор формант с заранее определенными наборами формант для каждого звука и по итогам сравнения определяют записанный звук, причем выход регистратора фонем подключают к печатающему устройству, осуществляющему запись распознанных звуков, отличающийся тем, что группы узкополосных частотных фильтров подбирают таким образом, что часть узкополосных частотных фильтров в группе соответствует частотам одной из формант конкретного звука, при отсутствии сигналов от всех регистраторов печатающее устройство осуществляет при записывании звуков пробел, перед преобразованием звука в электрический сигнал производят регулирование уровня записи звука, при этом при регулировании сравнивают величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем.
RU2000113855/09A 2000-06-01 2000-06-01 Способ распознавания звуков RU2231830C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2000113855/09A RU2231830C2 (ru) 2000-06-01 2000-06-01 Способ распознавания звуков

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2000113855/09A RU2231830C2 (ru) 2000-06-01 2000-06-01 Способ распознавания звуков

Publications (2)

Publication Number Publication Date
RU2000113855A RU2000113855A (ru) 2000-10-20
RU2231830C2 true RU2231830C2 (ru) 2004-06-27

Family

ID=32845246

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2000113855/09A RU2231830C2 (ru) 2000-06-01 2000-06-01 Способ распознавания звуков

Country Status (1)

Country Link
RU (1) RU2231830C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Similar Documents

Publication Publication Date Title
US5884260A (en) Method and system for detecting and generating transient conditions in auditory signals
Maher Evaluation of a method for separating digitized duet signals
Gong et al. ReMASC: realistic replay attack corpus for voice controlled systems
US5930749A (en) Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
AU2001289766A1 (en) System and methods for recognizing sound and music signals in high noise and distortion
CN106251872A (zh) 一种病例录入方法及系统
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Lin et al. Subband aware CNN for cell-phone recognition
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
JPH05108099A (ja) 音声認識用回路装置
EP0473664B1 (en) Analysis of waveforms
FitzGerald et al. Single channel vocal separation using median filtering and factorisation techniques
Singh et al. Countermeasures to replay attacks: A review
RU2231830C2 (ru) Способ распознавания звуков
Prajapati et al. Energy separation based features for replay spoof detection for voice assistant
US3225141A (en) Sound analyzing system
RU2231133C2 (ru) Способ распознавания звуков
CN115691455A (zh) 一种识别弦乐器弹奏动作及弹奏品位的方法
Tosi A method for acoustic segmentation of continuous sound into pauses and signals and measurement of segment durations
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
JP2017139592A (ja) 音響処理方法および音響処理装置
RU2234746C2 (ru) Способ дикторонезависимого распознавания звуков речи
RU2107950C1 (ru) Способ идентификации личности по фонограммам произвольной устной речи
Veesa et al. Fusion of RMFCC and RCQCC Features for Replay Attack Detection Task
Jain et al. Feature extraction techniques based on human auditory system

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees