RU80000U1 - Устройство для фонетического анализа речи - Google Patents

Устройство для фонетического анализа речи Download PDF

Info

Publication number
RU80000U1
RU80000U1 RU2008136513/22U RU2008136513U RU80000U1 RU 80000 U1 RU80000 U1 RU 80000U1 RU 2008136513/22 U RU2008136513/22 U RU 2008136513/22U RU 2008136513 U RU2008136513 U RU 2008136513U RU 80000 U1 RU80000 U1 RU 80000U1
Authority
RU
Russia
Prior art keywords
unit
output
input
speech
analysis
Prior art date
Application number
RU2008136513/22U
Other languages
English (en)
Inventor
Владимир Васильевич Савченко
Дмитрий Юрьевич Акатьев
Original Assignee
Владимир Васильевич Савченко
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Владимир Васильевич Савченко filed Critical Владимир Васильевич Савченко
Priority to RU2008136513/22U priority Critical patent/RU80000U1/ru
Application granted granted Critical
Publication of RU80000U1 publication Critical patent/RU80000U1/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Решение относится к технике автоматического распознавания образов на основе спектрального анализа речевых сигналов при настройке и обучении систем автоматической обработки и распознавания речевых сигналов. Предлагается в устройство для фонетического анализа речи, содержащее микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений, блок памяти эталонов, ввести блок оперативной памяти и блок коммутации. Приводится блок-схема устройства. Обеспечивается полная автоматизация обработки речевого сигнала с получением конечного списка фонем с их акустическим различием при быстродействии устройства. 1 с.п. ф-лы, 1 илл.

Description

Решение относится к технике автоматического распознавания образов на основе спектрального анализа речевых сигналов и может быть использовано для автоматической сегментации речевых сигналов на ключевом этапе настройки и обучения систем автоматической обработки и распознавания речевых сигналов.
Вероятностный или теоретико-информационный подход в задачах автоматической обработки устной речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Однако сама идея статистического (по ансамблю реализации) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле речевых сигналов в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач.
Условно говоря, человеческий мозг объединяет и запоминает как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждого отдельного слова в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом». Это главный постулат информационной теории восприятия речи (ИТВР), созданной в рамках проекта Российского фонда фундаментальных исследований (РФФИ) 07-07-12042-офи.
Известно устройство распознавания фонем речи (см. патент РФ №2268504, G10L 15/06, G10L 11/04, опубл. 2006.01.04). Устройство содержит микрофон и аналого-цифровой преобразователь (АЦП), при этом выход микрофона соединен с первым входом АЦП, дополнительно введена вычислительная система, включающая тактовый генератор, контроллер, оперативное запоминающее устройство (ОЗУ), процессор, предназначенный для формирования биспектральных признаков и распознавания на их
основе фонем речи, цифронадоговый преобразователь (ЦАП), долговременное запоминающее устройство (ДЗУ), видеоконтроллер и аналого-цифровой преобразователь (АЦП), который выполнен с шестнадцатью выходами, а также в устройство входят клавиатура, дисплей, наушники, причем выход тактового генератора соединен со вторым входом АЦП, с первым входом контроллера, с первым входом процессора, с первым входом ОЗУ, с первым входом ЦАП, с первым входом ДЗУ, с первого по шестнадцатый выходы АЦП соединены со вторым по семнадцатый входами-выходами процессора, со вторым по семнадцатый входами - выходами ОЗУ, со вторым по семнадцатый входами - выходами ДЗУ, со вторым по семнадцатый входами-выходами контроллера, со вторым по семнадцатый входами ЦАП, с первым по шестнадцатый входами видеоконтроллера, выход ЦАП соединен с входом наушников, с первого по пятый выходы клавиатуры соединены с восемнадцатым по двадцать второй входами контроллера, с первого по пятнадцатый выходы видеоконтроллера соединены с первым по пятнадцатый входами дисплея.
Однако данное устройство сложно и характеризуется недостаточной степенью автоматизации обработки речевого сигнала.
Наиболее близким, по сумме признаков, принятым в качестве прототипа, является устройство для распознавания слов по авт. свидетельству СССР №1159060, G10L 1/00, опубл. 30.05.1985 г. Устройство содержит микрофон, соединенный со спектроанализатором, блок измерения сходства с присоединенным к его второму входу блоком памяти эталонов, блок принятия решений, выход которого является выходом устройства, для повышения быстродействия в него введены блок нормализации, блок сегментного анализа и детектор границ слов. Во втором зависимом пункте формулы прототипа раскрыт блок измерения сходства, первый вход которого соединен с информационным выходом блока нормализации, а выход - с блоком принятия решений. Речевой сигнал, принятый микрофоном, преобразуется в вектор спектральных амплитуд речевого сигнала в спектроанализаторе, начало слова и его конец обнаруживаются детектором границ слов, в пределах которых вектор спектральных амплитуд анализируется блоком сегментного анализа, с помощью которого формируется код чередования фонетических типов сегментов, составляющих анализируемое слово. Этот код используется для выделения зон, из которых в блоке памяти эталонов считываются векторы эталонных сигналов, все прочие эталоны исключаются из дальнейшей обработки принятого вектора спектральных амплитуд.
Недостатком этого устройства является необоснованно большое количество фонетических типов сегментов в анализируемом речевом сигнале, что ограничивает его функциональные возможности.
Решаемая задача-расширение функциональных возможностей устройства за счет выделения фонем из разговорной (устной) речи по отдельным дикторам, что является актуальным для лингвистических исследований звукового строя национального языка. В зависимости от состава и характеристик элементов звукового строя - фонем определяются наиболее перспективные направления для реформы и развития языка в будущем.
Технический результат предлагаемого решения состоит в автоматическом сжатии речевых сигналов и отображении их характеристик различимости в строгом информационном смысле.
Этот технический результат достигается тем, что в устройство для фонетического анализа речи, содержащее микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений, блок памяти эталонов, введены блок оперативной памяти и блок коммутации, причем, спектроанализатор установлен после блока сегментного анализа, вход которого подключен к микрофону, а выход к спектроанализатору, выходы его - к блоку нормализации, к информационному выходу которого подключен блок оперативной памяти, а к выходу последнего - через блок коммутации подключен информационный вход блока памяти эталонов, управляющий вход блока коммутации соединен также с выходом блока принятия решений, вход которого соединен с выходом блока измерения сходства, первый вход которого подключен к выходу блока нормализации, а второй вход - к выходу блока памяти эталонов, который является выходом устройства.
Введение блока оперативной памяти обеспечивает временное хранение нормированной спектральной плотности мощности каждого последовательного сегмента хm(t) анализируемого речевого сигнала x(t), начиная с первого сегмента х1(t), что позволяет добавлять в блок памяти эталонов через введенный блок коммутации дополнительные фонемы только с ярко выраженными акустическими отличиями - при условии, что в блоке принятия решений превышен определенный пороговый уровень.
Блок-схема предлагаемого устройства приведена на чертеже. Устройство для фонетического анализа речи, содержит микрофон 1, блок сегментного анализа 2, спектроанализатор 3, блок нормализации 4, блок измерения сходства 5, блок
принятия решений 6, блок памяти эталонов 7. В устройство дополнительно введены блок оперативной памяти 8 и блок коммутации 9. Спектроанализатор 3 установлен после блока сегментного анализа 2, вход которого подключен к микрофону 1, а выход к спектроанализатору 3. Выход спектроанализатора 3 подключен к входу блока нормализации 4. К информационному выходу блока нормализации 4 подключен блок оперативной памяти 8, а к выходу последнего - через блок коммутации 9 подключен информационный вход блока памяти эталонов 7. Управляющий вход блока коммутации 9 соединен также с выходом блока принятия решений 6, вход которого соединен с выходом блока измерения сходства 5. Первый вход блока измерения сходства 5 подключен к выходу блока нормализации 4, а второй вход - к выходу блока памяти эталонов 7, который является выходом устройства.
Устройство работает следующим образом. Анализируемый речевой сигнал x(t) длительностью Т, принятый микрофоном 1, разбивается на последовательность М сегментов xm(t), m=1,2,...,М, длительностью τ=Т/М каждый в блоке сегментного анализа 2. По каждому последовательному сегменту xm(t), начиная с первого x1(t), в спектроанализаторе 3 по известному методу определения спектра мощности авторегрессионного процесса оценивается текущая спектральная плотность мощности в диапазоне дискретных значений частоты f от 0 до F. В блоке нормализации 4 определяется спектр мощности авторегрессионного процесса с нормированием его дисперсии порождающего шума . В блоке измерения сходства 5 определяется по нормированному спектру мощности наиболее близкий к сигналу xm(t) сигнал xν(t), из множества предыдущих сигналов x1(t), x2(t),...,xm-1(t) в метрике ρjm), где j=l,2,...,m-1. Например, это может быть информационная метрика Кульбака-Лейблера. Для определения расчета коэффициентов авторегрессии обычно применяется рекуррентная процедура Берга-Левинсона с высокой скоростью сходимости.
Полученное значение рассогласования ρνm) в блоке принятия решений 6 сравнивается с пороговым уровнем ρ0 и при условии ρνm)>ρ0 добавляется из блока оперативной памяти 8 через блок коммутации 9 в текущий список фонем Х1, Х2,..., XR, который хранится в блоке памяти эталонов 7, дополнительная фонема
XR+1 c нормированной спектральной плотностью мощности при начальных условиях R=0 для первого сигнала х1(t). При этом результирующий состав фонем речевого сигнала в блоке памяти эталонов 7 определяется по набору спектральных плотностей мощности из результирующего, после М-го шага, списка фонем Х1, Х2, На выходе устройства получаем конечный список фонем с определенными требованиями к их акустическим различиям.
Устройство может быть использовано при настройке и обучении систем автоматической обработки и распознавания речевых сигналов, таких как Nuance Speech Recognition Sistem, Via Voice и др.
Предлагаемое техническое решение было осуществлено в рамках проекта РФФИ 07-07-12042-офи в виде экспериментального образца информационной системы «Фонетическая база данных» (ИС ФБД). Результаты испытаний в натурных условиях подтвердили его повышенные функциональные возможности и быстродействие, а именно: полную автоматизацию обработки речевого сигнала и конечный список фонем с регулируемыми требованиями к их акустическим различиям.

Claims (1)

  1. Устройство для фонетического анализа речи, содержащее микрофон, блок сегментного анализа, спектроанализатор, блок нормализации, блок измерения сходства, блок принятия решений, блок памяти эталонов, отличающийся тем, что в него введены блок оперативной памяти и блок коммутации, причем спектроанализатор установлен после блока сегментного анализа, вход которого подключен к микрофону, а выход к спектроанализатору, выходы его - к блоку нормализации, к информационному выходу которого подключен блок оперативной памяти, а к выходу последнего - через блок коммутации подключен информационный вход блока памяти эталонов, управляющий вход блока коммутации соединен также с выходом блока принятия решений, вход которого соединен с выходом блока измерения сходства, первый вход которого подключен к выходу блока нормализации, а второй вход - к выходу блока памяти эталонов, который является выходом устройства.
    Figure 00000001
RU2008136513/22U 2008-09-10 2008-09-10 Устройство для фонетического анализа речи RU80000U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008136513/22U RU80000U1 (ru) 2008-09-10 2008-09-10 Устройство для фонетического анализа речи

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008136513/22U RU80000U1 (ru) 2008-09-10 2008-09-10 Устройство для фонетического анализа речи

Publications (1)

Publication Number Publication Date
RU80000U1 true RU80000U1 (ru) 2009-01-20

Family

ID=40376499

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008136513/22U RU80000U1 (ru) 2008-09-10 2008-09-10 Устройство для фонетического анализа речи

Country Status (1)

Country Link
RU (1) RU80000U1 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2682524C1 (ru) * 2018-03-12 2019-03-19 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ" (КНИТУ-КАИ) Многофункциональное устройство с реализацией способа изучения иностранных языков
RU2688292C1 (ru) * 2018-11-08 2019-05-21 Андрей Яковлевич Битюцкий Способ запоминания иностранных слов
RU2697004C1 (ru) * 2018-03-12 2019-08-08 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ" (КНИТУ-КАИ) Способ обучения лексическому минимуму иностранных языков и устройство для его реализации

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2682524C1 (ru) * 2018-03-12 2019-03-19 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ" (КНИТУ-КАИ) Многофункциональное устройство с реализацией способа изучения иностранных языков
RU2697004C1 (ru) * 2018-03-12 2019-08-08 Федеральное государственное бюджетное образовательное учреждение высшего образования "Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ" (КНИТУ-КАИ) Способ обучения лексическому минимуму иностранных языков и устройство для его реализации
RU2688292C1 (ru) * 2018-11-08 2019-05-21 Андрей Яковлевич Битюцкий Способ запоминания иностранных слов

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
RU2419890C1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
Lee et al. MAP-based adaptation for speech conversion using adaptation data selection and non-parallel training.
Marković et al. Whispered speech database: Design, processing and application
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Hamid et al. Makhraj recognition for Al-Quran recitation using MFCC
Piotrowska et al. Machine learning-based analysis of English lateral allophones
Tavi et al. Recognition of Creaky Voice from Emergency Calls.
RU80000U1 (ru) Устройство для фонетического анализа речи
Shafie et al. Al-Quran recitation speech signals time series segmentation for speaker adaptation using dynamic time warping
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Omar et al. Feature fusion techniques based training MLP for speaker identification system
Martinčić-Ipšić et al. Croatian large vocabulary automatic speech recognition
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
Kang et al. Variable sliding window DTW speech identification algorithm
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Wenjing et al. A hybrid speech emotion perception method of VQ-based feature processing and ANN recognition
Mittal et al. Age approximation from speech using Gaussian mixture models
Ntalampiras et al. On predicting the unpleasantness level of a sound event
Vasudev et al. Speaker identification using FBCC in Malayalam language
Vlaj et al. Effective Pitch Value Detection in Noisy Intelligent Environments for Efficient Natural Language Processing
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
Zhang et al. Recognition of Score Word in Freestyle Kayaking

Legal Events

Date Code Title Description
PC1K Assignment of utility model

Effective date: 20100128

MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20100911