RU2763124C1 - Способ дикторонезависимого распознавания фонемы в речевом сигнале - Google Patents

Способ дикторонезависимого распознавания фонемы в речевом сигнале Download PDF

Info

Publication number
RU2763124C1
RU2763124C1 RU2021119856A RU2021119856A RU2763124C1 RU 2763124 C1 RU2763124 C1 RU 2763124C1 RU 2021119856 A RU2021119856 A RU 2021119856A RU 2021119856 A RU2021119856 A RU 2021119856A RU 2763124 C1 RU2763124 C1 RU 2763124C1
Authority
RU
Russia
Prior art keywords
frequencies
speech
signal
frequency
calculated
Prior art date
Application number
RU2021119856A
Other languages
English (en)
Inventor
Валерий Олегович Лелейтнер
Original Assignee
Валерий Олегович Лелейтнер
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Валерий Олегович Лелейтнер filed Critical Валерий Олегович Лелейтнер
Priority to RU2021119856A priority Critical patent/RU2763124C1/ru
Application granted granted Critical
Publication of RU2763124C1 publication Critical patent/RU2763124C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Изобретение относится к области вычислительной техники для обработки аудиоданных системами обработки информации, а именно к способам построения систем распознавания речи. Технический результат заключается в повышении достоверности дикторонезависимого распознания речи. Технический результат достигается за счет определения частот формант на участках речевого сигнала и фонемного распознавания каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, где из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары. 4 з.п. ф-лы, 5 ил.

Description

Изобретение относится к системам обработки информации, а именно к способам построения систем распознавания речи и может быть использовано для непосредственной печати устного текста, ввода команд в исполняющие автоматы, ввода информации в вычислительные машины, автоматического перевода с одного языка на другой и т.д.
Известны способы распознавания фонем речи, в которых фонемы хранятся в словаре в виде характерных параметров (признаков). Для получения признаков фонем используют представление речевого сигнала в спектральной области, то есть речевой сигнал подвергается спектральному анализу, который осуществляется с помощью алгоритмов быстрого преобразования Фурье, например, [1]. Данный способ недостаточно достоверен и при этом требует значительного вычислительного ресурса.
В качестве ближайшего аналога автором принят способ дикторонезависимого фонемного распознавания звуков речи, содержащий многоуровневую обработку сигнала [2]. В указанном способе ведут многоуровневую обработку речевого сигнала, при которой выполняют посегментное определение значений таких информативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука), с последующим фонемным распознаванием каждого звукового сегмента на основании интеграции значений информационных признаков обрабатываемого сигнала, и сопоставление с имеющимся банком данных. С целью повышения вероятности правильного распознавания звуков речи в способ введены дополнительные операции по определению вида звукового сегмента (голосового, шумового или шумно-голосового), распознаванию каждого звукового сегмента на основании интеграции значений информационных признаков обрабатываемого сигнала и сопоставлению с имеющимся банком данных отдельно для каждого вида и типа звука (сигнал с одной, двумя и тремя формантами - соответственно по прототипу выполняется сравнение с тремя базами спектральных характеристик для каждого вида звукового сегмента), установлению временных границ звуков речи в зависимости от изменения фонемной принадлежности и принятию итогового фонемного решения.
Необходимость выполнения дополнительных операций связана с тем, что определение значений таких информативных признаков звуков речи, как амплитуда и частота формант (пики в спектре звука) выполняется на основе спектрального анализа. Форманты определяются как области концентрации энергии в спектре звука речи, образуемые резонаторами голосового тракта. Однако выделение фонологических формант, определяющих восприятие конкретного звука речи, вызывает значительную трудность, так как речевой тракт представляет собой многорезонансную систему, и спектр амплитуд сигнала на выходе речевого тракта характеризуется множеством максимумов, которые являются ложными формантами, нехарактерными для данной фонемы [3], [4]. Кроме этого, эффект коартикуляции, связанный с тем, что в естественной речи органы речи практически никогда не занимают положений, характерных для изолированно произнесенных звуков, приводит к наложению спектральных признаков соседних фонем и затрудняет сегментацию звуков речи. Данные факторы приводят к отсутствию, в общем случае, достоверного соответствия фонетических символов и спектральных распределений, что доказано различными опытами и исследованиями. Между спектральной и фонетической функциями может быть установлено однозначное соответствие только при строгой стабилизации акустических условий и одном дикторе [5]. В связи с этим для более достоверного дикторонезависимого распознания речи с большим словарем необходимо выполнять сложную многоступенчатую обработку с целью нахождения имеющегося в базе данных образа, наиболее близкого к анализируемому образу фонемы, морфемы, слова и предложения.
Однако и данный способ, при его сложности, остается недостаточно достоверным и требующим значительного вычислительного ресурса.
Заявляемое изобретение направлено на повышение достоверности дикторонезависимого распознания речи, при упрощении за счет сопоставительного анализа с имеющейся базой данных для всего двух формант, выбираемых специальным образом; на практике достаточно использование 50-60 базовых фонологических пар.
Поставленная задача решается тем, что предлагаемый способ дикторонезависимого распознавания фонемы в речевом сигнале, включающий в себя определение частот формант на участках речевого сигнала и фонемное распознавание каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, отличается тем, что из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары.
Дополнительно формируют последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляют суммы сформированных сигналов с исходным сигналом, вычисляют уровни суммарных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.
Речевой сигнал разделяют на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные во всех частотных поддиапазонах.
За уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.
Речевой сигнал преобразуют средствами аналого-цифрового преобразования в цифровую последовательность и все дальнейшие операции выполняют в цифровом виде.
Таким образом, отличительная особенность способа состоит в том, что ведут многоуровневую обработку речевого сигнала, при которой определяют фонемное соответствие обрабатываемого сигнала с использованием интеграции значений таких его информативных признаков, как частоты двух фонологических формант. При этом вместо выделения формант по признаку концентрации энергии в спектре звука речи (как это делается в способах [1] и [2]), предлагается выделение частот двух фонологических формант на основе обработки отрезков речевых сигналов, сдвинутых относительно исходного речевого сигнала на время, равное периоду или периоду и - дополнительно - половине периода анализируемых частот.
Оказалось, что возможно распознавание звуков речи, входящих в состав слов, с высокой точностью, в реальном времени, вне зависимости от голоса говорящего, за счет специального - разработанного автором - следующего порядка выделения частот двух фонологических формант.
На первом уровне формируются последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляются разности сформированных сигналов с исходным сигналом и вычисляются уровни разностных сигналов на анализируемом сегменте речи.
На втором уровне выделяются частоты, соответствующие минимумам вычисленных уровней в выбранном диапазоне частот.
На третьем уровне создаются пары из выделенных частот, при этом разность частот в каждой паре должна быть не меньше 90 мел.
На четвертом уровне выделяется пара, имеющая минимальное отличие от базовых пар, размещенных в базе фонетических признаков, с присвоением анализируемому участку значения фонемы базовой фонологической пары.
Соответственно и осуществление заявляемого способа сводится к осуществлению последовательности операций с первого по четвертый из указанных уровней.
В некоторых вариантах осуществления изобретения на первом уровне дополнительно формируются последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляются суммы сформированных сигналов с исходным сигналом и вычисляются уровни суммарных сигналов на анализируемом сегменте (участке) речи, после чего выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.
В некоторых вариантах осуществления изобретения исходный речевой сигнал разделяется на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные во всех частотных поддиапазонах, т.е. операции первого и второго уровней выполняются независимо для каждого поддиапазона частот.
Предпочтительно за уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.
Предпочтительно исходный аналоговый речевой сигнал подается на аналого-цифровой преобразователь, где осуществляется его преобразование в цифровой вид (цифровую последовательность), и все дальнейшие операции выполняются в цифровом виде.
Так как общая совокупность заявляемых признаков является новой, способ соответствует критерию новизны. Отличительные признаки заявляемого способа также не известны из уровня техники; кроме того, в совокупности с известными признаками, общими с прототипом, они обеспечивают решение поставленной задачи, что не является очевидным для специалистов в данной области техники и свидетельствует о соответствии заявленного технического решения критерию изобретательского уровня.
Изобретение иллюстрируется прилагаемыми чертежами, на которых изображены:
Фиг. 1 - График зависимости минимальных значений уровней разностного сигнала S от частоты для участка звука «У» в слове «бабушка». Входной сигнал ограничен по спектру фильтром верхних частот с частотой среза 300 Гц (Hz). На графике выделены минимумы функции на частотах F1=300 Гц и F2=825 Гц, соответствующих первой и второй фонологическим формантам звука «У»;
Фиг. 2 - График зависимости минимальных значений уровней разностного сигнала S от частоты для участка звука «Ш» в слове «Саша». В связи с большой разницей уровней первой и второй формант входной сигнал для выделения первой форманты ограничен по спектру фильтром верхних частот с частотой среза 1700 Гц (Hz), для выделения второй форманты - фильтром верхних частот с частотой среза 3200 Гц (Hz). На графике выделены минимумы функции на частотах F1=2600 Гц и F2=4750 Гц, соответствующих первой и второй фонологическим формантам звука «Ш»;
Фиг. 3 - График расположения в частотной плоскости базовых пар фонологических формант F1 и F2 фонем для нескольких звуков русской речи в координатах высоты тона (mel);
Фиг. 4 - График зависимости дистанций D в размерности высоты тона (mel) от времени Т (s - секунды, с) выделенных текущих пар формант произнесенных звуков слова «Саша» от базовых фонологических пар звуков «С», «Ш» и «А». Для примера дополнительно приведен график дистанций от базовой фонологической пары звука «О». На графике сплошной линией обозначена дистанция выделенной на данном участке пары формант от базовой фонологической пары звука «С», пунктирной линией - от звука «Ш», штрих-пунктирной - от звука «А», тонкой сплошной - от звука «О».
Фиг. 5 - Блок-схема устройства дикторонезависимого распознавания фонемы, реализующего данный способ.
Примеры конкретного осуществления способа распознавания фонемы в речевом сигнале (с комментариями, обосновывающими способ)
Изобретение реализуемо на отдельных аналоговых и цифровых устройствах, на компьютере или специализированном вычислительном устройстве.
На первом уровне речевой сигнал в виде речевого потока поступает на линию задержки, в которой производят задержку сигнала на величины, равные периодам анализируемых частот. Задержка сигнала моделирует основную мембрану кортиевого узла слухового органа человека. Согласно [6], улитка, являющаяся главным элементом периферической слуховой системы, не обладая сильными резонансными свойствами, представляет скорей линию задержки или временной анализатор.
Известно [7], что под воздействием входного звукового сигнала в улитке возникают две бегущие волны. Одна волна возникает в основной мембране, скорость распространения которой вдоль мембраны равна 50 мм/мсек в непосредственной близости от овального окна, и, уменьшаясь по экспоненциальному закону, достигает у геликотремы значения 1,5 мм/мсек. Скорость другой звуковой волны, распространяемой в перилимфе, в среднем равна 1500 мм/мсек. В связи с этим на чувствительные клетки воздействуют два сигнала, при этом, в каждой точке мембраны имеется различный временной сдвиг между воздействующими сигналами. В точке мембраны, для которой задержка между сигналами равна периоду определенной частоты, происходит частичная компенсация сигнала данной частоты и, соответственно, уровня общего сигнала.
Предполагая, что, используя данный механизм, слуховой аппарат выделяет из спектра частот частотные группы, которые являются фонологическими формантами, согласно заявляемому способу, выполняют вычитание из исходного сигнала задержанных сигналов и измеряют уровни разностных сигналов на анализируемом участке.
По результатам экспериментов и учитывая динамические характеристики речевого сигнала, анализируемый участок выбирается длительностью от 8 до 25 мсек. Для повышения чувствительности способа, в связи с тем, что уровни речевого сигнала при голосовом источнике возбуждения речевого тракта значительно изменяются в течение периода основного тона, целесообразно вычисление уровней выполнять на участках, длительностью от 2,5 до 5 мсек, и за уровень на анализируемом участке принимать минимальное значение из уровней входящих участков. В результате выполненных операций для анализируемого участка получают значения уровней сигнала анализируемых частот для выбранного диапазона частот. В качестве примера результата операций, выполненных на первом уровне, на фиг. 1 изображен график вычисленных уровней сигнала для участка звука «У» в слове «бабушка».
На втором уровне выделяют частоты, соответствующие минимумам вычисленных уровней в выбранном диапазоне частот. За частоту минимума уровня принимается частота, в которой значение уровня меньше значений уровней соседней частот с обеих сторон. В вариантах исполнения с разделением общего частотного диапазона речевого сигнала на частотные поддиапазоны возможны ситуации, когда в анализируемом поддиапазоне будут отсутствовать выделенные частоты, то есть в данном поддиапазоне фонологическая форманта отсутствует. При значительной разнице уровней фонологических формант минимумы могут быть выделены при ограничении частотного диапазона. В качестве примера указанной ситуации на фиг. 2 изображены графики вычисленных уровней сигнала для участка звука «Ш» в слове «Саша». В связи с большой разницей уровней первая форманта заглушила выделение второй форманты, которая выделилась после ограничения спектра входного сигнала фильтром верхних частот с частотой среза 3200 Гц.
На третьем уровне группируют пары из выделенных частот. Предлагаемая попарная группировка формант согласуется с тем фактом, что, согласно «квантовой гипотезе» Стивенса К.Н. [8], каждый класс звуков любого языка порождается множеством конфигураций речевого тракта, относительно которых акустические характеристики устойчивы, то есть мало изменяются при изменении конфигурации тракта в пределах заданного множества форм. В то же время наибольшая степень управляемости акустических характеристик речевого сигнала при сосредоточенном возмущении может быть достигнута лишь относительно пары резонансов [8], и эти два резонанса создают пару фонологических формант, а их образование и поддержание в стабильном состоянии является целью системы управления по созданию акустического образа фонемы. Созданные на втором уровне функции выделили только два минимума (фиг. 1, фиг. 2), в связи с чем можно предположить, что произведено выделение двух фонологических формант (пары формант) и подобная обработка речевого сигнала может выполняться в слуховом органе уже на первичном этапе обработки.
Для достоверного выделения фонологических формант слуховым аппаратом расстояние между ними должно быть не менее одной частотной группы, равной 90 мелам и соответствующей зоне влияния на кортиевом органе [9].
Как видно (фиг. 2), в вариантах исполнения с разделением общего частотного диапазона речевого сигнала на частотные поддиапазоны пары создаются из частот, выделенных во всех поддиапазонах.
При обработке слов могут встречаться графики разностных уровней, при анализе которых сложно или невозможно выделить пару, достоверно соответствующую какой либо базовой фонологической паре. В таких случаях с целью более надежного выделения претендентов проводится совместный анализ разностных и суммарных сигналов.
На четвертом уровне для каждой выделенной пары вычисляется дистанция от базовых фонологических пар.
Пример расположения базовых фонологических пар фонем нескольких звуков русской речи в координатах высоты тона нижней частоты F1 и верхней частоты F2 приведен на фиг. 3.
Дистанция вычисляется по формуле
Figure 00000001
где Dj - дистанция пары i от базовой фонологической пары j,
F1j, F2i - значения высот тона нижней и верхней частот i-пары,
F1j, F2j - значения высот тона нижней и верхней частот базовой фонологической пары j.
Анализируемому участку присваивается значение фонемы базовой фонологической пары j, имеющей минимальное значение дистанции Di.
На фиг. 4 приведен график дистанций D выделенных текущих пар формант произнесенных звуков слова «Саша» от базовых фонологических пар звуков «С», «Ш» и «А». Для примера дополнительно приведен график дистанций от базовой фонологической пары звука «О», отсутствующего в данном слове. На графике сплошной линией обозначена дистанция выделенной на данном участке пары формант от базовой фонологической пары звука «С», пунктирной линией - от звука «Ш», штрих-пунктирной - от звука «А», тонкой сплошной - от звука «О».
На фиг. 4 на участке 0,2-0,39 с текущие пары формант имеют минимальные, по сравнению с другими, дистанцию от базовой фонологической пары звука «С», на участке 0,4-0,62 с - от базовой фонологической пары звука «А», на участке 0,64-0,87 с - от базовой фонологической пары звука «Ш», на участке 0,9-1,1 с - от базовой фонологической пары звука «А». При этом необходимо отметить, что переходы дистанций между звуками четкие, без коартикуляции, и не зависят от вида возбуждения голосового тракта (голосовой или шумный). Неопределенность на участке до 0,18 с связана с низким уровнем сигнала в начале слова; посторонние шумы внесли нестабильность параметров.
Для реализации предлагаемого способа дикторонезависимого распознавания фонемы в речевом сигнале, в его оптимальном варианте, предлагается устройство, представленное на фиг. 5, где:
1 - аналого-цифровой преобразователь;
2 - канал выделения формантных частот в поддиапазоне частот;
3 - фильтр поддиапазона частот;
4 - измеритель уровня разностного сигнала;
5 - измеритель уровня суммарного сигнала;
6 - селектор частот формант;
7 - блок задержки сигнала на период анализируемой частоты;
8 - блок вычитания;
9 - детектор;
10 - интегратор;
11 - выделитель минимального значения;
12 - блок задержки сигнала на половину периода анализируемой частоты;
13 - блок суммирования;
14 - блок группировки формант;
15 - блок сравнения признаков;
16 - база фонетических признаков;
17 - блок идентификации.
Устройство дикторонезависимого распознавания фонемы в речевом сигнале содержит аналого-цифровой преобразователь, на вход которого подается анализируемый речевой сигнал, каналы выделения формантных частот, базу фонетических признаков, блок сравнения признаков распознаваемого сегмента речи с признаками всех фонем и блок идентификации, при этом в устройство введены блок группировки формант, а каналы выделения формантных частот содержат фильтр поддиапазона частот, измерители уровня разностного сигнала, измерители уровня суммарного сигнала и селектор частот формант, выход аналого-цифрового преобразователя соединен с входами фильтров поддиапазонов частот всех каналов выделения формантных частот, выход фильтра поддиапазона подключен к входам измерителей уровня разностного сигнала и измерителей уровня суммарного сигнала, входящих в канал выделения формантных частот в данном поддиапазоне, к входу измерителей уровня разностного сигнала подключены входы блока задержки сигнала на период анализируемой частоты и блока вычитания, второй вход которого соединен с выходом блока задержки сигнала на период анализируемой частоты, а к выходу подключены последовательно соединенные детектор, интегратор и выделитель минимального значения, к входу измерителей уровня суммарного сигнала подключены входы блока задержки сигнала на половину периода анализируемой частоты и блока суммирования, второй вход которого соединен с выходом блока задержки сигнала на половину периода анализируемой частоты, а к выходу подключены последовательно соединенные детектор, интегратор и выделитель минимального значения, выходы выделителей минимального значения каналов выделения формантных частот каждого поддиапазона частот соединены с входами селектора частот формант данного поддиапазона, выходы селекторов частот формант всех каналов выделения формантных частот соединены с входами блока группировки формант, выход которого соединен с одним входом блока сравнения признаков, второй вход которого соединен с выходом базы фонетических признаков, а выход соединен с входом блока идентификации, который, на основе сравнения спектральных признаков распознаваемой фонемы со спектральными признаками фонем в базе признаков, выдает на выход устройства код фонемы на распознаваемом сегменте речи.
В измерителях уровня разностного и суммарного сигналов интеграторы суммируют модули отсчетов сигнала с выхода детекторов в течение от 2,5 до 5 мсек, а выделители минимального значения определяют минимальное значение результатов с выхода интеграторов на сегменте речи, длительностью в диапазоне от 8 до 25 мсек.
На входе устройства установлен аналого-цифровой преобразователь 1, выход которого соединен с входами каналов выделения формантных частот 2 в поддиапазонах частот. На чертеже приведена структура одного канала 2, структуры каналов остальных поддиапазонов выполнены аналогичным образом (не показано). Количество каналов 2 определяется в соответствии с диапазоном анализируемых частот и требуемой достоверности распознавания фонем. На входе каналов выделения формантных частот 2 установлен фильтр поддиапазона 3, выход которого соединен с входами измерителей уровня разностного сигнала 4 и измерителей уровня суммарного сигнала 5, выходы которых соединены с входами селектора частот формант 6. Количество измерителей 4 и 5 определяется в соответствии с поддиапазоном частот, количеством анализируемых частот и достоверностью распознавания фонем. Вход измерителя уровня разностного сигнала 4 соединен с входом блока задержки сигнала на период анализируемой частоты 7 и одним из входов блока вычитания 8, другой вход которого подключен к выходу блока задержки 7. К выходу блока 8 подключены последовательно соединенные детектор 9, интегратор 10 и выделитель минимального значения 11. Вход измерителя уровня суммарного сигнала 5 соединен с входом блока задержки сигнала на половину периода анализируемой частоты 12 и одним из входов блока суммирования 13, другой вход которого подключен к выходу блока задержки 12. К выходу блока 13 подключены последовательно соединенные детектор 9, интегратор 10 и выделитель минимального значения 11. Выходы выделителей минимального уровня 11 всех измерителей уровня 4 и 5 соединены с входами селектора частот формант 6. Выходы селекторов частот 6 всех каналов выделения формантных частот 2 в поддиапазонах частот соединены с входами блока группировки формант 14, выход которого соединен с входом блока сравнения признаков 15, второй вход которого соединен с выходом базы фонетических признаков 16. Выход блока 15 соединен с входом блока идентификации 17, выход которого является выходом устройства дикторонезависимого распознавания фонемы.
Устройство работает следующим образом.
Входной аналоговый речевой сигнал, преобразованный аналого-цифровым преобразователем 1 в цифровую последовательность, подается на входы каналов выделения формантных частот в поддиапазонах частот 2. Выделенный фильтром поддиапазона 3 анализируемый участок спектра речевого сигнала поступает на входы измерителей уровня разностного сигнала 4 и измерителей уровня суммарного сигнала 5. В измерителе уровня разностного сигнала 4 блок вычитания 8 вычисляет разность прямого и задержанного на период анализируемой частоты блоком 7 сигнала с фильтра 3, при этом на выходе блока 8 составляющие речевого сигнала, периоды частот которых находятся в области времени задержки блока 7 или кратны данному времени (анализируемая частота и четные гармоники), частично компенсируются. Модули отсчетов сигнала с выхода детектора 9 суммируются в интеграторе 10 в течение времени от 2,5 до 5 мсек. Время суммирования может быть выбрано постоянным, а может устанавливаться в зависимости от характеристик гласных звуков с целью локализации участков периода основного тона, наименее подверженных колебаниям от ударного воздействия голосовых связок. Отсчеты значений уровней сигнала с выхода интегратора 10 поступают в выделитель минимального значения 11, который на участке длительностью в диапазоне от 8 до 25 мсек определяет минимальное значение измеренного уровня и передает его в селектор частот формант 6. Время анализа может быть выбрано постоянным, а может устанавливаться в зависимости от вида звука речи. Структура и работа измерителей уровня суммарного сигнала 5 аналогична структуре и работе измерителей уровня разностного сигнала 4 за исключением того, что вместо блока задержки 7 на период анализируемой частоты установлен блок задержки 12 на половину периода анализируемой частоты, а вместо блока вычитания 8 установлен блок суммирования 13, при этом на выходе блока 13 частично компенсируются составляющие речевого сигнала, полупериоды частот которых находятся в области времени задержки блока 12 или кратны данному времени (анализируемая частота и нечетные гармоники). Выделенные измерителями уровней 4 и 5 значения поступают на селектор частот формант 6.
Примеры значений сигналов, поступивших на входы блока 6, приведены на фиг. 1 и фиг. 2. На фиг. 1 изображен график значений на выходах измерителей уровней 4 канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 300 Гц.
На фиг. 2 изображены графики значений на выходах измерителей уровней 4 канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 1700 Гц, и канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 3200 Гц. Блок 6 сравнивает уровни сигналов на соседних входах и выделяет входы, уровни в которых меньше уровней обоих соседних входов. Результат в виде значений высот тона, соответствующих выделенным входам, поступает на вход блока 14 группировки формант, который, анализируя значения высот тона формант, поступивших от всех каналов выделения формантных частот 2, формирует группы формант, разность между которыми превышает 90 мел.
На фиг. 1 и фиг. 2 выделенные блоком частоты отмечены символами F1 и F2. В анализируемом сигнале блок 14 может сгруппировать несколько групп формант, удовлетворяющих заданным условиям. Сформированные группы в виде координат в частотной плоскости F1, F2, где F1 - ось, соответствующая высоте тона нижней частоты в паре, F2 - ось, соответствующая высоте тона верхней частоты в паре, поступают на вход блока сравнения признаков 15, который вычисляет дистанции текущих выделенных групп от координат фонологических пар фонем, размещенных в базе фонетических признаков 16. Графическое отображение координат базовых фонологических пар фонем нескольких звуков русской речи приведено на фиг. 3. Дистанция в блоке 15 вычисляется по формуле
Figure 00000002
где Di - дистанция пары i от базовой фонологической пары j,
F1j, F2i - значения высот тона нижней и верхней частот i-пары,
F1j, F2j - значения высот тона нижней и верхней частот базовой фонологической пары j.
Пример вычисленных дистанций текущих пар формант от некоторых базовых фонологических пар фонем приведен на фиг. 4. Результаты вычислений дистанций поступают на вход блока идентификации 17, который присваивает анализируемому участку речевого сигнала фонему базовой фонологической пары j, имеющей минимальное значение Di и выдает его на выход устройства для дальнейшего использования. На фиг. 4 блок 17 выделил фонемы, соответствующие звукам «С», «А», «Ш» и «А», коды которых выданы на выход устройства для дальнейшего использования.
Таким образом, предложен достоверный и относительно простой способ дикторонезависимого распознания речи, реализуемый за счет сопоставительного анализа с имеющейся базой данных для всего двух формант, выбираемых специальным образом; на практике достаточно использование 50-60 базовых фонологических пар.
Источники информации
1. Патент RU №2268504, G10L 15/06, G10L 11/04, оп. 20.01.2006. Способ распознавания фонем речи и устройство для реализации способа. Сахаров В.О., Гиголо Л.А.
2. Патент RU №2234746, G10L 19/02, оп. 20.08.2004. Способ дикторонезависимого распознавания звуков речи. Грибанов И.А.
3. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Государственное издательство по вопросам связи и радио, 1963. с. 46.
4. Фланаган Д.Л. Анализ, синтез и восприятие речи. М.: Издательство «Связь», 1968. с. 188.
5. Вокодерная телефония. Методы и проблемы / А.Ш. Акбулатов [и др.]; под ред. А.А. Пирогова. М.: «Связь», 1974. с. 12-14.
6. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. Учебное пособие. СПб.: Университет ИТМО, 2016. с. 26.
7. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации (Второе дополненное и переработанное издание). М.: Издательство «Связь», 1971, с. 177-178.
8. Сорокин В.Н. Теория речеобразования. М.: «Радио и связь», 1985. с. 247-248.
9. Фельдкеллер Р., Цвикер Э. Ухо как приемник информации. М.: Связь, 1965. с. 74-75.

Claims (5)

1. Способ дикторонезависимого распознавания фонемы в речевом сигнале, включающий в себя определение частот формант на участках речевого сигнала и фонемное распознавание каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, отличающийся тем, что из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары.
2. Способ по п. 1, отличающийся тем, что дополнительно формируют последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляют суммы сформированных сигналов с исходным сигналом, вычисляют уровни суммарных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.
3. Способ по любому из пп. 1, 2, отличающийся тем, что речевой сигнал разделяют на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней, и группируют попарно частоты, выделенные во всех частотных поддиапазонах.
4. Способ по любому из пп. 1-3, отличающийся тем, что за уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.
5. Способ по любому из пп. 1-4, отличающийся тем, что речевой сигнал преобразуют средствами аналого-цифрового преобразования в цифровую последовательность и все дальнейшие операции выполняют в цифровом виде.
RU2021119856A 2021-07-06 2021-07-06 Способ дикторонезависимого распознавания фонемы в речевом сигнале RU2763124C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2021119856A RU2763124C1 (ru) 2021-07-06 2021-07-06 Способ дикторонезависимого распознавания фонемы в речевом сигнале

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2021119856A RU2763124C1 (ru) 2021-07-06 2021-07-06 Способ дикторонезависимого распознавания фонемы в речевом сигнале

Publications (1)

Publication Number Publication Date
RU2763124C1 true RU2763124C1 (ru) 2021-12-27

Family

ID=80039156

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2021119856A RU2763124C1 (ru) 2021-07-06 2021-07-06 Способ дикторонезависимого распознавания фонемы в речевом сигнале

Country Status (1)

Country Link
RU (1) RU2763124C1 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи
RU111944U1 (ru) * 2011-06-21 2011-12-27 Андрей Владимирович Савченко Устройство для фонетического анализа и распознавания речи
US20140088958A1 (en) * 2012-09-24 2014-03-27 Chengjun Julian Chen System and method for speech synthesis
US20140324428A1 (en) * 2013-04-30 2014-10-30 Ebay Inc. System and method of improving speech recognition using context
US20190295527A1 (en) * 2018-03-20 2019-09-26 International Business Machines Corporation Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи
RU111944U1 (ru) * 2011-06-21 2011-12-27 Андрей Владимирович Савченко Устройство для фонетического анализа и распознавания речи
US20140088958A1 (en) * 2012-09-24 2014-03-27 Chengjun Julian Chen System and method for speech synthesis
US20140324428A1 (en) * 2013-04-30 2014-10-30 Ebay Inc. System and method of improving speech recognition using context
US20190295527A1 (en) * 2018-03-20 2019-09-26 International Business Machines Corporation Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
RU2466468C1 (ru) Система и способ распознавания речи
EA019949B1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
Khelifa et al. Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Naithani et al. English language speech recognition using mfcc and hmm
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Ssarma et al. HMM based isolated word Nepali speech recognition
RU2763124C1 (ru) Способ дикторонезависимого распознавания фонемы в речевом сигнале
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
Stasiak et al. Fundamental frequency extraction in speech emotion recognition
VH et al. A study on speech recognition technology
Al Smadi An improved real-time speech signal in case of isolated word recognition
JP2006010739A (ja) 音声認識装置
CN113611326B (zh) 一种实时语音情感识别方法及装置
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Tabassum et al. Speaker independent speech recognition of isolated words in room environment
Ishi et al. Extraction of paralinguistic information carried by mono-syllabic interjections in Japanese
AlDahri et al. Detection of Voice Onset Time (VOT) for unvoiced stop sound in Modern Standard Arabic (MSA) based on power signal